基于通信特征提取和IP聚集的僵尸網(wǎng)絡(luò)相似性度量模型
本文關(guān)鍵詞:基于通信特征提取和IP聚集的僵尸網(wǎng)絡(luò)相似性度量模型,,由筆耕文化傳播整理發(fā)布。
第33卷??第1期2010年1月;計(jì)????算????機(jī)????學(xué)????報(bào);Vol.33No.1;Jan.2010;基于通信特征提取和IP聚集的僵尸網(wǎng)絡(luò)相似性度量模;李潤恒??王明華??賈??焰;1);2);1)2)1);(國防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院??長沙??4100;(國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心??北京??;摘??要??IRC僵尸網(wǎng)絡(luò)(botn
第33卷??第1期2010年1月
計(jì)????算????機(jī)????學(xué)????報(bào)
Vol.33No.1
Jan.2010
基于通信特征提取和IP聚集的僵尸網(wǎng)絡(luò)相似性度量模型
李潤恒??王明華??賈??焰
1)
2)
1)2)1)
(國防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院??長沙??410073)
(國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心??北京??100029)
摘??要??IRC僵尸網(wǎng)絡(luò)(botnet)是攻擊者通過IRC服務(wù)器構(gòu)建命令與控制信道方式控制大量主機(jī)(bot)組成的網(wǎng)絡(luò).IRC僵尸網(wǎng)絡(luò)中IRC服務(wù)器與bot連接具有很強(qiáng)的動(dòng)態(tài)特性,為識(shí)別使用不同IRC服務(wù)器的同一僵尸網(wǎng)絡(luò),文中提取并比對(duì)僵尸網(wǎng)絡(luò)的通信量特征、通信頻率特征,建模估算bot重疊率,通過融合以上度量指標(biāo),提出了僵尸網(wǎng)絡(luò)相似性度量模型.實(shí)驗(yàn)驗(yàn)證了模型的有效性,計(jì)算了其準(zhǔn)確率,并分析了僵尸網(wǎng)絡(luò)的遷移.關(guān)鍵詞??僵尸網(wǎng)絡(luò);通信;聚集;相似性度量;遷移
中圖法分類號(hào)TP393??????DOI號(hào):10.3724/SP.J.1016.2010.00045
ModelingBotnets!SimilarityBasedonCommunicationFeatureExtractionand
IPAssembly
LIRun??Heng1)??WANGMing??Hua2)??JIAYan1)
1)
2)(N
(SchoolofComputer,NationalUniversityofDefenseTechnology,Hunan??410073)
ationalComputerNetworkEmergencyResponseTechnicalTeam/CoordinationCenterofChina,Beijing??100029)
Abstract??IRCbotnetcanberegardedasacollectionofcompromisedcomputers(calledZombiecomputers)runningsoftwareunderthecommand??and??controlinfrastructureconstructedbytheIRCservers.Theconnectionbetweenthebotnetserverandthebotsareusuallyverydynamic.Inordertodescribeabotnetatafinergranularity,thepaperproposesamethodthatmeasuresthesimilarityofbotnetsbyextractingandcomparingthemetricssuchascommunicationvolumes,frequency,andtheoverlaprateofbots.Anovelmodelforbotnetsimilaritymeasuringispro??posedbycombiningthosemetricsmentioned.Experimentsarecarriedoutforvalidationpurpo??ses,theconfidenceoftheaccuracyisevaluatedandshown,andthemigrationsituationofbotnetarealsodiscussed.
Keywords??botnet;communication;assemble;similaritymeasure;migration
序控制大量主機(jī),并通過一對(duì)多的命令與控制信道
1??引??言
僵尸網(wǎng)絡(luò)是攻擊者出于惡意目的,傳播僵尸程
(CommandandControl,C&C)所組成的網(wǎng)絡(luò).僵尸網(wǎng)絡(luò)為攻擊者提供了隱匿、靈活且高效的一對(duì)多命令與控制機(jī)制,可以控制大量僵尸主機(jī)實(shí)現(xiàn)信息
收稿日期:2009??07??15;最終修改稿收到日期:2009??09??07.本課題得到國家??八六三 高技術(shù)研究發(fā)展計(jì)劃項(xiàng)目基金(2007AA010502,2007AA01Z474,2006AA01Z451)資助.李潤恒,男,1982年生,博士研究生,研究方向?yàn)榻┦W(wǎng)絡(luò)、數(shù)據(jù)挖掘.E??mail:lirunheng1982@gmail.com.王明華,男,1978年生,博士,工程師,研究方向?yàn)榛ヂ?lián)網(wǎng)安全監(jiān)測(cè)、應(yīng)急響應(yīng)處理.賈??焰,女,1960年生,教授,博士生導(dǎo)師,.
46計(jì)????算????機(jī)????學(xué)????報(bào)2010年
竊取、分布式拒絕服務(wù)攻擊和垃圾郵件發(fā)送等攻擊目的.僵尸網(wǎng)絡(luò)正步入快速發(fā)展期,對(duì)因特網(wǎng)安全已造成嚴(yán)重威脅.
僵尸網(wǎng)絡(luò)主要分為IRC僵尸網(wǎng)絡(luò)、HTTP僵尸網(wǎng)絡(luò)和P2P僵尸網(wǎng)絡(luò).IRC僵尸網(wǎng)絡(luò)是最早產(chǎn)生而目前仍然大量存在的一類僵尸網(wǎng)絡(luò),基于標(biāo)準(zhǔn)IRC協(xié)議在IRC聊天服務(wù)器上構(gòu)建其命令與控制信道,控制者通過命令與控制信道實(shí)現(xiàn)對(duì)大量受控主機(jī)的僵尸程序版本更新、惡意攻擊等行為的控制,其控制者、命令與控制服務(wù)器(IRC服務(wù)器)、受控主機(jī)(bot)、被攻擊對(duì)象的關(guān)系如圖1所示;HTTP僵尸
網(wǎng)絡(luò)與
IRC僵尸網(wǎng)絡(luò)的功能結(jié)構(gòu)相似,所不同的是HTTP僵尸網(wǎng)絡(luò)控制器是以WEB網(wǎng)站方式構(gòu)建;P2P僵尸網(wǎng)絡(luò)是一種較新型的僵尸網(wǎng)絡(luò),在P2P僵尸網(wǎng)絡(luò)中僵尸程序同時(shí)承擔(dān)客戶端和服務(wù)器的雙重角色.
圖1所示的IRC僵尸網(wǎng)絡(luò)健壯性差,存在單點(diǎn)失效問題,可通過摧毀單個(gè)IRC服務(wù)器來切斷僵尸網(wǎng)絡(luò)控制者與bot的聯(lián)系,導(dǎo)致整個(gè)僵尸網(wǎng)絡(luò)癱瘓.針對(duì)這一問題,bot的僵尸程序使用域名而非固定的IP地址連接IRC服務(wù)器,僵尸網(wǎng)絡(luò)控制者使用動(dòng)態(tài)域名服務(wù)將僵尸程序連接的域名映射到其控制的多臺(tái)IRC服務(wù)器上,一旦正在工作的IRC服務(wù)器失效,僵尸網(wǎng)絡(luò)的受控主機(jī)會(huì)連接到其他的IRC服務(wù)器,整個(gè)僵尸網(wǎng)絡(luò)繼續(xù)運(yùn)轉(zhuǎn),如圖2(a)所示.此外,將僵尸網(wǎng)絡(luò)的控制權(quán)出租出售謀取經(jīng)濟(jì)利益是目前僵尸網(wǎng)絡(luò)產(chǎn)業(yè)鏈的重要組成部分.僵尸網(wǎng)絡(luò)主動(dòng)或者被動(dòng)改變其IRC服務(wù)器的行為稱為僵尸網(wǎng)絡(luò)的遷移.此外,出于安全的考慮,某些大型僵尸網(wǎng)絡(luò)采用分層管理模式,如圖2(b)所示,由多個(gè)IRC服務(wù)器控制各自不同的bot群體,而所有的IRC服
圖1??IRC僵尸網(wǎng)絡(luò)關(guān)系示意圖
務(wù)器同時(shí)由僵尸網(wǎng)絡(luò)控制者統(tǒng)一控制
.
圖2??IRC僵尸網(wǎng)絡(luò)衍變示意圖
????因此IRC服務(wù)器與僵尸網(wǎng)絡(luò)(控制者)并不一定是一一對(duì)應(yīng)關(guān)系,并且IRC服務(wù)器與僵尸網(wǎng)絡(luò)(控制者)的對(duì)應(yīng)關(guān)系可能隨時(shí)間發(fā)生轉(zhuǎn)變.利用IRC服務(wù)器與bot的一對(duì)多映射關(guān)系,使用聚類等數(shù)據(jù)分析方法可以有效地檢測(cè)IRC服務(wù)器與bot的C&C通信,以此獲得IRC服務(wù)器與bot的對(duì)應(yīng)關(guān)系.但是僵尸網(wǎng)絡(luò)控制者與IRC服務(wù)器是一對(duì)一映射關(guān)系,很難使用數(shù)據(jù)分析方法獲得僵尸網(wǎng)絡(luò)控制者與IRC服務(wù)器的對(duì)應(yīng)關(guān)系.
IRC僵尸網(wǎng)絡(luò)中,bot與控制者是實(shí)體,IRC服務(wù)器只是其中間橋梁.要準(zhǔn)確地掌握僵尸網(wǎng)絡(luò),必須掌握僵尸網(wǎng)絡(luò)(控制者)與bot的對(duì)應(yīng)關(guān)系.由于僵尸網(wǎng)絡(luò)IRC服務(wù)器與bot連接的復(fù)雜衍變特性(如圖)難,目前相關(guān)研究主要集中在IRC服務(wù)器與bot的C&C通信檢測(cè),存在局限.此外,由于很難獲取大規(guī)模僵尸網(wǎng)絡(luò)通信數(shù)據(jù),實(shí)驗(yàn)數(shù)據(jù)由少量已知僵尸網(wǎng)絡(luò)通信數(shù)據(jù)集仿真產(chǎn)生,無法對(duì)大量僵尸網(wǎng)絡(luò)通信數(shù)據(jù)進(jìn)行特征比對(duì)等關(guān)聯(lián)分析.本文首先將IRC服務(wù)器與所關(guān)聯(lián)的bot看作一個(gè)僵尸網(wǎng)絡(luò),在此基礎(chǔ)上建立僵尸網(wǎng)絡(luò)相似性度量模型,根據(jù)僵尸網(wǎng)絡(luò)相似性距離值,分類識(shí)別相同的僵尸網(wǎng)絡(luò),以此準(zhǔn)確地掌握僵尸網(wǎng)絡(luò).準(zhǔn)確地掌握僵尸網(wǎng)絡(luò)有利于度量僵尸網(wǎng)絡(luò)的大小,評(píng)估僵尸網(wǎng)絡(luò)的危害;研究僵尸網(wǎng)絡(luò)的生命周期,掌握其衍變特性等.
本文基于國家網(wǎng)絡(luò)安全監(jiān)測(cè)平臺(tái)監(jiān)測(cè)到的僵尸網(wǎng)絡(luò)IRC服務(wù)器與bot的C&C通信數(shù)據(jù),從不同
1期李潤恒等:基于通信特征提取和IP聚集的僵尸網(wǎng)絡(luò)相似性度量模型47
尸網(wǎng)絡(luò)的通信特征;bot重疊率的建模估算.由于僵尸網(wǎng)絡(luò)間bot群體的差異、僵尸程序版本的差異等因素,通信特征是僵尸網(wǎng)絡(luò)區(qū)別其它僵尸網(wǎng)絡(luò)的顯著特征,包括通信量特征和通信頻率特征.由于大多數(shù)bot夜間關(guān)機(jī)下線,僵尸網(wǎng)絡(luò)通信量有明顯的以一天為周期的周期規(guī)律,提取僵尸網(wǎng)絡(luò)通信量日周期曲線和通信頻率日周期曲線.通信量日周期曲線反映了bot群體的普遍上線時(shí)間習(xí)慣,而通信頻率日周期曲線反映了僵尸網(wǎng)絡(luò)控制者的使用習(xí)慣以及僵尸程序版本等特征.度量僵尸網(wǎng)絡(luò)相似性的另一個(gè)方法是建模估算bot的重疊率.考慮到互聯(lián)網(wǎng)上眾多ADSL上網(wǎng)的主機(jī)使用動(dòng)態(tài)IP地址,直接計(jì)算botIP的重疊率會(huì)導(dǎo)致很大的誤差.本文通過botIP地址的聚集操作,將botIP地址集合,映射為bot集合,估算僵尸網(wǎng)絡(luò)間bot的重疊率,以此來度量僵尸網(wǎng)絡(luò)的相似性.兩類方法各有優(yōu)缺點(diǎn),適合不同的情況,融合其相似性度量的結(jié)果,本文提出僵尸網(wǎng)絡(luò)相似性度量模型.通過蜜網(wǎng)蜜罐跟蹤、域名監(jiān)測(cè)系統(tǒng)日志分析等手段確認(rèn)相同僵尸網(wǎng)絡(luò),對(duì)模型進(jìn)行有效性驗(yàn)證,計(jì)算其準(zhǔn)確率,并分析導(dǎo)致錯(cuò)誤的各類原因.最后分析僵尸網(wǎng)絡(luò)的遷移.
本文第2節(jié)介紹相關(guān)研究;第3節(jié)介紹基于通信特征提取和IP聚集的相似性度量模型,3??1節(jié)介紹國家網(wǎng)絡(luò)安全監(jiān)測(cè)平臺(tái),3??2節(jié)介紹通信量特征提取,3??3節(jié)介紹通信頻率特征提取,3??4節(jié)介紹IP聚集,3??5節(jié)介紹相似性度量模型;第4節(jié)為實(shí)驗(yàn)和驗(yàn)證;第5節(jié)為結(jié)語及未來工作的展望.
其完全控制的主機(jī)架設(shè)專門的僵尸網(wǎng)絡(luò)命令與控制服務(wù)器.IRC僵尸網(wǎng)絡(luò)的工作機(jī)制:攻擊者通過各種傳播方式使得目標(biāo)主機(jī)感染僵尸程序;僵尸程序加入到攻擊者私有的IRC命令與控制信道中;攻擊者
登陸并加入到IRC命令與控制信道中,通過認(rèn)證后向僵尸網(wǎng)絡(luò)發(fā)出各種指令;僵尸程序接受指令,執(zhí)行指令,必要的情況下返回執(zhí)行指令的結(jié)果.
IRC僵尸網(wǎng)絡(luò)的跟蹤與檢測(cè)方法可以分為3大類:蜜網(wǎng)蜜罐跟蹤僵尸網(wǎng)絡(luò)[1??4]、協(xié)議與結(jié)構(gòu)相關(guān)檢測(cè)方法[5??9]、協(xié)議與結(jié)構(gòu)無關(guān)檢測(cè)方法[10??11].蜜網(wǎng)蜜罐通過捕獲并分析惡意代碼獲取僵尸網(wǎng)絡(luò)命令與控制信道的相關(guān)信息,然后模擬受控的僵尸主機(jī)加入僵尸網(wǎng)絡(luò),對(duì)僵尸網(wǎng)絡(luò)的內(nèi)部活動(dòng)進(jìn)行觀察和跟蹤,但是這類方法依賴于蜜網(wǎng)蜜罐布控點(diǎn)的分布,無法有效地檢測(cè)出全部活躍的僵尸網(wǎng)絡(luò).協(xié)議有關(guān)的檢測(cè)方法利用跟蹤方法了解僵尸網(wǎng)絡(luò)內(nèi)部工作機(jī)制,抽象出僵尸網(wǎng)絡(luò)行為特征,通過異常檢測(cè)等方法檢測(cè)僵尸網(wǎng)絡(luò).協(xié)議無關(guān)的檢測(cè)方法采用聚類算法將網(wǎng)絡(luò)流量分類,從而識(shí)別僵尸網(wǎng)絡(luò)流量和正常流量.
關(guān)于僵尸網(wǎng)絡(luò)的動(dòng)態(tài)性、相似性度量方面的研究,文獻(xiàn)[12]從評(píng)估僵尸網(wǎng)絡(luò)規(guī)模的角度提出了僵尸網(wǎng)絡(luò)相似性度量問題,文章指出評(píng)估僵尸網(wǎng)絡(luò)規(guī)模的難點(diǎn)之一是僵尸網(wǎng)絡(luò)的動(dòng)態(tài)性,通過蜜網(wǎng)蜜罐跟蹤僵尸網(wǎng)絡(luò)獲取其僵尸程序版本、IRC服務(wù)器IP、IRC服務(wù)器域名、IRC頻道名、控制者ID等信息,提出了僵尸網(wǎng)絡(luò)相似性度量模型,最后分析了僵尸網(wǎng)絡(luò)的遷移情況;文獻(xiàn)[2]對(duì)僵尸網(wǎng)絡(luò)的遷移及復(fù)制現(xiàn)象進(jìn)行了分析,但是只針對(duì)僵尸網(wǎng)絡(luò)在同一個(gè)IRC服務(wù)器上不同頻道的遷移與復(fù)制;文獻(xiàn)[13]從研究僵尸網(wǎng)絡(luò)傳播模型的角度,考慮到大多數(shù)計(jì)算機(jī)在夜間關(guān)機(jī)下線,從而僵尸網(wǎng)絡(luò)的通信量呈現(xiàn)周期現(xiàn)象,提取了僵尸網(wǎng)絡(luò)在全球不同時(shí)區(qū)的通信量日周期曲線.
2??相關(guān)研究
僵尸網(wǎng)絡(luò)是在網(wǎng)絡(luò)蠕蟲、特洛伊木馬、后門工具等傳統(tǒng)惡意代碼形態(tài)的基礎(chǔ)上發(fā)展、融合而產(chǎn)生的一種新型攻擊方式.采用靈活且高效的一對(duì)多控制機(jī)制,利用僵尸網(wǎng)絡(luò),攻擊者可以輕易地控制成千上萬臺(tái)主機(jī)對(duì)因特網(wǎng)任意站點(diǎn)發(fā)起分布式拒絕服務(wù)攻擊,并發(fā)送大量垃圾郵件.因此,僵尸網(wǎng)絡(luò)得到了攻擊者的關(guān)注并進(jìn)一步發(fā)展成為因特網(wǎng)最為嚴(yán)重的威脅之一.近年來,僵尸網(wǎng)絡(luò)的活躍已經(jīng)引起國內(nèi)外安全業(yè)界的充分重視,僵尸網(wǎng)絡(luò)已成為安全領(lǐng)域的學(xué)術(shù)研究和討論的熱點(diǎn)問題.
目前主流的僵尸網(wǎng)絡(luò)是IRC僵尸網(wǎng)絡(luò),基于標(biāo)準(zhǔn)IRC協(xié)議構(gòu)建其命令與控制信道,其控制服務(wù)器可構(gòu)建在公用IRC聊天服務(wù)器上,但攻擊者為保證3??基于通信特征和IP聚集的
相似性度量模型
3.1??國家網(wǎng)絡(luò)安全監(jiān)測(cè)平臺(tái)
863??917網(wǎng)絡(luò)安全監(jiān)測(cè)平臺(tái)
[14]
是國家??八六三
計(jì)劃設(shè)立的網(wǎng)絡(luò)安全應(yīng)急項(xiàng)目(917工程)建設(shè)的網(wǎng)絡(luò)安全監(jiān)控平臺(tái).該平臺(tái)是保障國家網(wǎng)絡(luò)安全和網(wǎng)上重要信息系統(tǒng)安全的重要監(jiān)測(cè)平臺(tái),由CNCERT/CC負(fù)責(zé)建設(shè)并運(yùn)行.
??
48計(jì)????算????機(jī)????學(xué)????報(bào)2010年
系統(tǒng),實(shí)時(shí)監(jiān)測(cè)我國互聯(lián)網(wǎng)中特定安全事件,諸如僵尸網(wǎng)絡(luò)、木馬通信事件等.采用協(xié)議與結(jié)構(gòu)相關(guān)的僵尸網(wǎng)絡(luò)檢測(cè)方法,利用蜜網(wǎng)蜜罐獲取僵尸網(wǎng)絡(luò)信息、提取僵尸網(wǎng)絡(luò)報(bào)文級(jí)通信特征,在國家重要路由器節(jié)點(diǎn)部署網(wǎng)絡(luò)型IDS,對(duì)路由報(bào)文使用特征匹配檢測(cè)僵尸網(wǎng)絡(luò)C&C通信.檢測(cè)到的僵尸網(wǎng)絡(luò)C&C通信包括IRC服務(wù)器與bot間的控制命令、定期存活檢測(cè)通信等.863??917平臺(tái)記錄了僵尸網(wǎng)絡(luò)通信事件的botIP地址、IRC服務(wù)器IP地址、通信時(shí)間等屬性.根據(jù)863??917平臺(tái)的檢測(cè)結(jié)果,能夠獲取IRC服務(wù)器與bot的映射關(guān)系.3.2??通信量日周期曲線
由于僵尸網(wǎng)絡(luò)間bot群體的差異、僵尸程序版本的差異等因素,僵尸網(wǎng)絡(luò)的通信特征是僵尸網(wǎng)絡(luò)區(qū)別其他僵尸網(wǎng)絡(luò)的顯著特征.通信特征包括通信量特征和通信頻率特征,通信量特征反映了bot群體的普遍上線時(shí)間習(xí)慣,由于僵尸網(wǎng)絡(luò)可能是針對(duì)特定的漏洞(比如Windows2000SP2漏洞)而發(fā)展形成的,其bot群體的上線時(shí)間習(xí)慣具有一定的相似性[13],而通信頻率特征反映了僵尸網(wǎng)絡(luò)控制者的使用習(xí)慣以及僵尸程序版本等特征.首先給出兩個(gè)定義:
通信量(CommunicateCount)CCi(t),僵尸網(wǎng)絡(luò)i的通信量隨時(shí)間變化的函數(shù),它是一個(gè)統(tǒng)計(jì)值函數(shù),需要給定統(tǒng)計(jì)時(shí)間間隔大小w.其中i為僵尸網(wǎng)絡(luò)標(biāo)號(hào),在不引起岐義的情況下,本文省掉i.
在線(online)bot數(shù)量Oboti(t),僵尸網(wǎng)絡(luò)i在線bot數(shù)量的統(tǒng)計(jì)函數(shù).
大多數(shù)計(jì)算機(jī)在夜間關(guān)機(jī)下線,僵尸網(wǎng)絡(luò)的通信量在夜間有明顯的下降,具有明顯的周期性,如圖3所示.實(shí)驗(yàn)顯示僵尸網(wǎng)絡(luò)的通信量每一天的變化曲線相似,統(tǒng)計(jì)n天的數(shù)據(jù)計(jì)算僵尸網(wǎng)絡(luò)的通信量日周期函數(shù)C(t)(0 t 24h)如下:
(1)計(jì)算每一天的通信量CC(t);(2)對(duì)每一天的數(shù)據(jù)進(jìn)行歸一化;(3)平均n天的數(shù)據(jù);
(4)對(duì)(3)的結(jié)果進(jìn)行歸一化,得到C(t);為了度量僵尸網(wǎng)絡(luò)間通信量特征的相似性,計(jì)算其通信量日周期曲線的距離,曲線的距離有歐氏距離、DTW、LB_Keogh、LB_PAA距離等,此外通信量日周期曲線還有其顯著的特點(diǎn):由于bot群體的相似性,上線時(shí)段集中,有上線高峰和低谷,通信量日周期曲線有明顯的曲線峰、谷.本文采用歐氏
.
[15]
圖3??僵尸網(wǎng)絡(luò)通信量變化曲線圖
3.3??通信頻率日周期曲線
通信量一定程度上反映了僵尸網(wǎng)絡(luò)在線bot數(shù)量,而通信頻率即單位bot主機(jī)的通信量,反映的是僵尸網(wǎng)絡(luò)IRC服務(wù)器與bot間通信的頻繁程度.實(shí)驗(yàn)顯示,僵尸網(wǎng)絡(luò)的通信頻率在一天內(nèi)的平均值趨于常量,如圖4所示.
圖4??僵尸網(wǎng)絡(luò)日平均通信頻率變化圖
但是僵尸網(wǎng)絡(luò)的通信頻率在一天內(nèi)并不恒定,而是同樣呈現(xiàn)明顯的周期性.統(tǒng)計(jì)n天的數(shù)據(jù),計(jì)算僵尸網(wǎng)絡(luò)通信頻率日周期函數(shù)CF?(t)(0 t 24h)如下:
(1)把每天的通信數(shù)據(jù)分成24h/w份(w為統(tǒng)計(jì)時(shí)間間隔大小,它的含義是:認(rèn)為在w間隔內(nèi)有通信的IP數(shù)為該時(shí)間跨度內(nèi)在線肉機(jī)數(shù)Obot(t),根據(jù)僵尸網(wǎng)絡(luò)IRC服務(wù)器與bot通信數(shù)據(jù)的特點(diǎn),本文w取10min),每一份時(shí)間跨度為w,計(jì)算每一份數(shù)據(jù)中不同IP個(gè)數(shù),得到在線肉機(jī)函數(shù)Obot(t)的統(tǒng)計(jì)值;
(2)計(jì)算通信量CC(t),通信頻率函數(shù)CF(t)=CC(t)/Obot(t),即單位bot的通信量.若Obot(t)=0,使用線性插值的方法計(jì)算CF(t).
(3)平均n天的數(shù)據(jù),得到CF?(t)(0 t 24h);
響,
1期李潤恒等:基于通信特征提取和IP聚集的僵尸網(wǎng)絡(luò)相似性度量模型49
CF?(t),得到CFS(t).
由于互聯(lián)網(wǎng)IP地址緊缺,一些局域網(wǎng)內(nèi)部網(wǎng)絡(luò)采用NAT(NetworkAddressTranslation)技術(shù),使多臺(tái)計(jì)算機(jī)使用一個(gè)IP共享Internet連接,在局域網(wǎng)內(nèi)部網(wǎng)絡(luò)中使用內(nèi)部地址,而當(dāng)內(nèi)部節(jié)點(diǎn)要與外部網(wǎng)絡(luò)進(jìn)行通信時(shí),就在網(wǎng)關(guān)將內(nèi)部地址替換成公用地址.bot中這類IP的通信頻率明顯大于所屬僵尸網(wǎng)絡(luò)的通信頻率,如圖5所示,圖中兩曲線分別為僵尸網(wǎng)絡(luò)通信頻率和該僵尸網(wǎng)絡(luò)某botIP的通信頻率.因此計(jì)算僵尸網(wǎng)絡(luò)通信頻率時(shí),應(yīng)該剔除掉這些IP.由于共用botIP為靜態(tài)IP,通信時(shí)間跨度較長,在計(jì)算僵尸網(wǎng)絡(luò)通信頻率時(shí),剔除通信時(shí)間跨度超過閾值m的botIP,本文實(shí)驗(yàn)m取
10d.
到ISP給bot主機(jī)動(dòng)態(tài)分配的IP地址集合具有局部性,對(duì)botIP地址進(jìn)行聚集操作,去掉IP地址的小數(shù)點(diǎn)間隔的第4部分,這樣的操作記作映射g.
容易證明以下定理.
定理1.??若?IPi,IPj?f(bk)(k=1,2,#,n),g(IPi)=g(IPj),則|g(I)| |B|;
若?IPi?f(bk),?IPj?f(bl)(k,l=1,2,#,n,k%l),g(IPi)%g(IPj),則|g(I)|!|B|.
由定理1得到定理2.
定理2.??若?IPi,IPj?f(bk)(k=1,2,#,n),g(IPi)=g(IPj),?IPi?f(bk),?IPj?f(bl)(k,l=1,2,#,n,k%l),g(IPi)%g(IPj),則|g(I)|=|B|.
根據(jù)定理2的假設(shè),對(duì)僵尸網(wǎng)絡(luò)的足跡(foot??print)(給定監(jiān)測(cè)時(shí)間內(nèi)所監(jiān)測(cè)到的botIP)即集合I進(jìn)行聚集操作,得到g(I),它與bot集合一一對(duì)應(yīng),計(jì)算僵尸網(wǎng)絡(luò)間bot的重疊率以此來度量僵尸網(wǎng)絡(luò)的相似性.
3.5??相似性度量模型
僵尸網(wǎng)絡(luò)的通信量日周期曲線距離、通信頻率日周期曲線距離、bot重疊率均可以度量僵尸網(wǎng)絡(luò)的相似性.但是這幾種方法各有優(yōu)缺點(diǎn),適合不同的情況,根據(jù)單獨(dú)的一個(gè)特征不能準(zhǔn)確地判斷僵尸網(wǎng)絡(luò)的相似性.譬如僵尸網(wǎng)絡(luò)間沒有bot的重疊,也可能是同一個(gè)僵尸網(wǎng)絡(luò),它們是同一個(gè)僵尸網(wǎng)絡(luò)的不同bot群體,如圖2(b)所示.本小節(jié)融合以上方法的度量結(jié)果,建立僵尸網(wǎng)絡(luò)相似性度量模型,第4節(jié)將驗(yàn)證模型的有效性.
僵尸網(wǎng)絡(luò)相似性度量指標(biāo):bot重疊率、通信量日周期曲線距離、通信頻率日周期曲線距離.
相似性度量函數(shù)應(yīng)該滿足下面的性質(zhì):
單調(diào)性.函數(shù)值隨某個(gè)指標(biāo)的值的增加而增加或者隨某個(gè)指標(biāo)的值的增加而減小.
敏感性.函數(shù)值隨各指標(biāo)值變化的變化速度不同,對(duì)更重要指標(biāo),函數(shù)值對(duì)其變化更敏感.
魯棒性.若某個(gè)指標(biāo)誤差較大,函數(shù)值能夠一定程度地屏蔽其對(duì)結(jié)果的影響.
bot重疊率、通信量日周期曲線距離、通信頻率日周期曲線距離的值進(jìn)行歸一化處理后分別計(jì)為S1,S2,S3,其權(quán)值系數(shù)記為w1,w2,w3.
相似性度量函數(shù):
S=w1(1-S1)+w2S2+w3S3.
僵尸網(wǎng)絡(luò)對(duì)的相似性度量函數(shù)值越小,表示僵尸網(wǎng)絡(luò)對(duì)的相似性越大.容易驗(yàn)證,函數(shù)滿足單調(diào)性、敏感性、魯棒性.權(quán)值系數(shù)的確定,最優(yōu)分類判別圖5??共用IP與其所屬僵尸網(wǎng)絡(luò)通信頻率曲線對(duì)比圖
3.4??IP聚集
度量僵尸網(wǎng)絡(luò)相似性的另一個(gè)方法是計(jì)算bot的重疊率.考慮到互聯(lián)網(wǎng)上眾多ADSL上網(wǎng)的主機(jī)沒有一個(gè)固定的IP,當(dāng)主機(jī)聯(lián)網(wǎng),互聯(lián)網(wǎng)服務(wù)提供
商(ISP)從一個(gè)IP庫中對(duì)其隨意分配一個(gè)未經(jīng)使用的IP地址.這一IP地址只會(huì)在該主機(jī)上網(wǎng)的時(shí)間段中保留,下一次上線可能分配不同的IP地址.因此bot的IP地址存在大量動(dòng)態(tài)IP,直接計(jì)算botIP的重疊率會(huì)導(dǎo)致很大的誤差.本小節(jié)通過botIP地址的聚集操作,將bot的IP地址集合,映射為bot集合,再計(jì)算僵尸網(wǎng)絡(luò)間bot的重疊率,以此來度量僵尸網(wǎng)絡(luò)的相似性.
botIP聚集理想的結(jié)果是每一個(gè)bot使用過的IP聚集到同一個(gè)集合,不同bot對(duì)應(yīng)聚集后的集合不同,即聚集后的集合與bot集合一一對(duì)應(yīng).對(duì)于給定的僵尸網(wǎng)絡(luò),設(shè)其bot集合為B,B={b1,#,bn},bot數(shù)量為n,即|B|=n.這些bot使用過的IP地址集合為I,|I|=m,m!n,f(B)=I,f為B到I的1對(duì)多映射.
4
三億文庫3y.uu456.com包含各類專業(yè)文獻(xiàn)、行業(yè)資料、文學(xué)作品欣賞、外語學(xué)習(xí)資料、應(yīng)用寫作文書、高等教育、生活休閑娛樂、基于通信特征提取和IP聚集的僵尸網(wǎng)絡(luò)相似性度量模型_圖文29等內(nèi)容。
12
下載地址:基于通信特征提取和IP聚集的僵尸網(wǎng)絡(luò)相似性度量模型_圖文29.Doc
【】最新搜索
基于通信特征提取和IP聚集的僵尸網(wǎng)絡(luò)相似性度量模型_圖文
作業(yè)場(chǎng)所職業(yè)病危害申報(bào)表
巴塞爾:有效銀行監(jiān)管核心原則(2012年最新修訂版)
、持股比例不同于企業(yè)持有的表決權(quán)比例的,企業(yè)不應(yīng)當(dāng)披露該表決
《狐貍的故事》母題分析
cad解塊命令
孝感市孝南區(qū)人社局
農(nóng)村生活污水厭氧發(fā)酵——人工濕地處理技術(shù)培訓(xùn)提綱_secre
一片荒無人煙的大漠中有一棵枯死的老樹作文評(píng)講課件
禮儀教育概念的界定
本文關(guān)鍵詞:基于通信特征提取和IP聚集的僵尸網(wǎng)絡(luò)相似性度量模型,由筆耕文化傳播整理發(fā)布。
本文編號(hào):134709
本文鏈接:http://www.lk138.cn/kejilunwen/wltx/134709.html