何毓錕,李 強,嵇躍德,郭 東
(吉林大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,符號計算與知識工程教育部重點實驗室,長春 130012)
攻擊者為了達到惡意目的,利用各種方法在大量計算機中先注入特定的惡意程序代碼,再通過命令與控制信道(C&C)遠程控制這些計算機,這些計算機組成的可通信、 可控制網(wǎng)絡(luò)稱為僵尸網(wǎng)絡(luò)(Botnet);控制這些計算機的組織或個人稱為僵尸控制者(Botmaster);秘密運行在受控主機上,可接受預(yù)定義的命令并執(zhí)行預(yù)定義功能的惡意代碼稱為僵尸(Bot).僵尸網(wǎng)絡(luò)常被用于分布式拒絕服務(wù)攻擊(DDoS)、 發(fā)送垃圾郵件(spam)、 網(wǎng)絡(luò)釣魚(phishing)、 竊取機密信息(information theft)和傳播其他惡意軟件等.
僵尸網(wǎng)絡(luò)有以下特點:
2) 并發(fā)性.僵尸程序可同時感染多臺計算機,僵尸感染也可發(fā)生在不同平臺的計算機間,僵尸主機間的數(shù)據(jù)信息可雙向共享;
3) 靈活通信.僵尸網(wǎng)絡(luò)有一個靈活的C&C通信信道,可使用IRC和P2P等通信協(xié)議進行通信,它們之間的通信還可以進行加密;
4) 動態(tài)升級.僵尸控制者可通過C&C信道對分布在僵尸主機上的僵尸程序進行動態(tài)升級,導(dǎo)致一些使用靜態(tài)和特征掃描為基礎(chǔ)的方法無效.
僵尸網(wǎng)絡(luò)的這些特點為攻擊者提供了隱蔽、 靈活和高效的攻擊手段,對現(xiàn)行網(wǎng)絡(luò)安全產(chǎn)生巨大威脅.目前,已有很多檢測和防御僵尸網(wǎng)絡(luò)的方法.根據(jù)檢測位置,對僵尸和僵尸網(wǎng)絡(luò)的檢測技術(shù)分為基于主機和基于網(wǎng)絡(luò)兩類.基于網(wǎng)絡(luò)檢測技術(shù)的對象主要是僵尸網(wǎng)絡(luò)命令和控制通信的流量及僵尸網(wǎng)絡(luò)連接行為的異常,主要有以下4種:
1) 使用蜜罐網(wǎng)技術(shù)和DNS技術(shù)捕獲并跟蹤僵尸及僵尸網(wǎng)絡(luò)[1],發(fā)現(xiàn)僵尸網(wǎng)絡(luò)的控制服務(wù)器位置、 行為特性和結(jié)構(gòu)特性,但僵尸通常很容易采用各種隱藏技術(shù)避免被捕獲,如采取更隱蔽的通信方法或減少DNS請求;
馮建寧是農(nóng)民的兒子。早在2005年,他的父親便承包了臨汾市大寧縣太古鄉(xiāng)坦達村100余畝閑置土地種植核桃苗,并零散地種一些西瓜、玉米維持全家6口人的生計。
2) 根據(jù)僵尸網(wǎng)絡(luò)流量的簽名進行檢測[1],但主要針對IRC僵尸,不能擴展到其他僵尸;
3) 根據(jù)僵尸網(wǎng)絡(luò)流量特征,使用統(tǒng)計異常、 流量相似性分類、 機器學(xué)習(xí)、 決策樹和時空關(guān)聯(lián)等方法[1-3],但此類方法受限于僵尸流量的變化和形式更新,且需處理大量的網(wǎng)絡(luò)數(shù)據(jù);
4) 利用僵尸網(wǎng)絡(luò)通信協(xié)議(IRC或P2P)本身的特點檢測正常流量和異常流量的差別[4-5].
在基于網(wǎng)絡(luò)的僵尸檢測技術(shù)中,有一種關(guān)注僵尸網(wǎng)絡(luò)產(chǎn)生的流量圖方法.該方法可不受通信協(xié)議和通信內(nèi)容等因素影響,不需對僵尸程序進行反編譯,只關(guān)注僵尸程序在通信過程中產(chǎn)生的流量圖特征,能有效地檢測僵尸網(wǎng)絡(luò)中的僵尸主機.
本文先介紹了僵尸網(wǎng)絡(luò)流量圖的結(jié)構(gòu)特征,然后對現(xiàn)有基于流量圖的僵尸網(wǎng)絡(luò)檢測方法進行歸納總結(jié),再從方法的前提假設(shè)、 實驗數(shù)據(jù)和結(jié)果、 方法的優(yōu)缺點三方面對其進行比較分析,并提出了可能的改進方法.
僵尸網(wǎng)絡(luò)中的僵尸主機在通信過程中表現(xiàn)出明顯的圖特征,下面對不同僵尸網(wǎng)絡(luò)的通信模型進行分類,并根據(jù)不同的特性對通信流量圖進行分類.
1.1 僵尸網(wǎng)絡(luò)通信模型
1.1.1 傳統(tǒng)中心式模型 在這種模型中,僵尸控制者和僵尸主機間的命令和數(shù)據(jù)交換通過一個或多個中心控制點實現(xiàn).僵尸控制者選擇一個高帶寬、 高性能的計算機作為中央控制點,通過命令與控制服務(wù)器間接地操控分布在正常網(wǎng)絡(luò)中的僵尸,對它們進行更新或發(fā)動大規(guī)模的惡意攻擊.如使用IRC協(xié)議的spybot,GTbot,SDbot和使用HTTP協(xié)議的ClickBot,Rustock僵尸程序即為這種通信模型.在中心式通信模型中,僵尸操控者和僵尸程序間的所有通信都通過C&C服務(wù)器實現(xiàn),只要找到C&C的服務(wù)器,并將其從網(wǎng)絡(luò)中清除或隔離,則受其控制的僵尸主機將不再被控制,進而可以將該類型的僵尸從網(wǎng)絡(luò)中清除.
1.1.2 新型分布式模型 在這種模型中,每個處在僵尸網(wǎng)絡(luò)中的僵尸主機都可連接一定數(shù)量當(dāng)前僵尸網(wǎng)絡(luò)中的其他僵尸主機,不存在嚴(yán)格意義上的僵尸服務(wù)器和僵尸客戶端.在僵尸網(wǎng)絡(luò)中的每個僵尸主機都有可能變?yōu)榻┦?wù)器,當(dāng)一個或多個僵尸在僵尸網(wǎng)絡(luò)中失去連接時,攻擊者可繼續(xù)操縱其他僵尸網(wǎng)絡(luò)中的受控僵尸主機,從而使整個僵尸網(wǎng)絡(luò)繼續(xù)運行.如使用P2P協(xié)議的Agobot和Phatbot僵尸程序使用的即為這種通信模型.在分布式模型中,網(wǎng)絡(luò)中不存在中央控制點,這種模型的僵尸網(wǎng)絡(luò)流量隱密性更高,也更難從正常的網(wǎng)絡(luò)中隔離或徹底清除.
1.2 僵尸網(wǎng)絡(luò)通信流量圖 僵尸網(wǎng)絡(luò)繼承了傳統(tǒng)網(wǎng)絡(luò)一些特點的同時,由于僵尸程序通信的周期性和規(guī)律性,又有自身的特征.如果用頂點V表示網(wǎng)絡(luò)中的每個主機,E表示兩個主機V之間有直接通信關(guān)系的邊,則網(wǎng)絡(luò)中主機的通信可以用圖G(V,E)表示.考慮通信關(guān)系的方向性,網(wǎng)絡(luò)中主機的通信圖又可分為有向圖和無向圖; 根據(jù)不同的協(xié)議(HTTP,P2P,FTP等),又可分為不同的協(xié)議圖.
假設(shè)主機通信過程中的數(shù)據(jù)包都可劃分為標(biāo)準(zhǔn)的五元組數(shù)據(jù)流,即〈sourceIP,sourcePort,destIP,destPort,protocol〉[6].給定一組流量S,可定義相應(yīng)的有向圖G(V,E),其中節(jié)點集V對應(yīng)流量S中的IP地址,一個從u到v的鏈接(u,v)∈E當(dāng)且僅當(dāng)u,v分別對應(yīng)流量S中的一組sourceIP和destIP.同理,也可獲得一個無向圖G(V,E),此時,節(jié)點集V對應(yīng)流量S中的IP地址,u和v之間的鏈接(u,v)∈E當(dāng)且僅當(dāng)u,v對應(yīng)流量S中的一組sourceIP和destIP.
假設(shè)網(wǎng)絡(luò)主機通信過程中,它們之間的數(shù)據(jù)包都包含協(xié)議信息,則在構(gòu)建主機的通信圖時,即可根據(jù)網(wǎng)絡(luò)協(xié)議進行過濾,得到不同的網(wǎng)絡(luò)協(xié)議圖.圖1是一個P2P協(xié)議的主機通信圖,圖2是一個HTTP協(xié)議的主機通信圖.圖的一些特征(最大聯(lián)通分量、 頂點個數(shù)、 邊的條數(shù)、 頂點度的最大值等)也可用于判斷網(wǎng)絡(luò)中的異常,發(fā)現(xiàn)網(wǎng)絡(luò)中的僵尸主機.
圖1 P2P協(xié)議的主機通信圖Fig.1 Communication graph with P2P
圖2 HTTP協(xié)議的主機通信圖Fig.2 Communication graph with HTTP
此外,依據(jù)網(wǎng)絡(luò)中主機間通信的數(shù)據(jù)包數(shù)目和字節(jié)數(shù)、 通信在傳輸層的協(xié)議(TCP,UDP,NetBIOS,NetBEUI,SPX)、 通信使用的端口等條件,也可對網(wǎng)絡(luò)流量進行分類分析,得到不同的流量圖.
通過流量圖中的邊可發(fā)現(xiàn)僵尸程序間的通信關(guān)系,僵尸程序在發(fā)起攻擊時的流量圖和正常網(wǎng)絡(luò)的流量圖有很大差別,不同協(xié)議和不同程序產(chǎn)生的流量圖在圖的一些指標(biāo)上存在差異.
2.1 關(guān)注僵尸主機間的底層通信結(jié)構(gòu) Nagaraja等[4]提出了結(jié)構(gòu)圖分析法BotGrep,從正常網(wǎng)絡(luò)流量中分離出異常的P2P流量子圖,將網(wǎng)絡(luò)的整個通信流量建模為無向圖G=(V,E),其中:V表示主機的集合;E表示主機間通信邊的集合.若G中包含P2P僵尸網(wǎng)絡(luò)的流量子圖Gp,則Gn=G-Gp為正常的背景流量.檢測算法的目的是利用流量圖的空間聯(lián)系特征,將Gp和Gn區(qū)分開.區(qū)分Gp和Gn算法的依據(jù)是結(jié)構(gòu)式P2P流量圖的快速融合特性.
一旦僵尸網(wǎng)絡(luò)的結(jié)構(gòu)被識別且被確認(rèn)為惡意的,BotGrep輸出一系列可疑主機,這個列表可作為路由器的黑名單,用來配置IDS、 防火墻或提示管理員這些主機需要調(diào)查.
Coskun等[3]提出了利用“敵人的朋友”的方法.這里假設(shè)在P2P僵尸網(wǎng)絡(luò)中,所有的僵尸主機都可接收或分發(fā)C&C的通信信息,每個使用P2P通信的僵尸主機都與僵尸網(wǎng)絡(luò)中的一部分其他僵尸主機通信(即同伴名單)[7-9],并且保持其獨有的同伴名單.利用P2P通信僵尸網(wǎng)絡(luò)的非結(jié)構(gòu)化拓?fù)?使其中的僵尸主機有一個非常高的概率隨機選取同伴名單中的主機進行通信.依據(jù)流量圖的特征,該方法通過P2P僵尸網(wǎng)絡(luò)中部分種子僵尸主機發(fā)現(xiàn)其所在的整個僵尸網(wǎng)絡(luò).
在一個P2P僵尸網(wǎng)絡(luò)中,被感染的主機(稱為Bot)間可以直接或間接地通信,如果已知一些Bot,即可通過P2P通信的數(shù)據(jù)分析找出與其通信的其他Bot.若把一個Bot稱為一個點N,Bot和Bot間有直接通信關(guān)系的稱為邊E,在給定時間內(nèi)主機之間通信的次數(shù)計為邊E的容量,則整個Botnet即為一個G(N,E)圖.構(gòu)建通信流量圖:Eij=Eji=|S(Ni)∩S(Nj)|,其中:S(Ni)是Ni點的邊集;S(Nj)是Nj點的邊集;Eij和Eji是兩點邊的交集,若無公共邊,則Eij=0.
當(dāng)主機間通信的流量圖建立后,使用Dye-Pumping算法計算網(wǎng)絡(luò)中的主機可能為P2P僵尸網(wǎng)絡(luò)中一部分的概率.Dye-Pumping算法需要3個輸入數(shù)據(jù): 流量圖中反映主機間交互情況的邊Eij(E是包含所有主機間相互聯(lián)系情況的矩陣)、 種子節(jié)點N的索引s和迭代次數(shù)MaxIter.Dye-Pumping算法描述如下:先從輸入的Eij中計算感染的相互作用系數(shù),并形成過度矩陣T;再對T進行規(guī)范化,使矩陣中每一列的和為1,即轉(zhuǎn)化為列隨機矩陣;然后根據(jù)種子僵尸列表和關(guān)系矩陣迭代更新向量L,迭代更新MaxIter次.最終輸出向量L,其中每個元素的L(i)值表示相應(yīng)節(jié)點在初始種子僵尸節(jié)點所在僵尸網(wǎng)絡(luò)的可能性.
使用部分僵尸主機作為種子,利用僵尸網(wǎng)絡(luò)中僵尸主機通信產(chǎn)生的流量圖特點,通過Dye-Pumping算法便可發(fā)現(xiàn)在同一僵尸網(wǎng)絡(luò)中的僵尸主機.
2.2 關(guān)注流量圖在受到攻擊時的異常變化 Collins等[10]通過分析流量協(xié)議圖的異常變化檢測僵尸網(wǎng)絡(luò)的傳播.在正常網(wǎng)絡(luò)背景流量下監(jiān)測HTTP,SMTP,Oracle和FTP協(xié)議圖的數(shù)據(jù),發(fā)現(xiàn)這些協(xié)議圖有可預(yù)測的圖大小和最大聯(lián)通分量.受到攻擊時,協(xié)議圖的大小和最大聯(lián)通分量會發(fā)生異常變化,通過監(jiān)測協(xié)議圖設(shè)置合適的報警值,即可發(fā)現(xiàn)可能遭受攻擊的網(wǎng)絡(luò).
2.3 關(guān)注各種協(xié)議的流量圖特征 在分辨不同協(xié)議及不同應(yīng)用在網(wǎng)絡(luò)中的流量圖時,一個較好的策略是使用圖的指標(biāo).定義圖的一些特征直到它們能夠區(qū)分出不屬于同一類別的流量圖,如圖中節(jié)點的平均度、 圖中最大度的比率、 圖中節(jié)點的方向性、 圖的最大聯(lián)通分量和圖直徑等.
Iliofotou等[11]提出了使用流量分布圖(traffic distribute graph,TDG)分析網(wǎng)絡(luò)中的流量.給定一組流量,TDG是一個任意兩點間通信IP地址的邊圖,用TDG捕獲整個網(wǎng)絡(luò)的相互作用.考慮雙向的流量,從而更詳細(xì)地顯示流量圖中邊的情況.對于TCP的流量定義是從SYN數(shù)據(jù)包開始的,這樣即可知道流量的發(fā)起者和接收者,只需觀察圖中節(jié)點間的SYN/ACK數(shù)據(jù)包; 對于UDP的流量,把它們間第一個數(shù)據(jù)包的方向作為流的方向.如果在圖中節(jié)點間不確定是哪個節(jié)點發(fā)起的流量,則在它們之間加入無向邊.根據(jù)TDG開發(fā)應(yīng)用程序分類工具Graption(基于圖的P2P檢測),Graption根據(jù)數(shù)據(jù)流級別的特征,在未知應(yīng)用程序相關(guān)信息的情況下,先對流量進行集群,再為這些集群建立對應(yīng)的TDG,并使用圖形的指標(biāo)確定這一集群對應(yīng)的P2P應(yīng)用.最后,自動提取一個新的P2P應(yīng)用正則表達式,可利用現(xiàn)有的IDS設(shè)備和路由器阻止或限速檢測的流量.
目前的多數(shù)方法[3,4,6,12]都能在特定環(huán)境條件下對網(wǎng)絡(luò)流量進行分類,檢測已知類型的僵尸網(wǎng)絡(luò),發(fā)現(xiàn)未知類型的僵尸網(wǎng)絡(luò).在僵尸網(wǎng)絡(luò)檢測中,分為基于網(wǎng)絡(luò)[13-15]和基于主機[16-18]的方法.以主機為基礎(chǔ)的方法關(guān)注檢測主機的信息,分析主機所能提供的資料;而基于網(wǎng)絡(luò)的方法關(guān)注檢測僵尸網(wǎng)絡(luò)的傳入和傳出流量,分析網(wǎng)絡(luò)中的流量.
在基于網(wǎng)絡(luò)的方法中,有一類是使用圖分析的方法[3,4,10,11,19].下面從前提條件和依據(jù)、 實驗環(huán)境和結(jié)果及方法的優(yōu)缺點方面分析基于流量圖的僵尸網(wǎng)絡(luò)檢測技術(shù).
3.1 前提條件和依據(jù) Nagaraja等[4]使用結(jié)構(gòu)圖分析法發(fā)現(xiàn)基于P2P通信的僵尸網(wǎng)絡(luò)[20-25];Coskun等[3]提出了利用“敵人的朋友”通過部分僵尸主機發(fā)現(xiàn)整個僵尸網(wǎng)絡(luò)的方法;Collins等[10]通過分析流量協(xié)議圖的異常變化檢測僵尸網(wǎng)絡(luò)的傳播;Iliofotou等[11]提出了使用流量分布圖(TDG)分析網(wǎng)絡(luò)中的流量.這些方法都需要獲取整個網(wǎng)絡(luò)中主機間的通信數(shù)據(jù),有些方法還需歷史數(shù)據(jù)作對比,它們都有自己的使用環(huán)境,沒有一種通用方法,都是依據(jù)僵尸程序通信的某些特點,從正常網(wǎng)絡(luò)中尋找可能的僵尸網(wǎng)絡(luò),發(fā)現(xiàn)可能的僵尸主機.
3.2 實驗環(huán)境和結(jié)果 為了衡量方法的有效性,需計算僵尸主機的誤報率FP(false positive rate)、 漏報率FN(false begative rate)、 TP(true positive rate)、 TN(true negative rate)及查全率(recall)和查準(zhǔn)率(precision).FP是指不是僵尸主機而被誤認(rèn)為是僵尸主機的概率;FN是指真正的僵尸主機而未被檢測出的概率;TP表示實際上是僵尸主機而被檢測出是僵尸主機的概率;TN表示實際上不是僵尸主機而被檢測出不是僵尸主機的概率;查準(zhǔn)率反應(yīng)了檢索到相關(guān)信息的準(zhǔn)確程度: Precision=TP/(TP+FP);查全率反應(yīng)了能檢索全部相關(guān)信息的能力: Recall=TP/(TP+FN).文獻[4]的實驗數(shù)據(jù)來自由Abilene(Internet2團體創(chuàng)建的一個美國骨干網(wǎng)絡(luò))和CAIDA[24]的背景數(shù)據(jù)流量中分離出de Bruijn[25],Kademlia[26]和Chord[27]的P2P流量圖.使用CAIDA的背景流量,當(dāng)背景流量圖的節(jié)點數(shù)|VB|為1 000~100 000時,使用de Bruijn結(jié)構(gòu)的誤報率FP=0%~0.09%,漏報率FN=0.67%~1.80%; 使用Kademlia結(jié)構(gòu)的誤報率FP=0%~0.19%,漏報率FN=0.17%~2.10%; 使用Chord結(jié)構(gòu)的誤報率FP=0%~0.06%,漏報率FN=0.46%~2.20%.實驗數(shù)據(jù)表明,誤報率的高低取決于僵尸網(wǎng)絡(luò)流量圖的大小,漏報率的大小隨背景流量的增大而減小.文獻[3]的實驗是在背景流量中檢測基于P2P的Nugache BotNet[7,28],背景流量來自紐約大學(xué)理工學(xué)院(polytechnic institute of NYU)周末一天的數(shù)據(jù),通過Nugache crawler[29]獲取Nugache活躍時的數(shù)據(jù).根據(jù)他們的方法,一些實驗數(shù)據(jù)顯示檢測的查準(zhǔn)率約保持75%,查全率約保持80%.文獻[10]的實驗觀測了2007年3月12日~2007年3月16日的一組服務(wù)器數(shù)據(jù),其中使用SMTP協(xié)議的有2 818臺,使用HTTP協(xié)議的有8 145臺,使用Oracle協(xié)議的有262臺,使用FTP協(xié)議的有1 409臺.文獻[10]的檢測方法觀察到TP≈95%,FP≈90%.文獻[11]的實驗數(shù)據(jù)來自Abilene骨干網(wǎng)、 CAIDA和Palo Alto Internet eXchange (PAIX),其中TR-PAY1和TR-PAY2是由PAIX的ISP服務(wù)商提供的2004年4月21日一個時段的數(shù)據(jù).TR-PAY1的數(shù)據(jù)中有10 139 115個獨立的IP,有38 808 604條數(shù)據(jù)流,總大小為435 G.實驗數(shù)據(jù)表明,在分類P2P的網(wǎng)絡(luò)流量時查全率約為96%,查準(zhǔn)率約為90.5%.
上述實驗結(jié)果表明,在特定環(huán)境下一些檢測方法在一定程度上有效,但它們表現(xiàn)出較差的穩(wěn)定性,在檢測未知類型的僵尸網(wǎng)絡(luò)上無明顯優(yōu)勢.
3.3 不同方法的優(yōu)缺點 文獻[4]的結(jié)構(gòu)圖分析法優(yōu)點是可定位大部分僵尸; 誤報率較低,假陽性的概率小于0.6%; 對于檢測系統(tǒng)可局部部署,從而適應(yīng)不完整的背景流量,即使只是一個流量圖的局部視圖,也可以發(fā)現(xiàn)93%~99%僵尸網(wǎng)絡(luò)感染的主機; 是一種內(nèi)容無關(guān)的BotGrep算法,因此它不受所選擇的端口、 通信加密或由僵尸所使用的其他以內(nèi)容為基礎(chǔ)的隱形技術(shù)的影響.缺點是需要處理大規(guī)模的通信數(shù)據(jù); 在檢測時可能會給出錯誤的判斷,BotGrep必須搭配一些惡意軟件檢測方法,如異常或誤用檢測,以區(qū)別于其他正常P2P通信的應(yīng)用程序和惡意P2P通信的僵尸網(wǎng)絡(luò); 需要網(wǎng)絡(luò)服務(wù)商分享他們的流量; 且該方法只能檢測已經(jīng)發(fā)現(xiàn)的僵尸網(wǎng)絡(luò),無法進行預(yù)防.文獻[3]利用僵尸網(wǎng)絡(luò)本身結(jié)構(gòu)特點的方法優(yōu)點是可檢測部分僵尸; 該方法不需要對僵尸的活動信息進行分析; 不需對網(wǎng)絡(luò)中可能的僵尸主機進行特征掃描; 不需對僵尸程序進行反編譯; 這種方法是通用的,不依賴于特定的僵尸網(wǎng)絡(luò)具體屬性,也不受數(shù)據(jù)包大小、 數(shù)據(jù)流大小及數(shù)據(jù)包加密等因素的影響.缺點是檢測過程中,存在錯誤判斷的可能性; P2P的僵尸網(wǎng)絡(luò)在發(fā)展過程中,僵尸主機之間可能會避免互相通信,而只進行單項通信; 僵尸網(wǎng)絡(luò)可能存在很多子網(wǎng),無法找出整個僵尸網(wǎng)絡(luò).文獻[10]的方法優(yōu)點是不局限于特定的網(wǎng)絡(luò)通信協(xié)議; 可高精度的識別FTP,SMTP,HTTP和Oracle(準(zhǔn)確性稍差); 是一種與內(nèi)容無關(guān)的檢測方法,不受僵尸主機間具體通信內(nèi)容的影響.缺點是未用到圖中節(jié)點的空間關(guān)系信息; 檢測時,需要實時檢測流量圖的變化; 需要歷史數(shù)據(jù)作為參照.文獻[11]的方法優(yōu)點是使用了圖的部分空間特征和動態(tài)瞬時特征(節(jié)點和邊的度),考察圖中最大連通分量的大小對P2P網(wǎng)絡(luò)做出判斷; 也是與通信內(nèi)容無關(guān)的檢測方法.缺點是該方法并沒有用到圖的所有空間信息,如節(jié)點的度數(shù)分布等; 在實際部署中,需要ISP服務(wù)商提供網(wǎng)絡(luò)中主機通信的數(shù)據(jù),被認(rèn)為可能泄漏個人信息; 同時可能要面對大規(guī)模的數(shù)據(jù)處理.
綜上,在基于圖的僵尸網(wǎng)絡(luò)檢測方法中,一個明顯的特點是它們大多數(shù)與通信內(nèi)容無關(guān),更關(guān)注整個網(wǎng)絡(luò)中主機通信產(chǎn)生流量圖的一些特征信息,同時要解決大規(guī)模數(shù)據(jù)處理的時間開銷及如何在獲取網(wǎng)絡(luò)流量數(shù)據(jù)后,更好地保護個人隱私.
表1列出了上述幾種檢測方法的一些特征,其中包含各方法的依據(jù)、 可檢測的類型及效率等.
表1 典型檢測方法的對比Table 1 Comparison of typical detection methods
下面針對現(xiàn)有僵尸網(wǎng)絡(luò)檢測的特點,在網(wǎng)絡(luò)通信數(shù)據(jù)收集時用戶的隱私保護、 大規(guī)模網(wǎng)絡(luò)通信數(shù)據(jù)的處理、 檢測方法的有效性、 未知僵尸程序和復(fù)雜僵尸網(wǎng)絡(luò)環(huán)境上更通用的檢測方法等四方面提出可能的改進措施.
由于收集大量流量數(shù)據(jù)信息時會涉及到許多用戶信息,因此進行流量信息收集時保護用戶的隱私至關(guān)重要.在流量圖方法的流量收集階段,ISP服務(wù)商可能不愿意提供真實的網(wǎng)絡(luò)流量.這樣,一方面可以在不影響方法判斷指標(biāo)的基礎(chǔ)上,請求獲取加密或修改過相關(guān)隱私信息的數(shù)據(jù)集合.如當(dāng)以流量中數(shù)據(jù)包的大小作為指標(biāo)時,可請求獲取在不改變數(shù)據(jù)包大小的情況下對網(wǎng)絡(luò)中用戶通信的數(shù)據(jù)包進行加密; 當(dāng)流量中用戶的IP或物理地址對方法的有效性無影響時,可請求獲取IP地址和物理地址經(jīng)過映射處理的網(wǎng)絡(luò)通信數(shù)據(jù)集合.另一方面,也可使用一些算法生成合理的網(wǎng)絡(luò)流量數(shù)據(jù),然后將它們混合到背景數(shù)據(jù)流量中,在數(shù)據(jù)生成上可先使用一個初始數(shù)據(jù)矩陣,再執(zhí)行隨機游走算法[30].
在大型網(wǎng)絡(luò)中,流量圖有大量的頂點,由于主機通信產(chǎn)生的邊數(shù)目較多,因此在流量圖信息處理過程中如何提高效率至關(guān)重要.在大規(guī)模流量信息預(yù)處理及生成流量圖的過程中,要盡可能利用現(xiàn)有網(wǎng)絡(luò)資源,利用現(xiàn)有圖論和數(shù)據(jù)結(jié)構(gòu)方面的算法降低系統(tǒng)開銷,從而整體降低處理數(shù)據(jù)時間.如可利用現(xiàn)有分布式計算機網(wǎng)絡(luò)處理大量網(wǎng)絡(luò)通信產(chǎn)生的數(shù)據(jù),在處理流量圖時,可利用并查集合并子圖,使用Tarjan算法計算圖的最大聯(lián)通分量.
目前的檢測方法在僵尸網(wǎng)絡(luò)檢測的誤報率和漏報率方面較差,由于僵尸網(wǎng)絡(luò)的不斷變異,隱藏在正常網(wǎng)絡(luò)中的僵尸會變得越來越難以檢測和清除,可能會導(dǎo)致在單一使用某些方法時效果很差.為了應(yīng)對新型的僵尸網(wǎng)絡(luò),更好地檢測、 清除、 防御駐留在正常網(wǎng)絡(luò)中的僵尸主機,提供一個高效安全的網(wǎng)絡(luò)環(huán)境,可以采取多種檢測方法相結(jié)合的新方案,如在基于網(wǎng)絡(luò)的方法中,可將流量圖的方法和流量統(tǒng)計方法相結(jié)合,在收集網(wǎng)絡(luò)流量數(shù)據(jù)構(gòu)建流量圖的同時對流量進行統(tǒng)計分析,將流量圖方法得到的可疑主機信息和統(tǒng)計分析方法得到的可疑主機信息進行關(guān)聯(lián),通過實驗和理論分析設(shè)定兩種方法各自的可疑權(quán)值,最終綜合產(chǎn)生一個輸出結(jié)果,從而在一定程度上降低檢測的誤報率和漏報率; 還可將基于網(wǎng)絡(luò)流量統(tǒng)計的方法和基于主機的方法相結(jié)合,將流量統(tǒng)計方法產(chǎn)生的可疑主機作為輸入信息提供給主機作為參考信息,主機結(jié)合網(wǎng)絡(luò)上的信息再進行主機檢測進而提高檢測效率.
目前方法大多數(shù)是檢測已出現(xiàn)的僵尸網(wǎng)絡(luò)和特定環(huán)境下的僵尸網(wǎng)絡(luò).對于新的未知僵尸網(wǎng)絡(luò),有很大的概率是從已有僵尸類型中變異產(chǎn)生,對于這類新型僵尸,它們通信形成流量圖的最大聯(lián)通分量或圖中的頂點個數(shù)可能會有很大區(qū)別,但他們通信過程中數(shù)據(jù)包的大小或僵尸主機之間通信的頻率有可能和變異前的僵尸程序較接近,這樣就可設(shè)計多個指標(biāo)綜合考慮檢測方案,對于不同的指標(biāo)設(shè)定相應(yīng)的權(quán)值,最終產(chǎn)生一個可疑主機列表,同時也可結(jié)合主機檢測作為輔助驗證; 由于各種智能設(shè)備的快速發(fā)展,網(wǎng)絡(luò)結(jié)構(gòu)也越來越復(fù)雜,出現(xiàn)的各種智能終端系統(tǒng)平臺也有差異,當(dāng)檢測分布在這一類終端上的僵尸程序時,更好的方法是在路由器或ISP上部署僵尸網(wǎng)絡(luò)檢測系統(tǒng),觀察整體網(wǎng)絡(luò)數(shù)據(jù)流量的一些指標(biāo),而不是在智能終端上部署僵尸檢測軟件,以減少智能終端的系統(tǒng)開銷.設(shè)計更通用的方法對大型網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù)流量特征進行分析,在一些指標(biāo)上,如數(shù)據(jù)包的大小、 主機間通信的頻率、 產(chǎn)生流量圖的聯(lián)通分量等,做基于異常的檢測,得到可疑主機的相關(guān)信息,再從網(wǎng)絡(luò)中隔離這些主機.
綜上所述,本文基于網(wǎng)絡(luò)中流量圖的方法,根據(jù)圖的特征(如圖頂點的多少、 流量圖中使用的通信協(xié)議、 圖的最大聯(lián)通分量等)和僵尸網(wǎng)絡(luò)本身的一些特性(如僵尸網(wǎng)絡(luò)形成的快速混合特性、 僵尸主機需要直接或間接的通信等)提出了對目前方法的一些改進措施.
[1] GU Guo-fei.Correlation-Based Botnet Detection in Enterprise Networks [D].Georgia: Georgia Institute of Technology,2008.
[2] ZHANG Jun-jie,LUO Xia-pu,Perdisci R,et al.Boosting the Scalability of Botnet Detection Using Adaptive Traffic Sampling [C]//Proceedings of the 6th ACM Symposium on Information,Computer and Communications Security.New York: ACM,2011: 124-134.
[3] Coskun B,Dietrich S,Memon N.Friends of an Enemy: Identifying Local Members of Peer-to-Peer Botnets Using Mutual Contacts [C]//Proceedings of the 26th Annual Computer Security Applications Conference.New York: ACM,2010: 131-140.
[4] Nagaraja S,Mittal P,HONG Chi-yao,et al.BotGrep: Finding P2P Bots with Structured Graph Analysis [C]//Proceedings of the 19th USENIX Conference on Security.Berkeley: USENIX Association,2010: Article 7.
[5] YEN Ting-fang,Reiter M K.Are Your Hosts Trading or Plotting? Telling P2P File-Sharing and Bots Apart [C]//Proceedings of the 2010 IEEE 30th International Conference on Distributed Computing Systems.Washington DC: IEEE Computer Society,2010: 241-252.
[6] Iliofotou M,Kim H C,Faloutsos M,et al.Graption: A Graph-Based P2P Traffic Classification Framework for the Internet Backbone [J].Computer Networks,2011,55(8): 1909-1920.
[7] Stover S,Dittrich D,Hernandez J,et al.Analysis of the Storm and Nugache Trojans: P2P Is Here [J].Usenix Login,2007,32(6): 18-27.
[8] Grizzard J B,Sharma V,Nunnery C,et al.Peer-to-Peer Botnets: Overview and Case Study [C]//Proceedings of the First Conference on First Workshop on Hot Topics in Understanding Botnets.Berkeley: USENIX Association,2007: 1.
[9] Holz T,Steiner M,Dahl F,et al.Measurements and Mitigation of Peer-to-Peer-Based Botnets: A Case Study on Storm Worm [C]//Proceedings of the 1st Usenix Workshop on Large-Scale Exploits and Emergent Threats.Berkeley: USENIX Association,2008: Article 9.
[10] Collins M P,Reiter M K.Hit-List Worm Detection and Bot Identification in Large Networks Using Protocol Graphs [C]//Proceedings of the 10th International Conference on Recent Advances in Intrusion Detection.Berlin:Springer,2007: 276-295.
[11] Iliofotou M,Pappu P,Faloutsos M,et al.Graption: Automated Detection of P2P Applications Using Traffic Dispersion Graphs (TDGs) [R].Santacruz: University of California,2008.
[12] Siska P,Stoecklin M P,Kind A,et al.A Flow Trace Generator Using Graph-Based Traffic Classification Techniques [C]//Proceedings of the 6th International Wireless Communications and Mobile Computing Conference.New York: ACM,2010: 457-462.
[13] LIU Dan,LI Yi-chao,HU Yue,et al.A P2P-Botnet Detection Model and Algorithms Based on Network Streams Analysis [C]//2010 International Conference on Future Information Technology and Management Engineering (FITME).Piscataway: IEEE Press,2010: 55-58.
[14] Callado A,Kelner J,Sadok D,et al.Better Network Traffic Identification through the Independent Combination of Techniques [J].Journal of Network and Computer Applications,2010,33(4): 433-446.
[15] GU Guo-fei,Perdisci R,ZHANG Jun-jie,et al.BotMiner: Clustering Analysis of Network Traffic for Protocol-and Structure-Independent Botnet Detection [C]//Proceedings of the 17th Conference on Security Symposium.Berkeley: USENIX Association,2008: 139-154.
[16] FENG Min,Gupta R.Detecting Virus Mutations via Dynamic Matching [C]//IEEE International Conference on Software Maintenance.Piscataway: IEEE Press,2009: 105-114.
[17] HU Xin,Chiueh T C,Shin K G.Large-Scale Malware Indexing Using Function-Call Graphs [C]//Proceedings of the 16th ACM Conference on Computer and Communications Security.New York: ACM,2009: 611-620.
[18] JIANG Ling-xiao,SU Zhen-dong.Automatic Mining of Functionally Equivalent Code Fragments via Random Testing [C]//Proceedings of the Eighteenth International Symposium on Software Testing and Analysis.New York: ACM,2009: 81-92.
[19] Iliofotou M,Faloutsos M,Mitzenmacher M.Exploiting Dynamicity in Graph-Based Traffic Analysis: Techniques and Applications [C]//Proceedings of the 5th International Conference on Emerging Networking Experiments and Technologies.New York: ACM,2009: 241-252.
[20] Gkantsidis C,Mihail M,Saberi A.Random Walks in Peer-to-Peer Networks [J].Performance Evaluation,2006,63(3): 241-263.
[21] Borisov N.Anonymous Routing in Structured Peer-to-Peer Over-Lays [D].Berkeley: University of California at Berkeley,2005.
[22] Aspnes J,Wieder U.The Expansion and Mixing Time of Skip Graphs with Applications [C]//Proceedings of the Seventeenth Annual ACM Symposium on Parallelism in Algorithms and Architectures.New York: ACM,2005: 126-134.
[23] ZHONG Ming,SHEN Kai,Seiferas J.Non-uniform Random Membership Management in Peer-to-Peer Networks [C]//24th Annual Joint Conference of the IEEE Computer and Communications Societies.Piscataway: IEEE Press,2005: 1151-1161.
[24] CAIDA: The Cooperative Association for Internet Data Analysis [EB/OL].2013-02-18.http://www.caida.org/.
[25] Kaashoek M F,Karger D R.Koorde: A Simple Degree-Optimal Distributed Hash Table [C]//Peer-to-Peer Systems Ⅱ,Lecture Notes in Computer Science.Berlin: Springer,2003: 98-107.
[26] Maymounkov P,Mazieres D.Kademlia: A Peer-to-Peer Information System Based on the Xor Metric [C]//Peer-to-Peer Systems,Lecture Notes in Computer Science.Berlin: Springer,2002: 53-65.
[27] Stoica I,Morris R,Karger D,et al.Chord: A Scalable Peer-to-Peer Lookup Service for Internet Applications [C]//Proceedings of the 2001 Conference on Applications,Technologies,Architectures,and Protocols for Computer Communications.New York: ACM,2001: 149-160.
[28] Dittrich D,Dietrich S.Discovery Techniques for P2P Botnets [R].[S.l.]: Stevens Institute of Technology,2008.
[29] Dittrich D,Dietrich S.P2P as Botnet Command and Control: A Deeper Insight [C]//Proceedings of the 3rd International Conference on Malicious and Unwanted Software.Piscataway: IEEE Press,2008: 41-48.
[30] Wikipedia.Random Walker Algorithm [EB/OL].2009-06-01.http://en.wikipedia.org/wiki/Random_walk.