肖 琦,徐文龍
(中國計量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
隨著互聯(lián)網(wǎng)服務(wù)的普及和活躍使得用戶數(shù)量的不斷增加,以致互聯(lián)網(wǎng)安全越來越受到重視。在諸多問題中,僵尸網(wǎng)絡(luò)已經(jīng)成為其中最嚴重的威脅之一[1]。僵尸網(wǎng)絡(luò)是由一組被惡意軟件攻擊的主機組成,在遠程主機的控制下執(zhí)行不同類型的攻擊活動,例如:發(fā)起分布式拒絕服務(wù)(DDoS)攻擊,竊取敏感信息,發(fā)送垃圾郵件等等[2]。僵尸網(wǎng)絡(luò)一般由三個組件構(gòu)成,分別是受控主機、遠程主機和命令與控制(C&C)服務(wù)器。受控主機指被惡意軟件感染過的主機;遠程主機則是由擁有僵尸網(wǎng)絡(luò)并控制僵尸網(wǎng)絡(luò)的惡意操控者組成;命令與控制服務(wù)器用于建立操控者和受控主機之間的聯(lián)系,以便控制者順利開展相關(guān)惡意活動。
僵尸網(wǎng)絡(luò)的非法活動對很多組織或企業(yè)造成了重大損害和財務(wù)損失。在最近的一項調(diào)查中,1 000家被調(diào)查企業(yè)中有300家遭受了DDoS攻擊,65%的攻擊每小時造成高達1萬美元的損失。根據(jù)全球數(shù)據(jù)統(tǒng)計,中國成為遭受DDoS攻擊的重災(zāi)區(qū),每年承受DDoS攻擊數(shù)量占全球總量的百分之八十多[3]。由于這些損失,使僵尸網(wǎng)絡(luò)檢測受到了相當多的關(guān)注。因此,有效地檢測出僵尸網(wǎng)絡(luò)成為亟待解決的問題。
近年來,僵尸網(wǎng)絡(luò)檢測是的一個主要研究課題,學(xué)術(shù)界已經(jīng)提出了不同的解決方案。大致可以分為五種:基于特征碼的檢測方法[4],基于異常的檢測方法[5-7],基于域名系統(tǒng)的檢測方法[8-10]和基于機器學(xué)習(xí)的檢測方法[11-12]。最近出現(xiàn)的基于機器學(xué)習(xí)的檢測方法,對比于其他方法,它們表現(xiàn)出了不錯的效果。
WANG[13]等人提出了一種分析DNS查詢的僵尸網(wǎng)絡(luò)檢測框架,分析了DNS流量中的NXDOMAIN查詢,并且DNS查詢通常在時間和數(shù)量上相關(guān)。因此可以使用聚類算法找到異常且高度相關(guān)的NXDOMAIN查詢,這種方式不需要歷史數(shù)據(jù),但是依賴于組活動。
WU[14]等人通過僵尸流量和正常流量之間的相似性分析,并使用多種聚類算法進行測試和實驗,可以準確地檢測出是哪種僵尸網(wǎng)絡(luò)感染。但是該方法誤報率很高。
MCKAY[15]等人使用三種機器學(xué)習(xí)算法檢測僵尸網(wǎng)絡(luò),實驗用到了多個數(shù)據(jù)集。其中,擴展的ID3決策樹分類器獲得了最高準確率。
目前,研究人員大部分使用的是傳統(tǒng)的機器學(xué)習(xí)檢測方式,準確率不是很高,其次,這些檢測模型在訓(xùn)練過程中使用的特征往往都是手工提取的,為了獲得更好表達網(wǎng)絡(luò)流量數(shù)據(jù)中的高級特征,需要工作人員具備大量的專業(yè)知識,以及消耗相當多的時間成本。對于這種手工特征工程既不容易獲取真實反映樣本的特征,也不夠靈活,難以適應(yīng)新興且復(fù)雜的網(wǎng)絡(luò)攻擊。
隨著計算機硬件的發(fā)展,計算機能夠給我們提供更為強大的計算能力,其中深度學(xué)習(xí)技術(shù)取得了令人難以置信的成果[16-17],它最有價值的一部分是能夠從大量未標注的數(shù)據(jù)中進行特征提取,降噪自動編碼器(Denoising auto-encoder, DAE)就是其中一員。降噪自動編碼器只需要給出目標函數(shù)和輸入數(shù)據(jù),就可以學(xué)習(xí)到原數(shù)據(jù)的簡化維度表示,用于相關(guān)監(jiān)督學(xué)習(xí)方法的輸入。在大多數(shù)常見的自然語言處理和計算機視覺任務(wù)中,這些學(xué)習(xí)到的表示已經(jīng)被證明明顯優(yōu)于基于傳統(tǒng)手工提取特征的模型[18]。因此,將相關(guān)深度學(xué)習(xí)技術(shù)用于僵尸網(wǎng)絡(luò)檢測模型的構(gòu)建,對于改善僵尸網(wǎng)絡(luò)檢測模型效果具有重大意義。
本文研究了如何利用深度學(xué)習(xí)技術(shù)來獲得支持僵尸網(wǎng)絡(luò)檢測的網(wǎng)絡(luò)數(shù)據(jù)的抽象表示,提出了基于降噪自動編碼器的僵尸網(wǎng)絡(luò)檢測方法。該方法利用降噪自動編碼器自監(jiān)督地學(xué)習(xí)到離散特征的連續(xù)抽象表示,能夠更好地表達網(wǎng)絡(luò)流量數(shù)據(jù)中存在的高級特征。我們提出的方法一方面能夠減輕人工特征工程帶來的負擔,另一方面可以有效改善僵尸網(wǎng)絡(luò)檢測的效果。
本章首先介紹基于降噪自動編碼器的僵尸網(wǎng)絡(luò)模型的整體設(shè)計。然后詳細描述降噪自動編碼器技術(shù)細節(jié)以及在模型中所扮演的角色。最后,介紹數(shù)據(jù)集的構(gòu)建及特征選取。
僵尸網(wǎng)絡(luò)檢測模型結(jié)構(gòu)如圖1。原始的網(wǎng)絡(luò)流量數(shù)據(jù)保存在PCAP文件中,在輸入模型之前需要經(jīng)過數(shù)據(jù)處理。數(shù)據(jù)處理模塊負責將原始數(shù)據(jù)按照選取的特征轉(zhuǎn)換成數(shù)值型特征向量。在特征提取模塊,使用降噪自動編碼器提取原始數(shù)據(jù)中的抽象特征。最終,將提取到的特征輸入基學(xué)習(xí)器進行分類。這里選取的基學(xué)習(xí)器分別為:邏輯回歸,決策樹,樸素貝葉斯,K近鄰,AdaBoost和隨機森林。
圖1 基于降噪自動編碼器僵尸網(wǎng)絡(luò)檢測模型結(jié)構(gòu)Figure 1 Botnet detection model structure based on denoising auto-encoder
自動編碼器是一種無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),分別由編碼器和解碼器組成,一般用作高維度數(shù)據(jù)的降維和特征提取。降噪自動編碼器是自動編碼器的一類擴展[19-20]。與自動編碼器不同的是,降噪自動編碼器在輸入數(shù)據(jù)中引入噪聲,通過其中的編碼器將融合噪聲的數(shù)據(jù)進行編碼,最后通過解碼器將編碼后的特征向量還原至原始輸入數(shù)據(jù)的樣式,以消除噪聲對輸入數(shù)據(jù)的影響。通過這種方式,降噪自動編碼器較原始的自動編碼器具有更好的魯棒性,能夠更好地提取未知數(shù)據(jù)中所蘊藏的抽象特征。這就是我們選取降噪自動編碼器用作僵尸網(wǎng)絡(luò)檢測的重要原因之一。圖2是包含兩層隱藏層的降噪自動編碼器結(jié)構(gòu)圖。
圖2 降噪自動編碼器結(jié)構(gòu)圖Figure 2 Denoising auto-encoder Structure diagram
假設(shè)有包含m個樣本的訓(xùn)練集合D={x(1),x(2),…,x(m)},其中每個樣本x(i)∈Rn均是n維向量。降噪自動編碼器向原始輸入數(shù)據(jù)中加入噪音,獲得受損的輸入數(shù)據(jù),即
(1)
(2)
(3)
(4)
選取合適的梯度下降方法,就可以將降噪自動編碼器訓(xùn)練完畢。通過降噪自動編碼器自動學(xué)習(xí)到的隱式表示h代替手動選取的特征向量x,用作基分類器的輸入。
在僵尸網(wǎng)絡(luò)檢測任務(wù)中,數(shù)據(jù)集的選取往往尤為關(guān)鍵。有研究表明[21-22],一些公共的數(shù)據(jù)集中的確包含有僵尸網(wǎng)絡(luò)的異常數(shù)據(jù),但是由于數(shù)據(jù)集已經(jīng)過時,包含的異常數(shù)據(jù)并未反映當前僵尸網(wǎng)絡(luò)的行為。所以我們選用了Garcia等人最近發(fā)布的CTU-13數(shù)據(jù)集(CTU-13數(shù)據(jù)來自于https://www.stratosphereips.org/datasets-ctu13)用于實驗。
該數(shù)據(jù)集是捷克理工大學(xué)從惡意軟件捕獲設(shè)施項目中收集的混雜著正常流量和背景流量的真實僵尸網(wǎng)絡(luò)流量數(shù)據(jù)。CTU-13包含了13種不同的網(wǎng)絡(luò)場景。在每個場景中都執(zhí)行了一個特定的惡意軟件,惡意軟件使用多種協(xié)議并執(zhí)行不同的行為,例如端口掃描,DDoS等等。實驗選取了13個場景中僵尸網(wǎng)絡(luò)流量數(shù)據(jù)最多的場景9、10,即CTU-13-9和CTU-13-10。數(shù)據(jù)集中每一條網(wǎng)絡(luò)流量數(shù)據(jù)對應(yīng)的特征信息統(tǒng)計如表1。有關(guān)數(shù)據(jù)集大小的具體信息如表2。
表1 網(wǎng)絡(luò)流量數(shù)據(jù)相關(guān)特征統(tǒng)計
表1一共包含了9項特征。分別為協(xié)議、持續(xù)時間、方向、總流量包數(shù)、主機字節(jié)數(shù)、總字節(jié)數(shù)、狀態(tài)、主機IP地址和端口號。其中,協(xié)議、方向和狀態(tài)為離散特征,所以對其進行獨熱編碼表示,維度分別為12、6、166。最終每一條網(wǎng)絡(luò)流量數(shù)據(jù)特征總維度達到188。由于網(wǎng)絡(luò)流量數(shù)據(jù)中IP地址及端口號在真實的網(wǎng)絡(luò)世界里很容易被偽造,所以在實驗過程中未被選用。
表2 CTU-13場景9和10數(shù)據(jù)相關(guān)特征統(tǒng)計
Table 2 CTU-13 scene 9 and 10 data related feature statistics
場景僵尸流量樣本數(shù)正常流量樣本數(shù)總樣本數(shù)CTU-13-9184 987190 000374 987CTU-13-10106 352110 000216 352
降噪自動編碼器中編碼器的兩層隱藏層神經(jīng)元個數(shù)分別為128和64。編碼器的輸出層,即網(wǎng)絡(luò)流量數(shù)據(jù)的隱式表示維度設(shè)置為32。于是,解碼器中輸入層的維度為32,兩層隱藏層的維度分別為64和128。而解碼器的輸出層維度與編碼器輸入層維度相同,即為處理前的特征向量維度。神經(jīng)網(wǎng)絡(luò)層中的激活函數(shù)選取的是ReLU,該激活函數(shù)在提供了非線性變換的基礎(chǔ)上能夠幫助模型快速收斂,因此在應(yīng)用深度學(xué)習(xí)技術(shù)的眾多領(lǐng)域被廣泛采用。在降噪自動編碼器訓(xùn)練過程中,所選用的優(yōu)化函數(shù)為Adam,該函數(shù)是當前最為流行的優(yōu)化函數(shù),在幫助模型快速收斂的同時,還能防止模型陷入局部最優(yōu)。優(yōu)化函數(shù)中的學(xué)習(xí)率設(shè)置為0.001。由于用于訓(xùn)練的數(shù)據(jù)集規(guī)模較大,為了加速訓(xùn)練,我們將批大小設(shè)置為512,訓(xùn)練輪次設(shè)置為5。訓(xùn)練用于提取網(wǎng)絡(luò)流量潛在特征的降噪自動編碼器的損失函數(shù)選用的是交叉熵函數(shù)。
實驗階段,對于基于集成學(xué)習(xí)的分類器,我們將其中的基分類器數(shù)量設(shè)置為100,并且將其中的決策樹深度設(shè)置為20。
實驗選用了準確率、精確率(AC)、召回率(R)、F值(F)四項評價標準來評價檢測模型的性能。以上四項評價標準由真正例(TP),真反例(TN),假正例(FP)和假反例(FN)所定義。真正例及真反例表示的是模型預(yù)測出的結(jié)果同實際樣例類別一致的數(shù)量。相反,假正例及假反例則反映了模型預(yù)測結(jié)果不同于樣例實際類別的數(shù)量。以下列出了四項評價標準的具體公式:
準確率用于表示模型預(yù)測出正確的結(jié)果與總樣本數(shù)的比值:
AC=(TP+TN)/(TP+TN+FP+FN)。
(5)
精確率用于表示模型預(yù)測出的正例中真正例的占比:
P=TP/(TP+FP)。
(6)
召回率用于表示模型所預(yù)測出的真正例占實際樣本中正例的比值:
R=TP/(TP+FN)。
(7)
F值綜合了準確率和召回率,更加直觀展示模型的好壞:
F=2PR/(P+R)。
(8)
實驗中使用的基學(xué)習(xí)器為邏輯回歸、決策樹、樸素貝葉斯、K近鄰、AdaBoost和隨機森林。實驗結(jié)果數(shù)據(jù)如表3和表4,圖3直觀地展現(xiàn)了不同基分類器下基于降噪自動編碼器的僵尸網(wǎng)絡(luò)檢測模型的準確率和F值。
表3 CTU-13-9分類器的比較結(jié)果
表4 CTU-13-10分類器的比較結(jié)果
圖3 不同場景下準確率和F值對比Figure 3 Comparison of accuracy and F value in different scenarios
從圖3中可以看出,無論在哪個數(shù)據(jù)集下,使用了降噪自動編碼器提取原始網(wǎng)絡(luò)流量特征的分類器F值要高于直接對原始網(wǎng)絡(luò)流量數(shù)據(jù)進行分類的分類器。值得注意的是,隨機森林算法加上降噪自動編碼器的僵尸網(wǎng)絡(luò)檢測模型在實驗中獲得了最高的F值。并且,在CTU-13-10數(shù)據(jù)集中,決策樹加降噪自動編碼器模型F值要高于原始基于集成學(xué)習(xí)的AdaBoost模型。同樣,AdaBoost加降噪自動編碼器模型F值要高于原始的隨機森林模型。
在準確率方面,可以看出結(jié)合降噪自動編碼器的模型準確率方面普遍高于原始模型。隨機森林加降噪自動編碼器模型的準確率在不同數(shù)據(jù)集下提升平均1個百分點。
綜上所述,基于降噪自動編碼器的僵尸網(wǎng)絡(luò)檢測模型具備自動提取隱式特征向量,并幫助基學(xué)習(xí)器提升僵尸網(wǎng)絡(luò)檢測效果的能力。
本章研究降噪自動編碼器隱式特征向量的不同維度對模型的影響。編碼器的隱藏層大小固定為128和64,解碼器的隱藏層則鏡像設(shè)置。將隱式維度依次設(shè)置為4,8,16,32,進行對比試驗,實驗結(jié)果如圖4。
圖4 不同隱式維度對模型的影響Figure 4 Impact of different implicit dimensions on the model
從圖4中可以看出,對于有著不同基學(xué)習(xí)器的基于降噪自動編碼器僵尸網(wǎng)絡(luò)檢測模型來說,隨著隱式維度的不斷增加,模型對僵尸網(wǎng)絡(luò)檢測的效果在逐步提升。當隱式維度為4時,維度過于低而導(dǎo)致不足以表達原始網(wǎng)絡(luò)流量潛在信息,并且?guī)缀跛心P偷臏蚀_率和F值都要低于不加降噪自動編碼器的原始模型。而隨著隱式維度增加到8,各模型的準確率和F值接近原始模型。而當隱式維度增加到16和32,各個模型的評價指標趨于穩(wěn)定,并且表現(xiàn)已經(jīng)優(yōu)于原始模型。于是,隱式維度的大小能影響降噪自動編碼器對原始網(wǎng)絡(luò)流量特征的表示效果。在本模型中,我們將隱式維度大小設(shè)置為32,就能獲得理想的結(jié)果。
本文將深度學(xué)習(xí)技術(shù)應(yīng)用于僵尸網(wǎng)絡(luò)檢測領(lǐng)域,提出了基于降噪自動編碼器的僵尸網(wǎng)絡(luò)檢測模型。該模型利用降噪自動編碼器自動有效地提取了網(wǎng)絡(luò)流量數(shù)據(jù)中包含的高級隱式特征,能夠更好捕捉當前僵尸網(wǎng)絡(luò)的異常行為。并在最近提出的CTU-13數(shù)據(jù)集下的不同場景中進行了大量的實驗。實驗結(jié)果表明,我們提出的模型能夠從原始網(wǎng)絡(luò)流量數(shù)據(jù)中自動地提取相關(guān)特征,不同程度上提升了傳統(tǒng)基于手動特征工程的機器學(xué)習(xí)方法在僵尸網(wǎng)絡(luò)檢測領(lǐng)域的效果。
當然,本文還存在值得研究和改進的地方,具體如下。
對于本文提出的基于降噪自動編碼器的僵尸網(wǎng)絡(luò)檢測模型,考慮到結(jié)合了深度學(xué)習(xí)方法,對訓(xùn)練數(shù)據(jù)的規(guī)模有一定的要求。針對小規(guī)模的數(shù)據(jù)集可能不足以在訓(xùn)練過程中使模型成功收斂,導(dǎo)致模型達不到預(yù)期精度。同時,選取合適的基學(xué)習(xí)器也會影響模型精度。接下來的工作是嘗試將深度學(xué)習(xí)模型用于基學(xué)習(xí)器,再結(jié)合降噪自動編碼器實現(xiàn)基于深度學(xué)習(xí)的僵尸網(wǎng)絡(luò)檢測模型。