国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合字符級(jí)滑動(dòng)窗口和深度殘差網(wǎng)絡(luò)的僵尸網(wǎng)絡(luò)DGA域名檢測(cè)方法

2022-03-17 04:30:04劉小洋劉加苗張宜浩
電子學(xué)報(bào) 2022年1期
關(guān)鍵詞:分離式域名集上

劉小洋,劉加苗,劉 超,張宜浩

(1.重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054;2.重慶理工大學(xué)人工智能學(xué)院,重慶 401135)

1 前言

僵尸網(wǎng)絡(luò)是指采用一種或多種傳播手段,將大量主機(jī)感染bot 程序病毒,從而使控制者和被感染主機(jī)之間形成一個(gè)可以一對(duì)多控制的網(wǎng)絡(luò).Internet 用戶的增多以及用戶安全意識(shí)的缺乏,是導(dǎo)致僵尸網(wǎng)絡(luò)產(chǎn)生的主要原因之一.組建僵尸網(wǎng)絡(luò)的僵尸程序被事先設(shè)計(jì)好了DGA 算法,利用該算法生成大量的DGA 域名并周期性產(chǎn)生一個(gè)域名列表.僵尸網(wǎng)絡(luò)的控制者會(huì)注冊(cè)某些域名作為該僵尸網(wǎng)絡(luò)的命令控制服務(wù)器訪問(wèn)域名.通過(guò)不斷更改僵尸網(wǎng)絡(luò)控制服務(wù)器的域名使僵尸網(wǎng)絡(luò)保持運(yùn)行的技術(shù)被稱為domain flux[1].早期的DGA 域名檢測(cè)方式是黑名單、正則匹配等.后來(lái)隨著機(jī)器學(xué)習(xí)的興起,利用大量的域名數(shù)據(jù)并做特征工程的域名檢測(cè)的性能逐步提高.隨后基于深度學(xué)習(xí)自動(dòng)特征提取的DGA域名檢測(cè)方法也逐步得到發(fā)展.

本文的主要?jiǎng)?chuàng)新點(diǎn):①提出了一種基于字符級(jí)滑動(dòng)窗口的深度殘差網(wǎng)絡(luò)模型用于DGA 域名的檢測(cè),使用區(qū)域卷積方式擴(kuò)大卷積核感受野,然后精巧地設(shè)計(jì)了一種可變長(zhǎng)式的深度可分離式卷積殘差神經(jīng)網(wǎng)絡(luò)來(lái)提取特征;②提出的SW-DRN 模型首次采用深度可分離式卷積設(shè)計(jì),減少了模型的可訓(xùn)練參數(shù)以及訓(xùn)練成本,提升了模型的檢測(cè)效率;③本文建立兩個(gè)數(shù)據(jù)集,分別為Real-Dataset 和Gen-Dataset,并且這兩個(gè)數(shù)據(jù)集上的二分類和多分類任務(wù)均到達(dá)了目前領(lǐng)先的水平.

2 相關(guān)工作

在僵尸網(wǎng)絡(luò)的防御中,DGA 域名檢測(cè)起著重要的作用.因此DGA 域名檢測(cè)成為網(wǎng)絡(luò)安全領(lǐng)域中一個(gè)非常重要的研究點(diǎn).在2010 年,Yadav 等人[2]同時(shí)對(duì)DGA域名和非DGA域名集合1-gram 與2-gram 的分布提取特征進(jìn)行了識(shí)別.Antonakakis等人[3]基于隱馬爾科夫聚類發(fā)現(xiàn)了潛在的DGA域名家族.在2016年,Woodbridge等人[4]首次將深度學(xué)習(xí)應(yīng)用到DGA域名檢測(cè)中,且該方法只使用域名字符串作為數(shù)據(jù)輸入,利用深度學(xué)習(xí)自動(dòng)提取字符串內(nèi)的隱藏特征,使DGA域名檢測(cè)的研究工作取得了飛躍性的突破.Vinayakumar等人[5]在不同深度學(xué)習(xí)框架上進(jìn)行DGA域名檢測(cè)實(shí)驗(yàn),比較了多種卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò).呂品等人[6]使用雙向多層的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對(duì)大規(guī)模DGA 數(shù)據(jù)進(jìn)行訓(xùn)練,最終得到的模型的DGA域名檢測(cè)率為96%.Tran等人[7]提出了一種LSTM.MI算法,該算法結(jié)合了二分類和多類分類模型,并考慮了類別識(shí)別的重要性.Highnam 等人[8]提出了一種新穎的混合神經(jīng)網(wǎng)絡(luò),該模型對(duì)此類算法生成域的可能性進(jìn)行了分析和評(píng)分.杜鵬等人[9]提出一種混合詞向量的DGA域名檢測(cè)模型,并使用混合詞向量CNN-LSTM和CNN-MWE模型做了實(shí)驗(yàn)對(duì)比.從上述研究發(fā)現(xiàn),基于深度學(xué)習(xí)的方法普遍優(yōu)于基于人工特征的機(jī)器學(xué)習(xí)方法.但是基于深度學(xué)習(xí)的DGA 域名檢測(cè)方法在DGA 域名家族的二分和多分類任務(wù)上仍有很大的提升空間.

3 所提出的方法

本文提出的基于字符級(jí)滑動(dòng)窗口的深度殘差網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示.SW-DRN 輸入層接受固定長(zhǎng)度為L(zhǎng)的域名,且L=48.對(duì)域名進(jìn)行數(shù)值化處理,使用字符級(jí)詞典把域名中的每個(gè)字符映射成one-hot 編碼向量.嵌入層將one-hot 的V1維度向量映射成d維度,d=16.于是開(kāi)始特征提取,區(qū)域卷積部分采用標(biāo)準(zhǔn)卷積進(jìn)行原始特征提取,采用多尺度的滑動(dòng)窗口,選用3 種一維卷積核,大小分別為1,3,5.然后輸入到深度可分離式卷積殘差網(wǎng)絡(luò)層進(jìn)行更深層次的特征提取.

圖1 SW-DRN 模型架構(gòu)

殘差網(wǎng)絡(luò)層的層數(shù)是可以根據(jù)圖1 中的深度可分離式卷積重復(fù)模塊進(jìn)行變化的,它的重復(fù)次數(shù)使用N來(lái)表示.卷積重復(fù)模塊的次數(shù)N=4,當(dāng)N的值每增加1時(shí),下一次卷積的濾波器數(shù)量n變?yōu)樵瓉?lái)的2 倍,于是濾波器的數(shù)量分別為64,128,256,512.同時(shí)在深度可分離式卷積重復(fù)模塊的尾部加上一個(gè)最大池化層,這樣每經(jīng)過(guò)一個(gè)卷積重復(fù)模塊時(shí),特征圖的長(zhǎng)度變?yōu)樵瓉?lái)的一半,其目的是在殘差網(wǎng)絡(luò)層中卷積核長(zhǎng)度不變的情況下,通過(guò)減少長(zhǎng)度L來(lái)增加對(duì)特征圖的感受視野,這樣可以提取DGA 域名內(nèi)不同位置字符之間的關(guān)系特征.最后,需要對(duì)得到的特征圖進(jìn)行K-max 池化采樣,感受野k=8,目的是提取顯著的特征,緩解模型的過(guò)擬合,增加模型的泛化能力.輸出層按照任務(wù)類型對(duì)輸入的DGA樣本進(jìn)行類別預(yù)測(cè).

殘差網(wǎng)絡(luò)[10]的設(shè)計(jì)是為了防止當(dāng)網(wǎng)絡(luò)層數(shù)加深時(shí),模型在訓(xùn)練中出現(xiàn)梯度爆炸和梯度消失.考慮到殘差塊中若使用標(biāo)準(zhǔn)卷積會(huì)導(dǎo)致模型計(jì)算量增加并降低模型的檢測(cè)效率,于是在DGA 域名檢測(cè)中本文在設(shè)計(jì)殘差塊時(shí)首次應(yīng)用深度可分離式卷積[11].圖2 為SWDRN 中殘差塊的內(nèi)部結(jié)構(gòu).為了增加模型訓(xùn)練的穩(wěn)定性,引入批標(biāo)準(zhǔn)化(Batch Norm).殘差塊的數(shù)據(jù)流方向如式(1)所示:

圖2 深度可分離式卷積殘差塊

其中,xl-1為殘差塊的輸入;xl為殘差塊輸出.

本文為了探索網(wǎng)絡(luò)模型的深度對(duì)DGA 域名檢測(cè)的影響,使用SW-DRN 模型分別在深度層數(shù)為9,17,29,49 的情況下進(jìn)行相應(yīng)的訓(xùn)練并測(cè)試,所得對(duì)比結(jié)果在實(shí)驗(yàn)部分展示.

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)超參數(shù)

SW-DRN 模型的超參數(shù):初始化學(xué)習(xí)率為0.01;每32 Epoch 的學(xué)習(xí)率調(diào)整成原來(lái)的1/2;優(yōu)化器為Adam;Epoch為128;B(Batch size)=512.

4.2 Real-Dataset 和Gen-Dataset

Real-Dataset 數(shù)據(jù)集由2 部分組成:一部分是合法的域名樣本,來(lái)自Alexa 訪問(wèn)量全球排名前一百萬(wàn)的網(wǎng)站域名;另一部分用360 Netlab DGA 公開(kāi)數(shù)據(jù).Real-Dataset 數(shù)據(jù)集包含21 種DGA 家族數(shù)據(jù)集,同時(shí)為了減緩數(shù)據(jù)不平衡問(wèn)題,本文對(duì)該數(shù)據(jù)集進(jìn)行欠采樣.

本文不僅收集真實(shí)網(wǎng)絡(luò)環(huán)境下的DGA 域名樣本,同時(shí)還用域名生成算法產(chǎn)生DGA 域名樣本并和Alexa中的域名一起作為合法域名構(gòu)成數(shù)據(jù)集Gen-Dataset.本文從Internet 中收集了主流的域名生成算法,然后根據(jù)不同域名的生成算法,按滿足條件不同,生成了33種不同家族的DGA域名,且每個(gè)類數(shù)量均為20 000.

4.3 模型性能衡量指標(biāo)

SW-DRN模型具有二分類和多分類的任務(wù).表1是分類混淆矩陣.

表1 分類結(jié)果混淆矩陣

準(zhǔn)確率:

查準(zhǔn)率:

檢測(cè)率(Detection Rate,DR):

誤報(bào)率(False Positive Rate,F(xiàn)PR):

考慮到實(shí)驗(yàn)中Real-Dataset 存在數(shù)據(jù)不平衡的問(wèn)題,因此采用“macro”方式計(jì)算F-score比較合適.

4.4 模型對(duì)比實(shí)驗(yàn)分析

在Real-Dataset 數(shù)據(jù)集和Gen-Dataset 數(shù)據(jù)集上進(jìn)行的二分類和多分類的實(shí)驗(yàn),采用的對(duì)比實(shí)驗(yàn)?zāi)P头謩e是LSTM[12]、GRU[13]、Shallow-CNN[13]、CNN-LSTM[14]和LSTM-Attention[15].

在Real-Dataset 數(shù)據(jù)集上的二分類結(jié)果如表2 所示.從表2 中可知,本文所提出的SW-DRN 模型和對(duì)比模型在5個(gè)評(píng)估指標(biāo)上都取得了不錯(cuò)的成績(jī),說(shuō)明深度學(xué)習(xí)模型在DGA 域名檢測(cè)中具有非常不錯(cuò)的性能.由于Real-Dataset 數(shù)據(jù)集中DGA 合法域名的特征相對(duì)容易區(qū)分,且各個(gè)性能指標(biāo)幾乎都超過(guò)99%,SW-DRN 與其他模型對(duì)比,在二分類任務(wù)上取得了微弱的領(lǐng)先.表3 展示了各個(gè)模型在Gen-Dataset 數(shù)據(jù)集上的評(píng)估結(jié)果.SW-DRN 模型在5 個(gè)性能指標(biāo)上都領(lǐng)先于對(duì)比模型.但SW-DRN 模型在Gen-Dataset 數(shù)據(jù)集上并沒(méi)有達(dá)到Real-Dataset 數(shù)據(jù)集上一樣的識(shí)別率,主要原因是Gen-Dataset 數(shù)據(jù)集中的DGA 家族數(shù)量更多,增加了識(shí)別的難度.

表2 Real-Dataset數(shù)據(jù)集二分類結(jié)果/%

表3 Gen-Dataset數(shù)據(jù)集二分類結(jié)果對(duì)比/%

模型在Real-Dataset數(shù)據(jù)集上的多分類實(shí)驗(yàn)結(jié)果如表4 所示.根據(jù)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),SW-DRN 模型在多分類整體評(píng)估指標(biāo)F-score 上,比最優(yōu)對(duì)照模型高出了1.23%.且SW-DRN 在gameover 和virut等5 個(gè)家族上的誤報(bào)率均為0,在多個(gè)DGA 家族上取得了領(lǐng)先的成績(jī),即使在一些DGA 家族上未能超越對(duì)比模型,但也緊隨其后.同樣從表5 中的數(shù)據(jù)不難發(fā)現(xiàn),SW-DRN 模型比對(duì)照模型在整體多分類指標(biāo)上F-score 提升了1.01%,且在多個(gè)DGA 域名家族上領(lǐng)先于其他模型.但同上述SW-DRN 模型在Real-Dataset 數(shù)據(jù)集上的測(cè)試結(jié)果相比,Gen-Dataset數(shù)據(jù)集中的DGA 域名家族種類更多,對(duì)各個(gè)家族的識(shí)別難度也越大.還發(fā)現(xiàn),在dircrypt、proslikefan 和dnschanger 等一些家族上,其域名之間具有高較高相似性,使得識(shí)別率低于其他家族.

表4 Real-Dataset 多分類結(jié)果/%

表5 Gen-Dataset多分類結(jié)果/%

為更進(jìn)一步證明SW-DRN的性能,針對(duì)當(dāng)前生成對(duì)抗網(wǎng)絡(luò)產(chǎn)生的DGA域名來(lái)測(cè)試基于深度學(xué)習(xí)的DGA域名檢測(cè)器.本文選擇3 個(gè)有關(guān)對(duì)抗樣本的域名生成模型,分別為DeepDGA[16]、MaskDGA[17]和CharBot[18].表6是SW-DRN分別在這3種生成域名的測(cè)試集上的結(jié)果.SW-DRN 在DeepDGA、MaskDGA 和CharBot 這3 種生成域名的識(shí)別上均取得了不錯(cuò)的效果,但由于CharBot 是直接對(duì)合法域名字符的個(gè)別位置上的字符隨機(jī)替換,因此評(píng)估指標(biāo)相比其他2種域名稍差一些.

表6 SW-DRN模型在生成域名上測(cè)試結(jié)果/%

4.5 模型的參數(shù)量

為了評(píng)估模型的參數(shù)量,選擇參數(shù)量在9 層的SWDRN 模型進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表7 所示,SW-DRN 模型使用深度可分離式卷積比標(biāo)準(zhǔn)卷積減少了約56%的參數(shù).

表7 SW-DRN可訓(xùn)練參數(shù)量對(duì)比/百萬(wàn)

4.6 模型深度的探索

本文把SW-DRN 模型的層數(shù)設(shè)定為9,17,29,49,并在Real-Dataset 數(shù)據(jù)集和Gen-Dataset 數(shù)據(jù)集上分別進(jìn)行二分類和多分類實(shí)驗(yàn),結(jié)果如圖3 所示.當(dāng)SWDRN 模型為9 層時(shí),已經(jīng)取得了不錯(cuò)的性能,且隨著模型的層數(shù)逐漸加深,模型的性能并無(wú)明顯提升.當(dāng)模型為49層時(shí),模型因擬合能力太強(qiáng)而出現(xiàn)過(guò)擬合現(xiàn)象,導(dǎo)致泛化能力下降.對(duì)SW-DRN 模型進(jìn)行更深層數(shù)的探索,得到更深層次的網(wǎng)絡(luò)模型,并不能更好地提升模型在DGA域名上的檢測(cè)性能.

圖3 SW-DRN的不同深度性能

5 結(jié)束語(yǔ)

本文提出了一種基于字符級(jí)滑動(dòng)窗口的深度殘差神經(jīng)網(wǎng)絡(luò)模型.實(shí)驗(yàn)證明,SW-DRN 模型不僅在二分類任務(wù)上優(yōu)于對(duì)比模型,而且在多分類任務(wù)中取得了當(dāng)前最優(yōu)異的成績(jī).針對(duì)少樣本DGA 域名家族進(jìn)行識(shí)別以及對(duì)高隨機(jī)性、易混淆的DGA 域名之間進(jìn)行識(shí)別,相比當(dāng)前已有的DGA 域名分類模型,SW-DRN 模型取得了更進(jìn)一步的提升.本文還對(duì)SW-DRN 模型進(jìn)一步實(shí)驗(yàn),通過(guò)可變長(zhǎng)的深度可分離式卷積殘差模塊實(shí)現(xiàn)對(duì)SW-DRN不同深度的探索,同時(shí)還對(duì)模型的檢測(cè)效率進(jìn)行了對(duì)比,實(shí)驗(yàn)證明,深度可分離式卷積能夠有效地降低模型的可訓(xùn)練參數(shù)量.

猜你喜歡
分離式域名集上
Cookie-Cutter集上的Gibbs測(cè)度
鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
如何購(gòu)買WordPress網(wǎng)站域名及綁定域名
復(fù)扇形指標(biāo)集上的分布混沌
騰訊八百萬(wàn)美元收購(gòu)域名
可分離式凍干機(jī)自動(dòng)進(jìn)出料系統(tǒng)
可分離式凍干機(jī)自動(dòng)進(jìn)出料系統(tǒng)
可分離式凍干機(jī)自動(dòng)進(jìn)出料系統(tǒng)
可分離式凍干機(jī)自動(dòng)進(jìn)出料系統(tǒng)
幾道導(dǎo)數(shù)題引發(fā)的解題思考
鄂托克旗| 阿巴嘎旗| 西充县| 安丘市| 郎溪县| 哈密市| 黎平县| 壶关县| 新密市| 深州市| 石首市| 民乐县| 阳朔县| 洪洞县| 平和县| 钟山县| 营山县| 延安市| 新绛县| 多伦县| 太原市| 龙口市| 南平市| 文水县| 双江| 资阳市| 蒲江县| 赣榆县| 额敏县| 修武县| 布尔津县| 岳阳县| 秀山| 年辖:市辖区| 西宁市| 蚌埠市| 晋宁县| 彭山县| 仁寿县| 云梦县| 全椒县|