国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于域名詞間關(guān)系的字典型惡意域名檢測(cè)方法

2022-01-28 02:16:38席一帆
信息安全研究 2022年2期
關(guān)鍵詞:域名詞組良性

席一帆 汪 洋 張 鈺

(武漢郵電科學(xué)研究院 武漢 430074) (南京烽火星空通信發(fā)展有限公司 南京 210019)

計(jì)算機(jī)網(wǎng)絡(luò)面臨著嚴(yán)重的安全威脅,其中很大一部分來(lái)自于僵尸網(wǎng)絡(luò).僵尸網(wǎng)絡(luò)是一組被稱(chēng)為機(jī)器人(bot)的受攻擊計(jì)算機(jī)[1],網(wǎng)絡(luò)犯罪分子可以通過(guò)命令和控制(C&C)服務(wù)器[2]來(lái)對(duì)僵尸網(wǎng)絡(luò)進(jìn)行遠(yuǎn)程控制.通過(guò)命令和控制服務(wù)器操作這些機(jī)器人來(lái)執(zhí)行惡意的網(wǎng)絡(luò)活動(dòng),例如進(jìn)行大規(guī)模網(wǎng)絡(luò)釣魚(yú),將病毒軟件傳播到其他終端,繼而竊取所需要的機(jī)密信息[3-4].

在早期的僵尸網(wǎng)絡(luò)中,網(wǎng)絡(luò)犯罪分子通常會(huì)把命令和控制服務(wù)器的域名或者IP地址硬編碼到惡意程序中[5],因此安全人員能夠通過(guò)逆向惡意程序得到命令和控制服務(wù)器的域名或者IP,從而預(yù)先建立黑名單來(lái)檢測(cè)僵尸網(wǎng)絡(luò)[4,6].但隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,許多僵尸網(wǎng)絡(luò)都通過(guò)域名生成算法(domain generation algorithm, DGA)動(dòng)態(tài)生成域名來(lái)躲避檢測(cè)[7-9].

DGA是一種基于Fast-flux技術(shù)的機(jī)制,F(xiàn)ast-flux技術(shù)是指不斷改變域名和IP地址映射關(guān)系的一種技術(shù)[8],這也意味著在短時(shí)間內(nèi)查詢使用Fast-flux技術(shù)部署的域名會(huì)得到不同的結(jié)果.僵尸網(wǎng)絡(luò)利用DGA機(jī)制能夠頻繁更改命令和控制服務(wù)器的域名[10],使得黑名單的更新速度很難與惡意域名的產(chǎn)生速度同步,以此來(lái)隱藏從機(jī)器人到命令和控制服務(wù)器的回調(diào)通信.具體來(lái)說(shuō),機(jī)器人使用DGA動(dòng)態(tài)生成域名,并嘗試為每個(gè)域名進(jìn)行域名解析,最終返回正確響應(yīng)的域名將被視為命令和控制服務(wù)器.

部分早期相關(guān)研究關(guān)注的是檢測(cè)DGA機(jī)器人與命令和控制服務(wù)器通信過(guò)程中,良性域名和惡意域名字符串的可識(shí)別差異[11-12].例如,Truong等人[13]提出了一種使用帶有監(jiān)督學(xué)習(xí)的雙元模型學(xué)習(xí)和預(yù)測(cè)域名字符模式的方法.Anderson等人[14]則在此基礎(chǔ)上進(jìn)行了改進(jìn),引入帶有長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)的字符級(jí)建模.該方法基于一項(xiàng)來(lái)自觀察經(jīng)驗(yàn)的假設(shè):良性域名的字符串通常由能夠反映注冊(cè)者意圖的單詞或字符組成[15],例如機(jī)構(gòu)名、產(chǎn)品名或提供的服務(wù)內(nèi)容等;相應(yīng)地,為了避免與已注冊(cè)域名產(chǎn)生沖突,惡意域名通常會(huì)選用大量無(wú)關(guān)字符進(jìn)行隨機(jī)組合[16].為了躲避檢測(cè),一些僵尸網(wǎng)絡(luò)家族開(kāi)始采用字典型惡意域名進(jìn)行通信[17],字典型惡意域名即基于字典的DGA算法所生成的惡意域名.該類(lèi)DGA算法從字典中選取單詞來(lái)動(dòng)態(tài)生成域名,這種方式產(chǎn)生的域名與人工注冊(cè)的正常域名看起來(lái)非常相似,使得傳統(tǒng)的基于字符級(jí)特征進(jìn)行建模的檢測(cè)方法逐漸失效.目前,學(xué)術(shù)界針對(duì)字典型惡意域名的檢測(cè)方法仍集中于深度學(xué)習(xí)網(wǎng)絡(luò),例如Highnam等人[18]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)并行使用的字典型DGA檢測(cè)方法,該類(lèi)方法不能充分發(fā)掘字典型惡意域名的詞間關(guān)系.此外,Chowdhury等人[19]提出將圖特征應(yīng)用于基于行為的DGA檢測(cè)的思想,圖特征能有效表征良性域名與惡意域名在單詞級(jí)別上的差異.

為了提高對(duì)字典型DGA生成的惡意域名的檢測(cè)水平,本文引入有權(quán)無(wú)向圖描述惡意域名的單詞構(gòu)成,通過(guò)度中心性指標(biāo)量化單詞級(jí)別特征,提出了一種基于詞間關(guān)系的DGA惡意域名檢測(cè)方法.

1 基于域名詞間關(guān)系的字典型惡意域名檢測(cè)方法

在當(dāng)前防范僵尸網(wǎng)絡(luò)的研究中,研究人員之所以將注意力更多地放在針對(duì)其DGA域名的檢測(cè)上,是因?yàn)橛蛎馕鍪且环N未加密的交互,并且總是發(fā)生在DGA機(jī)器人的回調(diào)之前.表1示出部分基于字典的DGA生成的域名實(shí)例:

表1 部分基于字典的DGA家族

由于DGA合成的域名與人工創(chuàng)建的域名在單詞組合頻率上存在差異[20],我們提出了一種識(shí)別惡意域名的方法,通過(guò)分析每個(gè)域名中組成字符串單詞之間的關(guān)系來(lái)識(shí)別惡意域名.該方法基于2點(diǎn)主要思想:1)利用圖論中的通用概念來(lái)描述構(gòu)成域名單詞的詞間關(guān)系;2)使用度中心性來(lái)量化域名中每個(gè)單詞的特征,該指標(biāo)表征了良性和惡意域名之間的區(qū)別.最后,我們將基于該指標(biāo)構(gòu)成的特征向量應(yīng)用于機(jī)器學(xué)習(xí)算法,從而得到檢測(cè)DGA惡意域名的模型.

圖1展示了該檢測(cè)方法的流程,大致分為3步:1)對(duì)輸入的域名進(jìn)行分詞;2)利用得到的詞組構(gòu)建詞圖并處理為特征向量;3)訓(xùn)練并測(cè)試模型.其中,真實(shí)域名是指用來(lái)驗(yàn)證模型的域名集合,良性域名是指構(gòu)成基礎(chǔ)詞圖的域名集合,訓(xùn)練域名是指由惡意域名構(gòu)成的域名集合.本文使用Wordninja庫(kù)[21]作為域名分詞工具,在下面的3個(gè)小節(jié)中,將對(duì)域名數(shù)據(jù)的表現(xiàn)形式、詞圖的構(gòu)建方式與特征向量獲取方法作詳細(xì)介紹.

1.1 域名數(shù)據(jù)

我們用x∈Xi(i∈0,1,…,n)表示由相同類(lèi)型的域名組成的數(shù)據(jù)集,其中數(shù)據(jù)集X0包含的都是良性域名,其余n個(gè)數(shù)據(jù)集X1,…,Xn包含所屬于n個(gè)不同DGA家族的惡意域名.并且,數(shù)據(jù)集中的域名將被去除域名前綴與頂級(jí)域名后綴,僅保留域名中有意義的部分.例如,域名www.sicris.cn將被轉(zhuǎn)化為sicris,再對(duì)其進(jìn)行分詞處理.

1.2 構(gòu)建詞圖

該步驟使用單詞圖表示訓(xùn)練數(shù)據(jù)集Xi中與域字符串對(duì)應(yīng)的詞組Wi之間的關(guān)系.詞圖Gi是一個(gè)帶有頂點(diǎn)集和邊集的有權(quán)無(wú)向圖.每個(gè)頂點(diǎn)分別對(duì)應(yīng)集合Wi中的每個(gè)單詞;每條邊的權(quán)值表示集合Wi中單詞兩兩之間共現(xiàn)的頻率,共現(xiàn)是指單詞屬于同一個(gè)詞組.注意,具有相似字符串的單詞共享同一個(gè)頂點(diǎn),相似在這里是指忽略大小寫(xiě)與單復(fù)數(shù).我們使用度中心性來(lái)量化每一個(gè)單詞在詞圖中的關(guān)系.

圖2示出一個(gè)使用由3個(gè)詞組組成的集合所構(gòu)成的詞圖示例,該集合為[{our,approach,amazing}{our,experiments,well}{this,experiment,well}].由于experiment與experiments這2個(gè)單詞是相似的,因此它們共享同一個(gè)頂點(diǎn).此外,我們以Gi:j來(lái)表示詞圖Gi結(jié)合詞圖Gj所構(gòu)建的一個(gè)新詞圖,其中Gi與Gj是由詞組Wi與詞組Wj所對(duì)應(yīng)創(chuàng)建的詞圖.

動(dòng)態(tài)生成的惡意域名與人為生成的良性域名在單詞共同出現(xiàn)的頻率上表現(xiàn)出明顯的差異.能最有效地闡明這些區(qū)別的是那些在詞圖中扮演中心角色的單詞.為此,本文使用下列公式來(lái)描述任意一詞組ω的詞間關(guān)系,ω包括單詞ω1,…,ωj,…,ωn:

其中,|ωj|表示單詞ωj的長(zhǎng)度;M0:i(ωj)和M0(ωj)是推導(dǎo)單詞ωj在詞圖G0和詞圖G0:i的度中心性函數(shù).因此,該值表示詞組ω在由良性數(shù)據(jù)集X0所構(gòu)建的詞圖G0中時(shí)與在由惡意數(shù)據(jù)集Xi結(jié)合良性數(shù)據(jù)集X0所構(gòu)建的詞圖G0:i中時(shí)詞組度中心性的變化.

1.3 構(gòu)建特征向量

該步驟首先從訓(xùn)練數(shù)據(jù)集中的域中計(jì)算特征向量.根據(jù)1.2節(jié)定義的詞圖中的重要值,由詞組ω組成的域名特征向量由下式給出:

ω=(V1(ω),…,Vi(ω),…Vn(ω)).

然后,我們將這些特征向量應(yīng)用于機(jī)器學(xué)習(xí)算法以構(gòu)建訓(xùn)練模型.由于支持向量機(jī)(SVM)優(yōu)異的識(shí)別性能,我們采用支持向量機(jī)作為機(jī)器學(xué)習(xí)算法.這一步的輸出是模型對(duì)未知輸入域名進(jìn)行分割,計(jì)算特征向量,并應(yīng)用訓(xùn)練模型得到關(guān)于未知輸入域名良性與惡意性質(zhì)的整體識(shí)別結(jié)果.

2 實(shí)驗(yàn)驗(yàn)證

本節(jié)給出了用于評(píng)估所提方法有效性的實(shí)驗(yàn).評(píng)估的重心主要聚焦于2個(gè)方面:1)模型對(duì)良性域名和字典型DGA惡意域名二分類(lèi)的Accuracy值、Recall值與F1值;2)模型針對(duì)4個(gè)選定的基于字典的DGA家族各自的F1值.實(shí)驗(yàn)設(shè)計(jì)與實(shí)驗(yàn)結(jié)果在2.1節(jié)和2.2節(jié)中詳細(xì)介紹.

2.1 數(shù)據(jù)集

表2示出實(shí)驗(yàn)中使用的良性域名和惡意域名的數(shù)據(jù)集.7個(gè)惡意域名數(shù)據(jù)集來(lái)自FKIE主導(dǎo)的DGArchive項(xiàng)目[22],從中挑選了4個(gè)基于字典的DGA家族以及3個(gè)非基于字典的DGA家族.另外基于大訪問(wèn)量網(wǎng)站不可能是DGA惡意域名的先驗(yàn)假設(shè),良性域名數(shù)據(jù)集選用了在Alexa上排名前30萬(wàn)的站點(diǎn)域名.實(shí)驗(yàn)中,我們將選擇Alexa作為良性域名樣本,Gozi,Nymaim2,Pizd,Suppobox這4個(gè)基于字典的DGA家族作為惡意域名樣本,后3個(gè)惡意域名數(shù)據(jù)集為非基于字典型DGA家族,目的是增加詞圖的大小與多樣性,以及提高特征向量維度.在選中的5個(gè)數(shù)據(jù)集中,我們隨機(jī)抽取20%的數(shù)據(jù)作為測(cè)試數(shù)據(jù)集,其余數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,并對(duì)良性域名和惡意域名進(jìn)行5倍交叉驗(yàn)證.

表2 數(shù)據(jù)集中良性域名與惡意域名數(shù)量

為了證明本文方法的有效性,通過(guò)字符統(tǒng)計(jì)特征的檢測(cè)方法與基于2-gram模型的檢測(cè)方法進(jìn)行對(duì)照.在對(duì)照實(shí)驗(yàn)中,我們使用了與本文方法相同的數(shù)據(jù)集以控制實(shí)驗(yàn)環(huán)境.

2.2 實(shí)驗(yàn)結(jié)果與分析

我們使用3個(gè)常用的指標(biāo)來(lái)描述模型對(duì)良性域名和惡意域名的識(shí)別能力,分別是Accuracy,Recall與F1值. Accuracy是正確預(yù)測(cè)的樣本數(shù)量與需要預(yù)測(cè)的樣本總數(shù)的比值,Recall是正確預(yù)測(cè)的惡意域名數(shù)量與實(shí)際惡意域總數(shù)的比值,F(xiàn)1值是Precision與Recall的調(diào)和平均值,Precision指模型預(yù)測(cè)為正的樣本中實(shí)際也為正的樣本占被預(yù)測(cè)為正的樣本的比例.

1) 針對(duì)4個(gè)DGA家族二分類(lèi)檢測(cè)能力

實(shí)驗(yàn)首先使用4個(gè)惡意域名數(shù)據(jù)集將本文方法與另外2組對(duì)照方法進(jìn)行二分類(lèi)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示:

表3 模型二分類(lèi)檢測(cè)4個(gè)DGA家族實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明:基于詞間關(guān)系的檢測(cè)模型在各個(gè)指標(biāo)上都優(yōu)于對(duì)照組模型.在F1值值上,詞間關(guān)系模型比字符統(tǒng)計(jì)特征模型高出3.45%,比2-gram模型高出2.84%.

2) 針對(duì)每個(gè)家族的F1值

實(shí)驗(yàn)使用1)中訓(xùn)練得到的模型,分別對(duì)4個(gè)DGA家族進(jìn)行檢測(cè),統(tǒng)計(jì)檢測(cè)結(jié)果的F1值如表4所示:

表4 每個(gè)家族實(shí)驗(yàn)結(jié)果的F1值

實(shí)驗(yàn)結(jié)果表明:詞間關(guān)系模型在大部分?jǐn)?shù)據(jù)集上都表現(xiàn)出優(yōu)于對(duì)照組模型的性能指標(biāo),在針對(duì)Suppobox家族的檢測(cè)上,詞間關(guān)系模型的F1值達(dá)到98.25%,相較于字符統(tǒng)計(jì)特征模型提高了8.06%,相較于2-gram模型提高了5.07%.但在針對(duì)Gozi家族的檢測(cè)上,基于詞間關(guān)系的檢測(cè)方法F1值卻僅為91.64%,低于字符統(tǒng)計(jì)特征模型2.91%,低于2-gram模型1.73%.經(jīng)過(guò)分析,原因是Gozi家族的域名生成字典來(lái)源于從指定網(wǎng)頁(yè)實(shí)時(shí)摘取的單詞,該方法會(huì)出現(xiàn)從網(wǎng)頁(yè)摘取的單詞并非完整的情況,進(jìn)而使得生成的DGA域名不具有自然語(yǔ)言的意義,再通過(guò)詞間關(guān)系模型對(duì)其進(jìn)行檢測(cè)將得到較差的性能指標(biāo).

2.3 實(shí)驗(yàn)總結(jié)

上述實(shí)驗(yàn)表明:在檢測(cè)性能上基于詞間關(guān)系的檢測(cè)方法在各項(xiàng)指標(biāo)都明顯優(yōu)于對(duì)照組方法.在進(jìn)行4個(gè)DGA家族的二分類(lèi)實(shí)驗(yàn)時(shí),基于詞間關(guān)系的檢測(cè)方法F1值為96.48%,相較于基于字符統(tǒng)計(jì)特征的方法提升了3.45%,相較于基于2-gram的檢測(cè)方法提升了2.84%.可以看出,本文方法在面對(duì)典型的字典型DGA域名時(shí)優(yōu)于傳統(tǒng)檢測(cè)方法,但對(duì)于字符熵較高的DGA域名的檢測(cè)性能相對(duì)傳統(tǒng)檢測(cè)方法較差.

3 結(jié) 語(yǔ)

本文提出一種基于惡意域名詞間關(guān)系的字典型DGA檢測(cè)方法,該方法首先利用分詞工具將域名分割成為表征域名組成的單詞詞組,進(jìn)而利用有權(quán)無(wú)向圖構(gòu)建該詞組所對(duì)應(yīng)的詞圖,并通過(guò)詞組中所包含單詞在詞圖中度中心性的變化來(lái)描述良性域名與惡意域名的差異.實(shí)驗(yàn)結(jié)果表明,基于惡意域名詞間關(guān)系的檢測(cè)方法在針對(duì)字典型DGA域名時(shí)檢測(cè)效果優(yōu)于其他模型,但在針對(duì)字符串熵值較高的DGA域名的檢測(cè)中還有一定的優(yōu)化空間.在接下來(lái)的研究中,將探索一種更為準(zhǔn)確的表征單詞在詞圖中關(guān)系的量化方式,并嘗試引入深度學(xué)習(xí)技術(shù),以進(jìn)一步提高模型的檢測(cè)性能.

猜你喜歡
域名詞組良性
走出睡眠認(rèn)知誤區(qū),建立良性睡眠條件反射
中老年保健(2022年6期)2022-08-19 01:41:22
呼倫貝爾沙地實(shí)現(xiàn)良性逆轉(zhuǎn)
如何購(gòu)買(mǎi)WordPress網(wǎng)站域名及綁定域名
基層良性發(fā)展從何入手
甲狀腺良性病變行甲狀腺全切除術(shù)治療的效果分析
騰訊八百萬(wàn)美元收購(gòu)域名
副詞和副詞詞組
頂級(jí)域名爭(zhēng)奪戰(zhàn):ICANN放出1930個(gè)通用頂級(jí)域名,申請(qǐng)者有上千家
呈贡县| 泰州市| 宝兴县| 车致| 虎林市| 侯马市| 太保市| 普安县| 防城港市| 平远县| 依兰县| 图木舒克市| 新平| 砀山县| 常德市| 文化| 卢龙县| 嘉荫县| 社会| 襄垣县| 康平县| 罗山县| 济宁市| 永新县| 莆田市| 诸暨市| 都匀市| 黎川县| 黎平县| 富阳市| 札达县| 上杭县| 留坝县| 垦利县| 庄浪县| 武威市| 南通市| 龙海市| 旌德县| 兴隆县| 黔西|