国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種通用的惡意域名檢測(cè)集成學(xué)習(xí)方法

2019-03-17 09:36:34劉浩杰皇甫道一李巖王濤
網(wǎng)絡(luò)空間安全 2019年9期
關(guān)鍵詞:集成學(xué)習(xí)

劉浩杰 皇甫道一 李巖 王濤

摘? ?要:僵尸網(wǎng)絡(luò)是指采用一種或多種傳播手段,將大量主機(jī)感染僵尸病毒,從而在主控者和被感染主機(jī)之間,通過(guò)命令控制服務(wù)器,形成一個(gè)一對(duì)多控制的網(wǎng)絡(luò)。攻擊者操縱僵尸網(wǎng)絡(luò)通常會(huì)使用多個(gè)域名來(lái)連接至C2服務(wù)器,達(dá)到操控受害者主機(jī)的目的。這些域名一般被硬編碼在惡意程序中,使得攻擊者能便捷地更改這些域名。為了躲避封禁,這些域名通常由域生成算法(Domain Generation Algorithms,DGA)生成。針對(duì)普遍的機(jī)器學(xué)習(xí)檢測(cè)DGA域名方式存在樣本不充分及通用型不強(qiáng)的問(wèn)題,文章在研究了大量DGA域名生成算法的基礎(chǔ)上進(jìn)一步完善黑白樣本,利用文本分析的手段結(jié)合GaussianHMM、LSTM、BernoulliNB模型提取具備普遍區(qū)分能力的特征,構(gòu)建一個(gè)具備低風(fēng)險(xiǎn)結(jié)構(gòu)的通用DGA檢測(cè)集成學(xué)習(xí)方法。

關(guān)鍵詞:僵尸網(wǎng)絡(luò);惡意域名;域名生成算法;集成學(xué)習(xí)

中圖分類號(hào):TP309? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

Abstract: Botnet refers to the use of one or more means of transmission, which will infect varieties of servers with zombie virus, therefore could result in a potential one to many control network between the controller and the infected servers. In order to gain the control of the infected servers, establishment of connections from multiple domains to C2 server would normally be used upon virus network. These domains could be programmed into codes, which could be easily changed by the hackers. To avoid being banned, these domains are normally generated by using Domain Generation Algorithms(DGA). Actually, some studies showed machine learning methods to cope with the issue mentioned. However, these methods does have issues such as insufficient samples and non-universal. This paper focus on the improvements of WriteBlack Sampling based on the fundamental of DGA by using text analysis in combination with GaussianHMM, LSTM, BernoulliNB. These models could effectively subtract the key features, therefore construct a low risk structured universally used DGA ensemble machine learning model.

Key words: botnet; malicious domain; domain generation algorithms; ensemble learning

1 引言

域名系統(tǒng)(Domain Name System)作為互聯(lián)網(wǎng)的核心基礎(chǔ)建設(shè)設(shè)施,主要是進(jìn)行域名解析,域名解析為可訪問(wèn)的互聯(lián)網(wǎng)IP地址,看似簡(jiǎn)單卻異常重要。隨著黑產(chǎn)的云化和人工智能化,互聯(lián)網(wǎng)的規(guī)模不斷擴(kuò)大,網(wǎng)絡(luò)出現(xiàn)漏洞和遭受黑產(chǎn)攻擊的可能性也越來(lái)越大。作為守方安全從業(yè)人員也面臨著愈加嚴(yán)峻的考驗(yàn),黑產(chǎn)攻擊手段推陳出新的同時(shí)互聯(lián)網(wǎng)安全防護(hù)技術(shù)也是亦步亦趨,形成了一場(chǎng)沒(méi)有硝煙、沒(méi)有終點(diǎn)的持久戰(zhàn)。在眾多的黑產(chǎn)攻擊技術(shù)當(dāng)中,僵尸網(wǎng)絡(luò)就是最常被采用的攻擊手段,例如連續(xù)導(dǎo)致美國(guó)和德國(guó)斷網(wǎng)的Mirai惡意軟件,便內(nèi)置了DGA域名生成算法,不僅感染控制了大量的攝像頭等互聯(lián)網(wǎng)終端設(shè)備組成僵尸網(wǎng)絡(luò),其自身還不斷出現(xiàn)新的變種。僵尸網(wǎng)絡(luò)采用不同的DGA算法生成大量的隨機(jī)域名,對(duì)傳統(tǒng)的防護(hù)手段帶來(lái)了極大的考驗(yàn)。

1.1 DGA生成原理

域名在構(gòu)造上可分為主機(jī)名和域名(頂級(jí)域名或二、三級(jí)域等),各Lable以點(diǎn)號(hào)分割,各Lable最長(zhǎng)63個(gè)字符,而且總長(zhǎng)度不能超過(guò)255。DGA域名在構(gòu)造上一般用隨機(jī)算法來(lái)生成主機(jī)名,因此只對(duì)DGA算法生成的主機(jī)名的字符串進(jìn)行分析。本次實(shí)驗(yàn)搜集了大量DGA生成算法的源碼,對(duì)每一種典型的生成方式進(jìn)行了觀察和研究。簡(jiǎn)單來(lái)說(shuō),DGA域名生成的原理是基于硬編碼的常量以及字典,通過(guò)加入一些隨機(jī)種子,利用一定的加密算法,生成一系列偽隨機(jī)字符串來(lái)作為域名,如圖1所示。

1.2 DGA相關(guān)研究

近年來(lái),隨著互聯(lián)網(wǎng)安全越來(lái)越被重視,網(wǎng)絡(luò)安全成了一個(gè)熱門的話題。大量的學(xué)者、企業(yè)安全從業(yè)人員對(duì)惡意域名進(jìn)行了深入研究。目前,針對(duì)惡意域名的檢測(cè)方法可以分為主動(dòng)分析和被動(dòng)分析兩種。主動(dòng)分析方法一般包括DNS探測(cè)、網(wǎng)頁(yè)內(nèi)容分析及人工專家模式分析。被動(dòng)分析包括黑白名單規(guī)則匹配、機(jī)器學(xué)習(xí)、圖論。理論上,DGA域名的數(shù)量是可以無(wú)限生成的,傳統(tǒng)的黑名單方式每增加一條域名黑名單,就意味著服務(wù)器會(huì)增加一份負(fù)擔(dān),因此使用機(jī)器學(xué)習(xí)的手段檢測(cè)來(lái)DGA域名成了對(duì)抗黑產(chǎn)的有效手段。傳統(tǒng)機(jī)器學(xué)習(xí)手段需要大量的特征提取,然后投入到傳統(tǒng)的機(jī)器學(xué)習(xí)模型對(duì)這些特征進(jìn)行分類。常用的機(jī)器學(xué)習(xí)算法有隨機(jī)森林、XGBoost、lightGBM、支持向量機(jī)、HMM等。深度學(xué)習(xí)方法將每個(gè)字符或N-Gram后的字符組合當(dāng)作一個(gè)特征,簡(jiǎn)化了特征轉(zhuǎn)換方式,利用復(fù)雜的神經(jīng)網(wǎng)絡(luò),主動(dòng)去學(xué)習(xí)各個(gè)字符上下文之間的關(guān)系。目前,主流的深度學(xué)習(xí)方法有LSTM、CNN、GAN。

Jonathan Woodbridge等人將N-Gram后的域名字符組合序列投入LSTM模型,分別用softmax和sigmoid作為網(wǎng)絡(luò)輸出層的激活函數(shù),形成多元分類模型和二元分類模型,并使用ROC曲線和F1得分等對(duì)模型進(jìn)行評(píng)估,取得了良好的效果[1]。Enrico Bocchi等人利用知識(shí)圖譜與網(wǎng)絡(luò)攻擊行為相結(jié)合,形成網(wǎng)絡(luò)連通圖,并利用無(wú)監(jiān)督學(xué)習(xí)對(duì)某個(gè)典型的惡意網(wǎng)絡(luò)行為進(jìn)行聚類,形成標(biāo)簽數(shù)據(jù)集。最后利用樹模型對(duì)知識(shí)圖譜和網(wǎng)絡(luò)行為挖掘的特征進(jìn)行分類,實(shí)現(xiàn)惡意域名檢測(cè)的目的[2]。張洋,柳廳文等人分析了主動(dòng)分析和被動(dòng)分析兩種模式,采用了機(jī)器學(xué)習(xí)的手段,從詞法特征和網(wǎng)絡(luò)屬性特征兩個(gè)方面,提出了一種基于多元屬性的20個(gè)特征惡意域名檢測(cè)方式,詞法方面有域名的長(zhǎng)度、數(shù)字的個(gè)數(shù)、大寫字母?jìng)€(gè)數(shù)、數(shù)字域名占比。網(wǎng)絡(luò)屬性方面有TTL平均值、A記錄個(gè)數(shù)、AS個(gè)數(shù)、NS個(gè)數(shù)、NS分散度等,并采用準(zhǔn)確率、召回率、F1值對(duì)隨機(jī)森林分類器對(duì)1662個(gè)域名的分類效果進(jìn)行評(píng)估[3]。牛晉平等人通過(guò)對(duì)僵尸網(wǎng)絡(luò)的綜述性研究,通過(guò)聚類方法對(duì)其查詢、攻擊的行為特征進(jìn)行分析,這種方法的好處是突破了基于域名文本特征檢測(cè)的瓶頸[4]。

2 完善樣本

目前,基于機(jī)器學(xué)習(xí)的被動(dòng)分析檢測(cè)模式成為了DGA檢測(cè)的主流。大多數(shù)研究者使用的特征提取方式和機(jī)器學(xué)習(xí)方法在各自數(shù)據(jù)集上能夠取得較高的評(píng)分,但是訓(xùn)練樣本往往是不充分的。具體表現(xiàn)在訓(xùn)練樣本的DGA家族覆蓋率較低,總量也較少,這樣使得訓(xùn)練樣本比較“單純”,模型也很容易取得較高的評(píng)分。事實(shí)上,每個(gè)DGA生成算法的代碼編寫習(xí)慣不同,生成的字符組成一般也是在給定的一些固定的隨機(jī)種子字符上下波動(dòng)。當(dāng)訓(xùn)練樣本中DGA家族數(shù)量較少或樣本分布高度集中的時(shí)候,機(jī)器學(xué)習(xí)方法很容易學(xué)習(xí)到某種潛在的規(guī)律,并取得非常低的經(jīng)驗(yàn)風(fēng)險(xiǎn)。然而,把這個(gè)模型應(yīng)用到陌生的DGA域名上時(shí),其召回率就會(huì)明顯縮水,這也說(shuō)明其結(jié)構(gòu)風(fēng)險(xiǎn)較高。

2.1 補(bǔ)充白樣本

Alexa每天在網(wǎng)上搜集的信息超過(guò)1000GB,給出多達(dá)幾十億的網(wǎng)址鏈接,而且為其中的每一個(gè)網(wǎng)站進(jìn)行排名,是當(dāng)前擁有URL數(shù)量最龐大、排名信息發(fā)布最詳盡的網(wǎng)站。本文使用Alexa全球排名前100萬(wàn)的網(wǎng)站域名作為訓(xùn)練白樣本的數(shù)據(jù)質(zhì)量是很合適的,但是在一些特殊的應(yīng)用領(lǐng)域,常用域名可能并沒(méi)有體現(xiàn)在這份數(shù)據(jù)當(dāng)中。因此對(duì)于如何補(bǔ)充訓(xùn)練白樣本,考慮用三種方式來(lái)實(shí)現(xiàn)。

(1)添加行業(yè)公司及行業(yè)域名:將公司自身各子系統(tǒng)域名,以及與公司業(yè)務(wù)相關(guān)的外部域名加入訓(xùn)練集白樣本。

(2)從站長(zhǎng)之家爬取國(guó)內(nèi)TOP5.7萬(wàn)的域名作為白樣本。

(3)加入牛津詞典中的英文詞匯作為訓(xùn)練白樣本。

2.2 補(bǔ)充黑樣本

在實(shí)驗(yàn)中發(fā)現(xiàn),循環(huán)神經(jīng)網(wǎng)絡(luò)具備十分強(qiáng)大的記憶和模擬能力。然而,即使模型對(duì)訓(xùn)練集和測(cè)試集都達(dá)到了99.7%的準(zhǔn)確度,但是當(dāng)把這個(gè)模型應(yīng)用到一個(gè)新的DGA算法生成的域名中測(cè)試,模型的召回率卻只有70%左右。這或許不是絕對(duì)的壞事,因?yàn)檫^(guò)高的召回率可能也意味著模型同樣具有較高的誤判率。理論上來(lái)說(shuō),由于每個(gè)人代碼的編寫習(xí)慣不同,通過(guò)使用不同的硬編碼、隨機(jī)種子和加密算法將會(huì)生成完全不同“風(fēng)格”的DGA域名。DGA域名的樣本空間幾乎是無(wú)限大的,但也不必過(guò)于沮喪,它們之間也必然存在著隱晦的潛在聯(lián)系,只要訓(xùn)練樣本愈加充分,機(jī)器學(xué)習(xí)模型也就會(huì)具有更加強(qiáng)壯。為了實(shí)現(xiàn)上述目的,研究者搜羅了Github上公開的40個(gè)僵尸網(wǎng)絡(luò)家族的DGA域名生成算法。其中360netlab重疊且數(shù)量較少的DGA家族,利用DGA生成算法將該家族訓(xùn)練樣本補(bǔ)充至20000,同時(shí)針對(duì)360netlab中不存在的DGA域名家族,生成20000新樣本用于模型的訓(xùn)練。

2.3 樣本調(diào)整

不同的DGA算法會(huì)有一定概率生成相同DGA域名,一個(gè)域名在黑樣本中可能會(huì)出現(xiàn)多次。在實(shí)際使用當(dāng)中可以根據(jù)從正負(fù)樣本均衡的情況和樣本的重要性綜合考慮是否去重。

對(duì)于黑白樣本中都有的域名,按照其重要性來(lái)決定其標(biāo)簽。如某個(gè)域名在某個(gè)DGA家族出現(xiàn)過(guò)一次,同時(shí)在公司及相關(guān)行業(yè)域名白名單中也存在,將該域名定義為白樣本;若是與英文詞匯中某個(gè)詞匯重疊,將其視為黑樣本來(lái)看待。同時(shí),將DGA域名家族添加到73個(gè),豐富黑樣本的同時(shí)也緩解了樣本不均衡的問(wèn)題,最終調(diào)整后的樣本分布如表1所示。

3 特征工程

從文本分析的角度去區(qū)分正常域名和異常域名,有兩個(gè)方向:一是,提取組成域名每個(gè)字母的統(tǒng)計(jì)指標(biāo),然后投入一個(gè)分類器去訓(xùn)練;二是,將一個(gè)字符或相鄰的幾個(gè)字符看作一個(gè)狀態(tài),把整個(gè)組成域名的字符組合當(dāng)作一個(gè)序列去訓(xùn)練出一個(gè)狀態(tài)轉(zhuǎn)換模型,從而計(jì)算出一個(gè)是否為DGA域名的概率評(píng)分。研究者希望訓(xùn)練一個(gè)盡可能通用的DGA檢測(cè)模型,因此在提取特征的時(shí)候也應(yīng)該充分考慮特征的通用型,即對(duì)大多數(shù)DGA域名具備區(qū)分能力。

3.1 統(tǒng)計(jì)特征提取

人眼去區(qū)分正常域名和DGA域名時(shí),看起來(lái)比較“順眼”會(huì)覺(jué)的更“像”是正常域名 , 如 google.com, youtube.com。正常人在取域名的時(shí)候,通常會(huì)選取比較貼合業(yè)務(wù)的幾個(gè)順口的單詞組合,具備好讀、好記、有一定含義這些特點(diǎn)。而DGA域名由隨機(jī)種子結(jié)合一定的算法生成,組成主機(jī)名的字符串大多不可讀,順序混亂且隨機(jī)性較強(qiáng),與正常域名存在一定差異。

3.1.1 域名長(zhǎng)度

大多數(shù)正常域名都不會(huì)太長(zhǎng),太長(zhǎng)的話也不符合好記這個(gè)條件。在隨機(jī)種子長(zhǎng)度不變的情況下,大多數(shù)DGA算法生成的域名長(zhǎng)度是固定的,由于不同的DGA生成算法,不同的攻擊者所設(shè)置的隨機(jī)種子長(zhǎng)度不同,生成的DGA域名長(zhǎng)度也不同。這里將域名長(zhǎng)度表示為|d|。

3.1.2 域名元輔音字母占比

出于“好讀”的目的,正常的域名元音字母的比例會(huì)比較高,輔音字母的比例比較低;而隨機(jī)生成的DGA域名則相反。

(1)元音字母占比:

其中|d|為域名字符長(zhǎng)度,Count(d,Vowel),為元音字母?jìng)€(gè)數(shù)。

(2)輔音字母占比

其中Count(d,Consonant)為輔音字母?jìng)€(gè)數(shù)。

3.1.3 域名字符去重后數(shù)量占比

去重后的字母?jìng)€(gè)數(shù)與域名長(zhǎng)度的比例,從某種程度上反映了域名字符組成的統(tǒng)計(jì)特征[5]。

其中|Distinct(d)|為域名字符去重后的長(zhǎng)度。

3.2 域名N-gram切割后的衍生特征

N-Gram方法常用語(yǔ)自然語(yǔ)言處理,常用于計(jì)算基于N-Gram模型定義的字符串距離,利用N-Gram模型評(píng)估語(yǔ)句是否合理等。N-Gram中N的取值為{1,2,3,4,5...},利用N-Gram對(duì)域名進(jìn)行切割,然后統(tǒng)計(jì)切割后的字符組合分別在黑白域名集合中出現(xiàn)的概率。域名忽略字母的大小寫,并將數(shù)字全部泛化為0后,由{.,_,-,0,a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z}共30個(gè)有效字符組成,這時(shí)可能的字符組合的維度為30n。當(dāng)n取值過(guò)高時(shí),特征空間的維度爆炸式增長(zhǎng),對(duì)LSTM、HMM這類需要計(jì)算狀態(tài)轉(zhuǎn)換矩陣的算法來(lái)說(shuō),則需要海量的樣本去消化這些特征,也就是說(shuō)n的取值越高模型過(guò)擬合的風(fēng)險(xiǎn)也就越高,越需要大量的訓(xùn)練樣本。由于正常域名的長(zhǎng)度一般也不會(huì)很長(zhǎng),因此n取值為2或3時(shí)比較適宜。以google為例,2-Gram后的字符組合集合為Set(google)={go,oo,og,gl,le}。

抽象成數(shù)學(xué)語(yǔ)言,有如下表示:

(1)d:域名;

(2)D:域名集合;

(3)Set(d):域名 N-Gram 切割后的字符集合;

(4)Positive:正常域名集合;

(5)Negative:DGA域名集合;

(6)Total:全體域名集合;

(7)Count(d,D):N-Gram切割后的字符集合Set(d)元素在域名集合D中出現(xiàn)的次數(shù)和;

(8)Statistic(d,D):域名集合D中包含Set(d)元素的域名個(gè)數(shù)和。

根據(jù)上述表達(dá),提取N-Gram衍生特征圖表示:

(1)域名N-Gram DGA頻率可表示為公式:

(2)域名N-Gram逆向文本頻率(IDF):

(3)域名N-Gram DGA詞性比例:

(4)域名N-Gram正常詞性比例:

3.3 平均HMM系數(shù)

將組成域名的每個(gè)字符轉(zhuǎn)換成對(duì)應(yīng)的ASCII碼作為該字符的狀態(tài)表示,如google等,轉(zhuǎn)換成形如[103,111,111,103,108,101],長(zhǎng)度為6的向量表達(dá)。然后使用默認(rèn)參數(shù)的GaussianHMM模型,用白找黑的思想訓(xùn)練正樣本,并將訓(xùn)練后的GaussianHMM模型應(yīng)用于待測(cè)域名,計(jì)算出一個(gè)HMM系數(shù),然后利用準(zhǔn)確率、召回率和F1得分分別對(duì)訓(xùn)練集及測(cè)試集進(jìn)行評(píng)估。這里用到了10萬(wàn)個(gè)白樣本,設(shè)置閾值后改模型表現(xiàn)如表2所示。

可見HMM作為區(qū)分DGA域名的一個(gè)變量,具備一定的區(qū)分能力,但進(jìn)一步提升效果還需要增加變量。

3.4 樸素貝葉斯系數(shù)

常用的樸素貝葉斯(Naive Bayesian)算法有三種,分別為GaussianNB、MultinomialNB和BernoulliNB。域名進(jìn)行2-Gram切割后的特征向量維度為900,對(duì)這900個(gè)不同的字符組合建立詞袋模型,利用詞袋模型將每個(gè)域名轉(zhuǎn)換成特征向量。由于面對(duì)的是稀疏的二元離散特征向量,所以采用BernoulliNB算法,它假設(shè)特征的先驗(yàn)概率為二元伯努利分布,如下式:

其中Ck為Y的類別,這里為0或1,分別代表正常域名和DGA域名。同樣,xjl也取值為0和1。

本文使用Scikit-learn中的BernoulliNB算法,對(duì)隨機(jī)抽取的100萬(wàn)正負(fù)樣本進(jìn)行訓(xùn)練,然后分別利用準(zhǔn)確率、召回率和F1得分對(duì)訓(xùn)練集及測(cè)試集進(jìn)行評(píng)估,如表3所示。

3.5 LSTM系數(shù)

長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),它解決了簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)(RNN)存在的長(zhǎng)序列訓(xùn)練過(guò)程中的梯度消失和梯度爆炸的問(wèn)題。相比于簡(jiǎn)單的RNN,LSTM能夠再更長(zhǎng)的序列中有更好的表現(xiàn)。LSTM非常適合大規(guī)模數(shù)據(jù)的訓(xùn)練,具備異常強(qiáng)大的模擬能力,理論上能以任意精度擬合任意復(fù)雜度的函數(shù),充分學(xué)習(xí)到域名序列中上下文之間的潛在關(guān)聯(lián)。這里使用了Keras深度學(xué)習(xí)模型包對(duì)2-Gram后的構(gòu)建循環(huán)神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如表4所示。

隨著樣本的豐富和多元化,僅用一個(gè)全鏈接層的擬合效果并不是非常理想。因此,本文在在LSTM層和最后的全鏈接層中間添加了一個(gè)32節(jié)點(diǎn)的全鏈接層,同時(shí)加入兩個(gè)Dropout層進(jìn)一步降低網(wǎng)絡(luò)結(jié)構(gòu)風(fēng)險(xiǎn)。最后以Sigmoid函數(shù)作為輸出層的激活函數(shù),將全部3036228個(gè)樣本投入LSTM模型,并利用準(zhǔn)確率、召回率和F1得分分別對(duì)訓(xùn)練集及測(cè)試集進(jìn)行評(píng)估,如表5所示。

4 集成學(xué)習(xí)方法

為了模型能有更好的魯棒性,本文采用集成學(xué)習(xí)方法,基于訓(xùn)練樣本、特征提取和模型結(jié)構(gòu)三個(gè)方面的優(yōu)化,提出了一種具有高魯棒性的惡意域名檢測(cè)方法,如圖2所示。

4.1 關(guān)于模型風(fēng)險(xiǎn)評(píng)估

很多時(shí)候?yàn)榱说刈非竽P驮u(píng)分的好看而誤入歧途,忽略了模型的魯棒性,事實(shí)上,尤其是當(dāng)訓(xùn)練樣本較少時(shí),模型是非常容易過(guò)擬合的。關(guān)于模型的選擇,監(jiān)督學(xué)習(xí)有兩種策略,分別是最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和最小化結(jié)構(gòu)風(fēng)險(xiǎn)。

(1)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)

這里L(fēng)(x)為經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù),Θ為模型的參數(shù);

當(dāng)樣本量較少時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化模型極易發(fā)生過(guò)擬合,尤其是樹家族模型和模擬能力非常強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型。

(2)最小化結(jié)構(gòu)風(fēng)險(xiǎn)

其中λ表示懲罰系數(shù),J(f)表示模型結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)。于是,選擇最佳模型就成了如何平衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)的問(wèn)題。

4.2 實(shí)驗(yàn)結(jié)果

結(jié)合上節(jié)的特征工程提取的八個(gè)統(tǒng)計(jì)特征和三個(gè)模型系數(shù)特征分別訓(xùn)練隨機(jī)森林、SVM、邏輯回歸二元分類器,形成集成方法。實(shí)驗(yàn)結(jié)果表明,集成后的方法相比單個(gè)HMM、BernoulliNB和LSTM模型具有更高的準(zhǔn)確率和召回率,同時(shí)泛化能力和通用型也得到了提升,如表6所示。

5 結(jié)束語(yǔ)

DGA域名樣本沒(méi)有絕對(duì)的黑和白,多數(shù)人看起來(lái)毫無(wú)邏輯的域名也有可能被注冊(cè)為正常的域名使用。同樣的,實(shí)踐證明DGA生成算法也有一定概率生成Aleax網(wǎng)站TOP排名完全相同的域名。因此一味追求模型的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小并非最佳的解決方案。與國(guó)內(nèi)外學(xué)者針對(duì)DGA域名檢測(cè)動(dòng)輒0.999的準(zhǔn)確率相比,本文覆蓋更多的DGA域名家族和域名白樣本,融合多個(gè)模型預(yù)測(cè)系數(shù)再加上多元統(tǒng)計(jì)特征和N-Gram衍生特征,利用懲罰系數(shù)令每個(gè)特征對(duì)最終的結(jié)果都作出一部分貢獻(xiàn),從而達(dá)到降低模型結(jié)構(gòu)風(fēng)險(xiǎn)的目的。因此,針對(duì)國(guó)內(nèi)企業(yè)生產(chǎn)場(chǎng)景更具備普遍適用性。

參考文獻(xiàn)

[1]? Woodbridge J ,? Anderson H S ,? Ahuja A , et al. Predicting Domain Generation Algorithms with Long Short-Term Memory Networks[J].? 2016.

[2]? Bocchi E , Grimaudo L , Mellia M , et al. MAGMA network behavior classifier for malware traffic[J]. Computer Networks, 2016:S1389128616300949.

[3]? 張洋,柳廳文,沙泓州,等.基于多元屬性特征的惡意域名檢測(cè)[J].計(jì)算機(jī)應(yīng)用,2016, 36(4):941-944.

[4]? 牛晉平,袁林.僵尸網(wǎng)絡(luò)及檢測(cè)技術(shù)探索[J].軟件工程, 2016,19(4):16-18.

[5]? 劉焱.Web安全之機(jī)器學(xué)習(xí)入門[M].北京:機(jī)械工業(yè)出版社, 2017.126

[6]? 張永斌,陸寅,張艷寧.基于組行為特征的惡意域名檢測(cè)[J].計(jì)算機(jī)科學(xué),2012,40(8).

[7]? 黃凱,傅建明,黃堅(jiān)偉,李鵬偉.一種基于字符及解析特征的惡意域名檢測(cè)方法[J].計(jì)算機(jī)仿真,2018,35(03):287-292.

[8]? 蔡冰,馬旸,王林汝.一種惡意域名檢測(cè)技術(shù)的研究與實(shí)現(xiàn)[J].江蘇通信,2015, 31(4):59-62.

[9]? 臧小東,龔儉,胡曉艷.基于AGD的惡意域名檢測(cè)[J].通信學(xué)報(bào), 2018,v.39;No.373(7):19-29.

[10]? Mowbray M, Hagen J. Finding Domain-Generation Algorithms by Looking at Length Distribution[C]// IEEE International Symposium on Software Reliability Engineering Workshops. 2014.

[11]? Abbink J . Popularity-based Detection of Domain Generation Algorithms: Or: How to detect botnets?[C]// International Conference on Availability. ACM, 2017.

[12]? 楊佳寧,陳柯宇,曹凱,郭嫻.工業(yè)互聯(lián)網(wǎng)安全態(tài)勢(shì)感知核心技術(shù)分析[J].網(wǎng)絡(luò)空間安全,2019,10(04):61-66.

作者簡(jiǎn)介:

劉浩杰(1992-),男,漢族,安徽阜陽(yáng)人,南京大學(xué),學(xué)士,蘇寧科技集團(tuán),算法研究員;主要研究方向和關(guān)注領(lǐng)域:網(wǎng)絡(luò)安全、滲透測(cè)試、人工智能與機(jī)器學(xué)習(xí)。

皇甫道一(1990-),男,漢族,江蘇淮安人,南京郵電大學(xué),學(xué)士,蘇寧科技集團(tuán)高級(jí)工程師;主要研究方向和關(guān)注領(lǐng)域:應(yīng)用安全、安全AI、企業(yè)安全建設(shè)。

李巖(1994-),男,漢族,河南南陽(yáng)人,江蘇科技大學(xué),碩士,蘇寧科技集團(tuán),工程師;主要研究方向和關(guān)注領(lǐng)域:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、Web應(yīng)用安全。

王濤(1990-),男,漢族,河南駐馬店人,合肥工業(yè)大學(xué),學(xué)士,蘇寧科技集團(tuán),高級(jí)技術(shù)經(jīng)理;主要研究方向和關(guān)注領(lǐng)域:Web安全、安全管理。

猜你喜歡
集成學(xué)習(xí)
一種不平衡數(shù)據(jù)集成分類方法
機(jī)器學(xué)習(xí)隨機(jī)森林算法的應(yīng)用現(xiàn)狀
不平衡數(shù)據(jù)分類問(wèn)題解決辦法
基于集成學(xué)習(xí)改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)的手寫字符識(shí)別
基于阿里巴巴大數(shù)據(jù)重復(fù)購(gòu)買預(yù)測(cè)的實(shí)證研究
基于集成學(xué)習(xí)的房?jī)r(jià)預(yù)測(cè)模型
基于局部有效性的選擇性決策樹集成
基于集成學(xué)習(xí)的高送轉(zhuǎn)股票研究
基于稀疏編碼器與集成學(xué)習(xí)的文本分類
基于屬性權(quán)重的Bagging回歸算法研究
东乡族自治县| 四川省| 新密市| 上虞市| 和田县| 安溪县| 姚安县| 内黄县| 阿瓦提县| 莒南县| 和静县| 德清县| 东阿县| 岳阳县| 文昌市| 冷水江市| 通海县| 剑川县| 定结县| 东方市| 东丰县| 红桥区| 镇康县| 喜德县| 许昌县| 清苑县| 江华| 汝城县| 深州市| 拉孜县| 文水县| 舟山市| 乐陵市| 县级市| 西乌珠穆沁旗| 福泉市| 遵化市| 启东市| 普兰店市| 铜山县| 交城县|