国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)聯(lián)增強的網(wǎng)絡(luò)威脅情報技戰(zhàn)術(shù)分類

2022-03-29 03:05葛文翰王俊峰唐賓徽于忠坤陳柏翰
關(guān)鍵詞:分類器技戰(zhàn)術(shù)戰(zhàn)術(shù)

葛文翰, 王俊峰, 唐賓徽, 于忠坤, 陳柏翰, 余 堅

(1.四川大學(xué)計算機學(xué)院, 成都 610065; 2. 四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院, 成都 610065)

作為網(wǎng)絡(luò)分析知識的重要信息來源渠道,網(wǎng)絡(luò)威脅情報(Cyber Threat Intelligence, CTI)可以將零碎的信息組織成“基于證據(jù)的現(xiàn)有或新興知識”[1].這些零碎的證據(jù)信息, 也稱妥協(xié)指標(biāo)(Indicators of Compromise, IoCs)[2],可以幫助建立完整的網(wǎng)絡(luò)攻擊場景模型.目前比較認(rèn)可的對IoCs信息的分級主要是由David提出的IoCs價值和成本測量系統(tǒng):“痛苦金字塔模型”(Pyramid of Pain, PnP)[3].其中IoCs等級的增加標(biāo)志著其價值和獲取難度的同步增加.根據(jù)PnP的描述,直觀的IoCs信息,比如IP地址或Hash值等,屬于金字塔較低層次.這類信息通常具有相似結(jié)構(gòu)或相似特征.而處在金字塔層級較高的是比較抽象的信息,比如惡意軟件、工具、網(wǎng)絡(luò)結(jié)構(gòu)等.這類信息一般由多種描述方式,例如名稱、行為、Hash甚至作者,造成CTI描述的多樣性.

經(jīng)過多年發(fā)展,較為低級的IoCs信息已經(jīng)能夠被有效識別[2,4-6].部分較高等級的IoCs信息也能通過使用機器學(xué)習(xí)進(jìn)行有效分析.Jang等[7]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)通過代碼特征圖分類惡意軟件.Deliu等[8]通過支持向量機(Support Vector Machines, SVM)和潛在Dirichlet分解抽取惡意工具.

針對當(dāng)前TTPs分類效果差、不平均,人工關(guān)系不明確的問題,本文提出使用基于關(guān)聯(lián)增強的技戰(zhàn)術(shù)分類模型RENet.該模型使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional Recurrent Neural Networks, BiRNN)和CNN作為基礎(chǔ)分類器,并通過使用可自我學(xué)習(xí)和優(yōu)化的技戰(zhàn)術(shù)關(guān)聯(lián)矩陣為引導(dǎo)的關(guān)聯(lián)增強模塊增強技術(shù)分類的效果.本文對RENet就中英文分別進(jìn)行了工具化并開源到Github上(https:// github.com/MuscleFish/RENet),以供其他需求者使用.

2 相關(guān)工作

網(wǎng)絡(luò)威脅報告(Cyber Treat Reports, CTR)是CTI中的一類情報.這類情報主要由人工撰寫的安全文章、博客或其他文本組成[11].與之前的結(jié)構(gòu)化數(shù)據(jù)相比,CTR由于由多人撰寫發(fā)布,不具備預(yù)定義且完整的描述規(guī)則或行文格式,因此被普遍認(rèn)為是非結(jié)構(gòu)化文本.隨著網(wǎng)絡(luò)安全事件的發(fā)生頻率越來越高,大量的CTR和安全事件被各大安全公司和安全專家披露.在這種情況下,使用CTR作為安全知識信息庫的情報來源,無疑是一種有效選擇.

智能分析CTR的方法普遍分為兩種:信息抽取(Information Extraction,IE)和分類方法.IE的目標(biāo)是通過篩選和查找具有特定語義的信息完成信息的檢索工作[2].在傳統(tǒng)的網(wǎng)絡(luò)安全分析中,基于規(guī)則的方法擅長處理信息完整的結(jié)構(gòu)化數(shù)據(jù),如日志[16]和網(wǎng)絡(luò)流量[17].基于規(guī)則的方法[18]可以在特定的結(jié)構(gòu)或模式中優(yōu)先識別特定的數(shù)據(jù),同時保證其方法具有較好的通用性.IP地址、Hash和URLs是比較常見的結(jié)構(gòu)化數(shù)據(jù),圍繞這部分?jǐn)?shù)據(jù)的工作已有很多[2,4-6].命名實體識別(Named Entity Recognition,NER)[19]是目前較為主流的IE全監(jiān)督學(xué)習(xí)方法.通過該方法,絕大多數(shù)的IoCs信息能夠被結(jié)構(gòu)化為特定的結(jié)構(gòu)信息方便存取[14].但因為IoCs的高級信息的多描述、跨語句的特性,NER并不能適用于此類信息抽取的場景.

分類方法是智能分析CTR的另一種方法,其特點在于對全局信息的把控而非對局部信息的抽取.因此現(xiàn)有分類方法對CTR的高級IoCs或全局信息的識別和定義能力明顯強于IE.Wang等[20]使用TextCNN識別源代碼.Zhao等[21]使用全連接神經(jīng)網(wǎng)絡(luò)(Fully-Connected Neural Network, FC-NN)判別網(wǎng)絡(luò)文章是否屬于CTI情報.Grisham等[22]使用RNN從CTI中識別惡意代碼.Dang等[23]使用BiLSTM-CNN的方式分類惡意軟件.

作為PnP所定義的最高級的IoCs,TTPs在分析CTI的過程中扮演了串聯(lián)事件、還原攻擊的作用[9].當(dāng)前針對TTPs的分析框架主要包括攻擊鏈[24]、網(wǎng)絡(luò)攻擊生命周期[25]和ATT&CK[26].由于ATT&CK較新且描述完整,目前大多數(shù)分析工作普遍圍繞ATT&CK和其結(jié)構(gòu)化描述框架STIX[14]開展.ActionMiner[13]和TTPDrill[12]作為從CTR分析TTPs的工具,采用的是結(jié)構(gòu)化STIX信息作為抽取技術(shù)的關(guān)鍵.其方法圍繞抽取特定的關(guān)鍵細(xì)節(jié)為藍(lán)本,構(gòu)造對特殊詞匯的技術(shù)描述.雖然其出具結(jié)果比較優(yōu)秀,但一方面這個過程過多依賴專家經(jīng)驗導(dǎo)致效果難以復(fù)現(xiàn),另一方面此二者無法有效分析比技術(shù)更加抽象的戰(zhàn)術(shù)信息.正是由于發(fā)現(xiàn)了這個事實,Seifert 提出開源TTPs分析工具rcATT[11].該工具使用以SVM為主的機器學(xué)習(xí)作為分類TTPs的核心,雖然能夠有效解決人工分析的壓力,但由于其在戰(zhàn)術(shù)和技術(shù)上的分類效果較差且差距過大,導(dǎo)致其分析結(jié)果并不十分可信.

值得注意的是,ATT&CK所制定的技戰(zhàn)術(shù)具有嚴(yán)格的從屬劃分,對于特定的技術(shù),一般只出現(xiàn)于1~2個戰(zhàn)術(shù)中.正是考慮到這點,rcATT合理運用該關(guān)系修正了部分分類效果,但是該成果并不顯著.其原因可能是人工定義的關(guān)系和迭代閾值不能精確區(qū)分和劃分技戰(zhàn)術(shù)關(guān)系的重要性區(qū)間和迭代值,造成一定程度的無法進(jìn)化.rcATT選擇的技術(shù)增強是典型的后處理,通過將戰(zhàn)術(shù)分類結(jié)果輸入SVM分類器作為特征進(jìn)行技術(shù)分類,其假設(shè)的條件是戰(zhàn)術(shù)分類結(jié)果正確且關(guān)系正確.雖然提高了技術(shù)的部分準(zhǔn)確性但效果不可逆,即技術(shù)的分類推導(dǎo)無法提高戰(zhàn)術(shù)分類效果.

因此本文考慮使用多任務(wù)分類模型作為抽取技戰(zhàn)術(shù)信息的模型.該模型將同時訓(xùn)練技戰(zhàn)術(shù)分類,并在分類過程中對技術(shù)分類的效果產(chǎn)生指導(dǎo),合理優(yōu)化技戰(zhàn)術(shù)關(guān)系,提高技戰(zhàn)術(shù)分類準(zhǔn)確性.

3 方法原理

作為多標(biāo)簽深度學(xué)習(xí)模型,RENet主要包含兩個任務(wù):一個是多標(biāo)簽分類任務(wù);另一個是使用關(guān)聯(lián)增強修正技術(shù)的分類結(jié)果.本章節(jié)將就上述兩個目標(biāo)做數(shù)學(xué)推導(dǎo)和模型結(jié)構(gòu)說明.

3.1 模型結(jié)構(gòu)

圖1展示了RENet的網(wǎng)絡(luò)模型結(jié)構(gòu).RENet主體分為兩個相互獨立分類器,一個管理戰(zhàn)術(shù)分類,另一個管理技術(shù)分類.其獨立性體現(xiàn)在兩個模型的權(quán)重和層的不共享.在分類器尾部RENet使用關(guān)聯(lián)增強的方式將戰(zhàn)術(shù)的分類效果遷移至技術(shù)分類器上共同維護(hù)技術(shù)的分類效果.

圖1 RENet網(wǎng)絡(luò)結(jié)構(gòu)與數(shù)學(xué)表達(dá)對應(yīng)關(guān)系Fig.1 RENet network structure and mathematical expression correspondence

3.2 技戰(zhàn)術(shù)分類器

RENet的分類器是由BiRNN[27]和CNN共同組成的TextRCNN模型[28].分類器通過式(1)完成分類任務(wù).該任務(wù)要求分類器Cls根據(jù)文檔D推導(dǎo)其標(biāo)簽列表L.因此Cls的方法實際上是一個由D到L的映射.

Cls:D→L

(1)

事實上,通常文檔D是由單詞詞匯W組成的,通過合理表征W就能夠合理表示D的特征.而單詞W的表征,一般通過詞嵌入學(xué)習(xí)的方式獲取其詞向量SW.同時對標(biāo)簽L列表的表示也可以通過其概率模型PL表示.因此式(1)也可以被表示成式(2).

Cls:SW→PL

(2)

(3)

(4)

(5)

式(6)負(fù)責(zé)將所有的k-gram特征SW(k)合并為一個特征SD,該特征將表示原本文檔D的特征.

SD=[SW(1);SW(2);…;SW(k)]

(6)

通過使用式(7),文檔特征向量SD將轉(zhuǎn)化為標(biāo)簽概率PL.其中WL和bL分別是其權(quán)重和偏移量.σ是sigmoid激活函數(shù).

PL=σ(WLSD+bL)

(7)

通過實現(xiàn)式(3)~(7),式(2)得以實現(xiàn).由于RENet存在獨立的技戰(zhàn)術(shù)分類器,因此技術(shù)和戰(zhàn)術(shù)的分類將被分別描述為式(8)和式(9).

Clstech:SW→PLtech

(8)

Clstact:SW→PLtact

(9)

3.3 關(guān)聯(lián)增強

(10)

(11)

(12)

4 算法仿真與實驗結(jié)果

本文基于ATT&CK知識庫數(shù)據(jù),我們將使用ATT&CK技戰(zhàn)術(shù)數(shù)據(jù)就RENet和其他常用CTI分析模型作比較,以驗證RENet在分類TTPs上的效果.

4.1 實驗準(zhǔn)備

本文使用的數(shù)據(jù)源為MITRE公司官方網(wǎng)站提供的針對ATT&CK V8語句公開標(biāo)注.表1展示了Mitre官網(wǎng)[26]針對技術(shù)T1548.002的描述實例參考.通過數(shù)據(jù)清洗和去重后形成對14個戰(zhàn)術(shù)和184個主要技術(shù)的6504條描述語句.并通過翻譯和校對的方式形成了帶有技戰(zhàn)術(shù)標(biāo)簽的中英文數(shù)據(jù)集.各數(shù)據(jù)集將按照6∶4的比例被分割為訓(xùn)練集和測試集.由于技戰(zhàn)術(shù)分類是多標(biāo)簽分類,本文將使用Precision-Recall和F_β分?jǐn)?shù)為評價指標(biāo)[29].針對該數(shù)據(jù)集文本,使用Bert[30]作為其預(yù)訓(xùn)練詞嵌入模型.

為有效分析RENet的分類效果,如下模型將被作為橫向?qū)Ρ葘嶒?所有對比模型均被設(shè)計為和RENet類似的多任務(wù)模型.

(1) rcATT: rcATT[11]作為目前全監(jiān)督技戰(zhàn)術(shù)分類的模型,在使用以線性SVM為分類器時能夠達(dá)到其最好的結(jié)果.

表1 ATT&CK官網(wǎng)對技術(shù)T1548.002的語句標(biāo)注

(2) FC-NN: FC-NN作為Zhao[25]判別網(wǎng)絡(luò)文章是否屬于CTI的分類器的核心,在本文的實驗中將被重構(gòu)為多標(biāo)簽技戰(zhàn)術(shù)分類模型.

(3) TextCNN: 在Wang[24]的實驗中,TextCNN被用于識別源代碼的分類,并取得了不錯的效果.因此本文選擇使用經(jīng)過技戰(zhàn)術(shù)分類的TextCNN作為對比模型.

(4) BiRNN: Grisham[26]使用RNN模型作為從CTI中分類惡意代碼的方式.BiRNN[31]在RNN的基礎(chǔ)上使用雙向機制講古抽取上下文信息.在本文中將使用BiRNN作為對比模型之一.

(5) BiRNN-CNN: 作為BiRNN和CNN 的混合模型,該模型兼顧了RNN在上下文記憶和CNN在高維抽象上的優(yōu)勢,因此,在Dang[27]的實驗中表現(xiàn)良好.

(6) TextRCNN: TextRCNN[28]是RENet分類器的核心.設(shè)計目標(biāo)是驗證在沒有使用關(guān)聯(lián)增強的前提下,TextRCNN的分類結(jié)果能否與RENet相同.以此驗證關(guān)聯(lián)增強的有效性和必要性.

RENet的關(guān)聯(lián)分析矩陣P(ltech,i|ltact,j)同時具備人工初始化和自我訓(xùn)練優(yōu)化的優(yōu)點,因此本文將設(shè)計如下變種用來驗證不同關(guān)系初始化和優(yōu)化方式對技戰(zhàn)術(shù)分類效果的影響.這些變種主要包括:

(1) 0-RENet: 該模型使用未經(jīng)過人工初始化的關(guān)聯(lián)轉(zhuǎn)移矩陣,其所有P(ltech,i|ltact,j)均初始化為0.其設(shè)計目的在于檢驗?zāi)P湍芊窀咦陨硇枰O(shè)計技戰(zhàn)術(shù)關(guān)系實現(xiàn)分類

(2) a-RENet: 該模型使用經(jīng)過人工初始化的技戰(zhàn)術(shù)關(guān)聯(lián)關(guān)系.人工初始化關(guān)系我們參考ATT&CK官網(wǎng),對每個有從屬關(guān)系的技戰(zhàn)術(shù)P(ltech,i|ltact,j)賦值0.1.

(3) la-RENet: 該模型同樣適用人工初始化的技戰(zhàn)術(shù)關(guān)系為關(guān)聯(lián)轉(zhuǎn)移條件.與a-RENet不同的是,其關(guān)系是鎖定的.這意味著關(guān)系不會隨著訓(xùn)練的進(jìn)行改變.該模型的設(shè)計是目標(biāo)是檢測從屬關(guān)系是否為技戰(zhàn)術(shù)主要關(guān)系.

表2~表5分別展示了RENet變種與對比模型在中英文數(shù)據(jù)集上對技戰(zhàn)術(shù)分類測試集的結(jié)果.

表2 中文數(shù)據(jù)集戰(zhàn)術(shù)分類結(jié)果

表3 中文數(shù)據(jù)集技術(shù)分類結(jié)果

表4 英文數(shù)據(jù)集戰(zhàn)術(shù)分類結(jié)果

表5 英文數(shù)據(jù)集技術(shù)分類結(jié)果

根據(jù)表2~表5結(jié)果可以產(chǎn)生如下推論.

(1) RENet、BiRNN-CNN和TextRCNN在總體分析結(jié)果上優(yōu)于單獨使用TextCNN或BiRNN.這說明RENet、BiRNN-CNN和TextRCNN能夠有效兼顧RNN和CNN的優(yōu)勢.

(2) 使用關(guān)聯(lián)增強的RENet無論是在戰(zhàn)術(shù)的分類還是技術(shù)的分類上都優(yōu)于不用關(guān)聯(lián)增強的TextRCNN.這說明關(guān)聯(lián)增強起到了一定的作用.

(3) 經(jīng)過人工關(guān)系初始化的a-RENet和la-RENet比未經(jīng)過初始化的0-RENet表現(xiàn)效果好.其原因可能是在訓(xùn)練的初期引入了較少的誤差使得模型能夠獲得并學(xué)習(xí)更加有效且準(zhǔn)確的參數(shù).

(4) la-RENet比a-RENet的效果好.可能是由于技戰(zhàn)術(shù)的關(guān)系主要以ATT&CK所定義的從屬關(guān)系為主,同時鎖定的關(guān)系能夠進(jìn)一步降低訓(xùn)練誤差.

(5) 中文數(shù)據(jù)集的效果優(yōu)于英文數(shù)據(jù).其可能原因是中文描述的多樣性低于英文描述,導(dǎo)致詞匯的分布較為集中,引起效果的提升.

此外,圖2和圖3分別反映了在中英文數(shù)據(jù)集中測試集技術(shù)分類效果隨訓(xùn)練次數(shù)的變化.可以發(fā)現(xiàn)使用了關(guān)聯(lián)增強的RENet在擬合能力上快于其他沒有使用關(guān)聯(lián)增強的對比模型.其可能的原因在于,RENet的關(guān)聯(lián)增強模塊能夠優(yōu)先將戰(zhàn)術(shù)的限制傳遞到技術(shù)的訓(xùn)練上,造成技術(shù)的訓(xùn)練從原本的隨機梯度下降轉(zhuǎn)變?yōu)榘腚S機梯度下降,即有指向性的迭代分類參數(shù),迫使技術(shù)分類器能夠快速獲取進(jìn)化的方向,完成擬合.

圖4~圖8分別反映了經(jīng)過訓(xùn)練后不同RENet變種的關(guān)聯(lián)轉(zhuǎn)移模塊權(quán)重P(ltech,i|ltact,j)的鄰接矩陣熱力圖.通過對比圖4~圖6,可以發(fā)現(xiàn)雖然存在噪聲但3種RENet的技戰(zhàn)術(shù)關(guān)聯(lián)信息大致接近,同時模型對技戰(zhàn)術(shù)的關(guān)聯(lián)和聯(lián)想存在優(yōu)先級.

圖2 中文數(shù)據(jù)集技術(shù)測試集效果隨訓(xùn)練變化Fig.2 Chinese dataset techniques test set effect within training

圖3 英文數(shù)據(jù)集技術(shù)測試集效果隨訓(xùn)練變化Fig.3 English dataset techniques test set effect within training

圖4 la-RENet技戰(zhàn)術(shù)關(guān)聯(lián)轉(zhuǎn)移鄰接矩陣Fig.4 la-RENet tactics-techniques correlation transfer adjacency matrix

圖5 0-RENet技戰(zhàn)術(shù)關(guān)聯(lián)轉(zhuǎn)移鄰接矩陣(正值)Fig.5 0-RENet tactics-techniques correlation transfer adjacency matrix (positive)

圖6 a-RENet技戰(zhàn)術(shù)關(guān)聯(lián)轉(zhuǎn)移鄰接矩陣(正值)Fig.6 a-RENet tactics-techniques correlation transfer adjacency matrix (positive)

圖7 0-RENet技戰(zhàn)術(shù)關(guān)聯(lián)轉(zhuǎn)移鄰接矩陣(負(fù)值)Fig.7 0-RENet tactics-techniques correlation transfer adjacency matrix (negative)

圖8 a-RENet技戰(zhàn)術(shù)關(guān)聯(lián)轉(zhuǎn)移鄰接矩陣(負(fù)值)Fig.8 a-RENet tactics-techniques correlation transfer adjacency matrix (negative)

同時,圖7和圖8也反映出RENet在正支持相關(guān)性外也學(xué)習(xí)到了負(fù)支持的相關(guān)性.即出現(xiàn)在負(fù)支持中的技戰(zhàn)術(shù)對很難同時出現(xiàn),這是人工定義所不具備的條件.說明RENet能夠利用但不依賴人工關(guān)系的特點.

5 結(jié) 論

針對現(xiàn)有工具在TTPs分類上的不足,本文提出使用關(guān)聯(lián)增強的多標(biāo)簽分類模型RENet用于技戰(zhàn)術(shù)分析.RENet通過形成較為完整的技戰(zhàn)術(shù)分布依賴,鎖定技戰(zhàn)術(shù)標(biāo)簽的范圍,提高技戰(zhàn)術(shù)分類的準(zhǔn)確性.實驗表明,RENet較現(xiàn)有方法在中英文的技戰(zhàn)術(shù)分類上均有良好表現(xiàn),同時具備快速訓(xùn)練和自動關(guān)系優(yōu)化的特點.

猜你喜歡
分類器技戰(zhàn)術(shù)戰(zhàn)術(shù)
破解電動車火災(zāi)撲救關(guān)鍵技戰(zhàn)術(shù)的幾點思考
少樣本條件下基于K-最近鄰及多分類器協(xié)同的樣本擴增分類
東京奧運會諶龍與安塞龍決賽技戰(zhàn)術(shù)特征對比研究
學(xué)貫中西(6):闡述ML分類器的工作流程
戰(zhàn)術(shù)精確打擊“多面手”亮相航展
基于樸素Bayes組合的簡易集成分類器①
里約奧運會跆拳道女子67kg以上級冠軍鄭姝音技戰(zhàn)術(shù)特征
2016 年全國羽毛球單項錦標(biāo)賽女單決賽技戰(zhàn)術(shù)分析
基于AdaBoost算法的在線連續(xù)極限學(xué)習(xí)機集成算法
如何對抗毛球!全方位戰(zhàn)術(shù)考察
图木舒克市| 句容市| 康平县| 赣州市| 长岭县| 宣武区| 牟定县| 游戏| 漳平市| 文化| 栖霞市| 县级市| 涿州市| 灌云县| 尉氏县| 仁布县| 读书| 洪洞县| 额济纳旗| 资中县| 旬阳县| 华宁县| 桂林市| 泗水县| 友谊县| 汽车| 沾化县| 赤峰市| 祁连县| 靖江市| 边坝县| 平潭县| 加查县| 突泉县| 明溪县| 澄城县| 化德县| 泰州市| 宜兴市| 北票市| 新疆|