国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于半監(jiān)督引導(dǎo)的網(wǎng)絡(luò)APT檢測(cè)知識(shí)圖譜構(gòu)建

2023-09-15 03:34王夢(mèng)瑤楊婉霞王巧珍
軟件導(dǎo)刊 2023年9期
關(guān)鍵詞:圖譜實(shí)體樣本

王夢(mèng)瑤,楊婉霞,王巧珍,趙 賽,熊 磊

(甘肅農(nóng)業(yè)大學(xué) 機(jī)電工程學(xué)院,甘肅 蘭州,730070)

0 引言

近年來(lái),網(wǎng)絡(luò)安全威脅已經(jīng)發(fā)生翻天覆地的變化,運(yùn)用先進(jìn)的攻擊方法對(duì)某些機(jī)構(gòu)進(jìn)行持續(xù)性、針對(duì)性的網(wǎng)絡(luò)攻擊,造成高級(jí)持續(xù)性威脅(Advanced Persistent Threat,APT)已逐漸引起國(guó)內(nèi)外研究者的重視[1]。不同于傳統(tǒng)網(wǎng)絡(luò)攻擊手段,APT 的攻擊目標(biāo)從常見(jiàn)的中斷服務(wù)轉(zhuǎn)為竊取目標(biāo)知識(shí)產(chǎn)權(quán)和敏感數(shù)據(jù),具有階段性強(qiáng)、持續(xù)時(shí)間長(zhǎng)、攻擊路徑多樣化等特點(diǎn)[2]。例如,BlackEnergy 木馬攻擊的前、中、后期分別使用BlackEnergy、BlackEnergy 2、BlackEnergy 3 逐漸增強(qiáng)的木馬病毒,以郵件、文檔等多種路徑攻擊目標(biāo)。

2015 年,海蓮花組織對(duì)多個(gè)不同國(guó)家的科研院所、政府、海事機(jī)構(gòu)等重要部門發(fā)起APT 攻擊,造成了嚴(yán)重的損失[3]。2016 年,APT 28 組織入侵DNC 郵件系統(tǒng),造成了嚴(yán)重的數(shù)據(jù)泄露。同年,Apple 公司首次披露利用IOS Trident 漏洞進(jìn)行的APT 攻擊[4]。2018 年底,新加坡遭受了歷史上最嚴(yán)重的APT 攻擊,造成包括李顯龍總理在內(nèi)約150萬(wàn)人的健康數(shù)據(jù)被泄露[5]。據(jù)360 天眼實(shí)驗(yàn)室發(fā)布的《2015 中國(guó)高級(jí)持續(xù)性威脅(APT)研究報(bào)告》可知,中國(guó)是遭受APT 攻擊的主要受害國(guó),全國(guó)多個(gè)省市均受到不同程度的攻擊。其中,北京、廣東是重災(zāi)區(qū),工業(yè)、教育、科研領(lǐng)域和政府機(jī)構(gòu)均受到APT 攻擊者的重點(diǎn)關(guān)注。

然而,目前仍有大量APT 攻擊未被發(fā)現(xiàn),而他們通常已存在較長(zhǎng)時(shí)間,入侵了很多主機(jī),在被發(fā)現(xiàn)前就已經(jīng)造成了巨大損失,這說(shuō)明目前APT 攻擊檢測(cè)手段仍然相對(duì)滯后,對(duì)APT 攻擊的響應(yīng)能力不足。為此,大量學(xué)者對(duì)APT的攻擊開展了深入研究,在檢測(cè)技術(shù)和方法方面已取得不少成果。常見(jiàn)的APT 檢測(cè)技術(shù)與方法主要包括以下3種:

(1)網(wǎng)絡(luò)流量分析。該技術(shù)通過(guò)Netflow 或DNS 流量規(guī)律進(jìn)行基線學(xué)習(xí)與分析以發(fā)現(xiàn)異常,但樣本獲取與相關(guān)性分析的難易程度將影響模型準(zhǔn)確度。同時(shí),部分研究人員利用數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)方法提取正常、異常的行為特征,對(duì)未知流量進(jìn)行分類以提升異常攻擊檢測(cè)率,但無(wú)法從根本上解決樣本獲取的難題。

(2)負(fù)載分析(沙箱)。該技術(shù)首先模擬運(yùn)行環(huán)境,通過(guò)捕獲的樣本在虛擬環(huán)境運(yùn)行過(guò)程中的行為來(lái)提取特征,以顯著提升特征匹配時(shí)效性,但目前沙箱逃逸功能已普遍存在于高級(jí)樣本中,沙箱效果也大打折扣。

(3)網(wǎng)絡(luò)取證。該技術(shù)通過(guò)抓取大量流量報(bào)文或日志,通過(guò)對(duì)安全日志的行為進(jìn)行建模,將偏離正常行為視為異常,以此檢測(cè)多步攻擊。由于該方法可較好地還原樣本與攻擊過(guò)程,在回溯與應(yīng)急響應(yīng)方面價(jià)值較高,因此廣泛運(yùn)用于各種新型安全管理系統(tǒng),但建立完善的攻擊模型是系統(tǒng)的關(guān)鍵,因此依然面臨著需要精確分析網(wǎng)絡(luò)流量的問(wèn)題。

鑒于現(xiàn)有方法存在的問(wèn)題,最新研究提出構(gòu)建多源異構(gòu)APT 攻擊大數(shù)據(jù)知識(shí)圖譜,通過(guò)APT 事件—組織動(dòng)態(tài)關(guān)系模型和時(shí)間序列演化模型,解除理想樣本空間和攻擊模型的限制,進(jìn)而解決APT 攻擊檢測(cè)這一難點(diǎn)問(wèn)題。

為此,本文采用基于深度學(xué)習(xí)級(jí)聯(lián)模型結(jié)構(gòu)的新型APT 知識(shí)獲取方法,解決目前在APT 樣本獲取方面存在的問(wèn)題。首先,通過(guò)半監(jiān)督bootstrap 的知識(shí)融合方法自動(dòng)構(gòu)建APT 知識(shí)圖譜,進(jìn)而解決多源異構(gòu)的APT 數(shù)據(jù)。然后,采用基于BERT(Bidirectional Encoder Representations from Transformers)+BiLSTM+Self-Attention+CRF 的APT 攻擊檢測(cè)模型,解決APT 攻擊實(shí)體識(shí)別方面存在的難點(diǎn)問(wèn)題,進(jìn)而精準(zhǔn)構(gòu)建APT 攻擊檢測(cè)的知識(shí)圖譜。

1 相關(guān)研究

經(jīng)過(guò)對(duì)APT 攻擊特征的深入分析,研究者發(fā)現(xiàn)APT 攻擊檢測(cè)的相關(guān)算法主要依賴專家領(lǐng)域知識(shí)。例如,Alshamrani 等[6]采用白名單方法,通過(guò)學(xué)習(xí)和對(duì)系統(tǒng)正常行為進(jìn)行建模,從而檢測(cè)異常行為并發(fā)現(xiàn)APT 攻擊。Jedh等[7]利用連續(xù)消息序列圖的相似性,通過(guò)挖掘未知異常模式來(lái)檢測(cè)APT。

在基于安全日志的APT 攻擊研究中,大多數(shù)算法通過(guò)建模APT 攻擊實(shí)現(xiàn)檢測(cè)[8]。例如,Zou 等[9]建立APT 攻擊模型監(jiān)控民航通信網(wǎng),以發(fā)現(xiàn)實(shí)際攻擊過(guò)程中的模式。Milajerd 等[10]構(gòu)建基于殺傷鏈的攻擊樹模型,關(guān)聯(lián)分析安全日志后生成攻擊路徑,進(jìn)而預(yù)測(cè)下一步攻擊行為。Zimba 等[11]首先采用IP 地址關(guān)聯(lián)方法進(jìn)行聚類,然后利用模糊聚類關(guān)聯(lián)方法構(gòu)建APT 活動(dòng)序列集,最后結(jié)合對(duì)抗時(shí)間策略,在較長(zhǎng)的時(shí)間窗口內(nèi)分析數(shù)據(jù),進(jìn)而實(shí)現(xiàn)在一段時(shí)間內(nèi)檢測(cè)多步復(fù)雜攻擊,但該方法仍然依賴于專家知識(shí)。

APT 知識(shí)圖譜呈現(xiàn)了網(wǎng)絡(luò)威脅的知識(shí)資源及其載體,并對(duì)其中的知識(shí)及其相互關(guān)系進(jìn)行挖掘、分析、構(gòu)建和顯示,有助于發(fā)現(xiàn)、挖掘多源異構(gòu)網(wǎng)絡(luò)威脅間千絲萬(wàn)縷的關(guān)系數(shù)據(jù)、隱藏信息,提升網(wǎng)絡(luò)攻擊威脅分析的準(zhǔn)確性與及時(shí)性。因此,近期APT 檢測(cè)研究側(cè)重于結(jié)合最新的知識(shí)工程技術(shù)構(gòu)建APT 知識(shí)圖譜,運(yùn)用大數(shù)據(jù)智能分析方法提升APT 檢測(cè)準(zhǔn)確率。Xu 等[12]基于知識(shí)圖譜提出多領(lǐng)域安全事件關(guān)聯(lián)性分析方法,利用不同領(lǐng)域中與安全事件內(nèi)在相關(guān)的若干屬性,建立異常事件與攻擊行為間的因果關(guān)系。

在網(wǎng)絡(luò)安全數(shù)據(jù)可視化交互技術(shù)的研究中,Palantir、Splunk 等外國(guó)公司在現(xiàn)有安全可視化的基礎(chǔ)上,提出新的動(dòng)態(tài)語(yǔ)義相關(guān)圖分析方法和可視化查詢分析方法,已成為網(wǎng)絡(luò)威脅交互分析的新方向。

當(dāng)前,在知識(shí)圖譜構(gòu)建的研究中,利用深度學(xué)習(xí)算法設(shè)計(jì)自動(dòng)提取、融合知識(shí)及實(shí)體鏈接算法是研究的熱點(diǎn)[13]。例如,基于深度學(xué)習(xí)網(wǎng)絡(luò)的有監(jiān)督關(guān)系抽取算法、實(shí)體鏈接等算法,避免了傳統(tǒng)實(shí)體鏈接中手工構(gòu)建特征的繁瑣過(guò)程,取得的性能更優(yōu)[14]。然而,該方法在理解復(fù)雜句子時(shí)仍存在許多局限性,需要進(jìn)一步深入挖掘大規(guī)模多源異構(gòu)數(shù)據(jù)中的多重關(guān)系和事件。由于攻擊者主動(dòng)引入干擾信息、IDS 等系統(tǒng)錯(cuò)誤,將造成攻擊事件的知識(shí)圖譜存在大量垃圾信息。因此,需要使用一些先進(jìn)的知識(shí)精化算法消除錯(cuò)誤、驗(yàn)證一致性,但現(xiàn)有算法僅限于處理簡(jiǎn)單靜態(tài)事件,對(duì)多源異構(gòu)數(shù)據(jù)中復(fù)雜事件的處理能力有待提高。

目前,大多數(shù)本體推理算法均基于OWL 語(yǔ)言[15],這種大規(guī)模知識(shí)推理還處于實(shí)驗(yàn)室原型系統(tǒng)階段,對(duì)具有復(fù)雜字符關(guān)系和事件關(guān)系描述的字符—事件知識(shí)圖譜的高效推理支持有待進(jìn)一步研究。Zhang 等[16]針對(duì)網(wǎng)絡(luò)數(shù)據(jù)中的多類型實(shí)體問(wèn)題,提出一種基于條件隨機(jī)場(chǎng)和實(shí)體詞匯匹配相結(jié)合的人名實(shí)體提取方法,在整個(gè)網(wǎng)絡(luò)數(shù)據(jù)集上收集人員姓名,識(shí)別正確率、召回率分別為84.5%、87.8%。知識(shí)圖譜關(guān)系抽取主要為了獲取實(shí)體間的關(guān)系,以監(jiān)督方法、半監(jiān)督方法為主,目前研究成果較為成熟。Yang等[17]將多實(shí)例、多標(biāo)簽的學(xué)習(xí)機(jī)制引入實(shí)體關(guān)系抽取中,實(shí)體和一系列對(duì)應(yīng)的標(biāo)簽是通過(guò)圖模型及其潛變量進(jìn)行整合,再經(jīng)過(guò)實(shí)體訓(xùn)練進(jìn)一步獲得關(guān)系分類器。Cho 等[18]提出一種基于Bootstrap 算法的半監(jiān)督學(xué)習(xí)方法來(lái)自動(dòng)建模實(shí)體關(guān)系。

綜上所述,知識(shí)圖譜的構(gòu)建技術(shù)近年來(lái)已取得迅速發(fā)展,世界上也出現(xiàn)了許多相關(guān)的研究結(jié)果,但在提取實(shí)體和關(guān)系方面仍然存在許多問(wèn)題尚未解決。為了降低APT事件數(shù)據(jù)的特征提取和檢測(cè)難度,首先通過(guò)GitHub 中獲取的14 年數(shù)據(jù)構(gòu)建了一個(gè)APT 攻擊檢測(cè)命名實(shí)體識(shí)別語(yǔ)料庫(kù);然后在相關(guān)研究中命名實(shí)體識(shí)別關(guān)系,在抽取模型Bert+BiLSTM+CRF 學(xué)習(xí)中加入Self-Attention 模塊,以在原模型基礎(chǔ)上進(jìn)一步提升識(shí)別APT 攻擊檢測(cè)實(shí)體的準(zhǔn)確性;最后研究APT 知識(shí)圖構(gòu)建系統(tǒng)的總體框架,側(cè)重于APT 事件知識(shí)獲取、知識(shí)融合等關(guān)鍵技術(shù)。

2 APT知識(shí)圖譜構(gòu)建

APT 攻擊事件的知識(shí)圖譜是與該事件相關(guān)的結(jié)構(gòu)化語(yǔ)義描述。它不僅描述了事件的基本屬性和攻擊特點(diǎn),還描述組織屬性(包括攻擊者、防御者和受害者組織)。

現(xiàn)有知識(shí)圖譜技術(shù)主要針對(duì)開放領(lǐng)域的大規(guī)模網(wǎng)頁(yè)、多媒體等非結(jié)構(gòu)化海量數(shù)據(jù),構(gòu)建針對(duì)人和熱點(diǎn)事件抽取實(shí)體的知識(shí)領(lǐng)域可視化映射圖。APT 知識(shí)圖譜相較于現(xiàn)有知識(shí)圖譜的不同之處在于,從安全專家提取的威脅開源情報(bào)數(shù)據(jù)庫(kù)、流量和日志規(guī)模數(shù)據(jù)中構(gòu)建了一個(gè)知識(shí)圖譜庫(kù)。威脅情報(bào)知識(shí)庫(kù)的主要文檔包括樣本掃描報(bào)告、動(dòng)態(tài)分析報(bào)告、域名記錄、IP 反查、Whois、組織機(jī)構(gòu)、事件歸屬等,因此數(shù)據(jù)來(lái)源更多樣化和異質(zhì)化。此外,本文還建立了事件—組織—屬性關(guān)系網(wǎng)絡(luò),統(tǒng)一描述攻擊事件的靜態(tài)和動(dòng)態(tài)知識(shí),提出了一種構(gòu)建APT 攻擊事件知識(shí)圖譜的方法,包括風(fēng)險(xiǎn)事件知識(shí)提取、風(fēng)險(xiǎn)事件知識(shí)融合與提煉等。

2.1 APT攻擊的知識(shí)圖譜總體框架

APT 知識(shí)圖譜的構(gòu)建是從威脅情報(bào)中識(shí)別攻擊事件、組織等,并針對(duì)某一攻擊事件從中提取事件名稱、攻擊時(shí)間、攻擊偏好、技術(shù)特征等信息,從而實(shí)現(xiàn)對(duì)實(shí)體屬性的完整勾勒。針對(duì)攻擊事件具有許多屬性依賴性的特點(diǎn)(例如攻擊工具與類型間的依賴性等),本文基于威脅情報(bào)文本數(shù)據(jù)集,提出一種深度學(xué)習(xí)與條件隨機(jī)場(chǎng)學(xué)習(xí)相結(jié)合的方法提取實(shí)體;針對(duì)APT 情報(bào)數(shù)據(jù)多源異構(gòu)特點(diǎn),重點(diǎn)研究知識(shí)的自適應(yīng)提取策略,解決目前源異構(gòu)數(shù)據(jù)提取方法通用性差、多類型數(shù)據(jù)提取召回率低的問(wèn)題。

因此,多源異構(gòu)威脅情報(bào)知識(shí)庫(kù)中提取的信息結(jié)果,必然包含大量冗余信息、沖突信息和互補(bǔ)信息,數(shù)據(jù)間存在關(guān)系扁平、缺乏層次性的問(wèn)題,必須通過(guò)實(shí)體消歧和知識(shí)融合技術(shù)進(jìn)行知識(shí)精細(xì)化。傳統(tǒng)實(shí)體鏈接方法依賴手動(dòng)定義實(shí)體和實(shí)體上下文相關(guān)特征,生成候選實(shí)體和實(shí)體間的特征向量,并通過(guò)向量間的相關(guān)性獲得實(shí)體鏈接結(jié)果,這其中存在與數(shù)據(jù)分布相關(guān)的人工定義特征、不同場(chǎng)景下有限的特征泛化能力等問(wèn)題。

為此,本文利用深度學(xué)習(xí)對(duì)文本中詞和知識(shí)庫(kù)的實(shí)體進(jìn)行聯(lián)合建模,自動(dòng)學(xué)習(xí)詞和實(shí)體的低維向量表示,并通過(guò)向量計(jì)算詞和實(shí)體的相關(guān)性。該方法可減少手工定義特征向量的人力負(fù)擔(dān),解決特征向量稀疏的問(wèn)題,提升知識(shí)實(shí)體融合模型的泛化能力。根據(jù)上述研究思路,由于APT 事件具有較強(qiáng)的知識(shí)專業(yè)性和數(shù)據(jù)多源異構(gòu)性特征,本文設(shè)計(jì)的APT 事件知識(shí)圖譜自動(dòng)構(gòu)建整體框架,將APT情報(bào)數(shù)據(jù)、日志數(shù)據(jù)、流量分析元數(shù)據(jù)作為構(gòu)建APT 知識(shí)圖譜的原始數(shù)據(jù)。首先對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理;然后利用實(shí)體抽取技術(shù),從預(yù)處理后的語(yǔ)料庫(kù)中抽取APT 知識(shí)圖譜實(shí)體;接下來(lái)抽取實(shí)體間的關(guān)系,構(gòu)建、融合知識(shí)項(xiàng),以形成APT 知識(shí)圖譜庫(kù)。APT 知識(shí)圖譜的總體框架構(gòu)建流程如圖1所示。

Fig.1 Overall framework construction process of APT knowledge graph圖1 APT知識(shí)圖譜的總體框架構(gòu)建流程

2.2 APT事件實(shí)體與關(guān)系抽取方式

APT 知識(shí)的實(shí)體與關(guān)系抽取技術(shù)是構(gòu)建APT 知識(shí)圖譜的關(guān)鍵技術(shù)之一,當(dāng)前主要的知識(shí)獲取方式是通過(guò)自然語(yǔ)言理解技術(shù)獲取文本特征,利用機(jī)器學(xué)習(xí)獲取APT 知識(shí)特征。首先利用實(shí)體抽取技術(shù)從最初的APT 威脅情報(bào)等數(shù)據(jù)中識(shí)別APT 知識(shí)實(shí)體;然后由APT 事件自動(dòng)關(guān)聯(lián)APT知識(shí)實(shí)體;最后利用知識(shí)實(shí)體間的關(guān)系構(gòu)建APT 知識(shí)圖譜。本文基于可識(shí)別動(dòng)態(tài)語(yǔ)義的BERT 詞嵌入和具有記憶的BILSTM 設(shè)計(jì)了神經(jīng)網(wǎng)絡(luò)分層模型,以抽取APT 事件的實(shí)體和關(guān)系。

面向詞向量的APT 知識(shí)獲取方法分層模型在保證召回率基礎(chǔ)上,使得低層網(wǎng)絡(luò)能盡可能識(shí)別APT 事件的知識(shí)實(shí)體,為后續(xù)提升實(shí)體識(shí)別準(zhǔn)確率奠定基礎(chǔ)。然后,將低級(jí)網(wǎng)絡(luò)識(shí)別結(jié)果傳遞給包含注意力機(jī)制的高一層網(wǎng)絡(luò)BiLSTM-Attention,以再次識(shí)別來(lái)自低層網(wǎng)絡(luò)的信息,并將識(shí)別結(jié)果傳遞給條件隨機(jī)場(chǎng)(CRF)模塊。最后,輸出識(shí)別結(jié)果中單一合法的實(shí)體。

若存在多個(gè)APT 事件實(shí)體的情況,需要將這些子結(jié)果再次傳送至高層網(wǎng)絡(luò)(BiLSTM-Attention)中進(jìn)行識(shí)別,通過(guò)多層處理APT 威脅情報(bào)文本提升APT 知識(shí)實(shí)體識(shí)別的準(zhǔn)確率,具體模型結(jié)構(gòu)如圖2所示。

Fig.2 Layered model structure for the extraction of APT knowledge entities圖2 APT知識(shí)實(shí)體提取的分層模型結(jié)構(gòu)

由圖2 可見(jiàn),分層模型底層采用BERT 模型結(jié)構(gòu)。BERT 是一個(gè)預(yù)訓(xùn)練模型,可根據(jù)上下文語(yǔ)義語(yǔ)境編碼動(dòng)態(tài)詞向量。其中,級(jí)聯(lián)模型的高層網(wǎng)絡(luò)是一種包含注意機(jī)制的結(jié)構(gòu),采用雙向Transformer 編碼結(jié)構(gòu),可直接獲得全局信息;RNN 需要逐漸遞進(jìn)才能獲取全局信息。因此,本文選用BERT 模型構(gòu)建分層模型。

同時(shí),為了獲取APT 知識(shí)實(shí)體的具體信息,需將低層網(wǎng)絡(luò)模型的輸出作為高層網(wǎng)絡(luò)模型的輸入。BiLSTM 模型通過(guò)前向、后向傳播參數(shù)獲取上下時(shí)刻的信息,因此能更快速、準(zhǔn)確地編碼序列。編碼單元的主要組成為Self-Attention 模塊,計(jì)算表達(dá)式如式(1)所示:

式中:Q、K、V為輸入詞向量矩陣,用輸入向量維數(shù)進(jìn)行表達(dá)。

Self-Attention 模塊根據(jù)上述關(guān)系來(lái)調(diào)整每個(gè)實(shí)體的重要性,為每個(gè)實(shí)體定義一個(gè)包含實(shí)體本身、實(shí)體與其他實(shí)體關(guān)系的表達(dá)方式,因此相較于單個(gè)實(shí)體向量全局性更高。Transformer 是基于Multihead 模式對(duì)模型聚焦能力在不同位置的進(jìn)一步擴(kuò)展,增添了Attention 單元的子空間表示,如式(2)、式(3)所示。

此外,基于BILSTM 融合的Attention 機(jī)制,能靈活學(xué)習(xí)APT 實(shí)體的上下文語(yǔ)義信息。BiLSTM 模型雖緩解了單向LSTM 造成的前后編碼差異,但無(wú)法完美解決時(shí)序編碼缺陷的問(wèn)題,如果僅依賴時(shí)序輸出,模型將難以正確識(shí)別APT 事件實(shí)體任務(wù)。因此,融合Attention 機(jī)制是為了關(guān)注不同上下文片段中涉及的語(yǔ)義及APT 實(shí)體間的關(guān)系,然后通過(guò)這種關(guān)系確定相關(guān)APT 事件的實(shí)體。

在級(jí)聯(lián)模型中,高層網(wǎng)絡(luò)構(gòu)建部分BiLSTM-Attention僅考慮了上下文信息中的長(zhǎng)序列問(wèn)題,忽視了標(biāo)簽中的依附關(guān)系。因此,在APT 實(shí)體識(shí)別中存在標(biāo)簽無(wú)法連續(xù)出現(xiàn)的問(wèn)題,APT 的物理邊界仍然存在爭(zhēng)議。由于在標(biāo)簽決策中,模型無(wú)法獨(dú)自通過(guò)隱藏狀態(tài)完成,需要思考標(biāo)簽間的上下關(guān)系來(lái)獲取全局中的最佳標(biāo)簽,但可通過(guò)條件隨機(jī)場(chǎng)來(lái)完成,它可在輸出級(jí)別時(shí)分離相關(guān)性。

因此,級(jí)聯(lián)模型中高層網(wǎng)絡(luò)的輸出結(jié)果,將利用更深的CRF 網(wǎng)絡(luò)建模標(biāo)簽序列以糾正錯(cuò)誤標(biāo)簽,從而得到更可靠的標(biāo)簽序列。根據(jù)上述知識(shí)獲取算法模型,通過(guò)Softmax函數(shù)進(jìn)行激活的全連接層計(jì)算分類概率,如公式(5)所示。

其中,WT、bT為可訓(xùn)練參數(shù)為第ith個(gè)實(shí)體類別的概率向量。實(shí)體分類任務(wù)的損失函數(shù)如公式(6)所示。

顯然,這數(shù)十頁(yè)“神言”不僅是所謂藝術(shù)技巧突出,更重要的是它說(shuō)出了來(lái)自彼岸世界的信息,故而與此岸世界的生活景象難以順利對(duì)接。 這種觀點(diǎn)與《托爾斯泰和陀思妥耶夫斯基論藝術(shù)》中的觀點(diǎn)完全一致,只不過(guò)“神言”的數(shù)量由七八十頁(yè)減少到二十至五十頁(yè)罷了。 羅扎諾夫說(shuō):

式中:、分別表示第ith個(gè)實(shí)體的真實(shí)類別標(biāo)簽和實(shí)體分類器預(yù)測(cè)的第ith個(gè)實(shí)體類別的分布。

2.3 APT知識(shí)融合算法

本文提出了一種基于半監(jiān)督的Bootstrapping 知識(shí)融合技術(shù)。首先,利用知識(shí)提取算法得到由三元組表示的APT知識(shí)項(xiàng);然后,利用知識(shí)融合技術(shù)構(gòu)建APT 知識(shí)圖譜。由于提取的信息存在高度碎片化、離散化、冗余和模糊現(xiàn)象,因此將未融合的信息碎片視為各自的APT 知識(shí)圖譜,利用實(shí)體對(duì)齊和實(shí)體鏈接達(dá)到融合多個(gè)APT 知識(shí)圖譜的目的。

目前,實(shí)體對(duì)齊問(wèn)題的方法包括本體匹配與知識(shí)實(shí)例匹配。其中,本體匹配法主要解決APT 知識(shí)實(shí)體對(duì)齊問(wèn)題,通常由基本匹配器、文本匹配、結(jié)構(gòu)匹配、知識(shí)表示學(xué)習(xí)等方法組成,根據(jù)APT 知識(shí)圖譜的現(xiàn)實(shí)需要,通過(guò)知識(shí)圖譜的表示學(xué)習(xí)技術(shù)達(dá)到實(shí)體對(duì)齊目的。

本體匹配方法利用機(jī)器學(xué)習(xí)中的表示學(xué)習(xí)技術(shù),將圖中實(shí)體和關(guān)系映射為低維空間向量,利用數(shù)學(xué)表達(dá)式計(jì)算實(shí)體間的相似度。首先將知識(shí)圖譜KGb、KGe映射到低維空間,得到相應(yīng)的知識(shí)表示,分別記為KGb0和KGe0;然后在此基礎(chǔ)上,通過(guò)人工標(biāo)注的實(shí)體對(duì)齊學(xué)習(xí)數(shù)據(jù)集D,即實(shí)體對(duì)間的對(duì)應(yīng)關(guān)系為φ:KGb0?KGe0。知識(shí)實(shí)體(APT 攻擊關(guān)鍵詞和同義詞)的對(duì)齊過(guò)程如下:

步驟1:選擇種子實(shí)體。遍歷、選取待融合的多個(gè)知識(shí)圖譜KGe中的所有實(shí)體ee。

步驟2:預(yù)處理種子實(shí)體。

步驟3:通過(guò)動(dòng)態(tài)索引技術(shù)索引屬性。

步驟4:采用精簡(jiǎn)過(guò)濾方法剔除相似度低的實(shí)體,構(gòu)造對(duì)應(yīng)的實(shí)體對(duì)(eb,ee),即現(xiàn)有知識(shí)圖譜KGb中實(shí)體集結(jié)合的節(jié)點(diǎn)。

步驟5:使相似度較高的實(shí)體對(duì)分布在多個(gè)塊中,并作為候選對(duì)齊實(shí)體對(duì)。

步驟6:通過(guò)匹配算法進(jìn)行評(píng)分,例如基于屬性相似度和結(jié)構(gòu)相似度的聚合模型學(xué)習(xí)方法。

步驟7:根據(jù)評(píng)分結(jié)果進(jìn)行排名,排名越低的實(shí)體對(duì)表示兩個(gè)實(shí)體間對(duì)齊程度越高。

步驟8:采用基于圖相似性傳播的引導(dǎo)程序迭代對(duì)齊方法,選擇與種子實(shí)體置信度高的匹配實(shí)體對(duì)達(dá)到實(shí)體對(duì)齊,進(jìn)而有效整合APT 知識(shí)。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)環(huán)境為:Intel(R)Core(TM)i7-8750H CPU @ 2.20 GHz,GPU NVIDIA GTX 1050Ti,磁盤大小為2 TB。實(shí)驗(yàn)開發(fā)語(yǔ)言為Python,編譯器為Pycharm,采用Tensorflow 深度學(xué)習(xí)開發(fā)平臺(tái)。

3.2 測(cè)試數(shù)據(jù)語(yǔ)料庫(kù)

本文使用數(shù)據(jù)來(lái)自Github,整理了2006-2020 年不同來(lái)源的APT 事件報(bào)告。其中,APT 事件報(bào)告數(shù)據(jù)的大小約16.4 GB,APT 相關(guān)實(shí)體約9 200個(gè),如表1所示。

Table 1 Data set表1 數(shù)據(jù)集

由表1 可知,APT 報(bào)告多為非結(jié)構(gòu)化數(shù)據(jù),部分報(bào)告僅包含了攻擊過(guò)程中的詳細(xì)描述及攻擊活動(dòng)造成的影響,并未包含實(shí)驗(yàn)中所需事件信息樣本。因此,基于上述數(shù)據(jù)特征,有必要處理APT 事件的樣本數(shù)據(jù)。首先人工提取實(shí)驗(yàn)所需相關(guān)事件樣本,然后將提取的事件信息樣本進(jìn)行序列標(biāo)注,最后將處理后的數(shù)據(jù)作為實(shí)驗(yàn)主要數(shù)據(jù),進(jìn)一步構(gòu)建APT 知識(shí)圖譜語(yǔ)料庫(kù)。

語(yǔ)料庫(kù)中包括APT 攻擊組織、攻擊類型、攻擊時(shí)間、攻擊事件和攻擊目的等實(shí)驗(yàn)所需事件信息樣本信息。例如,The Dropping Elephant 事件是由于東南亞和南海問(wèn)題,針對(duì)美國(guó)在內(nèi)各國(guó)政府和公司發(fā)起的攻擊行為。在準(zhǔn)確提取APT 事件特征前,需對(duì)文本進(jìn)行序列標(biāo)注,以更好地提升模型訓(xùn)練性能。序列標(biāo)注中最關(guān)鍵的步驟是為數(shù)據(jù)賦予標(biāo)簽,通常會(huì)使用簡(jiǎn)單的英文字母為詞語(yǔ)賦予標(biāo)簽,常用數(shù)據(jù)集標(biāo)注方法包括BIO、BIOES、IOB 等。本文使用目前最流行的BIO 標(biāo)注方法進(jìn)行標(biāo)注,該方法首先使用YEDDA 工具對(duì)預(yù)處理后的APT 攻擊事件文本語(yǔ)料庫(kù)進(jìn)行手動(dòng)標(biāo)注,然后編寫Python 腳本處理標(biāo)注后的數(shù)據(jù),得到基于BIO 注釋的APT 事件文本數(shù)據(jù)序列。

針對(duì)APT 事件特征,對(duì)文本的實(shí)體定義了攻擊組織(Organization)、攻擊目的(Purpose)、攻擊目標(biāo)(Target)、攻擊類型(Type)、攻擊工具(Tool)、攻擊媒介(Medium)、攻擊事件(Event)、攻擊時(shí)間(Time)8 種類型。其中,8 個(gè)實(shí)體類別的元素標(biāo)注中B-XX 表示實(shí)體開始,I-XX 表示實(shí)體中間或結(jié)尾,O 表示定義實(shí)體之外的實(shí)體。通過(guò)BIO 標(biāo)記方法定義每個(gè)實(shí)體類別的標(biāo)簽,得到滿足詞向量生成層的輸入語(yǔ)料庫(kù)標(biāo)準(zhǔn),最后將語(yǔ)料庫(kù)中訓(xùn)練集、測(cè)試集及驗(yàn)證集按照6∶2∶2的比例進(jìn)行劃分。

3.3 模型性能分析

本文模型輸入數(shù)據(jù)為APT 威脅情報(bào)、事件報(bào)告等文本數(shù)據(jù),通過(guò)神經(jīng)網(wǎng)絡(luò)的分層模型抽取文本數(shù)據(jù)的實(shí)體和關(guān)系,從而構(gòu)造三元組知識(shí)條目,目的是從輸入文本的非結(jié)構(gòu)化數(shù)據(jù)中提取APT 的基本屬性,例如攻擊特點(diǎn)、攻擊工具等。APT 組織為與事件相關(guān)的黑客組織和檢測(cè)組織,例如國(guó)家、實(shí)體組織、黑客組織等。APT 知識(shí)實(shí)體關(guān)系包括事件關(guān)聯(lián)關(guān)系,例如APT 攻擊工具的更新或攻擊類別的延伸。同時(shí),模型還提取APT 事件行為屬性、組合流量特征和攻擊場(chǎng)景特征信息。為模型性能評(píng)估,本文選擇準(zhǔn)確率、召回率和F1 評(píng)估實(shí)體關(guān)系抽取算法的性能,模型參數(shù)設(shè)置如表2所示。

Table 2 Main parameters of knowledge extraction algorithm model表2 知識(shí)提取算法模型主要參數(shù)

3.3.1 Batch_size值因素

參數(shù)Batch_size 值決定下降方向,在合理范圍內(nèi)增大Batch_size 值既能提升內(nèi)存利用率、矩陣乘法的并行化效率,還會(huì)增加下降方向的準(zhǔn)確性。例如,BIGRU+CRF 模型的Batch_size 值不同,樣本數(shù)量會(huì)對(duì)模型性能產(chǎn)生一定影響。

本文將Batch_size 值設(shè)定為8 和16 進(jìn)行比較實(shí)驗(yàn),具體數(shù)據(jù)如表3 所示。由此可見(jiàn),當(dāng)樣本數(shù)量小于樣本1 時(shí)(樣本數(shù)量為300 個(gè)),Batch_size=8 的模型性能更優(yōu);當(dāng)樣本數(shù)量增大到樣本2 時(shí)(樣本數(shù)量為440 個(gè)),Batch_size=16 的模型性能更優(yōu);當(dāng)樣本數(shù)量為樣本3 時(shí)(樣本數(shù)量為715 個(gè)),Batch_size=16 的模型性能更優(yōu)。綜上,模型在Batch_size=16 時(shí)性能最佳,因此設(shè)置Batch_size=16 進(jìn)行后續(xù)實(shí)驗(yàn)。

Table 3 Effect of Batch_size on model BIGRU+CRF表3 Batch_size對(duì)模型BIGRU+CRF的影響

3.3.2 數(shù)據(jù)集因素

GRU 為L(zhǎng)STM 的簡(jiǎn)化版本,擅長(zhǎng)執(zhí)行長(zhǎng)期記憶任務(wù),既能解決長(zhǎng)期依賴問(wèn)題,還可通過(guò)保留有效信息提取APT 威脅情報(bào)文本的APT 知識(shí)實(shí)體特征。BIGRU 的前向、后向傳播過(guò)程類似雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),但性能受限于樣本數(shù)量,即保持其他參數(shù)不變,當(dāng)樣本數(shù)量較少時(shí),BIGRU 模型性能優(yōu)于BILSTM,但在樣本數(shù)量較多時(shí),BILSTM 模型性能優(yōu)于BIGRU。

由圖4 可見(jiàn),在Batch_size=16 時(shí),當(dāng)樣本數(shù)量小于樣本1 時(shí),BIGRU+CRF 模型的準(zhǔn)確率高于BILSTM+CRF 模型;當(dāng)樣本數(shù)量增加為樣本2 時(shí),BIGRU 的性能不及BILSTM;當(dāng)樣本數(shù)量為樣本3 時(shí),BILSTM+CRF 模型和BIGRU+CRF 模型性能均有所提升,但BILSTM 性能仍舊優(yōu)于BIGRU。綜上,若數(shù)據(jù)量較少時(shí)應(yīng)使用BIGRU,當(dāng)樣本數(shù)量較大時(shí)應(yīng)選用BILSTM 模型。

Fig.4 Impact of different datasets on model performance圖4 不同數(shù)據(jù)集對(duì)模型性能造成的影響

根據(jù)上述結(jié)論,在后續(xù)實(shí)驗(yàn)中選取對(duì)模型性能最優(yōu)的樣本數(shù)量(樣本3)為實(shí)驗(yàn)數(shù)據(jù)。其中,樣本1 數(shù)量為300個(gè),樣本2數(shù)量為440個(gè),樣本3數(shù)量為715個(gè)。

3.4 模型性能比較

基于上述實(shí)驗(yàn)的數(shù)據(jù)集和算法,為了進(jìn)一步驗(yàn)證Bert+BiLSTM+Self-Attention+CRF 模型在實(shí)體識(shí)別的優(yōu)越性,將其與BiLSTM+CRF、BiGRU+CRF、Bert+CRF、Bert+Bi-GRU+CRF 和Bert+BiLSTM+CRF 模型進(jìn)行比較,結(jié)果如表4所示。同時(shí),從Bert+BiLSTM+Self-Attention+CRF 算法模型中分別增加、去除或替換不同的模塊進(jìn)行消融實(shí)驗(yàn),以驗(yàn)證知識(shí)抽取模型中不同模塊各自的優(yōu)勢(shì)。

Table 4 Model performance comparison表 4 模型性能對(duì)比

由表4 可見(jiàn),Bert 模塊能顯著提升算法性能,原因?yàn)锽ert 層采用了Masked LM、Next Sentence Predictio 兩種方法分別捕捉詞語(yǔ)和句子級(jí)別的representation,模型在Bert 層捕獲全局上下文信息并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,體現(xiàn)了Bert 層在捕獲全局上下文信息方面的有效性。由Bert+CRF、Bert+BiLSTM+CRF 模型可知,去除BiLSTM 層后知識(shí)獲取算法的準(zhǔn)確率有所降低,因?yàn)橥ㄟ^(guò)堆疊的LSTM 層生成的上下文字符表示難以較好地建模上下文間的依賴關(guān)系。此外,由Bert+BiLSTM+CRF、Bert+BiLSTM+Self-Attention+CRF 模型可知,加入注意力機(jī)制后能提升模型的知識(shí)提取性能,原因?yàn)樽⒁饬C(jī)制的記憶網(wǎng)絡(luò)可將上下文感知信息整合到神經(jīng)模型中,以幫助神經(jīng)模型準(zhǔn)確識(shí)別稀有實(shí)體和上下文相關(guān)實(shí)體。

實(shí)驗(yàn)表明,Bert+BiLSTM+Self-Attention+CRF 模型在驗(yàn)證集上的結(jié)果最優(yōu),F(xiàn)1 值可達(dá)82.50%,證實(shí)了Bert+BiLSTM+Self-Attention+CRF 模型中各功能模塊的有效性。本文還研究了模型F1、準(zhǔn)確率及召回率隨epoch 值增加發(fā)生的變化,如圖5所示。

Fig.5 Trend of Bert+BiLSTM+Self Attention+CRF model changing with epoch圖5 Bert+BiLSTM+Self-Attention+CRF 模型隨epoch變化的趨勢(shì)

由圖5 可見(jiàn),在第6 個(gè)epoch 值后,本文模型的F1、準(zhǔn)確率及召回率均趨于穩(wěn)定,說(shuō)明此時(shí)模型參數(shù)基本為最優(yōu)值,證實(shí)了Bert+BiLSTM+Self-Attention+CRF 模型在知識(shí)識(shí)別算法穩(wěn)定性中具有較好的性能。

4 結(jié)語(yǔ)

本文研究了構(gòu)建知識(shí)圖譜檢測(cè)APT 的關(guān)鍵技術(shù),包括知識(shí)提取和融合,根據(jù)攻擊事件的諸多屬性和APT 情報(bào)數(shù)據(jù)的多源異質(zhì)性,提出一種深度學(xué)習(xí)與條件隨機(jī)場(chǎng)學(xué)習(xí)相結(jié)合的知識(shí)提取方法,重點(diǎn)解決了知識(shí)的自適應(yīng)抽取問(wèn)題,提升了知識(shí)抽取的召回率。

同時(shí),針對(duì)APT 情報(bào)數(shù)據(jù)冗余信息較多、信息沖突顯著的特點(diǎn)。首先,通過(guò)實(shí)體消歧、知識(shí)融合技術(shù)精細(xì)化知識(shí);然后,利用深度學(xué)習(xí)對(duì)文本的詞、知識(shí)庫(kù)的實(shí)體進(jìn)行聯(lián)合建模,以自動(dòng)學(xué)習(xí)詞和實(shí)體的低維向量表示;最后,通過(guò)向量計(jì)算獲得詞和實(shí)體的相關(guān)性,以減少人工定義特征向量的開銷,解決特征向量稀疏的問(wèn)題,提升知識(shí)實(shí)體融合模型的泛化能力。

本文在不同樣本數(shù)量、Batch_size 值的實(shí)驗(yàn)參數(shù)下,與其他模型進(jìn)行比較測(cè)試的結(jié)果表明,Bert+BiLSTM+Self-Attention+CRF 模型在準(zhǔn)確率、召回率、F1 值等方面表現(xiàn)更優(yōu)。然而,本次實(shí)驗(yàn)均在同一個(gè)數(shù)據(jù)集下進(jìn)行,后續(xù)將考慮利用更全面的APT 事件數(shù)據(jù),以研究不同數(shù)據(jù)集對(duì)實(shí)驗(yàn)結(jié)果造成的影響。

此外,為了進(jìn)一步提升APT 檢測(cè)的準(zhǔn)確率,考慮在現(xiàn)有模型基礎(chǔ)上進(jìn)行改良,構(gòu)建更大、更完整的APT 知識(shí)圖譜,加強(qiáng)知識(shí)圖譜在網(wǎng)絡(luò)安全防護(hù)中的應(yīng)用。

猜你喜歡
圖譜實(shí)體樣本
繪一張成長(zhǎng)圖譜
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
推動(dòng)醫(yī)改的“直銷樣本”
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
村企共贏的樣本
雜草圖譜