国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)BiLSTM?CRF模型的網(wǎng)絡(luò)安全知識圖譜構(gòu)建

2024-09-14 00:00:00黃智勇余雅寧林仁明黃鑫張鳳荔
現(xiàn)代電子技術(shù) 2024年6期
關(guān)鍵詞:圖譜運(yùn)維注意力

摘 "要: 針對網(wǎng)絡(luò)安全領(lǐng)域的圖譜構(gòu)建任務(wù),基于BiLSTM?CRF模型引入了外部網(wǎng)絡(luò)安全詞典來加強(qiáng)網(wǎng)絡(luò)安全文本的特征,并結(jié)合多頭注意力機(jī)制提取多層特征,最終在網(wǎng)絡(luò)安全數(shù)據(jù)集取得了更優(yōu)異的結(jié)果。利用企業(yè)內(nèi)部的日常網(wǎng)絡(luò)運(yùn)維數(shù)據(jù),設(shè)計并構(gòu)建了一個面向企業(yè)網(wǎng)絡(luò)安全運(yùn)維管理的知識圖譜,為后續(xù)進(jìn)一步研究基于圖譜的企業(yè)網(wǎng)絡(luò)安全智能決策等應(yīng)用奠定基礎(chǔ)。

關(guān)鍵詞: BiLSTM?CRF; 網(wǎng)絡(luò)安全; 知識圖譜; 特征提??; 企業(yè)網(wǎng)絡(luò); 注意力機(jī)制; 本體建模; 知識抽取

中圖分類號: TN911?34; TP391 " " " " " " " " " 文獻(xiàn)標(biāo)識碼: A " " " " " " " " " " "文章編號: 1004?373X(2024)06?0015?07

Knowledge graph construction for network security base on modified BiLSTM?CRF

HUANG Zhiyong1, 2, YU Yaning1, LIN Renming2, HUANG Xin1, ZHANG Fengli1

(1. School of Information and Software Engineering, University of Electronic Science and Technology, Chengdu 610054, China;

2. Data Application Center of Sichuan Provincial Market Supervision Administration, Chengdu 610066, China)

Abstract: On focus of the task of constructing graphs in the field of network security, an external network security dictionary is introduced based on the BiLSTM?CRF model to enhance the features of network security texts, and a multi head attention mechanism is combined to extract multi?layer features. Better results are achieved in the network security dataset. A knowledge graph for enterprise network security operation and maintenance management is designed and constructed by means of daily network operation and maintenance data within the enterprise, laying the foundation for further research on intelligent decision?making of enterprise network security based on graphs.

Keywords: BiLSTM?CRF; network security; knowledge graph; feature extraction; enterprise network; attention mechanism; ontology modeling; knowledge extraction

0 "引 "言

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,企業(yè)的網(wǎng)絡(luò)資產(chǎn)比重逐漸增大。根據(jù)2022年中國互聯(lián)網(wǎng)發(fā)展報告[1]顯示,來自網(wǎng)絡(luò)空間的安全威脅愈發(fā)嚴(yán)重,經(jīng)濟(jì)財產(chǎn)損失風(fēng)險逐年攀升。前沿網(wǎng)絡(luò)安全防控智能化技術(shù)更注重于從全維度、多視角的方面來感知網(wǎng)絡(luò)空間威脅,而挖掘企業(yè)各類網(wǎng)絡(luò)攻擊的關(guān)聯(lián)性、策略、后果等要素能夠有效地提升企業(yè)對網(wǎng)絡(luò)安全運(yùn)維管理的效率[2]。知識圖譜(Knowledge Graph, KG)通過在特定領(lǐng)域海量數(shù)據(jù)中抽取的知識構(gòu)建領(lǐng)域知識圖譜,數(shù)據(jù)規(guī)模、特殊語義關(guān)系使其實用性變得更強(qiáng)[3]。

目前,企業(yè)內(nèi)的網(wǎng)絡(luò)空間中所存在的威脅知識大部分沒有形成很好的知識組織,在面向企業(yè)的網(wǎng)絡(luò)安全運(yùn)維的場景下,缺少能夠有效涵蓋網(wǎng)絡(luò)空間威脅信息、反映企業(yè)網(wǎng)絡(luò)安全態(tài)勢以及支撐輔助安全決策的知識圖譜;開源的漏洞信息庫和威脅信息庫等大多都是半結(jié)構(gòu)化知識,而企業(yè)日常的網(wǎng)絡(luò)安全運(yùn)維數(shù)據(jù)中又包含大量的結(jié)構(gòu)化和非結(jié)構(gòu)化的報告,這些異構(gòu)數(shù)據(jù)難以被企業(yè)直接利用來進(jìn)行網(wǎng)絡(luò)空間的防護(hù)。知識圖譜能夠有效地整合這些存在潛在聯(lián)系的網(wǎng)絡(luò)安全運(yùn)維相關(guān)知識,將離散的多源異構(gòu)數(shù)據(jù)通過基于深度學(xué)習(xí)的信息提取模型形成圖譜中的知識節(jié)點(diǎn)和知識的有機(jī)聯(lián)合,為企業(yè)的網(wǎng)絡(luò)安全運(yùn)維管理工作提供支持。

針對網(wǎng)絡(luò)安全領(lǐng)域的圖譜構(gòu)建任務(wù),改進(jìn)BiLSTM?CRF模型,提出一種基于BERT的網(wǎng)絡(luò)安全知識嵌入和多頭注意力機(jī)制的網(wǎng)絡(luò)安全實體抽取模型,并在開源網(wǎng)絡(luò)安全實體抽取任務(wù),相較基線模型性能有所提升。本文提出一種面向企業(yè)網(wǎng)絡(luò)安全運(yùn)維管理的知識圖譜構(gòu)建方案,并構(gòu)建了一個具有業(yè)務(wù)、設(shè)備、事件、威脅以及策略五類實體的網(wǎng)絡(luò)安全運(yùn)維知識圖譜。

1 "相關(guān)工作

知識圖譜的構(gòu)建包含從邏輯概念層面形成圖譜架構(gòu)以及從數(shù)據(jù)層面形成圖譜的內(nèi)容支撐[4]。本體建模則是在邏輯上構(gòu)建出領(lǐng)域知識圖譜的框架,文獻(xiàn)[5]以抽象的概念并結(jié)合圖的點(diǎn)邊結(jié)構(gòu)化方式表示網(wǎng)絡(luò)安全領(lǐng)域知識的本體,領(lǐng)域知識本體在邏輯層面對知識圖譜的數(shù)據(jù)進(jìn)行有機(jī)管理。文獻(xiàn)[6]通過預(yù)先設(shè)計網(wǎng)絡(luò)安全知識本體,構(gòu)建一個網(wǎng)絡(luò)空間知識圖譜。

信息抽取包括實體抽取和關(guān)系抽取。在實體抽取任務(wù)的研究領(lǐng)域,傳統(tǒng)的抽取方法分為基于規(guī)則、基于統(tǒng)計機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)三類方法[3]。前兩者通過大量的人工介入控制抽取,帶來了高準(zhǔn)確率,但效率較低;而深度學(xué)習(xí)有良好的學(xué)習(xí)能力及向量表示和神經(jīng)網(wǎng)絡(luò)所賦予的語義挖掘能力,在現(xiàn)階段應(yīng)用廣泛。文獻(xiàn)[7]通過雙向的LSTM網(wǎng)絡(luò)考慮了文本上下位關(guān)系,結(jié)合一層CRF網(wǎng)絡(luò)解決了標(biāo)簽預(yù)測順序錯誤的問題。文獻(xiàn)[8]設(shè)計實現(xiàn)了BERT模型,極大地提高了實體識別任務(wù)在開放域的提取性能。文獻(xiàn)[9?11]是BERT模型的優(yōu)秀改良變體,優(yōu)化了BERT存在的參數(shù)爆炸、實體邊界模糊等問題。文獻(xiàn)[12]采用自注意力機(jī)制訓(xùn)練外嵌特征,證明了注意力機(jī)制在通過特征嵌入優(yōu)化實體識別性能上的有效性。

2 "網(wǎng)絡(luò)安全知識圖譜構(gòu)建

企業(yè)網(wǎng)絡(luò)安全運(yùn)維領(lǐng)域的數(shù)據(jù)來源廣泛,傳統(tǒng)的網(wǎng)絡(luò)安全知識工程系統(tǒng)、專家構(gòu)建的經(jīng)驗知識庫等已結(jié)構(gòu)化的數(shù)據(jù)可以直接支撐自頂向下的網(wǎng)絡(luò)安全運(yùn)維知識圖譜構(gòu)建。而在實際的日常網(wǎng)絡(luò)安全運(yùn)維管理過程中,又會產(chǎn)生大量的運(yùn)維數(shù)據(jù)、技術(shù)人員的實操日志等半/非結(jié)構(gòu)化數(shù)據(jù),也包含了非常豐富的網(wǎng)絡(luò)安全領(lǐng)域知識,可以通過信息抽取技術(shù)提取出其中的相關(guān)知識,并聚類歸納到相應(yīng)的概念,輸入到網(wǎng)絡(luò)安全運(yùn)維知識本體中,實現(xiàn)自底向上的圖譜構(gòu)建。企業(yè)網(wǎng)絡(luò)安全運(yùn)維知識圖譜的構(gòu)建流程示意圖如圖1所示。

本文結(jié)合自頂向下和自底向上的兩種構(gòu)建方式,將已有的結(jié)構(gòu)化的企業(yè)內(nèi)部拓?fù)鋽?shù)據(jù)、開源漏洞庫等數(shù)據(jù)直接通過映射的方式輸入圖譜中,并通過本文設(shè)計的實體抽取模型對企業(yè)網(wǎng)絡(luò)安全運(yùn)維日志、網(wǎng)絡(luò)安全防護(hù)手冊等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行實體抽取,評估其抽取效果。再根據(jù)每份數(shù)據(jù)中存在的各類實體與本體進(jìn)行上下位關(guān)系匹配,獲得實體間關(guān)系。最后將兩個過程的輸出相結(jié)合并存入圖數(shù)據(jù)庫中進(jìn)行集中管理,實現(xiàn)對網(wǎng)絡(luò)安全運(yùn)維知識圖譜的構(gòu)建。

2.1 "本體建模

通過分析企業(yè)網(wǎng)絡(luò)安全運(yùn)維數(shù)據(jù)以及領(lǐng)域內(nèi)開源數(shù)據(jù)集成分特征,確定了包括企業(yè)業(yè)務(wù)網(wǎng)絡(luò)實體、企業(yè)網(wǎng)絡(luò)設(shè)備實體、網(wǎng)絡(luò)安全威脅實體等五種類型實體,以及包含(include)、發(fā)生(happened)、原因(reasonOf)、響應(yīng)(responseOf)四種關(guān)系,如表1所示。這些實體和關(guān)系所形成的本體模型能夠反映出企業(yè)的網(wǎng)絡(luò)安全運(yùn)維整體情況,能夠為知識圖譜的構(gòu)建提供邏輯支撐。根據(jù)本體結(jié)構(gòu)進(jìn)一步定義其中的實體以及關(guān)系的屬性,補(bǔ)充相應(yīng)的特異性數(shù)據(jù),以區(qū)分同一類實體概念下的不同實體,如表2所示。

這些實體概念和關(guān)系的屬性進(jìn)一步形成了對網(wǎng)絡(luò)安全離散數(shù)據(jù)的約束。在經(jīng)過對現(xiàn)有的數(shù)據(jù)分析,完成頂層的知識本體建模后,還需要通過信息抽取算法對其他半/非結(jié)構(gòu)化的網(wǎng)絡(luò)安全運(yùn)維數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)安全運(yùn)維知識抽取,自底向上地填充知識本體,構(gòu)建完善的知識圖譜。

2.2 "知識抽取

知識抽取工作分為對結(jié)構(gòu)化網(wǎng)絡(luò)安全運(yùn)維數(shù)據(jù)與半/非結(jié)構(gòu)化數(shù)據(jù)的抽取。結(jié)構(gòu)化數(shù)據(jù)通過映射的方式直接將相應(yīng)數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò)安全運(yùn)維實體及其關(guān)系存入圖數(shù)據(jù)庫中;對于非結(jié)構(gòu)化數(shù)據(jù),需要通過機(jī)器學(xué)習(xí)算法學(xué)習(xí)數(shù)據(jù)中網(wǎng)絡(luò)安全運(yùn)維實體的特征,并通過本體匹配的方式賦予相應(yīng)的關(guān)系。參考通用的實體抽?。∟ER)方法,將網(wǎng)絡(luò)安全運(yùn)維實體抽取問題作為一個序列標(biāo)注問題來解決。實體的開始詞匯標(biāo)記為“B?Type(Begin)”,實體的內(nèi)部詞匯標(biāo)記為“I?Type(Inside)”,結(jié)束詞匯標(biāo)記為“E?Type(End)”,非實體詞匯標(biāo)記為“O?Type(Outside)”。基于BiLSTM?CRF模型,在數(shù)據(jù)驅(qū)動模式[13]的基礎(chǔ)上,結(jié)合網(wǎng)絡(luò)安全預(yù)訓(xùn)練模型Cyber?BERT[14]進(jìn)行先驗網(wǎng)絡(luò)安全知識嵌入,完成知識抽取。

2.2.1 "網(wǎng)絡(luò)安全運(yùn)維實體抽取

考慮到CNVD和企業(yè)網(wǎng)絡(luò)安全運(yùn)維日志與報告等待抽取數(shù)據(jù)中存在的大量跨語言現(xiàn)象,網(wǎng)絡(luò)安全領(lǐng)域數(shù)據(jù)中包含著大量的非標(biāo)準(zhǔn)英文縮寫以及復(fù)雜的中文長實體,基于BiLSTM?CRF模型,在數(shù)據(jù)驅(qū)動模式[13]的基礎(chǔ)上,結(jié)合網(wǎng)絡(luò)安全預(yù)訓(xùn)練模型Cyber?BERT[14]進(jìn)行先驗網(wǎng)絡(luò)安全知識嵌入,采用訓(xùn)練詞向量和注意力機(jī)制來加強(qiáng)對復(fù)雜長實體的學(xué)習(xí)能力。得到的改進(jìn)后BiLSTM?CRF模型結(jié)構(gòu)如圖2所示,整個模型由輸入層、嵌入層、BiLSTM層、注意力層和CRF層五部分組成。其中:輸入層構(gòu)建包含文本和文本特征的輸入序列;嵌入層通過BERT模型加載網(wǎng)絡(luò)安全預(yù)訓(xùn)練詞嵌入向量來獲取文本的詞匯語義信息和詞典中的實體,一同訓(xùn)練出實體編碼輸入模型;BiLSTM層執(zhí)行全局特征提取,將其向量輸出到注意力層;注意力層對全局特征中的各個向量進(jìn)行注意力計算,以提取局部特征,將包含全局特征、局部特征和領(lǐng)域字典特征的聯(lián)合特征向量序列輸入到CRF解碼層;CRF層命名實體識別模型,用于預(yù)測全局最優(yōu)標(biāo)記序列。

1) 輸入層

輸入層負(fù)責(zé)文本預(yù)處理,對于輸入的文本集合[Stt=1,2,…,n],生成BERT模型能夠接受的輸入序列[att=1,2,…,n],其中[at]包含三段輸入,[at=awordt,atagt,apost],即字符序列、標(biāo)簽序列以及位置編碼序列。

2) 嵌入層

嵌入層包括單詞嵌入和領(lǐng)域詞典嵌入。單詞嵌入以文本中的句子為輸入,得到向量表示,是一種分布式的單詞表示方法,能夠從廣域數(shù)據(jù)中學(xué)習(xí)單詞的語義和語法信息。采用文獻(xiàn)[14]的Cyber?BERT模型作為文本編碼器,其利用大量網(wǎng)絡(luò)安全領(lǐng)域的語料進(jìn)行預(yù)訓(xùn)練,對網(wǎng)絡(luò)安全領(lǐng)域文本的特征更敏感。給定一組句子輸入序列[att=1,2,…,n],通過BERT模型預(yù)訓(xùn)練的標(biāo)記嵌入矩陣映射生成單詞向量,表示為[xtt=1,2,…,n],作為BiLSTM編碼層的輸入。

領(lǐng)域詞典特征嵌入?yún)⒖糒UKE[15]模型的思想,在訓(xùn)練時將句子在領(lǐng)域詞典Dsec索引出網(wǎng)絡(luò)安全實體,一同加入到句子輸入尾部并標(biāo)記,表示基于給定詞典的單詞標(biāo)簽。再通過BERT模型提取,得到表示句子中網(wǎng)絡(luò)安全實體的詞級邊界特征。給定一個輸入序列[att=1,2,…,n]和一個外部域字典Dsec,基于BERT模型并通過LUKE的特征范式構(gòu)造文本段序列[et=Ewordt,Etagt,Epostt=1,2,…,n]。其中,[Ewordt=w1,w2,…,wn,wn∈Dsec];[Etagt=entity,entity,…];[Epost=d1,d2,…,dn]。本文使用的特征范式如表3所示。

對于每個句子,將句子在詞典中匹配到的實體單獨(dú)加入到句子尾部,并計算相對位置編碼以及新標(biāo)簽,表示為:[atet=awordtEwordt,atagtEtagt,apostEpost]。

最后將序列輸入到Cyber?BERT模型中獲得包含單詞嵌入[xtt=1,2,…,n]和句子網(wǎng)絡(luò)安全實體邊界信息的特征嵌入向量序列[gtt=1,2,…,n],用公式表示為:

[xt,gt=BERTCyberatet] (1)

3) BiLSTM層

LSTM解決了傳統(tǒng)遞歸循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)結(jié)構(gòu)訓(xùn)練過程中梯度消失和梯度爆炸的問題。BiLSTM構(gòu)造是雙向的LSTM,從正向和反向兩層LSTM網(wǎng)絡(luò)提取出輸入序列的隱層狀態(tài)[ht]和[ht]。對于輸入序列[att=1,2,…,n],進(jìn)入嵌入層獲得嵌入序列[xtt=1,2,…,n],輸入到LSTM層后獲得包含上下位信息的特征向量[hxt],而字典特征嵌入序列[gtt=1,2,…,n]輸入到LSTM層后,獲得包含邊界信息的特征向量[hgt]。這兩組BiLSTM網(wǎng)絡(luò)相互獨(dú)立,不共享任何參數(shù),因此可以公式化定義如下:

[hxt=BiLSTMhxt+1,hxt-1,xt] (2)

[hgt=BiLSTMhgt+1,hgt-1,gt] (3)

4) 注意力層

注意力機(jī)制是一種選擇機(jī)制,它有選擇地關(guān)注某些重要信息,忽略同時收到的其他信息。BiLSTM在文本處理中考慮了上下位信息,根據(jù)文本中信息的重要性為關(guān)鍵信息賦予更大的權(quán)重,而為其他信息賦予更小的權(quán)重。注意力分?jǐn)?shù)計算公式如下:

[AttentionQ,K,V=softmaxQKTdK·V] (4)

式中:Q、K、V分別為Query、Key和Value三個向量矩陣;[dK]是縮放因子,具體為K的維度。

這里采用多頭注意力模型,在不共享參數(shù)的前提下,多頭注意力機(jī)制中的每一層通過參數(shù)矩陣映射V、K和Q,然后執(zhí)行縮放點(diǎn)積注意力計算。根據(jù)多頭注意力的層數(shù)h,執(zhí)行h次相同的操作。最后,拼接每一層的結(jié)果,獲得來自不同角度、不同維度的序列特征。計算公式如下:

[headi=AttentionQWQi,KWKi,VWVi] (5)

[MultiHeadQ,K,V=Concatheadi,…,headh] (6)

式中:[WQi]、[WKi∈RdK×dK]、[WVi∈RdV×dV];Concat(·)為拼接每一層注意力的函數(shù)。

5) CRF層

在CRF層通過輸入多組相同的特征向量[hxt],具體為注意力頭數(shù),經(jīng)過注意力層獲得注意力向量[st]。然后將[hxt]和[st]連接起來,得到結(jié)合上下位特征和自身特征的信息向量[ot]。具體公式如下:

[st=MultiHeadhxt,…] (7)

[ot=Concatst,hxt] (8)

將信息向量[ot]和包含領(lǐng)域字典特征以及邊界信息的特征向量[hgt]結(jié)合,得到最終的信息向量表示[pt],作為CRF層的輸入。

[pt=Concatot,hgt] (9)

在實際的標(biāo)簽序列中,標(biāo)簽本身有一定的約束規(guī)則,如句子開頭的單詞標(biāo)簽只能是“O”或“B?type”,“I?type”必須跟在“B?type”后面,不能單獨(dú)出現(xiàn)。使用條件隨機(jī)場(CRF)模型對前一層生成的信息向量進(jìn)行解碼,正確考慮標(biāo)簽之間的隱性約束,獲得準(zhǔn)確性更高的標(biāo)簽預(yù)測序列。

給定一組輸入序列[p=(p1,p2,…,pn)],通過CRF層預(yù)測標(biāo)簽的得分[y=(y1,y2,…,yn)]。最后,使用softmax函數(shù)歸一化所有可能的標(biāo)簽選擇,獲得y的條件概率。計算公式如下:

[sp,y=i=0nZi,yi+i=0nTyi,yi+1] (10)

[pyp=expsp,yy∈Yexpsp,y] (11)

式中:p是由BiLSTM層和注意力層生成的信息向量矩陣;[Zi,yi]是句子中第i個單詞對應(yīng)標(biāo)簽[yi]的可能性分?jǐn)?shù);[Tyi,yi+1]代表從標(biāo)簽狀態(tài)[yi]~[yi+1]的轉(zhuǎn)移概率;[y]是真實標(biāo)簽值;y是所有可能標(biāo)簽序列的集合。

最后通過標(biāo)簽序列逆向解讀文本,將對應(yīng)實體標(biāo)簽下的文本段抽取出來,形成實體集合[C=(c1,c2,…,cn)],即可完成對企業(yè)網(wǎng)絡(luò)安全運(yùn)維數(shù)據(jù)中的實體抽取。

2.2.2 "基于本體匹配的網(wǎng)絡(luò)安全關(guān)系生成

由于企業(yè)網(wǎng)絡(luò)安全數(shù)據(jù)本身具有較為明確的關(guān)聯(lián)性,通過流水線實體關(guān)系抽取模式,在對每一份網(wǎng)絡(luò)安全運(yùn)維文本數(shù)據(jù)抽取出各類實體后,再基于本體匹配的方式對抽取出的各網(wǎng)絡(luò)安全實體進(jìn)行關(guān)系匹配,生成相應(yīng)的三元組[Ttt=1,2,…,n],形成網(wǎng)絡(luò)安全實體之間的關(guān)系鏈接。最后將三元組存入數(shù)據(jù)庫中,則可構(gòu)建出網(wǎng)絡(luò)安全運(yùn)維知識圖譜(KG)。整個過程可公式化為:

[Tt=Mapcm,cn=cm,r,cn]

[r∈include,happened,reasonOf,responseOf] (12)

[KG=T1,T2,…,Tn]

式中:[Map·]表示基于本體的上下位實體關(guān)系匹配函數(shù);[r]為實體間的關(guān)系。

3 "實 "驗

3.1 "數(shù)據(jù)集

由于目前在網(wǎng)絡(luò)安全領(lǐng)域沒有統(tǒng)一的數(shù)據(jù)語料庫,所以使用開源的網(wǎng)絡(luò)安全語料來訓(xùn)練和評估抽取模型的性能。該數(shù)據(jù)集[16]由基于機(jī)器學(xué)習(xí)算法從網(wǎng)絡(luò)安全領(lǐng)域提取的數(shù)據(jù)組成,從Freebuf網(wǎng)站和Wooyun漏洞數(shù)據(jù)庫收集數(shù)據(jù)并標(biāo)注構(gòu)建出中國網(wǎng)絡(luò)安全NER數(shù)據(jù)集,主要包括技術(shù)共享、網(wǎng)絡(luò)安全、漏洞信息等安全文本數(shù)據(jù)。這個數(shù)據(jù)集包括6種類型的安全實體,即技術(shù)人員(PER)、地理位置(LOC)、網(wǎng)絡(luò)安全組織(ORG)、軟件(SW)、相關(guān)術(shù)語(RT)和漏洞(VUL_ID)。完整的數(shù)據(jù)集包含478 000個句子,選擇其中80%作為訓(xùn)練集,10%作為驗證集,其余10%作為測試集。

表4描述了數(shù)據(jù)集的大小,同時,額外添加了一些漏洞數(shù)據(jù)以平衡數(shù)據(jù)分布。

表5詳細(xì)說明了每個實體類別在不同數(shù)據(jù)集中的分布。

網(wǎng)絡(luò)安全詞典來自文獻(xiàn)[13]所構(gòu)建的網(wǎng)絡(luò)安全實體詞典,包含7 892個實體,其中5 709個來自NVD和CVE數(shù)據(jù)集,1 263個來自網(wǎng)絡(luò)安全博客數(shù)據(jù),920個來自維基百科,如表6所示。

3.2 "基線模型及實驗指標(biāo)

在實驗中,使用精確度(P)、召回率(R)和F1值三個指標(biāo)評估網(wǎng)絡(luò)安全NER模型。在本文中,BiLSTM?CRF作為基線模型,消融模型是BiLSTM?Att?CRF使用注意力機(jī)制;BERT?BiLSTM?Att?CRF模型添加了BERT編碼特征向量。本文模型是BERT(with dict)?BiLSTM?Att?CRF,進(jìn)一步添加了實體嵌入功能,為模型提供了網(wǎng)絡(luò)安全實體的詞級特征邊界信息。

3.3 "模型設(shè)置

模型的標(biāo)準(zhǔn)是在BiLSTM層設(shè)置隱層大小為128,Batch Size為32,學(xué)習(xí)率為0.001,訓(xùn)練40個Epoch。本文模型的特征BiLSTM大小設(shè)置為32,注意力頭為8。

3.4 "實驗分析

表7列出了這些模型的實驗結(jié)果。在基線模型中添加字典信息和注意力機(jī)制可以提高網(wǎng)絡(luò)安全運(yùn)維數(shù)據(jù)NER的F1值。在標(biāo)注模型中加入適當(dāng)?shù)耐獠恐R或特征,有利于提高識別結(jié)果。使用多頭自注意力機(jī)制可以捕獲多個不同子空間中的上下位信息,提高不規(guī)則文本的實體識別性能。本文模型達(dá)到了最佳結(jié)果,準(zhǔn)確率、召回率和F1值為87.5%、91.5%和89.4%,分別比基線模型高4.9%、16.5%、10.1%,在充分捕捉句子特征的基礎(chǔ)上添加外部信息,可以更好地幫助識別網(wǎng)絡(luò)安全實體。

從表8中可以看出,相比基線模型而言,本文模型對數(shù)據(jù)集中的6種標(biāo)簽都有更好的性能。此外,模型在表示網(wǎng)絡(luò)軟件(SW)的抽取中表現(xiàn)不佳,分析可能的原因是模型對于夾雜英文以及命名方式不規(guī)則的軟件長實體存在邊界混淆。未來針對這種嵌入式的復(fù)雜實體采用雙重標(biāo)注方法,使模型在訓(xùn)練時能夠?qū)W習(xí)到嵌入式的復(fù)雜實體邊界規(guī)則,以期望獲得更好的實體抽取性能。

3.5 "圖譜構(gòu)造結(jié)果

從來自于某企業(yè)的日常網(wǎng)絡(luò)安全運(yùn)維管理所產(chǎn)生的10萬份運(yùn)維日志中抽取出大量的網(wǎng)絡(luò)安全運(yùn)維實體以及關(guān)系。將這些實體與關(guān)系數(shù)據(jù)輸入到Neo4j進(jìn)行圖譜的可視化管理以及存儲。企業(yè)網(wǎng)絡(luò)安全運(yùn)維知識圖譜構(gòu)建結(jié)果如圖3所示。

圖3中包含了本體建模所構(gòu)造的五類共100 648個企業(yè)網(wǎng)絡(luò)安全運(yùn)維實體、四類共300 098個實體間關(guān)系的企業(yè)網(wǎng)絡(luò)安全運(yùn)維知識圖譜,能夠有效地反映出企業(yè)在日常網(wǎng)絡(luò)安全運(yùn)維的網(wǎng)絡(luò)態(tài)勢。相較于傳統(tǒng)的基于預(yù)先設(shè)定規(guī)則的監(jiān)控系統(tǒng),知識圖譜能夠展示更深層次的關(guān)聯(lián)情況,為管理人員在進(jìn)行網(wǎng)絡(luò)安全運(yùn)維管理時提供可靠的知識輔助。

4 "結(jié) "語

本文通過加入基于BERT模型的網(wǎng)絡(luò)安全詞典特征嵌入模塊以及多頭注意力機(jī)制,改良了基線模型BiLSTM?CRF在對于網(wǎng)絡(luò)安全運(yùn)維數(shù)據(jù)的實體抽取性能,并初步設(shè)計構(gòu)建了一個面向企業(yè)網(wǎng)絡(luò)安全運(yùn)維管理的知識圖譜。該成果可以進(jìn)一步指導(dǎo)后續(xù)開展基于圖譜的網(wǎng)絡(luò)安全策略推薦系統(tǒng)或網(wǎng)絡(luò)安全攻擊分類識別系統(tǒng)等研究。本文模型在面對一些無特定語法的跨語言網(wǎng)絡(luò)安全實體的抽取上表現(xiàn)并不如意,未來期望針對這類實體特征進(jìn)行研究,提出準(zhǔn)確率更高的模型。

參考文獻(xiàn)

[1] 佚名.《中國互聯(lián)網(wǎng)發(fā)展報告(2022)》正式發(fā)布[J].新聞世界,2022(10):58.

[2] 丁兆云,劉凱,劉斌,等.網(wǎng)絡(luò)安全知識圖譜研究綜述[J].華中科技大學(xué)學(xué)報(自然科學(xué)版),2021,49(7):79?91.

[3] ABU?SALIH B. Domain?specific knowledge graphs: a survey [J]. Journal of network and computer applications, 2021, 185: 103076.

[4] JI S, PAN S, CAMBRIA E, et al. A survey on knowledge graphs: representation, acquisition, and applications [J]. IEEE transactions on neural networks and learning systems, 2021, 33(2): 494?514.

[5] RAZZAQ A,ANWAR Z,AHMAD H F,et al.Ontology for attack detection: an intelligent approach to web application security [J]. Computers amp; security, 2014, 45(S1): 124?146.

[6] ZHU X, HUANG J, ZHOU B, et al. Real?time personalized twitter search based on semantic expansion and quality model [J]. Neurocomputing, 2017, 254(6): 13?21.

[7] HUANG Z N, XU W, YU K. Bidirectional LSTM?CRF models for sequence tagging [J]. Computer science, 2015(1): 01991.

[8] DEVLIN J, CHANG M W, LEE K, et al. Bert: pre?training of deep bidirectional transformers for language understanding [EB/OL]. [2022?04?17]. https://arxiv.org/pdf/1810.04805.

[9] LAN Z, CHEN M, GOODMAN S, et al. Albert: a lite BERT for self?supervised learning of language representations [EB/OL]. [2022?11?04]. https://arxiv.org/abs/1909.11942.

[10] LI X, YAN H, QIU X, et al. FLAT: Chinese NER using flat?lattice transformer [EB/OL]. [2022?07?08]. http://arxiv.org/abs/2004.11795.

[11] LIU W, ZHOU P, ZHAO Z, et al. K?bert: Enabling language representation with knowledge graph [J]. Proceedings of the AAAI conference on artificial intelligence, 2020, 34(3): 2901?2908.

[12] AN Y, XIA X, CHEN X, et al. Chinese clinical named entity recognition via multi?head self?attention based BiLSTM?CRF [J]. Artificial intelligence in medicine, 2022, 127: 102282.

[13] GAO C, ZHANG X, LIU H. Data and knowledge?driven named entity recognition for cyber security [J]. Cybersecurity, 2021, 4(1): 1?13.

[14] AMERI K, HEMPEL M, SHARIF H, et al. CyBERT: cyber?security claim classification by fine?tuning the bert language model [J]. Journal of cybersecurity and privacy, 2021, 1(4): 615?637.

[15] YAMADA I, ASAI A, SHINDO H, et al. Luke: deep context?ualized entity representations with entity?aware self?attention [EB/OL]. [2022?01?11]. https://arxiv.org/abs/2010.01057v1.

[16] QIN Y, SHEN G, ZHAO W, et al. A network security entity recognition method based on feature template and CNN?BiLSTM?CRF [J]. Frontiers of information technology amp; electronic engineering, 2019, 20(6): 872?884.

猜你喜歡
圖譜運(yùn)維注意力
讓注意力“飛”回來
繪一張成長圖譜
運(yùn)維技術(shù)研發(fā)決策中ITSS運(yùn)維成熟度模型應(yīng)用初探
風(fēng)電運(yùn)維困局
能源(2018年8期)2018-09-21 07:57:24
雜亂無章的光伏運(yùn)維 百億市場如何成長
能源(2017年11期)2017-12-13 08:12:25
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
A Beautiful Way Of Looking At Things
主動對接你思維的知識圖譜
基于ITIL的運(yùn)維管理創(chuàng)新實踐淺析
康乐县| 镇宁| 凉城县| 保靖县| 虞城县| 五大连池市| 孝义市| 汝阳县| 宁陕县| 武平县| 惠东县| 大渡口区| 土默特左旗| 四会市| 广元市| 张家川| 托克托县| 正镶白旗| 泰安市| 黔江区| 万州区| 马山县| 万年县| 嫩江县| 息烽县| 东丰县| 长阳| 乌兰浩特市| 加查县| 云和县| 新营市| 克山县| 眉山市| 中卫市| 锦州市| 广饶县| 姚安县| 平定县| 泸西县| 贵德县| 小金县|