国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種減少對(duì)威脅情報(bào)標(biāo)注依賴的自動(dòng)化IOC 抽取方法

2024-08-23 00:00:00余堅(jiān)王俊峰陳熳熳方智陽(yáng)

摘 要: 為了應(yīng)對(duì)日益嚴(yán)峻的網(wǎng)絡(luò)威脅,需要對(duì)網(wǎng)絡(luò)攻擊做深入的分析. 網(wǎng)絡(luò)威脅指標(biāo)(IOC)是網(wǎng)絡(luò)威脅情報(bào)(CTI)的重要組成部分,貫穿了網(wǎng)絡(luò)攻擊整個(gè)生命周期,準(zhǔn)確描述了每個(gè)攻擊階段的關(guān)鍵信息(攻擊行為、威脅體等). 從CTI 中抽取IOC 可以幫助進(jìn)行網(wǎng)絡(luò)防御、追蹤和對(duì)抗. 現(xiàn)有的IOC 抽取方法基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法取得了巨大進(jìn)展,但是需要大量人工標(biāo)注的CTI 進(jìn)行訓(xùn)練. 為了應(yīng)對(duì)這一挑戰(zhàn),本文提出了一種新穎的IOC 自動(dòng)提取方法(L-AIE),僅使用少量標(biāo)注的CTI 就能達(dá)到優(yōu)秀的提取準(zhǔn)確率. L-AIE 通過(guò)細(xì)粒度的分詞方式以從較少的CTI 中獲得足夠的信息,上下文層和組合層用于充分提取子詞級(jí)別的上下文信息. 在訓(xùn)練階段,L-AIE 利用額外的關(guān)系層來(lái)擴(kuò)大IOC 類別之間的差異. 實(shí)驗(yàn)證明,L-AIE 對(duì)訓(xùn)練數(shù)據(jù)量的依賴較小,而且提取效果也優(yōu)于其他對(duì)比方法. L-AIE 僅使用其他模型10% 的數(shù)據(jù)訓(xùn)練,就達(dá)到了87. 54% Macro F1 值,比其他方法高出20%. 當(dāng)訓(xùn)練數(shù)據(jù)量進(jìn)一步減少時(shí),L-AIE 受影響的程度也小于其他模型的一半.

關(guān)鍵詞: 網(wǎng)絡(luò)威脅; 網(wǎng)絡(luò)威脅情報(bào); 威脅指標(biāo); 小樣本學(xué)習(xí)

中圖分類號(hào): TP301. 6 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 040002

1 引言

隨著網(wǎng)絡(luò)的快速發(fā)展,網(wǎng)絡(luò)威脅逐漸反映出技術(shù)武器化、事件常態(tài)化和攻擊組織化的特點(diǎn),越來(lái)越難以應(yīng)對(duì). 網(wǎng)絡(luò)威脅嚴(yán)重危害個(gè)人、公共網(wǎng)絡(luò)財(cái)產(chǎn)甚至國(guó)家網(wǎng)絡(luò)空間的安全[1]. 為了更好地應(yīng)對(duì)網(wǎng)絡(luò)威脅,網(wǎng)絡(luò)安全公司和專家在網(wǎng)絡(luò)威脅情報(bào)(Cyber Threat Intelligence, CTI)[2]中分享他們對(duì)攻擊事件、惡意實(shí)體等的分析,所以各安全組織積極收集并廣泛共享了CTI. 開(kāi)源CTI 主要使用威脅指標(biāo)(Indicator Of Compromise, IOC)來(lái)描述網(wǎng)絡(luò)威脅實(shí)體和行為,越來(lái)越多地被分析和用于對(duì)抗攻擊. IOC 是網(wǎng)絡(luò)攻擊的關(guān)鍵指標(biāo),能夠闡明網(wǎng)絡(luò)攻擊的方法,描繪整個(gè)攻擊場(chǎng)景. 網(wǎng)絡(luò)防御者能夠根據(jù)IOC 深入了解快速演變的攻擊場(chǎng)景,及時(shí)識(shí)別攻擊對(duì)手的技戰(zhàn)術(shù),并使用適當(dāng)?shù)氖侄芜M(jìn)行反制[3]. IOC 也可以用于各種防御機(jī)制,不僅可以匹配現(xiàn)有的網(wǎng)絡(luò)實(shí)體,還可以識(shí)別相似的攻擊事件[4,5]. 起初,IOC 是人工進(jìn)行抽取的,但安全網(wǎng)站的數(shù)量爆炸式增長(zhǎng). 在過(guò)去的5 年里,僅DarkReading 就發(fā)表了3 萬(wàn)多篇CTI,ATamp;T 也發(fā)表了1 萬(wàn)多篇. 人工處理已不再可行,因此研究者們提出了許多IOC 的自動(dòng)抽取工具或系統(tǒng). 基于規(guī)則的抽取方法首先被提出. 它使用預(yù)定義的規(guī)則(如正則表達(dá)式)來(lái)匹配IOC 實(shí)體,如開(kāi)源工具IOCextractor、python-IOCextract 和集成經(jīng)驗(yàn)系統(tǒng)Twiti[6]、IOCMiner[7]等. 但該方法依賴于專家經(jīng)驗(yàn),召回率相對(duì)較低,無(wú)法很好地處理IOC 的變體. 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)越來(lái)越多地被用來(lái)改進(jìn)或取代原有的方法. iACE[3]、iAES[8]和Chain?Smith[9]在規(guī)則匹配的基礎(chǔ)上,分別使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí),以判斷實(shí)體是否是IOC. 這種方法可以提高識(shí)別準(zhǔn)確率,但并沒(méi)有擺脫規(guī)則的約束.Zhou 等[10]和Zhao 等[11]都將IOC 提取建模為序列標(biāo)注問(wèn)題. 這類方法需要領(lǐng)域?qū)<覍?duì)大量CTI 進(jìn)行正確標(biāo)注,才能達(dá)到出色的提取效果,需要耗費(fèi)大量的時(shí)間和人力. 因此,當(dāng)下迫切需要一種能夠在少量標(biāo)注數(shù)據(jù)下就能表現(xiàn)出色的IOC 抽取方法.

本文提出了一種新穎的端到端IOC 抽取方法L-AIE(Automatical IOC Extraction with Less labeledCTI),其總體架構(gòu)可以分為5 個(gè)部分:(1) 文本處理;(2) 上下文層;(3) 組合層;(4) 關(guān)系層;(5) CRF 解碼層. L-AIE 將單詞拆分為子詞作為句子的基本單元,這些子詞位于單詞和字符2 個(gè)粒度之間. L-AIE 隨后重新組合子詞的表征,以集中分散的信息,并確保輸出序列與原始句子長(zhǎng)度相同.為了更好地處理IOC 樣本數(shù)量稀少的問(wèn)題,L-AIE在訓(xùn)練階段引入了關(guān)系區(qū)分網(wǎng)絡(luò),以增大不同類別IOC 表征的區(qū)別減少同一類別之間的差異. 本文還提出了一種內(nèi)存緩存方法來(lái)簡(jiǎn)化關(guān)系層的訓(xùn)練復(fù)雜性. 預(yù)測(cè)階段不需要關(guān)系層,所以不會(huì)降低方法的計(jì)算速度.

實(shí)驗(yàn)表明,L-AIE 的Macro F1 結(jié)果為87. 54%,優(yōu)于其他對(duì)比方法. L-AIE 的訓(xùn)練數(shù)據(jù)量比其他方法少得多,大約是其他研究數(shù)據(jù)量的10%. 結(jié)果表明,L-AIE 受數(shù)據(jù)量大小的干擾較小,具有較強(qiáng)的魯棒性.

本文的貢獻(xiàn)主要有以下3 點(diǎn):

(1) 本文提出了一個(gè)新穎的端到端模型LAIE用于IOC 抽取. 大量實(shí)驗(yàn)證明L-AIE 在小樣本的情況下也具有優(yōu)異的抽取效果.

(2) CTI 文本基于子詞粒度進(jìn)行處理,隨后對(duì)其編碼進(jìn)行重新組合,僅使用少量數(shù)據(jù)就能對(duì)未知IOC 進(jìn)行更全面的表征.

(3) L-AIE 引入了關(guān)系層,以增強(qiáng)模型區(qū)分不同IOC 類別的能力,在訓(xùn)練階段能從較少的數(shù)據(jù)中學(xué)習(xí)更多的特征.

2 相關(guān)工作

2. 1 安全系統(tǒng)

目前,有很多關(guān)于安全和隱私的研究,如表1所示. James 等[12]提出了一種通過(guò)集成CTI 來(lái)增強(qiáng)商業(yè)組織安全性的解決方案. Riesco 等[13]利用CTI 實(shí)現(xiàn)了自動(dòng)化的動(dòng)態(tài)風(fēng)險(xiǎn)控制. Kumar 等[14]為自動(dòng)駕駛環(huán)境提供了安全保障. Husari 等[15]通過(guò)CTI 更好地了解了APT 攻擊的特征和行為. 對(duì)于物聯(lián)網(wǎng)領(lǐng)域,Kumar 等解決了工業(yè)[16]、汽車[17]和海事運(yùn)輸系統(tǒng)[18]的安全問(wèn)題.

上述研究涵蓋了物聯(lián)網(wǎng)、商業(yè)等多個(gè)領(lǐng)域,其中大多數(shù)都利用CTI 來(lái)實(shí)現(xiàn)其中的關(guān)鍵技術(shù),保護(hù)各自領(lǐng)域的安全和隱私. 這突出表明了CTI 在各領(lǐng)域安全系統(tǒng)中的重要性. CTI 最關(guān)鍵的組成部分是IOC,高效地從CTI 中抽取IOC 可以將不同領(lǐng)域的安全系統(tǒng)的能力提升到更高的水平.

2. 2 IOC 抽取

IOC 抽取任務(wù)是從非結(jié)構(gòu)化的CTI 文本中提取威脅指標(biāo). 首先對(duì)CTI 文本做預(yù)處理,進(jìn)行分句和分詞;然后提取單詞特征;最后綜合上下文判斷單詞是否為IOC 實(shí)體. 目前方法大致可分為3 類:(1) 基于規(guī)則的方法;(2) 規(guī)則與機(jī)器學(xué)習(xí)或深度學(xué)習(xí)相結(jié)合的方法;(3) 基于端到端模型的方法.

典型的IOC 具有不同的形式特征,如IPv4 地址和URL 鏈接. 基于規(guī)則的方法通過(guò)總結(jié)IOC 的特征來(lái)制定匹配規(guī)則. 如簡(jiǎn)單抽取工具:IOCextractor、python IOCextract. 另外,Twiti[6]、IOCMiner[7]是包含CTI 爬蟲、數(shù)據(jù)清洗和IOC 抽取等操作的集成系統(tǒng). 但這類方法的效果取決于規(guī)則和專家知識(shí)的全面性. IOC 有3 個(gè)特點(diǎn)是規(guī)則難以解決的.(1) IOC 會(huì)被混淆,以防止讀者誤點(diǎn),這使得IOC 的規(guī)則變得更加復(fù)雜,甚至沒(méi)有規(guī)則可言.表2 列舉了IPv4 地址的幾種常見(jiàn)混淆方法. 很難用單個(gè)規(guī)則實(shí)現(xiàn)對(duì)這些混淆形式的全面覆蓋.(2) 有些IOC 在格式上非常相似,比如域名和文件名,在復(fù)雜的場(chǎng)景下它們會(huì)被識(shí)別錯(cuò)誤.(3) 一些規(guī)則匹配得到的IOC 并不是真陽(yáng)性樣本. 例如,作者的電子郵件被用作聯(lián)系人,不應(yīng)該被視為IOC.

一些研究引入了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)解決上述問(wèn)題. iACE[3]、iAES[8]和ChainSmith[9]首先使用規(guī)則來(lái)選出可能包含IOC 的句子,然后應(yīng)用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)來(lái)確定待定IOC 的真實(shí)性. 然而,正則表達(dá)式的覆蓋率直接影響算法的結(jié)果. 同時(shí),多步驟算法的每個(gè)步驟之間存在難以消除的誤差傳播.

基于端到端模型的方法表現(xiàn)十分出色.AITI[22]應(yīng)用卷積網(wǎng)絡(luò)來(lái)識(shí)別句子是否包含IOC.TTPDrill[23]和ATHRNN[24]專注于從CTI 中提取戰(zhàn)術(shù)和技術(shù),而Neuhaus 等[25]的方法專注于抽取CVE. 這些方法側(cè)重于個(gè)別IOC 類型,后續(xù)研究旨在同時(shí)提取多種IOC. Zhou 等[10]首次應(yīng)用命名實(shí)體識(shí)別思想,使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[26]加注意力機(jī)制進(jìn)行IOC 抽取. Zhao 等[11]利用n-gram細(xì)化了表示粒度,增強(qiáng)了模型的特征提取能力.Wang 等[27]和Zhou 等[28]都使用BERT[29]進(jìn)行深度詞嵌入表征,以更好地表示IOC. 他們都針對(duì)IOC的特點(diǎn)進(jìn)行了一些細(xì)節(jié)的優(yōu)化. 彭嘉毅等[30]在深度學(xué)習(xí)的基礎(chǔ)上采用主動(dòng)抽樣策略擴(kuò)大訓(xùn)練樣本,一定程度減少了標(biāo)注工作,不過(guò)仍需人為干預(yù).

上述所有研究工作都明確了IOC 具有領(lǐng)域特性,并有針對(duì)性地加以解決. 然而,一個(gè)IOC 一般不會(huì)出現(xiàn)在兩次攻擊中,所以在兩篇描述不同攻擊的CTI 中基本不存在重復(fù)IOC. 這使得模型無(wú)法對(duì)未知IOC 進(jìn)行表征,因此需要大量有標(biāo)注的CTI 來(lái)增加模型的魯棒性. 如表3 所示,如果沒(méi)有大量標(biāo)注的CTI,上述模型不可能達(dá)到如此優(yōu)秀的效果. 但標(biāo)注CTI 需要專家經(jīng)驗(yàn),耗時(shí)且耗費(fèi)人力[31].

2. 3 小樣本學(xué)習(xí)

減少模型對(duì)數(shù)據(jù)量的依賴,以減少標(biāo)注工作,是如今IOC 抽取迫切需要解決的問(wèn)題. 小樣本學(xué)習(xí)的核心是從少量的樣本中獲得足夠的特征信息[32,33]. 這對(duì)解決上述問(wèn)題有很大的啟發(fā).

許多小樣本學(xué)習(xí)方法都基于度量,側(cè)重于學(xué)習(xí)好的度量方式,而不是擬合大量參數(shù). SiameseNetwork 重用特征提取模塊來(lái)比較兩個(gè)輸入的相似性,大大減少了模型參數(shù)的數(shù)量[34]. MatchingNetwork 將二元關(guān)系擴(kuò)展為一對(duì)多,并為支持集和查詢集使用不同的編碼器[35]. 原型網(wǎng)絡(luò)會(huì)對(duì)每個(gè)類別計(jì)算出1 個(gè)原型表示[36]. 從多個(gè)樣本中提取原型比計(jì)算樣本對(duì)的相似性更準(zhǔn)確. 但是相似度在某些場(chǎng)景中不適用,關(guān)系網(wǎng)絡(luò)使用簡(jiǎn)單的網(wǎng)絡(luò)代替相似度計(jì)算公式,提高了通用性[37].小樣本學(xué)習(xí)改變了學(xué)習(xí)目標(biāo),在樣本類別較多但每種類別數(shù)量較少的場(chǎng)景中表現(xiàn)出色. 但小樣本學(xué)習(xí)訓(xùn)練比較復(fù)雜,需要按類別對(duì)樣本進(jìn)行分組,而且類別特征是從獨(dú)立樣本提取的. 而IOC是包含在CTI 中的,脫離上下文是沒(méi)有意義的. 此外,IOC 的類別很多,簡(jiǎn)單地使用小樣本學(xué)習(xí)很容易導(dǎo)致過(guò)擬合. 小樣本學(xué)習(xí)的思想對(duì)IOC 抽取非常有啟發(fā)意義,但很難以目前的形式直接應(yīng)用.

3 IOC 抽取方法(L-AIE)

常見(jiàn)安全系統(tǒng)的架構(gòu)如圖1 所示. 網(wǎng)絡(luò)爬蟲不斷地在網(wǎng)絡(luò)上爬取CTI,完成簡(jiǎn)單的清理工作(如去重和清除HTML 標(biāo)簽)后,CTI 被存儲(chǔ)在數(shù)據(jù)庫(kù)中. CTI 由L-AIE 處理,抽取其中的IOC,將其組織成結(jié)構(gòu)化的信息,并在知識(shí)庫(kù)中存檔. 之后,安全系統(tǒng)可以利用知識(shí)庫(kù)的數(shù)據(jù)來(lái)對(duì)抗外部攻擊. 溯源系統(tǒng)還可以使用知識(shí)庫(kù)追蹤到攻擊來(lái)源. 因此,L-AIE 是最關(guān)鍵的步驟,其抽取的有效性決定了其他下游系統(tǒng)的能力上限.

L-AIE 共有5 個(gè)部分:(1) 文本處理;(2) 上下文層;(3) 組合層;(4) 關(guān)系層;(5) CRF 解碼層.L-AIE 的結(jié)構(gòu)如圖2 所示. L-AIE 將CTI 句子拆分為子詞序列. 上下文層提取子詞序列中的上下文信息. 組合層組合同個(gè)單詞下所有子詞的特征,使輸出序列長(zhǎng)度與標(biāo)簽序列匹配. 最后,CRF 解碼層[38,39]進(jìn)行解碼. 關(guān)系層只存在于訓(xùn)練階段,它增強(qiáng)了L-AIE 區(qū)分不同IOC 類別的能力.

3. 1 文本處理

L-AIE 對(duì)句子進(jìn)行了2 步細(xì)致的處理. 步驟1,對(duì)句子進(jìn)行分詞,并處理標(biāo)點(diǎn)符號(hào);步驟2,每個(gè)單詞通過(guò)Word Piece 算法[40]拆分為子詞. 舉個(gè)例子,例子中符號(hào)“/”表示拆分:

(1) Phishing domain www. googles. com(. 原句);

(2) Phishing/domain/www. googles. com/.(步驟1);

(3) Phishing/domain/www/. /googles/. /com/.( 步驟2).

域名””www. googles. com”只會(huì)出現(xiàn)在個(gè)別CTI 中,因?yàn)橥瑐€(gè)IOC 幾乎不被重復(fù)使用. 該域名經(jīng)過(guò)Word Piece 算法后被分為5 個(gè)子詞,這些子詞會(huì)重復(fù)出現(xiàn),其特征可以被重用. 子詞拆分主要發(fā)生在IOC 上,而常見(jiàn)單詞會(huì)被完整保留. 設(shè)CTI 句子S =[ w1,w2,. . . ,wn ],其中wi 表示經(jīng)過(guò)步驟1之后的第i個(gè)單詞. 經(jīng)過(guò)步驟2 之后,如式(1)所示.

S =[ sw1,1,sw1,2,...,sw1,l1,...,swn,ln ] (1)

其中,swi,j 是wi 的子詞;li 是wi 子詞的個(gè)數(shù). 最終的子詞序列S 是后續(xù)層的輸入. 這種處理的優(yōu)點(diǎn)是不僅解決了IOC 重復(fù)出現(xiàn)頻率低的問(wèn)題,而且對(duì)于不同的子詞,表征的每個(gè)維度都可以充分利用,都包含上下文信息.

3. 2 上下文層

上下文層的目標(biāo)是充分提取CTI 語(yǔ)句的上下文語(yǔ)義. 詳細(xì)的子詞表征過(guò)程如圖3 所示.

對(duì)于子詞序列S,有2 種不同的嵌入:子詞嵌入和位置嵌入. 子詞嵌入獲得每個(gè)子詞的表示向量.位置嵌入則一般按序列順序來(lái)標(biāo)識(shí),比如sw1,1 和sw1,2 具有不同的位置嵌入,但這種做法破壞了子詞之間的關(guān)聯(lián)性. 為了更好地聚合同單詞的特征,L-AIE 中同個(gè)單詞的所有子詞共享1 個(gè)位置嵌入,即pi,j = pi,j+ 1 = … = pi,li ≠ pi + 1,j,其中pi,j 是子詞swi,j 的位置,簡(jiǎn)寫為pi. 最終子詞嵌入和位置嵌入相加,公式表示如下.

ei,j = Et ( swi,j )+ Ep ( pi ) (2)

其中,Et 和Ep 分別為子詞嵌入矩陣和位置嵌入矩陣. 表征e 被傳入后續(xù)的注意力層中.

注意力機(jī)制能夠更加關(guān)注IOC 或與其相關(guān)的重要子詞,減少非關(guān)鍵詞的影響. 計(jì)算過(guò)程如下,設(shè)hi =[ hi1,hi2,…,hin* ] 表示第i 層隱藏狀態(tài)序列,其中hi ∈R n* × m,n* 為子詞序列的長(zhǎng)度,通常大于單詞序列的長(zhǎng)度n,m 表示隱藏狀態(tài)的維度. 第i 層的注意力值計(jì)算公式如下.

其中,softmax 為歸一化指數(shù)函數(shù);Att 為計(jì)算注意力函數(shù);W iq,W iv,W iv 都是權(quán)重矩陣,上標(biāo)T 表示矩陣轉(zhuǎn)置;根號(hào) dk 表示k 的維度,在本文中等于m. 注意力值會(huì)輸入到后續(xù)全連接層中進(jìn)行計(jì)算,最終輸出hi + 1.

3. 3 組合層

由于一些單詞被拆分為幾個(gè)子詞,標(biāo)簽序列和子詞序列的長(zhǎng)度不匹配導(dǎo)致無(wú)法解碼. 因此,LAIE把同個(gè)單詞所有子詞的隱藏狀態(tài)作為1 組,在每組內(nèi)再次通過(guò)自注意力計(jì)算得到1 個(gè)表征. 該表征包含所有子詞的特征語(yǔ)義.

設(shè)上下文層的最后輸出表示為h =[ h1,1,h1,2,…,h1,l 1,…,hn,l 1 ]. 首先對(duì)隱藏狀態(tài)分組,例如,[ h1,1,h1,2,…,h1,l1 ] 是單詞w1 的子詞表征序列,它們被分為1 組,獨(dú)立輸入到組合層中進(jìn)行計(jì)算,組合層輸出序列的第1 個(gè)隱藏狀態(tài)h'1,1 作為w1 的最終表征. 因?yàn)樽⒁饬κ侨值?,每個(gè)子詞都關(guān)注其他所有子詞,習(xí)慣上取第1 個(gè)隱藏狀態(tài)作為表征.組合后的序列h'=[ h'1,1,h'2,1,…,h'n,1 ]為整個(gè)句子的最終表征,其長(zhǎng)度與標(biāo)簽序列相等.

需要注意的是,如果一個(gè)單詞沒(méi)有被拆分為多個(gè)子詞,則不需要通過(guò)組合層來(lái)組合表征. 本文也考慮了池化等無(wú)參數(shù)的函數(shù),但會(huì)導(dǎo)致嚴(yán)重的過(guò)擬合,因此認(rèn)為在組合子詞時(shí)需要使用有參數(shù)的模型結(jié)構(gòu).

3. 4 關(guān)系層

L-AIE 受小樣本學(xué)習(xí)的啟發(fā),用關(guān)系層增大不同類別IOC 輸出表征的區(qū)別. L-AIE 關(guān)系層的重點(diǎn)是使上游網(wǎng)絡(luò)能夠?qū)W習(xí)不同類別單詞之間的特征,并在少量數(shù)據(jù)中得到盡可能大的差異表示. 關(guān)系層的輸出不用于預(yù)測(cè),所以在預(yù)測(cè)階段不需要計(jì)算關(guān)系. 關(guān)系層在L-AIE 中是多層全連接網(wǎng)絡(luò).除最后一層外,其余層都使用線性整流函數(shù)作為激活函數(shù),符號(hào)表示為relu,最后一層使用邏輯斯諦函數(shù)生成相似性得分,符號(hào)表示為sigmoid. 上述關(guān)系層的具體計(jì)算過(guò)程如圖4 所示.

每個(gè)IOC 類別(包括“Other”,非IOC)有1 個(gè)中心表征,該表證由訓(xùn)練集中該類IOC 表征平均計(jì)算得到,設(shè)Ci, i = 1,2,…,k,(簡(jiǎn)稱中心),其中k是類別的數(shù)量. 對(duì)于新的單詞表征h'j,將其與所有中心拼接,得到C 'i,j, i= 1,2,…,k. 關(guān)系層將C 'i,j 作為輸入,輸出該表征對(duì)于每個(gè)中心的相似值ri,j, i = 1,2,…,k. 該值越接近于1,表示該表征與該類別越相似. 計(jì)算過(guò)程如下式所示.

其中,⊕ 表示向量拼接;L 是全連接層的層數(shù)量.關(guān)系層旨在使上游得到的表征與其真實(shí)類別的中心更類似,與其他中心區(qū)別更大.

關(guān)系層的損失函數(shù)如下式所示,其中tj 是h'j 的真實(shí)類別標(biāo)簽.

因?yàn)閱卧~表征不能獨(dú)立計(jì)算,需要由包含多個(gè)類別IOC 的句子計(jì)算得到,復(fù)雜度較高. 本文設(shè)計(jì)了基于內(nèi)存緩存的方法. 在訓(xùn)練第1 批數(shù)據(jù)之前,所有中心都隨機(jī)初始化并緩存在內(nèi)存中. 在訓(xùn)練每個(gè)批次后,基于當(dāng)前句子對(duì)每個(gè)類別的表征取平均值,替換內(nèi)存中原來(lái)的值. 如果此批次數(shù)據(jù)中不存在某些類別,則該類別中心保持不變. 綜上所述,動(dòng)態(tài)更新的過(guò)程避免了為每個(gè)批次重新計(jì)算中心表示. 這樣就不必額外組織數(shù)據(jù)編排形式,簡(jiǎn)化了訓(xùn)練過(guò)程. 具體計(jì)算流程如算法1 所示. 其中n 是句子的長(zhǎng)度,count 是1 個(gè)類別單詞出現(xiàn)的次數(shù),c '是臨時(shí)變量.

需要強(qiáng)調(diào)的是,關(guān)系層僅用在訓(xùn)練過(guò)程以增強(qiáng)L-AIE 的特征區(qū)分能力. 由于IOC 的特殊性,如果只使用關(guān)系層進(jìn)行分類,而不依賴L-AIE 的其他模塊,則會(huì)導(dǎo)致嚴(yán)重的過(guò)度擬合,無(wú)法泛化使用.

3. 5 CRF 解碼層

CRF 解碼層用于輸出具有最大概率的標(biāo)簽序列. 組合層的輸出序列被映射到標(biāo)簽的概率序列pr =[ pr1,pr2,. . . ,prn ]. 直接對(duì)取每個(gè)單詞的概率取最大值會(huì)忽略序列關(guān)系,因此L-AIE 使用CRF 來(lái)捕獲序列特征. CRF 的損失函數(shù)如下式所示.

其中,t 為預(yù)測(cè)的標(biāo)簽序列;scorer 是真實(shí)標(biāo)簽序列的分值;N 為所有可能的標(biāo)簽序列數(shù)量;T 是CRF的轉(zhuǎn)移概率矩陣;T [ i,j ] 表示當(dāng)前標(biāo)簽為i,下1 個(gè)標(biāo)簽為j 的概率. 在預(yù)測(cè)階段,CRF 輸出score 最大的1 個(gè)標(biāo)簽序列.

3. 6 最終的損失函數(shù)

對(duì)于概率序列pr,除了lossr 和losscrf,還需要交叉熵?fù)p失函數(shù)lossce. 這是因?yàn)椴煌悇eIOC 的實(shí)體數(shù)量極度不平衡,CRF 無(wú)法應(yīng)對(duì)這種情況,會(huì)導(dǎo)致模型預(yù)測(cè)結(jié)果嚴(yán)重傾斜. L-AIE 在交叉熵中為不同類別的損失值添加權(quán)重,以平衡類別數(shù)量的差異并加速模型收斂. 類別數(shù)量差別過(guò)大的情況在IOC抽取中尤為嚴(yán)重,因?yàn)榉荌OC 單詞的數(shù)量通常是其他的成百甚至數(shù)千倍,這使得模型學(xué)習(xí)了許多非IOC 單詞的特征,忽略了真正IOC 實(shí)體. 最終損失值由3 部分組成,如下式.

loss = λce lossce + λcrf losscrf + λr lossr (12)

這里λ 是不同損失值的權(quán)重. 在第4 節(jié)中,實(shí)驗(yàn)證明了在一定范圍內(nèi),每個(gè)損失值的權(quán)重λ 對(duì)模型的最終結(jié)果幾乎沒(méi)有影響.

4 實(shí)驗(yàn)結(jié)果分析

4. 1 數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)集由近年真實(shí)發(fā)表的150 篇CTI 文章組成. 由專家手動(dòng)標(biāo)注并檢查,隨機(jī)選擇30 篇作為訓(xùn)練集,其余作為測(cè)試集. 表2 顯示了不同研究所用的數(shù)據(jù)量.“IOC 數(shù)量比”是指訓(xùn)練集和測(cè)試集中IOC 實(shí)體數(shù)量之比.“訓(xùn)練集平均每類IOC數(shù)量”表示訓(xùn)練集中每個(gè)IOC 類別的平均實(shí)體數(shù)量. 本文所使用的數(shù)據(jù)量是最小的,尤其是每類IOC 的平均樣本數(shù)量.

L-AIE 在表4 的數(shù)據(jù)劃分下與其他優(yōu)秀的IOC 抽取方法進(jìn)行比較(除主動(dòng)學(xué)習(xí)外). 因?yàn)橥黄狢TI 的語(yǔ)法和IOC 實(shí)體非常相似,所以我們用CTI 作為單元?jiǎng)澐謹(jǐn)?shù)據(jù)集,更加客觀. 盡管訓(xùn)練集和測(cè)試集的IOC 數(shù)基本平均,但訓(xùn)練集的語(yǔ)句要少很多,表示語(yǔ)義場(chǎng)景更少,這也是對(duì)模型泛化能力的考驗(yàn).

本文還根據(jù)IOC 的數(shù)量劃分了更小比例的數(shù)據(jù)集,以驗(yàn)證L-AIE 在極少量訓(xùn)練數(shù)據(jù)下的效果,如表5 所示.“劃分”是指訓(xùn)練集和測(cè)試集之間IOC數(shù)量的大致比例.。

圖5 展示了處理前句子的長(zhǎng)度和處理后句子增加長(zhǎng)度的關(guān)系. 數(shù)據(jù)集中句子的長(zhǎng)度約為1~90個(gè)單詞. 包含IOC 的語(yǔ)句在2 步分詞后增加的單詞數(shù)遠(yuǎn)多于不包含IOC 的語(yǔ)句. 這證實(shí)了IOC 并不常見(jiàn). 而常用單詞很少被拆分為子詞,有時(shí)會(huì)因?yàn)樵~根、前綴而拆分.

4. 2 參數(shù)設(shè)置

上下文層的參數(shù)設(shè)置如表6 所示. 組合層僅包含4 個(gè)自注意力層,其余參數(shù)和上下文層保持一致. 關(guān)系層包含2 個(gè)全連接層,其映射關(guān)系分別為( m × 2,m/2 )和( m/2,1 ),這里m 為嵌入維度,本文為768.

本文使用AdamW 作為優(yōu)化器. 每個(gè)IOC 類別的交叉熵?fù)p失函數(shù)的權(quán)重為1000/nc,其中nc 為該類別IOC 實(shí)體的數(shù)量. 另外,對(duì)于“Other”類別再乘以1/10 的懲罰系數(shù). 對(duì)于組合層及其之前的部分,學(xué)習(xí)率設(shè)置為1 × 10-5,之后部分設(shè)置為1 ×10-3. 實(shí)驗(yàn)在NVIDIA GeForce RTX 2080 12G 的GPU 上進(jìn)行. 不同IOC 類別的數(shù)量差異很大,Micro指標(biāo)會(huì)消除類別不平衡的影響,因此使用Macro 指標(biāo)更客觀地表達(dá)模型的效果. F1 值是精確度和召回率的調(diào)和結(jié)果,因此本文主要使用Macro F1 來(lái)比較模型的效果.

4. 3 效果比較

為了評(píng)估L-AIE 的有效性,在同等實(shí)驗(yàn)條件下,與其他方法進(jìn)行了對(duì)比. 所有模型都不使用預(yù)訓(xùn)練的參數(shù). 實(shí)驗(yàn)表明,不論數(shù)據(jù)量多少,L-AIE的性能都比其他方法好很多. 對(duì)比方法如下.

方法1 spaCy NER:一個(gè)快速的基于統(tǒng)計(jì)的實(shí)體識(shí)別工具.

方法2 CRFsuite:用于預(yù)測(cè)序列數(shù)據(jù)的CRF的一種實(shí)現(xiàn)[41].

方法3 Wang 等[27]使用BERT 作為嵌入層,雙向LSTM 獲得序列信息,CRF 進(jìn)行解碼,最后使用知識(shí)庫(kù)進(jìn)行校正. 本文利用訓(xùn)練集建立知識(shí)庫(kù).

方法4 Zhou 等[28]的方法類似于方法3. 他們?cè)贚STM 和CRF 中間加入了一層GRU,移除了對(duì)知識(shí)庫(kù)的依賴.

方法5 彭嘉毅等[30]的識(shí)別模型為雙向LSTM 加CRF,使用最大歸一化對(duì)數(shù)概率算法選擇訓(xùn)練數(shù)據(jù),因此該方法的訓(xùn)練數(shù)據(jù)和其他方法存在一定差異,但總CTI 數(shù)量保持一致.

方法6 Zhou 等[10]利用字符嵌入計(jì)算出1 個(gè)單詞的表征,與詞嵌入拼接,隨后也使用雙向LSTM 與CRF.

方法7 Zhao 等[11]增加了n-gram 來(lái)作為表征,粒度更細(xì),隨后也使用雙向LSTM 與CRF.

詳細(xì)的實(shí)驗(yàn)結(jié)果如表7 所示(數(shù)據(jù)明細(xì)見(jiàn)表4). 可以看出L-AIE 取得了最好的效果. 針對(duì)Macro F1 值,L-AIE 比其他方法高25. 37%~49. 26%,針對(duì)精度和召回率,L-AIE 分別比其他模型高2. 76%~43. 3% 和26. 37%~54. 16%.

方法1 和方法2 面向開(kāi)放領(lǐng)域,未考慮IOC 的領(lǐng)域特征,精度和召回率表現(xiàn)較差. 方法2 考慮了單詞的前后綴,稍好于方法1,但仍有待改進(jìn). 方法3和方法4 利用BERT 模型提取深層上下文信息,在不考慮單詞特征的情況下,其精度勉強(qiáng)達(dá)到要求,但召回率仍較低,說(shuō)明難以識(shí)別新的IOC. 方法5通過(guò)最大歸一化概率算法主動(dòng)選擇概率最大的樣本迭代學(xué)習(xí),在相同的數(shù)據(jù)下篩選到更有用的樣本,在數(shù)據(jù)總量、信息量都相對(duì)較少的情況下表現(xiàn)已有提升. 方法6 和方法7 在IOC 實(shí)體表征方面更為細(xì)致. 方法6 通過(guò)拼接單詞嵌入和字符表示的方式,對(duì)IOC 進(jìn)行表征,而方法7 則通過(guò)組合ngram的方式進(jìn)行表征. 因此,這2 種方法相較于其他方法,具有較高的召回率表現(xiàn).

方法1~方法7 無(wú)法全面處理新出現(xiàn)的IOC,它們依賴于大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練. L-AIE 利用多個(gè)重復(fù)出現(xiàn)的子詞來(lái)表示新的IOC,這比其他模型更具語(yǔ)義,可以有效提取未知IOC 的上下文信息,不需要大量的標(biāo)注數(shù)據(jù). 此外,本文中的關(guān)系層可以突出不同類別IOC 之間的差異. L-AIE可以從少量的標(biāo)注數(shù)據(jù)中提取更多的IOC 類別特征,達(dá)到更優(yōu)秀的提取結(jié)果.

4. 4 數(shù)據(jù)量的影響

數(shù)據(jù)集不同劃分比例(詳見(jiàn)表5)的結(jié)果如圖6所示. 因?yàn)楸疚膶?shí)驗(yàn)設(shè)定的訓(xùn)練樣本總量很少,所以即使在最高比例(3∶1)下,其余方法的效果也不好. 隨著訓(xùn)練樣本的逐漸減少,所有模型的MacroF1 值逐漸下降,但L-AIE 下降幅度最小. L-AIE 共降低了5% 左右,而其他方法降低了超過(guò)10%.

圖6 中反映了另一個(gè)問(wèn)題,當(dāng)比例從1∶1 開(kāi)始增加訓(xùn)練數(shù)據(jù)時(shí),模型的最終結(jié)果并沒(méi)有顯著改善. 這是因?yàn)楸疚氖歉鶕?jù)CTI 中包含的IOC 數(shù)量來(lái)劃分?jǐn)?shù)據(jù)集. 盡管IOC 的數(shù)量增加了很多,但相應(yīng)的句子和上下文并沒(méi)有明顯增加. IOC 抽取非常依賴上下文提取語(yǔ)義,因此,僅增加IOC 的數(shù)量而不相應(yīng)地增加CTI 對(duì)于提高模型效果并不明顯.

4. 5 不同IOC 類別的抽取結(jié)果分析

圖7 展示了10 個(gè)IOC 種類別結(jié)果的混淆矩陣. 每一行表示該類別IOC 被識(shí)別為每個(gè)類別的百分比. 因此,對(duì)角線中的概率越大,識(shí)別效果越好. 本文方法L-AIE 對(duì)于每種IOC 的識(shí)別結(jié)果都明顯優(yōu)于其他方法,尤其對(duì)于IPv4 和File Path 等特征不明顯的類別,平均每類IOC 識(shí)別準(zhǔn)確率比其他方法高出20% 以上.

由于樣本量較小,其他模型無(wú)法在少量數(shù)據(jù)中很好地提取類別特征,因此無(wú)法很好地區(qū)分IOC類別.“Other”類別具有最多的單詞,模型在學(xué)習(xí)過(guò)程中發(fā)生嚴(yán)重的傾斜,導(dǎo)致模型的誤判率很高.本文方法L-AIE 很好地解決了這個(gè)問(wèn)題,有效降低了誤判概率.

此外,每類IOC 的抽取效果也有差異.“IPv4”有許多混淆規(guī)則,在形式上類似于Domain 和URL. File、File Path 和Registry Key Path 在規(guī)則上也非常相似. 這使得它們很容易被誤判. 但對(duì)于這些IOC,L-AIE 仍然保持相對(duì)較好的效果.

4. 6 消融實(shí)驗(yàn)

本文方法L-AIE 在解決IOC 抽取問(wèn)題上有2個(gè)策略.(1) 構(gòu)造以子詞為基本單位的序列來(lái)提取上下文,隨后拼接子詞表征,從而解決IOC 不重復(fù)出現(xiàn)問(wèn)題;(2) 基于小樣本學(xué)習(xí),在訓(xùn)練中加入關(guān)系層,增強(qiáng)L-AIE 區(qū)分不同類別的能力. 表8 中消融方法1 為本文模型L-AIE,其余5 個(gè)比較方法用于驗(yàn)證L-AIE 各部分的有效性. 其中,”Char”表示使用字符表征拼接單詞嵌入;”Sw”表示使用子詞序列,必須與組合層一起使用;”R” 表示訓(xùn)練階段引入關(guān)系層;”Context”表示使用上下文層.

如表8 所示,任意一個(gè)改進(jìn)點(diǎn)都能使抽取效果得到顯著提高. 消融方法1 和消融方法5、消融方法2 和消融方法6 之間的比較表明,子詞粒度更適合IOC,使模型的Macro F1 提高了20% 以上. 由子詞組成的序列可以更好地表示罕見(jiàn)的IOC,更好地結(jié)合上下文.

從消融方法1 與消融方法2、消融方法5 與消融方法6 的比較中可以看出,關(guān)系層在一定程度上起到區(qū)分IOC 類別的作用. 消融方法5 在消融方法6 的基礎(chǔ)上增加關(guān)系層,Macro F1 提高了約16%. 消融方法2 的結(jié)果已經(jīng)很好,方法1 增加關(guān)系層后依舊可以使Macro F1 提高1. 7%.

消融方法4 不使用CRF,直接使用關(guān)系層來(lái)解碼標(biāo)簽序列. 關(guān)系層獨(dú)立的詞分類忽略了標(biāo)簽之間的轉(zhuǎn)移關(guān)系,提取效果較差. 這表明獨(dú)立于CTI 來(lái)判斷一個(gè)詞是否為IOC 沒(méi)有意義,也說(shuō)明將小樣本學(xué)習(xí)直接應(yīng)用于IOC 提取任務(wù)不可行.

沒(méi)有上下文層的消融方法3 比消融方法1 稍差. 這是因?yàn)镃TI 的語(yǔ)境是復(fù)雜的,IOC 的具體含義需要通過(guò)語(yǔ)境來(lái)解讀. 這說(shuō)明了上下文層的必要性.

4. 7 系數(shù)λ 的影響及方法計(jì)算速度

從表9 可知,不同的損失函數(shù)系數(shù)λ 對(duì)最終結(jié)果基本沒(méi)有影響. 結(jié)果只是產(chǎn)生輕微的抖動(dòng).

表9 中的許多模型的結(jié)果略低于最初的1-1-1系數(shù),說(shuō)明太大的系數(shù)會(huì)導(dǎo)致模型在收斂過(guò)程中振蕩過(guò)大,從而難以達(dá)到最佳狀態(tài).

L-AIE 的時(shí)間消耗如圖8 所示,計(jì)算時(shí)間隨著CTI 語(yǔ)句長(zhǎng)度的增加而緩慢增加. 由于在預(yù)測(cè)階段沒(méi)有關(guān)系層,IOC 提取速度非???,在編譯優(yōu)化的開(kāi)發(fā)環(huán)境中都在80 ms 以內(nèi).

5 結(jié)論

本文提出了一種新的端到端IOC 抽取方法L-AIE. 本方法使用子詞序列來(lái)獲取上下文語(yǔ)義,用小樣本學(xué)習(xí)來(lái)擴(kuò)大不同類別IOC 表征的差異.L-AIE 能夠有效處理未知的IOC,大大減少對(duì)標(biāo)注數(shù)據(jù)的依賴. 實(shí)驗(yàn)結(jié)果表明,與其他方法相比,L-AIE 只需要較少的標(biāo)注數(shù)據(jù)就可以獲得顯著的IOC 提取效果和較強(qiáng)魯棒性,Macro F1 值為87. 54%,實(shí)驗(yàn)證明了本文方法的優(yōu)越性和可擴(kuò)展性. L-AIE 對(duì)訓(xùn)練數(shù)據(jù)量也是不敏感的,當(dāng)訓(xùn)練數(shù)據(jù)顯著減少時(shí),L-AIE 的效果下降非常小. 此外,我們?cè)谟?xùn)練階段提出了關(guān)系層,這對(duì)分別不同類別的IOC 有著明顯的幫助. 總之,L-AIE 在準(zhǔn)確地自動(dòng)化地提取IOC 和減少標(biāo)注數(shù)據(jù)投入方面具有實(shí)際意義.

目前,在樣本量較小的情況下,L-AIE 對(duì)訓(xùn)練數(shù)據(jù)標(biāo)注的質(zhì)量有一定要求. 未來(lái)我們將繼續(xù)研究,以減少錯(cuò)誤樣本對(duì)L-AIE 的影響. 此外,我們將努力實(shí)現(xiàn)L-AIE 的自學(xué)習(xí)和迭代升級(jí),以不斷提高其性能,提取更多類別的IOC.

參考文獻(xiàn):

[1] Tounsi W,Rais H. A survey on technical threat intelligencein the age of sophisticated cyber attacks[J].Computers amp; Security, 2017, 72: 212.

[2] Friedman J,Bouchard M. Definitive guide to cyberthreat intelligence: Using knowledge about adversariesto win the war against targeted attacks[M]. Amsterdam,Netherlands: CyberEdge Group, 2015.

[3] Liao X, Yuan K, Wang X, et al. Acing the iocgame: Toward automatic discovery and analysis ofopen-source cyber threat intelligence[C]//Proceedingsof the 2016 ACM SIGSAC Conference on Com ?puter and Communications Security. Vienna, Austria:ACM, 2016.

[4] Conti M, Dargahi T, Dehghantanha A. Cyber threatintelligence: challenges and opportunities[J]. CyberThreat Intelligence, 2018, 70: 1.

[5] Iklody A, Wagener G, Dulaunoy A, et al. Decayingindicators of compromise[EB/OL].[2018-08-13].http://arxiv. org/abs/1803. 11052.

[6] Shin H, Shim W C, Kim S, et al. Twiti: Social listeningfor threat intelligence[C]//Proceedings of theWeb Conference. Ljubljana Slovenia: ACM, 2021.

[7] Niakanlahiji A, Safarnejad L, Harper R, et al. Iocminer:Automatic extraction of indicators of compromisefrom twitter[C]//Proceedings of the 2019IEEE International Conference on Big Data. Los Angeles,USA: IEEE, 2019.

[8] Wang W P, Ning X K, Song H, et al. An indicatorof compromise extraction method based on deeplearning[J]. Chinese Journal of Computers, 2021,44: 15.[王偉平, 寧翔凱, 宋虹, 等. iAES:面向網(wǎng)絡(luò)安全博客的IOC 自動(dòng)抽取方法[J]. 計(jì)算機(jī)學(xué)報(bào),2021, 44: 15.]

[9] Zhu Z, Dumitras T. Chainsmith: Automaticallylearning the semantics of malicious campaigns by miningthreat intelligence reports[C]//Proceedings ofthe 2018 IEEE European Symposium on Securityand privacy. London,United Kingdom: IEEE, 2018.

[10] Zhou S, Long Z, Tan L, et al. Automatic identificationof indicators of compromise using neural-basedsequence labelling[C]//Proceedings of the 32nd PacificAsia Conference on Language, Information andComputation. Hongkong. China: ACL, 2018.

[11] Zhao J, Yan Q, Liu X, et al. Cyber threat intelligencemodeling based on heterogeneous graph convolutionalnetwork[C]//Proceedings of the 23rd InternationalSymposium on Research in Attacks,Intrusionsand Defenses. San Sebastian, Spain: USENIXAssociation, 2020.

[12] Kotsias J, Ahmad A, Scheepers R. Adopting and integratingcyber-threat intelligence in a commercial organisation[J]. European Journal of Information Systems,2023, 32: 35.

[13] Riesco R,Villagra V A. Leveraging cyber threat intelligencefor a dynamic risk framework [J]. InternationalJournal of Information Security, 2019, 18: 715.

[14] Kumar P,Kumar R,Gupta G P,et al. BDEdge:Blockchain and deep-learning for secure edgeenvisionedgreen CAVs[J]. IEEE Transactions onGreen Communications and Networking, 2022, 6:1330.

[15] Husari G,Al-Shaer E,Chu B,et al. Learning APTchains from cyber threat intelligence[C]//Proceedingsof the 6th Annual Symposium on Hot Topics inthe Science of Security. Nashville Tennessee USA:ACM, 2019.

[16] Kumar P, Kumar R, Gupta G P, et al. P2tif: Ablockchain and deep learning framework for privacypreservedthreat intelligence in industrial iot[J].IEEE Transactions on Industrial Informatics, 2022,18: 6358.

[17] Kumar R,Kumar P,Tripathi R, et al. BDTwin: Anintegrated framework for enhancing security and privacyin cybertwin-driven automotive industrial Internetof Things[J]. IEEE Internet of Things Journal,2021, 9: 17110.

[18] Kumar P,Gupta G P, Tripathi R,et al. DLTIF:Deep learning-driven cyber threat intelligence modelingand identification framework in IoT-enabled maritimetransportation systems[ J]. IEEE Transactions onIntelligent Transportation Systems, 2021, 24: 2472.

[19] Mohsin M,Anwar Z. Where to kill the cyber killchain:An ontology-driven framework for iot securityanalytics[C]//Proceedings of the 2016 InternationalConference on Frontiers of Information Technology(FIT). Islamabad,Pakistan: IEEE, 2016.

[20] Shi H,Wang W,Liu L,et al. Threat intelligencesharing model and profit distribution based on blockchainand smart contracts[C]//Proceedings of the11th International Conference on Computer Engineeringand Networks. Hechi, China: Springer, 2022.

[21] Cha J, Singh S K, Pan Y,et al. Blockchain-based cyberthreat intelligence system architecture for sustainablecomputing[ J]. Sustainability, 2020, 12: 6401.

[22] Xun S, Li X, Gao Y. AITI: An automatic identificationmodel of threat intelligence based on convolutionalneural network[ C]//Proceedings of the 4th InternationalConference on Innovation in Artificial Intelligence.Xiamen, China: ACM, 2020.

[23] Husari G, Al-Shaer E, Ahmed M, et al. Ttpdrill:Automatic and accurate extraction of threat actionsfrom unstructured text of cti sources[C]//Proceedingsof the 33rd Annual Computer Security ApplicationsConference. Orlando, USA: ACM,2017.

[24] Liu C, Wang J, Chen X. Threat intelligenceATTamp;CK extraction based on the attention transformerhierarchical recurrent neural network[J]. AppliedSoft Computing, 2022, 122: 108826.

[25] Neuhaus S,Zimmermann T. Security trend analysiswith cve topic models[C]//Proceedings of the 21stInternational Symposium on Software Reliability Engineering.San Jose, USA: IEEE, 2010.

[26] Hochreiter S, Schmidhuber J. Long short-termmemory[ J]. Neural Computation, 1997, 9: 1735.

[27] Wang X,Liu R,Yang J,et al. Cyber threat intelligenceentity extraction based on deep learning andfield knowledge engineering[C]//Proceedings of the25th International Conference on Computer SupportedCooperative Work in Design. Hangzhou,China: IEEE, 2022.

[28] Zhou Y,Tang Y,Yi M, et al. CTI view: APTthreat intelligence analysis system[J]. Security andCommunication Networks, 2022, 2022: 1.

[29] Devlin J, Chang M W, Lee K, et al. BERT: Pretrainingof deep bidirectional transformers for languageunderstanding[C]//Processdings of the 2019NAACL. Minneapolis, USA: ACL, 2019.

[30] Peng J Y,F(xiàn)ang Y,Huang C,et al. Cyber securitynamed entity recognition based on deep active learning[J]. J Sichuan Univ(Nat Sci Ed), 2019, 56:457.[彭嘉毅, 方勇, 黃誠(chéng), 等. 基于深度主動(dòng)學(xué)習(xí)的信息安全領(lǐng)域命名實(shí)體識(shí)別研究[J]. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 56: 457.]

[31] Liu J, Yan J, Jiang J, et al. TriCTI: An actionable cyberthreat intelligence discovery system via triggerenhancedneural network [J]. Cybersecurity, 2022,5: 1.

[32] Jadon S. An overview of deep learning architecturesin few-shot learning domain[EB/OL]. [2020-08-21]. https://arxiv. org/abs/2008. 06365.

[33] Wang Y, Yao Q, Kwok J T, et al. Generalizing froma few examples: A survey on few-shot learning[J].ACM Computing Surveys, 2020, 53: 1.

[34] Koch G,Zemel R,Salakhutdinov R. Siamese neuralnetworks for one-shot image recognition[C]// Proceedingsof the 32nd International Conference on MachineLearning. Lille, France: ICML, 2015.

[35] Vinyals O,Blundell C,Lillicrap T, et al. Matchingnetworks for one shot learning [J]. Advances in NeuralInformation Processing Systems, 2016, 29: 3637.

[36] Snell J,Swersky K,Zemel R. Prototypical networksfor few-shot learning[J]. Advances in Neural InformationProcessing Systems, 2017, 30: 4078.

[37] Sung F,Yang Y,Zhang L,et al. Learning to compare:Relation network for few-shot learning[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. Salt Lake City,UAS: IEEE, 2018.

[38] Sutton C, McCallum A. An introduction to conditionalrandom fields[J]. Foundations and Trends inMachine Learning, 2012, 4: 267.

[39] Lafferty J, McCallum A, Pereira F. Conditional randomfields: Probabilistic models for segmenting andlabeling sequence data[ C]//Proceedings of the EighteenthInternational Conference on Machine Learning.Williamstown, USA: Morgan Kaufmann, 2001.

[40] Schuster M, Nakajima K. Japanese and Korean voicesearch[C]//2012 IEEE International Conference onAcoustics, Speech and Signal Processing. Kyoto, Japan:IEEE, 2012.

[41] Okazaki N. Crfsuite: A fast implementation of conditionalrandom fields[ EB/OL].[2023-06-28]. http://www. chokkan. org/software/crfsuite/.

(責(zé)任編輯: 伍少梅)

基金項(xiàng)目: 國(guó)家自然科學(xué)基金(U2133208); 國(guó)家重點(diǎn)研發(fā)計(jì)劃(2022YFB3305200); 四川大學(xué)-瀘州市人民政府戰(zhàn)略合作項(xiàng)目(2022CDLZ-5)

舒兰市| 石泉县| 朝阳县| 东兰县| 仲巴县| 聂荣县| 微山县| 天水市| 修武县| 穆棱市| 曲阳县| 团风县| 玉屏| 建宁县| 天等县| 岐山县| 天峻县| 浑源县| 宁海县| 慈溪市| 公主岭市| 准格尔旗| 包头市| 桑日县| 南漳县| 保靖县| 如东县| 高雄县| 罗江县| 峨山| 昭觉县| 灌云县| 连江县| 定西市| 定陶县| 鸡西市| 江西省| 天柱县| 德化县| 徐水县| 新民市|