一種減少對(duì)威脅情報(bào)標(biāo)注依賴的自動(dòng)化IOC 抽取方法

2024-08-23 00:00:00余堅(jiān)王俊峰陳熳熳方智陽(yáng)

四川大學(xué)學(xué)報(bào)(自然科學(xué)版) 2024年4期

摘要：為了應(yīng)對(duì)日益嚴(yán)峻的網(wǎng)絡(luò)威脅，需要對(duì)網(wǎng)絡(luò)攻擊做深入的分析. 網(wǎng)絡(luò)威脅指標(biāo)（IOC）是網(wǎng)絡(luò)威脅情報(bào)（CTI）的重要組成部分，貫穿了網(wǎng)絡(luò)攻擊整個(gè)生命周期，準(zhǔn)確描述了每個(gè)攻擊階段的關(guān)鍵信息（攻擊行為、威脅體等）. 從CTI 中抽取IOC 可以幫助進(jìn)行網(wǎng)絡(luò)防御、追蹤和對(duì)抗. 現(xiàn)有的IOC 抽取方法基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法取得了巨大進(jìn)展，但是需要大量人工標(biāo)注的CTI 進(jìn)行訓(xùn)練. 為了應(yīng)對(duì)這一挑戰(zhàn)，本文提出了一種新穎的IOC 自動(dòng)提取方法（L-AIE），僅使用少量標(biāo)注的CTI 就能達(dá)到優(yōu)秀的提取準(zhǔn)確率. L-AIE 通過(guò)細(xì)粒度的分詞方式以從較少的CTI 中獲得足夠的信息，上下文層和組合層用于充分提取子詞級(jí)別的上下文信息. 在訓(xùn)練階段，L-AIE 利用額外的關(guān)系層來(lái)擴(kuò)大IOC 類別之間的差異. 實(shí)驗(yàn)證明，L-AIE 對(duì)訓(xùn)練數(shù)據(jù)量的依賴較小，而且提取效果也優(yōu)于其他對(duì)比方法. L-AIE 僅使用其他模型10% 的數(shù)據(jù)訓(xùn)練，就達(dá)到了87. 54% Macro F1 值，比其他方法高出20%. 當(dāng)訓(xùn)練數(shù)據(jù)量進(jìn)一步減少時(shí)，L-AIE 受影響的程度也小于其他模型的一半.

關(guān)鍵詞：網(wǎng)絡(luò)威脅；網(wǎng)絡(luò)威脅情報(bào)；威脅指標(biāo)；小樣本學(xué)習(xí)

中圖分類號(hào)： TP301. 6 文獻(xiàn)標(biāo)志碼： A DOI： 10. 19907/j. 0490-6756. 2024. 040002

1 引言

隨著網(wǎng)絡(luò)的快速發(fā)展，網(wǎng)絡(luò)威脅逐漸反映出技術(shù)武器化、事件常態(tài)化和攻擊組織化的特點(diǎn)，越來(lái)越難以應(yīng)對(duì). 網(wǎng)絡(luò)威脅嚴(yán)重危害個(gè)人、公共網(wǎng)絡(luò)財(cái)產(chǎn)甚至國(guó)家網(wǎng)絡(luò)空間的安全［1］. 為了更好地應(yīng)對(duì)網(wǎng)絡(luò)威脅，網(wǎng)絡(luò)安全公司和專家在網(wǎng)絡(luò)威脅情報(bào)（Cyber Threat Intelligence， CTI）［2］中分享他們對(duì)攻擊事件、惡意實(shí)體等的分析，所以各安全組織積極收集并廣泛共享了CTI. 開(kāi)源CTI 主要使用威脅指標(biāo)（Indicator Of Compromise， IOC）來(lái)描述網(wǎng)絡(luò)威脅實(shí)體和行為，越來(lái)越多地被分析和用于對(duì)抗攻擊. IOC 是網(wǎng)絡(luò)攻擊的關(guān)鍵指標(biāo)，能夠闡明網(wǎng)絡(luò)攻擊的方法，描繪整個(gè)攻擊場(chǎng)景. 網(wǎng)絡(luò)防御者能夠根據(jù)IOC 深入了解快速演變的攻擊場(chǎng)景，及時(shí)識(shí)別攻擊對(duì)手的技戰(zhàn)術(shù)，并使用適當(dāng)?shù)氖侄芜M(jìn)行反制［3］. IOC 也可以用于各種防御機(jī)制，不僅可以匹配現(xiàn)有的網(wǎng)絡(luò)實(shí)體，還可以識(shí)別相似的攻擊事件［4，5］. 起初，IOC 是人工進(jìn)行抽取的，但安全網(wǎng)站的數(shù)量爆炸式增長(zhǎng). 在過(guò)去的5 年里，僅DarkReading 就發(fā)表了3 萬(wàn)多篇CTI，ATamp;T 也發(fā)表了1 萬(wàn)多篇. 人工處理已不再可行，因此研究者們提出了許多IOC 的自動(dòng)抽取工具或系統(tǒng). 基于規(guī)則的抽取方法首先被提出. 它使用預(yù)定義的規(guī)則（如正則表達(dá)式）來(lái)匹配IOC 實(shí)體，如開(kāi)源工具IOCextractor、python-IOCextract 和集成經(jīng)驗(yàn)系統(tǒng)Twiti［6］、IOCMiner［7］等. 但該方法依賴于專家經(jīng)驗(yàn)，召回率相對(duì)較低，無(wú)法很好地處理IOC 的變體. 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)越來(lái)越多地被用來(lái)改進(jìn)或取代原有的方法. iACE［3］、iAES［8］和Chain?Smith［9］在規(guī)則匹配的基礎(chǔ)上，分別使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)，以判斷實(shí)體是否是IOC. 這種方法可以提高識(shí)別準(zhǔn)確率，但并沒(méi)有擺脫規(guī)則的約束.Zhou 等［10］和Zhao 等［11］都將IOC 提取建模為序列標(biāo)注問(wèn)題. 這類方法需要領(lǐng)域?qū)＜覍?duì)大量CTI 進(jìn)行正確標(biāo)注，才能達(dá)到出色的提取效果，需要耗費(fèi)大量的時(shí)間和人力. 因此，當(dāng)下迫切需要一種能夠在少量標(biāo)注數(shù)據(jù)下就能表現(xiàn)出色的IOC 抽取方法.

本文提出了一種新穎的端到端IOC 抽取方法L-AIE（Automatical IOC Extraction with Less labeledCTI），其總體架構(gòu)可以分為5 個(gè)部分：（1）文本處理；（2）上下文層；（3）組合層；（4）關(guān)系層；（5） CRF 解碼層. L-AIE 將單詞拆分為子詞作為句子的基本單元，這些子詞位于單詞和字符2 個(gè)粒度之間. L-AIE 隨后重新組合子詞的表征，以集中分散的信息，并確保輸出序列與原始句子長(zhǎng)度相同.為了更好地處理IOC 樣本數(shù)量稀少的問(wèn)題，L-AIE在訓(xùn)練階段引入了關(guān)系區(qū)分網(wǎng)絡(luò)，以增大不同類別IOC 表征的區(qū)別減少同一類別之間的差異. 本文還提出了一種內(nèi)存緩存方法來(lái)簡(jiǎn)化關(guān)系層的訓(xùn)練復(fù)雜性. 預(yù)測(cè)階段不需要關(guān)系層，所以不會(huì)降低方法的計(jì)算速度.

實(shí)驗(yàn)表明，L-AIE 的Macro F1 結(jié)果為87. 54%，優(yōu)于其他對(duì)比方法. L-AIE 的訓(xùn)練數(shù)據(jù)量比其他方法少得多，大約是其他研究數(shù)據(jù)量的10%. 結(jié)果表明，L-AIE 受數(shù)據(jù)量大小的干擾較小，具有較強(qiáng)的魯棒性.

本文的貢獻(xiàn)主要有以下3 點(diǎn)：

（1）本文提出了一個(gè)新穎的端到端模型LAIE用于IOC 抽取. 大量實(shí)驗(yàn)證明L-AIE 在小樣本的情況下也具有優(yōu)異的抽取效果.

（2） CTI 文本基于子詞粒度進(jìn)行處理，隨后對(duì)其編碼進(jìn)行重新組合，僅使用少量數(shù)據(jù)就能對(duì)未知IOC 進(jìn)行更全面的表征.

（3） L-AIE 引入了關(guān)系層，以增強(qiáng)模型區(qū)分不同IOC 類別的能力，在訓(xùn)練階段能從較少的數(shù)據(jù)中學(xué)習(xí)更多的特征.

2 相關(guān)工作

2. 1 安全系統(tǒng)

目前，有很多關(guān)于安全和隱私的研究，如表1所示. James 等［12］提出了一種通過(guò)集成CTI 來(lái)增強(qiáng)商業(yè)組織安全性的解決方案. Riesco 等［13］利用CTI 實(shí)現(xiàn)了自動(dòng)化的動(dòng)態(tài)風(fēng)險(xiǎn)控制. Kumar 等［14］為自動(dòng)駕駛環(huán)境提供了安全保障. Husari 等［15］通過(guò)CTI 更好地了解了APT 攻擊的特征和行為. 對(duì)于物聯(lián)網(wǎng)領(lǐng)域，Kumar 等解決了工業(yè)［16］、汽車［17］和海事運(yùn)輸系統(tǒng)［18］的安全問(wèn)題.

上述研究涵蓋了物聯(lián)網(wǎng)、商業(yè)等多個(gè)領(lǐng)域，其中大多數(shù)都利用CTI 來(lái)實(shí)現(xiàn)其中的關(guān)鍵技術(shù)，保護(hù)各自領(lǐng)域的安全和隱私. 這突出表明了CTI 在各領(lǐng)域安全系統(tǒng)中的重要性. CTI 最關(guān)鍵的組成部分是IOC，高效地從CTI 中抽取IOC 可以將不同領(lǐng)域的安全系統(tǒng)的能力提升到更高的水平.

2. 2 IOC 抽取

IOC 抽取任務(wù)是從非結(jié)構(gòu)化的CTI 文本中提取威脅指標(biāo). 首先對(duì)CTI 文本做預(yù)處理，進(jìn)行分句和分詞；然后提取單詞特征；最后綜合上下文判斷單詞是否為IOC 實(shí)體. 目前方法大致可分為3 類：（1）基于規(guī)則的方法；（2）規(guī)則與機(jī)器學(xué)習(xí)或深度學(xué)習(xí)相結(jié)合的方法；（3）基于端到端模型的方法.

典型的IOC 具有不同的形式特征，如IPv4 地址和URL 鏈接. 基于規(guī)則的方法通過(guò)總結(jié)IOC 的特征來(lái)制定匹配規(guī)則. 如簡(jiǎn)單抽取工具：IOCextractor、python IOCextract. 另外，Twiti［6］、IOCMiner［7］是包含CTI 爬蟲、數(shù)據(jù)清洗和IOC 抽取等操作的集成系統(tǒng). 但這類方法的效果取決于規(guī)則和專家知識(shí)的全面性. IOC 有3 個(gè)特點(diǎn)是規(guī)則難以解決的.（1） IOC 會(huì)被混淆，以防止讀者誤點(diǎn)，這使得IOC 的規(guī)則變得更加復(fù)雜，甚至沒(méi)有規(guī)則可言.表2 列舉了IPv4 地址的幾種常見(jiàn)混淆方法. 很難用單個(gè)規(guī)則實(shí)現(xiàn)對(duì)這些混淆形式的全面覆蓋.（2）有些IOC 在格式上非常相似，比如域名和文件名，在復(fù)雜的場(chǎng)景下它們會(huì)被識(shí)別錯(cuò)誤.（3）一些規(guī)則匹配得到的IOC 并不是真陽(yáng)性樣本. 例如，作者的電子郵件被用作聯(lián)系人，不應(yīng)該被視為IOC.

一些研究引入了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)解決上述問(wèn)題. iACE［3］、iAES［8］和ChainSmith［9］首先使用規(guī)則來(lái)選出可能包含IOC 的句子，然后應(yīng)用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)來(lái)確定待定IOC 的真實(shí)性. 然而，正則表達(dá)式的覆蓋率直接影響算法的結(jié)果. 同時(shí)，多步驟算法的每個(gè)步驟之間存在難以消除的誤差傳播.

基于端到端模型的方法表現(xiàn)十分出色.AITI［22］應(yīng)用卷積網(wǎng)絡(luò)來(lái)識(shí)別句子是否包含IOC.TTPDrill［23］和ATHRNN［24］專注于從CTI 中提取戰(zhàn)術(shù)和技術(shù)，而Neuhaus 等［25］的方法專注于抽取CVE. 這些方法側(cè)重于個(gè)別IOC 類型，后續(xù)研究旨在同時(shí)提取多種IOC. Zhou 等［10］首次應(yīng)用命名實(shí)體識(shí)別思想，使用長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）［26］加注意力機(jī)制進(jìn)行IOC 抽取. Zhao 等［11］利用n-gram細(xì)化了表示粒度，增強(qiáng)了模型的特征提取能力.Wang 等［27］和Zhou 等［28］都使用BERT［29］進(jìn)行深度詞嵌入表征，以更好地表示IOC. 他們都針對(duì)IOC的特點(diǎn)進(jìn)行了一些細(xì)節(jié)的優(yōu)化. 彭嘉毅等［30］在深度學(xué)習(xí)的基礎(chǔ)上采用主動(dòng)抽樣策略擴(kuò)大訓(xùn)練樣本，一定程度減少了標(biāo)注工作，不過(guò)仍需人為干預(yù).

上述所有研究工作都明確了IOC 具有領(lǐng)域特性，并有針對(duì)性地加以解決. 然而，一個(gè)IOC 一般不會(huì)出現(xiàn)在兩次攻擊中，所以在兩篇描述不同攻擊的CTI 中基本不存在重復(fù)IOC. 這使得模型無(wú)法對(duì)未知IOC 進(jìn)行表征，因此需要大量有標(biāo)注的CTI 來(lái)增加模型的魯棒性. 如表3 所示，如果沒(méi)有大量標(biāo)注的CTI，上述模型不可能達(dá)到如此優(yōu)秀的效果. 但標(biāo)注CTI 需要專家經(jīng)驗(yàn)，耗時(shí)且耗費(fèi)人力［31］.

2. 3 小樣本學(xué)習(xí)

減少模型對(duì)數(shù)據(jù)量的依賴，以減少標(biāo)注工作，是如今IOC 抽取迫切需要解決的問(wèn)題. 小樣本學(xué)習(xí)的核心是從少量的樣本中獲得足夠的特征信息［32，33］. 這對(duì)解決上述問(wèn)題有很大的啟發(fā).

許多小樣本學(xué)習(xí)方法都基于度量，側(cè)重于學(xué)習(xí)好的度量方式，而不是擬合大量參數(shù). SiameseNetwork 重用特征提取模塊來(lái)比較兩個(gè)輸入的相似性，大大減少了模型參數(shù)的數(shù)量［34］. MatchingNetwork 將二元關(guān)系擴(kuò)展為一對(duì)多，并為支持集和查詢集使用不同的編碼器［35］. 原型網(wǎng)絡(luò)會(huì)對(duì)每個(gè)類別計(jì)算出1 個(gè)原型表示［36］. 從多個(gè)樣本中提取原型比計(jì)算樣本對(duì)的相似性更準(zhǔn)確. 但是相似度在某些場(chǎng)景中不適用，關(guān)系網(wǎng)絡(luò)使用簡(jiǎn)單的網(wǎng)絡(luò)代替相似度計(jì)算公式，提高了通用性［37］.小樣本學(xué)習(xí)改變了學(xué)習(xí)目標(biāo)，在樣本類別較多但每種類別數(shù)量較少的場(chǎng)景中表現(xiàn)出色. 但小樣本學(xué)習(xí)訓(xùn)練比較復(fù)雜，需要按類別對(duì)樣本進(jìn)行分組，而且類別特征是從獨(dú)立樣本提取的. 而IOC是包含在CTI 中的，脫離上下文是沒(méi)有意義的. 此外，IOC 的類別很多，簡(jiǎn)單地使用小樣本學(xué)習(xí)很容易導(dǎo)致過(guò)擬合. 小樣本學(xué)習(xí)的思想對(duì)IOC 抽取非常有啟發(fā)意義，但很難以目前的形式直接應(yīng)用.

3 IOC 抽取方法（L-AIE）

常見(jiàn)安全系統(tǒng)的架構(gòu)如圖1 所示. 網(wǎng)絡(luò)爬蟲不斷地在網(wǎng)絡(luò)上爬取CTI，完成簡(jiǎn)單的清理工作（如去重和清除HTML 標(biāo)簽）后，CTI 被存儲(chǔ)在數(shù)據(jù)庫(kù)中. CTI 由L-AIE 處理，抽取其中的IOC，將其組織成結(jié)構(gòu)化的信息，并在知識(shí)庫(kù)中存檔. 之后，安全系統(tǒng)可以利用知識(shí)庫(kù)的數(shù)據(jù)來(lái)對(duì)抗外部攻擊. 溯源系統(tǒng)還可以使用知識(shí)庫(kù)追蹤到攻擊來(lái)源. 因此，L-AIE 是最關(guān)鍵的步驟，其抽取的有效性決定了其他下游系統(tǒng)的能力上限.

L-AIE 共有5 個(gè)部分：（1）文本處理；（2）上下文層；（3）組合層；（4）關(guān)系層；（5） CRF 解碼層.L-AIE 的結(jié)構(gòu)如圖2 所示. L-AIE 將CTI 句子拆分為子詞序列. 上下文層提取子詞序列中的上下文信息. 組合層組合同個(gè)單詞下所有子詞的特征，使輸出序列長(zhǎng)度與標(biāo)簽序列匹配. 最后，CRF 解碼層［38，39］進(jìn)行解碼. 關(guān)系層只存在于訓(xùn)練階段，它增強(qiáng)了L-AIE 區(qū)分不同IOC 類別的能力.

3. 1 文本處理

L-AIE 對(duì)句子進(jìn)行了2 步細(xì)致的處理. 步驟1，對(duì)句子進(jìn)行分詞，并處理標(biāo)點(diǎn)符號(hào)；步驟2，每個(gè)單詞通過(guò)Word Piece 算法［40］拆分為子詞. 舉個(gè)例子，例子中符號(hào)“/”表示拆分：

（1） Phishing domain www. googles. com（. 原句）；

（2） Phishing/domain/www. googles. com/.（步驟1）；

（3） Phishing/domain/www/. /googles/. /com/.（步驟2）.

域名””www. googles. com”只會(huì)出現(xiàn)在個(gè)別CTI 中，因?yàn)橥瑐€(gè)IOC 幾乎不被重復(fù)使用. 該域名經(jīng)過(guò)Word Piece 算法后被分為5 個(gè)子詞，這些子詞會(huì)重復(fù)出現(xiàn)，其特征可以被重用. 子詞拆分主要發(fā)生在IOC 上，而常見(jiàn)單詞會(huì)被完整保留. 設(shè)CTI 句子S =[ w1，w2，. . . ，wn ]，其中wi 表示經(jīng)過(guò)步驟1之后的第i個(gè)單詞. 經(jīng)過(guò)步驟2 之后，如式（1）所示.

S =[ sw1，1，sw1，2，...，sw1，l1，...，swn，ln ] （1）

其中，swi，j 是wi 的子詞；li 是wi 子詞的個(gè)數(shù). 最終的子詞序列S 是后續(xù)層的輸入. 這種處理的優(yōu)點(diǎn)是不僅解決了IOC 重復(fù)出現(xiàn)頻率低的問(wèn)題，而且對(duì)于不同的子詞，表征的每個(gè)維度都可以充分利用，都包含上下文信息.

3. 2 上下文層

上下文層的目標(biāo)是充分提取CTI 語(yǔ)句的上下文語(yǔ)義. 詳細(xì)的子詞表征過(guò)程如圖3 所示.

對(duì)于子詞序列S，有2 種不同的嵌入：子詞嵌入和位置嵌入. 子詞嵌入獲得每個(gè)子詞的表示向量.位置嵌入則一般按序列順序來(lái)標(biāo)識(shí)，比如sw1，1 和sw1，2 具有不同的位置嵌入，但這種做法破壞了子詞之間的關(guān)聯(lián)性. 為了更好地聚合同單詞的特征，L-AIE 中同個(gè)單詞的所有子詞共享1 個(gè)位置嵌入，即pi，j = pi，j+ 1 = … = pi，li ≠ pi + 1，j，其中pi，j 是子詞swi，j 的位置，簡(jiǎn)寫為pi. 最終子詞嵌入和位置嵌入相加，公式表示如下.

ei，j = Et （ swi，j ）+ Ep （ pi ）（2）

其中，Et 和Ep 分別為子詞嵌入矩陣和位置嵌入矩陣. 表征e 被傳入后續(xù)的注意力層中.

注意力機(jī)制能夠更加關(guān)注IOC 或與其相關(guān)的重要子詞，減少非關(guān)鍵詞的影響. 計(jì)算過(guò)程如下，設(shè)hi =[ hi1，hi2，…，hin* ] 表示第i 層隱藏狀態(tài)序列，其中hi ∈R n* × m，n* 為子詞序列的長(zhǎng)度，通常大于單詞序列的長(zhǎng)度n，m 表示隱藏狀態(tài)的維度. 第i 層的注意力值計(jì)算公式如下.

其中，softmax 為歸一化指數(shù)函數(shù)；Att 為計(jì)算注意力函數(shù)；W iq，W iv，W iv 都是權(quán)重矩陣，上標(biāo)T 表示矩陣轉(zhuǎn)置；根號(hào) dk 表示k 的維度，在本文中等于m. 注意力值會(huì)輸入到后續(xù)全連接層中進(jìn)行計(jì)算，最終輸出hi + 1.

3. 3 組合層

由于一些單詞被拆分為幾個(gè)子詞，標(biāo)簽序列和子詞序列的長(zhǎng)度不匹配導(dǎo)致無(wú)法解碼. 因此，LAIE把同個(gè)單詞所有子詞的隱藏狀態(tài)作為1 組，在每組內(nèi)再次通過(guò)自注意力計(jì)算得到1 個(gè)表征. 該表征包含所有子詞的特征語(yǔ)義.

設(shè)上下文層的最后輸出表示為h =[ h1，1，h1，2，…，h1，l 1，…，hn，l 1 ]. 首先對(duì)隱藏狀態(tài)分組，例如，[ h1，1，h1，2，…，h1，l1 ] 是單詞w1 的子詞表征序列，它們被分為1 組，獨(dú)立輸入到組合層中進(jìn)行計(jì)算，組合層輸出序列的第1 個(gè)隱藏狀態(tài)h'1，1 作為w1 的最終表征. 因?yàn)樽⒁饬κ侨值?，每個(gè)子詞都關(guān)注其他所有子詞，習(xí)慣上取第1 個(gè)隱藏狀態(tài)作為表征.組合后的序列h'=[ h'1，1，h'2，1，…，h'n，1 ]為整個(gè)句子的最終表征，其長(zhǎng)度與標(biāo)簽序列相等.

需要注意的是，如果一個(gè)單詞沒(méi)有被拆分為多個(gè)子詞，則不需要通過(guò)組合層來(lái)組合表征. 本文也考慮了池化等無(wú)參數(shù)的函數(shù)，但會(huì)導(dǎo)致嚴(yán)重的過(guò)擬合，因此認(rèn)為在組合子詞時(shí)需要使用有參數(shù)的模型結(jié)構(gòu).

3. 4 關(guān)系層

L-AIE 受小樣本學(xué)習(xí)的啟發(fā)，用關(guān)系層增大不同類別IOC 輸出表征的區(qū)別. L-AIE 關(guān)系層的重點(diǎn)是使上游網(wǎng)絡(luò)能夠?qū)W習(xí)不同類別單詞之間的特征，并在少量數(shù)據(jù)中得到盡可能大的差異表示. 關(guān)系層的輸出不用于預(yù)測(cè)，所以在預(yù)測(cè)階段不需要計(jì)算關(guān)系. 關(guān)系層在L-AIE 中是多層全連接網(wǎng)絡(luò).除最后一層外，其余層都使用線性整流函數(shù)作為激活函數(shù)，符號(hào)表示為relu，最后一層使用邏輯斯諦函數(shù)生成相似性得分，符號(hào)表示為sigmoid. 上述關(guān)系層的具體計(jì)算過(guò)程如圖4 所示.

每個(gè)IOC 類別（包括“Other”，非IOC）有1 個(gè)中心表征，該表證由訓(xùn)練集中該類IOC 表征平均計(jì)算得到，設(shè)Ci， i = 1，2，…，k，（簡(jiǎn)稱中心），其中k是類別的數(shù)量. 對(duì)于新的單詞表征h'j，將其與所有中心拼接，得到C 'i，j， i= 1，2，…，k. 關(guān)系層將C 'i，j 作為輸入，輸出該表征對(duì)于每個(gè)中心的相似值ri，j， i = 1，2，…，k. 該值越接近于1，表示該表征與該類別越相似. 計(jì)算過(guò)程如下式所示.

其中，⊕ 表示向量拼接；L 是全連接層的層數(shù)量.關(guān)系層旨在使上游得到的表征與其真實(shí)類別的中心更類似，與其他中心區(qū)別更大.

關(guān)系層的損失函數(shù)如下式所示，其中tj 是h'j 的真實(shí)類別標(biāo)簽.

因?yàn)閱卧~表征不能獨(dú)立計(jì)算，需要由包含多個(gè)類別IOC 的句子計(jì)算得到，復(fù)雜度較高. 本文設(shè)計(jì)了基于內(nèi)存緩存的方法. 在訓(xùn)練第1 批數(shù)據(jù)之前，所有中心都隨機(jī)初始化并緩存在內(nèi)存中. 在訓(xùn)練每個(gè)批次后，基于當(dāng)前句子對(duì)每個(gè)類別的表征取平均值，替換內(nèi)存中原來(lái)的值. 如果此批次數(shù)據(jù)中不存在某些類別，則該類別中心保持不變. 綜上所述，動(dòng)態(tài)更新的過(guò)程避免了為每個(gè)批次重新計(jì)算中心表示. 這樣就不必額外組織數(shù)據(jù)編排形式，簡(jiǎn)化了訓(xùn)練過(guò)程. 具體計(jì)算流程如算法1 所示. 其中n 是句子的長(zhǎng)度，count 是1 個(gè)類別單詞出現(xiàn)的次數(shù)，c '是臨時(shí)變量.

需要強(qiáng)調(diào)的是，關(guān)系層僅用在訓(xùn)練過(guò)程以增強(qiáng)L-AIE 的特征區(qū)分能力. 由于IOC 的特殊性，如果只使用關(guān)系層進(jìn)行分類，而不依賴L-AIE 的其他模塊，則會(huì)導(dǎo)致嚴(yán)重的過(guò)度擬合，無(wú)法泛化使用.

3. 5 CRF 解碼層

CRF 解碼層用于輸出具有最大概率的標(biāo)簽序列. 組合層的輸出序列被映射到標(biāo)簽的概率序列pr =[ pr1，pr2，. . . ，prn ]. 直接對(duì)取每個(gè)單詞的概率取最大值會(huì)忽略序列關(guān)系，因此L-AIE 使用CRF 來(lái)捕獲序列特征. CRF 的損失函數(shù)如下式所示.

其中，t 為預(yù)測(cè)的標(biāo)簽序列；scorer 是真實(shí)標(biāo)簽序列的分值；N 為所有可能的標(biāo)簽序列數(shù)量；T 是CRF的轉(zhuǎn)移概率矩陣；T [ i，j ] 表示當(dāng)前標(biāo)簽為i，下1 個(gè)標(biāo)簽為j 的概率. 在預(yù)測(cè)階段，CRF 輸出score 最大的1 個(gè)標(biāo)簽序列.

3. 6 最終的損失函數(shù)

對(duì)于概率序列pr，除了lossr 和losscrf，還需要交叉熵?fù)p失函數(shù)lossce. 這是因?yàn)椴煌悇eIOC 的實(shí)體數(shù)量極度不平衡，CRF 無(wú)法應(yīng)對(duì)這種情況，會(huì)導(dǎo)致模型預(yù)測(cè)結(jié)果嚴(yán)重傾斜. L-AIE 在交叉熵中為不同類別的損失值添加權(quán)重，以平衡類別數(shù)量的差異并加速模型收斂. 類別數(shù)量差別過(guò)大的情況在IOC抽取中尤為嚴(yán)重，因?yàn)榉荌OC 單詞的數(shù)量通常是其他的成百甚至數(shù)千倍，這使得模型學(xué)習(xí)了許多非IOC 單詞的特征，忽略了真正IOC 實(shí)體. 最終損失值由3 部分組成，如下式.

loss = λce lossce + λcrf losscrf + λr lossr （12）

這里λ 是不同損失值的權(quán)重. 在第4 節(jié)中，實(shí)驗(yàn)證明了在一定范圍內(nèi)，每個(gè)損失值的權(quán)重λ 對(duì)模型的最終結(jié)果幾乎沒(méi)有影響.

4 實(shí)驗(yàn)結(jié)果分析

4. 1 數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)集由近年真實(shí)發(fā)表的150 篇CTI 文章組成. 由專家手動(dòng)標(biāo)注并檢查，隨機(jī)選擇30 篇作為訓(xùn)練集，其余作為測(cè)試集. 表2 顯示了不同研究所用的數(shù)據(jù)量.“IOC 數(shù)量比”是指訓(xùn)練集和測(cè)試集中IOC 實(shí)體數(shù)量之比.“訓(xùn)練集平均每類IOC數(shù)量”表示訓(xùn)練集中每個(gè)IOC 類別的平均實(shí)體數(shù)量. 本文所使用的數(shù)據(jù)量是最小的，尤其是每類IOC 的平均樣本數(shù)量.

L-AIE 在表4 的數(shù)據(jù)劃分下與其他優(yōu)秀的IOC 抽取方法進(jìn)行比較（除主動(dòng)學(xué)習(xí)外）. 因?yàn)橥黄狢TI 的語(yǔ)法和IOC 實(shí)體非常相似，所以我們用CTI 作為單元?jiǎng)澐謹(jǐn)?shù)據(jù)集，更加客觀. 盡管訓(xùn)練集和測(cè)試集的IOC 數(shù)基本平均，但訓(xùn)練集的語(yǔ)句要少很多，表示語(yǔ)義場(chǎng)景更少，這也是對(duì)模型泛化能力的考驗(yàn).

本文還根據(jù)IOC 的數(shù)量劃分了更小比例的數(shù)據(jù)集，以驗(yàn)證L-AIE 在極少量訓(xùn)練數(shù)據(jù)下的效果，如表5 所示.“劃分”是指訓(xùn)練集和測(cè)試集之間IOC數(shù)量的大致比例.。

圖5 展示了處理前句子的長(zhǎng)度和處理后句子增加長(zhǎng)度的關(guān)系. 數(shù)據(jù)集中句子的長(zhǎng)度約為1～90個(gè)單詞. 包含IOC 的語(yǔ)句在2 步分詞后增加的單詞數(shù)遠(yuǎn)多于不包含IOC 的語(yǔ)句. 這證實(shí)了IOC 并不常見(jiàn). 而常用單詞很少被拆分為子詞，有時(shí)會(huì)因?yàn)樵~根、前綴而拆分.

4. 2 參數(shù)設(shè)置

上下文層的參數(shù)設(shè)置如表6 所示. 組合層僅包含4 個(gè)自注意力層，其余參數(shù)和上下文層保持一致. 關(guān)系層包含2 個(gè)全連接層，其映射關(guān)系分別為（ m × 2，m/2 ）和（ m/2，1 ），這里m 為嵌入維度，本文為768.

本文使用AdamW 作為優(yōu)化器. 每個(gè)IOC 類別的交叉熵?fù)p失函數(shù)的權(quán)重為1000/nc，其中nc 為該類別IOC 實(shí)體的數(shù)量. 另外，對(duì)于“Other”類別再乘以1/10 的懲罰系數(shù). 對(duì)于組合層及其之前的部分，學(xué)習(xí)率設(shè)置為1 × 10-5，之后部分設(shè)置為1 ×10-3. 實(shí)驗(yàn)在NVIDIA GeForce RTX 2080 12G 的GPU 上進(jìn)行. 不同IOC 類別的數(shù)量差異很大，Micro指標(biāo)會(huì)消除類別不平衡的影響，因此使用Macro 指標(biāo)更客觀地表達(dá)模型的效果. F1 值是精確度和召回率的調(diào)和結(jié)果，因此本文主要使用Macro F1 來(lái)比較模型的效果.

4. 3 效果比較

為了評(píng)估L-AIE 的有效性，在同等實(shí)驗(yàn)條件下，與其他方法進(jìn)行了對(duì)比. 所有模型都不使用預(yù)訓(xùn)練的參數(shù). 實(shí)驗(yàn)表明，不論數(shù)據(jù)量多少，L-AIE的性能都比其他方法好很多. 對(duì)比方法如下.

方法1 spaCy NER：一個(gè)快速的基于統(tǒng)計(jì)的實(shí)體識(shí)別工具.

方法2 CRFsuite：用于預(yù)測(cè)序列數(shù)據(jù)的CRF的一種實(shí)現(xiàn)［41］.

方法3 Wang 等［27］使用BERT 作為嵌入層，雙向LSTM 獲得序列信息，CRF 進(jìn)行解碼，最后使用知識(shí)庫(kù)進(jìn)行校正. 本文利用訓(xùn)練集建立知識(shí)庫(kù).

方法4 Zhou 等［28］的方法類似于方法3. 他們?cè)贚STM 和CRF 中間加入了一層GRU，移除了對(duì)知識(shí)庫(kù)的依賴.

方法5 彭嘉毅等［30］的識(shí)別模型為雙向LSTM 加CRF，使用最大歸一化對(duì)數(shù)概率算法選擇訓(xùn)練數(shù)據(jù)，因此該方法的訓(xùn)練數(shù)據(jù)和其他方法存在一定差異，但總CTI 數(shù)量保持一致.

方法6 Zhou 等［10］利用字符嵌入計(jì)算出1 個(gè)單詞的表征，與詞嵌入拼接，隨后也使用雙向LSTM 與CRF.

方法7 Zhao 等［11］增加了n-gram 來(lái)作為表征，粒度更細(xì)，隨后也使用雙向LSTM 與CRF.

詳細(xì)的實(shí)驗(yàn)結(jié)果如表7 所示（數(shù)據(jù)明細(xì)見(jiàn)表4）. 可以看出L-AIE 取得了最好的效果. 針對(duì)Macro F1 值，L-AIE 比其他方法高25. 37%～49. 26%，針對(duì)精度和召回率，L-AIE 分別比其他模型高2. 76%～43. 3% 和26. 37%～54. 16%.

方法1 和方法2 面向開(kāi)放領(lǐng)域，未考慮IOC 的領(lǐng)域特征，精度和召回率表現(xiàn)較差. 方法2 考慮了單詞的前后綴，稍好于方法1，但仍有待改進(jìn). 方法3和方法4 利用BERT 模型提取深層上下文信息，在不考慮單詞特征的情況下，其精度勉強(qiáng)達(dá)到要求，但召回率仍較低，說(shuō)明難以識(shí)別新的IOC. 方法5通過(guò)最大歸一化概率算法主動(dòng)選擇概率最大的樣本迭代學(xué)習(xí)，在相同的數(shù)據(jù)下篩選到更有用的樣本，在數(shù)據(jù)總量、信息量都相對(duì)較少的情況下表現(xiàn)已有提升. 方法6 和方法7 在IOC 實(shí)體表征方面更為細(xì)致. 方法6 通過(guò)拼接單詞嵌入和字符表示的方式，對(duì)IOC 進(jìn)行表征，而方法7 則通過(guò)組合ngram的方式進(jìn)行表征. 因此，這2 種方法相較于其他方法，具有較高的召回率表現(xiàn).

方法1～方法7 無(wú)法全面處理新出現(xiàn)的IOC，它們依賴于大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練. L-AIE 利用多個(gè)重復(fù)出現(xiàn)的子詞來(lái)表示新的IOC，這比其他模型更具語(yǔ)義，可以有效提取未知IOC 的上下文信息，不需要大量的標(biāo)注數(shù)據(jù). 此外，本文中的關(guān)系層可以突出不同類別IOC 之間的差異. L-AIE可以從少量的標(biāo)注數(shù)據(jù)中提取更多的IOC 類別特征，達(dá)到更優(yōu)秀的提取結(jié)果.

4. 4 數(shù)據(jù)量的影響

數(shù)據(jù)集不同劃分比例（詳見(jiàn)表5）的結(jié)果如圖6所示. 因?yàn)楸疚膶?shí)驗(yàn)設(shè)定的訓(xùn)練樣本總量很少，所以即使在最高比例（3∶1）下，其余方法的效果也不好. 隨著訓(xùn)練樣本的逐漸減少，所有模型的MacroF1 值逐漸下降，但L-AIE 下降幅度最小. L-AIE 共降低了5% 左右，而其他方法降低了超過(guò)10%.

圖6 中反映了另一個(gè)問(wèn)題，當(dāng)比例從1∶1 開(kāi)始增加訓(xùn)練數(shù)據(jù)時(shí)，模型的最終結(jié)果并沒(méi)有顯著改善. 這是因?yàn)楸疚氖歉鶕?jù)CTI 中包含的IOC 數(shù)量來(lái)劃分?jǐn)?shù)據(jù)集. 盡管IOC 的數(shù)量增加了很多，但相應(yīng)的句子和上下文并沒(méi)有明顯增加. IOC 抽取非常依賴上下文提取語(yǔ)義，因此，僅增加IOC 的數(shù)量而不相應(yīng)地增加CTI 對(duì)于提高模型效果并不明顯.

4. 5 不同IOC 類別的抽取結(jié)果分析

圖7 展示了10 個(gè)IOC 種類別結(jié)果的混淆矩陣. 每一行表示該類別IOC 被識(shí)別為每個(gè)類別的百分比. 因此，對(duì)角線中的概率越大，識(shí)別效果越好. 本文方法L-AIE 對(duì)于每種IOC 的識(shí)別結(jié)果都明顯優(yōu)于其他方法，尤其對(duì)于IPv4 和File Path 等特征不明顯的類別，平均每類IOC 識(shí)別準(zhǔn)確率比其他方法高出20% 以上.

由于樣本量較小，其他模型無(wú)法在少量數(shù)據(jù)中很好地提取類別特征，因此無(wú)法很好地區(qū)分IOC類別.“Other”類別具有最多的單詞，模型在學(xué)習(xí)過(guò)程中發(fā)生嚴(yán)重的傾斜，導(dǎo)致模型的誤判率很高.本文方法L-AIE 很好地解決了這個(gè)問(wèn)題，有效降低了誤判概率.

此外，每類IOC 的抽取效果也有差異.“IPv4”有許多混淆規(guī)則，在形式上類似于Domain 和URL. File、File Path 和Registry Key Path 在規(guī)則上也非常相似. 這使得它們很容易被誤判. 但對(duì)于這些IOC，L-AIE 仍然保持相對(duì)較好的效果.

4. 6 消融實(shí)驗(yàn)

本文方法L-AIE 在解決IOC 抽取問(wèn)題上有2個(gè)策略.（1）構(gòu)造以子詞為基本單位的序列來(lái)提取上下文，隨后拼接子詞表征，從而解決IOC 不重復(fù)出現(xiàn)問(wèn)題；（2）基于小樣本學(xué)習(xí)，在訓(xùn)練中加入關(guān)系層，增強(qiáng)L-AIE 區(qū)分不同類別的能力. 表8 中消融方法1 為本文模型L-AIE，其余5 個(gè)比較方法用于驗(yàn)證L-AIE 各部分的有效性. 其中，”Char”表示使用字符表征拼接單詞嵌入；”Sw”表示使用子詞序列，必須與組合層一起使用；”R” 表示訓(xùn)練階段引入關(guān)系層；”Context”表示使用上下文層.

如表8 所示，任意一個(gè)改進(jìn)點(diǎn)都能使抽取效果得到顯著提高. 消融方法1 和消融方法5、消融方法2 和消融方法6 之間的比較表明，子詞粒度更適合IOC，使模型的Macro F1 提高了20% 以上. 由子詞組成的序列可以更好地表示罕見(jiàn)的IOC，更好地結(jié)合上下文.

從消融方法1 與消融方法2、消融方法5 與消融方法6 的比較中可以看出，關(guān)系層在一定程度上起到區(qū)分IOC 類別的作用. 消融方法5 在消融方法6 的基礎(chǔ)上增加關(guān)系層，Macro F1 提高了約16%. 消融方法2 的結(jié)果已經(jīng)很好，方法1 增加關(guān)系層后依舊可以使Macro F1 提高1. 7%.

消融方法4 不使用CRF，直接使用關(guān)系層來(lái)解碼標(biāo)簽序列. 關(guān)系層獨(dú)立的詞分類忽略了標(biāo)簽之間的轉(zhuǎn)移關(guān)系，提取效果較差. 這表明獨(dú)立于CTI 來(lái)判斷一個(gè)詞是否為IOC 沒(méi)有意義，也說(shuō)明將小樣本學(xué)習(xí)直接應(yīng)用于IOC 提取任務(wù)不可行.

沒(méi)有上下文層的消融方法3 比消融方法1 稍差. 這是因?yàn)镃TI 的語(yǔ)境是復(fù)雜的，IOC 的具體含義需要通過(guò)語(yǔ)境來(lái)解讀. 這說(shuō)明了上下文層的必要性.

4. 7 系數(shù)λ 的影響及方法計(jì)算速度

從表9 可知，不同的損失函數(shù)系數(shù)λ 對(duì)最終結(jié)果基本沒(méi)有影響. 結(jié)果只是產(chǎn)生輕微的抖動(dòng).

表9 中的許多模型的結(jié)果略低于最初的1-1-1系數(shù)，說(shuō)明太大的系數(shù)會(huì)導(dǎo)致模型在收斂過(guò)程中振蕩過(guò)大，從而難以達(dá)到最佳狀態(tài).

L-AIE 的時(shí)間消耗如圖8 所示，計(jì)算時(shí)間隨著CTI 語(yǔ)句長(zhǎng)度的增加而緩慢增加. 由于在預(yù)測(cè)階段沒(méi)有關(guān)系層，IOC 提取速度非?？?，在編譯優(yōu)化的開(kāi)發(fā)環(huán)境中都在80 ms 以內(nèi).

5 結(jié)論

本文提出了一種新的端到端IOC 抽取方法L-AIE. 本方法使用子詞序列來(lái)獲取上下文語(yǔ)義，用小樣本學(xué)習(xí)來(lái)擴(kuò)大不同類別IOC 表征的差異.L-AIE 能夠有效處理未知的IOC，大大減少對(duì)標(biāo)注數(shù)據(jù)的依賴. 實(shí)驗(yàn)結(jié)果表明，與其他方法相比，L-AIE 只需要較少的標(biāo)注數(shù)據(jù)就可以獲得顯著的IOC 提取效果和較強(qiáng)魯棒性，Macro F1 值為87. 54%，實(shí)驗(yàn)證明了本文方法的優(yōu)越性和可擴(kuò)展性. L-AIE 對(duì)訓(xùn)練數(shù)據(jù)量也是不敏感的，當(dāng)訓(xùn)練數(shù)據(jù)顯著減少時(shí)，L-AIE 的效果下降非常小. 此外，我們?cè)谟?xùn)練階段提出了關(guān)系層，這對(duì)分別不同類別的IOC 有著明顯的幫助. 總之，L-AIE 在準(zhǔn)確地自動(dòng)化地提取IOC 和減少標(biāo)注數(shù)據(jù)投入方面具有實(shí)際意義.

目前，在樣本量較小的情況下，L-AIE 對(duì)訓(xùn)練數(shù)據(jù)標(biāo)注的質(zhì)量有一定要求. 未來(lái)我們將繼續(xù)研究，以減少錯(cuò)誤樣本對(duì)L-AIE 的影響. 此外，我們將努力實(shí)現(xiàn)L-AIE 的自學(xué)習(xí)和迭代升級(jí)，以不斷提高其性能，提取更多類別的IOC.

參考文獻(xiàn)：

［1］ Tounsi W，Rais H. A survey on technical threat intelligencein the age of sophisticated cyber attacks［J］.Computers amp; Security， 2017， 72： 212.

［2］ Friedman J，Bouchard M. Definitive guide to cyberthreat intelligence： Using knowledge about adversariesto win the war against targeted attacks［M］. Amsterdam，Netherlands： CyberEdge Group， 2015.

［3］ Liao X， Yuan K， Wang X， et al. Acing the iocgame： Toward automatic discovery and analysis ofopen-source cyber threat intelligence［C］//Proceedingsof the 2016 ACM SIGSAC Conference on Com ?puter and Communications Security. Vienna， Austria：ACM， 2016.

［4］ Conti M， Dargahi T， Dehghantanha A. Cyber threatintelligence： challenges and opportunities［J］. CyberThreat Intelligence， 2018， 70： 1.

［5］ Iklody A， Wagener G， Dulaunoy A， et al. Decayingindicators of compromise［EB/OL］.［2018-08-13］.http：//arxiv. org/abs/1803. 11052.

［6］ Shin H， Shim W C， Kim S， et al. Twiti： Social listeningfor threat intelligence［C］//Proceedings of theWeb Conference. Ljubljana Slovenia： ACM， 2021.

［7］ Niakanlahiji A， Safarnejad L， Harper R， et al. Iocminer：Automatic extraction of indicators of compromisefrom twitter［C］//Proceedings of the 2019IEEE International Conference on Big Data. Los Angeles，USA： IEEE， 2019.

［8］ Wang W P， Ning X K， Song H， et al. An indicatorof compromise extraction method based on deeplearning［J］. Chinese Journal of Computers， 2021，44： 15.［王偉平，寧翔凱，宋虹，等. iAES：面向網(wǎng)絡(luò)安全博客的IOC 自動(dòng)抽取方法［J］. 計(jì)算機(jī)學(xué)報(bào)，2021， 44： 15.］

［9］ Zhu Z， Dumitras T. Chainsmith： Automaticallylearning the semantics of malicious campaigns by miningthreat intelligence reports［C］//Proceedings ofthe 2018 IEEE European Symposium on Securityand privacy. London，United Kingdom： IEEE， 2018.

［10］ Zhou S， Long Z， Tan L， et al. Automatic identificationof indicators of compromise using neural-basedsequence labelling［C］//Proceedings of the 32nd PacificAsia Conference on Language， Information andComputation. Hongkong. China： ACL， 2018.

［11］ Zhao J， Yan Q， Liu X， et al. Cyber threat intelligencemodeling based on heterogeneous graph convolutionalnetwork［C］//Proceedings of the 23rd InternationalSymposium on Research in Attacks，Intrusionsand Defenses. San Sebastian， Spain： USENIXAssociation， 2020.

［12］ Kotsias J， Ahmad A， Scheepers R. Adopting and integratingcyber-threat intelligence in a commercial organisation［J］. European Journal of Information Systems，2023， 32： 35.

［13］ Riesco R，Villagra V A. Leveraging cyber threat intelligencefor a dynamic risk framework ［J］. InternationalJournal of Information Security， 2019， 18： 715.

［14］ Kumar P，Kumar R，Gupta G P，et al. BDEdge：Blockchain and deep-learning for secure edgeenvisionedgreen CAVs［J］. IEEE Transactions onGreen Communications and Networking， 2022， 6：1330.

［15］ Husari G，Al-Shaer E，Chu B，et al. Learning APTchains from cyber threat intelligence［C］//Proceedingsof the 6th Annual Symposium on Hot Topics inthe Science of Security. Nashville Tennessee USA：ACM， 2019.

［16］ Kumar P， Kumar R， Gupta G P， et al. P2tif： Ablockchain and deep learning framework for privacypreservedthreat intelligence in industrial iot［J］.IEEE Transactions on Industrial Informatics， 2022，18： 6358.

［17］ Kumar R，Kumar P，Tripathi R， et al. BDTwin： Anintegrated framework for enhancing security and privacyin cybertwin-driven automotive industrial Internetof Things［J］. IEEE Internet of Things Journal，2021， 9： 17110.

［18］ Kumar P，Gupta G P， Tripathi R，et al. DLTIF：Deep learning-driven cyber threat intelligence modelingand identification framework in IoT-enabled maritimetransportation systems［ J］. IEEE Transactions onIntelligent Transportation Systems， 2021， 24： 2472.

［19］ Mohsin M，Anwar Z. Where to kill the cyber killchain：An ontology-driven framework for iot securityanalytics［C］//Proceedings of the 2016 InternationalConference on Frontiers of Information Technology（FIT）. Islamabad，Pakistan： IEEE， 2016.

［20］ Shi H，Wang W，Liu L，et al. Threat intelligencesharing model and profit distribution based on blockchainand smart contracts［C］//Proceedings of the11th International Conference on Computer Engineeringand Networks. Hechi， China： Springer， 2022.

［21］ Cha J， Singh S K， Pan Y，et al. Blockchain-based cyberthreat intelligence system architecture for sustainablecomputing［ J］. Sustainability， 2020， 12： 6401.

［22］ Xun S， Li X， Gao Y. AITI： An automatic identificationmodel of threat intelligence based on convolutionalneural network［ C］//Proceedings of the 4th InternationalConference on Innovation in Artificial Intelligence.Xiamen， China： ACM， 2020.

［23］ Husari G， Al-Shaer E， Ahmed M， et al. Ttpdrill：Automatic and accurate extraction of threat actionsfrom unstructured text of cti sources［C］//Proceedingsof the 33rd Annual Computer Security ApplicationsConference. Orlando， USA： ACM，2017.

［24］ Liu C， Wang J， Chen X. Threat intelligenceATTamp;CK extraction based on the attention transformerhierarchical recurrent neural network［J］. AppliedSoft Computing， 2022， 122： 108826.

［25］ Neuhaus S，Zimmermann T. Security trend analysiswith cve topic models［C］//Proceedings of the 21stInternational Symposium on Software Reliability Engineering.San Jose， USA： IEEE， 2010.

［26］ Hochreiter S， Schmidhuber J. Long short-termmemory［ J］. Neural Computation， 1997， 9： 1735.

［27］ Wang X，Liu R，Yang J，et al. Cyber threat intelligenceentity extraction based on deep learning andfield knowledge engineering［C］//Proceedings of the25th International Conference on Computer SupportedCooperative Work in Design. Hangzhou，China： IEEE， 2022.

［28］ Zhou Y，Tang Y，Yi M， et al. CTI view： APTthreat intelligence analysis system［J］. Security andCommunication Networks， 2022， 2022： 1.

［29］ Devlin J， Chang M W， Lee K， et al. BERT： Pretrainingof deep bidirectional transformers for languageunderstanding［C］//Processdings of the 2019NAACL. Minneapolis， USA： ACL， 2019.

［30］ Peng J Y，F(xiàn)ang Y，Huang C，et al. Cyber securitynamed entity recognition based on deep active learning［J］. J Sichuan Univ（Nat Sci Ed）， 2019， 56：457.［彭嘉毅，方勇，黃誠(chéng)，等. 基于深度主動(dòng)學(xué)習(xí)的信息安全領(lǐng)域命名實(shí)體識(shí)別研究［J］. 四川大學(xué)學(xué)報(bào)（自然科學(xué)版）， 2019， 56： 457.］

［31］ Liu J， Yan J， Jiang J， et al. TriCTI： An actionable cyberthreat intelligence discovery system via triggerenhancedneural network ［J］. Cybersecurity， 2022，5： 1.

［32］ Jadon S. An overview of deep learning architecturesin few-shot learning domain［EB/OL］. ［2020-08-21］. https：//arxiv. org/abs/2008. 06365.

［33］ Wang Y， Yao Q， Kwok J T， et al. Generalizing froma few examples： A survey on few-shot learning［J］.ACM Computing Surveys， 2020， 53： 1.

［34］ Koch G，Zemel R，Salakhutdinov R. Siamese neuralnetworks for one-shot image recognition［C］// Proceedingsof the 32nd International Conference on MachineLearning. Lille， France： ICML， 2015.

［35］ Vinyals O，Blundell C，Lillicrap T， et al. Matchingnetworks for one shot learning ［J］. Advances in NeuralInformation Processing Systems， 2016， 29： 3637.

［36］ Snell J，Swersky K，Zemel R. Prototypical networksfor few-shot learning［J］. Advances in Neural InformationProcessing Systems， 2017， 30： 4078.

［37］ Sung F，Yang Y，Zhang L，et al. Learning to compare：Relation network for few-shot learning［C］//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. Salt Lake City，UAS： IEEE， 2018.

［38］ Sutton C， McCallum A. An introduction to conditionalrandom fields［J］. Foundations and Trends inMachine Learning， 2012， 4： 267.

［39］ Lafferty J， McCallum A， Pereira F. Conditional randomfields： Probabilistic models for segmenting andlabeling sequence data［ C］//Proceedings of the EighteenthInternational Conference on Machine Learning.Williamstown， USA： Morgan Kaufmann， 2001.

［40］ Schuster M， Nakajima K. Japanese and Korean voicesearch［C］//2012 IEEE International Conference onAcoustics， Speech and Signal Processing. Kyoto， Japan：IEEE， 2012.

［41］ Okazaki N. Crfsuite： A fast implementation of conditionalrandom fields［ EB/OL］.［2023-06-28］. http：//www. chokkan. org/software/crfsuite/.

（責(zé)任編輯：伍少梅）

基金項(xiàng)目：國(guó)家自然科學(xué)基金（U2133208）；國(guó)家重點(diǎn)研發(fā)計(jì)劃（2022YFB3305200）；四川大學(xué)-瀘州市人民政府戰(zhàn)略合作項(xiàng)目（2022CDLZ-5）

四川大學(xué)學(xué)報(bào)(自然科學(xué)版)2024年4期

四川大學(xué)學(xué)報(bào)(自然科學(xué)版)的其它文章: 錐形缸體軸向變量柱塞泵建模及動(dòng)態(tài)特性仿真; “幾”字型雙支撐高速逆流色譜轉(zhuǎn)子系統(tǒng)的結(jié)構(gòu)優(yōu)化與性能分析; 基于坐標(biāo)注意力關(guān)系網(wǎng)絡(luò)的小樣本軸承故障診斷; 污水中肺炎克雷伯氏菌噬菌體的分離及其生物學(xué)特征、基因組分析; 基于broccoli 的RNA 熒光適體設(shè)計(jì)與篩選; 育雛期飼喂維生素納米乳對(duì)蛋雞生長(zhǎng)性能的影響

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種減少對(duì)威脅情報(bào)標(biāo)注依賴的自動(dòng)化IOC 抽取方法