數(shù)據(jù)驅(qū)動(dòng)的威脅狩獵語(yǔ)言模型研究進(jìn)展

2022-10-27 14:52:48張潤(rùn)滋康彬

數(shù)據(jù)與計(jì)算發(fā)展前沿 2022年5期

張潤(rùn)滋，康彬

1.綠盟科技集團(tuán)股份有限公司，北京 100089

2.解放軍96941部隊(duì)，北京 100085

引言

在數(shù)據(jù)過載的時(shí)代背景下，基于安全大數(shù)據(jù)進(jìn)行威脅狩獵，給經(jīng)驗(yàn)驅(qū)動(dòng)的傳統(tǒng)安全防護(hù)模式提出了挑戰(zhàn)，專家規(guī)則的泛化能力、適應(yīng)性、覆蓋率等指標(biāo)提升速度已經(jīng)難以跟上數(shù)據(jù)、場(chǎng)景、攻擊技戰(zhàn)術(shù)的演進(jìn)速度。

此時(shí)，機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、圖算法等數(shù)據(jù)驅(qū)動(dòng)的方法的優(yōu)越性就體現(xiàn)出來了。數(shù)據(jù)中蘊(yùn)含的規(guī)律和模式，是可以通過數(shù)據(jù)挖掘的方法呈現(xiàn)出來的。流量、樣本等數(shù)據(jù)的編碼特征、序列特征、關(guān)聯(lián)特征、時(shí)序特征等，這些關(guān)鍵的數(shù)字維度能夠在沒有專家參與的情況下，在限定條件下輔助實(shí)現(xiàn)檢測(cè)、溯源、評(píng)估等任務(wù)。這里的“限定條件”是一個(gè)關(guān)鍵的問題。諸多實(shí)驗(yàn)性模型與算法，在實(shí)戰(zhàn)化的安全運(yùn)營(yíng)中難以有效發(fā)揮作用。

面對(duì)快速演進(jìn)的攻防技戰(zhàn)術(shù)，通過數(shù)據(jù)與分析加速威脅狩獵的流程運(yùn)轉(zhuǎn)，降低狩獵技術(shù)門檻，固化狩獵經(jīng)驗(yàn)知識(shí)，已成為安全運(yùn)營(yíng)中流程、技術(shù)、人、數(shù)據(jù)深度融合的重要研究與實(shí)戰(zhàn)課題。因此，為構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的威脅狩獵技術(shù)體系，需要從指標(biāo)完善、數(shù)據(jù)融合、數(shù)據(jù)增強(qiáng)優(yōu)化、多維多源多模分析、語(yǔ)言模型構(gòu)建等維度，為復(fù)雜并且面向語(yǔ)義的分析技術(shù)奠定基礎(chǔ)。以下，將結(jié)合工業(yè)、學(xué)術(shù)前沿安全研究和網(wǎng)絡(luò)安全攻防實(shí)踐，介紹相關(guān)領(lǐng)域的技術(shù)研究進(jìn)展與趨勢(shì)。

1 構(gòu)建更細(xì)粒度的指標(biāo)

安全運(yùn)營(yíng)工作的有效開展，依賴于合理的指標(biāo)體系，以評(píng)估技術(shù)的有效性、流程的合理性、人的投入產(chǎn)出比、數(shù)據(jù)的規(guī)范性等等。威脅狩獵作為安全運(yùn)營(yíng)預(yù)測(cè)、預(yù)防、檢測(cè)與響應(yīng)的關(guān)鍵環(huán)節(jié)，目前仍然是經(jīng)驗(yàn)驅(qū)動(dòng)為主的一種技術(shù)方案。隨著終端、網(wǎng)絡(luò)、情報(bào)、蜜罐、沙箱等各類安全日志的接入，給輔助威脅狩獵團(tuán)隊(duì)的工具和技術(shù)升級(jí)迭代帶來了全新的機(jī)會(huì)。威脅狩獵基于持續(xù)的觀測(cè)、假設(shè)、調(diào)查和驗(yàn)證，在這個(gè)循環(huán)過程中，數(shù)據(jù)分析方法可以提供更精準(zhǔn)、更具時(shí)效性的觀測(cè)線索，更快速、更全面的調(diào)查平臺(tái)，以輔助專家做出假設(shè)和完成驗(yàn)證。

為了有效跟蹤安全運(yùn)營(yíng)的過程和效率提升情況，2021年的RSA 大會(huì)上，F(xiàn)ireEye 及Palo Alto Networks 的專家給出了多個(gè)維度的優(yōu)化指標(biāo)參考[1]，如表1 所示，主要包括分析活動(dòng)（主要覆蓋分析效率監(jiān)控）、運(yùn)營(yíng)衛(wèi)生（主要覆蓋規(guī)則運(yùn)營(yíng)）、實(shí)現(xiàn)價(jià)值（主要覆蓋技術(shù)應(yīng)用情況監(jiān)控）、過程偏離（主要覆蓋運(yùn)營(yíng)流程監(jiān)控）、分析負(fù)載分布（主要覆蓋數(shù)據(jù)輸入輸出監(jiān)控）五個(gè)方面。這些指標(biāo)可以認(rèn)為是對(duì)經(jīng)典的分析、運(yùn)營(yíng)、響應(yīng)效率指標(biāo)，如MTTR、MTTD 的有效補(bǔ)充和細(xì)節(jié)描述。

表1 安全運(yùn)營(yíng)指標(biāo)的優(yōu)化設(shè)計(jì)Table 1 Metric optimization designs for security operations

這些指標(biāo)中，針對(duì)分析的部分同樣適用于評(píng)估威脅狩獵工具集以及平臺(tái)技術(shù)的自動(dòng)化和賦能水平。例如分析活動(dòng)中的“EPAH”和“Handling time per alert per stage per analyst”兩個(gè)指標(biāo)，雖然針對(duì)不同的攻擊場(chǎng)景、威脅隱匿程度等，指標(biāo)實(shí)測(cè)值有較大的波動(dòng)，但是通過長(zhǎng)周期的刻畫，能夠有效反應(yīng)運(yùn)營(yíng)和分析專家在同類別事件、告警上的平均處理時(shí)長(zhǎng)，進(jìn)而側(cè)面反映相關(guān)支撐工具所能夠提供的信息量多少。高自動(dòng)化、關(guān)聯(lián)更豐富的分析結(jié)論，能夠提供快速且有效的威脅上下文；與此同時(shí)，高交互的、可理解的數(shù)字化結(jié)論展示與反饋機(jī)制，同樣是專家與機(jī)器智能融合的關(guān)鍵要素。另外，運(yùn)營(yíng)衛(wèi)生中的#of tunes per technology 指標(biāo)，是監(jiān)控規(guī)則和模型等技術(shù)維度迭代優(yōu)化的一個(gè)維度。威脅狩獵這種專家與技術(shù)高交互的場(chǎng)景中，技術(shù)的迭代與調(diào)整就顯得尤為關(guān)鍵了。威脅狩獵技術(shù)平臺(tái)，需要提供根據(jù)專家反饋和數(shù)據(jù)模式自適應(yīng)調(diào)節(jié)參數(shù)的接口，以實(shí)現(xiàn)自動(dòng)化性能優(yōu)化效果監(jiān)控方法。

數(shù)據(jù)驅(qū)動(dòng)的威脅狩獵技術(shù)演進(jìn)，離不開合理、有效評(píng)估指標(biāo)體系的構(gòu)建。現(xiàn)階段，威脅狩獵的流程與技術(shù)仍然缺乏規(guī)范性的業(yè)界共識(shí)。因此，需要從細(xì)粒度的指標(biāo)體系入手，探索衡量技術(shù)有效性的基礎(chǔ)，以支持相關(guān)技術(shù)發(fā)展與演進(jìn)。

2 融合多源的數(shù)據(jù)

端點(diǎn)的可視性一直以來是威脅狩獵的關(guān)鍵數(shù)據(jù)源。隨著SIEM、SOAR 等平臺(tái)技術(shù)的應(yīng)用，XDR，即拓展的檢測(cè)與響應(yīng)技術(shù)被廣泛的提及，也被列入了Gartner 2020 安全運(yùn)營(yíng)Hype Cycle 中技術(shù)爬升期的技術(shù)之一[2]。

XDR 技術(shù)的核心在于數(shù)據(jù)融合分析，其中最基礎(chǔ)的正是數(shù)據(jù)的融合。2021 RSA 大會(huì)上，Trend Micro 專家給出了面向零信任的XDR 架構(gòu)[3]。該架構(gòu)中的數(shù)據(jù)湖主要采集4 種數(shù)據(jù)源，分別是終端、網(wǎng)絡(luò)、郵件和云上端點(diǎn)。實(shí)際上，數(shù)據(jù)采集和匯聚只是基本，融合才是關(guān)鍵。終端溯源圖包含了細(xì)粒度的進(jìn)程、文件、命名管道、注冊(cè)表等數(shù)據(jù)流、控制流因果依賴關(guān)系，是構(gòu)建完整威脅行為完整上下文的核心數(shù)據(jù)要素。圍繞終端的溯源圖，需要將網(wǎng)絡(luò)中的用戶、主機(jī)、IP、服務(wù)、載荷等，郵件中的用戶、地址、內(nèi)容、附件等，以及云端的虛擬機(jī)、容器、微服務(wù)、API、賬戶等維度，進(jìn)行多層次的自動(dòng)化關(guān)聯(lián)。構(gòu)建關(guān)聯(lián)一方面需要做好數(shù)據(jù)的規(guī)范化，以降低多源數(shù)據(jù)關(guān)聯(lián)信息字段消歧的門檻；另一方面，需要統(tǒng)一的圖結(jié)構(gòu)視圖設(shè)計(jì)，即圖中實(shí)體節(jié)點(diǎn)及實(shí)體關(guān)聯(lián)邊，及相關(guān)屬性的類型。這兩個(gè)方面對(duì)跨廠商的數(shù)據(jù)融合提出了較高的要求。

威脅狩獵是主動(dòng)式網(wǎng)絡(luò)空間防御的關(guān)鍵技術(shù)。融合多源異構(gòu)的數(shù)據(jù)，構(gòu)建統(tǒng)一的、完備的、多視角的威脅、資產(chǎn)、脆弱性視圖，是威脅狩獵工作開展的最關(guān)鍵的數(shù)據(jù)基礎(chǔ)設(shè)施。盡管工業(yè)界與學(xué)術(shù)界在數(shù)據(jù)的融合層次做出了相關(guān)探索，但是在多源數(shù)據(jù)的統(tǒng)一本體建模、語(yǔ)義消歧、模式分層等方面，仍然缺乏成熟的研究成果。

3 數(shù)據(jù)依賴爆炸緩解

高級(jí)持續(xù)性威脅（Advanced Persistent Threat，APT）具有對(duì)抗性、隱匿性、低頻性、持續(xù)性，再配合復(fù)雜、定制化的技戰(zhàn)術(shù)手段，給傳統(tǒng)防護(hù)檢測(cè)方案帶來了挑戰(zhàn)。為提升高級(jí)威脅分析的時(shí)效性，降低狩獵門檻，探索通過數(shù)據(jù)驅(qū)動(dòng)的方式提升關(guān)鍵線索定位、攻擊路徑補(bǔ)齊的自動(dòng)水平，有著重要的意義。

當(dāng)前，大規(guī)模異構(gòu)網(wǎng)絡(luò)、終端、情報(bào)數(shù)據(jù)融合分析場(chǎng)景中，存在信息依賴爆炸、安全語(yǔ)義模糊等問題，亟待解決。特別是溯源數(shù)據(jù)的依賴爆炸（Dependency Explosion）問題，是基于終端的APT檢測(cè)溯源關(guān)鍵挑戰(zhàn)。依賴爆炸的數(shù)據(jù)線索將包含大量噪聲數(shù)據(jù)，將大幅度降低通過威脅狩獵檢測(cè)、查詢語(yǔ)言進(jìn)行線索分析的可行性。

溯源數(shù)據(jù)（Provenance）能夠忠實(shí)記錄終端上實(shí)體的行為邏輯依賴關(guān)系，自然形成溯源數(shù)據(jù)圖（Provenance Graph）。通過溯源圖的后向追溯和前向追溯，可實(shí)現(xiàn)攻擊事件的溯源與取證。一個(gè)有效還原的溯源圖如圖1 所示。該圖給出了一個(gè)基于CVE-2017-0199 的APT 攻擊模擬與溯源數(shù)據(jù)重構(gòu)，除了攻擊行為，主機(jī)上還模擬了日常操作行為，以生成背景行為日志[4]。在該場(chǎng)景中，攻擊者向受害主機(jī)1投遞了包含漏洞利用腳本的文檔，進(jìn)而收集敏感信息，并通過受害主機(jī)1 的門戶網(wǎng)頁(yè)服務(wù)端特性完成橫向移動(dòng)攻陷受害主機(jī)2。

圖1 CVE-2017-0199 攻擊行為溯源數(shù)據(jù)重構(gòu)Fig.1 CVE-2017-0199 attack behavior reconstruction based on provenance

圖中的節(jié)點(diǎn)包括文件、進(jìn)程、域名、連接等實(shí)體點(diǎn)，以及文件讀寫、進(jìn)程創(chuàng)建、域名解析等行為邊。該攻擊子圖是經(jīng)分析算法提純后的攻擊行為還原，即該圖中只包含了與關(guān)鍵攻擊行為相關(guān)聯(lián)的部分點(diǎn)和邊，已剔除了大量的背景行為信息。通過溯源圖的分析，專家可以以細(xì)粒度的系統(tǒng)行為視角觀測(cè)攻擊者的行為，為攻擊行為取證提供了關(guān)鍵素材。

圖2 展示了在整個(gè)仿真周期內(nèi)的完整溯源圖。該圖記錄了兩個(gè)主機(jī)終端（分別標(biāo)識(shí)為綠色與深灰色）的進(jìn)程、文件、連接以及域名解析等日志中多種類型實(shí)體之間的，讀寫、創(chuàng)建、解析等多種類型信息流關(guān)系。值得注意的是，該圖只體現(xiàn)了信息流的結(jié)構(gòu)信息，未包含時(shí)序依賴。由于較為長(zhǎng)時(shí)間的觀測(cè)周期，受害者主機(jī)1、2 上的系統(tǒng)進(jìn)程、動(dòng)態(tài)鏈接庫(kù)、瀏覽器等產(chǎn)生了大量的信息流交互操作，形成了下圖中密集的團(tuán)。

圖2 基于CVE-2017-0199 跨主機(jī)APT 攻擊模擬的溯源圖（完整）Fig.2 Complete provenance graph for APT attack simulation based on CVE-2017-0199

如果以關(guān)鍵的線索文檔msf.doc（惡意軟件檢測(cè)或情報(bào)）或C&C 服務(wù)端IP（惡意IP 情報(bào)）為出發(fā)點(diǎn)，可以看到局部惡意信息流覆蓋，如圖3(a)和3(b)中紅色邊所示。該圖中，以msf.doc創(chuàng)建時(shí)間為界，過濾掉了該時(shí)間戳之前發(fā)生的所有行為邊，以盡量屏蔽實(shí)際不存在的信息層結(jié)構(gòu)關(guān)聯(lián)。從關(guān)鍵線索出發(fā)，能夠快速定位到被攻陷的異常winword.exe 進(jìn)程——該進(jìn)程讀寫了惡意腳本文件或異常外聯(lián)C&C服務(wù)端IP。然而，由于winword.exe 是模擬的常駐程序，該進(jìn)程或文件在指定時(shí)間范疇內(nèi)，與大量的上下游文件或程序發(fā)生信息流傳遞，如圖3（c）紅色邊所示，信息流依賴關(guān)系呈現(xiàn)數(shù)量指數(shù)級(jí)別的爆炸式增長(zhǎng)，這無疑給進(jìn)一步的攻擊路徑調(diào)查取證增加了難度。

圖3 APT 攻擊模擬的溯源圖（msf.doc 或C&C Server IP為線索的信息流傳染）Fig.3 Provenance graph for APT attack simulation (msf.doc or C&C server IP driven information flow spreading)

由前述APT 漏洞利用溯源數(shù)據(jù)實(shí)例分析看出，在現(xiàn)有的粗粒度溯源數(shù)據(jù)采集技術(shù)基礎(chǔ)上，終端關(guān)鍵實(shí)體之間，特別是進(jìn)程、文件、連接等實(shí)體，存在自然的信息流傳染效應(yīng)。在沒有先驗(yàn)知識(shí)或基線數(shù)據(jù)的情況下，任何惡意信息流經(jīng)過中間實(shí)體的中轉(zhuǎn)，將以一定的概率向上下游實(shí)體擴(kuò)散。隨著信息流在關(guān)聯(lián)實(shí)體各自鄰域的傳播，特別是通過常駐實(shí)體的傳播，進(jìn)一步導(dǎo)致了終端溯源數(shù)據(jù)中的信息流依賴爆炸問題。

依賴爆炸問題覆蓋終端溯源數(shù)據(jù)、威脅情報(bào)數(shù)據(jù)、網(wǎng)絡(luò)日志數(shù)據(jù)等多源多類型場(chǎng)景，給自動(dòng)化的攻擊檢測(cè)、攻擊路徑分析帶來巨大挑戰(zhàn)。一方面，直接大幅度提升了專家人工分析的難度。如果說線索定位是大海撈針，那攻擊路徑還原在該問題下猶如走迷宮。另一方面，自動(dòng)化的分析方案同樣面臨由大量無效信息依賴帶來的分析誤判、性能瓶頸等問題。

學(xué)術(shù)界與工業(yè)界針對(duì)依賴爆炸問題，從多個(gè)維度進(jìn)行了探索。主要有以下幾類緩解方法：（1）通過語(yǔ)義模板的方式，對(duì)具有高度信息流依賴關(guān)系的融合數(shù)據(jù)集進(jìn)行抽象化的壓縮提取。該類方法一方面將所處理的實(shí)體進(jìn)行類似自然語(yǔ)義處理任務(wù)中的“詞干提取”與“詞形還原”，將大規(guī)模、不同粒度的實(shí)體壓縮到有限維度的詞匯空間中，實(shí)現(xiàn)對(duì)實(shí)體類型的有效壓縮。另一方面，采用關(guān)系模板，定義泛化且具有明確語(yǔ)義的實(shí)體關(guān)系，來提取滿足指定關(guān)系屬性的實(shí)體關(guān)聯(lián)，過濾無效的、缺乏語(yǔ)義的關(guān)聯(lián)。例如，可定義（用戶進(jìn)程，讀取，敏感系統(tǒng)文件）這樣的關(guān)系模板，來提取所有用戶態(tài)程序訪問讀取敏感系統(tǒng)文件的操作關(guān)系邊。這一類緩解措施優(yōu)勢(shì)在于能夠大幅消減信息流依賴關(guān)系，提取出最值得關(guān)注的且具有安全語(yǔ)義的關(guān)系集合。其劣勢(shì)在于，模板的制定過度依賴專家經(jīng)驗(yàn)與知識(shí)，同時(shí)，一旦模板制定完成，在已有的模板下將無法處理未知但合理的關(guān)聯(lián)關(guān)系。（2）通過構(gòu)建歷史關(guān)系基線，通過統(tǒng)計(jì)模式剔除無效的關(guān)聯(lián)信息，以緩解依賴爆炸。例如構(gòu)建關(guān)聯(lián)性頻率統(tǒng)計(jì)庫(kù)，或構(gòu)造實(shí)體序列模板并生成實(shí)體嵌入向量，來估計(jì)實(shí)體信息流關(guān)聯(lián)流動(dòng)方向的概率值。該類方法具有較強(qiáng)的環(huán)境泛化性，能夠根據(jù)指定的數(shù)據(jù)和系統(tǒng)環(huán)境，自動(dòng)地學(xué)習(xí)歷史數(shù)據(jù)的信息流傳播規(guī)律，從而評(píng)估當(dāng)前信息流傳播的趨勢(shì)。然而，基于統(tǒng)計(jì)的方式一般缺乏安全語(yǔ)義先驗(yàn)知識(shí)的規(guī)范性，習(xí)得的數(shù)據(jù)規(guī)律中存在大量的由數(shù)據(jù)不穩(wěn)定與業(yè)務(wù)行為噪聲導(dǎo)致的虛假模式或無實(shí)際安全語(yǔ)義的模式。這些模式在應(yīng)用過程中將產(chǎn)生誤報(bào)或人類難以理解和處理的結(jié)果，影響專家的深入研判。

4 多維多源多模分析

為了應(yīng)對(duì)依賴爆炸、語(yǔ)義失焦等問題，以XDR為代表的多源數(shù)據(jù)深度分析技術(shù)受到業(yè)界的廣泛關(guān)注。XDR 作為單獨(dú)的技術(shù)方案，不能簡(jiǎn)單看作是EDR 和NDR 在數(shù)據(jù)層面的拓展。數(shù)據(jù)融合帶來的不止是量變，同時(shí)帶來技術(shù)演進(jìn)的質(zhì)變與全新機(jī)遇。如圖4 所示，基于融合數(shù)據(jù)做檢測(cè)，需要從多維、多源、多模的大數(shù)據(jù)中，有效地識(shí)別和挖掘行為模式與規(guī)律；基于檢測(cè)結(jié)果或者線索做響應(yīng)，需要更細(xì)粒度的告警分診與風(fēng)險(xiǎn)評(píng)估，以及自動(dòng)化的響應(yīng)策略推薦與制定，才能保證策略實(shí)施的精確度。

圖4 XDR 的多步技術(shù)依賴Fig.4 Multiple step technique dependencies for XDR

網(wǎng)絡(luò)安全中的數(shù)據(jù)分析本質(zhì)是基于數(shù)據(jù)標(biāo)簽化與模式聚合的數(shù)據(jù)漏斗模型——通過過濾、抽象、凝練風(fēng)險(xiǎn)相關(guān)信息，將高信息量的視圖呈現(xiàn)給威脅分析人員。威脅狩獵則對(duì)這種數(shù)據(jù)漏洞模型提出了更高的要求，即如何快速、精準(zhǔn)地召回行為線索及上下文。從XDR 技術(shù)趨勢(shì)來看，可以總結(jié)為圖5 中的幾點(diǎn)趨勢(shì)，分別是：

圖5 XDR 中的數(shù)據(jù)分析演進(jìn)趨勢(shì)Fig.5 Evolution trends for XDR data analysis

● 從單點(diǎn)到多點(diǎn)，即從單一數(shù)據(jù)源單一維度到融合多源多維的數(shù)據(jù)；

● 從靜態(tài)到動(dòng)態(tài)，即從靜態(tài)的規(guī)則驅(qū)動(dòng)到自適應(yīng)的數(shù)據(jù)驅(qū)動(dòng)；

● 從無交互到高交互，即從可視、反饋、調(diào)節(jié)等方面提升人機(jī)智能融合與交互的水平；

● 從單一模式到多模式，即從傳統(tǒng)的基于特征的識(shí)別升級(jí)為特征、時(shí)序、圖、統(tǒng)計(jì)模型融合的模式識(shí)別；

● 從經(jīng)驗(yàn)驅(qū)動(dòng)到知識(shí)驅(qū)動(dòng)，即通過將經(jīng)驗(yàn)轉(zhuǎn)化為知識(shí)圖譜等結(jié)構(gòu)化、數(shù)字化形式來加速威脅分析經(jīng)驗(yàn)與知識(shí)的固化與應(yīng)用；

● 從無狀態(tài)到有狀態(tài)，即從僅僅關(guān)注檢測(cè)分析的結(jié)果轉(zhuǎn)變?yōu)榫_監(jiān)控實(shí)體及行為的連續(xù)風(fēng)險(xiǎn)變化。

整體來說，XDR 技術(shù)方案的提出，是機(jī)器學(xué)習(xí)、威脅狩獵等網(wǎng)絡(luò)安全運(yùn)營(yíng)前沿技術(shù)的融合技術(shù)場(chǎng)景驅(qū)動(dòng)的，是業(yè)界通過數(shù)據(jù)驅(qū)動(dòng)的方法對(duì)抗高級(jí)威脅的關(guān)鍵技術(shù)形態(tài)。

多模式事件分析的重點(diǎn)，在于通過統(tǒng)一的接口和規(guī)范，對(duì)底層多源多維數(shù)據(jù)進(jìn)行統(tǒng)一的查詢與分析。從以上總結(jié)的技術(shù)趨勢(shì)來看，在多模式分析、動(dòng)態(tài)特征抽取、人機(jī)交互性、知識(shí)固化與分享、分析狀態(tài)持續(xù)維護(hù)等方面，仍然需要從數(shù)據(jù)、技術(shù)、流程等維度，探索能夠支持?jǐn)?shù)據(jù)驅(qū)動(dòng)威脅狩獵工作開展的防護(hù)基礎(chǔ)設(shè)施的構(gòu)建方法。

5 威脅狩獵分析語(yǔ)言

在多源異構(gòu)數(shù)據(jù)中進(jìn)行威脅分析，需要通過靈活的規(guī)則撰寫方法，來快速、準(zhǔn)確定位關(guān)鍵線索。規(guī)則撰寫的靈活性，決定于威脅狩獵分析、查詢語(yǔ)言的設(shè)計(jì)與實(shí)現(xiàn)。

語(yǔ)言的設(shè)計(jì)源于科學(xué)的認(rèn)知，也更依賴對(duì)事物理解的藝術(shù)。標(biāo)準(zhǔn)語(yǔ)言，類似普通話，能夠促進(jìn)信息的交換與傳播，減少信息孤島效應(yīng)。在安全領(lǐng)域，除了上述提到的檢測(cè)語(yǔ)言，威脅情報(bào)規(guī)范STIX[5]、惡意軟件描述語(yǔ)言MAEC[6]、威脅檢測(cè)框架ATT&CK[7]等，都是具有廣泛影響力的領(lǐng)域信息交換與描述語(yǔ)言，雖然不一定稱為標(biāo)準(zhǔn)，但其影響力被行業(yè)廣泛認(rèn)可。標(biāo)準(zhǔn)語(yǔ)言的成功普及一方面依賴于產(chǎn)業(yè)技術(shù)的成熟，另一方面需要強(qiáng)有力的行業(yè)領(lǐng)導(dǎo)者來推動(dòng)。除了標(biāo)準(zhǔn)語(yǔ)言，定制語(yǔ)言也很重要，類似方言，能夠提升局部信息的高效流轉(zhuǎn)與決策實(shí)施。定制語(yǔ)言就是為了效率而生，一千個(gè)成熟廠商就可能有一千個(gè)定制的檢測(cè)規(guī)則引擎系統(tǒng)。

我們已經(jīng)看到，在威脅檢測(cè)領(lǐng)域，即定位威脅的方法論上，已經(jīng)有較為成熟的語(yǔ)言系統(tǒng)，包括用于流量攻擊檢測(cè)的Snort 規(guī)則，用于惡意文件檢測(cè)的YARA 規(guī)則，用于日志威脅檢測(cè)的Sigma 規(guī)則等。這些規(guī)則系統(tǒng)都自成體系，形成領(lǐng)域?qū)Ｓ玫恼Z(yǔ)言系統(tǒng)。但隨著高級(jí)攻擊技戰(zhàn)術(shù)的演進(jìn)與攻擊面的拓展，威脅分析已經(jīng)不僅限于初級(jí)的威脅定位。主動(dòng)的威脅狩獵，對(duì)靈活的威脅定位、高效的上下文拓展、精準(zhǔn)的路徑溯源提出了更高的要求。傳統(tǒng)流量、樣本、情報(bào)、日志分立的“語(yǔ)言模型”與規(guī)則系統(tǒng)，已經(jīng)難以適應(yīng)跨多源、多類型日志的威脅調(diào)查與分析需求。

以IBM 的開源威脅狩獵語(yǔ)言Kestrel 為例[8]，該語(yǔ)言正是面向多源數(shù)據(jù)、高交互、多模式分析的數(shù)據(jù)查詢語(yǔ)言。跟其他相關(guān)威脅狩獵調(diào)查分析語(yǔ)言一起，本文將Kestrel 的數(shù)據(jù)覆蓋和核心功能總結(jié)在表2 中[8-16]。我們主要從該語(yǔ)言模型針對(duì)的數(shù)據(jù)類型、支持的模式類型、實(shí)時(shí)性三個(gè)角度來初步標(biāo)定各技術(shù)方案主要的應(yīng)用領(lǐng)域與方式。數(shù)據(jù)類型方面，行為、環(huán)境、情報(bào)、知識(shí)四種類型的數(shù)據(jù)可覆蓋安全運(yùn)營(yíng)中心所接入的不同類型數(shù)據(jù)。實(shí)時(shí)性方面，主要包括流式的分析模式和批量的調(diào)查模式。

表2 威脅狩獵分析語(yǔ)言分類Table 2 Classification for threat hunting analysis languages

在模式類型中，“單點(diǎn)”指的是以特征或指紋匹配為主的單個(gè)事件模式；“集合”表示多個(gè)事件的無序組合；“序列”表示有序的事件組合；“靜態(tài)圖”表示信息流或結(jié)構(gòu)相關(guān)的事件組合；“時(shí)序圖”表示有序并且存在信息關(guān)聯(lián)的事件組合；“模型”表示基于機(jī)器學(xué)習(xí)等模型方法，在統(tǒng)計(jì)特征上可關(guān)聯(lián)起來的事件組合。圖6給出了主要模式類型的說明示意圖。圖6(a)為“單點(diǎn)”的特征或指紋匹配，即在序列的事件中，通過指定的指紋，例如數(shù)據(jù)包載荷關(guān)鍵詞等，來召回具有該指紋的攻擊事件。如圖6(b)所示，是基于組合或者序列的威脅狩獵模式。在該模式下，多個(gè)具有指定特征的事件，被組合或者串聯(lián)起來。例如圖中所示，一個(gè)完整的事件模式，包括首先觸發(fā)的Redis 未授權(quán)訪問攻擊事件，同時(shí)該Redis 服務(wù)端被攻擊者上傳了用于SSH 訪問的公鑰。進(jìn)而觸發(fā)SSH 異常登錄事件，即發(fā)現(xiàn)SSH 登錄訪問關(guān)系基線之外的SSH 訪問關(guān)系。圖6(c)給出了基于圖的模式示例。多個(gè)事件的關(guān)聯(lián)，是通過各個(gè)事件中的關(guān)鍵字段和信息要素在圖譜中的關(guān)聯(lián)關(guān)系構(gòu)建的。例如，某事件1 的IP 字段關(guān)聯(lián)到其他事件2 的IP，而事件2 的文件、進(jìn)程信息又關(guān)聯(lián)到某事件3。通過這種圖上的信息延伸，多個(gè)事件被組裝成一個(gè)統(tǒng)一的圖模式。顯然，在圖模式之上，可以通過對(duì)各個(gè)事件發(fā)生時(shí)間的前后依賴關(guān)系的限制，自然地形成時(shí)序圖模式。最后，圖6(d)給出了基于統(tǒng)計(jì)事件關(guān)聯(lián)模式。在該模式下，通過抽取多個(gè)事件的統(tǒng)計(jì)特征，例如載荷文本相似性、上下文告警相似性、告警發(fā)生時(shí)頻特征等，進(jìn)而基于聚類、社團(tuán)分析等方法，將相似的事件進(jìn)行關(guān)聯(lián)聚合。通過這種統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法，能夠突破傳統(tǒng)事件分析依賴精確信息流或時(shí)序依賴的限制，從更寬泛的特征中挖掘未知威脅事件，是威脅狩獵環(huán)節(jié)中不可或缺的一種關(guān)聯(lián)模式。

圖6 威脅狩獵語(yǔ)言模型的主要模式示意圖Fig.6 Schematic diagram of the primary patterns of the threat hunting language model

威脅調(diào)查分析語(yǔ)言，核心在于“表達(dá)力”，即能否靈活地支持威脅狩獵過程中的持續(xù)驗(yàn)證過程。為此，數(shù)據(jù)類型覆蓋越全面，支持的事件模式類型越豐富，語(yǔ)言的表達(dá)能力越強(qiáng)，越能夠有效地降低調(diào)查過程中的跨數(shù)據(jù)開銷和復(fù)雜事件關(guān)聯(lián)分析開銷。威脅調(diào)查分析語(yǔ)言不限于表中總結(jié)的幾種實(shí)現(xiàn)方案。

如前文所述，當(dāng)前針對(duì)威脅調(diào)查領(lǐng)域語(yǔ)言的設(shè)計(jì)，業(yè)界尚處于探索之中，是安全學(xué)術(shù)與工業(yè)研究中的重要課題之一。本文根據(jù)威脅狩獵實(shí)踐在靈活性、魯棒性、安全性方面的需求，在此重點(diǎn)總結(jié)三個(gè)威脅調(diào)查語(yǔ)言領(lǐng)域的重要的研究趨勢(shì)。

● 異構(gòu)多源數(shù)據(jù)的統(tǒng)一靈活表示方法。如前文所示，威脅狩獵語(yǔ)言的設(shè)計(jì)需要支撐多種類型模式的靈活檢索。然而，語(yǔ)言模式的靈活性依賴于底層數(shù)據(jù)的統(tǒng)一組織與表示形式。通過知識(shí)、情報(bào)、數(shù)據(jù)圖譜的本體設(shè)計(jì)與圖結(jié)構(gòu)構(gòu)建，進(jìn)而實(shí)現(xiàn)異構(gòu)圖數(shù)據(jù)的表示學(xué)習(xí)，以提供圖中實(shí)體、關(guān)系的統(tǒng)一的、壓縮的向量化表示結(jié)果，能夠支撐下游狩獵查詢語(yǔ)言在數(shù)據(jù)中的表達(dá)靈活性。

● 支持模糊語(yǔ)義匹配的魯棒查詢方法。現(xiàn)有的各類語(yǔ)言模型，主要集中于模式的精確匹配。盡管基于統(tǒng)計(jì)關(guān)聯(lián)模式的查詢匹配方法在未知威脅的分析方面具有靈活性，但是對(duì)特征、時(shí)序、圖模式的匹配中，仍需實(shí)現(xiàn)對(duì)模式“變異”事件的識(shí)別，即支持模糊語(yǔ)義的匹配，以保證相關(guān)模式規(guī)則在不同環(huán)境下的自適應(yīng)性與容錯(cuò)性，并平衡識(shí)別的準(zhǔn)確率與變異覆蓋率。

● 面向隱私防護(hù)的分布式查詢方法。威脅狩獵愈發(fā)依賴各層次細(xì)粒度的日志收集，包括網(wǎng)絡(luò)日志、終端行為日志等。然而，隨著數(shù)據(jù)資產(chǎn)安全性的日益凸顯，越來越多的重要數(shù)據(jù)資產(chǎn)被加密、脫敏和就地保護(hù)，探索在數(shù)據(jù)加密、數(shù)據(jù)不出境情形下的威脅狩獵查詢語(yǔ)言設(shè)計(jì)已被提上日程。

6 總結(jié)

與語(yǔ)言的建模與分析相關(guān)，安全知識(shí)庫(kù)、知識(shí)圖譜、語(yǔ)義分析、可解釋智能、因果挖掘等，這些技術(shù)名詞已經(jīng)逐漸融入安全技術(shù)發(fā)展的視野中。打造XDR 技術(shù)棧，支撐威脅狩獵任務(wù)的開展，已逐漸成為安全運(yùn)營(yíng)中的常態(tài)化工作之一。本文以數(shù)據(jù)驅(qū)動(dòng)的威脅狩獵中的語(yǔ)言模型構(gòu)建為目標(biāo)，結(jié)合前沿議題與學(xué)術(shù)研究成果，分析總結(jié)了技術(shù)相關(guān)的指標(biāo)優(yōu)化、數(shù)據(jù)融合與分析方法。基于多源數(shù)據(jù)進(jìn)行威脅狩獵，仍然是一個(gè)開放性的、有挑戰(zhàn)的技術(shù)方向，值得我們深入地跟蹤與研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡