国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)驅(qū)動(dòng)的威脅狩獵語(yǔ)言模型研究進(jìn)展

2022-10-27 14:52:48張潤(rùn)滋康彬
關(guān)鍵詞:信息流狩獵威脅

張潤(rùn)滋,康彬

1.綠盟科技集團(tuán)股份有限公司,北京 100089

2.解放軍96941部隊(duì),北京 100085

引言

在數(shù)據(jù)過載的時(shí)代背景下,基于安全大數(shù)據(jù)進(jìn)行威脅狩獵,給經(jīng)驗(yàn)驅(qū)動(dòng)的傳統(tǒng)安全防護(hù)模式提出了挑戰(zhàn),專家規(guī)則的泛化能力、適應(yīng)性、覆蓋率等指標(biāo)提升速度已經(jīng)難以跟上數(shù)據(jù)、場(chǎng)景、攻擊技戰(zhàn)術(shù)的演進(jìn)速度。

此時(shí),機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、圖算法等數(shù)據(jù)驅(qū)動(dòng)的方法的優(yōu)越性就體現(xiàn)出來了。數(shù)據(jù)中蘊(yùn)含的規(guī)律和模式,是可以通過數(shù)據(jù)挖掘的方法呈現(xiàn)出來的。流量、樣本等數(shù)據(jù)的編碼特征、序列特征、關(guān)聯(lián)特征、時(shí)序特征等,這些關(guān)鍵的數(shù)字維度能夠在沒有專家參與的情況下,在限定條件下輔助實(shí)現(xiàn)檢測(cè)、溯源、評(píng)估等任務(wù)。這里的“限定條件”是一個(gè)關(guān)鍵的問題。諸多實(shí)驗(yàn)性模型與算法,在實(shí)戰(zhàn)化的安全運(yùn)營(yíng)中難以有效發(fā)揮作用。

面對(duì)快速演進(jìn)的攻防技戰(zhàn)術(shù),通過數(shù)據(jù)與分析加速威脅狩獵的流程運(yùn)轉(zhuǎn),降低狩獵技術(shù)門檻,固化狩獵經(jīng)驗(yàn)知識(shí),已成為安全運(yùn)營(yíng)中流程、技術(shù)、人、數(shù)據(jù)深度融合的重要研究與實(shí)戰(zhàn)課題。因此,為構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的威脅狩獵技術(shù)體系,需要從指標(biāo)完善、數(shù)據(jù)融合、數(shù)據(jù)增強(qiáng)優(yōu)化、多維多源多模分析、語(yǔ)言模型構(gòu)建等維度,為復(fù)雜并且面向語(yǔ)義的分析技術(shù)奠定基礎(chǔ)。以下,將結(jié)合工業(yè)、學(xué)術(shù)前沿安全研究和網(wǎng)絡(luò)安全攻防實(shí)踐,介紹相關(guān)領(lǐng)域的技術(shù)研究進(jìn)展與趨勢(shì)。

1 構(gòu)建更細(xì)粒度的指標(biāo)

安全運(yùn)營(yíng)工作的有效開展,依賴于合理的指標(biāo)體系,以評(píng)估技術(shù)的有效性、流程的合理性、人的投入產(chǎn)出比、數(shù)據(jù)的規(guī)范性等等。威脅狩獵作為安全運(yùn)營(yíng)預(yù)測(cè)、預(yù)防、檢測(cè)與響應(yīng)的關(guān)鍵環(huán)節(jié),目前仍然是經(jīng)驗(yàn)驅(qū)動(dòng)為主的一種技術(shù)方案。隨著終端、網(wǎng)絡(luò)、情報(bào)、蜜罐、沙箱等各類安全日志的接入,給輔助威脅狩獵團(tuán)隊(duì)的工具和技術(shù)升級(jí)迭代帶來了全新的機(jī)會(huì)。威脅狩獵基于持續(xù)的觀測(cè)、假設(shè)、調(diào)查和驗(yàn)證,在這個(gè)循環(huán)過程中,數(shù)據(jù)分析方法可以提供更精準(zhǔn)、更具時(shí)效性的觀測(cè)線索,更快速、更全面的調(diào)查平臺(tái),以輔助專家做出假設(shè)和完成驗(yàn)證。

為了有效跟蹤安全運(yùn)營(yíng)的過程和效率提升情況,2021年的RSA 大會(huì)上,F(xiàn)ireEye 及Palo Alto Networks 的專家給出了多個(gè)維度的優(yōu)化指標(biāo)參考[1],如表1 所示,主要包括分析活動(dòng)(主要覆蓋分析效率監(jiān)控)、運(yùn)營(yíng)衛(wèi)生(主要覆蓋規(guī)則運(yùn)營(yíng))、實(shí)現(xiàn)價(jià)值(主要覆蓋技術(shù)應(yīng)用情況監(jiān)控)、過程偏離(主要覆蓋運(yùn)營(yíng)流程監(jiān)控)、分析負(fù)載分布(主要覆蓋數(shù)據(jù)輸入輸出監(jiān)控)五個(gè)方面。這些指標(biāo)可以認(rèn)為是對(duì)經(jīng)典的分析、運(yùn)營(yíng)、響應(yīng)效率指標(biāo),如MTTR、MTTD 的有效補(bǔ)充和細(xì)節(jié)描述。

表1 安全運(yùn)營(yíng)指標(biāo)的優(yōu)化設(shè)計(jì)Table 1 Metric optimization designs for security operations

這些指標(biāo)中,針對(duì)分析的部分同樣適用于評(píng)估威脅狩獵工具集以及平臺(tái)技術(shù)的自動(dòng)化和賦能水平。例如分析活動(dòng)中的“EPAH”和“Handling time per alert per stage per analyst”兩個(gè)指標(biāo),雖然針對(duì)不同的攻擊場(chǎng)景、威脅隱匿程度等,指標(biāo)實(shí)測(cè)值有較大的波動(dòng),但是通過長(zhǎng)周期的刻畫,能夠有效反應(yīng)運(yùn)營(yíng)和分析專家在同類別事件、告警上的平均處理時(shí)長(zhǎng),進(jìn)而側(cè)面反映相關(guān)支撐工具所能夠提供的信息量多少。高自動(dòng)化、關(guān)聯(lián)更豐富的分析結(jié)論,能夠提供快速且有效的威脅上下文;與此同時(shí),高交互的、可理解的數(shù)字化結(jié)論展示與反饋機(jī)制,同樣是專家與機(jī)器智能融合的關(guān)鍵要素。另外,運(yùn)營(yíng)衛(wèi)生中的#of tunes per technology 指標(biāo),是監(jiān)控規(guī)則和模型等技術(shù)維度迭代優(yōu)化的一個(gè)維度。威脅狩獵這種專家與技術(shù)高交互的場(chǎng)景中,技術(shù)的迭代與調(diào)整就顯得尤為關(guān)鍵了。威脅狩獵技術(shù)平臺(tái),需要提供根據(jù)專家反饋和數(shù)據(jù)模式自適應(yīng)調(diào)節(jié)參數(shù)的接口,以實(shí)現(xiàn)自動(dòng)化性能優(yōu)化效果監(jiān)控方法。

數(shù)據(jù)驅(qū)動(dòng)的威脅狩獵技術(shù)演進(jìn),離不開合理、有效評(píng)估指標(biāo)體系的構(gòu)建。現(xiàn)階段,威脅狩獵的流程與技術(shù)仍然缺乏規(guī)范性的業(yè)界共識(shí)。因此,需要從細(xì)粒度的指標(biāo)體系入手,探索衡量技術(shù)有效性的基礎(chǔ),以支持相關(guān)技術(shù)發(fā)展與演進(jìn)。

2 融合多源的數(shù)據(jù)

端點(diǎn)的可視性一直以來是威脅狩獵的關(guān)鍵數(shù)據(jù)源。隨著SIEM、SOAR 等平臺(tái)技術(shù)的應(yīng)用,XDR,即拓展的檢測(cè)與響應(yīng)技術(shù)被廣泛的提及,也被列入了Gartner 2020 安全運(yùn)營(yíng)Hype Cycle 中技術(shù)爬升期的技術(shù)之一[2]。

XDR 技術(shù)的核心在于數(shù)據(jù)融合分析,其中最基礎(chǔ)的正是數(shù)據(jù)的融合。2021 RSA 大會(huì)上,Trend Micro 專家給出了面向零信任的XDR 架構(gòu)[3]。該架構(gòu)中的數(shù)據(jù)湖主要采集4 種數(shù)據(jù)源,分別是終端、網(wǎng)絡(luò)、郵件和云上端點(diǎn)。實(shí)際上,數(shù)據(jù)采集和匯聚只是基本,融合才是關(guān)鍵。終端溯源圖包含了細(xì)粒度的進(jìn)程、文件、命名管道、注冊(cè)表等數(shù)據(jù)流、控制流因果依賴關(guān)系,是構(gòu)建完整威脅行為完整上下文的核心數(shù)據(jù)要素。圍繞終端的溯源圖,需要將網(wǎng)絡(luò)中的用戶、主機(jī)、IP、服務(wù)、載荷等,郵件中的用戶、地址、內(nèi)容、附件等,以及云端的虛擬機(jī)、容器、微服務(wù)、API、賬戶等維度,進(jìn)行多層次的自動(dòng)化關(guān)聯(lián)。構(gòu)建關(guān)聯(lián)一方面需要做好數(shù)據(jù)的規(guī)范化,以降低多源數(shù)據(jù)關(guān)聯(lián)信息字段消歧的門檻;另一方面,需要統(tǒng)一的圖結(jié)構(gòu)視圖設(shè)計(jì),即圖中實(shí)體節(jié)點(diǎn)及實(shí)體關(guān)聯(lián)邊,及相關(guān)屬性的類型。這兩個(gè)方面對(duì)跨廠商的數(shù)據(jù)融合提出了較高的要求。

威脅狩獵是主動(dòng)式網(wǎng)絡(luò)空間防御的關(guān)鍵技術(shù)。融合多源異構(gòu)的數(shù)據(jù),構(gòu)建統(tǒng)一的、完備的、多視角的威脅、資產(chǎn)、脆弱性視圖,是威脅狩獵工作開展的最關(guān)鍵的數(shù)據(jù)基礎(chǔ)設(shè)施。盡管工業(yè)界與學(xué)術(shù)界在數(shù)據(jù)的融合層次做出了相關(guān)探索,但是在多源數(shù)據(jù)的統(tǒng)一本體建模、語(yǔ)義消歧、模式分層等方面,仍然缺乏成熟的研究成果。

3 數(shù)據(jù)依賴爆炸緩解

高級(jí)持續(xù)性威脅(Advanced Persistent Threat,APT)具有對(duì)抗性、隱匿性、低頻性、持續(xù)性,再配合復(fù)雜、定制化的技戰(zhàn)術(shù)手段,給傳統(tǒng)防護(hù)檢測(cè)方案帶來了挑戰(zhàn)。為提升高級(jí)威脅分析的時(shí)效性,降低狩獵門檻,探索通過數(shù)據(jù)驅(qū)動(dòng)的方式提升關(guān)鍵線索定位、攻擊路徑補(bǔ)齊的自動(dòng)水平,有著重要的意義。

當(dāng)前,大規(guī)模異構(gòu)網(wǎng)絡(luò)、終端、情報(bào)數(shù)據(jù)融合分析場(chǎng)景中,存在信息依賴爆炸、安全語(yǔ)義模糊等問題,亟待解決。特別是溯源數(shù)據(jù)的依賴爆炸(Dependency Explosion)問題,是基于終端的APT檢測(cè)溯源關(guān)鍵挑戰(zhàn)。依賴爆炸的數(shù)據(jù)線索將包含大量噪聲數(shù)據(jù),將大幅度降低通過威脅狩獵檢測(cè)、查詢語(yǔ)言進(jìn)行線索分析的可行性。

溯源數(shù)據(jù)(Provenance)能夠忠實(shí)記錄終端上實(shí)體的行為邏輯依賴關(guān)系,自然形成溯源數(shù)據(jù)圖(Provenance Graph)。通過溯源圖的后向追溯和前向追溯,可實(shí)現(xiàn)攻擊事件的溯源與取證。一個(gè)有效還原的溯源圖如圖1 所示。該圖給出了一個(gè)基于CVE-2017-0199 的APT 攻擊模擬與溯源數(shù)據(jù)重構(gòu),除了攻擊行為,主機(jī)上還模擬了日常操作行為,以生成背景行為日志[4]。在該場(chǎng)景中,攻擊者向受害主機(jī)1投遞了包含漏洞利用腳本的文檔,進(jìn)而收集敏感信息,并通過受害主機(jī)1 的門戶網(wǎng)頁(yè)服務(wù)端特性完成橫向移動(dòng)攻陷受害主機(jī)2。

圖1 CVE-2017-0199 攻擊行為溯源數(shù)據(jù)重構(gòu)Fig.1 CVE-2017-0199 attack behavior reconstruction based on provenance

圖中的節(jié)點(diǎn)包括文件、進(jìn)程、域名、連接等實(shí)體點(diǎn),以及文件讀寫、進(jìn)程創(chuàng)建、域名解析等行為邊。該攻擊子圖是經(jīng)分析算法提純后的攻擊行為還原,即該圖中只包含了與關(guān)鍵攻擊行為相關(guān)聯(lián)的部分點(diǎn)和邊,已剔除了大量的背景行為信息。通過溯源圖的分析,專家可以以細(xì)粒度的系統(tǒng)行為視角觀測(cè)攻擊者的行為,為攻擊行為取證提供了關(guān)鍵素材。

圖2 展示了在整個(gè)仿真周期內(nèi)的完整溯源圖。該圖記錄了兩個(gè)主機(jī)終端(分別標(biāo)識(shí)為綠色與深灰色)的進(jìn)程、文件、連接以及域名解析等日志中多種類型實(shí)體之間的,讀寫、創(chuàng)建、解析等多種類型信息流關(guān)系。值得注意的是,該圖只體現(xiàn)了信息流的結(jié)構(gòu)信息,未包含時(shí)序依賴。由于較為長(zhǎng)時(shí)間的觀測(cè)周期,受害者主機(jī)1、2 上的系統(tǒng)進(jìn)程、動(dòng)態(tài)鏈接庫(kù)、瀏覽器等產(chǎn)生了大量的信息流交互操作,形成了下圖中密集的團(tuán)。

圖2 基于CVE-2017-0199 跨主機(jī)APT 攻擊模擬的溯源圖(完整)Fig.2 Complete provenance graph for APT attack simulation based on CVE-2017-0199

如果以關(guān)鍵的線索文檔msf.doc(惡意軟件檢測(cè)或情報(bào))或C&C 服務(wù)端IP(惡意IP 情報(bào))為出發(fā)點(diǎn),可以看到局部惡意信息流覆蓋,如圖3(a)和3(b)中紅色邊所示。該圖中,以msf.doc創(chuàng)建時(shí)間為界,過濾掉了該時(shí)間戳之前發(fā)生的所有行為邊,以盡量屏蔽實(shí)際不存在的信息層結(jié)構(gòu)關(guān)聯(lián)。從關(guān)鍵線索出發(fā),能夠快速定位到被攻陷的異常winword.exe 進(jìn)程——該進(jìn)程讀寫了惡意腳本文件或異常外聯(lián)C&C服務(wù)端IP。然而,由于winword.exe 是模擬的常駐程序,該進(jìn)程或文件在指定時(shí)間范疇內(nèi),與大量的上下游文件或程序發(fā)生信息流傳遞,如圖3(c)紅色邊所示,信息流依賴關(guān)系呈現(xiàn)數(shù)量指數(shù)級(jí)別的爆炸式增長(zhǎng),這無疑給進(jìn)一步的攻擊路徑調(diào)查取證增加了難度。

圖3 APT 攻擊模擬的溯源圖(msf.doc 或C&C Server IP為線索的信息流傳染)Fig.3 Provenance graph for APT attack simulation (msf.doc or C&C server IP driven information flow spreading)

由前述APT 漏洞利用溯源數(shù)據(jù)實(shí)例分析看出,在現(xiàn)有的粗粒度溯源數(shù)據(jù)采集技術(shù)基礎(chǔ)上,終端關(guān)鍵實(shí)體之間,特別是進(jìn)程、文件、連接等實(shí)體,存在自然的信息流傳染效應(yīng)。在沒有先驗(yàn)知識(shí)或基線數(shù)據(jù)的情況下,任何惡意信息流經(jīng)過中間實(shí)體的中轉(zhuǎn),將以一定的概率向上下游實(shí)體擴(kuò)散。隨著信息流在關(guān)聯(lián)實(shí)體各自鄰域的傳播,特別是通過常駐實(shí)體的傳播,進(jìn)一步導(dǎo)致了終端溯源數(shù)據(jù)中的信息流依賴爆炸問題。

依賴爆炸問題覆蓋終端溯源數(shù)據(jù)、威脅情報(bào)數(shù)據(jù)、網(wǎng)絡(luò)日志數(shù)據(jù)等多源多類型場(chǎng)景,給自動(dòng)化的攻擊檢測(cè)、攻擊路徑分析帶來巨大挑戰(zhàn)。一方面,直接大幅度提升了專家人工分析的難度。如果說線索定位是大海撈針,那攻擊路徑還原在該問題下猶如走迷宮。另一方面,自動(dòng)化的分析方案同樣面臨由大量無效信息依賴帶來的分析誤判、性能瓶頸等問題。

學(xué)術(shù)界與工業(yè)界針對(duì)依賴爆炸問題,從多個(gè)維度進(jìn)行了探索。主要有以下幾類緩解方法:(1)通過語(yǔ)義模板的方式,對(duì)具有高度信息流依賴關(guān)系的融合數(shù)據(jù)集進(jìn)行抽象化的壓縮提取。該類方法一方面將所處理的實(shí)體進(jìn)行類似自然語(yǔ)義處理任務(wù)中的“詞干提取”與“詞形還原”,將大規(guī)模、不同粒度的實(shí)體壓縮到有限維度的詞匯空間中,實(shí)現(xiàn)對(duì)實(shí)體類型的有效壓縮。另一方面,采用關(guān)系模板,定義泛化且具有明確語(yǔ)義的實(shí)體關(guān)系,來提取滿足指定關(guān)系屬性的實(shí)體關(guān)聯(lián),過濾無效的、缺乏語(yǔ)義的關(guān)聯(lián)。例如,可定義(用戶進(jìn)程,讀取,敏感系統(tǒng)文件)這樣的關(guān)系模板,來提取所有用戶態(tài)程序訪問讀取敏感系統(tǒng)文件的操作關(guān)系邊。這一類緩解措施優(yōu)勢(shì)在于能夠大幅消減信息流依賴關(guān)系,提取出最值得關(guān)注的且具有安全語(yǔ)義的關(guān)系集合。其劣勢(shì)在于,模板的制定過度依賴專家經(jīng)驗(yàn)與知識(shí),同時(shí),一旦模板制定完成,在已有的模板下將無法處理未知但合理的關(guān)聯(lián)關(guān)系。(2)通過構(gòu)建歷史關(guān)系基線,通過統(tǒng)計(jì)模式剔除無效的關(guān)聯(lián)信息,以緩解依賴爆炸。例如構(gòu)建關(guān)聯(lián)性頻率統(tǒng)計(jì)庫(kù),或構(gòu)造實(shí)體序列模板并生成實(shí)體嵌入向量,來估計(jì)實(shí)體信息流關(guān)聯(lián)流動(dòng)方向的概率值。該類方法具有較強(qiáng)的環(huán)境泛化性,能夠根據(jù)指定的數(shù)據(jù)和系統(tǒng)環(huán)境,自動(dòng)地學(xué)習(xí)歷史數(shù)據(jù)的信息流傳播規(guī)律,從而評(píng)估當(dāng)前信息流傳播的趨勢(shì)。然而,基于統(tǒng)計(jì)的方式一般缺乏安全語(yǔ)義先驗(yàn)知識(shí)的規(guī)范性,習(xí)得的數(shù)據(jù)規(guī)律中存在大量的由數(shù)據(jù)不穩(wěn)定與業(yè)務(wù)行為噪聲導(dǎo)致的虛假模式或無實(shí)際安全語(yǔ)義的模式。這些模式在應(yīng)用過程中將產(chǎn)生誤報(bào)或人類難以理解和處理的結(jié)果,影響專家的深入研判。

4 多維多源多模分析

為了應(yīng)對(duì)依賴爆炸、語(yǔ)義失焦等問題,以XDR為代表的多源數(shù)據(jù)深度分析技術(shù)受到業(yè)界的廣泛關(guān)注。XDR 作為單獨(dú)的技術(shù)方案,不能簡(jiǎn)單看作是EDR 和NDR 在數(shù)據(jù)層面的拓展。數(shù)據(jù)融合帶來的不止是量變,同時(shí)帶來技術(shù)演進(jìn)的質(zhì)變與全新機(jī)遇。如圖4 所示,基于融合數(shù)據(jù)做檢測(cè),需要從多維、多源、多模的大數(shù)據(jù)中,有效地識(shí)別和挖掘行為模式與規(guī)律;基于檢測(cè)結(jié)果或者線索做響應(yīng),需要更細(xì)粒度的告警分診與風(fēng)險(xiǎn)評(píng)估,以及自動(dòng)化的響應(yīng)策略推薦與制定,才能保證策略實(shí)施的精確度。

圖4 XDR 的多步技術(shù)依賴Fig.4 Multiple step technique dependencies for XDR

網(wǎng)絡(luò)安全中的數(shù)據(jù)分析本質(zhì)是基于數(shù)據(jù)標(biāo)簽化與模式聚合的數(shù)據(jù)漏斗模型——通過過濾、抽象、凝練風(fēng)險(xiǎn)相關(guān)信息,將高信息量的視圖呈現(xiàn)給威脅分析人員。威脅狩獵則對(duì)這種數(shù)據(jù)漏洞模型提出了更高的要求,即如何快速、精準(zhǔn)地召回行為線索及上下文。從XDR 技術(shù)趨勢(shì)來看,可以總結(jié)為圖5 中的幾點(diǎn)趨勢(shì),分別是:

圖5 XDR 中的數(shù)據(jù)分析演進(jìn)趨勢(shì)Fig.5 Evolution trends for XDR data analysis

● 從單點(diǎn)到多點(diǎn),即從單一數(shù)據(jù)源單一維度到融合多源多維的數(shù)據(jù);

● 從靜態(tài)到動(dòng)態(tài),即從靜態(tài)的規(guī)則驅(qū)動(dòng)到自適應(yīng)的數(shù)據(jù)驅(qū)動(dòng);

● 從無交互到高交互,即從可視、反饋、調(diào)節(jié)等方面提升人機(jī)智能融合與交互的水平;

● 從單一模式到多模式,即從傳統(tǒng)的基于特征的識(shí)別升級(jí)為特征、時(shí)序、圖、統(tǒng)計(jì)模型融合的模式識(shí)別;

● 從經(jīng)驗(yàn)驅(qū)動(dòng)到知識(shí)驅(qū)動(dòng),即通過將經(jīng)驗(yàn)轉(zhuǎn)化為知識(shí)圖譜等結(jié)構(gòu)化、數(shù)字化形式來加速威脅分析經(jīng)驗(yàn)與知識(shí)的固化與應(yīng)用;

● 從無狀態(tài)到有狀態(tài),即從僅僅關(guān)注檢測(cè)分析的結(jié)果轉(zhuǎn)變?yōu)榫_監(jiān)控實(shí)體及行為的連續(xù)風(fēng)險(xiǎn)變化。

整體來說,XDR 技術(shù)方案的提出,是機(jī)器學(xué)習(xí)、威脅狩獵等網(wǎng)絡(luò)安全運(yùn)營(yíng)前沿技術(shù)的融合技術(shù)場(chǎng)景驅(qū)動(dòng)的,是業(yè)界通過數(shù)據(jù)驅(qū)動(dòng)的方法對(duì)抗高級(jí)威脅的關(guān)鍵技術(shù)形態(tài)。

多模式事件分析的重點(diǎn),在于通過統(tǒng)一的接口和規(guī)范,對(duì)底層多源多維數(shù)據(jù)進(jìn)行統(tǒng)一的查詢與分析。從以上總結(jié)的技術(shù)趨勢(shì)來看,在多模式分析、動(dòng)態(tài)特征抽取、人機(jī)交互性、知識(shí)固化與分享、分析狀態(tài)持續(xù)維護(hù)等方面,仍然需要從數(shù)據(jù)、技術(shù)、流程等維度,探索能夠支持?jǐn)?shù)據(jù)驅(qū)動(dòng)威脅狩獵工作開展的防護(hù)基礎(chǔ)設(shè)施的構(gòu)建方法。

5 威脅狩獵分析語(yǔ)言

在多源異構(gòu)數(shù)據(jù)中進(jìn)行威脅分析,需要通過靈活的規(guī)則撰寫方法,來快速、準(zhǔn)確定位關(guān)鍵線索。規(guī)則撰寫的靈活性,決定于威脅狩獵分析、查詢語(yǔ)言的設(shè)計(jì)與實(shí)現(xiàn)。

語(yǔ)言的設(shè)計(jì)源于科學(xué)的認(rèn)知,也更依賴對(duì)事物理解的藝術(shù)。標(biāo)準(zhǔn)語(yǔ)言,類似普通話,能夠促進(jìn)信息的交換與傳播,減少信息孤島效應(yīng)。在安全領(lǐng)域,除了上述提到的檢測(cè)語(yǔ)言,威脅情報(bào)規(guī)范STIX[5]、惡意軟件描述語(yǔ)言MAEC[6]、威脅檢測(cè)框架ATT&CK[7]等,都是具有廣泛影響力的領(lǐng)域信息交換與描述語(yǔ)言,雖然不一定稱為標(biāo)準(zhǔn),但其影響力被行業(yè)廣泛認(rèn)可。標(biāo)準(zhǔn)語(yǔ)言的成功普及一方面依賴于產(chǎn)業(yè)技術(shù)的成熟,另一方面需要強(qiáng)有力的行業(yè)領(lǐng)導(dǎo)者來推動(dòng)。除了標(biāo)準(zhǔn)語(yǔ)言,定制語(yǔ)言也很重要,類似方言,能夠提升局部信息的高效流轉(zhuǎn)與決策實(shí)施。定制語(yǔ)言就是為了效率而生,一千個(gè)成熟廠商就可能有一千個(gè)定制的檢測(cè)規(guī)則引擎系統(tǒng)。

我們已經(jīng)看到,在威脅檢測(cè)領(lǐng)域,即定位威脅的方法論上,已經(jīng)有較為成熟的語(yǔ)言系統(tǒng),包括用于流量攻擊檢測(cè)的Snort 規(guī)則,用于惡意文件檢測(cè)的YARA 規(guī)則,用于日志威脅檢測(cè)的Sigma 規(guī)則等。這些規(guī)則系統(tǒng)都自成體系,形成領(lǐng)域?qū)S玫恼Z(yǔ)言系統(tǒng)。但隨著高級(jí)攻擊技戰(zhàn)術(shù)的演進(jìn)與攻擊面的拓展,威脅分析已經(jīng)不僅限于初級(jí)的威脅定位。主動(dòng)的威脅狩獵,對(duì)靈活的威脅定位、高效的上下文拓展、精準(zhǔn)的路徑溯源提出了更高的要求。傳統(tǒng)流量、樣本、情報(bào)、日志分立的“語(yǔ)言模型”與規(guī)則系統(tǒng),已經(jīng)難以適應(yīng)跨多源、多類型日志的威脅調(diào)查與分析需求。

以IBM 的開源威脅狩獵語(yǔ)言Kestrel 為例[8],該語(yǔ)言正是面向多源數(shù)據(jù)、高交互、多模式分析的數(shù)據(jù)查詢語(yǔ)言。跟其他相關(guān)威脅狩獵調(diào)查分析語(yǔ)言一起,本文將Kestrel 的數(shù)據(jù)覆蓋和核心功能總結(jié)在表2 中[8-16]。我們主要從該語(yǔ)言模型針對(duì)的數(shù)據(jù)類型、支持的模式類型、實(shí)時(shí)性三個(gè)角度來初步標(biāo)定各技術(shù)方案主要的應(yīng)用領(lǐng)域與方式。數(shù)據(jù)類型方面,行為、環(huán)境、情報(bào)、知識(shí)四種類型的數(shù)據(jù)可覆蓋安全運(yùn)營(yíng)中心所接入的不同類型數(shù)據(jù)。實(shí)時(shí)性方面,主要包括流式的分析模式和批量的調(diào)查模式。

表2 威脅狩獵分析語(yǔ)言分類Table 2 Classification for threat hunting analysis languages

在模式類型中,“單點(diǎn)”指的是以特征或指紋匹配為主的單個(gè)事件模式;“集合”表示多個(gè)事件的無序組合;“序列”表示有序的事件組合;“靜態(tài)圖”表示信息流或結(jié)構(gòu)相關(guān)的事件組合;“時(shí)序圖”表示有序并且存在信息關(guān)聯(lián)的事件組合;“模型”表示基于機(jī)器學(xué)習(xí)等模型方法,在統(tǒng)計(jì)特征上可關(guān)聯(lián)起來的事件組合。圖6給出了主要模式類型的說明示意圖。圖6(a)為“單點(diǎn)”的特征或指紋匹配,即在序列的事件中,通過指定的指紋,例如數(shù)據(jù)包載荷關(guān)鍵詞等,來召回具有該指紋的攻擊事件。如圖6(b)所示,是基于組合或者序列的威脅狩獵模式。在該模式下,多個(gè)具有指定特征的事件,被組合或者串聯(lián)起來。例如圖中所示,一個(gè)完整的事件模式,包括首先觸發(fā)的Redis 未授權(quán)訪問攻擊事件,同時(shí)該Redis 服務(wù)端被攻擊者上傳了用于SSH 訪問的公鑰。進(jìn)而觸發(fā)SSH 異常登錄事件,即發(fā)現(xiàn)SSH 登錄訪問關(guān)系基線之外的SSH 訪問關(guān)系。圖6(c)給出了基于圖的模式示例。多個(gè)事件的關(guān)聯(lián),是通過各個(gè)事件中的關(guān)鍵字段和信息要素在圖譜中的關(guān)聯(lián)關(guān)系構(gòu)建的。例如,某事件1 的IP 字段關(guān)聯(lián)到其他事件2 的IP,而事件2 的文件、進(jìn)程信息又關(guān)聯(lián)到某事件3。通過這種圖上的信息延伸,多個(gè)事件被組裝成一個(gè)統(tǒng)一的圖模式。顯然,在圖模式之上,可以通過對(duì)各個(gè)事件發(fā)生時(shí)間的前后依賴關(guān)系的限制,自然地形成時(shí)序圖模式。最后,圖6(d)給出了基于統(tǒng)計(jì)事件關(guān)聯(lián)模式。在該模式下,通過抽取多個(gè)事件的統(tǒng)計(jì)特征,例如載荷文本相似性、上下文告警相似性、告警發(fā)生時(shí)頻特征等,進(jìn)而基于聚類、社團(tuán)分析等方法,將相似的事件進(jìn)行關(guān)聯(lián)聚合。通過這種統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,能夠突破傳統(tǒng)事件分析依賴精確信息流或時(shí)序依賴的限制,從更寬泛的特征中挖掘未知威脅事件,是威脅狩獵環(huán)節(jié)中不可或缺的一種關(guān)聯(lián)模式。

圖6 威脅狩獵語(yǔ)言模型的主要模式示意圖Fig.6 Schematic diagram of the primary patterns of the threat hunting language model

威脅調(diào)查分析語(yǔ)言,核心在于“表達(dá)力”,即能否靈活地支持威脅狩獵過程中的持續(xù)驗(yàn)證過程。為此,數(shù)據(jù)類型覆蓋越全面,支持的事件模式類型越豐富,語(yǔ)言的表達(dá)能力越強(qiáng),越能夠有效地降低調(diào)查過程中的跨數(shù)據(jù)開銷和復(fù)雜事件關(guān)聯(lián)分析開銷。威脅調(diào)查分析語(yǔ)言不限于表中總結(jié)的幾種實(shí)現(xiàn)方案。

如前文所述,當(dāng)前針對(duì)威脅調(diào)查領(lǐng)域語(yǔ)言的設(shè)計(jì),業(yè)界尚處于探索之中,是安全學(xué)術(shù)與工業(yè)研究中的重要課題之一。本文根據(jù)威脅狩獵實(shí)踐在靈活性、魯棒性、安全性方面的需求,在此重點(diǎn)總結(jié)三個(gè)威脅調(diào)查語(yǔ)言領(lǐng)域的重要的研究趨勢(shì)。

● 異構(gòu)多源數(shù)據(jù)的統(tǒng)一靈活表示方法。如前文所示,威脅狩獵語(yǔ)言的設(shè)計(jì)需要支撐多種類型模式的靈活檢索。然而,語(yǔ)言模式的靈活性依賴于底層數(shù)據(jù)的統(tǒng)一組織與表示形式。通過知識(shí)、情報(bào)、數(shù)據(jù)圖譜的本體設(shè)計(jì)與圖結(jié)構(gòu)構(gòu)建,進(jìn)而實(shí)現(xiàn)異構(gòu)圖數(shù)據(jù)的表示學(xué)習(xí),以提供圖中實(shí)體、關(guān)系的統(tǒng)一的、壓縮的向量化表示結(jié)果,能夠支撐下游狩獵查詢語(yǔ)言在數(shù)據(jù)中的表達(dá)靈活性。

● 支持模糊語(yǔ)義匹配的魯棒查詢方法。現(xiàn)有的各類語(yǔ)言模型,主要集中于模式的精確匹配。盡管基于統(tǒng)計(jì)關(guān)聯(lián)模式的查詢匹配方法在未知威脅的分析方面具有靈活性,但是對(duì)特征、時(shí)序、圖模式的匹配中,仍需實(shí)現(xiàn)對(duì)模式“變異”事件的識(shí)別,即支持模糊語(yǔ)義的匹配,以保證相關(guān)模式規(guī)則在不同環(huán)境下的自適應(yīng)性與容錯(cuò)性,并平衡識(shí)別的準(zhǔn)確率與變異覆蓋率。

● 面向隱私防護(hù)的分布式查詢方法。威脅狩獵愈發(fā)依賴各層次細(xì)粒度的日志收集,包括網(wǎng)絡(luò)日志、終端行為日志等。然而,隨著數(shù)據(jù)資產(chǎn)安全性的日益凸顯,越來越多的重要數(shù)據(jù)資產(chǎn)被加密、脫敏和就地保護(hù),探索在數(shù)據(jù)加密、數(shù)據(jù)不出境情形下的威脅狩獵查詢語(yǔ)言設(shè)計(jì)已被提上日程。

6 總結(jié)

與語(yǔ)言的建模與分析相關(guān),安全知識(shí)庫(kù)、知識(shí)圖譜、語(yǔ)義分析、可解釋智能、因果挖掘等,這些技術(shù)名詞已經(jīng)逐漸融入安全技術(shù)發(fā)展的視野中。打造XDR 技術(shù)棧,支撐威脅狩獵任務(wù)的開展,已逐漸成為安全運(yùn)營(yíng)中的常態(tài)化工作之一。本文以數(shù)據(jù)驅(qū)動(dòng)的威脅狩獵中的語(yǔ)言模型構(gòu)建為目標(biāo),結(jié)合前沿議題與學(xué)術(shù)研究成果,分析總結(jié)了技術(shù)相關(guān)的指標(biāo)優(yōu)化、數(shù)據(jù)融合與分析方法。基于多源數(shù)據(jù)進(jìn)行威脅狩獵,仍然是一個(gè)開放性的、有挑戰(zhàn)的技術(shù)方向,值得我們深入地跟蹤與研究。

猜你喜歡
信息流狩獵威脅
基于信息流的作戰(zhàn)體系網(wǎng)絡(luò)效能仿真與優(yōu)化
人類的威脅
基于信息流的RBC系統(tǒng)外部通信網(wǎng)絡(luò)故障分析
戰(zhàn)區(qū)聯(lián)合作戰(zhàn)指揮信息流評(píng)價(jià)模型
受到威脅的生命
面對(duì)孩子的“威脅”,我們要會(huì)說“不”
家教世界(2017年11期)2018-01-03 01:28:49
狩獵還是偷獵
恐龍是怎么狩獵的?
Why Does Sleeping in Just Make Us More Tired?
基于任務(wù)空間的體系作戰(zhàn)信息流圖構(gòu)建方法
承德县| 施秉县| 三门县| 五河县| 诸城市| 宁阳县| 商河县| 杭锦旗| 谢通门县| 柘城县| 和静县| 泗阳县| 昌吉市| 虹口区| 昌宁县| 清流县| 乌苏市| 司法| 青田县| 社旗县| 安仁县| 弥勒县| 越西县| 旬阳县| 绵阳市| 济源市| 桐乡市| 乌兰浩特市| 通榆县| 阿勒泰市| 桓仁| 伽师县| 章丘市| 辽源市| 枣阳市| 曲水县| 安泽县| 五华县| 吴堡县| 舟曲县| 华阴市|