陳孟婕,劉慧媛,蔣慶朝,徐 碩,倪晨瀚
(中國水產(chǎn)科學(xué)研究院漁業(yè)工程研究所,北京 100141)
近年來,隨著網(wǎng)絡(luò)規(guī)模迅速擴(kuò)大,網(wǎng)絡(luò)的脆弱性特點(diǎn)也使得病毒、漏洞、攻擊等網(wǎng)絡(luò)安全問題層出不窮,諸如2021年美國先后發(fā)生的“太陽風(fēng)”(Solar Winds)黑客事件、科羅尼爾管道運(yùn)輸公司(Colonial Pipeline)石油運(yùn)輸管道事件、挪威Volue公司與愛爾蘭衛(wèi)生服務(wù)執(zhí)行局(Health Service Executive,HSE)遭遇的勒索軟件攻擊事件等[1,2],凸顯了網(wǎng)絡(luò)安全嚴(yán)峻態(tài)勢,給包括漁政管理系統(tǒng)在內(nèi)的各類信息系統(tǒng)造成嚴(yán)重威脅。信息網(wǎng)絡(luò)安全問題已引起各國政府部門的高度重視,我國自2016年以來先后推出了《中華人民共和國網(wǎng)絡(luò)安全法》《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)條例》《網(wǎng)絡(luò)安全審查辦法》等一系列網(wǎng)絡(luò)安全保護(hù)相關(guān)法律法規(guī),加強(qiáng)網(wǎng)絡(luò)安全領(lǐng)域監(jiān)督管理,各國也通過立法、研究資金支持、政企合作等方式,加強(qiáng)網(wǎng)絡(luò)安全管理[3,4]。
在宏觀政策指導(dǎo)下,信息系統(tǒng)網(wǎng)絡(luò)安全管理工作以各類網(wǎng)絡(luò)日志數(shù)據(jù)作為基礎(chǔ)研究資料,開展網(wǎng)絡(luò)日志、網(wǎng)絡(luò)流量分析,掌握網(wǎng)絡(luò)整體情況、辨識(shí)安全風(fēng)險(xiǎn),提升網(wǎng)絡(luò)安全防御能力。面向網(wǎng)絡(luò)安全的網(wǎng)絡(luò)日志分析技術(shù)主要解決海量、多源異構(gòu)日志采集與處理、數(shù)據(jù)模式識(shí)別與分析挖掘等問題,識(shí)別網(wǎng)絡(luò)安全問題并實(shí)現(xiàn)攻擊行為防御,具體包括網(wǎng)絡(luò)監(jiān)控、異常檢測、特征分析、態(tài)勢感知等[5-6]?;诰W(wǎng)絡(luò)日志及網(wǎng)絡(luò)流量分析技術(shù),各個(gè)廠商開發(fā)了防火墻、防病毒、入侵檢測系統(tǒng)等常規(guī)的安全產(chǎn)品解決一部分安全問題,進(jìn)而提供以網(wǎng)絡(luò)綜合管理系統(tǒng)為核心的網(wǎng)絡(luò)安全系列產(chǎn)品,提供整體的網(wǎng)絡(luò)管理服務(wù)。網(wǎng)絡(luò)綜合管理系統(tǒng)運(yùn)行在信息系統(tǒng)運(yùn)行環(huán)境中,通過收集各類網(wǎng)絡(luò)設(shè)備(如防火墻、入侵檢測系統(tǒng)等)日志信息,在預(yù)先設(shè)定的規(guī)則下進(jìn)行網(wǎng)絡(luò)原始數(shù)據(jù)的分析篩選,實(shí)現(xiàn)網(wǎng)絡(luò)情況與用戶情況的監(jiān)視記錄、網(wǎng)絡(luò)異常行為的識(shí)別與告警以及數(shù)據(jù)分析結(jié)果的輸出,為網(wǎng)絡(luò)狀態(tài)的掌握及安全風(fēng)險(xiǎn)的應(yīng)對(duì)提供依據(jù)。網(wǎng)絡(luò)管理系統(tǒng)規(guī)則庫的建立依賴于專家的實(shí)踐經(jīng)驗(yàn),無法隨著網(wǎng)絡(luò)的改變而實(shí)時(shí)更新。因此,雖然網(wǎng)絡(luò)管理系統(tǒng)在一定程度上提供了特定信息系統(tǒng)網(wǎng)絡(luò)安全分析,但是數(shù)據(jù)分析功能在靈活性上有所欠缺,面對(duì)大量的日志記錄數(shù)據(jù),用戶通常只能在發(fā)生重大問題后作為事后檢查的依據(jù)[7]。研究者針對(duì)網(wǎng)絡(luò)管理系統(tǒng)缺乏靈活性問題,展開網(wǎng)絡(luò)安全管理系統(tǒng)研究,實(shí)現(xiàn)多種網(wǎng)絡(luò)日志綜合分析利用。例如辛云龍[8]研究了MVC框架下的網(wǎng)絡(luò)安全數(shù)據(jù)管理系統(tǒng),對(duì)網(wǎng)絡(luò)安全設(shè)備進(jìn)行統(tǒng)一的管理和配置,對(duì)網(wǎng)絡(luò)安全信息數(shù)據(jù)進(jìn)行高效的審計(jì),增強(qiáng)安全設(shè)備與網(wǎng)絡(luò)安全管理者之間互操作性。楊舒琴[9]設(shè)計(jì)和實(shí)現(xiàn)了網(wǎng)絡(luò)安全審計(jì)管理系統(tǒng)以實(shí)現(xiàn)多個(gè)主機(jī)、網(wǎng)絡(luò)設(shè)備來源的網(wǎng)絡(luò)日志分析、告警與報(bào)表。肖和明[10]在研究中構(gòu)建了多源網(wǎng)絡(luò)數(shù)據(jù)可視化管理系統(tǒng),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)安全設(shè)備、監(jiān)管設(shè)備等日志信息的采集、關(guān)聯(lián)分析與容和處理。對(duì)于網(wǎng)絡(luò)安全管理系統(tǒng)提供的分析數(shù)據(jù)的研究仍較少,而對(duì)這類數(shù)據(jù)的高效分析挖掘,有利于信息安全管理人員對(duì)信息系統(tǒng)網(wǎng)絡(luò)安全態(tài)勢的準(zhǔn)確把握。
以漁政管理信息系統(tǒng)為例,該系統(tǒng)是面向漁業(yè)管理的全國性政務(wù)系統(tǒng),部署在農(nóng)業(yè)農(nóng)村部信息中心,其信息安全架構(gòu)是在信息安全等級(jí)保護(hù)制度1.0標(biāo)準(zhǔn)(“等保1.0”)的背景下,按照信息安全等級(jí)保護(hù)三級(jí)的要求投入建設(shè)的,并運(yùn)用相應(yīng)的網(wǎng)絡(luò)安全手段保障系統(tǒng)安全運(yùn)行[11,12]。漁政管理信息系統(tǒng)的網(wǎng)絡(luò)安全由農(nóng)業(yè)農(nóng)村部信息中心網(wǎng)絡(luò)安全管理系統(tǒng)提供統(tǒng)一的技術(shù)支持,獲取以網(wǎng)絡(luò)告警數(shù)據(jù)分析為主的網(wǎng)絡(luò)安全分析報(bào)告數(shù)據(jù),報(bào)告由統(tǒng)計(jì)分析和數(shù)據(jù)詳情組成。目前,網(wǎng)絡(luò)安全分析報(bào)告數(shù)據(jù)未得到充分開發(fā)與利用,主要原因有以下方面:(1)數(shù)據(jù)格式多樣,不便于融合使用;(2)數(shù)據(jù)詳情部分冗余、關(guān)鍵字段信息不完整,網(wǎng)絡(luò)管理軟件規(guī)則庫未公開,不利于報(bào)告的理解和使用;(3)報(bào)告分析不夠深入,缺乏針對(duì)性,未能提供有效決策支持。本文以漁政管理信息系統(tǒng)的網(wǎng)絡(luò)安全分析報(bào)告作為分析數(shù)據(jù),針對(duì)報(bào)告數(shù)據(jù)量大、利用率低、難以融合分析等問題,構(gòu)建融合網(wǎng)絡(luò)知識(shí)資源的漁政管理信息系統(tǒng)漏洞數(shù)據(jù),對(duì)網(wǎng)絡(luò)攻擊事件主題、數(shù)據(jù)關(guān)聯(lián)關(guān)系展開分析挖掘,為漁政管理信息系統(tǒng)網(wǎng)絡(luò)安全運(yùn)維提供技術(shù)支撐和建議,為各類信息系統(tǒng)基于網(wǎng)絡(luò)安全分析數(shù)據(jù)的再分析、再挖掘提供研究思路。
本文通過漁政管理信息系統(tǒng)網(wǎng)絡(luò)的安全管理系統(tǒng),導(dǎo)出2019—2020年全部網(wǎng)絡(luò)安全分析報(bào)告6份,包含詳細(xì)數(shù)據(jù)記錄約50 000條,每條數(shù)據(jù)內(nèi)容主要是時(shí)間、攻擊IP、摘要、目標(biāo)端口以及攻擊次數(shù),均為半結(jié)構(gòu)化文檔格式,數(shù)據(jù)樣例如圖1所示。網(wǎng)絡(luò)安全分析報(bào)告提供的分析結(jié)果僅對(duì)攻擊IP按次數(shù)進(jìn)行統(tǒng)計(jì),未提供信息系統(tǒng)專項(xiàng)分析,因此發(fā)揮的安全指導(dǎo)作用有限。在現(xiàn)有數(shù)據(jù)資料基礎(chǔ)上,需要對(duì)數(shù)據(jù)進(jìn)行補(bǔ)充完善和分析挖掘,進(jìn)一步掌握網(wǎng)絡(luò)安全情況,為網(wǎng)絡(luò)安全防護(hù)提供一些思路和建議。
由于網(wǎng)絡(luò)安全分析報(bào)告提供的分析結(jié)果過于簡單,數(shù)據(jù)詳情部分信息不完整,數(shù)據(jù)難以分析挖掘,需要對(duì)數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換,構(gòu)建便于分析使用的網(wǎng)絡(luò)日志數(shù)據(jù)庫。本文從數(shù)據(jù)融合與分析入手,實(shí)現(xiàn)關(guān)鍵數(shù)據(jù)識(shí)別與存儲(chǔ),主要包括三個(gè)流程:原始數(shù)據(jù)預(yù)處理、關(guān)鍵字信息識(shí)別提取和數(shù)據(jù)融合處理。其總體技術(shù)框架圖、詳細(xì)技術(shù)流程圖如圖2、圖3所示。
圖2 網(wǎng)絡(luò)日志數(shù)據(jù)融合與分析技術(shù)框架Fig.2 Technical framework for web log data fusion and analysis
圖3 網(wǎng)絡(luò)日志數(shù)據(jù)融合與分析技術(shù)流程圖Fig.3 Flow chart of web log data fusion and analysis
原始數(shù)據(jù)預(yù)處理主要是對(duì)收集的原始數(shù)據(jù)進(jìn)行預(yù)處理,具體包括數(shù)據(jù)格式轉(zhuǎn)換、目標(biāo)數(shù)據(jù)篩選、結(jié)構(gòu)化處理、標(biāo)識(shí)分配、數(shù)據(jù)合并、殘缺信息補(bǔ)充或剔除等,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的清洗和統(tǒng)一存儲(chǔ),便于數(shù)據(jù)分析利用。
對(duì)于數(shù)據(jù)中以文本格式存儲(chǔ)的“摘要”字段,包含了攻擊行為簡要介紹或者片段介紹,是數(shù)據(jù)分析的重要對(duì)象。經(jīng)分析,日志原始數(shù)據(jù)的“摘要”字段中有大量重復(fù)的、難以分析利用的文本記錄信息,例如“TCP_建立SSL握手連接”;同時(shí),也蘊(yùn)含了具有分析價(jià)值的攻擊事件,例如包含國際公開的信息安全漏洞字典(common vulnerabilities and exposures,CVE)編碼信息的摘要。對(duì)于這部分摘要,以“CVE-”作為關(guān)鍵字提取數(shù)據(jù)中CVE編碼,并根據(jù)字符串模糊匹配算法進(jìn)行編碼的補(bǔ)充完善。
在提取CVE編碼之后,根據(jù)數(shù)據(jù)分析需求,引入CVE字典庫,建立面向漁政管理信息系統(tǒng)的CVE編號(hào)目錄索引,幫助快速查找日志摘要中漏洞的相關(guān)信息以及修復(fù)信息。由于CVE中對(duì)漏洞分類分級(jí)信息不完善,本文引用中國國家信息安全漏洞數(shù)據(jù)庫(China national vulnerability database of information security,CNNVD)中的漏洞分類分級(jí)信息,包括危害等級(jí)(漏洞綜合評(píng)估)、廠商信息、漏洞類型、威脅類型和通用漏洞評(píng)分系統(tǒng)(common vulnerability scoring system,CVSS)評(píng)分等。通過關(guān)鍵信息的融合處理過程,補(bǔ)充關(guān)鍵信息,促進(jìn)了后續(xù)用戶對(duì)數(shù)據(jù)的理解和使用。
經(jīng)過以上原始數(shù)據(jù)預(yù)處理、關(guān)鍵字信息識(shí)別提取和數(shù)據(jù)融合處理的過程,完成了漁政管理信息系統(tǒng)網(wǎng)絡(luò)漏洞數(shù)據(jù)庫的構(gòu)建,為網(wǎng)絡(luò)安全態(tài)勢研究、網(wǎng)絡(luò)安全漏洞挖掘、網(wǎng)絡(luò)安全評(píng)估定級(jí)以及安全事件的快速解決提供數(shù)據(jù)來源。漁政管理信息系統(tǒng)網(wǎng)絡(luò)漏洞數(shù)據(jù)庫結(jié)構(gòu)如圖4所示。
圖4 數(shù)據(jù)庫ER圖Fig.4 Database entity relationship diagram
對(duì)漁政管理信息系統(tǒng)的網(wǎng)絡(luò)漏洞數(shù)據(jù)進(jìn)行分析,2019—2020年,漁政管理信息系統(tǒng)受到的網(wǎng)絡(luò)攻擊次數(shù)共23億次,識(shí)別不同的網(wǎng)絡(luò)安全漏洞253種。分析結(jié)果顯示,攻擊者的訪問路徑中,以遠(yuǎn)程代碼執(zhí)行漏洞利用的攻擊為主,比例占99%,相比本地漏洞利用方式,攻擊面更廣。對(duì)于攻擊技術(shù),木馬類攻擊占15%,比其他攻擊行為規(guī)模更大。受影響的系統(tǒng)部件中,對(duì)服務(wù)網(wǎng)絡(luò)(包括DNS、網(wǎng)絡(luò)管理設(shè)備等)和Web中間件的威脅占較大比例。其中,基于Weblogic Server(Oracle公司的Web應(yīng)用服務(wù)器)、Apache Tomcat Server(Apache軟件基金會(huì)應(yīng)用服務(wù)器)、IIS(微軟Web應(yīng)用服務(wù)器)等Web中間件的應(yīng)用系統(tǒng)相比于Jboss(JBoss公司應(yīng)用服務(wù)器)、Websphere(IBM公司的應(yīng)用服務(wù)器)等其他中間件應(yīng)用,在互聯(lián)網(wǎng)上暴露的高危漏洞呈現(xiàn)大幅增長的趨勢。表1列出了攻擊次數(shù)最多的前5個(gè)漏洞,這些漏洞的威脅類型均為遠(yuǎn)程(其他類型還有本地、鄰接等),漏洞類型包括設(shè)計(jì)錯(cuò)誤、通用性漏洞、代碼問題、輸入驗(yàn)證錯(cuò)誤以及命令錯(cuò)誤。根據(jù)2020年新頒布的網(wǎng)絡(luò)安全漏洞分類分級(jí)國家標(biāo)準(zhǔn)[26],這5個(gè)漏洞的分類均為代碼錯(cuò)誤,即網(wǎng)絡(luò)產(chǎn)品和服務(wù)的代碼開發(fā)過程中因設(shè)計(jì)或?qū)崿F(xiàn)不當(dāng)而導(dǎo)致的漏洞。
表1 攻擊次數(shù)最多的漏洞分級(jí)信息Tab.1 Vulnerability classification information with the most attacks
漏洞攻擊的關(guān)聯(lián)特性體現(xiàn)在攻擊者對(duì)某個(gè)漏洞利用,有時(shí)候也會(huì)伴隨著對(duì)其他漏洞的利用,一方面,序列化的漏洞將構(gòu)建完整的攻擊;另一方面,應(yīng)用在網(wǎng)絡(luò)中的脆弱點(diǎn)存在于應(yīng)用、數(shù)據(jù)、系統(tǒng)和物理環(huán)境等多個(gè)層面,這些方面均是可以被利用的攻擊點(diǎn)。因此,組合攻擊將造成更嚴(yán)重的攻擊危害。顯然,對(duì)漏洞關(guān)聯(lián)關(guān)系的挖掘,將為提高網(wǎng)絡(luò)安全防范措施提供有力的技術(shù)保障。Apriori算法作為最經(jīng)典的關(guān)聯(lián)分析算法之一,是日志分析中的常用算法,該算法核心是基于兩階段頻集思想遞推計(jì)算挖掘關(guān)聯(lián)規(guī)則。
漁政管理信息系統(tǒng)網(wǎng)絡(luò)安全漏洞數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘包括兩個(gè)階段。第一個(gè)階段是算法數(shù)據(jù)預(yù)處理,將日志數(shù)據(jù)轉(zhuǎn)換為適合關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)對(duì)象。該步驟以攻擊者IP作為攻擊者唯一標(biāo)識(shí),對(duì)日志數(shù)據(jù)分類,合并同一個(gè)IP的攻擊事件,形成不同攻擊者的攻擊事件集合。數(shù)據(jù)預(yù)處理代碼如圖5所示,數(shù)據(jù)處理結(jié)果如圖6所示。圖6中,每個(gè)集合為同一個(gè)攻擊者的攻擊事件集合,集合中的數(shù)字表示一種攻擊事件類型。第二個(gè)階段是關(guān)聯(lián)規(guī)則挖掘,其算法應(yīng)用示例如圖7所示,通過兩階段關(guān)聯(lián)分析挖掘,得到5條符合要求的關(guān)聯(lián)規(guī)則。在算法實(shí)現(xiàn)中,通過調(diào)整算法的最小值支持度(minSupport)、最小置信度(minConf),可以得到不同的頻繁項(xiàng)集及關(guān)聯(lián)關(guān)系。算法運(yùn)行結(jié)果如圖8和圖9所示。其中,圖8是最小值支持度為0.3、最小置信度為0.5的運(yùn)行結(jié)果,圖9是最小值支持度為0.1、最小置信度為0.5的運(yùn)行結(jié)果。如若設(shè)置最小置信度為0.5,則無運(yùn)行結(jié)果。這是由于數(shù)據(jù)集中有大量無關(guān)數(shù)據(jù),具有較高偏差,數(shù)據(jù)關(guān)聯(lián)性更為隱蔽。
圖5 數(shù)據(jù)預(yù)處理代碼片段Fig.5 Data preprocessing code
圖6 數(shù)據(jù)預(yù)處理結(jié)果Fig.6 Converted algorithm data
圖7 網(wǎng)絡(luò)攻擊事件關(guān)聯(lián)分析模型Fig.7 Network attack event correlation analysis model
圖8 置信度為0.3的運(yùn)行結(jié)果Fig.8 Run results with a confidence of 0.3
圖9 置信度為0.1的運(yùn)行結(jié)果Fig.9 Run results with a confidence of 0.1
對(duì)運(yùn)行結(jié)果分析,可知具有較強(qiáng)關(guān)聯(lián)規(guī)則(置信度大于0.8)的漏洞有兩類,第一類是CVE-1999-0517(編號(hào)7)、CVE-1999-0278(編號(hào)55)和CVE-1999-0833(編號(hào)8),主要是對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的攻擊,例如DNS服務(wù)器、網(wǎng)絡(luò)設(shè)備管理服務(wù)器;第二類是CVE-2015-4852(編號(hào)41)、CVE-2017-12615(編號(hào)45),主要是對(duì)Weblogic、Tomcat等中間件漏洞的攻擊。其中,漏洞CVE-2017-5638(編號(hào)48)與第二類漏洞有一定關(guān)聯(lián)(置信度超過0.5),該漏洞是對(duì)Apache Struts(Apache軟件基金會(huì)開源Web框架)上傳文件模塊的攻擊。因此,漁政管理信息系統(tǒng)在網(wǎng)絡(luò)安全運(yùn)維中,需要即時(shí)跟進(jìn)產(chǎn)品的漏洞補(bǔ)丁,尤其是網(wǎng)絡(luò)節(jié)點(diǎn)服務(wù)器以及依托的Web中間件產(chǎn)品的補(bǔ)丁。
本文研究了網(wǎng)絡(luò)日志數(shù)據(jù)融合與分析技術(shù),構(gòu)建了漁政管理信息系統(tǒng)網(wǎng)絡(luò)漏洞數(shù)據(jù)庫,研究分析了系統(tǒng)網(wǎng)絡(luò)安全態(tài)勢、網(wǎng)絡(luò)攻擊特點(diǎn)、不同漏洞被利用的關(guān)聯(lián)關(guān)系。本文研究的不足在于分析的數(shù)據(jù)對(duì)象為靜態(tài)數(shù)據(jù),未對(duì)接網(wǎng)絡(luò)安全管理系統(tǒng),因此分析結(jié)果也未能及時(shí)有效更新。另外,分析的數(shù)據(jù)樣本仍較少,當(dāng)采集更多網(wǎng)絡(luò)安全分析數(shù)據(jù)時(shí),算法復(fù)雜度增加,需要進(jìn)一步研究網(wǎng)絡(luò)日志大數(shù)據(jù)分析相關(guān)算法,優(yōu)化算法性能與效率。再者,在網(wǎng)絡(luò)環(huán)境風(fēng)險(xiǎn)評(píng)估方面,可以基于現(xiàn)有的漏洞評(píng)分基礎(chǔ),結(jié)合漁政系統(tǒng)的實(shí)際部署架構(gòu),對(duì)漏洞進(jìn)行準(zhǔn)確評(píng)估,為系統(tǒng)運(yùn)維人員提供更加全面有效的安全防護(hù)建議。