詹雄,郭昊,張錋,毛澍
(全球能源互聯(lián)網(wǎng)研究院,北京 102209)
隨著各種通信技術(shù)尤其短距離通信技術(shù)(如Wi-Fi、藍牙等)的快速發(fā)展,使得人們對網(wǎng)絡(luò)的接入更加廣泛、更加便捷,因此也對人們的生活產(chǎn)生了巨大的影響。網(wǎng)絡(luò)生活已經(jīng)成為人們生活的重要組成部分,因此也帶來了諸如隱私信息泄露、謠言誤導(dǎo)、網(wǎng)絡(luò)欺詐、網(wǎng)絡(luò)釣魚等各種安全問題。同時,高級持續(xù)威脅(APT)攻擊等成為當今網(wǎng)絡(luò)主流的攻擊方式,并呈現(xiàn)愈演愈烈的趨勢。云端惡意代碼樣本已從2005年的40萬種增長至目前的60億種,全球惡意代碼樣本數(shù)目正以每天可獲取300萬個樣本的速度增長,繼“震網(wǎng)”和“棱鏡門”事件之后,各種網(wǎng)絡(luò)漏洞和網(wǎng)絡(luò)攻擊層出不窮,例如,“心臟出血”漏洞、Bash漏洞嚴重威脅成千上萬的網(wǎng)絡(luò)服務(wù)器和網(wǎng)絡(luò)基礎(chǔ)設(shè)施,軍事、工業(yè)、金融等重要領(lǐng)域的信息系統(tǒng)安全面臨嚴峻挑戰(zhàn)[1]。攻擊方式多樣、隱蔽,常常通過各種偽裝、隱藏服務(wù)等方式植入客戶端,在用戶不知覺的狀態(tài)下實現(xiàn)對網(wǎng)絡(luò)服務(wù)器、計算機終端、便攜式移動設(shè)備等智能設(shè)備的資源獲取和控制,進而通過各種非法手段獲取用戶信息、銀行賬戶等,簡單地通過傳統(tǒng)手段(如防火墻、入侵檢測、殺毒軟件等方式)進行網(wǎng)絡(luò)保護已經(jīng)不能滿足用戶的安全需求。
如何開展新的網(wǎng)絡(luò)態(tài)勢下的安全預(yù)防,開展網(wǎng)絡(luò)安全態(tài)勢預(yù)測,實現(xiàn)主動智能的安全防護成為目前的研究熱點,并被廣泛關(guān)注。國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心2015年4月30日發(fā)布的 《2014年我國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全態(tài)勢報告》數(shù)據(jù)顯示,中國互聯(lián)網(wǎng)安全情況依然嚴峻。以2014年為例,CNCERT通報的漏洞安全相關(guān)事件達9 068起,與2013年相比增長3倍[2]。漏洞、惡意程序、仿冒站點等情況如圖1所示。
因此,開展網(wǎng)絡(luò)安全態(tài)勢預(yù)測具有重要意義,網(wǎng)絡(luò)安全態(tài)勢預(yù)測主要是對網(wǎng)絡(luò)信息安全相關(guān)內(nèi)容(包括網(wǎng)絡(luò)安全行為等)進行網(wǎng)絡(luò)狀態(tài)分析和評估,智能評判信息安全性和趨向性,給出安全形勢預(yù)判。目前,基于免疫理論、神經(jīng)網(wǎng)絡(luò)理論、病毒傳播動力學(xué)等理論和技術(shù)的網(wǎng)絡(luò)態(tài)勢預(yù)測研究已經(jīng)取得了一定的成果,包括采用線性回歸的方法、基于神經(jīng)網(wǎng)絡(luò)的態(tài)勢預(yù)測方法、基于蟻群計算的預(yù)測方法等,但這些方法由于建模時間較長,實時效果不明顯,不能實時反映網(wǎng)絡(luò)的安全態(tài)勢。
本文深入分析網(wǎng)絡(luò)安全趨勢預(yù)測的特性及運行機理,結(jié)合隱馬爾可夫模型(hidden Markov model,HMM)和預(yù)測算法[3,4],研究并設(shè)計了網(wǎng)絡(luò)安全態(tài)勢預(yù)測系統(tǒng),實現(xiàn)了實時預(yù)測網(wǎng)絡(luò)安全態(tài)勢的方法?;贛arkov模式的預(yù)測系統(tǒng)利用網(wǎng)絡(luò)安全態(tài)勢評估信息建立網(wǎng)絡(luò)安全態(tài)勢預(yù)測模型,在監(jiān)測時通過實時數(shù)據(jù)不斷地對網(wǎng)絡(luò)安全影響參數(shù)進行動態(tài)修正,從而實現(xiàn)網(wǎng)絡(luò)安全態(tài)勢實時監(jiān)控與預(yù)測。
圖1 2014年網(wǎng)絡(luò)安全事件類型比例
網(wǎng)絡(luò)安全態(tài)勢預(yù)測主要包括兩個方面:態(tài)勢和預(yù)測。其中,網(wǎng)絡(luò)安全態(tài)勢是指網(wǎng)絡(luò)中各個要素的運行預(yù)期狀況,即當前網(wǎng)絡(luò)設(shè)備狀況、網(wǎng)站內(nèi)容信息、用戶網(wǎng)上行為等要素,以此態(tài)勢為前提,研究其未來發(fā)展的狀況。預(yù)測主要是基于歷史狀態(tài),總結(jié)發(fā)展規(guī)律,推算未來發(fā)展情況。由此可見,態(tài)勢預(yù)測可以看成屬于人工智能范疇。態(tài)勢預(yù)測是一個目標逐漸明晰的過程。首先,通過總結(jié)態(tài)勢規(guī)律,建立態(tài)勢感知模型;其次,根據(jù)態(tài)勢基本特性和需求,定義并獲取態(tài)勢相關(guān)要素;最后,采集要素數(shù)據(jù)信息,進行數(shù)據(jù)梳理和清洗后,通過數(shù)據(jù)方法分析進行態(tài)勢理解,進而對某個時間段內(nèi)的態(tài)勢發(fā)展進行預(yù)測。網(wǎng)絡(luò)安全態(tài)勢感知預(yù)測的主要目標是實現(xiàn)對網(wǎng)絡(luò)安全趨勢的短期預(yù)測。由于網(wǎng)絡(luò)的互動性和隨機性,這個系統(tǒng)是一個動態(tài)、實時的智能系統(tǒng),通常包括數(shù)據(jù)采集、安全態(tài)勢分析、安全態(tài)勢感知、安全態(tài)勢預(yù)測和判定等幾個部分,如圖2所示。
圖2 網(wǎng)絡(luò)安全態(tài)勢預(yù)測系統(tǒng)框架
基于隱馬爾可夫模型的網(wǎng)絡(luò)安全態(tài)勢系統(tǒng)主要由四大模塊組成。
·歷史安全信息資產(chǎn)庫。為了積累安全資料、加快查詢速度,建立該資產(chǎn)庫用于對已知安全信息特征碼及安全行為特征的存儲和查詢,并進一步學(xué)習(xí)添加新的規(guī)則。
·安全信息采集模塊。該模塊為信息入口,通過建立專用的采集方法,對安全信息進行挖掘,針對可能的內(nèi)容和行為進行捕捉。
·分析感知模塊。分析模塊主要針對采集模塊信息進行歷史判定,若為歷史發(fā)生過的態(tài)勢,則直接進入感知模塊;如果在資產(chǎn)庫里面不存在,移交安全態(tài)勢感知模塊對該信息進行抽象加工判定,加入資產(chǎn)庫。
·判定預(yù)測模塊。該模塊進一步對信息進行判斷,依據(jù)相關(guān)規(guī)則,如果為非安全事件,依據(jù)挖掘及分類技術(shù)算法進行判定,按正常信息事件處理;否則,通過隱馬爾可夫模型進行態(tài)勢預(yù)測,依據(jù)判定結(jié)果進行相關(guān)處理。
態(tài)勢感知模型是基于層次的感知模型,主要依據(jù)美國國防部聯(lián)合指揮實驗室 (joint directors of laboratories,JDL)給出的數(shù)據(jù)融合模型結(jié)合實際應(yīng)用建立的。態(tài)勢感知是以態(tài)勢分析為基礎(chǔ),依據(jù)態(tài)勢分析結(jié)果,對已經(jīng)發(fā)生過的和潛在要發(fā)生的安全事件進行感知。對于歷史上已經(jīng)發(fā)生過的安全事件,一方面有安全信息存留,因此產(chǎn)生安全態(tài)勢;另一方面,該安全事件處于萎縮狀態(tài),發(fā)展速度和關(guān)切影響已經(jīng)逐步衰落,其態(tài)勢呈現(xiàn)衰減回落狀態(tài)。該種態(tài)勢判斷只需記錄即可。圖3為典型的安全態(tài)勢感知模型[5]。
圖3 典型安全態(tài)勢感知模型
在該感知模型中,充分體現(xiàn)了人機交互狀態(tài)。整個態(tài)勢感知模型被分為了5個級別(階段)[4,5]。
·數(shù)據(jù)預(yù)處理:該級別為可選級別,主要用于前置應(yīng)用,對非規(guī)范化數(shù)據(jù)進行處理。在本文的模型中,對一些特殊非結(jié)構(gòu)化數(shù)據(jù)需要進行數(shù)據(jù)預(yù)處理。
· 事件提?。阂匦畔⒉杉笠?guī)范化和有序化,提取事件級別特性,抽象事件。
·態(tài)勢評估:是模型的重要組成部分,主要是對數(shù)據(jù)和事件進行態(tài)勢分析并形成分析報告,進而形成網(wǎng)絡(luò)綜合態(tài)勢圖,包括態(tài)勢分析和態(tài)勢感知。
·影響評估:是對未來結(jié)果的考量,通過將當前態(tài)勢映射到未來,對行為的影響進行預(yù)測評估,實現(xiàn)具體的預(yù)測結(jié)果。
·資源管理、過程控制與優(yōu)化:根據(jù)要素標準,對數(shù)據(jù)和事件進行規(guī)則化,對整個態(tài)勢發(fā)展過程進行實時監(jiān)控與評價。
網(wǎng)絡(luò)安全態(tài)勢具有隨機性和爆發(fā)性,常常與網(wǎng)絡(luò)熱點、網(wǎng)絡(luò)操作、網(wǎng)絡(luò)服務(wù)等相互綁定,通過欺詐、偽造、誘導(dǎo)等方式開展攻擊,以取得對未授權(quán)的計算機或網(wǎng)絡(luò)等資源的控制或竊取。
2.3.1 隱馬爾可夫模型
隱馬爾可夫模型是經(jīng)典的分析統(tǒng)計模型,用來描述一個含有隱含未知參數(shù)的馬爾可夫過程。隱馬爾可夫模型不能直接對對象進行觀察,但是能通過觀測向量序列確定隱含參數(shù)。通過隱馬爾可夫模型,可以觀察到每個觀測向量的概率密度分布表現(xiàn),經(jīng)過這個測量可以全面了解各個向量狀態(tài)。針對網(wǎng)絡(luò)安全態(tài)勢,參照馬爾可夫經(jīng)典模型,依據(jù)態(tài)勢特性,可以建立如下隱馬爾可夫模型[5,6]。
設(shè)H為隱馬爾可夫模型下的網(wǎng)絡(luò)安全態(tài)勢,則有:
其中,S為隱含狀態(tài),可定義為馬爾可夫模型中實際所隱含的狀態(tài)。即此狀態(tài)為不可直接觀測狀態(tài);O為可直接觀測狀態(tài),通常要與模型中的隱含狀態(tài)建立關(guān)聯(lián)。Γ為初始時刻t=1的概率矩陣;A為模型的隱含狀態(tài)轉(zhuǎn)移概率矩陣,Aij=P(Sj|Si),(1≤i,j≤N),表示在時間維度t時刻、網(wǎng)絡(luò)的安全態(tài)勢為Si的條件下,在時間維度t+1時刻網(wǎng)絡(luò)安全態(tài)勢狀態(tài)是Sj的概率。其中,B為可觀測狀態(tài)轉(zhuǎn)移概率矩陣,A、B兩種狀態(tài)相互關(guān)聯(lián),建立聯(lián)系。Bij=P(Oj|Sj),(1≤i≤M,1≤j≤N),N代表隱含狀態(tài)數(shù)目,M代表可觀測狀態(tài)數(shù)目,表示在時間維度為t的時刻、隱含網(wǎng)絡(luò)安全態(tài)勢狀態(tài)是Sj的條件下,觀察狀態(tài)為Oi的概率。
2.3.2 安全態(tài)勢算法
本文預(yù)測算法對隱馬爾可夫模型前向算法進行改進,同時結(jié)合最大熵模型[7,8],將信息安全內(nèi)容設(shè)為可見觀察序列,假定安全級別是不能夠直接被觀察的參數(shù),進行網(wǎng)絡(luò)安全態(tài)勢預(yù)測。
假設(shè)隱馬爾可夫模型的狀態(tài)空間為:S={Normal,Noise,Attack,Danger}。
可見觀察序列符號集:O={high,normal,low}。
在時間維度為t+1時刻觀察到態(tài)勢值為Ot+1。則有:
為了增加隱馬爾可夫模型估算精度,針對在有限知識范圍對未知狀態(tài)預(yù)測的情況,可采用最大熵模型和原理。選取符合已知假設(shè)條件但熵值最大的概率分布,即在已經(jīng)獲取的資產(chǎn)庫和采集的網(wǎng)絡(luò)信息當前態(tài)勢的知識庫基礎(chǔ)上,推斷滿足條件的合理分布,建立符合已知知識特性的不確定推斷。結(jié)合最大熵理論,定義網(wǎng)絡(luò)態(tài)勢特性方式表達為二值特征fi(x,y),其中,x為獲取信息值,y為期望值,E表述為最大熵算法;若fi對模型有用,則構(gòu)建一個能生成訓(xùn)練樣本(x,y)的約束模型。
從而最大熵算法提出一致性最大熵值。通過信息采集分析網(wǎng)絡(luò)信息安全態(tài)勢特性;通過系統(tǒng)態(tài)勢分析監(jiān)護進程對網(wǎng)絡(luò)內(nèi)容和進程進行監(jiān)控,抽取特征數(shù)據(jù)和特征進程動作;通過信息采集進行挖掘和聚類分析;通過關(guān)聯(lián)算法進行識別及動作規(guī)則化。安全判定與預(yù)測過程如圖4所示。
根據(jù)式(1),設(shè)ai∈A,bi∈B,Oi∈O,τ∈Γ,I為所有長度為T的狀態(tài)序列,I=(i1,i2,…,iT)。 則預(yù)測算法如下。
圖4 網(wǎng)絡(luò)安全態(tài)勢判定與預(yù)測
(1)初始值t=1,觀測為a1(i)=τibi(O1),其中i=1,2,…,N。由初始狀態(tài)概率矩陣,得出到達每個狀態(tài)的概率Pi,然后再由Pi乘以P(O1|Ii),得到由各個狀態(tài)產(chǎn)生觀測O1的概率。將計算出的結(jié)果放在一個N×T的二維數(shù)組M中,a1(i)為第一列的元素。
利用隱馬爾可夫模型,對安全態(tài)勢的概率進行計算分析,依據(jù)時間調(diào)用序列,在具體內(nèi)容上結(jié)合最大熵的算法模型提取最優(yōu)值,進行安全態(tài)勢的規(guī)則化和歸一化量化處理。為了增加判定準確度和判斷速度,在信息采集階段進行特征提取,建立規(guī)則化數(shù)據(jù),在安全態(tài)勢發(fā)生的初期對網(wǎng)絡(luò)攻擊進行捕捉,并獲得其特征,對應(yīng)調(diào)用態(tài)勢分析模塊和對比資產(chǎn)庫,并通過網(wǎng)絡(luò)數(shù)據(jù)行為特征和時間特征序列,開展特征性評判。隨著系統(tǒng)的不斷運行,系統(tǒng)通過態(tài)勢分析和感知,不斷提取新的安全態(tài)勢特征,逐步完善資產(chǎn)庫,提高模型自相似性、高概率、智能化。但是,由于資產(chǎn)庫規(guī)模及網(wǎng)絡(luò)規(guī)模的雙重影響,同時根據(jù)判不準定理[7],基于網(wǎng)絡(luò)的交互性及安全態(tài)勢不斷動態(tài)變化,基于隱馬爾可夫模型的判定概率會逐步提高,在初始時間,概率分析的條件不夠充足,需要不斷學(xué)習(xí)和訓(xùn)練。為了提高準確性,可以通過最大熵算法等,對內(nèi)容的一致性進行判定,并不斷優(yōu)化判定方法和預(yù)測方法,達到準確性比較高的監(jiān)測預(yù)警。
基于隱馬爾可夫模型的網(wǎng)絡(luò)安全態(tài)勢預(yù)測算法具有較好的性能,以獲取的網(wǎng)絡(luò)安全態(tài)勢樣本為基礎(chǔ),進行實驗運行測試表明,該預(yù)測算法可以有效判定和預(yù)測網(wǎng)絡(luò)安全態(tài)勢。尤其針對網(wǎng)絡(luò)相關(guān)內(nèi)容規(guī)則化后,可以大大提高檢測的速度和準確度。
本文根據(jù)網(wǎng)絡(luò)安全態(tài)勢特性,依據(jù)隱馬爾可夫模型,建立面向網(wǎng)絡(luò)內(nèi)容和網(wǎng)絡(luò)行為的實時、智能的網(wǎng)絡(luò)安全態(tài)勢預(yù)測模型。同時優(yōu)化判定和預(yù)測算法,建立資產(chǎn)庫。該模型在獲取當前網(wǎng)絡(luò)安全態(tài)勢信息基礎(chǔ)上,開展基于隱馬爾可夫模型的網(wǎng)絡(luò)安全態(tài)勢評估,根據(jù)概率統(tǒng)計原理,分析不同時間維度下不同攻擊下系統(tǒng)的威脅值。根據(jù)t時刻的網(wǎng)絡(luò)安全態(tài)勢計算出t+1時刻的態(tài)勢,同時結(jié)合最大熵算法,對態(tài)勢進行一致性判定,提高了預(yù)測準確率,對網(wǎng)絡(luò)安全態(tài)勢進行精準預(yù)測。通過實驗樣本的測試運行,進一步表明該方法具有自主學(xué)習(xí)及主動防御特征,有效地平衡了速度和準確度要求,能夠高效、實時地進行網(wǎng)絡(luò)安全態(tài)勢預(yù)測。
[1]中國互聯(lián)網(wǎng)協(xié)會,國家互聯(lián)網(wǎng)應(yīng)急中心.中國互聯(lián)網(wǎng)站發(fā)展狀況及其安全報告 (2015年)[EB/OL].[2015-03-20].http://www.cac.gov.cn/2015-03/20/c_1114714197.htm.
Internet Society of China,CNCERT/CC.The development status of Chinese website and safety report(2015) [EB/OL].[2015-03-20].http://www.cac.gov.cn/2015-03/20/c_1114714197.htm.
[2]國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心.2014年我國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全態(tài)勢報告[EB/OL].[2015-05-12].http://www.cert.org.cn/publish/main/upload/File/2014%20secirity%20situation%20 report.pdf.
The National Computer Network Emergency Response Technical Team/Coordination CenterofChina.2014 China internet network security situation report[EB/OL].[2015-05-12].http://www.cert.org.cn/publish/main/upload/File/2014%20secirity%20 situation%20report.pdf.
[3]黃同慶,莊毅.一種實時網(wǎng)絡(luò)安全態(tài)勢預(yù)測方法[J].小型微型計算機系統(tǒng),2014,35(2):303-306.
HUANG T Q,ZHUANG Y.An approach to real-time network security situation prediction[J].Journal of Chinese Computer Systems,2014,35(2):303-306.
[4]ARNES A,VALEUR F,VIGNA G,et al.Using hidden Markov modelstoevaluatetherisk ofintrusions [C]//The9th InternationalSymposium on RecentAdvancesin Intrusion Detection,September 20-22,2006,Hamburg,Germany.[S.l:s.n.],2006:145-164.
[5]葉蓬.網(wǎng)絡(luò)安全態(tài)勢感知在安全管理平臺中的應(yīng)用研究[J].信息網(wǎng)絡(luò)安全,2010(4):51-54.
YE P.Network security situation awareness in the role of security operations center[J].Network Information Security.2010(4):51-54.
[6]SNIDARO L,VISENTINI I,BRYAN K.Fusinguncertain knowledge and evidence for maritime situational awareness via Markov logicnetworks [J].Information Fusion,2015(21):159-172.
[7]何鴻君,羅莉,董黎明,等.廣義病毒的形式化定義及識別算法[J].計算機學(xué)報,2010,33(3):562-568.
HE H J,LUO L,DONG L M,et al.Formal definition of generalized virus and its identifying algorithm [J].Chinese Journal of Computers,2010,33(3):562-568.