[黃少忠]
網(wǎng)絡(luò)安全態(tài)勢感知是指在大規(guī)模網(wǎng)絡(luò)環(huán)境中,通過采集網(wǎng)絡(luò)安全數(shù)據(jù)的指標(biāo)并進(jìn)行特征提取后,借助特征對(duì)當(dāng)前和未來可能發(fā)生的網(wǎng)絡(luò)安全事件進(jìn)行預(yù)警,從而實(shí)現(xiàn)網(wǎng)絡(luò)安全系統(tǒng)的主動(dòng)防御[1]。隨著網(wǎng)絡(luò)的發(fā)展,攻擊手段日益變化且層出不窮,提前感知網(wǎng)絡(luò)安全態(tài)勢與威脅,可幫助管理人員提前部署防御措施,增強(qiáng)網(wǎng)絡(luò)的自衛(wèi)能力。然而,由于網(wǎng)絡(luò)安全數(shù)據(jù)呈現(xiàn)大規(guī)模、多特征、多源異構(gòu)的特點(diǎn),給現(xiàn)有的網(wǎng)絡(luò)安全態(tài)勢預(yù)測增加了巨大的挑戰(zhàn)[2]。早期的網(wǎng)絡(luò)安全態(tài)勢采取數(shù)理統(tǒng)計(jì)的方法[3~6]進(jìn)行評(píng)估與預(yù)測,該方法綜合考慮影響網(wǎng)絡(luò)安全的因素,通過構(gòu)建評(píng)估函數(shù)實(shí)現(xiàn)網(wǎng)絡(luò)安全態(tài)勢的評(píng)估。由于網(wǎng)絡(luò)攻擊手段具有復(fù)雜性、多特征、動(dòng)態(tài)變化的特點(diǎn),傳統(tǒng)的數(shù)理統(tǒng)計(jì)方法很難應(yīng)對(duì)動(dòng)態(tài)多變的網(wǎng)絡(luò)攻擊手段,進(jìn)而無法保障網(wǎng)絡(luò)安全態(tài)勢評(píng)估的精度。因此,學(xué)者們開始采用知識(shí)推理的手段實(shí)現(xiàn)網(wǎng)絡(luò)安全態(tài)勢的評(píng)估,該方法基于先驗(yàn)知識(shí)構(gòu)建評(píng)估模型[7~10],然后結(jié)合后驗(yàn)知識(shí)不斷修正網(wǎng)絡(luò)安全態(tài)勢評(píng)估模型,從而實(shí)現(xiàn)網(wǎng)絡(luò)安全態(tài)勢的動(dòng)態(tài)評(píng)估。但是,知識(shí)推理的手段過于依賴先驗(yàn)知識(shí),從而導(dǎo)致模型的訓(xùn)練和更新效率過于緩慢,不利于提高算法效率。如今,以卷積神經(jīng)網(wǎng)絡(luò)[11,12]、自動(dòng)編碼器[13~15]為代表的機(jī)器學(xué)習(xí)算法的興起,為網(wǎng)絡(luò)安全態(tài)勢評(píng)估的精度和效率提供了一些新的思路。然而,典型的機(jī)器學(xué)習(xí)算法并沒有充分考慮攻擊序列數(shù)據(jù)中存在的時(shí)序性,導(dǎo)致模型未能充分學(xué)習(xí)數(shù)據(jù)序列之間的表征關(guān)系,因此無法有效應(yīng)對(duì)欺騙攻擊等網(wǎng)絡(luò)攻擊行為。基于此,本文提出基于機(jī)器學(xué)習(xí)的安全態(tài)勢預(yù)測方法,該方法結(jié)合數(shù)據(jù)時(shí)序性對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則學(xué)習(xí)并形成數(shù)據(jù)間的時(shí)序性關(guān)聯(lián),結(jié)合注意力機(jī)制挖掘攻擊序列數(shù)據(jù)的時(shí)空特征,實(shí)現(xiàn)網(wǎng)絡(luò)安全態(tài)勢預(yù)測。
機(jī)器學(xué)習(xí)是現(xiàn)代計(jì)算領(lǐng)域的一個(gè)重要領(lǐng)域,為了使機(jī)器智能化,機(jī)器學(xué)習(xí)開始引入“人工智能”去學(xué)習(xí)和解決問題[16]。機(jī)器學(xué)習(xí)的算法大約分為以下幾種:
(1)梯度下降算法
梯度下降算法采用迭代的方式通過計(jì)算函數(shù)的偏導(dǎo)(或稱為函數(shù)的斜率、梯度)實(shí)現(xiàn)函數(shù)目標(biāo)最小化。在每次迭代過程中,梯度下降算法通過學(xué)習(xí)率(步長)來減少系數(shù)在迭代過程中的變動(dòng)值,以便經(jīng)過多次迭代后達(dá)到函數(shù)的最小值。典型的梯度下降算法包括:隨機(jī)梯度下降法(SGD,Stochastic Gradient Descent)、批量梯度下降法(BGD,Batch Gradient Descent)和小批量梯度下降(MBGD,Mini-Batch Gradient Descent)。
(2)線性回歸算法
線性回歸算法作為監(jiān)督機(jī)器學(xué)習(xí)算法的一種,利用變量之間的線性關(guān)系進(jìn)行建模并實(shí)現(xiàn)預(yù)測。然而,由于采集手段的缺乏,線性回歸模型往往很難擬合現(xiàn)實(shí)世界中各種變量的關(guān)系,更何況在現(xiàn)實(shí)世界中的關(guān)聯(lián)關(guān)系往往都是非線性的,因此線性回歸算法無法很好處理復(fù)雜的變量關(guān)系。
(3)多元回歸分析算法
為了解決線性回歸算法的局限性,提出了多元回歸分析算法認(rèn)為現(xiàn)實(shí)世界中存在多個(gè)獨(dú)立變量和一個(gè)輸出變量之間存在多對(duì)一的關(guān)系,因此在輸入多個(gè)獨(dú)立變量之后,能夠更好描述輸入變量和輸出變量之間的線性關(guān)系。
(4)邏輯回歸算法
邏輯回歸作為非線性回歸的代表,其通常用來處理分類問題。邏輯回歸不僅可以用于處理二分類問題,還可以用于處理多分類問題,通常來說,邏輯回歸不受數(shù)據(jù)中小噪音和多重共線性的應(yīng)先給,因此通常用來預(yù)測疾病的風(fēng)險(xiǎn)。然而,邏輯回歸算法不擅長解決非線性擬合問題,容易出現(xiàn)過擬合現(xiàn)象。
(5)決策樹
為了解決非線性擬合的問題,一種有監(jiān)督的機(jī)器學(xué)習(xí)方法被提出,這就是決策樹。決策樹基于一定參數(shù)連續(xù)分割數(shù)據(jù)來解決分類和回歸問題并具有高效性。然而,決策樹也有自身的局限,那就是容易出現(xiàn)過擬合和模型參數(shù)不穩(wěn)定的現(xiàn)象。
(6)支持向量機(jī)
支持向量機(jī)采用超平面作為決策邊界來處理非線性擬合的問題。由于支持向量機(jī)采用了核函數(shù)泛化的方法來處理數(shù)據(jù)分類的問題,因此其很少存在過擬合的現(xiàn)象。然而,支持向量機(jī)在大規(guī)模數(shù)據(jù)分類模型構(gòu)建時(shí)容易出現(xiàn)效率較低的現(xiàn)象,并很難找到合適的核函數(shù)。
(7)貝葉斯學(xué)習(xí)
貝葉斯學(xué)習(xí)基于先驗(yàn)概率分布去訓(xùn)練一個(gè)初始模型后,借助觀測值更新得到后驗(yàn)分布,再結(jié)合后驗(yàn)分布去更新初始模型以避免模型出現(xiàn)過擬合的現(xiàn)象。然而,貝葉斯模型在學(xué)習(xí)過程中假設(shè)先驗(yàn)概率分布具有獨(dú)立性,但是在現(xiàn)實(shí)世界中,所有的輸入特征彼此獨(dú)立的假設(shè)是很難成立的。
(8)K近鄰算法
作為一種分類算法,K近鄰不需要假設(shè)分類數(shù)量,因此它通常稱為一種非參數(shù)分類模型。由于K近鄰的分類一般依賴樣本之間的距離,因此當(dāng)樣本存在多個(gè)特征維度時(shí),其計(jì)算復(fù)雜度往往較高。然而,K近鄰算法在分類過程中容易受到噪音和不相關(guān)因素的影響,所以其分類精度容易受到樣本數(shù)據(jù)質(zhì)量的影響。
(9)k-means算法
作為無監(jiān)督分類算法,k-means算法在處理大規(guī)模數(shù)據(jù)時(shí)展現(xiàn)了它的效率優(yōu)勢。然而,該算法需要事前定義分類數(shù)量和初始類簇中心點(diǎn),在大規(guī)模數(shù)據(jù)聚類過程中,每一次聚類的結(jié)果會(huì)存在不同程度的差異,因此無法確定最終的聚類結(jié)果。
(10)反向傳播算法
反向傳播算法通常用于深度學(xué)習(xí),其采用反向傳播與隨機(jī)梯度下降結(jié)合使用的方式來逼近神經(jīng)元的權(quán)重。該算法具有易于適應(yīng)場景和有效處理噪音數(shù)據(jù)的影響的特點(diǎn),但由于神經(jīng)元數(shù)量較多,導(dǎo)致該算法需要擬合的參數(shù)也是海量的,因此該算法訓(xùn)練時(shí)間通常較長。除此之外,反向傳播算法對(duì)每一個(gè)局部信息定義的權(quán)重是一樣的,因此無法針對(duì)關(guān)鍵的局部信息賦予更高的權(quán)重以便于提高分類過程中的效率。為了解決該問題,學(xué)者提出了注意力機(jī)制[17~18]。
注意力機(jī)制是2017年由A.Vaswani提出的,通過主動(dòng)捕捉輸入樣本的輸入和輸出之間的關(guān)聯(lián)關(guān)系,從而對(duì)不同的內(nèi)容分配不同的注意力權(quán)重矩陣。具體如圖1所示:
圖1 注意力機(jī)制
如圖1所示,輸入數(shù)據(jù)ai經(jīng)過注意力機(jī)制模型學(xué)習(xí)后輸出的結(jié)果為bi,bi是通過在多個(gè)時(shí)間序列學(xué)習(xí)中篩選出與其關(guān)聯(lián)性較大的信息進(jìn)行整合,具體的計(jì)算流程如下。
首先,初始化權(quán)重矩陣,并基于初始化的權(quán)重定義以下向量:
其中,Wq、Wk、Wv分別表示3個(gè)向量對(duì)應(yīng)的初始化權(quán)重矩陣。
然后結(jié)合每一對(duì)ai與bi對(duì)權(quán)重矩陣進(jìn)行調(diào)整,最后實(shí)現(xiàn)對(duì)不同的內(nèi)容分配不同的注意力權(quán)重矩陣。
由于告警數(shù)據(jù)來源于多個(gè)設(shè)備,因此它們?cè)诟婢瘯r(shí)間、告警間隔和告警類型上會(huì)有一定的偏差,并且存在很多字段缺失以及重復(fù)告警的問題。在對(duì)告警序列數(shù)據(jù)的時(shí)序性進(jìn)行關(guān)聯(lián)分析之前,本文先刪除缺失記錄和剔除重復(fù)報(bào)警數(shù)據(jù)后,再采用聚類分析進(jìn)一步剔除發(fā)生頻率較低和時(shí)間集中度較低的告警序列,因?yàn)榇祟愋偷母婢瘮?shù)據(jù)大多數(shù)是由于隨機(jī)因素干擾所引起的虛假告警;最后,采用關(guān)聯(lián)規(guī)則算法(如FP-tree)生成頻繁項(xiàng)集,實(shí)現(xiàn)告警序列的時(shí)序性關(guān)聯(lián)分析。具體的處理過程如圖2所示。
圖2 基于告警序列數(shù)據(jù)的時(shí)序性關(guān)聯(lián)分析流程圖
由于存在虛假攻擊等因素的影響,對(duì)攻擊序列頻繁項(xiàng)集進(jìn)行時(shí)空特征挖掘往往忽略時(shí)空特征不一致的問題,因此本文通過融合CNN和LSTM模型,結(jié)合注意力模型對(duì)攻擊序列頻繁項(xiàng)集的時(shí)空特征進(jìn)行融合,從而使得特征不僅具有空間表達(dá)能力和時(shí)間表達(dá)能力,還能保持同種攻擊類型所對(duì)應(yīng)的攻擊序列頻繁項(xiàng)集具有時(shí)空特征一致性,如圖3所示。
圖3 結(jié)合注意力機(jī)制挖掘攻擊序列的時(shí)空特征示意圖
首先,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Networks)實(shí)現(xiàn)空間特征C的挖掘,空間特征表示為1×n維:
其次,結(jié)合長短期記憶網(wǎng)絡(luò)(LSTM,Long Short-Term Memory)實(shí)現(xiàn)時(shí)間特征H挖掘,時(shí)間特征表示為n×m維:
再次,結(jié)合注意力機(jī)制,保持時(shí)空特征的一致性問題,注意力機(jī)制能夠在很大程度上解釋差別較大的攻擊序列頻繁項(xiàng)集有可能在時(shí)空特征的表達(dá)上是一樣的,因?yàn)樽⒁饬C(jī)制能夠通過對(duì)局部特征進(jìn)行有區(qū)別的賦值,所以針對(duì)虛假攻擊的攻擊序列,該方法往往忽略該序列的時(shí)間特征貢獻(xiàn)。因此,在注意力機(jī)制下,會(huì)出現(xiàn)差別較大的攻擊序列頻繁項(xiàng)集的時(shí)空表達(dá)具有一致性的現(xiàn)象。
通過計(jì)算獲取該序列在LSTM隱含層中的局部特征的權(quán)重賦值,并基于上述的權(quán)重獲得該序列的時(shí)間特征,時(shí)間特征表示為1×n維。
將公式(4)、公式(7)的空間特征和時(shí)間特征進(jìn)行拼接,得到時(shí)空特征為:
至此,引入注意力機(jī)制對(duì)時(shí)空特征表達(dá)進(jìn)行有機(jī)融合,得到融合后的時(shí)空特征f。
本實(shí)驗(yàn)采用仿真的方式構(gòu)建安全態(tài)勢仿真數(shù)據(jù),攻擊類型包括拒絕服務(wù)攻擊、中間人攻擊、SQL注入攻擊(分別用1、2、3表示)3種,為了增加安全態(tài)勢預(yù)測的難度,本實(shí)驗(yàn)在各類攻擊過程中都會(huì)隨機(jī)加入虛假攻擊的步驟,以便干擾網(wǎng)絡(luò)安全人員的判斷。經(jīng)過一系列的攻擊模擬,獲取攻擊數(shù)據(jù)有531條,正常數(shù)據(jù)有149 854條。為了檢驗(yàn)安全態(tài)勢預(yù)測的準(zhǔn)確率,本文將上述數(shù)據(jù)中的70%作為訓(xùn)練數(shù)據(jù)、30%作為測試數(shù)據(jù),測試數(shù)據(jù)中所得到的攻擊序列頻繁項(xiàng)集時(shí)空特征經(jīng)過支持向量機(jī)實(shí)現(xiàn)故障類型預(yù)測,安全人員基于當(dāng)前故障類型預(yù)測結(jié)果判斷當(dāng)前網(wǎng)絡(luò)的安全態(tài)勢預(yù)測。
為了驗(yàn)證本文算法的性能,采用3種方法進(jìn)行特征提取,將提取后的特征分別放入支持向量機(jī)中進(jìn)行網(wǎng)絡(luò)安全態(tài)勢預(yù)測,這3種方法分別為:本文的融合注意力機(jī)制的時(shí)空特征一致性提取方法、CNN特征提取方法以及LSTM特征提取方法。準(zhǔn)確性對(duì)比結(jié)果如圖4至圖6所示。
圖4 故障1的準(zhǔn)確預(yù)測情況對(duì)比
如圖4所示,仿真實(shí)驗(yàn)測試數(shù)據(jù)集里故障1的數(shù)量為57,3種方法基于告警序列頻繁項(xiàng)集的特征所預(yù)測到故障1的數(shù)量分別為44、16、37,準(zhǔn)確率分別為77.2%、28.1%和64.9%。
如圖5所示,仿真實(shí)驗(yàn)測試數(shù)據(jù)集里故障2的數(shù)量為47,3種方法基于告警序列頻繁項(xiàng)集的特征所預(yù)測到故障2的數(shù)量分別為33、15、22,準(zhǔn)確率分別為70.2%、31.9%和46.8%。
圖5 故障2的準(zhǔn)確預(yù)測情況對(duì)比
如圖6所示,仿真實(shí)驗(yàn)測試數(shù)據(jù)集里故障3的數(shù)量為54,三種方法基于告警序列頻繁項(xiàng)集的特征所預(yù)測到故障3的數(shù)量分別為40、20、21,準(zhǔn)確率分別為74.1%、37%和38.9%。
圖6 故障3的準(zhǔn)確預(yù)測情況對(duì)比
由此可知,本文方法相比其他兩種方法的故障預(yù)測準(zhǔn)確率高,這源于本文算法通過注意力機(jī)制對(duì)不同頻繁項(xiàng)集的對(duì)時(shí)空特征表達(dá)進(jìn)行有機(jī)融合,在融合過程中,能夠?qū)μ摷俟舻墓粜蛄械臅r(shí)間特征進(jìn)行有效過濾,因此形成了較高的預(yù)測準(zhǔn)確率。而在3種故障預(yù)測中,中間人攻擊預(yù)測準(zhǔn)確率較低,這可能源于中間人攻擊不像拒絕服務(wù)攻擊以及SQL注入攻擊那樣具有非常明確的攻擊步驟,這兩種攻擊往往有目的性地對(duì)目標(biāo)主機(jī)進(jìn)行一系列“滲透”動(dòng)作后才能完成攻擊目的。
本文提出一種基于機(jī)器學(xué)習(xí)的安全態(tài)勢預(yù)測方法,該方法針對(duì)現(xiàn)有算法對(duì)告警數(shù)據(jù)時(shí)空特征提取的不一致問題,在對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則學(xué)習(xí)并形成數(shù)據(jù)間時(shí)序性關(guān)聯(lián)的基礎(chǔ)上,采用注意力機(jī)制對(duì)告警序列頻繁項(xiàng)集的局部特征進(jìn)行有區(qū)別賦值,從而實(shí)現(xiàn)時(shí)空特征的有機(jī)融合。仿真結(jié)果表明,本文方法相較于傳統(tǒng)的算法更能有效對(duì)抗虛假攻擊,可以提升網(wǎng)絡(luò)安全態(tài)勢評(píng)估的準(zhǔn)確率,為網(wǎng)絡(luò)安全態(tài)勢評(píng)估提供參考。