張明明 劉 凱 李賢慧 許夢晗 顧穎程 張見豪 程環(huán)宇 王永利
1(國網江蘇省電力有限公司信息通信分公司 南京 210024)
2(江蘇瑞中數據股份有限公司 南京 210012)
3(國網電力科學研究院有限公司 南京 211106)
4(南京理工大學計算機科學與工程學院 南京 210094)
異常行為檢測是入侵檢測系統(tǒng)(intrusion detection system, IDS)的重要內容,負責監(jiān)控、分析和調查用戶在整個網絡環(huán)境中的行為.僅通過用戶名和密碼檢查和獲取用戶權限是不夠的,目前網絡攻擊和新出現的安全威脅正通過滲透網絡、影響服務器以及破壞企業(yè)和金融賬戶等手段而逐步增加.因此,需要開發(fā)有效的入侵檢測模型全面地觀察網絡活動,阻止惡意行為.
在過去10年中,各種研究文獻提出了不同類型的入侵檢測系統(tǒng).
在對行為進行定性時,可以將用戶的一般行為分解為子行為,并搜集分析子行為的證據,最終確定一個行為是惡意行為還是正常行為,利用惡意行為檢測方法可以在大量的正常行為中快速地區(qū)分出惡意行為.
Miao等人[1]提出了一種雙層行為表征技術,可用于提取基于API調用序列的判別行為模式.行為特征基于2層提取,低層分析敏感資源,高層分析活動.此外,他們提出了一種名為OC-SVM-Neg(one class-support vector machine-negative)的高級支持向量機,以有效利用可用的良性軟件樣本,然后利用共享最近鄰相似度(spiking neural network, SNN)方法計算所有實例間的差異.與本文提出的方法相比,OC-SVM-Neg算法在遇到新出現的惡意行為類型,如泛型和shellcode時就會無能為力.
Zhao等人[2]提出了一種基于軟件控制流構造特征的未知行為識別方法,該方法以長操作碼序列作為軟件特征,從不同的序列中捕獲操作碼序列,并使用向量空間模型分析屬性.隨后,應用數據挖掘算法從軟件特征中尋找分類規(guī)則,利用規(guī)則區(qū)分惡意樣本和正常樣本.該方法的主要缺點是針對惡意軟件的分類規(guī)則較混亂.
何紅艷等人[3]使用K-means聚類算法在真實流量數據集UNSW-NB15中提取典型數據,隨后在該數據集上分別使用9種不同策略的入侵檢測模型進行網絡入侵檢測實驗,分類精度高于其他機器學習算法,然而該方法在深度學習特征工程方面的性能有待提升.
為了改進入侵檢測性能,本文提出了一種基于觀察用戶行為的惡意檢測方法,設計出一種基于廣義回歸神經網絡(GRNN)的惡意行為檢測模型.系統(tǒng)將用戶行為轉換為可理解的格式,通過在NSL-KDD數據集上的惡意檢測實驗結果表明,該系統(tǒng)能夠對NSL-KDD數據集中的4種攻擊類型進行識別和分類.本文提出的方法可以應用于入侵檢測系統(tǒng)的安全監(jiān)控.
由于廣義回歸神經網絡(generalized regression neural networks, GRNN)可以通過由相似神經元組成的完全并行架構執(zhí)行訓練和預測,因此GRNN被稱為通用回歸模型,隨著訓練樣本向量的數量接近無窮大,GRNN接近真實回歸水平[4].因此本文引入廣義回歸神經網絡,提出一種基于廣義回歸神經網絡的惡意行為檢測模型GRNN-based IDS.
GRNN-based IDS模型框架如圖1所示,由數據預處理、惡意行為檢測識別2個階段組成.其中:數據預處理由網絡特征生成、特征約簡、特征歸一化、特征向量配置組成;惡意行為檢測識別由GRNN最優(yōu)化學習、GRNN訓練、GRNN平滑參數(σ)估計、惡意行為檢測識別模塊組成.GRNN-based IDS模型接收網絡包形成的特征向量,輸出網絡行為的類別.
數據預處理和特征提取模塊負責處理原始網絡數據的特征,獲取觀察結果并生成特征向量,特征向量是機器學習技術的合適輸入.
1) 網絡特征生成.在異常行為檢測和識別系統(tǒng)中,從原始網絡流量中創(chuàng)建相關且有價值的特征是最重要的問題之一.為了從網絡流量中收集這些特征,可以使用入口路由器、網關或交換機在目標節(jié)點收集網絡流,以收集相關數據包.可以使用各種收集工具提取網絡流量特征,如Netmate,BRO-IDS,Argus,Netflow,Tcptrace.
2) 特征約簡.網絡特征約簡在特征提取過程中起著重要作用,它能夠去除重復和冗余的特征.在收集網絡特征時,有一些輸入特征相互關聯,它們攜帶相似的信息.在IDS數據集中,2個有高度相關特征的特征列會使整個系統(tǒng)的性能下降.因此可以消除其中1個特征列,而不會明顯減少信息量.
3) 特征歸一化.這一步需要對特征值進行歸一化,并將其縮放到1個合適的區(qū)間.特征歸一化的主要優(yōu)點是在不丟失統(tǒng)計特性的情況下消除原始網絡實例的偏差.在應用的數據集中,由于真實的特征分布是未知的,因此使用統(tǒng)計特征歸一化技術,采用歸一化的特征向量訓練機器學習系統(tǒng).
統(tǒng)計歸一化:一種特征調用技術,對每個特征進行歸一化,去除其均值并將該特征的方差縮放為1.統(tǒng)計歸一化的定義為
(1)
(2)
統(tǒng)計歸一化并沒有將特征值轉化為[0,1],而是將99.9%的特征值轉換為[-3,3].
4) 特征向量配置.在機器學習中,特征向量以一種易于分析的方式表示對象的數值或符號特征(以下簡稱為特征).為了給所提出的神經網絡系統(tǒng)提供數據,需要對原始收集的數據進行人工分類并進行特征描述.為此,將收集到的數據分為正常行為和異常行為,所有的正常行為數據被歸為正常行為一類,而異常行為數據則被歸為不同類型的攻擊等異常行為一類.
從數據集NSL-KDD中收集了42個不同分類角度的特征,如流量特征、基本特征、內容特征、時間特征和附加特征等,這些特征暗含于不同類型的定性和定量數據中,包括38個整數特征和4個字符串特征.由于對人工神經網絡(ANN)有用的信息形式是1個包含數值數據的向量,因此必須將其他類型的數據轉換為1個整數,以便機器進行處理.
在所提取的特征向量中,協(xié)議類型的實例有各種類型的標稱數據,例如arp,esp,icmp,igmp,ospf,rtp,tcp,udp,udt,很容易為它們分配1個等價的數值.因此規(guī)定arp=1,esp=2,icmp=3,igmp=4,ospf=5,rtp=6,tcp=7,udp=8,udt=9,相似地,可以將其他類型的數據轉換為數值.
用戶特征向量包括42個特征,對于所有正常/異常的用戶都收集了相同數量的特征,為系統(tǒng)訓練提供足夠的樣本.
本模型中的GRNN利用單帶寬核心函數帶寬調整實現最優(yōu)學習.許多徑向基函數均等地放置在每個訓練向量位置,然后與任意輸出值相關聯.調整單個徑向基函數a的帶寬,使得MSE值最低,表示最優(yōu)學習[4].與Nadaraya和Watson的方程相似的GRNN方程的標準版本如式(3)所示:
(3)
其中xi表示第i類訓練輸入向量,yi表示與xi相關的輸出,σ表示神經網絡訓練期間選擇的單個學習或平滑參數,L表示訓練對(xi→yi)的數量.
如果將yi視為個體實值尺度,則式(3)表示Specht提出的GRNN.在這種情況下,將訓練向量(xi,yi)成對輸入網絡結構中.xi是輸入空間中的單個訓練向量,yi是所期望的比例的輸出.在GRNN體系結構中,fi(x)表示任意徑向基函數.式(4)利用式(3)定義的高斯徑向基函數fi(x)表示:
(4)
徑向基函數通常根據最小計算來選擇[4].GRNN可以簡單發(fā)展為多維輸出,并將其轉化為一種完全通用的映射回歸方法.GRNN采用多維輸出向量,通過正確定義輸出向量,其可用于時間序列分析或模式分類.例如,在K分類問題中,K類模式可以由下一個K指令定義(式(5)),或由向量輸出測試定義.如果網格輸出的網格單元產生了最高尺度,經過訓練,輸入向量x將被歸為第k類向量:
yi=[yi1,yi2,yi3,…,yik,…,yiK]T,
(5)
其中:對于k類向量xi,yik=1.0;對于其余的向量元素,yik=0.0.當使用1.0和0.0進行輸出訓練時,GRNN與其他概率神經網絡緊密匹配進行模式分類.
假設給定1組測試樣本向量((xq,yqk)|q=1,2,…,NUM,k=1,2,…,K),使其獨立于訓練樣本向量((xi,yik)|i=1,2,…,L,k=1,2,…,K).對于輸出節(jié)點多于1個的網絡,其總均方誤差(MSE)的估計由式(6)定義:
(6)
輸出誤差方差有3種類型,用MSE表示.Eint等于插值誤差(函數映射誤差),Equant等于yik量化產生的誤差,Enoise等于輸出處殘留的隨機噪聲誤差.輸出總誤差Etotal是這些誤差的總和,即Etotal=Eint+Equant+Enoise.如果值yik具有無限精度,則插值誤差是訓練向量數量L的函數.因此如果L足夠大,則Eint可以被忽略.一旦yi被量化,為了實際目的,量化誤差將趨向于占主導地位.
根據本文提出的基于GRNN技術的數學特性,利用該方法檢測正常模式下的惡意實例對所檢測異常的類型進行分類.為此,從NSL-KDD數據集中提取訓練數據集和獨立測試數據集,通過選擇單一平滑參數σ,即共同球面或徑向基函數核帶寬,對式(4)進行訓練和優(yōu)化.在許多問題中,σ與輸入模式的誤差或噪聲分布密切相關.然而,對于非線性問題,根據噪聲分布計算σ過于復雜.由于σ和MSE之間的關系通常是平穩(wěn)的,并且有一個明顯的最小MSE截面,因此利用遞歸拋物線曲線擬合的收斂優(yōu)化算法也可以很快求出σ.
使用GRNN算法檢測惡意行為,需要使用訓練數據集對網絡進行訓練,GRNN經過訓練后,已具備對測試數據集中的每個輸入樣本進行檢測和進一步分類的能力.為了訓練GRNN網絡,輸入的權值是訓練數據集中的特征向量.在GRNN網絡中,訓練樣本的數量等于隱藏神經元的數量,輸出權重為2類惡意行為檢測的結果和4類惡意行為識別的結果.然而,當訓練樣本數量非常大時,訓練過程往往效率不高且誤報率較高.在這種情況下,降維技術可以減少訓練數據集中的特征數量.
在算法1中,引入一種基于誤差的算法對GRNN進行增強,這是一種有效的降維技術.在訓練GRNN之前,根據預測誤差來判斷是否需要將某個輸入特征納入訓練階段,當不包括該輸入特征的預測誤差超過一定的水平,那么GRNN就需要納入該輸入特征進行訓練.
算法1.GRNN訓練算法.
輸入:歸一化訓練數據集Strain(用于訓練GRNN)、測試數據集Stest(用于測試).
① 利用Strain中的所有特征對GRNN網絡的輸入層進行訓練;
② fori≤ifinaldo
③ 用式(4)計算輸入i的GRNN(yi)的輸出;
④ 利用式(6)計算MSE誤差;
⑤ ifMSE≥閾值 then
⑥ 利用輸入特征i訓練GRNN;
⑦ else 不用輸入特征i訓練GRNN并忽略它;
⑧ endif
⑨ endfor
優(yōu)化σ是GRNN算法的一個重要問題,而σ是GRNN結構中唯一的自由參數,因此優(yōu)化σ可以提高GRNN算法的性能和輸出精度.由于σ沒有最優(yōu)解析解,可以采用數值方法來解決這個問題.為此,首先從Strain中隨機選擇部分數據集并剔除,然后使用簡化的數據集Sreduced訓練GRNN網絡,并計算輸出.隨后,計算GRNN輸出和Sreduced之間的MSE誤差.
對不同的σ值重復這個過程,并根據最小的MSE誤差之和確定最佳的平滑參數(σ).算法2解釋了整個計算過程:
算法2.計算平滑參數σ算法.
輸入:初始化參數(σ)和矢量[σlow,σavg,σup].
① fori≤ifinaldo
② forj≤jfinaldo
③ 隨機選擇一部分訓練數據集從Strain中剔除;
④ 使用新數據集訓練GRNN網絡
(Sreduced);
⑤ 使用式(4)計算Sreduced的輸出(yj);
⑥ 利用式(6)計算yj與Sreduced之間的
MSEj誤差;
⑦ endfor
⑧ 計算MSE誤差的總和;
⑨ 根據最小均方誤差之和計算參數σ;
⑩ endfor
當惡意檢測系統(tǒng)利用NSL-KDD數據集檢測出輸入樣本與系統(tǒng)訓練信息之間存在相似性時,訪問用戶將被安全管理捕獲.惡意檢測模型將異常行為作為一個二元問題進行判斷.表1示出了NSL-KDD數據集中的攻擊類型和相關子類別攻擊:
表1 NSL-KDD數據集的屬性
在異常行為檢測之后,異常類型就成為一個新問題,需要確定以特征向量的形式自動記錄的惡意行為在多大程度上可以被正確歸類為屬于各種類型的攻擊.這個問題涉及到對不同異常行為的識別和分類,關注的是攻擊類型.
在本節(jié)中,將使用GRNN技術解釋如何根據攻擊在NSL-KDD數據集中的分布情況,將異常行為分類為不同類型的攻擊.識別部分是一個多類分類問題,輸入的特征向量被歸類為NSL-KDD數據集中的4種攻擊之一.識別和分類原理在前面闡述的訓練階段獲得,本文提出的GRNN網絡在訓練期間使用訓練數據集中的實例進行學習.最終,系統(tǒng)能夠對異常行為的潛在特征有較強的認識.圖2示出如何將惡意行為識別系統(tǒng)的功能進行合并,以及如何對異常行為或不同類型的攻擊進行分類.算法3解釋了如何將NSL-KDD數據集中不同類型的惡意實例分類為相應的攻擊.包括DoS攻擊、R2L攻擊、U2R攻擊和探針攻擊等主要攻擊類型.
圖2 基于GRNN-based IDSd的NSL-KDD數據集惡意行為識別說明
算法3.利用NSK-KDD數據集進行惡意行為檢測和識別的GRNN算法.
輸入:從NSK-KDD數據集中提取的標準化訓練數據集Strain和測試數據集Stest;
輸出:識別行為的類型.
① 基于算法1,使用Strain中的所有數據訓練GRNN網絡;
② 加載Stest中的所有特征向量;
③ 根據GRNN算法的輸出,編寫獲勝的神經元;
④ ifG1取勝 then
⑤ 被訪問用戶的行為很正常;
⑥ else if 從G2到G5的任意神經元取勝 then
⑦ 被訪問的用戶行為是惡意的;
⑧ ifG2取勝 then
⑨ 被訪問用戶的行為是DoS;
⑩ else ifG3取勝 then
為了評估本文提出的技術在檢測和識別用戶惡意行為方面的有效性和效率,在NSL-KDD數據集上實現了本文提出的方法.NSL-KDD數據集是目前最完備的網絡入侵檢測數據集,包含目前網絡中的4種惡意數據和正常數據,廣泛用于評估網絡異常檢測系統(tǒng).
采用NSL-KDD數據集評估本文方法的性能,該基準數據集由麻省理工學院林肯實驗室開發(fā),在美國軍方的空軍局域網環(huán)境中創(chuàng)建了1個包含大量正常和惡意樣本的模擬.NSL-KDD數據集有42種特征向量,包括連接持續(xù)時長、連接協(xié)議、映射到服務的DST端口等[5].
基于機器學習技術方法的性能通過計算混淆矩陣評估決策引擎的性能和有效性.
真陽性TP、真陰性TN、假陰性FN和假陽性FP是常用的評估元素,常見評估指標如假陽性率FPR、真陽性率TPR、精度、召回率和F-度量.在異常檢測場景中,使用這些術語生成以下惡意行為評估指標:
1) 混淆矩陣.比較預測的類標簽與實際的類標簽.對角線單元格(TNs和TPs)代表正確的預測類,而FNs和FPs在左右2側.混淆矩陣的大小取決于預定義的類的數量.IDS的混淆矩陣可以是二元檢測矩陣,對正常的惡意實例進行分類,或通過多類分類識別網絡攻擊的類型.
2) 真陽性率TPR.也稱為召回率,是在測試數據集中正確檢測到的惡意觀測值占惡意觀測值總數的比例.計算方法如式(7)所示:
(7)
3) 真陰性率TNR.也稱為特異性,是在測試數據集中檢測到的惡意觀察錯誤占正常觀測值的比例.計算方法如式(8)所示:
(8)
4) 假陽性率FPR.是被錯誤檢測為正常的惡意觀察占測試數據集中正常觀察總數的比例.計算方法如式(9)所示:
(9)
5) 假陰性率FNR.是被錯誤檢測為惡意的正常觀測值與測試數據集中正常觀測值總數的比例.計算方法如式(10)所示:
(10)
6) 精度.是正確檢測到的惡意觀測的數據占測試數據集中檢測到的觀測總數的比例.計算方法如式(11)所示:
(11)
7)F-度量.混合了準確率和召回率的屬性,是這2個指標的調和平均值.計算方法如式(12)所示:
(12)
當問題包含不平衡的類或目標值時,F-度量是異常檢測的有效度量.
采用異常檢測系統(tǒng)和IDS技術,可以評估這些檢測惡意觀察方法的精確性.實現100%DR和0%FPR的理想檢測結果表明,所有惡意活動都能夠被正確識別.然而,由于流量包的復雜性、當代網絡系統(tǒng)的大規(guī)模和高速度,這種理想的檢測系統(tǒng)在實時網絡流量環(huán)境中是很難實現的.當設計的系統(tǒng)以高FPR和FNR為代價時,保持靈敏度就變得更重要;當系統(tǒng)的準確性值[6]很低時,保持特異性(TNR)就更重要.
關于評估標準和本文方法在識別正常和惡意用戶行為方面的性能,本文從以下2個方面進行考察和研究:
1) RQ1(檢測).GRNN技術能在多大程度上檢測到NSL-KDD數據集中用戶的惡意行為.
2) RQ2(識別和分類).以特征向量的形式自動記錄的惡意行為,可以在多大程度上正確分類為屬于NSL-KDD數據集中的各種類型的攻擊.
RQ1解決了檢測惡意行為與正常行為的問題.安全級別的第1個重點是當前觀察的實體是否為正常用戶.在此級別上,管理員可以檢測到異常或觀察部分異常用戶,并對其采取行動.
RQ2是指對NSL-KDD數據集中不同異常行為的識別和分類.因此在這個階段,一旦惡意行為被識別出來,將根據表1中描述的攻擊類型對異常的類型進行分類.
在NSL-KDD數據集上進行實驗,以真陽性率TPR、假陽性率FPR、精度、召回率和F-度量為評價指標,評估GRNN技術在NSL-KDD數據集上的性能和有效性.
關于RQ1的評價,需要考慮正常行為和惡意行為這2種類型.因此,為了訓練GRNN模型,使用了1個包含4000個樣本的數據集,其中包括2000個正常樣本和2000個惡意樣本.為了使用本文所提出的GRNN技術來評估獲得的模型,通過隨機選擇1000個惡意模式和1000個正常模式,生成1個包含2000個模式的測試數據集.表2所示的混淆矩陣表明分類結果是有效的.
表2 在NSL-KDD數據集中使用GRNN的RQ1的混淆矩陣
使用NSL-KDD數據集的基于GRNN技術的RQ1的性能測量如表3所示:
表3 在NSL-KDD數據集中使用GRNN的RQ1的性能度量 %
為了評估RQ2,排除了正常的樣本,重點關注已被識別為網絡攻擊的惡意模式.實驗的目標是評估文本所提出的GRNN技術在給定特征向量的情況下對4種不同類型的攻擊進行分類的能力.
本文從NSL-KDD數據集中提取2000個惡意模式作為評估GRNN技術的訓練集.隨后,來自NSL-KDD數據集的400個惡意行為被視為測試集.
表4所示為在NSL-KDD數據集中使用GRNN獲得的所有攻擊的混淆矩陣,表5所示為在NSL-KDD數據集中使用GRNN技術的相應性能度量.從混淆矩陣可以清楚地看出,本文方法能夠在NSL-KDD 數據集中以較高性能識別不同類型的攻擊.
表4 在NSL-KDD數據集中使用GRNN的RQ2的混淆矩陣 %
表5 在NSL-KDD數據集中使用GRNN的RQ2的性能度量 %
在本節(jié)中,將本文技術與最先進的網絡惡意行為檢測技術進行了性能比較.比較研究包括多個方面:本文技術是只針對特定攻擊還是針對多種攻擊行為;本文技術僅具有檢測惡意實例的能力還是具有對異常類型進行分類的能力;本文技術在檢出率DR、誤報率FAR、精度和F-度量等方面的性能.
1) 技術檢測特定攻擊的能力比較.
在近10年的研究中,許多技術只能檢測某些特定的攻擊,而不能檢測其他類型的惡意行為.如:文獻[7-8]提出的技術只適用于檢測DoS攻擊,而不具備檢測其他攻擊的能力;文獻[9]的方法只能檢測勒索軟件;文獻[10]提出的方法只能檢測僵尸網絡.當檢測技術僅使用于一種特定類型的異常行為時對于安全系統(tǒng)來說是一個很大的弱點.
本文提出的GRNN技術能夠檢測到多種惡意行為.此外,關于檢測階段的其他性能指標,表6示出了本文方法在多重惡意行為檢測方面的優(yōu)越性.
表6 現有檢測技術在各方面的比較結果 %
2) 現有檢測技術在惡意分類方面的能力比較.
本節(jié)比較了惡意行為檢測技術的能力,包括這些技術是否只檢測惡意行為,還是能夠識別惡意行為的類型.
在本文方法中,GRNN技術能夠識別出NSL-KDD數據集中的攻擊行為,并對異常類型進行分類.上述技術依賴于通過估計正常和異常實例之間的相關性進而獲得接近度,而間諜攻擊等幾種惡意行為會偽裝成正常行為,它們會干擾正常樣本的檢測并降低檢測引擎的準確性.FSVM方法基于規(guī)則學習的概念,從正常和惡意觀察中學習.在這種方法中,系統(tǒng)總是需要大量的觀察來準確理解正常和異常模式之間的差異,而這在實時網絡流量中是難以實現的.通過對這些方法的評估結果表明,它們計算出的DoS和Probe攻擊檢測率高于使用本文方法實現的檢測率,但對于其他類型的攻擊則不然.
表6示出了現有檢測技術與應用的評價指標,通過對召回率、精度和F-度量等方面進行比較,本文方法相比其他方法能夠更有效地區(qū)分正常行為和惡意行為.
本文提出了一種新的基于廣義回歸神經網絡GRNN的入侵檢測方法,可以有效檢測惡意實例和正常實例.相比其他異常檢測和識別方法,通過在召回率、精度和F-度量等方面進行比較,本文方法能夠更有效地區(qū)分正常行為和惡意行為.
廣義回歸神經網絡GRNN是一個具有高度并行結構的傳遞學習算法.使用這種技術能夠識別用戶的行為并將其分類為正常活動或各類攻擊.實驗結果表明,即使在多維測量空間中使用稀疏數據,該算法也能提供從一個觀測值到另一個觀測值的平滑過渡.神經網絡策略遵循貝葉斯參數估計技術,本質上是一種特殊的神經網絡結構,適用于存在噪聲的數據實例.GRNN的網絡中心是由訓練數據向量決定的,而不是最適合優(yōu)化的人工中心,這賦予了網絡的穩(wěn)定性,并確保了它不會被過度訓練,這是與其他方法的最大區(qū)別.下一步工作擬改進GRNN-based IDS針對大數據集預測速度慢的問題.