徐建斌,陳旻瑞
(江西省交通監(jiān)控指揮中心,江西 南昌 330036)
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,多樣化的網(wǎng)絡(luò)攻擊手段威脅著網(wǎng)絡(luò)安全,交通運輸作為生活中必不可少的部分,交通網(wǎng)絡(luò)攻擊嚴重影響日常生活。目前,眾多學者深入研究了交通網(wǎng)絡(luò)安全,文獻[1]研究了城市軌道交通云平臺網(wǎng)絡(luò)安全防護平臺方案,通過分析城市軌道交通網(wǎng)絡(luò)安全現(xiàn)狀及國家網(wǎng)絡(luò)安全政策要求,提出基于網(wǎng)絡(luò)安全等級保護2.0的基本要求,構(gòu)建城軌云網(wǎng)絡(luò)安全防護平臺,根據(jù)“一個中心”管理下的“三重保護”體系框架進行設(shè)計,構(gòu)建安全機制和策略,形成定級系統(tǒng)的安全保護環(huán)境。但是該方法對網(wǎng)絡(luò)攻擊邏輯分析不夠深入,導致攻擊識別準確率低;文獻[2] 研究了符合等級保護三級要求的城市軌道交通綜合監(jiān)控系統(tǒng)信息安全,根據(jù)國家標準有關(guān)等保的要求,分析了目前ISCS信息安全現(xiàn)狀和存在的問題,圍繞“一個中心、三重防護”要求,提出了ISCS信息安全的設(shè)計方案,并從ISCS網(wǎng)絡(luò)安全架構(gòu)、信息安全功能設(shè)置等方面給出了實施建議,但是該方法的針對多樣化的攻擊方式,識別的準確率低。針對上述問題,提出了基于聚類算法的交通網(wǎng)絡(luò)攻擊識別方法。
K-means聚類算法[3]是常用的聚類算法技術(shù),其是一種改進的聚類算法中的劃分方法,并且以特征空間的距離作為測量相似性的標準。通過測算特征距離計算兩個數(shù)據(jù)樣本之間的相似性,間距越短代表兩個數(shù)據(jù)差異越小,間距越長代表兩個數(shù)據(jù)差異越大。計算相似性度量使用的函數(shù),需要滿足兩個數(shù)據(jù)對象間的距離大于等于0且互為對稱等條件。閔可夫斯基距離(Minkowski Distance)度量是常見的相似性度量計算方法:
式中,mx與ym代表兩個數(shù)據(jù)對象;dxy代表兩個數(shù)據(jù)對象之間距離相似性;k為常數(shù),當k=1時,公式(1)代表絕對距離;當k=2時,公式(1)代表歐幾里得距離,又稱歐氏距離,該距離是目前聚類分析[4]中應用最多的距離。在聚類算法計算中,使用歐氏距離算得的結(jié)果不會受到特征空間平移和旋轉(zhuǎn)的影響。
網(wǎng)絡(luò)攻擊數(shù)據(jù)不平衡是網(wǎng)絡(luò)攻擊識別中經(jīng)常面臨的問題,不均衡的攻擊數(shù)據(jù)集會影響識別的準確率。過采樣指合成少量類樣本的一種方法,合理的采樣方式會提高合成偽樣本的適用性、降低網(wǎng)絡(luò)攻擊識別的錯誤率。該文基于Smote算法進行優(yōu)化后,得到了Keans-Smote過采樣算法,平衡化處理網(wǎng)絡(luò)攻擊數(shù)據(jù)。Keans-Smote算法的類間離散度較低、數(shù)據(jù)對象較多時生成偽樣本較少、偽樣本的分布形式與原始樣本差異性較小以及保證了偽樣本合理性,并使其在分類邊界內(nèi)。使用Keans-Smote算法處理數(shù)據(jù),生成的偽樣本與真實樣本相似度更高,在網(wǎng)絡(luò)攻擊識別模塊中,算法處理數(shù)據(jù)的適用性更強。Keans-Smote算法基本原理圖如圖1所示:
圖1 Keans-Smote算法基本流程圖
首先利用Keans-Smote算法在少量類樣本內(nèi)計算出聚類中心數(shù)據(jù),參考聚類中心數(shù)據(jù)來劃分聚類內(nèi)的簇;然后選擇采樣簇,通過單個簇與平均簇的密度比,計算過采樣簇的比重,比重影響偽樣本的生成數(shù)量,簇的密度公式如下式所示:
式中,Mc——簇內(nèi)少量類樣本數(shù)據(jù);AMDc——計算少量類樣本平均距離。根據(jù)采樣簇的比重,進行濾波操作,進一步獲得需要過采樣的簇,并執(zhí)行過采樣操作,直到所有參與采樣的簇中全部偽樣本符合要求,結(jié)束操作。
利用Keans-Smote算法采樣操作后,考慮到操作過程中遇到數(shù)據(jù)缺失等問題,該次實驗使用平均值法平衡化處理攻擊數(shù)據(jù)。首先,通過隨機排列組合將小樣本的參數(shù)構(gòu)建成大樣本的網(wǎng)絡(luò)攻擊數(shù)據(jù)集,然后計算多分類數(shù)據(jù)的不平衡率、采樣次數(shù)與偽樣本數(shù)量,利用過采樣算法生成攻擊數(shù)據(jù)的偽樣本,隨機混合偽樣本與原始數(shù)據(jù),獲得數(shù)量平衡的網(wǎng)絡(luò)攻擊數(shù)據(jù)樣本集。經(jīng)過平衡化處理的網(wǎng)絡(luò)攻擊數(shù)據(jù)用于最終的實驗測試階段。
隨著互聯(lián)網(wǎng)攻擊頻率的增長,流量攻擊成為互聯(lián)網(wǎng)攻擊的主要方式,以前通過系統(tǒng)Bug攻擊主機的方式已經(jīng)逐步被流量攻擊取代,因此需要分析流量攻擊。源IP、目的IP、各種端口號以及協(xié)議號的集合定義為流,而流中的報文數(shù)據(jù)就是流頭部。流頭部是識別網(wǎng)絡(luò)受到流攻擊的重要模塊,如向目標廣播地址發(fā)送icmp-echorequest報文時,這就是Smurf攻擊,因為Smurf攻擊數(shù)據(jù)流是偽造的源地址數(shù)據(jù)。當攻擊數(shù)據(jù)流的字節(jié)大時,成為Ping of Death 攻擊。當傳輸層控制協(xié)議為TCP與UDP時,當攻擊流的源IP與目的IP都相同時且源端口與目的端口也相同,則攻擊是LAND attack;若攻擊流的源端口和目的端口都是通過UDO回射客戶服務(wù)器,那么該次攻擊就是Ping攻擊,與此同時,如果假設(shè)目的地址都是廣播地址,那么該次攻擊就是Fraggle攻擊。當識別模塊在各應用協(xié)議處的流頭部識別出很大的字節(jié)數(shù)與數(shù)據(jù)包個數(shù)時,此攻擊為SYNC Flooding攻擊,其中字節(jié)數(shù)與數(shù)據(jù)包個數(shù)可以利用提前設(shè)置的閾值判定。
當交通系統(tǒng)受到網(wǎng)絡(luò)攻擊后,因受到空間分布異常的影響,識別方法無法準確劃分攻擊樣本,因此,為了實現(xiàn)此類樣本的精準劃分,通過焦點損失函數(shù)改進Lightgbm算法,提升網(wǎng)絡(luò)攻擊識別模型的數(shù)據(jù)分類能力。原始Lightgbm損失函數(shù)如公式(3)所示,焦點損失函數(shù)優(yōu)化后如公式(4)所示:
式中,n——第n棵決策樹;M——攻擊樣本類別的參數(shù);qe——預測攻擊樣本g為e的概率;An-1(xg;Bn-1)——在Bn-1條件下,第n?1棵決策樹模型預測攻擊樣本xg的數(shù)據(jù);Bn-1——n?1棵決策樹的集合;L[yg,An-1(xg;Bn-1)]——誤差函數(shù);1?qe表示損失的調(diào)節(jié)因子;數(shù)據(jù)γ——容易分類的攻擊樣本比重降低的速率數(shù)據(jù)。通過此焦點損失函數(shù)優(yōu)化后的Lightgbm函數(shù),可以使攻擊樣本分類的正確率上升。
優(yōu)化后的此算法作為該次設(shè)計的攻擊識別模型,如網(wǎng)絡(luò)攻擊數(shù)據(jù)進行平衡化處理后的集合為R,那么R={(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)},xg∈R,yg∈{0,1,2,3}。其中xg表示攻擊樣本,yg表示攻擊數(shù)據(jù)的標注,則交通網(wǎng)絡(luò)攻擊識別模型輸出如下式所示:
網(wǎng)絡(luò)攻擊識別模型[5]屬于多分類建模,不同的輸出結(jié)果代表不同的攻擊以及非攻擊事件,當此模型輸出為0,表示交通網(wǎng)絡(luò)系統(tǒng)未受到攻擊;當輸出為1,表示交通網(wǎng)絡(luò)系統(tǒng)受到來自改變量測參數(shù)的攻擊;當輸出為2,表示交通網(wǎng)絡(luò)系統(tǒng)受到了來自改變控制信號的攻擊;當輸出為3,表示交通網(wǎng)絡(luò)系統(tǒng)受到了來自改變設(shè)備數(shù)據(jù)的攻擊。構(gòu)建交通網(wǎng)絡(luò)攻擊識別模型詳細步驟:步驟一,通過歸一化方法處理受到攻擊的最佳特征子集,同一級別化系統(tǒng)狀態(tài)變量參數(shù);步驟二,通過焦點損失函數(shù)優(yōu)化后的Lightgbm函數(shù)分類攻擊樣本,找出最佳樣本參數(shù);步驟三,通過貝葉斯公式獲取最佳樣本參數(shù)中重要數(shù)據(jù);步驟四,再次通過焦點損失函數(shù)優(yōu)化后的Lightgbm函數(shù)分類最佳數(shù)據(jù)集,獲得最后的識別模型;步驟五,利用測試集評估識別模型性能,不滿足條件的再次執(zhí)行步驟三、四,滿足條件后保存結(jié)果[6-8]。
實驗以江西省交通監(jiān)控指揮中心的網(wǎng)絡(luò)為研究對象。江西省自90年代起,逐步拓展、發(fā)展交通網(wǎng)絡(luò)。低等級道路網(wǎng)形成、高速公路網(wǎng)誕生、低等級道路網(wǎng)成熟和高速公路網(wǎng)成熟這四個階段是江西省交通網(wǎng)絡(luò)演變的代表。江西省的交通網(wǎng)絡(luò)類別比較簡單的時期,低等級公路網(wǎng)絡(luò)系統(tǒng)較為完整,監(jiān)控范圍寬廣,因此,在當時的交通運輸中起著核心作用;江西省內(nèi)各處高速公路的全面建成,標志著這時期全新高速公路交通網(wǎng)絡(luò)的誕生,在國道線路的穩(wěn)定、省道以及縣鄉(xiāng)道線路的增多中發(fā)揮了重要作用;在江西省高速公路快速發(fā)展的時期,低等級公路網(wǎng)走向成熟,高速公路骨干網(wǎng)也初步形成;當江西省進入高鐵時代,形成了占比較高的骨架路網(wǎng),這一時期,完成了高鐵網(wǎng)絡(luò)的搭建,在高速公路的線路大幅增加的同時,高速公路網(wǎng)趨于成熟。
通過MATLAB平臺分析江西省交通監(jiān)控指揮中心的交通網(wǎng)絡(luò),試驗通過數(shù)據(jù)管道對網(wǎng)絡(luò)攻擊流、攻擊識別模塊與指揮中心的交通網(wǎng)絡(luò)之間傳輸數(shù)據(jù)。設(shè)置好實驗環(huán)境參數(shù),首先利用網(wǎng)絡(luò)攻擊流對交通網(wǎng)絡(luò)攻擊網(wǎng)絡(luò),在此過程中,分別使用基本的網(wǎng)絡(luò)攻擊識別方法與該文所提的基于聚類算法的網(wǎng)絡(luò)攻擊識別方法對此攻擊流進行識別,最后通過Linux算法分別評估這兩個方法對網(wǎng)絡(luò)攻擊的識別性能,并比較識別結(jié)果。實驗過后,統(tǒng)計這兩個方法識別的有效次數(shù),并分別計算識別率,得到的結(jié)果如圖2所示。
圖2 網(wǎng)絡(luò)攻擊識別率對比
圖中,實線代表該文所提識別方法,虛線代表基本識別方法。由圖2可知,基于聚類算法的交通網(wǎng)絡(luò)攻擊識別方法的識別效果遠好于基本網(wǎng)絡(luò)攻擊識別方法,其識別率達到了80.4%,基本識別方法的識別率僅為59.7%,該文識別方法提高了20.7%。該文攻擊識別方法大幅度提升了識別率,與此同時還可以保護交通網(wǎng)絡(luò)的設(shè)備安全,識別模塊控制主板中的微型處理器與網(wǎng)絡(luò)設(shè)備的各硬件結(jié)構(gòu)搭配,不僅滿足了交通監(jiān)控指揮中心的多種需求,也提升了對網(wǎng)絡(luò)攻擊識別的正確率。
基本交通網(wǎng)絡(luò)攻擊識別方法由于其數(shù)據(jù)庫資源不足,并且硬件與軟件的協(xié)調(diào)程度低,因此,在面臨時下多樣性的網(wǎng)絡(luò)攻擊下,不僅識別的正確率低,而且受到攻擊后的應急手段也較差。但該文提出的基于聚類算法的交通網(wǎng)絡(luò)攻擊識別方法,在原有的識別方法基礎(chǔ)上增加了聚類算法,具備聚類算法的優(yōu)點,大幅度提升了新型網(wǎng)絡(luò)攻擊識別的正確率,也給指揮中心更多的功能選擇,最大限度地幫助指揮中心識別多種網(wǎng)絡(luò)攻擊,保證交通網(wǎng)絡(luò)安全。
交通網(wǎng)絡(luò)是當代人類發(fā)展的重要組成部分,而交通監(jiān)控指揮中心是實現(xiàn)交通網(wǎng)絡(luò)正常運轉(zhuǎn)的關(guān)鍵,其交通網(wǎng)絡(luò)安全至關(guān)重要,因此,該文提出基于聚類算法的交通網(wǎng)絡(luò)攻擊識別方法,該方法引入了聚類算法,其對多樣化的網(wǎng)絡(luò)攻擊識別準確率較高,并且可以保證交通網(wǎng)絡(luò)設(shè)施的安全性。但是該系統(tǒng)仍然需要一定的優(yōu)化,現(xiàn)代網(wǎng)絡(luò)攻擊手段存在多樣化特性,而該文所提識別系統(tǒng)僅可以保證部分網(wǎng)絡(luò)攻擊的識別準確率,識別的范圍還不夠全面,今后仍需繼續(xù)研究,提高交通監(jiān)控指揮中心的網(wǎng)絡(luò)安全,保證其安全管理與維護。