国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于ISSA-LightGBM 的工控入侵檢測研究

2023-11-06 12:34:48趙志達(dá)王華忠
關(guān)鍵詞:工控麻雀適應(yīng)度

趙志達(dá), 王華忠

(華東理工大學(xué)能源化工過程智能制造教育部重點(diǎn)實驗室, 上海 200237)

工控系統(tǒng)(ICS)是國家關(guān)鍵基礎(chǔ)設(shè)施的重要組成部分[1],在確保煉油、化工、電力、食品、水廠、交通、制藥等生產(chǎn)與服務(wù)系統(tǒng)穩(wěn)定運(yùn)行上起著重要的保障作用[2]。隨著信息技術(shù)(IT)與工業(yè)控制網(wǎng)絡(luò)的不斷融合[3],關(guān)鍵基礎(chǔ)設(shè)施控制系統(tǒng)已成為互聯(lián)網(wǎng)的一部分,更容易受到各種網(wǎng)絡(luò)攻擊。ICS 的異?;虮罎⒖赡軒斫?jīng)濟(jì)損失、環(huán)境破壞甚至人員生命損失[4],加強(qiáng)ICS 的網(wǎng)絡(luò)安全防護(hù)十分重要[5]。

工控系統(tǒng)的常見網(wǎng)絡(luò)攻擊包括拒絕服務(wù)(DOS)攻擊、虛假數(shù)據(jù)注入(FDI)攻擊、偵察攻擊、重放攻擊等,而入侵檢測可以主動監(jiān)控網(wǎng)絡(luò)流量和主機(jī)等設(shè)備,發(fā)現(xiàn)并阻止網(wǎng)絡(luò)攻擊[6]。隨著人工智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)在入侵檢測中的應(yīng)用越來越廣泛[7],然而,工控系統(tǒng)會產(chǎn)生大量的非線性高維數(shù)據(jù)。傳統(tǒng)的機(jī)器學(xué)習(xí)方法,如K 最鄰近法(KNN)、支持向量機(jī)(SVM)等,雖然算法簡單、訓(xùn)練時間短,但是檢測準(zhǔn)確率相對較低,而且在處理這些工控數(shù)據(jù)之前需要進(jìn)行復(fù)雜的數(shù)據(jù)預(yù)處理以及人為的特征提取,這需要依靠豐富的經(jīng)驗和大量的實踐。卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶網(wǎng)絡(luò)(LSTM)等深度學(xué)習(xí)方法雖然可以避免復(fù)雜的數(shù)據(jù)預(yù)處理,且具有較高的準(zhǔn)確性,但會消耗大量計算資源,且訓(xùn)練時間長,參數(shù)調(diào)整困難。

近年來,很多研究人員將機(jī)器學(xué)習(xí)算法應(yīng)用到入侵檢測研究,并取得了一定的成果。黃一鳴等[8]提出了一種基于SVM 的工控入侵檢測模型,通過特征增強(qiáng)的方式提高數(shù)據(jù)集的質(zhì)量,改善了模型檢測精度,但是該方法需要進(jìn)行復(fù)雜的特征變換和數(shù)據(jù)預(yù)處理。陳漢宇等[9]提出了基于統(tǒng)一計算設(shè)備架構(gòu)(CUDA)的并行化策略,將串行SVM并行化,把復(fù)雜的計算過程移植到GPU 上,大大提高了模型訓(xùn)練速度,但是該方法成本高、靈活性差。Ling 等[10]提出了一種基于雙向簡單循環(huán)單元的入侵檢測模型,使用跳躍連接,通過簡單循環(huán)單元(SRU)神經(jīng)網(wǎng)絡(luò)中優(yōu)化的雙向結(jié)構(gòu),緩解模型中梯度消失問題,該方法雖然降低了訓(xùn)練時間,但是犧牲了檢測效果。劉會鵬等[11]提出了一種基于堆疊LSTM 的入侵檢測模型,并采用貝葉斯優(yōu)化算法對深度學(xué)習(xí)超參數(shù)進(jìn)行尋優(yōu),該方法雖然大大提高了模型檢測性能但是卻占用大量內(nèi)存和時間。Narayana等[12]將入侵檢測分為兩個階段:第1 階段,采用平滑L1 正則化增強(qiáng)自編碼器的稀疏性,學(xué)習(xí)特征的稀疏表示;第2 階段,使用深度神經(jīng)網(wǎng)絡(luò)(DNN)對攻擊進(jìn)行檢測。由于消除了異常的特征,并通過特征提取降低了特征維數(shù),該模型整體性能優(yōu)于傳統(tǒng)模型。

LightGBM 是Ke 等[13]在2017 年提出的一種改進(jìn)的梯度提升決策樹(GBDT)模型,能夠高速準(zhǔn)確地處理海量數(shù)據(jù),在工業(yè)環(huán)境中具有良好的應(yīng)用前景:(1)它支持分類特征的直接輸入,在數(shù)據(jù)預(yù)處理階段無需進(jìn)行one-hot 編碼;(2)它是一種樹模型,無需進(jìn)行歸一化操作以處理由于輸入變量量綱不同造成的影響;(3)引入EFB 算法進(jìn)行特征降維,可以省去常規(guī)算法要求的特征提取;(4)支持高效的特征并行和數(shù)據(jù)并行,訓(xùn)練速度快。

基于LightGBM 算法處理工業(yè)數(shù)據(jù)的潛在優(yōu)勢,本文提出了一種基于ISSA-LightGBM 的工控系統(tǒng)入侵檢測模型。針對標(biāo)準(zhǔn)麻雀搜索算法的種群多樣性少和跳出局部最優(yōu)解難的問題,提出了一種改進(jìn)的麻雀搜索算法:(1)引入離散解碼策略;(2)使用反向?qū)W習(xí)策略生成初始種群;(3)麻雀位置更新函數(shù)中引入自適應(yīng)控制步長和收斂因子,使算法具有更優(yōu)的初始種群和全局搜索能力。將改進(jìn)后的算法用于LightGBM 入侵檢測模型參數(shù)的優(yōu)化,使用密西西比州立大學(xué)(MSU)標(biāo)準(zhǔn)工控數(shù)據(jù)集檢測模型的性能,并與其他方法進(jìn)行比較,驗證了該方法在處理大量工業(yè)數(shù)據(jù)時具有檢測精度高、訓(xùn)練時間少等優(yōu)勢。

1 LightGBM

1.1 LightGBM 基本原理

LightGBM 是一種GBDT 實現(xiàn),是為解決傳統(tǒng)GBDT 處理大樣本高維數(shù)據(jù)的難題而被提出的。相對于傳統(tǒng)的GBDT 算法,LightGBM 不僅保證了準(zhǔn)確率,而且訓(xùn)練速度更快[14],內(nèi)存消耗更低,并且支持分布式并行,可以快速處理海量數(shù)據(jù)[15],能夠有效解決工控入侵檢測訓(xùn)練速度慢、占用時間長等問題。LightGBM 的特點(diǎn)和優(yōu)化算法總結(jié)如下。

(1)Leaf-wise 決策樹生長策略

多數(shù)決策樹算法使用的是低效的level-wise的決策樹生長策略,同一層的葉子節(jié)點(diǎn)不加區(qū)分地進(jìn)行分裂,由于一些葉子節(jié)點(diǎn)分裂產(chǎn)生的增益較低,給算法帶來了不必要的消耗。與大多數(shù)GBDT 算法不同,LightGBM 采用具有深度限制的高效的leafwise 策略,每次層序遍歷所有當(dāng)前葉子節(jié)點(diǎn),僅對增益最大的葉子節(jié)點(diǎn)進(jìn)行分裂,而不是所有葉子節(jié)點(diǎn)。因此,經(jīng)過相同的分裂次數(shù),leaf-wise 策略產(chǎn)生的誤差更低,準(zhǔn)確率和效率也更高。同時為避免leaf-wise 策略生長出深度比較大的決策樹, LightGBM增加了一個最大深度限制,以防止過擬合,能夠有效提高模型預(yù)測的魯棒性。level-wise 策略如圖1 所示,leaf-wise 策略如圖2 所示。

圖1 Level-wise 策略Fig.1 Level-wise algorithm

圖2 Leaf-wise 策略Fig.2 Leaf-wise algorithm

(2)直方圖算法

LightGBM 使用直方圖算法對特征數(shù)據(jù)進(jìn)行處理,將連續(xù)的特征數(shù)據(jù)離散化為k個整數(shù)作為直方圖的水平坐標(biāo),構(gòu)造一個以k為寬度的直方圖。在遍歷數(shù)據(jù)時,采用直方圖累積統(tǒng)計值,然后根據(jù)離散的特征統(tǒng)計值確定最佳的特征分割點(diǎn),因此模型特征只需統(tǒng)計1 次,避免了傳統(tǒng)機(jī)器學(xué)習(xí)算法在特征計算時會重復(fù)工作的問題。該算法對原始連續(xù)特征值進(jìn)行分箱,并使用這些分箱來構(gòu)建模型,大大減少了分割點(diǎn)選擇的時間消耗和內(nèi)存消耗,提高了模型的訓(xùn)練和預(yù)測效率,特別適用于數(shù)據(jù)量大、數(shù)據(jù)維數(shù)高的問題。

(3)單邊梯度采樣(GOSS)算法

LightGBM 引入了GOSS 算法,通過減少訓(xùn)練的數(shù)據(jù)量來提高訓(xùn)練效率。如果一個訓(xùn)練樣本的梯度極小,則表明該樣本的訓(xùn)練誤差極小,訓(xùn)練已經(jīng)十分完全,但直接舍棄所有這些梯度較小的樣本會降低模型的精度,因此GOSS 算法在減少訓(xùn)練量和保證精度之間進(jìn)行了平衡。將用于訓(xùn)練的數(shù)據(jù)根據(jù)梯度的大小進(jìn)行排序,并按一定比例劃分為高梯度訓(xùn)練樣本和低梯度訓(xùn)練樣本,保留所有高梯度樣本,對低梯度樣本按照一定比例隨機(jī)采樣,舍棄其他低梯度樣本。為了防止這樣的數(shù)據(jù)處理對樣本分布產(chǎn)生的影響,算法引入放大系數(shù),將保留的低梯度樣本乘以放大系數(shù)。通過以上這些處理,算法在計算信息增益時會更加關(guān)注高梯度也就是訓(xùn)練不足的樣本,提高了訓(xùn)練效率。

(4)互斥特征捆綁(EFB)算法

與GOSS 算法不同,EFB 算法通過特征提取的方法提高模型訓(xùn)練的速度。通常的特征提取通過剔除一些無效的特征來降低訓(xùn)練數(shù)據(jù)的維度,而EFB算法則是通過捆綁互斥的特征來降低訓(xùn)練數(shù)據(jù)的特征維度。一般情況下,在高維數(shù)據(jù)空間中,數(shù)據(jù)是比較稀疏的,在稀疏的特征空間中,有些特征是互斥的,即這些特征不會同時是非零值,通過將這些互斥的特征捆綁在一起,形成一個單一的特征包,大大降低了模型的計算復(fù)雜度。

此外,LightGBM 算法支持類別特征的直接輸入,不需要進(jìn)行額外的0 / 1 展開;它支持?jǐn)?shù)據(jù)并行和特征并行[16]。這些優(yōu)化使LightGBM 算法具有更高的效率。

1.2 LightGBM 主要超參數(shù)

在機(jī)器學(xué)習(xí)算法中,模型的分類性能好壞與模型超參數(shù)的選擇有很大的關(guān)系,不同超參數(shù)組合的模型其表現(xiàn)有很大的差別。LightGBM 模型有較多的超參數(shù),為了獲得LightGBM 模型的最優(yōu)性能,需要對模型參數(shù)進(jìn)行優(yōu)化。LightGBM 模型的主要超參數(shù)如表1 所示。

表1 LightGBM 模型的主要超參數(shù)Table 1 LightGBM main hyperparameters

不同參數(shù)尋優(yōu)方法得到的最優(yōu)超參數(shù)往往不同,目前常用的有人工搜索法、隨機(jī)搜索法、網(wǎng)格搜索法等等。人工搜索法需要手動嘗試各種可能的參數(shù)組合,成本極高且效率低下。網(wǎng)格搜索法采用超參數(shù)所有的可能值進(jìn)行組合,當(dāng)超參數(shù)的變量數(shù)和范圍增加時,該方法效率會急速下降。隨機(jī)搜索法使用一系列隨機(jī)超參數(shù)組合,相對于網(wǎng)格搜索算法成本降低,但在測試新的超參數(shù)組合時,會忽略前一次組合的效果,導(dǎo)致搜索的效率極低。機(jī)器學(xué)習(xí)模型的超參數(shù)優(yōu)化問題是一種黑盒問題,智能優(yōu)化算法是解決此類優(yōu)化問題的十分有效的方法,本文采用改進(jìn)的麻雀搜索算法進(jìn)行LightGBM 的超參數(shù)優(yōu)化。

2 改進(jìn)麻雀搜索算法(ISSA)

2.1 麻雀搜索算法(SSA)

SSA 是Xue 等[17]提出的一種群體智能優(yōu)化算法,受麻雀的群居智慧啟發(fā),參考麻雀的覓食等行為提出的。在SSA 算法中,將麻雀分為生產(chǎn)者、拾荒者和捕食者3 種個體。其中生產(chǎn)者主要為整個種群尋找食物來源,拾荒者則跟隨生產(chǎn)者拾取食物,捕食者負(fù)責(zé)監(jiān)視覓食的區(qū)域。在覓食過程中,不斷更新三者位置,完成食物的獲取。

在算法中,通過個體模擬麻雀尋找食物。由所有個體組成的種群位置X可由式(1)的矩陣表示:

其中:n表示麻雀種群的數(shù)量;d表示待優(yōu)化變量的維度。

所有個體對應(yīng)的適應(yīng)度函數(shù)FX可由式(2)的向量表示:

其中FX每一行的函數(shù)表示每個個體的適應(yīng)度值。

2.1.1 生產(chǎn)者位置更新 在SSA 中,適應(yīng)度較優(yōu)的生產(chǎn)者在搜索過程中優(yōu)先覓食,同時,生產(chǎn)者需要為拾荒者尋找食物并引導(dǎo)拾荒者的流動,因此生產(chǎn)者比拾荒者在更廣的范圍內(nèi)尋找食物。生產(chǎn)者的位置更新公式如式(3)所示:

其中:t表示迭代次數(shù);j=1,2,...,d;表示第i只適應(yīng)度較好的麻雀在迭代時的第j維值; α ∈[0,1] ;itermax表示最大迭代次數(shù);R2(R2∈[0,1]) 和ST(ST ∈[0.5, 1.0])分別表示報警值和安全閾值;Q是服從正態(tài)分布的隨機(jī)數(shù),L是 1×d的全1 矩陣。當(dāng)R2<ST時,意味著周圍沒有危險,生產(chǎn)者可以廣泛搜索食物;當(dāng)R2≥ST 時,說明麻雀意識到了危險,需飛到安全區(qū)域。

2.1.2 拾荒者位置更新 拾荒者的位置更新公式如式(4)所示:

2.1.3 捕食者位置更新 根據(jù)算法的設(shè)定,捕食者占種群比例的10%~20%。捕食者的位置更新公式如式(5)所示:

2.2 ISSA 算法的實現(xiàn)

2.2.1 離散策略的引入 標(biāo)準(zhǔn)的SSA 算法用來解決連續(xù)優(yōu)化相關(guān)問題,不適合用來解決離散優(yōu)化問題。LightGBM 模型的主要超參數(shù)中存在數(shù)據(jù)類型是整形的,賦予超參數(shù)上下界的限制后,其可能的取值是有限的,數(shù)據(jù)是離散的。在更新麻雀位置的過程中存在參數(shù)有小數(shù)的問題,為了解決此問題,本文在算法中加入了離散策略。每只麻雀個體是一個1×9 的向量,前6 個變量對應(yīng)非整型的超參數(shù),采用改進(jìn)麻雀搜索算法的位置更新方式進(jìn)行迭代;后3 個變量對應(yīng)整型的超參數(shù),在麻雀位置更新后,引入離散解碼策略,該策略的解碼過程如圖3 所示。

圖3 離散超參數(shù)解碼過程Fig.3 Discrete hyperparameter decoding process

2.2.2 種群初始化 反向?qū)W習(xí)策略是群智能優(yōu)化的一種改進(jìn)策略,主要思想是根據(jù)當(dāng)前群體產(chǎn)生一個反向群體,比較兩個群體的適應(yīng)度值,擇優(yōu)組成新的群體。針對采取隨機(jī)生成初始種群個體的標(biāo)準(zhǔn)麻雀搜索算法,引入反向?qū)W習(xí)策略,有助于提高種群多樣性和算法的全局搜索能力。種群初始化步驟如下:

(1)采用隨機(jī)策略生成n個初始麻雀個體。

(2)生成初始種群的反向種群,反向種群的生成公式如式(6)所示:

其中:pi,j表示初始種群中第i個個體的第j維值;Ubj和 Lbj分別表示第j維變量范圍的上下限;Pi,j表示反向種群中第i個個體的第j維值。

(3)對初始種群和反向種群進(jìn)行整體適應(yīng)度評估,選取適應(yīng)度值較優(yōu)的前n個個體作為算法的初始種群。

2.2.3 改進(jìn)生產(chǎn)者位置更新方式 標(biāo)準(zhǔn)SSA 算法中,生產(chǎn)者在安全閾值內(nèi)的位置信息會隨著迭代次數(shù)的增加逐漸向更小值逼近,忽視了反方向的位置信息,使算法具有很強(qiáng)的局部搜索能力,用于解決極值點(diǎn)在零點(diǎn)的問題時具有很強(qiáng)的優(yōu)勢,而超參數(shù)的搜索空間一般都大于零。為了解決上述問題,本文去除了其收斂于零的部分,增加一個正態(tài)分布隨機(jī)數(shù),使超參數(shù)上下浮動。同時為了保留原收斂因子的特性,設(shè)計了正態(tài)分布隨機(jī)數(shù)的方差 σ2,如式(7)所示,其中pop 為種群大小。適應(yīng)度越好,參數(shù)浮動就越??;適應(yīng)度越差,參數(shù)浮動就越大,有助于平衡算法的全局和局部搜索能力。

在SSA 算法中,生產(chǎn)者在安全閾值外位置信息的控制步長為0~1 的數(shù),然而不同超參數(shù)的上下界差異過大,采用相同的控制步長會錯過一些重要的位置信息。因此,本文引入了自適應(yīng)步長K,如式(8)所示,每個變量的控制步長由變量的范圍決定。

改進(jìn)后的生產(chǎn)者位置更新如式(9)所示:

3 基于ISSA 優(yōu)化LightGBM 超參數(shù)的入侵檢測模型

本文構(gòu)建了基于ISSA-LightGBM 的工控入侵檢測模型。選擇LightGBM 模型作為入侵檢測的分類模型,采用改進(jìn)的麻雀搜索算法通過驗證集的準(zhǔn)確率高低對LightGBM 模型的超參數(shù)進(jìn)行持續(xù)的迭代調(diào)整,將優(yōu)化后得到的最優(yōu)超參數(shù)用于構(gòu)建LightGBM模型,最后將訓(xùn)練集輸入給LightGBM 進(jìn)行模型訓(xùn)練,得到最優(yōu)分類模型,用以檢測工控系統(tǒng)中的攻擊。建立基于ISSA-LightGBM 入侵檢測模型的流程如圖4 所示。

圖4 ISSA-LightGBM 入侵檢測模型流程圖Fig.4 Flow chart of ISSA-LightGBM intrusion detection model

建立基于ISSA-LightGBM 的入侵檢測模型具體步驟如下:

(1)數(shù)據(jù)劃分。將原始數(shù)據(jù)集按照7∶1∶2 的比例隨機(jī)抽取,劃分為訓(xùn)練集、驗證集、測試集。訓(xùn)練集用于訓(xùn)練模型;驗證集用于在模型超參數(shù)的優(yōu)化過程中評價模型的適應(yīng)度值;測試集則用于評估最終模型的檢測性能。

(2)參數(shù)初始化。初始化ISSA 參數(shù)(種群大小、迭代次數(shù)等),確定LightGBM 待優(yōu)化的超參數(shù)的范圍,初始化LightGBM 模型的其他超參數(shù)。

(3)初始化種群。采用反向?qū)W習(xí)策略生成麻雀的初始種群。

(4)位置更新。根據(jù)式(9)、式(4)、式(5)更新麻雀種群的位置信息。

(5)離散數(shù)據(jù)解碼。根據(jù)離散解碼策略對種群位置信息的后3 個變量進(jìn)行解碼。

(6)計算適應(yīng)度。計算新種群的適應(yīng)度值,并與上一代進(jìn)行比較,更新最佳適應(yīng)度和最佳位置。

(7)判斷麻雀種群的最佳適應(yīng)度值。如果滿足終止條件,則停止迭代;否則,返回步驟(4)重新開始迭代。

(8)保存并輸出ISSA 的優(yōu)化結(jié)果。最優(yōu)的麻雀位置信息被用作表格1 中的LightGBM 超參數(shù)。

(9)采用最優(yōu)超參數(shù)建立基于LightGBM 的入侵檢測模型,并用測試集進(jìn)行驗證,計算各項性能指標(biāo)并輸出。

4 實例分析

4.1 實驗環(huán)境和數(shù)據(jù)集

本文實驗在Intel(R) Core(TM) i7-4720HQ CPU @2.60 GHz 和Windows10 64 位操作系統(tǒng)的設(shè)備上進(jìn)行,運(yùn)行環(huán)境為python 3.0。為驗證本文所提方法的檢測效果,使用密西西比州立大學(xué)在2014 年提出的天然氣管道標(biāo)準(zhǔn)工業(yè)數(shù)據(jù)集[18]。該數(shù)據(jù)集是從基于Modbus-TCP 通信協(xié)議的天然氣管道ICS 中收集。數(shù)據(jù)集包含正常數(shù)據(jù)樣本和7 類攻擊數(shù)據(jù)樣本共97 019 條,其中正常數(shù)據(jù)61 156 條,攻擊數(shù)據(jù)35 863條,具體如表2 所示。

表2 天然氣管道數(shù)據(jù)集的描述[18]Table 2 Description of natural gas pipeline dataset[18]

為了充分驗證本文所提算法的檢測效果,選擇全部原始數(shù)據(jù)集作為實驗數(shù)據(jù),且不預(yù)先進(jìn)行任何特征處理或非平衡數(shù)據(jù)處理。將實驗數(shù)據(jù)按照比例劃分為訓(xùn)練集、驗證集和測試集,其中訓(xùn)練樣本67 910條,約占70%,驗證樣本9 701 條,約占10%,測試樣本19 408 條,約占20%。數(shù)據(jù)集的每個樣本都由26 個特征屬性和1 個類別標(biāo)簽組成。

4.2 評價指標(biāo)

準(zhǔn)確率(ACC)可以評估系統(tǒng)的整體性能,誤報率(FPR)表示正常流量的錯誤分類,漏報率(FNR)表示異常流量的錯誤分類,它們的定義分別如式(10)~(12)所示。本文選擇這3 個評價指標(biāo)來與其他入侵檢測模型的性能進(jìn)行對比。

其中:TP 表示攻擊數(shù)據(jù)的識別數(shù);TN 表示正常數(shù)據(jù)的識別數(shù);FP 表示正常數(shù)據(jù)識別為攻擊數(shù)據(jù)的樣本數(shù);FN 表示攻擊數(shù)據(jù)識別為正常數(shù)據(jù)的樣本數(shù)。

4.3 結(jié)果分析

4.3.1 ISSA 性能評估 為了評估ISSA 參數(shù)尋優(yōu)的性能,本文將該算法與基于粒子群算法(PSO)、基于鯨魚優(yōu)化算法(WOA)和基于SSA 算法搭建的LightGBM 入侵檢測模型進(jìn)行了比較。由于優(yōu)化算法每次迭代的每個個體的適應(yīng)度評價都需要進(jìn)行建模,為提高效率,在測試優(yōu)化算法性能的實驗中,本文隨機(jī)均勻地選擇10%的數(shù)據(jù)作為實驗數(shù)據(jù)來測試。在每次實驗中,種群大小設(shè)置為30,迭代次數(shù)30 次。PSO 算法的參數(shù)c1=c2=1.5,ω=0.73 ,WOA算法的參數(shù) α 從2 線性遞減到0。每種模型獨(dú)立運(yùn)行30 次,然后取平均結(jié)果,實驗結(jié)果如表3 所示。迭代過程中各算法的適應(yīng)度收斂曲線如圖5 所示。

從表3 可以看出,總體上LightGBM 模型都具有良好的檢測精度,而ISSA 算法搜索到的參數(shù)可以更好地優(yōu)化LightGBM 模型,其入侵檢測的準(zhǔn)確率為98.92%,誤報率為0.67%,漏報率為1.77%,檢測精度比其他算法都好,誤報率和漏報率也更低,優(yōu)化所耗費(fèi)的時間也最少。與SSA-LightGBM 算法相比,ISSA-LightGBM 算法準(zhǔn)確率提高0.14%,檢測時間減少約25 s。從圖5 可以看出,ISSA 算法最優(yōu)適應(yīng)度和收斂速度均優(yōu)于其他算法,雖然在迭代初期,SSA 收斂較快,但由于初始種群的優(yōu)化,在后續(xù)迭代中,ISSA 算法的適應(yīng)度值均高于其他算法,同時在第8 次迭代時跳出局部最優(yōu)區(qū)域,達(dá)到更高的檢測精度,這說明本文改進(jìn)的策略有效提高了SSA 算法跳出局部最優(yōu)的能力。通過ISSA 算法尋優(yōu)得到的LightGBM 模型最優(yōu)超參數(shù)如表4 所示。

表4 ISSA-LightGBM 模型的最優(yōu)超參數(shù)Table 4 Optimal hyperparameters of ISSA-LightGBM model

4.3.2 ISSA-LightGBM 入侵檢測模型檢測效果分析 為了評估本文所提算法在工控入侵檢測多分類問題中的性能,采用在表4 中通過ISSA 算法尋優(yōu)得到的最優(yōu)超參數(shù)建立基于LightGBM 的工控入侵檢測模型。選取全部97 019 條數(shù)據(jù)作為實驗數(shù)據(jù),得到了該模型的混淆矩陣如圖6 所示。

圖6 ISSA-LightGBM 模型的混淆矩陣Fig.6 Confusion matrix of ISSA-LightGBM model

從圖6 中的混淆矩陣可以看出,本文模型的整體性能十分良好,能夠準(zhǔn)確有效地識別出絕大多數(shù)的攻擊。部分正常樣本被誤報為標(biāo)簽為1、2、4 類型的攻擊,同時部分標(biāo)簽為1、2、4 類型的攻擊被識別為正常數(shù)據(jù),為更準(zhǔn)確地驗證本文所提模型用于工控系統(tǒng)入侵檢測的有效性,實驗未對數(shù)據(jù)集進(jìn)行任何數(shù)據(jù)預(yù)處理。通過對訓(xùn)練集的分析發(fā)現(xiàn),出現(xiàn)此問題的原因包括兩個方面:(1)正常數(shù)據(jù)中存在一些噪聲,導(dǎo)致了正常樣本的誤報;(2)這幾種攻擊樣本數(shù)量較少,樣本的不平衡性導(dǎo)致攻擊的漏報。盡管如此,本文所提的模型仍表現(xiàn)出了極好的檢測性能。

4.3.3 不同機(jī)器學(xué)習(xí)方法比較 為了更全面地評估模型的檢測性能,將本文的入侵檢測模型(ISSALGB)與KNN、SVM、文獻(xiàn)[9]中的CNN 和文獻(xiàn)[10]中的SLSTM 共5 種工控入侵檢測模型進(jìn)行對比實驗,對比結(jié)果如表5 所示。從表5 中可以看出,本文所提算法模型的檢測性能最好,準(zhǔn)確率高達(dá)98.93%,誤報率和漏報率低至0.85%、1.45%,遠(yuǎn)好于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,不弱于深度學(xué)習(xí)算法。模型對近10 萬條數(shù)據(jù)進(jìn)行訓(xùn)練建模與分類預(yù)測,總共耗費(fèi)時間為6.05 s。在分類準(zhǔn)確率上,本文與文獻(xiàn)[10]十分接近,但為更準(zhǔn)確地驗證模型性能,本文全部采用原始數(shù)據(jù)集,而文獻(xiàn)[10]采用SMOTE 算法進(jìn)行了不平衡數(shù)據(jù)處理。同時本文用于訓(xùn)練與檢測的數(shù)據(jù)量是文獻(xiàn)[10]中數(shù)據(jù)的近6 倍,是其他模型的近10 倍,雖然文獻(xiàn)[10]中的檢測時間加上了模型參數(shù)優(yōu)化的時間,但本文模型的檢測時間遠(yuǎn)小于其模型,在檢測時間上具有極大的優(yōu)勢。實驗結(jié)果驗證了本文算法能夠在保證較高的分類準(zhǔn)確率以及較低的誤報率、漏報率的同時,擁有較短的訓(xùn)練和預(yù)測時間,能夠很好地滿足工業(yè)控制系統(tǒng)的實時性要求。

表5 模型性能對比Table 5 Model performance comparison

圖7 示出了本文算法模型與對比算法模型對各類攻擊數(shù)據(jù)的檢測性能圖。從圖7 可以看出,各類算法識別正常和攻擊數(shù)據(jù)都有較好的檢測效果,但是對NMRI、MSCI、MFCI 的識別效果不佳。本文所建立的模型對所有攻擊都有較高的識別率,具有很好的可靠性。對于7 種攻擊樣本,本文模型的識別準(zhǔn)確率均最高,尤其對于來自NMRI、MSCI、MFCI 的攻擊,本文模型比其他算法具有極其明顯的優(yōu)勢和十分可靠的安全性能。

圖7 各類攻擊檢測性能Fig.7 Detection performance of various attacks

5 結(jié)束語

本文針對工控網(wǎng)絡(luò)入侵檢測在處理海量數(shù)據(jù)時高精度和高實時性的要求,提出了一種基于ISSALightGBM 的入侵檢測模型。ISSA 引入離散策略保證了參數(shù)的合法性,同時改進(jìn)了初始種群和麻雀的位置更新函數(shù),提高了種群多樣性,增強(qiáng)了全局搜索能力,以獲取LightGBM 最優(yōu)超參數(shù)。將超參數(shù)優(yōu)化后的ISSA-LightGBM 入侵檢測模型與其他基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的入侵檢測算法進(jìn)行了對比實驗,結(jié)果表明,本文算法無需復(fù)雜的數(shù)據(jù)預(yù)處理,不僅可以更加高效處理海量工控網(wǎng)絡(luò)數(shù)據(jù),而且具有更好的檢測性能。

猜你喜歡
工控麻雀適應(yīng)度
改進(jìn)的自適應(yīng)復(fù)制、交叉和突變遺傳算法
拯救受傷的小麻雀
1958年的麻雀
麻雀
趣味(語文)(2018年2期)2018-05-26 09:17:55
工控速派 一個工控技術(shù)服務(wù)的江湖
工控速浱 一個工控技術(shù)服務(wù)的江湖
熱點(diǎn)追蹤 工控安全低調(diào)而不失重要
基于空調(diào)導(dǎo)風(fēng)板成型工藝的Kriging模型適應(yīng)度研究
中國塑料(2016年11期)2016-04-16 05:26:02
基于攻擊圖的工控系統(tǒng)脆弱性量化方法
緊盯著窗外的麻雀
山東青年(2016年1期)2016-02-28 14:25:22
哈巴河县| 建水县| 绿春县| 仪陇县| 宁蒗| 乐平市| 丰台区| 嘉禾县| 凉城县| 鲁山县| 洛川县| 黎川县| 米易县| 斗六市| 东乌珠穆沁旗| 临洮县| 四平市| 遵化市| 探索| 西和县| 蕉岭县| 桐梓县| 宝兴县| 鄢陵县| 竹溪县| 新干县| 辛集市| 贵阳市| 博罗县| 承德县| 巴东县| 广宗县| 贵港市| 图们市| 南华县| 肇州县| 吴旗县| 抚顺县| 克山县| 含山县| 吉安市|