国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的異常流量檢測算法研究

2024-08-23 00:00:00宋思楠鄭丹高艷張鴿
信息系統(tǒng)工程 2024年8期
關(guān)鍵詞:深度學(xué)習(xí)

摘要:隨著大數(shù)據(jù)、人工智能等網(wǎng)絡(luò)技術(shù)在人們生產(chǎn)生活中的常態(tài)化應(yīng)用,網(wǎng)絡(luò)流量安全成為當(dāng)前亟待解決的問題?;诖?,針對現(xiàn)有模型過于復(fù)雜,且難以保障識別高精度條件的問題展開分析,并對基于LSTM-RNN(長短期記憶—循環(huán)神經(jīng)網(wǎng)絡(luò))的有監(jiān)督流量異常檢測模型的討論。同時(shí),還針對現(xiàn)有模型過于依賴數(shù)據(jù)標(biāo)簽的情況進(jìn)行優(yōu)化,提出一種基于Autoencoder-LOF(自動編碼器—局部離群因子)的無監(jiān)督流量異常檢測模型,以保證及時(shí)捕捉關(guān)鍵信息。對優(yōu)化后的深度學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn)設(shè)計(jì),結(jié)果顯示,能夠及時(shí)發(fā)現(xiàn)流量異?,F(xiàn)象,為我國網(wǎng)絡(luò)安全事業(yè)的創(chuàng)新提供有力參考。

關(guān)鍵詞:深度學(xué)習(xí);異常流量;檢測算法

一、前言

隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,網(wǎng)絡(luò)技術(shù)在各行各業(yè)的應(yīng)用日趨普及,網(wǎng)絡(luò)流量的復(fù)雜性和多樣性增加,網(wǎng)絡(luò)流量安全問題日益嚴(yán)峻?,F(xiàn)有流量異常檢測模型由于結(jié)構(gòu)復(fù)雜、對數(shù)據(jù)標(biāo)簽高度依賴,需要優(yōu)化。探索基于深度學(xué)習(xí)的流量異常檢測算法能提高檢測效率和準(zhǔn)確率。引入無監(jiān)督學(xué)習(xí)技術(shù)有望克服現(xiàn)有模型對標(biāo)簽數(shù)據(jù)的依賴,顯著提高模型的實(shí)用性和魯棒性,為構(gòu)建更安全、可靠的網(wǎng)絡(luò)環(huán)境奠定基礎(chǔ)。

二、基于LSTM-RNN的有監(jiān)督流量異常檢測模型

(一)模型框架

基于LSTM-RNN的流量異常檢測模型通過長短期記憶網(wǎng)絡(luò)提取時(shí)序特征,實(shí)現(xiàn)高精度檢測。然而,其復(fù)雜結(jié)構(gòu)和高計(jì)算資源消耗情況使得數(shù)據(jù)處理過程難度增加,模型需調(diào)整大量參數(shù),應(yīng)對復(fù)雜特征關(guān)系,挑戰(zhàn)重重。處理步驟如下:

1.數(shù)據(jù)清洗

假設(shè)輸入的原始數(shù)據(jù)集為X,其中xi含有多個(gè)特征,如源IP地址、目的IP地址、端口號和數(shù)據(jù)包大小等。

2.歸一化處理

采用最小化、最大化歸一方式進(jìn)行歸一化處理。

3.時(shí)間序列分段

將預(yù)處理后的數(shù)據(jù)X’’按照固定的時(shí)間窗口T進(jìn)行分段,形成多個(gè)時(shí)間序列片段:{S1,S2,...,Sk}。

4.特征提取

使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對每個(gè)時(shí)間片段進(jìn)行特征提取,完成卷積操作和池化操作。

(二)異常檢測算法優(yōu)化

1.卷積優(yōu)化

在基于LSTM-RNN的有監(jiān)督流量異常檢測模型中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)的引入旨在優(yōu)化特征提取過程,提高模型的檢測精度和效率。卷積優(yōu)化的核心在于CNN卷積操作相較于傳統(tǒng)卷積方法的多重優(yōu)勢,尤其在處理高維、復(fù)雜數(shù)據(jù)方面展現(xiàn)出顯著的技術(shù)優(yōu)勢。傳統(tǒng)卷積過程通過點(diǎn)積計(jì)算輸出特征圖,表示為公式(1)。

(1)

f表示輸入信號,g表示卷積核。總體來看,存在計(jì)算復(fù)雜度高、權(quán)重固定問題,對于高維數(shù)據(jù)需要大量計(jì)算資源,導(dǎo)致處理速度較慢。且無法根據(jù)數(shù)據(jù)特征動態(tài)調(diào)整,限制特征提取的靈活性[1]。而CNN卷積操作進(jìn)一步提高卷積核的可學(xué)習(xí)性與特征提取能力,具體操作機(jī)理如下。

(1)科學(xué)系卷積核。相較于傳統(tǒng)卷積,CNN中的卷積核參數(shù)通過反向傳播算法進(jìn)行訓(xùn)練和優(yōu)化,能夠自適應(yīng)地學(xué)習(xí)輸入數(shù)據(jù)的特征,從而提高特征提取的準(zhǔn)確性和魯棒性。

(2)局部連接和權(quán)重共享。CNN利用局部連接和權(quán)重共享機(jī)制,卷積核僅在局部區(qū)域內(nèi)滑動,與輸入數(shù)據(jù)的局部特征進(jìn)行卷積,支持在不同位置共享相同參數(shù),從而減少參數(shù)數(shù)量降低計(jì)算復(fù)雜性,增強(qiáng)模型泛化能力。

(3)多層次特征提取。CNN通過堆疊多個(gè)卷積層,逐層提取數(shù)據(jù)的低級和高級特征。低級卷積層提取邊緣、紋理等基本特征,高級卷積層提取復(fù)雜的模式和結(jié)構(gòu)。假設(shè)輸入數(shù)據(jù)x通過多個(gè)卷積層和激活函數(shù)處理,每一層l的操作可表示為公式(2)。

(2)

h(l)表示第l層的輸出,W(l)表示第l層卷積核,*表示卷積操作,f表示激活函數(shù),b(l)表示偏置。

(4)池化層。CNN常在卷積層后引入池化層進(jìn)行降維操作,以減輕計(jì)算復(fù)雜度。通過取局部區(qū)域的最大值或平均值,保留重要特征,增強(qiáng)模型的平移不變性。最大池化公式和平均池化公式表示為(3)(4)。

(3)

(4)

2.SELU激活函數(shù)

在深度神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)中,激活函數(shù)是引入非線性變換的核心組件,對網(wǎng)絡(luò)的訓(xùn)練效果和最終性能起著至關(guān)重要的作用。傳統(tǒng)模型所應(yīng)用的ReLU(Rectified Linear Unit)激活函數(shù)引入非線性并保留正值時(shí),存在“當(dāng)輸入值為負(fù)時(shí),梯度為零”的情況,導(dǎo)致神經(jīng)元無法更新。此外,若ReLU的輸出缺乏歸一化特性,難以保證收斂速度?;诖耍赏ㄟ^引入SELU激活函數(shù)的方式克服傳統(tǒng)函數(shù)問題,二者函數(shù)對比分別為公式(5)和公式(6)。

(5)

(6)

總體來看,傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)中常使用批標(biāo)準(zhǔn)化來緩解梯度消失和梯度爆炸問題。但在深度神經(jīng)網(wǎng)絡(luò)中,批標(biāo)準(zhǔn)化處理要在每一層引入額外的計(jì)算和參數(shù)優(yōu)化步驟。相比之下,SELU激活函數(shù)通過自歸一化特性,解決梯度流動問題,并減少對批標(biāo)準(zhǔn)化的依賴[2]。

三、基于Autoencoder-LOF的無監(jiān)督流量異常檢測模型

(一)模型框架

在流量異常檢測領(lǐng)域,LSTM-RNN的有監(jiān)督流量異常檢測模型依賴大量標(biāo)注數(shù)據(jù),且成本較高?;诖耍芯吭贚STM-RNN有監(jiān)督流量異常檢測模型的基礎(chǔ)上集成Autoencoder-LOF的無監(jiān)督流量異常檢測模型,通過結(jié)合自動編碼器的特征學(xué)習(xí)能力和局部離群因子的密度檢測機(jī)制,實(shí)現(xiàn)對流量數(shù)據(jù)的高效異常檢測[3]。具體運(yùn)行步驟為輸入層接收原始流量數(shù)據(jù)后通過編碼器進(jìn)行壓縮特征學(xué)習(xí),再通過解碼器重建數(shù)據(jù),最后由LOF模塊檢測異常。

(二)異常檢測算法

1.自動編碼器

基于Autoencoder-LOF的無監(jiān)督流量異常檢測模型的引入,主要通過自動編碼器實(shí)現(xiàn)特征學(xué)習(xí),構(gòu)成無監(jiān)督神經(jīng)網(wǎng)絡(luò)。其運(yùn)行機(jī)理為將輸入數(shù)據(jù)壓縮到低維表示,再從低維表示重建輸入數(shù)據(jù),以此來學(xué)習(xí)數(shù)據(jù)的本質(zhì)特征。

編碼器部分的主要任務(wù)為壓縮輸入數(shù)據(jù)至低維,由若干全連接層組成,每層通過線性變換和非線性激活函數(shù)將數(shù)據(jù)逐層壓縮。具體而言,假設(shè)輸入數(shù)據(jù)為X,編碼器的輸出為低維表示z,具體表示為公式(7)。

(7)

Wenc表示權(quán)重矩陣,benc表示偏置向量,σ表示非線性激活函數(shù)。在每一層中,輸入數(shù)據(jù)X經(jīng)過線性變化WencX和偏置benc的加和,再通過非線性激活函數(shù)進(jìn)行非線性映射,得出最終低維表示結(jié)果。總體來看,Autoencoder通過降維能夠減少數(shù)據(jù)冗余,以提高計(jì)算效率。

解碼器的任務(wù)是將低維潛在表示z重建為相同維度的輸出值,由若干全連接層組成,每層通過線性變換和非線性激活函數(shù)將數(shù)據(jù)逐層解壓縮[4]。通過最小化輸入數(shù)據(jù)與重建數(shù)據(jù)之間的差異來訓(xùn)練模型,通常使用均方誤差作為損失函數(shù),具體函數(shù)表示為公式(8)。

(8)

n表示樣本數(shù)量,Xi表示原始輸入數(shù)據(jù),對應(yīng)重建數(shù)據(jù)。通過反向傳播算法,優(yōu)化編碼器和解碼器的參數(shù),使得重建誤差最小化。

2.局部離群因子

在構(gòu)建Autoencoder-LOF的無監(jiān)督流量異常檢測模型時(shí),用到局部離群因子(Local Outlier Factor, LOF)這一基于密度的異常檢測算法,通過比較樣本與其鄰域樣本的局部密度來判斷其是否為異常點(diǎn)。LOF算法的核心在于計(jì)算每個(gè)樣本的局部可達(dá)密度和局部離群因子,表示為公式(9):

(9)

dist(Xi,Xj)表示樣本距離,k-dist(Xj)表示Xj與k的距離,通過不可達(dá)密度的計(jì)算反映樣本在其局部區(qū)域內(nèi)的密度分布情況。

總體來看,Autoencoder在特征壓縮、自監(jiān)督學(xué)習(xí)和重建誤差檢測方面展現(xiàn)出顯著優(yōu)勢,特別是對難以獲取標(biāo)注數(shù)據(jù)的場景,提供一種高效、靈活的異常檢測方法。通過與LOF算法結(jié)合,能在低維特征空間中快速且高效地檢測異常點(diǎn),進(jìn)一步提升異常檢測準(zhǔn)確性和魯棒性[5]。

四、實(shí)驗(yàn)設(shè)計(jì)

(一)需求分析

為驗(yàn)證上述基于LSTM-RNN的有監(jiān)督流量異常檢測模型異常檢測算法優(yōu)化與集成基于Autoencoder-LOF的無監(jiān)督流量異常檢測模型這一方案的可行性,研究根據(jù)當(dāng)前網(wǎng)絡(luò)空間安全實(shí)際需求展開分析,采用瀏覽器/服務(wù)器(B/S)結(jié)構(gòu)搭建框架,具體如圖1所示。

(二)模塊設(shè)計(jì)

為了實(shí)現(xiàn)上述實(shí)驗(yàn)?zāi)繕?biāo),實(shí)驗(yàn)系統(tǒng)需包含以下幾個(gè)主要模塊:

1.流量采集模塊。選擇Wireshark工具實(shí)時(shí)捕獲網(wǎng)絡(luò)流量數(shù)據(jù),并生成原始數(shù)據(jù)文件。該模塊支持多種網(wǎng)絡(luò)協(xié)議,進(jìn)行數(shù)據(jù)過濾與信號解析。

2.數(shù)據(jù)處理模塊。使用Pandas和NumPy工具進(jìn)行數(shù)據(jù)清洗、歸一化和特征提取,對捕獲的原始數(shù)據(jù)進(jìn)行預(yù)處理。

3.異常檢測模塊。使用TensorFlow工具構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型,實(shí)現(xiàn)LSTM-RNN模型和Autoencoder-LOF模型的訓(xùn)練和異常檢測。前者利用標(biāo)注數(shù)據(jù)集進(jìn)行監(jiān)督學(xué)習(xí),進(jìn)行時(shí)序特征提取和異常檢測;后者則利用無標(biāo)簽數(shù)據(jù)集進(jìn)行自監(jiān)督學(xué)習(xí),訓(xùn)練自動編碼器進(jìn)行特征學(xué)習(xí),然后在低維特征空間中應(yīng)用LOF算法進(jìn)行異常檢測。

4.性能評估模塊。使用Scikit-learn工具計(jì)算性能指標(biāo)和評估模型效果,對檢測結(jié)果進(jìn)行評估,計(jì)算準(zhǔn)確率、召回率、精確率和F1分?jǐn)?shù),并通過圖表展示模型性能,能直接觀察模型性能情況,保證實(shí)驗(yàn)結(jié)果可靠性。

(三)實(shí)驗(yàn)環(huán)境

為保證模型訓(xùn)練和測試過程的順利,選用高性能計(jì)算服務(wù)器,配置多核CPU和大容量內(nèi)存,以支持大規(guī)模數(shù)據(jù)處理和深度學(xué)習(xí)模型訓(xùn)練,并使用NVIDIA GPU加速卡Tesla V100,以加速深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程。軟件配置方面,操作系統(tǒng)采用Linux(如Ubuntu 20.04),提供穩(wěn)定的運(yùn)行環(huán)境;深度學(xué)習(xí)框架選擇TensorFlow,用于構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型;數(shù)據(jù)處理庫使用Pandas和NumPy,用于數(shù)據(jù)預(yù)處理和特征提取;數(shù)據(jù)庫選擇MySQ用于存儲實(shí)驗(yàn)數(shù)據(jù)、模型參數(shù)和檢測結(jié)果[6]。

(四)結(jié)果展示與分析

在測試數(shù)據(jù)集上,分別計(jì)算LSTM-RNN模型和融合模型(FusionNet,即LSTM-RNN與Autoencoder-LOF模型融合后)的準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)和F1分?jǐn)?shù)(F1-Score),并記錄兩種模型在訓(xùn)練和測試過程中的計(jì)算時(shí)間。具體實(shí)驗(yàn)過程為使用KDD Cup 99數(shù)據(jù)集,將其分為訓(xùn)練集和測試集,分別用于模型訓(xùn)練和性能測試。記錄每個(gè)模型在測試集上的預(yù)測結(jié)果并記錄計(jì)算時(shí)間。訓(xùn)練集樣本數(shù)為50000,測試集樣本數(shù)為10000,異常流量比例為20%。

為了直觀展示不同模型的性能差異,根據(jù)結(jié)果生成表1。

從表格中能看出,F(xiàn)usionNet在各項(xiàng)指標(biāo)上均優(yōu)于LSTM-RNN模型。在準(zhǔn)確率、召回率、精確率和F1分?jǐn)?shù)上都有顯著提升,尤其是在F1分?jǐn)?shù)上提升明顯,表明FusionNet在實(shí)際應(yīng)用中具有更高的檢測精度和可靠性。通過融合Autoencoder-LOF模型提取的特征,可增強(qiáng)LSTM-RNN模型的特征表達(dá)能力,提高異常檢測的準(zhǔn)確性和魯棒性。然而,F(xiàn)usionNet模型在訓(xùn)練和測試過程中耗時(shí)較LSTM-RNN模型更長。造成這一現(xiàn)象的原因在于,模型在訓(xùn)練過程中增加Autoencoder的訓(xùn)練步驟,以及在測試過程中增加特征融合步驟。因此,在計(jì)算效率方面,F(xiàn)usionNet稍遜于LSTM-RNN模型,但其檢測性能方面取得一定優(yōu)勢,能夠彌補(bǔ)這一不足。

五、結(jié)語

深度學(xué)習(xí)技術(shù)在網(wǎng)絡(luò)流量異常檢測領(lǐng)域展現(xiàn)出巨大的潛力和應(yīng)用前景。通過引入LSTM-RNN模型進(jìn)行時(shí)序特征提取,顯著提高流量異常檢測的精度和魯棒性。同時(shí),集成基于Autoencoder-LOF的無監(jiān)督流量異常檢測模型,能夠?qū)⒆员O(jiān)督學(xué)習(xí)和密度檢測相結(jié)合,以解決數(shù)據(jù)標(biāo)簽稀缺問題,提升模型性能。

參考文獻(xiàn)

[1]付鈺,王坤,段雪源,等.面向軟件定義網(wǎng)絡(luò)的異常流量檢測研究綜述[J].通信學(xué)報(bào),2024,45(03):208-226.

[2]羅艷芳.不同分類器模型對網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別方法[J].信息與電腦(理論版),2023,35(09):211-213.

[3]張傳國,劉海濤,姜珊,等.面向邊緣集群的SDN網(wǎng)絡(luò)異常流實(shí)時(shí)檢測與緩解[J].電腦編程技巧與維護(hù),2022(07):173-176.

[4]付建平,趙海燕,曹健,等.面向業(yè)務(wù)過程異常檢測的深度學(xué)習(xí)模型BPAD-LS[J].小型微型計(jì)算機(jī)系統(tǒng),2022,43(05):902-912.

[5]聶豪,熊昕,郭原東,等.基于深度學(xué)習(xí)的視頻異常行為識別算法[J].現(xiàn)代電子技術(shù),2020,43(24):110-112+116.

[6]黃璇麗,李成明,姜青山.基于深度學(xué)習(xí)的網(wǎng)絡(luò)流時(shí)空特征自動提取方法[J].集成技術(shù),2020,9(02):60-69.

作者單位:晉中信息學(xué)院

責(zé)任編輯:張津平、尚丹

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
夏河县| 大姚县| 龙口市| 郴州市| 乐平市| 中西区| 自贡市| 江山市| 出国| 修水县| 桂阳县| 新乐市| 广宁县| 麻栗坡县| 醴陵市| 个旧市| 巴里| 缙云县| 铜川市| 巴林左旗| 上饶县| 吉水县| 云和县| 英吉沙县| 岳普湖县| 罗甸县| 钦州市| 武义县| 哈巴河县| 米易县| 密山市| 张家界市| 温泉县| 建湖县| 防城港市| 汾阳市| 九寨沟县| 神池县| 太康县| 平潭县| 化州市|