国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于集成降噪自編碼的網(wǎng)絡(luò)入侵多模式匹配算法設(shè)計

2020-07-13 07:20李青徐子聞
關(guān)鍵詞:模式匹配分類器編碼

李青,徐子聞

(1.上海海洋大學 信息化管理辦公室,上海 201306; 2.上海杉達學院, 上海 201209)

0 引言

近些年來,在互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展下,網(wǎng)絡(luò)在大眾的日常工作和生活中起到了不可或缺的作用。正是因為網(wǎng)絡(luò)的不斷發(fā)展,帶來的一系列問題也隨之而來,導致大規(guī)模網(wǎng)絡(luò)私有信息以及個人信息數(shù)據(jù)被破壞,亦或是被侵犯,使得網(wǎng)絡(luò)安全問題變得越來越嚴重[1-3]?,F(xiàn)在網(wǎng)絡(luò)安全問題逐漸突出,大眾越來越重視網(wǎng)絡(luò)異常檢測與防護。其中,入侵檢測識別成為了該領(lǐng)域的一個研究熱點,相關(guān)專家和學者紛紛投入到了網(wǎng)絡(luò)入侵檢測中,并獲取了很多有優(yōu)秀成果[4]。夏景明等[5]將改進隨機森林法用在網(wǎng)絡(luò)安全檢測中,利用高斯混合模型聚類法實現(xiàn)數(shù)據(jù)分簇,為每個簇訓練出不同隨機森林分類器,根據(jù)這些已經(jīng)訓練完成的分類器實現(xiàn)網(wǎng)絡(luò)入侵識別。其中,訓練與測試數(shù)據(jù)使用的是NSL-KDD網(wǎng)絡(luò)入侵集合,過程中先基于屬性比率數(shù)據(jù)具備的特征識別提取法實現(xiàn)數(shù)據(jù)處理,再實行高斯混合分類,最后根據(jù)隨機森林分類器實現(xiàn)分類結(jié)果的訓練,得到最終的安全檢測結(jié)果。朱建軍等[6]將網(wǎng)絡(luò)異常行為模式引到網(wǎng)絡(luò)入侵識別特征提取中,將Modbus/TCP工業(yè)控制網(wǎng)絡(luò)當作檢測目標對象,利用深度解析其異常行為具體操作模式,得到通信流量入侵識別數(shù)據(jù)特征,且以去除冗余識別信息為目的,引入粗糙集理論法實現(xiàn)識別特征的屬性約簡,根據(jù)支持向量機法結(jié)合自適應(yīng)遺傳算法實現(xiàn)模型參數(shù)的優(yōu)化,設(shè)計并構(gòu)建基于RST-SVM的自學習入侵識別模型。朱亞東[7]將粗糙集理論與簡化粒子群算法引入網(wǎng)絡(luò)入侵檢測中,根據(jù)粗糙集理論由入侵數(shù)據(jù)集合中篩選出分類效果比較好的簡約特征集合。通過訓練數(shù)據(jù)實現(xiàn)BP神經(jīng)網(wǎng)絡(luò)分類器的訓練,同時根據(jù)改進之后的SPSO對神經(jīng)網(wǎng)絡(luò)權(quán)值與閾值參數(shù)的權(quán)值和閾值參數(shù)進行優(yōu)化。在研究的最后,將提取到的特征當作輸入,通過優(yōu)化之后的BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)了網(wǎng)絡(luò)入侵分類檢測。

面向網(wǎng)絡(luò)入侵檢測的方法和算法有很多,為了進一步提升入侵檢測準確性和可靠性,筆者借鑒當前相關(guān)研究成果存在的優(yōu)越性,提出并設(shè)計基于集成降噪自編碼的網(wǎng)絡(luò)入侵多模式匹配算法。

1 基于集成降噪自編碼的網(wǎng)絡(luò)入侵多模式匹配

為了提高網(wǎng)絡(luò)入侵精確性,將集成降噪自編碼網(wǎng)絡(luò)和多模式匹配相結(jié)合,先通過降噪自編碼網(wǎng)絡(luò)形成分類器,實現(xiàn)網(wǎng)絡(luò)入侵的初步識別,然后利用多模式匹配實現(xiàn)初步識別結(jié)果的最終匹配,完成網(wǎng)絡(luò)入侵檢測。

1.1 基于集成降噪自編碼的網(wǎng)絡(luò)入侵檢測

①自編碼網(wǎng)絡(luò)AE

圖1 自編碼網(wǎng)絡(luò)架構(gòu)

該網(wǎng)絡(luò)基本模型為三層前向網(wǎng)絡(luò)架構(gòu),其中包含輸入層X、中間層,即隱層Y,還有輸出層Z,輸入層與輸出層的維數(shù)是相同的,隱藏層的維數(shù)比較小,圖1為自編碼網(wǎng)絡(luò)架構(gòu)。對AE的理解可劃分成編碼與解碼兩個階段,該網(wǎng)絡(luò)的核心思想為持續(xù)逼近恒等函數(shù),隱藏層進行降維的過程中應(yīng)該盡量完整地將特征信息保留下來[8]。

在編碼階段,歸一化之后的n維輸入向量x在非線性編碼函數(shù)fθ下映射至m維隱藏層向量y,fθ表示形式為:

y=fθ(x)=s(Wx+b),

(1)

其中,θ={W,b}代表映射參數(shù),W代表m×n維權(quán)重矩陣,b代表m維偏置向量,s代表編碼網(wǎng)絡(luò)非線性激活函數(shù),一般情況下使用sigmoid函數(shù),由此y也能夠滿足歸一化的要求。

在解碼階段,m維的隱藏層向量y利用相同的方式反向重構(gòu)成n維的向量z,其中非線性解碼函數(shù)gθ′能夠表示為:

z=gθ′(y)=s′(W′y+b′),

(2)

其中,θ′={W′,b′}描述的是解碼映射參數(shù),W′代表m×n維解碼權(quán)重,b′代表n維偏置向量,s′代表解碼網(wǎng)絡(luò)中激活函數(shù)。

在自編碼網(wǎng)絡(luò)訓練的整個過程,即為持續(xù)調(diào)節(jié)參數(shù){θ,θ′}={W,b,W′,b′}盡量擬合為恒等函數(shù),最小化x、z間重構(gòu)誤差L(x,z),一般L(x,z)可使用均方誤差。其中,一個N次迭代訓練的過程能夠表示為:

(3)

在編碼、解碼后,自編碼網(wǎng)絡(luò)將x壓縮成y然后重構(gòu)成z。因維度m

綜上AE模型能夠非監(jiān)督和具有自適應(yīng)性地完成樣本特征提取與降維操作。

② 降噪自編碼

綜合考慮到樣本個體差異性和噪聲對樣本輸入產(chǎn)生的影響,同一種類型的樣本通常不會出現(xiàn)嚴格一致的特征。因此需要分類器有魯棒性與泛化性能?;镜淖跃幋a網(wǎng)絡(luò)訓練直接將實際數(shù)據(jù)當作輸入實行編碼重構(gòu)操作,由此在面向噪聲干擾時也許會因過擬合現(xiàn)象對分類效果產(chǎn)生影響[9-10]。

利用降噪自編碼DAE(denoising auto encoder),人為地向輸入端添加噪聲解決以上問題,在實踐應(yīng)用中可通過修正原始數(shù)據(jù)中部分數(shù)據(jù)缺失(masknoise),也就是任意造成輸入缺失,即置為0。將修正完成的輸入向量記作x′,那么DAE原理可表示為:

圖2 降噪自編碼結(jié)構(gòu)示意圖

(4)

訓練DAE時,輸入向量x′為帶有人為噪聲的數(shù)據(jù),重構(gòu)誤差L(x,z)描述了編碼向量y對實際數(shù)據(jù)x重構(gòu)能力,詳細見圖2。就此可知,DAE目標為在擾動環(huán)境下對實際數(shù)據(jù)的重構(gòu)能力,因此獲取的特征具備非常好的魯棒性與泛化性能[11]。

③ 棧式堆疊與貪婪訓練操作

將多個DAE堆疊能夠獲取深層神經(jīng)網(wǎng)絡(luò),進而提取出高維的深層特征。每當訓練完成一個DAE,則編碼部分就能夠完成輸入向量向隱藏層編碼映射操作,由此僅需將編碼當作DAE訓練結(jié)果保留下來[12-13]。在已知DAE各個層次輸入與輸出均滿足歸一化的要求情況下,能夠?qū)⒁粋€DAE隱藏層編碼向量當作另外一個DAE輸入,實現(xiàn)進一步編碼與降維操作。將原始的輸入樣本記作x0,第i層DAE編碼結(jié)果記作xi,那么各層DAE編碼表示形式如下:

xi=fθi(xi-1),i=1,2,…,N。

(5)

圖3 SDAE分類器結(jié)構(gòu)示意圖

通過上述方式層層堆疊獲取的模型即為棧式降噪自編碼SDAE,針對這樣的深層網(wǎng)絡(luò)實行整體訓練會使梯度消失,由此需要通過逐層貪婪原則,針對各個層次DAE實行單獨訓練,同時保障重構(gòu)誤差能夠最小化。如果每層DAE編碼均可以得到相對好的重構(gòu)效果,那么SDAE當作整體即可完成高維特征深度提取以及降維操作,詳細見圖3。

初始化SDAE網(wǎng)絡(luò)參數(shù),訓練第一層DAE,將其隱含層作為第2個DAE的輸入,并進行同樣的訓練,直到第n層DAE訓練完成,將訓練好的n層DAE進行堆疊形成SDAE,向SDAE網(wǎng)絡(luò)頂層添加輸出層,利用樣本數(shù)據(jù)和標簽對整個網(wǎng)絡(luò)進行有監(jiān)督的微調(diào)。

④ 分類器的預(yù)訓練及微調(diào)整

傳統(tǒng)機器學習基本理念是由原始數(shù)據(jù)至分類要通過特征提取與狀態(tài)分類這兩個步驟,以樣本為依據(jù)的機器學習一般在分類階段,而特征提取是訓練模型前的一個預(yù)處理操作。在此,逐層貪婪訓練一樣可以完成數(shù)據(jù)樣本特征提取與降維操作,主要區(qū)別為SDAE訓練過程中將用到樣本數(shù)據(jù),因此此為一種自適應(yīng)性很強的非監(jiān)督預(yù)訓練。

當SDAE將特征輸出后與分類模型互連,就能夠完成樣本分類。舉例說明:將softmax邏輯回歸分類當作輸出,能夠獲取獨熱編碼描述分類結(jié)果的一個分類器,見圖3。綜上,N分類的獨熱編碼能夠表示為:

(6)

根據(jù)逐層貪婪訓練獲取的分類器已然可以進行相對精準的分類,然而逐層最優(yōu)無法保障堆疊后分類器總體最佳。這時假設(shè)有通過分類標簽的數(shù)據(jù),則能夠根據(jù)BP等算法針對整個分類器實行監(jiān)督式地訓練,進而實現(xiàn)進一步微調(diào)整[14-15]。由于將自編碼預(yù)訓練當作依據(jù),這時的BP訓練具備相對好的初值當作基礎(chǔ),解決陷入局部極值的問題。

⑤ 深度學習下網(wǎng)絡(luò)入侵檢測

將SDAE深度分類模型用在網(wǎng)絡(luò)入侵檢測中。分析網(wǎng)絡(luò)異常一般將數(shù)據(jù)當作對象。SDAE能夠?qū)⒏呔S特征當作出發(fā)點實現(xiàn)狀態(tài)檢測,由此能夠直接將數(shù)據(jù)序列當作分類器輸入,進而最大程度地將樣本特征信息保留了下來,提高了檢測準確率與泛化性能。

綜合上述內(nèi)容,將網(wǎng)絡(luò)數(shù)據(jù)序列當作輸入,將獨熱分類編碼當作輸出的SDAE分類器,能夠完成基于深度學習的網(wǎng)絡(luò)入侵初步檢測。

1.2 基于多模式匹配的入侵診斷

將多模式匹配算法引入至網(wǎng)絡(luò)入侵檢測中,將上述初步檢測結(jié)果當作基礎(chǔ),實現(xiàn)入侵診斷。

對于任意X″和Y″字符串,根據(jù)D(X″,Y″)描述兩個字符串間距離,該距離值代表字符串C轉(zhuǎn)換為字符串Y″時編輯的最少次數(shù)。對應(yīng)編輯法是X″中字符刪除、替換以及插入操作。由此,X″和Y″之間距離具備對稱性以及非負性,同時可以滿足三角不等式。

除了上述內(nèi)容,定義某長度是l″、z″的模式串pat[1:l″]與text[1:z″],其中z″>l″,同時有某正整數(shù)(k∈[0,m″])。在D(X″,Y″)≤k下,pat在text中有的所有匹配的終止位置i(i∈[1,n″])。假設(shè)字符均來自于有限字典表∑m″,那么∑n″描述了某長度是n″的字符串,字符串根據(jù)∑內(nèi)符號構(gòu)成。綜上,能夠利用函數(shù)f″值計算完成近似串匹配,其中允許出現(xiàn)k差別。

f″=∑m″∑n″{0,1}n″-m″+k-1,

(7)

其中f″(pat,text,k)=cm″-kcm″-k+1…cn″,同時在1

(8)

最后,根據(jù)動態(tài)規(guī)劃法,利用構(gòu)建(m″+1)×(n″+1)的編輯距離矩陣D,同時對各個元素值進行求解實現(xiàn)近似串匹配。計算方法如下所示:

(9)

將有限自動機作為依據(jù)的多模式匹配算法,也就是AC算法,通過該算法運行時預(yù)處理階段failure、output以及goto函數(shù)能夠完成入侵數(shù)據(jù)的匹配和遍歷,以此可以確定匹配數(shù)據(jù)的位置和與之有關(guān)的所有項,進而實現(xiàn)網(wǎng)絡(luò)入侵模式的最終匹配。

2 實驗結(jié)果與分析

為驗證基于集成降噪自編碼的網(wǎng)絡(luò)入侵多模式匹配算法有效性,進行下列實驗。

實驗硬件環(huán)境:1臺主機服務(wù)器,PC機,詳細配置如下:處理器為P4 2.4 G,內(nèi)存為2 G,硬盤的容量為500 G。

實驗軟件環(huán)境:操作系統(tǒng)為Windows 10 Server。

數(shù)據(jù)源和預(yù)處理:輸入8 530條用戶行為日志信息數(shù)據(jù),并對原始數(shù)據(jù)實行整理和清洗,最終將4 500條有效數(shù)據(jù)用在實驗中。

負載均衡方差反映了時刻各檢測節(jié)點的實際所分配的負載比重與理想情況下的負載比重的平均差距,可以衡量多模式匹配算法的合理性和有效性。設(shè)定t時刻系統(tǒng)的負載均衡方差為:

(10)

式中,Bi表示第i個檢測節(jié)點的處理能力在系統(tǒng)總處理能力中所占的比重,Bi(t)表示實際情況下t時刻第i個檢測節(jié)點所分得的負載量占總負載量的比重。

負載均衡方差的值越接近,說明各檢測節(jié)點所分得的負載比重與理想情況下的負載比重越接近,即我們的負載均衡機制的性能越好。

由圖4可以看出,本文方法隨著接收數(shù)據(jù)包的增多,負載均衡方差的值呈下降趨勢,始終保持在0.85~1.0。主要原因在于本文方法文中算法分為兩步實現(xiàn)網(wǎng)絡(luò)入侵檢測,利用集成降噪自編碼網(wǎng)絡(luò)實現(xiàn)網(wǎng)絡(luò)入侵的初步檢測,通過多模式匹配實現(xiàn)了入侵的匹配診斷,解決了傳統(tǒng)機器學習法在提取樣本特征時的依賴性,同時高效克服了局部極值等一系列問題,提高了算法的檢測性能和泛化性能,增強了網(wǎng)絡(luò)入侵檢測精確性。

圖4 負載均衡方差仿真結(jié)果

匹配時間對比結(jié)果如表1所示,對應(yīng)的直方圖如圖5所示。

表1 規(guī)則文件數(shù)不同時的匹配時間

由表1可以看出,不同規(guī)則文件數(shù)條件下,本文方法的匹配時間最短,為更直觀觀察匹配時間之間的關(guān)系,由表1匹配時間數(shù)據(jù)繪制圖5。

圖5 規(guī)則文件數(shù)不同時匹配時間結(jié)果

由上述可以看出,隨規(guī)則數(shù)的增加,兩種模式匹配算法的匹配速度都有所降低,本文方法的匹配時間最短,主要原因在于本文方法針對深層網(wǎng)絡(luò)實行整體訓練會使梯度消失,通過逐層貪婪原則,針對各個層次DAE實行單獨訓練,保障重構(gòu)誤差能夠最小化,減少匹配時間。

訪問文本串字符的數(shù)目表如表2所示,匹配結(jié)果對比如圖6所示。

表2 不同方法訪問文本串字符的數(shù)目表

由表2可以看出,隨著模式串數(shù)目增加,訪問文本串字符增加,且本文方法的字符串數(shù)目最多,證明對于網(wǎng)絡(luò)入侵匹配效果較好,為更直觀觀察匹配結(jié)果,由表2內(nèi)容繪制匹配結(jié)果對比圖如圖6所示。

圖6 某次匹配的結(jié)果對比

由上述可以看出,不管模式串數(shù)目的多少,訪問文本串中字符的數(shù)目增長幅度很小,幾乎成直線,而且數(shù)目遠小于文本串字符的總數(shù)。

3 結(jié)論

隨著網(wǎng)絡(luò)應(yīng)用范圍越來越廣泛,網(wǎng)絡(luò)安全問題必須予以重視。提出基于集成降噪自編碼的網(wǎng)絡(luò)入侵多模式匹配算法,高效結(jié)合了降噪自編碼網(wǎng)絡(luò)和多模式匹配算法的優(yōu)勢,在實驗中取得了很好的應(yīng)用效果。下一步可結(jié)合關(guān)聯(lián)規(guī)則以及決策樹等模型,實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的進一步挖掘,此種混合形式的數(shù)據(jù)挖掘模型有待在接下來的研究中進一步完善。

猜你喜歡
模式匹配分類器編碼
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
《全元詩》未編碼疑難字考辨十五則
子帶編碼在圖像壓縮編碼中的應(yīng)用
基于模式匹配的計算機網(wǎng)絡(luò)入侵防御系統(tǒng)
具有間隙約束的模式匹配的研究進展
Genome and healthcare
OIP-IOS運作與定價模式匹配的因素、機理、機制問題
基于差異性測度的遙感自適應(yīng)分類器選擇
基于實例的強分類器快速集成方法
基于散列函數(shù)的模式匹配算法
车险| 雅安市| 呼和浩特市| 八宿县| 阿尔山市| 颍上县| 额尔古纳市| 高安市| 伊春市| 大兴区| 沙洋县| 米林县| 南昌县| 大姚县| 五河县| 个旧市| 巨鹿县| 逊克县| 巫山县| 清镇市| 重庆市| 正定县| 徐水县| 布尔津县| 阜新市| 奈曼旗| 咸阳市| 衡阳县| 永康市| 天津市| 石渠县| 当涂县| 吴江市| 天祝| 台山市| 宁武县| 永仁县| 壶关县| 崇文区| 乌鲁木齐县| 肃北|