国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

入侵檢測在機器學(xué)習(xí)和深度學(xué)習(xí)中的發(fā)展

2022-09-07 05:05
現(xiàn)代計算機 2022年13期
關(guān)鍵詞:卷積特征提取向量

趙 輝

(陜西理工大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院,漢中 723001)

0 引言

近年來,隨著電子計算機和通信技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們生活中必不可少的一部分。隨著互聯(lián)網(wǎng)的影響越來越深入,互聯(lián)網(wǎng)安全問題也成為亟待解決的研究內(nèi)容,比如惡意程序傳播、漏洞風(fēng)險、DDoS 攻擊和零日攻擊等。國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心(CNCERT/CC)編寫的《2020 年中國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報告》中指出,近年來在我國網(wǎng)絡(luò)空間中出現(xiàn)的各種網(wǎng)絡(luò)安全問題呈上升趨勢。因此,網(wǎng)絡(luò)安全相關(guān)問題的識別與處理就顯得尤為重要。

為了抵御和預(yù)防計算機在互聯(lián)網(wǎng)中可能遭受的不安全攻擊,入侵檢測(intrusion detection,ID)作為一種主動的防御技術(shù)受到廣泛關(guān)注。入侵檢測系統(tǒng)(intrusion detection system, IDS)作為一種主動的安全檢測系統(tǒng),能夠?qū)赡茉馐艿木W(wǎng)絡(luò)攻擊采取預(yù)防措施。IDS能夠檢測和分析計算機的網(wǎng)絡(luò)活動,從而保護計算機中的敏感信息,避免未授權(quán)用戶的訪問、系統(tǒng)的誤操作和惡意入侵。因此,入侵檢測系統(tǒng)能夠防御和預(yù)防對計算機系統(tǒng)的非法攻擊、惡意破壞和誤操作以及一些違反安全要求的行為。

圖1 2012—2020年CNVD[2]收錄的安全漏洞數(shù)量

為了完成對IDS高效的要求,研究人員提出在IDS 中使用機器學(xué)習(xí)和深度學(xué)習(xí)算法。在IDS中,機器學(xué)習(xí)和深度學(xué)習(xí)算法以大數(shù)據(jù)為驅(qū)動學(xué)習(xí)網(wǎng)絡(luò)流量中內(nèi)在的可能具備不安全操作的數(shù)據(jù)格式,而且取得了較大的進步。機器學(xué)習(xí)算法和深度學(xué)習(xí)算法使用網(wǎng)絡(luò)流量作為數(shù)據(jù),對數(shù)據(jù)的正常行為和不正常行為進行預(yù)測,從而完成入侵檢測任務(wù)。機器學(xué)習(xí)算法使用特征建模的方法提取網(wǎng)絡(luò)流量中的數(shù)據(jù)特征,并對特征信息進行學(xué)習(xí)與分類;深度學(xué)習(xí)算法使用深度結(jié)構(gòu)對原始數(shù)據(jù)中的復(fù)雜特征進行學(xué)習(xí),并完成分類。

本文借助WEB OF SCIENCE 數(shù)據(jù)庫分別對入侵檢測算法(IDS),機器學(xué)習(xí)和入侵檢測(ML),深度學(xué)習(xí)和入侵檢測(DL)三個方面的論文進行檢索,得到的檢索結(jié)果如圖2所示。從圖2可以看出,與入侵檢測相關(guān)的論文數(shù)量不斷增加,說明入侵檢測相關(guān)研究的關(guān)注在不斷上升。

圖2 2012—2021年入侵檢測相關(guān)論文發(fā)表情況

近年來,盡管各種各樣的機器學(xué)習(xí)和深度學(xué)習(xí)算法被應(yīng)用在入侵檢測中,但是隨著攻擊手段的增加和網(wǎng)絡(luò)流量的大幅度上升對入侵檢測中算法的應(yīng)用提出了更高的要求。目前,由于深度學(xué)習(xí)算法的可解釋性問題和對抗攻擊的存在,深度學(xué)習(xí)算法在入侵檢測系統(tǒng)中的應(yīng)用仍處于研究階段。本文的主要研究目的是為入侵檢測系統(tǒng)在機器學(xué)習(xí)和深度學(xué)習(xí)算法中的解決方案提供研究的發(fā)展趨勢和粗略總結(jié)。本文主要對目前基于機器學(xué)習(xí)和深度學(xué)習(xí)算法的入侵檢測系統(tǒng)進行了系統(tǒng)的總結(jié),對部分論文中提出的方法、不足、評價標準和使用的數(shù)據(jù)集進行了描述,對入侵檢測系統(tǒng)在未來可能的研究方向做出展望。

1 入侵檢測系統(tǒng)的分類

計算機系統(tǒng)與外部網(wǎng)絡(luò)進行交互的主要方式是數(shù)據(jù)通信,因此只有保證通信過程中數(shù)據(jù)的安全性才能夠保證計算機系統(tǒng)不受攻擊。IDS通過對網(wǎng)絡(luò)流量進行分析,實現(xiàn)對不安全數(shù)據(jù)的檢測和判別。

1.1 數(shù)據(jù)處理方式

入侵檢測系統(tǒng)中常使用的數(shù)據(jù)集是KDD CUP數(shù)據(jù)集,在數(shù)據(jù)被機器學(xué)習(xí)和深度學(xué)習(xí)算法使用前需要進行數(shù)據(jù)預(yù)處理,包括字符數(shù)值化、連續(xù)型數(shù)據(jù)標準化和歸一化處理,字符數(shù)值化是將網(wǎng)絡(luò)流量中的字符串信息轉(zhuǎn)換為數(shù)字表示,連續(xù)數(shù)據(jù)標準化處理是解決不同單位的數(shù)據(jù)的解釋困難,歸一化處理能夠?qū)⑺凶兞縿澐值剑?,1]區(qū)間內(nèi),以減少數(shù)據(jù)的數(shù)值大小對數(shù)據(jù)訓(xùn)練的影響。

1.2 傳統(tǒng)的分類識別方法

隨著不斷的深入研究,IDS的檢測方法可分為特征檢測和異常檢測,特征檢測是使用已知的攻擊特征作為原始數(shù)據(jù)進行特征提取與模型訓(xùn)練,此方法能夠?qū)σ阎墓暨M行高精度識別,但對于存活周期短的零日攻擊性能差;異常檢測是對合格的系統(tǒng)行為進行定義,如果違反已定義的行為則視為攻擊,此方法的優(yōu)點是能夠檢測未知的,不符合預(yù)期定義的攻擊行為,但很有可能將正常行為識別為攻擊。

IDS根據(jù)數(shù)據(jù)來源的不同分為基于主機和基于網(wǎng)絡(luò)的IDS,基于主機的IDS 在主機上鑒別和收集數(shù)據(jù),進行本地分析,也可以在其它計算機上進行分析,此方法能夠?qū)ο到y(tǒng)內(nèi)部用戶的使用進行監(jiān)督,但會消耗系統(tǒng)資源;基于網(wǎng)絡(luò)的IDS通過對網(wǎng)絡(luò)流量進行監(jiān)控來檢測不合法行為,此方法能對多種數(shù)據(jù)行為進行檢測,但會造成網(wǎng)絡(luò)延遲而且對加密數(shù)據(jù)包無法解析。

2 基于機器學(xué)習(xí)的入侵檢測系統(tǒng)

機器學(xué)習(xí)是人工智能算法的一部分,能夠使機器使用數(shù)學(xué)模型從數(shù)據(jù)集中學(xué)習(xí)和提取有用的特征信息。在IDS中表現(xiàn)較好的機器學(xué)習(xí)算法有支持向量機和隨機森林等算法。

支持向量機是一種在特征空間求解最大分割超平面的監(jiān)督機器學(xué)習(xí)算法,常被用于求解線性和非線性問題。在非線性問題中,使用核函數(shù)將低維空間映射到高維特征空間,使用支持向量求解決策邊界并計算最大分割的超平面。在ID 算法中,支持向量機常常被用于對正確流量和惡意流量的預(yù)測,但支持向量機對于數(shù)據(jù)的分類表現(xiàn)不滿足于實際應(yīng)用需求,因此研究人員提出了結(jié)合特征提取的支持向量機。文獻[8]為了獲取具有最大區(qū)分能力的入侵檢測數(shù)據(jù)集,使用遞歸支持向量機進行ID 算法設(shè)計。由于支持向量機中存在參數(shù)設(shè)置困難的問題,文獻[9]提出結(jié)合改進的灰狼算法和支持向量機的ID 算法,首先,使用降噪自編碼器進行特征提取,然后,使用灰狼算法對支持向量機的參數(shù)進行優(yōu)化,最后使用支持向量機對低維特征進行分類。文獻[10]使用空間降維結(jié)合支持向量機進行入侵檢測,首先使用局部線性嵌入降維得到降維后數(shù)據(jù),然后設(shè)置嵌入運算的鄰居樹,最后結(jié)合多種核函數(shù)對支持向量機的性能進行檢測。

隨機森林算法由多個決策樹組成,每一決策樹的算法不同,但在訓(xùn)練決策樹時從訓(xùn)練數(shù)據(jù)集中有放回地選取一部分樣本,使用每一樣本的部分特征,由于每一子樹使用的樣本和特征不同因此產(chǎn)生過擬合的概率較低,抗噪音能力強。由于決策樹算法本身的特征提取能力較差,因此隨機森林算法常常與其它特征提取算法結(jié)合設(shè)計ID 算法。為了克服樣本數(shù)據(jù)不平衡的問題,文獻[11]提出一種多層分類策略的隨機森林算法進行入侵檢測。該算法使用隨機森林建立多層模型,使用平衡后的樣本數(shù)據(jù)進行特征選擇,使每一樣本都能得到相應(yīng)的特征子集,不斷進行迭代直至將所有樣本分類。文獻[12]提出結(jié)合聚類和隨機森林的ID 算法能夠?qū)ι贁?shù)類網(wǎng)絡(luò)攻擊、入侵進行分類,而且能夠?qū)Σ黄胶獾臄?shù)據(jù)集進行判斷。文獻[13]提出了一種結(jié)合主成分分析和隨機森林分類算法的ID 算法,實驗結(jié)果證明,與其它機器學(xué)習(xí)算法相比較,此方法具有更高的準確性。

機器學(xué)習(xí)算法中還有K-means,K-近鄰等算法能夠進行ID 算法設(shè)計,文獻[14]提出改進的K-means 算法進行入侵檢測,實驗證明此算法能夠降低誤報率。文獻[15]提出基于局部搜索算法的元優(yōu)化特征權(quán)重的K-近鄰算法,實驗結(jié)果證明此算法能夠提升準確率,降低誤報率。

3 基于深度學(xué)習(xí)的入侵檢測系統(tǒng)

深度學(xué)習(xí)算法是機器學(xué)習(xí)算法的分支之一,但是由于近年來深度學(xué)習(xí)算法在各領(lǐng)域中表現(xiàn)出的優(yōu)異性能,也被用于ID 算法設(shè)計中。深度學(xué)習(xí)算法常常采用神經(jīng)網(wǎng)絡(luò)模型對數(shù)據(jù)中的深層結(jié)構(gòu)進行學(xué)習(xí)。在入侵檢測系統(tǒng)中常常用到的深度學(xué)習(xí)算法主要有卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和無監(jiān)督學(xué)習(xí)模型等。

3.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)是由卷積、池化和激活函數(shù)等組成的前饋神經(jīng)網(wǎng)絡(luò),能夠綜合考慮全局感受野,并在每一層的訓(xùn)練中使用同一組優(yōu)化權(quán)值,而且卷積神經(jīng)網(wǎng)絡(luò)具有平移不變性,能夠?qū)?shù)據(jù)集中的稀疏特征進行提取。在ID 算法中,卷積神經(jīng)網(wǎng)絡(luò)一般由數(shù)據(jù)預(yù)處理、特征學(xué)習(xí)和數(shù)據(jù)預(yù)測三部分組成。文獻[16]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的入侵檢測系統(tǒng),采用神經(jīng)元映射卷積神經(jīng)網(wǎng)絡(luò)為結(jié)構(gòu),具有易于訓(xùn)練和泛化能力強等特點,實驗結(jié)果證明此方法具有良好的特征表示學(xué)習(xí)和分類能力。文獻[17]提出將多尺度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到ID 算法,此方法首先進行數(shù)據(jù)轉(zhuǎn)換,將網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)換為卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入格式,然后使用多個卷積核對數(shù)據(jù)進行特征提取,在數(shù)據(jù)模型學(xué)習(xí)到相應(yīng)的模型信息用于入侵檢測。實驗結(jié)果表明此方法能夠降低誤檢率,提升準確率。文獻[18]針對卷積神經(jīng)網(wǎng)絡(luò)設(shè)計入侵檢測時出現(xiàn)的檢測效率低、過擬合和泛化能力弱的問題,提出了一種改進卷積神經(jīng)網(wǎng)絡(luò)的ID 算法,將卷積神經(jīng)網(wǎng)絡(luò)采用跨層聚合設(shè)計,將預(yù)處理后的輸入數(shù)據(jù)在網(wǎng)絡(luò)中進行訓(xùn)練,得到訓(xùn)練模型。實驗結(jié)果表明能夠得到高準確率和低誤報率。

3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)能夠擴展傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)的容量,而且能夠?qū)π蛄袛?shù)據(jù)特征進行更好的建模。循環(huán)神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出單元組成,隱含層單元在設(shè)計時具有記憶功能。在ID 算法中,RNN 常常被用于監(jiān)督學(xué)習(xí)的分類任務(wù)和特征提取,RNN 常常能夠處理有限長度的序列數(shù)據(jù),而且當(dāng)序列數(shù)據(jù)過長時RNN 只能夠?qū)Χ唐趦?nèi)容進行記憶,因此提出了LSTM 和GRU 用于解決。文獻[19]提出了基于RNN 的ID 算法,使用多種隱含層結(jié)點數(shù)和學(xué)習(xí)率進行測試,實驗結(jié)果證明,使用80個隱含層結(jié)點和學(xué)習(xí)率為0.1得到最優(yōu)結(jié)果,但是此文獻中沒有與其它深度學(xué)習(xí)方法進行比較。文獻[20]提出采用多層堆疊的深度門控循環(huán)單元ID 算法,并且簡化深度門控循環(huán)單元,能夠盡可能地保留模型的學(xué)習(xí)能力。實驗結(jié)果證明所提方法能夠提升檢測效率。文獻[21]針對特征提取復(fù)雜和訓(xùn)練參數(shù)多等問題,提出一種卷積神經(jīng)網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)結(jié)合的網(wǎng)絡(luò)入侵檢測方法(GCNN-LSTM),使用卷機神經(jīng)網(wǎng)絡(luò)進行特征提取,采用LSTM 分類,實驗結(jié)果證明,此方法具有較好的檢測結(jié)果。

3.3 無監(jiān)督學(xué)習(xí)

近年來,無監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)算法的發(fā)展中起到了舉足輕重的作用,無監(jiān)督學(xué)習(xí)算法主要包括自動編碼器和生成對抗網(wǎng)絡(luò)等,無監(jiān)督學(xué)習(xí)的主要目標是根據(jù)對應(yīng)的輸入使模型的輸出結(jié)果盡可能符合特征分布要求。自動編碼器由編碼器和解碼器兩部分組成,其中編碼器將輸入數(shù)據(jù)轉(zhuǎn)換為向量,解碼器將向量重新轉(zhuǎn)換為數(shù)據(jù)。生成對抗網(wǎng)絡(luò)分為生成器和判別器,生成器根據(jù)輸入數(shù)據(jù)生成對應(yīng)輸出數(shù)據(jù),判別器對輸出數(shù)據(jù)的特征是否符合要求進行判斷。在ID 算法中無監(jiān)督學(xué)習(xí)方法主要用于特征提取任務(wù),對提取后的特征進行分類獲取更高的分類精度。文獻[22]提出了基于生成對抗網(wǎng)絡(luò)的ID 算法,在訓(xùn)練階段使用神經(jīng)網(wǎng)絡(luò)記憶數(shù)據(jù)特征,在測試階段,對生成器生成的數(shù)據(jù)進行分辨,得到符合要求的數(shù)據(jù),實驗結(jié)果證明,此方法具有較好的分類表現(xiàn)。文獻[23]提出了一種結(jié)合自動編碼器和殘差神經(jīng)網(wǎng)絡(luò)的ID 算法,使用自動編碼器進行特征提取,殘差神經(jīng)網(wǎng)絡(luò)采用提取后的特征進行模型訓(xùn)練,此方法在準確率和誤報率等方面具有較好表現(xiàn)。文獻[24]提出了基于自動編碼器和隨機森林結(jié)合的ID 算法,采用兩個非同構(gòu)的自動編碼器,順序連接,隨機森林用于模型預(yù)測,實驗結(jié)果證明,此方法在入侵檢測效果中優(yōu)于現(xiàn)有的深度學(xué)習(xí)算法。

4 結(jié)語

本文主要對AI 算法包括機器學(xué)習(xí)和深度學(xué)習(xí)算法在ID 算法中的應(yīng)用進行了描述,通過研究本文發(fā)現(xiàn),AI 算法驅(qū)動的IDS 的有效性主要體現(xiàn)在數(shù)據(jù)集的合適程度,對于機器學(xué)習(xí)算法而言,算法可以在較小的數(shù)據(jù)集中進行訓(xùn)練得到較好的結(jié)果,但是對于較大的數(shù)據(jù)集而言機器學(xué)習(xí)算法適應(yīng)力較差;對于深度學(xué)習(xí)算法而言,在較大規(guī)模的數(shù)據(jù)集中具有更好的表現(xiàn),能夠從原始數(shù)據(jù)集中提取有效的數(shù)據(jù)模式,為了使模型能夠較好地抵抗零日攻擊,深度學(xué)習(xí)算法需要不斷地從新數(shù)據(jù)中進行模型學(xué)習(xí)。未來,由于具備深度學(xué)習(xí)算法的數(shù)據(jù)適應(yīng)力和實時學(xué)習(xí)的能力,深度強化學(xué)習(xí)將會成為IDS的主要發(fā)展方向。

猜你喜歡
卷積特征提取向量
同步定位與建圖特征提取和匹配算法研究
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準確測定
向量的分解
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識別
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計數(shù)
基于MED—MOMEDA的風(fēng)電齒輪箱復(fù)合故障特征提取研究
卷積神經(jīng)網(wǎng)絡(luò)概述
基于曲率局部二值模式的深度圖像手勢特征提取
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
土默特左旗| 通辽市| 项城市| 葫芦岛市| 临夏县| 安阳县| 中卫市| 德安县| 宣恩县| 阿拉尔市| 桂林市| 保康县| 贵阳市| 阿坝县| 兴义市| 安顺市| 三穗县| 衡南县| 鲁山县| 长春市| 家居| 叶城县| 江达县| 龙川县| 额济纳旗| 江阴市| 凤山市| 汤阴县| 镇宁| 泰兴市| 彭阳县| 长汀县| 都江堰市| 丰县| 湘潭市| 威远县| 深州市| 新河县| 大田县| 枝江市| 双柏县|