入侵檢測在機器學(xué)習(xí)和深度學(xué)習(xí)中的發(fā)展

2022-09-07 05:05趙輝

現(xiàn)代計算機 2022年13期

趙輝

（陜西理工大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院，漢中 723001）

0 引言

近年來，隨著電子計算機和通信技術(shù)的不斷發(fā)展，互聯(lián)網(wǎng)已經(jīng)成為人們生活中必不可少的一部分。隨著互聯(lián)網(wǎng)的影響越來越深入，互聯(lián)網(wǎng)安全問題也成為亟待解決的研究內(nèi)容，比如惡意程序傳播、漏洞風(fēng)險、DDoS 攻擊和零日攻擊等。國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心（CNCERT/CC）編寫的《2020 年中國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報告》中指出，近年來在我國網(wǎng)絡(luò)空間中出現(xiàn)的各種網(wǎng)絡(luò)安全問題呈上升趨勢。因此，網(wǎng)絡(luò)安全相關(guān)問題的識別與處理就顯得尤為重要。

為了抵御和預(yù)防計算機在互聯(lián)網(wǎng)中可能遭受的不安全攻擊，入侵檢測（intrusion detection,ID）作為一種主動的防御技術(shù)受到廣泛關(guān)注。入侵檢測系統(tǒng)（intrusion detection system, IDS）作為一種主動的安全檢測系統(tǒng)，能夠?qū)赡茉馐艿木W(wǎng)絡(luò)攻擊采取預(yù)防措施。IDS能夠檢測和分析計算機的網(wǎng)絡(luò)活動，從而保護計算機中的敏感信息，避免未授權(quán)用戶的訪問、系統(tǒng)的誤操作和惡意入侵。因此，入侵檢測系統(tǒng)能夠防御和預(yù)防對計算機系統(tǒng)的非法攻擊、惡意破壞和誤操作以及一些違反安全要求的行為。

圖1 2012—2020年CNVD［2］收錄的安全漏洞數(shù)量

為了完成對IDS高效的要求，研究人員提出在IDS 中使用機器學(xué)習(xí)和深度學(xué)習(xí)算法。在IDS中，機器學(xué)習(xí)和深度學(xué)習(xí)算法以大數(shù)據(jù)為驅(qū)動學(xué)習(xí)網(wǎng)絡(luò)流量中內(nèi)在的可能具備不安全操作的數(shù)據(jù)格式，而且取得了較大的進步。機器學(xué)習(xí)算法和深度學(xué)習(xí)算法使用網(wǎng)絡(luò)流量作為數(shù)據(jù)，對數(shù)據(jù)的正常行為和不正常行為進行預(yù)測，從而完成入侵檢測任務(wù)。機器學(xué)習(xí)算法使用特征建模的方法提取網(wǎng)絡(luò)流量中的數(shù)據(jù)特征，并對特征信息進行學(xué)習(xí)與分類；深度學(xué)習(xí)算法使用深度結(jié)構(gòu)對原始數(shù)據(jù)中的復(fù)雜特征進行學(xué)習(xí)，并完成分類。

本文借助WEB OF SCIENCE 數(shù)據(jù)庫分別對入侵檢測算法（IDS），機器學(xué)習(xí)和入侵檢測（ML），深度學(xué)習(xí)和入侵檢測（DL）三個方面的論文進行檢索，得到的檢索結(jié)果如圖2所示。從圖2可以看出，與入侵檢測相關(guān)的論文數(shù)量不斷增加，說明入侵檢測相關(guān)研究的關(guān)注在不斷上升。

圖2 2012—2021年入侵檢測相關(guān)論文發(fā)表情況

近年來，盡管各種各樣的機器學(xué)習(xí)和深度學(xué)習(xí)算法被應(yīng)用在入侵檢測中，但是隨著攻擊手段的增加和網(wǎng)絡(luò)流量的大幅度上升對入侵檢測中算法的應(yīng)用提出了更高的要求。目前，由于深度學(xué)習(xí)算法的可解釋性問題和對抗攻擊的存在，深度學(xué)習(xí)算法在入侵檢測系統(tǒng)中的應(yīng)用仍處于研究階段。本文的主要研究目的是為入侵檢測系統(tǒng)在機器學(xué)習(xí)和深度學(xué)習(xí)算法中的解決方案提供研究的發(fā)展趨勢和粗略總結(jié)。本文主要對目前基于機器學(xué)習(xí)和深度學(xué)習(xí)算法的入侵檢測系統(tǒng)進行了系統(tǒng)的總結(jié)，對部分論文中提出的方法、不足、評價標準和使用的數(shù)據(jù)集進行了描述，對入侵檢測系統(tǒng)在未來可能的研究方向做出展望。

1 入侵檢測系統(tǒng)的分類

計算機系統(tǒng)與外部網(wǎng)絡(luò)進行交互的主要方式是數(shù)據(jù)通信，因此只有保證通信過程中數(shù)據(jù)的安全性才能夠保證計算機系統(tǒng)不受攻擊。IDS通過對網(wǎng)絡(luò)流量進行分析，實現(xiàn)對不安全數(shù)據(jù)的檢測和判別。

1.1 數(shù)據(jù)處理方式

入侵檢測系統(tǒng)中常使用的數(shù)據(jù)集是KDD CUP數(shù)據(jù)集，在數(shù)據(jù)被機器學(xué)習(xí)和深度學(xué)習(xí)算法使用前需要進行數(shù)據(jù)預(yù)處理，包括字符數(shù)值化、連續(xù)型數(shù)據(jù)標準化和歸一化處理，字符數(shù)值化是將網(wǎng)絡(luò)流量中的字符串信息轉(zhuǎn)換為數(shù)字表示，連續(xù)數(shù)據(jù)標準化處理是解決不同單位的數(shù)據(jù)的解釋困難，歸一化處理能夠?qū)⑺凶兞縿澐值剑?，1］區(qū)間內(nèi)，以減少數(shù)據(jù)的數(shù)值大小對數(shù)據(jù)訓(xùn)練的影響。

1.2 傳統(tǒng)的分類識別方法

隨著不斷的深入研究，IDS的檢測方法可分為特征檢測和異常檢測，特征檢測是使用已知的攻擊特征作為原始數(shù)據(jù)進行特征提取與模型訓(xùn)練，此方法能夠?qū)σ阎墓暨M行高精度識別，但對于存活周期短的零日攻擊性能差；異常檢測是對合格的系統(tǒng)行為進行定義，如果違反已定義的行為則視為攻擊，此方法的優(yōu)點是能夠檢測未知的，不符合預(yù)期定義的攻擊行為，但很有可能將正常行為識別為攻擊。

IDS根據(jù)數(shù)據(jù)來源的不同分為基于主機和基于網(wǎng)絡(luò)的IDS，基于主機的IDS 在主機上鑒別和收集數(shù)據(jù)，進行本地分析，也可以在其它計算機上進行分析，此方法能夠?qū)ο到y(tǒng)內(nèi)部用戶的使用進行監(jiān)督，但會消耗系統(tǒng)資源；基于網(wǎng)絡(luò)的IDS通過對網(wǎng)絡(luò)流量進行監(jiān)控來檢測不合法行為，此方法能對多種數(shù)據(jù)行為進行檢測，但會造成網(wǎng)絡(luò)延遲而且對加密數(shù)據(jù)包無法解析。

2 基于機器學(xué)習(xí)的入侵檢測系統(tǒng)

機器學(xué)習(xí)是人工智能算法的一部分，能夠使機器使用數(shù)學(xué)模型從數(shù)據(jù)集中學(xué)習(xí)和提取有用的特征信息。在IDS中表現(xiàn)較好的機器學(xué)習(xí)算法有支持向量機和隨機森林等算法。

支持向量機是一種在特征空間求解最大分割超平面的監(jiān)督機器學(xué)習(xí)算法，常被用于求解線性和非線性問題。在非線性問題中，使用核函數(shù)將低維空間映射到高維特征空間，使用支持向量求解決策邊界并計算最大分割的超平面。在ID 算法中，支持向量機常常被用于對正確流量和惡意流量的預(yù)測，但支持向量機對于數(shù)據(jù)的分類表現(xiàn)不滿足于實際應(yīng)用需求，因此研究人員提出了結(jié)合特征提取的支持向量機。文獻［8］為了獲取具有最大區(qū)分能力的入侵檢測數(shù)據(jù)集，使用遞歸支持向量機進行ID 算法設(shè)計。由于支持向量機中存在參數(shù)設(shè)置困難的問題，文獻［9］提出結(jié)合改進的灰狼算法和支持向量機的ID 算法，首先，使用降噪自編碼器進行特征提取，然后，使用灰狼算法對支持向量機的參數(shù)進行優(yōu)化，最后使用支持向量機對低維特征進行分類。文獻［10］使用空間降維結(jié)合支持向量機進行入侵檢測，首先使用局部線性嵌入降維得到降維后數(shù)據(jù)，然后設(shè)置嵌入運算的鄰居樹，最后結(jié)合多種核函數(shù)對支持向量機的性能進行檢測。

隨機森林算法由多個決策樹組成，每一決策樹的算法不同，但在訓(xùn)練決策樹時從訓(xùn)練數(shù)據(jù)集中有放回地選取一部分樣本，使用每一樣本的部分特征，由于每一子樹使用的樣本和特征不同因此產(chǎn)生過擬合的概率較低，抗噪音能力強。由于決策樹算法本身的特征提取能力較差，因此隨機森林算法常常與其它特征提取算法結(jié)合設(shè)計ID 算法。為了克服樣本數(shù)據(jù)不平衡的問題，文獻［11］提出一種多層分類策略的隨機森林算法進行入侵檢測。該算法使用隨機森林建立多層模型，使用平衡后的樣本數(shù)據(jù)進行特征選擇，使每一樣本都能得到相應(yīng)的特征子集，不斷進行迭代直至將所有樣本分類。文獻［12］提出結(jié)合聚類和隨機森林的ID 算法能夠?qū)ι贁?shù)類網(wǎng)絡(luò)攻擊、入侵進行分類，而且能夠?qū)Σ黄胶獾臄?shù)據(jù)集進行判斷。文獻［13］提出了一種結(jié)合主成分分析和隨機森林分類算法的ID 算法，實驗結(jié)果證明，與其它機器學(xué)習(xí)算法相比較，此方法具有更高的準確性。

機器學(xué)習(xí)算法中還有K-means，K-近鄰等算法能夠進行ID 算法設(shè)計，文獻［14］提出改進的K-means 算法進行入侵檢測，實驗證明此算法能夠降低誤報率。文獻［15］提出基于局部搜索算法的元優(yōu)化特征權(quán)重的K-近鄰算法，實驗結(jié)果證明此算法能夠提升準確率，降低誤報率。

3 基于深度學(xué)習(xí)的入侵檢測系統(tǒng)

深度學(xué)習(xí)算法是機器學(xué)習(xí)算法的分支之一，但是由于近年來深度學(xué)習(xí)算法在各領(lǐng)域中表現(xiàn)出的優(yōu)異性能，也被用于ID 算法設(shè)計中。深度學(xué)習(xí)算法常常采用神經(jīng)網(wǎng)絡(luò)模型對數(shù)據(jù)中的深層結(jié)構(gòu)進行學(xué)習(xí)。在入侵檢測系統(tǒng)中常常用到的深度學(xué)習(xí)算法主要有卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和無監(jiān)督學(xué)習(xí)模型等。

3.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks,CNN）是由卷積、池化和激活函數(shù)等組成的前饋神經(jīng)網(wǎng)絡(luò)，能夠綜合考慮全局感受野，并在每一層的訓(xùn)練中使用同一組優(yōu)化權(quán)值，而且卷積神經(jīng)網(wǎng)絡(luò)具有平移不變性，能夠?qū)?shù)據(jù)集中的稀疏特征進行提取。在ID 算法中，卷積神經(jīng)網(wǎng)絡(luò)一般由數(shù)據(jù)預(yù)處理、特征學(xué)習(xí)和數(shù)據(jù)預(yù)測三部分組成。文獻［16］提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的入侵檢測系統(tǒng)，采用神經(jīng)元映射卷積神經(jīng)網(wǎng)絡(luò)為結(jié)構(gòu)，具有易于訓(xùn)練和泛化能力強等特點，實驗結(jié)果證明此方法具有良好的特征表示學(xué)習(xí)和分類能力。文獻［17］提出將多尺度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到ID 算法，此方法首先進行數(shù)據(jù)轉(zhuǎn)換，將網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)換為卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入格式，然后使用多個卷積核對數(shù)據(jù)進行特征提取，在數(shù)據(jù)模型學(xué)習(xí)到相應(yīng)的模型信息用于入侵檢測。實驗結(jié)果表明此方法能夠降低誤檢率，提升準確率。文獻［18］針對卷積神經(jīng)網(wǎng)絡(luò)設(shè)計入侵檢測時出現(xiàn)的檢測效率低、過擬合和泛化能力弱的問題，提出了一種改進卷積神經(jīng)網(wǎng)絡(luò)的ID 算法，將卷積神經(jīng)網(wǎng)絡(luò)采用跨層聚合設(shè)計，將預(yù)處理后的輸入數(shù)據(jù)在網(wǎng)絡(luò)中進行訓(xùn)練，得到訓(xùn)練模型。實驗結(jié)果表明能夠得到高準確率和低誤報率。

3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural networks,RNN）能夠擴展傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)的容量，而且能夠?qū)π蛄袛?shù)據(jù)特征進行更好的建模。循環(huán)神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出單元組成，隱含層單元在設(shè)計時具有記憶功能。在ID 算法中，RNN 常常被用于監(jiān)督學(xué)習(xí)的分類任務(wù)和特征提取，RNN 常常能夠處理有限長度的序列數(shù)據(jù)，而且當(dāng)序列數(shù)據(jù)過長時RNN 只能夠?qū)Χ唐趦?nèi)容進行記憶，因此提出了LSTM 和GRU 用于解決。文獻［19］提出了基于RNN 的ID 算法，使用多種隱含層結(jié)點數(shù)和學(xué)習(xí)率進行測試，實驗結(jié)果證明，使用80個隱含層結(jié)點和學(xué)習(xí)率為0.1得到最優(yōu)結(jié)果，但是此文獻中沒有與其它深度學(xué)習(xí)方法進行比較。文獻［20］提出采用多層堆疊的深度門控循環(huán)單元ID 算法，并且簡化深度門控循環(huán)單元，能夠盡可能地保留模型的學(xué)習(xí)能力。實驗結(jié)果證明所提方法能夠提升檢測效率。文獻［21］針對特征提取復(fù)雜和訓(xùn)練參數(shù)多等問題，提出一種卷積神經(jīng)網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)結(jié)合的網(wǎng)絡(luò)入侵檢測方法（GCNN-LSTM），使用卷機神經(jīng)網(wǎng)絡(luò)進行特征提取，采用LSTM 分類，實驗結(jié)果證明，此方法具有較好的檢測結(jié)果。

3.3 無監(jiān)督學(xué)習(xí)

近年來，無監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)算法的發(fā)展中起到了舉足輕重的作用，無監(jiān)督學(xué)習(xí)算法主要包括自動編碼器和生成對抗網(wǎng)絡(luò)等，無監(jiān)督學(xué)習(xí)的主要目標是根據(jù)對應(yīng)的輸入使模型的輸出結(jié)果盡可能符合特征分布要求。自動編碼器由編碼器和解碼器兩部分組成，其中編碼器將輸入數(shù)據(jù)轉(zhuǎn)換為向量，解碼器將向量重新轉(zhuǎn)換為數(shù)據(jù)。生成對抗網(wǎng)絡(luò)分為生成器和判別器，生成器根據(jù)輸入數(shù)據(jù)生成對應(yīng)輸出數(shù)據(jù)，判別器對輸出數(shù)據(jù)的特征是否符合要求進行判斷。在ID 算法中無監(jiān)督學(xué)習(xí)方法主要用于特征提取任務(wù)，對提取后的特征進行分類獲取更高的分類精度。文獻［22］提出了基于生成對抗網(wǎng)絡(luò)的ID 算法，在訓(xùn)練階段使用神經(jīng)網(wǎng)絡(luò)記憶數(shù)據(jù)特征，在測試階段，對生成器生成的數(shù)據(jù)進行分辨，得到符合要求的數(shù)據(jù)，實驗結(jié)果證明，此方法具有較好的分類表現(xiàn)。文獻［23］提出了一種結(jié)合自動編碼器和殘差神經(jīng)網(wǎng)絡(luò)的ID 算法，使用自動編碼器進行特征提取，殘差神經(jīng)網(wǎng)絡(luò)采用提取后的特征進行模型訓(xùn)練，此方法在準確率和誤報率等方面具有較好表現(xiàn)。文獻［24］提出了基于自動編碼器和隨機森林結(jié)合的ID 算法，采用兩個非同構(gòu)的自動編碼器，順序連接，隨機森林用于模型預(yù)測，實驗結(jié)果證明，此方法在入侵檢測效果中優(yōu)于現(xiàn)有的深度學(xué)習(xí)算法。

4 結(jié)語

本文主要對AI 算法包括機器學(xué)習(xí)和深度學(xué)習(xí)算法在ID 算法中的應(yīng)用進行了描述，通過研究本文發(fā)現(xiàn)，AI 算法驅(qū)動的IDS 的有效性主要體現(xiàn)在數(shù)據(jù)集的合適程度，對于機器學(xué)習(xí)算法而言，算法可以在較小的數(shù)據(jù)集中進行訓(xùn)練得到較好的結(jié)果，但是對于較大的數(shù)據(jù)集而言機器學(xué)習(xí)算法適應(yīng)力較差；對于深度學(xué)習(xí)算法而言，在較大規(guī)模的數(shù)據(jù)集中具有更好的表現(xiàn)，能夠從原始數(shù)據(jù)集中提取有效的數(shù)據(jù)模式，為了使模型能夠較好地抵抗零日攻擊，深度學(xué)習(xí)算法需要不斷地從新數(shù)據(jù)中進行模型學(xué)習(xí)。未來，由于具備深度學(xué)習(xí)算法的數(shù)據(jù)適應(yīng)力和實時學(xué)習(xí)的能力，深度強化學(xué)習(xí)將會成為IDS的主要發(fā)展方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡