国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合自注意力機制的入侵檢測數(shù)據(jù)生成方法

2023-08-01 17:56:01張宣琦繆祥華張如雪李響
化工自動化及儀表 2023年2期
關(guān)鍵詞:梯度樣本特征

張宣琦 繆祥華 張如雪 李響

摘 要 針對傳統(tǒng)入侵檢測領(lǐng)域由于數(shù)據(jù)不平衡而出現(xiàn)少數(shù)類檢測率低的問題,設(shè)計了一種基于條件生成對抗網(wǎng)絡(luò)和CatBoost算法的數(shù)據(jù)生成模型(SA?WCGAN)。首先,采用CatBoost算法對原始數(shù)據(jù)集進行特征選擇,減少模型訓(xùn)練時間。之后,利用SA?WCGAN生成模型進行數(shù)據(jù)擴充,解決數(shù)據(jù)不平衡問題,該生成模型引入自注意力機制(SA),提取攻擊樣本的全局特征,提高少數(shù)類攻擊樣本生成的質(zhì)量;同時,引入Wasserstein距離和梯度懲罰,提高模型訓(xùn)練過程的收斂速度和穩(wěn)定性。實驗結(jié)果表明:在公開基準(zhǔn)數(shù)據(jù)集NSL?KDD上,SA?WCGAN生成模型在只有少數(shù)樣本的攻擊類型上具有較高的精確率、召回率和F1分?jǐn)?shù)。同時,與現(xiàn)有5種方法的比較分析也證實了該模型的優(yōu)越性。

關(guān)鍵詞 入侵檢測 SA?WCGAN生成模型 自注意力機制 數(shù)據(jù)增強 少數(shù)類攻擊 數(shù)據(jù)不平衡 Wasserstein距離 梯度懲罰

隨著網(wǎng)絡(luò)安全威脅日益嚴(yán)重,入侵檢測作為一種可以有效識別惡意攻擊的防御手段,被廣泛應(yīng)用于目前復(fù)雜的網(wǎng)絡(luò)環(huán)境。同時,由于機器學(xué)習(xí)能夠針對不同情境進行精確的預(yù)測分析,能夠準(zhǔn)確檢測到攻擊類型,因此機器學(xué)習(xí)在現(xiàn)代入侵檢測系統(tǒng)中起著至關(guān)重要的作用。機器學(xué)習(xí)模型的學(xué)習(xí)能力大多依賴所提供的樣本數(shù)量,然而現(xiàn)實網(wǎng)絡(luò)安全防御場景中,網(wǎng)絡(luò)檢測數(shù)據(jù)很少,同時大部分類型的攻擊都是罕見的,因此入侵檢測數(shù)據(jù)訓(xùn)練樣本會出現(xiàn)少數(shù)類的現(xiàn)象,從而影響模型學(xué)習(xí)效果。

為了解決少數(shù)類的問題,目前的研究大多集中在以下兩種方法:一種是算法的改進,保留原始數(shù)據(jù)的分布特征和數(shù)據(jù)數(shù)量的同時,對分類思想采取優(yōu)化和改進,如代價敏感學(xué)習(xí)、集成學(xué)習(xí)[1]等;另一種是利用數(shù)據(jù)采樣改變原始數(shù)據(jù)分布,以增加少數(shù)類所占比例,主要通過過采樣、欠采樣或兩者融合的方式實現(xiàn)。

過采樣技術(shù)是增加少數(shù)類數(shù)量最常用最簡單的方法,通過對少數(shù)類樣本進行復(fù)制采樣來提高少數(shù)類所占比例,實現(xiàn)較為簡單,但容易出現(xiàn)過擬合現(xiàn)象。另一種方法是采用線性插值方法生成少數(shù)類,雖然能解決過擬合問題,但該方法主要解決了二分類情況下的數(shù)據(jù)不平衡問題,很難解決多分類場景中存在少數(shù)類的問題[2]。在這種情況下,生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)在數(shù)據(jù)平衡情境下發(fā)揮了極為重要的作用,并且與傳統(tǒng)數(shù)據(jù)生成方法相比,基于納什均衡理論的GAN更能生成真實的樣本,還能從復(fù)雜的概率分布中進行采樣,生成足夠接近真實的新數(shù)據(jù)樣本。同時,基于GAN的數(shù)據(jù)生成方法可以有效處理惡意流量帶來的數(shù)據(jù)不平衡問題[3]。而條件生成對抗網(wǎng)絡(luò)(Conditional generative adversarial network,CGAN)[4]在GAN的基礎(chǔ)上加入了條件變量(如類別標(biāo)簽),降低了生成樣本的不確定性,同時也可以采用條件變量來約束模型生成所需樣本。

本課題重點采用數(shù)據(jù)采樣技術(shù)解決少數(shù)類問題。首先針對原始數(shù)據(jù)集采用CatBoost算法進行特征選擇,并在CGAN模型的基礎(chǔ)上進行改進,加入Wasserstein距離和梯度懲罰,同時在CGAN模型的生成器中引入自注意力機制(self?attention,SA)來減少訓(xùn)練時間,使得模型訓(xùn)練更加穩(wěn)定,并且提高了樣本的生成質(zhì)量。本課題的改進工作主要解決了入侵檢測中樣本特征冗余和少數(shù)攻擊樣本檢測困難的問題。

1 相關(guān)工作

學(xué)者們提出了基于統(tǒng)計模型和機器學(xué)習(xí)的方法來解決存在少數(shù)類導(dǎo)致數(shù)據(jù)不平衡的問題,最簡單的就是欠采樣技術(shù)[5]和過采樣技術(shù)。欠采樣技術(shù)的局限性在于丟棄數(shù)據(jù)時,可能會導(dǎo)致丟失潛在的有用信息。過采樣技術(shù)則會導(dǎo)致過度擬合[6],但由于容易實現(xiàn),仍被大量應(yīng)用于入侵檢測領(lǐng)域,用于提高對少數(shù)攻擊類型的檢測精度。

文獻[7]將隨機過采樣SMOTE技術(shù)和欠采樣技術(shù)結(jié)合,用于異常檢測領(lǐng)域合成少數(shù)攻擊類樣本,在該文獻中,通過采用當(dāng)前流行的機器學(xué)習(xí)算法來衡量SMOTE欠采樣的有效性,如支持向量機(SVM)、決策樹、隨機森林、神經(jīng)網(wǎng)絡(luò)和K?means。文獻[8]針對網(wǎng)絡(luò)流量存在冗余特征、數(shù)據(jù)分布不均衡等問題,結(jié)合LightGBM提出一種基于自動編碼器和LightGBM的網(wǎng)絡(luò)入侵檢測模型AE?LightGBM,首先通過Borderline?SMOTE優(yōu)化數(shù)據(jù)分布,使得少數(shù)類和多數(shù)類的權(quán)重得到有效設(shè)置,然后采用自動編碼器(AE)選取特征減少了特征冗余,最后使用LightGBM模型對處理后的數(shù)據(jù)進行訓(xùn)練,該模型相較于傳統(tǒng)模型具有更高的精確率和正確率。文獻[9]針對由于入侵檢測數(shù)據(jù)集的類不平衡導(dǎo)致分類器對少數(shù)類檢測精度低的問題,提出SMOTE和高斯模型相結(jié)合的欠采樣技術(shù),并使用CNN對數(shù)據(jù)集進行分類,該模型在UNSW?NB15和CICIDS2017兩個數(shù)據(jù)集上都相較于其他數(shù)據(jù)不平衡處理方法和分類方法有較高的準(zhǔn)確率。

GAN作為一種數(shù)據(jù)生成方法,在入侵檢測領(lǐng)域被證明是行之有效的方法。文獻[10]對CGAN進行改進,引入KL散度代替原始的JS(Jensen?Shannon)散度,以確保模型生成的數(shù)據(jù)能足夠接近原始數(shù)據(jù),該模型在NSL?KDD和UNSW?NB15數(shù)據(jù)集上被證明為有效的,但該模型依舊存在過擬合和訓(xùn)練不穩(wěn)定的問題。文獻[11]為了減少數(shù)據(jù)生成模型訓(xùn)練帶來的開銷,采取判別器和生成器不進行同步訓(xùn)練的方法,對生成器進行更嚴(yán)格的訓(xùn)練迭代,以生成更可靠的數(shù)據(jù),該數(shù)據(jù)集與真實流量樣本非常相似,有效消除了由于過度訓(xùn)練判別器而帶來的開銷,并將編碼器引入生成器中,學(xué)習(xí)數(shù)據(jù)低維特征表達,該模型在NSL?KDD和CIC?DDoS2019數(shù)據(jù)集上的F1分?jǐn)?shù)分別達到了92%和99%,但是該模型無法針對特定的攻擊類型進行數(shù)據(jù)生成。

鑒于GAN在入侵檢測領(lǐng)域的顯著效果,筆者設(shè)計了SA?WCGAN攻擊樣本生成模型,以期有效處理入侵檢測領(lǐng)域中存在少數(shù)類的問題。

2 相關(guān)理論及方法

2.1 生成對抗網(wǎng)絡(luò)

原始的GAN通過輪流對生成器和判斷器進行訓(xùn)練,使其相互對抗,以此不斷優(yōu)化判別器和生成器,最后實現(xiàn)納什平衡。同時,GAN可以通過學(xué)習(xí)真實的數(shù)據(jù)分布來生成與訓(xùn)練集具有相似統(tǒng)計信息的新數(shù)據(jù),其目標(biāo)函數(shù)為:

其中,θ為生成器參數(shù);θ為判別器參數(shù);E為期望;x為從真實數(shù)據(jù)P中采樣;D(·)為判別器判斷為真實數(shù)據(jù)的概率;x為從生成數(shù)據(jù)P中采樣得到的數(shù)據(jù),x=G(z),z~N(0,I)為服從高斯分布的隨機噪聲向量,G(z)為生成的數(shù)據(jù)。

然而GAN只根據(jù)噪聲生成數(shù)據(jù),但無法控制數(shù)據(jù)生成類別。因此,CGAN在生成器和判別器中加入條件變量c,如分類標(biāo)簽,來減少GAN的不確定性。同時,CGAN可以根據(jù)條件變量c控制生成器生成特定數(shù)據(jù),其目標(biāo)函數(shù)為:

然而,傳統(tǒng)的生成對抗網(wǎng)絡(luò)(GAN)存在梯度消失、訓(xùn)練時梯度不穩(wěn)定及模型崩潰等問題,即判別器過于強大時,在訓(xùn)練生成器時無法提供有意義的梯度。Wasserstein GAN(WGAN)則對傳統(tǒng)GAN的損失函數(shù)進行了改進,有效地解決了梯度消失等問題。

2.2 WGAN

由于傳統(tǒng)GAN中采用的JS(Jensen?Shannon)散度容易導(dǎo)致模型訓(xùn)練不穩(wěn)定等問題,因此WGAN模型[12]采用Wasserstein距離代替JS散度,以此衡量生成器生成樣本與真實樣本之間的距離,其將傳統(tǒng)GAN的目標(biāo)函數(shù)改寫為:

式(3)與式(1)不同的是,WGAN中生成器和判別器的損失函數(shù)都不使用對數(shù)函數(shù),同時,判別器的輸出也不采用Sigmoid激活函數(shù),而是使用1?Lipschitz對其進行約束,算式如下:

根據(jù)文獻[16]將系數(shù)γ初始化為0。同時,最終的輸出也會在下一個注意力機制網(wǎng)絡(luò)中繼續(xù)進行特征提取與學(xué)習(xí)。

2.5 CatBoost算法

CatBoost是PROKHORENKOVA L[17]和DOROGUSH A V[18]等提出的一種新的梯度提升算法,該算法能以最小的損失處理類別型特征。

CatBoost不同于其他梯度提升算法,首先,該算法采用排序提升算法來解決目標(biāo)泄露的問題;其次,該算法能有效處理類別型特征;同時,CatBoost算法采用對稱二叉樹作為基模型,克服了預(yù)測過程較慢的問題。CatBoost已經(jīng)成功應(yīng)用于各種類型和格式的數(shù)據(jù),如時間序列數(shù)據(jù)[19]、金融領(lǐng)域[20]等。

2.6 特征重要性評估

CatBoost模型訓(xùn)練時,能夠采用某個評價指標(biāo)獲取特征系數(shù)或重要性,如使用預(yù)測值變化(Prediction Values Change,PVC)和損失函數(shù)變化(Loss Function Change,LFC)對數(shù)據(jù)集中的特征進行排序[21]。

PVC顯示的是如果當(dāng)前特征的值產(chǎn)生變化,相應(yīng)的預(yù)測值平均會發(fā)生多少變化。假設(shè)該特征越重要,其值產(chǎn)生變化時,相應(yīng)的預(yù)測值的平均變化就越大。在CatBoost模型內(nèi)默認(rèn)采用PVC算法。

LFC表示的是具有某個特征和不具有該特征的模型之間損失值的差異,通常用于排序模型。

本課題基于PVC對數(shù)據(jù)集特征進行排序選擇。計算方法是:在建樹過程中,通往葉子對的路徑上的節(jié)點上包含不同的分割值,假如符合分割條件(該條件取決于特征F),則對象轉(zhuǎn)到左子樹,否則為右子樹。同時,還需考慮特征間的組合。特征F的重要度featureimportanceF的計算式如下:

其中,trees為樹節(jié)點;leafsF為葉子節(jié)點;avr為左右葉子節(jié)點的加權(quán)平均值;c、c分別為左葉子節(jié)點和右葉子節(jié)點中對象的總權(quán)重,假設(shè)該權(quán)重沒有特別設(shè)置,那么該權(quán)重為每個葉子節(jié)點中對象的數(shù)目;v、v表示左葉子節(jié)點和右葉子節(jié)點的取值。

3 基于SA?WCGAN的入侵檢測數(shù)據(jù)生成模型

基于SA?WCGAN的入侵檢測數(shù)據(jù)生成模型主要包含數(shù)據(jù)處理及特征工程模塊、數(shù)據(jù)生成模塊和機器學(xué)習(xí)模型分類模塊。首先,為了減少冗余特征,減少GAN網(wǎng)絡(luò)的訓(xùn)練時間,采用CatBoost特征重要性評估方法進行特征選?。蝗缓?,利用SA?WCGAN數(shù)據(jù)生成模型生成少數(shù)攻擊樣本,提高檢測準(zhǔn)確率;最后,采用機器學(xué)習(xí)模型對攻擊樣本進行分類。模型的基本架構(gòu)如圖1所示。

本課題采用的基模型為CGAN,為了保證模型訓(xùn)練的穩(wěn)定性和收斂速度,在模型中引入Wasserstein距離以代替JS距離,同時采用梯度懲罰解決訓(xùn)練過程中梯度消失的問題。為了提高生成樣本質(zhì)量,在生成器中引入自注意力機制。

3.1 生成器總體網(wǎng)絡(luò)

本課題提出少數(shù)攻擊樣本生成模型的生成器結(jié)構(gòu)以DCGAN[22](deep convolutional generative adversarial network,DCGAN)模型中的生成器為基準(zhǔn)框架。同時,本模型在第1反卷積塊和第2反卷積塊中加入自注意力機制模塊,提取攻擊樣本的全局特征。該生成器采用BatchNormalization層加速模型訓(xùn)練,保證訓(xùn)練的穩(wěn)定性;同時使用ReLU作為激活函數(shù),最后一層使用Tanh激活函數(shù)。生成器的網(wǎng)絡(luò)結(jié)構(gòu)見表1。

3.2 判別器總體網(wǎng)絡(luò)

本課題采用的判別器結(jié)構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),其網(wǎng)絡(luò)中采用了LeakyReLU激活函數(shù),并將其負(fù)值斜率設(shè)置為α=0.2。同時加入Dropout層,防止模型出現(xiàn)過擬合。判別器的網(wǎng)絡(luò)結(jié)構(gòu)見表2。

4 仿真結(jié)果與分析

4.1 數(shù)據(jù)集

本課題采用的數(shù)據(jù)集為NSL?KDD,該數(shù)據(jù)集是對KDD?99的改進,不包含冗余和重復(fù)記錄,因此將其作為評估入侵異常檢測模型的基準(zhǔn)數(shù)據(jù)集[23]。NSL?KDD數(shù)據(jù)集包含41個特征和4種類型的異常攻擊,分別為拒絕服務(wù)攻擊(Dos)、探測攻擊(Probe)、遠程侵入(R2L)和獲取權(quán)限(U2R)。NSL?KDD測試集和訓(xùn)練集的數(shù)據(jù)分布見表3,可以看出,該數(shù)據(jù)集也存在明顯的類不平衡情況,Probe、R2L和U2R攻擊在訓(xùn)練集中所占比例分別為9.25%、0.79%、0.041%,在測試集中所占比例分別為10.74%、12.22%、0.89%,判斷為少數(shù)類。

通過對數(shù)據(jù)集中少數(shù)類型攻擊進行過采樣來增加攻擊數(shù)量,過采樣前、后的數(shù)據(jù)分布見表4。

4.2 特征選擇

采用基于CatBoost特征的重要性評估實現(xiàn)特征選擇過程,從而減少生成模型訓(xùn)練模型。進行特征選擇后,NSL?KDD數(shù)據(jù)集的特征子集共21個,即

duration、protocol_type、flag、src_bytes、dst_bytes、wrong_fragment、hot、logged_in、root_shell、count、srv_count、serror_rate、srv_serror_rate、rerror_rate、diff_srv_rate、dst_host_same_srv_rate、dst_host_diff _srv_rate、host_same_src_port_rate、dst_host_serror _rate、dst_host_srv_serror_rate、dst_host_rerror_rate。

4.3 評價指標(biāo)

少數(shù)攻擊類型樣本生成是為了提高入侵檢測模型的準(zhǔn)確率,因此通過衡量入侵檢測性能來進一步衡量SA?WCGAN入侵監(jiān)測數(shù)據(jù)生成模型的性能。

本課題采用3種評價指標(biāo)對模型性能進行衡量,即精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)(F1?score)。精確率是判定為攻擊的樣本中真正為攻擊所占的百分比;召回率是在全部攻擊樣本中被正確判定為攻擊的比例;F1分?jǐn)?shù)是結(jié)合了精確率和召回率的綜合指標(biāo)。計算式分別為:

其中,TP為真陽性,F(xiàn)P為假陽性,F(xiàn)N為真陰性,F(xiàn)P為假陽性。

4.4 實驗結(jié)果及分析

CatBoost是一種梯度提升算法,在處理數(shù)據(jù)不平衡方面有很好的效果[24]。因此,本課題采用CatBoost構(gòu)建分類器。同時,為了進一步證明本課題提出的少數(shù)攻擊樣本生成方法的綜合性能,在相同實驗條件下,與已有的4種數(shù)據(jù)平衡算法以及文獻[10]的算法進行對比,結(jié)果列于表5。

由表5可以看出,在與其他數(shù)據(jù)平衡算法進行比較時,SA?WCGAN數(shù)據(jù)平衡算法在Probe和R2L兩種攻擊類型上的精確率、召回率和F1分?jǐn)?shù)3項指標(biāo)都追平或超過其他的方法;對于Dos攻擊類型,SA?WCGAN數(shù)據(jù)平衡算法雖在精確率上落后于SMOTE、Borderline?SMOTE和DGM(1.98%、0.58%和0.4%),但在F1分?jǐn)?shù)上都持平或高于其他數(shù)據(jù)平衡算法;對于U2R攻擊類型,SA?WCGAN數(shù)據(jù)平衡算法雖然在召回率上落后于其他方法,但在精確率和F1分?jǐn)?shù)上均高于其他算法。

結(jié)合上述分析可知,SA?WCGAN生成模型在少數(shù)類數(shù)據(jù)生成方面能夠達到較高的性能,即能夠生成較高質(zhì)量的樣本,具備了一定的實用價值。

5 結(jié)束語

在入侵檢測領(lǐng)域,由于數(shù)據(jù)分布不均衡而導(dǎo)致少數(shù)攻擊類型的檢測率低,并且影響機器學(xué)習(xí)模型的性能。因此,本課題提出SA?WCGAN數(shù)據(jù)生成模型來生成入侵檢測領(lǐng)域的少數(shù)類數(shù)據(jù),SA?WCGAN可以以少數(shù)類為條件對數(shù)據(jù)進行采樣,提高了機器學(xué)習(xí)分類器對少數(shù)類的檢測率。本課題的改進工作主要解決了入侵檢測中樣本特征冗余和少數(shù)攻擊樣本檢測困難的問題,主要貢獻如下:

a. 在CGAN中引入Wasserstein距離代替JS散度,同時又引入梯度懲罰,解決了原始CGAN模型訓(xùn)練中梯度消失的問題;

b. 引入自注意力機制,提高了少數(shù)攻擊樣本生成的質(zhì)量和性能,在一定程度上提高了少數(shù)攻擊樣本的檢測率;

c. 采用基于CatBoost的特征重要性評估方法進行特征選擇,去除了數(shù)據(jù)中的冗余特征,縮短了模型訓(xùn)練時間,提高了分類精度。

在公開的基準(zhǔn)數(shù)據(jù)集NSL?KDD上進行實驗,與已有的5種數(shù)據(jù)平衡算法進行對比,結(jié)果顯示,SA?WCGAN生成模型在少數(shù)類生成上能夠達到較高的檢測性能。

在未來的研究中,會進一步將該入侵檢測模型應(yīng)用于實際流量場景中,使其在實際應(yīng)用中發(fā)揮更大的價值。同時,由于SA?WCGAN存在訓(xùn)練時間較長的問題,還將持續(xù)研究,以縮短訓(xùn)練時間。

參 考 文 獻

[1] KIM J,KANG J,SOHN M.Ensemble learning?based filter?centric hybrid feature selection framework for high?dimensional imbalanced data[J].Knowledge?Based Systems,2021,220:106901.

[2] ZHU T,LIN Y,LIU Y.Synthetic minority oversampling technique for multiclass imbalance problems[J].Pattern Recognition,2017,72:327-340.

[3] ANDRESINI G,APPICE A,DE ROSE L,et al.GAN augmentation to deal with imbalance in imaging?based intrusion detection[J].Future Generation Computer Systems,2021,123:108-127.

[4]? ?LEE J,PARK K.AE?CGAN model based high performance network intrusion detection system[J].Applied Sciences,2019,9(20):4221.

[5] HASANIN T,KHOSHGOFTAAR T.The effects of random undersampling with simulated class imbalance for big data[C]//Proceedings of the 2018 IEEE International Conference on Information reuse and Integration(IRI).Picataway NJ:IEEE,2018:70-79.

[6] LAST F,DOUZAS G,BACAO F.Oversampling for imbalanced learning based on k?means and smote[J].arXiv Preprint arXiv:171100837,2017.

[7] DIVEKAR A,PAREKH M,SAVLA V,et al.Benchmar? king datasets for Anomaly?based Network Intrusion Detection:KDD CUP 99 Alternatives[C]//Proceedings of the 2018 IEEE 3rd International Conference on Computing,Communication and Security(ICCCS).Prcataway NJ:IEEE2018:1-8.

[8] YAO R,WANG N,LIU Z,et al.Intrusion detection system in the Smart Distribution Network:A feature engineering based AE?LightGBM approach[J].Energy Reports,2021,7:353-361.

[9] LIU J,LI T,XIE P,et al.Urban big data fusion based on deep learning:An overview[J].Information Fusion,2020,53:123-133.

[10] DLAMINI G,F(xiàn)AHIM M.DGM:A data generative mod? elto improve minority class presence in anomaly detection domain[J].Neural Computing and Applications,2021.

[11] XU W,JANG?JACCARD J,LIU T,et al.Improved Bidirectional GAN?Based Approach for Network Intrusion Detection Using One?Class Classifier[J].Computers,2022,11(6):15-22.

[12] ARJOVSKY M,CHINTALA S,BOTTOU L.Wasserstein generative adversarial networks[C]//Proceedings of the International Conference on Machine Learning.PMLR,2017:214-223.

[13] GULRAJANI I,AHMED F,ARJOVSKY M,et al.Improved training of wasserstein gans[J].Advances in Neural Information Processing Systems,2017,30(2):27-33.

[14] NIU Z,ZHONG G,YU H.A review on the attention mechanism of deep learning[J].Neurocomputing,2021,452:48-62.

[15] VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[J].Advances in Neural Information Processing Systems,2017,30(4):66-78.

[16] ZHANG H,GOODFELLOW I,METAXAS D,et al.Self?attention generative adversarial networks[C]//Proceedings of the International Conference on Machine Learning.PMLR,2019:7354-7363.

[17] PROKHORENKOVA L,GUSEV G,VOROBEV A,et al.CatBoost:Unbiased boosting with categorical features[J].Advances in Neural Information Processing Systems,2018,31(1):72-80.

[18] DOROGUSH A V,ERSHOV V,GULIN A.CatBoost:Gradient boosting with categorical features support[J].arXiv Preprint arXiv:181011363,2018.

[19] SUN H,HE J,CHEN Y,et al.Space?Time Sea Surface pCO2 Estimation in the North Atlantic Based on CatBoost[J].Remote Sensing,2021,13(14):2805.

[20] XIA Y,LIU C,LI Y,et al.A boosted decision tree approach using Bayesian hyper?parameter optimiza? tion for credit scoring[J].Expert Systems with Applications,2017,78:225-241.

[21] DHANANJAY B,SIVARAMAN J.Analysis and classification of heart rate using CatBoost feature ranking model[J].Biomedical Signal Processing and Control,2021,68:102610.

[22] YANG J,LI T,LIANG G,et al.A simple recurrent unit model based intrusion detection system with DCGAN[J].IEEE Access,2019,7:83286-83296.

[23] MEENA G,CHOUDHARY R R.A review paper on IDS classification using KDD 99 and NSL KDD dataset in WEKA[C]//Proceedings of the 2017 International Conference on Computer,Communications and Electronics (Comptelix).Piscataway? NJ:IEEE,2017:553-558.

[24] TANHA J,ABDI Y,SAMADI N,et al.Boosting methods for multi?class imbalanced data classification:An experimental review[J].Journal of Big Data,2020,7(1):1-47.

(收稿日期:2022-09-04,修回日期:2022-12-14)

Intrusion Detection Data Generation Method withSelf?attention Mechanism

ZHANG Xuan?qia, MIAO Xiang?huaa,b , ZHANG Ru?xuea, LI Xianga

(a. Faculty of Information Engineering and Automation; b. Yunnan Provincial Key Laboratory of Computer Technology Application, Kunming University of Science and Technology)

Abstract? ?Aiming at the low detection rate of minority classes caused by the existence of data imbalance in the current traditional intrusion detection field, a data generation model (SA?WCGAN) based on condition? al generative adversarial network and CatBoost was designed. Firstly, CatBoost algorithm was adopted to select features of the original dataset so as to reduce model training time; secondly, the SA?WCGAN generative model was used for data expansion to solve data imbalance. The generative model introduced a self?attention mechanism (SA) to extract global features of the attack samples so as to improve performance of the minority class of attack samples; meanwhile, the Wasserstein distance and gradient penalty were introduced to improve convergence speed and stability during the model training. Experimental results show that, on the public benchmark dataset NSL?KDD, the SA?WCGAN generative model proposed in this paper has high precision, recall and F1 score on attack types with only a few samples. Furthermore, comparative analysis with existing five methods confirmed the superiority of the model proposed.

Key words? ?intrusion detection, SA?WCGAN generative model, self?attention mechanism, data enhancement, minority class attack, data imbalance, Wasserstein distance, gradient penalty

中圖分類號 TP393.08? ?文獻標(biāo)識碼 A? ?文章編號 1000?3932(2023)02?0199?08

作者簡介:張宣琦(1998-),碩士研究生,從事信息安全、入侵檢測的研究。

通訊作者:繆祥華(1972-),副教授,從事信息安全、網(wǎng)絡(luò)安全的研究,xianghuamiao@126.com。

引用本文:張宣琦,繆祥華,張如雪,等.融合自注意力機制的入侵檢測數(shù)據(jù)生成方法[J].化工自動化及儀表,2023,50(2):199-206.

猜你喜歡
梯度樣本特征
一個改進的WYL型三項共軛梯度法
用樣本估計總體復(fù)習(xí)點撥
一種自適應(yīng)Dai-Liao共軛梯度法
如何表達“特征”
不忠誠的四個特征
一類扭積形式的梯度近Ricci孤立子
推動醫(yī)改的“直銷樣本”
抓住特征巧觀察
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
辽阳市| 富阳市| 蒙阴县| 南皮县| 揭阳市| 石家庄市| 新营市| 宾川县| 沿河| 桦川县| 襄城县| 青岛市| 碌曲县| 扎囊县| 高雄市| 朔州市| 香港| 泽州县| 余江县| 江永县| 新余市| 静海县| 辽阳县| 阿拉尔市| 益阳市| 巴林右旗| 禄劝| 德阳市| 临泽县| 江门市| 炉霍县| 虹口区| 策勒县| 邵武市| 通海县| 娱乐| 克什克腾旗| 丹巴县| 荣昌县| 蒙城县| 长宁区|