国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CATBL算法的惡意URL檢測

2021-11-20 01:56修位蓉王歡歡
關(guān)鍵詞:并聯(lián)紋理卷積

修位蓉,王歡歡,卞 琛

(1.廣州商學(xué)院 信息技術(shù)與工程學(xué)院,廣東 廣州 510700;2.新疆大學(xué) 軟件學(xué)院,新疆 烏魯木齊 830091;3.廣東金融學(xué)院 互聯(lián)網(wǎng)金融與信息工程學(xué)院,廣東 廣州 510521)

0 引 言

隨著惡意URL灰色產(chǎn)業(yè)的發(fā)展,惡意URL不僅在外觀上與良性URL極為相似,進(jìn)入之后的所見內(nèi)容也同樣難以分辨,而現(xiàn)有的惡意URL檢測方式大多是基于傳統(tǒng)、單一的算法模型,檢測效果欠佳,因此針對(duì)惡意URL檢測的研究顯得尤為迫切。

深度學(xué)習(xí)算法是機(jī)器學(xué)習(xí)算法領(lǐng)域中一個(gè)新興方向,在自然語言處理、數(shù)據(jù)挖掘、圖像處理、機(jī)器翻譯領(lǐng)域都取得了不錯(cuò)的表現(xiàn),同時(shí)也為惡意URL檢測研究注入了新的活力。本文基于深度學(xué)習(xí)算法提出CATBL并聯(lián)聯(lián)合算法,將主機(jī)信息特征、URL信息特征、紋理圖像特征進(jìn)行特征融合,然后利用融合過后的特征使用CATBL并聯(lián)聯(lián)合算法進(jìn)行惡意URL分析檢測。

1 國內(nèi)外研究現(xiàn)狀

針對(duì)惡意URL檢測相關(guān)研究,目前國內(nèi)外的研究人員已經(jīng)提出了多種檢測方法與檢測技術(shù)。如國外的Chaochao Luo等[1]使用自動(dòng)編碼器表示URL,然后將表示的URL輸入到提議的復(fù)合神經(jīng)網(wǎng)絡(luò)中進(jìn)行檢測,為評(píng)估提議的系統(tǒng),對(duì)HTTP CSIC2010數(shù)據(jù)集和收集的數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)。N Vanitha等[2]通過使用機(jī)器學(xué)習(xí)算法(稱為邏輯回歸)自動(dòng)對(duì)URL進(jìn)行分類,該算法用于二進(jìn)制分類,通過學(xué)習(xí)網(wǎng)絡(luò)釣魚URL,分類器可達(dá)到97%的準(zhǔn)確性。N.B等[3]使用決策樹分類器對(duì)基于時(shí)間分割的數(shù)據(jù)分組具有更好的性能,準(zhǔn)確度為88.5%,提出的框架可以實(shí)時(shí)收集數(shù)據(jù)并以分布式方式處理以提供態(tài)勢感知,通過向現(xiàn)有系統(tǒng)添加額外的資源,可以輕松地將建議的框架擴(kuò)展為處理各種大量的網(wǎng)絡(luò)事件。Huaizhi Yan等[4]提出了一種使用堆疊去噪自動(dòng)編碼器模型的深度學(xué)習(xí)方法,以學(xué)習(xí)和檢測內(nèi)部惡意特征。Ripon Patgiri等[5]在文中將惡意URL檢測視為二進(jìn)制分類問題,使用測試數(shù)據(jù)測試了幾種知名分類器的性能,并特別研究了隨機(jī)森林算法和支持向量機(jī)(SVM),這些具有很高精度的算法用于訓(xùn)練數(shù)據(jù)集,以對(duì)好URL和壞URL進(jìn)行分類。Baojiang Cui等[6]基于梯度學(xué)習(xí)的統(tǒng)計(jì)分析和使用S形閾值水平的特征提取相結(jié)合,提出了一種基于機(jī)器學(xué)習(xí)技術(shù)的新檢測方法,使用樸素的貝葉斯,決策樹和SVM分類器來驗(yàn)證該方法的準(zhǔn)確性和效率。

在國內(nèi),李敬濤等[7]對(duì)基于機(jī)器學(xué)習(xí)的JavaScript惡意腳本檢測方案進(jìn)行了改進(jìn),所設(shè)計(jì)的檢測改進(jìn)方案能夠?qū)avaScript腳本及包含惡意腳本的HTML頁面進(jìn)行高效準(zhǔn)確的檢測。李艷等[8]利用信息論測度知識(shí)來檢測JavaScript混淆代碼,能夠捕獲基于統(tǒng)計(jì)特征檢測器的逃逸攻擊,并對(duì)混淆代碼進(jìn)行反混淆,最后利用機(jī)器學(xué)習(xí)知識(shí)來檢測JavaScript惡意代碼。左雯等[9]設(shè)計(jì)了基于關(guān)鍵字的用于惡意URL檢測的神經(jīng)網(wǎng)絡(luò)模型;該模型用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行URL的特征抽取,使用GRU進(jìn)行時(shí)間維度上的特征捕獲,并實(shí)現(xiàn)了一套用于惡意URL的可視化檢測系統(tǒng)。吳海濱等[10]提出基于上下文信息的惡意URL檢測方法,該檢測方法利用預(yù)處理方法解決URL中存在大量的隨機(jī)字符組成單詞的問題,使用特殊符號(hào)作為分隔符對(duì)URL分詞,對(duì)得到的分詞結(jié)果使用Word2vec生成詞向量空間,訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)提取文本特征并分類。

以往的惡意URL檢測大多基于黑名單技術(shù)[11,12]、信譽(yù)系統(tǒng)[13]、主機(jī)特征[14,15]、詞匯特征、蜜罐技術(shù)[16]、入侵檢測技術(shù)[17]。本文提出一種基于CATBL的惡意URL檢測算法。

本文的主要貢獻(xiàn)如下:

(1)提取主機(jī)信息特征、URL信息特征,并且利用圖像處理相關(guān)技術(shù)提取出紋理圖像特征,之后將篩選后的紋理圖像特征、URL信息特征、主機(jī)信息特征進(jìn)行了有效特征融合,并且使用并聯(lián)聯(lián)合CATBL算法模型進(jìn)行檢測。

(2)利用CNN提取深層次局部特征,Attention機(jī)制調(diào)整權(quán)重,注意力機(jī)制與CNN算法進(jìn)行并聯(lián)處理得到更加有效的特征信息,然后雙向LSTM提取全局特征,與注意力機(jī)制和CNN的并聯(lián)聯(lián)合算法模型進(jìn)行并聯(lián)處理得到全面的特征信息,將并聯(lián)聯(lián)合CATBL算法用于惡意URL分析與檢測。

2 算法模型

2.1 特征分析

在檢測研究中提取的特征對(duì)于惡意URL的檢測結(jié)果有著至關(guān)重要的影響,提取有效的特征對(duì)于惡意URL檢測研究也是非常重要的。因此,本文不僅提取主機(jī)信息特征、URL信息特征,還將在圖像處理相關(guān)技術(shù)學(xué)習(xí)基礎(chǔ)上提取的紋理圖像特征用于惡意URL檢測。

2.1.1 主機(jī)信息特征

主機(jī)信息能夠從主機(jī)名的屬性中獲得,其中可以獲得主機(jī)的多種相關(guān)信息,深入U(xiǎn)RL數(shù)據(jù)的主機(jī)內(nèi)部獲得信息,能夠提高特征的有效性,有利于惡意URL檢測的相關(guān)研究,通過學(xué)習(xí)主機(jī)信息特征能夠獲得主機(jī)時(shí)間、身份、主機(jī)位置等相關(guān)信息,此處提取獲得的主機(jī)信息包括百度反鏈、百度安全、百度是否收錄、百度權(quán)重、360是否收錄、百度1天反鏈、百度7天反鏈、百度1天收錄、百度7天收錄等等多種信息,用于惡意URL檢測以提高檢測結(jié)果。本研究借助主機(jī)信息采集網(wǎng)站人工提取得到了20種主機(jī)信息特征,進(jìn)行篩選、過濾之后得到數(shù)據(jù)的15種主機(jī)信息組成為本文的主機(jī)信息特征。

2.1.2 URL信息特征

由于原始的URL數(shù)據(jù)是字符串,通過對(duì)機(jī)器學(xué)習(xí)的學(xué)習(xí)可以理解其是不可行的,因此必須將數(shù)據(jù)進(jìn)行處理以得到有效的信息,此特征是從URL數(shù)據(jù)本身得到的,故此類信息稱之為URL信息特征。此處提取獲得的URL信息特征包括URL長度、其它字符的個(gè)數(shù)、首個(gè)小數(shù)點(diǎn)的位置、大寫字母的個(gè)數(shù)、最長字符的個(gè)數(shù)、頂級(jí)域名是否為五大域名、分隔符之間字符的最大長度、小寫字母的個(gè)數(shù)、URL中總數(shù)字個(gè)數(shù)、是不是IP地址等等多種信息,用于惡意URL檢測以提高檢測結(jié)果。本研究使用Java代碼提取出21種數(shù)據(jù)本身共性較大的信息,進(jìn)行篩選、過濾之后得到URL信息特征。

2.1.3 紋理圖像特征

如圖1所示,基于圖像處理的相關(guān)技術(shù),由于惡意URL在紋理上的相似性,將圖像處理技術(shù)用于URL特征提取,惡意URL被映射到未壓縮的灰度圖片上[18,19]。在獲得的URL數(shù)據(jù)的二進(jìn)制字符基礎(chǔ)上,把8位無符號(hào)整數(shù)范圍內(nèi)的二維空間域紋理圖像特征轉(zhuǎn)換為與灰度圖像灰度值范圍相對(duì)應(yīng),以得到紋理圖像特征用于惡意URL檢測以提高檢測結(jié)果。

圖1 紋理圖像特征分析

2.2 特征融合

將已有特征進(jìn)行融合是為了提高特征在URL的檢測實(shí)驗(yàn)中的效果,充分挖掘各類特征的隱藏信息,有助于得到更好的檢測,此處將主機(jī)信息特征、紋理圖像特征、URL信息特征進(jìn)行了充分的融合[20],其偽代碼見表1。

表1 特征融合

在表1中,SL是將數(shù)據(jù)進(jìn)行標(biāo)注自動(dòng)生成的label文件,SF1是將主機(jī)信息特征進(jìn)行輸入,SF2是將URL信息特征進(jìn)行輸入,S是將主機(jī)信息特征與URL信息特征進(jìn)行訓(xùn)練、融合得到S塊特征,SF3是將紋理圖像特征進(jìn)行輸入,S是將S塊特征與紋理圖像特征進(jìn)行訓(xùn)練、融合得到新的S塊特征,在subtrain.drop代碼中是將label文件與S塊特征進(jìn)行學(xué)習(xí)、訓(xùn)練,在subtrain代碼中是將得到惡意URL進(jìn)行分析與檢測結(jié)果。

2.3 CATBL算法

深度學(xué)習(xí)算法已經(jīng)在圖像處理、自然語言處理、語音識(shí)別等領(lǐng)域取得成效,同時(shí)也為惡意URL檢測研究帶來了新的希望。在深度學(xué)習(xí)的算法模型中,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是一種專門用來處理具有類似網(wǎng)絡(luò)結(jié)構(gòu)的且由卷積層、池化層、全連接層組成的神經(jīng)網(wǎng)絡(luò)。其中,卷積層與池化層將要組成多個(gè)卷積組,并且逐層進(jìn)行提取特征,然后利用多個(gè)全連接層完成分類。但是卷積神經(jīng)網(wǎng)絡(luò)中輸入的關(guān)聯(lián)性較差,輸出的也相對(duì)獨(dú)立,存在一定的弊端,Attention對(duì)于彌補(bǔ)這個(gè)弊端具有一定的成效,注意力機(jī)制借助人類的思維模式,關(guān)注焦點(diǎn),考慮上下文存在的關(guān)系,建模長距離能力強(qiáng)大,具有提取語義特征的能力,增強(qiáng)其關(guān)聯(lián)性,因此考慮將卷積神經(jīng)網(wǎng)絡(luò)與Attention機(jī)制進(jìn)行結(jié)合。長短時(shí)記憶(long short-term memory,LSTM)[21]是基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)改進(jìn)的,循環(huán)神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的連接能力,獲取時(shí)間動(dòng)態(tài)的能力以及學(xué)習(xí)上下文相關(guān)信息的能力,但存在梯度爆炸或者消失問題,LSTM可以解決簡單循環(huán)神經(jīng)網(wǎng)絡(luò)存在的此類問題。LSTM利用引入輸入門(input gates)、遺忘門(forget gates)和輸出門(output gates)以控制信息傳遞,有利于解決長期依賴弊端。

因此,CATBL并聯(lián)聯(lián)合算法模型首先將卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制進(jìn)行并聯(lián)聯(lián)合處理得到CAT并聯(lián)聯(lián)合算法模型,然后將CAT并聯(lián)聯(lián)合算法模型與Bi-LSTM算法再次進(jìn)行并聯(lián)聯(lián)合處理,稱之為CATBL算法。卷積神經(jīng)網(wǎng)絡(luò)由卷積層、池化層和全連接層組成,其中池化層不僅可以縮小輸入矩陣的尺寸,加快計(jì)算速度,有效防止過擬合并降低特征維度;卷積層與池化層將要組成多個(gè)卷積組,逐層進(jìn)行提取特征;最后通過構(gòu)建多個(gè)全連接層完成最終分類。CATBL算法的輸入層為M∈{(x1,y1),(x2,y2)…(xn,yn)}, (x1,x2…xn) 用于表示輸入的特征,yn∈(1,0) 表示URL的label,卷積層的計(jì)算公式為

(1)

其中,l表示層數(shù),Mj為一個(gè)輸入特征,T為某一神經(jīng)元,C為偏移向量。

池化層不僅可以縮小輸入矩陣的尺寸,并且可以加快計(jì)算速度,而且可以有效的防止過擬合,并降低特征維度。池化層的計(jì)算公式為

(2)

其中,l表示層數(shù),Mj為一個(gè)輸入特征,T為某一神經(jīng)元,C為偏移向量,m表示池化層窗口大小。

但是CNN中輸入的關(guān)聯(lián)性較差,輸出的也相對(duì)獨(dú)立,對(duì)于滋生快速且變化種類多樣的惡意URL,不能達(dá)到很好的識(shí)別和分類效果,缺乏檢測新生成的惡意URL的能力,惡意URL檢測的普遍性較差。然而,Attention對(duì)于彌補(bǔ)這個(gè)弊端具有一定的成效,注意力機(jī)制借助人類的思維模式,關(guān)注焦點(diǎn),弱化無用信息的注意力,考慮上下文存在的關(guān)系,建模長距離能力強(qiáng)大,具有提取語義特征的能力,增強(qiáng)其關(guān)聯(lián)性,因此將CNN與Attention機(jī)制在此處進(jìn)行了并聯(lián)聯(lián)合算法的處理以期望算法模型能夠優(yōu)劣互補(bǔ)。首先,我們從輸入層輸入兩層特征M∈{(x1,y1),(x2,y2)…(xn,yn)}, 且 (x1,x2…xn) 表示輸入的特征,yn∈(1,0) 表示URL的label,且注意力計(jì)算權(quán)重的公式為

(3)

其中,Wi表示計(jì)算得到的注意力權(quán)重,Mi表示特征輸入,同時(shí)對(duì)T進(jìn)行了注意力加權(quán),輸出特征S的計(jì)算公式為

(4)

長短時(shí)記憶能夠獲取時(shí)間動(dòng)態(tài)并學(xué)習(xí)上下文相關(guān)信息,能夠有效解決長期依賴的弊端,并能防止循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度爆炸或消失問題,因此將其并聯(lián)得到CATBL聯(lián)合算法。

LSTM的結(jié)構(gòu)圖如圖2所示。

圖2 LSTM結(jié)構(gòu)

在時(shí)間t的LSTM更新公式如下

it=σ(wiht-1+uixt+bi)

(5)

ft=σ(wfht-1+ufxt+bf)

(6)

(7)

(8)

ot=σ(woht-1+uoxt+bo)

(9)

ht=otΘtanh(ct)

(10)

其中,σ是非線性sigmoid函數(shù),Θ是兩個(gè)向量間的點(diǎn)乘操作。xt是時(shí)間t處的輸入矢量,ht是存儲(chǔ)時(shí)間t處的所有有用信息的隱藏狀態(tài)矢量。ui,uf,uc,uo表示輸入xt的不同門的權(quán)重矩陣,wi,wf,wc,wo是隱藏狀態(tài)ht的權(quán)重矩陣。bi,bf,bc,bo表示偏向量。

LSTM在學(xué)習(xí)上下文相關(guān)信息的能力方面只能學(xué)習(xí)到上文信息,無法完成下文信息的學(xué)習(xí),對(duì)未來的信息是無法進(jìn)行預(yù)測的。但是Bi-LSTM通過增加一層反向的LSTM解決了這個(gè)問題,在t(t=1,2,3,…,n) 時(shí)刻的輸出為

Ht=hbt+hft

(11)

其中,Ht是Bi-LSTM模型在t時(shí)刻的輸出,hbt是前向LSTM在t時(shí)刻的輸出,hft是后向LSTM在t時(shí)刻的輸出。

綜上所述,Bi-LSTM的基本結(jié)構(gòu)如圖3所示。圖3中 {M1…Mn}, {Mn…Mt} 為前向LSTM模型輸入, {Ma…Ms}, {Ms…Mi} 為后向LSTM模型輸入, {H1…Hn}, {Hn…Ht}, {Ha…Hs}, {Hs…Hi} 為Bi-LSTM算法在t時(shí)刻的輸出。

圖3 Bi-LSTM結(jié)構(gòu)

基于以上分析,設(shè)計(jì)CATBL并聯(lián)聯(lián)合算法,其模型結(jié)構(gòu)如圖4所示。圖4展示將融合后的特征作為輸入層的特征分別輸入到CNN、注意力機(jī)制和Bi-LSTM算法,將CNN與注意力機(jī)制進(jìn)行并聯(lián)聯(lián)合處理后得到新的全局特征,此時(shí)輸入層特征經(jīng)過Bi-LSTM算法訓(xùn)練學(xué)習(xí)后得到新的信息,再與CNN_Att算法進(jìn)行并聯(lián)聯(lián)合處理得到深層次局部特征從而獲得更加全面的數(shù)據(jù)特征信息,最后softmax分類器進(jìn)行分類并得到惡意URL檢測結(jié)果。

圖4 CATBL結(jié)構(gòu)

3 實(shí)驗(yàn)及分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)的數(shù)據(jù)是基于公開數(shù)據(jù)集PhishTank與爬蟲抓取的良性URL組成的兩萬條URL數(shù)據(jù)集。在組成數(shù)據(jù)集之前,我們將從PhishTank上下載得到的惡意URL與爬蟲得到的良性URL進(jìn)行了簡單的去重、降噪等處理之后得到了一萬條數(shù)據(jù),其中有效惡意URL和良性URL均保留一萬條,其后將數(shù)據(jù)進(jìn)行標(biāo)注自動(dòng)生成label文件,同時(shí),在此數(shù)據(jù)集上進(jìn)行特征提取。

3.2 實(shí)驗(yàn)環(huán)境

算法的實(shí)驗(yàn)環(huán)境配置見表2。

表2 實(shí)驗(yàn)環(huán)境的設(shè)置

3.3 最優(yōu)參數(shù)的設(shè)置

算法模型參數(shù)的設(shè)置對(duì)于惡意URL檢測的結(jié)果起著至關(guān)重要的作用,前期工作在大量的實(shí)驗(yàn)基礎(chǔ)上得到實(shí)驗(yàn)最優(yōu)參數(shù)的設(shè)置,表3展示了迭代次數(shù)(ep)、批處理量(batch_size)、卷積核的個(gè)數(shù)(filters)、卷積核的大小(filters_size)以及測試集的劃分(test_size)等重要參數(shù)信息,3.4節(jié)將對(duì)批處理量等最優(yōu)參數(shù)的獲取過程進(jìn)行詳細(xì)說明。

表3 最優(yōu)參數(shù)的設(shè)置

3.4 實(shí)驗(yàn)結(jié)果與分析

本節(jié)將從批處理量參數(shù)對(duì)檢測結(jié)果的有效性、紋理圖像特征對(duì)檢測結(jié)果的有效性、URL詞向量特征對(duì)檢測結(jié)果的有效性與CATBL串聯(lián)聯(lián)合算法及其它機(jī)器學(xué)習(xí)算法的檢

測結(jié)果進(jìn)行對(duì)比以進(jìn)行本文的檢測結(jié)果分析。

3.4.1 批處理量參數(shù)對(duì)檢測結(jié)果的有效性

實(shí)驗(yàn)首先測試批處理量可變參數(shù),為使檢測效果達(dá)到最優(yōu),實(shí)驗(yàn)在同一數(shù)據(jù)集不同數(shù)據(jù)量條件下進(jìn)行對(duì)比,通過多次測試以得到最優(yōu)參數(shù)配置,實(shí)驗(yàn)結(jié)果如圖5所示。

圖5 批處理量參數(shù)測試

由圖5中的多組檢測結(jié)果可以看到,在不同的數(shù)據(jù)量下批處理量參數(shù)不同時(shí),獲得的檢測結(jié)果有一個(gè)共同點(diǎn),即是當(dāng)批處理量參數(shù)為84時(shí)檢測結(jié)果最高,由此可以得到批處理量參數(shù)為84時(shí)為該參數(shù)的最優(yōu)配置。

3.4.2 紋理圖像特征對(duì)檢測結(jié)果的有效性

算法在不同的數(shù)據(jù)量下進(jìn)行了添加或刪除紋理圖像特征的方式進(jìn)行檢測實(shí)驗(yàn),以得到的惡意URL檢測的準(zhǔn)確度來說明紋理圖像特征的有效性。

從圖6可以看出,當(dāng)無紋理圖像特征時(shí),得到的最高檢測結(jié)果為97.8%,而添加紋理圖像特征之后,得到的最高檢測結(jié)果為98.8%,且在不同的數(shù)據(jù)量下都具有更優(yōu)的檢測結(jié)果,所以可以得知紋理圖像特征對(duì)于惡意URL檢測的結(jié)果有著非常重要的影響。

圖6 紋理圖像特征對(duì)檢測結(jié)果的有效性

3.4.3 URL信息特征對(duì)檢測結(jié)果的有效性

此節(jié)在不同的數(shù)據(jù)量下進(jìn)行了添加或刪除URL信息特征的方式進(jìn)行檢測實(shí)驗(yàn),得到惡意URL檢測的準(zhǔn)確度以說明URL信息特征的有效性。

從圖7可以看到,當(dāng)無URL信息特征時(shí),得到的最高檢測結(jié)果為96.6%,而添加URL信息特征之后,得到的最高檢測結(jié)果為98.8%,且在不同的數(shù)據(jù)量下都具有更優(yōu)的檢測結(jié)果,所以可以得知URL信息特征對(duì)于惡意URL檢測結(jié)果有非常重要的影響。

圖7 URL信息特征對(duì)檢測結(jié)果的有效性

3.4.4 與CATBL串聯(lián)聯(lián)合算法對(duì)比

在當(dāng)今的惡意URL檢測大多是基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,同時(shí)又出現(xiàn)了基于串聯(lián)聯(lián)合算法的檢測,并且相對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)算法在惡意URL檢測方面具有顯著的提高,而串聯(lián)聯(lián)合算法無法學(xué)習(xí)得到全面特征,故本節(jié)我們將提出的CATBL并聯(lián)聯(lián)合算法與CATBL串聯(lián)聯(lián)合算法進(jìn)行對(duì)比。

從圖8可以看出,在不同的數(shù)據(jù)量下,CATBL并聯(lián)聯(lián)合算法在惡意URL檢測結(jié)果均高于CATBL串聯(lián)聯(lián)合算法檢測結(jié)果,在保證同樣的實(shí)驗(yàn)環(huán)境與算法參數(shù)的情況下,CATBL串聯(lián)聯(lián)合算法得到的惡意URL檢測的結(jié)果最高為98.08%,而CATBL并聯(lián)聯(lián)合算法得到的檢測結(jié)果為98.8%,由此可以看出,CATBL并聯(lián)聯(lián)合算法提高了CATBL串聯(lián)聯(lián)合算法在惡意URL檢測的結(jié)果。

圖8 CATBL串聯(lián)與并聯(lián)算法對(duì)比

3.4.5 其它機(jī)器學(xué)習(xí)算法的檢測結(jié)果

在本節(jié),同單一機(jī)器學(xué)習(xí)算法KNN、高斯貝葉斯、深度學(xué)習(xí)模型CNN、Attention、Bi-LSTM進(jìn)行對(duì)比以驗(yàn)證提出CATBL并聯(lián)聯(lián)合算法在惡意URL檢測方面的有效性,其檢測結(jié)果對(duì)比見表4。

表4 同其它模型對(duì)比/%

由表4可以看出,KNN算法得到的最高檢測結(jié)果為84.35%,高斯貝葉斯得到的最高檢測結(jié)果為96.83%,CNN算法得到的最高檢測結(jié)果為97.9%,Attention算法得到的最高檢測結(jié)果為96.36%,Bi-LSTM算法得到的最高檢測結(jié)果為97.44%,而CATBL并聯(lián)聯(lián)合算法得到的最高檢測結(jié)果為98.8%,且在不同的數(shù)據(jù)量下,本文提出的CATBL并聯(lián)聯(lián)合算法的檢測結(jié)果均比KNN模型、高斯貝葉斯算法、CNN算法、Attention與Bi-LSTM算法在惡意URL檢測結(jié)果高,且有了明顯的升高。故可以說明,CATBL并聯(lián)聯(lián)合算法提高了惡意URL檢測的結(jié)果。

4 結(jié)束語

本文提出了一種CATBL并聯(lián)聯(lián)合算法,提取了主機(jī)信息特征、URL信息特征與紋理圖像特征用于惡意URL檢測,通過從批處理量參數(shù)測試、紋理圖像特征測試、URL詞向量特征測試以及與其它機(jī)器學(xué)習(xí)算法的對(duì)比實(shí)驗(yàn)進(jìn)行算法有效性驗(yàn)證,檢測結(jié)果表明:通過融合主機(jī)信息特征、URL信息特征與紋理圖像特征訓(xùn)練的CATBL并聯(lián)聯(lián)合算法的惡意URL檢測準(zhǔn)確率達(dá)到了98.8%,與傳統(tǒng)的檢測方式相比有了較為明顯的提升。

猜你喜歡
并聯(lián)紋理卷積
識(shí)別串、并聯(lián)電路的方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
基于BM3D的復(fù)雜紋理區(qū)域圖像去噪
從濾波器理解卷積
使用紋理疊加添加藝術(shù)畫特效
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
TEXTURE ON TEXTURE質(zhì)地上的紋理
審批由“串聯(lián)”改“并聯(lián)”好在哪里?
并聯(lián)型APF中SVPWM的零矢量分配
消除凹凸紋理有妙招!