劉亮 由健林 張磊
摘要:隨著虛擬專用網(wǎng)技術(shù)的廣泛使用,VPN加密流量的分類識(shí)別對(duì)于網(wǎng)絡(luò)安全管理的重要性愈發(fā)明顯,而傳統(tǒng)流量分類技術(shù)在提取特征和關(guān)鍵協(xié)議字段時(shí)效率較低.因此,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,用以實(shí)現(xiàn)SSL VPN加密流量的分類識(shí)別,并減少特征工程中的人力成本.首先,將流量區(qū)分為VPN加密流量和非VPN加密流量,并且確定出這兩類流量所屬的服務(wù)類型;然后對(duì)所有流量進(jìn)行分類,識(shí)別出產(chǎn)生流量的應(yīng)用類型.考慮到網(wǎng)絡(luò)流量中存在的時(shí)序關(guān)系,采用一維卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的模型,通過構(gòu)建Pytorch的實(shí)驗(yàn)環(huán)境,采用ISCX2016數(shù)據(jù)集,實(shí)現(xiàn)對(duì)VPN加密流量的分類任務(wù).通過參數(shù)優(yōu)化,除數(shù)據(jù)量較小的數(shù)據(jù)類型外,應(yīng)用識(shí)別的平均F1-score為91.73%,流量識(shí)別的平均F1-score為91.13%.實(shí)驗(yàn)結(jié)果表明,基于一維卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法對(duì)于識(shí)別SSL VPN流量是可行和有效的.
關(guān)鍵詞:加密流量分類;深度學(xué)習(xí);一維卷積;SSL VPN
收稿日期: 2022-07-27
基金項(xiàng)目: 四川省科技計(jì)劃項(xiàng)目(2021YFG0159,2022YFG0171)
作者簡介: 劉亮(1982-),男,四川敘永人,高級(jí)工程師,研究方向?yàn)橄到y(tǒng)安全、惡意代碼分析、漏洞挖掘與利用、網(wǎng)絡(luò)安全.
E-mail: liangzhai118@scu.edu.cn
通訊作者: 張磊.E-mail: zhanglei2018@scu.edu.cn
Classification and identification of SSL VPN
encrypted traffic based on deep learning
LIU Liang, YOU Jian-Lin,ZHANG Lei
(School of Cyber Science and Engineering,Sichuan University,Chengdu 610065,China)
With the widespread use of virtual private network technology,the importance of classification and identification of VPN encrypted traffic for network security management is becoming more and more obvious,while traditional traffic classification technology is less efficient in extracting features and key protocol fields. To address this,this paper proposes a deep learning model based on convolutional neural network to realize the classification and identification of SSL VPN encrypted traffic and reduce the labor cost in feature engineering. The model first classifies traffic into VPN encrypted traffic and non-VPN encrypted traffic,and determines their corresponding service types,and then classifies all traffic and identifies the application generating the traffic.Considering the timing relationship in the network traffic,a one-dimensional convolutional neural network is used as a deep learning model. This paper constructed a PyTorch experimental environment and used the ISCX2016 dataset to realize the task of classifying VPN-encrypted traffic. Through parameter optimization,except for data types with a small amount of data,the average F1-score of application identification is 91.73%,and the average F1-score of traffic identification is 91.13%. Experimental results show that the deep learning method based on one-dimensional convolutional neural network is feasible and effective for identifying SSL VPN traffic.
Encrypted traffic classification;Deep learning;One-dimensional convolution; SSL VPN
1 引 言
隨著人們對(duì)于網(wǎng)絡(luò)安全意識(shí)的逐步提高以及對(duì)于網(wǎng)絡(luò)中的數(shù)據(jù)安全需求愈發(fā)強(qiáng)烈,網(wǎng)絡(luò)中加密流量數(shù)據(jù)占比越來越高,虛擬專用網(wǎng)(Virtual Private Network,VPN)被廣泛地應(yīng)用至流量加密過程中.因此,對(duì)于加密流量中的VPN加密流量的分類識(shí)別是十分重要的[1].
目前,國內(nèi)外的研究學(xué)者提出了很多的加密流量分類方法,主要可以分為基于有效負(fù)載、基于負(fù)載隨機(jī)性、基于數(shù)據(jù)分組、基于行為和基于機(jī)器學(xué)習(xí)的識(shí)別方法[2].基于有效負(fù)載的識(shí)別方式主要是通過分析數(shù)據(jù)分組中應(yīng)用層的有效載荷對(duì)流量進(jìn)行識(shí)別分析,但在加載數(shù)據(jù)包的過程中會(huì)觸及到數(shù)據(jù)本身的隱私性,當(dāng)涉及到私有協(xié)議以及加密協(xié)議的時(shí)候,難以起作用.Korczyński等人[3]提出了一種根據(jù)SSL/TLS協(xié)議頭的消息序列,創(chuàng)建一階馬爾可夫鏈,并將其作為基于馬爾可夫鏈的隨機(jī)指紋檢測(cè)方法,用于該會(huì)話中的指紋信息.負(fù)載隨機(jī)性的檢測(cè)是基于數(shù)據(jù)包攜帶相同特征字段的特征,因此他們不是完全隨機(jī)加密的.Khakpour等人[4]提出了一種根據(jù)熵值來識(shí)別數(shù)據(jù)流文件類型的方法,該方案主要依據(jù)二進(jìn)制流的熵值介于文本流于加密流之間的特性,可以精細(xì)化的識(shí)別如視頻、圖像和可執(zhí)行文件,也可以識(shí)別具體的圖像格式的文件類型.基于數(shù)據(jù)分組分布的檢測(cè)方法的原理是根據(jù)網(wǎng)絡(luò)中不同類型業(yè)務(wù)在數(shù)據(jù)傳輸過程中分組大小的差異來進(jìn)行識(shí)別.高長喜等人[5]提出了一種根據(jù)分組長度簽名和DFI決策及混合DPI與DFI算法進(jìn)行的加密流量應(yīng)用識(shí)別,利用分組的序列位置、方向、分組長度等流統(tǒng)計(jì)特征.基于行為的識(shí)別方法根據(jù)不同應(yīng)用產(chǎn)生的不同行為特征進(jìn)行識(shí)別,基于該方式產(chǎn)生的分類結(jié)果往往是較為寬泛且粗顆粒度的.Schatzmann等人[6]通過分析主機(jī)與協(xié)議的關(guān)系以及周期性從HTTPS數(shù)據(jù)流中識(shí)別出加密的Web文件數(shù)據(jù).基于機(jī)器學(xué)習(xí)的方法根據(jù)加密流量特征進(jìn)行提取,但需要較大的人力成本.Alshammari等人[7]將多種機(jī)器學(xué)習(xí)的方法(AdaBoost、GP、SVM、Nave Bayes、RIPPER)相結(jié)合,對(duì)加密和未加密的流量SSH和Skype進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明該方法具有較好的識(shí)別性能并且能夠適用在不同的環(huán)境下.
加密后的流量數(shù)據(jù)不再是明文顯示,因此傳統(tǒng)的基于端口、深度包檢測(cè)等流量分類方法不再適用于加密流量的分類[8].目前針對(duì)加密流量的分類主要是機(jī)器學(xué)習(xí)的方式,但是該方法需要對(duì)網(wǎng)絡(luò)數(shù)據(jù)流提取特征,需要大量的人力成本和特定領(lǐng)域的知識(shí),同時(shí)選取特征的好壞往往決定了分類器的最終效果[9].深度學(xué)習(xí)通過使用特征學(xué)習(xí)以及層次特征提取取代了手工特征獲取的方式,可以有效地解決機(jī)器學(xué)習(xí)特征選擇的問題.本文選擇網(wǎng)絡(luò)空間安全領(lǐng)域中較為常見的網(wǎng)絡(luò)流量分類問題進(jìn)行研究,即流量分類和應(yīng)用程序分類,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)算法的加密流量分類方案,針對(duì)公開的數(shù)據(jù)集ISCX VPN-non VPN進(jìn)行研究,創(chuàng)建模型解決網(wǎng)絡(luò)加密的分類任務(wù).
2 相關(guān)技術(shù)背景
2.1 VPN加密流量
VPN即虛擬專用網(wǎng),是指使用密碼學(xué)和訪問控制技術(shù)在公共網(wǎng)絡(luò)中建立的專用通信網(wǎng)絡(luò),其功能在于保護(hù)網(wǎng)絡(luò)連接及隱私服務(wù).當(dāng)客戶端連接到VPN服務(wù)后,VPN服務(wù)器將會(huì)對(duì)客戶端進(jìn)行驗(yàn)證,此后服務(wù)器會(huì)對(duì)客戶端的所有數(shù)據(jù)應(yīng)用加密協(xié)議并創(chuàng)建加密隧道傳輸數(shù)據(jù).VPN服務(wù)將數(shù)據(jù)打包在外部數(shù)據(jù)包中,通過封裝對(duì)其加密,當(dāng)數(shù)據(jù)到達(dá)VPN服務(wù)器后,外部數(shù)據(jù)包將被移除從而訪問內(nèi)部數(shù)據(jù),完成解密過程.VPN通過對(duì)數(shù)據(jù)包的加密和數(shù)據(jù)包目標(biāo)地址的轉(zhuǎn)換實(shí)現(xiàn)遠(yuǎn)程訪問.VPN按照隧道安全協(xié)議通??梢苑譃镾SL VPN、PPTP VPN、LTP VPN、MPLS VPN、IPsec VPN.SSL VPN和IPsec VPN是目前最常用的兩種VPN技術(shù).論文重點(diǎn)研究OpenVPN客戶端生成的SSL VPN流量的識(shí)別.
2.2 SSL協(xié)議
SSL VPN是采用SSL(Security Socket Layer)/TLS(Transport Layer Security)協(xié)議來實(shí)現(xiàn)遠(yuǎn)程接入的一種輕量級(jí)VPN技術(shù)[10].SSL/TLS 協(xié)議在傳輸層和應(yīng)用層之間對(duì)網(wǎng)絡(luò)連接加密,用于保護(hù)應(yīng)用層數(shù)據(jù),對(duì)傳輸?shù)臄?shù)據(jù)進(jìn)行加密[11].目前廣泛應(yīng)用于Web瀏覽器和服務(wù)器間身份認(rèn)證和加密數(shù)據(jù)傳輸過程中.
SSL協(xié)議可以分為兩層,即SSL記錄協(xié)議(SSL Record Protocol)和SSL握手協(xié)議(SSL Handshake Protocol).SSL記錄協(xié)議建立在可靠的傳輸協(xié)議(如TCP)之上,所有的傳輸數(shù)據(jù)都被封裝在記錄中.記錄是由記錄頭和記錄數(shù)據(jù)組成的.所有的SSL通信包括握手消息、安全空白記錄和應(yīng)用數(shù)據(jù)都使用SSL記錄層.SSL握手協(xié)議建立在SSL記錄協(xié)議之上,用于在實(shí)際的數(shù)據(jù)傳輸開始前,通訊雙方進(jìn)行身份認(rèn)證、協(xié)商加密算法、交換加密密鑰等.
2.3 PCAP文件格式
PCAP(Packet Capture)文件格式是一種表示網(wǎng)絡(luò)數(shù)據(jù)流的數(shù)據(jù)包存儲(chǔ)格式,一般由網(wǎng)絡(luò)數(shù)據(jù)包捕獲工具Wireshark和Tcpdump以Pcap文件的格式保存數(shù)據(jù)包.Pcap文件格式的一般結(jié)構(gòu)如圖1所示,由一個(gè)Byte全局報(bào)頭(Global Header)、Byte的數(shù)據(jù)報(bào)包頭(Packet Header)以及該包頭所對(duì)應(yīng)的數(shù)據(jù)包(Packet Data)所構(gòu)成[12].Packet Data是鏈路層的數(shù)據(jù)幀.
2.4 卷積神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)(Neural Networks,NNs)是由一些簡單的、高度互聯(lián)的處理單元組成的計(jì)算系統(tǒng),這些處理單元通過對(duì)外部輸入的動(dòng)態(tài)響應(yīng)來處理信息.神經(jīng)網(wǎng)絡(luò)通常由大量神經(jīng)元及神經(jīng)元之間的連接組成,每個(gè)連接有一個(gè)權(quán)值,學(xué)習(xí)過程中通過數(shù)據(jù)樣本的反饋調(diào)整權(quán)值,以實(shí)現(xiàn)預(yù)期的輸出.
卷積神經(jīng)網(wǎng)絡(luò)CNN是一種由一個(gè)或多個(gè)卷積層和全連接層組成的反饋前向神經(jīng)網(wǎng)絡(luò).該學(xué)習(xí)方法可以自動(dòng)學(xué)習(xí)特征,從而避免了人工特征提取等繁瑣的工作及可能帶來的誤差[13].目前CNN已經(jīng)成功應(yīng)用于自然語言處理和機(jī)器視覺等不同的領(lǐng)域,并包含1D-CNN和2D-CNN兩種方式.1D-CNN可以捕獲網(wǎng)絡(luò)數(shù)據(jù)包中相鄰字節(jié)之間的空間依賴關(guān)系[14],可以對(duì)流量分類找到區(qū)別的模式,能夠有效的完成網(wǎng)絡(luò)流量分類任務(wù),因此論文選擇1D-CNN實(shí)現(xiàn)加密流量分類任務(wù).
3 技術(shù)方案
本文所研究的加密流量分類任務(wù)針對(duì)于原始網(wǎng)絡(luò)數(shù)據(jù)流Pcap格式進(jìn)行分類,使用公開數(shù)據(jù)集ISCX VPN-non VPN進(jìn)行分類任務(wù),構(gòu)造CNN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型來識(shí)別VPN加密流量.對(duì)于所屬流量類型分類,將VPN流量和非VPN流量進(jìn)行分類,而后對(duì)于流量所屬的流量類型進(jìn)行分類;對(duì)于應(yīng)用類型分類,將所有流量進(jìn)行分類,區(qū)分出流量所屬于的應(yīng)用類型.圖2展示了論文的加密流量分類流程.
基于深度學(xué)習(xí)的SSL VPN加密流量的分類識(shí)別的總體框架如圖3所示.由于原始數(shù)據(jù)集中包含許多與流量分類無關(guān)的特征,首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,除去與加密流量分類無關(guān)或內(nèi)容相同的數(shù)據(jù).對(duì)于清洗過后的數(shù)據(jù)集,不同類別樣本間差距較大,采用欠采樣來平衡不同類別間的差異.而后劃分訓(xùn)練集和測(cè)試集,構(gòu)造CNN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練,生成分類模型,并在測(cè)試集上進(jìn)行驗(yàn)證,完成加密流量分類任務(wù).
3.1 數(shù)據(jù)集
實(shí)驗(yàn)采用公開的VPN-Non-VPN數(shù)據(jù)集(ISCXVPN),數(shù)據(jù)集由加拿大網(wǎng)絡(luò)安全研究所搜集[15].數(shù)據(jù)集中使用TCPDump和Wireshark軟件捕獲流量.對(duì)于VPN流量,使用OpenVPN進(jìn)行SSL VPN連接,此外,該數(shù)據(jù)集中還包含捕獲的Tor軟件流量,如表1所示.該數(shù)據(jù)集共產(chǎn)生七類應(yīng)用流量,包括Web、電子郵件、聊天、流媒體、文件傳輸、IP語音和點(diǎn)對(duì)點(diǎn).這些文件分為兩類,分別是通過VPN會(huì)話和非VPN會(huì)話捕獲的數(shù)據(jù)包[16].
3.2 數(shù)據(jù)預(yù)處理
卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一種模型,輸入特征的提取是使用卷積操作完成的,對(duì)于卷積層而言,一個(gè)N×N平方的神經(jīng)元作為輸入,濾波ω為m×m,該層的輸出為zl,大小為(N-m+1)×(N-m+1),則計(jì)算如下式.
因此在數(shù)據(jù)預(yù)處理階段,需要對(duì)原始數(shù)據(jù)進(jìn)行處理以便卷積層中進(jìn)行卷積操作.
VPN-Non-VPN數(shù)據(jù)集是在數(shù)據(jù)鏈路層捕獲的,以太網(wǎng)報(bào)頭中的有關(guān)物理鏈路的信息對(duì)于應(yīng)用程序識(shí)別或流量類型識(shí)別是沒有實(shí)際作用的,故在預(yù)處理階段首先去除以太網(wǎng)報(bào)頭.在傳輸層中,TCP和UDP兩種協(xié)議的報(bào)頭長度不同,TCP協(xié)議通常為20字節(jié)的報(bào)頭長,UDP為8字節(jié)的報(bào)頭長,需要在UDP協(xié)議的報(bào)頭末尾補(bǔ)充0,使得長度相同.然后去除應(yīng)用層沒有數(shù)據(jù)或DNS數(shù)據(jù)包.數(shù)據(jù)集是使用有限數(shù)量的主機(jī)和服務(wù)器捕獲,因此屏蔽IP地址來防止可能的過擬合現(xiàn)象.卷積神經(jīng)網(wǎng)絡(luò)需要固定大小的輸入,而大多數(shù)網(wǎng)絡(luò)數(shù)據(jù)包的大小受到1500 byte最大傳輸單元(MTU)的限制,實(shí)驗(yàn)中將截?cái)嚅L度設(shè)置為1500 byte,不足1500 byte的數(shù)據(jù)包在末尾補(bǔ)零.最后將數(shù)據(jù)包字節(jié)除以255,將輸入值控制在[0,1]范圍內(nèi),從而便于更快捷的運(yùn)算.數(shù)據(jù)預(yù)處理過程如圖4所示.
數(shù)據(jù)預(yù)處理之后,由于樣本不同類別間數(shù)量差異較大,使用欠采樣(under-sampling)的方式隨機(jī)去除主要類的樣本使得數(shù)據(jù)集相對(duì)均衡,來降低數(shù)據(jù)集本身不平衡對(duì)模型分類造成的影響.而后,按照8∶2的比例劃分訓(xùn)練集和測(cè)試集.
3.3 CNN分類模型
基于CNN的加密流量分類模型如圖5所示.它由兩個(gè)卷積層、一層最大池化層、一層Flatten層和三個(gè)全連接層組成,最后使用Softmax分類器應(yīng)用于分類任務(wù)中.在卷積層中,每一層都使用RELU()激活函數(shù),增加網(wǎng)絡(luò)結(jié)構(gòu)中的非線性關(guān)系.經(jīng)過卷積層處理后的數(shù)據(jù)輸入至最大池化層,通過Flatten層將多維的輸入一維化,作為卷積層到全連接層的過渡,隨后將該層的輸出作為輸入傳遞至全連接神經(jīng)元所組成的三層網(wǎng)絡(luò)中.為避免過擬合現(xiàn)象,使用0.05的dropout()函數(shù).最后使用Softmax()分類器進(jìn)行分類任務(wù),使用Adam作為模型的優(yōu)化器,對(duì)模型進(jìn)行訓(xùn)練.
4 實(shí)驗(yàn)與分析
基于深度學(xué)習(xí)的SSL VPN加密流量的分類識(shí)別模型采用Python語言編寫,使用深度學(xué)習(xí)中的PyTorch庫實(shí)現(xiàn),實(shí)驗(yàn)環(huán)境配置見表2.
4.1 評(píng)價(jià)指標(biāo)
準(zhǔn)確率,精確率,召回率和F1-score是統(tǒng)計(jì)分類中常用的4個(gè)指標(biāo).準(zhǔn)確率代表方法的整體效果,精確率,召回率和F1-score決定了某類流量的識(shí)別效果.因此實(shí)驗(yàn)中選擇精確率,召回率和F1-score作為流量分類的評(píng)價(jià)指標(biāo).
精確率表示識(shí)別的流量在多大程度上是準(zhǔn)確的,并衡量識(shí)別系統(tǒng)的準(zhǔn)確性.召回率表示已識(shí)別出多少正確條目,衡量識(shí)別系統(tǒng)的召回率.F1-score是在精確率和召回率基礎(chǔ)上提出的概念,用于對(duì)兩者整體評(píng)價(jià).下面式子為3個(gè)指標(biāo)的計(jì)算方式,其中TP、FP和FN分別表示真陽性、假陽性和假陰性.
4.2 流量分類結(jié)果
基于CNN的分類模型中對(duì)于所屬應(yīng)用分類和流量類型分類采用不同的超參數(shù)設(shè)定,超參數(shù)的設(shè)定參照文獻(xiàn)[17]中對(duì)加密流量分類取得最好結(jié)果的參數(shù),兩種分類訓(xùn)練模型使用的超參數(shù)見表3.
在測(cè)試集上評(píng)估模型的分類效果,分類結(jié)果如表4和表5所示.
在應(yīng)用類型分類中,對(duì)于FTPS應(yīng)用的識(shí)別效果最好,F(xiàn)1-score為0.997,而對(duì)于AIM Chat、Email、Gmail和ICQ類應(yīng)用分類識(shí)別的效果較差,這些類別所具有的共性特點(diǎn)在于數(shù)據(jù)集中該類別的數(shù)據(jù)量較少.對(duì)于其他數(shù)據(jù)內(nèi)容,召回率達(dá)到92%,實(shí)現(xiàn)了應(yīng)用類型的分類結(jié)果.對(duì)于流量類型分類,對(duì)于VPN流量的識(shí)別效果要比Non VPN流量識(shí)別效果更好,在VPN流量分類中,VPN Torrent的識(shí)別效果最好,F(xiàn)1-score為0.998,VPN Chat識(shí)別效果相對(duì)較差,F(xiàn)1-score為0.796.
在應(yīng)用程序識(shí)別和流量類型分類的測(cè)試集上評(píng)估神經(jīng)網(wǎng)絡(luò)產(chǎn)生如圖6和圖7所示的列歸一化混淆矩陣.其中,混淆矩陣的列對(duì)應(yīng)于樣本實(shí)際所對(duì)用的類,矩陣的行表示為模型預(yù)測(cè)后所屬標(biāo)簽,主對(duì)角線上的顏色的深淺表示對(duì)每個(gè)類別的分類召回率.在應(yīng)用分類中,可以發(fā)現(xiàn)在識(shí)別AIM Chat與ICQ產(chǎn)生了混淆,這兩者均被用于在線聊天應(yīng)用,具有一定的相似性.在流量類型分類中,部分Chat類型流量被分類至Email流量中,是由于Email流量中也會(huì)額外的提供在線聊天的服務(wù),從而產(chǎn)生了混淆.
綜合應(yīng)用識(shí)別和流量識(shí)別的分類結(jié)果,表明CNN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能從訓(xùn)練集中提取和學(xué)習(xí)識(shí)別特征,并成功進(jìn)行流量分類.
4.3 實(shí)驗(yàn)評(píng)估
(1)方法評(píng)估.本文采用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)加密流量分類任務(wù),相比于文獻(xiàn)[8-20]中的工作,本文中不僅對(duì)流量所屬的流量類型進(jìn)行分類,同時(shí)對(duì)于所產(chǎn)生流量的應(yīng)用類型也進(jìn)行了分類.對(duì)應(yīng)用分類和流量分類中的分類結(jié)果在精確率、召回率和F1值上也有提升.
(2)分類結(jié)果評(píng)估.對(duì)于網(wǎng)絡(luò)加密流量的分類,數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)在加密流量分類中并不一致,因此,分類結(jié)果評(píng)估中考慮采用相同實(shí)驗(yàn)數(shù)據(jù)集(ISCX VPN-NonVPN數(shù)據(jù)集)并且提供分類具體指標(biāo)的內(nèi)容進(jìn)行評(píng)估實(shí)驗(yàn).
對(duì)于加密流量應(yīng)用類型的分類,對(duì)比文獻(xiàn)[21]中使用兩層圖卷積網(wǎng)絡(luò)的加密流量分類方法,對(duì)各應(yīng)用流量分類的結(jié)果,使用F1-score評(píng)分進(jìn)行對(duì)比,如表6所示.對(duì)于加密流量應(yīng)用類型識(shí)別,本文在9種應(yīng)用類別中取得更好的分類結(jié)果.
對(duì)于VPN加密流量類型分類,對(duì)比文獻(xiàn)[18]和文獻(xiàn)[20]中構(gòu)造的神經(jīng)網(wǎng)絡(luò)分類結(jié)果,如表7所示.文獻(xiàn)[18]中構(gòu)造了四層卷積層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)加密流量數(shù)據(jù)進(jìn)行分類.對(duì)比兩者加密流量類型的分類結(jié)果,采用F1-score評(píng)分進(jìn)行對(duì)比.對(duì)于File Transfer、Streaming和VOIP流量類型,本文取得更好的分類效果.對(duì)比文獻(xiàn)[20]中的分類結(jié)果,對(duì)于Email、File Transfer和Streaming流量類型,本文取得更好的分類結(jié)果.
(3)有效性評(píng)估.本文將構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型在數(shù)據(jù)集上的分類結(jié)果與文獻(xiàn)[22]中采用決策樹算法和文獻(xiàn)[18]中采用的CAE和CNN模型進(jìn)行六類加密流量分類結(jié)果的對(duì)比,從而驗(yàn)證本文提出的神經(jīng)網(wǎng)絡(luò)模型的有效性,如表8所示.
從分析結(jié)果可知,本文構(gòu)建的網(wǎng)絡(luò)模型在加密流量類型分類上取得較好的結(jié)果,相較于文獻(xiàn)[18]中提出的卷積網(wǎng)絡(luò)模型,本文在精確率、召回率和F1-score上分別提高了0.21%、7.84%和3.48%,相比于決策樹和卷積自動(dòng)編碼的網(wǎng)絡(luò)模型,本文的分類結(jié)果也取得最好的效果.
綜合分類結(jié)果評(píng)估和有效性評(píng)估內(nèi)容,在應(yīng)用類型具體分類結(jié)果和流量類型分類中,各類別的具體分類結(jié)果相比于其他工作有一定程度的提升,從整體上看,本文在加密流量分類上也可以實(shí)現(xiàn)流量分類任務(wù).
5 結(jié) 論
本文提出一種基于一維卷積神經(jīng)網(wǎng)絡(luò)的加密流量分類模型,實(shí)現(xiàn)對(duì)加密流量的類型和所屬應(yīng)用類型的識(shí)別.實(shí)驗(yàn)結(jié)果表明,通過構(gòu)造的一維卷積神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)對(duì)加密流量的分類,同時(shí)分析了產(chǎn)生混淆的原因.對(duì)于這兩類分類模型,除數(shù)據(jù)量較小的數(shù)據(jù)類型外,應(yīng)用識(shí)別的平均F1值達(dá)到91.73%,流量識(shí)別的平均F1值達(dá)到91.13%,能夠?qū)崿F(xiàn)對(duì)SSL VPN加密流量的有效識(shí)別.
參考文獻(xiàn):
[1]吉慶兵,陳江濤,潘煒.基于深度學(xué)習(xí)的加密網(wǎng)絡(luò)流量識(shí)別方法研究[J].通信技術(shù),2021,54: 152.
[2]孫中軍,翟江濤,戴躍偉. 一種基于DPI和負(fù)載隨機(jī)性的加密流量識(shí)別方法[J]. 應(yīng)用科學(xué)學(xué)報(bào),2019,37: 711.
[3]Korczyński M,Duda A. Markov chain fingerprinting to classify encrypted traffic [C]//IEEE INFOCOM 2014-IEEE Conference on Computer Communications. Toronto,Canada:IEEE,2014: 781.
[4]Khakpour A? R,Liu A X. An information-theoretical approach to high-speed flow nature identification[J]. IEEE/ACM T Netw,2013,2: 1076.
[5]高長喜,吳亞飚,王樅.基于抽樣分組長度分布的加密流量應(yīng)用識(shí)別[J].通信學(xué)報(bào),2015,36: 65.
[6]Schatzmann D,Mühlbauer W,Spyropoulos T,et al. Digging into HTTPS: flow-based classification of webmail traffic [C]//Proceedings of the 10th ACM SIGCOMM Conference on Internet Measurement. Melbourne,Australia: ACM,2010.
[7]Alshammari R,Zincir-Heywood A N. Can encrypted traffic be identified without port numbers,IP addresses and payload inspection? [J]. Comput Netw,2011,55: 1326.
[8]李毅聃,阮方鳴,陳潤澤.基于聚合殘差網(wǎng)絡(luò)的加密流量分類方法[J].現(xiàn)代計(jì)算機(jī),2022,28: 38.
[9]Yao H,Liu C,Zhang P,et al. Identification of encrypted traffic through attention mechanism based long short term memory [J]. IEEE T Big Data,2022,8: 241 .
[10]王順滿,王成儒,楊鼎才.安全套接層協(xié)議及其設(shè)計(jì)[J].計(jì)算機(jī)安全,2001(4): 30.
[11]Shi J,Liu M,Hou C,et al. Online encrypted mobile application traffic classification at the early stage: challenges,evaluation criteria,comparison methods [C]//Proceedings of the 2021 IEEE 6th International Conference on Computer and Communication Systems (ICCCS). Chengdu,China: IEEE,2021: 1128.
[12]Aceto G,Ciuonzo D,Montieri A,et al. Encrypted multitask traffic classification via multimodal deep learning[C]//ICC 2021-IEEE International Conference on Communications. Montreal,Quebec,Canada: IEEE,2021: 1.
[13]Wang Y,Yun X,Zhang Y,et al. A multi-scale feature attention approach to network traffic classification and its model explanation [C]//Proceedings of the? IEEE Transactions on Network and Service Management.USA: IEEE: 2022: 875.
[14]Huo Y,Ge H,Jiao L,et al. Encrypted traffic identification method based on multi-scale spatiotemporal feature fusion model with attention mechanism[C]//Proceedings of the 11th International Conference on Computer Engineering and Networks. Singapore Springer,2022: 857.
[15]王宇航,姜文剛,翟江濤.面向SSL VPN加密流量的識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2022,58: 143.
[16]Ma Q,Huang W,Jin Y,et al. Encrypted traffic classification based on traffic reconstruction [C]//Proceedings of the 2021 4th International Conference on Artificial Intelligence and Big Data (ICAIBD). Chengdu,China: IEEE,2021: 572.
[17]Lotfollahi M,Jafari S M,Shirali H Z R,et al. Deep packet: a novel approach for encrypted traffic classification using deep learning [J]. Soft Comput,2020,24: 1999.
[18]Guo L,Wu Q,Liu S,et al. Deep learning-based real-time VPN encrypted traffic identification methods [J]. J Real-Time Image Proc,2020,17: 103.
[19]郭路路,段明,王磊,等.基于卷積自編碼的Open VPN加密流量識(shí)別方法[J].信息工程大學(xué)學(xué)報(bào),2019,20: 410.
[20]宋繼紅,王桐桐.基于特征融合卷積神經(jīng)網(wǎng)絡(luò)的加密流量分類方法[J].信息與電腦:理論版,2021,33: 49.
[21]Sun B,Yang W,Yan M,et al. An encrypted traffic classification method combining graph convolutional network and autoencoder [C]//Proceedings of the 2020 IEEE 39th International Performance Computing and Communications Conference (IPCCC). Austin,USA: IEEE,2020: 1.
[22]Draper-Gil G,Lashkari A H,Mamun M S I,et al. Characterization of encrypted and vpn traffic using time-related [C]//Proceedings of the 2nd international conference on information systems security and privacy (ICISSP). [S.l.]: Online Streaming, 2016: 407.
引用本文格式:
中 文: 劉亮,由健林,張磊. 基于深度學(xué)習(xí)的SSL VPN加密流量的分類識(shí)別[J]. 四川大學(xué)學(xué)報(bào): 自然科學(xué)版,2023,60: 062004.
英 文: Liu L, You J L,Zhang L.Classification and identification of SSL VPN encrypted traffic based on deep learning [J]. J Sichuan Univ: Nat Sci Ed,2023,60: 062004.
四川大學(xué)學(xué)報(bào)(自然科學(xué)版)2023年6期