国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征融合的加密Tor 流量檢測方法

2024-06-29 02:43李常亮王俊峰方智陽孫賀
關(guān)鍵詞:特征融合隱私保護(hù)

李常亮 王俊峰 方智陽 孫賀

摘 要: 匿名網(wǎng)絡(luò)是目前保護(hù)個(gè)人隱私的常用工具,結(jié)合混淆網(wǎng)橋組件后具備極強(qiáng)的隱私保護(hù)能力;信息對抗中的持續(xù)博弈使得在匿名網(wǎng)絡(luò)中運(yùn)用加密代理成為數(shù)據(jù)安全敏感用戶實(shí)現(xiàn)隱私保護(hù)的主要手段. 匿名網(wǎng)絡(luò)和加密代理雙重保護(hù)讓流量檢測面臨以下兩個(gè)方面的挑戰(zhàn)和問題:(1) 代理匯聚:經(jīng)過加密代理之后的流量呈現(xiàn)單流特性,導(dǎo)致基于完整數(shù)據(jù)流的流量檢測方法失效;(2) 特征模糊:數(shù)據(jù)包混淆機(jī)制使得數(shù)據(jù)流特征稀疏化,導(dǎo)致基于低階統(tǒng)計(jì)特征的方法效果減弱. 本文提出了一種名為SETTDM 的流量檢測方法來應(yīng)對上述兩種挑戰(zhàn). 具體而言,針對代理匯聚問題,采用基于滑動(dòng)窗口的方式拆分?jǐn)?shù)據(jù)子流,使得SETTDM 方法能應(yīng)用于因代理產(chǎn)生的聚合數(shù)據(jù)流并盡可能地保留了原始數(shù)據(jù)流的特征空間;針對特征模糊問題,提出基于特征融合的特征提取方法:多角度的統(tǒng)計(jì)時(shí)序特征結(jié)合ResNet 提取的加密空間特征. 在實(shí)驗(yàn)中采集了真實(shí)的二次加密Tor 流量、加密背景流量和未加密背景流量,并融合公開加密流量數(shù)據(jù)集ISCXVPN2016 組成實(shí)驗(yàn)數(shù)據(jù)集;經(jīng)測試,SETTDM 方法可以達(dá)到99. 78% 的精確率,相比對比方法有著2. 30%~9. 29% 的提升.

關(guān)鍵詞: 加密流量; 匿名網(wǎng)絡(luò)流量; 隱私保護(hù); 特征融合

中圖分類號: TP393. 3 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 032001

1 引言

隨著網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展,互聯(lián)網(wǎng)承載了日常生活中的大量信息傳輸[1]. 對隱私敏感的用戶傾向于使用隱私增強(qiáng)的技術(shù)來隱蔽自己的在線活動(dòng)軌跡. 匿名網(wǎng)絡(luò)[2]是目前最受歡迎的隱私增強(qiáng)技術(shù)[3],一方面提供針對用戶的隱私保護(hù)方案,保護(hù)服務(wù)使用者的網(wǎng)絡(luò)行為隱私;另一方面提供針對隱藏服務(wù)的隱私保護(hù)方案,幫助隱匿隱藏服務(wù)提供方的出站流量,使得隱藏服務(wù)難以被追蹤溯源.后者常被一些不法分子用于非法活動(dòng),對網(wǎng)絡(luò)空間安全造成了極大的危害[4],站在監(jiān)控匿名網(wǎng)絡(luò)中非法行為的角度,對匿名網(wǎng)絡(luò)及其擴(kuò)展組件的流量進(jìn)行檢測都具有重要意義.

匿名網(wǎng)絡(luò)是基于互聯(lián)網(wǎng)之上建立的隱蔽網(wǎng)絡(luò),旨在為網(wǎng)絡(luò)用戶提供了全方位的隱私保障. 第二代洋蔥網(wǎng)絡(luò)簡稱Tor[5],是目前應(yīng)用最廣泛的匿名網(wǎng)絡(luò),其融合了多級中繼路由、節(jié)點(diǎn)加密以及動(dòng)態(tài)引入節(jié)點(diǎn)等設(shè)計(jì)思想,同時(shí)具備對服務(wù)使用者和服務(wù)提供者的隱私保護(hù)能力. 隨著信息對抗中的持續(xù)博弈,Tor 項(xiàng)目組也在為抵御新型流量檢測方法研發(fā)新的技術(shù),混淆網(wǎng)橋就是其中一種策略.混淆是指采用更難以被檢測到的流量混淆技術(shù)來給匿名網(wǎng)絡(luò)流量加殼,網(wǎng)橋則是指將采用了新的混淆技術(shù)的節(jié)點(diǎn)作為匿名網(wǎng)絡(luò)引入節(jié)點(diǎn),以取代原來的普通入口節(jié)點(diǎn). Obfs4[6]是Obfs 網(wǎng)橋迭代更新到第四代的版本,其引入了橢圓加密算法對流量載荷進(jìn)行加密;使用數(shù)據(jù)包隨機(jī)填充方式偽裝普通流量以抵御基于數(shù)據(jù)包長度的流量檢測;在握手階段采用基于Ntor[7]的握手機(jī)制以防范中間人攻擊. 綜合來說,Obfs4 采用了多種流量混淆思路,為用戶提供了匿名性和安全性保障.

加密代理和匿名網(wǎng)絡(luò)有著相似的思想,都是通過中繼節(jié)點(diǎn)來實(shí)現(xiàn)用戶與目標(biāo)網(wǎng)絡(luò)服務(wù)之間的數(shù)據(jù)傳輸. 不過,他們的部署方式和使用場景略有不同. 加密代理通常是由用戶自行部署的私人節(jié)點(diǎn),用于加密數(shù)據(jù)并轉(zhuǎn)發(fā)到目標(biāo)節(jié)點(diǎn),主要用于繞過網(wǎng)絡(luò)封鎖、保護(hù)個(gè)人隱私等目的. 而匿名網(wǎng)絡(luò)則是由社區(qū)共同維護(hù)的公共節(jié)點(diǎn)組成,主要用于隱藏用戶的真實(shí)身份、保護(hù)用戶隱私等目的. 因此,匿名網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)量通常要比加密代理多得多,節(jié)點(diǎn)的流量吞吐量也更大,同時(shí)也更容易被監(jiān)管設(shè)備加入黑名單. 使用常見匿名網(wǎng)絡(luò)直接訪問Google 或YouTube 通常會(huì)被禁止訪問. 但是,可以通過在匿名網(wǎng)絡(luò)出口節(jié)點(diǎn)之后部署個(gè)人加密代理來解決這個(gè)問題. 這樣Google 或YouTube 就不會(huì)因?yàn)榕卸ǔ瞿涿W(wǎng)絡(luò)的公用出口節(jié)點(diǎn)發(fā)送大量數(shù)據(jù)包而終止我們的網(wǎng)絡(luò)請求. 同時(shí),使用加密代理也可以保護(hù)我們的隱私.

對于匿名網(wǎng)絡(luò)流量和加密代理的融合場景,本文選擇引入Obfs4 混淆網(wǎng)橋后的Tor 網(wǎng)絡(luò)和由Google 開源的Vmess 加密代理協(xié)議來進(jìn)行介紹:Tor 流量在本地由Tor 瀏覽器生成,經(jīng)本地Obfs4網(wǎng)橋混淆加殼后轉(zhuǎn)發(fā)至本地加密代理,由本地加密代理加殼后轉(zhuǎn)發(fā)至遠(yuǎn)程加密代理服務(wù)器,經(jīng)遠(yuǎn)程加密代理服務(wù)器解密后與Tor 入口節(jié)點(diǎn)(Obfs4服務(wù)節(jié)點(diǎn))進(jìn)行通信建立連接,由此接入Tor 網(wǎng)絡(luò). 整體流程圖如圖 1.

面對同時(shí)隱藏在匿名網(wǎng)絡(luò)混淆增強(qiáng)技術(shù)和加密代理下的網(wǎng)絡(luò)流量,流量檢測需要克服以下難點(diǎn):(1) 代理匯聚:經(jīng)過加密代理之后的流量呈現(xiàn)單流特性,基于完整數(shù)據(jù)流的流量檢測方法失效;(2) 特征模糊:數(shù)據(jù)包混淆機(jī)制使得數(shù)據(jù)流特征稀疏化,導(dǎo)致基于低階統(tǒng)計(jì)特征的方法效果減弱.

在流量檢測領(lǐng)域,現(xiàn)有技術(shù)方案有以下3 種:(1) 基于端口的檢測方案[8];(2) 基于深度包特征的檢測方案[9-12];(3) 基于機(jī)器學(xué)習(xí)方法的檢測方案[13]. 基于端口的檢測方案使用IANA[14]分配的固有端口號來檢測流量中的特定協(xié)議. 基于深度包檢測的方案則采用提取流量有效載荷中的特定應(yīng)用程序簽名的方式來檢測特定協(xié)議. 基于端口的檢測方法快速高效,僅需要應(yīng)用協(xié)議的端口信息就能實(shí)現(xiàn)流量檢測,但隨著隱私增強(qiáng)技術(shù)的不斷發(fā)展,動(dòng)態(tài)端口技術(shù)和加密代理的出現(xiàn),使得基于端口和基于深度包檢測的方案逐漸失效. 基于機(jī)器學(xué)習(xí)的檢測方案通常包含數(shù)據(jù)預(yù)處理、特征提取以及分類檢測等多個(gè)步驟,通過合理的手動(dòng)篩選流量特征和機(jī)器學(xué)習(xí)模型自動(dòng)篩選特征可以極大地提高檢測精度,但現(xiàn)實(shí)場景中大量的網(wǎng)絡(luò)流量需要處理,使得機(jī)器學(xué)習(xí)模型必須考慮實(shí)時(shí)性和準(zhǔn)確性之間的平衡.

針對前文所述難點(diǎn),結(jié)合目前常用的流量檢測方案,本文提出一種名為SETTDM(SecondaryEncrypted Tor Traffic Detection Method)的基于特征融合的二次加密Tor 流量檢測方法. 該方法針對代理匯聚問題采用基于滑動(dòng)窗口的方法從聚合混合多條數(shù)據(jù)的數(shù)據(jù)流中切割出子流,解決經(jīng)加密代理轉(zhuǎn)發(fā)后流量由多流轉(zhuǎn)化為單流使得完整數(shù)據(jù)流分析失效的問題并最大限度保留了原始數(shù)據(jù)流的特征空間;而后針對特征模糊問題從多角度特征入手,先提取數(shù)據(jù)包低階時(shí)序特征,再使用ResNet[15]自動(dòng)提取數(shù)據(jù)包級別和數(shù)據(jù)流級別協(xié)同的加密空間特征,充分挖掘流量表征信息;最后將提取出的兩種特征融合后使用DNN 網(wǎng)絡(luò)完成加密代理下匿名網(wǎng)絡(luò)流量的檢測. 在實(shí)驗(yàn)環(huán)境采集時(shí)長為三周的數(shù)據(jù)流量融合ISCXVPN2016[16]中加密流量的數(shù)據(jù)集中進(jìn)行測試,SETTDM 方法達(dá)到了99. 78% 的精確率,99. 86% 的F1-Score.

2 相關(guān)工作

匿名網(wǎng)絡(luò)技術(shù)在不斷迭代,我們將匿名網(wǎng)絡(luò)流量檢測研究依據(jù)檢測源的不同劃分為基于Tor自身缺陷的檢測方案和基于Tor 及其相關(guān)組件通信原理的檢測方案.

在基于Tor 自身缺陷的檢測方案中,由于Tor本身的一些技術(shù)性漏洞,通過對Tor 網(wǎng)絡(luò)部分外露節(jié)點(diǎn)IP 探測和基于統(tǒng)計(jì)特征的檢測方式,就能達(dá)到較好的效果. Ghafir 等[17]使用爬蟲定期爬取Tor入口節(jié)點(diǎn)IP,對網(wǎng)絡(luò)流量使用基于IP 比對和基于黑名單過濾的方式進(jìn)行Tor 流量檢測,實(shí)現(xiàn)了對Tor 流量的高效檢測. 何高峰等[18]通過分析Tor 通信機(jī)制,提出了基于報(bào)文長度的檢測方案和基于TLS[19]握手指紋特征的檢測方案,在CAIDA 數(shù)據(jù)集上表明,兩種檢測方案都能成功檢測Tor 網(wǎng)絡(luò)流量. 但隨著混淆網(wǎng)橋等進(jìn)一步增加流量隱蔽性組件的加入,流量特征難以提取,加密方式也不僅僅是TLS,上述兩種基于Tor 自身顯著缺陷的方法對現(xiàn)代Tor 網(wǎng)絡(luò)流量都失去檢測效果.

基于Tor 及其關(guān)聯(lián)組件通信原理的相關(guān)研究主要是在加入混淆網(wǎng)橋組件的場景下,使用機(jī)器學(xué)習(xí)方法對Tor 流量進(jìn)行檢測. Obfs4 是使用最廣泛的混淆網(wǎng)橋,因此本文主要討論和Obfs4 相關(guān)的檢測方案. 本文基于特征選擇的不同又將目前針對Tor 網(wǎng)絡(luò)流量分類的機(jī)器學(xué)習(xí)研究分為兩種:(1) 基于完整數(shù)據(jù)流的檢測方案;(2) 基于數(shù)據(jù)流中部分關(guān)鍵信息的檢測方案.

在基于完整數(shù)據(jù)流的檢測方法中,He 等[20]和Liang 等[21]均采用了一種基于隨機(jī)性測試的方法,利用數(shù)據(jù)包中的數(shù)據(jù)熵值和字節(jié)分布特征判斷數(shù)據(jù)加密. He 等[20]將初篩判定加密的流量進(jìn)行Obfs4 握手部分?jǐn)?shù)據(jù)包重組,并根據(jù)其返回的確認(rèn)包時(shí)序特征與其他流量進(jìn)行細(xì)粒度的區(qū)分;然后提取16 種統(tǒng)計(jì)特征完成最后分類,并在其實(shí)驗(yàn)室環(huán)境采集的數(shù)據(jù)集下達(dá)到了99% 的精確率. Wu等[22]在骨干網(wǎng)絡(luò)中采集了大量背景流量,將Obfs4流量融合到一起形成實(shí)驗(yàn)數(shù)據(jù)集;對骨干網(wǎng)絡(luò)的流量進(jìn)行采樣,并使用嵌套計(jì)數(shù)的布隆過濾器記錄采樣數(shù)據(jù)包的信息,通過特征值計(jì)算獲取采樣流量的特征;針對Obfs4 流量,手動(dòng)提取了14 種統(tǒng)計(jì)特征,并利用隨機(jī)森林[23]對每個(gè)特征進(jìn)行了重要性計(jì)算;在Obfs4 流量僅占0. 15% 的數(shù)據(jù)集里進(jìn)行驗(yàn)證,F(xiàn)1-Score 達(dá)到了90%. 基于完整數(shù)據(jù)流的檢測方法的不足之處是由于代理匯聚問題的存在,難以將原始多條數(shù)據(jù)流從混淆數(shù)據(jù)流中區(qū)分開來,并由于代理匯聚進(jìn)一步放大了特征模糊問題,導(dǎo)致此類方法的效果急劇減弱;此外,由于采用完整數(shù)據(jù)流進(jìn)行檢測所帶來的特征提取和模型預(yù)測時(shí)間開銷巨大使得此類方法實(shí)時(shí)性難以保證.

在基于部分?jǐn)?shù)據(jù)包檢測的方法里,Wang 等[24]在分析Obfs4 流量過程中通過計(jì)算關(guān)鍵訪問信號得到了Obfs4 流量中具有區(qū)分度的TCP 包啟動(dòng)下標(biāo)和窗口大小,將該窗口內(nèi)的數(shù)據(jù)包用來提取表征該條流量的統(tǒng)計(jì)特征,在實(shí)驗(yàn)環(huán)境自行構(gòu)造的數(shù)據(jù)集下可以達(dá)到90% 以上的準(zhǔn)確率和召回率.此方法在特征提取上較為高效,能保證較高的實(shí)時(shí)性;但是關(guān)鍵信號的計(jì)算對原始數(shù)據(jù)包有著較高的依賴,如果少量的原始關(guān)鍵數(shù)據(jù)包丟失或未能捕獲到則整條異常數(shù)據(jù)流都不能被正確檢測出. Xu 等[25]采用了滑動(dòng)窗口的機(jī)制來應(yīng)對海量的數(shù)據(jù)包,在使用5 元組分割數(shù)據(jù)流后,繼續(xù)使用滑動(dòng)窗口將整流劃分為子流;在子流上手工提取時(shí)間差和數(shù)據(jù)包長度等12 個(gè)特征輸入隨機(jī)森林和XGBoost[26]進(jìn)行檢測,在實(shí)驗(yàn)環(huán)境下,能以99% 的準(zhǔn)確率和召回率檢測出隱藏在Meek[27]、FTE[28]和Obfs4 下的Tor 流量. 但此方法的不足之處在于僅使用了低階統(tǒng)計(jì)特征,而對流量雙重加密后的潛在空間特征未能利用,存在進(jìn)步的空間. 不論是基于關(guān)鍵TCP 序列還是使用滑動(dòng)窗口的方式,都有效減少了檢測時(shí)間. 相對而言,使用關(guān)鍵TCP 序列的方法,流量針對性較強(qiáng),遷移能力較弱;而采用滑動(dòng)窗口切分子流的方式具備更好的可復(fù)用性.

3 方法介紹

對于待測網(wǎng)絡(luò)流量,本文采用基于五元組和滑動(dòng)窗口來進(jìn)行兩階段的數(shù)據(jù)流切分. 對于切分后的每條數(shù)據(jù)流,分別提取低階統(tǒng)計(jì)特征和加密空間特征. 將上述兩種特征融合疊加,使用DNN網(wǎng)絡(luò)完成分類. 總體架構(gòu)如圖 2.

3. 1 數(shù)據(jù)流預(yù)處理

首先將原始輸入流量依據(jù)五元組規(guī)則進(jìn)行切分得到初始數(shù)據(jù)流,接著使用滑動(dòng)窗口將初始混合數(shù)據(jù)流切分為多條子流,便于后續(xù)特征提取. 使用五元組劃分?jǐn)?shù)據(jù)流是為了將不同時(shí)刻屬于不同流的數(shù)據(jù)包劃分開來,雖然加密代理的引入會(huì)引發(fā)多流匯聚成單一流的現(xiàn)象,但在不同時(shí)間段內(nèi)的流量由于加密代理的動(dòng)態(tài)端口機(jī)制會(huì)表現(xiàn)出多條流的特性,因此使用五元組初步劃分不同時(shí)間段的流是很有必要的. 而使用滑動(dòng)窗口機(jī)制,則是為了應(yīng)對在一個(gè)時(shí)間段內(nèi)由加密代理導(dǎo)致的多流匯聚成單一流,無法對單條混合流量進(jìn)行檢測的問題. 通過調(diào)整滑動(dòng)窗口的窗口大小和步長參數(shù),可以保證在切分后的子流中存在能表征流量的特征.

猜你喜歡
特征融合隱私保護(hù)
基于多特征融合的圖像匹配算法
人體行為特征融合與行為識別的分析
基于移動(dòng)端的樹木葉片識別方法的研究
基于SIFT特征的港口內(nèi)艦船檢測方法
融合整體與局部特征的車輛型號識別方法
基于層次和節(jié)點(diǎn)功率控制的源位置隱私保護(hù)策略研究
關(guān)聯(lián)規(guī)則隱藏算法綜述
大數(shù)據(jù)環(huán)境下用戶信息隱私泄露成因分析和保護(hù)對策
大數(shù)據(jù)安全與隱私保護(hù)的必要性及措施
社交網(wǎng)絡(luò)中的隱私關(guān)注及隱私保護(hù)研究綜述