国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Cookie的網(wǎng)盤資源在線溯源方法

2016-06-21 15:05:43林海倫李焱王偉平岳銀亮林政
通信學(xué)報(bào) 2016年12期
關(guān)鍵詞:網(wǎng)盤會(huì)話字段

林海倫,李焱,王偉平,岳銀亮,林政

(1.中國(guó)科學(xué)院信息工程研究所,北京 100093;2.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)

基于Cookie的網(wǎng)盤資源在線溯源方法

林海倫1,李焱2,王偉平1,岳銀亮1,林政1

(1.中國(guó)科學(xué)院信息工程研究所,北京 100093;2.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)

網(wǎng)盤作為一種基于互聯(lián)網(wǎng)的信息傳播載體,其所分享的敏感資源已經(jīng)在網(wǎng)絡(luò)流量中占有越來越多的比例,因此,獲取網(wǎng)盤資源的分享鏈接對(duì)于網(wǎng)絡(luò)安全有著重要的意義。提出了一種高效可擴(kuò)展的基于Cookie的網(wǎng)盤資源溯源方法—CookieTracing。該方法通過在海量的HTTP會(huì)話中建立Cookie與HTTP會(huì)話的索引表來實(shí)現(xiàn)網(wǎng)盤資源和下載網(wǎng)盤資源的跳轉(zhuǎn)鏈的關(guān)聯(lián),同時(shí)通過累計(jì)散列算法加快溯源結(jié)果的驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,所提方法具有較好的性能和可擴(kuò)展性。

網(wǎng)盤資源;分享鏈接;URL跳轉(zhuǎn)鏈;Cookie;HTTP會(huì)話

1 引言

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)作為一個(gè)開放式的平臺(tái),為用戶提供了眾多可以分享和下載資源的服務(wù),如P2P注1:https://en.wikipedia.org/wiki/Peer-to-peer。:https://en.wikipedia.org/wiki/BitTorrent。、BitTorrent注2:https://en.wikipedia.org/wiki/Peer-to-peer。:https://en.wikipedia.org/wiki/BitTorrent。以及目前比較流行的網(wǎng)盤。由于網(wǎng)盤操作簡(jiǎn)單,用戶無需安裝軟件就可以一鍵分享、下載資源;而且與BitTorrent等傳統(tǒng)資源分享模式相比,下載速度快。網(wǎng)盤具備的這些特點(diǎn)導(dǎo)致P2P和BitTorrent使用量急劇下降[1~3]。目前,統(tǒng)計(jì)已有很多研究對(duì)網(wǎng)盤的使用情況,Maier等[1]對(duì)網(wǎng)盤的網(wǎng)絡(luò)流量進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)網(wǎng)盤流量占普通網(wǎng)絡(luò)流量總數(shù)的17%。Gehlen等[2]對(duì)網(wǎng)盤的點(diǎn)擊量進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)網(wǎng)盤是排名前10的網(wǎng)絡(luò)應(yīng)用,并且占據(jù)5%的點(diǎn)擊量。Allot等[3]則對(duì)網(wǎng)盤在移動(dòng)終端上的網(wǎng)絡(luò)流量進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)網(wǎng)盤流量占據(jù)移動(dòng)終端網(wǎng)絡(luò)流量總數(shù)的19%。通過上述分析可以看出,網(wǎng)盤已成為重要的網(wǎng)絡(luò)資源分享和下載的方式。

當(dāng)用戶利用網(wǎng)盤分享資源時(shí),網(wǎng)盤會(huì)給該資源生成唯一與之對(duì)應(yīng)的URL標(biāo)識(shí),用戶將該鏈接分享至網(wǎng)絡(luò)社交平臺(tái),其他用戶即可點(diǎn)擊該鏈接下載分享資源,這些用戶點(diǎn)擊分享鏈接后會(huì)彈出一個(gè)帶有下載按鈕的頁面(本文將其定義為入口頁面),該頁面的URL即為資源的分享鏈接,頁面會(huì)描述該下載資源的屬性信息,如資源發(fā)布者、資源發(fā)布時(shí)間、資源下載次數(shù)等。

當(dāng)用戶單擊入口頁面中的下載按鈕下載該資源時(shí),用戶使用的瀏覽器會(huì)自動(dòng)向服務(wù)器發(fā)出一系列HTTP請(qǐng)求(本文將其定義為資源下載的URL跳轉(zhuǎn)鏈),直至成功建立下載資源的HTTP會(huì)話。如何從海量的網(wǎng)絡(luò)流量中獲取網(wǎng)盤下載資源所對(duì)應(yīng)的入口頁面對(duì)于網(wǎng)絡(luò)審查[4]、網(wǎng)絡(luò)取證[5]、網(wǎng)絡(luò)流量監(jiān)控[6]等具有重要意義,本文將這一過程定義為網(wǎng)盤資源溯源。

眾所周知,Referer是HTTP表頭的一個(gè)字段,用來指定當(dāng)前請(qǐng)求資源的來源地址。然而,在真實(shí)流量統(tǒng)計(jì)中,大約只有17%的HTTP會(huì)話存在Referer字段。因此,只依賴Referer字段無法獲取絕大部分下載資源的入口頁面。同時(shí),網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT,network address translation)[7]、多路多播技術(shù)[8]和HTTP代理[9]等技術(shù)的使用也導(dǎo)致公網(wǎng)路由節(jié)點(diǎn)捕獲的HTTP會(huì)話的IP地址無法作為精確追溯其URL跳轉(zhuǎn)鏈的依據(jù)。而Cookie中包含計(jì)算機(jī)和瀏覽器的信息,可以用來辨別用戶身份、進(jìn)行session跟蹤。

為此,本文提出了一種高效可擴(kuò)展的基于Cookie的網(wǎng)盤資源在線溯源方法——CookieTracing,該方法的創(chuàng)新之處有以下幾點(diǎn)。

1) 提出了一種基于Cookie的網(wǎng)盤資源溯源方法,基于散列技術(shù),通過建立location字段與HTTP會(huì)話以及Cookie與HTTP會(huì)話的散列表實(shí)現(xiàn)網(wǎng)盤資源溯源。

2) 通過緩存HTTP會(huì)話的Cookie、URL和location字段,采用累計(jì)散列算法加快溯源結(jié)果驗(yàn)證,從而適應(yīng)在線流量的溯源。

2 相關(guān)工作

目前,針對(duì)網(wǎng)盤資源溯源,與之相關(guān)的研究工作主要有2類。

一類是針對(duì)網(wǎng)頁木馬、惡意網(wǎng)頁識(shí)別[10]提出的針對(duì)URL跳轉(zhuǎn)鏈的入口URL識(shí)別方法。由于網(wǎng)頁木馬以及惡意網(wǎng)頁為了躲避檢測(cè),通常都會(huì)經(jīng)過多次URL重定向?qū)⒂脩魹g覽器最終引向惡意代碼網(wǎng)頁[10]。這種URL多次跳轉(zhuǎn)給網(wǎng)頁木馬和惡意網(wǎng)頁的識(shí)別帶來了很大的挑戰(zhàn)。

為此,已有很多工作圍繞網(wǎng)頁木馬、惡意網(wǎng)頁等入口URL的識(shí)別展開研究,如Lee和Jenefa等[10,11]針對(duì)Twitter上存在的惡意URL識(shí)別提出了WarningBird方法,該方法通過收集同一惡意網(wǎng)頁的多條URL跳轉(zhuǎn)鏈獲取入口URL,通過入口URL的特征識(shí)別惡意網(wǎng)頁。Zhang等[12]針對(duì)網(wǎng)頁木馬識(shí)別提出了Arrow方法,該方法首先通過蜜罐技術(shù)收集同一惡意軟件的不同URL跳轉(zhuǎn)鏈;其次,對(duì)比URL跳轉(zhuǎn)鏈各個(gè)節(jié)點(diǎn)的IP和域名獲取惡意軟件的入口URL;最后,針對(duì)該入口URL提取URL模式,根據(jù)URL模式識(shí)別網(wǎng)頁木馬。

通過分析可以發(fā)現(xiàn),WarningBird和Arrow方法[10~12]都是通過收集惡意網(wǎng)頁代碼的URL跳轉(zhuǎn)鏈,離線學(xué)習(xí)入口URL的特征,根據(jù)這些特征實(shí)現(xiàn)惡意網(wǎng)頁代碼及其入口URL(惡意網(wǎng)頁、掛馬網(wǎng)頁)的識(shí)別。這種方法雖然可用于網(wǎng)盤資源的溯源,但是還存在一些不足。目前,眾多的網(wǎng)盤對(duì)應(yīng)的分享資源的URL跳轉(zhuǎn)鏈特征并不一致,而且通過調(diào)研發(fā)現(xiàn)即使對(duì)于同一網(wǎng)盤的分享資源的不同下載,其特征也會(huì)變化,所以現(xiàn)有的方法難以直接適用于網(wǎng)盤的分享資源的溯源。

另一類是針對(duì)NAT和HTTP代理導(dǎo)致骨干網(wǎng)關(guān)上數(shù)據(jù)分組的IP地址無法標(biāo)識(shí)用戶而提出的在NAT主機(jī)進(jìn)行識(shí)別的技術(shù)[13,14]。例如,Goldberg等[13]通過分析HTML網(wǎng)頁內(nèi)容,以及HTTP會(huì)話中的user-agent字段,實(shí)現(xiàn)了對(duì)不同用戶發(fā)出的一系列HTTP請(qǐng)求的關(guān)聯(lián)。Maier等[14]通過對(duì)用戶瀏覽器的版本和配置等信息產(chǎn)生“瀏覽器指紋”的方法,識(shí)別出不同用戶瀏覽器所發(fā)出的的HTTP會(huì)話。Neasbitt等[15]提出了一種基于網(wǎng)絡(luò)流量跟蹤的用戶—瀏覽器交互重構(gòu)方法。上述這些方法雖然能夠識(shí)別不同用戶的HTTP請(qǐng)求,但是存在以下缺陷:骨干網(wǎng)絡(luò)大部分的HTTP會(huì)話中只包含user-agent,而沒有其他的配置信息,如字體、插件、時(shí)間等,這將導(dǎo)致方法失效。不僅如此,這種方法需要緩存網(wǎng)頁內(nèi)容,針對(duì)骨干網(wǎng)絡(luò)的巨大流量,這會(huì)極大地加劇空間開銷。

通過對(duì)相關(guān)工作的分析可以看出,雖然目前已經(jīng)出現(xiàn)了一些針對(duì)資源溯源的方法,但是這些方法無法有效處理網(wǎng)盤資源的溯源。特別地,隨著網(wǎng)絡(luò)大數(shù)據(jù)的爆炸性增長(zhǎng)和網(wǎng)盤的流行,需要研究有效的網(wǎng)盤資源溯源方法,提高資源溯源的準(zhǔn)確性。

3 CookieTracing方法的原理

本節(jié)將詳細(xì)介紹CookieTracing方法的原理。為此,首先給出URL跳轉(zhuǎn)鏈和CookieTracing方法的形式化定義,然后介紹CookieTracing識(shí)別網(wǎng)盤分享源下載入口頁面的處理流程。

3.1 問題定義

定義1URL跳轉(zhuǎn)鏈。給定一個(gè)網(wǎng)盤資源的分享鏈接,用戶通過瀏覽器訪問該鏈接發(fā)送下載資源的HTTP會(huì)話請(qǐng)求,到建立下載該資源的HTTP會(huì)話完成資源下載為止,這期間發(fā)出的一系列HTTP請(qǐng)求對(duì)應(yīng)的所有URL,稱為該資源下載對(duì)應(yīng)的URL跳轉(zhuǎn)鏈。

由于時(shí)間、地點(diǎn)、位置的不同,對(duì)于同一個(gè)網(wǎng)盤資源的分享鏈接,每一次下載該資源對(duì)應(yīng)的URL跳轉(zhuǎn)鏈中的各個(gè)URL節(jié)點(diǎn)可能都不相同。CookieTracing方法的目標(biāo)就是基于不同用戶下載該網(wǎng)盤資源產(chǎn)生的URL跳轉(zhuǎn)鏈,查找URL跳轉(zhuǎn)鏈中的公共節(jié)點(diǎn),從而實(shí)現(xiàn)網(wǎng)盤資源入口頁面的識(shí)別。下面通過一個(gè)例子來簡(jiǎn)單說明基于URL跳轉(zhuǎn)鏈識(shí)別網(wǎng)盤資源入口頁面的思想。

以用戶A、B、C為例,他們利用同一網(wǎng)盤資源分享鏈接下載資源產(chǎn)生的URL跳轉(zhuǎn)鏈如圖1所示。

圖1 網(wǎng)盤下載資源入口頁面查找示例

在圖1中,A4、B3、C4分別表示用戶A、B、C下載資源時(shí)的入口頁面,如果能獲取A、B、C各自資源下載的URL跳轉(zhuǎn)鏈,提取出這3條URL跳轉(zhuǎn)鏈的公共節(jié)點(diǎn),就可以找到該資源的入口點(diǎn)A4(即B3、C4)。

通過以上分析可以看出,網(wǎng)盤資源溯源需要經(jīng)過以下幾個(gè)步驟:首先,從網(wǎng)關(guān)流量中識(shí)別下載資源并計(jì)算資源的標(biāo)識(shí)ID;然后,獲取下載資源的URL跳轉(zhuǎn)鏈;最后,合并具有相同資源標(biāo)識(shí)ID的不同URL跳轉(zhuǎn)鏈,獲取唯一的公共URL節(jié)點(diǎn),該節(jié)點(diǎn)即為該下載資源對(duì)應(yīng)的入口頁面。因此,本文提出的網(wǎng)盤溯源方法——CookieTracing,就是基于不同用戶通過瀏覽器訪問資源產(chǎn)生的Cookie信息,采用上述處理方式對(duì)網(wǎng)盤資源進(jìn)行溯源。

3.2 CookieTracing方法流程

在本節(jié),將詳細(xì)介紹CookieTracing方法進(jìn)行網(wǎng)盤資源溯源的處理流程。

3.2.1 下載資源的標(biāo)識(shí)ID計(jì)算

通過分析發(fā)現(xiàn),用于網(wǎng)盤資源傳輸?shù)腍TTP會(huì)話具有以下幾個(gè)特點(diǎn):1) 下載資源HTTP會(huì)話的content type的取值有幾種,分別為video/mp4、application/stream等;2) 在真實(shí)流量統(tǒng)計(jì)中顯示,93%的下載資源HTTP會(huì)話的content length都在50 MB以上。因此,可根據(jù)上述特點(diǎn)識(shí)別出所有包含網(wǎng)盤下載資源在內(nèi)的下載資源。

由于下載資源在網(wǎng)絡(luò)上是按分組傳輸?shù)?,在大流量環(huán)境中傳統(tǒng)緩存整個(gè)下載資源數(shù)據(jù)計(jì)算資源MD5的方法無法適用于在線流量的計(jì)算,原因在于:一方面,這種方式極大地消耗了內(nèi)存資源,另一方面,也增加了分享鏈接的獲取時(shí)間。為此,CookieTracing采用了累計(jì)散列的方法計(jì)算下載資源的標(biāo)識(shí)ID,該方法對(duì)于按分組到達(dá)的數(shù)據(jù),對(duì)每個(gè)字節(jié)累計(jì)進(jìn)行散列,將下載數(shù)據(jù)映射成一個(gè)64 bit的散列值,從而獲得下載資源的標(biāo)識(shí)ID。真實(shí)流量中,下載資源的部分?jǐn)?shù)據(jù)即可以對(duì)資源進(jìn)行區(qū)分,因此,CookieTracing方法只對(duì)下載資源的前20%~30%數(shù)據(jù)做累計(jì)散列,用來實(shí)現(xiàn)下載資源的標(biāo)識(shí)ID的計(jì)算。

3.2.2 資源的URL跳轉(zhuǎn)鏈提取

對(duì)于網(wǎng)盤分享資源下載生成的URL跳轉(zhuǎn)鏈中,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的HTTP會(huì)話的Cookie信息可能存在多個(gè)鍵—值(key-value)相同的項(xiàng),本文將其定義為token。其中,某些token是網(wǎng)盤服務(wù)器用來追蹤用戶,標(biāo)識(shí)用戶的訪問記錄。為此,本文定義了token的區(qū)分度dif,計(jì)算公式如下

其中,Ntoken-cookie為包含該token的HTTP會(huì)話數(shù);Ncookie為總的HTTP會(huì)話數(shù)。

為了提高URL跳轉(zhuǎn)鏈計(jì)算的準(zhǔn)確性,本文定義HTTP會(huì)話的關(guān)聯(lián)度simtoken,計(jì)算公式如下

其中,Nsimtoken為2個(gè)HTTP會(huì)話的Cookie區(qū)分度高的token的個(gè)數(shù)。如果2個(gè)HTTP會(huì)話的關(guān)聯(lián)度simtoken大于閾值sim0,則認(rèn)為這2個(gè)HTTP會(huì)話屬于同一條URL跳轉(zhuǎn)鏈。因此,只要獲取與下載資源HTTP會(huì)話有著高關(guān)聯(lián)度的一系列HTTP話單就可獲取URL跳轉(zhuǎn)鏈。

根據(jù)HTTP重定向原理可知,下載資源HTTP會(huì)話的URL與重定向HTTP會(huì)話的location相同,而重定向的HTTP會(huì)話存在Cookie信息。因此,在計(jì)算網(wǎng)盤資源下載的URL跳轉(zhuǎn)鏈時(shí),首先通過下載資源HTTP會(huì)話的URL獲取重定向HTTP會(huì)話;然后,通過重定向HTTP會(huì)話即可獲取完整的URL跳轉(zhuǎn)鏈。

3.2.3 資源的入口頁面計(jì)算

根據(jù)網(wǎng)盤資源的標(biāo)識(shí)ID,對(duì)網(wǎng)盤資源下載的URL跳轉(zhuǎn)鏈進(jìn)行分組,將具有相同標(biāo)識(shí)ID對(duì)應(yīng)的資源下載的URL跳轉(zhuǎn)鏈進(jìn)行合并,對(duì)合并之后的URL跳轉(zhuǎn)鏈上的節(jié)點(diǎn)進(jìn)行遍歷,查找URL跳轉(zhuǎn)鏈上的割點(diǎn),若該割點(diǎn)是合并的URL跳轉(zhuǎn)鏈上的唯一的公共URL節(jié)點(diǎn),那么該節(jié)點(diǎn)即為該網(wǎng)盤資源的入口。

基于上述CookieTracing方法的原理和處理流程,下面將詳細(xì)介紹CookieTracing方法的實(shí)現(xiàn)。

4 CookieTracing方法實(shí)現(xiàn)

在本節(jié),首先介紹CookieTracing方法的整體框架,然后介紹各個(gè)模塊的具體實(shí)現(xiàn)。

4.1 基本框架

CookieTracing方法主要包含4個(gè)部分:HTTP會(huì)話收集、HTTP會(huì)話索引、URL跳轉(zhuǎn)鏈計(jì)算和資源入口計(jì)算,在進(jìn)行網(wǎng)盤資源溯源時(shí),該方法整體的處理框架如圖2所示。

圖2 CookieTracing 實(shí)現(xiàn)架構(gòu)

1) HTTP會(huì)話收集模塊負(fù)責(zé)對(duì)輸入的網(wǎng)絡(luò)流量進(jìn)行解析,獲取所需的HTTP會(huì)話,并緩存HTTP會(huì)話的頭部信息,以便降低存儲(chǔ)空間開銷。

2) HTTP會(huì)話索引模塊負(fù)責(zé)解析HTTP會(huì)話,對(duì)海量的HTTP會(huì)話建立Cookie字段與HTTP會(huì)話的關(guān)聯(lián)。

3) 資源URL跳轉(zhuǎn)鏈計(jì)算模塊,負(fù)責(zé)根據(jù)下載資源HTTP會(huì)話獲取重定向HTTP會(huì)話,并根據(jù)重定向HTTP會(huì)話的Cookie信息提取資源下載的URL跳轉(zhuǎn)鏈。

4) 資源入口頁面計(jì)算模塊負(fù)責(zé)合并同一下載資源的多個(gè)URL跳轉(zhuǎn)鏈,獲取合并的URL跳轉(zhuǎn)的唯一公共節(jié)點(diǎn),并通過比較分享鏈接下載資源的標(biāo)識(shí)ID與Load Runner[16]模擬訪問收集的資源標(biāo)識(shí)ID,驗(yàn)證所找到的資源入口頁面的正確性。

4.2 模塊實(shí)現(xiàn)

本節(jié)將詳細(xì)介紹CookieTracing方法中每個(gè)模塊的具體實(shí)現(xiàn)細(xì)節(jié)。

4.2.1 HTTP會(huì)話收集

該模塊通過網(wǎng)絡(luò)流量處理平臺(tái)解析HTTP會(huì)話信息。首先,過濾出2類需要的HTTP會(huì)話。

1) 如果HTTP會(huì)話的content-type字段的值為text/html,且存在Cookie字段,則將這類HTTP會(huì)話信息的三元組:(URL,Cookie,TCP連接建立時(shí)間戳)緩存于HTTP會(huì)話隊(duì)列。

2) 如果HTTP會(huì)話的content-type字段的值為video/x-ms-wmv、video/mp4等音視頻MIME類型,且該HTTP會(huì)話的content-length大于某閾值,則該HTTP會(huì)話即為下載資源的HTTP會(huì)話。將這類HTTP會(huì)話的四元組:(URL,Cookie,TCP連接建立時(shí)間戳,下載資源標(biāo)識(shí)ID)緩存于資源下載HTTP會(huì)話隊(duì)列。

其次,計(jì)算下載資源HTTP會(huì)話的下載資源標(biāo)識(shí)ID,本文采用了累計(jì)散列算法,計(jì)算一個(gè)64 bit的散列值作為下載資源的標(biāo)識(shí)ID,具體的計(jì)算方法如算法1所示。

算法1資源標(biāo)識(shí)ID計(jì)算

輸入resourceSize,key,totalAccumulationLen

輸出resourceID

從算法1中可以看出,資源標(biāo)識(shí)ID的計(jì)算的時(shí)間復(fù)雜度與下載資源的大小有關(guān),算法的復(fù)雜度為O(N)。

4.2.2 HTTP會(huì)話索引創(chuàng)建

該模塊對(duì)HTTP會(huì)話隊(duì)列中的HTTP會(huì)話建立索引,規(guī)則如下。

1) 如果HTTP會(huì)話中存在location字段,則以location字段指定的URL作為key,HTTP會(huì)話作為value,存入location索引表。為了降低空間開銷,該索引對(duì)存儲(chǔ)的HTTP會(huì)話只做一定時(shí)間緩存(本文選取的時(shí)間間隔為5 min)。記該索引表為location-HTTP索引表,結(jié)構(gòu)如圖3所示。

圖3 location-HTTP會(huì)話索引表結(jié)構(gòu)

2) 若HTTP會(huì)話包含Cookie,則將Cookie分割為token,以token作為key,包含此token的HTTP會(huì)話作為value,緩存于token索引表,記為token-HTTP索引表。其中,每個(gè)token關(guān)聯(lián)的HTTP會(huì)話鏈表按照數(shù)據(jù)分組的捕獲時(shí)間進(jìn)行排序。token-HTTP索引表的結(jié)構(gòu)如圖4所示。

為了降低算法的時(shí)間開銷和空間開銷,在建立token索引表時(shí)會(huì)去除區(qū)分度dif不高的token,如去除存在于大多數(shù)HTTP會(huì)話的token。

空間開銷分析:考慮到互聯(lián)網(wǎng)訪問服務(wù)通常是由IIS或Apache服務(wù)器提供的,IIS或Apache默認(rèn)的HTTP會(huì)話的大小為1 MB,如前所述本文選取緩存5 min時(shí)間間隔內(nèi)的HTTP會(huì)話,通過對(duì)實(shí)際的骨干網(wǎng)絡(luò)某個(gè)節(jié)點(diǎn)的流量分析發(fā)現(xiàn),流量中每秒包含約10個(gè)網(wǎng)盤資源訪問HTTP會(huì)話。因此,5 min內(nèi)可能的網(wǎng)盤資源訪問HTTP會(huì)話數(shù)量約為3 000個(gè),所需的空間開銷共計(jì)約為3 GB。

對(duì)于location-HTTP索引表,其所需的空間開銷主要由URL和HTTP會(huì)話的編號(hào)ID所需的空間開銷組成:URL的平均長(zhǎng)度不超過1 024 byte;HTTP會(huì)話的編號(hào)ID的長(zhǎng)度為8 byte。因此,5 byte時(shí)間間隔內(nèi)索引表所需的空間開銷約為3 MB。

圖4 token-HTTP索引表結(jié)構(gòu)

對(duì)于token-HTTP索引表,其所需的空間開銷也是主要由token和HTTP會(huì)話的編號(hào)ID所需的空間開銷組成:每一個(gè)token不超過8 byte;HTTP會(huì)話的編號(hào)ID的長(zhǎng)度為8 byte。一個(gè)HTTP會(huì)話的Cookie中的token(屬性)的平均選取數(shù)量不超過5個(gè),因此,5 min時(shí)間間隔內(nèi)索引表所需的空間開銷約為0.24 MB。

通過分析可以看出,在CookieTracing方法中,HTTP會(huì)話索引總的空間開銷不超過4 GB。

4.2.3 URL跳轉(zhuǎn)鏈計(jì)算

該模塊的處理過程包括以下幾步。

1) 將從下載資源的HTTP會(huì)話隊(duì)列中出隊(duì)的HTTP會(huì)話的URL作為key,查找location-HTTP索引表,獲取重定向HTTP會(huì)話。

2) 將重定向HTTP會(huì)話的Cookie分割成token,以token為key,查找token-HTTP索引表,獲取所有包含這些token的HTTP會(huì)話,本文將這些HTTP會(huì)話鏈定義為疑似HTTP會(huì)話鏈。

3) 遍歷疑似HTTP會(huì)話鏈,統(tǒng)計(jì)HTTP會(huì)話在疑似HTTP會(huì)話鏈中出現(xiàn)的頻率。如果其頻率大于指定關(guān)聯(lián)度閾值,即認(rèn)為其屬于下載資源的URL跳轉(zhuǎn)鏈。

下面通過一個(gè)例子來說明,下載資源URL跳轉(zhuǎn)鏈的計(jì)算。給定一個(gè)下載資源,其對(duì)應(yīng)的重定向HTTP會(huì)話包含的Cookie可分為4個(gè)token,分別記為token1、token2、token3和token4,以這些token為key,查找cookie-HTTP索引表,獲取4個(gè)token分別對(duì)應(yīng)的HTTP會(huì)話鏈,如圖5所示。

在圖5所示的例子中,規(guī)定每一個(gè)HTTP會(huì)話若其出現(xiàn)在HTTP會(huì)話鏈中的頻率大于1,則該HTTP會(huì)話屬于URL跳轉(zhuǎn)鏈。因此,比較token1、token2、token3和token4關(guān)聯(lián)的4條HTTP鏈,發(fā)現(xiàn)編號(hào)為1、2、4、8的HTTP會(huì)話在4條HTTP會(huì)話鏈中出現(xiàn)的頻率都大于1,所以它們屬于下載資源的URL跳轉(zhuǎn)鏈。根據(jù)token-HTTP索引表中,HTTP 會(huì)話鏈按照數(shù)據(jù)分組獲取的時(shí)間排序,因此,該下載資源的URL跳轉(zhuǎn)鏈即為1→2→4→8。

4.2.4 資源入口頁面計(jì)算

與從疑似HTTP會(huì)話中獲取URL跳轉(zhuǎn)鏈的方法類似,CookieTracing方法基于統(tǒng)計(jì)的方式,從下載資源的URL跳轉(zhuǎn)鏈中獲取資源的入口頁面,主要包含以下幾個(gè)步驟。

1) 將具有相同下載資源標(biāo)識(shí)ID的URL跳轉(zhuǎn)鏈進(jìn)行合并。

2) 遍歷合并的URL跳轉(zhuǎn)鏈,尋找割點(diǎn),若該割點(diǎn)在該下載資源對(duì)應(yīng)的所有的URL跳轉(zhuǎn)鏈中出現(xiàn)的頻率最高,則該節(jié)點(diǎn)即為該下載資源真正的入口頁面。

3) 通過Load Runner[16]模擬用戶訪問網(wǎng)盤資源的分享鏈接,重新下載該資源,然后通過累計(jì)散列計(jì)算該資源的標(biāo)識(shí)ID值并與CookieTracing計(jì)算出的標(biāo)識(shí)ID做對(duì)比,如果二者相同,則該網(wǎng)盤資源的入口頁面被確定。

5 實(shí)驗(yàn)與分析

為了驗(yàn)證本文提出的基于Cookie的網(wǎng)盤資溯源(CookieTracing)方法的性能,本節(jié)將對(duì)CookieTracing的有效性進(jìn)行實(shí)驗(yàn)分析,首先測(cè)試CookieTracing方法進(jìn)行網(wǎng)盤資源溯源的查準(zhǔn)率和查全率;然后測(cè)試CookieTracing方法的運(yùn)行效率。

圖5 URL跳轉(zhuǎn)鏈獲取過程

5.1 實(shí)驗(yàn)設(shè)置

1) 評(píng)價(jià)指標(biāo)

在實(shí)驗(yàn)中,針對(duì)有效性測(cè)試,使用查準(zhǔn)率和查全率進(jìn)行評(píng)價(jià)。其中,查準(zhǔn)率指查找到的正確資源入口點(diǎn)占查找到的網(wǎng)盤資源入口點(diǎn)的比例;查全率指查找到的正確資源入口點(diǎn)占所有網(wǎng)盤資源入口點(diǎn)的比例。在運(yùn)行效率測(cè)試中,使用獲取時(shí)間進(jìn)行評(píng)價(jià)(指獲取入口點(diǎn)的時(shí)間)。

2) 基準(zhǔn)方法

為了驗(yàn)證CookieTracing方法對(duì)網(wǎng)盤資源溯源的性能,采用最新的方法WarningBird[10,11]作為基準(zhǔn)方法(詳見第2節(jié))。

3) HTTP會(huì)話索引存儲(chǔ)

在實(shí)驗(yàn)中,本文采用基于內(nèi)存的key-value數(shù)據(jù)庫(kù)Redis注3:http://redis.io/。存儲(chǔ)HTTP會(huì)話索引。

在實(shí)驗(yàn)中,首先,通過百度網(wǎng)盤搜索引擎獲取視頻資源的分享鏈接。然后,利用Load Runner模擬用戶請(qǐng)求這些分享資源鏈接,收集各自對(duì)應(yīng)的URL跳轉(zhuǎn)鏈。最后,在網(wǎng)關(guān)上統(tǒng)計(jì)隨著下載資源增多,CookieTracing方法和WarningBird方法進(jìn)行網(wǎng)盤資源溯源的查準(zhǔn)率、查全率,以及它們的運(yùn)行時(shí)間。下面分別介紹CookieTracing方法對(duì)應(yīng)的有效性、運(yùn)行效率實(shí)驗(yàn)結(jié)果。

5.2 實(shí)驗(yàn)結(jié)果

1) 有效性測(cè)試

CookieTracing方法與WarningBird方法查準(zhǔn)率的實(shí)驗(yàn)結(jié)果如圖6所示。

圖6 查準(zhǔn)率實(shí)驗(yàn)結(jié)果

從圖6中可以看出,CookieTracing方法和WarningBird方法的查準(zhǔn)率基本一致,平均查準(zhǔn)率分別是98.67%、97.76%,導(dǎo)致這一現(xiàn)象的原因在于:這2種方法在網(wǎng)盤資源的入口點(diǎn)查找時(shí)采用的算法基本一致,都是通過合并資源的URL跳轉(zhuǎn)鏈,計(jì)算跳轉(zhuǎn)鏈中的公共節(jié)點(diǎn)獲得資源的入口點(diǎn)。值得注意的是,在網(wǎng)關(guān)上由于流量捕分組采集不穩(wěn)定因素,導(dǎo)致網(wǎng)盤資源溯源的查準(zhǔn)率在一定范圍內(nèi)呈現(xiàn)波動(dòng)現(xiàn)象,但整體上呈穩(wěn)定趨勢(shì)。

CookieTracing方法與WarningBird方法查全率的實(shí)驗(yàn)結(jié)果如圖7所示。從圖7可以看出,與WarningBird方法相比,在對(duì)網(wǎng)盤資源進(jìn)行溯源時(shí),CookieTracing的查全率遠(yuǎn)遠(yuǎn)高于WarningBird方法。其中,CookieTracing方法的平均查全率為98.86%,而WarningBird方法的平均查全率為16.67%。主要原因在于:WarningBird方法采用基于HTTP Referer字段的方法,在真實(shí)流量統(tǒng)計(jì)中,HTTP會(huì)話存在Referer字段的比例很少,只依賴Referer字段難以獲取絕大部分下載資源的入口頁面。而Cookie在資源請(qǐng)求訪問中是普遍存在的,基于Cookie進(jìn)行網(wǎng)盤資源溯源將是一種非常有力的方式。

圖7 查全率實(shí)驗(yàn)結(jié)果

由此可見,雖然WarningBird方法具有和CookieTracing方法幾乎相當(dāng)?shù)牟闇?zhǔn)率,但是在查全率方面,WarningBird方法僅是CookieTracing方法的,這進(jìn)一步驗(yàn)證了基于Cookie方式的CookieTracing方法對(duì)網(wǎng)盤資源溯源的有效性。

2) 運(yùn)行效率測(cè)試

本節(jié)將評(píng)估CookieTracing方法與基準(zhǔn)方法WarningBird在網(wǎng)盤資源入口識(shí)別上的運(yùn)行效率,實(shí)驗(yàn)結(jié)果如圖8所示。

從圖8中可以看出,隨下載資源的增加,CookieTracing方法資源入口的查找時(shí)間明顯快于WarningBird方法,并且隨著下載資源HTTP會(huì)話的增加,CookieTracing方法的查找時(shí)間基本保持線性增長(zhǎng),而WarningBird方法呈指數(shù)增長(zhǎng),這說明在實(shí)時(shí)性方面CookieTracing方法明顯優(yōu)于WarningBird方法。主要原因在于CookieTracing方法采用累計(jì)散列算法計(jì)算資源ID標(biāo)識(shí),能夠加快資源ID的計(jì)算。

圖8 運(yùn)行效率實(shí)驗(yàn)結(jié)果

基于以上實(shí)驗(yàn)分析可以看出,與基準(zhǔn)方法相比,CookieTracing方法在進(jìn)行網(wǎng)盤資源溯源時(shí),不僅可以獲得更高的準(zhǔn)確率,而且在實(shí)時(shí)性方面也能獲得更好的效果,這些都表明CookieTracing方法的有效性,這也說明在網(wǎng)盤資源溯源中,采用Cookie是一項(xiàng)非常有用的技術(shù)。

6 結(jié)束語

如何從骨干網(wǎng)絡(luò)節(jié)點(diǎn)上的海量流量中識(shí)別出網(wǎng)盤資源下載的HTTP會(huì)話的入口頁面對(duì)于網(wǎng)絡(luò)審查、網(wǎng)絡(luò)取證、網(wǎng)絡(luò)審計(jì)等具有重要意義。為此,本文提出一種基于Cookie的網(wǎng)盤資源在線溯源方法——CookieTracing。CookieTracing方法首先獲取下載資源的URL跳轉(zhuǎn)鏈,然后通過對(duì)比同一下載資源對(duì)應(yīng)的不同URL跳轉(zhuǎn)鏈獲取唯一公共URL節(jié)點(diǎn),認(rèn)為該URL即為下載資源對(duì)應(yīng)的入口頁面。最后通過Load Runner模擬用戶訪問該URL,驗(yàn)證溯源的正確性。實(shí)驗(yàn)結(jié)果表明CookieTracing方法具有很好的性能。

[1]MAIER G,FELDMANN A,PAXSON V,et al.On dominant charac-teristics of residential broadband Internet traffic[C]//9th ACM SIGCOMM Conference on Internet Measurement.ACM,2009:90-102.

[2]GEHLEN V,FINAMORE A,MELLIA M,et al.Uncovering the big players of the Web[M].Springer Berlin Heidelberg,2012.

[3]MOBILE TRENDS A.Global mobile broadband traffic report[R/OL].Allot Communications,Technical Report,http://www.allot.com/MobileTrends Report,2010.

[4]BERGHEL H.The discipline of Internet forensics[J].Communications of the ACM,2003,46(8):15-20.

[5]WATTS S,NEWBY J M,MEWTON L,et al.A clinical audit of changes in suicide ideas with internet treatment for depression[J].BMJ open,2012,2(5):e001558.

[6]PANAH A,PANAH A,PANAH O,et al.Challenges of security issues in cloud computing layers[J].Rep Opin,2012,4(10):25-29.

[7]GOKCEN Y,FOROUSHANI V A,HEYWOOD A.Can we identify NAT behavior by analyzing traffic flows[C]//IEEE Security and Privacy Workshops (SPW).2014:132-139.

[8]LIU T T,YANG W,XU C L,et al.A SNR-based multi-channel multicast scheme for popular video in wireless networks[J].Journal of Networks,2013,8(3):628-635.

[9]HAYTON S J,JONES D R,LOBO A R,et al.Using entity tags (etags) in a hierarchical HTTP proxy cache to reduce network traffic:U.S.Patent Application 13/360,891[P].2012-1-30.

[10]LEE S,KIM J.Warningbird:a near real-time detection system for suspicious URLs in twitter stream[J].IEEE Transactions on Dependable and Secure Computing,2013 (3):183-195.

[11]JENEFA A,RAVI R.Classifier:a real-time detection system for suspicious URLs in Twitter stream[J].International Journal,2014,2(2).

[12]ZHANG J,SEIFERT C,STOKES J W,et al.Arrow:generating signatures to detect drive-by downloads[C]//20th International Conference on World Wide Web.ACM,2011:187-196.

[13]GOLDBERG J,WESTERLUND M,ZENG T.A network address translator (NAT) traversal mechanism for media controlled by real-time streaming protocol (RTSP)[J/OL].http://tools.ietf.ory/html/ draft-ietf-mmusic-rtsp-nat-03.

[14]MAIER G,SCHNEIDER F,FELDMANN A.NAT usage in residential broadband networks[M].Passive and Active Measurement.Springer Berlin Heidelberg,2011.

[15]NEASBITT C,PERDISCI R,LI K,et al.Clickminer:towards forensic reconstruction of user-browser interactions from network traces[C]// The 2014 ACM SIGSAC Conference on Computer and Communications Security,2014:1244-1255.

[16]JINYUAN C.The application of load runner in software performance test[J].Computer Development &Applications,2012,5:014.

林海倫(1987-),女,山東臨沂人,博士,中國(guó)科學(xué)院信息工程研究所助理研究員,主要研究方向?yàn)閿?shù)據(jù)挖掘、知識(shí)圖譜。

李焱(1984-),男,湖北隨州人,國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)協(xié)調(diào)中心工程師,主要研究方向?yàn)榉植际较到y(tǒng)和云計(jì)算。

王偉平(1975-),男,吉林舒蘭人,博士,中國(guó)科學(xué)院信息工程研究所研究員、博士生導(dǎo)師,主要研究方向?yàn)榇髷?shù)據(jù)存儲(chǔ)與處理。

岳銀亮(1982-),男,河南許昌人,博士,中國(guó)科學(xué)院信息工程研究所副研究員,主要研究方向?yàn)榇髷?shù)據(jù)存儲(chǔ)與智能化處理。

林政(1984-),女,山東青島人,博士,中國(guó)科學(xué)院信息工程研究所助理研究員,主要研究方向?yàn)樽匀徽Z言處理、情感分析。

Cookie based online tracing method for cyberlockers resource

LIN Hai-lun1,LI Yan2,WANG Wei-ping1,YUE Yin-liang1,LIN Zheng1
(1.Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China;2.National Computer Network Emergency Response and Coordination Center,Beijing 100029,China)

Cyberlockers have recently become an Internet-based agent of information dissemination.In light of the non-negligible fraction accounted by the traffic flows originating from cyberlocks,it is necessary to trace them for network security.An efficient and scalable cookie based online cyberlockers resource tracing method was proposed,called CookieTracing.It can achieve an efficient association between cyberlockers resource and its download redirect chain by construction of index table between cookie and HTTP sessions in massive HTTP sessions.Meanwhile,through cumulative hash algorithm,it can speed up the validation of tracing results.Experimental results show that this method performs good efficiency and scalability.

cyberlockers resource,shared links,URL chain,Cookie,HTTP session

s:The National Science and Technology Major Project of Hegaoji (No.2013ZX01039-002-001-001),The National Natural Science Foundation of China(No.61303056,No.61402464,No.61402473,No.61502478,No.61602467)

TP319

A

10.11959/j.issn.1000-436x.2016274

2015-10-25;

2016-06-30

“核高基”國(guó)家科技重大專項(xiàng)基金資助項(xiàng)目(No.2013ZX01039-002-001-001);國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61303056,No.61402464,No.61402473,No.61502478,No.61602467)

猜你喜歡
網(wǎng)盤會(huì)話字段
圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
有意冒犯性言語的會(huì)話含義分析
漢語教材中的會(huì)話結(jié)構(gòu)特征及其語用功能呈現(xiàn)——基于85個(gè)會(huì)話片段的個(gè)案研究
CNMARC304字段和314字段責(zé)任附注方式解析
無正題名文獻(xiàn)著錄方法評(píng)述
網(wǎng)盤資源集中管理
電腦迷(2014年8期)2014-04-29 08:53:03
網(wǎng)盤如何知道你在分享侵權(quán)文件
基于Web的網(wǎng)盤系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
關(guān)于CNMARC的3--字段改革的必要性與可行性研究
沖突語的會(huì)話分析研究
江阴市| 韶山市| 昌黎县| 永宁县| 新津县| 绥宁县| 赤峰市| 九龙坡区| 鹰潭市| 白玉县| 天水市| 长汀县| 晋宁县| 察雅县| 化德县| 荣成市| 宝丰县| 上饶市| 沭阳县| 开化县| 浦东新区| 奉贤区| 西乌珠穆沁旗| 修水县| 平乡县| 澄迈县| 瓦房店市| 巴楚县| 天柱县| 宿州市| 梁河县| 东光县| 扶沟县| 汽车| 厦门市| 兴文县| 伊吾县| 崇义县| 海林市| 台安县| 东辽县|