王康利,黃 海,李軍政
(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心 河南 鄭州 450002)
一種基于序列特征的Skype流量識(shí)別方法
王康利,黃 海,李軍政
(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心 河南 鄭州 450002)
作為最受歡迎的基于P2P技術(shù)的VOIP客戶端,Skype采用專有通信協(xié)議及多種高強(qiáng)度的加密技術(shù)保證通信安全,具有很強(qiáng)的保密性和便捷性。為了準(zhǔn)確識(shí)別Skype流量,本文在分析Skype電話網(wǎng)絡(luò)結(jié)構(gòu)和通信協(xié)議的基礎(chǔ)上,提出了一種基于序列特征的 Skype流量識(shí)別方法,并設(shè)計(jì)和驗(yàn)證了相應(yīng)的實(shí)驗(yàn)系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,該實(shí)驗(yàn)系統(tǒng)具有很高的識(shí)別效率。
P2P;Skype;序列特征;流量識(shí)別
對(duì)等網(wǎng)絡(luò)(Peer to Peer,P2P)[1],是一種新型通信模式。在P2P網(wǎng)絡(luò)環(huán)境中,所有節(jié)點(diǎn)都動(dòng)態(tài)參與到路由、信息處理和帶寬增強(qiáng)等工作中,而不是單純依靠中心服務(wù)器來(lái)完成這些工作。作為P2P網(wǎng)絡(luò)演進(jìn)到混合模式后的典型應(yīng)用,Skype[2]的出現(xiàn)給用戶帶了諸多便利。Skype可以提供多項(xiàng)服務(wù),如語(yǔ)音通話、文字傳輸、語(yǔ)音通話,視頻會(huì)議等。據(jù)TeleGeography[3]研究數(shù)據(jù)顯示,2010年Skype通話時(shí)長(zhǎng)已占全球國(guó)際通話總時(shí)長(zhǎng)的25%。Skype用戶免費(fèi)通話時(shí)長(zhǎng)和計(jì)費(fèi)市場(chǎng)累計(jì)已經(jīng)超過(guò)了2500億分鐘。目前,Skype已經(jīng)擁有6.63億的注冊(cè)用戶,同時(shí)在線超過(guò)3000萬(wàn)。然而,Skype以P2P技術(shù)為基礎(chǔ)的特點(diǎn)也帶來(lái)了占用網(wǎng)絡(luò)帶寬,加重網(wǎng)絡(luò)負(fù)載等眾多問(wèn)題。因此,Skype流量識(shí)別對(duì)優(yōu)化網(wǎng)絡(luò)環(huán)境和提供差異化服務(wù)等具有重要的意義。
當(dāng)前針對(duì)Skype網(wǎng)絡(luò)流量識(shí)別研究工作已經(jīng)有了一定的基礎(chǔ)。文獻(xiàn)[4]率先對(duì)Skype協(xié)議進(jìn)行了較全面的解析,研究了Skype網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)并分析了skype在不同網(wǎng)絡(luò)狀況下行為特征。文獻(xiàn)[5-7]對(duì)skype的研究主要集中在網(wǎng)絡(luò)架構(gòu)和身份驗(yàn)證階段。文獻(xiàn)[8]提出了一種識(shí)別Skype轉(zhuǎn)播流(經(jīng)超級(jí)節(jié)點(diǎn)轉(zhuǎn)發(fā))的方法,但沒(méi)有考慮識(shí)別直播流,識(shí)別策略不完善。文獻(xiàn)[9]提出了基于UDP傳輸?shù)腟kype報(bào)文未被整體加密的重要特征,并結(jié)合使用貝葉斯分類器針對(duì)Skype具有的VOIP統(tǒng)計(jì)特性識(shí)別Skype流量,但該方法只對(duì)UDP流進(jìn)行了識(shí)別,忽略了基于TCP傳輸?shù)男帕盍?。文獻(xiàn)[10]也忽略了TCP信令流的識(shí)別。文獻(xiàn)[11]提出了一種識(shí)別Skype流的實(shí)時(shí)算法Skype-Hunter,該算法的設(shè)計(jì)運(yùn)用了傳統(tǒng)特征字識(shí)別法和基于行為特征的識(shí)別技術(shù),實(shí)驗(yàn)證明此算法性能優(yōu)于傳統(tǒng)統(tǒng)計(jì)流量分類器。文獻(xiàn)[12-13]分別設(shè)計(jì)出了單包特征和包序列特征自動(dòng)生成系統(tǒng),提出了Skype流新特征。
目前,Skype流量識(shí)別研究面臨的困難主要有:1)網(wǎng)絡(luò)拓?fù)鋸?fù)雜性。Skype是基于P2P技術(shù)的由普通節(jié)點(diǎn)、超級(jí)節(jié)點(diǎn)、登錄服務(wù)器等構(gòu)成的VOIP網(wǎng)絡(luò),Skype采用不同的通信模型進(jìn)行信息傳輸,導(dǎo)致了Skype流量的復(fù)雜性。2)協(xié)議復(fù)雜性。Skype屬于商業(yè)軟件,采用各種私用協(xié)議通信。Skype沒(méi)有公開(kāi)的協(xié)議規(guī)范。3)加密復(fù)雜性。Skype通信過(guò)程中廣泛采用了加密技術(shù)、混淆技術(shù)等,為Skype流量識(shí)別增加了難度。如Skype采用動(dòng)態(tài)端口進(jìn)行數(shù)據(jù)傳輸,使傳統(tǒng)端口識(shí)別法不再適用。
本節(jié)將簡(jiǎn)要分析Skype網(wǎng)絡(luò)體系結(jié)構(gòu)、通信機(jī)制及通信時(shí)的媒體流特征。
2.1 skype網(wǎng)絡(luò)體系結(jié)構(gòu)
Skype采用的是混合式P2P模型,結(jié)合了集中式結(jié)構(gòu)和分布式拓?fù)涞膬?yōu)點(diǎn),網(wǎng)絡(luò)中存在中間服務(wù)器,用戶節(jié)點(diǎn)是分布的。在分布式模式的基礎(chǔ)上引入了超級(jí)節(jié)點(diǎn)(Super Node,SN)和普通節(jié)點(diǎn)((User Node,UN)的概念。Skype的體系結(jié)構(gòu)如圖1所示[14]。
圖1 Skype網(wǎng)絡(luò)體系結(jié)構(gòu)
注冊(cè)服務(wù)器是Skype惟一的中間服務(wù)器,它負(fù)責(zé)完成客戶端的注冊(cè),存儲(chǔ)并管理用戶名和密碼信息,當(dāng)用戶登錄系統(tǒng)時(shí),對(duì)用戶進(jìn)行身份認(rèn)證。注冊(cè)服務(wù)器還需要檢驗(yàn)并保證用戶名的全球惟一性;普通節(jié)點(diǎn)即普通主機(jī)終端,只需要下載了Skype的應(yīng)用,就具有提供語(yǔ)音呼叫和文本消息傳送的能力;超級(jí)節(jié)點(diǎn)類似于普通節(jié)點(diǎn)的網(wǎng)絡(luò)網(wǎng)關(guān),所有普通必須與超級(jí)節(jié)點(diǎn)連接,并向 Skype的登錄服務(wù)器注冊(cè)以加入Skype網(wǎng)絡(luò)。超級(jí)節(jié)點(diǎn)實(shí)際是滿足某些要求的普通節(jié)點(diǎn),這些要求包括:具有公網(wǎng)地址、具有足夠的CPU、存儲(chǔ)空間足夠大、具有足夠的網(wǎng)絡(luò)帶寬。也就是說(shuō),任何符合條件的主機(jī)終端都可以成為超級(jí)節(jié)點(diǎn),當(dāng)然前提是加載了Skype應(yīng)用。Skype的網(wǎng)體系結(jié)構(gòu)圖是我們后續(xù)研究工作的基礎(chǔ)框架。
2.2 Skype媒體流特征
Skype的信息傳輸包括語(yǔ)音通信、視頻會(huì)議、文件傳輸?shù)?。如果Skype通信雙方都位于公眾網(wǎng)中,雙方SCs之間使用TCP傳輸信令流,使用 UDP包直接進(jìn)行數(shù)據(jù)交換;如果一方位于防火墻之后或私有網(wǎng)絡(luò)中,那么私有網(wǎng)絡(luò)一方首先要同公網(wǎng)中的 SN建立 TCP鏈接,然后由 SN進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā);如果雙方都位于防火墻之后或私有網(wǎng)絡(luò)中,那么雙方的數(shù)據(jù)都需要 SN進(jìn)行轉(zhuǎn)發(fā)[15]。Skype在整個(gè)通信過(guò)程中采用了專有的通信協(xié)議及多種高強(qiáng)度的加密技術(shù)保證通信安全。然而,作為一種網(wǎng)絡(luò)通信服務(wù),提供實(shí)時(shí)、良好的通信質(zhì)量也非常重要。為了減少解密過(guò)程復(fù)雜性,Skype僅僅在傳輸層以上采用專有協(xié)議,且基于UDP的Skype報(bào)文沒(méi)有整體加密,凈荷頭部具有一定的規(guī)律。在本文中,我們將采用文獻(xiàn)[8]中包序列特征生成系統(tǒng) APSC (automated packet-sequence signature construction)發(fā)現(xiàn)Skype媒體流特征。
圖2 Skype媒體流序列特征狀態(tài)圖
經(jīng)實(shí)驗(yàn)表明,Skype媒體流具有如圖2所示的序列特征狀態(tài)圖。圖中S0代表初始狀態(tài),Sn,n=1,2,3,4表示Skype媒體流的凈荷負(fù)載的第三字節(jié)的值(具體如表1所示),箭頭表示兩個(gè)狀態(tài)間的序列變換。可以看出基于UDP協(xié)議的Skype流負(fù)載的第三字節(jié)值一般局限于一定范圍內(nèi) (0x02,0x0d~0x7d,0x0f~0x7f,0x05~0x75),且UDP流的第一個(gè)數(shù)據(jù)包第三字節(jié)為0x02,最后一個(gè)數(shù)據(jù)包的第三字節(jié)通常在 “0x0d~0x7d”之間。
表1 Skype媒體流序列的第三字節(jié)特征值
結(jié)合以上對(duì) Skype的研究分析,文中提出了基于綜合流序列特征和IP地址匹配的Skype流量識(shí)別方法。Skype應(yīng)用識(shí)別一方面要對(duì)數(shù)據(jù)進(jìn)行采集和預(yù)處理;另一方面要對(duì)采集到的預(yù)處理后的數(shù)據(jù)運(yùn)用Skype應(yīng)用識(shí)別策略進(jìn)行網(wǎng)絡(luò)流量識(shí)別,從而對(duì)各種類型的網(wǎng)絡(luò)流量進(jìn)行不同的統(tǒng)計(jì)分析與處理,兩者并行處理。圖3為Skype流量識(shí)別系統(tǒng)框架。
與此框架圖形對(duì)應(yīng)的識(shí)別流程圖如圖4所示。具體的識(shí)別原理為:
1)首先對(duì)獲取的網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行分流處理;
2)利用圖2中所提出的Skype媒體流序列特征與采集到的網(wǎng)絡(luò)流量進(jìn)行匹配,可以識(shí)別出相應(yīng)的Skype媒體流量;
3)基于UDP協(xié)議的Skype信令流的所有數(shù)據(jù)包的第三字節(jié)必然為02這一特點(diǎn),可以識(shí)別出Skype的UDP信令包;
4)由于Skype的TCP信令包所請(qǐng)求的IP地址大多為UDP包所請(qǐng)求過(guò)的IP地址,又根據(jù)Skype數(shù)據(jù)中TCP和UDP對(duì)通信雙方總有一方使用同一Skype端口這一特點(diǎn),可以得出數(shù)據(jù)包中只要源IP+Port和目的IP+Port兩者一個(gè)在Skype的IP+Po rt庫(kù)中,就可判定為Skype的TCP包信令包。
1)實(shí)驗(yàn)環(huán)境(數(shù)據(jù)集)
①本實(shí)驗(yàn)是在解放軍信息工程大學(xué)重點(diǎn)實(shí)驗(yàn)室進(jìn)行的,實(shí)驗(yàn)數(shù)據(jù)取自數(shù)據(jù)采集終端。由于檢測(cè)速度等原因,本實(shí)驗(yàn)采用非實(shí)時(shí)檢測(cè) (在數(shù)據(jù)采集終端上開(kāi)啟 wireshark抓包軟件獲取數(shù)據(jù),將捕獲到的數(shù)據(jù)包信息存儲(chǔ)至數(shù)據(jù)庫(kù)中,然后對(duì)數(shù)據(jù)庫(kù)中的記錄進(jìn)行檢測(cè)識(shí)別)。
圖3 Skype流量識(shí)別系統(tǒng)框架
圖4 Skype流量識(shí)別流程圖
②為了不失一般性,實(shí)驗(yàn)數(shù)據(jù)應(yīng)盡可能涵蓋多種網(wǎng)絡(luò)環(huán)境(windows,linux),每臺(tái)PC上運(yùn)行各種常見(jiàn)的網(wǎng)絡(luò)應(yīng)用,主要包括:Web瀏覽器軟件,F(xiàn)TP文本傳輸客戶端,SMTP簡(jiǎn)單郵件傳輸,迅雷下載軟件,騰訊 QQ聊天軟件,Skype軟件等,為后續(xù)的識(shí)別工作準(zhǔn)備足夠的數(shù)據(jù)。獲取的數(shù)據(jù)中包括Skype數(shù)據(jù)包以及一些其他應(yīng)用的數(shù)據(jù)包。
2)性能指標(biāo)
本文使用正確率(precision)和召回率(recall)來(lái)衡量識(shí)別系統(tǒng)性能:正確率指在Skype流量識(shí)別實(shí)驗(yàn)中被正確識(shí)別的Skype通信數(shù)據(jù)所占識(shí)別為Skype通信量的比率;召回率指在skype流量識(shí)別實(shí)驗(yàn)中被正確識(shí)別的Skype通信量數(shù)據(jù)占總Skype通信量的比率。
3)實(shí)驗(yàn)結(jié)果及分析
從表2可以看出,Skype的UDP數(shù)據(jù)包識(shí)別正確率和召回率可達(dá)98%以上,TCP包的識(shí)別效果略低于UDP包,但也可達(dá)97%以上。實(shí)驗(yàn)結(jié)果證明,本文所提出的識(shí)別系統(tǒng)具有很高的準(zhǔn)確率,可用于Skype流量識(shí)別。
表2 實(shí)驗(yàn)結(jié)果
文中通過(guò)對(duì)Skype協(xié)議內(nèi)部結(jié)構(gòu)及其通信機(jī)制的研究,提出了基于綜合序列特征識(shí)別法和IP地址相關(guān)識(shí)別法的Skype應(yīng)用識(shí)別框架并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文提出的Skype流量識(shí)別方法,能夠?qū)?Skype流量進(jìn)行準(zhǔn)確識(shí)別,指導(dǎo)網(wǎng)絡(luò)管理和優(yōu)化網(wǎng)絡(luò)性能,進(jìn)而為Skype應(yīng)用技術(shù)的改進(jìn)提供理論指導(dǎo)。目前,關(guān)于Skype協(xié)議的研究仍然存在很多問(wèn)題,如Skype版本的不斷更新可能引起的Skype特征及通信機(jī)制的變化,純 TCP的 Skype流量識(shí)別等。而且,現(xiàn)在很多關(guān)于 Skype協(xié)議分析的文章都是基于真實(shí)網(wǎng)絡(luò)數(shù)據(jù)分析,無(wú)法得知協(xié)議的全貌。這些問(wèn)題都有待進(jìn)一步研究。
[1]魯剛,張宏莉,葉麟.P2P流量識(shí)別[J].軟件學(xué)報(bào),2011,22(6):1281-1298.
[2]Skype website[EB/OL]Available from:http://www.Skype.com.
[3]TeleGeography website[EB/OL].Available from:http://www.Telegeography.com.
[4]Baset SA,Schulzrinne HG.An analysis of the Skype peerto-peer internet telephony protocol[C]//INFOCOM’06: Proceedings of the 25th IEEE International Conference on Computer Communications 2006.
[5]Alshammari R,Zincir-Heywood A N.Unveiling skype encrypted tunnels using GP[J].IEEE CEC,2010:1-8.
[6]Zhang D,Zheng C,Zhang H,et al.Identification andAnalysis of Skype Peer-to-Peer Traffic[C]//5th International Conference on Internet and Web Applications and Services,2010:200-206.
[7]Branch P A,Heyde A,Armitage G J.Rapid identification of skype traffic flows[J].Proc.of the 18th Int.Work.on Net.and Operating Systems Support for Digital Audio and Video,2009:91-96.
[8]Suh K,F(xiàn)igueiredo DR.,Kurose J,Towsley D.Characterizing and detecting skype-relayed traffic[C]//Proceedings of IEEE INFOCOM,Barcelona,Spain,2006.
[9]Bonfiglio D,mellia M,Meo M,et al.Revealing skype traffic: when randomness plays with you[J].ACM Sigcomm Computer Computer Communacation Review,2007,37(4):37-48.
[10]孫瑞錦,許博,周玉明.一種實(shí)時(shí)檢測(cè)基于 UDP的 Skype語(yǔ)音流的算法[J].解放軍理工大學(xué)學(xué)報(bào):自然科學(xué)版,2008(10):507-511.
[11]Adami D,Callegari C,Giordano S,et al.Pepe.kypehunter:A real-time system for the detection and classication of skype traffic[J].International Journal of Communication Systems.2012,25(3):386-403.
[12]Ye M,Xu K,Wu J,et al.Autosig-automatically generating signatures for application[C]//in proc.of IEEE CIT,2009.
[13]Yuan Z,Xue Y,Dong Y.Harvesting unique characteristics in packet sequences for effective application classication[C]// in Proc.of IEEE CNS,2013.
[14]王振華,王攀,張順頤.基于綜合統(tǒng)計(jì)特征的Skype流量分析與識(shí)別[J].南京郵電大學(xué)學(xué)報(bào),2006,26(1):1-7.
[15]Sándor Molnár and Marcell Perényi.On the identification and analysis of Skype traffic[J].INternational JOurnal of Communication Systems,2011(24):94-117.
Identification method of Skype traffic based on sequence signatures
WANG Kang-li,HUANG Hai,LI Jun-zheng
(China National Digital Switching System Engineering&Technological R&D Center,Zhengzhou 450002,China)
As one of the most popular VOIP client based on P2P technology,Skype uses proprietary communication protocol and a variety of high-strength encryption technology to ensure the safety communication,so it has strong confidentiality and convenience.To identify the skype traffic accurately,on the basis of the analysis of Skype network structure and the foundation of the communication protocol,a identification strategy was proposed via the unique sequence signatures.Then,we design and implement the practical system.The experimental results show that our practical system with high efficiency in identifying Skype flows.
P2P;Skype;sequence signatures;traffic identification
TN912.3
A
1674-6236(2016)15-0013-03
2016-01-14 稿件編號(hào):201601101
國(guó)家科技支撐計(jì)劃(2014BAH30B01);國(guó)家自然科學(xué)基金(61379151);創(chuàng)新群體項(xiàng)目資助(61521003)
王康利(1993—),女,河南新鄉(xiāng)人,碩士研究生。研究方向:智能信息處理、信息安全。