林波
摘 要 網(wǎng)絡(luò)流量的具體內(nèi)容通常不可知,通過(guò)網(wǎng)絡(luò)流量分析可以獲得網(wǎng)絡(luò)流量的各項(xiàng)統(tǒng)計(jì)數(shù)據(jù),發(fā)現(xiàn)流量的訪問(wèn)規(guī)律,結(jié)合網(wǎng)絡(luò)管理的各項(xiàng)手段發(fā)現(xiàn)網(wǎng)絡(luò)中存在的問(wèn)題或流量可能對(duì)網(wǎng)絡(luò)產(chǎn)生的不良影響,并為下一步制定或修正網(wǎng)管策略提供依據(jù)。
關(guān)鍵詞 流量;分類;檢測(cè);統(tǒng)計(jì);分析
中圖分類號(hào) TN91 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2016)166-00104-01
近年來(lái)寬帶網(wǎng)絡(luò)一直保持高速增長(zhǎng),光纖到桌面已基本實(shí)現(xiàn),但網(wǎng)絡(luò)中巨大的流量會(huì)對(duì)網(wǎng)絡(luò)產(chǎn)生怎樣的影響,這些流量是如何構(gòu)成的,始終是一個(gè)問(wèn)題。通過(guò)對(duì)寬帶流量的分析我們可以知道流量的源頭和目的、知道協(xié)議分布、知道端口情況、知道通信經(jīng)營(yíng)指標(biāo)等、當(dāng)然最重要的還有數(shù)據(jù)的安全性。
不同的網(wǎng)絡(luò),不同觀察點(diǎn),不同時(shí)間的網(wǎng)絡(luò)流量因網(wǎng)絡(luò)規(guī)模,業(yè)務(wù)種類,用戶構(gòu)成和使用習(xí)慣的不同而不同,甚至受突發(fā)事件的影響,網(wǎng)絡(luò)流量在體量規(guī)模,構(gòu)成成分和比例上都有所不同。一個(gè)好的流量分類分析系統(tǒng),應(yīng)滿足部署位置上的可移植性,流量規(guī)模的可伸縮性,時(shí)間演進(jìn)的自適應(yīng)性。這時(shí)系統(tǒng)不僅需要采用先進(jìn)的分類技術(shù),也需要代表性的訓(xùn)練數(shù)據(jù)集來(lái)確定系統(tǒng)運(yùn)行參數(shù)。數(shù)據(jù)集主要采用2種方式:PCAP格式和NETFLOW格式,前者捕獲的是包級(jí)記錄,后者則是關(guān)于流級(jí)得統(tǒng)計(jì)信息記錄。
寬帶流量的分析和檢測(cè)首先要進(jìn)行流量的采集,這項(xiàng)工作可以通過(guò)交換機(jī)或路由器的鏡像端口實(shí)現(xiàn),也可以通過(guò)光纜分光的方式實(shí)現(xiàn)。對(duì)捕獲的數(shù)據(jù)進(jìn)行計(jì)算和統(tǒng)計(jì),并把統(tǒng)計(jì)數(shù)據(jù)寫入數(shù)據(jù)庫(kù),定期形成網(wǎng)絡(luò)性能和流量參數(shù)的報(bào)表,用作分析的依據(jù),在形成足夠數(shù)量的報(bào)表數(shù)據(jù)后,可以分析數(shù)據(jù)和系統(tǒng)性能變化的趨勢(shì),判斷網(wǎng)絡(luò)是否存在瓶頸,并依據(jù)經(jīng)驗(yàn),形成經(jīng)驗(yàn)數(shù)據(jù)庫(kù),使網(wǎng)管系統(tǒng)具備學(xué)習(xí)的基礎(chǔ)和能力。在出現(xiàn)告警或異常情況時(shí),可用來(lái)分析對(duì)比,判斷是否出現(xiàn)了網(wǎng)絡(luò)的攻擊和入侵,判斷惡意數(shù)據(jù)出現(xiàn)的源頭和特征,足夠數(shù)量的數(shù)據(jù)報(bào)表也可以指導(dǎo)各類應(yīng)急預(yù)案的制定,在出現(xiàn)異常情況時(shí)可按照事先擬定的規(guī)則進(jìn)行處理。
對(duì)于寬帶流量的分析和分類,系統(tǒng)需要進(jìn)行統(tǒng)計(jì)模型的學(xué)習(xí),統(tǒng)計(jì)模型的學(xué)習(xí)可以分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)方法。所謂的監(jiān)督學(xué)習(xí)是需要使用已經(jīng)標(biāo)注過(guò)的數(shù)據(jù)集合作為經(jīng)驗(yàn)知識(shí),對(duì)寬帶流量的參數(shù)和算法進(jìn)行訓(xùn)練;而非監(jiān)督學(xué)習(xí)則不需要使用已經(jīng)標(biāo)注過(guò)的數(shù)據(jù)集進(jìn)行訓(xùn)練,只是根據(jù)相關(guān)算法對(duì)寬帶流量集進(jìn)行匯聚。對(duì)數(shù)據(jù)集的訓(xùn)練過(guò)程中需要由經(jīng)驗(yàn)豐富的專家參與,并進(jìn)行大量的基礎(chǔ)數(shù)據(jù)分析工作,網(wǎng)絡(luò)經(jīng)驗(yàn)數(shù)據(jù)集是流量分析的重要構(gòu)成因素。在實(shí)際分析過(guò)程中,由于寬帶核心網(wǎng)絡(luò)的流量巨大,所以高性能的預(yù)處理路由器和大規(guī)模刀片服務(wù)器必不可少。為了提高分析效率,可以只分析單向流量,并且在預(yù)處理過(guò)程中將IP數(shù)據(jù)報(bào)文的載荷去掉。但由于各種網(wǎng)絡(luò)協(xié)議不斷演進(jìn),加密的流量不斷增加,各種新應(yīng)用不斷出現(xiàn),網(wǎng)絡(luò)數(shù)據(jù)集的標(biāo)注也變得越來(lái)越困難。
網(wǎng)絡(luò)流量的分類和分析中對(duì)于標(biāo)準(zhǔn)協(xié)議的分析最為準(zhǔn)確,可根據(jù)TIP/IP協(xié)議簇中標(biāo)準(zhǔn)的服務(wù)端口號(hào)對(duì)流量報(bào)文進(jìn)行匹配,并根據(jù)端口號(hào)的不同將流量對(duì)應(yīng)為不同的應(yīng)用。非標(biāo)準(zhǔn)協(xié)議可以使用DPI(深度包檢測(cè))在應(yīng)用層對(duì)流量進(jìn)行特征字符串的分析匹配,由于不同的應(yīng)用在TCP/UDP的數(shù)據(jù)包中包含特征字符串,因此在掌握的不同網(wǎng)絡(luò)應(yīng)用的特征字符串后,可以將網(wǎng)絡(luò)流量精確的分類和匹配,缺點(diǎn)是需要消耗較多的系統(tǒng)資源。但很多網(wǎng)絡(luò)應(yīng)用的特征字符串難找易變,代表性差及加密度高等問(wèn)題,也導(dǎo)致誤檢率和檢全率下降。流量分析監(jiān)控和網(wǎng)絡(luò)應(yīng)用的發(fā)展一直是不斷演變的矛盾。
基于協(xié)議的分類方法需要分析每種協(xié)議的特定的行為特性,標(biāo)準(zhǔn)的通信協(xié)議易于掌握,私有協(xié)議比如P2P或VOIP等基于軟硬件客戶端的應(yīng)用則會(huì)有較多的變化,或進(jìn)行加密使用就會(huì)影響流量分析的效果,甚至無(wú)法識(shí)別。有時(shí)同一應(yīng)用軟件的不同版本間也會(huì)出現(xiàn)不同的流量特征,即版本的變化會(huì)造成協(xié)議特征的變化。另外,網(wǎng)絡(luò)中的單向流量、數(shù)據(jù)的時(shí)延、抖動(dòng)都會(huì)對(duì)流量分析的算法產(chǎn)生影響。以上這些因素都是流量分析的難點(diǎn)和痛點(diǎn)。
運(yùn)營(yíng)商的骨干網(wǎng)絡(luò)逐漸向扁平化發(fā)展,網(wǎng)絡(luò)出口的數(shù)量增加和結(jié)構(gòu)日趨復(fù)雜,及動(dòng)態(tài)路由算法的大量使用,使得網(wǎng)絡(luò)流量在多條鏈路或多個(gè)不同ISP之間動(dòng)態(tài)調(diào)配,導(dǎo)致在某個(gè)觀察點(diǎn)只能得到部分流量,這對(duì)于依賴雙向流量特征的分析方法無(wú)法實(shí)施?;赑2P的應(yīng)用目前也在不斷擴(kuò)大,P2P的發(fā)展使得應(yīng)用和傳輸分離,應(yīng)用端點(diǎn)和傳輸分離,打破了原有的B/S或C/S的傳統(tǒng)傳輸模式,多源頭并發(fā)傳輸使得流量特征模糊化,使得數(shù)據(jù)采集的有效性無(wú)法保障。還有一些網(wǎng)絡(luò)應(yīng)用為了逃避被檢測(cè)到,常常采用已知協(xié)議的方法,例如FTP、HTTP、POP3等,由于IP地址的區(qū)分,冒用已知協(xié)議并不會(huì)影響正常網(wǎng)絡(luò)通信,但給流量分析帶來(lái)很大難度。
寬帶網(wǎng)絡(luò)流量分析不僅可以使我們可以清楚的知道網(wǎng)絡(luò)流量的內(nèi)容,還可以為網(wǎng)絡(luò)建設(shè)、網(wǎng)絡(luò)優(yōu)化、運(yùn)營(yíng)管理、網(wǎng)絡(luò)安全保障提供依據(jù)和手段。同時(shí),網(wǎng)絡(luò)應(yīng)用在不斷推陳出新,各種私有化的協(xié)議和加密方法不斷出現(xiàn),且由于用戶接入帶寬的不斷提高,核心網(wǎng)流量呈幾何速度增長(zhǎng),這些因素在客觀上也大大增加了網(wǎng)絡(luò)流量分析的難度和成本?,F(xiàn)有的網(wǎng)絡(luò)流量分析再次面臨挑戰(zhàn),網(wǎng)絡(luò)流量的分析研究工作需要不斷深入進(jìn)行。
參考文獻(xiàn)
[1]Nader F.Mir.計(jì)算機(jī)與通信網(wǎng)絡(luò)[M].潘淑文,等,譯.北京:中國(guó)電力出版社,2010,1.
[2]余浩,徐明偉.P2P流檢測(cè)技術(shù)研究綜述[J].清華大學(xué)學(xué)報(bào),2009(4):610-620.
[3]彭蕓,劉瓊.Internet流分類方法的比較研究[J].計(jì)算機(jī)科學(xué),2007,34(8):58-61.
[4]汪立東,錢麗萍.網(wǎng)絡(luò)流量分類方法與實(shí)踐[M].北京:人民郵電出版社,2013.