劉恩海,劉 微,樊世燕,梁 慧,穆 立
(河北工業(yè)大學(xué) 計算機(jī)科學(xué)與軟件學(xué)院,天津300401)
Netflow 是Cisco公司開發(fā)的數(shù)據(jù)交換和流量采集分析技術(shù),是基于網(wǎng)絡(luò)流的流量采集方式的一種,也是業(yè)界主流的計費(fèi)技術(shù)之一[1]。而當(dāng)前基于Netflow 的網(wǎng)管軟件主要是通過端口號來對具體協(xié)議種類和應(yīng)用流量組成做進(jìn)一步分析,對網(wǎng)絡(luò)流量是由哪些應(yīng)用協(xié)議組成以及各自比例還無法準(zhǔn)確回答,同時不能為web用戶訪問行為分析提供數(shù)據(jù)支撐,如果能夠掌握用戶的訪問興趣、頻度、時間等特征,就可以優(yōu)化站點(diǎn)拓?fù)浣Y(jié)構(gòu)和頁面之間的超鏈接關(guān)系,構(gòu)建智能化的web站點(diǎn),為用戶提供個性化服務(wù)[2]。因此,本文結(jié)合抓包和flow 技術(shù),提出了一種擴(kuò)展的Netflow 數(shù)據(jù)采集處理機(jī)制,結(jié)合深度包檢測技術(shù)進(jìn)行精確的應(yīng)用協(xié)議識別,其中加入了對web用戶行為數(shù)據(jù)的采集與動態(tài)存儲,為分析用戶訪問站點(diǎn)的行為習(xí)慣提供了有力的數(shù)據(jù)支撐,并在應(yīng)用協(xié)議匹配過程中動態(tài)標(biāo)識未被收錄到特征規(guī)則集中的應(yīng)用協(xié)議,為進(jìn)一步提取該應(yīng)用協(xié)議的特征字符擴(kuò)大特征規(guī)則集提供數(shù)據(jù)支持,最后設(shè)計并實(shí)現(xiàn)了該系統(tǒng),并驗證了其有效性和可行性。
目前國內(nèi)外研究機(jī)構(gòu)、組織、公司等對網(wǎng)絡(luò)測量與分析進(jìn)行了深入細(xì)致的研究,F(xiàn)lowMon是由CESNET 組織開發(fā)的一種適用于高速網(wǎng)絡(luò)監(jiān)測的探針。它通過內(nèi)置可編程的NIC-(網(wǎng)絡(luò)接口卡)獲取流量信息并以Netflow V5,V9,或IPFIX 格式輸出流記錄,該測量工具只收集標(biāo)準(zhǔn)的Netflow 或IPFIX 數(shù)據(jù)。Fatemipour等[3]提出了一種基于IPFIX[4]協(xié)議的流量監(jiān)測系統(tǒng),該系統(tǒng)沒有結(jié)合流量識別技術(shù)對應(yīng)用層的協(xié)議進(jìn)行詳細(xì)分析,只能測量流級別的QoS指標(biāo)。Li Asghar Yarifard等在此基礎(chǔ)上完成了基于流量識別的監(jiān)測系統(tǒng),根據(jù)用戶傳輸層數(shù)據(jù)通過K-means,DBSCAN 和SNN 這3 種聚類流量分類算法進(jìn)行網(wǎng)絡(luò)流量分流,但是需要標(biāo)準(zhǔn)的數(shù)據(jù)集進(jìn)行訓(xùn)練,并聚類分析生成簇,最后人工的將算法分出的各個簇進(jìn)行類的劃分,協(xié)議識別的準(zhǔn)確率低于深度包檢測。
在國內(nèi)中國科學(xué)技術(shù)大學(xué)蘇州研究院劉業(yè)[5]等提出了一個基于SharpPcap 框架的局域網(wǎng)流量監(jiān)控系統(tǒng) (SPCatcher)。通過對網(wǎng)絡(luò)流量監(jiān)視、流量分析、流量控制等子模塊進(jìn)行需求分析,設(shè)計了流量監(jiān)控系統(tǒng)的框架模型,并給出了根據(jù)數(shù)據(jù)傳輸方向和指令響應(yīng)順序進(jìn)行劃分和組合的功能實(shí)現(xiàn)圖。此外,西安交通大學(xué)設(shè)計開發(fā)了一個基于RMON[6]的流量測量系統(tǒng)[7]。該系統(tǒng)旨在通過采樣和存儲RMON 代理收集到的網(wǎng)絡(luò)流量數(shù)據(jù),并對流量數(shù)據(jù)進(jìn)行分析,以便掌握網(wǎng)絡(luò)運(yùn)行狀況。
網(wǎng)絡(luò)行為分析通過統(tǒng)計大規(guī)模的用戶行為模式和訪問習(xí)慣,實(shí)現(xiàn)網(wǎng)絡(luò)自身管理,同時指導(dǎo)網(wǎng)絡(luò)流量管理策略的制定[8]。然而由于基于端口號的Netflow 流量分析具有不準(zhǔn)確性[9],同時也不能提供web用戶行為數(shù)據(jù)來反映用戶在一定范圍內(nèi)對大多數(shù)網(wǎng)站的訪問情況,因此,本文提出了一種增強(qiáng)的Netflow 數(shù)據(jù)采集系統(tǒng),擴(kuò)展的Netflow 數(shù)據(jù)采集系統(tǒng)主要有采集代理和數(shù)據(jù)收集器兩部分組成,系統(tǒng)的總體架構(gòu)如圖1所示,采集代理包括數(shù)據(jù)包捕獲、協(xié)議識別、DNS/URL提取以及流生成4 個模塊。數(shù)據(jù)收集器由流收集模塊和流聚合模塊組成。
圖1 系統(tǒng)整體框架
數(shù)據(jù)包采集模塊是通過將代理主機(jī)的網(wǎng)卡設(shè)為混雜模式,使用libpcap來實(shí)現(xiàn)數(shù)據(jù)分組的捕獲功能。提取捕獲到的數(shù)據(jù)分組的包頭信息和負(fù)載信息,供協(xié)議識別和流生成模塊使用。
DNS/URL提取模塊按照DNS協(xié)議規(guī)范,對數(shù)據(jù)采集模塊捕獲的DNS響應(yīng)數(shù)據(jù)包進(jìn)行解析,提取數(shù)據(jù)包中Answers中的name域和Addr域;按照HTTP 協(xié)議規(guī)范,提取HTTP數(shù)據(jù)包的URL信息,并存入數(shù)據(jù)庫。
協(xié)議識別模塊分為規(guī)則集和深度包檢測 (deep packet inspection,DPI)兩部分。規(guī)則集是根據(jù)規(guī)則定義語法事先定義好的不同應(yīng)用的協(xié)議規(guī)則的集合;DPI檢測是搜索規(guī)則集中的應(yīng)用協(xié)議規(guī)則,對數(shù)據(jù)包采集模塊生成的負(fù)載信息按照規(guī)則集中的協(xié)議規(guī)則進(jìn)行深度包檢測,將數(shù)據(jù)包頭信息和識別得到的應(yīng)用協(xié)議類型信息傳遞給流生成模塊用于Flow 協(xié)議類型的更新,應(yīng)用層特征指紋的提取和表示是確保DPI技術(shù)識別準(zhǔn)確率的關(guān)鍵[10]。
流生成模塊根據(jù)數(shù)據(jù)包采集模塊和協(xié)議識別模塊生成的包頭信息和協(xié)議類型信息來對緩存中Flow 進(jìn)行查找、創(chuàng)建和更新操作,并將超時的Flow 記錄,根據(jù)Netflow V5標(biāo)準(zhǔn)組裝成UDP發(fā)送給數(shù)據(jù)收集器進(jìn)行處理。
數(shù)據(jù)收集器分為流收集模塊和流聚合模塊。收集模塊按照Netflow V5 規(guī)范對接受到的UDP 數(shù)據(jù)包進(jìn)行解析,解析后的Flow 記錄以原始數(shù)據(jù)存入數(shù)據(jù)庫,并傳遞給聚合模塊進(jìn)行聚合處理。
流聚合模塊根據(jù)不同的聚合策略對原始數(shù)據(jù)進(jìn)行不同粒度的聚合處理,以便更加方便高效的進(jìn)行流量查詢與分析。
采集代理在處理網(wǎng)絡(luò)數(shù)據(jù)包時,首先,將代理主機(jī)的網(wǎng)卡設(shè)為混雜模式,數(shù)據(jù)包采集模塊利用libpcap抓取鏈路上的數(shù)據(jù)包,判斷數(shù)據(jù)包的4層協(xié)議類型,如果是UDP或者TCP則提取數(shù)據(jù)包五元組信息 (源/目的IP,源/目的端口,4層協(xié)議類型),否則直接丟棄。然后DNS/HTTP 提取模塊按照DNS/HTTP規(guī)范對捕獲的DNS響應(yīng)數(shù)據(jù)包進(jìn)行解析,提取數(shù)據(jù)包中Answers中的name域和Addr域,對捕獲的HTTP數(shù)據(jù)包提取包頭的URL 信息,如果緩存已滿,則需要轉(zhuǎn)存數(shù)據(jù),動態(tài)分配新緩存;同時,流生成模塊利用UDP或者TCP的五元組信息在Flow 緩存中查找五元組對應(yīng)的Flow 是否存在,如果不存在則創(chuàng)建新的Flow;如果存在,則更新Flow 的包數(shù)、字節(jié)數(shù)、TCP 標(biāo)識等信息,并且判斷Flow 是否已經(jīng)被識別。沒有被識別的Flow 和新創(chuàng)建的Flow 都將由協(xié)議識別模塊根據(jù)定義好的規(guī)則對其進(jìn)行深度包檢測,若匹配失敗則動態(tài)標(biāo)識未知ID。流生成模塊根據(jù)協(xié)議識別的結(jié)果即應(yīng)用協(xié)議類型來更新對應(yīng)的Flow。最后,當(dāng)Flow緩存中的數(shù)據(jù)流超時后,將從緩存中被取出并封裝成UDP包發(fā)送到數(shù)據(jù)收集器部分進(jìn)行處理。數(shù)據(jù)采集代理網(wǎng)絡(luò)數(shù)據(jù)包的詳細(xì)處理流程如圖2所示。
圖2 采集代理處理總流程
根據(jù)上一節(jié)提出的系統(tǒng)架構(gòu),擴(kuò)展的Netflow 數(shù)據(jù)采集系統(tǒng)主要有采集代理和數(shù)據(jù)收集器兩部分組成,本節(jié)著重介紹了協(xié)議識別的方法和擴(kuò)展策略,以及其它模塊實(shí)現(xiàn)所用的關(guān)鍵技術(shù)。
3.1.1 規(guī)則的形式化描述
本文采用模型1來定義協(xié)議規(guī)則,每條規(guī)則由數(shù)據(jù)包頭 (packet header,PH),協(xié)議指紋 (protocol fingerprint,PF),指 紋 修 飾 符 (fingerprint modifier,F(xiàn)M),元 信 息(meta-information,MI)4部分組成。各部分是邏輯 “與”的關(guān)系
其中,PH 為包頭信息,包括4層協(xié)議類型,源/目的端口,源/目的IP,方向6個字段,源/目的端口,源/目的IP,可以為具體的值,也可以為 “any”(表示任意);方向可以為“<>”(雙向)或 “->”(單向)。
PF為應(yīng)用協(xié)議指紋,為特定的字符串或者Bit序列,用來區(qū)別于其它應(yīng)用協(xié)議,達(dá)到識別應(yīng)用的效果。
FM 為指紋修飾符,用來控制協(xié)議指紋的匹配方式,有nocase,offset,depth,distance,within修飾符。nocase表示不區(qū)分大小寫,offset表示PF 從哪個字節(jié)開始匹配,depth表示協(xié)議指紋的搜索深度,distance和within用來表示不同指紋之間的搜索間隔,前者為確定字節(jié)數(shù),后者為一定范圍的字節(jié)數(shù)。
MI為元數(shù)據(jù),包括rid (協(xié)議規(guī)則的ID,用來唯一標(biāo)識一條規(guī)則)和desc(規(guī)則描述信息)。
下面是http協(xié)議規(guī)則集中的一條規(guī)則,它能夠?qū)CP數(shù)據(jù)包中源/目的端口含有80端口并且負(fù)載開始位置含有“http/1.”或者 “HTTP/1.”特征字符串的數(shù)據(jù)包識別為http協(xié)議。
TCP any any<>any 80(desc:"http matched";content:" HTTP/1.";nocase;offset:0;priority:1;rid:0904)
3.1.2 深度包檢測
本系統(tǒng)采用深度包檢測DPI的協(xié)議識別方法,通過規(guī)則來描述每種應(yīng)用的特征指紋,來對IP數(shù)據(jù)包進(jìn)行應(yīng)用協(xié)議識別。上一小節(jié)已經(jīng)詳細(xì)介紹了如何定義一條協(xié)議規(guī)則,本文采用鏈表的結(jié)構(gòu)來存儲協(xié)議規(guī)則,如圖3所示,每個鏈表節(jié)點(diǎn)代表一種應(yīng)用協(xié)議的一條規(guī)則。通過遍歷鏈表,來對數(shù)據(jù)包進(jìn)行協(xié)議規(guī)則匹配。
圖3 規(guī)則鏈表存儲結(jié)構(gòu)
然而隨著新型網(wǎng)絡(luò)應(yīng)用的不斷涌現(xiàn),規(guī)則集初始化后在內(nèi)容上具有一定的局限性,因此,在檢測的過程中如果遍歷鏈表沒有與之匹配的應(yīng)用協(xié)議,需要動態(tài)標(biāo)識該數(shù)據(jù)流,為進(jìn)一步提取該應(yīng)用協(xié)議的特征指紋來擴(kuò)大特征規(guī)則集提供數(shù)據(jù)基礎(chǔ)。
在本文中基于協(xié)議識別的Netflow 數(shù)據(jù)流我們采用Netflow V5的記錄格式,如表1所示,并使用第36個填充字節(jié)作為協(xié)議識別后的應(yīng)用協(xié)議類型ID,來標(biāo)識Netflow數(shù)據(jù)流的應(yīng)用協(xié)議類型,如果沒有匹配的應(yīng)用協(xié)議類型,在第36個字節(jié)填充0,表示應(yīng)用協(xié)議類型為:unknown并在第46 個填充字節(jié)自動生成unknownid,作為標(biāo)識過的Netflow 流加入緩存,以此來劃分應(yīng)用協(xié)議匹配失敗的數(shù)據(jù)流,若在測量結(jié)果發(fā)現(xiàn)某種未知應(yīng)用協(xié)議占網(wǎng)絡(luò)流量較大比例,就可以嘗試從原始數(shù)據(jù)手動提取特征指紋,編寫相應(yīng)的特征規(guī)則加入到規(guī)則集,從而進(jìn)一步完善系統(tǒng)。
表1 Netflow V5 數(shù)據(jù)流記錄格式
DNS/URL提取模塊為分析用戶訪問站點(diǎn)的行為提供數(shù)據(jù)支撐,該模塊主要采用hashmap數(shù)據(jù)結(jié)構(gòu)作為緩存,站點(diǎn)IP 地址作為hashmap的key,站點(diǎn)域名作為hashmap的value,來去除重復(fù)的IP/域名信息。但是隨著采集到的DNS響應(yīng)包的增多,數(shù)據(jù)量也會不斷的增大,所以需要的將緩存的中的IP/域名信息寫入數(shù)據(jù)庫中,釋放當(dāng)前的緩存,并創(chuàng)建新的緩存,來動態(tài)維護(hù)存放IP/域名緩存的分配。系統(tǒng)通過將數(shù)據(jù)轉(zhuǎn)存的方法,采用間隔一定時間執(zhí)行一次批量轉(zhuǎn)存的方式來降低數(shù)據(jù)庫操作的頻率,可以防止新的IP/域名記錄無法及時入庫的現(xiàn)象的發(fā)生。
流生成模塊主要包括Flow 的生成和更新,以及應(yīng)用協(xié)議的更新。流生成模塊的輸入為包頭信息 (五元組)和應(yīng)用協(xié)議類型信息,輸出為由超時的Flow 記錄封裝的UDP數(shù)據(jù)包。它主要由Flow 緩存和Flow 超時機(jī)制兩塊構(gòu)成。
在本文流生成模塊采用紅黑樹來做Flow 緩存,每一條Flow 作為紅黑樹的一個節(jié)點(diǎn)被緩存起來,通過對紅黑樹的查找、更新和刪除操作來對Flow 進(jìn)行管理。
流生成模塊的另一塊是Flow 的超時機(jī)制,它用來對緩存中的Flow 進(jìn)行超時控制。本文將Flow 超時規(guī)則分為以下4種:
路由器Cache 已滿,即達(dá)到最大流緩存數(shù)量max_flows;
Flow 的空閑計時器 (Inactive_timer)已超過15秒;
Flow 的活動計時器 (Active_timer)已超過30分鐘;
傳輸已完畢 (TCP FIN 或RST)。
其中max_flows,Inactive_timers以及Active_timer參數(shù)都是可配置的。當(dāng)某條Flow 滿足以上4 個條件之一時,就將該流標(biāo)識為過期,從緩存中取出,將其封裝成UDP數(shù)據(jù)包發(fā)送到數(shù)據(jù)收集器。
流聚合模塊根據(jù)不同的聚合策略對原始數(shù)據(jù)進(jìn)行不同粒度的聚合處理,這樣聚合后的數(shù)據(jù)流比原始數(shù)據(jù)流大大減少,更加方便高效的存儲到數(shù)據(jù)庫進(jìn)行流量查詢與分析。聚合表中設(shè)計有總字節(jié)數(shù)和總包數(shù)為聚合流包含的字段,即存儲具有相同聚合類型的總字節(jié)數(shù)和總包數(shù)據(jù)字段信息,便于網(wǎng)絡(luò)總體流量分析與查詢。
為了驗證增強(qiáng)的Netflow 數(shù)據(jù)采集系統(tǒng)在實(shí)際網(wǎng)絡(luò)測量與管理中的可行性和有效性,本文以實(shí)驗室網(wǎng)絡(luò)為實(shí)驗環(huán)境,按圖4 進(jìn)行系統(tǒng)部署,通過開啟被測網(wǎng)絡(luò)中交換機(jī)的端口鏡像功能收集了實(shí)驗室近3個小時的網(wǎng)絡(luò)流量。采集代理收集了62239條流記錄和28622條IP-域名映射記錄。
協(xié)議分析結(jié)果如表2所示,可以看到基于P2P 的應(yīng)用協(xié)議edonkey在本次采集的網(wǎng)絡(luò)流量中占了很大比例而傳統(tǒng)的應(yīng)用協(xié)議http、snmp、dns只是占總體流量的一小部分,而未知協(xié)議也占了較大比重。
IP-域名映射記錄分析結(jié)果如圖5所示,截取了實(shí)驗結(jié)果中Top10的IP地址與站點(diǎn)對應(yīng)的關(guān)系,其中顯示百度,北郵人論壇等站點(diǎn)在本次流量采集中被訪問且IP地址與域名信息正確對應(yīng)。
本文針對Netflow 技術(shù)基于端口號識別應(yīng)用協(xié)議的不準(zhǔn)確性,提出了一種基于深度包檢測的Netflow 擴(kuò)展處理機(jī)制。該機(jī)制結(jié)合Netflow技術(shù)和DPI協(xié)議識別方法,通
圖4 數(shù)據(jù)采集系統(tǒng)部署結(jié)構(gòu)
表2 網(wǎng)絡(luò)流量分布
圖5 IP-域名映射記錄
過捕獲網(wǎng)絡(luò)數(shù)據(jù)包,生成協(xié)議識別后的Netflow 數(shù)據(jù),同時通過動態(tài)標(biāo)識檢測過程中匹配失敗的數(shù)據(jù)流,為進(jìn)一步提取該協(xié)議的特征字符擴(kuò)大規(guī)則集奠定基礎(chǔ),且通過捕獲網(wǎng)絡(luò)中DNS響應(yīng)數(shù)據(jù)包,并采用定期轉(zhuǎn)存數(shù)據(jù)的方式,來動態(tài)維護(hù)緩存的問題,從而完成域名信息的采集,為web用戶訪問行為分析提供數(shù)據(jù)支撐。
由于本文采用的深度包檢測方法是計算密集型的,在大規(guī)模高速網(wǎng)絡(luò)環(huán)境中,可以嘗試采用專門的硬件設(shè)備來增強(qiáng)系統(tǒng)的處理能力,其次,可以嘗試把采樣方法作為一種可擴(kuò)展技術(shù)應(yīng)用到網(wǎng)絡(luò)流量采集中。再次,海量數(shù)據(jù)會產(chǎn)生流量存儲與分析的問題,可以采用分布式系統(tǒng) (如:hadoop/hypertable)來存儲與分析流量。
[1]Cisco IOS NetFlow,Introduction to Cisco IOS NetFlow A Technical Overview,White Paper[EB/OL].http://www.cisco.com/en/US/prod/collateral/iosswrel/ps6537/ps6555/ps6601/prod_white_paper0900aecd80406232.html,2012.
[2]YANG Jiahai,WU Jianping,AN Changqing.Internet measurement theory and application [M].Beijing:Tsinghua University Press,2009:48-49 (in Chinese). [楊家海,吳建平,安常青.互聯(lián)網(wǎng)絡(luò)測量理論與應(yīng)用 [M].北京:清華大學(xué)出版社,2009:48-49.]
[3]Fatemipour F,Yagmaee MH.Design and implementation of a monitoring system based on IPFIX protocol[C]//The Third Advanced International Conference on Telecommunications,2007.
[4]IPFIX,IP flow information export[EB/OL]. [2012-11-07].http://www.ietf.org/html.charters/ipfix-charter.html.
[5]LIU Ye,TIAN Kunwei,LIU Linfeng.Network traffic monitored control system based on SharpPcap framework [J].Computer Engineering and Design,2013,34 (7):2328-2332 (in Chinese)[劉業(yè),田琨瑋,劉林峰.基于SharpPcap的網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)[J].計算機(jī)工程與設(shè)計,2013,34 (7):2328-2332.]
[6]RMON remote network monitoring [EB/OL]. [2012-11-07].http://datatracker.ietf.org/wg/rmonmib/charter.
[7]TIAN Haiyan,WANG Huanzhao,LI Yupeng.The design and implementation of network traffic measurement system based on RMON [J].Computer Engineering and Applications,2004,40 (5):160-162 (in Chinese). [田海燕,王換招,李玉鵬.基于RMON 的網(wǎng)絡(luò)流量測量系統(tǒng)設(shè)計及實(shí)現(xiàn) [J].計算機(jī)工程與應(yīng)用,2004,40 (5):160-162.]
[8]LI Han.IP network traffic monitor and user behavious analysis[D].Beijing:Beijing University of Posts and Telecommunications,2010 (in Chinese).[李晗.IP 網(wǎng)絡(luò)流量監(jiān)測及用戶行為分析 [D].北京:北京郵電大學(xué),2010.]
[9]LIU Qiuju,LIU Shulun,F(xiàn)ENG Yanru.Method of application-level protocol identification based on classification and fea-ture matching [J].Computer Engineering and Design,2012,33 (7):2792-2795 (in Chinese).[劉秋菊,劉書倫,馮艷茹.基于分類與特征匹配的應(yīng)用層協(xié)議識別方法 [J].計算機(jī)工程與設(shè)計,2012,33 (7):2792-2795.]
[10]LU Gang,ZHANG Hongli,YE Lin.P2Ptraffic identification [J].Journal of Software,2011,22 (6):1281-1298(in Chinese).[魯剛,張宏莉,葉麟.P2P流量識別 [J].軟件學(xué)報,2011,22 (6):1281-1298.]