国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于AC-BM算法的移動(dòng)互聯(lián)網(wǎng)審計(jì)平臺(tái)性能提升方法

2016-06-01 17:25慕悅王健
無線互聯(lián)科技 2016年8期
關(guān)鍵詞:模式匹配

慕悅 王健

摘 要:近年移動(dòng)互聯(lián)網(wǎng)絡(luò)以燎原之勢迅速發(fā)展,用戶群數(shù)量上漲和激增的網(wǎng)絡(luò)流量不僅僅成為舉世矚目的成就,也對現(xiàn)有的網(wǎng)絡(luò)環(huán)境提出了更高的要求?;诋?dāng)下的移動(dòng)網(wǎng)絡(luò)環(huán)境,文章以移動(dòng)互聯(lián)網(wǎng)審計(jì)系統(tǒng)為實(shí)驗(yàn)平臺(tái),使用深度包檢測等數(shù)據(jù)包分析技術(shù)對網(wǎng)絡(luò)流通數(shù)據(jù)進(jìn)行識(shí)別、審計(jì)、分析,并通過該技術(shù)對移動(dòng)互聯(lián)網(wǎng)中的流量數(shù)據(jù)進(jìn)行合理監(jiān)測、管控有害信息傳播。另外,文章使用AC-BM算法對審計(jì)平臺(tái)的識(shí)別算法進(jìn)行優(yōu)化,快速有效地分析處理數(shù)據(jù),以解決用戶使用高峰時(shí)段訪問量驟增,導(dǎo)致的系統(tǒng)性能驟降甚至丟包、分析不全面等問題。

關(guān)鍵詞:流量審計(jì);應(yīng)用識(shí)別;模式匹配;AC-BM算法

近年我國通信基礎(chǔ)設(shè)施建設(shè)不斷升級(jí),移動(dòng)網(wǎng)絡(luò)技術(shù)迅速普及,運(yùn)營商推動(dòng)下移動(dòng)網(wǎng)民使用3G/4G等高速流量網(wǎng)絡(luò)比例大幅增長,應(yīng)用使用需求多樣化。截至2015年6月,我國手機(jī)網(wǎng)民中通過3G/4G和Wi-Fi接入過互聯(lián)網(wǎng)的比例分別占85.7%和88.9%?!吨袊ヂ?lián)網(wǎng)20年發(fā)展報(bào)告》指出中國網(wǎng)民數(shù)量已成為世界第一,由此,對網(wǎng)絡(luò)的移動(dòng)性、穩(wěn)定性、高速性和安全性提出更高要求,網(wǎng)絡(luò)安全已上升為國家安全的重要內(nèi)容[ 1 ]。

移動(dòng)互聯(lián)網(wǎng)安全進(jìn)行有效管控,首先要對現(xiàn)有網(wǎng)絡(luò)進(jìn)行篩查。合理應(yīng)用通訊數(shù)據(jù),監(jiān)測、管控有害信息傳播,分析用戶行為數(shù)據(jù)[ 2 ],對于網(wǎng)絡(luò)管理員、服務(wù)商管理員、用戶都具有重要的意義,尤其是QoS、入侵檢測、流量監(jiān)控、計(jì)費(fèi)管理和用戶行為分析的前提和基礎(chǔ)。

本文旨在快速、有效地分析、識(shí)別和管理移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)。使用AC-BM算法對應(yīng)用識(shí)別過程進(jìn)行效率的提升,解決現(xiàn)有的應(yīng)用審計(jì)系統(tǒng)在大數(shù)據(jù)流環(huán)境下的審計(jì)效率低下問題。

1 背景

1.1 移動(dòng)互聯(lián)網(wǎng)應(yīng)用市場

移動(dòng)運(yùn)營網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,用戶要求逐漸嚴(yán)格,開發(fā)平臺(tái)的普及等等原因,都為移動(dòng)產(chǎn)品市場提供了一片廣闊的市場。短短幾年時(shí)間移動(dòng)市場迅速崛起,各大廠商都緊緊抓住這一次發(fā)展機(jī)會(huì),推出了眾多功能不同、面向用戶不同、業(yè)務(wù)模式不同的移動(dòng)端應(yīng)用。

中國互聯(lián)網(wǎng)絡(luò)信息中心《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》指出,近幾年的個(gè)人互聯(lián)網(wǎng)應(yīng)用發(fā)展呈上升趨勢。表1中的統(tǒng)計(jì)數(shù)據(jù),我國在2014-2015年期間,電子商務(wù)成為了最重要增長板塊。同時(shí)也可以看到整體的移動(dòng)互聯(lián)網(wǎng)應(yīng)用均有穩(wěn)步增長的發(fā)展前景。

移動(dòng)互聯(lián)網(wǎng)絡(luò)中產(chǎn)生大量的流記錄,通過審計(jì)將應(yīng)用信息進(jìn)行識(shí)別、采集、存儲(chǔ)、分析,但如果面臨用戶使用高峰時(shí)間段,HTTP,P2P等消耗帶寬的應(yīng)用載荷將會(huì)占用大量的網(wǎng)絡(luò)處理能力[3]?;ヂ?lián)網(wǎng)上的網(wǎng)絡(luò)設(shè)備的數(shù)量以萬計(jì),并持續(xù)增長。在目前的高速網(wǎng)絡(luò)中,實(shí)時(shí)流量統(tǒng)計(jì)必然會(huì)遇到一些問題:(1)網(wǎng)絡(luò)統(tǒng)計(jì)信息數(shù)據(jù)十分巨大。普通的運(yùn)營商骨干路由器流量以Gbps為單位,存儲(chǔ)能力有了額外需求。(2)數(shù)據(jù)流后期數(shù)據(jù)分析耗費(fèi)大量時(shí)間。高速CPU、大容量內(nèi)存來解決海量數(shù)據(jù)分析,硬件成本提高。

1.2 移動(dòng)互聯(lián)網(wǎng)應(yīng)用市場

傳統(tǒng)互聯(lián)網(wǎng)流量審計(jì)、識(shí)別、監(jiān)測技術(shù)已比較成熟。但專門面向移動(dòng)互聯(lián)網(wǎng)的數(shù)據(jù)流量審計(jì)還在起步過程中,目前主要是借鑒于傳統(tǒng)互聯(lián)網(wǎng)審計(jì)方法,采用智能化處理和網(wǎng)絡(luò)報(bào)文采集等相關(guān)技術(shù)實(shí)現(xiàn)分析處理、訪問限制、來源審計(jì)。目前比較常用的應(yīng)用識(shí)別方法有:(1)應(yīng)用層協(xié)議識(shí)別技術(shù),根據(jù)應(yīng)用層協(xié)議將TCP/UDP流分類。主要分為4類:基于端口映射;基于有效載荷特征,稱為DPI(深度包檢測)技術(shù)[4];基于流動(dòng)態(tài)行為特征,稱為DFI(深度/動(dòng)態(tài)流檢測)識(shí)別技術(shù)[5];基于主機(jī)行為的識(shí)別方法。(2)啟發(fā)式的方法[6],端口號(hào)已知的應(yīng)用協(xié)議識(shí)別。(3)基于協(xié)議簽名[7],其特征字符串是針對P2P協(xié)議。(4)基于特征串的應(yīng)用層協(xié)議,將高頻字段設(shè)置為特征值。

此外,模式匹配算法的優(yōu)良與否將直接決定移動(dòng)互聯(lián)網(wǎng)審計(jì)的效率。經(jīng)典的單模式匹配算法有BF算法、KMP算法、BM算法等,但多模式匹配更加是大流量環(huán)境,如AC算法、WuManber算法等。本文中使用了效率較高的多模式匹配算法,從而達(dá)到解決用戶使用高峰時(shí)段移動(dòng)網(wǎng)絡(luò)訪問量驟增造成的流量激增,可能導(dǎo)致的系統(tǒng)性能驟降甚至丟包、分析不全面等問題。

2 關(guān)鍵技術(shù)

2.1 數(shù)據(jù)獲取及特征提取

移動(dòng)網(wǎng)絡(luò)審計(jì)系統(tǒng)利用tcpdump + Wireshark來進(jìn)行抓包,將審計(jì)平臺(tái)服務(wù)器和實(shí)驗(yàn)移動(dòng)終端(如手機(jī))連入相同的實(shí)驗(yàn)Wi-Fi網(wǎng)絡(luò)。tcpdump將局域網(wǎng)中流通的Pcap包捕獲,由Wireshark軟件解析Pcap結(jié)構(gòu),分析內(nèi)容并利用LCS算法在數(shù)據(jù)流中找到最長公共子串生成特征值組作為分辨應(yīng)用種類的關(guān)鍵值。圖1中可以從Host字段中提取出與應(yīng)用有關(guān)的字段“.fetion.com.cn”作為特征值。

2.2 應(yīng)用業(yè)務(wù)識(shí)別

2.2.1 DPI技術(shù)

DPI技術(shù)是一種基于特征碼網(wǎng)絡(luò)數(shù)據(jù)流識(shí)別方法[ 8 ]。該技術(shù)高效地將數(shù)據(jù)包分層解析并深度分析有效載荷的內(nèi)容,是一種基于應(yīng)用層的流量檢測和控制的技術(shù)。本文采用特征值匹配方法來識(shí)別移動(dòng)互聯(lián)網(wǎng)應(yīng)用,將互聯(lián)網(wǎng)中的數(shù)據(jù)流進(jìn)行截取、審計(jì)、分析。字符型特征指的是使用字符串組合對應(yīng)用協(xié)議進(jìn)行唯一標(biāo)示。特征匹配是應(yīng)用業(yè)務(wù)識(shí)別的基礎(chǔ),因此特征庫的完整性非常重要。只有通過對大量應(yīng)用協(xié)議的特征進(jìn)行提取來實(shí)現(xiàn)完備特征庫的構(gòu)建,基于DPI的應(yīng)用業(yè)務(wù)識(shí)別才更加精確。

2.2.2 多模式匹配技術(shù)

現(xiàn)有一組模式的集合,每個(gè)模式都是字符集合中的字符串組成。同時(shí)有一個(gè)長度為的文本串,而且中的所有字符和來自于同一個(gè)字符集合。多模式匹配在文本串中找出模式集合中的所有模式。顯然在移動(dòng)互聯(lián)網(wǎng)審計(jì)系統(tǒng)中,文本串為每一條等待被解析的業(yè)務(wù)數(shù)據(jù)流,而模式集合中的所有模式就可以被視作深度包檢測中的特征庫。

1975年A V.Aho和M J.Corasick發(fā)明了AC算法[9],1979年Comments Walter對AC算法進(jìn)行了改進(jìn),結(jié)合效率較高的單模式匹配BM算法提出了新的AC-BM算法[ 1 0 ]。模式匹配算法的效率和規(guī)則庫的完整性決定了特征識(shí)別的結(jié)果。使用特征值組匹配的方法,找到數(shù)據(jù)流中的特征值字段,最終從而達(dá)到審計(jì)的目的。數(shù)據(jù)包解析后的有效載荷的特征匹配多使用了多模式匹配算法。

3 優(yōu)化方案

3.1 AC-BM算法

AC算法是一種經(jīng)典的搜索多模式串算法,由文本串輸入和模式串集合構(gòu)成的有限狀態(tài)模式匹配機(jī)2個(gè)部分組成。BM算法是效率較高的單模式匹配算法,在復(fù)雜的移動(dòng)網(wǎng)絡(luò)環(huán)境中將2種模式匹配算法結(jié)合使用可以使得字符串樹多模式匹配和滑動(dòng)跳躍移動(dòng)2種機(jī)制的優(yōu)點(diǎn)共同發(fā)揮,在現(xiàn)有的入侵檢測系統(tǒng)等數(shù)據(jù)流檢測系統(tǒng)中已經(jīng)得到了良好的應(yīng)用。

AC-BM算法可以主要分為2個(gè)部分:預(yù)處理部分和匹配部分。預(yù)處理部分將會(huì)生成AC算法的有限狀態(tài)自動(dòng)機(jī)模式樹和BM算法的壞字符、好后綴表,匹配部分將會(huì)根據(jù)上面的模式樹和2張表進(jìn)行匹配。

3.2 構(gòu)造有限自動(dòng)機(jī)

假設(shè)模式集合為,AC算法的自動(dòng)機(jī)如圖3所示。模式樹上的每一個(gè)節(jié)點(diǎn)都作為一個(gè)狀態(tài),顯然有狀態(tài),且為根節(jié)點(diǎn),為匹配成功后的終點(diǎn)狀態(tài)。轉(zhuǎn)移函數(shù)表示當(dāng)前狀態(tài)如果匹配字符將會(huì)變?yōu)闋顟B(tài);在匹配不成功時(shí),表示由當(dāng)前狀態(tài)變?yōu)闋顟B(tài);保存的信息為匹配最后結(jié)構(gòu)。

3.2.1 匹配過程

模式串在被匹配過程中大部分情況下是失配的,BM算法中的壞字符跳轉(zhuǎn)和好前綴跳轉(zhuǎn)將大大減少字符串匹配中的重復(fù)性工作。圖4中被匹配的文本串,在A中后綴匹配成功且狀態(tài),但是顯然說明為壞字符,失配則向左移動(dòng)兩個(gè)字符。以此類推不斷向前匹配最終找到模式串并輸出。

3.2.2 應(yīng)用識(shí)別模塊優(yōu)化方案

網(wǎng)絡(luò)信息審計(jì)系統(tǒng)的功能關(guān)鍵在于在網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)上監(jiān)聽所有的數(shù)據(jù)包,解析重組之后對數(shù)據(jù)包中的內(nèi)容進(jìn)行審查,并根據(jù)結(jié)果做出相應(yīng)的響應(yīng)。其中對數(shù)據(jù)包內(nèi)容的審計(jì)包括對文本的內(nèi)容、性質(zhì)的分類,對關(guān)鍵模式的相似性匹配,匹配發(fā)生后的響應(yīng)程序等步驟。其中的關(guān)鍵就是對關(guān)鍵字符串的模式相似性匹配的效率問題,也將會(huì)成為整個(gè)網(wǎng)絡(luò)信息審計(jì)系統(tǒng)的瓶頸。

原有的系統(tǒng)將捕獲的特征值組作為單模式匹配,每次查找都要遍歷所有的特征值,造成嚴(yán)重的資源浪費(fèi)。本文中采取的方式是將特征值按照移動(dòng)互聯(lián)網(wǎng)應(yīng)用業(yè)務(wù)進(jìn)行分類,并建立一個(gè)特征模式串池,將大量的應(yīng)用特征值分層放入特征模式串池,減少識(shí)別過程中的空間、時(shí)間消耗(見圖5)。

被捕獲的特征值組在審計(jì)之前將會(huì)被分類,首先分類為不同的應(yīng)用類型,然后根據(jù)特征值本身來源的性質(zhì)再次分類,每一個(gè)類型都使用AC-BM算法進(jìn)行預(yù)處理獲得各自的、、和字符跳轉(zhuǎn)表。當(dāng)每一個(gè)數(shù)據(jù)包到達(dá)時(shí),DPI技術(shù)把移動(dòng)互聯(lián)網(wǎng)中的應(yīng)用協(xié)議進(jìn)行解析并獲得最后應(yīng)用層載荷,將這些載荷或者其中特定的某個(gè)部分將作為被匹配的文本串放入分類指針當(dāng)前指向的應(yīng)用類別。經(jīng)過圖4右圖所示的匹配過程得到結(jié)果,如果成功則可以識(shí)別當(dāng)前的移動(dòng)互聯(lián)網(wǎng)應(yīng)用,不成功將進(jìn)入下一個(gè)審計(jì)類型。分類指針將會(huì)停留在當(dāng)前應(yīng)用被識(shí)別的應(yīng)用類型上,當(dāng)連續(xù)的數(shù)據(jù)包到達(dá)很可能是相同的應(yīng)用類型。

4 結(jié)論

對移動(dòng)互聯(lián)網(wǎng)審計(jì)平臺(tái)系統(tǒng)應(yīng)用 AC-BM多模式匹配算法進(jìn)行性能提升的驗(yàn)證工作主要是對系統(tǒng)改造前后的性能進(jìn)行對比。移動(dòng)互聯(lián)網(wǎng)審計(jì)平臺(tái)系統(tǒng)的實(shí)驗(yàn)環(huán)境為硬盤為1T的服務(wù)器環(huán)境,操作系統(tǒng)為Ubuntu12.04,利用Libpcap技術(shù)進(jìn)行抓包,在這樣的環(huán)境下使用AC-BM多模式匹配算法對原有的應(yīng)用識(shí)別模塊進(jìn)行改造,得到如下的數(shù)據(jù)(見圖6)。

從總體的系統(tǒng)吞吐量上來看,無論是上行和下行的移動(dòng)互聯(lián)網(wǎng)流量都有了較大的提高,采用AC-BM算法對審計(jì)平臺(tái)的識(shí)別算法進(jìn)行優(yōu)化,處理當(dāng)下的移動(dòng)網(wǎng)絡(luò)環(huán)境流量激增,導(dǎo)致的系統(tǒng)性能驟降甚至丟包、分析不全面等問題有比較良好的效果。但同時(shí)也應(yīng)對平臺(tái)識(shí)別算法繼續(xù)研究,找到能保證平臺(tái)實(shí)時(shí)性和可靠性的算法和優(yōu)化方案。由于移動(dòng)網(wǎng)絡(luò)環(huán)境發(fā)展迅速、監(jiān)管方式有限,為了對移動(dòng)互聯(lián)網(wǎng)中的流量數(shù)據(jù)進(jìn)行合理監(jiān)測、管控有害信息傳播,對網(wǎng)絡(luò)流通數(shù)據(jù)的識(shí)別、審計(jì)、分析,后續(xù)的工作要結(jié)合數(shù)據(jù)挖掘?qū)W(wǎng)絡(luò)流量進(jìn)行差異化管理和實(shí)時(shí)控制。

[參考文獻(xiàn)]

[1]陳曼青,武子榮.基于4G的移動(dòng)網(wǎng)絡(luò)安全問題研究[J].信息通信,2014(10):192-193.

[2]沈亮.數(shù)據(jù)挖掘在移動(dòng)通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用[D].上海:上海交通大學(xué),2009.

[3]何山.網(wǎng)絡(luò)審計(jì)平臺(tái)面臨大流量、多業(yè)務(wù)挑戰(zhàn)運(yùn)營商需個(gè)性化安全方案[J].通信世界,2012(34):32-32.

[4]Graham-Cumming J.Automatic identification of application protocols through dynamic mapping of application-port associations: US, US 6182146 B1[P].2001.

[5]Liu A X,Meiners C R,Norige E,et al.High-Speed Application Protocol Parsing and Extraction for Deep Flow Inspection[J].IEEE Journal on Selected Areas in Communications,2014(10):1864-1880.

[6]簡光垚.基于啟發(fā)式識(shí)別的深層數(shù)據(jù)包檢測P2P流的研究與實(shí)現(xiàn)[D].廣州:暨南大學(xué),2008.

[7]路林,羅軍勇,劉琰,等.協(xié)議簽名特征自動(dòng)發(fā)現(xiàn)方法[J].信息工程大學(xué)學(xué)報(bào),2012(5):610-614.

[8]呂錦揚(yáng).DPI技術(shù)在移動(dòng)數(shù)據(jù)網(wǎng)絡(luò)分析的應(yīng)用[J].電信技術(shù),2013(6):72-75.

[9]Aho A V,Corasick M J.Efficient string matching: an aid to bibliographic search[J].Communications of the Acm,1975(6):333-340.

[10]Coit C J,Staniford S,Mcalerney J. Towards Faster String Matching for Intrusion Detection or Exceeding the Speed of Snort[C]//DARPA Information Survivability Conference and Exposition.IEEE Computer Society,2001.

Mobile Internet Audit Platform Based on AC-BM Algorithm Performance Improvement Method

Mu Yue, Wang Jian*

(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)

Abstract: In recent years, mobile Internet network run amok in the rapid development of network traffic is not only the surge of number of users increases and become a remarkable achievement, also put forward higher request to the existing network environment. Based on the current mobile network environment, this paper takes the mobile Internet auditing system for the experimental platform, the use of deep packet inspection packet analysis technology such as identification, audit, analysis of network flow data, and through the technology of the mobile Internet traffic data for reasonable monitoring, control the spread of harmful information. In addition, this article USES AC -BM algorithm optimize the audit platform recognition algorithm, fast and efficient data analysis and processing, in order to solve the user use increased rush-hour traffic, cause of system performance in even the problem such as packet loss, the analysis is not comprehensive.

Key words: traffic audit; application of identification; pattern matching; AC-BM algorithm

猜你喜歡
模式匹配
基于模式匹配的計(jì)算機(jī)網(wǎng)絡(luò)入侵防御系統(tǒng)
具有間隙約束的模式匹配的研究進(jìn)展
OIP-IOS運(yùn)作與定價(jià)模式匹配的因素、機(jī)理、機(jī)制問題
數(shù)據(jù)結(jié)構(gòu)中模式匹配算法的教學(xué)方法探討
基于AC_QS多模式匹配算法的優(yōu)化研究
多源異構(gòu)數(shù)據(jù)整合系統(tǒng)在醫(yī)療大數(shù)據(jù)中的應(yīng)用
基于散列函數(shù)的模式匹配算法
一種基于HMM的短波電臺(tái)PACTOR協(xié)議識(shí)別技術(shù)