王倪
摘要:隨著因特網(wǎng)規(guī)模的逐漸擴大,用戶對網(wǎng)絡(luò)提供的服務(wù)有了更高的要求,在此背景下流量分類方法的改進(jìn)與優(yōu)化得到了計算機網(wǎng)絡(luò)領(lǐng)域的廣泛關(guān)注。以往的流量分類往往是根據(jù)不同用戶和不同端口號來識別,雖然能夠準(zhǔn)確地定位到某站點中的具體的通信進(jìn)程,但并不能夠?qū)υ擃悢?shù)據(jù)進(jìn)行準(zhǔn)確的描述,即只能實現(xiàn)在運輸層的端口分類,而無法提供應(yīng)用層的數(shù)據(jù)分類,從而也就無法實現(xiàn)針對性的網(wǎng)絡(luò)通信服務(wù)。該文針對這一情況展開研究,在傳統(tǒng)的端口分類方式的基礎(chǔ)上,引入了目前較流行的自適應(yīng)深度學(xué)習(xí)機制,采用自組織映射網(wǎng)絡(luò)算法實現(xiàn)網(wǎng)絡(luò)流量合理分類,具有一定的參考借鑒價值。
關(guān)鍵詞:網(wǎng)絡(luò)流量;分類模式;端口識別;統(tǒng)計特征
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)03-0052-02
1 概述
隨著信息化時代的到來,計算機網(wǎng)絡(luò)以飛快的速度發(fā)展起來,用戶規(guī)模呈現(xiàn)出爆炸式的增長趨勢,且對網(wǎng)絡(luò)的通信質(zhì)量要求越來越高;與此同時,基于網(wǎng)絡(luò)的各種軟件也層出不窮,大量不同類型的應(yīng)用軟件導(dǎo)致了在網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)類型的差異性較之以往大大增加了,傳輸?shù)膹?fù)雜性也隨之提高。在此情況下,如何提供一種更加符合網(wǎng)絡(luò)現(xiàn)狀的管理方法,向用戶提供更加符合其需求的通信服務(wù)成為了當(dāng)前計算機網(wǎng)絡(luò)領(lǐng)域研究的重點內(nèi)容。在諸多的研究課題中,對網(wǎng)絡(luò)流量的科學(xué)分類受到了廣泛的關(guān)注,通過高質(zhì)量的流量分類,可以追溯用戶的活動情況,從而在一定范圍內(nèi)判斷當(dāng)前數(shù)據(jù)的傳輸狀況,并可在此基礎(chǔ)上實現(xiàn)對網(wǎng)絡(luò)資源的QoS(Quality of Service)調(diào)度,進(jìn)而為網(wǎng)絡(luò)的維護(hù)和后續(xù)擴張?zhí)峁┛煽康囊罁?jù)。除此之外,流量分類還可在網(wǎng)絡(luò)安全、用戶識別、寬帶流量計費等方面發(fā)揮重要的作用。
傳統(tǒng)的流量分類方式是由IANA提出的基于端口號的識別方式,該方式在以往應(yīng)用服務(wù)種類不多的情況下是較為實用的,即根據(jù)熟知端口號識別有限數(shù)量的不同類型的應(yīng)用服務(wù)進(jìn)程,但隨著網(wǎng)絡(luò)規(guī)模的飛速增長,尤其是隨著P2P對等網(wǎng)絡(luò)的大發(fā)展,使得用戶數(shù)據(jù)的類型與日俱增,眾多的進(jìn)程啟用了大量的隨機端口號,這對數(shù)據(jù)流量的識別是非常不利的,未來必須加以改進(jìn)。
第二種方式是基于特征字段識別的,在早期該字段并沒有得到充分的利用,而目前隨著數(shù)據(jù)類型識別需求的不斷提高,該字段也被越來越多的通信服務(wù)所采用,但隨之而來的問題是該字段位于IP數(shù)據(jù)報的首部,這意味著需要在網(wǎng)絡(luò)層解決數(shù)據(jù)類型的差異問題,在通信過程中該數(shù)據(jù)報經(jīng)過的路由器將不得不花費大量的資源和時間來解析和識別該字段,這勢必會拖慢網(wǎng)絡(luò)通信效率,同時增加網(wǎng)絡(luò)擁塞的風(fēng)險。目前在P2P對等網(wǎng)絡(luò)中此方法使用較多,但對于實時性要求較高的通信服務(wù)而言,此方法導(dǎo)致的通信時延過高,并且會隨著應(yīng)用層服務(wù)的改變而失效,表1給出了這兩種流量分類方式的對比分析。
表1 兩種傳統(tǒng)的流量分類方法對比
2 基于機器學(xué)習(xí)方法的流量分類
隨著網(wǎng)絡(luò)的發(fā)展,傳統(tǒng)方式已經(jīng)無法勝任對數(shù)據(jù)流量進(jìn)行合理的分類工作,這導(dǎo)致了數(shù)據(jù)沖突、資源耗費、通信延遲、通信效率不斷降低等一系列問題。因此,有研究人員將人工智能領(lǐng)域內(nèi)的機器學(xué)習(xí)機制引入到流量分類工作中,針對網(wǎng)絡(luò)流一些屬性的統(tǒng)計信息進(jìn)行識別,以提高流量分類的準(zhǔn)確性和快捷性,效果較為顯著,其算法過程如圖1所示:
圖1 基于機器學(xué)習(xí)方法的流量分類流程
算法步驟如下:
1)通過統(tǒng)計方法獲取流量的特征屬性最優(yōu)組合集
流量屬性集通過統(tǒng)計形成網(wǎng)絡(luò)流的數(shù)據(jù)包的包頭信息得到。在進(jìn)行統(tǒng)計分析之前,為了減少計算量,提高分析精確度,應(yīng)對數(shù)據(jù)包信息進(jìn)行篩選的預(yù)操作,其目的是將與分類需求相關(guān)的屬性盡可能的保留下來,反之則篩除,從而形成所謂的最有屬性集合,隨后在針對此集合進(jìn)行分析,實現(xiàn)事半功倍的效果。在此特征選擇的過程中可以采用多種優(yōu)化算法,如快速統(tǒng)計過濾法FCBF、順序前進(jìn)法SFS、相關(guān)性特征選擇CFS和遺傳算法GA等。
2)采用機器學(xué)習(xí)方法進(jìn)行分類
機器學(xué)習(xí)屬于人工智能領(lǐng)域內(nèi)的一個分支,也存在多種不同的優(yōu)化算法,目前在流量分類工作中得到應(yīng)用的優(yōu)化算法有K-近鄰K-NN、樸素貝葉斯方法NB、支持向量機SVM等。其中K-NN方法是最早得到應(yīng)用的一種優(yōu)化算法,分析結(jié)果較為準(zhǔn)確,但缺點是計算量偏大,且魯棒性較低,受干擾影響較大,這對實時性和穩(wěn)定性要求都很高的網(wǎng)絡(luò)通信而言無疑是一大障礙,因此其應(yīng)用規(guī)模相對有限;NB算法也是早期在網(wǎng)絡(luò)流量分類得到應(yīng)用的機器學(xué)習(xí)方法,其缺點在于算法得出的分析結(jié)果的質(zhì)量高低存在一定的不可知性,若樣本選取的合理,則該算法相對可靠,若樣本分布質(zhì)量不高,則該算法得出的分類結(jié)果往往也偏離真實情況;SVM可取得較高的分類準(zhǔn)確率,但必須事先標(biāo)記流量的應(yīng)用類型,因此不能適應(yīng)完全意義上的實時分類。
基于流統(tǒng)計特征的機器學(xué)習(xí)分類方法收到的外界干擾較小,且不需要執(zhí)行繁瑣耗時的數(shù)據(jù)報首部解析工作,對于P2P網(wǎng)絡(luò)中出現(xiàn)的大量端口號也可以不受其影響,平均準(zhǔn)確率比以上其他算法都要好,能夠準(zhǔn)確的識別多個不同類型的數(shù)據(jù)流量,同時對于異常流量(如非法的數(shù)據(jù)流量)也可以實現(xiàn)一定程度的識別和判斷。但其缺點是敏感度過高,對于網(wǎng)絡(luò)的動態(tài)變化往往會出現(xiàn)過度響應(yīng),將原先正常的數(shù)據(jù)流量標(biāo)注為異常點,從而導(dǎo)致系統(tǒng)的誤判,另一方面,該算法實現(xiàn)起來也相對復(fù)雜,需要進(jìn)一步改進(jìn)。
3 混合模式的流量分類方案
3.1 方案流程分析
本設(shè)計將傳統(tǒng)的分類方法和機器學(xué)習(xí)機制有機結(jié)合,對端口識別的流量分類模式進(jìn)行改進(jìn),形成了一種新型的混合型流量分類方法,既保留了基于端口號識別模式的簡單、低開銷的優(yōu)點,又有效地利用了機器學(xué)習(xí)機制的自適應(yīng)性強、準(zhǔn)確性高的優(yōu)勢,明顯地改善了網(wǎng)絡(luò)流量分類的效率和可靠性,算法流程如圖2所示。
圖2 改進(jìn)后的流量分類算法流程
混合模式的流量分類方案具體實現(xiàn)過程如下。
1)對流量樣本采用屬性選擇方法選出最優(yōu)屬性集,降低算法輸入向量維數(shù)。
2)與常用協(xié)議的默認(rèn)端口號匹配,實現(xiàn)粗分。若匹配成功則可不必啟用機器學(xué)習(xí)機制進(jìn)行后續(xù)的分類,節(jié)約了工作量。
3)進(jìn)入細(xì)分環(huán)節(jié),此環(huán)節(jié)是為了進(jìn)一步提高對流量分類的精確性而設(shè)定,主要采用基于自組織映射網(wǎng)絡(luò)的分類方法來完成。根據(jù)輸出標(biāo)簽確定某一流量類別分布在port flow映射圖或non-port flow映射圖上。結(jié)合訓(xùn)練樣本,確定輸出映射圖中相應(yīng)區(qū)域的流量類型。
3.2 自組織映射
在本環(huán)節(jié),采用深度學(xué)習(xí)算法中著名的神經(jīng)網(wǎng)絡(luò)算法來實現(xiàn)進(jìn)一步的優(yōu)化,該算法具有識別能力強、自適應(yīng)度高等優(yōu)點,非常適合用來對數(shù)據(jù)流量進(jìn)行準(zhǔn)確分類,可以很好地解決對非線性曲面的逼近,其收斂速度遠(yuǎn)高于傳統(tǒng)分類方法。
自組織映射SOM網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中的一種常用算法,屬于無人監(jiān)督的競爭型神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)中的各個節(jié)點模擬為神經(jīng)元節(jié)點,而在該網(wǎng)絡(luò)中傳輸?shù)母鱾€信息狀態(tài)則模擬為神經(jīng)信號;該算法最大的特點就是將高維的輸入流量樣本以拓?fù)溆行虻姆绞阶儞Q到二維的離散空間上,其輸出分類結(jié)果可以直觀的以棋盤狀的二維平面陣顯示。根據(jù)此規(guī)律,可將SOM網(wǎng)絡(luò)用于對輸入的數(shù)據(jù)包特征信息的分類工作中,實現(xiàn)樣本的自動聚類,同時可方便的識別新的數(shù)據(jù)類型和異常數(shù)據(jù)類型,其具體過程如下:
設(shè)輸入樣本[X=(x1,x2,…,xn)T],權(quán)向量為[Wj=(wj1,wj2,…,wjn)T(j=1,2,…m)],
其中n為輸入樣本的維數(shù),m為映射圖神經(jīng)元數(shù)量。對樣本和權(quán)向量進(jìn)行歸一化處理,得到[X]和[Wj],通過SOM神經(jīng)網(wǎng)絡(luò)執(zhí)行以下兩個步驟
1)選擇競爭占優(yōu)的神經(jīng)元
[dj*=minj∈1,2,…,mX-Wj] (1)
2)計算該類神經(jīng)元和與之相鄰的其他節(jié)點的網(wǎng)絡(luò)權(quán)值
[Wj*(t+1)=Wj*(t)+η(t)N(t)(X-Wj*(t))] (2)
式(2)中,t為學(xué)習(xí)次數(shù),[η(t)]為學(xué)習(xí)成功率,[N(t)]為獲勝的鄰域。
做完了準(zhǔn)備工作后,SOM網(wǎng)絡(luò)就可將所有權(quán)值W轉(zhuǎn)化為在[-1,1]區(qū)間的隨機數(shù),并根據(jù)此選擇一個流量樣本n,解析其特征屬性并送至神經(jīng)網(wǎng)絡(luò)的輸入接口,設(shè)置初始t=0,因此有N(0)和[η(0)]。輸出層各神經(jīng)元通過式(1)全局搜索最接近的優(yōu)勝神經(jīng)元j*。按式(2),對j*及其鄰域內(nèi)的所有神經(jīng)元調(diào)整權(quán)值,然后縮小鄰域[N(t)],減小學(xué)習(xí)率[η(t)],重新調(diào)整鄰域內(nèi)神經(jīng)元的權(quán)值直到學(xué)習(xí)率衰減為0。當(dāng)算法運行到這一步時,若流量樣本集合不為空集,則可繼續(xù)執(zhí)行下去,在非空集合內(nèi)隨機選擇一樣本,重新執(zhí)行本輪的學(xué)習(xí)過程,直至所有樣本均完成訓(xùn)練,此時就可生成一張完整的流量類別映射圖,最后根據(jù)樣本激活神經(jīng)元的位置可判斷流量類別,實現(xiàn)數(shù)據(jù)流量的精確分類。
4 結(jié)束語
目前,在網(wǎng)絡(luò)流量分類的研究工作中,更多地傾向于將優(yōu)秀的智能算法同以往傳統(tǒng)的分類方法相結(jié)合的研究路線,其中
很多優(yōu)化算法仍舊處于起步階段,從理論上看,基于流統(tǒng)計特征的機器學(xué)習(xí)的方法自適應(yīng)性強,可擴展性好,可靠性也有足夠的保障,應(yīng)用在流量分類領(lǐng)域內(nèi)是非常合適的,但其計算量較大仍舊是該算法推廣過程中遇到的主要障礙,相信隨著人工智能領(lǐng)域研究的不斷突破,會出現(xiàn)更多的優(yōu)秀方法應(yīng)用在網(wǎng)絡(luò)流量分類工作中,進(jìn)一步增強流量分類的工作效率,為廣大用戶提供更高質(zhì)量的數(shù)據(jù)通信服務(wù)。
參考文獻(xiàn):
[1] 徐鵬,劉瓊,林森.基于支持向量機的Internet流量分類研究[J].計算機研究與發(fā)展,2009,46(3): 407-414.
[2] 王琳.面向高速網(wǎng)絡(luò)的智能化應(yīng)用分類的研究[D].濟南:濟南大學(xué),2008.
[3] WITTEN I H,F(xiàn)RANKE.DATA MINING:practical machine learning tools and techniques[M].New York: SF Morgan Kaufman,2005:168-171.
[4] 韓家新,何華燦.SVMDT分類器及其在文本分類中的應(yīng)用研究[J].計算機應(yīng)用研究,2004(1): 23-24,43.
[5] ERMAN J,ARLITT M,MAHANTI A.Traffic classificationusing clustering algorithms[C].Proceedings of the2006 SIGCOMM Workshop on Mining Network Data,Pisa,Italy,2006:281-286.