顧玥,李丹,,高凱輝
(1. 清華大學,北京 100084;2. 清華大學深圳國際研究生院,廣東 深圳 518055)
隨著互聯(lián)網(wǎng)的不斷發(fā)展,不同類型的應(yīng)用程序不斷涌現(xiàn)。應(yīng)用程序會產(chǎn)生大量的網(wǎng)絡(luò)流量,而不同類型的流量會呈現(xiàn)出不同的特征。流量分類的目標就是根據(jù)流量的區(qū)分性特征識別流量的類別[1]。網(wǎng)絡(luò)流量分類對網(wǎng)絡(luò)運營商是十分必要的:一方面,從用戶服務(wù)質(zhì)量(QoS)的角度來說,流量分類是保障QoS的第一步,是根據(jù)不同業(yè)務(wù)類型的要求為業(yè)務(wù)提供區(qū)分服務(wù)的前提[1];另一方面,從安全的角度來說,流量分類是異常網(wǎng)絡(luò)流量檢測的第一步,可以更好地保護網(wǎng)絡(luò)安全[2]。近幾年,隨著用戶對隱私保護需求的不斷增加,以及加密技術(shù)的不斷發(fā)展,越來越多的流量被加密處理,這對網(wǎng)絡(luò)流量分類提出了新的挑戰(zhàn)。
傳統(tǒng)的流量分類方法有兩類:一類是基于端口號的識別方法,即根據(jù)端口號對應(yīng)的協(xié)議號進行識別,但隨著端口混淆技術(shù)的出現(xiàn),這種方法漸漸失效[1];另一類是基于DPI的識別方法,即基于預(yù)定義的各個類別的正則表達式,匹配數(shù)據(jù)包負載以確定類別。但這種方法隨著流量加密也漸漸不可行[1]。
隨著傳統(tǒng)的流量分類方法的失效,研究者開始探索新的流量分類方法。近年來不斷發(fā)展的機器學習技術(shù)受到了研究者的廣泛關(guān)注。機器學習技術(shù)相較于傳統(tǒng)分類方法更加自動化和智能化,可以根據(jù)流的統(tǒng)計特征分類,避免了流量加密帶來的影響。鑒于這個優(yōu)勢,研究者提出基于機器學習算法做流量分類的方法,目前廣泛使用的機器學習算法有決策樹算法、隨機森林算法、支持向量機算法等。這些分類方法都具有良好的分類準確性,并且得到了學術(shù)界和工業(yè)界的廣泛認可。然而基于機器學習的流量分類方法需要專家經(jīng)驗提取和篩選流量的特征,這會消耗大量的人力資源??紤]到這一點,研究者又提出了基于深度學習的端到端的流量分類方法[3]?;谏疃葘W習的方法可以直接基于原始的流量數(shù)據(jù)進行分類,不需要人為提取特征,一方面節(jié)省了人力,另一方面保證了分類準確性,成為學術(shù)界研究的熱點[3]。
雖然目前有大量的流量分類研究工作,但大部分流量分類方法在線上部署時仍面臨著很多問題。首先,由于運營商傾向于在骨干網(wǎng)邊緣上進行流量分類,無論在高速的骨干網(wǎng)絡(luò)中進行流量采集還是在線下做骨干網(wǎng)流量數(shù)據(jù)標注都非常困難。即使能夠在網(wǎng)絡(luò)邊緣設(shè)備上采集到流量數(shù)據(jù),也會因為無法控制采集的流量類型而出現(xiàn)樣本不均衡問題,影響分類的準確性[4]。其次,如何將流量分類器部署到邊緣網(wǎng)絡(luò)設(shè)備中也是一個需要考慮的問題。在網(wǎng)絡(luò)設(shè)備中,存儲空間和CPU性能都非常有限[5],這對分類器的部署來說是很大的挑戰(zhàn)。最后,新應(yīng)用程序的層出不窮使得分類器應(yīng)該具有對新流量進行準確識別的能力[6],而新流量呈現(xiàn)的新特性加大了流量分類的難度。
(1)流
網(wǎng)絡(luò)流是網(wǎng)絡(luò)數(shù)據(jù)包的集合。把具有相同五元組(源IP地址、源端口號、目的IP地址、目的端口號、協(xié)議號)的數(shù)據(jù)包集合定義為一條流。流根據(jù)其方向性,可以分為單向流(源、目的不可互換)和雙向流(源、目的可互換)兩種。
(2)流量分類
流量分類的目標就是根據(jù)流量的區(qū)分性特征將流量的類別識別出來[1]。
(3)特征選擇
流量的特征分為包級特征和流級特征兩種。包級特征即包大小、包時間間隔、包的原始字節(jié)(又分為包頭的原始字節(jié)和包負載的原始字節(jié))等。流級特征即流的長度(即包的個數(shù))、流的持續(xù)時間等。
以上是基本的流量特征選擇,不同的研究工作會在此基礎(chǔ)上進行特征選擇。
(4)分類粒度
網(wǎng)絡(luò)流量分類問題有3種不同的分類粒度:應(yīng)用識別、大類識別、用戶行為識別。不同的流量分類場景要求不同的分類粒度。如果運營商想要監(jiān)測各應(yīng)用程序流量占比情況,或想要識別惡意應(yīng)用程序,那么分類粒度就是應(yīng)用識別,即識別應(yīng)用程序的名稱,例如微信、QQ、愛奇藝等應(yīng)用程序;如果運營商想要為不同類型應(yīng)用程序提供區(qū)分服務(wù),以滿足不同的需求,那么分類粒度就是大類識別,即識別不同應(yīng)用程序的類型,例如即時通信類應(yīng)用、文件傳輸類應(yīng)用、視頻類應(yīng)用;如果運營商想要掌握用戶在使用應(yīng)用程序時的用戶行為,那么分類粒度就是用戶行為識別,例如發(fā)送圖片、語音、文字等用戶行為。
流量分類的分類指標有兩個,一個是準確性,另一個是實時性。準確性是分類問題的重要指標,是評判分類效果的重要標準。準確性度量指標有4個:準確率(accuracy)、精度(precision)、召回率(recall)、F1分數(shù)(F1-score)。計算過程如下。
· 真正(true positive,TP):表示被分類模型正確預(yù)測的正樣本數(shù)。
· 假負(false negative,F(xiàn)N):表示被分類模型錯誤預(yù)測的正樣本數(shù)。
· 假正(false positive,F(xiàn)P):表示被分類模型錯誤預(yù)測的負樣本數(shù)。
· 真負(true negative,TN):表示被分類模型正確預(yù)測的負樣本數(shù)。此外,有些應(yīng)用是時延敏感型應(yīng)用,例如在線搜索、社交網(wǎng)絡(luò)、在線零售等。這些應(yīng)用的服務(wù)時間直接影響應(yīng)用的用戶體驗甚至運營商的效益。時延敏感型應(yīng)用的數(shù)據(jù)流大部分是短流,持續(xù)時間為幾十到幾百微秒。因此為了滿足這些時延敏感型應(yīng)用的性能需求,需要保證分類的實時性,即實現(xiàn)快速分類。實時性即對整個分類過程所花費的時間進行度量。整個流量分類的過程分為兩步:特征獲取和分類器分類。因此實時性指標度量公式定義如下:
基于機器學習的流量分類方法的分類過程包括兩個階段:特征提取和分類器分類。整個流程如圖1所示。
特征提取/特征選擇階段通常是對數(shù)據(jù)流的包大小、包時間間隔等包級特征求取平均值、方差、中位數(shù)、分位數(shù)等統(tǒng)計特征,并進一步做特征分析,選取有效特征。由于這一階段需要收集足夠多的數(shù)據(jù)包,并且往往都伴隨著一定時間的特征計算和特征選擇,因此不利于分類的實時性。
圖1 基于機器學習的分類方法流程
目前有大量基于機器學習的流量分類方法被提出。Auld等[7]提出了一種貝葉斯神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)經(jīng)過訓練可以對包括Kazaa、BitTorrent、GnuTella等著名的P2P協(xié)議進行分類,并實現(xiàn)99%的準確率。Moore等[8]使用樸素貝葉斯分類器和核密度估計器,基于流的統(tǒng)計特征來分類,統(tǒng)計特征包括流內(nèi)包大小、包時間間隔的平均值、方差、中位數(shù)、分位數(shù)等特征,最終分類準確率達到96%。Draper等[9]使用k-NN和C4.5決策樹算法,基于包的到達時間間隔最大最小值等時間相關(guān)特征表征網(wǎng)絡(luò)流量,最終分類召回率高達92%。使用C4.5算法,在VPN數(shù)據(jù)集上也達到了大約88%的召回率。Yamansavascilar等[10]手動選擇了參考文獻[11]中描述的111個流特征,使用k-NN算法,在對14類應(yīng)用進行分類的過程中獲得了94%的準確率。然而在使用k-NN分類器用于預(yù)測時,算法的執(zhí)行時間是需要考慮的問題。2016年Taylor等[12]則提出基于突發(fā)數(shù)據(jù)流進行分類,考慮數(shù)據(jù)流傳輸?shù)膬蓚€方向(源、目的地址互換),分別統(tǒng)計流的包大小序列,對于每個序列分別計算平均值、最小值、最大值、分位數(shù)等18個統(tǒng)計特征,最后使用支持向量回歸算法和隨機森林算法取得了99%的分類準確率。2019年Shen等[13]提出了一種去中心化應(yīng)用識別方法,提出在雙向數(shù)據(jù)流的統(tǒng)計特征的基礎(chǔ)上使用核函數(shù)進行特征融合,再進一步進行特征篩選,最后實現(xiàn)92%的分類準確率。
基于機器學習的流量分類方法的主要缺點是需要專家經(jīng)驗提取和篩選特征,因此這些方法既耗時又昂貴,而且容易出現(xiàn)人為錯誤。于是,研究者漸漸把目光放到可以自主學習特征的深度學習上來。
基于深度學習的方法避免了根據(jù)專家經(jīng)驗選擇特征的過程,可以通過訓練自主學習特征。這一特點使得深度學習成為一種非常理想的流量分類方法。而且深度學習模型是端到端的模型,可以直接學習到原始輸入和對應(yīng)輸出之間的非線性關(guān)系,不需要將問題分解為特征獲取和分類器分類兩個問題。基于深度學習的分類過程如圖2所示。
圖2 基于深度學習的分類過程
基于深度學習的流量分類方法分為兩類:基于數(shù)據(jù)包的原始字節(jié)特征和基于流內(nèi)數(shù)據(jù)包序列特征?;跀?shù)據(jù)包的原始字節(jié)特征的方法指分類器的輸入是數(shù)據(jù)包原始字節(jié)內(nèi)容,基于流內(nèi)數(shù)據(jù)包序列特征的方法指分類器的輸入是流內(nèi)數(shù)據(jù)包包大小、包時間間隔序列等特征。
Lotfollahi等[1]提出的 DeepPacket是基于數(shù)據(jù)包原始字節(jié)特征的深度學習方法的代表,它提出以每個數(shù)據(jù)包作為輸入樣本,不需要專家經(jīng)驗提取特征,只需要把數(shù)據(jù)包的原始字節(jié)作為特征,分類模型為一維卷積神經(jīng)網(wǎng)絡(luò)(1DCNN)和稀疏自動編碼機(SAE),最終取得98%的分類準確率。Wang等[3]提出使用每條數(shù)據(jù)流(單向流/雙向流)的前784字節(jié)作為模型輸入,并分別基于一維卷積神經(jīng)網(wǎng)絡(luò)(1DCNN)和二維卷積神經(jīng)網(wǎng)絡(luò)(2DCNN)兩個模型做實驗,實驗結(jié)果表明:1DCNN的效果更好,可以達到90%以上的準確率。Li等[14]將循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)引入網(wǎng)絡(luò)流量分類中,設(shè)計了一種新的神經(jīng)網(wǎng)絡(luò)——字節(jié)段神經(jīng)網(wǎng)絡(luò)(BSNN)。BSNN直接將數(shù)據(jù)包作為模型輸入,實驗結(jié)果表明,在對5個協(xié)議分類的過程中,BSNN的F1-score平均值約為95.82%。Xie等[15]提出了一種基于自注意力機制的流分類方法SAM,把每個數(shù)據(jù)包的包頭原始字節(jié)作為模型輸入,這種方法在協(xié)議識別和應(yīng)用識別上分別取得了98.62%和98.93%的F1-score平均值。
Liu等[16]提出的FS-Net是基于流內(nèi)數(shù)據(jù)包序列特征的深度學習方法的代表,時序特征采用的是流內(nèi)數(shù)據(jù)包大小序列,并基于此提出一種基于自動編碼機(auto-encoder)的重構(gòu)機制,這種重構(gòu)機制使得模型能夠?qū)W習到最有利于分類且最能代表這條數(shù)據(jù)流的特征,最終的分類準確率高達99%。Lopez-Martin等[17]提出基于數(shù)據(jù)流前20個數(shù)據(jù)包的端口號、包負載長度、包間隔時間、窗口大小等屬性構(gòu)成20×6的矩陣,并輸入給卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)的組合模型,最終準確率可以達到96%以上。Shapira等[18]提出根據(jù)單向數(shù)據(jù)流的包大小、包到達時間將數(shù)據(jù)流轉(zhuǎn)換成圖片,然后通過CNN模型做分類,最終分類準確率可以達到99.7%。
無論是基于數(shù)據(jù)包原始字節(jié)特征的深度學習方法還是基于流內(nèi)數(shù)據(jù)包序列特征的深度學習方法都有各自的優(yōu)缺點?;跀?shù)據(jù)包原始字節(jié)特征的深度學習方法的優(yōu)點是可以直接根據(jù)數(shù)據(jù)包的字節(jié)內(nèi)容做推理,做到實時分類,但分類結(jié)果依賴于數(shù)據(jù)包負載的內(nèi)容。當流量加密時,數(shù)據(jù)包負載部分不再可用;而數(shù)據(jù)包的IP地址和端口字段也會對分類效果造成極大的影響,帶來過擬合問題。基于流內(nèi)數(shù)據(jù)包序列特征的深度學習方法的優(yōu)點是不依賴于數(shù)據(jù)包原始內(nèi)容,對于加密流量更靈活,但需要等待一段時間的數(shù)據(jù)包以構(gòu)成時序序列,因此分類實時性差。
通過對基于機器學習和基于深度學習的流量分類方法的闡述與分析,本文從是否需要人為特征提取、是否適用于加密流量、是否能夠滿足實時性和準確性4個角度總結(jié)了這兩類方法的優(yōu)缺點,見表1。
基于機器學習的流量分類方法由于需要專家經(jīng)驗提取和篩選特征,因此既耗時又昂貴,而且容易出現(xiàn)人為錯誤。而基于深度學習的方法可以通過訓練自主學習到原始輸入和對應(yīng)輸出之間的非線性關(guān)系,不需要將問題分解為特征獲取和分類器分類兩個問題,因此避免了依據(jù)專家經(jīng)驗選擇特征的過程。然而無論是基于機器學習的方法還是基于流內(nèi)數(shù)據(jù)包序列特征的深度學習方法,由于都需要收集一段時間的數(shù)據(jù)包以計算統(tǒng)計特征或者獲取數(shù)據(jù)包時序序列,因此都無法做到實時分類?;跀?shù)據(jù)包原始字節(jié)特征的深度學習方法則可以對一個數(shù)據(jù)包進行分類,滿足實時性的要求,但由于依賴包的字節(jié)內(nèi)容,因此容易導(dǎo)致過擬合,影響分類效果。
從表1可以看出,當考慮實時性、準確性兩個指標時,無論是基于機器學習還是基于深度學習的流量分類方法都不是完美的,還有一定的改進空間。與此同時,運營商為了更好地提供服務(wù),需要將整個分類系統(tǒng)落地,這就會給分類系統(tǒng)帶來更多的問題和挑戰(zhàn)。
從運營商的角度來看,為了保障用戶的服務(wù)質(zhì)量,更好地做流的優(yōu)先級調(diào)度,運營商會選擇在骨干網(wǎng)的邊緣設(shè)備上部署流量分類模型,運營商流量分類模型部署點如圖3所示。
表1 基于機器學習與基于深度學習的流量分類方法優(yōu)缺點
圖3 運營商流量分類模型部署點(五角星位置)
從圖3可以看出,運營商選擇將分類模型部署在網(wǎng)絡(luò)邊緣設(shè)備(交換機、路由器等)。這樣的部署方式會帶來3個問題:首先,由于模型的線下訓練需要大量的流量數(shù)據(jù),因此需要在骨干網(wǎng)采集流量。一方面,骨干網(wǎng)的流量速率>40 Gbit/s[19],在這樣的高速網(wǎng)絡(luò)環(huán)境下對數(shù)據(jù)采集的要求極高,準確的線下數(shù)據(jù)標注也是難題;另一方面,對骨干網(wǎng)流量進行采集時,由于無法限制各類別流量的比例,因此會導(dǎo)致數(shù)據(jù)集樣本不均衡問題,影響分類的準確率。其次,在網(wǎng)絡(luò)設(shè)備上部署分類模型需要考慮3個開銷:內(nèi)存開銷、時間開銷和計算開銷。一方面,設(shè)備的存儲空間有限,如果想達到快速分類的目的,模型和數(shù)據(jù)的存儲開銷需要小于CPU上緩存的存儲空間,也就是小于幾兆字節(jié)[20];另一方面,由于在骨干網(wǎng)中數(shù)據(jù)流的速度非???,并且需要應(yīng)對大量的并發(fā)流,因此對特征獲取速度和分類速度提出了更高的要求;而且,由于網(wǎng)絡(luò)設(shè)備的計算資源有限,因此也要求盡量減少特征處理和模型推理時導(dǎo)致的CPU資源開銷。最后,在線上分類時,分類器會對各種各樣類型的流量分類,然而隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多的新應(yīng)用不斷涌現(xiàn),這就要求線上分類時能夠及時識別出新應(yīng)用的流量。由于新應(yīng)用的流量呈現(xiàn)出新的特性,因此給新應(yīng)用識別帶來了難度。
雖然目前無論是基于機器學習方法還是基于深度學習方法已經(jīng)有大量的流量分類研究工作,但把現(xiàn)有的工作直接進行線上部署是不可行的:根據(jù)表1可知,基于機器學習的流量分類方法和基于流內(nèi)數(shù)據(jù)包序列特征的深度學習方法都面臨分類實時性的問題,而且無論是哪種方法在訓練時都是固定類別數(shù)進行訓練的,所以都無法應(yīng)對新應(yīng)用流量的識別問題。因此,有研究者提出在機器學習方法和深度學習方法的基礎(chǔ)上針對這3個問題做出一些改進。
由于在骨干網(wǎng)絡(luò)中數(shù)據(jù)集采集是不可控的,無法控制采集的流量類別,因此會帶來數(shù)據(jù)集樣本分布不均衡的問題。目前針對流量數(shù)據(jù)集樣本不均衡問題有很多研究工作。除了傳統(tǒng)的欠采樣、過采樣方法,有研究者提出使用生成對抗網(wǎng)絡(luò)(GAN)解決樣本不均衡問題。Ly等[21]提出使用ACGAN為少樣本生成合成數(shù)據(jù)以達到數(shù)據(jù)均衡的效果,并基于這種方法使得流量分類的準確性得到很大的改善。Zheng等[4]提出一種名為RBRN的框架,這個框架基于Glow模型[22]構(gòu)建一個名為“hallucinator”的流量生成器應(yīng)對樣本不均衡問題,并基于元學習(meta-learning)方法進行小樣本學習。這兩個工作的對比結(jié)果見表2。
表2 ACGAN與RBRN對比
然而,事實上數(shù)據(jù)樣本不均衡只是數(shù)據(jù)集問題的一小部分,數(shù)據(jù)集最難也最關(guān)鍵的問題是如何在高速骨干網(wǎng)絡(luò)下進行數(shù)據(jù)采集和做線下數(shù)據(jù)標注。目前的骨干網(wǎng)流量標注方法仍然是基于深度包檢測(deep packet inspection,DPI)的方法,這種方法隨著加密流量的逐漸增多而逐漸失效,因此目前并沒有任何工作能夠解決骨干網(wǎng)絡(luò)數(shù)據(jù)采集難和標注難的問題。
目前流量分類的研究工作關(guān)注點有兩個:如何獲取有效的流量特征和如何提高分類的準確率。然而對于線上部署來說,一方面由于需要面對網(wǎng)絡(luò)中的高速并發(fā)流,另一方面由于網(wǎng)絡(luò)設(shè)備的存儲資源和CPU資源非常有限,因此流量分類的研究工作也應(yīng)該考慮存儲開銷、計算開銷和時間開銷。為了減少特征的計算開銷,實現(xiàn)更快速的流量分類,Garcia等[23]提出一種離散優(yōu)化算法KSD,通過基于統(tǒng)計特征數(shù)據(jù)分布構(gòu)建直方圖的方式將特征離散化,這種方式大大減少了計算資源,并實現(xiàn)了更快速的分類。在此之后,Garcia等[24]又進一步基于KSD算法提出了一種基于離散優(yōu)化算法的分類器DISCO。除了特征離散化這種方式以外,Garcia等[25]也曾提出用低計算開銷特征(例如:給定包大小范圍的數(shù)據(jù)包比例)代替高階統(tǒng)計特征(例如:數(shù)據(jù)包大小的分位數(shù)),這種方式不但沒有影響分類準確率,反而提高了分類速度,減小了計算資源的開銷。
雖然這幾個工作于提高分類速度以及減少計算資源開銷起到了一定的作用,但是這幾個工作并不適合線上部署。由于KSD算法和使用低開銷替換特征的方式都需要大量的預(yù)處理時間,這不利于在網(wǎng)絡(luò)設(shè)備上的實時推理。
目前已經(jīng)有研究工作關(guān)注到新應(yīng)用識別這個問題。RTC[6]是一種結(jié)合監(jiān)督學習和半監(jiān)督學習方法的解決方案,RTC動態(tài)訓練一個新應(yīng)用類別判別器,隨著人為標注動態(tài)調(diào)整判別器。Zhang等[26]提出的方法和RTC方案相似,都是根據(jù)線上分類結(jié)果動態(tài)訓練一個新應(yīng)用類別判別器,區(qū)別在于此方法是基于深度學習的分類方法。無論是Zhang等[6]提出的方法還是RTC方案,都需要做兩次推理才能得到分類結(jié)果,這會嚴重影響分類的實時性。而且這兩種方法都要求已知訓練集數(shù)據(jù)的應(yīng)用類別。Ede等[27]提出的FLOWPRINT則不要求任何的類別先驗知識,也無須訓練過程。通過半監(jiān)督學習的方式基于數(shù)據(jù)流的目的IP地址聚類獲得應(yīng)用程序的“指紋”,從而達到區(qū)分各個應(yīng)用程序的目的,同時能夠很準確地識別出新應(yīng)用的流量。但FLOWPRINT需要獲取足夠多的數(shù)據(jù)流(5 min內(nèi)的數(shù)據(jù)流)以得到應(yīng)用程序指紋,因此也不利于分類的實時性。
通過對線上部署時面臨的3個問題的相關(guān)工作的闡述與分析,雖然目前很多工作試圖在解決這些問題,但解決辦法仍然不完善,這就給未來的流量分類工作帶來了挑戰(zhàn):如何在高速網(wǎng)絡(luò)下實現(xiàn)快速數(shù)據(jù)采集?如何在線下實現(xiàn)準確數(shù)據(jù)標注?如何減小分類模型的部署開銷?如何快速地識別出新應(yīng)用流量?這就是未來的研究工作在線上部署時亟須商榷和解決的問題。
網(wǎng)絡(luò)流量分類一直是網(wǎng)絡(luò)管理和網(wǎng)絡(luò)安全的重要任務(wù),準確并快速地流量分類對保障用戶服務(wù)質(zhì)量和用戶安全是十分重要的。本文對網(wǎng)絡(luò)流量分類的研究工作進行了梳理和總結(jié)。由于傳統(tǒng)的基于端口號和基于DPI的流量分類方法隨著端口混淆技術(shù)的使用和加密流量的出現(xiàn)逐漸失效,越來越多的研究工作選擇采取機器學習和深度學習的方法解決流量分類問題?;跈C器學習的流量分類方法雖然適用于加密流量,但其需要專家經(jīng)驗,且實時性差;基于深度學習的流量分類方法分為兩類:基于數(shù)據(jù)包原始字節(jié)特征的深度學習方法和基于流內(nèi)數(shù)據(jù)包序列特征的深度學習方法,這兩類方法在實時性和準確性上也有著各自的優(yōu)缺點。雖然目前流量分類已經(jīng)有大量的研究工作,但是當在高速網(wǎng)絡(luò)中線上部署時還是會遇到數(shù)據(jù)集采集難、部署開銷大以及新應(yīng)用識別實時性差的問題。由于目前還沒有任何一種方案能真正滿足線上部署的要求,因此如何實現(xiàn)合理有效的線上部署仍然是一個待解決的問題。