董興強 李曉冰
【摘? 要】為了評估網絡流量情況,及時擴容擁塞電路,運營商普遍采用基于SNMP的網絡流量采集方法,通過計算兩次采集間隔的平均速率粗略估計電路流量。為了進一步定性分析流量突發(fā)情況,編寫了實驗程序,縮短采集周期,實現了秒級采集,使用不同采集周期的數據進行計算和對比分析,得到了不同采集周期下的峰值流量的比值,最后提出了更有效的運營商網絡流量傳統(tǒng)采集加觸發(fā)式秒級采集的新模型,以期實現精準擴容和更加敏捷的流量調度。
【關鍵詞】網絡流量;秒級采集;SNMP;流量突發(fā);精準擴容;觸發(fā)式
doi:10.3969/j.issn.1006-1010.2020.03.013? ? ? ? 中圖分類號:TP393
文獻標志碼:A? ? ? ? 文章編號:1006-1010(2020)03-0067-05
引用格式:董興強, 李曉冰. 電信運營商網絡流量采集模型研究及應用[J]. 移動通信, 2020,44(3): 67-71.
Research and Application of Telecommunication Operator Network Traffic Collection Model
DONG Xingqiang, LI Xiaobing
(China Telecom Co., Ltd., Shandong Branch, Jinan 250101, China)
[Abstract]
In order to evaluate the network traffic and expand the congestion circuit in time, operators generally adopt SNMP-based network traffic collection methods to roughly estimate the circuit traffic by calculating the average rate of the two collection intervals. In order to further qualitatively analyze the case of bursty traffic, an experimental program is given to shorten the collection cycle to achieve second-level acquisition. Then the data with different acquisition cycles are阿 used for calculation and comparative analysis, and the ratios of peak traffic under different acquisition cycles are obtained. Finally, via combining traditional method and triggering-based second-level one, a more efficient model of traffic collection for operator networks is proposed to achieve accurate expansion and intelligent traffic scheduling.
[Key words]network traffic; second-level collection; SNMP; bursty traffic; precise expansion; triggered-based
0? ?引言
隨著國家互聯網“提速降費”政策的不斷推進和大力落實,用戶帶寬越來越大,應用級的一些網絡變量的重尾分布會引起流量的突發(fā)性[1] ,例如用戶下載文件或者加載視頻時,大帶寬高速率帶來了更大的流量突發(fā),瞬間導致電路流量擁塞,影響組播、游戲等對于網絡質量要求較高的應用,導致視頻花屏、游戲時延劣化。當前運營商市場競爭激烈,良好的用戶感知和口碑是吸引新用戶和維系存量用戶的重要基礎,如何有效評估電路突發(fā)流量,精準擴容減少網絡投資,是所有運營商網絡建設維護面臨的重要課題[2] 。
網絡流量是單位時間內通過網絡鏈路的數據包的總體,是衡量網絡負荷和轉發(fā)性能的基本指標[3],為了準確地掌握網絡流量情況,學者們提出了很多成熟的流量采集方法,也開發(fā)了很多高效的流量采集工具[4],運營商普遍采用基于SNMP(Simple Network Management Protocol,簡單網絡管理協(xié)議)的流量采集方式,SNMP采集服務器周期性以輪詢的方式[5]采集網絡節(jié)點設備MIB(Management Information Base,管理信息庫)數據[6],通過對數據的進一步處理獲得設備的運行狀態(tài),比如每5分鐘采集一次端口流入流出流量總數,計算獲得5分鐘內該端口的流入流出平均速率。因為SNMP采集操作會占用網絡帶寬和設備性能資源,運營商普遍將采集周期設置為5分鐘,因為采用計算平均速率的方式,持續(xù)幾秒或者更短時間的流量突發(fā)是無法發(fā)現的。
在1991年Leland等人發(fā)現流量在所有時間尺度上都是突發(fā)的[7],為了評估當前網絡流量采集方式獲得的峰值流量與真實的網絡流量之間的差異,采取了實驗分析的方式,縮短程序采集周期無限趨近于真實網絡流量,結合程序性能及設備內部硬件計數更新周期等因素,實現了2 s及以上周期的網絡流量準確采集,并選取代表性的網絡拓撲電路進行數據采集和對比分析,展現了基于不同采集周期的同一條電路同一時段的整體及峰值流量情況,以及不同網絡層級的電路在不同采集周期的峰值流量比值情況。最后,根據實驗結論對運營商網絡流量采集模型進行了優(yōu)化,提出了傳統(tǒng)采集加觸發(fā)式秒級采集的新模型。
1? ?研究分析
采用實驗的方式對運營商網絡流量采集模型進行研究分析,整個實驗過程分為三個階段,首先編寫程序,搭建運行環(huán)境,測試確定最佳的采集周期,自動采集選定電路的端口流量數據;然后選擇實驗拓撲和電路,完成數據采集;最后對第二階段采集的數據進行分析計算,總結及驗證實驗結論。
1.1? 編寫采集程序、測定采集周期
本次實驗選用了基于SNMP的流量采集方式,典型的免費工具是MRTG(Multi Router Traffic Grapher,流量負載工具軟件)[8],但采集周期最短只能設置為5分鐘,為了盡可能縮短采集周期,編寫了專用的采集程序,使用當前流行的Python[9]編程語言及PySNMP(Python SNMP模塊)框架,程序異步采集端口數據,采集時刻精確到微秒,支持靈活設定周期及采集時間段,采集的數據保存至文件。設備內部端口流量計數器接近于實時更新,采集程序單次耗時少于30 ms,理論上可以實現端口流量的秒級采集,因為程序執(zhí)行時間和設備硬件計數更新時間的輕微遲滯會對秒級采集的數據產生較大偏差,經過多次驗證測試,2 s及以上周期的采集數據準確性滿足實驗要求,本實驗程序環(huán)境將網絡流量采集周期設置為2 s。
1.2? 選取實驗拓撲、完成數據采集
隨著運營商“光進銅退”工作的實施,當前家庭寬帶用戶主流接入方式是FTTH(Fiber To The Home,光纖到戶)[10],用戶速率大部分在50 Mbit/s~300 Mbit/s之間。本次實驗由底層級到高層級(靠近用戶為底層級),依次選擇OLT(Optical Line Terminal,光線路終端)上聯電路、匯聚交換機上聯電路和MSE(Multi-Service Edge,多業(yè)務網關)上聯電路三個層級的電路流量進行分析,篩選符合條件的網絡拓撲結構,如圖1所示,并在每個電路層級各選取一條電路,對應圖1中的標識1-3,指定采集時段為網絡忙時18:00-21:00,共計180分鐘,網絡流量采集完成后確認采集數據無異常,可用于下一步的計算分析。
1.3? 分析采集數據、總結實驗結論
實驗第二階段采集的數據是每隔2 s的端口流量計數,計算時分別選取間隔2 s、1分鐘和5分鐘的數據,獲得對應周期時間段內的電路平均流量,并從以下三個維度進行分析,總結實驗結論:
(1)網絡流量采集周期越短,數據準確性越高
以電路-1(OLT上聯電路)為例,使用折線圖展示不同采集周期下的電路平均流量,如圖2~圖4所示,說明采集周期越短,流量散布越明顯,呈現流量突發(fā)能力越好,網絡流量采集數據準確性越高。
(2)根據不同采集周期下的峰值流量比值可以合理確定電路擴容閾值
對同一電路不同采集周期的峰值流量進行對比分析,如表1所示,對于電路-1,基于5分鐘周期的網絡流量采集,當電路帶寬占用率達到60.6%時,基于2 s周期的網絡流量采集計算出來的電路帶寬占用率已經達到100%,產生擁塞的情況,影響用戶業(yè)務。所以,運營商數據網管采用5分鐘周期的網絡流量采集模型時,電路-1、電路-2和電路-3合理的擴容預警閾值分別為60.6%、87.7%和70.4%。
(3)不同層級的電路在不同采集周期下的峰值流量的比值存在不符合理論預期的情況
理論上來說,底層電路(靠近用戶端為底層)因為帶寬小,單用戶突發(fā)流量對于電路流量影響較大,同時又因為用戶數量少,用戶流量突發(fā)事件相對集中,所以低層級電路采用不同采集周期的數據計算出來的峰值速率差距最大,高層級電路差距最小,但是在本次實驗中,對三個層級的電路在不同采集周期下的峰值流量進行對比發(fā)現,電路-3峰值速率差距是電路-2的2倍,實驗結果不符合理論預期。
為了驗證實驗結果的準確性,反復多次在不同時間段重復采集電路流量數據進行計算分析,每次計算的結果除了不同采集周期下的峰值流量比值稍有變化之外,電路-2的峰值流量比值仍然是三個層級電路當中最小的,受限于實驗方法和樣本數量,無法確定該比值是否與特定的網絡拓撲或者用戶行為相關,如要定論則需要進一步的研究分析。
2? ?研究應用
基于上述實驗結論,嘗試對運營商原有的網絡流量采集模型及電路擴容預警模型進行優(yōu)化,包括抽樣電路推算擴容預警閾值、縮短全網流量采集周期等方式,最終提出了傳統(tǒng)采集加觸發(fā)式秒級采集的新模型,將2 s采集周期的電路流量超過95%作為新的電路擴容原則,實現了精準擴容。
(1)抽樣電路推算擴容預警閾值,效果有提升但精準度不滿足需求
通過電路抽樣和縮短采集周期的方式推算電路擴容預警閾值,抽樣選取各個網絡層級的電路,并在短時間段內縮短采集周期,對比計算基于運營商5分鐘采集周期的電路擴容預警閾值,并將該閾值應用到對應網絡層級的所有電路。在實際應用中發(fā)現,效果沒有達到預期,一是受限于網絡拓撲和地域性用戶帶寬速率的差異性,導致閾值的浮動較大;二是由于用戶上網習慣差異,同一電路在不同時間段,基于不同流量采集周期的電路峰值流量比值并非一成不變,使用推算得到的閾值可以粗略估計電路是否擁塞,但存在流量還未到達預警閾值可已經擁塞、已經達到預警閾值可電路沒有擁塞的情況,雖然較運營商現在使用的網絡流量采集及電路擴容預警模型有提升,但是精準度仍然難以滿足需求。
(2)縮短全網流量采集周期,受限于設備性能資源難以全網實施
隨后進一步探討了將運營商網絡流量采集周期由5分鐘全部縮短為2 s的可行性,縮短采集周期可以有效提升網絡流量采集準確性,但是高頻次的采集動作會占用網絡帶寬及設備性能資源,省級運營商的電路數量超過幾十萬,單臺設備端口數可達幾百個,如果將當前5分鐘的采集周期縮短至2 s,預計能夠提升50%的網絡流量采集準確率,但是采集服務器和設備性能資源占用需要提高到150倍,一方面需要擴容大量的服務器計算和存儲資源,另一方面高頻次的采集動作可能導致網絡設備CPU利用率過高,引發(fā)業(yè)務運行風險,所以縮短網絡流量采集周期的方案難以在運營商全網推廣使用。
(3)傳統(tǒng)采集加觸發(fā)式秒級采集,兼顧了設備性能資源及擴容預警準確性
綜合上述嘗試和分析,最終提出了傳統(tǒng)采集加觸發(fā)式秒級采集的運營商網絡流量采集和電路擴容預警新模型,即縮短采集周期校準運營商電路擴容預警閾值,電路流量達到擴容預警閾值時,觸發(fā)秒級采集精確判斷電路是否需要擴容。具體工作實現是:在運營商原有的基于5分鐘周期的日常網絡流量采集基礎上,定期啟動2 s周期的采集,校準基于5分鐘周期的電路擴容預警閾值,在日常網絡流量采集過程中,電路流量接近擴容預警閾值時觸發(fā)2 s周期的流量采集3分鐘,并對2 s采集周期的電路流量進行計算,若電路流量超過95%,立即對該電路進行擴容預警。
3? ?結束語
本文提出的運營商網絡流量采集新模型在山東電信城域網進行了部署和應用,網絡流量采集準確率滿足了需求,同時對原有的采集服務器及網絡資源占用的增加也在可控范圍之內,兼顧了采集準確性和網絡資源消耗,能夠滿足當前運營商精準投資和電路及時擴容的需求,有利于實現更加敏捷的流量調度。后續(xù)需要考慮擴充該模型的適用場景,進一步對網絡流量秒級采集的能力進行封裝,應用于用戶故障投訴智能預處理、重大節(jié)日監(jiān)控保障等維護場景。
參考文獻:
[1]? ? ?劉孫東. 網絡突發(fā)流量行為研究[J]. 深圳信息職業(yè)技術學院院報, 2011,9(3): 1-5.
[2]? ? ? 劉翼. 高性能IP網絡流量采集系統(tǒng)設計與實現[J]. 延安大學學報: 自然科學版, 2017,36(2): 21-23.
[3]? ? ? 薛一波,王大偉,張洛什. 網絡流場:理論和方法[J]. 計算機科學與探索, 2014,8(1): 1-17.
[4]? ? ?李振國,鄭惠中. 網絡流量方法研究綜述[J]. 吉林大學學報: 信息科學版, 2014,32(1): 70-75.
[5]? ? ?W Richard Stevens. TCP/IP詳解—卷1:協(xié)議[M]. 范建華,胥光輝,張濤,等譯. 北京: 機械工業(yè)出版社, 2011: 330-350.
[6]? ? ?A Mark, PE Miller. 用SNMP管理互聯網絡(第三版)[M]. 晏明峰, 等譯, 北京: 中國水利水電出版社, 2001: 46-56.
[7]? ?W E Leland, D V Wilson. High Timer-Resolution Measurement and Analysis of LAN Traffic: Implications[A]//Proceedings of the IEEE INFOCOM[C]. Bal Harbour, 1991: 1360-1366.
[8]? ? 孫泳,史忠植. MRTG的應用與部署[J]. 計算機應用, 2004,24(3): 20-22.
[9]? ? SAP. PyRFC[EB/OL]. (2019-02-20)[2019-5-31]. http://sap.github.io/PyRFC/index.html.
[10]? ?劉繼紅,王步元. 下一代無源光網絡的演進路線與研究進展[J]. 西安郵電大學學報, 2014(2): 13-20.
作者簡介
董興強(orcid.org/0000-0001-6705-4909):工程師,畢業(yè)于山東大學,現任職于中國電信股份有限公司山東分公司,主要從事數據網絡維護工作。
李曉冰:工程師,畢業(yè)于山東大學,現任職于中國電信股份有限公司山東分公司,主要從事數據網絡維護管理工作。