劉俊 張廣興 曾少華
摘要:
隨著湖南電力數(shù)據(jù)通信網(wǎng)的迅速發(fā)展,端到端的網(wǎng)絡(luò)測量方法對于網(wǎng)絡(luò)運(yùn)維越來越顯重要。傳統(tǒng)基于SNMP和NETFLOW的被動(dòng)測量手段不能獲得與用戶體驗(yàn)密切相關(guān)的重要網(wǎng)絡(luò)參數(shù)如可用帶寬、HTTP首頁下載時(shí)間、POP3郵件接收響應(yīng)時(shí)間等。大規(guī)模網(wǎng)絡(luò)主動(dòng)測量系統(tǒng)在國外有不少應(yīng)用,在國內(nèi)尚無較大規(guī)模應(yīng)用的案例。為了提高湖南電力數(shù)據(jù)通信網(wǎng)整體運(yùn)維水平,實(shí)現(xiàn)端到端的網(wǎng)絡(luò)測量技術(shù),文中設(shè)計(jì)并實(shí)現(xiàn)了電力數(shù)據(jù)通信網(wǎng)端到端網(wǎng)絡(luò)主動(dòng)測量系統(tǒng)。文中對系統(tǒng)的體系結(jié)構(gòu)、任務(wù)調(diào)度方法、探針設(shè)計(jì)、系統(tǒng)的部署方法等進(jìn)行了詳細(xì)論述。該系統(tǒng)的實(shí)際測量結(jié)果表明,該系統(tǒng)可以提供準(zhǔn)確和有效的測量結(jié)果,測量結(jié)果對網(wǎng)絡(luò)優(yōu)化和網(wǎng)絡(luò)改造具有重要的參考價(jià)值。
關(guān)鍵詞:計(jì)算機(jī)網(wǎng)絡(luò);數(shù)據(jù)通信網(wǎng);端到端網(wǎng)絡(luò)主動(dòng)測量
中圖法分類號:TP393.06文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:With the fast development of Hunan China Grid Data communication network,the active endtoend network measurement approach becomes more and more important to network management.Traditional SNMP or NETFLOW based passive measurement method cannot get the important network metrics such as available bandwidth,HTTP download time,POP3 mail receiving response time and so on,which are closely related to user experience.There are a lot of applications of large scale active network measurement systems in other countries,but quite rare in China.In order to improve the overall operation and maintenance quality of Hunan China Grid Data communication network and implement the endtoend active network measurement technique,this paper designs and implements an active network measurement system on the network.The system architecture,the task scheduling method,the probe design,the system deployment methods are proposed in detail.The actual measurement results show that the system can provide accurate and effective measurement results which have important reference value for network optimization and network upgrading.
Key words:computer network;China Grid data communication network;endtoend active network measurement
1研究意義
湖南電力數(shù)據(jù)通信網(wǎng)是覆蓋全省的大型廣域企業(yè)網(wǎng)絡(luò)。網(wǎng)絡(luò)中有在運(yùn)路由器、交換機(jī)等網(wǎng)絡(luò)設(shè)備7000余臺(tái)。應(yīng)國家電網(wǎng)公司要求,湖南省電力公司在2015—2016年完成了對數(shù)據(jù)通信網(wǎng)拓?fù)浣Y(jié)構(gòu)、路由協(xié)議、IP地址及VPN參數(shù)等方面整體升級改造工作,數(shù)據(jù)通信網(wǎng)核心網(wǎng)絡(luò)的帶寬得到大幅提升。但是,改造完成后,網(wǎng)絡(luò)服務(wù)質(zhì)量并沒有如期望相應(yīng)提高。網(wǎng)絡(luò)管理員經(jīng)常收到一些地市公司基層單位如配搶中心或電力營業(yè)廳網(wǎng)絡(luò)緩慢的投訴。相關(guān)部門曾經(jīng)做過多次技術(shù)分析,但由于網(wǎng)絡(luò)規(guī)模大而且拓?fù)鋸?fù)雜,缺乏有效的網(wǎng)絡(luò)測量手段,很難定位故障點(diǎn)。為了進(jìn)一步改善電力用戶網(wǎng)絡(luò)體驗(yàn),提高湖南電力數(shù)據(jù)通信網(wǎng)運(yùn)維水平,需解決以下問題:
1需建立符合電力行業(yè)特征的網(wǎng)絡(luò)質(zhì)量指標(biāo)體系:電力數(shù)據(jù)通信網(wǎng)承載了信息、語音、視頻多種業(yè)務(wù)。每種業(yè)務(wù)重要性和QOS需求各不相同。并且數(shù)據(jù)通信網(wǎng)上承載的業(yè)務(wù)類型與互聯(lián)網(wǎng)差別很大(例如電力網(wǎng)上沒有P2P、游戲業(yè)務(wù))。傳統(tǒng)針對互聯(lián)網(wǎng)的網(wǎng)絡(luò)質(zhì)量評價(jià)指標(biāo)不完全符合電力網(wǎng)絡(luò)的實(shí)際情況。因此要對電力用戶的上網(wǎng)體驗(yàn)做出客觀準(zhǔn)確的評價(jià),需先建立一套符合電力行業(yè)特征的網(wǎng)絡(luò)質(zhì)量指標(biāo)體系。
2缺乏網(wǎng)絡(luò)端到端網(wǎng)絡(luò)監(jiān)測手段:數(shù)據(jù)通信網(wǎng)與運(yùn)營商網(wǎng)絡(luò)一樣,部署了多個(gè)基于SNMP的專業(yè)網(wǎng)管和基于NETFLOW的流量分析工具。這些工具都采用了被動(dòng)測量的網(wǎng)絡(luò)測量方式,可以分析網(wǎng)絡(luò)設(shè)備的運(yùn)行狀況和網(wǎng)絡(luò)出口處的流量和帶寬。但是由于測量點(diǎn)都設(shè)置在網(wǎng)絡(luò)核心或出口處,測量位置距離用戶很遠(yuǎn)。一個(gè)營銷終端訪問省公司數(shù)據(jù)中心,經(jīng)過網(wǎng)絡(luò)設(shè)備達(dá)15臺(tái)以上。這10多跳網(wǎng)絡(luò),又是由三套網(wǎng)管系統(tǒng)分級管理的。管理員被淹沒在多套網(wǎng)管系統(tǒng)的海量日志中,加上網(wǎng)絡(luò)規(guī)模大跳數(shù)多、拓?fù)鋸?fù)雜,很難分析網(wǎng)絡(luò)瓶頸在哪。
主動(dòng)網(wǎng)絡(luò)性能測量技術(shù)構(gòu)造探測報(bào)文序列,發(fā)送到被測目標(biāo)網(wǎng)絡(luò)中,然后利用被測目標(biāo)的響應(yīng)信息,或者探測報(bào)文傳輸經(jīng)過目標(biāo)網(wǎng)絡(luò)后攜帶的信息來測量網(wǎng)絡(luò)性能。由于主動(dòng)測量探針部署位置靠近用戶終端,通過主動(dòng)網(wǎng)絡(luò)性能測量技術(shù),可以對端到端的網(wǎng)絡(luò)路徑性能進(jìn)行測量,測量結(jié)果能更直接的反映用戶的網(wǎng)絡(luò)體驗(yàn);如果大量部署網(wǎng)絡(luò)探針,測量數(shù)據(jù)也有助于管理員獲得網(wǎng)絡(luò)的整體性能的理解。endprint
大規(guī)模網(wǎng)絡(luò)主動(dòng)測量系統(tǒng)在國外有不少應(yīng)用,在國內(nèi)尚無較大規(guī)模應(yīng)用的案例。為了提高湖南電力數(shù)據(jù)通信網(wǎng)整體運(yùn)維水平,實(shí)現(xiàn)端到端的網(wǎng)絡(luò)測量技術(shù),解決以上網(wǎng)絡(luò)運(yùn)維中的重要問題,文中設(shè)計(jì)并實(shí)現(xiàn)了電力數(shù)據(jù)通信網(wǎng)端到端網(wǎng)絡(luò)主動(dòng)測量系統(tǒng)。文中對系統(tǒng)的體系結(jié)構(gòu)、任務(wù)調(diào)度方法、探針設(shè)計(jì)、系統(tǒng)的部署方法等進(jìn)行了詳細(xì)論述。
2國內(nèi)外相關(guān)研究
從2000年至今,國際上涌現(xiàn)了多個(gè)大規(guī)模主動(dòng)網(wǎng)絡(luò)測量的項(xiàng)目,部分項(xiàng)目運(yùn)行幾年后已夭折,本文對現(xiàn)在還在正常運(yùn)行,并仍有大量活動(dòng)測量探針項(xiàng)目進(jìn)行逐一分析和介紹:
1)Ark[1](Archipelago measurement infrastructure)。直譯為群島測量構(gòu)架,該系統(tǒng)由CAIDA[2]開發(fā),其核心服務(wù)器位于圣地亞哥超級計(jì)算機(jī)中心。截止至2016年11月,在全球57個(gè)國家有165個(gè)活動(dòng)測量點(diǎn)。該系統(tǒng)從2006年上線以來持續(xù)進(jìn)行改進(jìn),內(nèi)置了DNS解析分析、網(wǎng)絡(luò)拓?fù)浞治觥EB響應(yīng)分析、PING時(shí)延分析、traceroute路由跟蹤等多個(gè)工具[3-7]。
2)WAND [8-9],其前身是已經(jīng)運(yùn)行了10多年的AMP (Active Measurement Project) [10],由新西蘭政府贊助開發(fā)。截止至2016年11月,在全球有1822個(gè)活動(dòng)探測點(diǎn)。測量的主要內(nèi)容包括測量點(diǎn)間的丟包、延遲、帶寬和網(wǎng)絡(luò)拓?fù)洌结樳€不斷實(shí)時(shí)監(jiān)控INTERNET重要的路徑變化。
3)perfSONAR[11-17] (performance serviceoriented network monitoring architecture),由Internet2、GEANT等機(jī)構(gòu)聯(lián)合開發(fā)。截止至2016年10月有1700臺(tái)服務(wù)器在網(wǎng)運(yùn)行。項(xiàng)目內(nèi)置了ping,traceroute,tracepath,iperf,nuttcp工具。
4)ScriptRoute[18]是一個(gè)依托PlanetLab的網(wǎng)絡(luò)測量系統(tǒng)。截止至2016年10月有91臺(tái)注冊服務(wù)器在網(wǎng)運(yùn)行。其中絕大多數(shù)使用的是PlanetLab服務(wù)器。
5)Bottlenet [19-21]由法國國家信息與自動(dòng)化研究所(Inria)設(shè)立,專門進(jìn)行端到端主動(dòng)測量。其特點(diǎn)是使用互聯(lián)網(wǎng)上PC和移動(dòng)終端作為探針,探測端到端網(wǎng)絡(luò)瓶頸。內(nèi)含了Fathom、APISENSE等多個(gè)測量工具。
6)Polaris網(wǎng)絡(luò)測量平臺(tái)[22]:由美國第二大有線電視,寬帶網(wǎng)絡(luò)及IP電話服務(wù)供應(yīng)商Comcast開發(fā)。該系統(tǒng)與本文的電力數(shù)據(jù)通信網(wǎng)端到端網(wǎng)絡(luò)主動(dòng)測量系統(tǒng)非常相似。該系統(tǒng)也采用了管理平臺(tái)、數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)、調(diào)度器、探針?biāo)膶哟误w系構(gòu)架;同樣也開發(fā)了小型探針,該探針采用ARM CortexA7 雙核處理器,Linux操作系統(tǒng)。配置一個(gè)1GbE 以太網(wǎng)接口作為測量接口,最大探針吞吐量可達(dá)900Mbps?,F(xiàn)在該平臺(tái)已在美國各地部署了61個(gè)測量探針進(jìn)行相關(guān)測量。
7)與國外的研究情況相比較,國內(nèi)在端到端網(wǎng)絡(luò)測量方面的研究不多。很多項(xiàng)目都是曇花一現(xiàn),進(jìn)行實(shí)際網(wǎng)絡(luò)部署和長期網(wǎng)絡(luò)觀測的幾乎沒有。清華大學(xué)信息網(wǎng)絡(luò)工程研究中心設(shè)計(jì)并實(shí)現(xiàn)了基于聯(lián)邦架構(gòu)的全球網(wǎng)絡(luò)性能測量平臺(tái)GPERF[23],該平臺(tái)實(shí)現(xiàn)了大規(guī)模異構(gòu)測量,充分利用了自有資源、伙伴資源和互聯(lián)網(wǎng)上的開放服務(wù)等。國防科技大學(xué)開發(fā)了一套主動(dòng)網(wǎng)絡(luò)測量精度的軟硬件混合模型HPAN[24],其優(yōu)勢是利用可編程的硬件設(shè)備提高報(bào)文時(shí)間戳的精度。西安電子科技大學(xué)提出了分布式網(wǎng)絡(luò)測量基礎(chǔ)架構(gòu)(Distributed Network Measurement and Analysis Infrastructure,DNMAI)[25,26];電子科技大學(xué)開發(fā)了基于多線程的網(wǎng)絡(luò)性能測量系統(tǒng)[27],對其校園網(wǎng)進(jìn)行實(shí)際測量。
3電力數(shù)據(jù)通信網(wǎng)質(zhì)量指標(biāo)體系
沒有規(guī)矩不成方圓。進(jìn)行網(wǎng)絡(luò)測量之前,必須確立好測量度量標(biāo)準(zhǔn)。ITUT(國際電信聯(lián)盟)、IETF(互聯(lián)網(wǎng)工程任務(wù)組)等組織研究并頒布了一系列的標(biāo)準(zhǔn)化建議作為網(wǎng)絡(luò)質(zhì)量測量指標(biāo)體系[28-31]。兩個(gè)組織的度量基本相同。
ITUT在2007年定義了以用戶認(rèn)可程度為評價(jià)標(biāo)準(zhǔn)的業(yè)務(wù)服務(wù)質(zhì)量體系,稱為用戶體驗(yàn)質(zhì)量QoE[32],以區(qū)別于目前采用最廣泛的服務(wù)質(zhì)量QoS。QoE從用戶主觀感受的角度研究服務(wù)質(zhì)量,包含服務(wù)、用戶、環(huán)境3個(gè)層面;服務(wù)層面涉及OSI模型中網(wǎng)絡(luò)層至應(yīng)用層各類參數(shù)[33]。
電力數(shù)據(jù)通信網(wǎng)上運(yùn)行的應(yīng)用與互聯(lián)網(wǎng)差別很大,不能簡單套用互聯(lián)網(wǎng)網(wǎng)絡(luò)質(zhì)量指標(biāo)體系。舉個(gè)例子,數(shù)據(jù)通信網(wǎng)用戶均為辦公用戶,其日常使用的應(yīng)用以HTTP網(wǎng)頁瀏覽和SMTP/POP3郵件收發(fā)為主。電力用戶要求網(wǎng)頁瀏覽的網(wǎng)頁打開速度要快,對文件下載速度并不敏感。而互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)對p2p下載和流媒體更感興趣。用戶關(guān)心的應(yīng)用類型不同,其對網(wǎng)絡(luò)質(zhì)量要求就不同,衡量網(wǎng)絡(luò)質(zhì)量的指標(biāo)體系也要相應(yīng)調(diào)整。通過對電力數(shù)據(jù)通信網(wǎng)用戶行為深入分析,參考ITUT、IETF相關(guān)網(wǎng)絡(luò)質(zhì)量測量體系,本文初步確定了一套符合電力網(wǎng)絡(luò)實(shí)際業(yè)務(wù)情況的質(zhì)量指標(biāo)體系,體系也按照網(wǎng)絡(luò)層、傳輸層、應(yīng)用層三個(gè)層次劃分,主要指標(biāo)如下:
4系統(tǒng)架構(gòu)
41系統(tǒng)構(gòu)架
電力數(shù)據(jù)通信網(wǎng)端到端網(wǎng)絡(luò)主動(dòng)測量系統(tǒng)是對分布在電力數(shù)據(jù)通信網(wǎng)上的終端的網(wǎng)絡(luò)質(zhì)量進(jìn)行測量監(jiān)控的應(yīng)用系統(tǒng)。系統(tǒng)通過分布式部署在全省電力數(shù)據(jù)通信網(wǎng)上的探針,實(shí)時(shí)測量供電所、營業(yè)廳、辦公場所等網(wǎng)絡(luò)末端節(jié)點(diǎn)各種網(wǎng)絡(luò)指標(biāo)及承載業(yè)務(wù)的性能和服務(wù)質(zhì)量,然后用統(tǒng)一的web頁面展示測量結(jié)果。系統(tǒng)由管理平臺(tái)、調(diào)度器、數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)探針?biāo)膫€(gè)部分組成。
42管理平臺(tái)
不同于傳統(tǒng)的網(wǎng)管軟件的C/S架構(gòu),管理平臺(tái)采用了使用B/S架構(gòu)和J2EE框架。管理平臺(tái)統(tǒng)一接受ES、調(diào)度器、探針這些程模塊程序發(fā)送的http請求與用戶在瀏覽器發(fā)送的http請求,通過經(jīng)典的控制器—服務(wù)層—DAO結(jié)構(gòu),完成業(yè)務(wù)邏輯的處理返回響應(yīng)。從功能上劃分,管理平臺(tái)分又可以分為前端和后端兩部分。endprint
管理平臺(tái)前端為用戶的使用提供功能支持,是消費(fèi)型的系統(tǒng);前端使用了html/jsp+flex兩種頁面技術(shù),分別應(yīng)用于靜態(tài)效果和動(dòng)態(tài)效果;
管理平臺(tái)后端為其他模塊提供服務(wù)和通信連接,是運(yùn)營型系統(tǒng)。由五個(gè)子模塊組成:管理節(jié)點(diǎn)、資源服務(wù)器、緩存服務(wù)器、數(shù)據(jù)庫、其他中間件。其中管理節(jié)點(diǎn)是其他模塊連接的中心,接收來自其他模塊的消息,完成和其他子模塊的交互,為WEB頁面提供展示信息;資源服務(wù)器提供統(tǒng)一的文件存儲(chǔ)能力;緩存服務(wù)器提供統(tǒng)一的內(nèi)存信息緩存;其他子模塊同樣承擔(dān)了特定的底層功能支持。
管理平臺(tái)后端使用struts2+spring+ibatis的開源工具,struts2用于服務(wù)前臺(tái)html、jsp、flex頁面的http請求,將業(yè)務(wù)邏輯處理提交spring托管的應(yīng)用服務(wù)對象處理,最后通過ibatis完成數(shù)據(jù)庫的讀寫操作;事務(wù)管理、線程管理、緩存機(jī)制、數(shù)據(jù)源等都由spring配置實(shí)現(xiàn),容器托管的事務(wù)機(jī)制保證了程序異常時(shí)的自動(dòng)回滾;spring托管線程,可以控制整個(gè)線程的生命周期,在服務(wù)器關(guān)閉后自動(dòng)釋放其他線程資源;
管理平臺(tái)的數(shù)據(jù)來源有數(shù)據(jù)庫、文件系統(tǒng)和緩存內(nèi)存數(shù)據(jù)三類,分別由mysql數(shù)據(jù)庫、資源服務(wù)器和redis緩存服務(wù)器進(jìn)行處理:Mysql通過主備的方式保證數(shù)據(jù)庫的穩(wěn)定性與可靠性,并自動(dòng)完成主備數(shù)據(jù)庫上的數(shù)據(jù)同步;資源服務(wù)器配置大容量存儲(chǔ)設(shè)備,提供各類安裝包、更新包和配置文件的存儲(chǔ),提供文件系統(tǒng)操作、文件下載的接口;redis緩存服務(wù)器同樣是核心節(jié)點(diǎn),也采用了主備結(jié)構(gòu)。redis緩存服務(wù)器一方面作為緩存數(shù)據(jù)的存儲(chǔ),減少數(shù)據(jù)請求都由數(shù)據(jù)庫處理的情況、緩解數(shù)據(jù)庫壓力、提高請求響應(yīng)速度,另一方面也為集群中的節(jié)點(diǎn)的session同步、內(nèi)存數(shù)據(jù)同步提供集中式的管理和支撐。
43調(diào)度器
調(diào)度器管理調(diào)度域內(nèi)的探針節(jié)點(diǎn),負(fù)責(zé)系統(tǒng)上傳下達(dá)功能,是管理平面與執(zhí)行平面的橋梁,并可支持多級部署;管理平臺(tái)通過調(diào)度器控制所有探針工作。一方面將管理平臺(tái)收到的頁面測量任務(wù)下發(fā)到探針,同時(shí)將探針的測量狀態(tài)反饋管理節(jié)點(diǎn)。調(diào)度器可以分布式部署在不同測量區(qū)域,每個(gè)調(diào)度器分轄多個(gè)探針。調(diào)度器和下轄探針、上聯(lián)的管理平臺(tái)組成樹形網(wǎng)絡(luò)拓?fù)?。調(diào)度器在各自的linux主機(jī)上的jettty容器中以多線程的方式運(yùn)行,保證高并發(fā)、短事務(wù)。下圖為調(diào)度器的模塊結(jié)構(gòu),由多個(gè)線程以及隊(duì)列交互來完成任務(wù)的調(diào)度下發(fā),狀態(tài)的接收,轉(zhuǎn)發(fā)等業(yè)務(wù)功能。
44數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)
數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)對不同類型測量結(jié)果數(shù)據(jù)進(jìn)行存儲(chǔ),收集測量結(jié)果和數(shù)據(jù)庫信息,為頁面的結(jié)果展示提供數(shù)據(jù)來源。提供快速、靈活的檢索接口,支持外部系統(tǒng)檢索。
數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)包括ES、ESAgent兩個(gè)模塊:ES對測量結(jié)果進(jìn)行分布式的存儲(chǔ),并支持多樣化的檢索服務(wù),完成對測量結(jié)果的運(yùn)算和查詢。ES可以支持集群實(shí)現(xiàn)分布式部署架構(gòu),通過負(fù)載均衡進(jìn)程調(diào)度集群內(nèi)的多節(jié)點(diǎn)。ESAgent作為ES的代理,負(fù)責(zé)對外提供索引和檢索的業(yè)務(wù),同時(shí)完成對索引的源數(shù)據(jù)進(jìn)行預(yù)處理、對檢索結(jié)果進(jìn)行處理后返回給用戶;ESAgent支持動(dòng)態(tài)擴(kuò)展,可以通過添加補(bǔ)丁、替換Jar包形式增加新的業(yè)務(wù)處理邏輯,這種設(shè)計(jì)方法可以支持測量系統(tǒng)隨時(shí)擴(kuò)展新的測量工具。
45探針
測量探針是測量任務(wù)的執(zhí)行體,部署在用戶側(cè)感知網(wǎng)絡(luò)性能、執(zhí)行測量任務(wù)、獲取測量結(jié)果,同時(shí)支持新的測量工具部署與輸入輸出模版標(biāo)準(zhǔn)化。作為整個(gè)系統(tǒng)的終端,探針完成了最末端的測量任務(wù),同時(shí)作為測量工具的載體提供支持。探針和調(diào)度器連接以接收測量任務(wù)反饋測量狀態(tài);探針和數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)ES連接上報(bào)測量結(jié)果;探針和管理平臺(tái)連接處理其他情況;探針和其他模塊的連接關(guān)系是類C/S的模式。
探針的具體實(shí)現(xiàn)可以分為三層,從下自上依次為:
(1)探針硬件平臺(tái)。探針處理器采用了Atheros AR9344。AR9344是業(yè)界頂尖的芯片廠商Atheros的新一代WLAN SoC,內(nèi)核為MIPS 74Kc,主頻高達(dá)533 MHz,能夠滿足探針的性能需求。探針配置ROM為16M,主要用于安裝固件和探針應(yīng)用程序;RAM為64M,用于對測量數(shù)據(jù)的存儲(chǔ)。
(2)探針軟件平臺(tái)。采用OpenWrt作為探針的操作系統(tǒng)。OpenWrt具有方便添加應(yīng)用程序的特點(diǎn),使得探針具有很好的可擴(kuò)展性。
(3)探針應(yīng)用程序。探針應(yīng)用程序主要包括測量工具管控模塊和測量工具兩部分。測量工具管控模塊包含了探針Probe主進(jìn)程、探針注冊probreg、升級代理updater三個(gè)模塊,用于實(shí)現(xiàn)探針與管理平臺(tái)、數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)、調(diào)度器的接口,并實(shí)現(xiàn)對測量工具的管控。測量工具指實(shí)際完成端到端網(wǎng)絡(luò)性能測量的應(yīng)用程序。已完成開發(fā)的測量工具有:路由測量工具traceroute、可用帶寬測量工具iperf、TCP/UDP測量工具、HTTP測量工具、SMTP/POP3測量工具、流媒體測量工具、DNS測量工具、Telnet測量工具等。探針的體系結(jié)構(gòu)如下圖所示:
5測量任務(wù)執(zhí)行過程及狀態(tài)機(jī)
為了合理協(xié)調(diào)資源,完成主動(dòng)測量任務(wù),數(shù)據(jù)通信網(wǎng)端到端主動(dòng)測量系統(tǒng)的管理平臺(tái)模塊進(jìn)行任務(wù)執(zhí)行的整體調(diào)度。下圖表示一個(gè)測量任務(wù)執(zhí)行過程,具體有8個(gè)步驟:
①用戶通過管理平臺(tái)前端下發(fā)任務(wù);
②管理平臺(tái)后端返回新任務(wù)ID;
③管理平臺(tái)后端任務(wù)下發(fā)至調(diào)度器;
④調(diào)度器任務(wù)下發(fā)至探針后端;
⑤探針后端任務(wù)下發(fā)至測量工具;
⑥測量工具完成測量后結(jié)果上傳至探針后端;
⑦探針后端將測量結(jié)果上傳至數(shù)據(jù)存儲(chǔ)檢索系統(tǒng);
⑧數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)將測量結(jié)果索引返回管理平臺(tái)后端;
圖中過程(1)—(4)為管理平臺(tái)前端進(jìn)行數(shù)據(jù)展示的流程:endprint
(1)管理平臺(tái)前端向后端請求測量結(jié)果;
(2)管理平臺(tái)后端向數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)發(fā)起檢索;
(3)據(jù)存儲(chǔ)檢索系統(tǒng)將檢索結(jié)果上報(bào)至管理平臺(tái)后端;
(4)管理平臺(tái)后端將結(jié)果發(fā)給前端進(jìn)行結(jié)果展示。
系統(tǒng)的其他相關(guān)重要流程有:
調(diào)度器注冊:調(diào)度器上線時(shí),通過登陸流程,向管理平臺(tái)后端進(jìn)行注冊。
探針注冊:探針上線時(shí),也是向調(diào)度器注冊。管理平臺(tái)前端、后端之間以及后端與調(diào)度器之間,通過定時(shí)心跳,保證模塊間交互的可靠連接。
6系統(tǒng)部署與測量結(jié)果分析
61系統(tǒng)部署情況
湖南省電力公司數(shù)據(jù)通信網(wǎng)是一個(gè)大型電力廣域網(wǎng)絡(luò),承載于覆蓋全省的電力SDH、OTN/PTN、微波三平面的傳輸網(wǎng)。網(wǎng)絡(luò)采用了MPLS/VPN構(gòu)架,共部署路由器、交換機(jī)設(shè)備7000多臺(tái)。電力數(shù)據(jù)通信網(wǎng)端到端網(wǎng)絡(luò)主動(dòng)測量系統(tǒng)在湖南電力數(shù)據(jù)通信網(wǎng)進(jìn)行了實(shí)際部署和測量,部署情況如下:
服務(wù)器部署情況如下:系統(tǒng)管理平臺(tái),中心數(shù)據(jù)庫,數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)部署在省公司數(shù)據(jù)中心。分布式調(diào)度器也在省公司集中部署。以上模塊均集中部署在單臺(tái)服務(wù)器上。服務(wù)器硬件采用一臺(tái)華為RH5885 v3四路PC服務(wù)器,配置2個(gè)至強(qiáng)E7六核1.9G處理器,內(nèi)存64G,配置4口千兆網(wǎng)卡,服務(wù)器操作系統(tǒng)為Linux 2.6.29。
探針部署情況如下:為了完成本次測量工作,項(xiàng)目組在14個(gè)地市公司的93個(gè)直管區(qū)、縣電力公司共部署探針93臺(tái)。部署位置為該地區(qū)某一電力營業(yè)廳或供電所一類的電力基層單位接入交換機(jī)以太網(wǎng)端口。探針部署位置盡量靠近一線網(wǎng)絡(luò)用戶。從測量管理服務(wù)器到探針,跨越了省數(shù)據(jù)中心、數(shù)據(jù)通信網(wǎng)骨干網(wǎng)、地市公司數(shù)據(jù)通信網(wǎng)骨干網(wǎng)、地市數(shù)據(jù)通信網(wǎng)接入網(wǎng)四個(gè)網(wǎng)絡(luò)層級,網(wǎng)絡(luò)跳數(shù)在13—16跳之間。
62測量情況
系統(tǒng)部署完成后,進(jìn)行了一次全省數(shù)據(jù)通信網(wǎng)端到端網(wǎng)絡(luò)性能測量。測量統(tǒng)一由省公司管理服務(wù)器發(fā)起,時(shí)間為工作日上午9—11時(shí)。每隔10分鐘進(jìn)行一次測量,測量十次后結(jié)果取均值。測量內(nèi)容有:可用帶寬、時(shí)延、丟包率。
63測量結(jié)果分析
將測量結(jié)果中所有測量點(diǎn)按照地市區(qū)域劃分進(jìn)行統(tǒng)計(jì)均值、方差分析,結(jié)果如表5。結(jié)論如下:
1將平均可用帶寬按由小到大排列,可知:長沙、岳陽、湘潭等地區(qū)整體網(wǎng)絡(luò)質(zhì)量較好,可用帶寬較大而網(wǎng)絡(luò)時(shí)延較小。相對而言,湘西、邵陽、永州等地區(qū)距離省會(huì)較遠(yuǎn),可用帶寬較小而網(wǎng)絡(luò)時(shí)延較大,整體網(wǎng)絡(luò)質(zhì)量稍差。
2整體數(shù)據(jù)通信網(wǎng)丟包率很低。僅懷化、長沙和岳陽測量點(diǎn)的網(wǎng)絡(luò)有少量丟包,丟包率最高為0.0083%,這說明湖南電力數(shù)據(jù)通信網(wǎng)總體網(wǎng)絡(luò)質(zhì)量較好。少量丟包可能是物理層鏈路質(zhì)量造成而不是網(wǎng)絡(luò)擁塞造成的。需進(jìn)一步逐跳排查物理鏈路,找到丟包原因。
3將各地市公司測量點(diǎn)的可用帶寬、網(wǎng)絡(luò)時(shí)延做相關(guān)性分析,得到相關(guān)系數(shù)為-0.767。說明在湖南電力數(shù)據(jù)通信網(wǎng)上,可用帶寬與網(wǎng)絡(luò)時(shí)延有負(fù)相關(guān)關(guān)系??捎脦挻蟮牡貐^(qū)相對時(shí)延較小,反之亦然。
4計(jì)算各地市公司測量點(diǎn)的可用帶寬標(biāo)準(zhǔn)差、時(shí)延標(biāo)準(zhǔn)差,如圖14兩者曲線頗為相似。計(jì)算兩者相關(guān)性為0.61。這說明如果該地市不同測量點(diǎn)之間網(wǎng)絡(luò)可用帶寬差別較大(該地區(qū)網(wǎng)絡(luò)帶寬良莠不齊),則該地區(qū)的時(shí)延差別也較大(該地區(qū)時(shí)延也良莠不齊)。
5各地市平均可用帶寬與其標(biāo)準(zhǔn)差的相關(guān)系數(shù)為0.47,可用帶寬與可用帶寬分布均勻性的相關(guān)性不大。這說明即使某地市的網(wǎng)絡(luò)平均可用帶寬很高,但該地市也會(huì)有網(wǎng)絡(luò)帶寬較低的點(diǎn)存在。各地市平均時(shí)延與其標(biāo)準(zhǔn)差的相關(guān)系數(shù)為0.23,這說明在平均時(shí)延與時(shí)延標(biāo)準(zhǔn)差相關(guān)性很小。在某地市網(wǎng)絡(luò)平均時(shí)延較小,但該地市仍有時(shí)延較大的點(diǎn)存在。以上分析說明:即使在網(wǎng)絡(luò)質(zhì)量很好的地區(qū)如長沙、岳陽、湘潭等,也需對網(wǎng)絡(luò)進(jìn)行普查,查漏補(bǔ)缺解決少量網(wǎng)絡(luò)質(zhì)量不好的點(diǎn),以提高總體網(wǎng)絡(luò)質(zhì)量。
6可用帶寬與丟包率的相關(guān)系數(shù)為0.36,這說明在可用帶寬與丟包率基本無關(guān)。這說明了湖南電力數(shù)據(jù)通信網(wǎng)整體網(wǎng)絡(luò)為輕載。因?yàn)樵谥剌d網(wǎng)絡(luò)下,可用帶寬與丟包率往往呈現(xiàn)負(fù)相關(guān)關(guān)系。
7結(jié)論
傳統(tǒng)基于SNMP和NETFLOW的被動(dòng)測量手段不能獲得與用戶體驗(yàn)密切相關(guān)的重要網(wǎng)絡(luò)參數(shù)如可用帶寬、HTTP首頁下載時(shí)間、POP3郵件接收響應(yīng)時(shí)間等。為了提高湖南電力數(shù)據(jù)通信網(wǎng)整體運(yùn)維水平,實(shí)現(xiàn)端到端的網(wǎng)絡(luò)測量,文中設(shè)計(jì)并實(shí)現(xiàn)了電力數(shù)據(jù)通信網(wǎng)端到端網(wǎng)絡(luò)主動(dòng)測量系統(tǒng)。實(shí)際測量結(jié)果表明,湖南電力數(shù)據(jù)通信網(wǎng)整體網(wǎng)絡(luò)質(zhì)量較好,輕載運(yùn)行,但是在同一地區(qū)網(wǎng)絡(luò)質(zhì)量分布并不均勻,需重點(diǎn)解決少量接入點(diǎn)的網(wǎng)絡(luò)問題,以提高用戶的整體網(wǎng)絡(luò)體驗(yàn)。測量結(jié)果對網(wǎng)絡(luò)優(yōu)化和網(wǎng)絡(luò)改造具有重要的參考價(jià)值。
參考文獻(xiàn)
[1]CAIDA.ARK[EB/OL].http://www.caida.org/projects/ark.2016
[2]CAIDA: The cooperative association for Internet data analysis[EB/OL].2016.http://www.caida.org/
[3]HYUN Y.Ark Update: Present and Future[C],Workshop on Active Internet Measurements (AIMS) March 2015
[4]HYUN Y.Ark Topology Query System[C],Workshop on Active Internet Measurements (AIMS) February 2016
[5]VEITCH D.Timing Precision on ArkRADclock[C],Workshop on Active Internet Measurements (AIMS) March 2015endprint
[6]BEVERLY R,Large Scale Measurement Machinery:ArkQueue and Scamper Tools[C],Workshop on Active Internet Measurements (AIMS) March 2015
[7]BAUER S(MIT / CSAIL).Classifying Congestion in Ark Measurements[C],Workshop on Active Internet Measurements (AIMS) March 2015
[8]AMP.WAND[EB/OL],http://amp.wand.net.nz/ 2016
[9]ALCOCK S,Active Measurement Project[C],Workshop on Active Internet Measurements (AIMS) February 2016
[10]MCGREGOR A.Active measurement program: Network knowledge leads to practical payoffs[C].SDSC/NPACI Online Biweekly Newsletter,2003,7(3).
[11]ESNET.perfSONAR[EB/OL],http://www.perfsonar.net/,2016
[12]TIERNEY B.perfSONARbased Network Research[C],Workshop on Active Internet Measurements (AIMS) March 2015
[13]SAMPAIO L,KOGA I,COSTA R,et al.“Implementing and Deploying Network Monitoring Service Oriented Architectures: Brazilian National Education and Research Network Measurement Experiments”[C],Proceedings of the 5th Latin American Network Operations and Management Symposium (LANOMS 2007),Brazil,September 2007.
[14]BINCZEWSKI A,LAWENDA M,TROCHA S,et al.“Application of perfSONAR architecture in support of GRID monitoring”[C].In Proceedings of INGRID 2007 Instrumenting the Grid,2nd International Workshop on Distributed Cooperative Laboratories,S.Margherita Ligure Portofino,Italy,April,2007.
[15]HAMM M,SCHAUERHAMMER,K,UllMANN,K,et al.Management of MultiDomain EndtoEnd Links,In Moving from Bits to Business Value[C].Proceedings of the 2007 Integrated Management Symposium,2007,IFIP/IEEE,München,Germany,May,2007.
[16]ZURAWSKI J,BOOTE J,BOYD E,et al.Hierarchically Federated Registration and Lookup within the perfSONAR Framework,In Moving from Bits to Business Value[C].Proceedings of the 2007 Integrated Management Symposium,2007,IFIP/IEEE,München,Germany,May,2007.
[17]HANEMANN A,BOOTE J W,BOYD E L,et al.“PerfSONAR: A Service Oriented Architecture for MultiDomain Network Monitoring”[C].In“Proceedings of the Third International Conference on Service Oriented Computing”,Springer Verlag,LNCS 3826,pp.241254,ACM Sigsoft and Sigweb,Amsterdam,The Netherlands,December,2005.
[18]Scriptroute [EB/OL],http://www.scriptroute.org:3967/,2016
[19]INRIA.Bottlenet [EB/OL],https://project.inria.fr/bottlenet/,2016
[20]AFRA S,SAUCEZ D,BARAKAT C.From networklevel measurements to expected Quality of Experience: the Skype use case.Oct 2014.
[21]RIVRON V,KHAN M I,CHARNEAU S,et al.Refining usage analysis by combining crowdsensing and survey[C],CASPer/PERCOM,2015.endprint
[22]TAYLOR D.Measuring achievable throughput using a widely distributed automated measurement platform[C],Workshop on Active Internet Measurements (AIMS) February 2016
[23]王繼龍,孫明敏,張千里.基于聯(lián)邦架構(gòu)的全球網(wǎng)絡(luò)性能測量[J],計(jì)算機(jī)學(xué)報(bào),2010,33(9),1602-1610
[24]胥慶杰,唐路,張彥龍,等HPAN:一種優(yōu)化主動(dòng)網(wǎng)絡(luò)測量精度的軟硬件混合模型,《第二屆中國互聯(lián)網(wǎng)學(xué)術(shù)年會(huì)》,2013,263-268
[25]王紅劍,裴昌幸,朱暢華,等一種基于DNMAI架構(gòu)的網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)方法[J],計(jì)算機(jī)應(yīng)用研究,2007,24(03),234-237
[26]王佳瑋,田斌裴,昌幸,等分布式網(wǎng)絡(luò)測量探針關(guān)鍵技術(shù)研究[J],現(xiàn)代電子技術(shù),2007,30(11),65-67
[27]孫衛(wèi)佳,朱凱敏.基于多線程的網(wǎng)絡(luò)性能測量系統(tǒng)的研究與應(yīng)用[J].電子世界.2014,(20),495-496.
[28]ITUT.Rec E.800: Terms and definitions related to qualityof service and network performance including dependability[EB/OL].1994.https://www.itu.int/rec/TRECE.800/en.
[29]ITUT.Rec I.350 : General aspects of quality of service and network performance in digital network,including ISDN[EB/OL].1993.https://www.itu.int/rec/TRECI.350/en.
[30]ITUT.Rec Y.1540: Internet protocol data communication serviceIP packet transfer and availability performance parameters [EB/OL],https://www.itu.int/rec/TRECY.1540/en.
[31]PAXSON V,AIMES G,MAHDAVI J,et al.RFC 2330 :Framework for IP performance metrics [EB/OL].1998.https://tools.ietf.org/html/rfc2330.
[32]ITUT: Definition of quality of experience (QoE).International Telecommunication Union,Liaison Statement,Ref.: TD 109rev2(PLEN/12),2007
[33]林闖,胡杰,孔祥震.用戶體驗(yàn)質(zhì)量(QoE)的模型與評價(jià)方法綜述[J].計(jì)算機(jī)學(xué)報(bào),2012,35(1),1-15endprint