李 軍
(中鐵通信信號勘測設計院有限公司,北京 100036)
目前,部分銀行已在總行數(shù)據(jù)中心部署網(wǎng)絡質(zhì)量監(jiān)測系統(tǒng),并逐步推廣到總行管理的各省行出口側(cè),以實現(xiàn)其運維管理范圍內(nèi)的全覆蓋,部分電力公司也應用了此系統(tǒng)[1]。網(wǎng)絡質(zhì)量監(jiān)測系統(tǒng)在軌道交通行業(yè)暫未有應用案例,本課題結(jié)合軌道交通的專有需求研究并應用此系統(tǒng)。
項目擬定為系統(tǒng)構建專門的中心管理平臺,令其負責系統(tǒng)測試、數(shù)據(jù)存儲以及數(shù)據(jù)分析等工作。設計時需要對系統(tǒng)網(wǎng)絡基礎質(zhì)量與網(wǎng)絡業(yè)務質(zhì)量依次展開測試,依托通信網(wǎng)絡與所有探針建立聯(lián)系,下派測試任務,獲取測試結(jié)果。系統(tǒng)結(jié)構示意如圖1所示。
圖1 系統(tǒng)架構
系統(tǒng)設計時需要考慮如下幾點內(nèi)容:一是整個系統(tǒng)應分層、分布設計;二是系統(tǒng)應支持集中操作維護;三是系統(tǒng)可擴展;四是系統(tǒng)應具備較強的開放性,支持與相關支撐系統(tǒng)互連;五是系統(tǒng)允許跨層級獨立管理。
中心管理平臺被視為整個車站質(zhì)量測試系統(tǒng)的運算中樞,該系統(tǒng)主要由測試模塊、數(shù)據(jù)庫模塊、存儲模塊以及Web管理模塊組成,所有服務器均安設于機房中。中心管理平臺的結(jié)構如圖2所示。
圖2 中心管理平臺
系統(tǒng)運行時,中心管理平臺將與測試探針建立連接,相互配合完成所有測試工作,并如實將測試結(jié)果存檔至服務器,以便管理人員后續(xù)參考使用。為了更直觀地分析、對比測試數(shù)據(jù),用戶可將其直接傳輸至其他應用軟件中,如Word、Excel等。此外,中心管理平臺應支持統(tǒng)一管理測試探針上下線的功能[2-5]。
測試模塊主要負責和測試探針進行通信,配合其他部分執(zhí)行測試工作,獲取相關數(shù)據(jù)。Web管理模塊負責管理、調(diào)配探針,制定策略,對比測試結(jié)果并導出報表。數(shù)據(jù)庫模塊主要負責數(shù)據(jù)庫系統(tǒng)的安裝,同時系統(tǒng)運行過程中生成的所有數(shù)據(jù)以及探針信息等都將直接保存至該模塊中。儲存模塊是指系統(tǒng)專門設置的內(nèi)置外存和外掛存儲空間,其主要負責存儲系統(tǒng)的用戶信息、測試數(shù)據(jù)以及所有報表。
探針充當了系統(tǒng)內(nèi)測試功能的執(zhí)行單元,被直接安設在系統(tǒng)內(nèi)的任意節(jié)點中,能夠借助中心管理平臺測試服務器遠程登錄下達執(zhí)行測試命令,用戶可以直接遠程登錄,下達與執(zhí)行相關的測試命令。
探針所支持的網(wǎng)絡認證協(xié)議主要包含靜態(tài)、以太 網(wǎng) 上 的 點 對 點 協(xié) 議(Point-to-Point Protocol over Ethernet,PPPOE)、動態(tài)主機配置協(xié)議(Dynamic Host Configuration Protoco,DHCP)以及 Web Portal等,系統(tǒng)運行時不同協(xié)議可隨時切換。探針還擁有數(shù)據(jù)上報容錯、流量監(jiān)控等功能。端口配備了虛擬局域網(wǎng)(Virtual Local Area Network,VLAN)子端口,允許在相同端口上分別發(fā)出不同VLAN ID的測試數(shù)據(jù)流。
硬件探針支持數(shù)據(jù)包捕獲與流量分析功能,可以自主分析網(wǎng)絡吞吐率、協(xié)議分布等指標數(shù)據(jù),捕獲的數(shù)據(jù)包不僅可以根據(jù)需要進行下載,還能夠直接在Wireshark軟件中運行。此外,探針不僅擁有處理數(shù)據(jù)、存儲數(shù)據(jù)以及導出報表等功能,還能自主統(tǒng)一數(shù)據(jù)格式,將測試結(jié)果遞交至服務器中。需要注意的是,探針存儲測試結(jié)果的周期必須超過6 h,在此過程中,用戶應定期讀取測試結(jié)果,具體間隔的時間視情況而定,但最短不得低于1 min。同時探針支持在網(wǎng)絡服務器與網(wǎng)絡設備之間開展測試工作,支持和便攜式探針之間的相互測試。
探針管理操作主要包含增加、修改、刪除以及查詢等。探針管理主要依托于列表和拓撲等方式,在這些方式下不僅能夠?qū)崿F(xiàn)對所有探針的同時管理,也可以單獨對某個特定的探針進行刪除、修改與查詢等。此外,借助拓撲和列表等方式還可以直接查閱每個探針的配置參數(shù)數(shù)據(jù)及其運行狀態(tài)等內(nèi)容。
通過任務配置能夠更好地管理所有測試任務,及時下發(fā)、執(zhí)行測試任務,獲取真實的測試結(jié)果。在任務配置功能的支持下,所有的測試類型都可以構建相應的測試例模板。不僅如此,每一個測試模板都可以設定相應的測試參數(shù),選擇最合適的測試接口、告警模板以及調(diào)度策略等內(nèi)容,合理調(diào)配測試例。
設計者在規(guī)劃調(diào)度策略時,需要考慮策略制定、解析以及執(zhí)行等內(nèi)容。系統(tǒng)內(nèi)包含多維、可自定義調(diào)度策略模板配置,設計者在測試時除了根據(jù)周期執(zhí)行外,也可以選擇根據(jù)需求開展測試。周期調(diào)度策略可自主定制以下內(nèi)容:一是可根據(jù)需求選擇相應的執(zhí)行日期段;二是可按照星期進行執(zhí)行,如選定工作日或周末執(zhí)行等;三是可設定多個時段執(zhí)行,如14:00-18:00;四是可設定秒級間隔測試。
借助網(wǎng)絡拓撲可以直接了解每一個探針在網(wǎng)絡結(jié)構中的部署位置。網(wǎng)絡拓撲詳細羅列了所有探針當前的狀態(tài)情況、測試結(jié)果以及告警信息等內(nèi)容,同時可進行分級呈現(xiàn),不僅能夠向用戶呈現(xiàn)總體的系統(tǒng)網(wǎng)絡結(jié)構,還可以結(jié)合地域等因素對系統(tǒng)中所有的探針依次分組,用戶在查閱時可通過進入該探針所在組別了解其具體的拓撲信息。一旦系統(tǒng)出現(xiàn)故障,網(wǎng)絡拓撲能夠告知用戶故障所在的位置。該平臺可以借助分段和矩陣等方法以最快時間找到告警信息所指的位置,向用戶呈現(xiàn)鏈路故障和節(jié)點故障。此外,拓撲結(jié)構中的探針能夠直接如實呈現(xiàn)系統(tǒng)內(nèi)探針的狀態(tài),如正常、離線以及數(shù)據(jù)上報異常等。
測試例拓撲如實展現(xiàn)探針測試例的分布狀況,借助測試例拓撲不僅能夠統(tǒng)一管理測試參數(shù),而且還可以將測試例所獲結(jié)果導出報表。用戶可借助測試例拓撲了解系統(tǒng)鏈路時延和丟包等問題,一旦系統(tǒng)測試指標出現(xiàn)下降或測試結(jié)果需要告警,則將第一時間在測試例拓撲中顯示出來。
測試例拓撲主要是指將系統(tǒng)中端到端的測試例按照拓撲的結(jié)構呈現(xiàn)在用戶眼前,所有的拓撲節(jié)點均來源于測試例源、目的端等。所謂拓撲連接就是指將源與目的端直接連線,系統(tǒng)中所有的應用監(jiān)測和性能都能直接在測試例拓撲中表現(xiàn)出來。
系統(tǒng)由探針執(zhí)行下發(fā)測試例,第一時間將測試結(jié)果遞交至管理平臺,由管理平臺負責處理分析測試數(shù)據(jù)。系統(tǒng)支持以下幾類分析方式,包括實時結(jié)果監(jiān)測、歷史數(shù)據(jù)查詢、對比分析、矩陣分析以及統(tǒng)計結(jié)果呈現(xiàn)等。其中實時結(jié)果監(jiān)測支持同時監(jiān)測多個測試例,并第一時間將測得的數(shù)據(jù)信息遞交至管理平臺。矩陣分析則能夠支持將測試源、測試目的等通過矩陣的形式進行數(shù)據(jù)比較,最終將結(jié)果用Excel的形式表現(xiàn)出來。
告警管理支持告警數(shù)據(jù)審核處理和告警統(tǒng)計分析等功能。系統(tǒng)可針對不同的測試類型創(chuàng)建專門的告警闕值模板,對于不同的模板可以為其設定專門的閾值判斷測試指標數(shù)據(jù)級別,一旦系統(tǒng)運行過程中到達這一級別,則將立即生成告警描述信息,并直接呈現(xiàn)在系統(tǒng)列表中。
使用者可以通過觀察告警信息列表中羅列的告警描述信息和數(shù)據(jù)來進行分析處理,從而解決問題。此外,該系統(tǒng)還支持用戶批量確認警告信息。告警統(tǒng)計分析模板支持使用者立足于多個角度統(tǒng)計、分析告警數(shù)量及其變化趨勢,如一周告警排名、地域告警排名以及地域告警分析等內(nèi)容。
該系統(tǒng)中,不管是中心管理平臺還是探針兩側(cè)均允許進行巡檢,其中系統(tǒng)巡檢功能又可分為軟件巡檢與硬件巡檢兩大部分。在軟件巡檢過程中,系統(tǒng)能夠自動排查所有軟件是否能夠正常運行,如操作軟件、系統(tǒng)軟件以及應用軟件運行過程中是否出現(xiàn)故障,其版本是否正確,所配置的文件是否齊全。假設發(fā)現(xiàn)有故障,那么系統(tǒng)將第一時間進行告警。同樣,在硬件巡檢的過程中,系統(tǒng)依然會依次排查所有硬件是否能夠正常運行,一旦硬件模塊出現(xiàn)故障,系統(tǒng)將第一時間發(fā)出警報。若是系統(tǒng)運行過程中硬件性能不佳,例如中央處理器(Central Processing Unit,CPU)、磁盤空間不足等問題,則同樣會促使系統(tǒng)發(fā)出警報。
系統(tǒng)分級分權管理主要包含操作權限與數(shù)據(jù)權限兩大部分,對不同的權限來說,設定方式也有所不同。對于操作權限,不同級別的用戶需要給予的操作權限有所不同,如普通操作員只需給予其查詢權限,而系統(tǒng)管理員卻需要給予其增加、刪除、修改以及查詢等權限。對于數(shù)據(jù)權限,用戶所處的域不同,其擁有的數(shù)據(jù)權限也有所差異,如用戶A只能操作探針P1、P2的內(nèi)容,而用戶B則有權操作探針P3、P4的內(nèi)容。
系統(tǒng)內(nèi)用戶的所有操作都會如實被記載進操作日志中,系統(tǒng)應支持專門的日志審計功能,允許用戶通過選擇時間、賬號查詢特定時段以及賬號的系統(tǒng)操作日志。
該系統(tǒng)設計為分布式結(jié)構,其主要包含探針、測試服務器、Web服務器以及數(shù)據(jù)庫等內(nèi)容,不同系統(tǒng)之間可以直接借助傳輸控制協(xié)議(Transmission Control Protocol,TCP)或IP協(xié)議實現(xiàn)互聯(lián)。為了確保系統(tǒng)運行的安全,設計者為該系統(tǒng)配備了統(tǒng)一、完善且專門的多級安全機制。
考慮到系統(tǒng)運用到Linux操作系統(tǒng),為避免在運行過程中出現(xiàn)風險,需要依次為用戶、密碼、系統(tǒng)以及服務等依次進行安全設置。身份識別與驗證系統(tǒng)可為所有的用戶設定唯一的賬戶與口令,且使用賬戶口令時需要經(jīng)過身份識別與驗證。此外,不同級別的用戶所擁有的操作權限有所不同。
本文為軌道交通設計了網(wǎng)絡質(zhì)量監(jiān)測系統(tǒng)方案,同時將長沙市軌道交通4號線一期工程通信系統(tǒng)信息網(wǎng)絡子系統(tǒng)作為研究對象進行分析,為其專門構建了一個小型網(wǎng)絡質(zhì)量監(jiān)測系統(tǒng),并對該系統(tǒng)進行了全鏈路的探針測試,確保所有功能能夠正常使用后,將該系統(tǒng)交付給運營公司使用,待系統(tǒng)能夠長期正常運行后即可廣泛推廣于其他交通建設項目中。