曹永剛 中國電信股份有限公司內(nèi)蒙古分公司工程師王冠之 中國電信股份有限公司內(nèi)蒙古分公司工程師張永艷 中國電信股份有限公司內(nèi)蒙古分公司工程師董 信 中國電信股份有限公司內(nèi)蒙古分公司工程師
?
OSS域統(tǒng)一采集適配平臺建設(shè)方案探討
曹永剛中國電信股份有限公司內(nèi)蒙古分公司工程師
王冠之中國電信股份有限公司內(nèi)蒙古分公司工程師
張永艷中國電信股份有限公司內(nèi)蒙古分公司工程師
董信中國電信股份有限公司內(nèi)蒙古分公司工程師
摘要:通過分析電信運營商網(wǎng)絡(luò)及網(wǎng)管現(xiàn)狀,探討了OSS域統(tǒng)一采集適配平臺建設(shè)方案,結(jié)合網(wǎng)絡(luò)管理系統(tǒng)的實際需求以及國內(nèi)主流網(wǎng)管產(chǎn)品的實際案例和使用情況,實現(xiàn)南向網(wǎng)元的統(tǒng)一接入管理,通過屏蔽OMC/NE網(wǎng)絡(luò)技術(shù)與廠商差異,對多專業(yè)、多技術(shù)接口的網(wǎng)元進行數(shù)據(jù)采集和轉(zhuǎn)換,以及對網(wǎng)元的操作指令快速翻譯。對OSS域統(tǒng)一采集適配平臺的建設(shè)有一定借鑒意義。
關(guān)鍵詞:采集適配;轉(zhuǎn)換;指令翻譯
國內(nèi)電信運營商網(wǎng)管領(lǐng)域長期以來一直按照分專業(yè)、分廠家的模式來建設(shè)網(wǎng)管系統(tǒng),按自下而上劃分,包括三大類網(wǎng)管:廠家網(wǎng)管、專業(yè)綜合網(wǎng)管和跨專業(yè)綜合網(wǎng)管。經(jīng)過多年的發(fā)展,這些大大小小的網(wǎng)管在網(wǎng)絡(luò)維護和管理支撐等各方面,提供了非常豐富的支撐手段,為電信業(yè)務(wù)的快速發(fā)展提供了強有力的后端支撐。但是這種持續(xù)、分散的建設(shè)模式同時也導(dǎo)致了電信網(wǎng)管建設(shè)出現(xiàn)了網(wǎng)管數(shù)量龐大、維護和運行效率低等一系列問題,已經(jīng)無法滿足集約化運維需求。
網(wǎng)管層級太多,網(wǎng)管的南向接口薄弱,各種應(yīng)用都向網(wǎng)絡(luò)要數(shù)據(jù),各種操作要求也不斷涌現(xiàn)網(wǎng)絡(luò),一方面形成了各網(wǎng)管和網(wǎng)絡(luò)之間多而復(fù)雜的網(wǎng)狀接口;另一方面,越上層的網(wǎng)管越不具備對設(shè)備的操作能力,制約了集約化維護的發(fā)展。
如何通過一套具備多專業(yè)、多協(xié)議的數(shù)據(jù)采集和轉(zhuǎn)換能力,對網(wǎng)元的操作指令快速翻譯能力、快速靈活擴展能力的統(tǒng)一采集適配平臺,實現(xiàn)與相關(guān)業(yè)務(wù)系統(tǒng)的接口,獲取數(shù)據(jù),來滿足上層場景應(yīng)用視圖以及對外數(shù)據(jù)共享的需求,是目前OSS域統(tǒng)一采集適配平臺建設(shè)的熱點問題。
目前,分專業(yè)、分廠家的建設(shè)模式也導(dǎo)致電信網(wǎng)管的網(wǎng)元接入層出現(xiàn)了如下問題:
(1)北向接口協(xié)議不規(guī)范
由于各類新、老設(shè)備的特點以及分專業(yè)、分廠家的建設(shè)模式,導(dǎo)致網(wǎng)管領(lǐng)域長期以來一直未能進行統(tǒng)一規(guī)范。雖然部分專業(yè)制定了一些標準的北向接口規(guī)范,但是相對于中國電信整個網(wǎng)管域,仍僅占其中較小部分。絕大部分的設(shè)備、廠家網(wǎng)管仍然采用的是私有協(xié)議,正是由于這種大量私有協(xié)議的使用,導(dǎo)致協(xié)議數(shù)量眾多,極大增加了網(wǎng)管接入、管理和維護網(wǎng)元的工作量。
(2)系統(tǒng)間接口網(wǎng)狀互聯(lián)
由于對網(wǎng)管域沒有規(guī)劃統(tǒng)一的入口,導(dǎo)致IT系統(tǒng)、跨專業(yè)綜合網(wǎng)管與專業(yè)綜合網(wǎng)管、廠家網(wǎng)管和設(shè)備之間的接口連接呈網(wǎng)狀形式,從而導(dǎo)致網(wǎng)絡(luò)運維管理的相關(guān)部門難以對網(wǎng)絡(luò)進行統(tǒng)一的監(jiān)控和維護。
(3)缺乏統(tǒng)一管控能力
現(xiàn)有的專業(yè)網(wǎng)管、綜合網(wǎng)管、廠家網(wǎng)管、本地網(wǎng)管、EMS等都進行資源、告警、性能數(shù)據(jù)的采集,但采上來的數(shù)據(jù)千差萬別,各自為政,沒有統(tǒng)一的管理,無法保證數(shù)據(jù)的一致性。
(4)缺乏大數(shù)據(jù)采集能力
隨著網(wǎng)絡(luò)分析的深入,運營商越來越關(guān)注用戶行為的分析和用戶價值的挖掘,因此需要對話單、信令、路測等大數(shù)據(jù)量進行采集適配,這些數(shù)據(jù)都是日增量以TB為單位的,并且要求處理時間到分鐘級。這就要求數(shù)據(jù)采集平臺要具備大數(shù)據(jù)采集和處理機制,滿足上述需求。
(3)存在單點隱患
網(wǎng)管作為日常維護的必備手段,在運維支持中起著重要的作用,網(wǎng)絡(luò)的維護管理要求網(wǎng)管系統(tǒng)的數(shù)據(jù)必須完整、準確、實時。這就要求網(wǎng)管數(shù)據(jù)必須保證7×24h不缺失,需要數(shù)據(jù)采集平臺能實現(xiàn)分布式部署,實現(xiàn)Server和采集端的負載均衡,規(guī)避單點故障而導(dǎo)致數(shù)據(jù)無法正常采集的情況。
如何才能保證采集接入,個人認為統(tǒng)一采集適配平臺需要考慮如下問題:
●采集適配要由注重數(shù)據(jù)的接入能力向注重數(shù)據(jù)的管控能力演進
專業(yè)網(wǎng)管私有接口多,采集系統(tǒng)更注重接口的匹配能力。集成共享平臺的采集接口相對固定,更加關(guān)注采集任務(wù)的管控和數(shù)據(jù)質(zhì)量的管控,是從面向接口到面向用戶的轉(zhuǎn)變。
●采集適配由注重數(shù)據(jù)的提供能力向注重數(shù)據(jù)的共享能力演進
專業(yè)網(wǎng)管通常是要看什么報表就采什么數(shù)據(jù),消費形式簡單,數(shù)據(jù)可以拿來直接就用。集成共享平臺數(shù)據(jù)來源不一,數(shù)據(jù)消費的形式多變,需要將數(shù)據(jù)采集過來先集中和共享,再由應(yīng)用來判定和消費。采集的服務(wù)能力體現(xiàn)在數(shù)據(jù)的集中化和共享的輸出能力上。
●采集適配要由注重數(shù)據(jù)的被動集成能力向注重數(shù)據(jù)的主動分發(fā)能力演進
以前專業(yè)網(wǎng)管總覺得數(shù)據(jù)不夠,總想東抓抓西湊湊;集成共享平臺本身的技術(shù)架構(gòu)解決了數(shù)據(jù)來源問題,需要面對的就是數(shù)據(jù)的有效分發(fā)能力。采集系統(tǒng)在不同的時期、不同的應(yīng)用系統(tǒng)支撐過程中所起的作用不同,需要有強大的數(shù)據(jù)預(yù)處理和邏輯統(tǒng)一的數(shù)據(jù)分發(fā)能力,使之適應(yīng)不同的應(yīng)用系統(tǒng)的數(shù)據(jù)采集需求。
統(tǒng)一采集適配平臺定位于集成共享平臺的底層基礎(chǔ)設(shè)施,用來屏蔽網(wǎng)元技術(shù)與廠商差異,為集成共享平臺應(yīng)用提供底層的數(shù)據(jù)基礎(chǔ)和網(wǎng)元訪問入口。集成共享平臺所涉及到底層網(wǎng)元的數(shù)據(jù)采集和網(wǎng)元操作功能,主要由統(tǒng)一采集適配平臺提供。采集適配平臺能夠最大限度降低底層網(wǎng)元變動對上層網(wǎng)管應(yīng)用的影響。
統(tǒng)一采集適配平臺作為集成共享平臺的基礎(chǔ)平臺,主要提供兩大類支撐能力,即數(shù)據(jù)采集和網(wǎng)元操作。平臺屬于集成共享平臺的內(nèi)部模塊,不直接對外部系統(tǒng)提供網(wǎng)元訪問服務(wù)。對于數(shù)據(jù)采集和網(wǎng)元操作的邊界規(guī)定如下:
(1)數(shù)據(jù)采集
所有需要入庫的數(shù)據(jù),由采集適配平臺直接或間接調(diào)用數(shù)據(jù)中心的服務(wù)進行入庫。數(shù)據(jù)采集包括從網(wǎng)元側(cè)的數(shù)據(jù)采集及從專業(yè)網(wǎng)管側(cè)的數(shù)據(jù)采集兩種數(shù)據(jù)來源。
(2)網(wǎng)元操作
對于通過專業(yè)網(wǎng)管具備網(wǎng)元操作功能的,由專業(yè)網(wǎng)管對網(wǎng)元操作能力進行封裝后在服務(wù)總線上注冊供上層應(yīng)用調(diào)用;對于其它網(wǎng)元所涉及的網(wǎng)元訪問邏輯,均由采集適配平臺的標準指令操作接口及業(yè)務(wù)操作接口通過注冊到網(wǎng)管服務(wù)總線的標準服務(wù)能力對外提供。
統(tǒng)一采集適配平臺致力于建設(shè)成為集成共享平臺所需要的配置、性能、告警和使用記錄等數(shù)據(jù)的采集來源,以及為上層應(yīng)用提供網(wǎng)元操作服務(wù)的綜合平臺。該平臺將是集成共享平臺與網(wǎng)元和專業(yè)網(wǎng)管交互的重要手段,將是集成共享平臺實現(xiàn)智能化的核心基礎(chǔ)設(shè)施。
本文統(tǒng)一采集適配平臺的建設(shè)了如下的建設(shè)目標:
(1)標準化:定義采集適配平臺向上的標準接口,屏蔽網(wǎng)絡(luò)技術(shù)和廠商差異,降低底層網(wǎng)元或網(wǎng)管接入對上層應(yīng)用系統(tǒng)的影響。
(2)規(guī)范化:對新設(shè)備新網(wǎng)管的接入提供規(guī)范的接口要求,提升新網(wǎng)絡(luò)的接入效率和對新業(yè)務(wù)的支撐能力。
(3)融合化:融合全網(wǎng)全專業(yè)的網(wǎng)元接入能力,融合數(shù)據(jù)采集與網(wǎng)元操作功能,預(yù)集成通用接口,簡化北向接口的接入。
(4)平臺化:提供基礎(chǔ)運行框架和易擴展的插件開發(fā)接口,各系統(tǒng)提供商可按平臺標準進行開發(fā),有效提高平臺穩(wěn)定性和縮短網(wǎng)元接入周期。
采集適配平臺在技術(shù)和功能層面應(yīng)達到以下目標:
●功能目標:提供包括配置、性能、告警和使用記錄等數(shù)據(jù)的采集及網(wǎng)元操作的能力。
●技術(shù)目標:規(guī)范化網(wǎng)管域數(shù)據(jù)交互標準,提高數(shù)據(jù)一致性,提供靈活的任務(wù)調(diào)度機制,并具備多協(xié)議適配能力。
圖1 功能架構(gòu)
統(tǒng)一采集適配平臺采用Ultra-IDCP(綜合數(shù)據(jù)采集平臺),由Ultra-IDCPServer、Ultra-IDCPProbe組成,Server與Probe之間的數(shù)據(jù)交互由MQ消息中間件來承載;Ultra-IDCP從功能層次可以分為數(shù)據(jù)接入層、數(shù)據(jù)處理層、數(shù)據(jù)共享層。采用分布式部署,支持多專業(yè)、各類型數(shù)據(jù)接入;支持各種接口適配,并保持接口可擴展性。目前,該產(chǎn)品能采集各專業(yè)通信網(wǎng)(包括無線網(wǎng)、交換網(wǎng)、數(shù)據(jù)網(wǎng)、傳輸網(wǎng)等)設(shè)備的性能數(shù)據(jù)、配置數(shù)據(jù)、告警數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)。
統(tǒng)一適配平臺滿足對大數(shù)據(jù)的采集需求,大數(shù)據(jù)主要是文件數(shù)量多(單次采集50個文件)、單個文件大(單個文件可達10G或更大)的日志文件以及CDR話單等。
綜合數(shù)據(jù)采集平臺系統(tǒng)功能架構(gòu)如圖1所示。
(1)數(shù)據(jù)接入層主要負責數(shù)據(jù)的采集、協(xié)議的適配等
采集適配器實現(xiàn)與設(shè)備側(cè)的接口協(xié)議適配的功能,從設(shè)備側(cè)獲取原始數(shù)據(jù),進行數(shù)據(jù)解析(詞法分析,數(shù)據(jù)格式標準化,根據(jù)處理規(guī)則將采集到的底層數(shù)據(jù)轉(zhuǎn)換成相應(yīng)的信息模型的數(shù)據(jù))。采集適配器的功能組成包括協(xié)議適配、數(shù)據(jù)獲取、數(shù)據(jù)解析、數(shù)據(jù)上報,并支持被動接收設(shè)備側(cè)發(fā)送的數(shù)據(jù)。經(jīng)過解析后的源數(shù)據(jù)通過適配器北向接口向上共享。
(2)數(shù)據(jù)處理層主要負責數(shù)據(jù)的預(yù)處理與臨時數(shù)據(jù)存儲
采集任務(wù)/數(shù)據(jù)處理:接收調(diào)度中心的數(shù)據(jù)處理命令,將采集適配器生成的數(shù)據(jù)進行處理、關(guān)聯(lián)運算,通過ETL過程將數(shù)據(jù)錄入到數(shù)據(jù)庫中。
(3)數(shù)據(jù)共享層主要負責接收訂閱采集策略、數(shù)據(jù)訂閱請求及北向接口
●采集策略接收
接收訂閱策略,根據(jù)策略和當前時間實例化成采集任務(wù),根據(jù)各采集節(jié)點的運行環(huán)境和資源空閑情況進行判斷,能夠選擇合適的采集節(jié)點,并把任務(wù)下發(fā);能夠接收采集節(jié)點反饋的任務(wù)執(zhí)行情況,并監(jiān)控各采集節(jié)點運行狀態(tài);根據(jù)任務(wù)的采集結(jié)果分析數(shù)據(jù)是否完整,能夠根據(jù)設(shè)定的策略觸發(fā)數(shù)據(jù)的補采。
●數(shù)據(jù)訂閱/共享
接收外部系統(tǒng)發(fā)送的數(shù)據(jù)訂閱請求,根據(jù)設(shè)定的數(shù)據(jù)訂閱權(quán)限判斷該訂閱請求是否合理并作出響應(yīng)。數(shù)據(jù)準備好后,給訂閱該數(shù)據(jù)的外部系統(tǒng)發(fā)送通知消息以及數(shù)據(jù)的訪問方法,外部系統(tǒng)主動獲取數(shù)據(jù),對同一份數(shù)據(jù)的不同訂閱者分別發(fā)送通知。
●北向接口
這里的北向接口是指負責完成上層應(yīng)用與采集適配平臺的交互;接收來自上層應(yīng)用的各種告警、性能、配置、網(wǎng)元操作等相關(guān)的請求;將處理與轉(zhuǎn)化后的數(shù)據(jù)或結(jié)果以標準接口形式提供給上層應(yīng)用系統(tǒng)。在規(guī)范中也叫標準接口。
采集入庫后的數(shù)據(jù)提供給上層的系統(tǒng)和模塊進行調(diào)用,通過北向接口向外輸出,對于北向接口,提供多種接口方式輸出,包括DB、文件、消息等。
另外,作為IDCP的前端界面,將采集管理、元任務(wù)管理、數(shù)據(jù)質(zhì)量管理、系統(tǒng)維護、日志管理作為主菜單,其中還包括了任務(wù)管理、任務(wù)監(jiān)控、采集機管理、進程監(jiān)控、消息管理、數(shù)據(jù)核查、算法管理、指標管理模塊,使采集平臺的操作簡便明了。
并且按照組件化和模塊化的設(shè)計思想,IDCP將一些常用的公共組件固化下來統(tǒng)一管理,如共享管理、元數(shù)據(jù)管理、消息服務(wù)管理、數(shù)據(jù)解析組件等。
6.1采集設(shè)備管理
統(tǒng)一采集平臺數(shù)據(jù)來源于廠家網(wǎng)管(如EMS/ OMC)、專業(yè)網(wǎng)管(如移動網(wǎng)管、交換網(wǎng)管、業(yè)務(wù)平臺網(wǎng)管、數(shù)據(jù)網(wǎng)管)、綜合類網(wǎng)管(如集中告警、分析系統(tǒng)、C網(wǎng)網(wǎng)管)、設(shè)備網(wǎng)元等系統(tǒng);集成共享平臺所需采集的數(shù)據(jù),從數(shù)據(jù)種類來看,主要可以分為以下兩類:常規(guī)數(shù)據(jù)、大數(shù)據(jù)。常規(guī)數(shù)據(jù)主要有網(wǎng)元的配置數(shù)據(jù)、告警數(shù)據(jù)、性能數(shù)據(jù)等。大數(shù)據(jù)主要有信令數(shù)據(jù)、話單數(shù)據(jù)、路測數(shù)據(jù)等。下面針對不同數(shù)據(jù)類型的數(shù)據(jù),分別描述對這幾類數(shù)據(jù)采集上報的處理過程。
針對于以上兩類數(shù)據(jù),分別由不同的數(shù)據(jù)采集及處理機制進行處理。
(1)常規(guī)數(shù)據(jù)的采集適配處理
采用統(tǒng)一采集平臺模塊進行采集適配及數(shù)據(jù)處理。該平臺的主要業(yè)務(wù)邏輯實現(xiàn)如圖2所示。
首先,可定制對指定數(shù)據(jù)源、指定網(wǎng)元、指定指標的采集策略,系統(tǒng)將采集策略以及調(diào)度規(guī)則信息發(fā)送到Server端的動態(tài)任務(wù)調(diào)度模塊,該模塊根據(jù)Probe采集機的資源使用情況,可動態(tài)控制Probe端任務(wù)的啟停狀態(tài)。當Probe端分布式部署時,同一個任務(wù)可在多個Probe端存在,當Server接收到任務(wù)控制的請求消息時,能夠根據(jù)各Probe采集機的資源利用狀況,選擇最合適的Probe來執(zhí)行任務(wù)。這多個Probe的多個任務(wù)配置信息統(tǒng)稱為任務(wù)資源池。那么,如何收集到采集機的資源利用狀態(tài)呢?Server端的自監(jiān)控模塊可以根據(jù)監(jiān)控采集任務(wù)的執(zhí)行狀況、監(jiān)控采集機資源狀況、監(jiān)控數(shù)據(jù)質(zhì)量狀況,通過一定的規(guī)則來生成最合適執(zhí)行任務(wù)的Probe推薦信息供動態(tài)任務(wù)調(diào)度模塊選擇。在采集任務(wù)信息下發(fā)到Probe采集機之后,采集任務(wù)根據(jù)其屬性,分為探測任務(wù)、補/重采任務(wù)、正常采集任務(wù)3種。探測任務(wù)是一種主動式的對數(shù)據(jù)源進行數(shù)據(jù)完整性是否滿足業(yè)務(wù)要求的準實時檢查,通常探測的粒度以秒為單位,相對于定時采集任務(wù)的調(diào)度,數(shù)據(jù)探測的機制同時也進一步從源頭上解決了數(shù)據(jù)源數(shù)據(jù)產(chǎn)生的及時性問題;補重采任務(wù)是根據(jù)數(shù)據(jù)質(zhì)量模塊傳遞得到的數(shù)據(jù)完整性信息,判斷是否對已采集任務(wù)進行補采或重采,用以滿足業(yè)務(wù)系統(tǒng)對數(shù)據(jù)完整性的需求;常規(guī)采集任務(wù)則通過對接口進行適配、進行數(shù)據(jù)源數(shù)據(jù)的獲取、清洗、歸一化處理等動作,最終通過北向接口輸出到指定的位置中。
圖2 IDCP業(yè)務(wù)實現(xiàn)邏輯
通常一個數(shù)據(jù)采集的過程為通過創(chuàng)建廠商、采集項、元數(shù)據(jù)、采集任務(wù)、采集環(huán)境、數(shù)據(jù)輸出規(guī)則等操作后,把數(shù)據(jù)采集任務(wù)分配給采集機,并啟動數(shù)據(jù)采集任務(wù),采集任務(wù)按照采集周期或采集請求觸發(fā)進行數(shù)據(jù)采集,將采集到的數(shù)據(jù)按照約定好的格式共享輸出給上層應(yīng)用,如有必要用消息通知給上層應(yīng)用。
在Corba接口協(xié)議的數(shù)據(jù)源采集過程中,由于Corba接口本身的規(guī)范制定了數(shù)據(jù)源生成數(shù)據(jù)的消息通知機制,所以現(xiàn)有網(wǎng)管系統(tǒng)的南向接口越來越多的采用Corba接口進行采集適配,一旦數(shù)據(jù)源準備好數(shù)據(jù),采集程序接收到消息后立即到指定位置獲取數(shù)據(jù),大大減緩了數(shù)據(jù)采集的延時性。
●告警數(shù)據(jù)的采集適配處理
告警數(shù)據(jù)用于及時反映全網(wǎng)系統(tǒng)運行狀態(tài)。
采集方式包括Corba、MQ、Socket、WEBSERVICE、SNMP、TRAP、SYSLOG等。
告警數(shù)據(jù)主要包括核心網(wǎng)設(shè)備、信令網(wǎng)設(shè)備、IP數(shù)據(jù)設(shè)備、傳輸設(shè)備、接入網(wǎng)設(shè)備等設(shè)備告警及業(yè)務(wù)平臺產(chǎn)生的業(yè)務(wù)告警,動力設(shè)備和環(huán)境監(jiān)控告警、相關(guān)性能指標超閾值的告警等。
統(tǒng)一采集適配平臺與集中告警獲取全專業(yè)告警數(shù)據(jù),采用Socket接口方式。
系統(tǒng)通過內(nèi)置的采集接口,連接各廠家網(wǎng)管、專業(yè)網(wǎng)管、綜合類網(wǎng)管、設(shè)備網(wǎng)元等,實時獲取其主動上報的告警消息,并對告警消息按照采集策略中定義的規(guī)則進行清洗、歸一化處理,供其它應(yīng)用服務(wù)使用。
●性能數(shù)據(jù)的采集適配
性能數(shù)據(jù)來源于專業(yè)綜合網(wǎng)管、固網(wǎng)交換網(wǎng)管、接入網(wǎng)網(wǎng)管和EMS、設(shè)備網(wǎng)元等;性能數(shù)據(jù)用于評價系統(tǒng)運行質(zhì)量,通過分析歷史數(shù)據(jù)的情況、預(yù)測未來的發(fā)展,提升管理層次,達到面向服務(wù)品質(zhì)的管理。
采集方式包括FTP、DB、Corba、WEBSERVICE、SNMP等。
性能指標的采集粒度至少應(yīng)為1h以內(nèi),在條件允許時,專業(yè)網(wǎng)管、EMS/OMC、設(shè)備網(wǎng)元等應(yīng)提供15min、5min等粒度的指標采集能力。
統(tǒng)一采集適配平臺與傳輸網(wǎng)管、C網(wǎng)網(wǎng)管、接入網(wǎng)網(wǎng)管、IP網(wǎng)管、動環(huán)網(wǎng)管獲相關(guān)性能指標數(shù)據(jù),通采用FTP接口方式。
●配置數(shù)據(jù)的采集適配
資源配置數(shù)據(jù)來源于專業(yè)綜合網(wǎng)管、資源系統(tǒng)、固網(wǎng)交換網(wǎng)管、接入網(wǎng)網(wǎng)管和EMS等系統(tǒng);資源配置數(shù)據(jù)是指無線網(wǎng)設(shè)備、核心網(wǎng)設(shè)備、信令網(wǎng)、IP數(shù)據(jù)網(wǎng)設(shè)備、接入網(wǎng)設(shè)備、傳輸設(shè)備、動力環(huán)境設(shè)備、業(yè)務(wù)平臺系統(tǒng)、客戶、合作伙伴、空間等各種配置元素的類型、屬性信息以及相關(guān)人員、文檔、介質(zhì)、地理等維度屬性,它用于整體描述綜合網(wǎng)管系統(tǒng)的資源狀況。
資源數(shù)據(jù)的采集方式一般采用文件接口、DB、Corba等方式。
系統(tǒng)通過內(nèi)置的采集接口,連接專業(yè)綜合網(wǎng)管、資源系統(tǒng)、固網(wǎng)交換網(wǎng)管、接入網(wǎng)網(wǎng)管和EMS等系統(tǒng),采取周期性獲取的方式,從數(shù)據(jù)源獲取格式化的資源配置數(shù)據(jù),根據(jù)預(yù)先定義好的采集腳本進行解析入庫,為上層應(yīng)用提供相應(yīng)的數(shù)據(jù)支撐。
統(tǒng)一采集適配平臺與綜合資源系統(tǒng)獲取全專業(yè)資源數(shù)據(jù),采用DB接口方式。
(2)使用記錄的采集適配處理
使用記錄的定義是:使用記錄是在智能網(wǎng)管參考SID引入的新模型,指外部客戶或運營商自身因使用(包括用戶消費網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)、運營商因維護網(wǎng)絡(luò)而產(chǎn)生的數(shù)據(jù))網(wǎng)絡(luò)而產(chǎn)生的各類服務(wù)使用數(shù)據(jù)、資源使用數(shù)據(jù),這些數(shù)據(jù)都是海量數(shù)據(jù)。
圖3 大數(shù)據(jù)采集原理
所謂的使用記錄,在電信網(wǎng)管領(lǐng)域具體的就是指像短信話單、WAP話單、信令數(shù)據(jù)、路測數(shù)據(jù)、分組域數(shù)據(jù)等半結(jié)構(gòu)化的,日增量在TB以上級別的,同時系統(tǒng)對數(shù)據(jù)處理的實時性要求在分鐘級別的一類數(shù)據(jù),這類數(shù)據(jù)具備大容量、準實時、復(fù)雜度高、價值密度低等典型的大數(shù)據(jù)特征,針對這類數(shù)據(jù),采用大數(shù)據(jù)采集模塊進行使用記錄的采集適配及數(shù)據(jù)處理。
采用開源的大容量字符碼流采集框架Flume-ng來進行二次開發(fā)和處理這類大數(shù)據(jù)。ApacheFlume是一個分布式、可靠和可用的系統(tǒng),其有效地收集、匯總和轉(zhuǎn)移大量的日志數(shù)據(jù)從許多不同來源移動到一個集中的數(shù)據(jù)存儲區(qū);具有數(shù)據(jù)流模型、數(shù)據(jù)可靠性、可擴展、高效率采集等特性;Flume的數(shù)據(jù)源支持包括log4j、unixtail、syslog、TCP/UDP的端口監(jiān)聽、文本文件等,在數(shù)據(jù)輸出方面,支持HDFS和Hbase,除了這兩種之外,還支持寫入文本文件、通過TCP把數(shù)據(jù)傳到另外的主機等,若需輸出到關(guān)系型數(shù)據(jù)庫如Oracle,MySQL等,則需要進行二次開發(fā),目前的大數(shù)據(jù)采集產(chǎn)品已完全支持這兩種數(shù)據(jù)庫的輸出。
●FlumeAgent大數(shù)據(jù)采集機工作原理
每個FlumeAgent能配置多個Source-channel-sink工作流(見圖3)。
通過界面可輕松配置每個工作流的Source、Channel、Sink等步驟的屬性參數(shù),采集平臺服務(wù)側(cè)將配置好的工作流通過消息中間件下發(fā)到指定的FlumeAgent,F(xiàn)lumeAgent會將配置參數(shù)保存到相應(yīng)的配置文件,在下一個運行周期到來后按最新的Source-channel-sink工作流來工作。
●FlumeAgent特性
設(shè)置多個Agent流,前一個Agent的Sink作為后一個Agent的Source,具體參見圖4。
圖4 多Agent流示意圖
由Agent1、Agent2、Agent3同時進行采集,把采集的到的數(shù)據(jù)統(tǒng)一作為Agent4的數(shù)據(jù)源,由Agent4進行合并或統(tǒng)計處理,Agent4處理后寫到HDFS中,具體參見圖5。
圖5 多Agent合并處理示意圖
對于同一個源,可以進行不同的數(shù)據(jù)處理,處理后的結(jié)果可以寫到HDFS中,或者由JMS發(fā)送出去。同時也可以作為下一個Agent的數(shù)據(jù)源,再次處理,具體參見圖6。
●大數(shù)據(jù)完整性保證
對于Tail、File的Source數(shù)據(jù)源,需要對其數(shù)據(jù)完整性進行處理,有以下兩點功能:
——因大數(shù)據(jù)采集引入了事務(wù)處理機制,當工作流在Source-channel-sink過程中遇到任何異常中止數(shù)據(jù)傳輸或采集,都會相應(yīng)的步驟保存前一步驟的數(shù)據(jù),當FlumeAgent下次啟動時會自動進行數(shù)據(jù)恢復(fù)并傳輸?shù)较鄳?yīng)的目的地,具體參見圖7。
——當數(shù)據(jù)源與FlumeAgent之間出現(xiàn)了不可抗拒的異常情況后,就需要FlumeAgent自動記錄當時Tail文件的行數(shù),或File文件記錄的行數(shù),當異常情況修復(fù)后,就必須從記錄行開始進行數(shù)據(jù)采集,保證Tail、File的數(shù)據(jù)采集完整性。
●大數(shù)據(jù)采集過程
對實時數(shù)據(jù)采集層需要完成實時數(shù)據(jù)的裝載、批量數(shù)據(jù)加載,實時數(shù)據(jù)裝載需要有SDTP協(xié)議解析模塊來解析SDTP接口發(fā)送的實時信令數(shù)據(jù),將其中的XDR解析出來后,利用消息分發(fā)模塊分發(fā)到消息中間件中,為了保障數(shù)據(jù)在加載過程中的高可用性,加載過程需要進行本地持久化。流計算集群按照定制好的預(yù)處理拓撲讀取消息隊列中的數(shù)據(jù),進行實時計算,需要支持分組統(tǒng)計、Count、求和、平均、最大值、最小值等常用算法,并采用時間窗口的概念來區(qū)分計算批次,將計算完的批次實時同步到內(nèi)存數(shù)據(jù)庫中。同樣,內(nèi)存數(shù)據(jù)庫中的數(shù)據(jù)也會進行本地持久化,保證數(shù)據(jù)不丟失。
圖6 數(shù)據(jù)輸出方式多樣
對于文件接口的批量采集框架,可以采用分布式的Flume-ng進行采集,內(nèi)置內(nèi)存DBSource采集適配插件、FTPSource采集適配插件、HDFS采集適配插件、數(shù)據(jù)庫采集適配插件、WebService采集適配插件、MPP數(shù)據(jù)庫Loader采集適配插件等常用接口采集插件。通過界面化定制采集任務(wù)的方式,周期性的發(fā)現(xiàn)FTP目錄的文件,增量采集到HDFS或MPPLoader中。特別的是,在增量采集到HDFS時,需要支持小文件合并的能力,合并的大小要大于HDFSBlock的大小。同樣,在采集過程中,持久化文件到本地磁盤,保證采集過程數(shù)據(jù)不丟失。并且在配置采集任務(wù)時,可以配置異常數(shù)據(jù)的判斷規(guī)則,以及將異常數(shù)據(jù)輸出的路徑,并將異常記錄到采集日志中。采集到HDFS中原始數(shù)據(jù),需要同采集的指定版本的資源數(shù)據(jù)進行關(guān)聯(lián),例如網(wǎng)元資源、用戶資源、熱點資源等,這就需要周期性的將固定版本的資源數(shù)據(jù)同步到HDFS中。對于采集到MPP數(shù)據(jù)庫中的數(shù)據(jù),都必須通過MPP數(shù)據(jù)庫的Loader服務(wù)器進行加載,避免通過JDBC或ODBC加載產(chǎn)生的低效率。由于經(jīng)由HDFS計算后的統(tǒng)計數(shù)據(jù)需要加載到MPP數(shù)據(jù)庫中,為了統(tǒng)一數(shù)據(jù)分發(fā)流程,特經(jīng)由Flume-ng的HDFSSource插件進行統(tǒng)一加載。圖8為大數(shù)據(jù)采集流程示意圖。
平臺需采集固網(wǎng)系統(tǒng)的AAA話單、WLAN話單、日志數(shù)據(jù)和分組域AAA系統(tǒng)的AAA話單等,其數(shù)據(jù)量規(guī)模較大,并且還在不斷增長中,數(shù)據(jù)的快速增長帶來了數(shù)據(jù)存儲、處理、分析的巨大壓力,傳統(tǒng)的數(shù)據(jù)處理手段已經(jīng)無法滿足如此大規(guī)模的數(shù)據(jù)的處理及運行效率,因此對這幾類數(shù)據(jù)的采集都采用大數(shù)據(jù)采集方案進行處理。數(shù)據(jù)采集部署如圖9所示。
6.2采集調(diào)度管理
O域網(wǎng)管系統(tǒng)對各類網(wǎng)元配置數(shù)據(jù)進行采集,支持定期采集、全量采集、增量采集等方式的任務(wù)調(diào)度。系統(tǒng)通過內(nèi)置的采集接口,連接專業(yè)綜合網(wǎng)管、資源系統(tǒng)、固網(wǎng)交換網(wǎng)管、接入網(wǎng)網(wǎng)管和EMS等系統(tǒng),采取周期性獲取的方式,從數(shù)據(jù)源獲取格式化的資源配置數(shù)據(jù),根據(jù)預(yù)先定義好的采集腳本進行解析入庫,為上層應(yīng)用提供相應(yīng)的數(shù)據(jù)支撐。
6.3協(xié)議適配
作為OSS域統(tǒng)一采集適配平臺。該平臺內(nèi)置豐富的采集接口適配能力,并且基于組件技術(shù)進行開發(fā),根據(jù)不同采集對象的接口協(xié)議和應(yīng)用協(xié)議來進行組件開發(fā),快速支持新協(xié)議的適配。
(1)多種接口協(xié)議的支持
圖7 數(shù)據(jù)傳輸事務(wù)處理機制
圖8 大數(shù)據(jù)采集流程
接口協(xié)議的支持:Socket、MQ、FTP、DB、Corba、WEBSERVICE、SNMP、Trap、telnet、SSH、syslog、MML、TL1、Q3、Flume等接口協(xié)議。
(2)多種數(shù)據(jù)種類的支持
提供如下數(shù)據(jù)種類的支持:配置數(shù)據(jù)、告警數(shù)據(jù)、性能數(shù)據(jù)、日志數(shù)據(jù)、信令數(shù)據(jù)、話單數(shù)據(jù)等數(shù)據(jù)的采集適配。
(3)多種網(wǎng)絡(luò)管理層次的支持
提供如下網(wǎng)絡(luò)管理層次的接入支持:省級專業(yè)網(wǎng)管、本地網(wǎng)專業(yè)網(wǎng)管,廠家網(wǎng)管EMS/ OMC,網(wǎng)元直連等。
(4)多種專業(yè)及廠家的支持
提供如下專業(yè)及廠家的支持:話務(wù)專業(yè)、傳輸專業(yè)、數(shù)據(jù)專業(yè)、動環(huán)專業(yè)等專業(yè)的數(shù)據(jù)采集,諾西、阿卡、愛立信、摩托、華為、中興、東信、北電、NEC、UT、中郵通、大唐,烽火、BMC等主流設(shè)備廠商的數(shù)據(jù)采集適配。
伴隨著電信業(yè)務(wù)的不斷發(fā)展,網(wǎng)絡(luò)建設(shè)越來越多,用來監(jiān)控網(wǎng)絡(luò)的專業(yè)網(wǎng)管以及綜合網(wǎng)管數(shù)量在不斷的增長,在運營過程中產(chǎn)生大量的O域和B域的相關(guān)數(shù)據(jù)。通過一套具備多專業(yè)、多協(xié)議的數(shù)據(jù)采集和轉(zhuǎn)換能力,對網(wǎng)元的操作指令快速翻譯能力,快速靈活擴展能力的統(tǒng)一采集適配平臺為采集適應(yīng)復(fù)雜網(wǎng)絡(luò)要求,增加訪問網(wǎng)元的敏捷性等方面奠定了基礎(chǔ)。如何通過統(tǒng)一適配平臺的分布式采集,統(tǒng)一采集任務(wù)監(jiān)控,界面可視化配置以及對大數(shù)據(jù)采集全程的數(shù)據(jù)質(zhì)量管控,需要今后更進一步的深入研究和探索。
圖9 數(shù)據(jù)采集部署示意圖
Discussion onthe construction of unified acquisition and adaptation platform inOSSdomain
CAOYonggang,WANGGuanzhi,ZHANGYongyan,DONGXin
Abstract:In this paper, through telecommunications network operators and network management present situation analysis,discusses the OSS domain unified acquisition adaptation platform construction scheme, combined with the actual case of network management system of the actual demand and domestic mainstream network management products and the use of,realize unified access management element to the south, through the shielding OMC/NE network technology and the vendors difference, network elements of multi- disciplinary, multi interface technology of data acquisition and conversion, and the element of the operating instructions fast translation. It has certain reference significance to the construction of unified acquisition and adaptation platform inOSSdomain.
Keywords:acquisition adapter; conversion; instruction translation
收稿日期:(2016-01-10)