任 帥
(中國(guó)移動(dòng)通信集團(tuán)有限公司,北京 100033)
中國(guó)移動(dòng)現(xiàn)有45+4個(gè)數(shù)據(jù)中心、近千棟核心機(jī)樓以及逾50萬(wàn)個(gè)存量基站。面對(duì)如此龐大的動(dòng)環(huán)基礎(chǔ)設(shè)施,急需構(gòu)建業(yè)內(nèi)領(lǐng)先的動(dòng)環(huán)設(shè)施支撐手段能力,實(shí)現(xiàn)全網(wǎng)動(dòng)環(huán)設(shè)施資源及能力的集中化、精細(xì)化、智能化的可視、可管、可控。
現(xiàn)網(wǎng)動(dòng)環(huán)管理能力較弱,各省僅靠OMC系統(tǒng)進(jìn)行基本管理,只能實(shí)現(xiàn)告警監(jiān)控、負(fù)載率統(tǒng)計(jì)、資產(chǎn)管理等簡(jiǎn)單功能。從現(xiàn)網(wǎng)調(diào)研分析和統(tǒng)計(jì)結(jié)果看,當(dāng)前動(dòng)環(huán)設(shè)施運(yùn)維管理面臨諸多挑戰(zhàn),主要包括以下3個(gè)方面。
(1)缺少集中化監(jiān)控管理平臺(tái)。日常維護(hù)管理工作及指標(biāo)考核數(shù)據(jù)收集大部分依賴(lài)郵件及EOMS系統(tǒng)。
(2)監(jiān)控覆蓋面不足,監(jiān)控與管理不夠緊密。基礎(chǔ)設(shè)施監(jiān)控較弱,對(duì)能效、資產(chǎn)、容量管理缺失抓手,對(duì)運(yùn)維與運(yùn)營(yíng)等管理維度指標(biāo)缺少關(guān)注。
(3)智能化程度不高。目前,監(jiān)控主要是實(shí)現(xiàn)動(dòng)環(huán)的基礎(chǔ)數(shù)據(jù)采集,在歷史數(shù)據(jù)分析、故障根因分析等方面智能化程度不高。
針對(duì)上述挑戰(zhàn),深層次分析其中原因主要包括以下4個(gè)方面。
(1)不同廠家FSU和SC互聯(lián)互通問(wèn)題。中國(guó)移動(dòng)現(xiàn)網(wǎng)已建成的動(dòng)環(huán)監(jiān)控涉及的廠家眾多,新建設(shè)備和老系統(tǒng)接口協(xié)議不一致,對(duì)接存在困難。
(2)各省動(dòng)環(huán)監(jiān)控系統(tǒng)組網(wǎng)架構(gòu)不統(tǒng)一?,F(xiàn)網(wǎng)動(dòng)環(huán)監(jiān)控架構(gòu)從2~4層不等,組網(wǎng)復(fù)雜,亟需推動(dòng)省級(jí)SC架構(gòu)標(biāo)準(zhǔn)化建設(shè),實(shí)現(xiàn)省級(jí)架構(gòu)的扁平化和集中化。
(3)精細(xì)化運(yùn)維管理手段不足。機(jī)樓基礎(chǔ)運(yùn)維不到位、動(dòng)環(huán)設(shè)施超負(fù)荷運(yùn)行、帶病入網(wǎng)、性能劣化等問(wèn)題,缺乏管理規(guī)范、預(yù)案和管控手段。
(4)系統(tǒng)接入困難、耦合性高。傳統(tǒng)動(dòng)環(huán)廠家在系統(tǒng)對(duì)接設(shè)置壁壘,導(dǎo)致數(shù)據(jù)接入、云端協(xié)同、系統(tǒng)建設(shè)難以有效執(zhí)行。
所以,為補(bǔ)齊短板,實(shí)現(xiàn)業(yè)界領(lǐng)先的動(dòng)環(huán)運(yùn)維能力,參照行業(yè)標(biāo)桿經(jīng)驗(yàn),打造總部一級(jí)動(dòng)環(huán)設(shè)施運(yùn)維管理平臺(tái),實(shí)現(xiàn)對(duì)全網(wǎng)動(dòng)環(huán)設(shè)施運(yùn)行情況管控,如圖1所示。
圖1 動(dòng)環(huán)基礎(chǔ)設(shè)施DIKW模型分析圖
動(dòng)環(huán)集中運(yùn)維管理平臺(tái)建設(shè)需要圍繞易用性、可擴(kuò)展性、接口開(kāi)放性、可維護(hù)性、穩(wěn)定性、先進(jìn)性等原則進(jìn)行建設(shè)。
1.2.1 易部署原則
充分利用現(xiàn)有資源進(jìn)行建設(shè),既可與機(jī)房主設(shè)備同步建設(shè),也可對(duì)已有機(jī)房進(jìn)行補(bǔ)充建設(shè)。可根據(jù)現(xiàn)場(chǎng)的傳輸資源進(jìn)行組網(wǎng),包括IP資源、無(wú)線、物聯(lián)網(wǎng)等。
1.2.2 可擴(kuò)展原則
平臺(tái)接入規(guī)模與系統(tǒng)處理能力滿足項(xiàng)目需求,支持平滑升級(jí)與彈性擴(kuò)容能力,以滿足業(yè)務(wù)和管理發(fā)展需要。
1.2.3 接口開(kāi)放原則
提供多種標(biāo)準(zhǔn)的數(shù)據(jù)接口,如B接口、C接口、D接口等。也可提供定制化數(shù)據(jù)接口,以實(shí)現(xiàn)與第三方監(jiān)控系統(tǒng)或其他管理系統(tǒng)的對(duì)接。
1.2.4 可維護(hù)性原則
平臺(tái)架構(gòu)需考慮運(yùn)維體系變化對(duì)業(yè)務(wù)的影響,可快速適應(yīng)運(yùn)維體系變化的要求,最大限度減少運(yùn)維人員運(yùn)維工作量。
1.2.5 穩(wěn)定性原則
平臺(tái)系統(tǒng)架構(gòu)具有良好的穩(wěn)定性,單一節(jié)點(diǎn)或者設(shè)備故障不影響系統(tǒng)運(yùn)行,具有高可用性、穩(wěn)定性特點(diǎn)。
1.2.6 先進(jìn)性原則
平臺(tái)應(yīng)能滿足公司發(fā)布的關(guān)于動(dòng)環(huán)系統(tǒng)的所有技術(shù)規(guī)范和要求,系統(tǒng)架構(gòu)和技術(shù)在業(yè)界具有領(lǐng)先水平,滿足系統(tǒng)長(zhǎng)期建設(shè)、演進(jìn)和發(fā)展的需要,以最大限度的保護(hù)用戶投資。
根據(jù)需求調(diào)研、場(chǎng)景類(lèi)型分析、建設(shè)原則,可歸納出動(dòng)環(huán)集中運(yùn)維管理平臺(tái)的基本設(shè)計(jì)要求。
(1)系統(tǒng)架構(gòu)需采用業(yè)界靈活、先進(jìn)的架構(gòu),具備可擴(kuò)展性和高可用性特點(diǎn);
(2)數(shù)據(jù)接入支持南北向接口(如標(biāo)準(zhǔn)B接口、標(biāo)準(zhǔn)C接口、能耗接口、故障接口等),可實(shí)現(xiàn)邊云協(xié)同、無(wú)障礙互聯(lián)互通;
(3)圍繞“監(jiān)”“管”“控”目標(biāo),實(shí)現(xiàn)動(dòng)環(huán)基礎(chǔ)設(shè)施全網(wǎng)集中監(jiān)控及運(yùn)營(yíng),實(shí)現(xiàn)統(tǒng)一監(jiān)控、統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一視圖;
(4)系統(tǒng)從5大域(設(shè)施、人員、管理、手段、流程)、8個(gè)方面(可視化、運(yùn)維管理、資源管理、安全保障、系統(tǒng)管理、系統(tǒng)接入、深度應(yīng)用、支撐工具)構(gòu)建需求能力。
本文提出的動(dòng)環(huán)集中運(yùn)維管理平臺(tái)采用Spring Cloud微服務(wù)架構(gòu),支持Docker容器化部署,具備滾動(dòng)升級(jí)、彈性擴(kuò)容、高可用特性。按照數(shù)據(jù)流向維度可將平臺(tái)分為接入層、存儲(chǔ)層、能力層、業(yè)務(wù)層和展示層??傮w架構(gòu)如圖2所示。
(1)接入層:負(fù)責(zé)設(shè)備接入(動(dòng)力設(shè)備、環(huán)境設(shè)備、門(mén)禁設(shè)備、視頻設(shè)備等)及第三方系統(tǒng)接入(冷源系統(tǒng)、通風(fēng)系統(tǒng)、空調(diào)系統(tǒng)、安防系統(tǒng)等);
(2)存儲(chǔ)層:負(fù)責(zé)系統(tǒng)數(shù)據(jù)緩存、存儲(chǔ)及相關(guān)中間件功能;
(3)能力層:負(fù)責(zé)數(shù)據(jù)的清洗、應(yīng)用使能,為業(yè)務(wù)層提供相應(yīng)的能力;
(4)業(yè)務(wù)層:負(fù)責(zé)不同業(yè)務(wù)的邏輯處理,為展示層提供相應(yīng)的接口服務(wù);
(5)展示層:負(fù)責(zé)提供平臺(tái)門(mén)戶,多渠道、多方式展示系統(tǒng)業(yè)務(wù)。
動(dòng)環(huán)集中運(yùn)維管理平臺(tái)主要針對(duì)核心機(jī)樓、數(shù)據(jù)中心(含八大區(qū)數(shù)據(jù)中心)、匯聚機(jī)房、基站等動(dòng)環(huán)設(shè)施納入集中管理,圍繞5大管理域(設(shè)施、人員、管理、手段、流程)構(gòu)建“邊-管-云”,從系統(tǒng)接入、支撐工具、系統(tǒng)管理、運(yùn)維管理、資源管理、安全保障、深度應(yīng)用、可視化、方面出發(fā),實(shí)現(xiàn)“物聯(lián)、數(shù)聯(lián)、智聯(lián)”三位一體的新型動(dòng)環(huán)智慧運(yùn)維新模式,推動(dòng)全網(wǎng)集中動(dòng)環(huán)運(yùn)維管理能力建設(shè),全面提升全網(wǎng)動(dòng)環(huán)運(yùn)維能力。平臺(tái)主要功能架構(gòu)如圖3所示。
圖2 動(dòng)環(huán)集中運(yùn)維管理平臺(tái)系統(tǒng)架構(gòu)圖
圖3 動(dòng)環(huán)集中運(yùn)維管理平臺(tái)功能架構(gòu)圖
動(dòng)環(huán)集中運(yùn)維管理平臺(tái)經(jīng)過(guò)前期的需求調(diào)研與設(shè)計(jì)研發(fā),經(jīng)系統(tǒng)測(cè)試后正式上線運(yùn)行,已構(gòu)建集中化動(dòng)環(huán)設(shè)備及業(yè)務(wù)容量管理、能耗管理、資源管理、供電拓?fù)涞目梢暬尸F(xiàn)等功能。
該功能模塊從供電、空間、制冷、承重等多維度出發(fā),通過(guò)持續(xù)記錄容量消耗量和分析增長(zhǎng)模式,使動(dòng)環(huán)集中運(yùn)維管理人員能夠更加快速準(zhǔn)確地掌控各機(jī)樓電源、空調(diào)設(shè)備的負(fù)載率情況,更高效管理各項(xiàng)關(guān)鍵資源,同時(shí)針對(duì)各機(jī)樓容量預(yù)警,實(shí)現(xiàn)工單督辦、掛牌通報(bào)等功能[1]。
(1)電力容量。實(shí)現(xiàn)核心機(jī)房變壓器、發(fā)電機(jī)組、開(kāi)關(guān)電源系統(tǒng)、UPS系統(tǒng)、空調(diào)系統(tǒng)、蓄電池的負(fù)載率分析,容量負(fù)荷預(yù)警;支持各省預(yù)警方案的自定義設(shè)置,能夠以設(shè)備為維度和以預(yù)警級(jí)別為維度進(jìn)行容量預(yù)警數(shù)量和占比分析,可按照月、季、年提供容量預(yù)警趨勢(shì)分析圖;提供設(shè)備性能預(yù)警的統(tǒng)計(jì)匯總、明細(xì)報(bào)表功能。
(2)空間容量。實(shí)現(xiàn)機(jī)房空間、配套空間、管線空間、機(jī)柜空間管理和U位管理(占用、剩余、最佳位置推薦)。
(3)制冷容量。根據(jù)機(jī)房不同區(qū)域制冷容量和現(xiàn)有帶載負(fù)荷情況,得出不同機(jī)柜、不同機(jī)房還可新增負(fù)荷量的情況。
(4)承重容量。根據(jù)地板承重和機(jī)柜電力配置,確定機(jī)柜擺放位置。機(jī)柜和設(shè)備的總重量不能超過(guò)地板總體承重要求,避免超重設(shè)備集中在某一區(qū)域。
通過(guò)容量管理,可支持從園區(qū)到機(jī)房的不同層級(jí)容量視圖,全面了解容量使用現(xiàn)狀;實(shí)時(shí)查看各機(jī)柜容量使用情況,快速查找設(shè)備上架的最佳機(jī)位,通過(guò)“UPS等重要設(shè)備的負(fù)載率紅色預(yù)警”等關(guān)鍵信息實(shí)時(shí)監(jiān)控,基于事前分析的預(yù)測(cè)性運(yùn)維,實(shí)現(xiàn)全網(wǎng)機(jī)樓運(yùn)行風(fēng)險(xiǎn)的有效把控,如圖4所示。
該功能支持以2D、2.5D及3D可視化方式顯示空間拓?fù)?、設(shè)備拓?fù)?、供電拓?fù)涔δ堋>劢关S富的KPI指標(biāo),包括資源、告警、性能、容量、能效、巡檢、溫度云圖等多種類(lèi)型,實(shí)現(xiàn)運(yùn)維狀態(tài)多維數(shù)據(jù)的全局可視化,如圖5所示[2]。
(1)空間拓?fù)?。可根?jù)布局圖,實(shí)現(xiàn)按照?qǐng)@區(qū)、機(jī)樓、樓層、機(jī)房、設(shè)備、機(jī)架等環(huán)境的可視化仿真,支持在拓?fù)鋱D上按空間資源分層定位設(shè)備以及查詢、顯示設(shè)備資源屬性。
(2)設(shè)備拓?fù)?。提供重要設(shè)備拓?fù)洌瑘D形化呈現(xiàn)設(shè)備關(guān)鍵運(yùn)行參數(shù)指標(biāo),支持快速查詢、顯示設(shè)備資源屬性和設(shè)備當(dāng)前運(yùn)行狀態(tài)。
(3)供電拓?fù)?。供電拓?fù)浞譃?層——高壓配電層、低壓配電層、不間斷電源層、機(jī)房業(yè)務(wù)層;直觀呈現(xiàn)設(shè)備的路由關(guān)系(包括上游設(shè)備和下游設(shè)備),支持按照樓層、房間的端到端拓?fù)涑尸F(xiàn),具備從高低壓配電系統(tǒng)、交直流配電系統(tǒng)到列頭柜的端到端供電拓?fù)淝闆r,實(shí)現(xiàn)全網(wǎng)核心機(jī)樓、數(shù)據(jù)中心的供電拓?fù)?、業(yè)務(wù)關(guān)系管理。
圖4 動(dòng)環(huán)集中運(yùn)維管理平臺(tái)容量負(fù)載率分析圖
動(dòng)環(huán)設(shè)備及業(yè)務(wù)資源管理,通過(guò)掌控設(shè)備在網(wǎng)情況、設(shè)備與業(yè)務(wù)系統(tǒng)關(guān)聯(lián)關(guān)系,基于設(shè)備和業(yè)務(wù)信息將應(yīng)急預(yù)案固化在管理系統(tǒng),指導(dǎo)故障應(yīng)急處置。針對(duì)超期服役設(shè)備、老化劣化設(shè)備建立病歷表,全生命周期管控各類(lèi)設(shè)備的在網(wǎng)狀態(tài),并關(guān)聯(lián)日常運(yùn)維 信息。
圖5 動(dòng)環(huán)集中運(yùn)維管理平臺(tái)供電拓?fù)鋱D
3.3.1 動(dòng)環(huán)設(shè)備資源管理
提供FSU管理、不間斷電源系統(tǒng)管理、蓄電池管理、空調(diào)管理以及發(fā)電機(jī)管理,提供供電與業(yè)務(wù)關(guān)系管理,提供全網(wǎng)動(dòng)環(huán)設(shè)備資源統(tǒng)計(jì)分析功能。動(dòng)環(huán)資源統(tǒng)計(jì)包括機(jī)樓、區(qū)域、設(shè)備類(lèi)型、設(shè)備子類(lèi)、設(shè)備品牌以及設(shè)備數(shù)量等,可從多個(gè)維度進(jìn)行統(tǒng)計(jì)分析,并可查看設(shè)備詳細(xì)詳情。
3.3.2 設(shè)備超期服役管理
提供動(dòng)環(huán)設(shè)備超期服役統(tǒng)計(jì)分析功能。支持按照省份維度和設(shè)備類(lèi)型維度進(jìn)行統(tǒng)計(jì)分析,顯示設(shè)備超期服役數(shù)據(jù)、超期服役日期。老化劣化設(shè)備建立機(jī)歷卡,為采購(gòu)后評(píng)估和預(yù)算決策提供科學(xué)依據(jù)。
3.3.3 健康度管理
支持核心機(jī)樓、站點(diǎn)機(jī)房健康度管理,包括直流不間斷系統(tǒng)、交流不間斷系統(tǒng)、溫控系統(tǒng)、市電可用度、系統(tǒng)監(jiān)控可用度,判斷機(jī)樓、站點(diǎn)機(jī)房的健康狀態(tài),結(jié)合設(shè)備生命周期管理和健康度模型,設(shè)置相應(yīng)的巡檢維護(hù)計(jì)劃及預(yù)警功能。
該功能通過(guò)對(duì)各用電設(shè)備的分項(xiàng)用電量、總用電量進(jìn)行實(shí)時(shí)監(jiān)測(cè)獲取能耗數(shù)據(jù),通過(guò)精細(xì)化統(tǒng)計(jì)和分析以及智能化管控,實(shí)現(xiàn)動(dòng)環(huán)體系整體能耗水平的測(cè)評(píng),便于運(yùn)營(yíng)者準(zhǔn)確和快速地掌握整體能耗狀況,如圖6所示。通過(guò)比較不同行業(yè)的能效水平,制定科學(xué)的衡量標(biāo)準(zhǔn),提供能耗指標(biāo)閾值管理和預(yù)警生成功能,同時(shí)實(shí)現(xiàn)節(jié)能減排。
圖6 動(dòng)環(huán)集中運(yùn)維管理平臺(tái)能耗分析圖
(1)提供動(dòng)環(huán)體系各個(gè)節(jié)點(diǎn)的能耗總量視圖,直觀清晰了解機(jī)房/站點(diǎn)重要能耗指標(biāo),幫助用戶梳理機(jī)房能耗數(shù)據(jù)。
(2)提供按時(shí)間段、按用電類(lèi)型、按站點(diǎn)查詢用電量和總計(jì),用柱狀圖、餅圖等方式展示能耗數(shù)據(jù)。
(3)提供區(qū)域、機(jī)樓、機(jī)房能耗趨勢(shì)曲線,通過(guò)趨勢(shì)曲線、環(huán)比、同比、PUE等指標(biāo),幫助管理者找出用電差異并調(diào)整用電方式。
(4)通過(guò)對(duì)能耗數(shù)據(jù)的分析和運(yùn)算,得出用電方式調(diào)整建議,對(duì)實(shí)際設(shè)備進(jìn)行智能控制操作,實(shí)現(xiàn)節(jié)能目的,并以表格、柱狀圖形式呈現(xiàn)節(jié)能措施前后機(jī)房用電量,評(píng)估節(jié)能效果。
將現(xiàn)網(wǎng)電源、空調(diào)告警接入總部平臺(tái),提供重要?jiǎng)迎h(huán)告警的統(tǒng)計(jì)結(jié)果呈現(xiàn),可以查看告警清單,定時(shí)刷新。實(shí)現(xiàn)告警分類(lèi)統(tǒng)計(jì)(分廠家、設(shè)備、級(jí)別、故障原因等維度),實(shí)現(xiàn)異常告警分析,提供超頻、超短、超長(zhǎng)告警的統(tǒng)計(jì)報(bào)表??梢园词》荨DC園區(qū)、設(shè)備類(lèi)型、告警類(lèi)型等維度,進(jìn)行一定時(shí)間周期的趨勢(shì)分析、對(duì)比分析、排名分析。
建立關(guān)鍵告警知識(shí)庫(kù),對(duì)各種類(lèi)型站點(diǎn)設(shè)備告警。制定告警關(guān)聯(lián)規(guī)則或其他相應(yīng)手段,通過(guò)關(guān)聯(lián)規(guī)則標(biāo)識(shí)主次告警和衍生告警,對(duì)主告警進(jìn)行準(zhǔn)確的故障定位,提升故障處理效率。
本文提出的“動(dòng)環(huán)集中運(yùn)維管理平臺(tái)”實(shí)現(xiàn)了全網(wǎng)動(dòng)環(huán)設(shè)施容量和運(yùn)行情況的集中監(jiān)控,集中收集全部集團(tuán)要求根據(jù)采集的全網(wǎng)動(dòng)環(huán)數(shù)據(jù),實(shí)時(shí)采集解析多維呈現(xiàn),并能提供能耗數(shù)據(jù)的統(tǒng)一對(duì)比分析。根據(jù)上下層業(yè)務(wù)的資源關(guān)聯(lián)關(guān)系,輔助統(tǒng)一應(yīng)急指揮調(diào)度和關(guān)鍵問(wèn)題的督辦等,對(duì)全面提升全網(wǎng)動(dòng)環(huán)運(yùn)維能力,有效支撐節(jié)能減排、降本增效,具有重大的價(jià)值與廣泛的應(yīng)用前景。