何欣玲,劉 宇,趙 天,黃思煒
(中國鐵路信息科技集團(tuán)有限公司,北京 100844)
中國鐵路主數(shù)據(jù)中心是中國國家鐵路集團(tuán)(簡稱:國鐵集團(tuán))最高等級的數(shù)據(jù)處理中心,承載著中國鐵路集中應(yīng)用系統(tǒng)部署及數(shù)據(jù)資源存儲,承擔(dān)著確保鐵路核心業(yè)務(wù)安全穩(wěn)定運(yùn)行的重要使命[1]。為保證數(shù)據(jù)中心內(nèi)信息化設(shè)施的正常運(yùn)轉(zhuǎn),避免出現(xiàn)故障對數(shù)據(jù)傳輸、存儲及系統(tǒng)運(yùn)行的可靠性構(gòu)成威脅,有效地支撐在數(shù)據(jù)中心上的業(yè)務(wù)系統(tǒng)運(yùn)行,需要數(shù)據(jù)中心基礎(chǔ)設(shè)施(供配電、UPS、空調(diào)、消防、環(huán)境和安保等)時刻為計(jì)算機(jī)系統(tǒng)提供正常的運(yùn)行環(huán)境[2]。因此,如何對數(shù)據(jù)中心的動力環(huán)境、能耗、熱場、容量及硬件設(shè)備運(yùn)行狀況等進(jìn)行實(shí)時智能監(jiān)控和一體化管理成為一個重要課題。
(1)中國鐵路主數(shù)據(jù)中心承載了12306 網(wǎng)站、客票系統(tǒng)、調(diào)度系統(tǒng)等眾多應(yīng)用,服務(wù)器裝機(jī)數(shù)千臺,各類系統(tǒng)和資源眾多,設(shè)備數(shù)量復(fù)雜龐大;(2)鐵路數(shù)據(jù)中心基礎(chǔ)設(shè)施管理存在諸多問題,如場地基礎(chǔ)設(shè)施監(jiān)控管理系統(tǒng)由多個相互獨(dú)立的物理子系統(tǒng)組成,彼此缺乏互聯(lián)互通;(3)場地基礎(chǔ)設(shè)施監(jiān)控不到位,未部署UPS 蓄電池監(jiān)控設(shè)備;(4)信息化基礎(chǔ)設(shè)施管理雖然比較成熟,但在監(jiān)控管理與場地基礎(chǔ)設(shè)施不能互動;(5)管理工具由于專業(yè)和崗位的不同導(dǎo)致工具離散化,造成不同系統(tǒng)之間的數(shù)據(jù)難關(guān)聯(lián)、共享。
鑒于此,本文采用模塊化的分層架構(gòu),各模塊之間建立松耦合的關(guān)系,設(shè)計(jì)了適應(yīng)中國鐵路主數(shù)據(jù)中心需求的基礎(chǔ)設(shè)施管理系統(tǒng)平臺[3-5],實(shí)現(xiàn)信息共享、資源關(guān)聯(lián)、統(tǒng)籌調(diào)度和可視化展示,提升了數(shù)據(jù)中心的服務(wù)能力。
數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM,Data Center Infrastructure Management)是指通過監(jiān)控?cái)?shù)據(jù)中心基礎(chǔ)設(shè)施狀態(tài)、配置、參數(shù)等運(yùn)行信息,并對監(jiān)測數(shù)據(jù)進(jìn)行計(jì)算分析,實(shí)時掌握基礎(chǔ)設(shè)施的運(yùn)行情況,有效地管理數(shù)據(jù)中心基礎(chǔ)設(shè)施、資源和能效[6]。
數(shù)據(jù)中心分層架構(gòu),如圖1 所示。DCIM 的范疇就在于管理場地基礎(chǔ)設(shè)施和信息化基礎(chǔ)設(shè)施(硬件層)這兩個層面的協(xié)同,通過采用統(tǒng)一管理平臺對數(shù)據(jù)中心基礎(chǔ)設(shè)施進(jìn)行監(jiān)控和管理保證數(shù)據(jù)中心有效性、可用性。
圖1 數(shù)據(jù)中心分層架構(gòu)
按照DCIM 系統(tǒng)的數(shù)據(jù)收集、處理及服務(wù)的不同需求,可將系統(tǒng)分為數(shù)據(jù)采集層、數(shù)據(jù)處理和存儲層、分析計(jì)算層和功能展示層。系統(tǒng)架構(gòu),如圖2所示;技術(shù)架構(gòu),如圖3 所示。
圖2 DCIM 系統(tǒng)架構(gòu)
數(shù)據(jù)采集層包擴(kuò)采集信息點(diǎn)和監(jiān)控單元[7],其中,數(shù)據(jù)采集信息點(diǎn)包括各類機(jī)房精密空調(diào)、溫濕度、漏水設(shè)備、UPS、精密配電柜、電量儀、粉塵濃度、硫化氫、消防等信息,以及建筑設(shè)備監(jiān)控、視頻監(jiān)控系統(tǒng)、火災(zāi)自動報警、能源管理系統(tǒng)等需要集成的系統(tǒng)。在本項(xiàng)目中,主要按照信息點(diǎn)各自所在的機(jī)房位置將數(shù)據(jù)采集層劃分為不同的數(shù)據(jù)采集模塊,每個機(jī)房和配電區(qū)房間作為一個獨(dú)立的數(shù)據(jù)采集模塊進(jìn)行劃分,根據(jù)信息點(diǎn)位的種類和多少配置相應(yīng)的監(jiān)控單元。
2.1.1 技術(shù)原理
采用RS485 等串口通信協(xié)議進(jìn)行傳,各底層子系統(tǒng)數(shù)據(jù)采集工作通過Modbus、JDBC、Bacnet 等協(xié)議實(shí)現(xiàn),采集探針及采集組件對各協(xié)議參照協(xié)議點(diǎn)表對協(xié)議進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換后的數(shù)據(jù)統(tǒng)一放入Kafka 消息隊(duì)列。
2.1.2 功能
數(shù)據(jù)采集層是系統(tǒng)的數(shù)據(jù)入口,通過全面的南向接口管理體系,與現(xiàn)場基礎(chǔ)設(shè)施實(shí)時通信,并將接收到的數(shù)據(jù)轉(zhuǎn)化為規(guī)定的格式,上送到數(shù)據(jù)傳輸層。
圖3 DCIM 系統(tǒng)技術(shù)架構(gòu)
系統(tǒng)采用Hadoop 組件搭建大數(shù)據(jù)平臺進(jìn)行數(shù)據(jù)的處理及存儲,Zookeeper 實(shí)現(xiàn)分布式協(xié)調(diào)服務(wù),Yarn 負(fù)責(zé)統(tǒng)一資源調(diào)度管理。
2.2.1 技術(shù)原理
數(shù)據(jù)存儲內(nèi)容是所有被監(jiān)控設(shè)備的各項(xiàng)指標(biāo)數(shù)據(jù),通過消費(fèi)Kafka 獲取。一部分通過存儲應(yīng)用處理保存到OpenTSDB 中,最終轉(zhuǎn)發(fā)到大數(shù)據(jù)平臺,進(jìn)行歷史數(shù)據(jù)分析、挖掘或者展示查詢等。Redis 數(shù)據(jù)庫中保存實(shí)時設(shè)備指標(biāo)數(shù)據(jù),對外提供數(shù)據(jù)查詢接口,不同應(yīng)用都可以通過對外開放的API 查詢各設(shè)備的詳細(xì)指標(biāo)參數(shù)。
2.2.2 功能
各底層子監(jiān)控系統(tǒng)通過標(biāo)準(zhǔn)的API 協(xié)議將數(shù)據(jù)傳輸?shù)綌?shù)據(jù)存儲層,數(shù)據(jù)存儲實(shí)現(xiàn)數(shù)據(jù)的清洗、治理、存儲,為上層應(yīng)用提供數(shù)據(jù)支撐。
數(shù)據(jù)分析計(jì)算分為實(shí)時計(jì)算和離線計(jì)算。Spark streaming 提供對實(shí)時數(shù)據(jù)的實(shí)時分析;MapReduce實(shí)現(xiàn)離線數(shù)據(jù)的分析,通過分布式計(jì)算,實(shí)現(xiàn)數(shù)據(jù)快速處理;Spark MLlib、Mahout 為智能分析提供通用的算法及工具,可以實(shí)現(xiàn)數(shù)據(jù)中心數(shù)據(jù)的智能分析。
2.3.1 技術(shù)原理
(1)告警及復(fù)雜事件分析
平臺采用復(fù)雜事件分析處理引擎(CEP)[8],對告警信息進(jìn)行過濾整合,將告警分析結(jié)果發(fā)送至上位系統(tǒng)進(jìn)行故障派單。對于復(fù)雜告警事件,平臺可對多條告警信息進(jìn)行分析處理再轉(zhuǎn)換為一條故障信息。
(2)統(tǒng)計(jì)分析
系統(tǒng)采用離線數(shù)據(jù)分析平臺處理[9],只需要定義一個任務(wù)規(guī)則:時間為每天的凌晨(錯峰),內(nèi)容為從時序數(shù)據(jù)庫中抽取日、周、月、年所需的數(shù)據(jù),轉(zhuǎn)換/加載(ETL)到數(shù)據(jù)集市(Data Mart)中,報表報告直接從數(shù)據(jù)集市中獲取結(jié)果即可。
(3)容量分析
容量管理模塊模型算法以差額分析法和比率分析法為基礎(chǔ)[10],使用計(jì)算策略模型引擎,結(jié)合容量管理模塊,綜合容量參數(shù)計(jì)算容量變化情況和趨勢。
(4)能耗分析
通過前端數(shù)據(jù)接入處理模型獲取上海移動云橋、能率等IDC 數(shù)據(jù)中心基礎(chǔ)設(shè)施用電數(shù)據(jù)匯總統(tǒng)計(jì)出數(shù)據(jù)中心的能耗系統(tǒng)圖[11],通過統(tǒng)計(jì)分析模型和計(jì)算策略模型算出各模塊能耗情況。
2.3.2 功能
分析計(jì)算層作為整個的核心數(shù)據(jù)處理單元,通過預(yù)設(shè)的各類數(shù)據(jù)處理引擎和工具,對全部采集數(shù)據(jù)進(jìn)行質(zhì)量控制、分析、計(jì)算、統(tǒng)計(jì)等處理,最終生成符合需求的數(shù)據(jù)產(chǎn)品,并通過北向接口為業(yè)務(wù)應(yīng)用提供符合要求的數(shù)據(jù)。
系統(tǒng)實(shí)現(xiàn)的基礎(chǔ)設(shè)施管理主要包括監(jiān)控管理、資產(chǎn)管理、容量管理、能效管理、運(yùn)維管理和數(shù)據(jù)洞察。
2.4.1 技術(shù)原理
功能展示層采用前后端分離的技術(shù)方案,前臺通過Html,Jsp,jQuery 技術(shù)進(jìn)行頁面渲染,后臺通過Spring,Hibernate 框架提供數(shù)據(jù)模型與業(yè)務(wù)實(shí)現(xiàn)。前后臺通過Json 的方式進(jìn)行數(shù)據(jù)傳遞。通過使用Activity 實(shí)現(xiàn)業(yè)務(wù)流程。
2.4.2 功能
基于B/S 架構(gòu)的Web 服務(wù)及移動端服務(wù)(App、微信等),提供統(tǒng)一的實(shí)時數(shù)據(jù)、告警告知、報表報告及2D/3D 展示交互平臺。
DCIM 系統(tǒng)主要用于采集全部機(jī)房基礎(chǔ)設(shè)施的狀態(tài)及參數(shù)、環(huán)境參數(shù)、第三方系統(tǒng)數(shù)據(jù)等,進(jìn)行統(tǒng)一匯總展示及管理。DCIM 系統(tǒng)監(jiān)控模塊,如表1所示。
表1 DCIM 系統(tǒng)監(jiān)控模塊
DCIM 系統(tǒng)的管理模塊可實(shí)現(xiàn)如報警功能、數(shù)據(jù)管理功能、報表管理和日志管理等功能,詳細(xì)情況,如表2 所示。
表2 DCIM 系統(tǒng)管理模塊
數(shù)據(jù)中心基礎(chǔ)設(shè)施管理系統(tǒng)是集監(jiān)控和管理為一體,構(gòu)建了“信息、資源、運(yùn)維”的統(tǒng)一管理體系,通過監(jiān)控和能效、資源管理等的統(tǒng)一構(gòu)建,數(shù)據(jù)中心的運(yùn)行效力和管理能力得到全面提升,也助力于數(shù)據(jù)中心的平穩(wěn)、高效運(yùn)行。本方案從數(shù)據(jù)中心基礎(chǔ)設(shè)施管理需求出發(fā),綜合考慮監(jiān)控、管理的對象和場景的需求以及現(xiàn)有監(jiān)控工具的整合,構(gòu)建系統(tǒng)模型分析算法,采用模塊化的分層架構(gòu)進(jìn)行設(shè)計(jì),形成數(shù)據(jù)中心基礎(chǔ)設(shè)施智能監(jiān)控和綜合管理解決方案,為鐵路數(shù)據(jù)中心基礎(chǔ)設(shè)施管理提供思路。