謝銀海 張常亮 何星庭 田娟
1. 四川省氣象探測數(shù)據(jù)中心 四川 成都 610072;2. 高原與盆地暴雨旱澇災(zāi)害四川省重點(diǎn)實(shí)驗(yàn)室 四川 成都 610072
隨著信息技術(shù)的發(fā)展和普及,四川省氣象探測數(shù)據(jù)中心機(jī)房里運(yùn)行的天擎、天鏡、資源池、核心網(wǎng)絡(luò)和安全設(shè)備,集約化精細(xì)化程度越來越高,氣象數(shù)據(jù)量飛速增加,計(jì)算機(jī)系統(tǒng)及通信設(shè)備數(shù)量與日俱增,規(guī)模越來越大,中心機(jī)房、計(jì)算機(jī)系統(tǒng)和通信網(wǎng)絡(luò)已成為各大單位業(yè)務(wù)管理的核心部分。為保證其安全正常運(yùn)行,與之配套的機(jī)房動力系統(tǒng)、環(huán)境系統(tǒng)、消防系統(tǒng)、保安系統(tǒng)必須時時刻刻穩(wěn)定協(xié)調(diào)工作。傳統(tǒng)的機(jī)房管理往往不能及時排除故障,對事故發(fā)生的時間及責(zé)任也無科學(xué)的管理;更缺乏對已發(fā)生的故障作全面的分析數(shù)據(jù),使得問題不能得到完善的解決[1-6]。
本文基于省級綜合業(yè)務(wù)實(shí)時監(jiān)控系統(tǒng)技術(shù)架構(gòu),充分研究機(jī)房動力環(huán)境所亟需的綜合監(jiān)控需求,設(shè)計(jì)數(shù)據(jù)中心機(jī)房監(jiān)控系統(tǒng)。該系統(tǒng)對機(jī)房多種設(shè)備實(shí)現(xiàn)了集中監(jiān)控,主要包括機(jī)房動力系統(tǒng)監(jiān)控、機(jī)房環(huán)境系統(tǒng)監(jiān)控和視頻監(jiān)控,具有完善的監(jiān)測和控制功能。通過Web頁面展示,實(shí)時記錄各類事件,對故障事件提供及時的告警,有效提高了運(yùn)維人員的管理效率,能夠快速高效的排除故障,并對已發(fā)生的故障做出全面的數(shù)據(jù)分析,實(shí)現(xiàn)了機(jī)房可靠的科學(xué)管理。
該系統(tǒng)由通信局(站)、區(qū)域監(jiān)控中心、監(jiān)控中心、用戶終端、上層管理平臺組成,層次分明、結(jié)構(gòu)簡單、邏輯清晰。采用分布式部署,在每一個數(shù)據(jù)中心分別部署一臺監(jiān)控主機(jī),作為該數(shù)據(jù)中心的前端數(shù)據(jù)采集器,記錄本地監(jiān)測數(shù)據(jù)、操作記錄、告警發(fā)送記錄等,并支持控制傳感器[7-8]。該系統(tǒng)的物理流程圖如圖1所示。
圖1 機(jī)房監(jiān)控物理結(jié)構(gòu)
1.1.1 通信局(站):由環(huán)境監(jiān)控主機(jī)、傳感器、監(jiān)控模塊等組成,實(shí)現(xiàn)對現(xiàn)場環(huán)境、動力設(shè)備、消防安防等數(shù)據(jù)采集?,F(xiàn)場傳感器通過雙絞線接入到環(huán)境監(jiān)控主機(jī)接口上,各種智能設(shè)備通過智能監(jiān)控模塊將采集到的數(shù)據(jù)直接接入環(huán)境監(jiān)控主機(jī)。
1.1.2 區(qū)域監(jiān)控中心:由區(qū)域監(jiān)控服務(wù)器組成(可由監(jiān)控中心服務(wù)器集成服務(wù),分配訪問權(quán)限),監(jiān)管及運(yùn)維區(qū)域內(nèi)通信局(站),存儲區(qū)域內(nèi)通信局(站)上傳的數(shù)據(jù)。同時向上級監(jiān)控中心轉(zhuǎn)發(fā)區(qū)域內(nèi)各通信局(站)的數(shù)據(jù)。
1.1.3 監(jiān)控中心:由主監(jiān)控服務(wù)器、備監(jiān)控服務(wù)器、智云中心組成,存儲通信局(站)上傳的數(shù)據(jù),系統(tǒng)采用B/S架構(gòu),作為數(shù)據(jù)后臺可支持前端PC設(shè)備、客戶端App等多種方式訪問。同時提供接口,可向第三方傳輸數(shù)據(jù),便于集成。
1.1.4 用戶終端:客戶端App、PC端瀏覽器等多種方式管理、查詢、控制、運(yùn)維、信息推送等??蓪?shí)現(xiàn)各種統(tǒng)計(jì)報表、數(shù)據(jù)分析挖掘、告警管理、運(yùn)維管理、權(quán)限管理和系統(tǒng)配置管理等。
1.1.5 上層管理平臺:通過VPN、公網(wǎng)等方式將環(huán)境監(jiān)測的數(shù)據(jù)傳輸至第三方兼監(jiān)管平臺,集中數(shù)據(jù)大屏展示。
系統(tǒng)具有良好的擴(kuò)容性,對于監(jiān)控對象的增減,機(jī)房增減,系統(tǒng)只需在原有設(shè)計(jì)的基礎(chǔ)之上增加相應(yīng)的傳感器和監(jiān)控模塊,而無須更改整個系統(tǒng)的原始設(shè)計(jì),即可把新增的監(jiān)測內(nèi)容和監(jiān)測對象整合到原有系統(tǒng)內(nèi)。
服務(wù)器端擬采用Linux操作系統(tǒng),客戶端擬采用Windows XP/Windows7/Windows10等操作系統(tǒng)。
1.2.1 編程語言:擬采用Java、Python編程語言,前端運(yùn)維門戶網(wǎng)站及管理界面采用J2EE技術(shù)架構(gòu)和Java編程語言進(jìn)行系統(tǒng)開發(fā),后端的數(shù)據(jù)采集、數(shù)據(jù)存儲管理等功能采用探針、Python腳本、爬蟲、Spring JPA等技術(shù)進(jìn)行開發(fā),以滿足系統(tǒng)的數(shù)據(jù)來源多樣性要求。
1.2.2 數(shù)據(jù)存儲服務(wù):數(shù)據(jù)存儲服務(wù)程序擬采用Java等編程語言進(jìn)行開發(fā),采集數(shù)據(jù)主要通過接口進(jìn)行讀寫,配置信息擬復(fù)用天鏡系統(tǒng)作為數(shù)據(jù)存儲平臺。
1.2.3 數(shù)據(jù)通信服務(wù):擬采用Java等編程語言進(jìn)行開發(fā),數(shù)據(jù)通信服務(wù)程序提供FTP/HTTP/Socket等多種通信接口,以便和多個數(shù)據(jù)源進(jìn)行數(shù)據(jù)交換。
1.2.4 用戶界面:擬采用AJAX+HTML+CSS3、React框架技術(shù)進(jìn)行開發(fā),豐富客戶端功能,支持IE9.0以上、Chrome2.x以上或其他主流瀏覽器。
選用主流工具和成熟的基礎(chǔ)軟件:開發(fā)平臺、智能報表工具、在線編輯器、WebGIS、數(shù)據(jù)庫等主要開發(fā)軟件和基礎(chǔ)軟件均選用穩(wěn)定高效的主流開發(fā)工具,如Eclipse 3.3.x、IDEA 2018、Jasper Report、iReport、FCKeditor、HXGIS、Mysql、Restful等。
統(tǒng)計(jì)分析程序調(diào)用接口采用WebService技術(shù)實(shí)現(xiàn),通過應(yīng)用服務(wù)器的負(fù)載均衡策略,實(shí)現(xiàn)程序調(diào)用的高并發(fā)響應(yīng)。如圖2所示。
圖2 機(jī)房監(jiān)控技術(shù)架構(gòu)
系統(tǒng)基于全國統(tǒng)一的氣象綜合業(yè)務(wù)實(shí)時監(jiān)控系統(tǒng)(天鏡)數(shù)據(jù)庫,對接現(xiàn)有省局機(jī)房系統(tǒng)信息,按照天鏡數(shù)據(jù)庫入庫接口規(guī)范,將機(jī)房系統(tǒng)的監(jiān)控?cái)?shù)據(jù)資源錄入天鏡數(shù)據(jù)庫,然后通過數(shù)據(jù)獲取接口獲取已入庫的數(shù)據(jù)資源。
機(jī)房動力環(huán)境監(jiān)控平臺架構(gòu)包括數(shù)據(jù)支撐層、數(shù)據(jù)存儲層、技術(shù)支撐層、應(yīng)用層和展示層5個部分,系統(tǒng)組成如圖3所示。
圖3 機(jī)房監(jiān)控平臺架構(gòu)
數(shù)據(jù)支撐層實(shí)現(xiàn)平臺所需監(jiān)控?cái)?shù)據(jù)的采集和處理,包括服務(wù)器,數(shù)據(jù)庫、網(wǎng)絡(luò)設(shè)備等基礎(chǔ)軟硬件資源,對接核心業(yè)務(wù)平臺如狀態(tài)數(shù)據(jù)對接CTS、省級綜合業(yè)務(wù)監(jiān)控系統(tǒng)。監(jiān)控?cái)?shù)據(jù)源主要包括機(jī)房設(shè)備狀態(tài)數(shù)據(jù)、機(jī)房溫濕度數(shù)據(jù)、UPS監(jiān)控?cái)?shù)據(jù)、機(jī)房實(shí)時視頻監(jiān)控?cái)?shù)據(jù)、業(yè)務(wù)告警數(shù)據(jù)、火情漏水監(jiān)控?cái)?shù)據(jù)等。
數(shù)據(jù)存儲層通過省級綜合業(yè)務(wù)監(jiān)控系統(tǒng)數(shù)據(jù)接口進(jìn)行數(shù)據(jù)讀寫,數(shù)據(jù)存儲包括狀態(tài)數(shù)據(jù)(如精密空調(diào)運(yùn)行狀態(tài)、配電開關(guān)運(yùn)行狀態(tài)等)、數(shù)據(jù)指標(biāo)數(shù)據(jù)(如溫濕度實(shí)時數(shù)據(jù)等)、采集任務(wù)配置數(shù)據(jù)(如定時任務(wù)時間、頻次數(shù)據(jù))等[9-10]。
技術(shù)支撐層包括數(shù)據(jù)采集(探針、爬蟲)、對接和web服務(wù)(Spring Boot等)、展示(Echarts、D3、React、Nginx、三維可視化組件)等方面所涉及的技術(shù)支撐。
應(yīng)用層包括數(shù)據(jù)采集分析、機(jī)房設(shè)備運(yùn)行狀態(tài)監(jiān)控、機(jī)房溫濕度實(shí)時監(jiān)控、配電開關(guān)監(jiān)控、監(jiān)控信息可視化展示、監(jiān)控告警等,通過API接口與現(xiàn)有省級綜合業(yè)務(wù)監(jiān)控系統(tǒng)對接。
展示層主要包括監(jiān)控信息的可視化,實(shí)現(xiàn)各分系統(tǒng)監(jiān)控功能展示及可視化視圖展示,告警信息推送給各級業(yè)務(wù)保障和管理人員。
系統(tǒng)功能主要包括動力監(jiān)測,環(huán)境監(jiān)測,系統(tǒng)日志,告警管理,數(shù)據(jù)統(tǒng)計(jì),權(quán)限管理等模塊。系統(tǒng)首頁如下圖4所示。
圖4 系統(tǒng)首頁展示
包括市電監(jiān)測、配電開關(guān)狀態(tài)監(jiān)測、UPS監(jiān)測。市電監(jiān)測實(shí)現(xiàn)是通過在配電柜中安裝一個電量儀,電量儀連接市電的進(jìn)線和電流互感器的連接線,然后將電量儀用雙絞線與環(huán)境監(jiān)控主機(jī)傳感器接口相連。從而達(dá)到監(jiān)測電壓U、電流I、頻率、功率因素、有功功率、無功功率等參數(shù)。配電開關(guān)狀態(tài)監(jiān)測實(shí)現(xiàn)是通過在配電柜中安裝一個配電開關(guān)模塊,配單開關(guān)模塊并接空氣開關(guān)的出線和連接電源防雷器輸出的信號,然后將配電開關(guān)用雙絞線與環(huán)境監(jiān)控主機(jī)傳感器接口相連。從而達(dá)到監(jiān)測市電配電主要空氣開關(guān)斷開或閉和狀態(tài),電源防雷器(帶開關(guān)量輸出)的狀態(tài)。UPS監(jiān)測實(shí)現(xiàn)是通過用數(shù)據(jù)線或網(wǎng)絡(luò)線將UPS直接連接到智能監(jiān)控模塊上,由智能監(jiān)控模塊將數(shù)據(jù)轉(zhuǎn)發(fā)到環(huán)境監(jiān)控主機(jī)上,這樣監(jiān)控主機(jī)就可以直接獲取到UPS的各項(xiàng)運(yùn)行參數(shù)、工作狀態(tài)、報警信息。從而達(dá)到監(jiān)測UPS整流器、逆變器、電池(電池健康,含電壓電流等數(shù)值)、旁路、負(fù)載等各部分的運(yùn)行狀態(tài)與參數(shù)。
包括溫濕度監(jiān)測、漏水檢測、視頻監(jiān)測。溫濕度監(jiān)測實(shí)現(xiàn)是通過將溫濕度傳感器布置在需要監(jiān)測的區(qū)域,將采集到的信號傳送到環(huán)境監(jiān)控主機(jī)上,在Web頁面上以動態(tài)的電子地圖,實(shí)時監(jiān)測處于不同空間位置的溫濕度的真實(shí)值。漏水檢測實(shí)現(xiàn)是通過在易產(chǎn)生漏水的區(qū)域鋪設(shè)漏水感應(yīng)線,將感應(yīng)線接到漏水控制器上,再將控制器的輸出信號接到環(huán)境監(jiān)控主機(jī)。當(dāng)漏水感應(yīng)線檢測到有漏水發(fā)生時,系統(tǒng)會立即報警。視頻監(jiān)測能對機(jī)房進(jìn)行實(shí)時監(jiān)視并在Web頁面查看,系統(tǒng)支持視頻多畫面瀏覽、錄像回放、視頻控制管理。
系統(tǒng)日志對自身及主機(jī)的操作、運(yùn)行、訪問、告警均有日志記錄以便追溯問題。
自身系統(tǒng)日志記錄包含:操作日志、訪問日志、告警發(fā)送日志。主機(jī)日志記錄包含:訪問日志、操作日志、事件日志。
當(dāng)監(jiān)測項(xiàng)超過設(shè)定的上下限值,判定為告警事件,為避免環(huán)境監(jiān)測量處在設(shè)定的上下限閾值波動時,系統(tǒng)不斷地重復(fù)判斷為報警事件,重復(fù)發(fā)送報警信息,增加預(yù)警狀態(tài),僅當(dāng)監(jiān)測量越過上下限值一定的時間才判斷為報警事件,預(yù)警時間可設(shè)置。告警展示通知告警信息及告警反饋信息流水式展示,在告警臺主頁面實(shí)現(xiàn)對嚴(yán)重告警信息及反饋信息流水式查看,以時間規(guī)律查看嚴(yán)重告警生成情況,并通過查看某個時間的告警事件,告警信息能夠自動關(guān)聯(lián)故障源的配置信息,掌握故障資源的相關(guān)管理信息,提升故障處理效率。
數(shù)據(jù)統(tǒng)計(jì)可選擇查詢的起止時間和查詢的傳感器來查詢該監(jiān)測點(diǎn)在這段時間內(nèi)的數(shù)據(jù)。查詢的內(nèi)容含有數(shù)據(jù)采集時間、描述、類型和數(shù)據(jù)??蓪v史數(shù)據(jù)做趨勢分析、對比分析,告警數(shù)據(jù)做告警次數(shù)統(tǒng)計(jì)、離線次數(shù)統(tǒng)計(jì),并可查看更多數(shù)據(jù)??蛇x擇起止時間、選擇具體某一個監(jiān)測對象來進(jìn)行小時、日、月統(tǒng)計(jì)。
該研究從頂層設(shè)計(jì)出發(fā),建立數(shù)據(jù)中心綜合監(jiān)控管理平臺,實(shí)現(xiàn)機(jī)房基礎(chǔ)設(shè)施的一體化監(jiān)控、管理。該系統(tǒng)具備全面的監(jiān)控管理功能、系統(tǒng)兼容能力、系統(tǒng)擴(kuò)展能力。設(shè)計(jì)建設(shè)流程化、信息化、自動化、智能化、可視化的數(shù)據(jù)中心基礎(chǔ)設(shè)施監(jiān)控管理系統(tǒng)。
可以實(shí)現(xiàn)機(jī)房基礎(chǔ)設(shè)施精細(xì)化管理,保障機(jī)房可用性;實(shí)現(xiàn)高度統(tǒng)一的信息共享、相互協(xié)調(diào)和聯(lián)動功能,機(jī)房整體監(jiān)控及管理所需要的重要信息進(jìn)行綜合處理、集中管理;實(shí)現(xiàn)各子系統(tǒng)之間的信息共享和集中的設(shè)備監(jiān)控、報警管理等功能,并通過信息發(fā)布系統(tǒng)實(shí)現(xiàn)關(guān)鍵信息的展示與交互操作。
為機(jī)房內(nèi)各系統(tǒng)及設(shè)備運(yùn)行提供高度穩(wěn)定可靠的監(jiān)控信息資源,減少了管理人員的負(fù)擔(dān),能夠快速高效的排除故障,并對已發(fā)生的故障做出全面的數(shù)據(jù)分析。