摘要:為提升長(zhǎng)江水文數(shù)據(jù)中心設(shè)施設(shè)備和運(yùn)行環(huán)境監(jiān)控能力,提高網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)資源的故障處置效率,聚焦數(shù)據(jù)中心環(huán)境設(shè)施設(shè)備運(yùn)維監(jiān)控“痛點(diǎn)”,設(shè)計(jì)了數(shù)據(jù)中心智能監(jiān)控系統(tǒng)的總體架構(gòu),結(jié)合長(zhǎng)江水文特點(diǎn)和數(shù)字孿生技術(shù),研發(fā)了長(zhǎng)江水文數(shù)據(jù)中心智能監(jiān)控系統(tǒng)。應(yīng)用結(jié)果表明:該系統(tǒng)可以實(shí)現(xiàn)數(shù)字化、可視化、智能化的實(shí)時(shí)監(jiān)控和預(yù)警,利用網(wǎng)絡(luò)管理協(xié)議實(shí)時(shí)獲取硬件設(shè)備和虛擬化設(shè)備的實(shí)時(shí)運(yùn)行狀態(tài)信息,并與動(dòng)環(huán)監(jiān)控系統(tǒng)結(jié)合,用戶可實(shí)時(shí)監(jiān)控機(jī)房所有設(shè)備和運(yùn)行環(huán)境,第一時(shí)間取得告警信息,便于及時(shí)對(duì)各類(lèi)告警事件進(jìn)行有效處置;運(yùn)用三維可視化技術(shù),實(shí)現(xiàn)了機(jī)房3D可視化,可實(shí)時(shí)智能發(fā)掘設(shè)備潛在隱患。研究成果可為設(shè)備預(yù)防性運(yùn)維管理和安全生產(chǎn)管理提供參考。
關(guān)鍵詞:數(shù)字孿生; SNMP協(xié)議; 虛擬化; 智能監(jiān)控; 數(shù)據(jù)中心; 3D機(jī)房
中圖法分類(lèi)號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
DOI:10.15974/j.cnki.slsdkb.2024.11.020
文章編號(hào):1006-0081(2024)11-0128-06
0 引 言
長(zhǎng)江水文數(shù)據(jù)中心歷經(jīng)十余年的建設(shè)與發(fā)展,已建成了集計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源環(huán)境于一體的集群體系,承載了水文網(wǎng)站、雨水情交換系統(tǒng)、智慧水文監(jiān)測(cè)信息系統(tǒng)(WISH/愿景系統(tǒng))等數(shù)十個(gè)業(yè)務(wù)系統(tǒng),在長(zhǎng)江水文的信息化支撐方面發(fā)揮了重要作用[1]。長(zhǎng)江水文水情數(shù)據(jù)中心總共涵蓋1個(gè)水情中心、8個(gè)下屬單位和15個(gè)分中心,具有點(diǎn)多、線長(zhǎng)、面廣的特點(diǎn),全江網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)由數(shù)據(jù)專(zhuān)線組成的報(bào)汛骨干網(wǎng)、計(jì)算存儲(chǔ)資源和安全防護(hù)資源組成的局域網(wǎng)以及由安全防護(hù)和流量設(shè)備隔離的園區(qū)網(wǎng)組成,所涉及的設(shè)備種類(lèi)繁多,數(shù)量龐大。因此,業(yè)務(wù)系統(tǒng)采集與產(chǎn)生的水位、流量、水質(zhì)和泥沙等水文數(shù)據(jù)具有實(shí)時(shí)性強(qiáng)、數(shù)據(jù)量大、存儲(chǔ)周期長(zhǎng)的特點(diǎn),長(zhǎng)期以來(lái)依賴(lài)人工定期巡檢,不僅效率低且存在監(jiān)控死角。為克服設(shè)備運(yùn)行維護(hù)工作的短板,建設(shè)一套長(zhǎng)江水文數(shù)據(jù)中心智能監(jiān)控系統(tǒng),對(duì)于提升水情數(shù)據(jù)報(bào)汛骨干網(wǎng)的保障能力具有重要意義[2]。
本文綜合考慮長(zhǎng)江水文數(shù)據(jù)中心設(shè)備繁多、分布廣泛、故障處理要求嚴(yán)格等情況,通過(guò)SNMP(簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議)協(xié)議獲取各設(shè)備動(dòng)態(tài)數(shù)據(jù),包括CPU、內(nèi)存、磁盤(pán)空間等,實(shí)現(xiàn)設(shè)備監(jiān)控與動(dòng)環(huán)監(jiān)控系統(tǒng)集成。同時(shí),通過(guò)代碼接口讀取UPS、精密空調(diào)、溫濕度傳感器數(shù)據(jù),構(gòu)建3D機(jī)房,可視化展示設(shè)備位置、硬件配置、環(huán)境參數(shù)等信息。
1 總體設(shè)計(jì)
長(zhǎng)江水文數(shù)據(jù)中心智能監(jiān)控系統(tǒng)采用了經(jīng)典的MVP(Model-View-Presenter)架構(gòu)分層設(shè)計(jì)模式,實(shí)現(xiàn)了前后端數(shù)據(jù)分離。Presenter分別連接View與Model并對(duì)業(yè)務(wù)邏輯進(jìn)行處理,消除Model與View的耦合,使其無(wú)法直接進(jìn)行交互,同時(shí)也從View模塊中剝離了業(yè)務(wù)邏輯,系統(tǒng)架構(gòu)見(jiàn)圖1。
(1) 物理層。物理層包括系統(tǒng)所部署的虛擬化平臺(tái)(虛擬服務(wù)器)、物理主機(jī)和高性能存儲(chǔ),主要為系統(tǒng)的服務(wù)部署、數(shù)據(jù)存儲(chǔ)提供基礎(chǔ)環(huán)境。
(2) 感知層。感知層不僅承載數(shù)據(jù)采集、傳輸、轉(zhuǎn)發(fā)、存儲(chǔ)等功能,還需要完成數(shù)據(jù)分析和預(yù)處理的功能。數(shù)據(jù)中心環(huán)控?cái)?shù)據(jù)、硬件設(shè)備和虛擬服務(wù)器狀態(tài)信息、業(yè)務(wù)系統(tǒng)服務(wù)運(yùn)行狀態(tài)分別由相應(yīng)的傳感器、SNMP協(xié)議和控制臺(tái)管理軟件采集[3],獲得的原始數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)清洗后存入數(shù)據(jù)層。
(3) 數(shù)據(jù)層。數(shù)據(jù)層的關(guān)系型數(shù)據(jù)庫(kù)SQL Server包括監(jiān)測(cè)業(yè)務(wù)、設(shè)備信息和機(jī)房環(huán)境數(shù)據(jù)庫(kù),非結(jié)構(gòu)化數(shù)據(jù)庫(kù)存放日志文件數(shù)、配置文件以及三維模型庫(kù)存儲(chǔ)3D場(chǎng)景的設(shè)備模型數(shù)據(jù)。另外,數(shù)據(jù)層通過(guò)資源文件調(diào)用并配合模型層的數(shù)據(jù)服務(wù)請(qǐng)求會(huì)對(duì)讀取的資源進(jìn)行解析。
(4) 模型層。模型層主要通過(guò)JBDC標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)連接接口,使用SQL語(yǔ)句實(shí)現(xiàn)對(duì)數(shù)據(jù)層的直接操作。模型層首先對(duì)數(shù)據(jù)中心各類(lèi)設(shè)施設(shè)備進(jìn)行建模處理,對(duì)于后續(xù)設(shè)備更新和修改操作,通過(guò)數(shù)據(jù)接口寫(xiě)入數(shù)據(jù)庫(kù),并響應(yīng)業(yè)務(wù)邏輯層提交的查詢(xún)請(qǐng)求。
(5) 邏輯業(yè)務(wù)層。 使用MyBatis實(shí)現(xiàn)邏輯業(yè)務(wù)層的數(shù)據(jù)采集和處理,通過(guò)底層的bean對(duì)象模型封裝與設(shè)施設(shè)備匹配,并連接數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)交互。邏輯業(yè)務(wù)層提供數(shù)據(jù)接口給應(yīng)用層查詢(xún)服務(wù),展示設(shè)備參數(shù)、機(jī)房環(huán)境和日志等信息。主要功能包括告警信息發(fā)送、機(jī)房對(duì)象管理、機(jī)房場(chǎng)景渲染等。同時(shí)邏輯業(yè)務(wù)層解析系統(tǒng)數(shù)據(jù)層采集的數(shù)據(jù),返回結(jié)果至表現(xiàn)層展示。
(6) 應(yīng)用層。展示系統(tǒng)的web主頁(yè)面,3D可視化展示通過(guò)WebGL和Three.js框架構(gòu)建的客戶端模塊[4],通過(guò)DispatcherServlet調(diào)用Handler進(jìn)行數(shù)據(jù)和場(chǎng)景的加載處理,并將處理結(jié)果返回至前端頁(yè)面進(jìn)行渲染,實(shí)現(xiàn)3D場(chǎng)景的展現(xiàn)形式。
2 關(guān)鍵技術(shù)研究
該系統(tǒng)通過(guò)數(shù)字孿生技術(shù)構(gòu)建長(zhǎng)江水文數(shù)據(jù)中心三維模型,結(jié)合機(jī)房環(huán)境的告警算法,實(shí)現(xiàn)對(duì)機(jī)房設(shè)備環(huán)境的實(shí)時(shí)監(jiān)控,使傳統(tǒng)機(jī)房監(jiān)控向智能化邁進(jìn)。數(shù)據(jù)中心的3D可視化基于WebGL的3D引擎Three.js設(shè)計(jì)實(shí)現(xiàn),由于WebGL進(jìn)行3D視圖渲染對(duì)GPU的資源占用較多,從而對(duì)場(chǎng)景視圖渲染的FPS(frames per second)指標(biāo)造成影響[5],進(jìn)而影響3D展示效果。本項(xiàng)目引入LOD(level of detail)優(yōu)化算法,降低場(chǎng)景的幾何復(fù)雜性,減小GPU的負(fù)載,有效提高了機(jī)房3D模型的渲染速度,優(yōu)化了展示效果。
2.1 場(chǎng)景建模與優(yōu)化
數(shù)據(jù)中心可視化場(chǎng)景可以分為機(jī)房場(chǎng)景和機(jī)房設(shè)備模型。本系統(tǒng)的機(jī)房場(chǎng)景使用WebGL的3D引擎Three.js搭建,對(duì)于需要考慮具體尺寸的機(jī)柜內(nèi)部設(shè)備,通過(guò)在機(jī)房實(shí)景測(cè)量后的真實(shí)比例進(jìn)行單位換算,并使用Blender工具進(jìn)行三維建模[3]。
機(jī)房的整體布局基于在WebGL繪圖協(xié)議的頁(yè)面上添加Canvas元素以實(shí)現(xiàn)畫(huà)布功能[6]。實(shí)現(xiàn)畫(huà)布功能,首先在Canvas逐個(gè)進(jìn)行繪制,根據(jù)實(shí)際測(cè)量的機(jī)房尺寸,配置出外墻、門(mén)窗、地板等對(duì)象,之后再將此類(lèi)對(duì)象封裝成JSON格式,在收到客戶端的數(shù)據(jù)請(qǐng)求時(shí),服務(wù)端返回JSON格式的文件,包括機(jī)房場(chǎng)景、機(jī)柜設(shè)備和設(shè)備信息等。后期調(diào)整基于JSON文件中的參數(shù)修正。機(jī)房基礎(chǔ)場(chǎng)景如圖2所示。
機(jī)房?jī)?nèi)設(shè)備的建模主要依賴(lài)于Blender軟件的Three.js導(dǎo)出器插件,該插件將模型文件導(dǎo)出為JSON格式,使其能被Three.js解析[7],其中場(chǎng)景的具體需求基于模型文件上對(duì)機(jī)柜、設(shè)備參數(shù)的修改[3]。最后通過(guò)JSONLoader類(lèi)中的Load方法加載所需文件,完成在數(shù)據(jù)中心的3D場(chǎng)景中添加機(jī)柜和設(shè)備的操作。機(jī)房設(shè)備建模如圖3~5所示。
3D可視化的基礎(chǔ)是建立場(chǎng)景模型,考慮到系統(tǒng)的易用性和用戶體驗(yàn)感,場(chǎng)景模型必須得到快速的加載和渲染,因此對(duì)應(yīng)的模型優(yōu)化方法需要在機(jī)房場(chǎng)景建模時(shí)充分考慮,從而降低系統(tǒng)模型的加載負(fù)荷,避免出現(xiàn)場(chǎng)景卡頓、畫(huà)面失真的情況。
針對(duì)模型優(yōu)化問(wèn)題,本文以機(jī)房場(chǎng)景中機(jī)柜設(shè)備為例,將同一類(lèi)型組的簡(jiǎn)單幾何對(duì)象刪除或者弱化交叉的部分,使得幾何體元素減少疊加。采用優(yōu)化算法將優(yōu)化對(duì)象的點(diǎn)、面、線等細(xì)節(jié)降低,從而減小模型的復(fù)雜程度,進(jìn)而提升系統(tǒng)對(duì)場(chǎng)景的渲染速度[8]。在實(shí)際的三維場(chǎng)景開(kāi)發(fā)中,通常采用刪減的操作簡(jiǎn)化模型,如圖6所示,三維模型被轉(zhuǎn)化為三角網(wǎng)格,通過(guò)對(duì)機(jī)房設(shè)備幾何外觀的表面冗余元素進(jìn)行刪除,實(shí)現(xiàn)了簡(jiǎn)化單個(gè)模型。
LOD優(yōu)化一般通過(guò)計(jì)算模型包圍球的半徑完成,根據(jù)公式(1),n代表不同對(duì)象簡(jiǎn)化的參考值,當(dāng)參考值小于0則進(jìn)行正常渲染,否則對(duì)目標(biāo)對(duì)象進(jìn)行幾何簡(jiǎn)化。其中wi表示不同場(chǎng)景中對(duì)象的權(quán)重,設(shè)置視距閾值來(lái)獲取對(duì)象形狀的包圍球z[i]。其中(xz[i],yz[i],zz[i])是球心坐標(biāo),(xviw,yviw,zviw)是視點(diǎn)三維坐標(biāo),rz[i]為球的半徑,t表示常量,用于控制參考值[8]。
n=wi×rz[i](xviw-xz[i])2+(yviw-yz[i])2+(zviw-zz[i])2-t(1)
使用LOD算法對(duì)場(chǎng)景圖像復(fù)雜度進(jìn)行優(yōu)化,并對(duì)立方體模型的棱角進(jìn)行模糊弱化處理,在保持其不失真的狀態(tài)下減小對(duì)服務(wù)器CPU使用率的占用,場(chǎng)景的簡(jiǎn)化也降低了對(duì)用戶終端計(jì)算性能的要求,基于此,大幅提升了3D場(chǎng)景在客戶端的渲染速度,提供了更簡(jiǎn)潔的用戶操作方式和良好的用戶體驗(yàn)。優(yōu)化后的場(chǎng)景渲染速率如表1所示。
2.2 智能異常檢測(cè)
傳統(tǒng)機(jī)房異常檢測(cè)存在兩個(gè)亟待優(yōu)化的難題:① 傳統(tǒng)的閾值報(bào)警方法不能保證異常報(bào)警的準(zhǔn)確度,單純通過(guò)閾值判斷不能自適應(yīng)地捕獲動(dòng)態(tài)變化下的機(jī)房異常;② 數(shù)據(jù)不平衡問(wèn)題,數(shù)據(jù)監(jiān)控出現(xiàn)異常的場(chǎng)景較少,這導(dǎo)致了監(jiān)控?cái)?shù)據(jù)正負(fù)數(shù)據(jù)樣本的極端不平衡,無(wú)法準(zhǔn)確地進(jìn)行異常檢測(cè)判斷。
本系統(tǒng)設(shè)計(jì)了在時(shí)序演進(jìn)方向進(jìn)行遞歸且所有節(jié)點(diǎn)按鏈?zhǔn)竭B接的循環(huán)神經(jīng)網(wǎng)絡(luò)作為異常檢測(cè)的智能方法載體。網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)為若干串行的、相互連接的神經(jīng)單元集成,每個(gè)神經(jīng)單元擁有3個(gè)節(jié)點(diǎn),分別輸出ft,Ct與ht。
第一個(gè)節(jié)點(diǎn)ft為遺忘節(jié)點(diǎn),該節(jié)點(diǎn)決定了網(wǎng)絡(luò)架構(gòu)應(yīng)該遺忘什么,見(jiàn)式(2):
ft=σWf·[ht-1,F(xiàn)t]+bf(2)
式中:Wf為網(wǎng)絡(luò)中的權(quán)值變量;bf為輸出ft對(duì)應(yīng)的偏置變量,類(lèi)似于斜率和截距的表示;ht-1為上一個(gè)隱藏層的輸出;將機(jī)房的歷史監(jiān)測(cè)時(shí)序數(shù)據(jù)輸入切割成大量的子序列,F(xiàn)t為網(wǎng)絡(luò)當(dāng)前層當(dāng)前時(shí)間步的輸入;ht-1,F(xiàn)t為將前一個(gè)隱藏層的輸出與當(dāng)前時(shí)間步的輸入進(jìn)行向量連接。σ即為sigmoid函數(shù),定義如下:
σ(x)=11+e-x(3)
第二個(gè)節(jié)點(diǎn)Ct為輸入節(jié)點(diǎn),輸入節(jié)點(diǎn)使用sigmoid函數(shù)和tanh函數(shù)來(lái)規(guī)約并更新記憶單元中的值變量,更新過(guò)程表示如式(4)~(6)所示。其中,it為記憶單元更新后的結(jié)果,c~t為權(quán)重變量。
it=σWi·[ht-1,F(xiàn)t]+bi(4)
c~t=tanhWc·[ht-1,F(xiàn)t]+bc(5)
Ct=ft×Ct-1+it×c~t(6)
通過(guò)上述方式,計(jì)算生成的Ct傳遞給下一個(gè)記憶單元,并在過(guò)程中捕獲并學(xué)習(xí)相關(guān)幀信息的表達(dá),實(shí)現(xiàn)網(wǎng)絡(luò)的進(jìn)一步迭代更新。
第三個(gè)節(jié)點(diǎn)為輸出節(jié)點(diǎn),輸出節(jié)點(diǎn)生成隱藏輸出ht以計(jì)算和優(yōu)化下一個(gè)記憶單元的權(quán)值,輸出節(jié)點(diǎn)定義見(jiàn)式(7),(8),其中ot是輸出節(jié)點(diǎn)的激活值,通過(guò)sigmoid函數(shù)激活。
ot=σWo·[ht-1,F(xiàn)t]+bo(7)
ht=ot×tanhCt(8)
遺忘節(jié)點(diǎn)、輸入節(jié)點(diǎn)和輸出節(jié)點(diǎn)的計(jì)算有著相似的形式,通過(guò)這種結(jié)構(gòu)挖掘了神經(jīng)網(wǎng)絡(luò)在漫長(zhǎng)歷史時(shí)間步下的收益,對(duì)連續(xù)時(shí)序數(shù)據(jù)中隱藏的信號(hào)進(jìn)行了分解和組合表示,以此實(shí)現(xiàn)有效獲得時(shí)序數(shù)據(jù)的特征表示。
總的來(lái)說(shuō),網(wǎng)絡(luò)的架構(gòu)如式(9)所示:
ct,ht=fLSTMit,ct-1,ht-1;Θk(9)
式中:it為機(jī)房監(jiān)測(cè)數(shù)據(jù)在時(shí)間步t的輸入;ct-1為在時(shí)間步t-1時(shí)記憶單元的狀態(tài);ht-1為在時(shí)間步t-1時(shí)隱藏層的狀態(tài);Θk為神經(jīng)網(wǎng)絡(luò)的參數(shù);fLSTM為映射方法。
網(wǎng)絡(luò)的內(nèi)部記憶狀態(tài)使它們能夠?qū)W習(xí)輸入的機(jī)房監(jiān)測(cè)數(shù)據(jù)特征和輸出之間的長(zhǎng)期依賴(lài)關(guān)系,這對(duì)溫濕度、動(dòng)力監(jiān)測(cè)等長(zhǎng)時(shí)間尺度的機(jī)房環(huán)境過(guò)程物理建模非常有效。目前基于時(shí)序數(shù)據(jù)的智能預(yù)警在長(zhǎng)江水文數(shù)據(jù)中心監(jiān)控場(chǎng)景下已初步落地,提高了異常監(jiān)測(cè)的報(bào)警準(zhǔn)確度。
3 應(yīng)用實(shí)踐
該系統(tǒng)的主要功能分解為數(shù)據(jù)中心設(shè)施設(shè)備關(guān)鍵信息數(shù)據(jù)實(shí)時(shí)采集、設(shè)備的更新與替換、告警策略制定與告警通知、3D可視化展示等4個(gè)方面,以模塊化、標(biāo)準(zhǔn)化、可視化、智能化的開(kāi)發(fā)思路設(shè)計(jì)了數(shù)據(jù)中心全方位監(jiān)控平臺(tái),實(shí)現(xiàn)了低成本、少維護(hù)、大規(guī)模和高效率的應(yīng)用研究。
3.1 數(shù)據(jù)采集模塊
設(shè)備狀態(tài)信息的采集依賴(lài)于SNMP協(xié)議實(shí)現(xiàn)。當(dāng)用戶進(jìn)行查詢(xún)操作時(shí),SNMP數(shù)據(jù)采集模塊將被調(diào)用,被監(jiān)控的設(shè)備數(shù)據(jù)被系統(tǒng)遍歷后,獲取被監(jiān)控設(shè)備的Trap信息并在存入本地?cái)?shù)據(jù)庫(kù)之前進(jìn)行判斷解析,進(jìn)而推送至前端展示頁(yè)面[9]。SNMP數(shù)據(jù)采集模塊的工作流程如圖7所示。
數(shù)據(jù)采集模塊按照設(shè)定策略通過(guò)SNMP協(xié)議定時(shí)向各個(gè)網(wǎng)絡(luò)設(shè)備抓取運(yùn)行狀態(tài)數(shù)據(jù),承載水文業(yè)務(wù)的服務(wù)器中存儲(chǔ)的重要水文數(shù)據(jù)如水位、流量、生態(tài)流量斷面、泥沙含量等均采用Oracle RAC雙節(jié)點(diǎn)存儲(chǔ)并采用異地備份策略。對(duì)于數(shù)據(jù)分中心之間的數(shù)據(jù)同步進(jìn)程,本系統(tǒng)通過(guò)指定端口采集JVM實(shí)時(shí)狀態(tài)信息從而對(duì)水文數(shù)據(jù)傳輸服務(wù)進(jìn)行監(jiān)控[10]。
3.2 數(shù)據(jù)處理模塊
本地?cái)?shù)據(jù)庫(kù)選用SQL Server,數(shù)據(jù)處理模塊根據(jù)采集的設(shè)備種類(lèi)進(jìn)行分類(lèi)管理。根據(jù)長(zhǎng)江水文現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)和服務(wù)器的規(guī)劃和使用現(xiàn)狀形成了網(wǎng)絡(luò)拓?fù)鋱D,并依據(jù)承載水文業(yè)務(wù)的服務(wù)器數(shù)據(jù)庫(kù)組合成業(yè)務(wù)拓?fù)浣Y(jié)構(gòu),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)設(shè)備互聯(lián)或業(yè)務(wù)運(yùn)行情況直接感知。系統(tǒng)根據(jù)設(shè)備的軟件狀態(tài)信息以及物理狀態(tài)信息,設(shè)定告警閾值和防抖動(dòng)策略。將采集的數(shù)據(jù)及實(shí)時(shí)告警存入本地?cái)?shù)據(jù)庫(kù)中,實(shí)現(xiàn)整個(gè)數(shù)據(jù)中心從宏觀到微觀,從設(shè)施設(shè)備到服務(wù)進(jìn)程的監(jiān)控效果。
3.3 系統(tǒng)告警策略
系統(tǒng)根據(jù)設(shè)備資產(chǎn)的重要性分級(jí)分域管理,制定不同的告警等級(jí)、規(guī)則和采樣周期策略。水情分中心的關(guān)鍵網(wǎng)絡(luò)設(shè)備采樣間隔為5 min。服務(wù)器、中間件、數(shù)據(jù)庫(kù)等關(guān)鍵監(jiān)控對(duì)象的高頻采樣率則可保障水情服務(wù)發(fā)布、水資源分析計(jì)算、河流湖泊監(jiān)測(cè)等業(yè)務(wù)的穩(wěn)定運(yùn)行,權(quán)衡高采樣率對(duì)數(shù)據(jù)庫(kù)性能造成負(fù)面影響,此類(lèi)計(jì)算存儲(chǔ)服務(wù)資源采樣頻率設(shè)置為2 min。數(shù)據(jù)中心環(huán)境參數(shù)的采樣頻率與設(shè)備內(nèi)置傳感器一致,設(shè)置為10 min。
系統(tǒng)對(duì)于各類(lèi)資產(chǎn)設(shè)備的告警等級(jí)也做了分類(lèi)處理。對(duì)于網(wǎng)絡(luò)和安全類(lèi)設(shè)備,在網(wǎng)絡(luò)拓?fù)渲谐袚?dān)重要數(shù)據(jù)傳輸節(jié)點(diǎn)的作用,重點(diǎn)告警參數(shù)為設(shè)備的連接狀態(tài)和端口的吞吐率等,定義為一類(lèi)告警對(duì)象[10];服務(wù)器設(shè)備主要關(guān)注對(duì)象為磁盤(pán)空間使用情況、中間件運(yùn)行狀態(tài)等信息,此類(lèi)服務(wù)承載設(shè)備對(duì)于長(zhǎng)江水文內(nèi)部辦公和對(duì)外服務(wù)的穩(wěn)定運(yùn)行意義重大,都采用主從集群部署方式,有較強(qiáng)的可用性,定義為二類(lèi)告警對(duì)象。
在觸發(fā)真實(shí)告警之前,系統(tǒng)會(huì)對(duì)達(dá)到告警閾值的信息做預(yù)處理,實(shí)現(xiàn)方式是采用連續(xù)心跳(ping/echo)的機(jī)制,根據(jù)實(shí)際網(wǎng)絡(luò)帶寬的情況設(shè)置心跳抖動(dòng)頻率,對(duì)比多次采樣結(jié)果從而判斷是否觸發(fā)告警,避免設(shè)備狀態(tài)信息更新延遲造成告警誤報(bào)。
系統(tǒng)通過(guò)HTTP接口與MAS平臺(tái)短信網(wǎng)關(guān)做集成,根據(jù)短信網(wǎng)關(guān)提供的接口傳參規(guī),當(dāng)系統(tǒng)判斷達(dá)到告警閾值而觸發(fā)真實(shí)告警時(shí),調(diào)用短信網(wǎng)關(guān)將告警設(shè)備的狀態(tài)信息發(fā)送給網(wǎng)絡(luò)運(yùn)維人員,使其根據(jù)實(shí)時(shí)告警信息準(zhǔn)確獲取網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中的告警詳情,從而有效提高數(shù)據(jù)中心故障處置速率并且降低對(duì)人工巡檢的依賴(lài)程度。
3.4 3D可視化
長(zhǎng)江水文數(shù)據(jù)中心3D可視化功能包含了設(shè)備維護(hù)、3D場(chǎng)景漫游、健康管理和模型庫(kù)維護(hù)功能。
(1) 設(shè)備維護(hù)。用戶可根據(jù)機(jī)房實(shí)際情況添加、刪除系統(tǒng)中的設(shè)備,可編輯設(shè)備的具體信息。
(2) 3D場(chǎng)景漫游。系統(tǒng)為用戶提供觀察者模式,調(diào)用對(duì)應(yīng)的控制腳本,使得用戶能夠在機(jī)房場(chǎng)景中縮放、調(diào)整視野,通過(guò)控制方向完成視角巡視功能。
(3) 健康管理。用戶可對(duì)機(jī)房設(shè)備健康有直觀了解,如圖8所示,可通過(guò)機(jī)柜告警信息迅速找到該設(shè)備,有效節(jié)省尋跡時(shí)間。
(4) 模型庫(kù)維護(hù)。可根據(jù)場(chǎng)景需要,添加不同廠商、型號(hào)的設(shè)備,建立特定的模型庫(kù),利用模型管理功能加載模型文件。
基于上述的系統(tǒng)功能設(shè)計(jì)和關(guān)鍵技術(shù)實(shí)現(xiàn),通過(guò)實(shí)時(shí)采集長(zhǎng)江水文數(shù)據(jù)中心設(shè)施設(shè)備運(yùn)行狀態(tài)信息,構(gòu)建告警反饋機(jī)制,建設(shè)以機(jī)房布局場(chǎng)景、機(jī)柜設(shè)備和動(dòng)環(huán)設(shè)施模型為基礎(chǔ)的可視化展示,結(jié)合三維建模、渲染優(yōu)化、網(wǎng)絡(luò)協(xié)議應(yīng)用和數(shù)據(jù)清洗技術(shù),構(gòu)建了基于數(shù)字孿生技術(shù)的長(zhǎng)江水文數(shù)據(jù)中心智能監(jiān)控系統(tǒng)。系統(tǒng)整合長(zhǎng)江水文數(shù)據(jù)中心分散的設(shè)備資源信息并納入監(jiān)控,分別建立相應(yīng)的拓?fù)浣Y(jié)構(gòu)和資產(chǎn)清單,并通過(guò)在數(shù)字孿生環(huán)境中對(duì)各類(lèi)監(jiān)控對(duì)象建立對(duì)應(yīng)的預(yù)警指標(biāo)體系,實(shí)現(xiàn)數(shù)據(jù)中心的動(dòng)態(tài)預(yù)警[11],為數(shù)據(jù)中心智能運(yùn)維和安全生產(chǎn)監(jiān)督提供指導(dǎo),并輔助管理層做治理決策。目前長(zhǎng)江水文數(shù)據(jù)中心智能監(jiān)控系統(tǒng)取得優(yōu)異的試運(yùn)行效果,大大提升了數(shù)據(jù)中心的運(yùn)維管理水平,消除了機(jī)房安全管理的隱患死角,解放了繁重巡檢任務(wù)的人力需求。
4 結(jié) 語(yǔ)
本文從水文局中心機(jī)房的日常運(yùn)維出發(fā),深入探討了數(shù)字孿生可視化技術(shù)的解決方案。針對(duì)環(huán)境監(jiān)測(cè)領(lǐng)域的實(shí)際需求,實(shí)現(xiàn)了包括數(shù)據(jù)采集、數(shù)據(jù)處理、告警識(shí)別、日志監(jiān)控的全方位閉環(huán)管理功能,并構(gòu)建了網(wǎng)絡(luò)、業(yè)務(wù)、系統(tǒng)、機(jī)房的完整拓?fù)鋱D,為數(shù)字孿生技術(shù)在機(jī)房監(jiān)控領(lǐng)域應(yīng)用提供了可借鑒的思路。通過(guò)該系統(tǒng),實(shí)現(xiàn)了對(duì)數(shù)據(jù)中心設(shè)施設(shè)備、系統(tǒng)服務(wù)運(yùn)維更為直觀和高效的故障檢測(cè),顯著增強(qiáng)了管理資源的可視化展示能力,不僅提高了故障處理的效率,還為運(yùn)維人員提供了更為便捷的管理工具。后續(xù)將進(jìn)一步利用數(shù)字孿生技術(shù)開(kāi)展對(duì)設(shè)備運(yùn)行狀態(tài)的分析預(yù)測(cè)工作,以實(shí)現(xiàn)物理世界與數(shù)字世界的無(wú)縫對(duì)接和雙向映射,持續(xù)為長(zhǎng)江水文數(shù)據(jù)中心安全運(yùn)行提供有力支撐。
參考文獻(xiàn):
[1] 李國(guó)英.建設(shè)數(shù)字孿生流域推動(dòng)新階段水利高質(zhì)量發(fā)展[N].學(xué)習(xí)時(shí)報(bào),2022-06-29(1).
[2] 索開(kāi)華.基于SNMP的氣象設(shè)備監(jiān)控系統(tǒng)[J].信息技術(shù)與信息化,2021(9):103-105.
[3] 盧建華,劉曉琳,張玉炳,等.基于數(shù)字孿生的水庫(kù)大壩安全管理云服務(wù)平臺(tái)研發(fā)與應(yīng)用[J].水利水電快報(bào),2022,43(1):81-86.
[4] 徐健,趙保成,魏思奇,等.數(shù)字孿生流域可視化技術(shù)研究與實(shí)踐[J].水利水電快報(bào),2023,44(8):127-130.
[5] DANCHILLA B.Beginning WebGL for HTML5[M].New York:Apress,2012.
[6] 方強(qiáng).基于WebGL的3D圖形引擎設(shè)計(jì)與實(shí)現(xiàn)[D].合肥:安徽大學(xué),2013.
[7] JACINTO H,KCHICHIAN R,DESVIGNES M,et al.A web interface for 3D visualization and interactive segmentation of medical images[C]∥Proceedings of the 17th International Conference on 3D Web Technology.New York:ACM,2012:51-58.
[8] 蔣召召.基于WebGL的數(shù)據(jù)中心3D可視化系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].杭州:浙江工業(yè)大學(xué),2019.
[9] 范文梅,關(guān)偉成.SNMP v3的安全機(jī)制綜述[J].科教文匯(下旬刊),2012(12):78-80.
[10] 臧其事,周俊琦,謝立帆.基于SNMP v3的數(shù)據(jù)中心設(shè)備監(jiān)控系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)字技術(shù)與應(yīng)用,2018,36(9):112-113.
[11] 徐瑞,葉芳毅.基于數(shù)字孿生技術(shù)的三維可視化水利安全監(jiān)測(cè)系統(tǒng)[J].水利水電快報(bào),2022,43(1):87-91.
(編輯:李 晗)
Design and research on intelligent monitoring system of Yangtze River Hydrological Data Center
XU Ye,LIU Di,GAO Jun,ZOU Bingyu
(Bureau of Hydrology,Changjiang Water Resources Commission,Wuhan 430010,China)
Abstract:
In order to increase the ability of monitoring facilities and operating environment and enhance the efficiency of processing malfunction of the network,computing and storage resource of Yangtze River Hydrological Data Center,we focused on the difficult points of monitoring operation and maintenance of data center environmental facilities and equipment and designed the overall architecture.Combined with the features of Yangtze River Hydrological Data Center,we developed an intelligent monitoring system based on digital twin technology to achieve digital,visual and intelligent real-time monitoring and warning.The network management protocol was used to obtain real-time operating status information of hardware equipment and virtualization equipment in real time.In case of abnormality,alarm information will be delivered to the user as soon as possible.Integrated with the power and environment monitoring system,the system allows users to monitor the physical information of all equipment and environments in the information engine room in real time which helps users to effectively handle various events timely.Combined with the digital twin information engine room visual technology.The system explores real-time potential hidden dangers of equipment,which can provide a reference for preventive operation and maintenance management of equipment and safty of production.
Key words:
digital twin; SNMP agreement; virtualization; intelligent monitor; data center; 3D information server room