第一層展現(xiàn)層:通過(guò)虛擬IP或域名訪問(wèn)硬件監(jiān)控系統(tǒng),如果Portal1宕機(jī),Portal1用戶會(huì)切換到Portal2上。
第二層數(shù)據(jù)采集層:每個(gè)采集器負(fù)責(zé)監(jiān)控一部分設(shè)備,當(dāng)其中一個(gè)采集服務(wù)宕機(jī),它的采集任務(wù)自動(dòng)被其他采集服務(wù)接管。
第三層數(shù)據(jù)庫(kù)層:數(shù)據(jù)庫(kù) 支 持 MySQL、SQLServer、Oracle。數(shù)據(jù)庫(kù)集群采用其自身所支持的集群方式。
系統(tǒng)支持自動(dòng)采集設(shè)備的部件級(jí)的硬件配置信息如圖1所示,解決了資產(chǎn)信息不能及時(shí)同步的問(wèn)題。
對(duì)設(shè)備資產(chǎn)的位置、空間、能耗、責(zé)任人、IP等數(shù)據(jù)進(jìn)行可視化管理。統(tǒng)一可視化展現(xiàn)機(jī)房空間、能源使用情況,設(shè)備的物理位置、運(yùn)行狀態(tài)、設(shè)備視圖。
圖1 自動(dòng)采集部件級(jí)資產(chǎn)數(shù)據(jù)
支持對(duì)IBM、HP、DELL、等廠家的服務(wù)器的硬件狀態(tài)監(jiān)測(cè)。通過(guò)SNMPTrap、Syslog等方式獲取各類服務(wù)器帶外支持的告警信息,監(jiān)控系統(tǒng)能在幾秒鐘的時(shí)間內(nèi)獲取詳細(xì)的故障信息。通過(guò)服務(wù)器的管理口實(shí)現(xiàn)遠(yuǎn)程開(kāi)關(guān)機(jī)、重啟、單點(diǎn)登錄服務(wù)器操作系統(tǒng)功能、虛擬媒體功能。可以清晰了解設(shè)備故障率、維修率等信息。
通過(guò)Portal統(tǒng)一定義;“一鍵式”快速、批量的設(shè)置資源的監(jiān)控策略。對(duì)于相同類型的資源,可批量將其加入監(jiān)控策略,并且系統(tǒng)提供指標(biāo)的默認(rèn)值,不必一個(gè)一個(gè)去設(shè)定采集頻度、閾值等。對(duì)同一資源的相同組件也可采用不同的監(jiān)控策略。可根據(jù)設(shè)備的重要程度,設(shè)置不同的監(jiān)控頻度、閾值、事件級(jí)別、報(bào)警等,具備分級(jí)報(bào)警功能。
建立“知識(shí)庫(kù)”,通過(guò)檢索查詢自動(dòng)關(guān)聯(lián)類似故障處理的記錄匹配,提供給管理人員類似事故的解決方案和處理過(guò)程等信息,提高管理人員對(duì)事故的分析過(guò)程,從而達(dá)到提高用戶“自助式服務(wù)”能力的目的。
通過(guò)將CloudSino OOBS項(xiàng)目實(shí)施,對(duì)不同品牌服務(wù)器、存儲(chǔ)、光纖交換機(jī)的統(tǒng)一監(jiān)控管理,客戶能在第一時(shí)間得到設(shè)備的運(yùn)行狀態(tài),降低運(yùn)營(yíng)維護(hù)成本,控制風(fēng)險(xiǎn),使IT監(jiān)管工作建立在統(tǒng)一科學(xué)的管理標(biāo)準(zhǔn)上,保證生產(chǎn)系統(tǒng)安全、平穩(wěn)運(yùn)行。