遲海龍,陳小松,龔傳利,袁平路,諶斐鳴,汪濤
基于安全分區(qū)的IT設(shè)備運(yùn)維管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
遲海龍1,陳小松1,龔傳利1,袁平路1,諶斐鳴2,汪濤2
(1.北京中水科水電科技開發(fā)有限公司,北京 100038;2.五凌電力公司,湖南 長沙 433000)
目前水電廠開發(fā)都是按照流域內(nèi)梯級開發(fā)的,常常設(shè)有梯級流域控制中心。在控制中心內(nèi)集成了眾多的自動(dòng)化系統(tǒng),形成一個(gè)遠(yuǎn)程控制系統(tǒng)群。在這個(gè)系統(tǒng)群中部署了眾多的服務(wù)器、網(wǎng)絡(luò)設(shè)備等等可管控的設(shè)備。龐大繁雜的系統(tǒng)軟、硬件維護(hù)工作,對集控中心有限的維護(hù)人員提出了極高的要求。本文就是討論一種可以分布式部署跨越不同網(wǎng)段及安全分區(qū)的管控方案。通過該平臺方案可以消滅信息孤島,提高工作效率,保證集控系統(tǒng)的安全穩(wěn)定運(yùn)行,提升設(shè)備維護(hù)的自動(dòng)化、信息化、智能化水平。
水電廠;IT設(shè)備;運(yùn)行維護(hù);安全分區(qū);計(jì)算機(jī)監(jiān)控系統(tǒng)
目前很多水電站控制中心內(nèi)集成了眾多的自動(dòng)化系統(tǒng),形成一個(gè)遠(yuǎn)程控制系統(tǒng)群。在這個(gè)系統(tǒng)群中部署了眾多的服務(wù)器、網(wǎng)絡(luò)設(shè)備等可管控的設(shè)備。龐大繁雜的系統(tǒng)軟硬件維護(hù)工作,對有限的維護(hù)人員提出了極高的要求。
日益龐大的系統(tǒng)設(shè)備及其紛繁復(fù)雜的缺陷成為當(dāng)下很多電站運(yùn)行維護(hù)面臨的首要問題。如某水電公司控制中心里包括有計(jì)算機(jī)監(jiān)控系統(tǒng)、泄洪閘門監(jiān)控系統(tǒng)、流域梯級水調(diào)自動(dòng)化系統(tǒng)、繼電保護(hù)及故障錄波管理信息系統(tǒng)。共有服務(wù)器網(wǎng)絡(luò)設(shè)備多達(dá)百余臺。傳統(tǒng)人工巡檢方式只能做到“亡羊補(bǔ)牢”屬于事后處理的方式,很難在故障前做出預(yù)判防患于未然。僅靠傳統(tǒng)的人工巡檢,不僅效率低下,而且也很難及時(shí)準(zhǔn)確的定位問題原因并找到解決方案。
眾多種類的自動(dòng)化信息設(shè)備也對企業(yè)人員維護(hù)帶來不小挑戰(zhàn)。一個(gè)電站的自動(dòng)化系統(tǒng)群里除了包含各種主機(jī)服務(wù)器外,還包括了網(wǎng)絡(luò)設(shè)備,信息安全設(shè)備,視頻音頻傳輸轉(zhuǎn)換設(shè)備,動(dòng)力環(huán)境檢測設(shè)備眾多種類設(shè)備,對于不同種類的設(shè)備巡檢給企業(yè)生產(chǎn)人員也帶來不小的挑戰(zhàn)。這些問題都可能成為企業(yè)發(fā)展的掣肘因素。
為了消滅信息孤島,提高工作效率,保證自動(dòng)化系統(tǒng)的安全穩(wěn)定運(yùn)行,提升設(shè)備維護(hù)的自動(dòng)化、信息化、智能化水平,急需建設(shè)一套跨安全分區(qū)的集控系統(tǒng)運(yùn)行狀態(tài)集中智能監(jiān)管平臺,對控制中心各支撐系統(tǒng)的軟、硬件運(yùn)行狀態(tài)實(shí)現(xiàn)智能監(jiān)管及分析。
2.1總體目標(biāo)
(1)強(qiáng)化主動(dòng)尋找,扭轉(zhuǎn)被動(dòng)服務(wù)局面。目前,維護(hù)工作主要由業(yè)務(wù)人員發(fā)現(xiàn)故障后提出維護(hù)請求,另一方式是技術(shù)人員巡檢發(fā)現(xiàn)故障。建成智能監(jiān)管平臺后,將采用設(shè)備主動(dòng)向監(jiān)控中心報(bào)告故障與監(jiān)控中心向設(shè)備定時(shí)發(fā)巡檢指令兩種形式。以電子巡檢代替人工巡檢,可以大大縮短巡檢周期。技術(shù)人員可以搶在業(yè)務(wù)人員發(fā)現(xiàn)系統(tǒng)故障前知道系統(tǒng)故障并完成系統(tǒng)的維護(hù)任務(wù),改變被動(dòng)服務(wù)的局面。
(2)幫助定位故障,迅速恢復(fù)系統(tǒng)運(yùn)行。幫助定位故障是業(yè)務(wù)人員操作問題還是技術(shù)故障。如果是技術(shù)故障,系統(tǒng)能通過監(jiān)控到的指標(biāo)幫助定位故障,通過知識庫幫助技術(shù)人員解決。
(3)掌握運(yùn)行效率,合理利用科技資源。采用智能監(jiān)管平臺后,可以實(shí)時(shí)了解全部IT資源的使用情況,根據(jù)需要從整體角度考慮資源的使用,甚至可以根據(jù)業(yè)務(wù)高峰期的不同來調(diào)劑業(yè)務(wù)系統(tǒng)對資源的使用。
(4)規(guī)范運(yùn)行管理,有序開展科技維護(hù)。規(guī)范管理的目的是將管理數(shù)據(jù)電子化,管理過程規(guī)范化。在智能監(jiān)管平臺中根據(jù)科技制度、規(guī)范建立相應(yīng)的流程,辦事規(guī)定,如建立維護(hù)服務(wù)中心、實(shí)行維護(hù)問題的首問負(fù)責(zé)制、建立設(shè)備維護(hù)的登記制度,加強(qiáng)設(shè)備的巡檢任務(wù)督辦等。
(5)提供分析報(bào)表,保障系統(tǒng)穩(wěn)定運(yùn)行。提供性能分析報(bào)表、資源統(tǒng)計(jì)報(bào)表、運(yùn)維分析報(bào)表,如統(tǒng)計(jì)業(yè)務(wù)系統(tǒng)的平均無故障運(yùn)行時(shí)間,運(yùn)行維護(hù)的事件、發(fā)生故障的原因,技術(shù)人員根據(jù)報(bào)表及時(shí)將經(jīng)常發(fā)生的事件上升為問題。
(6)實(shí)行任務(wù)督辦,確保按期完成任務(wù)。智能監(jiān)管平臺中集成科技部門負(fù)責(zé)人布置科技項(xiàng)目、了解項(xiàng)目進(jìn)展,督促項(xiàng)目工作、協(xié)調(diào)項(xiàng)目工作的一個(gè)窗口,對所有項(xiàng)目運(yùn)行情況、資源使用情況進(jìn)行總體監(jiān)控,及時(shí)發(fā)現(xiàn)問題并指導(dǎo)解決具體問題。
2.2設(shè)計(jì)原則
(1)良好的集成性。智能監(jiān)管平臺各模塊間能夠高度集成,能夠?qū)崿F(xiàn)信息自動(dòng)流轉(zhuǎn)和傳遞;能夠提供一個(gè)集成的管理平臺對所收集到的信息進(jìn)行分析、過濾及報(bào)警等處理,并能與第三方管理軟件或其他業(yè)務(wù)系統(tǒng)良好集成。
(2)開放性。智能監(jiān)管平臺系統(tǒng)結(jié)構(gòu),硬、軟件平臺的設(shè)計(jì)和開發(fā)工作都要遵循“標(biāo)準(zhǔn)和開放”的原則,遵循業(yè)界標(biāo)準(zhǔn),并提供開放、靈活的信息交互及管理接口,實(shí)現(xiàn)靈活的數(shù)據(jù)交換功能。當(dāng)引入新的子系統(tǒng)時(shí),智能監(jiān)管平臺只需經(jīng)過少量配置,便可對其發(fā)揮管理作用,保護(hù)前期的開發(fā)投資。
(3)可用性。智能監(jiān)管平臺的部署不需對原有的系統(tǒng)結(jié)構(gòu)、安全策略等方面做出修改和調(diào)整,對原有系統(tǒng)性能影響最小化,盡量少地占用網(wǎng)絡(luò)資源。
(4)先進(jìn)性。建立的智能監(jiān)管平臺和采用的技術(shù)應(yīng)在國內(nèi)外具有先進(jìn)性,使用當(dāng)前主流技術(shù),符合當(dāng)前技術(shù)和管理發(fā)展方向。
(5)可維護(hù)性。智能監(jiān)管平臺應(yīng)結(jié)構(gòu)靈活,采用模塊化結(jié)構(gòu),具有較好的可維護(hù)性,可以根據(jù)需要修改某個(gè)模塊,增加新的功能。同時(shí)對相關(guān)安全產(chǎn)品的技術(shù)升級具有較好的適應(yīng)性,能夠通過相應(yīng)參數(shù)的簡單調(diào)整來進(jìn)行對升級后的安全產(chǎn)品監(jiān)控和管理。
(6)實(shí)用性。智能監(jiān)管平臺應(yīng)掩蓋被管理系統(tǒng)的復(fù)雜性,以更為邏輯、更為直觀的方式組織管理信息,用戶界面直觀一致、方便易學(xué),適合于業(yè)務(wù)人員操作使用,功能實(shí)用。
(7)安全可靠性。智能監(jiān)管平臺要安全可靠,并要保護(hù)業(yè)務(wù)部門的數(shù)據(jù)安全和秘密,提供諸如口令保護(hù),傳輸加密等安全手段。
(8)實(shí)時(shí)性。智能監(jiān)管平臺應(yīng)能動(dòng)態(tài)、實(shí)時(shí)地反映各子系統(tǒng)的運(yùn)行狀況,以便故障的及時(shí)處理,保證整個(gè)安全監(jiān)控管理系統(tǒng)的正常運(yùn)行。
2.3管控對象
水電廠智能設(shè)備管控一體化平臺管控網(wǎng)絡(luò)中的幾乎所有的實(shí)體,并能夠給系統(tǒng)管理員提供一個(gè)全面系統(tǒng)的網(wǎng)絡(luò)視圖。能夠管控的對象包括:
各種主流網(wǎng)絡(luò)設(shè)備,包括思科、H3C、衛(wèi)士通、天融信、珠海鴻瑞等品牌的路由器、交換機(jī)、縱向加密裝置、防火墻、隔離裝置等。
HP、IBM、DELL等主流品牌的服務(wù)器硬件設(shè)備。
計(jì)算機(jī)監(jiān)控、泄洪閘門、水情水調(diào)、通信網(wǎng)絡(luò)、電能計(jì)量、保護(hù)子站、GPS對時(shí)、視頻監(jiān)控、生產(chǎn)管理、機(jī)房動(dòng)環(huán)等系統(tǒng)應(yīng)用程序。
WINDOWS、AIX、HPUNIX、SOLARIS、REDHAT LINUX、SCOUNIX等操作系統(tǒng)。
WEBLOGIC、APACHE、IIS、TOMCAT、WEBSPH ERE等中間件。
ORACLE、SQLSERVER、MYSQL、INFORMIX、DB2、SYBASE等主流品牌的數(shù)據(jù)庫。
3.1總體框架圖
圖1 智能管理平臺總體結(jié)構(gòu)圖
本系統(tǒng)的總體框架是基于目前網(wǎng)絡(luò)管理平臺體系的主流分層次框架,按照業(yè)務(wù)的內(nèi)容劃分為前端發(fā)布層、數(shù)據(jù)處理層(中間件層)和后端的數(shù)據(jù)采集層(圖1)。整個(gè)系統(tǒng)前端基于EXTWEB前端發(fā)布框架。展示內(nèi)容主要通過PC端的瀏覽器和手機(jī)移動(dòng)端APP的方式發(fā)布。也可以通過水電站的監(jiān)控系統(tǒng)界面或者ONCALL語音等接口發(fā)布數(shù)據(jù)。中間處理層主要是各個(gè)模塊系統(tǒng)數(shù)據(jù)處理的WEB服務(wù)接口層。數(shù)據(jù)中心采用主流大型商用數(shù)據(jù)庫Oracle進(jìn)行整個(gè)系統(tǒng)節(jié)點(diǎn)的數(shù)據(jù)倉儲。后端采集模塊主要通過通用的snmp抓取方式和自定義的Agent的模式進(jìn)行抓取,后者主要是作為前者細(xì)分業(yè)務(wù)層面的補(bǔ)充。智能管理平臺的總體軟件包括:普通主機(jī)服務(wù)器節(jié)點(diǎn)平臺軟件部分和主服務(wù)器平臺軟件部分。
管理服務(wù)器節(jié)點(diǎn)平臺軟件運(yùn)行在各大分區(qū)的管理服務(wù)機(jī)器上,負(fù)責(zé)本分區(qū)內(nèi)智能管理設(shè)備的信息采集、匯總、重定向等工作。管理服務(wù)器節(jié)點(diǎn)平臺軟件除了普通節(jié)點(diǎn)軟件模塊以外還包括主采集輪詢模塊、數(shù)據(jù)記錄模塊、人機(jī)交互管理及數(shù)據(jù)展示模塊。
數(shù)據(jù)采集模塊:主要負(fù)責(zé)各個(gè)節(jié)點(diǎn)信息的收集、查詢、匯總等工作。同時(shí)非Ⅲ區(qū)的管理機(jī)器還要負(fù)責(zé)將自己分區(qū)的管理信息重定向到Ⅲ區(qū)管理服務(wù)器上做數(shù)據(jù)的匯總工作。
數(shù)據(jù)處理模塊:主要負(fù)責(zé)將匯總的信息進(jìn)行各個(gè)主機(jī)內(nèi)文件方式的記錄。Ⅲ區(qū)總管理服務(wù)器同時(shí)還要將采集到的信息按照預(yù)定義好的分類方式寫入到歷史數(shù)據(jù)服務(wù)器當(dāng)中。
前端顯示模塊:主要是為專家系統(tǒng)服務(wù)。主要負(fù)責(zé)數(shù)據(jù)的整理、加工、展示等工作。
普通服務(wù)器節(jié)點(diǎn)平臺軟件中主要包括主機(jī)駐留服務(wù)進(jìn)程、消息通訊交互模塊和數(shù)據(jù)同步更新模塊等幾部分。
3.2平臺部署
一種智能平臺管理系統(tǒng)結(jié)構(gòu)典型部署情況如圖2所示,從圖中可以看出,當(dāng)前水電站控制中心的常見計(jì)算機(jī)設(shè)備由各個(gè)調(diào)度及管理、控制等子系統(tǒng)構(gòu)成。每個(gè)子系統(tǒng)中設(shè)備主要分為:主機(jī)系統(tǒng)、可網(wǎng)管的網(wǎng)絡(luò)設(shè)備包括交換機(jī)路由器等,不可網(wǎng)關(guān)的網(wǎng)絡(luò)設(shè)備如:縱向加密、防火墻、物理隔離裝置等設(shè)備。圖中表示出各個(gè)生產(chǎn)分區(qū)內(nèi)部的各個(gè)子系統(tǒng)的連接關(guān)系,同時(shí)也表示出各個(gè)生產(chǎn)分區(qū)之間的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。
為了能夠進(jìn)行前端智能設(shè)備的采集,在I區(qū)、II區(qū)、III區(qū)分別部署了相應(yīng)區(qū)域的平臺管理計(jì)算機(jī)用于信息的采集、分配和信息重新定向等工作。電站前端側(cè)的智能設(shè)備管理信息采集部署在電站側(cè)的前置通訊機(jī)上,負(fù)責(zé)采集本側(cè)的可管理的主機(jī)設(shè)備的信息采集、重定向工作。
圖2 水電廠典型智能管控系統(tǒng)部署結(jié)構(gòu)圖
3.3跨區(qū)域信息分發(fā)機(jī)制
(1)不同安全分區(qū)信息分發(fā)
在滿足國家電力系統(tǒng)二次安全防護(hù)相關(guān)條例的前提下,跨安全分區(qū)對集控中心系統(tǒng)側(cè)和廠站前端側(cè)設(shè)備的軟、硬件運(yùn)行狀態(tài)進(jìn)行集中智能監(jiān)管,包括:監(jiān)控、閘門、水情、通信、電能量、保護(hù)子站、GPS對時(shí)、視頻監(jiān)控、生產(chǎn)管理、機(jī)房環(huán)境監(jiān)測等系統(tǒng),并預(yù)留系統(tǒng)接口。
集控中心按照國家電力系統(tǒng)二次安全防護(hù)要求目前分為生產(chǎn)實(shí)時(shí)區(qū)(I)、生產(chǎn)非實(shí)時(shí)(II)、生產(chǎn)管理信息區(qū)(III)以及電站前置管理區(qū)(IV)等4個(gè)大區(qū)。如何在這4個(gè)區(qū)域內(nèi)對管理信息進(jìn)行采集、分發(fā)、重定向是本課題研究的一個(gè)主要內(nèi)容。目的就是要能做到各個(gè)生產(chǎn)分區(qū)內(nèi)的需要管理的設(shè)備信息能夠透明無障礙地分發(fā)和查看。
(2)不同網(wǎng)段之間信息分發(fā)
在同一分區(qū),由于業(yè)務(wù)的需要都會劃分出多個(gè)子系統(tǒng)來完成不同的業(yè)務(wù)層面處理。各個(gè)子系統(tǒng)之間主要由網(wǎng)關(guān)機(jī)器上的網(wǎng)關(guān)進(jìn)程進(jìn)行守候?qū)π畔⑦M(jìn)行分發(fā)。該網(wǎng)關(guān)機(jī)通過不同網(wǎng)段的網(wǎng)口收集本網(wǎng)段側(cè)的主機(jī)信息并向主網(wǎng)段發(fā)送,最終信息歸集到本區(qū)內(nèi)的管理服務(wù)主機(jī)內(nèi)。
為了做好管控信息的互聯(lián)和各子系統(tǒng)業(yè)務(wù)生產(chǎn)信息的橫向隔離,在生產(chǎn)大區(qū)網(wǎng)內(nèi)劃分多個(gè)管理VLAN和生產(chǎn)信息VLAN,用于管理的數(shù)據(jù)采集服務(wù)器可以通過各個(gè)VLAN的網(wǎng)關(guān),采集到本分區(qū)內(nèi)的所有設(shè)備的管理信息。同時(shí)又要保證各個(gè)子分區(qū)內(nèi)的不同業(yè)務(wù)分區(qū)機(jī)器之間彼此沒有網(wǎng)絡(luò)層面的互聯(lián)能力,進(jìn)而保證了各個(gè)子系統(tǒng)的生產(chǎn)信息的相互獨(dú)立和分離。
3.4智能管理平臺數(shù)據(jù)流向
考慮到整個(gè)網(wǎng)絡(luò)分為4個(gè)大區(qū),即:生產(chǎn)實(shí)時(shí)區(qū)(I)、生產(chǎn)非實(shí)時(shí)(II)、生產(chǎn)管理信息區(qū)(III)以及電站前置管理區(qū)(Ⅳ)等4個(gè)大區(qū),各大區(qū)之間網(wǎng)絡(luò)互聯(lián)均由相關(guān)網(wǎng)絡(luò)設(shè)備進(jìn)行連接,分別由防火墻、物理隔離裝置、路由器、縱向加密裝置等設(shè)備進(jìn)行連接,具體連接方式見圖3。
由于管理信息系統(tǒng)跨越各大生產(chǎn)分區(qū)系統(tǒng),有的分區(qū)之間出于安全考慮,數(shù)據(jù)流向只能為由內(nèi)向外的單方向。所以整個(gè)管理系統(tǒng)的數(shù)據(jù)信息中心初步設(shè)定在生產(chǎn)信息查詢區(qū)(III區(qū)),其他各個(gè)區(qū)域都有分別對應(yīng)的管理中心服務(wù)器做本區(qū)域的主機(jī)設(shè)備信息的采集整理工作,然后通過重定向的方式將信息向III區(qū)匯總。
圖3 跨越分區(qū)的管理數(shù)據(jù)流向示意圖
4.1主機(jī)及網(wǎng)絡(luò)設(shè)備的監(jiān)控
(1)主機(jī)設(shè)備硬件管理
可以采集包括主機(jī)硬件、軟件在內(nèi)的眾多資源的描述信息并進(jìn)行入庫登記,主要可采集的硬件信息包括CPU、磁盤、內(nèi)存、主板等描述及資源使用信息。
(2)網(wǎng)絡(luò)設(shè)備監(jiān)控
對網(wǎng)絡(luò)設(shè)備的性能參數(shù)進(jìn)行采集,包括網(wǎng)絡(luò)設(shè)備的CPU、內(nèi)存等性能參數(shù)及端口利用率、丟包率、延時(shí)等網(wǎng)絡(luò)性能的統(tǒng)計(jì)。網(wǎng)絡(luò)管理系統(tǒng)收集數(shù)據(jù)應(yīng)占用較少的網(wǎng)絡(luò)帶寬,特別是對廣域網(wǎng)(含城域網(wǎng))的設(shè)備管理。
(3)網(wǎng)絡(luò)及拓?fù)涔芾?/p>
網(wǎng)絡(luò)拓?fù)涔δ苣軌蜃詣?dòng)發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備,并動(dòng)態(tài)地顯示當(dāng)前網(wǎng)絡(luò)的拓?fù)錉顩r,持續(xù)監(jiān)測網(wǎng)絡(luò)節(jié)點(diǎn)狀態(tài);監(jiān)視網(wǎng)絡(luò)設(shè)備的故障,進(jìn)行故障診斷及定位分析,告警信息可通過圖形方式對不同的運(yùn)行狀態(tài)和告警級別進(jìn)行顯示。
自動(dòng)發(fā)現(xiàn)拓?fù)?、可以?shí)現(xiàn)拓?fù)溥^濾和定制。探測網(wǎng)絡(luò)層/鏈路層網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備,并以可視化拓?fù)浣Y(jié)構(gòu)表示其連接關(guān)系、運(yùn)行狀態(tài);監(jiān)視網(wǎng)絡(luò)設(shè)備的在線、離線狀態(tài),同時(shí)可以查看可網(wǎng)管設(shè)備的網(wǎng)絡(luò)接口的狀態(tài)、網(wǎng)絡(luò)設(shè)備端口的負(fù)荷轉(zhuǎn)發(fā)率等使用參數(shù)。
4.2應(yīng)用系統(tǒng)的管理
目前的應(yīng)用系統(tǒng)包含了:核心業(yè)務(wù)系統(tǒng)、中間業(yè)務(wù)系統(tǒng)等,對其管理主要包括兩方面:
監(jiān)控業(yè)務(wù)系統(tǒng)進(jìn)程,發(fā)現(xiàn)問題后及時(shí)報(bào)警并以適當(dāng)方式重新啟動(dòng)該進(jìn)程。其他各個(gè)系統(tǒng)進(jìn)程的管理,能夠?qū)﹄娬緝?nèi)大多數(shù)系統(tǒng)進(jìn)程進(jìn)行管理,能夠產(chǎn)生相關(guān)報(bào)警信息并對進(jìn)程進(jìn)行必要合理的干預(yù)。能夠提供業(yè)務(wù)管理視圖,當(dāng)系統(tǒng)出現(xiàn)故障時(shí),可以及時(shí)的反映到業(yè)務(wù)視圖上,標(biāo)識故障影響的業(yè)務(wù)及影響程度;并提供根源問題發(fā)現(xiàn)功能,快速定位影響業(yè)務(wù)的故障。
4.3數(shù)據(jù)庫系統(tǒng)監(jiān)控
支持ORACLE等商用數(shù)據(jù)庫??刹榭磾?shù)據(jù)庫使用情況,如表空間信息等。對總的歷史庫的性能綜合展示,如表空間的使用情況,內(nèi)存的劃分等數(shù)據(jù)庫的性能分析,數(shù)據(jù)庫表中碎片率,提交任務(wù)的工作情況,會話、語句等使用的空間,該模塊不僅可以監(jiān)控?cái)?shù)據(jù)庫常見基本信息,還可以針對水電站監(jiān)控系統(tǒng)的一些專屬數(shù)據(jù)庫信息進(jìn)行定制性監(jiān)控。
4.4數(shù)據(jù)文件管理
電廠內(nèi)所有需要同步的機(jī)器都需要安裝管理平臺軟件,并啟動(dòng)服務(wù)端模塊。需要為電廠配置文件同步服務(wù)器,并為文件同步服務(wù)器建立一個(gè)網(wǎng)絡(luò)通道。采用TCP/IP點(diǎn)對點(diǎn)通道協(xié)議,支持跨越廣域網(wǎng)和不同安全分區(qū)的文件傳遞方式??梢詫﹄姀S內(nèi)主機(jī)系統(tǒng)上的數(shù)據(jù)文件進(jìn)行發(fā)布和版本控制等常見管理。
4.5日志管理
日志管理系統(tǒng)提供對操作系統(tǒng)(windows,solaris,AIX)、計(jì)算機(jī)硬件、網(wǎng)絡(luò)設(shè)備(可管理交換機(jī)、路由器)數(shù)據(jù)庫(Oracle)、H9000監(jiān)控系統(tǒng)日志的收集、查看、搜索關(guān)鍵字等功能。
4.6故障管理
監(jiān)測收集各種網(wǎng)絡(luò)運(yùn)行信息,當(dāng)發(fā)生故障時(shí)自動(dòng)報(bào)警,實(shí)現(xiàn)故障檢測、發(fā)現(xiàn)、報(bào)告、診斷和處理。包括應(yīng)用程序故障、存儲設(shè)備故障、通訊故障、系統(tǒng)崩潰和周邊設(shè)備故障。當(dāng)故障發(fā)生時(shí)產(chǎn)生報(bào)警信息并推送至預(yù)定義的終端顯示中。
對發(fā)生的故障有手動(dòng)和自動(dòng)處理兩種方式。對發(fā)生的故障可以以系統(tǒng)命令、批處理程序、運(yùn)用程序等來解決的采用自動(dòng)方式;對不能采用自動(dòng)方式解決的,啟動(dòng)報(bào)警系統(tǒng)提示管理員以手動(dòng)方式解決。
4.7機(jī)房動(dòng)環(huán)管理
系統(tǒng)中預(yù)留有對機(jī)房動(dòng)環(huán)系統(tǒng)的通訊接口,可以對機(jī)房監(jiān)控系統(tǒng)監(jiān)測:溫濕度、空調(diào)、UPS、防水。采用現(xiàn)代化的科技管理手段,配備機(jī)房環(huán)境監(jiān)控系統(tǒng),提高機(jī)房的運(yùn)維管理能力,及時(shí)地發(fā)現(xiàn)和排除故障隱患,從而為各業(yè)務(wù)系統(tǒng)的穩(wěn)定運(yùn)行提供強(qiáng)有力的保障。
4.8資產(chǎn)管理
實(shí)現(xiàn)在分布式多平臺環(huán)境下,從單點(diǎn)有效管理水電廠所有資產(chǎn)。自動(dòng)地搜集、驗(yàn)證、跟蹤和管理被管對象的資產(chǎn)信息,建立資產(chǎn)管理數(shù)據(jù)庫。在資產(chǎn)管理數(shù)據(jù)庫里包括有硬件,如CPU、Memory、硬盤、網(wǎng)卡等,以及應(yīng)用軟件的詳細(xì)信息。
4.9自動(dòng)巡檢
自動(dòng)巡檢提供一鍵式檢查特定設(shè)備的運(yùn)行狀態(tài),提示異常狀態(tài),并輸出巡檢報(bào)告。巡檢內(nèi)容包括巡檢設(shè)備的設(shè)定,指定哪些設(shè)備參與自動(dòng)巡檢,及指定設(shè)備巡檢內(nèi)容。包括服務(wù)器硬件使用狀態(tài)、服務(wù)進(jìn)程運(yùn)行狀態(tài)、進(jìn)程運(yùn)行統(tǒng)計(jì)、操作系統(tǒng)的報(bào)警及錯(cuò)誤日志信息、應(yīng)用程序報(bào)警及錯(cuò)誤日志信息、數(shù)據(jù)庫報(bào)警及錯(cuò)誤日志信息、數(shù)據(jù)同步操作日志信息。
4.10信息發(fā)布
(1)桌面設(shè)備終端發(fā)布展示
在桌面系統(tǒng)中可以展示數(shù)據(jù)庫中記錄的各個(gè)職能設(shè)備狀態(tài)參量,后期數(shù)據(jù)可以通過多種方式進(jìn)行展示,在本方案中應(yīng)該支持目前常見的多種圖形,如餅圖、柱狀圖、曲線、工況點(diǎn)分布圖等圖形。通過比較直觀的方式給維護(hù)人員清楚的展示出數(shù)據(jù)中所蘊(yùn)含的意義、發(fā)展趨勢等信息表計(jì)。
(2)移動(dòng)設(shè)備終端發(fā)布
支持對主流移動(dòng)設(shè)備平臺上軟件運(yùn)行,通過APP的方式預(yù)置安裝在手機(jī)、PAD等移動(dòng)數(shù)據(jù)終端上。考慮到移動(dòng)平臺處理能力及網(wǎng)絡(luò)帶寬的限制。在移動(dòng)平臺上應(yīng)該主要實(shí)現(xiàn)對設(shè)備的監(jiān)視查看功能。
以上所述的功能都是基于數(shù)據(jù)庫的,是在信息采集后做簡單加工后做基本展示的功能。本系統(tǒng)中還設(shè)計(jì)和部署了基于規(guī)則庫和知識庫的智能化應(yīng)用。這些基于規(guī)則庫和知識庫的高級應(yīng)用部分可以為運(yùn)維人員在故障診斷分析中起到輔助的作用,具有一定專家系統(tǒng)支持的功能。
圖4 專家系統(tǒng)
一般而言,基于數(shù)據(jù)庫的系統(tǒng)僅用于處理數(shù)據(jù)和輸出信息,常常導(dǎo)入信息數(shù)據(jù)泛濫。用戶不清楚哪些數(shù)據(jù)是真正的重要,他們甚至不清楚如果要做一個(gè)準(zhǔn)確的斷定,是否已經(jīng)有足夠的信息。有太多的選擇困擾著用戶,導(dǎo)致他們處理的速度放慢。前端展示系統(tǒng)下面有太多的重復(fù)冗余信息,運(yùn)維人員想知道更多的深層次原因,而不僅僅是簡單信息羅列。
在該平臺的高級應(yīng)用功能中部署了基于規(guī)則庫的規(guī)則引擎和基于時(shí)序分析的工作流引擎。規(guī)則引擎可以在觸發(fā)啟動(dòng)后,導(dǎo)入規(guī)則庫內(nèi)的規(guī)則知識信息,然后從數(shù)據(jù)庫中查看規(guī)則內(nèi)的數(shù)據(jù)點(diǎn)狀態(tài)信息。通過推理和模式匹配方法生成規(guī)則結(jié)論,該結(jié)論作為工作流引擎的節(jié)點(diǎn)的路由選擇依據(jù),按照規(guī)則產(chǎn)生結(jié)論尋找流程的相應(yīng)流程路由處理過程。通過規(guī)則的推理匹配及與設(shè)定的知識處理流程的流轉(zhuǎn)判斷完成整個(gè)專家知識系統(tǒng)推理判斷及推薦專家建議等工作。
規(guī)則庫及知識庫:
知識庫中存放著各種異常情況所致原因、解決方法與操作步驟等具體參考信息。當(dāng)異常發(fā)生時(shí),在系統(tǒng)中只需點(diǎn)擊該異常信息的“幫助”鍵,即可自動(dòng)關(guān)聯(lián)到系統(tǒng)的知識庫,并從中找到或匹配到與該異常相關(guān)的知識。從而幫助運(yùn)維人員在處理故障時(shí)能有據(jù)可依,提高運(yùn)維效率。另外,資深技術(shù)人員的運(yùn)維經(jīng)驗(yàn)和普通運(yùn)維人員每次故障處理的過程,也可以通過知識錄入的方式添加到系統(tǒng)的知識庫中作為知識共享,當(dāng)其他運(yùn)維人員再次遇到此類事件后能夠快速找到可供參考的解決方案,進(jìn)一步提高故障恢復(fù)與解決的效率。
專家系統(tǒng)的問題求解過程是通過知識庫中的知識來模擬專家的思維方式,因此,知識庫是專家系統(tǒng)質(zhì)量是否優(yōu)越的關(guān)鍵所在,即知識庫中知識的質(zhì)量和數(shù)量決定著專家系統(tǒng)的質(zhì)量水平。用戶可以通過改變、完善知識庫中的知識內(nèi)容來提高專家系統(tǒng)的性能。
在本方案中,知識庫可以通過人為輸入的方式將智能設(shè)備運(yùn)行工況的基本參數(shù),運(yùn)行方式等常用的運(yùn)行模式錄入到知識庫中,通過預(yù)定義的邏輯編程運(yùn)算,通過對報(bào)警事件等信息加工提煉出設(shè)備運(yùn)行中存在的問題和隱患,并按照知識庫中預(yù)定義的處理方案措施給出相關(guān)的處理意見和步驟。
故障智能分析預(yù)測系統(tǒng):
對于常見的故障可以進(jìn)行編號整理,并給出預(yù)案處理信息,通過報(bào)警、生成報(bào)表等手段提供給設(shè)備的管理人員,供后期故障分析處理使用。通過數(shù)據(jù)的趨勢分析功能能夠?qū)\(yùn)行當(dāng)中設(shè)備的工況給出預(yù)警提示信息。做到防患于未然。
本文從目前水電廠自動(dòng)化系統(tǒng)規(guī)模日益增長與人力資源相對緊張的矛盾出發(fā),提出一種針對水電站及梯級流域開發(fā)中心所使用的基于安全分區(qū)的IT設(shè)備管控及實(shí)現(xiàn)方案。該方案可以跨越水電廠各大安全分區(qū)實(shí)時(shí)地分發(fā)和記錄IT設(shè)備的各個(gè)狀態(tài)分量,同時(shí)通過數(shù)據(jù)庫和預(yù)定義的知識庫對設(shè)備健康狀況進(jìn)行跟蹤記錄及診斷預(yù)警處理。不僅能夠減輕系統(tǒng)運(yùn)維人員的勞動(dòng)強(qiáng)度,還可以盡量降低系統(tǒng)運(yùn)行中的各種風(fēng)險(xiǎn)。通過該管控方案可以消滅信息孤島,提高工作效率,提升設(shè)備維護(hù)的自動(dòng)化、信息化、智能化水平。
[1]王德寬,袁宏,王崢瀛,等.H9000V4.0計(jì)算機(jī)監(jiān)控系統(tǒng)
技術(shù)特點(diǎn)概要[J].水電自動(dòng)化與大壩監(jiān)測,2007,31(3):16-18.
TP315
A
1672-5387(2016)08-0047-06
10.13599/j.cnki.11-5130.2016.08.014
2016-06-29
遲海龍(1975-),男,高級工程師,研究方向:水電站自動(dòng)化控制,水電站計(jì)算機(jī)監(jiān)控系統(tǒng)。