陳展欽 羅遠梅 馬麗明
隨著市場經濟的發(fā)展,科學信息技術已日益成為提高醫(yī)院科學管理水平、醫(yī)療服務質量和醫(yī)療工作效率的有效手段[1],醫(yī)院信息化運維也隨著建設發(fā)展而日益復雜化,給醫(yī)院管理者、硬件、軟件運維工程師的工作增加了復雜性,給醫(yī)院信息化運維提出了前所未有的挑戰(zhàn)。
醫(yī)院IT運維面臨的挑戰(zhàn):醫(yī)院業(yè)務對IT依賴性在不斷加強,醫(yī)院信息化程度提高、基于IT技術的醫(yī)療業(yè)務不斷創(chuàng)新;醫(yī)院7×24可用性需求:醫(yī)院業(yè)務的特殊性,決定了醫(yī)院信息系統(tǒng)必須滿足隨時隨地的服務請求;日趨復雜的醫(yī)院IT系統(tǒng)技術架構,一項簡單應用穿越多個資源層面,故障診斷和恢復變得越來越困難;持續(xù)增長的醫(yī)院IT運營成本壓力。
醫(yī)院IT運維管理的現(xiàn)狀:“以資源為中心”監(jiān)控運維模式,即不同的維護工程師負責某一部分的醫(yī)院信息系統(tǒng)運維工作,由于分散性模塊化管理,浪費了人力資源與降低了工作效率。
醫(yī)院IT運維中的幾個常見問題,也制約著醫(yī)院信息化的建設與發(fā)展;資源不足:醫(yī)院IT運維投入跟不上IT規(guī)模的增長、IT復雜性變化永遠快于IT人員成長、IT日常運行維護工作占據大量時間、IT運維知識轉化、傳遞和共享不足;被動響應:70%的故障是終端用戶首先發(fā)現(xiàn)的,存在監(jiān)測盲點,缺乏故障預警能力、主動監(jiān)控機制;監(jiān)控孤島:缺乏統(tǒng)一集中的監(jiān)控管理平臺,無法直接洞察全局,無法快速定位用戶問題根源;面向設備:無法建立IT資源與業(yè)務之間關聯(lián)、與業(yè)務部門之間缺乏非技術性溝通界面、不能準確判斷事件對業(yè)務的影響,等等。
醫(yī)院IT集成監(jiān)控管理平臺,應以醫(yī)院業(yè)務應用監(jiān)控為重點和主線,并涵蓋支撐醫(yī)院業(yè)務應用正常運作之IT基礎架構的各個部件,以最終實現(xiàn)醫(yī)院業(yè)務應用健康狀況全方位監(jiān)控平臺[2]。監(jiān)控范圍應分為兩個維度,縱向為網絡、服務器、數據庫、中間件和應用系統(tǒng)5個層次,并可擴展到業(yè)務運作健康狀況監(jiān)控,橫向為可用性、性能、資源、安全和異常錯誤5個方面監(jiān)控內容。
在日常發(fā)展復雜的醫(yī)院信息化建設中,醫(yī)院IT集成監(jiān)控管理平臺能為醫(yī)院帶來幾個層面的效益;業(yè)務負責人:與IT技術人員有了共同視圖,提高了溝通效率,幫助確定問題優(yōu)先級別,確保醫(yī)院關鍵業(yè)務可用性;應用程序負責人:加快問題定位速度,減少宕機時間,縮短故障恢復時間,在用戶受影響之前檢測到潛在問題,提高醫(yī)院各業(yè)務部門的滿意度;IT支持人員:協(xié)助發(fā)現(xiàn)故障隱患,快速定位問題根源,了解IT事件的業(yè)務影響,正確安排工作優(yōu)先級;主動發(fā)現(xiàn)故障隱患,確保IT基礎架構和服務的穩(wěn)定運行。
基于醫(yī)院IT運維面臨的挑戰(zhàn)和問題,業(yè)務的高速發(fā)展,迫切地需要我們提了一個行之有效的解決方案,該方案必須滿足以下幾個需求:醫(yī)院IT資源監(jiān)控,滿足標準設備和平臺的監(jiān)測能力;業(yè)務服務監(jiān)控,滿足標準服務探測,具有強大的非標服務定制能力;滿足按照業(yè)務和管理的需要[3],靈活組織監(jiān)控視圖,方面日常監(jiān)控管理。
服務端:Linux服務器+Mysql數據庫+監(jiān)控分析外掛,三者整合為一臺硬件引擎,方便快速部署與管理;終端:根據采集需要部署探針或代理;實現(xiàn)從“面向設備”到“面向業(yè)務”的運維理念轉變,業(yè)務服務建模、實現(xiàn)IT與業(yè)務關聯(lián),服務影響分析、服務可用性報告;實現(xiàn)從“被動運維”到“主動運維”的運維方式轉變,主動服務偵測,全面消除監(jiān)測盲點,故障主動預警,真正做到防患于未然;實現(xiàn)從“分散監(jiān)控”到“集中監(jiān)控”的管控模式轉變,消除監(jiān)控孤島、集中事件管理、統(tǒng)一服務視圖。
網絡設備:監(jiān)控應全面管理支持SNMP協(xié)議各個網絡設備廠商,監(jiān)控設備類型包括交換機、路由器、防火墻、負載均衡等設備,監(jiān)控內容包括設備可用性(ping)、端口流量、端口使用率、內存使用率、CPU使用率等。
主機/操作系統(tǒng):監(jiān)控應從多個方面對服務器硬件資源和操作系統(tǒng)進行監(jiān)控管理,監(jiān)控內容包括非法登錄監(jiān)測、存儲空間監(jiān)測、CPU負載監(jiān)測、物理內存監(jiān)測、交換區(qū)空間監(jiān)測、IO負載監(jiān)測、集群狀態(tài)監(jiān)測、指定進程監(jiān)測和系統(tǒng)日志監(jiān)測等。支持 IBM AIX、Windows、Unix、Linux、Red Hat等多種操作系統(tǒng)。
數據庫:監(jiān)控從可用性、性能、占用資源、安全事件和異常錯誤等多個方面對數據庫進行全面監(jiān)控,如響應時間監(jiān)測、連接進程數監(jiān)測、連接客戶端監(jiān)測、指定進程監(jiān)測、長事務監(jiān)測、鎖監(jiān)測、進程回滾監(jiān)測、數據庫空間監(jiān)測和數據日志監(jiān)測等。支持 ORACLE、Sybase、DB2、SQL Server、MySQL等多種數據庫。
中間件:是位于網絡、操作系統(tǒng)和數據庫之上和應用系統(tǒng)之下的一種獨立的系統(tǒng)軟件或服務程序,常見的中間件類型有交易中間件、消息中間件、RPC中間件、應用服務器和WEB服務器等。監(jiān)控應支持各種常用的中間件軟件監(jiān)控,如 WebLogic、WebSphere、Jboss、Tomcat、Apache、IIS、Exchange Server等。中間件監(jiān)控應從可用性、性能、占用資源、安全事件和異常錯誤等幾個方面對中間件進行全方位監(jiān)測,如Apache監(jiān)測內容包括服務進程監(jiān)測、負載監(jiān)測、請求監(jiān)測、閑置監(jiān)測、內存使用情況監(jiān)測和數據庫連接監(jiān)測等信息。
針對醫(yī)院信息系統(tǒng)運維存在的種種困難及產生原因,我們迫切需要一款比較優(yōu)秀的監(jiān)控平臺,該平臺需具備以下功能和特性。
3.3.1 監(jiān)控管理 覆蓋常見資源監(jiān)控模型,網絡設備、主機、數據庫、中間件、應用;支持服務主動模擬偵測,網絡服務:ping、fping、ftp、dhcp、dns、telnet;郵箱服務:pop、smtp;數據庫服務:jdbc、odbc;WEB服務:http、https;支持快速創(chuàng)建監(jiān)控模型,支持個性化的監(jiān)控模型創(chuàng)建,實現(xiàn)醫(yī)院不同個性化的定制;支持代理和非代理采集,支持輕量級、低智能、采集時不需知道賬號和密碼、二次開發(fā)能力強的代理采集;支持各類 IT 標準如 SNMP、Telnet/SSH、WMI、JDBC/ODBC、JMX、API的非代理采集,兩種方式提供的監(jiān)控數據來源,保證監(jiān)控結果的準確性。支持可視化展現(xiàn):對海量數據要有深入的洞察力,對信息整合要有全局觀、提供“儀表盤化”的高智能性可視化、操作的易用性。
3.3.2 事件管理 故障根源分析:基于采集依賴、基于業(yè)務依賴,從而快速準確定位故障的根源。
衍生事件屏蔽:消除告警風暴,避免由于風暴的產生而影響正常的業(yè)常。
基于規(guī)則的事件處理引擎:包括事件過濾、豐富、壓制、關聯(lián)及升級;事件過濾,對嚴重級別低或運維不關注的事件進行過濾;事件豐富,為事件后續(xù)處理提供添加必要信息,以幫助理解事件背景、提高事件管理效率和便利服務管理;事件壓制,用來處理重復發(fā)生事件,以減少事件數量;事件關聯(lián),事件清除、因果關聯(lián);事件升級,調整事件嚴重性級別以提醒運維工程師盡快處理該事件。
3.3.3 服務影響管理 通過創(chuàng)建并維護服務模型、關聯(lián)和處理服務組件相關事件,為醫(yī)院IT運維工程師提供服務影響分析,幫助醫(yī)院實時了解問題對服務的影響、快速定位問題根源和輔助確定解決問題優(yōu)先順序。
3.3.4 監(jiān)控結果查詢與處理 根據不同的管理需要,可以按“管理視圖”、“設備視圖”、“業(yè)務視圖”和“自定義視圖”,“KPI視圖”進行分類,不同的分類滿足不同權限監(jiān)控需要。
3.3.5 告警管理 根據日常告警,可提供“郵件報警、短信報警、桌面報警、聲光報警、顯示屏管理”等多種方式的告警;而從方便告警處理、報警日志查詢等,加快信息的主動告警,使運維工程師主動解決監(jiān)控故障,降低系統(tǒng)的風險及提高醫(yī)院的服務水平與滿意度。
3.3.6 報表管理 CUP負載監(jiān)測變化趨勢分析報表,提供決策支持,如采購、更換設備、優(yōu)化升級軟件。
3.3.7 權限管理 提供單位用戶管理、角色用戶管理、角色權限管理、用戶組管理等不同等級的權限管理。
基于以上幾點,在醫(yī)院相關領導的重視及部門的大力支持和緊密配合下,我院與某公司合作,結合我院的特點二次開發(fā)并共同實施了一款面向業(yè)務的醫(yī)院IT一體化監(jiān)控平臺軟件,從2012年7月完成立項,經過業(yè)務調研、設計開發(fā),于2012年10月完成投產,提供給各相關業(yè)務管理人員,經過半年的運行,系統(tǒng)運行效果良好,達到了項目的技術規(guī)范要求。
該平臺軟件集成了IT基礎架構監(jiān)控、事件管理、服務影響管理、告警管理和報表管理等功能模塊,其監(jiān)控范圍覆蓋了醫(yī)院業(yè)務所依賴網絡、服務器、數據庫、應用和服務等各種IT基礎設施,監(jiān)控內容涵蓋了可用性、性能、資源、安全等各個方面的監(jiān)控需求。通過其內置的圖形化的服務建模工具,醫(yī)院可快速創(chuàng)建各種業(yè)務服務模型來實現(xiàn)業(yè)務與IT資源之間的動態(tài)關聯(lián),幫助運維工程師了解在IT基礎設施出現(xiàn)問題時對醫(yī)院業(yè)務的影響和在業(yè)務出現(xiàn)問題時快速定位問題根源,從而為醫(yī)院提供一種以業(yè)務為主線的整體監(jiān)控運維模式,以確保IT基礎架構穩(wěn)定運行和醫(yī)院業(yè)務的持續(xù)可用性。
通過醫(yī)院IT集成監(jiān)控管理平臺,多方位一體化監(jiān)控網絡設備、主機/操作系統(tǒng)、數據庫、中間件,為我院信息化運營搭建了可視化平臺,直觀、及時有效監(jiān)控IT故障并實時處理,使管理者、主管部門達到有效的監(jiān)控作用,加強了醫(yī)院信息化安全可靠管理[4],提高了醫(yī)院滿意度,進一步提升醫(yī)院的整體綜合效益。
[1]王春雨,王耀煒,付繼剛.擺脫被動,以前瞻視角進行醫(yī)院數字化建設[J].中國高新技術企業(yè),2010,(09):135-136
[2]喬 民,馮 帆、索向軍,等.淺談我國醫(yī)院信息化建設的現(xiàn)狀及對策[J].華北國防醫(yī)藥,2008,20(30):81 -82.
[3]高晉華.數字化醫(yī)院建設的實踐與體會[J].解放軍醫(yī)院管理雜志,2007(6):10-11.
[4]李湘平.醫(yī)院信息系統(tǒng)的安全問題[J].現(xiàn)代醫(yī)院,2012,12:(7):141-142.