溫 超
(國網(wǎng)信息通信有限公司,北京 100031)
2006年國家電網(wǎng)公司開始實施SG186工程,經(jīng)過幾年的研究、開發(fā)、運行與更新?lián)Q代,目前國家電網(wǎng)公司信息系統(tǒng)己經(jīng)具有相當(dāng)?shù)囊?guī)模。隨著業(yè)務(wù)的不斷增長,系統(tǒng)數(shù)量的不斷增加,國家電網(wǎng)公司的信息系統(tǒng)運維也變得復(fù)雜,同時運維人員的工作量也呈倍數(shù)增長。運維項目多、運維管理亂、人力成本高,因此雖然擁有專業(yè)的運維團隊,同樣面臨很大的困難。由于這是一個隨著信息技術(shù)的深入應(yīng)用而產(chǎn)生的新課題,這方面的知識積累和應(yīng)用技術(shù)還剛剛起步,因此研究如何進行有效的信息系統(tǒng)運維管理,具有廣闊的發(fā)展前景和很大的現(xiàn)實意義。
隨著運維管理問題的出現(xiàn),國家電網(wǎng)公司已經(jīng)制定了一系列的運維管理辦法,采用了一些運維管理工具來解決這一問題,但當(dāng)前的信息系統(tǒng)運維管理還不是很成熟,還存在一些不足。
現(xiàn)有的信息系統(tǒng)運維服務(wù)大多都是做“損壞-維修”服務(wù),而這種直接的服務(wù)方式不能避免事故損失,成本很高,效率低下。信息系統(tǒng)運維如果以主動、預(yù)防的方法將提升效率、性能和可用性,通過自動化平臺統(tǒng)一對信息系統(tǒng)運維進行管理,則能夠節(jié)省大量的成本并提高管理效率。
隨著虛擬化、云計算和分布式計算等技術(shù)不斷應(yīng)用,IT基礎(chǔ)架構(gòu)正日益復(fù)雜。這些解決方案可以幫助用戶的業(yè)務(wù)按指數(shù)增長,但同時要求系統(tǒng)管理員投入更多的精力。而目前運維管理依賴的依然是多頭管理策略,針對不同需求而分別部署單點工具,容易造成管理混亂,使信息系統(tǒng)運維人員的工作量呈倍數(shù)增長,人力成本攀升。針對現(xiàn)存問題,有必要將電力信息系統(tǒng)中運維相關(guān)的獨立的設(shè)備和系統(tǒng)集成一個有機的信息系統(tǒng)運維自動化平臺[1]。
信息系統(tǒng)運維自動化平臺的整體設(shè)計采用B/S架構(gòu),縱向分為技術(shù)操作層、管理調(diào)度層、決策指揮層,功能結(jié)構(gòu)如圖1所示。
圖1 信息系統(tǒng)運維自動化平臺功能結(jié)構(gòu)
技術(shù)操作層通過各種技術(shù)手段和工具對電力信息系統(tǒng)中各種網(wǎng)絡(luò)設(shè)備、安全設(shè)備、重要服務(wù)器、數(shù)據(jù)庫和重要應(yīng)用以及數(shù)字資產(chǎn)的狀態(tài)、傳播進行監(jiān)控,確保電力信息系統(tǒng)處于可監(jiān)控狀況。運維調(diào)度層通過專業(yè)的運維人員對電力信息系統(tǒng)運行中產(chǎn)生的各種信息進行分析處理,并在其專業(yè)知識的支撐下對通過技術(shù)操作層對信息系統(tǒng)進行查看和維護,確保信息系統(tǒng)的正常運行。決策指揮層通過對信息系統(tǒng)運行中產(chǎn)生的數(shù)據(jù)進行深度挖掘、提煉和宏觀分析,從更高層次上查看整個電力信息系統(tǒng)的運行狀態(tài),協(xié)助決策者依據(jù)電力信息系統(tǒng)中各類系統(tǒng)運行狀況并作出正確決策。
設(shè)備管理以企業(yè)經(jīng)營目標(biāo)為依據(jù),通過設(shè)備信息管理、設(shè)備監(jiān)測、風(fēng)險評估、設(shè)備維護、統(tǒng)計報表等措施,對設(shè)備的全過程進行的科學(xué)管理,即實行從設(shè)備的規(guī)劃工作起直至報廢的整個過程的管理。
設(shè)備信息管理:實現(xiàn)各類設(shè)備信息的集中管理,具體包括設(shè)備庫、設(shè)備履歷、設(shè)備關(guān)聯(lián)視圖、服務(wù)響應(yīng)模型、備件庫、儀器儀表庫等管理。
設(shè)備監(jiān)測:對設(shè)備運行狀態(tài)進行24 h監(jiān)控,及時發(fā)現(xiàn)異常情況,并進行配置策略優(yōu)化;當(dāng)監(jiān)控到系統(tǒng)出現(xiàn)異常情況時,及時向客戶提供告警服務(wù),將最新的異常信息和補救方法通知客戶,在威脅還未造成重大傷害或擴展時,及時采取措施進行消除。
風(fēng)險評估:實現(xiàn)中心設(shè)備運行風(fēng)險評估與安全管理體系管理功能,包括運行分析、設(shè)備風(fēng)險評估、SMS管理、決策支持等功能。
設(shè)備維護:實現(xiàn)設(shè)備日常維護、維修的等級與管理功能,具體包括設(shè)備維護、維修、備件檢測、儀器儀表測試、更新改造以及履歷管理等。
統(tǒng)計報表:實現(xiàn)運行報表與專業(yè)報表統(tǒng)計功能,包括運行日報、功能報表、運行統(tǒng)計、干擾報表等功能。
業(yè)務(wù)監(jiān)控子系統(tǒng)實現(xiàn)對操作系統(tǒng)、數(shù)據(jù)庫、中間件、WEB應(yīng)用、應(yīng)用系統(tǒng)的狀態(tài)進行實時監(jiān)控,并且通過實時流量分析、訪問控制等功能有效、多方位地進行網(wǎng)絡(luò)信息系統(tǒng)的運行安全監(jiān)控和優(yōu)化,全面提高企業(yè)網(wǎng)絡(luò)使用價值。對發(fā)現(xiàn)的安全問題可快速抑制,降低信息系統(tǒng)出現(xiàn)安全事件的幾率,減少系統(tǒng)遭受的損失并增強信息系統(tǒng)抵御攻擊的能力。
服務(wù)監(jiān)控。對各種應(yīng)用支持軟件如數(shù)據(jù)庫、中間件、群件以及各種通用或特定服務(wù)的監(jiān)控管理,實時獲取這些應(yīng)用的運行狀態(tài),增強分析、預(yù)警功能,保障業(yè)務(wù)應(yīng)用的正常運行。
流量分析。提供了實時流量采集、分析和展現(xiàn)功能,支持實時流量數(shù)據(jù)自動刷新,并提供IP地址、應(yīng)用、通道、帶寬等各種實時流量圖表,讓用戶可以全面掌控網(wǎng)絡(luò)帶寬的使用情況,使得網(wǎng)絡(luò)運行狀況、應(yīng)用情況、帶寬使用情況等狀況實現(xiàn)完全可視化,同時可以對出現(xiàn)的異常流量進行及時預(yù)警與處理。
訪問控制。系統(tǒng)能夠勾勒企業(yè)終端接入的安全基線,屏蔽一切不安全的設(shè)備和人員接入網(wǎng)絡(luò),規(guī)范用戶接入網(wǎng)絡(luò)的行為。對于未安裝終端代理軟件或已安裝終端代理軟件但不符合安全策略要求(防病毒軟件、病毒特征庫升級、補丁、系統(tǒng)安全設(shè)置、違規(guī)軟件等)的終端設(shè)備,能夠禁止其訪問網(wǎng)絡(luò),或進行網(wǎng)絡(luò)VLAN隔離。
數(shù)字資產(chǎn)管理子系統(tǒng)主要關(guān)注電力信息系統(tǒng)中數(shù)字資產(chǎn)在網(wǎng)絡(luò)中的創(chuàng)建、使用、傳播、銷毀,關(guān)注數(shù)字資源、網(wǎng)絡(luò)資源的使用情況,利用桌面終端控制軟件以及證書和權(quán)限管理,做到對每個數(shù)字資源訪問人員的身份明確、權(quán)限最小,訪問可溯,不容許超越權(quán)限的非法接入和非法訪問。數(shù)字資產(chǎn)管理子系統(tǒng)以權(quán)限為中心,以證書為憑據(jù),以訪問控制為手段,以桌面終端軟件為依托,圍繞文檔安全管理為核心,實現(xiàn)電力信息系統(tǒng)的數(shù)字資產(chǎn)的安全,保障信息系統(tǒng)中的數(shù)據(jù)安全。
證書管理。管理電力信息系統(tǒng)的證書的頒布、變更和取消等生命周期狀態(tài)。證書的管理主要圍繞證書的發(fā)放為核心,涉及證書從生命周期開始到生命周期結(jié)束的各個環(huán)節(jié),對應(yīng)于證書的申請、審核、下載、更新、注銷等各個具體的流程。
權(quán)限管理。管理證書對應(yīng)的在電力信息系統(tǒng)的權(quán)限,授予證書對應(yīng)最小權(quán)限,是子系統(tǒng)的核心。系統(tǒng)管理員可以根據(jù)系統(tǒng)設(shè)置的安全規(guī)則或者安全策略為不同用戶分配不同權(quán)限。用戶可以申請加密權(quán)限、文檔授權(quán)權(quán)限、文檔解密權(quán)限、修改密碼權(quán)限、離線使用權(quán)限。
安全文檔管理。采用“驅(qū)動級透明動態(tài)加解密技術(shù)”對指定類型的文件進行實時、強制、透明的加解密。并能對文檔進行細(xì)分化的權(quán)限設(shè)置,確保加密信息在特定授權(quán)范圍內(nèi)進行指定操作。
訪問控制:利用802.1x和動態(tài)安全網(wǎng)卡等技術(shù)控制非法用戶的非法接入,只容許接入用戶在指定權(quán)限內(nèi)訪問合法的數(shù)字資源,并記錄用戶的訪問過程。
安全運維支撐子系統(tǒng)依托強大的知識庫支撐體系從技術(shù)和管理的角度對安全脆弱性進行收集、分析、管理以及跟蹤,并對整個安全運維人員、流程和結(jié)果進行管理,然后采用主動防御技術(shù),為整個安全運維提供技術(shù)支撐。
安全運維流程管理。安全脆弱性運維流程管理是對安全運維工作人員、工作內(nèi)容、工作步驟、工作信息的統(tǒng)一管理,和工作流管理以及人員管理模塊協(xié)同工作。
電子值班。實現(xiàn)各級部門的電子化值班登記與信息通報功能,具體包括排班、巡視、匯報、交接班等基本功能。包括故障管理、無線電管理、停機管理等核心業(yè)務(wù)管理功能,包括專項活動、安全整頓等動態(tài)業(yè)務(wù)管理功能。
安全應(yīng)急響應(yīng)。實現(xiàn)事件驅(qū)動的統(tǒng)一告警管理,用戶可對重要資源設(shè)置閾值,并定義事件的優(yōu)先級。系統(tǒng)同時提供聯(lián)動策略引擎,使得用戶可以根據(jù)管理需求定制管理策略,當(dāng)某類告警事件發(fā)生時,能夠在第一時間由系統(tǒng)自動執(zhí)行特定的安全管理操作。
脆弱性收集。安全脆弱性收集通過多種渠道多種方式盡量全面的收集資產(chǎn)的安全脆弱性,收集渠道包括:漏洞掃描結(jié)果、檢查程序和腳本結(jié)果、人工檢查和問卷調(diào)查結(jié)果、第三方系統(tǒng)脆弱性結(jié)果。
脆弱性分析與統(tǒng)計。對收集上來的安全脆弱性根據(jù)內(nèi)置的定性定量分析矩陣進行脆弱性的分類識別,針對脆弱性的各種條件的統(tǒng)計分析,并根據(jù)用戶的需要輸出用戶比較感興趣的信息,報表輸出的格式支持 XML、HTML、RTF、EXCEL 等格式。
安全工具管理。安全工具管理主要是管理收集脆弱性的檢查程序和腳本,這些安全工具為脆弱性的收集提供了途徑。
知識管理。建立中心知識庫,實現(xiàn)對各類運維知識進行分類、點評、審核功能,實現(xiàn)基于全文檢索的知識庫查詢功能,實現(xiàn)對考試、論文及技術(shù)資料的知識化管理。
為了對整個電力信息網(wǎng)絡(luò)的狀態(tài)全感知,各種網(wǎng)絡(luò)設(shè)備、安全設(shè)備服務(wù)器和應(yīng)用系統(tǒng)應(yīng)該通過日志或者事件的方式向安全運維服務(wù)綜合管理平臺報告自身的各種狀態(tài)變化或者異常情況。安全審計子系統(tǒng)將對電力信息系統(tǒng)中的運維原始數(shù)據(jù)進行全存儲、并提供多維度的原始日志分析和查詢功能,以便安全管理人員全面的分析評估安全信息,掌握安全狀態(tài),調(diào)整所執(zhí)行的安全策略。
原始事件日志審計。鑒于系統(tǒng)設(shè)備數(shù)量大,產(chǎn)生的信息多,基于監(jiān)控的分析原理,信息安全綜合監(jiān)控管理系統(tǒng)對所獲取的原始數(shù)據(jù)需依據(jù)安全策略進行過濾和歸并后進行分析處理以實現(xiàn)對安全狀態(tài)的實時知曉。原始日志審計子模塊將對原始數(shù)據(jù)進行全存儲、并提供多維度的原始日志分析和查詢功能,以便安全管理人員全面的分析評估安全信息,掌握安全狀態(tài),調(diào)整所執(zhí)行的安全策略。
該模塊通過各種收集手段獲取網(wǎng)絡(luò)中各個網(wǎng)絡(luò)設(shè)備、安全設(shè)備、操作系統(tǒng)以及各應(yīng)用系統(tǒng)的日志信息,使得不同設(shè)備之間的日志信息能夠在同一個平臺上進行審計,同時客戶也能在同一個界面上查看各個不同設(shè)備的日志審計信息。
操作記錄審計。綜合利用身份認(rèn)證技術(shù)、訪問控制技術(shù)、操作審計技術(shù)、高可用性技術(shù)和集群技術(shù),結(jié)合SOX、COBIT、ITIL等相關(guān)法案及ISO17799、國家等級化保護等IT內(nèi)控相關(guān)標(biāo)準(zhǔn),實現(xiàn)對“人(操作者)”在“服務(wù)器集群等重要資源(操作對象)”上的“操作行為(操作內(nèi)容)”的集中管理、集中審計。
安全決策子系統(tǒng)基于一系列的評估指標(biāo)(攻擊頻率、攻擊嚴(yán)重程度、攻擊目標(biāo)、鏈路流量、端口流量、風(fēng)險級別等),結(jié)合網(wǎng)元信息及服務(wù)、主機本身的重要性,從應(yīng)用、服務(wù)、主機及網(wǎng)絡(luò)系統(tǒng)4個層次感知系統(tǒng)的安全狀態(tài),結(jié)合外部的安全情報信息,提供宏觀的安全態(tài)勢演化曲線。同時,建立自適應(yīng)的閾值設(shè)定模型,實現(xiàn)危險狀態(tài)警報閾值的自適應(yīng)調(diào)整,并依據(jù)設(shè)定的閾值,對系統(tǒng)的危險安全狀態(tài)產(chǎn)生警報,并為用戶提供安全事件解決建議。
安全預(yù)警功能。在信息系統(tǒng)安全態(tài)勢感知分析的基礎(chǔ)上為防護體系提供決策依據(jù),為應(yīng)急響應(yīng)體系提供預(yù)測。安全預(yù)警根據(jù)安全態(tài)勢的分析結(jié)果建立自適應(yīng)的閾值設(shè)定模型,實現(xiàn)危險狀態(tài)警報閾值的自適應(yīng)調(diào)整,并依據(jù)設(shè)定的閾值對系統(tǒng)的危險級別達(dá)到一定程度的安全狀態(tài)產(chǎn)生警報,并定期輸出安全態(tài)勢評估報告,有效幫助相關(guān)領(lǐng)導(dǎo)掌控信息系統(tǒng)自身和外圍的安全態(tài)勢,更準(zhǔn)確、高效的進行安全決策。
安全策略管理。在安全態(tài)勢感知的基礎(chǔ)上根據(jù)ISO27001系列國際標(biāo)針對電力信息系統(tǒng)安全管理體系擬定電力信息系統(tǒng)及業(yè)務(wù)專網(wǎng)的安全總體策略,并提供統(tǒng)一管理安全策略,負(fù)責(zé)策略生成、策略下發(fā)、策略解析以及策略有效性、一致性驗證等功能。提供安全策略生成、編輯、檢索功能,能根據(jù)條件或與任務(wù)關(guān)聯(lián)向下級系統(tǒng)進行發(fā)布。系統(tǒng)提供安全策略的有效性驗證功能。
信息系統(tǒng)運維自動化平臺提供貫穿整個IT基礎(chǔ)架構(gòu)的,全面、清晰的可視界面,既給運維工程師一個整體的管理視圖,又為其提供了深入分析單獨的系統(tǒng)或系統(tǒng)組的能力。通過運維管理自動化解決方案取代用戶目前使用的多個管理工具,降低了管理的復(fù)雜性。通過主動、自動的運維方式,幫助運維工程師減少在重復(fù)性工作上投入的時間,提升整體工作效率與效果。