胡利軍,莊科旻,楊 豪,黃思源
(寧波市氣象網(wǎng)絡(luò)與裝備保障中心,浙江 寧波 315012)
隨著數(shù)據(jù)中心IT基礎(chǔ)設(shè)施升級(jí)迭代,現(xiàn)代化建設(shè)項(xiàng)目的推進(jìn)實(shí)施,業(yè)務(wù)信息系統(tǒng)開發(fā)應(yīng)用,服務(wù)管理的要求也隨之不斷增強(qiáng)。尤其在網(wǎng)絡(luò)信息安全不斷加強(qiáng)和重視的情況下,如何利用先進(jìn)的技術(shù)和有效的管理手段,加強(qiáng)信息系統(tǒng)管理、提高業(yè)務(wù)服務(wù)水平顯得尤為重要[1]。在氣象信息IT運(yùn)維服務(wù)管理方面,引入ITIL(IT基礎(chǔ)架構(gòu)庫),開發(fā)了“基于ITIL的氣象信息管理平臺(tái)”。實(shí)現(xiàn)了氣象業(yè)務(wù)IT系統(tǒng)服務(wù)管理的規(guī)范性、有效性和持續(xù)性,做好各類信息系統(tǒng)的管理、事件的處置、檔案管理和業(yè)務(wù)留痕等,同時(shí)在網(wǎng)絡(luò)安全防護(hù)[2]、事件處置方面進(jìn)一步規(guī)范高效。文中主要涉及兩部分內(nèi)容:規(guī)范化、流程化的運(yùn)維管理[3],和ITIL在等級(jí)保護(hù)信息系統(tǒng)安全管理方面的應(yīng)用。
系統(tǒng)運(yùn)維包括系統(tǒng)的日常維護(hù)、保障系統(tǒng)運(yùn)行兩層含義,與業(yè)務(wù)增長量、基礎(chǔ)設(shè)施數(shù)量、安全等級(jí)的要求成正比,業(yè)務(wù)增長越快、設(shè)施數(shù)量越多、安全等級(jí)越高,對(duì)系統(tǒng)運(yùn)維的保障能力要求也越高[4]。在業(yè)務(wù)規(guī)模越來越大,網(wǎng)絡(luò)設(shè)備、安全設(shè)備、服務(wù)器資源和業(yè)務(wù)系統(tǒng)的不斷增多,人員又比較緊張的情況下,面對(duì)環(huán)境、需求的不斷變化,對(duì)如何采取有效的運(yùn)維方式、進(jìn)行規(guī)范高效的管理提出了要求[5]。業(yè)務(wù)運(yùn)行中,采用商業(yè)軟件和自主開發(fā)程序相結(jié)合的方式進(jìn)行監(jiān)控管理,同時(shí)在氣象信息服務(wù)管理中引入ITIL規(guī)范。
對(duì)于應(yīng)用ITIL管理IT服務(wù)的研究,國外起步較早、應(yīng)用范圍較廣,在提高服務(wù)質(zhì)量、降低IT服務(wù)交付和支持成本,以及協(xié)同IT和業(yè)務(wù)需求方面取得了很大成功;而國內(nèi)ITIL用于運(yùn)維管理方面的研究雖有多年的時(shí)間,但具體應(yīng)用在業(yè)務(wù)上較少。面對(duì)管理規(guī)范化、服務(wù)高效持續(xù)的需求,引入ITIL規(guī)范,開發(fā)了信息管理系統(tǒng),以進(jìn)行IT基礎(chǔ)設(shè)施的軟硬件配置管理,緊急事件處置、問題處理、服務(wù)可持續(xù)性管理等,以及根據(jù)信息系統(tǒng)等級(jí)保護(hù)的需求實(shí)現(xiàn)信息安全管理。
對(duì)日常IT業(yè)務(wù)運(yùn)維中出現(xiàn)的事件、問題、配置、變更和發(fā)布等流程進(jìn)行研究,規(guī)范日常業(yè)務(wù)管理,在流程化、規(guī)范化管理的基礎(chǔ)上提高服務(wù)質(zhì)量,以用戶為中心,在盡可能少影響業(yè)務(wù)的前提下,快速地恢復(fù)服務(wù),保證最佳的效率和服務(wù)的可持續(xù)性[6]。
在ITIL實(shí)踐策略中,開發(fā)的系統(tǒng)平臺(tái)包括配置管理、事件管理、問題管理、變更管理和發(fā)布管理等模塊,文中以“事件管理”為例來介紹基于ITIL的管理流程。
運(yùn)維時(shí)既要做到妥善快速處理,又要做到留痕、有跡可循,需要對(duì)發(fā)生的事件進(jìn)行識(shí)別、記錄、分類等,按事件的輕重緩急進(jìn)行解決處理[7]。根據(jù)ITIL的規(guī)則,對(duì)業(yè)務(wù)運(yùn)行中發(fā)生的事件進(jìn)行電子化、流程化管理[8]。事件處理流程分兩類,“一般事件處理流程(見圖1)”和“特殊事件處理流程”,以“一般事件處理流程”為例。
圖1 一般事件處理流程
通常情況下,值班人員接到報(bào)告后,首先進(jìn)行“事件識(shí)別”,了解發(fā)生事件的初步信息,通過系統(tǒng)平臺(tái)在數(shù)據(jù)庫中記錄,包括事件管理涉及數(shù)目、確認(rèn)的時(shí)間、發(fā)生的時(shí)間、發(fā)生地點(diǎn)、事件信息提供者、有關(guān)事件的服務(wù)、與事件有關(guān)的軟件和硬件、事件詳情、事件類別,以便對(duì)該事件后續(xù)進(jìn)展進(jìn)行有效整理和趨勢(shì)分析;然后,根據(jù)事件處置的緊迫性、對(duì)業(yè)務(wù)的影響程度來對(duì)事件進(jìn)行“分類”,確定處理優(yōu)先級(jí)。
分類時(shí),同時(shí)確定事件的處理提交對(duì)象,“網(wǎng)絡(luò)管理員”、“系統(tǒng)管理員”或“安全管理員”等。負(fù)責(zé)處理的人員按照事件處理流程來處理,同時(shí)查找數(shù)據(jù)庫中相關(guān)事件和已知解決方法等類似記錄以尋求對(duì)策。一旦確定了處理方法,及時(shí)處理事件,恢復(fù)業(yè)務(wù)正常運(yùn)行;若暫無相應(yīng)解決方法,則提交上一級(jí)技術(shù)部門、技術(shù)外援尋求幫助,進(jìn)一步調(diào)查和診斷,直至事件處理結(jié)束。事件處理完畢,經(jīng)與提交事件的用戶確認(rèn)后,關(guān)閉事件。
關(guān)閉前,在系統(tǒng)平臺(tái)上對(duì)整個(gè)事件的發(fā)生、處理詳情等情況進(jìn)行記錄?!笆录涗洝?,要做到被處理事件的記錄完整性,包括日期、時(shí)間、地點(diǎn)、處理者、狀態(tài)、事件優(yōu)先級(jí)、事件現(xiàn)狀、事件解決的時(shí)間、關(guān)閉的時(shí)間等;已解決的事件,要將平臺(tái)數(shù)據(jù)庫中“事件的狀態(tài)”從“解決中”、“未解決”等狀態(tài)及時(shí)更改為“已解決”,此時(shí)平臺(tái)中“狀態(tài)”的顏色也由“紅色”變?yōu)椤昂谏保皇录幚磉^程中,要做好事件的進(jìn)展跟蹤和用戶間的溝通交流。
1.2.1 事件優(yōu)先級(jí)確定
對(duì)事件處理的優(yōu)先級(jí)進(jìn)行分類[9],處理優(yōu)先級(jí)通常取決于事件對(duì)業(yè)務(wù)的影響程度和處理緊迫性(見表1)。
表1 事件的影響程度和處理緊迫性
結(jié)合事件影響和緊迫性程度對(duì)事件優(yōu)先級(jí)(見表2)進(jìn)行裁定,當(dāng)事件處理優(yōu)先級(jí)為“1”時(shí),說明該事件急迫需通過特殊程序及時(shí)處理。
表2 優(yōu)先級(jí)
涉及高危漏洞、特殊節(jié)點(diǎn)時(shí)段的安全事件優(yōu)先級(jí)為“1”,接到該類事件報(bào)告后,按特殊流程進(jìn)行處理,直接進(jìn)入初診階段,進(jìn)行事件診斷,確認(rèn)事件的真實(shí)性。然后進(jìn)行“事件詳查”,尋找處理該事件的方法,根據(jù)應(yīng)對(duì)措施、處理方法“解決事件”;最后“關(guān)閉事件”,對(duì)事件進(jìn)行總結(jié)記錄。
1.2.2 事件處理事例
根據(jù)ITIL的規(guī)則,對(duì)業(yè)務(wù)運(yùn)行中發(fā)生的事件進(jìn)行電子化、流程化管理。例如處理新一代多普勒天氣雷達(dá)回波有干擾雜波事宜,如圖2所示。
圖2 事件處理圖例
“事件識(shí)別”:運(yùn)行監(jiān)控室接到電話,雷達(dá)回波產(chǎn)品有雜波干擾。對(duì)事件進(jìn)行核實(shí),初步識(shí)別并提交給運(yùn)維人員。
“事件記錄”:記錄事件并編號(hào) “sj180326092202”,表示處理時(shí)間在2018年3月26日9點(diǎn)鐘,同時(shí)記錄下發(fā)生日期、時(shí)間、地點(diǎn)、處理者,此時(shí)事件的狀態(tài)為“未解決”。
“事件分類”:雜波問題,短時(shí)間不易解決,需要排除是雷達(dá)本身的原因,還是受外界的干擾,短時(shí)間內(nèi)無法處理,但對(duì)雷達(dá)回波產(chǎn)品的分析產(chǎn)生了影響。對(duì)業(yè)務(wù)的影響程度為“高級(jí)”,緊迫性為“中級(jí)”,根據(jù)表2可看出該處理事件“優(yōu)先級(jí)”為3,在短期內(nèi)處理好該事情即可。
“事件初診”:對(duì)該事件進(jìn)行初步診斷,查找回波雜波產(chǎn)生的相關(guān)信息,確認(rèn)事件的真實(shí)性,起始時(shí)間和雜波的影響程度。雜波干擾出現(xiàn)的時(shí)間不固定,基本上在白天產(chǎn)生,晚上沒發(fā)生雜波現(xiàn)象。
“事件詳查”:聯(lián)系廠家,對(duì)雷達(dá)回波雜波問題進(jìn)行排查。確認(rèn)雷達(dá)本身沒有問題,與外界干擾有關(guān)。與相關(guān)部門聯(lián)系,查找干擾源,同時(shí)告知用戶產(chǎn)生雜波的初步原因及處理進(jìn)展。
“解決事件”:經(jīng)跟蹤檢測(cè)和判斷,雜波由其他高頻跳頻設(shè)備引起,需要函告相關(guān)部門確認(rèn),該事件編號(hào)為“sj180408173019”,與前面“sj180326092202”事件關(guān)聯(lián),多個(gè)關(guān)聯(lián)事件間可以相互間跳轉(zhuǎn)。
“關(guān)閉事件”:此時(shí)事件的狀態(tài)為“已關(guān)閉”,事件已解決。
事件規(guī)范化管理的主要目的是對(duì)業(yè)務(wù)影響最小前提下,采取最佳處置方式,快速解決問題,恢復(fù)業(yè)務(wù)正常運(yùn)行。系統(tǒng)記錄了事件發(fā)生、處理、解決的全過程,建立了事件管理數(shù)據(jù)庫,給其他服務(wù)管理提供了詳實(shí)的信息。
在信息系統(tǒng)運(yùn)行保障中,為提高業(yè)務(wù)平臺(tái)的健壯性和安全性,除做好物理安全和主機(jī)安全外,關(guān)鍵還是管理意識(shí)和管理模式的提高[10]。按要求建立和落實(shí)各類規(guī)章、制度、流程,明確責(zé)任、及應(yīng)急處理規(guī)范等。為規(guī)范管理,在“基于ITIL的氣象信息管理平臺(tái)”中,增加了“信息網(wǎng)絡(luò)安全管理”子系統(tǒng),根據(jù)等級(jí)保護(hù)的要求實(shí)現(xiàn)信息的安全管理[11-12],進(jìn)一步加強(qiáng)人員、設(shè)備、規(guī)章制度、政策文件、維保合同、運(yùn)維情況等內(nèi)容的管理,建立事件處置應(yīng)急流程和知識(shí)庫[13]。
子系統(tǒng)采用ASP.NET+SQL SERVER開發(fā)技術(shù),系統(tǒng)檔案模塊前臺(tái)顯示和錄入修改功能開發(fā)基于WORDPRESS實(shí)現(xiàn),內(nèi)容包括等級(jí)保護(hù)相關(guān)的各類“規(guī)章制度”、“協(xié)議書”、“合同報(bào)告”、“事件管理”、“25類表格”、“系統(tǒng)檔案”等。
系統(tǒng)框架如圖3所示。
圖3 安全管理子系統(tǒng)框架
在“信息網(wǎng)絡(luò)安全管理”子系統(tǒng)中,對(duì)安全技能考核、安全教育培訓(xùn)、安全事件處理、出入登記管理、操作運(yùn)維記錄、應(yīng)急預(yù)案培訓(xùn)等25類內(nèi)容建立流程和電子化檔案[14]。
2.3.1 事件流程
當(dāng)發(fā)生的事件處理優(yōu)先級(jí)為“1”時(shí),說明該事件急迫需啟動(dòng)緊急流程特殊處理。網(wǎng)絡(luò)安全事件優(yōu)先級(jí)一般來說都是“1”,也就是“優(yōu)先緊急處理”,需要啟動(dòng)應(yīng)急處置流程(見圖4)。
圖4 應(yīng)急響應(yīng)流程
2.3.2 特殊流程事例
某日接通知,網(wǎng)站存在安全漏洞。由于涉及網(wǎng)絡(luò)安全,馬上啟動(dòng)應(yīng)急流程,進(jìn)行了以下處置:第一時(shí)間報(bào)告相關(guān)領(lǐng)導(dǎo),關(guān)停相關(guān)網(wǎng)站服務(wù);經(jīng)技術(shù)分析識(shí)別,該漏洞跟頁面開發(fā)代碼有關(guān),通知開發(fā)人員進(jìn)行代碼修改、漏洞修補(bǔ);相關(guān)人員立即到崗,落實(shí)處置措施,并進(jìn)行下步詳細(xì)部署;技術(shù)人員繼續(xù)對(duì)網(wǎng)站進(jìn)行主機(jī)漏洞、應(yīng)用漏洞和后門木馬掃描;開發(fā)人員快速解決漏洞問題,從接到通知到解決問題,用時(shí)在2小時(shí)內(nèi)。完成所有相關(guān)服務(wù)器、系統(tǒng)掃描后,出具報(bào)告并上報(bào)。最后,梳理完善檔案記錄,經(jīng)再次確認(rèn)后,恢復(fù)相關(guān)網(wǎng)站和應(yīng)用。
該事例屬于“特殊事例”,優(yōu)先級(jí)為“1”,按緊急流程處理,主要分初診、解決、關(guān)閉三個(gè)步驟,最后再進(jìn)行詳情記錄。
一件完整的事件記錄含事件名稱、事件類別、管理數(shù)目、發(fā)生日期、地點(diǎn)、信息提供者、事件相關(guān)服務(wù)、相關(guān)軟硬件、事件詳情、事件緊迫性、影響程度、優(yōu)先級(jí)、目前現(xiàn)狀、關(guān)聯(lián)問題事項(xiàng)(編號(hào))、解決日期、事件關(guān)閉日期、相關(guān)事件附件等。
在管理系統(tǒng)中引入ITIL準(zhǔn)則后,對(duì)事件進(jìn)行流程化、規(guī)范化管理,建立了完整的檔案。在回顧過往事例時(shí),可以完整地還原一個(gè)事件處置的全過程,對(duì)后期相關(guān)事件的處理提供了參考依據(jù)。
將ITIL的準(zhǔn)則引入到氣象信息管理中,結(jié)合單位業(yè)務(wù)運(yùn)行實(shí)際,建立一個(gè)基于ITIL的信息管理系統(tǒng)[15]。按規(guī)范制定事件處置應(yīng)急流程,提高事件處置的規(guī)范性、及時(shí)性,以及事件檔案保存的完整性;按照ITIL的規(guī)范以及制定的流程進(jìn)行日常IT業(yè)務(wù)管理,使IT運(yùn)維人員管理更加方便、高效,更加了解各個(gè)環(huán)節(jié)間的相互關(guān)系;提高了IT服務(wù)用戶的滿意度、系統(tǒng)的可用性,以及運(yùn)維人員解決處理問題的能力;建立了流程管理數(shù)據(jù)庫,實(shí)現(xiàn)了各類模塊管理的記錄、查詢和顯示等功能,達(dá)到規(guī)范記錄、檔案保存、業(yè)務(wù)留痕的目的。