唐 燕,盧 通,丁 寧
(1. 水利部水利信息中心,北京 100053;
2. 北京金水燕禹科技有限公司,北京 100089;
3. 北京金水信息技術(shù)有限公司,北京 100053)
水利信息系統(tǒng)應(yīng)急預(yù)案編制方法研究
唐 燕1,盧 通2,丁 寧3
(1. 水利部水利信息中心,北京 100053;
2. 北京金水燕禹科技有限公司,北京 100089;
3. 北京金水信息技術(shù)有限公司,北京 100053)
以水利電子政務(wù)綜合辦公系統(tǒng)應(yīng)急預(yù)案的編制為例,從應(yīng)急組織與職責(zé)的確定、故障等級(jí)的制定、應(yīng)急處置及演練等方面闡述水利信息系統(tǒng)應(yīng)急預(yù)案編制的過(guò)程,提出應(yīng)急預(yù)案的編制應(yīng)避免過(guò)于復(fù)雜,要保持預(yù)案的完整性及嚴(yán)謹(jǐn)性,科學(xué)制定演練計(jì)劃,并與運(yùn)維相結(jié)合,以期發(fā)生緊急情況時(shí),盡可能將損失降到最低。
水利信息系統(tǒng);綜合辦公系統(tǒng);應(yīng)急預(yù)案;編制;研究
隨著水利信息化規(guī)模的迅猛發(fā)展,信息系統(tǒng)在水利行業(yè)起著至關(guān)重要的作用,一旦信息系統(tǒng)出現(xiàn)問(wèn)題,輕則影響正常工作,重則對(duì)社會(huì)公眾的利益造成損害,甚至還影響到人民生命財(cái)產(chǎn)的安全。水利各業(yè)務(wù)部門(mén)在重視信息系統(tǒng)運(yùn)維的同時(shí),也越來(lái)越重視應(yīng)急情況的處理,為此,各個(gè)單位都已或正在編制針對(duì)信息系統(tǒng)的應(yīng)急預(yù)案,力求發(fā)生緊急情況時(shí),盡可能地將損失降到最低。
1.1 應(yīng)急組織與職責(zé)確定
水利信息系統(tǒng)的應(yīng)急組織大致分為以下幾個(gè)組別:
1)應(yīng)急領(lǐng)導(dǎo)組。負(fù)責(zé)應(yīng)急管理體系、管理辦法和預(yù)案的評(píng)審和確定;負(fù)責(zé)應(yīng)急預(yù)案啟動(dòng)和終止命令的下達(dá)和授權(quán);負(fù)責(zé)應(yīng)急實(shí)施過(guò)程中的決策和授權(quán);負(fù)責(zé)對(duì)故障處置或演練后預(yù)案變更的最終評(píng)審和確認(rèn)。
2)應(yīng)急指揮組。根據(jù)應(yīng)急領(lǐng)導(dǎo)組的授權(quán),負(fù)責(zé)現(xiàn)場(chǎng)指揮,協(xié)調(diào)各應(yīng)急小組工作;負(fù)責(zé)應(yīng)急處置情況、故障升級(jí)等相關(guān)信息的確認(rèn);負(fù)責(zé)向應(yīng)急領(lǐng)導(dǎo)組匯報(bào)應(yīng)急處置的進(jìn)展情況;負(fù)責(zé)在應(yīng)急過(guò)程中,策略的調(diào)整和應(yīng)急指揮;負(fù)責(zé)組織并協(xié)調(diào)應(yīng)急現(xiàn)場(chǎng)的各種資源(含第三方)。
3)應(yīng)急實(shí)施組。負(fù)責(zé)故障的分析,為現(xiàn)場(chǎng)應(yīng)急指揮組提供應(yīng)急預(yù)案實(shí)施的參考建議;負(fù)責(zé)按照現(xiàn)場(chǎng)應(yīng)急指揮組的指令,嚴(yán)格執(zhí)行相應(yīng)的應(yīng)急處置方案;負(fù)責(zé)將現(xiàn)場(chǎng)故障處理情況向應(yīng)急指揮組及時(shí)匯報(bào)和更新;在實(shí)施應(yīng)急措施過(guò)程中,協(xié)調(diào)其他專(zhuān)業(yè)組為應(yīng)急提供技術(shù)支持;故障解決后總結(jié)、歸納應(yīng)急工作的經(jīng)驗(yàn)和教訓(xùn),完善相關(guān)應(yīng)急預(yù)案;負(fù)責(zé)制定、修改、優(yōu)化應(yīng)急預(yù)案中應(yīng)急場(chǎng)景的具體處置方案;負(fù)責(zé)組織應(yīng)急預(yù)案的檢查和評(píng)審工作。
4)應(yīng)急溝通組。負(fù)責(zé)準(zhǔn)備應(yīng)急現(xiàn)場(chǎng)的故障初始、進(jìn)展、升級(jí)、解決等相關(guān)報(bào)告;負(fù)責(zé)故障處理時(shí)間控制,以衡量是否需要更新報(bào)告或升級(jí)處理;負(fù)責(zé)按應(yīng)急指揮組指令,及時(shí)將應(yīng)急情況匯報(bào)給管理層和業(yè)務(wù)層;負(fù)責(zé)應(yīng)急處置后,給應(yīng)急指揮組和實(shí)施組匯總所有溝通報(bào)告;參加應(yīng)急演練,并提出相應(yīng)的改進(jìn)建議。
5)應(yīng)急保障組。負(fù)責(zé)應(yīng)急過(guò)程中的后勤保障,包括安排會(huì)議室、應(yīng)急提示牌、電話(huà)、視頻會(huì)議、網(wǎng)絡(luò)、交通、食宿等;根據(jù)應(yīng)急指揮組的授權(quán),負(fù)責(zé)現(xiàn)場(chǎng)聯(lián)絡(luò)各應(yīng)急小組和召集三方資源;參加應(yīng)急演練,并提出相應(yīng)的改進(jìn)建議。
需根據(jù)應(yīng)急組織機(jī)構(gòu)確定相應(yīng)的人員,每組至少有 2 人互為備份,將每個(gè)人按照組別、角色、姓名、座機(jī)、手機(jī)、郵箱、應(yīng)急后備等信息填表,并下發(fā)到該信息系統(tǒng)相關(guān)的人員手中。
1.2 現(xiàn)狀評(píng)估
評(píng)估的目的是發(fā)現(xiàn)水利信息系統(tǒng)目前現(xiàn)狀的優(yōu)勢(shì)和劣勢(shì),現(xiàn)狀可依次分成以下 4個(gè)方面:1)最好的情況是健全的實(shí)踐現(xiàn)狀,近乎全面的方案;2)較好的是可接受的實(shí)踐現(xiàn)狀,但須進(jìn)行某些改進(jìn);3)稍差的是不完善的實(shí)踐現(xiàn)狀或可能缺少功能,可能對(duì)可用性產(chǎn)生負(fù)面影響,建議進(jìn)行改進(jìn);4)較差的實(shí)踐現(xiàn)狀或缺少重要功能,可能?chē)?yán)重影響可用性,建議進(jìn)行改進(jìn)。在計(jì)劃方面也分成 4個(gè)方面,依次是,健全的計(jì)劃,可能行之有效,而且涉及到所需的大部分領(lǐng)域;可接受的計(jì)劃,但難于實(shí)施,缺少某些功能或資源不充分;計(jì)劃可能較差,有可能無(wú)效,或缺少重要的功能;計(jì)劃可能很差,沒(méi)有明確存在的問(wèn)題,缺少問(wèn)題或問(wèn)題無(wú)效。
評(píng)估的內(nèi)容圍繞水利信息系統(tǒng)的方方面面,包括水利信息系統(tǒng)目前運(yùn)行的物理環(huán)境、管理情況、日常運(yùn)維情況的現(xiàn)狀,如運(yùn)維管理和業(yè)務(wù)部門(mén)是否有良好的溝通,對(duì)業(yè)務(wù)的運(yùn)維管理是否有良好的基礎(chǔ),是否建立了運(yùn)維平臺(tái),是否有良好的策略和規(guī)范,和業(yè)務(wù)相關(guān)的各個(gè)維護(hù)單位是否做到配合默契,在運(yùn)維管理電子化方面,是否采用規(guī)范、統(tǒng)一的電子化信息平臺(tái),系統(tǒng)設(shè)計(jì)和配置是否采用高可靠的冗余設(shè)計(jì),是否運(yùn)用雙機(jī)熱備、負(fù)載均衡、冷備切換和廠(chǎng)家維保等方式?通過(guò)評(píng)估總結(jié),可以看出信息系統(tǒng)的運(yùn)維現(xiàn)狀和行業(yè)標(biāo)準(zhǔn)的差距,在哪些方面需要改進(jìn),還有哪些薄弱環(huán)節(jié),這些薄弱環(huán)節(jié)有可能引起信息系統(tǒng)的故障。
2.1 系統(tǒng)關(guān)鍵功能與風(fēng)險(xiǎn)的識(shí)別
2.1.1 關(guān)鍵功能識(shí)別
按照水利信息系統(tǒng)的功能進(jìn)行模塊分割,每模塊還具有許多小的功能模塊,根據(jù)信息系統(tǒng)的具體功能和應(yīng)用范圍及影響程度,識(shí)別出信息系統(tǒng)的關(guān)鍵功能,并以此判斷故障的嚴(yán)重程度,從而進(jìn)一步確定是否啟動(dòng)應(yīng)急預(yù)案。一旦業(yè)務(wù)應(yīng)用系統(tǒng)多個(gè)功能失效,在有限的應(yīng)急資源條件下,優(yōu)先恢復(fù)業(yè)務(wù)應(yīng)用系統(tǒng)的關(guān)鍵功能。
以水利電子政務(wù)綜合辦公系統(tǒng)(以下簡(jiǎn)稱(chēng)綜合辦公系統(tǒng))為例。目前,綜合辦公系統(tǒng)按業(yè)務(wù)需求劃分為 6 大類(lèi)別功能模塊[1]。根據(jù)綜合辦公系統(tǒng)的行政辦公類(lèi)型和應(yīng)用范圍,及其對(duì)水利部行政辦公管理的影響程度,識(shí)別出綜合辦公系統(tǒng)的關(guān)鍵功能,如領(lǐng)導(dǎo)辦公和公文辦理模塊,這 2個(gè)模塊一旦癱瘓,就會(huì)影響整個(gè)水利部機(jī)關(guān)的日常辦公,因此屬關(guān)鍵功能。一旦綜合辦公系統(tǒng)多個(gè)功能失效,在有限的應(yīng)急資源條件下,優(yōu)先恢復(fù)綜合辦公系統(tǒng)的關(guān)鍵功能。
2.1.2 各種風(fēng)險(xiǎn)識(shí)別
風(fēng)險(xiǎn)的識(shí)別是編制應(yīng)急預(yù)案的重要環(huán)節(jié),著名的墨菲定律指出:凡事只要有可能出錯(cuò),那就一定會(huì)出錯(cuò)[2]。只有在全面了解各種風(fēng)險(xiǎn)的基礎(chǔ)上,才能預(yù)測(cè)風(fēng)險(xiǎn)可能造成的危害,預(yù)防可以避免的,推遲不可避免的,從而選擇處理風(fēng)險(xiǎn)的有效手段,因此首先應(yīng)進(jìn)行風(fēng)險(xiǎn)識(shí)別。
針對(duì)綜合辦公系統(tǒng),對(duì)其部署的物理環(huán)境、維護(hù)人員、網(wǎng)絡(luò)環(huán)境、數(shù)據(jù)存儲(chǔ)環(huán)境、應(yīng)用系統(tǒng)部署的主機(jī)情況、數(shù)據(jù)庫(kù)情況,以及所使用的中間件環(huán)境等因素進(jìn)行全面分析,分別對(duì)故障場(chǎng)景、影響范圍、嚴(yán)重程度、發(fā)生的可能性進(jìn)行綜合分析,從而確定各種情況的故障等級(jí)。
在分析的過(guò)程中,圖1 所示是列舉的可能出現(xiàn)風(fēng)險(xiǎn)的各個(gè)環(huán)節(jié)。采用頭腦風(fēng)暴法,通過(guò)集思廣益發(fā)揮團(tuán)體智慧,從不同角度找出各種風(fēng)險(xiǎn)構(gòu)成要素,多多益善。
圖1 風(fēng)險(xiǎn)構(gòu)成要素圖
針對(duì)綜合辦公系統(tǒng),在盡可能多的列舉風(fēng)險(xiǎn)后,應(yīng)該對(duì)列舉的風(fēng)險(xiǎn),根據(jù)一定時(shí)間內(nèi)可能發(fā)生或發(fā)生的概率,將可能性分為以下 3 種情況:
1)高(可能性大)。指在一定時(shí)間內(nèi),此種風(fēng)險(xiǎn)有可能發(fā)生或發(fā)生的概率大于 35%,衡量的指標(biāo)為 3年內(nèi)可能發(fā)生 2 次或更多,或者最近發(fā)生過(guò)。
2)中(有可能)。指在一定時(shí)間內(nèi)有可能發(fā)生或發(fā)生的概率小于 35%,衡量的指標(biāo)為 3年內(nèi)可能發(fā)生 1 次或由某種外部影響面難以控制,不確定是否曾經(jīng)發(fā)生過(guò)。
3)低(基本不可能)。指在一定時(shí)間內(nèi)有可能發(fā)生或發(fā)生的概率小于 5%,衡量的指標(biāo)為沒(méi)發(fā)生過(guò)或基本不可能發(fā)生。
經(jīng)過(guò)分析,挑選出發(fā)生可能性為高或中的風(fēng)險(xiǎn)形成故障場(chǎng)景。
2.2 故障等級(jí)定義的確定
以對(duì)水利電子政務(wù)綜合辦公系統(tǒng)的分析為例說(shuō)明故障等級(jí)的劃分。故障影響程度和范圍主要有以下幾種情況:1)重大的故障。系統(tǒng)癱瘓、數(shù)據(jù)丟失屬重大故障,這種情況往往出現(xiàn)在機(jī)房斷電的時(shí)候,影響嚴(yán)重且范圍大,需要立即啟動(dòng)應(yīng)急管理。2)較大的故障。故障影響較嚴(yán)重且范圍較大,同樣需要啟動(dòng)應(yīng)急管理,如電子政務(wù)門(mén)戶(hù)系統(tǒng)遭到破壞的時(shí)候。3)中等級(jí)別的故障。如應(yīng)用與中間件的內(nèi)存溢出致死機(jī)、單主機(jī)操作系統(tǒng)故障等情況,這種故障影響程度屬中等嚴(yán)重且范圍不大,可以用緊急事件管理流程處理,不需要啟動(dòng)應(yīng)急處理程序,但需要特別關(guān)注該類(lèi)故障的升級(jí)。4)故障級(jí)別為較小的故障。這種故障影響不嚴(yán)重且范圍較小,可以用事件管理流程處理[3]。
故障等級(jí)受故障影響范圍和嚴(yán)重程度控制,按照綜合辦公系統(tǒng)使用人群的分布,受影響人員的范圍確定故障的范圍大小,可通過(guò)所受影響人員的數(shù)量給出 4 種范圍大小的具體定義:全網(wǎng)指全局,即所有人員;較大面積即按照單位計(jì)算,介于 80% ~30% 的用戶(hù)受到影響;局部即按部門(mén)計(jì)算,介于30%~1% 的用戶(hù)受到影響;較小面積指 1個(gè)人或幾個(gè)人受到影響,即小于 1% 的使用用戶(hù)受到影響。
綜合辦公系統(tǒng)故障的嚴(yán)重程度依據(jù)系統(tǒng)關(guān)鍵功能是否可用和下降 2個(gè)方面確定,目前嚴(yán)重程度被劃分為以下 4 種情況:1)非常嚴(yán)重,指服務(wù)功能的缺失,用戶(hù)無(wú)法正常使用綜合辦公系統(tǒng)的所有關(guān)鍵功能,所有關(guān)鍵功能均不可用;2)較嚴(yán)重,指服務(wù)功能的缺失,用戶(hù)無(wú)法使用綜合辦公系統(tǒng)的部分關(guān)鍵功能,部分關(guān)鍵功能不可用;3)一般嚴(yán)重,指服務(wù)能力的降低,用戶(hù)感覺(jué)到綜合辦公系統(tǒng)的所有關(guān)鍵功能性能下降;4)輕微嚴(yán)重,指服務(wù)能力的降低,用戶(hù)感覺(jué)到綜合辦公系統(tǒng)的部分關(guān)鍵功能性能下降。
依據(jù)故障的嚴(yán)重程度和影響范圍綜合考慮和確定,目前把故障等級(jí)劃分為重大(I 級(jí))、較大(Ⅱ級(jí))、中等(Ⅲ 級(jí))和較?。á?級(jí))4個(gè)級(jí)別[4],將每種情況進(jìn)行量化,根據(jù)故障對(duì)水利信息系統(tǒng)造成的嚴(yán)重程度和影響范圍形成影響程度矩陣,最終確定故障等級(jí),給故障的研判提供可靠依據(jù),如表1 所示。
表1 故障等級(jí)劃分
2.3 故障的升級(jí)
當(dāng)告警/故障類(lèi)的突發(fā)事件發(fā)生以后,必須對(duì)故障產(chǎn)生的影響程度進(jìn)行初步判斷,確認(rèn)故障級(jí)別后,應(yīng)立即按照故障升級(jí)規(guī)則,將故障事件匯報(bào)到相應(yīng)領(lǐng)導(dǎo)層,對(duì)于較小的 IV 級(jí)故障,升級(jí)時(shí)間為 3 d,只對(duì)內(nèi)匯報(bào)給信息系統(tǒng)管理員;對(duì)于中等的級(jí)別為III 的故障,升級(jí)時(shí)間為 1 d,只對(duì)內(nèi)匯報(bào)給應(yīng)急組組長(zhǎng);對(duì)于較大的 II 級(jí)故障升級(jí)時(shí)間為 4 h,對(duì)內(nèi)匯報(bào)給應(yīng)急領(lǐng)導(dǎo)組,對(duì)外匯報(bào)給上級(jí)領(lǐng)導(dǎo)和業(yè)務(wù)組;對(duì)于重大的 I 級(jí)故障,升級(jí)時(shí)間為 2 h,對(duì)內(nèi)匯報(bào)給應(yīng)急領(lǐng)導(dǎo)組,對(duì)外匯報(bào)給上級(jí)領(lǐng)導(dǎo)和業(yè)務(wù)組。
故障的處理是一個(gè)發(fā)展變化的過(guò)程,應(yīng)急指揮組應(yīng)每隔 30 min 對(duì)故障的嚴(yán)重程度和影響范圍進(jìn)行重新評(píng)估和更新,按照故障分級(jí)標(biāo)準(zhǔn)重新判定故障級(jí)別,更新故障處理進(jìn)展情況,應(yīng)急溝通組要及時(shí)和應(yīng)急指揮組聯(lián)系和確認(rèn),準(zhǔn)備相應(yīng)的故障情況報(bào)告,并負(fù)責(zé)對(duì)內(nèi)、外及時(shí)更新故障處理情況。
另外,一旦故障發(fā)生,在應(yīng)急處置的過(guò)程中,應(yīng)急溝通組需要檢查和計(jì)算故障持續(xù)的時(shí)間,如果該故障持續(xù)的時(shí)間累計(jì)達(dá)到定義的升級(jí)時(shí)間,經(jīng)應(yīng)急指揮組確認(rèn)后,故障等級(jí)自動(dòng)上升 1 級(jí)。
3.1 應(yīng)急場(chǎng)景的編制
水利信息系統(tǒng)的故障場(chǎng)景應(yīng)急處置應(yīng)從人員、物理環(huán)境、網(wǎng)絡(luò)、存儲(chǔ)與備份、主機(jī)和操作系統(tǒng)、數(shù)據(jù)庫(kù)、應(yīng)用中間件等多方面考慮。
應(yīng)急處置關(guān)鍵在人,為保證應(yīng)急處置及時(shí)、有效,對(duì)于關(guān)鍵崗位平時(shí)應(yīng)做好人員儲(chǔ)備,確保 1 項(xiàng)工作有 2 人操作,能編寫(xiě)故障場(chǎng)景的要事先編寫(xiě)故障場(chǎng)景及相應(yīng)的故障處置預(yù)案,能細(xì)化到命令行的一定要細(xì)化到命令行。使用列表方式表示,包括故障名稱(chēng)、場(chǎng)景編號(hào)、處理預(yù)案編號(hào)、故障等級(jí)、故障類(lèi)別、現(xiàn)象描述、驗(yàn)證方法、處理時(shí)間。解決步驟應(yīng)寫(xiě)明哪些步驟由用戶(hù)處理,哪些步驟由工程師處理。
故障場(chǎng)景應(yīng)使用列表形式編號(hào)存儲(chǔ),編號(hào)的目的是便于故障場(chǎng)景的存儲(chǔ)及發(fā)生故障時(shí)的快速查找。故障場(chǎng)景如表2 所示[5]29。
表2 故障場(chǎng)景
針對(duì)表2 所示故障場(chǎng)景的處理預(yù)案如下:
1)使用主機(jī)序列號(hào)報(bào) case 到響應(yīng)中心;登陸主機(jī) MP 卡,輸入用戶(hù)名/密碼;收集相關(guān)報(bào)錯(cuò)信息,登陸 MP 后執(zhí)行 sl,以及進(jìn)入 CM 執(zhí)行 ps。
2)待響應(yīng)中心確認(rèn)故障部件后,派單給廠(chǎng)家工程師,并與客戶(hù)確認(rèn)備件運(yùn)送地址。
3)廠(chǎng)家工程師操作。備件運(yùn)抵客戶(hù)現(xiàn)場(chǎng),工程師給服務(wù)器斷電并實(shí)施更換;備件更換完畢,給主機(jī)加電;登陸 MP 后使用 fw 命令同步 CELL 板firmware;進(jìn)入 MP 卡的命令界面 CM,使用 PC-〉on 命令啟動(dòng)操作系統(tǒng);系統(tǒng)啟動(dòng)完畢,將該節(jié)點(diǎn)重新加入雙機(jī)集群:cmrunnode node1;廠(chǎng)家工程師檢查系統(tǒng)及雙機(jī)狀態(tài),命令如下,
4) 客戶(hù)操作。數(shù)據(jù)庫(kù)管理員啟動(dòng)數(shù)據(jù)庫(kù);應(yīng)用負(fù)責(zé)人啟動(dòng)應(yīng)用程序;檢查數(shù)據(jù)庫(kù)系統(tǒng)及應(yīng)用是否正常;形成報(bào)告,上報(bào)有關(guān)分管部門(mén)。
故障解決驗(yàn)證方法:主機(jī)正常啟動(dòng),數(shù)據(jù)庫(kù)系統(tǒng)和應(yīng)用可以正常啟動(dòng)和運(yùn)行。
3.2 應(yīng)急啟動(dòng)及關(guān)閉的條件
因?yàn)樗娮诱?wù)綜合辦公系統(tǒng)主要為水利部機(jī)關(guān)的行政辦公提供服務(wù),所以目前設(shè)定恢復(fù)時(shí)間目標(biāo) RTO(Recovery Time Objective)和恢復(fù)點(diǎn)目標(biāo)RPO(Recovery Point Objective)均為 1d。
綜合辦公系統(tǒng)應(yīng)急預(yù)案啟動(dòng)的條件需要同時(shí)滿(mǎn)足以下 3個(gè)條件:
1)故障等級(jí)為 I 或 II 級(jí)(包括低級(jí)別的故障因?yàn)闆](méi)有按時(shí)解決而升至 II 或 I 級(jí)的故障);
2)根據(jù)實(shí)際具體情況,應(yīng)急領(lǐng)導(dǎo)組再次確認(rèn)了故障等級(jí)為 I 或 II 級(jí);
3)應(yīng)急領(lǐng)導(dǎo)組下達(dá)應(yīng)急預(yù)案啟動(dòng)指令和授權(quán)。
綜合辦公系統(tǒng)應(yīng)急預(yù)案關(guān)閉的條件需要同時(shí)滿(mǎn)足以下 5個(gè)條件:
1)應(yīng)急實(shí)施組已經(jīng)在技術(shù)層面解決了故障,而且從用戶(hù)感知方面,應(yīng)急指揮組再次確認(rèn)系統(tǒng)功能已經(jīng)恢復(fù);
2)形成故障處置綜合報(bào)告,并已完成相應(yīng)的善后處置,綜合報(bào)告包含應(yīng)急故障處置報(bào)告、預(yù)案改進(jìn)計(jì)劃(基于實(shí)際情況)和技術(shù)善后處置(基于實(shí)際情況);
3)應(yīng)急故障處置報(bào)告已發(fā)送給上級(jí)領(lǐng)導(dǎo)和業(yè)務(wù)組;
4)預(yù)案改進(jìn)計(jì)劃(基于實(shí)際情況,如果有)完成并通過(guò)審批;
5)技術(shù)善后處置(基于實(shí)際情況,如果有)已經(jīng)觸發(fā)了問(wèn)題管理流程。
3.3 應(yīng)急處置的流程
水利電子政務(wù)綜合辦公系統(tǒng)應(yīng)急處理流程包括以下 3 部分流程:
1)應(yīng)急前期流程。包括在服務(wù)臺(tái)進(jìn)行事件記錄和分類(lèi),對(duì)主動(dòng)或被動(dòng)檢測(cè)到的事件進(jìn)行登記和記錄,對(duì)接收到的事件進(jìn)行分類(lèi)并轉(zhuǎn)發(fā),對(duì)故障進(jìn)行排查、診斷、分析、定位,定位故障后,根據(jù)故障的嚴(yán)重程度和影響范圍確定故障等級(jí)(利用故障診斷和定級(jí)報(bào)告模板),完成故障定級(jí)報(bào)告,如果符合應(yīng)急啟動(dòng)條件,由應(yīng)急領(lǐng)導(dǎo)組立即啟動(dòng)應(yīng)急預(yù)案,授權(quán)應(yīng)急指揮組現(xiàn)場(chǎng)指揮應(yīng)急處置。
2)應(yīng)急處置流程。包括并行的應(yīng)急技術(shù)處置和信息溝通 2個(gè)子流程,由應(yīng)急指揮組統(tǒng)一協(xié)調(diào)、指揮。同時(shí),在應(yīng)急過(guò)程中,應(yīng)急保障組要保障應(yīng)急所需的環(huán)境,幫助應(yīng)急指揮組協(xié)調(diào)應(yīng)急相關(guān)的人員、設(shè)備、物資等。
應(yīng)急技術(shù)處置流程主要是在應(yīng)急指揮組授權(quán)和確認(rèn)后,應(yīng)急實(shí)施組負(fù)責(zé)協(xié)調(diào)和執(zhí)行故障解決的具體技術(shù)處置步驟。在此流程中調(diào)用應(yīng)急處置場(chǎng)景,如場(chǎng)景不能覆蓋,應(yīng)急時(shí)采取其他有效措施。
應(yīng)急信息溝通流程主要是在應(yīng)急指揮組的授權(quán)和確認(rèn)后,應(yīng)急溝通組負(fù)責(zé)向領(lǐng)導(dǎo)層和業(yè)務(wù)部門(mén)發(fā)布故障的初始、進(jìn)展、升級(jí)和故障解決情況報(bào)告,確保信息中心對(duì)內(nèi)、外溝通的一致性和連續(xù)性。在這個(gè)流程中,應(yīng)充分使用模板(包括故障診斷和定級(jí)及情況報(bào)告模板),以達(dá)到快速、準(zhǔn)確的要求。
3)應(yīng)急后期流程。包括應(yīng)急實(shí)施組匯總所有的故障診斷和定級(jí)、情況和現(xiàn)場(chǎng)技術(shù)處置等報(bào)告,并上報(bào)到應(yīng)急指揮組共同討論,形成最終的故障處置綜合報(bào)告。應(yīng)急領(lǐng)導(dǎo)組審核和確認(rèn)故障處置綜合報(bào)告后,應(yīng)急故障處置報(bào)告會(huì)發(fā)給上級(jí)領(lǐng)導(dǎo)和業(yè)務(wù)組,如果有相應(yīng)的技術(shù)善后處置和預(yù)案改進(jìn)計(jì)劃,需要在完成相應(yīng)的善后處理之后,應(yīng)急預(yù)案才被應(yīng)急領(lǐng)導(dǎo)組正式授權(quán)關(guān)閉。
4.1 應(yīng)急預(yù)案的演練計(jì)劃與方案
為提高對(duì)突發(fā)事件的應(yīng)急響應(yīng)水平,水利信息系統(tǒng)應(yīng)用組應(yīng)定期或不定期組織該系統(tǒng)應(yīng)急預(yù)案的演練,檢驗(yàn)預(yù)案中各環(huán)節(jié)之間的通信、協(xié)調(diào)、指揮等是否符合快速和高效的要求。通過(guò)演練,進(jìn)一步明確應(yīng)急響應(yīng)各崗位責(zé)任,對(duì)預(yù)案中存在的問(wèn)題和不足及時(shí)補(bǔ)充、完善。
水利信息系統(tǒng)應(yīng)用組每年要擬訂年度應(yīng)急演練計(jì)劃,在一年中按計(jì)劃實(shí)施應(yīng)急演練工作。應(yīng)急演練計(jì)劃應(yīng)包括:演練預(yù)案的名稱(chēng)、責(zé)任部門(mén)、責(zé)任人、配合部門(mén)、演練類(lèi)型、演練事件,以及相應(yīng)的演練編寫(xiě)人、審核人和批準(zhǔn)人等。綜合辦公系統(tǒng)應(yīng)急預(yù)案的演練計(jì)劃表如表3 所示[5]43。
表3 綜合辦公系統(tǒng)預(yù)案演練計(jì)劃
演練前,水利信息系統(tǒng)應(yīng)用組應(yīng)牽頭制訂詳細(xì)的應(yīng)急演練方案,應(yīng)包括:演練目的、組織、方式、場(chǎng)景、時(shí)間和地點(diǎn)、步驟、過(guò)程、總結(jié)等。
4.2 應(yīng)急預(yù)案的演練執(zhí)行與總結(jié)
演練執(zhí)行的形式可根據(jù)具體情況選擇桌面、功能或全面演練,具體如下:
1)桌面演練。通常在室內(nèi),利用流程圖、計(jì)算機(jī)模擬、會(huì)議等輔助手段,按照水利信息系統(tǒng)預(yù)案討論和推演應(yīng)急決策和應(yīng)急狀況下應(yīng)采取的現(xiàn)場(chǎng)處置行動(dòng)。
2)功能演練。針對(duì)水利信息系統(tǒng)的應(yīng)急預(yù)案的專(zhuān)項(xiàng)(特定場(chǎng)景、職能部門(mén)等)而組織的實(shí)際演練活動(dòng)。
3)全面演練。針對(duì)水利信息系統(tǒng)的應(yīng)急預(yù)案的多項(xiàng)(多個(gè)特定場(chǎng)景、職能部門(mén)等)而展開(kāi)的實(shí)際演練活動(dòng)。
演練期間,各工作小組應(yīng)做好技術(shù)和后勤配合工作。對(duì)于每次演練,都要對(duì)整個(gè)執(zhí)行過(guò)程做具體的記錄。演練后,水利信息系統(tǒng)應(yīng)用組應(yīng)牽頭總結(jié)經(jīng)驗(yàn),修改完善演練方案,對(duì)涉及的應(yīng)急預(yù)案部分,也要進(jìn)行修訂完善。
4.3 應(yīng)急預(yù)案的評(píng)審與修訂
水利信息系統(tǒng)應(yīng)用組負(fù)責(zé)對(duì)該系統(tǒng)應(yīng)急預(yù)案文檔進(jìn)行初步審閱和審批,應(yīng)急領(lǐng)導(dǎo)組負(fù)責(zé)對(duì)預(yù)案文檔進(jìn)行最終審閱和審批。在單位的發(fā)展戰(zhàn)略、組織機(jī)構(gòu)、業(yè)務(wù)規(guī)模、信息系統(tǒng)升級(jí)和變更(尤其是重大變更)、內(nèi)外部信息系統(tǒng)運(yùn)行環(huán)境等發(fā)生變化的情況下,要及時(shí)對(duì)信息系統(tǒng)所面臨的風(fēng)險(xiǎn)進(jìn)行重新評(píng)估和審計(jì),如果可能的話(huà),應(yīng)由外部機(jī)構(gòu)承擔(dān)。發(fā)現(xiàn)的問(wèn)題能夠被報(bào)告出來(lái),并據(jù)此采取改進(jìn)行動(dòng),對(duì)預(yù)案文檔進(jìn)行必要的修訂和更新。
水利信息系統(tǒng)應(yīng)用組每年至少應(yīng)組織 1 次信息系統(tǒng)應(yīng)急預(yù)案文檔的復(fù)審和修訂,進(jìn)行例行的風(fēng)險(xiǎn)分析和評(píng)估。通過(guò)對(duì)應(yīng)急預(yù)案預(yù)先設(shè)定的關(guān)鍵性能指標(biāo)(KPI)來(lái)衡量應(yīng)急預(yù)案的實(shí)施效果,具體如下:
KPI 預(yù)案故障場(chǎng)景覆蓋率 = 被用到的預(yù)案故障場(chǎng)景數(shù)量/總故障數(shù)量/年×100%;
KPI 預(yù)案故障場(chǎng)景解決率 = 用預(yù)案故障場(chǎng)景成功解決故障的數(shù)量/被用到的故障場(chǎng)景數(shù)量/年× 100%。注意:所涉及的數(shù)量統(tǒng)計(jì)僅針對(duì)信息系統(tǒng)的故障/告警類(lèi)突發(fā)事件。
4.4 應(yīng)急預(yù)案的變更與回收
水利信息系統(tǒng)應(yīng)用組負(fù)責(zé)文檔的保管和分發(fā)及版本控制,信息系統(tǒng)應(yīng)用組和各應(yīng)急相關(guān)小組應(yīng)保留 1 份最新的應(yīng)急預(yù)案,各應(yīng)急小組成員每人手中應(yīng)保留 1 份最新的預(yù)案及相關(guān)的技術(shù)操作手冊(cè)。應(yīng)急預(yù)案文檔在使用過(guò)程中發(fā)生變更是很常見(jiàn)的現(xiàn)象,對(duì)于發(fā)生變更的預(yù)案文檔,需要通過(guò)版本的控制和管理,對(duì)形成的預(yù)案文檔及時(shí)進(jìn)行歸檔保存。
預(yù)案文檔發(fā)生變更時(shí),需要做到以下幾點(diǎn):文檔有清晰的變更記錄;在文檔發(fā)生變更時(shí),需通知相關(guān)人員,避免新的文檔產(chǎn)生后還使用舊的文檔;應(yīng)急預(yù)案每次修訂后,原分發(fā)的舊版本應(yīng)該銷(xiāo)毀。
水利信息系統(tǒng)應(yīng)急預(yù)案在編制過(guò)程中可能會(huì)存在以下幾方面的問(wèn)題:
1)過(guò)于復(fù)雜。水利信息系統(tǒng)的應(yīng)急預(yù)案面對(duì)突發(fā)事件,一些單位編制的應(yīng)急預(yù)案內(nèi)容非常完善,動(dòng)輒幾十頁(yè),甚至上百頁(yè),這些應(yīng)急預(yù)案理論性太強(qiáng),安全事件的定級(jí)、預(yù)案啟動(dòng)、應(yīng)急處置等環(huán)節(jié)定義不準(zhǔn)確,缺乏可操作性,沒(méi)有明確的流程,在環(huán)節(jié)的處理上各相關(guān)應(yīng)急工作人員職責(zé)不清,無(wú)法迅速對(duì)照應(yīng)急預(yù)案定位應(yīng)采取的措施,作為應(yīng)急處置人員,面對(duì)厚厚的預(yù)案,當(dāng)發(fā)生安全事件時(shí),往往會(huì)手足無(wú)措[6]。
2)缺乏完整性。一些單位編制的應(yīng)急預(yù)案內(nèi)容過(guò)于簡(jiǎn)單,不夠完整。這些應(yīng)急預(yù)案往往只關(guān)注關(guān)鍵環(huán)節(jié),而忽視其他環(huán)節(jié)。主要表現(xiàn)在只注重分級(jí)、分類(lèi)及應(yīng)急處置環(huán)節(jié)的編寫(xiě),對(duì)于安全事件的報(bào)告、安全等級(jí)研判、決策指揮、信息發(fā)布及通報(bào)、應(yīng)急響應(yīng)報(bào)告、應(yīng)急預(yù)案演練、應(yīng)急預(yù)案的評(píng)估、應(yīng)急預(yù)案的修訂等方面內(nèi)容涉及太少,有些環(huán)節(jié)甚至不作任何描述。
3)應(yīng)急與運(yùn)維的關(guān)系不明確。一些單位有很強(qiáng)大的運(yùn)行維護(hù)部門(mén),大事小事都由運(yùn)維部門(mén)單方面解決,當(dāng)事件發(fā)生時(shí),由于缺乏研判過(guò)程,有的應(yīng)急事件被當(dāng)成普通事件,忽略了應(yīng)急事件中的通報(bào)、信息發(fā)布等重要環(huán)節(jié);有的普通事件又被當(dāng)成應(yīng)急事件處理,把本來(lái)很簡(jiǎn)單的事情復(fù)雜化,造成人員和經(jīng)費(fèi)的浪費(fèi)。
為避免上述問(wèn)題,應(yīng)該做到以下幾點(diǎn):
1)力求實(shí)用,可操作。首先是人員組織的設(shè)置要到位,人員信息完整,確保應(yīng)急發(fā)生時(shí)有相應(yīng)的人員快速進(jìn)入處置;其次是明確應(yīng)急啟動(dòng)和關(guān)閉的條件,條件不能含糊不清;三是故障場(chǎng)景具體實(shí)用,描述清晰,處置命令明確;四是事件升級(jí)的條件都要具體,該升級(jí)必須升級(jí);五是演練計(jì)劃不虛設(shè)。
2)力求內(nèi)容完整。首先是基礎(chǔ)資料的完整,細(xì)化到主機(jī)人員的聯(lián)系方式,網(wǎng)絡(luò)備用設(shè)備的存放地址,信息系統(tǒng)相關(guān)設(shè)備的位置、型號(hào),操作系統(tǒng)的版本號(hào),每塊網(wǎng)卡的序列號(hào)等;其次是應(yīng)急處置方案的完整,應(yīng)急處置方案的完整性直接關(guān)系到應(yīng)急事件的處置,在實(shí)際工作中應(yīng)很好地保存,必要時(shí)便于查看,也可以和運(yùn)維知識(shí)庫(kù)相關(guān)聯(lián);再次是應(yīng)急處置過(guò)程中各種報(bào)告的模板,便于快速形成報(bào)告。
3)力求量化,便于研判。在事件發(fā)生時(shí),運(yùn)維人員能通過(guò)具體的量化值判斷是否是應(yīng)急事件,能夠通過(guò)受影響的范圍和受害程度迅速定級(jí),從而啟動(dòng)相應(yīng)的應(yīng)急流程。
總之,在編制水利信息系統(tǒng)應(yīng)急預(yù)案的過(guò)程中應(yīng)重視應(yīng)急預(yù)案的嚴(yán)謹(jǐn)性,科學(xué)制定演練計(jì)劃,不斷完善,并與運(yùn)維相結(jié)合,將信息系統(tǒng)應(yīng)急處置場(chǎng)景納入運(yùn)維知識(shí)庫(kù),與運(yùn)維系統(tǒng)充分融合。
參考文獻(xiàn):
[1] 水利部水利信息中心. 水利電子政務(wù)建設(shè)基本技術(shù)要求(水文[2010]189 號(hào))[S]. 北京,中華人民共和國(guó)水利部,2010: 11-28.
[2] 崔全會(huì),黃受安,李規(guī)正,等. 簡(jiǎn)論安全管理的警示職能——墨菲定律的啟示[J]. 中國(guó)安全科學(xué)學(xué)報(bào),1999 (4): 18-20.
[3] 付靜,詹全忠,唐燕,等.《水利網(wǎng)絡(luò)與信息安全事件應(yīng)急預(yù)案》解析[J]. 中國(guó)水利,2008 (19): 13-15.
[4] 全國(guó)信息安全標(biāo)準(zhǔn)化委員會(huì). 信息安全技術(shù)信息安全事件分類(lèi)分級(jí)指南 [S]. 北京:中國(guó)標(biāo)準(zhǔn)出版社,2007: 5-6.
[5] 水利部水利信息中心. 綜合辦公系統(tǒng)應(yīng)急預(yù)案[M]. 北京:中華人民共和國(guó)水利部,2012.
[6] 褚英國(guó),陳正奎. 關(guān)于網(wǎng)絡(luò)與信息安全應(yīng)急預(yù)案的研究與實(shí)踐[OL]. [2014-01-08]. http://www.docin.com/p-753168173. html.
Study on Preparation of Emergency Plans for Water Resources Information System
TANG Yan1, LU Tong2, DING Ning3
(1. Information center, the Ministry of Water Resources, Beijing 100053, China;
2. Beijing Jinshui Yan Yu Technology Co. Ltd, Beijing 100089, China;
3. Beijing Jinshui Information Technology Co., Ltd., Beijing 100053, China)
With the compilation of emergency response plan for integrated office system of water resources e-government as an example, from confirmation of emergency organization and responsibility, formulation of the fault classification, emergency disposal and exercise and other aspects of water resources information system emergency planning process, the article suggests emergency plan should avoid over complex, keep integrity and rigor of the plan, scientifically make exercise plans, and combine with the operation and maintenance. So that when emergencies happen, it will minimize the loss as far as possible.
water resources information system; integrated office system; emergency plan; development; research
TN39
A
1674-9405(2014)01-0047-07
2014-01-10
唐 燕(1964-),女,天津人,高級(jí)工程師,從事水利信息化建設(shè)與運(yùn)維管理工作。