國網(wǎng)保定供電公司 孫蓮英
主機作為信息系統(tǒng)的核心設(shè)備,是信息系統(tǒng)安全、穩(wěn)定運行的保障重點和根本核心。正是基于信息系統(tǒng)安全的考慮,隨著國網(wǎng)公司SG186工程的規(guī)劃、設(shè)計、建設(shè)、投運,許多重要信息系統(tǒng)由地市級公司部署逐步向省級和國網(wǎng)統(tǒng)一部署聯(lián)網(wǎng)發(fā)展。在全部統(tǒng)一業(yè)務(wù)管理之前,仍有部分業(yè)務(wù)應(yīng)用系統(tǒng)、基礎(chǔ)管理系統(tǒng)由地市信息部門管理,這些系統(tǒng)的安全穩(wěn)定運行對地市公司來講仍然具有十分重要的意義。
2011年,公司“三集五大”機構(gòu)調(diào)整后,信通公司成立。在資金、人力、物力投入逐步收縮的情況下,建立適合目前地市公司現(xiàn)狀的主機安全保障體系,是保定供電公司(簡稱保供)信通部門所面臨的主要問題。為了適應(yīng)新的管理模式,全面提升主機管理工作水平,保供借鑒了原主機管理經(jīng)驗,并查找原管理工作中存在的不足和問題,探討建立適于地市公司的主機安全防護保障體系,旨在全面提高主機管理工作水平,為提高公司經(jīng)濟效益和服務(wù)水平,提升企業(yè)社會形象打下基礎(chǔ)。
保供通過對近幾年主機運維管理、故障檢修工作的統(tǒng)計分析,總結(jié)出主機管理主要存在以下幾方面問題:
一是設(shè)備老化嚴重,設(shè)備故障率逐年提高。目前保供主機服役年限大多在8年以上,少數(shù)甚至超過10年。由于超期服役,部件老化嚴重,故障頻發(fā),威脅主機安全。
二是資金投入嚴重不足,造成主機設(shè)備超期服役、帶病運行。由于缺少備品備件,故障部件不能及時更換,甚至造成設(shè)備癱瘓,不能修復。鑒于同一服務(wù)器硬盤大多為同一批次產(chǎn)品,壽命周期接近,此類問題并非偶然,其他服務(wù)器同樣面臨這樣的安全威脅。
三是管理有弱化傾向。由于營銷、生產(chǎn)等重要信息系統(tǒng)已上收,有些管理人員放松了思想上的警惕性,認為地市信息專業(yè)管理重點已經(jīng)轉(zhuǎn)移,甚至認為地市公司主機管理是可有可無的,即使個別主機故障了也不會給企業(yè)造成重大負面影響。
鑒于此種情況,保供信通部門利用安全日活動,以安全隱患分析為契機,查找信息系統(tǒng)存在的隱患,認真分析主機故障后給公司各部門工作帶來的不便和數(shù)據(jù)丟失造成的損害。經(jīng)過統(tǒng)一思想,保供信通部門各級人員達成共識:地市公司主機管理應(yīng)在現(xiàn)有條件下,通過建立全方位的主機安全保障措施,建立適于地市級公司的主機安全管理模式,達到保障現(xiàn)有系統(tǒng)安全可靠運行的目標。
“全險式”主機安全防護保障體系,就是全面分析主機安全“風險源”,建立從主機系統(tǒng)硬件、軟件、數(shù)據(jù)、運檢、制度體系建設(shè)等多層面、多維度、全方位的主機安全防護體系,最大限度防止主機安全事件的發(fā)生,降低主機安全風險,提高主機安全、可靠運行水平。
主機硬件安全保障,就是根據(jù)系統(tǒng)重要等級的不同,分別采取:系統(tǒng)熱備、系統(tǒng)冷備、主機硬件冗余、備品備件等方式,防止因硬件故障造成的系統(tǒng)癱瘓等災難性事件的發(fā)生。
保供在主機資金投入有限的情況下,根據(jù)現(xiàn)有系統(tǒng)重要等級的不同,采取了以下幾種方案防范主機硬件安全風險:
一是采用系統(tǒng)硬件冷備。系統(tǒng)硬件冷備指由于主機硬件故障造成系統(tǒng)停運或崩潰情況下通過備機完成系統(tǒng)恢復的方式。一旦運行主機發(fā)生故障,立即啟用冷備主機接管。采用系統(tǒng)冷備方式的優(yōu)點是投資小,操作簡便,相對較安全、可靠;缺點是因數(shù)據(jù)不是實時備份,如果在運主機故障癱瘓,會丟失前一天備份點到故障點數(shù)據(jù)。
二是采用主機硬件冗余。對硬盤、內(nèi)存、電源、風扇等易損部件采用熱冗余方式。比如對硬盤采用RAID設(shè)置,主要是根據(jù)系統(tǒng)的重要等級,一般采用RAID1,RAID5,RAID5+1或RAID51,當硬盤1塊甚至2塊故障情況下,仍能保障系統(tǒng)正常運行。
三是通過硬件檢測工具軟件及時發(fā)現(xiàn)主機設(shè)備硬件故障。為了在主機發(fā)生故障的第一時間內(nèi)發(fā)現(xiàn)故障,可以在主機上安裝原廠商開發(fā)的專業(yè)檢測軟件,定時對主機硬件進行檢測,一旦發(fā)現(xiàn)有硬件缺陷,及時修復或更換故障部件。
四是合理儲備購置備品備件。一旦發(fā)生設(shè)備硬件故障立即用備品備件檢修更換。
通過對主機運檢工作的總結(jié),為提高運檢工作質(zhì)量和效率,購置主機應(yīng)遵循以下幾項原則:
1)購置前一定要調(diào)研,對主機的產(chǎn)品質(zhì)量、運行性能、整體結(jié)構(gòu)設(shè)計、性價比認真考證。產(chǎn)品質(zhì)量是主機安全可靠運行的基礎(chǔ),運行性能要與具體系統(tǒng)相匹配,好的整體結(jié)構(gòu)設(shè)計使運維工作更簡單、快捷。經(jīng)過對各類因素綜合考慮確定性價比高的主機品牌和型號。
2)在條件允許的條件下,最好始終采購同一業(yè)界口碑好的知名品牌主機,最好不要超過兩個品牌,用了都說好就是真的好。同一批次主機采購要選用同一種品牌型號,不同批次的采購也應(yīng)盡量采購同一品牌產(chǎn)品。這樣做的主要原因是由于同一品牌產(chǎn)品操作相同或相似,使運檢工作更加方便、快捷,備品備件可以通用,后期維護工作也將變的簡便、易行。
3)采購時同一品牌型號主機零部件也選用同一型號、容量,特別是硬盤,這樣做的主要原因是在硬盤故障緊急情況下可以臨時互換。
主機系統(tǒng)軟件安全是指信息系統(tǒng)的安全可靠運行必須以主機操作系統(tǒng)、應(yīng)用系統(tǒng)服務(wù)端軟件、數(shù)據(jù)庫管理系統(tǒng)等軟件為基礎(chǔ),保證這些軟件系統(tǒng)的安全是信息系統(tǒng)安全可靠運行的必備條件。
保供采取了以下措施保證系統(tǒng)軟件的安全:
一是采用系統(tǒng)軟件冷備方式。就是在其它主機上部署和主運服務(wù)器相同軟件系統(tǒng)環(huán)境,主要和系統(tǒng)硬件冷備結(jié)合使用,區(qū)別是:系統(tǒng)硬件崩潰一定會造成系統(tǒng)軟件癱瘓,但系統(tǒng)軟件故障不一定由硬件故障引起。為了方便對主機系統(tǒng)軟件進行冷備用,保供大部分主機盡可能安裝同一版本的操作系統(tǒng),比如老版本的Wi ndows Ser ver 2003,新版本統(tǒng)一安裝Windows Ser ver 2008,然后在冷備主機上和主運服務(wù)器部署相同的應(yīng)用系統(tǒng)環(huán)境,數(shù)據(jù)庫管理系統(tǒng)環(huán)境,并在該主機上存放最新運行備份數(shù)據(jù)。一旦主運設(shè)備由于軟件系統(tǒng)故障造成系統(tǒng)停運,可在較短時間恢復數(shù)據(jù),保證系統(tǒng)穩(wěn)定運行。此類系統(tǒng)恢復操作簡單,所需時間短,一般適用于較重要等級信息系統(tǒng)恢復。
由于營銷、生產(chǎn)等一級重要信息系統(tǒng)已上收至省公司和國網(wǎng)部署,目前地市公司部署的縣公司門戶、基礎(chǔ)應(yīng)用系統(tǒng)等一般采用冷備方式即可滿足基本要求。缺點和硬件冷備相同,就是一旦發(fā)生在運主機系統(tǒng)軟件故障造成系統(tǒng)癱瘓,會丟失前一天備份點到故障點數(shù)據(jù)。
二是使用專業(yè)的服務(wù)器系統(tǒng)備份和恢復軟件。這些專業(yè)軟件可從本地或遠程進行備份,并將數(shù)據(jù)備份至指定的存儲介質(zhì)上,在運行主機故障、系統(tǒng)癱瘓時,恢復至原始位置或不同的主機硬件上,這種方式可全面保護虛擬和物理環(huán)境。
此類備份主要考慮地市公司主機數(shù)量有限,沒有足夠數(shù)量主機進行系統(tǒng)軟件冷備的情況下采用。特點是恢復時間比采用系統(tǒng)軟件冷備時間長,比重新部署系統(tǒng)軟件時間短,但不需要配備冷備主機。
三是重新部署系統(tǒng)軟件。工作人員在首次系統(tǒng)安裝后,對主機引導安裝盤、操作系統(tǒng)盤、應(yīng)用系統(tǒng)部署安裝盤、數(shù)據(jù)庫安裝盤分門別類按標準化要求,規(guī)范妥善保管。并對在運主機運行環(huán)境重要參數(shù)設(shè)置進行備份,一旦有在運主機故障、癱瘓事件發(fā)生,可以通過重新部署系統(tǒng)軟件的方式恢復系統(tǒng)環(huán)境,最后通過恢復數(shù)據(jù)庫數(shù)據(jù),恢復系統(tǒng)運行。由于部署系統(tǒng)軟件需要時間較長,此類方式一般只適用于對時限要求不高的非重要等級信息系統(tǒng)的恢復。
主機數(shù)據(jù)安全是建立在主機系統(tǒng)硬件和軟件基礎(chǔ)上的,主機系統(tǒng)硬件、軟件安全是為數(shù)據(jù)安全服務(wù)的。
保供主要采取以下方式保障信息系統(tǒng)數(shù)據(jù)安全:
一是本機備份。首先根據(jù)系統(tǒng)重要等級設(shè)置備份策略,然后編寫系統(tǒng)自動備份腳本,并在計劃任務(wù)中定制“定時任務(wù)”,執(zhí)行備份腳本。備份策略包括:日備份、周備份、月備份,根據(jù)實際業(yè)務(wù)要求、數(shù)據(jù)量大小、備份服務(wù)器磁盤容量等情況綜合規(guī)劃每份備份數(shù)據(jù)的保存時間。
二是利用專用備份主機進行數(shù)據(jù)備份。就是在與主數(shù)據(jù)庫所在生產(chǎn)機相分離的備份機上建立主數(shù)據(jù)庫或重要數(shù)據(jù)的一個拷貝。保供將一舊備份主機修舊利新作為備份服務(wù)器,安裝專業(yè)備份軟件,在需要備份的其它主機上安裝客戶端。在對系統(tǒng)進行充分調(diào)研的基礎(chǔ)上制定各系統(tǒng)的備份策略,按照備份策略在備份服務(wù)器上生成“定制計劃”進行數(shù)據(jù)備份。一旦發(fā)生系統(tǒng)故障,可以通過備份服務(wù)器將數(shù)據(jù)恢復到系統(tǒng)主機。
三是移動硬盤、光盤備份異地存放。就是使用移動硬盤和光盤按周期對最新重要數(shù)據(jù)進行備份,異地存放,避免不可預測災害發(fā)生等特殊情況下造成數(shù)據(jù)丟失。
為了在現(xiàn)有條件下,最大限度保障公司主機運行安全,提高主機運行率,保供運維人員通過對多年主機運檢管理經(jīng)驗的總結(jié),探索建立了以主動預防為主的“保健式”主機運檢管理模式,極大提高了主機安全運行指標。
基于“保健式”主動檢修的主機設(shè)備管理的核心思路是:只有防患于未然,才能將事故損失降低到最小。安全生產(chǎn)“安全第一,預防為主” 的思想,同樣適于主機運檢管理工作,基于“保健式”的主動檢修管理模式對于防止主機故障發(fā)生,延長設(shè)備使用壽命,提高公司信息安全水平起到了重要的作用。
“量體裁衣”,提高設(shè)備運營效益是主機設(shè)備“保健式”主動檢修管理的工作宗旨。
保供匯集多年主機設(shè)備運檢經(jīng)驗,在完善主機設(shè)備基礎(chǔ)數(shù)據(jù)的基礎(chǔ)上,根據(jù)主機運行系統(tǒng)的重要等級、不同特點,建立《主機設(shè)備健康檔案》,制定科學合理的“保健式”預防性檢修策略,運檢工作按照策略制定的周期,對設(shè)備進行不同項目的預防性巡檢、消缺、檢修。比如年度預試、月度巡檢、周巡檢、日巡視等,并用檢查結(jié)果指導設(shè)備下一年度的巡檢(主要指設(shè)備清掃,系統(tǒng)優(yōu)化升級,文件、數(shù)據(jù)、磁盤清理,軟件更新,病毒查殺,各種軟件包升級等)、消缺( 主要指設(shè)備部件消缺)和檢修( 主要指設(shè)備故障處理),確保設(shè)備最大限度的健康、穩(wěn)定、可靠運行,并延長設(shè)備使用壽命和生命質(zhì)量。
任何一種工作模式的推廣,只靠經(jīng)驗推動工作開展是不夠的。保供將“全險式”主機安全管理模式和標準化工作相結(jié)合,編制修訂了相關(guān)管理標準,修改、完善了主機運檢、管理工作流程,使主機管理規(guī)范化、標準化。制定了設(shè)備等級劃分標準,依據(jù)設(shè)備的重要程度將設(shè)備劃分為不同安全等級。不斷完善“全險式”主機安全防護體系建設(shè),為開展主機安全管理工作奠定了堅實的基礎(chǔ)。
保供將“全險式”主機安全防護策略形成一整套完善的主機安全保障支撐體系,包括《信息服務(wù)器管理》《班組專業(yè)管理》等車間級管理制度,以及實施“全險式”主機安全防護的作業(yè)指導書,涵蓋主機從購置、上線、運行、退役的各個階段。在這些制度、技術(shù)規(guī)范中明確了從設(shè)備新購驗收,到設(shè)備使用過程中的“周期巡檢”、“消缺”、“故障檢修”直至“報廢”整個生命周期的管理,工作流程明確,作業(yè)指導詳盡,為實施“全險式”主機安全防護的全過程管理提供了可靠的理論依據(jù)。
通過實施“全險式”主機安全防護支撐體系的建設(shè),降低了保供主機設(shè)備故障次數(shù),提高了主機設(shè)備的可用率、運行率,確保了公司主機安全管理工作的高效、有序開展,提高了主機安全管理工作水平。
通過“全險式”管理,保供主機安全運行指標表現(xiàn)突出。2014年未發(fā)生因主機故障造成的信息系統(tǒng)停運事件,主機運行率>99.5%,缺陷及時處理率100%,各項指標均達到或超過預期目標。
隨著時間的推移,主機硬件設(shè)備和軟件技術(shù)在不斷升級、更新,產(chǎn)品質(zhì)量和性能逐年提高;秉承與時俱進的理念,“全險式”主機安全保障體系也根據(jù)實際情況在不斷改進和完善。
主機安全管理是一個逐步完善的動態(tài)管理過程。“全險式”主機安全保障體系的建立和實施,使保供主機安全管理由原來“相對獨立”的單一措施向“綜合治理”邁出了重要一步,為提升保供主機安全管理水平,保障信息系統(tǒng)安全穩(wěn)定運行,提高企業(yè)經(jīng)濟效益、社會服務(wù)水平做出了貢獻。