柳德睿,徐 娜,萬松
(武漢船用機械有限責(zé)任公司,湖北 武漢 430084)
中小型制造企業(yè)涉及設(shè)計、工藝、采購、生產(chǎn)和運營等多個環(huán)節(jié),信息系統(tǒng)繁多,系統(tǒng)使用范圍、重要性各不相同,部署方式上多為單機部署,少數(shù)核心業(yè)務(wù)系統(tǒng)為雙機或者集群部署;其次,信息化基礎(chǔ)設(shè)施作為業(yè)務(wù)信息系統(tǒng)運行支撐環(huán)境,涉及面廣、技術(shù)復(fù)雜度高,業(yè)務(wù)信息系統(tǒng)層面,不同業(yè)務(wù)系統(tǒng)管理人員對計算機相關(guān)知識掌握程度也有較大差別;最后,考慮到公司對信息化基礎(chǔ)設(shè)施經(jīng)費投入有限和信息化基礎(chǔ)設(shè)施技術(shù)不斷發(fā)展等因素,企業(yè)基礎(chǔ)設(shè)施也難以從機房、動力環(huán)境、服務(wù)器、網(wǎng)絡(luò)、存儲、數(shù)據(jù)庫和操作系統(tǒng)等內(nèi)容全部實現(xiàn)容災(zāi)[1]設(shè)計。在這樣的背景下,探究基于信息化基礎(chǔ)設(shè)施的架構(gòu)優(yōu)化、技術(shù)保障措施和設(shè)備宕機、數(shù)據(jù)誤刪除等災(zāi)難場景下的有序、及時、有效恢復(fù)業(yè)務(wù)系統(tǒng)正常運行顯得尤為重要。
在企業(yè)業(yè)務(wù)信息系統(tǒng)新建和技術(shù)改造時,信息化基礎(chǔ)設(shè)施應(yīng)先行或者同步考慮,結(jié)合企業(yè)架構(gòu)現(xiàn)狀進行設(shè)計。基礎(chǔ)設(shè)施架構(gòu)各模塊應(yīng)盡可能地實現(xiàn)容災(zāi),減少單點故障,提高架構(gòu)各模塊可靠性,保證基礎(chǔ)設(shè)施出故障時業(yè)務(wù)信息系統(tǒng)運行不中斷、業(yè)務(wù)數(shù)據(jù)不丟失。
本文針對信息化基礎(chǔ)設(shè)施運行過程中出現(xiàn)的問題,進行整理分析總結(jié),在此基礎(chǔ)上窮舉信息化基礎(chǔ)設(shè)施核心模塊故障場景。其次根據(jù)每個模塊編制災(zāi)難恢復(fù)預(yù)案。在實踐中對人員職責(zé)、故障恢復(fù)流程、操作步驟和技術(shù)支撐等方面出現(xiàn)的問題進行總結(jié),完善災(zāi)難恢復(fù)預(yù)案,進一步提升預(yù)案的可操作性。
災(zāi)備方式圍繞信息化基礎(chǔ)設(shè)施架構(gòu)展開討論。
信息化基礎(chǔ)設(shè)施包括數(shù)據(jù)中心、網(wǎng)絡(luò)、安全和保障系統(tǒng)四部分,其系統(tǒng)架構(gòu)圖如圖1 所示。應(yīng)用層主要為運行的業(yè)務(wù)信息系統(tǒng);網(wǎng)絡(luò)層為終端用戶資源訪問提供網(wǎng)絡(luò)支撐;基礎(chǔ)軟硬件層包含服務(wù)器、存儲、磁帶庫、操作系統(tǒng)、數(shù)據(jù)庫、雙機軟件或者集群等,為業(yè)務(wù)信息系統(tǒng)提供運行環(huán)境;物理環(huán)境包括動力環(huán)境、消防系統(tǒng)、防塵及新風(fēng)系統(tǒng)和安全保密系統(tǒng),為IT 基礎(chǔ)設(shè)施安全穩(wěn)定運行提供電力、溫濕度等物理環(huán)境及物理安全保障;網(wǎng)絡(luò)安全主要使企業(yè)網(wǎng)絡(luò)設(shè)備不受病毒攻擊;保障系統(tǒng)主要包含備份系統(tǒng),用來保障企業(yè)數(shù)據(jù)安全。
圖1 信息化基礎(chǔ)設(shè)施架構(gòu)圖
在實際運行過程中,信息化基礎(chǔ)設(shè)施對業(yè)務(wù)信息系統(tǒng)穩(wěn)定運行影響大的模塊主要是應(yīng)用、網(wǎng)絡(luò)、基礎(chǔ)軟硬件、動力環(huán)境和備份系統(tǒng),其中前四個模塊影響運行安全,后一個模塊影響數(shù)據(jù)安全,其影響模型圖如圖2 所示。運行安全方面,應(yīng)用的運行依賴于基礎(chǔ)軟硬件環(huán)境,用戶對應(yīng)用的訪問除了和應(yīng)用相關(guān)外,還取決于網(wǎng)絡(luò)是否互通;另外,動力環(huán)境是否正常運行直接影響到數(shù)據(jù)中心內(nèi)的基礎(chǔ)軟硬件和核心網(wǎng)絡(luò)是否正常運轉(zhuǎn),影響設(shè)備多、范圍大。
圖2 信息系統(tǒng)穩(wěn)定運行影響因素模型圖
應(yīng)用模塊采用集群、雙機軟件、冷備等方式[2]進行容災(zāi)。網(wǎng)絡(luò)模塊的核心交換機采用熱備,消除單點故障,當核心交換機發(fā)生故障時,網(wǎng)絡(luò)不受影響,業(yè)務(wù)不中斷;接入交換機和匯聚交換機采用冷備方式進行備份,對交換機配置信息進行備份,當一臺交換機出現(xiàn)問題時,使用備機中的一臺進行替換;對于其他網(wǎng)絡(luò)設(shè)備,備份配置信息。
基礎(chǔ)軟硬件模塊采用虛擬化[3]或者超融合[4]技術(shù)統(tǒng)一服務(wù)器架構(gòu),屏蔽服務(wù)器層級技術(shù)差異,當物理服務(wù)器發(fā)生故障時,虛擬機能自動遷移到其他節(jié)點上,業(yè)務(wù)連續(xù)性不受影響;虛擬化或者超融合管理節(jié)點無單點故障;存儲采用雙活技術(shù)架構(gòu),數(shù)據(jù)同時寫入主存儲和容災(zāi)備份存儲,存儲雙活架構(gòu)圖如圖3 所示;核心服務(wù)器有備機,服務(wù)器硬盤設(shè)置raid1、raid5 等,電源、網(wǎng)卡有冗余,對于硬盤等易損壞零部件提前采購備用。
圖3 存儲雙活架構(gòu)圖
動力環(huán)境模塊的數(shù)據(jù)中心電力系統(tǒng)結(jié)構(gòu)圖如圖4 所示,數(shù)據(jù)中心采用工業(yè)用電和UPS 設(shè)備的雙線路供電,保證與系統(tǒng)基本業(yè)務(wù)運行相關(guān)的服務(wù)器、存儲、交換機的電源冗余;工業(yè)用電采取兩路用電,將企業(yè)電力系統(tǒng)改造期間斷電對數(shù)據(jù)中心造成的影響降到最??;UPS 控制器冗余或者UPS 控制器為模塊化設(shè)計,減少單點故障;機房精密空調(diào)冗余,做并機,一臺空調(diào)出現(xiàn)故障時能自動關(guān)停并啟動另外一臺空調(diào)。
圖4 數(shù)據(jù)中心電力系統(tǒng)結(jié)構(gòu)圖
備份系統(tǒng)的備份服務(wù)器無單點故障;備份數(shù)據(jù)存放介質(zhì)不少于兩份,可放在雙活存儲上、磁帶庫、虛擬帶庫和光盤庫中的任意兩種;備份數(shù)據(jù)包括虛擬機、操作系統(tǒng)、應(yīng)用程序、配置信息和業(yè)務(wù)數(shù)據(jù)(文件或者數(shù)據(jù)庫);備份方式包括手工備份和第三方備份軟件備份。手工備份方式下,數(shù)據(jù)庫可通過數(shù)據(jù)庫自身備份工具或者命令加定時任務(wù)方式來進行自動備份;文件系統(tǒng)可通過手工或者批處理程序進行備份,操作系統(tǒng)可通過PE 盤對其進行備份。手工備份的數(shù)據(jù)傳輸?shù)狡渌?wù)器保留一份,避免單臺服務(wù)器系統(tǒng)或者硬盤故障時,備份數(shù)據(jù)難以使用,發(fā)揮作用。
根據(jù)上述信息化基礎(chǔ)設(shè)施架構(gòu)圖從動力環(huán)境、硬件、軟件和數(shù)據(jù)備份四個層面梳理企業(yè)基礎(chǔ)設(shè)施核心模塊現(xiàn)狀、各模塊所采取的災(zāi)備方式,評估基礎(chǔ)設(shè)施架構(gòu)的合理性,識別架構(gòu)漏洞[5]。從企業(yè)信息化人員技術(shù)能力、經(jīng)費投入、信息化基礎(chǔ)設(shè)施常發(fā)生故障及核心模塊對業(yè)務(wù)影響重要程度四方面綜合考慮,通過信息化項目或者年底技術(shù)改造計劃等方式對基礎(chǔ)設(shè)施核心模塊進行改造,優(yōu)化完善基礎(chǔ)設(shè)施架構(gòu),提高其容災(zāi)能力,降低風(fēng)險。詳細改造內(nèi)容見表1。
表1 基礎(chǔ)設(shè)施改造建設(shè)表
企業(yè)信息化系統(tǒng)管理員和業(yè)務(wù)信息系統(tǒng)管理員應(yīng)根據(jù)信息化基礎(chǔ)設(shè)施實際情況對系統(tǒng)中其資產(chǎn)價值和系統(tǒng)故障對業(yè)務(wù)工作帶來的影響進行評估,確定系統(tǒng)恢復(fù)的目標。
評估內(nèi)容包括關(guān)鍵業(yè)務(wù)功能、影響范圍、重要性、依賴程度、恢復(fù)的優(yōu)先順序、恢復(fù)所需要的時間及系統(tǒng)恢復(fù)允許丟失數(shù)據(jù)的時間點。
分析和評估對象包括業(yè)務(wù)信息系統(tǒng)、業(yè)務(wù)數(shù)據(jù)、IT設(shè)備(如服務(wù)器、交換機、存儲等)、電力供應(yīng)系統(tǒng)和其他評估對象。
評估后,信息化管理部門應(yīng)對信息化基礎(chǔ)設(shè)施中的各模塊設(shè)備和應(yīng)用系統(tǒng)形成文件化的清單,讓系統(tǒng)管理員和業(yè)務(wù)系統(tǒng)管理人員做到心中有數(shù)。當多個系統(tǒng)出現(xiàn)問題時,按照清單中明確的優(yōu)先順序解決,減少系統(tǒng)管理員和業(yè)務(wù)人員之間的溝通成本,做到有序恢復(fù)。
企業(yè)系統(tǒng)管理員和信息系統(tǒng)管理員應(yīng)梳理總結(jié)各模塊出現(xiàn)的故障、分析常見故障場景,制定災(zāi)難恢復(fù)預(yù)案,讓企業(yè)信息化機構(gòu)成員理解和執(zhí)行災(zāi)備預(yù)案,更從容的面對各類突發(fā)事件。
災(zāi)難恢復(fù)預(yù)案內(nèi)容:災(zāi)難場景、災(zāi)難恢復(fù)上報和解決流程、災(zāi)難類型及對應(yīng)的解決辦法。災(zāi)難恢復(fù)預(yù)案對象:數(shù)據(jù)中心斷電場景下的設(shè)備和應(yīng)用關(guān)開機預(yù)案、意外斷電場景下的設(shè)備和應(yīng)用分批關(guān)開機預(yù)案、服務(wù)器硬盤或操作系統(tǒng)崩潰場景下業(yè)務(wù)系統(tǒng)恢復(fù)正常運行預(yù)案、基礎(chǔ)軟硬件故障恢復(fù)預(yù)案、不同類別數(shù)據(jù)恢復(fù)預(yù)案。
災(zāi)難恢復(fù)預(yù)案中的流程和解決辦法應(yīng)基于企業(yè)特定信息化組織架構(gòu)、采用的設(shè)備和技術(shù)進行編制,并根據(jù)實際遇到的問題進行調(diào)整、豐富、細化。流程和解決辦法應(yīng)在預(yù)案中進行明確,保證預(yù)案的可操作性,切實地為操作人員提供指導(dǎo),減少災(zāi)難恢復(fù)期間因流程不清楚、技術(shù)不了解、操作不熟練花費的時間。
企業(yè)每年應(yīng)定期選擇信息化基礎(chǔ)設(shè)施中某一模塊進行災(zāi)難恢復(fù)演練,演練前編制災(zāi)難恢復(fù)演練預(yù)案、正式進行演練、對演練過程進行記錄,以及評估演練效果并修訂演練預(yù)案。通過災(zāi)難恢復(fù)演練,提升災(zāi)難初始狀態(tài)下應(yīng)急處置和響應(yīng)升級的應(yīng)對能力、檢驗災(zāi)難恢復(fù)過程中存在的問題,同時檢驗設(shè)備和軟件使用時的有效性,進而提升應(yīng)急處置人員的處置能力,保障業(yè)務(wù)信息系統(tǒng)持續(xù)運行。
通過建設(shè)信息化基礎(chǔ)設(shè)施災(zāi)備體系,企業(yè)進一步提升信息化保障能力和信息化人員技術(shù)水平。主要表現(xiàn)在:全面梳理業(yè)務(wù)信息系統(tǒng)的重要性、災(zāi)難點、可能的業(yè)務(wù)中斷時間和數(shù)據(jù)丟失情況,做到心中有數(shù);明確業(yè)務(wù)信息系統(tǒng)災(zāi)難恢復(fù)流程、人員職責(zé)、解決過程及操作方法,形成初步固化、不斷優(yōu)化的文件化的應(yīng)對方案,為信息化基礎(chǔ)設(shè)施運維指明方向;了解信息化基礎(chǔ)設(shè)施技術(shù)、人員薄弱情況,找差距、補短板,為信息化基礎(chǔ)設(shè)施團隊建設(shè)和信息化投資提供依據(jù)。
信息化基礎(chǔ)設(shè)施災(zāi)備體系建設(shè)完成后,公司月度應(yīng)用系統(tǒng)故障次數(shù)從建設(shè)前的5~10 次降為1~2 次,大部分故障恢復(fù)時間從2~4 h 降為1 h 以內(nèi),應(yīng)用系統(tǒng)數(shù)據(jù)丟失恢復(fù)時間從建設(shè)前的2~7 天降為2 天以內(nèi)。
建設(shè)信息化災(zāi)備體系應(yīng)聚焦業(yè)務(wù)安全可靠穩(wěn)定運行和數(shù)據(jù)安全,以業(yè)務(wù)不中斷、數(shù)據(jù)不丟失為目標,以技術(shù)應(yīng)用和管理提升為抓手,結(jié)合企業(yè)信息化投入、技術(shù)、人員、管理等因素,基于企業(yè)自身現(xiàn)狀優(yōu)化基礎(chǔ)設(shè)施架構(gòu),防范業(yè)務(wù)中斷、數(shù)據(jù)丟失風(fēng)險;針對可能出現(xiàn)的各類風(fēng)險編制預(yù)案,進行災(zāi)備演練,優(yōu)化流程,提高技術(shù)人員能力,降低業(yè)務(wù)業(yè)務(wù)中斷和數(shù)據(jù)丟失時間,保障信息化業(yè)務(wù)的安全、穩(wěn)定、高效運行,助力企業(yè)發(fā)展。