龍志勇
摘要:在安裝RAID5 的單服務器的工作環(huán)境中,迅速安全地恢復崩潰的操作系統(tǒng)是十分必要的。利用存儲系統(tǒng)恢復崩潰的操作系統(tǒng)和業(yè)務數(shù)據(jù)庫,是一種安全可行、用時最少的恢復方法。
關鍵詞:服務器故障;存儲系統(tǒng);備份;恢復
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)25-0195-02
Abstract:In the work environment of the single server installed RAID5, it is very necessary to quickly and safely restore the operating system. It is a safe and feasible method to use storage systems to restore a crashed operating system and business database.
Key words:server fault;storage system;backup restore
在信息化的時代,服務器的正常運轉(zhuǎn)是至關重要的,一旦出現(xiàn)故障,將導致應用系統(tǒng)停止運行,業(yè)務停辦。因此,運維人員如何在最短時間內(nèi)采取最優(yōu)方法,安全地將服務器系統(tǒng)恢復正常,并將應用系統(tǒng)恢復運轉(zhuǎn),把業(yè)務停辦的不良影響減小到最小程度,是十分關鍵的。
某日早上8點,體檢中心來電反映多個體檢工作點不能使用從業(yè)人員體檢系統(tǒng),體檢大廳聚集了300多人,客戶怨言很多,要求我部門立刻解決故障??滩蝗菥?,筆者馬上進行故障排查。
1 設備參數(shù)及工作環(huán)境
本單位的服務器是IBM X460,安裝有IBM serverraid-8iRAID卡,并做了RAID5,操作系統(tǒng)是windows 2000 server,數(shù)據(jù)庫系統(tǒng)是SQL 2000,數(shù)據(jù)庫是從業(yè)人員體檢數(shù)據(jù)庫,有全市4萬多從業(yè) 人員的數(shù)據(jù);存儲系統(tǒng)是愛數(shù)PX1200,該存儲系統(tǒng)基于CDP持續(xù)數(shù)據(jù)保護技術,支持Windows平臺下的SQL Server及支持完整的RAID 級別的實時復制。
IBM服務器和愛數(shù)存儲系統(tǒng)在本單位局域網(wǎng)中同處于一個VLAN中,同一個網(wǎng)段。IBM服務器的IP是192.168.0.27(以下稱為27服務器),愛數(shù)存儲系統(tǒng)的IP是192.168.0.253,網(wǎng)關都是192.168.0.254。
2 故障原因分析
首先到一個體檢工作點檢查,發(fā)現(xiàn)確實不能登錄系統(tǒng),然后ping 27服務器,網(wǎng)絡鏈路是通的;隨后又檢查了兩個工作點,情況一樣。因此斷定網(wǎng)絡鏈路沒有問題,應該是27服務器出故障,于是回到機房檢查,發(fā)現(xiàn)27服務器居然是關機狀態(tài)。問了后勤部門,才知前一天晚上長時間停電,今早6點才恢復供電。筆者估計,單位的在線式UPS一定是有問題了,不能在停電的時候供電給27服務器,致使27服務器關機了。UPS的問題先不處理,當務之急是在最短的時間內(nèi)安全地把27服務器恢復正常。于是打開27服務器,誰知系統(tǒng)藍屏,不能進入windows 2000 server!重新啟動27服務器兩次都是如此。筆者斷定,應該是由于突然停電造成windows 2000 server的系統(tǒng)文件損壞,導致不能正常進入系統(tǒng)。
3 故障恢復方案的選擇
1)一般的系統(tǒng)軟故障恢復
在一般情況下,對于系統(tǒng)產(chǎn)生的軟性故障, 在開機時按F8快捷鍵,在BIOS后就會有安全模式等系統(tǒng)選項,其中就有windows最后一次正確配置。選擇后等待加載完成后,可正常進入系統(tǒng)。但這次試了兩次都不能恢復系統(tǒng) ,而且不能進入安全模式,再次證明windows 2000 server的系統(tǒng)文件損壞了,因此必須選擇其他方式恢復了。
2)GHOST恢復
對于一般的微機故障,可以用GHOST迅速地恢復系統(tǒng),但服務器就不一定能由GHOST恢復系統(tǒng)。由于本單位的27服務器安裝了IBM serverraid-8iRAID卡,并建立了RAID5, GHOST在DOS下無法加載陣列卡驅(qū)動,無法識別陣列卡,因此不能用GHOST軟件做27服務器操作系統(tǒng)的備份和恢復。
3)重裝系統(tǒng)
重新用Wwindwos 2000 server安裝盤安裝操作系統(tǒng)肯定是可以解決故障的,但在安裝過程中必須解決IBM serverraid-8iRAID卡的驅(qū)動問題。由于單位搬家,RAID卡的驅(qū)動找不見了,在IBM官網(wǎng)也找不到;之前第一次安裝windwos2000 server時,用NLITE制作的整合了RAID卡驅(qū)動的windwos 2000 server盤也找不到了。即使找到那張安裝光碟,重新安裝完操作系統(tǒng)后,還要安裝SQL,部署應用系統(tǒng)。整個過程估計要一個工作日才能完成。這是正在等待的300多個客戶不能允許的。
4)利用存儲系統(tǒng)恢復
之前單位購置了愛數(shù)存儲系統(tǒng)PX1200,在啟用PX1200后,我們用它備份了27服務器的操作系統(tǒng)及應用系統(tǒng),并對SQL數(shù)據(jù)庫作了實時備份(不包含從業(yè)人員體檢數(shù)據(jù)庫)。由于27服務器一直在運行關鍵業(yè)務,所以做完備份后,一直沒有驗證所做的備份是否能成功恢復。
經(jīng)過分析,對于這次27服務器故障,筆者決定用愛數(shù)存儲系統(tǒng)PX1200來恢復操作系統(tǒng),驗證一下PX1200是否能在最短時間內(nèi)安全地將操作系統(tǒng)恢復,無損地恢復數(shù)據(jù)庫,將故障造成的影響降到最小。
4 恢復過程
1)在27服務器上接上外置光驅(qū),并將愛數(shù)存儲系統(tǒng)自帶的系統(tǒng)恢復光盤放入光驅(qū)通電開機,選擇光驅(qū)啟動優(yōu)先,恢復光盤在調(diào)用一連串環(huán)境參數(shù)后,進入“恢復系統(tǒng)”。
2)本地網(wǎng)絡配置:在請選擇你需要的網(wǎng)絡設備中點擊eth0,再點擊使用下面的網(wǎng)絡地址,填寫服務器IP地址:192.168.0.25,掩碼:255.255.255.0,網(wǎng)關:192.168.0.254。單擊“下一步”。
3)設置管理控制臺信息:此處應填寫介質(zhì)服務器即愛數(shù)存儲系統(tǒng)的相關配置信息。填寫介質(zhì)服務器地址,192.168.0.253,端口為9900(此端口為管理端口),登陸賬號為admin,密碼123456。單擊“下一步”。
4)選擇需要恢復系統(tǒng)的介質(zhì)服務器-備份任務-客戶端-時間點:在這個設置窗內(nèi),依次雙擊,樹型選擇項便會層層展開,直至出現(xiàn)所做系統(tǒng)備份的時間點并點擊選擇。單擊“下一步”,在確認恢復窗中,點擊OK。
5)創(chuàng)建分區(qū):在這個窗內(nèi),會顯示27服務器硬盤的相關信息,中間是27服務器硬盤的原有分區(qū),編號從0-TH開始,先選擇0號分區(qū),再點擊右側(cè)的創(chuàng)建分區(qū),此時會彈出一個分區(qū)確認框,點擊OK。還原過程中,會提示“是否恢復在系統(tǒng)還原過程中的IO操作”,選擇NO,因為考慮到系統(tǒng)已經(jīng)崩潰,業(yè)務系統(tǒng)沒有出現(xiàn)數(shù)據(jù)IO操作,之后會提示恢復完成,是否重啟,點擊“yes”。
很快27服務器的操作系統(tǒng)恢復完成,整個過程大約20多分鐘。等系統(tǒng)進入后,檢查了一下SQL 2000,能正常運行。由于此次恢復系統(tǒng),只是還原27服務器的C盤,不影響之前其他盤的數(shù)據(jù),存儲在其它盤從業(yè)人員體檢數(shù)據(jù)庫絲毫不受影響。
5 應用數(shù)據(jù)庫的恢復
由于當時備份系統(tǒng)時,并未在SQL加載從業(yè)人員體檢數(shù)據(jù)庫,因此在27服務器操作系統(tǒng)恢復后,還得將此應用數(shù)據(jù)庫附加上去。附加數(shù)據(jù)庫過程非常簡單。打開SQL2000的企業(yè)管理器,右健點擊數(shù)據(jù)庫,依次選擇所有任務、附加應用數(shù)據(jù)庫即可。隨后對應用系統(tǒng)進行了測試,完全能正常運行,而且最后存入的數(shù)據(jù)也沒有丟失。
至此,這次由于操作系統(tǒng)藍屏而導致27服務器不能正常運行的故障得以完美解決,整個恢復過程大約30分鐘。利用愛數(shù)存儲系統(tǒng)恢復服務器系統(tǒng)確實是一種快捷、安全地方法。
6 總結(jié)
在這次27服務器系統(tǒng)故障的解決過程中,由于很快地恢復了應用系統(tǒng)的正常運行,將這次故障的影響降到最低,所以沒有演化成重大的工作事故。在這次恢復過程中,筆者常常地感到:1)作為一名運維人員,必須將所有設備的資料和驅(qū)動盤保管好;2)故障處理從軟到硬,從最簡單的情況入手;3)面對故障現(xiàn)象不慌亂,保持頭腦清醒,冷靜的判斷問題并充分利用擁有的資源,選擇最優(yōu)的解決辦法,才能在最短的時間內(nèi)解決故障。4)運維人員要定期檢查各設備的運行狀態(tài),熟悉各設備的功能及各設備的配置參數(shù),發(fā)現(xiàn)問題要及時處理。本次故障的產(chǎn)生就是沒有及時發(fā)現(xiàn)在線式UPS不能在停電時供電而引起的。