由于IBM的AIX小型機往往在信息系統(tǒng)中作為最核心的服務器被采用,一旦出現故障如不能及時處理、恢復,其后果可能就是災難性的。本文在民航空管大數據存儲背景下,就AIX數據庫服務器的快速恢復方法展開討論。針對硬件、系統(tǒng)、數據三個故障層面,結合傳統(tǒng)的故障定位方法,尋求出一套無需準確定位就能進行AIX小型機快速恢復的高效解決方案。
【關鍵詞】小型機 AIX系統(tǒng) 快速恢復
IBM的AIX小型機對于集群有著良好的支持,以其高可靠性、安全性在民航空管重要信息系統(tǒng)中有著較多應用。由于IBM的AIX小型機往往在信息系統(tǒng)中作為最核心的服務器被采用,如核心應用服務器、核心數據交換服務器、數據庫服務器等。因此,一旦出現故障如不能及時處理、恢復,其后果可能就是災難性的。
近年來,民航空管技術不斷發(fā)展,目前正大力推進基于海量數據的協(xié)同決策管理系統(tǒng)、智能化管制指揮系統(tǒng)的研究與實現,這些新型綜合信息管理應用系統(tǒng)接收的數據源包括一次雷達信號、二次雷達信號、廣播式自動相關監(jiān)視信號(ADS-B),具有數據量大,實時性強等特點。因此,此類信息系統(tǒng)對于其核心數據庫的快速恢復有著非常高的要求。本文就AIX小型機的快速恢復方法展開討論,研究了多種的應急恢復方法。第一類是故障定位后進行恢復的方法,即故障定位后,根據故障原因進行恢復。第二類是無需故障定位(或故障無法定位)的方法,包括基于磁帶的備機整機替換方法,基于硬盤的備機整機替換方法以及備機作為RAC新節(jié)點的方法等。最后,本文對這些方法進行了比較分析,并提出了高效的解決方案。
1 故障定位恢復方法研究
1.1 故障定位
當故障發(fā)生,AIX系統(tǒng)所承載的業(yè)務不可用時,首先需要進行故障設備定位。故障可能在于小型機本生,也可能是與小型機相關的其他設備,如磁盤陣列、光纖交換機、光纖線、光纖模塊等。如果故障存在于小型機,一般需要判斷故障是屬于硬件故障,還是系統(tǒng)故障、數據故障,或是其上運行的軟件故障??梢酝ㄟ^指示燈狀態(tài)、errpt故障信息、控制面板上的LED代碼、系統(tǒng)管理服務故障記錄、MAIL、運行故障診斷程序、各種系統(tǒng)日志等方法來收集小型機故障定位信息。
1.2 硬件級故障恢復
當故障定位判斷結果確定故障為硬件故障后,要確定具體的硬件部件,需要相應備件及時到場,對該故障部件進行更換。AIX系統(tǒng)故障部件可以分為主板、電源、硬盤、內存和PCI卡。PCI卡一般包括網卡和光纖卡。各部件更換的具體操作步驟如表1所示。
1.3 系統(tǒng)級故障恢復
當故障定位發(fā)現硬件完全正常,而是由于操作系統(tǒng)故障導致AIX系統(tǒng)不可用時,可以通過AIX系統(tǒng)rootvg恢復來修復故障。rootvg恢復以及其他卷組的恢復都需要在系統(tǒng)正常時事先進行備份,在放入磁帶完成倒帶后,可以通過smit進行備份。若rootvg卷組出現某種問題,且系統(tǒng)當前還在運行,不可立即重新啟動系統(tǒng)環(huán)境,因為一旦關閉,可能系統(tǒng)就無法再次啟動。
1.4 數據級故障恢復
數據故障恢復,是指針對非操作系統(tǒng)文件丟失或損壞的備份及恢復方法。對于非操作系統(tǒng)數據,只要在實現備份相應卷組或相應文件的情況下都可以進行恢復。一般情況下可以通過savevg命令實現數據卷組的備份,該命令將查找并備份屬于指定卷組的所有文件。在備份之前須要確認的是備份的卷組必須啟用,且卷組中要參與備份的文件系統(tǒng)必須已被掛載?;謴蜁r進入到smit環(huán)境的卷組重構界面,選擇卷組備份文件,選擇重構卷組所需要的磁盤,開始恢復卷組?;謴屯瓿珊?,卷組被完整的恢復到ODM數據庫中,并且自動激活,文件系統(tǒng)被自動掛載,文件得以恢復。
2 無需故障定位快速恢復方法研究
本文對故障無法定位情況下的AIX小型機快速恢復方法進行了研究,試圖找到一種快速、高效、安全的解決方案。
2.1 基于磁帶的整機替換方法
需要事先做好兩臺小型機rootvg的磁帶備份,并為備機準備好用于網絡連接和存儲連接的網線、光纖。故障時,進行如下操作:
將故障機、備用機分別關機后,將故障機替換為備用小型機(主要是網線、光纖、電源線等的連接);
用串口線連接備用小型機,開機,選擇從terminal啟動。
選擇3,從SM(維護模式)進入;
選擇6,Install from a System Backup;
選擇1, "/dev/rmt0"并插入故障機事先備份好的rootvg備份磁帶后回車。這時候, 系統(tǒng)自動恢復操作系統(tǒng)。
在ds4700磁盤陣列管理軟件中增加對應的maping。
2.2 備機作為RAC新節(jié)點的方法
該方法把備用小型機現有備機作為一個RAC的新節(jié)點加入現用的RAC環(huán)境,步驟為:
操作系統(tǒng)安裝:將備用機上安裝AIX操作系統(tǒng),補丁至現用機的版本。
IP網絡配置:將備用機接入網絡環(huán)境,連接網線、光纖、電源線等。在交換機上配置對應端口。
SAN環(huán)境配置:在光纖交換機上配置zone,在ds4700管理軟件中增加對應的maping。
集群安裝配置:更改IP地址、主機名等配置參數;安裝HACMP環(huán)境并配置。
Oracle安裝配置:安裝Oracle clusterware并配置,將新節(jié)點命名并加入,安裝Oracle database并配置。
測試:測試某一個原結點下線后運行是否正常。將該備用節(jié)點下線后再開啟,測試其能否夠進入RAC環(huán)境。
備機作為新節(jié)點被加入后,RAC環(huán)境中擁有三個節(jié)點,在有任意一個節(jié)點故障的情況下依然有兩臺小型機對外提供服務。
3 結果與分析
故障定位后進行恢復的解決方法是普遍采用的解決方案,該方案是故障恢復的基礎。因為某些故障可能是由于非常簡單、易判斷的原因導致的,能夠快速恢復。但由于AIX系統(tǒng)的專業(yè)性較強,維護人員很難在第一時間分析得出AIX的具體故障原因,因此往往無法采取故障定位后進行恢復的方法進行快速恢復?;诖艓У恼麢C替換方法,由于需要從磁帶機恢復,即使做了線纜等的事先部署,恢復速度依然需要以小時計(大致修復時間見表2)。備機作為RAC新節(jié)點的方法雖然恢復速度快,但是部署復雜,且經驗證,三個節(jié)點的RAC環(huán)境性能由于存在的緩存融合問題,性能并不理想,因此也不能作為可選方案。各方法的對比如表2所示。
4 結語
本文就AIX數據庫服務器的快速恢復方法展開討論,研究了多種快速恢復方法,最后提出了一套涵蓋硬件、系統(tǒng)、數據三個故障層面的AIX小型機快速恢復流程方案。對于信息系統(tǒng)AIX小型機的故障處理、快速恢復有一定的參考價值。
參考文獻
[1]Christian Pruett、Kristian Strickland、Soctt Vetter編著.IBM eServer Certification Study Guide - pSeries AIX System Administration。http://www.ibm.com/redbooks,December 2001。
[2]HyunGoo Kim、John Harrison等編著.Problem Solving and Troubleshooting in AIX 5L。http://www.ibm.com/redbooks,January 2002。
[3]Tim Dasgupta、Stephen Sommer編著。IBM eServer Certification Study Guide - AIX 5L Problem Determination Tools and Techniques。http://www.ibm.com/redbooks,January 2003。
[4]Tim Dasgupta、Stephen Sommer編著.IBM eServer Certification Study Guide - AIX 5L Installation and System Recovery。http://www.ibm.com/redbooks,December 2002。
[5]Jose Eduardo Martinez Cordero、Shiv Dutta、LiviuRosca等編著.IBM Certification Study Guide eServer p5 and pSeries Administration and Support for AIX 5L Version 5.3。http://www.ibm.com/redbooks,April 2006。
[6]張曉明編著.大話Oracle RAC——集群 高可用性 備份與恢復[M].北京:人民郵電出版社,2009.
作者簡介
裘禛宇,現為中國民用航空華東地區(qū)空中交通管理局工程師。
曹燁琇,現為中國民用航空華東地區(qū)空中交通管理局工程師。
作者單位
中國民用航空華東地區(qū)空中交通管理局 上海市 200335