趙亮
摘要:網(wǎng)絡(luò)的飛速發(fā)展,氣象數(shù)值預報高分辨率循環(huán)同化系統(tǒng)對服務(wù)器提出了更高的要求,使用Linux操作系統(tǒng)構(gòu)建高性能集群系統(tǒng),用較低的價格實現(xiàn)高伸縮、高可用的計算服務(wù),以彌補單臺服務(wù)器無法達到的性能。本文以實際生產(chǎn)運行中的一則故障為例,剖析了系統(tǒng)運維中的一些方法。
關(guān)鍵詞:數(shù)值預報;集群;運維
中圖分類號:TP38 文獻標識碼:A 文章編號:1007-9416(2018)04-0190-01
1 集群的概念
集群是指一組協(xié)同工作的服務(wù)集合,可以提供比單臺服務(wù)更穩(wěn)定、高效、具有擴展性的服務(wù)平臺。整體來看,集群是一個獨立的服務(wù)實體,而實際上,在集群內(nèi)部,有多個服務(wù)實體在協(xié)同完成一系列復雜工作。集群一般由兩個或兩個以上的服務(wù)器搭建而成,每臺服務(wù)器稱為一個集群節(jié)點。當一個節(jié)點出現(xiàn)故障時,集群的另一節(jié)點可以自動接管故障節(jié)點的資源,從而保證服務(wù)持續(xù)、不間斷運行[1]。
綜上,搭建一套集群系統(tǒng)需要N(N>=2)臺服務(wù)器,同時還需要IB線纜、集群軟件、共享存儲設(shè)備(磁盤陣列)等,如下圖1所示。
2 故障實例
某日,GRIDVIEW集群綜合管理系統(tǒng)顯示Node52節(jié)點異常,按照處理流程,使用Blade Full View Management System對告警節(jié)點進行“硬重啟”操作。在等待數(shù)分鐘后,節(jié)點依然顯示告警,重復上述操作故障依舊。我們使用SKMV OVER IP系統(tǒng)登錄告警節(jié)點查看,發(fā)現(xiàn)該節(jié)點無法進入Linux系統(tǒng),服務(wù)器硬盤有報錯,使用fsck命令校正文件系統(tǒng)依然無效,因此決定更換Node52服務(wù)器硬盤。但更換新硬盤后需要重新安裝該節(jié)點的Linux操作系統(tǒng)以及各種集群服務(wù),操作較為繁瑣且冗余,我們可以使用拷貝安裝的方式來進行修復工作。取出Node52的受損硬盤,將新硬盤插入Node51節(jié)點的空余硬盤插槽中,重啟Node51節(jié)點,隨即進入Node51的單用戶模式。
我們來簡單介紹一下單用戶模式。單用戶模式指有且只有一個用戶可以訪問某個資源的狀態(tài)。單用戶模式是系統(tǒng)最原始的狀態(tài),一切網(wǎng)絡(luò)服務(wù)均未啟動,文件系統(tǒng)也沒有mount,僅基礎(chǔ)的系統(tǒng)module被加載,再由kernel啟動進入命令行狀態(tài)。我們把此狀態(tài)稱為單用戶模式。那Linux的單用戶模式又是如何進入呢?我們在系統(tǒng)啟動時,按下鍵盤上的“e”,即進入以下這個頁面Linux系統(tǒng)啟動頁圖2所示。
選擇kernel /vmlinuz-2.6.32-358.el6.i686(即第二項)這一行,按下“e”建,在行尾輸入:空格single,并回車確定。按下鍵盤的"b",即重新引導系統(tǒng)。然后就進入了單用戶模式,在此模式下使用命令進行硬盤拷貝:dd if="/dev/sda" of="/dev/sdb",待命令執(zhí)行完畢后使用init 0關(guān)閉Node51服務(wù)器。將拷貝后的新硬盤插回Node52節(jié)點中,隨即啟動Node 52,修改其IP地址、主機名,待修改完成后重新開啟Node51服務(wù)器,使用GRIDVIEW監(jiān)控系統(tǒng)顯示所有節(jié)點均正常運行,至此服務(wù)器節(jié)點故障得以修復。
3 分析與總結(jié)
高性能計算集群的原理是將計算任務(wù)分配到集群的不同計算節(jié)點從而可以提高計算能力,所以其主要應(yīng)用在科學計算領(lǐng)域,比如民航氣象數(shù)值預報系統(tǒng)。目前比較流行的HPC采用Linux操作系統(tǒng)和一些免費軟件來實現(xiàn)并行運算。這樣的集群配置通常被業(yè)界稱為Beowulf集群。這類集群通常會運行特定的程序以發(fā)揮HPC集群的并行能力。這類程序一般會應(yīng)用特定的運行庫, 如專為科學計算而設(shè)計的MPI庫。HPC集群非常適合于在科學計算中各計算節(jié)點之間發(fā)生大量數(shù)據(jù)通訊及數(shù)據(jù)交換的計算作業(yè),而一個節(jié)點的中間結(jié)果可能影響到其它節(jié)點計算的結(jié)果。
在上述故障中,當高可用性計算集群中有某個節(jié)點(Node 52)失效的情況下,這個節(jié)點上的任務(wù)會自動轉(zhuǎn)移到其他正常的節(jié)點上。在此案例故障修復過程中,我們將集群中的某節(jié)點(Node 51)進行離線維護后再上線,這個過程并不影響整個集群的運行,在最大程度上保證了系統(tǒng)運行穩(wěn)定。
參考文獻
[1]鄭緯民.石威.等譯.高性能集群計算:結(jié)構(gòu)與系統(tǒng)(第一卷)[M].北京:電子工業(yè)出版社,2001.