国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高性能集群系統(tǒng)運維淺析

2018-08-18 08:23趙亮
關(guān)鍵詞:集群運維

趙亮

摘要:網(wǎng)絡(luò)的飛速發(fā)展,氣象數(shù)值預報高分辨率循環(huán)同化系統(tǒng)對服務(wù)器提出了更高的要求,使用Linux操作系統(tǒng)構(gòu)建高性能集群系統(tǒng),用較低的價格實現(xiàn)高伸縮、高可用的計算服務(wù),以彌補單臺服務(wù)器無法達到的性能。本文以實際生產(chǎn)運行中的一則故障為例,剖析了系統(tǒng)運維中的一些方法。

關(guān)鍵詞:數(shù)值預報;集群;運維

中圖分類號:TP38 文獻標識碼:A 文章編號:1007-9416(2018)04-0190-01

1 集群的概念

集群是指一組協(xié)同工作的服務(wù)集合,可以提供比單臺服務(wù)更穩(wěn)定、高效、具有擴展性的服務(wù)平臺。整體來看,集群是一個獨立的服務(wù)實體,而實際上,在集群內(nèi)部,有多個服務(wù)實體在協(xié)同完成一系列復雜工作。集群一般由兩個或兩個以上的服務(wù)器搭建而成,每臺服務(wù)器稱為一個集群節(jié)點。當一個節(jié)點出現(xiàn)故障時,集群的另一節(jié)點可以自動接管故障節(jié)點的資源,從而保證服務(wù)持續(xù)、不間斷運行[1]。

綜上,搭建一套集群系統(tǒng)需要N(N>=2)臺服務(wù)器,同時還需要IB線纜、集群軟件、共享存儲設(shè)備(磁盤陣列)等,如下圖1所示。

2 故障實例

某日,GRIDVIEW集群綜合管理系統(tǒng)顯示Node52節(jié)點異常,按照處理流程,使用Blade Full View Management System對告警節(jié)點進行“硬重啟”操作。在等待數(shù)分鐘后,節(jié)點依然顯示告警,重復上述操作故障依舊。我們使用SKMV OVER IP系統(tǒng)登錄告警節(jié)點查看,發(fā)現(xiàn)該節(jié)點無法進入Linux系統(tǒng),服務(wù)器硬盤有報錯,使用fsck命令校正文件系統(tǒng)依然無效,因此決定更換Node52服務(wù)器硬盤。但更換新硬盤后需要重新安裝該節(jié)點的Linux操作系統(tǒng)以及各種集群服務(wù),操作較為繁瑣且冗余,我們可以使用拷貝安裝的方式來進行修復工作。取出Node52的受損硬盤,將新硬盤插入Node51節(jié)點的空余硬盤插槽中,重啟Node51節(jié)點,隨即進入Node51的單用戶模式。

我們來簡單介紹一下單用戶模式。單用戶模式指有且只有一個用戶可以訪問某個資源的狀態(tài)。單用戶模式是系統(tǒng)最原始的狀態(tài),一切網(wǎng)絡(luò)服務(wù)均未啟動,文件系統(tǒng)也沒有mount,僅基礎(chǔ)的系統(tǒng)module被加載,再由kernel啟動進入命令行狀態(tài)。我們把此狀態(tài)稱為單用戶模式。那Linux的單用戶模式又是如何進入呢?我們在系統(tǒng)啟動時,按下鍵盤上的“e”,即進入以下這個頁面Linux系統(tǒng)啟動頁圖2所示。

選擇kernel /vmlinuz-2.6.32-358.el6.i686(即第二項)這一行,按下“e”建,在行尾輸入:空格single,并回車確定。按下鍵盤的"b",即重新引導系統(tǒng)。然后就進入了單用戶模式,在此模式下使用命令進行硬盤拷貝:dd if="/dev/sda" of="/dev/sdb",待命令執(zhí)行完畢后使用init 0關(guān)閉Node51服務(wù)器。將拷貝后的新硬盤插回Node52節(jié)點中,隨即啟動Node 52,修改其IP地址、主機名,待修改完成后重新開啟Node51服務(wù)器,使用GRIDVIEW監(jiān)控系統(tǒng)顯示所有節(jié)點均正常運行,至此服務(wù)器節(jié)點故障得以修復。

3 分析與總結(jié)

高性能計算集群的原理是將計算任務(wù)分配到集群的不同計算節(jié)點從而可以提高計算能力,所以其主要應(yīng)用在科學計算領(lǐng)域,比如民航氣象數(shù)值預報系統(tǒng)。目前比較流行的HPC采用Linux操作系統(tǒng)和一些免費軟件來實現(xiàn)并行運算。這樣的集群配置通常被業(yè)界稱為Beowulf集群。這類集群通常會運行特定的程序以發(fā)揮HPC集群的并行能力。這類程序一般會應(yīng)用特定的運行庫, 如專為科學計算而設(shè)計的MPI庫。HPC集群非常適合于在科學計算中各計算節(jié)點之間發(fā)生大量數(shù)據(jù)通訊及數(shù)據(jù)交換的計算作業(yè),而一個節(jié)點的中間結(jié)果可能影響到其它節(jié)點計算的結(jié)果。

在上述故障中,當高可用性計算集群中有某個節(jié)點(Node 52)失效的情況下,這個節(jié)點上的任務(wù)會自動轉(zhuǎn)移到其他正常的節(jié)點上。在此案例故障修復過程中,我們將集群中的某節(jié)點(Node 51)進行離線維護后再上線,這個過程并不影響整個集群的運行,在最大程度上保證了系統(tǒng)運行穩(wěn)定。

參考文獻

[1]鄭緯民.石威.等譯.高性能集群計算:結(jié)構(gòu)與系統(tǒng)(第一卷)[M].北京:電子工業(yè)出版社,2001.

猜你喜歡
集群運維
大型國有企業(yè)環(huán)保設(shè)施第三方運維的探索與實踐
海上小型無人機集群的反制裝備需求與應(yīng)對之策研究
運維技術(shù)研發(fā)決策中ITSS運維成熟度模型應(yīng)用初探
一種無人機集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計
談電力運維安全隱患排查治理
Python與Spark集群在收費數(shù)據(jù)分析中的應(yīng)用
對構(gòu)建智慧產(chǎn)業(yè)集群的幾點思考
基于ITIL的運維管理創(chuàng)新實踐淺析
中華醫(yī)學會醫(yī)學期刊集群化發(fā)展的模式分析