国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高性能計(jì)算集群系統(tǒng)的運(yùn)行與管理

2017-09-27 17:21:52吳琳覃奇志
關(guān)鍵詞:維護(hù)管理安全管理

吳琳++覃奇志

摘要:武漢大學(xué)水資源與水電工程科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室建立了以科學(xué)計(jì)算為基礎(chǔ)的高性能計(jì)算集群系統(tǒng)。高性能計(jì)算集群系統(tǒng)是一種投入較大、設(shè)備更新速度較快的大型儀器設(shè)備系統(tǒng)。如何進(jìn)行高效運(yùn)行和可持續(xù)維護(hù)管理,是一個(gè)值得探索的問題。本文對(duì)實(shí)驗(yàn)室進(jìn)行高性能計(jì)算集群系統(tǒng)的建設(shè)、運(yùn)行、安全和維護(hù)管理等方面的經(jīng)驗(yàn)與特點(diǎn)進(jìn)行介紹。

關(guān)鍵詞:高性能計(jì)算;高效運(yùn)行;安全管理;維護(hù)管理

【中圖分類號(hào)】O4-39

武漢大學(xué)水資源與水電工程科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室(以下簡(jiǎn)稱“實(shí)驗(yàn)室”), 于2009 年成立了高性能計(jì)算中心,配備了HP刀片系統(tǒng),理論計(jì)算峰值大于1萬億次浮點(diǎn)運(yùn)算/秒,大大改善實(shí)驗(yàn)室和水利水電學(xué)院從事大型數(shù)值模擬計(jì)算的硬件條件。為了更好地為更多的用戶服務(wù),如何高效利用和有效管理這個(gè)系統(tǒng)就至關(guān)重要。

1.系統(tǒng)介紹

高性能計(jì)算集群主要用于處理復(fù)雜的計(jì)算問題,應(yīng)用在需要大規(guī)模科學(xué)計(jì)算的環(huán)境中。高性能計(jì)算集群上運(yùn)行的應(yīng)用程序一般使用并行算法,把一個(gè)大的普通問題根據(jù)一定的規(guī)則分為許多小的子問題,在集群內(nèi)的不同節(jié)點(diǎn)上進(jìn)行計(jì)算,而這些小問題的處理結(jié)果,經(jīng)過處理可合并為原問題的最終結(jié)果。由于這些小問題的計(jì)算一般是可以并行完成的,從而可以縮短問題的處理時(shí)間。

高性能計(jì)算集群在計(jì)算過程中,各節(jié)點(diǎn)是協(xié)同工作的,它們分別處理大問題的一部分,并在處理中根據(jù)需要進(jìn)行數(shù)據(jù)交換,各節(jié)點(diǎn)的處理結(jié)果都是最終結(jié)果的一部分。高性能計(jì)算集群的處理能力與集群的規(guī)模成正比,是集群內(nèi)各節(jié)點(diǎn)處理能力之和。

1.1硬件配置

高性能計(jì)算機(jī)集群采用機(jī)架式,可動(dòng)態(tài)擴(kuò)展?,F(xiàn)有節(jié)點(diǎn)18個(gè),其中14個(gè)計(jì)算節(jié)點(diǎn),2個(gè)管理節(jié)點(diǎn),2個(gè)I/O節(jié)點(diǎn),1個(gè)存儲(chǔ)陣列。此外包括:機(jī)柜、供電系統(tǒng)、布線系統(tǒng)、散熱系統(tǒng),主控制臺(tái),KVM等。

圖1 系統(tǒng)結(jié)構(gòu)圖

計(jì)算節(jié)點(diǎn):HP BL460c G6 CTO Blade

CPU:Intel Xeon E5530四核64位處理器,2.4GHz×2顆

內(nèi)存:16G

硬盤:146GB

網(wǎng)絡(luò):InfiniBand網(wǎng)卡

管理節(jié)點(diǎn):HP DL380R06 CTO Chassis

存儲(chǔ)節(jié)點(diǎn):HP DL380R06 CTO Chassis

存儲(chǔ)陣列:EVA4400--Hard Disk

高速光纖硬盤: 4TB

SATA硬盤: 8TB

1.2軟件配置

操作系統(tǒng):Redhat Enterprise Linux 5

作業(yè)調(diào)度系統(tǒng):Sun SGE

編譯器: Intel C++、Fortran等,GNU系列

通用數(shù)學(xué)庫(kù): LAPACK和ScaLAPACK,包括BLAS、PBLAS、BLACS等基本線性代數(shù)庫(kù)函數(shù)、并行庫(kù)函數(shù)和通信庫(kù)函數(shù)

并行環(huán)境: Infiniband MPI并行環(huán)境(MPICH1/2)

應(yīng)用軟件:目前安裝Fluent、Abaqus和Ansys等軟件

1.3高性能計(jì)算集群的特點(diǎn)

根據(jù)以上配置的硬件設(shè)備和軟件環(huán)境,實(shí)驗(yàn)室建立的高性能計(jì)算集群具有以下特點(diǎn):

(1)高可用性。本身互為冗余節(jié)點(diǎn),能夠?yàn)橛脩籼峁┎婚g斷的服務(wù),由于系統(tǒng)中包括了多個(gè)結(jié)點(diǎn),當(dāng)一個(gè)結(jié)點(diǎn)出現(xiàn)故障的時(shí)候,整個(gè)系統(tǒng)仍然能夠繼續(xù)為用戶提供服務(wù);

(2)高可擴(kuò)展性。在集群系統(tǒng)中可以動(dòng)態(tài)地加入新的服務(wù)器和刪除需要淘汰的服務(wù)器,從而能夠最大限度地?cái)U(kuò)展系統(tǒng)以滿足不斷增長(zhǎng)的應(yīng)用的需要;

(3)多用戶和多任務(wù)。Linux系統(tǒng)是一個(gè)分時(shí)多任務(wù)環(huán)境,它可以同時(shí)做多個(gè)事情。Linux系統(tǒng)可以處理一個(gè)用戶的多個(gè)同時(shí)的要求,并支持多個(gè)人同時(shí)活動(dòng)。

2.系統(tǒng)運(yùn)行

在CPU 的數(shù)目有限(可供計(jì)算的CPU共112個(gè)),而用戶多的情況下, 如何利用現(xiàn)有的資源,合理地安排作業(yè)運(yùn)行,使設(shè)備高效運(yùn)行,對(duì)系統(tǒng)管理人員是一個(gè)嚴(yán)峻的挑戰(zhàn)。根據(jù)近一年來的運(yùn)行情況統(tǒng)計(jì)顯示,共有近4千個(gè)程序在機(jī)器上運(yùn)行過,發(fā)現(xiàn)了如下一些問題:

(1)自編程序未在工作站或PC 機(jī)上進(jìn)行預(yù)先試驗(yàn)性運(yùn)行, 就匆忙提交到集群管理節(jié)點(diǎn)上,致使運(yùn)算工作量大大加重,并且有些計(jì)算未得到任何有用結(jié)果。運(yùn)行程序未經(jīng)仔細(xì)檢查,存在固有的錯(cuò)誤, 導(dǎo)致長(zhǎng)時(shí)間死循環(huán)運(yùn)行或計(jì)算結(jié)果錯(cuò)誤, 浪費(fèi)了大量的CPU 時(shí)間。

(2)提交作業(yè)的運(yùn)算工作量太大,致使在集群上運(yùn)行時(shí)間過長(zhǎng),并造成計(jì)算節(jié)點(diǎn)宕機(jī),以致在沒有得到任何有用結(jié)果情況下不得不中止運(yùn)算。運(yùn)算作業(yè)量過大,造成大量作業(yè)排隊(duì)現(xiàn)象,很擁擠,也會(huì)致使運(yùn)算效率相應(yīng)降低。

為了提高高性能計(jì)算集群的運(yùn)行效率,縮短用戶作業(yè)的時(shí)間,我們鼓勵(lì)提交程序可靠、運(yùn)算時(shí)間短或中等的作業(yè),以提高有用研究成果的產(chǎn)出率。我們通過不斷與用戶的溝通和協(xié)調(diào),制定了高性能計(jì)算集群的使用規(guī)范,其基本原則是:

(1)限制每個(gè)用戶只能同時(shí)運(yùn)行二個(gè)作業(yè),超過的作業(yè)將會(huì)自動(dòng)處在排隊(duì)狀態(tài)。每個(gè)用戶排隊(duì)的作業(yè)數(shù)目不超過3個(gè)。

(2)限制每個(gè)作業(yè)最多只能使用24個(gè)CPU,直至供計(jì)算112個(gè)CPU被占用完。其后提交的作業(yè)按時(shí)間先后處在排隊(duì)狀態(tài)。

(3)鼓勵(lì)提交運(yùn)行時(shí)間短的作業(yè)。

3.安全管理

高性能計(jì)算集群系統(tǒng)是置于網(wǎng)絡(luò)中的一臺(tái)具有服務(wù)器功能,并能進(jìn)行大型數(shù)值模擬計(jì)算的大型設(shè)備;按用戶需求,此大型設(shè)備需保證常年7*24小時(shí)不間斷運(yùn)行。因此,我們高度重視它的網(wǎng)絡(luò)安全和運(yùn)行安全,并采取了一系列的措施。

3.1網(wǎng)絡(luò)安全

系統(tǒng)的網(wǎng)絡(luò)安全性首當(dāng)其沖的就是用戶賬號(hào)安全。為了確保高性能計(jì)算集群系統(tǒng)的網(wǎng)絡(luò)安全,申請(qǐng)使用本實(shí)驗(yàn)室高性能計(jì)算集群系統(tǒng)的用戶需要遵守以下幾點(diǎn)要求:endprint

(1)申請(qǐng)人須為水資源與水電工程科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室的任職教師。高性能計(jì)算集群系統(tǒng)僅供實(shí)驗(yàn)室任職教師或在讀的碩士、博士研究生進(jìn)行科學(xué)研究和教學(xué)相關(guān)的活動(dòng)之用,不得用于任何威脅國(guó)家、社會(huì)安全的高性能計(jì)算,也不能用于其它無關(guān)的用途。

(2) 賬號(hào)只限個(gè)人使用,嚴(yán)禁將帳號(hào)和密碼泄露給外單位人員。賬號(hào)申請(qǐng)僅限于任職教師,在讀的碩士、博士研究生請(qǐng)使用導(dǎo)師的賬號(hào),每一個(gè)用戶至多只能申請(qǐng)一個(gè)帳號(hào),請(qǐng)務(wù)必保存好個(gè)人帳號(hào)和密碼,嚴(yán)禁將帳號(hào)轉(zhuǎn)借他人使用。

(3)數(shù)據(jù)和程序(非公用程序)文件一律存放于自己的屬主目錄下,系統(tǒng)不提供長(zhǎng)期數(shù)據(jù)存放服務(wù)。

(4)不得使用軟件或硬件的方法竊取他人口令,非法入侵他人帳戶,閱讀他人文件,竊取他人計(jì)算和研究成果或受法律保護(hù)的資源。

(5)密碼應(yīng)定期(三個(gè)月)更換,建議8位以上并注意加強(qiáng)密碼復(fù)雜度。

系統(tǒng)管理員必須 對(duì)“root賬戶”的密碼嚴(yán)格保密,并定期更換;權(quán)限的設(shè)定也非常重要,普通用戶不能超越系統(tǒng)管理員的權(quán)限,所有的系統(tǒng)文件對(duì)用戶都是設(shè)置為只讀文件( - rw - r- - r- - ) 。如果普通用戶超越了系統(tǒng)管理員的權(quán)限,可能會(huì)給系統(tǒng)的安全帶來很大的風(fēng)險(xiǎn),系統(tǒng)的文件可能被修改,甚至有可能使整個(gè)系統(tǒng)癱瘓,影響用戶的使用。另外做好系統(tǒng)文件的備份,專門將系統(tǒng)文件置于一個(gè)獨(dú)立硬盤中。

3.2安全運(yùn)行

為保證系統(tǒng)的運(yùn)行安全,防止物理因素、自然因素和人為因素對(duì)系統(tǒng)造成的破壞,實(shí)驗(yàn)室為高性能計(jì)算集群系統(tǒng)建設(shè)標(biāo)準(zhǔn)機(jī)房,配備機(jī)房專用精密空調(diào),常年保持標(biāo)準(zhǔn)溫度(22℃±2℃)和標(biāo)準(zhǔn)濕度(50%Rh±5%Rh);配備不間斷電源UPS,以保證短時(shí)間停電6小時(shí)不影響系統(tǒng)的正常工作。在不得不關(guān)機(jī)的情況下,系統(tǒng)能夠?qū)⒂脩舻某绦蚪財(cái)啵4嫫饋?,等機(jī)器恢復(fù)運(yùn)行后再恢復(fù);配備存儲(chǔ)陣列保存用戶的數(shù)據(jù)文件,以應(yīng)對(duì)突發(fā)事件,將用戶的損失降為最小。

4.維護(hù)管理

4.1加強(qiáng)信息技術(shù),指導(dǎo)維護(hù)管理

在科學(xué)技術(shù)迅猛發(fā)展的今天,尤其是現(xiàn)代信息技術(shù)日新月異,對(duì)高性能計(jì)算產(chǎn)生了深刻的影響。大量信息技術(shù)、信息化裝備應(yīng)用于高性能計(jì)算。實(shí)驗(yàn)室高性能計(jì)算集群系統(tǒng)設(shè)備管理人員必須站在信息化建設(shè)的前沿,用信息時(shí)代的思維審視、思考設(shè)備維護(hù)管理的問題,指導(dǎo)設(shè)備維護(hù)管理工作,加強(qiáng)與科技企業(yè)、設(shè)備生產(chǎn)制造商的交流,及時(shí)了解設(shè)備管理方面的更新升級(jí)信息,使儀器設(shè)備維護(hù)管理科學(xué)化、規(guī)范化、先進(jìn)化。要用信息技術(shù)主導(dǎo)實(shí)驗(yàn)室設(shè)備使用維護(hù)工作,保證儀器設(shè)備質(zhì)量可靠、使用周期長(zhǎng)。

4.2加強(qiáng)日常檢查,保證維護(hù)管理

作為系統(tǒng)管理人員要經(jīng)常查看系統(tǒng)的日志文件,并分析,從中發(fā)現(xiàn)問題和及時(shí)解決問題,以防患于未然。定期檢查,確保設(shè)備處在正常工作狀態(tài)。根據(jù)各設(shè)備的具體情況, 確定維護(hù)制度和具體內(nèi)容。檢查和調(diào)整各個(gè)設(shè)備, 使之處于最佳工作指標(biāo)之內(nèi)。一旦發(fā)現(xiàn)系統(tǒng)異常運(yùn)行,運(yùn)用所有檢測(cè)程序檢查各個(gè)設(shè)備,并根據(jù)硬件設(shè)備報(bào)警燈光判斷出現(xiàn)問題的設(shè)備,發(fā)現(xiàn)問題,及時(shí)解決。最好設(shè)備檢查和維護(hù)記錄,對(duì)于設(shè)備經(jīng)常發(fā)生的故障,要熟練掌握解決方法,及時(shí)排除故障。此外,要保證設(shè)備的清潔衛(wèi)生。

4.3加強(qiáng)管理制度,提高維護(hù)效益

設(shè)備維護(hù)能力的提高不僅靠高投入,而且還要依靠科學(xué)管理。建立科學(xué)管理機(jī)制,能夠有效提高設(shè)備維護(hù)的質(zhì)量和效益。建立設(shè)備的使用管理規(guī)章制度,要求系統(tǒng)設(shè)備使用人員愛護(hù)設(shè)備,了解設(shè)備的性能,熟悉設(shè)備的操作,嚴(yán)格按照規(guī)則進(jìn)行提交作業(yè)計(jì)算,減少對(duì)設(shè)備的損壞,盡量延長(zhǎng)設(shè)備的使用壽命。提高實(shí)驗(yàn)室的開放力度,最大限度地發(fā)揮設(shè)備的使用效益。在落實(shí)實(shí)驗(yàn)室維護(hù)任務(wù)的前提下,要實(shí)現(xiàn)實(shí)驗(yàn)室高性能計(jì)算集群系統(tǒng)設(shè)備資源共享,共同提高維護(hù)效益。

5.結(jié)語

實(shí)驗(yàn)室高性能計(jì)算集群系統(tǒng)運(yùn)行和管理制度的實(shí)行,大大提高了實(shí)驗(yàn)室高性能計(jì)算中心的工作效率,為教師和研究生們的研究工作做出了較大貢獻(xiàn),并取得了一些研究成果。為了更好地為廣大師生服務(wù),我們要進(jìn)一步培養(yǎng)技術(shù)業(yè)務(wù)人員,努力提高管理人員的業(yè)務(wù)水平,做到認(rèn)真學(xué)習(xí)設(shè)備生產(chǎn)制造商提供的各項(xiàng)技術(shù)資料,利用有限的資源,充分發(fā)揮高性能計(jì)算集群系統(tǒng)所具有的作用, 為科研工作帶來更大的產(chǎn)出率。

參考文獻(xiàn):

[1]張予倩,萬賢綱,韓靜. SGI Origin 2000大型計(jì)算機(jī)管理模式與策略[J]. 實(shí)驗(yàn)室研究與探索,2003,22(2):93-94,97.

[2]關(guān)偉豪,吳汝明,郭清順等. 中山大學(xué)高性能計(jì)算服務(wù)平臺(tái)的建設(shè)[J]. 實(shí)驗(yàn)技術(shù)與管理,2011,28(4):303-306.

[3]黃建忠,張滬寅,程 媛. 開放式高性能計(jì)算平臺(tái)的建設(shè)與研究[J]. 計(jì)算機(jī)教育,2012,22:55-59.

[4]劉曉波. 加強(qiáng)高校實(shí)驗(yàn)室設(shè)備管理的途徑分析[J]. 現(xiàn)代商貿(mào)工業(yè),2011,10:268-269.

[5]初建崇,韓海濤,張來紅等. 新形勢(shì)下提升教學(xué)儀器設(shè)備保障管理能力研究[J]. 實(shí)驗(yàn)技術(shù)與管理,2013,30(6):217-219.endprint

猜你喜歡
維護(hù)管理安全管理
廣播電視安全播出技術(shù)維護(hù)管理對(duì)策探討
科技傳播(2016年19期)2016-12-27 15:06:30
高速公路機(jī)電系統(tǒng)的維護(hù)和管理研究
簡(jiǎn)析公路聯(lián)網(wǎng)收費(fèi)機(jī)電系統(tǒng)的維護(hù)管理
科技資訊(2016年19期)2016-11-15 10:07:54
關(guān)于對(duì)汽車維護(hù)管理的研究
針對(duì)計(jì)算機(jī)軟件平臺(tái)下軟件信息的維護(hù)管理
高速公路養(yǎng)護(hù)施工安全管理現(xiàn)狀及建議
房建施工中的質(zhì)量與安全管理的研究
淺談電力工程項(xiàng)目施工的安全管理
關(guān)于深基坑施工的安全管理和防范策略
淺談?shì)斉潆娋€路運(yùn)行與維護(hù)管理措施
嘉兴市| 太和县| 峨眉山市| 伽师县| 佳木斯市| 宜春市| 新河县| 北碚区| 盱眙县| 图木舒克市| 仙居县| 精河县| 萍乡市| 郁南县| 临西县| 睢宁县| 奉贤区| 嘉祥县| 阿坝| 阜平县| 吉木乃县| 睢宁县| 乌兰察布市| 醴陵市| 绥滨县| 溧阳市| 新巴尔虎左旗| 顺昌县| 铜山县| 娱乐| 和政县| 邻水| 盱眙县| 于田县| 旺苍县| 宝清县| 兴安县| 凉山| 凤翔县| 新乐市| 龙井市|