共享時(shí)代下高校高性能計(jì)算系統(tǒng)的設(shè)計(jì)與實(shí)踐

2019-08-16 00:32:48姚舸

實(shí)驗(yàn)室研究與探索 2019年7期

姚舸

(南京大學(xué) 物理學(xué)院,南京 210093)

0 引言

隨著計(jì)算機(jī)技術(shù)的高速發(fā)展，高性能計(jì)算已經(jīng)成為與理論和實(shí)驗(yàn)并駕齊驅(qū)的三大研究方法之一。2006年2月9日，國(guó)務(wù)院頒布的《國(guó)家中長(zhǎng)期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要(2006-2020)》中提出將千萬億次高效能計(jì)算機(jī)研制列入優(yōu)先主題：重點(diǎn)開發(fā)具有先進(jìn)概念的計(jì)算方法和理論，發(fā)展以新概念為基礎(chǔ)的、具有1017/s次以上浮點(diǎn)運(yùn)算能力和高效可信的超級(jí)計(jì)算機(jī)系統(tǒng)、新一代服務(wù)器系統(tǒng)，開發(fā)新體系結(jié)構(gòu)、海量存儲(chǔ)、系統(tǒng)容錯(cuò)等關(guān)鍵技術(shù)。

高性能計(jì)算可以模擬高溫、高壓、強(qiáng)磁場(chǎng)等極端環(huán)境下研究對(duì)象的變化；獲取實(shí)驗(yàn)全過程、全時(shí)空的全部變化信息；以極低的成本反復(fù)運(yùn)行，獲取各種條件下的全面數(shù)據(jù)以便于比較。這些都是真實(shí)實(shí)驗(yàn)無法達(dá)到或代價(jià)過于高昂而不值得的。[1]從“中國(guó)制造”向“中國(guó)創(chuàng)造”的跨越，創(chuàng)造新產(chǎn)品如同科研，需要通過高性能計(jì)算進(jìn)行各類仿真，縮短研發(fā)周期搶先占領(lǐng)市場(chǎng)，近些年來高性能計(jì)算扮演著越來越重要的角色。[2]

1 高校高性能計(jì)算建設(shè)現(xiàn)狀

2010年11月由國(guó)防科技大學(xué)研制的天河1A超級(jí)計(jì)算機(jī)系統(tǒng)首次問鼎世界超級(jí)計(jì)算500強(qiáng)系統(tǒng)排名中的占用率逐年增加，從2013年至2018年初我國(guó)一直占據(jù)TOP500第一的位置[3-4]。隨著國(guó)家對(duì)于高性能計(jì)算重視程度不斷提升，科研院所科研經(jīng)費(fèi)投入加大，我國(guó)已建成6個(gè)國(guó)家級(jí)超級(jí)計(jì)算中心，眾多高校均建設(shè)了校級(jí)的高性能計(jì)算中心，部分院系有院系級(jí)高性能計(jì)算平臺(tái)，許多課題組也自建有高性能計(jì)算集群，科研人員可使用這些計(jì)算資源進(jìn)行數(shù)值計(jì)算模擬。[5-6]

1.1 校級(jí)高性能計(jì)算中心

南京大學(xué)是國(guó)內(nèi)較早成立校級(jí)高性能計(jì)算中心的高校，分別于2007年購(gòu)置了共享內(nèi)存型架構(gòu)的小型計(jì)算機(jī)SGI Altix 4700(256核，512GB內(nèi)存),2009年購(gòu)置了IBM大型刀片集群(約3200核，理論計(jì)算峰值34×1014/s)[7]，2015年學(xué)校又投資5 000余萬元購(gòu)置了聯(lián)想刀片集群，具備910臺(tái)計(jì)算節(jié)點(diǎn)、21 840個(gè)CPU核心，8塊NVIDIA Tesla K40，理論計(jì)算峰值達(dá)885×1014/s[8-9]。類似的，中國(guó)科學(xué)技術(shù)大學(xué)超級(jí)計(jì)算中心的曙光TC4600 1016/s超級(jí)計(jì)算系統(tǒng)，具備506臺(tái)計(jì)算節(jié)點(diǎn)、12 200顆CPU核心,8塊NVIDIA Tesla K80，8個(gè)Intel Xeon Phi 7210，理論計(jì)算峰值519×1014/s[10]。上海交通大學(xué)高性能計(jì)算中心的“π”集群，具備435臺(tái)計(jì)算節(jié)點(diǎn)、約7 000個(gè)核心，100塊NVIDIA Tesla K20、10塊K40、24塊K80、4塊P100，理論計(jì)算峰值343×1014/s[11]。

不難看出，作為服務(wù)于全校性的大型共享平臺(tái)，校級(jí)高性能計(jì)算中心規(guī)模大、預(yù)算充足，能獲得學(xué)校、廠商和代理商的重點(diǎn)支持。此外，校級(jí)高性能計(jì)算中心一般均配備有相當(dāng)數(shù)量的專職管理人員，且管理人員隊(duì)伍穩(wěn)定，集群運(yùn)行狀態(tài)良好。

1.2 院系及課題組級(jí)別的高性能計(jì)算平臺(tái)

許多高校除了校級(jí)高性能計(jì)算中心，部分計(jì)算需求較高的院系建設(shè)有院系級(jí)的高性能計(jì)算平臺(tái)[12]。某高校自2012年1月至2017年12月購(gòu)置的各類服務(wù)器，排除校級(jí)高性能計(jì)算中心、明顯不用于高性能計(jì)算的學(xué)校部處機(jī)關(guān)、職能部門(如網(wǎng)絡(luò)中心、圖書館等)和部分文科院系，設(shè)備資產(chǎn)總值已超過4 000萬元。各品牌的采購(gòu)金額統(tǒng)計(jì)見表1，其中5大主流品牌IBM/Lenovo System X、HP/HPE、Dell、浪潮和曙光的占比約88%，且絕大部分均應(yīng)用于高性能計(jì)算，屬于院系及課題組級(jí)別的高性能計(jì)算平臺(tái)。以某學(xué)院為例，現(xiàn)有的高性能計(jì)算平臺(tái)中IBM 105臺(tái)、Lenovo System X 72臺(tái)、HP/HPE 126臺(tái)、Dell 104臺(tái)、浪潮63臺(tái)、曙光8臺(tái)，五大品牌均有涉及。

表1 院系級(jí)高性能計(jì)算設(shè)備品牌統(tǒng)計(jì)

相較于校級(jí)計(jì)算中心，院系和課題組集群專為本學(xué)科方向科研服務(wù)，配置和環(huán)境更貼合本學(xué)科的計(jì)算需求。特別是課題組自有集群，完全自主控制無需排隊(duì)，可優(yōu)先計(jì)算突發(fā)緊急任務(wù)，受到眾多科研人員的喜愛。另一方面，高校工作人員編制異常緊張，學(xué)校更多地將有限的編制名額用于引進(jìn)科研人才，普遍忽略了實(shí)驗(yàn)技術(shù)隊(duì)伍的建設(shè)，導(dǎo)致課題組內(nèi)的高性能計(jì)算集群一般由年輕教師或研究生兼職管理。由于集群管理專業(yè)性很強(qiáng)，科研人員的專長(zhǎng)在學(xué)術(shù)研究不一定在集群管理，他們花費(fèi)了寶貴的時(shí)間和精力卻又很難管好。以研究生管理為例，第一位學(xué)生一般參與服務(wù)器的安裝部署過程，對(duì)集群構(gòu)架有了整體的了解，能夠較好的管理集群。幾年后，當(dāng)?shù)谝晃粚W(xué)生面臨畢業(yè)，專注于撰寫論文和找工作，后續(xù)接替管理的學(xué)生則很難再次得到系統(tǒng)的培訓(xùn)。一旦第一位學(xué)生畢業(yè)離校，集群管理就容易“斷檔”，甚至出現(xiàn)后續(xù)學(xué)生只會(huì)使用登錄節(jié)點(diǎn)計(jì)算，而不知道還存在計(jì)算節(jié)點(diǎn)的情況。集群長(zhǎng)期處于亞健康狀態(tài)運(yùn)行，疏于管理使用率低，一定程度上造成了科研經(jīng)費(fèi)的浪費(fèi)[13]。甚至出現(xiàn)設(shè)備采購(gòu)后，因無人管理一直沒有正常運(yùn)行，多年后直接報(bào)廢，造成的浪費(fèi)令人痛心。

課題組和院系緊密聯(lián)系不可分割，院系級(jí)的高性能計(jì)算平臺(tái)管理一般有4種類型：

(1)院系無機(jī)房等公共設(shè)施，各個(gè)課題組完全自行建設(shè)管理高性能計(jì)算集群。因無專門的機(jī)房，課題組一般在其實(shí)驗(yàn)室分割一小塊區(qū)域作為簡(jiǎn)易機(jī)房安裝高性能計(jì)算集群，機(jī)房環(huán)境較差，很難保證設(shè)備長(zhǎng)期穩(wěn)定運(yùn)行。

(2)為提高實(shí)驗(yàn)用房利用效率加強(qiáng)管理，避免分散建設(shè)機(jī)房，院系統(tǒng)一建設(shè)機(jī)房供各個(gè)課題組使用。課題組將高性能計(jì)算集群統(tǒng)一托管，院系負(fù)責(zé)機(jī)房基礎(chǔ)設(shè)施運(yùn)行，如空調(diào)、UPS、配電等，不涉及計(jì)算機(jī)系統(tǒng)的管理，一般無需專職管理人員。

(3)在為課題組托管設(shè)備的基礎(chǔ)上，院系還購(gòu)置有公共的高性能計(jì)算集群共享使用，院系需管理共享集群，因此需要專職管理人員或服務(wù)商管理維護(hù)。

(4)院系將公共和課題組高性能計(jì)算集群統(tǒng)一管理互聯(lián)互通，實(shí)現(xiàn)了真正的融合統(tǒng)一，資源共享，需要專職管理人員或服務(wù)商協(xié)助管理。

一般高校的大多數(shù)院系屬于前3種管理類型，各個(gè)課題組集群自行管理、各自為政，無法避免上文提及的無人管理的困境。而且各組研究進(jìn)度不同，相應(yīng)集群資源使用也不平衡，有的組有大量資源閑置，而有的組卻很緊張需要到外面購(gòu)置計(jì)算資源。各用戶賬號(hào)和科研數(shù)據(jù)均不互通，所用系統(tǒng)支撐軟件有所不同，無法進(jìn)行共享。

只有第4種類型的統(tǒng)一共享才能解決上述問題，由院系的專職人員管理，讓課題組師生從日常管理中解脫出來專注于科研，通過打通用戶賬號(hào)和科研數(shù)據(jù)，實(shí)現(xiàn)資源共享，提高集群的工作效率和科研經(jīng)費(fèi)的使用效率。

2 構(gòu)建混合品牌和架構(gòu)的共享高性能計(jì)算系統(tǒng)

校級(jí)高性能計(jì)算中心由于規(guī)模大，普遍為一次性投資，單一品牌和架構(gòu)便于管理，廠商或代理商也均能提供良好的售后服務(wù)。而課題組和院系集群屬于持續(xù)性投資，特別是各個(gè)課題組經(jīng)費(fèi)預(yù)算和使用周期不同，一些較大規(guī)模的院系基本每年均有購(gòu)置。計(jì)算機(jī)設(shè)備各品牌競(jìng)爭(zhēng)極其激烈，每次招標(biāo)各有勝負(fù)，這也就造成了院系級(jí)或課題組的計(jì)算平臺(tái)設(shè)備品牌眾多架構(gòu)復(fù)雜，要實(shí)現(xiàn)這些集群的互聯(lián)互通，需要考慮多方面因素。

2.1 高熱密度機(jī)房

為了整合各個(gè)集群，首先需將集群集中托管。高速低延遲網(wǎng)絡(luò)(如InfiniBand、Omni-Path等)對(duì)線纜長(zhǎng)度有嚴(yán)格的要求，在可接受的延遲內(nèi)只能滿足機(jī)房?jī)?nèi)的互聯(lián)。隨著高性能計(jì)算集群密度不斷提升和刀片式服務(wù)器等高密度設(shè)備的廣泛應(yīng)用，應(yīng)建設(shè)統(tǒng)一的高熱密度機(jī)房，實(shí)現(xiàn)集群的集中托管。

與普通機(jī)房不同，高熱密度機(jī)房是專為高密度服務(wù)器設(shè)計(jì)的。2 m高度標(biāo)準(zhǔn)機(jī)柜提供42U空間，主流品牌平均10U高度提供約16臺(tái)雙路CPU計(jì)算節(jié)點(diǎn)，規(guī)劃使用30U高度安裝約50臺(tái)雙路服務(wù)器，剩余空間用于安裝存儲(chǔ)、I/O節(jié)點(diǎn)、交換機(jī)、電源分配單元等低熱密度設(shè)備和布線?；谏鲜鲂枨髥螜C(jī)柜設(shè)計(jì)供電散熱能力應(yīng)達(dá)到20 kVA，機(jī)柜一路為UPS供電，另一路為市電直接供電，每回路采用三相五線制，每相電流32 A。

散熱是高熱密度機(jī)房遇到的最大挑戰(zhàn)，針對(duì)高熱密度制冷方式主要有冷熱通道分離、密閉制冷機(jī)柜和溫水冷卻。冷熱通道分離將熱空氣區(qū)和冷空氣區(qū)分隔，防止冷熱空氣混合，迫使所有冷空氣經(jīng)過服務(wù)器等設(shè)備后進(jìn)入熱區(qū)再回到空調(diào)進(jìn)行冷卻，提高了冷卻效率，常用行間制冷空調(diào)冷卻熱空氣。密閉制冷機(jī)柜前后柜門密閉，空調(diào)和機(jī)柜一體化，冷熱空氣完全在機(jī)柜內(nèi)部循環(huán)，進(jìn)一步提高了制冷效率[14]。溫水冷卻使用溫水直接冷卻CPU等主要熱源，具有極佳的能效比[15]，電源使用效率(Power Usage Effective,PUE)值約1.1。但溫水冷卻尚無統(tǒng)一的標(biāo)準(zhǔn)，先建設(shè)機(jī)房后分批采購(gòu)設(shè)備無法采用此種冷卻方式，只能使用冷熱通道分離或密閉制冷機(jī)柜。采用傳統(tǒng)房間級(jí)空調(diào)冷熱通道分割如圖1所示。

圖1 高熱密度機(jī)房剖面圖

2.2 服務(wù)器等設(shè)備要求

雖然不同批次采購(gòu)的設(shè)備品牌架構(gòu)不同，但是為了統(tǒng)一管理應(yīng)制定一套基本要求。根據(jù)采購(gòu)相關(guān)管理規(guī)定，此套基本要求應(yīng)是大多數(shù)產(chǎn)品均能滿足的，不應(yīng)成為采購(gòu)過程中的限制條件。

服務(wù)器應(yīng)支持完善的遠(yuǎn)程管理功能，這也是服務(wù)器與工作站或臺(tái)式機(jī)的重要區(qū)別。X86服務(wù)器普遍支持的智能平臺(tái)管理接口(Intelligent Platform Management Interface，IPMI)是由Intel發(fā)起的遠(yuǎn)程控制服務(wù)器接口，提供了統(tǒng)一的服務(wù)器硬件遠(yuǎn)程操控和監(jiān)控方案。IPMI的核心是提供IPMI功能的基本管理控制器(Baseboard Management Controller，BMC)，BMC獨(dú)立于操作系統(tǒng)直接對(duì)服務(wù)器硬件進(jìn)行操控[16]。通過IPMI遠(yuǎn)程控制服務(wù)器，實(shí)現(xiàn)開關(guān)機(jī)和設(shè)置下一次啟動(dòng)設(shè)備，服務(wù)器安裝操作系統(tǒng)和開關(guān)機(jī)日常維護(hù)均可遠(yuǎn)程進(jìn)行，IPMI還提供了豐富的監(jiān)控功能，在線對(duì)故障進(jìn)行報(bào)警和診斷，實(shí)現(xiàn)遠(yuǎn)程報(bào)修。需要注意的是Lenovo System X、HPE、Dell的部分服務(wù)器需購(gòu)買許可升級(jí)才可遠(yuǎn)程查看控制臺(tái)界面，這對(duì)查看安裝操作系統(tǒng)中的錯(cuò)誤或宕機(jī)狀態(tài)極其重要。

所有硬件設(shè)備均應(yīng)支持遠(yuǎn)程操作和監(jiān)控，做到日常運(yùn)維不進(jìn)機(jī)房；應(yīng)支持遠(yuǎn)程日志發(fā)送和電子郵件報(bào)警，通過遠(yuǎn)程日志發(fā)送集中歸檔，關(guān)鍵故障通過電子郵件報(bào)警通知管理員及時(shí)處理。

2.3 網(wǎng)絡(luò)架構(gòu)

通過統(tǒng)一的網(wǎng)絡(luò)將各個(gè)品牌和架構(gòu)設(shè)備互聯(lián)才能構(gòu)建單一的系統(tǒng)。網(wǎng)絡(luò)分為3種：硬件管理網(wǎng)、集群管理網(wǎng)和高速低延遲通信網(wǎng)。

硬件管理網(wǎng)連接所有硬件設(shè)備管理網(wǎng)絡(luò)，如服務(wù)器的IPMI端口、存儲(chǔ)管理端口，實(shí)現(xiàn)硬件設(shè)備遠(yuǎn)程操控和監(jiān)控。網(wǎng)絡(luò)帶寬需求低，無高可用要求，采用100 MB接入1 GB級(jí)聯(lián)即可滿足需求。集群管理網(wǎng)連接所有服務(wù)器操作系統(tǒng)的以太網(wǎng)，用于節(jié)點(diǎn)互相通訊，對(duì)網(wǎng)絡(luò)帶寬需求較高，有高可用性要求，一旦癱瘓整個(gè)集群都不可用，采用1 GB或10 GB接入40 GB/100 GB級(jí)聯(lián)。考慮到安全因素，上述兩個(gè)網(wǎng)絡(luò)應(yīng)實(shí)現(xiàn)隔離，既可通過硬件隔離也可通過VLAN邏輯隔離。

高速低延遲通信網(wǎng)是采用InfiniBand、Omni-Path等專用網(wǎng)絡(luò)，與普通以太網(wǎng)相比延遲和帶寬均有數(shù)量級(jí)的提升，能夠?yàn)橄鬟f接口(Massage Passing Inteface,MPI)和文件系統(tǒng)提供高帶寬低延遲的通訊，是實(shí)現(xiàn)大規(guī)模并行計(jì)算的關(guān)鍵。對(duì)于部分要求不高的集群，可以采用集群管理網(wǎng)兼顧該項(xiàng)功能，那么集群管理網(wǎng)應(yīng)采用10 GB甚至25 GB接入。

上述3套網(wǎng)絡(luò)將不同品牌和架構(gòu)的設(shè)備互相連接，規(guī)劃IP地址時(shí)應(yīng)使用3個(gè)容量相同的獨(dú)立子網(wǎng)，預(yù)留在可預(yù)見的將來足夠使用的地址資源，如3個(gè)B類網(wǎng)絡(luò)可以滿足絕大多數(shù)需求。集群一旦建立正常運(yùn)行以后，修改網(wǎng)絡(luò)架構(gòu)和地址可能需要長(zhǎng)時(shí)間停機(jī)以調(diào)整各個(gè)設(shè)備配置，這基本是不可接受的，因此需要前期預(yù)留足夠的冗余。

高性能計(jì)算集群中非計(jì)算和I/O的節(jié)點(diǎn)，可利用虛擬化技術(shù)減少硬件投入，共享高性能計(jì)算系統(tǒng)架構(gòu)見圖2。

圖2 高性能計(jì)算集群架構(gòu)

2.4 集群系統(tǒng)管理軟件

xCAT(Extreme Cluster/Cloud Administration Toolkit)作為集群系統(tǒng)管理工具是一套開源的集群管理和配置工具，它允許使用者通過單點(diǎn)控制和管理一套集群系統(tǒng)，不僅簡(jiǎn)化集群管理，還提供批量部署功能，從而提高了管理員的工作效率[17]。

xCAT使用數(shù)據(jù)庫存儲(chǔ)集群信息，如每個(gè)節(jié)點(diǎn)的BMC地址、操作系統(tǒng)版本、主機(jī)名、MAC地址、IP地址等，并生成相應(yīng)的配置文件。集群部署時(shí)xCAT通過BMC設(shè)置節(jié)點(diǎn)下一次通過網(wǎng)絡(luò)啟動(dòng)，再遠(yuǎn)程開啟節(jié)點(diǎn)電源。節(jié)點(diǎn)開機(jī)從網(wǎng)卡啟動(dòng)，向本地廣播地址發(fā)送含有PXE option的DHCP Discover包，xCAT服務(wù)器根據(jù)請(qǐng)求的MAC地址提供對(duì)應(yīng)的網(wǎng)絡(luò)配置和PXE啟動(dòng)文件。節(jié)點(diǎn)獲取相應(yīng)配置后，從xCAT服務(wù)器下載文件，在本地部署操作系統(tǒng)，并執(zhí)行后處理腳本，如建立SSH互信等。

管理員使用xCAT的批量文件分發(fā)和執(zhí)行命令的功能，在所有節(jié)點(diǎn)并發(fā)安裝驅(qū)動(dòng)程序、文件系統(tǒng)等工作，工作強(qiáng)度和執(zhí)行時(shí)間與節(jié)點(diǎn)數(shù)量無顯著關(guān)系。xCAT提供的批量功能操作，不僅將管理員從繁瑣重復(fù)的勞動(dòng)中解脫，而且各個(gè)節(jié)點(diǎn)執(zhí)行命令統(tǒng)一，盡量消除節(jié)點(diǎn)間差異。編排一套系統(tǒng)部署流程，將其標(biāo)準(zhǔn)化腳本化，實(shí)現(xiàn)了節(jié)點(diǎn)從部署操作系統(tǒng)到最終上線正常運(yùn)行的全自動(dòng)操作。節(jié)點(diǎn)出現(xiàn)無法通過重啟解決的故障時(shí)，使用一條命令即可在10 min以內(nèi)，無人工干預(yù)完成節(jié)點(diǎn)操作系統(tǒng)重新安裝，將重裝的時(shí)間從h級(jí)縮短到min級(jí)，提高了整個(gè)集群的利用效率也降低了管理員的工作量。

2.5 并行文件系統(tǒng)

并行文件系統(tǒng)為高性能計(jì)算集群提供了共享、統(tǒng)一命名空間的共享存儲(chǔ)空間，與傳統(tǒng)的NFS文件系統(tǒng)相比，并行文件系統(tǒng)支持MPI-I/O多進(jìn)程可對(duì)單一文件并發(fā)讀寫，有更高的性能和更好的橫向擴(kuò)展性[18]。對(duì)于各課題組原有存儲(chǔ)，將性能相近的存儲(chǔ)合并為一個(gè)文件系統(tǒng)，性能差異明顯的作為不同的文件系統(tǒng)使用。每個(gè)課題組仍使用原有存儲(chǔ)，但文件系統(tǒng)掛載到整個(gè)共享平臺(tái)中，打破數(shù)據(jù)壁壘。院系還應(yīng)購(gòu)置公共的存儲(chǔ)供所有用戶使用，其中元數(shù)據(jù)宜采用獨(dú)立的固態(tài)硬盤，大幅提高元數(shù)據(jù)操作性能，這樣當(dāng)存儲(chǔ)負(fù)載較高時(shí)，用戶前臺(tái)操作不會(huì)有明顯的延遲。

集群中有部分文件是所有用戶均需使用的，如作業(yè)調(diào)度系統(tǒng)、編譯器數(shù)學(xué)庫等，有條件時(shí)可將公共軟件使用獨(dú)立的硬盤陣列提供，防止由于用戶作業(yè)大、I/O阻塞，導(dǎo)致所有用戶訪問公共目錄緩慢，甚至作業(yè)調(diào)度系統(tǒng)崩潰。

2.6 計(jì)算隊(duì)列

不同時(shí)期購(gòu)置的服務(wù)器，CPU網(wǎng)絡(luò)等配置均不盡相同，不同配置的服務(wù)器如果運(yùn)行同一個(gè)并行計(jì)算，慢的節(jié)點(diǎn)會(huì)顯著拖慢整體計(jì)算，需要通過不同的隊(duì)列區(qū)分，相同CPU和網(wǎng)絡(luò)的節(jié)點(diǎn)才能組成一個(gè)計(jì)算隊(duì)列。

與校級(jí)或院系級(jí)平臺(tái)不同，整合的平臺(tái)中各個(gè)隊(duì)列的節(jié)點(diǎn)由不同的課題組購(gòu)買，課題組自建集群的重要因素是可以獨(dú)享使用而無需排隊(duì)，故作為整合平臺(tái)應(yīng)首先滿足課題組自己的計(jì)算需求，空閑節(jié)點(diǎn)再開放共享。因此在作業(yè)調(diào)度策略上，應(yīng)該配置兩個(gè)優(yōu)先級(jí)不同的隊(duì)列，低優(yōu)先級(jí)的隊(duì)列對(duì)所有用戶開放，高優(yōu)先級(jí)隊(duì)列只對(duì)隊(duì)列節(jié)點(diǎn)購(gòu)置的課題組成員開放。作業(yè)派發(fā)時(shí)，首先派發(fā)高優(yōu)先級(jí)的隊(duì)列，當(dāng)高優(yōu)先級(jí)隊(duì)列為空時(shí)派發(fā)低優(yōu)先級(jí)隊(duì)列作業(yè)，這樣就在作業(yè)派發(fā)環(huán)節(jié)上保證了隊(duì)列節(jié)點(diǎn)所有者的優(yōu)先權(quán)。在實(shí)際使用中發(fā)現(xiàn)，有時(shí)由于隊(duì)列節(jié)點(diǎn)所有者課題組作業(yè)很少，此隊(duì)列大多數(shù)節(jié)點(diǎn)被低優(yōu)先級(jí)隊(duì)列的作業(yè)運(yùn)行占用，當(dāng)隊(duì)列節(jié)點(diǎn)所有者提交作業(yè)到高優(yōu)先級(jí)隊(duì)列時(shí)因無空閑節(jié)點(diǎn)而無法派發(fā)作業(yè)。出現(xiàn)此種情況可以配置搶占策略，當(dāng)高優(yōu)先級(jí)隊(duì)列作業(yè)無足夠資源派發(fā)時(shí)，可以掛起低優(yōu)先級(jí)作業(yè)空出足夠的資源讓高優(yōu)先級(jí)隊(duì)列作業(yè)運(yùn)行。

一個(gè)隊(duì)列的節(jié)點(diǎn)可能由不止一個(gè)課題組購(gòu)置，當(dāng)有兩個(gè)或兩個(gè)以上課題組購(gòu)置的節(jié)點(diǎn)組成同一個(gè)隊(duì)列時(shí)，在高優(yōu)先級(jí)隊(duì)列上限制正在運(yùn)行作業(yè)所使用的CPU核數(shù)為本課題購(gòu)置節(jié)點(diǎn)的CPU核數(shù)總和，這可保證在高優(yōu)先級(jí)隊(duì)列上多個(gè)課題組最多只能使用自己購(gòu)置的那部分節(jié)點(diǎn)。

2.7 賬號(hào)管理

高校的學(xué)生，特別是研究生是高性能計(jì)算集群的主要使用者，從精細(xì)化管理和數(shù)據(jù)安全的角度出發(fā)，應(yīng)該為每個(gè)人開設(shè)獨(dú)立的賬號(hào)。但是每年都有約1/5的學(xué)生更替，即老學(xué)生畢業(yè)離校和新學(xué)生入校，大量的賬號(hào)刪除和新建操作增加了管理員的工作量，故很多集群只給導(dǎo)師開設(shè)賬號(hào)，并由導(dǎo)師負(fù)責(zé)管理這些賬號(hào)。這就不可避免的導(dǎo)致賬號(hào)多人共享，使用情況混亂，學(xué)生畢業(yè)后無法及時(shí)回收賬號(hào)，給集群帶來違規(guī)使用和安全風(fēng)險(xiǎn)。鑒于面對(duì)的風(fēng)險(xiǎn)，開發(fā)了用戶管理平臺(tái)，系統(tǒng)管理員只管理導(dǎo)師賬號(hào)，學(xué)生賬號(hào)由導(dǎo)師自主管理，每個(gè)學(xué)生均有獨(dú)立的賬號(hào)，學(xué)生畢業(yè)時(shí)系統(tǒng)自動(dòng)收回賬號(hào)。

3 共享平臺(tái)運(yùn)行情況統(tǒng)計(jì)

將各課題組高性能計(jì)算集群統(tǒng)一管理并融合為一套混合品牌和架構(gòu)的高性能計(jì)算系統(tǒng)后，通過對(duì)2015-01-01～2017-12-31日作業(yè)信息進(jìn)行統(tǒng)計(jì)，結(jié)果顯示共累計(jì)完成作業(yè)1.257×107個(gè)，達(dá)9.801×107CPU h。集群運(yùn)行近3年，根據(jù)機(jī)房基礎(chǔ)設(shè)施情況和收費(fèi)政策，可分為以下3個(gè)階段：

2015-01-01～2016-03-11為第1階段。因機(jī)房空調(diào)系統(tǒng)長(zhǎng)時(shí)間高負(fù)荷使用，加之室外機(jī)散熱不良，空調(diào)故障頻發(fā)，集群無法全部開放使用，故于2016年3月12至18日更換了機(jī)房空調(diào)。此階段集群不收費(fèi)。

2016-03-19～07-14為第2階段。新空調(diào)提供穩(wěn)定而高效的制冷效果，集群滿負(fù)荷運(yùn)行，此階段集群不收費(fèi)。

2017-7-17～2017-12-31為第3階段。2017-07-15～16機(jī)房停電，17日恢復(fù)運(yùn)行后集群開始執(zhí)行收費(fèi)政策。用戶在使用非本組購(gòu)置的節(jié)點(diǎn)時(shí)，按照CPU核時(shí)收取計(jì)算費(fèi)，并將收取的計(jì)算費(fèi)返回給被使用節(jié)點(diǎn)的購(gòu)置課題組。

對(duì)每個(gè)階段總的和共享的CPU核時(shí)進(jìn)行統(tǒng)計(jì)，其中共享的CPU核時(shí)指用戶使用非本組購(gòu)置的節(jié)點(diǎn)，在第3階段共享CPU核時(shí)需要繳納計(jì)算費(fèi)，見表2。

表2 高性能計(jì)算集群使用統(tǒng)計(jì) CPU核×104h

2011年Intel推出Sandy Bridge微架構(gòu)，開始支持高級(jí)矢量擴(kuò)展(Advanced Vector Extensions，AVX)指令集，AVX將向量化寬度擴(kuò)展到256位，理想狀態(tài)下每時(shí)鐘周期浮點(diǎn)運(yùn)算能力是前一代的2倍[19-20]。集群中部分節(jié)點(diǎn)CPU較老，不支持AVX指令集，實(shí)際使用中發(fā)現(xiàn)這些節(jié)點(diǎn)使用率低，故排除這些節(jié)點(diǎn)后再做一次總的和共享的CPU核時(shí)統(tǒng)計(jì)，見表3。

表3 高性能計(jì)算集群使用統(tǒng)計(jì)(CPU支持AVX) CPU核×104h

*支持AVX的CPU核時(shí)占所有CPU核時(shí)的比例。

從表2可見，3年間總計(jì)2 232萬CPU核時(shí)的計(jì)算時(shí)間均為多集群融合后，課題組間可方便共享計(jì)算資源多出的計(jì)算時(shí)間。其中第2階段機(jī)房制冷條件好，且不收取任何費(fèi)用，共享達(dá)到頂峰，整個(gè)集群基本滿負(fù)荷運(yùn)行。在第3階段，增加對(duì)共享CPU使用的收費(fèi)，用戶傾向于使用本組購(gòu)置的節(jié)點(diǎn)，共享CPU使用比有所下降。表3展現(xiàn)出在經(jīng)濟(jì)杠桿的調(diào)節(jié)下，一旦開始收費(fèi)，用戶會(huì)盡可能使用新的節(jié)點(diǎn)，追求更高的性價(jià)比。

集群融合統(tǒng)一，3年間不僅增加了2.232×107CPU核時(shí)的計(jì)算，且在整個(gè)第3階段集群一直穩(wěn)定運(yùn)行，無超過24 h的停機(jī)，這在以前各個(gè)課題組獨(dú)立管理無專人負(fù)責(zé)的情況下基本不可能。這足以說明打破課題組壁壘，構(gòu)建一個(gè)統(tǒng)一的集群可極大的提高集群使用效率，挖掘潛能，節(jié)約經(jīng)費(fèi)開支。

4 結(jié) 語

通過整合各個(gè)高性能計(jì)算資源，構(gòu)建混合品牌和架構(gòu)的共享高性能計(jì)算系統(tǒng)方案。對(duì)于每年分批次采購(gòu)的校級(jí)高性能計(jì)算中心，將各個(gè)批次集群統(tǒng)一融合，打破了賬號(hào)和數(shù)據(jù)的壁壘，提高整體使用效率。對(duì)于院系內(nèi)各個(gè)課題組高性能計(jì)算集群，將其與院系已有公共集群融合，成為新的院系級(jí)高性能計(jì)算平臺(tái)，解決了課題組集群分散無專人管理的窘境；在滿足本組優(yōu)先使用的前提下，開放共享，減少資源閑置。該方案有利于科研人員專注于科研工作本身，從集群管理中解脫出來真正成為集群的使用者。截至目前，共享集群規(guī)模近600個(gè)節(jié)點(diǎn)，涵蓋IBM/Lenovo、HP/HPE、Dell、Huawei、H3C、浪潮、曙光、DDN、Brocade、BNT等主流品牌，3大高速網(wǎng)絡(luò)InfiniBand、Omni-Path和iWARP，iSCSI、SAS、FC和Infiniband等各類存儲(chǔ)，期間經(jīng)歷操作系統(tǒng)、并行文件系統(tǒng)和作業(yè)調(diào)度系統(tǒng)的大版本升級(jí)，六年多來整個(gè)集群系統(tǒng)一直穩(wěn)定運(yùn)行,很好地支撐了科研工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡