姚 舸
(南京大學(xué) 物理學(xué)院,南京 210093)
隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,高性能計(jì)算已經(jīng)成為與理論和實(shí)驗(yàn)并駕齊驅(qū)的三大研究方法之一。2006年2月9日,國(guó)務(wù)院頒布的《國(guó)家中長(zhǎng)期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要(2006-2020)》中提出將千萬億次高效能計(jì)算機(jī)研制列入優(yōu)先主題:重點(diǎn)開發(fā)具有先進(jìn)概念的計(jì)算方法和理論,發(fā)展以新概念為基礎(chǔ)的、具有1017/s次以上浮點(diǎn)運(yùn)算能力和高效可信的超級(jí)計(jì)算機(jī)系統(tǒng)、新一代服務(wù)器系統(tǒng),開發(fā)新體系結(jié)構(gòu)、海量存儲(chǔ)、系統(tǒng)容錯(cuò)等關(guān)鍵技術(shù)。
高性能計(jì)算可以模擬高溫、高壓、強(qiáng)磁場(chǎng)等極端環(huán)境下研究對(duì)象的變化;獲取實(shí)驗(yàn)全過程、全時(shí)空的全部變化信息;以極低的成本反復(fù)運(yùn)行,獲取各種條件下的全面數(shù)據(jù)以便于比較。這些都是真實(shí)實(shí)驗(yàn)無法達(dá)到或代價(jià)過于高昂而不值得的。[1]從“中國(guó)制造”向“中國(guó)創(chuàng)造”的跨越,創(chuàng)造新產(chǎn)品如同科研,需要通過高性能計(jì)算進(jìn)行各類仿真,縮短研發(fā)周期搶先占領(lǐng)市場(chǎng),近些年來高性能計(jì)算扮演著越來越重要的角色。[2]
2010年11月由國(guó)防科技大學(xué)研制的天河1A超級(jí)計(jì)算機(jī)系統(tǒng)首次問鼎世界超級(jí)計(jì)算500強(qiáng)系統(tǒng)排名中的占用率逐年增加,從2013年至2018年初我國(guó)一直占據(jù)TOP500第一的位置[3-4]。隨著國(guó)家對(duì)于高性能計(jì)算重視程度不斷提升,科研院所科研經(jīng)費(fèi)投入加大,我國(guó)已建成6個(gè)國(guó)家級(jí)超級(jí)計(jì)算中心,眾多高校均建設(shè)了校級(jí)的高性能計(jì)算中心,部分院系有院系級(jí)高性能計(jì)算平臺(tái),許多課題組也自建有高性能計(jì)算集群,科研人員可使用這些計(jì)算資源進(jìn)行數(shù)值計(jì)算模擬。[5-6]
南京大學(xué)是國(guó)內(nèi)較早成立校級(jí)高性能計(jì)算中心的高校,分別于2007年購(gòu)置了共享內(nèi)存型架構(gòu)的小型計(jì)算機(jī)SGI Altix 4700(256核,512GB內(nèi)存),2009年購(gòu)置了IBM大型刀片集群(約3200核,理論計(jì)算峰值34×1014/s)[7],2015年學(xué)校又投資5 000余萬元購(gòu)置了聯(lián)想刀片集群,具備910臺(tái)計(jì)算節(jié)點(diǎn)、21 840個(gè)CPU核心,8塊NVIDIA Tesla K40,理論計(jì)算峰值達(dá)885×1014/s[8-9]。類似的,中國(guó)科學(xué)技術(shù)大學(xué)超級(jí)計(jì)算中心的曙光TC4600 1016/s超級(jí)計(jì)算系統(tǒng),具備506臺(tái)計(jì)算節(jié)點(diǎn)、12 200顆CPU核心,8塊NVIDIA Tesla K80,8個(gè)Intel Xeon Phi 7210,理論計(jì)算峰值519×1014/s[10]。上海交通大學(xué)高性能計(jì)算中心的“π”集群,具備435臺(tái)計(jì)算節(jié)點(diǎn)、約7 000個(gè)核心,100塊NVIDIA Tesla K20、10塊K40、24塊K80、4塊P100,理論計(jì)算峰值343×1014/s[11]。
不難看出,作為服務(wù)于全校性的大型共享平臺(tái),校級(jí)高性能計(jì)算中心規(guī)模大、預(yù)算充足,能獲得學(xué)校、廠商和代理商的重點(diǎn)支持。此外,校級(jí)高性能計(jì)算中心一般均配備有相當(dāng)數(shù)量的專職管理人員,且管理人員隊(duì)伍穩(wěn)定,集群運(yùn)行狀態(tài)良好。
許多高校除了校級(jí)高性能計(jì)算中心,部分計(jì)算需求較高的院系建設(shè)有院系級(jí)的高性能計(jì)算平臺(tái)[12]。某高校自2012年1月至2017年12月購(gòu)置的各類服務(wù)器,排除校級(jí)高性能計(jì)算中心、明顯不用于高性能計(jì)算的學(xué)校部處機(jī)關(guān)、職能部門(如網(wǎng)絡(luò)中心、圖書館等)和部分文科院系,設(shè)備資產(chǎn)總值已超過4 000萬元。各品牌的采購(gòu)金額統(tǒng)計(jì)見表1,其中5大主流品牌IBM/Lenovo System X、HP/HPE、Dell、浪潮和曙光的占比約88%,且絕大部分均應(yīng)用于高性能計(jì)算,屬于院系及課題組級(jí)別的高性能計(jì)算平臺(tái)。以某學(xué)院為例,現(xiàn)有的高性能計(jì)算平臺(tái)中IBM 105臺(tái)、Lenovo System X 72臺(tái)、HP/HPE 126臺(tái)、Dell 104臺(tái)、浪潮63臺(tái)、曙光8臺(tái),五大品牌均有涉及。
表1 院系級(jí)高性能計(jì)算設(shè)備品牌統(tǒng)計(jì)
相較于校級(jí)計(jì)算中心,院系和課題組集群專為本學(xué)科方向科研服務(wù),配置和環(huán)境更貼合本學(xué)科的計(jì)算需求。特別是課題組自有集群,完全自主控制無需排隊(duì),可優(yōu)先計(jì)算突發(fā)緊急任務(wù),受到眾多科研人員的喜愛。另一方面,高校工作人員編制異常緊張,學(xué)校更多地將有限的編制名額用于引進(jìn)科研人才,普遍忽略了實(shí)驗(yàn)技術(shù)隊(duì)伍的建設(shè),導(dǎo)致課題組內(nèi)的高性能計(jì)算集群一般由年輕教師或研究生兼職管理。由于集群管理專業(yè)性很強(qiáng),科研人員的專長(zhǎng)在學(xué)術(shù)研究不一定在集群管理,他們花費(fèi)了寶貴的時(shí)間和精力卻又很難管好。以研究生管理為例,第一位學(xué)生一般參與服務(wù)器的安裝部署過程,對(duì)集群構(gòu)架有了整體的了解,能夠較好的管理集群。幾年后,當(dāng)?shù)谝晃粚W(xué)生面臨畢業(yè),專注于撰寫論文和找工作,后續(xù)接替管理的學(xué)生則很難再次得到系統(tǒng)的培訓(xùn)。一旦第一位學(xué)生畢業(yè)離校,集群管理就容易“斷檔”,甚至出現(xiàn)后續(xù)學(xué)生只會(huì)使用登錄節(jié)點(diǎn)計(jì)算,而不知道還存在計(jì)算節(jié)點(diǎn)的情況。集群長(zhǎng)期處于亞健康狀態(tài)運(yùn)行,疏于管理使用率低,一定程度上造成了科研經(jīng)費(fèi)的浪費(fèi)[13]。甚至出現(xiàn)設(shè)備采購(gòu)后,因無人管理一直沒有正常運(yùn)行,多年后直接報(bào)廢,造成的浪費(fèi)令人痛心。
課題組和院系緊密聯(lián)系不可分割,院系級(jí)的高性能計(jì)算平臺(tái)管理一般有4種類型:
(1)院系無機(jī)房等公共設(shè)施,各個(gè)課題組完全自行建設(shè)管理高性能計(jì)算集群。因無專門的機(jī)房,課題組一般在其實(shí)驗(yàn)室分割一小塊區(qū)域作為簡(jiǎn)易機(jī)房安裝高性能計(jì)算集群,機(jī)房環(huán)境較差,很難保證設(shè)備長(zhǎng)期穩(wěn)定運(yùn)行。
(2)為提高實(shí)驗(yàn)用房利用效率加強(qiáng)管理,避免分散建設(shè)機(jī)房,院系統(tǒng)一建設(shè)機(jī)房供各個(gè)課題組使用。課題組將高性能計(jì)算集群統(tǒng)一托管,院系負(fù)責(zé)機(jī)房基礎(chǔ)設(shè)施運(yùn)行,如空調(diào)、UPS、配電等,不涉及計(jì)算機(jī)系統(tǒng)的管理,一般無需專職管理人員。
(3)在為課題組托管設(shè)備的基礎(chǔ)上,院系還購(gòu)置有公共的高性能計(jì)算集群共享使用,院系需管理共享集群,因此需要專職管理人員或服務(wù)商管理維護(hù)。
(4)院系將公共和課題組高性能計(jì)算集群統(tǒng)一管理互聯(lián)互通,實(shí)現(xiàn)了真正的融合統(tǒng)一,資源共享,需要專職管理人員或服務(wù)商協(xié)助管理。
一般高校的大多數(shù)院系屬于前3種管理類型,各個(gè)課題組集群自行管理、各自為政,無法避免上文提及的無人管理的困境。而且各組研究進(jìn)度不同,相應(yīng)集群資源使用也不平衡,有的組有大量資源閑置,而有的組卻很緊張需要到外面購(gòu)置計(jì)算資源。各用戶賬號(hào)和科研數(shù)據(jù)均不互通,所用系統(tǒng)支撐軟件有所不同,無法進(jìn)行共享。
只有第4種類型的統(tǒng)一共享才能解決上述問題,由院系的專職人員管理,讓課題組師生從日常管理中解脫出來專注于科研,通過打通用戶賬號(hào)和科研數(shù)據(jù),實(shí)現(xiàn)資源共享,提高集群的工作效率和科研經(jīng)費(fèi)的使用效率。
校級(jí)高性能計(jì)算中心由于規(guī)模大,普遍為一次性投資,單一品牌和架構(gòu)便于管理,廠商或代理商也均能提供良好的售后服務(wù)。而課題組和院系集群屬于持續(xù)性投資,特別是各個(gè)課題組經(jīng)費(fèi)預(yù)算和使用周期不同,一些較大規(guī)模的院系基本每年均有購(gòu)置。計(jì)算機(jī)設(shè)備各品牌競(jìng)爭(zhēng)極其激烈,每次招標(biāo)各有勝負(fù),這也就造成了院系級(jí)或課題組的計(jì)算平臺(tái)設(shè)備品牌眾多架構(gòu)復(fù)雜,要實(shí)現(xiàn)這些集群的互聯(lián)互通,需要考慮多方面因素。
為了整合各個(gè)集群,首先需將集群集中托管。高速低延遲網(wǎng)絡(luò)(如InfiniBand、Omni-Path等)對(duì)線纜長(zhǎng)度有嚴(yán)格的要求,在可接受的延遲內(nèi)只能滿足機(jī)房?jī)?nèi)的互聯(lián)。隨著高性能計(jì)算集群密度不斷提升和刀片式服務(wù)器等高密度設(shè)備的廣泛應(yīng)用,應(yīng)建設(shè)統(tǒng)一的高熱密度機(jī)房,實(shí)現(xiàn)集群的集中托管。
與普通機(jī)房不同,高熱密度機(jī)房是專為高密度服務(wù)器設(shè)計(jì)的。2 m高度標(biāo)準(zhǔn)機(jī)柜提供42U空間,主流品牌平均10U高度提供約16臺(tái)雙路CPU計(jì)算節(jié)點(diǎn),規(guī)劃使用30U高度安裝約50臺(tái)雙路服務(wù)器,剩余空間用于安裝存儲(chǔ)、I/O節(jié)點(diǎn)、交換機(jī)、電源分配單元等低熱密度設(shè)備和布線?;谏鲜鲂枨髥螜C(jī)柜設(shè)計(jì)供電散熱能力應(yīng)達(dá)到20 kVA,機(jī)柜一路為UPS供電,另一路為市電直接供電,每回路采用三相五線制,每相電流32 A。
散熱是高熱密度機(jī)房遇到的最大挑戰(zhàn),針對(duì)高熱密度制冷方式主要有冷熱通道分離、密閉制冷機(jī)柜和溫水冷卻。冷熱通道分離將熱空氣區(qū)和冷空氣區(qū)分隔,防止冷熱空氣混合,迫使所有冷空氣經(jīng)過服務(wù)器等設(shè)備后進(jìn)入熱區(qū)再回到空調(diào)進(jìn)行冷卻,提高了冷卻效率,常用行間制冷空調(diào)冷卻熱空氣。密閉制冷機(jī)柜前后柜門密閉,空調(diào)和機(jī)柜一體化,冷熱空氣完全在機(jī)柜內(nèi)部循環(huán),進(jìn)一步提高了制冷效率[14]。溫水冷卻使用溫水直接冷卻CPU等主要熱源,具有極佳的能效比[15],電源使用效率(Power Usage Effective,PUE)值約1.1。但溫水冷卻尚無統(tǒng)一的標(biāo)準(zhǔn),先建設(shè)機(jī)房后分批采購(gòu)設(shè)備無法采用此種冷卻方式,只能使用冷熱通道分離或密閉制冷機(jī)柜。采用傳統(tǒng)房間級(jí)空調(diào)冷熱通道分割如圖1所示。
圖1 高熱密度機(jī)房剖面圖
雖然不同批次采購(gòu)的設(shè)備品牌架構(gòu)不同,但是為了統(tǒng)一管理應(yīng)制定一套基本要求。根據(jù)采購(gòu)相關(guān)管理規(guī)定,此套基本要求應(yīng)是大多數(shù)產(chǎn)品均能滿足的,不應(yīng)成為采購(gòu)過程中的限制條件。
服務(wù)器應(yīng)支持完善的遠(yuǎn)程管理功能,這也是服務(wù)器與工作站或臺(tái)式機(jī)的重要區(qū)別。X86服務(wù)器普遍支持的智能平臺(tái)管理接口(Intelligent Platform Management Interface,IPMI)是由Intel發(fā)起的遠(yuǎn)程控制服務(wù)器接口,提供了統(tǒng)一的服務(wù)器硬件遠(yuǎn)程操控和監(jiān)控方案。IPMI的核心是提供IPMI功能的基本管理控制器(Baseboard Management Controller,BMC),BMC獨(dú)立于操作系統(tǒng)直接對(duì)服務(wù)器硬件進(jìn)行操控[16]。通過IPMI遠(yuǎn)程控制服務(wù)器,實(shí)現(xiàn)開關(guān)機(jī)和設(shè)置下一次啟動(dòng)設(shè)備,服務(wù)器安裝操作系統(tǒng)和開關(guān)機(jī)日常維護(hù)均可遠(yuǎn)程進(jìn)行,IPMI還提供了豐富的監(jiān)控功能,在線對(duì)故障進(jìn)行報(bào)警和診斷,實(shí)現(xiàn)遠(yuǎn)程報(bào)修。需要注意的是Lenovo System X、HPE、Dell的部分服務(wù)器需購(gòu)買許可升級(jí)才可遠(yuǎn)程查看控制臺(tái)界面,這對(duì)查看安裝操作系統(tǒng)中的錯(cuò)誤或宕機(jī)狀態(tài)極其重要。
所有硬件設(shè)備均應(yīng)支持遠(yuǎn)程操作和監(jiān)控,做到日常運(yùn)維不進(jìn)機(jī)房;應(yīng)支持遠(yuǎn)程日志發(fā)送和電子郵件報(bào)警,通過遠(yuǎn)程日志發(fā)送集中歸檔,關(guān)鍵故障通過電子郵件報(bào)警通知管理員及時(shí)處理。
通過統(tǒng)一的網(wǎng)絡(luò)將各個(gè)品牌和架構(gòu)設(shè)備互聯(lián)才能構(gòu)建單一的系統(tǒng)。網(wǎng)絡(luò)分為3種:硬件管理網(wǎng)、集群管理網(wǎng)和高速低延遲通信網(wǎng)。
硬件管理網(wǎng)連接所有硬件設(shè)備管理網(wǎng)絡(luò),如服務(wù)器的IPMI端口、存儲(chǔ)管理端口,實(shí)現(xiàn)硬件設(shè)備遠(yuǎn)程操控和監(jiān)控。網(wǎng)絡(luò)帶寬需求低,無高可用要求,采用100 MB接入1 GB級(jí)聯(lián)即可滿足需求。集群管理網(wǎng)連接所有服務(wù)器操作系統(tǒng)的以太網(wǎng),用于節(jié)點(diǎn)互相通訊,對(duì)網(wǎng)絡(luò)帶寬需求較高,有高可用性要求,一旦癱瘓整個(gè)集群都不可用,采用1 GB或10 GB接入40 GB/100 GB級(jí)聯(lián)。考慮到安全因素,上述兩個(gè)網(wǎng)絡(luò)應(yīng)實(shí)現(xiàn)隔離,既可通過硬件隔離也可通過VLAN邏輯隔離。
高速低延遲通信網(wǎng)是采用InfiniBand、Omni-Path等專用網(wǎng)絡(luò),與普通以太網(wǎng)相比延遲和帶寬均有數(shù)量級(jí)的提升,能夠?yàn)橄鬟f接口(Massage Passing Inteface,MPI)和文件系統(tǒng)提供高帶寬低延遲的通訊,是實(shí)現(xiàn)大規(guī)模并行計(jì)算的關(guān)鍵。對(duì)于部分要求不高的集群,可以采用集群管理網(wǎng)兼顧該項(xiàng)功能,那么集群管理網(wǎng)應(yīng)采用10 GB甚至25 GB接入。
上述3套網(wǎng)絡(luò)將不同品牌和架構(gòu)的設(shè)備互相連接,規(guī)劃IP地址時(shí)應(yīng)使用3個(gè)容量相同的獨(dú)立子網(wǎng),預(yù)留在可預(yù)見的將來足夠使用的地址資源,如3個(gè)B類網(wǎng)絡(luò)可以滿足絕大多數(shù)需求。集群一旦建立正常運(yùn)行以后,修改網(wǎng)絡(luò)架構(gòu)和地址可能需要長(zhǎng)時(shí)間停機(jī)以調(diào)整各個(gè)設(shè)備配置,這基本是不可接受的,因此需要前期預(yù)留足夠的冗余。
高性能計(jì)算集群中非計(jì)算和I/O的節(jié)點(diǎn),可利用虛擬化技術(shù)減少硬件投入,共享高性能計(jì)算系統(tǒng)架構(gòu)見圖2。
圖2 高性能計(jì)算集群架構(gòu)
xCAT(Extreme Cluster/Cloud Administration Toolkit)作為集群系統(tǒng)管理工具是一套開源的集群管理和配置工具,它允許使用者通過單點(diǎn)控制和管理一套集群系統(tǒng),不僅簡(jiǎn)化集群管理,還提供批量部署功能,從而提高了管理員的工作效率[17]。
xCAT使用數(shù)據(jù)庫存儲(chǔ)集群信息,如每個(gè)節(jié)點(diǎn)的BMC地址、操作系統(tǒng)版本、主機(jī)名、MAC地址、IP地址等,并生成相應(yīng)的配置文件。集群部署時(shí)xCAT通過BMC設(shè)置節(jié)點(diǎn)下一次通過網(wǎng)絡(luò)啟動(dòng),再遠(yuǎn)程開啟節(jié)點(diǎn)電源。節(jié)點(diǎn)開機(jī)從網(wǎng)卡啟動(dòng),向本地廣播地址發(fā)送含有PXE option的DHCP Discover包,xCAT服務(wù)器根據(jù)請(qǐng)求的MAC地址提供對(duì)應(yīng)的網(wǎng)絡(luò)配置和PXE啟動(dòng)文件。節(jié)點(diǎn)獲取相應(yīng)配置后,從xCAT服務(wù)器下載文件,在本地部署操作系統(tǒng),并執(zhí)行后處理腳本,如建立SSH互信等。
管理員使用xCAT的批量文件分發(fā)和執(zhí)行命令的功能,在所有節(jié)點(diǎn)并發(fā)安裝驅(qū)動(dòng)程序、文件系統(tǒng)等工作,工作強(qiáng)度和執(zhí)行時(shí)間與節(jié)點(diǎn)數(shù)量無顯著關(guān)系。xCAT提供的批量功能操作,不僅將管理員從繁瑣重復(fù)的勞動(dòng)中解脫,而且各個(gè)節(jié)點(diǎn)執(zhí)行命令統(tǒng)一,盡量消除節(jié)點(diǎn)間差異。編排一套系統(tǒng)部署流程,將其標(biāo)準(zhǔn)化腳本化,實(shí)現(xiàn)了節(jié)點(diǎn)從部署操作系統(tǒng)到最終上線正常運(yùn)行的全自動(dòng)操作。節(jié)點(diǎn)出現(xiàn)無法通過重啟解決的故障時(shí),使用一條命令即可在10 min以內(nèi),無人工干預(yù)完成節(jié)點(diǎn)操作系統(tǒng)重新安裝,將重裝的時(shí)間從h級(jí)縮短到min級(jí),提高了整個(gè)集群的利用效率也降低了管理員的工作量。
并行文件系統(tǒng)為高性能計(jì)算集群提供了共享、統(tǒng)一命名空間的共享存儲(chǔ)空間,與傳統(tǒng)的NFS文件系統(tǒng)相比,并行文件系統(tǒng)支持MPI-I/O多進(jìn)程可對(duì)單一文件并發(fā)讀寫,有更高的性能和更好的橫向擴(kuò)展性[18]。對(duì)于各課題組原有存儲(chǔ),將性能相近的存儲(chǔ)合并為一個(gè)文件系統(tǒng),性能差異明顯的作為不同的文件系統(tǒng)使用。每個(gè)課題組仍使用原有存儲(chǔ),但文件系統(tǒng)掛載到整個(gè)共享平臺(tái)中,打破數(shù)據(jù)壁壘。院系還應(yīng)購(gòu)置公共的存儲(chǔ)供所有用戶使用,其中元數(shù)據(jù)宜采用獨(dú)立的固態(tài)硬盤,大幅提高元數(shù)據(jù)操作性能,這樣當(dāng)存儲(chǔ)負(fù)載較高時(shí),用戶前臺(tái)操作不會(huì)有明顯的延遲。
集群中有部分文件是所有用戶均需使用的,如作業(yè)調(diào)度系統(tǒng)、編譯器數(shù)學(xué)庫等,有條件時(shí)可將公共軟件使用獨(dú)立的硬盤陣列提供,防止由于用戶作業(yè)大、I/O阻塞,導(dǎo)致所有用戶訪問公共目錄緩慢,甚至作業(yè)調(diào)度系統(tǒng)崩潰。
不同時(shí)期購(gòu)置的服務(wù)器,CPU網(wǎng)絡(luò)等配置均不盡相同,不同配置的服務(wù)器如果運(yùn)行同一個(gè)并行計(jì)算,慢的節(jié)點(diǎn)會(huì)顯著拖慢整體計(jì)算,需要通過不同的隊(duì)列區(qū)分,相同CPU和網(wǎng)絡(luò)的節(jié)點(diǎn)才能組成一個(gè)計(jì)算隊(duì)列。
與校級(jí)或院系級(jí)平臺(tái)不同,整合的平臺(tái)中各個(gè)隊(duì)列的節(jié)點(diǎn)由不同的課題組購(gòu)買,課題組自建集群的重要因素是可以獨(dú)享使用而無需排隊(duì),故作為整合平臺(tái)應(yīng)首先滿足課題組自己的計(jì)算需求,空閑節(jié)點(diǎn)再開放共享。因此在作業(yè)調(diào)度策略上,應(yīng)該配置兩個(gè)優(yōu)先級(jí)不同的隊(duì)列,低優(yōu)先級(jí)的隊(duì)列對(duì)所有用戶開放,高優(yōu)先級(jí)隊(duì)列只對(duì)隊(duì)列節(jié)點(diǎn)購(gòu)置的課題組成員開放。作業(yè)派發(fā)時(shí),首先派發(fā)高優(yōu)先級(jí)的隊(duì)列,當(dāng)高優(yōu)先級(jí)隊(duì)列為空時(shí)派發(fā)低優(yōu)先級(jí)隊(duì)列作業(yè),這樣就在作業(yè)派發(fā)環(huán)節(jié)上保證了隊(duì)列節(jié)點(diǎn)所有者的優(yōu)先權(quán)。在實(shí)際使用中發(fā)現(xiàn),有時(shí)由于隊(duì)列節(jié)點(diǎn)所有者課題組作業(yè)很少,此隊(duì)列大多數(shù)節(jié)點(diǎn)被低優(yōu)先級(jí)隊(duì)列的作業(yè)運(yùn)行占用,當(dāng)隊(duì)列節(jié)點(diǎn)所有者提交作業(yè)到高優(yōu)先級(jí)隊(duì)列時(shí)因無空閑節(jié)點(diǎn)而無法派發(fā)作業(yè)。出現(xiàn)此種情況可以配置搶占策略,當(dāng)高優(yōu)先級(jí)隊(duì)列作業(yè)無足夠資源派發(fā)時(shí),可以掛起低優(yōu)先級(jí)作業(yè)空出足夠的資源讓高優(yōu)先級(jí)隊(duì)列作業(yè)運(yùn)行。
一個(gè)隊(duì)列的節(jié)點(diǎn)可能由不止一個(gè)課題組購(gòu)置,當(dāng)有兩個(gè)或兩個(gè)以上課題組購(gòu)置的節(jié)點(diǎn)組成同一個(gè)隊(duì)列時(shí),在高優(yōu)先級(jí)隊(duì)列上限制正在運(yùn)行作業(yè)所使用的CPU核數(shù)為本課題購(gòu)置節(jié)點(diǎn)的CPU核數(shù)總和,這可保證在高優(yōu)先級(jí)隊(duì)列上多個(gè)課題組最多只能使用自己購(gòu)置的那部分節(jié)點(diǎn)。
高校的學(xué)生,特別是研究生是高性能計(jì)算集群的主要使用者,從精細(xì)化管理和數(shù)據(jù)安全的角度出發(fā),應(yīng)該為每個(gè)人開設(shè)獨(dú)立的賬號(hào)。但是每年都有約1/5的學(xué)生更替,即老學(xué)生畢業(yè)離校和新學(xué)生入校,大量的賬號(hào)刪除和新建操作增加了管理員的工作量,故很多集群只給導(dǎo)師開設(shè)賬號(hào),并由導(dǎo)師負(fù)責(zé)管理這些賬號(hào)。這就不可避免的導(dǎo)致賬號(hào)多人共享,使用情況混亂,學(xué)生畢業(yè)后無法及時(shí)回收賬號(hào),給集群帶來違規(guī)使用和安全風(fēng)險(xiǎn)。鑒于面對(duì)的風(fēng)險(xiǎn),開發(fā)了用戶管理平臺(tái),系統(tǒng)管理員只管理導(dǎo)師賬號(hào),學(xué)生賬號(hào)由導(dǎo)師自主管理,每個(gè)學(xué)生均有獨(dú)立的賬號(hào),學(xué)生畢業(yè)時(shí)系統(tǒng)自動(dòng)收回賬號(hào)。
將各課題組高性能計(jì)算集群統(tǒng)一管理并融合為一套混合品牌和架構(gòu)的高性能計(jì)算系統(tǒng)后,通過對(duì)2015-01-01~2017-12-31日作業(yè)信息進(jìn)行統(tǒng)計(jì),結(jié)果顯示共累計(jì)完成作業(yè)1.257×107個(gè),達(dá)9.801×107CPU h。集群運(yùn)行近3年,根據(jù)機(jī)房基礎(chǔ)設(shè)施情況和收費(fèi)政策,可分為以下3個(gè)階段:
2015-01-01~2016-03-11為第1階段。因機(jī)房空調(diào)系統(tǒng)長(zhǎng)時(shí)間高負(fù)荷使用,加之室外機(jī)散熱不良,空調(diào)故障頻發(fā),集群無法全部開放使用,故于2016年3月12至18日更換了機(jī)房空調(diào)。此階段集群不收費(fèi)。
2016-03-19~07-14為第2階段。新空調(diào)提供穩(wěn)定而高效的制冷效果,集群滿負(fù)荷運(yùn)行,此階段集群不收費(fèi)。
2017-7-17~2017-12-31為第3階段。2017-07-15~16機(jī)房停電,17日恢復(fù)運(yùn)行后集群開始執(zhí)行收費(fèi)政策。用戶在使用非本組購(gòu)置的節(jié)點(diǎn)時(shí),按照CPU核時(shí)收取計(jì)算費(fèi),并將收取的計(jì)算費(fèi)返回給被使用節(jié)點(diǎn)的購(gòu)置課題組。
對(duì)每個(gè)階段總的和共享的CPU核時(shí)進(jìn)行統(tǒng)計(jì),其中共享的CPU核時(shí)指用戶使用非本組購(gòu)置的節(jié)點(diǎn),在第3階段共享CPU核時(shí)需要繳納計(jì)算費(fèi),見表2。
表2 高性能計(jì)算集群使用統(tǒng)計(jì) CPU核×104h
2011年Intel推出Sandy Bridge微架構(gòu),開始支持高級(jí)矢量擴(kuò)展(Advanced Vector Extensions,AVX)指令集,AVX將向量化寬度擴(kuò)展到256位,理想狀態(tài)下每時(shí)鐘周期浮點(diǎn)運(yùn)算能力是前一代的2倍[19-20]。集群中部分節(jié)點(diǎn)CPU較老,不支持AVX指令集,實(shí)際使用中發(fā)現(xiàn)這些節(jié)點(diǎn)使用率低,故排除這些節(jié)點(diǎn)后再做一次總的和共享的CPU核時(shí)統(tǒng)計(jì),見表3。
表3 高性能計(jì)算集群使用統(tǒng)計(jì)(CPU支持AVX) CPU核×104h
*支持AVX的CPU核時(shí)占所有CPU核時(shí)的比例。
從表2可見,3年間總計(jì)2 232萬CPU核時(shí)的計(jì)算時(shí)間均為多集群融合后,課題組間可方便共享計(jì)算資源多出的計(jì)算時(shí)間。其中第2階段機(jī)房制冷條件好,且不收取任何費(fèi)用,共享達(dá)到頂峰,整個(gè)集群基本滿負(fù)荷運(yùn)行。在第3階段,增加對(duì)共享CPU使用的收費(fèi),用戶傾向于使用本組購(gòu)置的節(jié)點(diǎn),共享CPU使用比有所下降。表3展現(xiàn)出在經(jīng)濟(jì)杠桿的調(diào)節(jié)下,一旦開始收費(fèi),用戶會(huì)盡可能使用新的節(jié)點(diǎn),追求更高的性價(jià)比。
集群融合統(tǒng)一,3年間不僅增加了2.232×107CPU核時(shí)的計(jì)算,且在整個(gè)第3階段集群一直穩(wěn)定運(yùn)行,無超過24 h的停機(jī),這在以前各個(gè)課題組獨(dú)立管理無專人負(fù)責(zé)的情況下基本不可能。這足以說明打破課題組壁壘,構(gòu)建一個(gè)統(tǒng)一的集群可極大的提高集群使用效率,挖掘潛能,節(jié)約經(jīng)費(fèi)開支。
通過整合各個(gè)高性能計(jì)算資源,構(gòu)建混合品牌和架構(gòu)的共享高性能計(jì)算系統(tǒng)方案。對(duì)于每年分批次采購(gòu)的校級(jí)高性能計(jì)算中心,將各個(gè)批次集群統(tǒng)一融合,打破了賬號(hào)和數(shù)據(jù)的壁壘,提高整體使用效率。對(duì)于院系內(nèi)各個(gè)課題組高性能計(jì)算集群,將其與院系已有公共集群融合,成為新的院系級(jí)高性能計(jì)算平臺(tái),解決了課題組集群分散無專人管理的窘境;在滿足本組優(yōu)先使用的前提下,開放共享,減少資源閑置。該方案有利于科研人員專注于科研工作本身,從集群管理中解脫出來真正成為集群的使用者。截至目前,共享集群規(guī)模近600個(gè)節(jié)點(diǎn),涵蓋IBM/Lenovo、HP/HPE、Dell、Huawei、H3C、浪潮、曙光、DDN、Brocade、BNT等主流品牌,3大高速網(wǎng)絡(luò)InfiniBand、Omni-Path和iWARP,iSCSI、SAS、FC和Infiniband等各類存儲(chǔ),期間經(jīng)歷操作系統(tǒng)、并行文件系統(tǒng)和作業(yè)調(diào)度系統(tǒng)的大版本升級(jí),六年多來整個(gè)集群系統(tǒng)一直穩(wěn)定運(yùn)行,很好地支撐了科研工作。