国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高性能計(jì)算機(jī)在華南氣象行業(yè)的應(yīng)用研究

2020-12-25 06:11:12張恩紅尹海燕
關(guān)鍵詞:計(jì)算資源高性能賬號(hào)

張恩紅,尹海燕

(廣東省氣象探測(cè)數(shù)據(jù)中心,廣東 廣州 510641)

0 引 言

高性能計(jì)算機(jī)自從20世紀(jì)70年代問(wèn)世以來(lái),國(guó)內(nèi)外的氣象行業(yè)都是高性能計(jì)算機(jī)應(yīng)用大戶,氣象業(yè)務(wù)的需求也促進(jìn)了高性能計(jì)算機(jī)的迅速發(fā)展[1-5]。隨著高性能技術(shù)的發(fā)展,氣象行業(yè)建設(shè)的高性能計(jì)算機(jī)系統(tǒng)性能也逐步發(fā)展,從20世紀(jì)90年代的銀河II、神威I到神威4000、IBMP460,再到曙光系列[6-10],計(jì)算能力呈指數(shù)級(jí)增加,為氣象行業(yè)的數(shù)值預(yù)報(bào)發(fā)展提供充分的保障。除此之外,還使用了大量的社會(huì)上高性能計(jì)算資源,如天河I、天河II等。氣象行業(yè)數(shù)值預(yù)報(bào)的發(fā)展離不開(kāi)高性能計(jì)算機(jī),20世紀(jì)初挪威科學(xué)家Bjecknes[1]教授提出數(shù)值天氣預(yù)報(bào)理論思想,直到二次世界大戰(zhàn)出現(xiàn)了大型計(jì)算機(jī)后,才真正成功地制作出了世界第一張成功的數(shù)值天氣預(yù)報(bào)圖,花了幾十年的時(shí)間,最終還是依賴于計(jì)算機(jī)[11]。自此以后,隨著高性能計(jì)算機(jī)的發(fā)展,氣象數(shù)值預(yù)報(bào)也得到飛速的發(fā)展,全世界的氣象行業(yè)都在建設(shè)高性能計(jì)算機(jī)系統(tǒng),NCAR、ECWMF、CMA、MET office等都建設(shè)有超過(guò)5000 TFLOPS的計(jì)算能力的高性能計(jì)算機(jī)系統(tǒng),為各國(guó)數(shù)據(jù)預(yù)報(bào)業(yè)務(wù)的計(jì)算提供了大量的計(jì)算資源。隨著華南地區(qū)社會(huì)經(jīng)濟(jì)的發(fā)展、一帶一路的規(guī)劃以及粵港澳大灣區(qū)的建設(shè),華南區(qū)域氣象中心需要提供大量的數(shù)值預(yù)報(bào)產(chǎn)品,對(duì)高性能計(jì)算機(jī)的需求量是巨大的。如何提供這么大數(shù)量的計(jì)算資源以及相應(yīng)的作業(yè)調(diào)度管理是管理人員和技術(shù)人員面臨的重大挑戰(zhàn)。很多學(xué)者和技術(shù)人員研究了高性能計(jì)算機(jī)與氣象業(yè)務(wù)應(yīng)用的結(jié)合技術(shù),有的學(xué)者研究了高性能計(jì)算系統(tǒng)設(shè)計(jì)的合理性[12-15];有的技術(shù)人員分析了高性能計(jì)算系統(tǒng)配置管理的高效性[16-18]。該文著重研究如何高效和充分使用計(jì)算機(jī)資源,以便發(fā)揮高性能計(jì)算機(jī)的最大效能。

1 對(duì)高性能計(jì)算機(jī)需求背景

華南區(qū)域中心具有完全自主數(shù)值預(yù)報(bào)產(chǎn)品研發(fā)的能力,包括模式的算法設(shè)計(jì)、功能實(shí)現(xiàn)、性能測(cè)試、產(chǎn)品加工等全流程業(yè)務(wù)。隨著社會(huì)的發(fā)展,國(guó)家推出一路一帶政策、粵港澳大灣區(qū)的建設(shè),對(duì)數(shù)值預(yù)報(bào)的需求也成倍增長(zhǎng)。從最初的華南區(qū)域中尺度(18 km)和南海臺(tái)風(fēng)模式發(fā)展到如今二十幾個(gè)數(shù)值模式的計(jì)算,包括華南區(qū)域中尺度3 km、1 km,一帶一路模式、粵港澳模式等。對(duì)高性能計(jì)算能力從幾十個(gè)節(jié)點(diǎn)到幾百個(gè)節(jié)點(diǎn)的發(fā)展。純業(yè)務(wù)的需求(不包括科研的需求,科研的需要一般是業(yè)務(wù)的3倍以上)不同時(shí)段對(duì)計(jì)算資源的需求如表1所示。

表1 業(yè)務(wù)賬號(hào)對(duì)計(jì)算機(jī)節(jié)點(diǎn)和模式運(yùn)行時(shí)次的需求

續(xù)表1

2 系統(tǒng)設(shè)計(jì)

2.1 基礎(chǔ)設(shè)計(jì)

華南氣象區(qū)域中心使用的高性能計(jì)算機(jī)系統(tǒng)是一套IBM Flex P460高性能計(jì)算機(jī)集群子系統(tǒng),該系統(tǒng)主要由P460服務(wù)器(Power7處理器,芯片:8 Cores,3.55 GHz,8 Floating Point/Cycle,227.2GFlops)組成,計(jì)算節(jié)點(diǎn)數(shù)量為427個(gè),總理論峰值達(dá)到391.6 TFlops,物理存儲(chǔ)容量超過(guò)700 TB,全系統(tǒng)共計(jì)有CPU核數(shù)為13 664個(gè),內(nèi)存總量58 TB。采用集群配置的模式來(lái)管理,集群系統(tǒng)采用冗余方式進(jìn)行設(shè)計(jì),充分保證集群的高可用性和可靠性。高性能計(jì)算機(jī)系統(tǒng)包括計(jì)算節(jié)點(diǎn)、存儲(chǔ)、登錄節(jié)點(diǎn)、管理節(jié)點(diǎn)、管理網(wǎng)絡(luò)、Infiniband網(wǎng)絡(luò)。本系統(tǒng)之外的系統(tǒng)通過(guò)萬(wàn)兆光纖提供數(shù)據(jù)的共享服務(wù)。拓?fù)浣Y(jié)構(gòu)如圖1所示。

圖1 高性能計(jì)算機(jī)網(wǎng)絡(luò)與數(shù)據(jù)共享拓?fù)涫疽鈭D

2.2 作業(yè)調(diào)度管理設(shè)計(jì)

為了盡可能滿足業(yè)務(wù)和科研的需求,同時(shí)發(fā)揮計(jì)算資源的最大效能,根據(jù)業(yè)務(wù)的性質(zhì)和對(duì)需求的迫切性,系統(tǒng)將所有用戶分為業(yè)務(wù)賬號(hào)、重點(diǎn)科研賬號(hào)和普通科研賬號(hào),并且從硬件上也劃分出相應(yīng)的區(qū)間,即計(jì)算節(jié)點(diǎn)按需求進(jìn)行相應(yīng)分組,同時(shí),給不同用戶組賦予不同的優(yōu)先級(jí),業(yè)務(wù)賬號(hào)高于重點(diǎn)科研賬號(hào),重點(diǎn)科研賬號(hào)高于普通科研賬號(hào)。業(yè)務(wù)賬號(hào)和普通科研賬號(hào)可以相互共享計(jì)算資源,優(yōu)先使用本區(qū)的資源。業(yè)務(wù)區(qū)資源不夠用允許搶占普通科研區(qū)的資源;業(yè)務(wù)區(qū)的資源閑置,則可以共享給普通科研使用;業(yè)務(wù)賬號(hào)的資源在空閑時(shí)可以共享給重點(diǎn)科研賬號(hào)使用,但是重點(diǎn)科研賬號(hào)的資源不允許其他賬號(hào)搶占,以確保重點(diǎn)科研資源的最低需求。用戶及計(jì)算節(jié)點(diǎn)資源劃分如圖2所示。

圖2 高性能計(jì)算機(jī)賬號(hào)分類及節(jié)點(diǎn)配置

在loadlevel的配置部分代碼如下所示:

# just for special user 195 nodes include 13 largmem nodes

mgroup_1: {

type=machine_group

schedd_runs_here=false

startd_runs_here=true

MAX_STARTERS=32

#2019/04/12: by zhang enhong

# Add island and reallocate machines for the group

machine_list=gza[01-06]n[01-28], gza15n[06-16],gza16n[06-07], gza15n[17-28]

class=special(32) normal_02(32) normal_01(32)

}

#just for normal_01 and special user 112 nodes

mgroup_21: {

type=machine_group

schedd_runs_here=false

startd_runs_here=true

MAX_STARTERS=32

#2019/04/12: by zhang enhong

# Add island and reallocate machines for the group

machine_list=gza[07-10]n[01-28]

class= normal_01(32) special(32)

}

#just for normal_02 user 112 nodes

mgroup_22: {

type=machine_group

schedd_runs_here=false

startd_runs_here=true

MAX_STARTERS=32

#2019/04/12: by zhang enhong

# Add island and reallocate machines for the group

machine_list=gza[11-14]n[01-28]

class= normal_02(32)

}

2.3 存儲(chǔ)資源共享設(shè)計(jì)

高性能計(jì)算機(jī)除了計(jì)算資源需要合理調(diào)配,存儲(chǔ)資源同樣需要合理規(guī)劃和使用。根據(jù)業(yè)務(wù)的特性可知,天氣預(yù)報(bào)中使用的數(shù)值預(yù)報(bào)模式計(jì)算都需要大量初始場(chǎng)的數(shù)據(jù)和觀測(cè)數(shù)據(jù),而且很多模式都需要共同的觀測(cè)數(shù)據(jù)和初始場(chǎng)資料,但是通過(guò)不同的業(yè)務(wù)賬號(hào)運(yùn)行這些模式。通過(guò)需求的調(diào)研和業(yè)務(wù)調(diào)整,采用存儲(chǔ)獨(dú)占與共享的模式,即給每一賬號(hào)分配一個(gè)小的存儲(chǔ)空間,用戶保存私有的數(shù)據(jù)和本地化的程序,再提供大的存儲(chǔ)空間供各個(gè)用戶共享使用,在此空間中可以存放共同需要的數(shù)據(jù),比如:基礎(chǔ)觀測(cè)數(shù)據(jù)和初始場(chǎng)資料。因此,存儲(chǔ)的使用率和數(shù)據(jù)共享速度都大大提高,也大大降低了對(duì)網(wǎng)絡(luò)的帶寬需求。從圖3的左邊模型可以看到每個(gè)用戶的存儲(chǔ)都是獨(dú)立大存儲(chǔ),從圖3右邊模型可以看到每個(gè)用戶除了一個(gè)獨(dú)立的小存儲(chǔ),還有個(gè)共享巨大存儲(chǔ)。

圖3 用戶存儲(chǔ)分配與共享變化對(duì)比

3 業(yè)務(wù)效果

華南區(qū)域中心的高性能計(jì)算機(jī)的用戶主要包括業(yè)務(wù)用戶和科研用戶,業(yè)務(wù)用戶10個(gè),科研用戶70多個(gè),其中40多個(gè)有效用戶。日常在線數(shù)值預(yù)報(bào)產(chǎn)品21個(gè),日輸出數(shù)值預(yù)報(bào)產(chǎn)品300多G,生成十幾萬(wàn)個(gè)時(shí)次的產(chǎn)品;日??蒲杏脩粼诰€作業(yè)20多個(gè),每日科研產(chǎn)品超過(guò)1 000 G(不提供數(shù)據(jù)服務(wù),僅作為科研分析使用)。

從圖4可以看出,業(yè)務(wù)資源的使用是有階段性的。對(duì)節(jié)點(diǎn)的需求量,不同時(shí)段對(duì)節(jié)點(diǎn)需求量是不同的,最少的時(shí)次只需要48個(gè),最多時(shí)次達(dá)到228個(gè)。因此,業(yè)務(wù)區(qū)節(jié)點(diǎn)有時(shí)候是空閑的,可以共享給科研使用,有時(shí)候是不足的,需要從科研區(qū)搶占一部分資源,這樣既能滿足業(yè)務(wù)的需求,同時(shí)也可以給科研用戶提供計(jì)算節(jié)點(diǎn)使用的機(jī)會(huì),即科研用戶可以在業(yè)務(wù)閑時(shí)提交作業(yè),并且共享業(yè)務(wù)區(qū)的計(jì)算節(jié)點(diǎn)資源,如UTC時(shí)間9-12時(shí)。

圖4 業(yè)務(wù)賬號(hào)計(jì)算節(jié)點(diǎn)需求不同時(shí)次的變化曲線

從表2可以看出,存儲(chǔ)的總需求量少了100 T,只需要舊方案的60%,數(shù)據(jù)傳輸總量減少55 T,只占舊方案的45%??梢?jiàn)新方案對(duì)高性能計(jì)算機(jī)系統(tǒng)的性能提升是顯著的,大大提高了存儲(chǔ)的使用率和網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)男剩瑫r(shí)也緩解了網(wǎng)絡(luò)帶寬的壓力。

表2 新舊方案存儲(chǔ)使用對(duì)比

從圖4可以看出,業(yè)務(wù)賬號(hào)在大部分時(shí)次需求的計(jì)算節(jié)點(diǎn)是低于195個(gè),有三個(gè)時(shí)次計(jì)算節(jié)點(diǎn)是不能滿足的。因此,在空閑時(shí)段,可以把部分節(jié)點(diǎn)共享出來(lái)給其他用戶使用,在計(jì)算資源不足時(shí),可以從普通科研區(qū)搶占部分資源以達(dá)到業(yè)務(wù)需求。從表3可以看出,業(yè)務(wù)賬號(hào)可使用節(jié)點(diǎn)達(dá)到307個(gè),可用率提高到157%,顯然是滿足當(dāng)前的業(yè)務(wù)需求的;重點(diǎn)科研和普通科研賬號(hào)業(yè)務(wù)都可以使用上限節(jié)點(diǎn)達(dá)到307個(gè),可用率提高到274%,科研賬號(hào)避開(kāi)業(yè)務(wù)繁忙期,可以使用充分展開(kāi)科研計(jì)算。

表3 新舊方案計(jì)算節(jié)點(diǎn)使用對(duì)比

4 結(jié)束語(yǔ)

華南區(qū)域中心的高性能計(jì)算機(jī)系統(tǒng)給華南區(qū)域氣象中心的數(shù)值預(yù)報(bào)提供充分的計(jì)算資源,為華南區(qū)域天氣預(yù)報(bào)的計(jì)算提供了重要保障。該文簡(jiǎn)單闡述了華南區(qū)域中心的高性能計(jì)算的基本情況,重點(diǎn)分析了如何優(yōu)化高性能計(jì)算節(jié)點(diǎn)的應(yīng)用規(guī)劃和作業(yè)調(diào)度管理,以便提高計(jì)算節(jié)點(diǎn)的使用率,提升用戶的作業(yè)完成的及時(shí)性、有效性;如何優(yōu)化存儲(chǔ)資源的分配方法,以便提高存儲(chǔ)資源的使用率,減少數(shù)據(jù)的無(wú)效傳輸,降低網(wǎng)絡(luò)的負(fù)荷。從使用效率來(lái)看,當(dāng)前的方案成效是顯著的,不同用戶類型的計(jì)算節(jié)點(diǎn)可用率提高157%至274%;節(jié)約了40%的存儲(chǔ)空間,減少了55%的數(shù)據(jù)傳輸。

猜你喜歡
計(jì)算資源高性能賬號(hào)
彤彤的聊天賬號(hào)
基于模糊規(guī)劃理論的云計(jì)算資源調(diào)度研究
施詐計(jì)騙走游戲賬號(hào)
派出所工作(2021年4期)2021-05-17 15:19:10
改進(jìn)快速稀疏算法的云計(jì)算資源負(fù)載均衡
基于Wi-Fi與Web的云計(jì)算資源調(diào)度算法研究
耦合分布式系統(tǒng)多任務(wù)動(dòng)態(tài)調(diào)度算法
一款高性能BGO探測(cè)器的研發(fā)
電子制作(2017年19期)2017-02-02 07:08:49
高性能砼在橋梁中的應(yīng)用
Google Play游戲取消賬號(hào)綁定沒(méi)有Google賬號(hào)也能玩
CHIP新電腦(2016年3期)2016-03-10 14:52:50
SATA推出全新高性能?chē)姌孲ATAjet 5000 B
大渡口区| 化隆| 南江县| 泾源县| 甘孜县| 郁南县| 丰顺县| 德州市| 买车| 威海市| 德江县| 泽州县| 桂平市| 特克斯县| 乐安县| 万安县| 城口县| 成都市| 荥阳市| 饶河县| 北宁市| 庆元县| 梅河口市| 铜梁县| 南京市| 孟连| 中卫市| 保靖县| 朝阳县| 定西市| 济宁市| 辽宁省| 潼关县| 太湖县| 麻江县| 海兴县| 来凤县| 彭水| 依安县| 景宁| 乌鲁木齐市|