国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于“碳中和”的高性能計(jì)算集群組網(wǎng)建設(shè)方法探析

2022-12-08 17:03:22陳堅(jiān)澤
現(xiàn)代計(jì)算機(jī) 2022年19期
關(guān)鍵詞:液冷碳中和算力

陳 陽, 陳堅(jiān)澤

(廣東液冷時(shí)代科技有限公司,佛山 528000)

0 引言

2021 年3 月13 日,新華社公布了《中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十四個(gè)五年規(guī)劃和2035 年遠(yuǎn)景目標(biāo)綱要》(以下簡稱《綱要》),《綱要》指出以人工智能為代表的新一代信息技術(shù),將成為我國“十四五”期間推動經(jīng)濟(jì)高質(zhì)量發(fā)展、建設(shè)創(chuàng)新型國家,實(shí)現(xiàn)新型工業(yè)化、信息化、城鎮(zhèn)化和農(nóng)業(yè)現(xiàn)代化的重要技術(shù)保障和核心驅(qū)動力之一[1]。圍繞國家人工智能戰(zhàn)略布局和產(chǎn)業(yè)發(fā)展需求,各地政府積極建設(shè)人工智能技術(shù)支撐平臺,如人工智能基礎(chǔ)研究[2]、智慧交通[3]、區(qū)塊鏈金融、物聯(lián)網(wǎng)技術(shù)[4]等,同時(shí)啟動智慧城市大數(shù)據(jù)平臺[5]等建設(shè),為人工智能研究和應(yīng)用提供健全完善的基礎(chǔ)平臺服務(wù)。這些平臺建設(shè)對基礎(chǔ)計(jì)算算力提出了更高的要求,亟需建設(shè)一個(gè)高性能計(jì)算服務(wù)器集群公共服務(wù)平臺,為人工智能技術(shù)支撐平臺以及人工智能科學(xué)研究提供高性能、高通量的算力科研保障。同時(shí),高計(jì)算平臺也意味著需要更高的能耗才能支撐高算力,在國家“碳中和”的政策下,如何利用新型技術(shù),解決高性能數(shù)據(jù)中心所帶來的高能耗問題也是建立高性能數(shù)據(jù)中心的潛在研究問題。

本文以華南某科研機(jī)構(gòu)建立高性能計(jì)算服務(wù)器集群建設(shè)項(xiàng)目為例,重點(diǎn)介紹高性能計(jì)算服務(wù)器集群建設(shè)中的高性能計(jì)算集群、節(jié)能建設(shè)、分布式存儲集群、高性能計(jì)算網(wǎng)絡(luò)等方案建設(shè)內(nèi)容,并討論高性能計(jì)算服務(wù)器集群管理需求以及相應(yīng)管理方法。

1 高性能計(jì)算服務(wù)器集群建設(shè)

華南某科研機(jī)構(gòu)在前期投資建設(shè)項(xiàng)目中已基本完成實(shí)驗(yàn)室數(shù)據(jù)中心基礎(chǔ)條件建設(shè),包括完成基礎(chǔ)機(jī)房環(huán)境、電氣系統(tǒng)、基礎(chǔ)綜合布線鋪設(shè)等方面的建設(shè),現(xiàn)針對人工智能關(guān)鍵技術(shù)攻關(guān)的算力需求,搭建十個(gè)小型計(jì)算集群,每個(gè)計(jì)算小型集群配置算力1PFLOPS 計(jì)算資源,構(gòu)建一個(gè)柔性的高性能計(jì)算集群,同時(shí)采用液冷散熱技術(shù)提升集群服務(wù)器散熱問題,減少空調(diào)機(jī)組裝配,實(shí)現(xiàn)“碳中和”節(jié)能目標(biāo)。

圖1 高性能計(jì)算服務(wù)器集群建設(shè)機(jī)柜置放示意圖

下面從高性能計(jì)算集群、節(jié)能建設(shè)、分布式存儲集群、高性能計(jì)算網(wǎng)絡(luò)等方面闡述高性能計(jì)算服務(wù)器集群建設(shè)內(nèi)容。

1.1 高性能計(jì)算集群方案

高性能計(jì)算集群建設(shè)基于高性能計(jì)算(High Performance Computing, HPC)技術(shù)基礎(chǔ)構(gòu)建計(jì)算集群平臺,其中十臺管理服務(wù)器,分別用于管理十個(gè)集群,同時(shí)配備兩臺管理服務(wù)器,用于做統(tǒng)一集群管理。高性能計(jì)算集群總體業(yè)務(wù)架構(gòu)分為以下四層遞進(jìn)建設(shè)。

(1)基礎(chǔ)設(shè)施層:利用已建成的模塊,方便快速組裝,本項(xiàng)目在現(xiàn)有機(jī)房基礎(chǔ)設(shè)施上部署服務(wù)器集群、搭建高性能存儲集群、搭建內(nèi)部集群網(wǎng)絡(luò)。

(2)平臺核心集群模塊:搭建核心GPU 計(jì)算集群、分布式存儲集群、高性能運(yùn)算網(wǎng)絡(luò)。計(jì)算方面,搭建高性能GPU 計(jì)算服務(wù)器集群,支撐高密度算力運(yùn)算需求;存儲方面,搭建分布式海量存儲集群,支撐海量數(shù)據(jù)高吞吐訪問及高容量存儲;網(wǎng)絡(luò)方面,搭建高速運(yùn)算網(wǎng)絡(luò)、高速存儲網(wǎng)絡(luò)、管理網(wǎng)路。

(3)硬件上構(gòu)建核心軟件中臺:主要實(shí)現(xiàn)集群管理與作業(yè)調(diào)度功能,其中,集群管理通過安裝部署集群管理軟件,構(gòu)建服務(wù)器集群體系,實(shí)現(xiàn)算力資源虛擬化管理;作業(yè)調(diào)度則在集群基礎(chǔ)上部署作業(yè)調(diào)度管理軟件,構(gòu)建算力資源調(diào)度體系,實(shí)現(xiàn)算力資源彈性調(diào)度管理。

(4)算力業(yè)務(wù)應(yīng)用層:通過構(gòu)建高性能計(jì)算開放平臺,對各用戶提供適用于各種運(yùn)算業(yè)務(wù)的運(yùn)算資源和數(shù)據(jù),如大數(shù)據(jù)計(jì)算、基因測序、多模態(tài)數(shù)據(jù)模型、圖像識別等。

1.2 節(jié)能建設(shè)方案

從最新的國家政策導(dǎo)向可知,數(shù)據(jù)中心低碳節(jié)能已經(jīng)是數(shù)據(jù)中心建設(shè)和運(yùn)營很重要的一個(gè)指標(biāo),數(shù)據(jù)中心節(jié)能降耗成為國家“碳中和”“碳達(dá)峰”戰(zhàn)略的重要一環(huán)。因此,基礎(chǔ)計(jì)算平臺建設(shè)應(yīng)該滿足IDC能耗政策要求。

本次高性能計(jì)算服務(wù)器集群節(jié)能方案采用液冷熱管理節(jié)能技術(shù),該技術(shù)利用超高導(dǎo)熱系數(shù)的液冷導(dǎo)熱模組將服務(wù)器高熱流密度的核心芯片熱量通過液冷模塊帶到服務(wù)器外,進(jìn)一步通過水循環(huán)冷卻系統(tǒng)排到室外,液冷循環(huán)采用自然冷卻無需壓縮機(jī),實(shí)現(xiàn)節(jié)能效果。圖2為本次建設(shè)采用的間接液冷系統(tǒng)熱管理架構(gòu)圖,間接液冷系統(tǒng)由導(dǎo)熱液冷模組、快速接頭、液冷分配單元、冷量溫控單元、一次冷卻環(huán)路、二次冷卻環(huán)路、封閉氣冷通道、自然冷卻單元等構(gòu)成,具有低能耗、高功率密度、高可靠性等優(yōu)點(diǎn)。

圖2 間接液冷技術(shù)原理圖

1.3 分布式存儲集群方案

為構(gòu)建分布式高性能存儲集群,集群建設(shè)采用基于BeeGFS 并行文件系統(tǒng)分布式存儲方案, 其主要優(yōu)勢表現(xiàn)在:①分布式文件內(nèi)容和元數(shù)據(jù),有效避免架構(gòu)瓶頸,一方面可跨多個(gè)服務(wù)器的條帶化文件內(nèi)容,另一方面則可使文件系統(tǒng)的元數(shù)據(jù)存放于多個(gè)元數(shù)據(jù)服務(wù)器內(nèi)。②兼容性好,BeeGFS存儲服務(wù)基于橫向擴(kuò)展(Scale-Out)設(shè)計(jì)。每個(gè)BeeGFS文件系統(tǒng)實(shí)例可以具有一個(gè)或多個(gè)存儲服務(wù)組件,方便提高性能與空間。一個(gè)存儲服務(wù)實(shí)例具有一個(gè)或多個(gè)存儲服務(wù)組件。③緩存優(yōu)化能力強(qiáng),由于BeeGFS 自動使用存儲服務(wù)器上的所有可用RAM 自動進(jìn)行緩存,因此它還可以在將數(shù)據(jù)寫入磁盤之前將較小的IO 請求聚合到較大的塊中。④優(yōu)化高并發(fā)訪問,BeeGFS用于在高I/O負(fù)載的情況下提供最佳的穩(wěn)健性和性能,優(yōu)化解決簡單的文件系統(tǒng)(比如NFS)在高并發(fā)訪問的情況下存在嚴(yán)重的性能問題,以及在多個(gè)客戶端寫入同一個(gè)共享文件時(shí)會損壞數(shù)據(jù)等典型問題。

1.4 高性能計(jì)算網(wǎng)絡(luò)方案

在高性能計(jì)算場景下,由于集群之間需要相互通信,所以對網(wǎng)絡(luò)的帶寬和時(shí)延要求比較高(應(yīng)用之間帶寬>40 Gbps,時(shí)延<10 us 微秒),現(xiàn)有的TCP/IP 軟硬件結(jié)構(gòu)無法滿足該需求,因此需要使用RDMA(Remote Direct Memory Access)技術(shù)遠(yuǎn)程直接內(nèi)存訪問,構(gòu)建IB(Infiniband)網(wǎng)絡(luò)實(shí)現(xiàn)高性能場景下高速度、高吞吐網(wǎng)絡(luò)傳輸需求。RDMA 模式對數(shù)據(jù)包的加工都在網(wǎng)卡內(nèi)完成。因此就跳過了操作系統(tǒng),直接把數(shù)據(jù)發(fā)送到網(wǎng)卡內(nèi),少了應(yīng)用內(nèi)存與內(nèi)核數(shù)據(jù)之間的交互,所以速度上更快,時(shí)延更短。IB網(wǎng)絡(luò):基于無限帶寬技術(shù),這種網(wǎng)絡(luò)有很高的帶寬(100 Gb/s 以上)和非常低的時(shí)延(毫秒級)。

2 高性能計(jì)算服務(wù)器集群管理方法

2.1 高性能計(jì)算服務(wù)器集群管理需求分析

本次高性能計(jì)算服務(wù)器集群管理通過集群管理軟件,構(gòu)建服務(wù)器集群體系,實(shí)現(xiàn)算力資源虛擬化管理。其中集群管理需求主要表現(xiàn)在如下方面:

(1)滿足對多種深度學(xué)習(xí)、機(jī)器學(xué)習(xí)及大數(shù)據(jù)任務(wù)的資源調(diào)度和管理需求,要求提供大規(guī)模GPU 集群調(diào)度、集群監(jiān)控、任務(wù)監(jiān)控、分布式存儲等功能。

(2)實(shí)現(xiàn)集群資源調(diào)度與服務(wù)管理統(tǒng)籌,提供針對GPU 優(yōu)化的調(diào)度算法,實(shí)現(xiàn)集群資源調(diào)度高效管理。

(3)提供面向用戶的可視化接口或應(yīng)用接口,網(wǎng)頁端可視化界面、客戶端SDK、集成開發(fā)環(huán)境(IDE)拓展接口等。

(4)提供豐富的用戶管理,集群、任務(wù)監(jiān)控,任務(wù)調(diào)度,任務(wù)錯誤分析,任務(wù)監(jiān)控等服務(wù)功能,提高運(yùn)維人員的工作效率。

(5)實(shí)現(xiàn)容器化和微服務(wù)化,使得運(yùn)行環(huán)境可以在開發(fā)和運(yùn)維達(dá)到統(tǒng)一。軟件需支持任何形式的計(jì)算任務(wù)以及大部分計(jì)算框架,包括各種深度學(xué)習(xí)框架和機(jī)器學(xué)習(xí)框架(如PyTorch、Tensorflow)等。

2.2 高性能計(jì)算服務(wù)器集群管理方法探析

針對以上分析的高性能計(jì)算服務(wù)器集群管理需求,設(shè)計(jì)圖3的高性能計(jì)算服務(wù)器集群管理架構(gòu)圖,共分為用戶管理、集群管理、業(yè)務(wù)管理三大方面。

圖3 高性能計(jì)算服務(wù)器集群管理架構(gòu)圖

2.2.1 用戶管理

及對用戶組群集資源參數(shù)進(jìn)行管理如用戶組的GPU 數(shù)量、存儲配額、組名、最大運(yùn)行作業(yè)數(shù)、等待作業(yè)數(shù)等;支持同時(shí)在多個(gè)已分配資源的租戶空間執(zhí)行任務(wù),各用戶資源互不影響。設(shè)置不同的資源分配和服務(wù)訪問權(quán)限;不同用戶組間實(shí)現(xiàn)數(shù)據(jù)隔離。

2.2.2 集群管理

包括分布式管理、并行訓(xùn)練作業(yè)管理、集群總計(jì)顯示等內(nèi)容。分布式管理是集群管理的重點(diǎn),包括如下方面:

(1)分布式計(jì)算集群監(jiān)控:包括集群資源總體監(jiān)控人GPU資源監(jiān)控。集群資源總體監(jiān)控,監(jiān)控和顯示群集GPU、內(nèi)存和存儲總體使用情況。

(2)分布式計(jì)算集群管理:對用戶組進(jìn)行集群資源配額管理,對組內(nèi)用戶進(jìn)行集群資源配額管理;集群資源管理,動態(tài)添加基礎(chǔ)資源,動態(tài)分配和管理集群資源。

(3)分布式資源調(diào)度管理:執(zhí)行任務(wù)優(yōu)先級管理;實(shí)時(shí)任務(wù)資源分配和調(diào)度管理;以任務(wù)方式根據(jù)優(yōu)先級分配計(jì)算資源,任務(wù)完成進(jìn)行計(jì)算資源回收;計(jì)算作業(yè)資源監(jiān)控和執(zhí)行情況顯示。

(4)分布式訓(xùn)練任務(wù)管理:訓(xùn)練任務(wù)配置管理,基礎(chǔ)任務(wù)參數(shù)管理;訓(xùn)練任務(wù)執(zhí)行管理;訓(xùn)練任務(wù)監(jiān)控,查看模型訓(xùn)練和資源使用情況。

2.2.3 業(yè)務(wù)管理

基于高性能計(jì)算服務(wù)器集群應(yīng)用的一站式業(yè)務(wù)流程管理,包括一站式項(xiàng)目流程管理、一站式AI開發(fā)工程管理、交互式開發(fā)管理等。

(1)一站式項(xiàng)目流程管理:實(shí)現(xiàn)項(xiàng)目流程構(gòu)建、項(xiàng)目流程表單設(shè)計(jì)、任務(wù)分配、團(tuán)隊(duì)管理、項(xiàng)目流程可視化、項(xiàng)目檢索等項(xiàng)目流程管理支持。

(2)一站式AI開發(fā)工程管理:包括數(shù)據(jù)集管理、數(shù)據(jù)集推薦、模型訓(xùn)練、模型部署、API調(diào)用示例、關(guān)聯(lián)用戶訓(xùn)練任務(wù)與部署任務(wù)等內(nèi)容。

(3)交互式開發(fā)管理:支持用戶通過平臺內(nèi)置AI 鏡像進(jìn)行創(chuàng)建交互式開發(fā)環(huán)境,環(huán)境實(shí)例可以使用CPU 資源也可以使用GPU 資源;平臺支持開發(fā)實(shí)例的持久化。

3 結(jié)語

在國家人工智能戰(zhàn)略布局和產(chǎn)業(yè)發(fā)展大背景下,高性能計(jì)算服務(wù)器集群公共服務(wù)平臺建設(shè)需求日漸突出。本文提供一種切實(shí)可行、低碳高能效的高性能計(jì)算服務(wù)器集群建設(shè)方案,并探析高性能計(jì)算服務(wù)器集群管理方法,借助自主研發(fā)集群管理軟件,構(gòu)建服務(wù)器集群體系,實(shí)現(xiàn)算力資源虛擬化管理。相關(guān)管理方法有待在實(shí)踐中進(jìn)一步優(yōu)化和深化。

猜你喜歡
液冷碳中和算力
多方求解智能時(shí)代算力挑戰(zhàn)
這個(gè)第二不一般
都市人(2023年11期)2024-01-12 05:55:06
翅片式液冷板強(qiáng)化換熱研究
衛(wèi)星通信在算力網(wǎng)絡(luò)中的應(yīng)用研究
中國電信董事長柯瑞文:算力成為數(shù)字經(jīng)濟(jì)的主要生產(chǎn)力
制動器液冷控制系統(tǒng)模糊控制策略
航天服的液冷服有什么用?
航天服的液冷服有什么用?
軍事文摘(2021年14期)2021-08-16 08:39:42
美國航空公司的碳中和實(shí)踐及其效果研究
分析低碳經(jīng)濟(jì)時(shí)代轉(zhuǎn)變的農(nóng)業(yè)經(jīng)濟(jì)發(fā)展
兖州市| 锡林浩特市| 江安县| 静海县| 通渭县| 确山县| 甘德县| 仁寿县| 平和县| 石阡县| 南平市| 都江堰市| 临安市| 永寿县| 右玉县| 双鸭山市| 揭阳市| 郁南县| 洪雅县| 商洛市| 呼和浩特市| 抚远县| 太谷县| 武功县| 吉木乃县| 浦东新区| 海城市| 浪卡子县| 象州县| 东阳市| 黄龙县| 庐江县| 罗平县| 图们市| 合川市| 林甸县| 增城市| 施秉县| 开阳县| 兴宁市| 博兴县|