国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

MadFS:高性能超算緩存文件系統(tǒng)

2021-03-27 22:33:22陳康,武永衛(wèi),鄭緯民
大數(shù)據(jù) 2021年3期
關(guān)鍵詞:鵬城存儲(chǔ)系統(tǒng)磁盤

對(duì)于存儲(chǔ)系統(tǒng)來說,信息資源的爆炸性增長(zhǎng)在I/O支持應(yīng)用的性能以及數(shù)據(jù)可用性等方面提出了越來越高的要求??梢灶A(yù)見,人工智能、大數(shù)據(jù)和圖計(jì)算等新型計(jì)算模式對(duì)存儲(chǔ)系統(tǒng)的I/O性能更是提出了極致要求。從技術(shù)發(fā)展趨勢(shì)上來看,新型的網(wǎng)絡(luò)傳輸硬件及使用模式、新型存儲(chǔ)硬件都提供了極高的訪問帶寬和極低的訪問時(shí)延,這一發(fā)展趨勢(shì)導(dǎo)致現(xiàn)有的存儲(chǔ)軟件成為性能瓶頸。特別是在提供低時(shí)延訪問上,存儲(chǔ)軟件的結(jié)構(gòu)需要進(jìn)行革新。

傳統(tǒng)的分布式文件系統(tǒng)結(jié)構(gòu)按照擴(kuò)展的方式來看,主要有兩個(gè)發(fā)展思路。一個(gè)是先對(duì)磁盤進(jìn)行擴(kuò)展,之后在擴(kuò)展的磁盤基礎(chǔ)上建立文件系統(tǒng),提供服務(wù)。這個(gè)方面的典型是Petal磁盤擴(kuò)展服務(wù)以及Frangipani文件系統(tǒng)。在高性能文件系統(tǒng)中,這個(gè)方面的典型是IBM公司的通用并行文件系統(tǒng)(general parallel file system,GPFS)。另外一個(gè)發(fā)展思路是直接對(duì)文件系統(tǒng)進(jìn)行擴(kuò)展,由一個(gè)或者少數(shù)幾個(gè)節(jié)點(diǎn)來保存元數(shù)據(jù),記錄文件數(shù)據(jù)的分布情況,其他的節(jié)點(diǎn)用來保存數(shù)據(jù)。這方面的典型是Google文件系統(tǒng)(Google file system)以及衍生的Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)。在高性能文件系統(tǒng)中,采用該思路的是大部分高性能計(jì)算機(jī)標(biāo)配的Lustre文件系統(tǒng)。傳統(tǒng)的高性能文件系統(tǒng)在構(gòu)造時(shí)大部分將磁盤作為數(shù)據(jù)的存儲(chǔ)介質(zhì)。但是,現(xiàn)有的文件系統(tǒng)不能滿足新一代的人工智能、大數(shù)據(jù)、機(jī)器學(xué)習(xí)等的應(yīng)用,對(duì)于新的存儲(chǔ)體系結(jié)構(gòu)、新的網(wǎng)絡(luò)體系結(jié)構(gòu)帶來的高帶寬、低時(shí)延的性能優(yōu)勢(shì)也缺乏考慮。

在當(dāng)前數(shù)據(jù)密集型計(jì)算普及發(fā)展的時(shí)代,存儲(chǔ)軟件的訪問性能直接制約了數(shù)據(jù)密集型計(jì)算的性能。下一代的存儲(chǔ)系統(tǒng)剛剛開始起步,包括Intel分布式異步對(duì)象存儲(chǔ)(distributed asynchronous object storage,DAOS)在內(nèi)的新型存儲(chǔ)結(jié)構(gòu)與系統(tǒng)正在形成。為了適應(yīng)這種趨勢(shì),清華大學(xué)計(jì)算機(jī)系的E級(jí)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)研究團(tuán)隊(duì)構(gòu)建了下一代的分布式存儲(chǔ)系統(tǒng)——MadFS,從分布式文件系統(tǒng)軟件的架構(gòu)上進(jìn)行革新,消除現(xiàn)有存儲(chǔ)架構(gòu)的系統(tǒng)性問題,充分釋放硬件的性能,滿足下一代應(yīng)用對(duì)數(shù)據(jù)快速處理的需求。MadFS的設(shè)計(jì)以性能為第一原則,利用高速遠(yuǎn)程直接內(nèi)存訪問(remote direct memory access,RDMA)網(wǎng)絡(luò)和NVMe SSD存儲(chǔ)設(shè)備,將數(shù)據(jù)快速分散到存儲(chǔ)節(jié)點(diǎn)上進(jìn)行持久化,達(dá)到高吞吐、低時(shí)延、高性能的特性。

MadFS的系統(tǒng)架構(gòu)設(shè)計(jì)遵循了以下3個(gè)關(guān)鍵的設(shè)計(jì)原則。

● 數(shù)據(jù)塊和元數(shù)據(jù)的全分散存儲(chǔ):傳統(tǒng)并行或者分布式文件系統(tǒng)一般使用少量節(jié)點(diǎn)管理元數(shù)據(jù),導(dǎo)致元數(shù)據(jù)節(jié)點(diǎn)成為整個(gè)系統(tǒng)的性能瓶頸。下一代分布式存儲(chǔ)系統(tǒng)MadFS將元數(shù)據(jù)分散到全部節(jié)點(diǎn)上,以避免元數(shù)據(jù)的性能瓶頸,同時(shí)數(shù)據(jù)塊也需要分散在全部節(jié)點(diǎn)上。

● 建立內(nèi)核旁路,避免操作系統(tǒng)切換開銷:為了提高系統(tǒng)的性能,MadFS采用避免應(yīng)用程序頻繁進(jìn)入操作系統(tǒng)內(nèi)核的方式來降低上下文切換的開銷。隨著I/O設(shè)備性能的不斷提高,操作系統(tǒng)進(jìn)出內(nèi)核切換的開銷日益突出,MadFS使用用戶態(tài)驅(qū)動(dòng)、協(xié)議棧等方式直接控制設(shè)備。在對(duì)應(yīng)用程序的支持上使用系統(tǒng)調(diào)用截獲技術(shù),直接在用戶態(tài)處理應(yīng)用的I/O請(qǐng)求,避免其進(jìn)入內(nèi)核。

● 語言級(jí)協(xié)程機(jī)制與零拷貝序列化:MadFS利用Rust語言內(nèi)建的異步協(xié)程機(jī)制、零拷貝序列化技術(shù)實(shí)現(xiàn)了極低開銷的任務(wù)切換和遠(yuǎn)程函數(shù)調(diào)用。高性能存儲(chǔ)系統(tǒng)常采用異步的方式處理I/O請(qǐng)求,這會(huì)給編程引入很大的復(fù)雜性。而新型編程語言Rust提供了利用協(xié)程處理異步邏輯的語言機(jī)制,可以極大地降低異步編程的復(fù)雜性,同時(shí)保持極低的任務(wù)切換開銷,保證整體的高性能。

2020年11月19日,由清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系存儲(chǔ)系統(tǒng)研發(fā)團(tuán)隊(duì)研發(fā)的超算緩存文件系統(tǒng)MadFS在鵬城實(shí)驗(yàn)室“鵬城云腦Ⅱ”的IO500測(cè)試中,分別以7 043.99分和1 129.75分同時(shí)獲得全球IO500總榜第一名與10節(jié)點(diǎn)榜單第一名,這是國(guó)內(nèi)科研機(jī)構(gòu)首次奪得該排行榜榜首?!谤i城云腦Ⅱ”是一臺(tái)基于華為鯤鵬920架構(gòu)的高性能計(jì)算系統(tǒng),于2020年10月開始試運(yùn)行。本次“鵬城云腦Ⅱ”的存儲(chǔ)系統(tǒng)基于MadFS,針對(duì)“鵬城云腦Ⅱ”的硬件特征,采用了基于Rust的高可擴(kuò)展并發(fā)訪問、大粒度數(shù)據(jù)緩存/旁路訪問、數(shù)據(jù)訪問/落盤流水化、零拷貝極速遠(yuǎn)程過程調(diào)用(remote procedure call,RPC)處理技術(shù)等創(chuàng)新優(yōu)化方法。

IO500是高性能計(jì)算領(lǐng)域針對(duì)存儲(chǔ)性能評(píng)測(cè)的全球排行榜,是高性能計(jì)算領(lǐng)域權(quán)威的榜單之一。IO500測(cè)試包括數(shù)據(jù)帶寬BW(GiB/s)和元數(shù)據(jù)性能MD(kIOPS)兩大部分,各項(xiàng)分?jǐn)?shù)取幾何平均后得到總分。在高性能計(jì)算領(lǐng)域,不僅CPU算力非常重要,I/O系統(tǒng)的數(shù)據(jù)傳輸更是瓶頸。自2017年11月開始,每年IO500榜單會(huì)在高性能計(jì)算領(lǐng)域的會(huì)議——全球超級(jí)計(jì)算大會(huì)(SC)和國(guó)際超級(jí)計(jì)算大會(huì)(International Supercomputing Conference)上發(fā)布。 □

猜你喜歡
鵬城存儲(chǔ)系統(tǒng)磁盤
《花飛鵬城》
個(gè)人創(chuàng)作感想:《改革創(chuàng)新之城·鵬城深圳》
個(gè)人創(chuàng)作感想:《改革創(chuàng)新之城·鵬城深圳》
分布式存儲(chǔ)系統(tǒng)在企業(yè)檔案管理中的應(yīng)用
哈爾濱軸承(2020年2期)2020-11-06 09:22:36
解決Windows磁盤簽名沖突
電腦愛好者(2019年2期)2019-10-30 03:45:31
天河超算存儲(chǔ)系統(tǒng)在美創(chuàng)佳績(jī)
修改磁盤屬性
磁盤組群組及iSCSI Target設(shè)置
創(chuàng)建VSAN群集
華為震撼發(fā)布新一代OceanStor 18000 V3系列高端存儲(chǔ)系統(tǒng)
彰化县| 卢龙县| 农安县| 邳州市| 凤城市| 莎车县| 长葛市| 巴林右旗| 永登县| 平潭县| 玉树县| 平阳县| 新竹市| 鸡西市| 龙川县| 棋牌| 宁蒗| 武功县| 泾川县| 西乡县| 禄劝| 西贡区| 宝坻区| 喀喇| 大渡口区| 澄城县| 廉江市| 长宁区| 普兰县| 周口市| 五大连池市| 海盐县| 博湖县| 丰城市| 徐州市| 合山市| 新巴尔虎左旗| 华池县| 贵南县| 习水县| 高台县|