——cStor"/>
南京云創(chuàng)大數(shù)據(jù)科技股份有限公司 袁高峰 吳亞洲
?
超低功耗云存儲(chǔ)系統(tǒng)
——cStor
南京云創(chuàng)大數(shù)據(jù)科技股份有限公司 袁高峰 吳亞洲
【摘要】文章針對(duì)超低功耗云存儲(chǔ)系統(tǒng)cStor的外部架構(gòu)、軟件架構(gòu)進(jìn)行了分析,探析了cStor低功耗儲(chǔ)存節(jié)點(diǎn),并對(duì)cStor云存儲(chǔ)系統(tǒng)性能進(jìn)行了測(cè)試研究,以供參考。
【關(guān)鍵詞】云儲(chǔ)存;超低功耗;PB級(jí)
課題項(xiàng)目:本研究得到了國(guó)家科技支撐計(jì)劃課題任務(wù)“基于云計(jì)算平臺(tái)的OTT智能終端應(yīng)用示范”(項(xiàng)目編號(hào):2012BAH57F00,課題編號(hào):2012BAH57F01)的資助。
1.1 cStor的外部架構(gòu)
超低功耗云儲(chǔ)存系統(tǒng)的組成部分包括:機(jī)架套件、1臺(tái)主交換機(jī)和1臺(tái)備用交換機(jī)、1臺(tái)主元服務(wù)器和1臺(tái)備用元服務(wù)器、18臺(tái)2U尺寸超低功耗儲(chǔ)存服務(wù)器節(jié)點(diǎn)。通常在機(jī)柜的一面可以用來(lái)部署硬盤。cStor采用了低功耗的ARM架構(gòu)設(shè)計(jì),散熱量相對(duì)較小,并且能夠進(jìn)行雙面插盤,并且最大插盤容量多達(dá)384塊。由于cStor通常采用3TB/4TB硬盤,因此其總儲(chǔ)存容量為1.125PB/1.5PB。cStor整個(gè)系統(tǒng)結(jié)構(gòu)主要包括32個(gè)機(jī)箱,每一個(gè)機(jī)箱設(shè)有4個(gè)3W的風(fēng)扇;2個(gè)200W的Master節(jié)點(diǎn);2個(gè)150W的交換機(jī);24個(gè)15W的主板;384塊5W平均功耗的硬盤。cStor超低功耗云儲(chǔ)存系統(tǒng)具有吞吐量高、容量超高、價(jià)格超低以及功耗超低等眾多優(yōu)點(diǎn),同時(shí)還可以利用軟件虛擬化整合ARM超低功耗云儲(chǔ)存服務(wù)器儲(chǔ)存空間中儲(chǔ)存的所有資源,能夠顯著地提高超低功耗云儲(chǔ)存系統(tǒng)的容錯(cuò)率。并且Master服務(wù)器、交換機(jī)、電源、主板以及硬盤等相互之間冗余,當(dāng)單個(gè)節(jié)點(diǎn)出現(xiàn)異?;蛘吖收现?,并不會(huì)對(duì)其他節(jié)點(diǎn)以及整個(gè)系統(tǒng)的運(yùn)行產(chǎn)生影響。
1.2 cStor的軟件架構(gòu)
cStor超低功耗云儲(chǔ)存系統(tǒng)通常采用分布式的儲(chǔ)存機(jī)制,能夠?qū)⑾到y(tǒng)中的數(shù)據(jù)分散在多臺(tái)獨(dú)立的儲(chǔ)存服務(wù)器上,并且采用包括了客戶端節(jié)點(diǎn)、數(shù)據(jù)儲(chǔ)存節(jié)點(diǎn)服務(wù)器以及元數(shù)據(jù)管理服務(wù)器的虛擬海量?jī)?chǔ)存卷,其軟件架構(gòu)圖由元數(shù)據(jù)管理服務(wù)器進(jìn)行所有元數(shù)據(jù)的保存,同時(shí)對(duì)整個(gè)文件系統(tǒng)的數(shù)據(jù)進(jìn)行管理,采用主備雙機(jī)鏡像的元數(shù)據(jù)管理服務(wù)器,這樣當(dāng)主元數(shù)據(jù)管理服務(wù)器出現(xiàn)故障之后,備用元數(shù)據(jù)管理服務(wù)器運(yùn)作,以此保證整個(gè)系統(tǒng)能夠連續(xù)的服務(wù),避免出現(xiàn)元數(shù)據(jù)管理服務(wù)器故障導(dǎo)致服務(wù)中斷的現(xiàn)象??蛻舳耸菍?duì)外提供數(shù)據(jù)訪問(wèn)與儲(chǔ)存的窗口,在數(shù)據(jù)儲(chǔ)存節(jié)點(diǎn)服務(wù)器上安裝客戶端。通過(guò)利用該種軟件架構(gòu)能夠?yàn)閷?shí)現(xiàn)超低功耗云儲(chǔ)存系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)提供便利。數(shù)據(jù)儲(chǔ)存節(jié)點(diǎn)服務(wù)器的主要任務(wù)是采用文件的形式對(duì)cStor系統(tǒng)中的數(shù)據(jù)進(jìn)行儲(chǔ)存,但是由于cStor系統(tǒng)中數(shù)據(jù)儲(chǔ)存節(jié)點(diǎn)服務(wù)器的數(shù)量不固定,其數(shù)量的多少則會(huì)影響cStor系統(tǒng)的規(guī)模。同時(shí),為了實(shí)現(xiàn)cStor軟件架構(gòu)的設(shè)計(jì)還需要利用以下技術(shù):
1.2.1 高可用技術(shù)
因?yàn)槌凸脑苾?chǔ)存系統(tǒng)采用低耦合分布式架構(gòu),通過(guò)網(wǎng)絡(luò)進(jìn)行所有服務(wù)節(jié)點(diǎn)的連接,在不停止服務(wù)的前提下能夠進(jìn)行系統(tǒng)節(jié)點(diǎn)的增加和刪除,通過(guò)注冊(cè)管理機(jī)制對(duì)元數(shù)據(jù)管理服務(wù)節(jié)點(diǎn)與儲(chǔ)存節(jié)點(diǎn)進(jìn)行自適應(yīng)管理。
1.2.2 高可靠保障技術(shù)
元數(shù)據(jù)的容錯(cuò)功能由cStor操作日志實(shí)現(xiàn),采用這種操作方式當(dāng)管理節(jié)點(diǎn)發(fā)生異?;蛘吖收蠒r(shí),只要磁盤數(shù)據(jù)沒(méi)有收到損壞,就能夠快速的恢復(fù)上述已發(fā)生故障的元數(shù)據(jù)。同時(shí),為了避免管理節(jié)點(diǎn)在運(yùn)行的過(guò)程中出現(xiàn)異?;蛘邌?wèn)題導(dǎo)致的死機(jī)故障,cStor還應(yīng)該采用高可靠保證技術(shù)對(duì)管理節(jié)點(diǎn)進(jìn)行遠(yuǎn)程控制和實(shí)時(shí)備份,這樣即使管理節(jié)點(diǎn)在運(yùn)行的過(guò)程中出現(xiàn)故障或者問(wèn)題沒(méi)有辦法工作,備用管理節(jié)點(diǎn)動(dòng)作,以此保證元數(shù)據(jù)處理工作的連續(xù)性。
1.2.3 高速并發(fā)訪問(wèn)技術(shù)
基于客戶端的實(shí)際需求在進(jìn)行cStor的訪問(wèn)時(shí),通常并不是直接訪問(wèn)cStor,而是先進(jìn)行管理節(jié)點(diǎn)的訪問(wèn),這樣能夠獲得和客戶端交互的儲(chǔ)存節(jié)點(diǎn)中儲(chǔ)存的信息,然后客戶端對(duì)這些儲(chǔ)存節(jié)點(diǎn)中存在的信息進(jìn)行直接訪問(wèn)并完成相應(yīng)數(shù)據(jù)信息的的儲(chǔ)存和提取,采用這種設(shè)計(jì)方式能夠?qū)崿F(xiàn)cStor系統(tǒng)對(duì)數(shù)據(jù)流與控制流的分離和控制。為了能夠降低管理節(jié)點(diǎn)的負(fù)載,通常在管理節(jié)點(diǎn)和客戶端之間并不會(huì)通過(guò)數(shù)據(jù)流,而只會(huì)通過(guò)管理流,采用這種方式能夠?qū)崿F(xiàn)存儲(chǔ)節(jié)點(diǎn)和客戶端之間數(shù)據(jù)流的直接傳輸。此外,因?yàn)橄到y(tǒng)中的文件會(huì)被分成不同的數(shù)據(jù)塊,因此通常采用分布式的方式進(jìn)行相應(yīng)數(shù)據(jù)的儲(chǔ)存,因此客戶端能夠同時(shí)進(jìn)行多個(gè)儲(chǔ)存節(jié)點(diǎn)的訪問(wèn),進(jìn)而實(shí)現(xiàn)整個(gè)系統(tǒng)的高度并行。
1.2.4 負(fù)載自動(dòng)均衡技術(shù)
cStor云儲(chǔ)存文件系統(tǒng)的管理由中心服務(wù)器執(zhí)行,管理節(jié)點(diǎn)上保存所有的元數(shù)據(jù),文件則劃分為多個(gè)模塊分別儲(chǔ)存在相應(yīng)的儲(chǔ)存節(jié)點(diǎn)上,管理節(jié)點(diǎn)對(duì)整個(gè)系統(tǒng)內(nèi)存儲(chǔ)節(jié)點(diǎn)的使用狀況進(jìn)行掌控,同時(shí)維護(hù)一個(gè)統(tǒng)一的命名空間,客戶端可以向元數(shù)據(jù)服務(wù)器發(fā)生指令,例如數(shù)據(jù)讀寫(xiě)指令,元數(shù)據(jù)服務(wù)器根據(jù)儲(chǔ)存節(jié)點(diǎn)的網(wǎng)絡(luò)負(fù)擔(dān)狀況和磁盤使用狀況,對(duì)負(fù)載負(fù)擔(dān)進(jìn)行自動(dòng)局呢航,并選擇負(fù)擔(dān)最輕的儲(chǔ)存節(jié)點(diǎn)為客戶端提供相應(yīng)的服務(wù)。同時(shí),一個(gè)儲(chǔ)存節(jié)點(diǎn)發(fā)生故障之后不能正常運(yùn)行,此時(shí)管理節(jié)點(diǎn)會(huì)自動(dòng)將發(fā)生故障的儲(chǔ)存節(jié)點(diǎn)屏蔽掉,同時(shí)該儲(chǔ)存節(jié)點(diǎn)處于離線狀態(tài)不再對(duì)客戶端提供服務(wù),并且該儲(chǔ)存節(jié)點(diǎn)的數(shù)據(jù)也會(huì)自動(dòng)備份至其他儲(chǔ)存節(jié)點(diǎn),并由其他儲(chǔ)存節(jié)點(diǎn)向客戶端提供相應(yīng)的服務(wù),以此保證為客戶端提供不間斷的服務(wù)。
根據(jù)cStor超低功耗云儲(chǔ)存系統(tǒng)的實(shí)際要求應(yīng)該采用低功耗主板,該主板采用《MV78460四核CPU,并且該CPU的主頻為1.6GHz,DDR3內(nèi)存為1GB,組件主要包括:1個(gè)2GBNAND FLASH、4個(gè)miniSAS接口、2個(gè)10M/100M/1000M自適應(yīng)網(wǎng)口。基于Marvell的MV78460研發(fā)了高端和低能耗的嵌入式處理器的CPU的儲(chǔ)存節(jié)點(diǎn)的主板MS316。MV78460屬于工業(yè)級(jí)四核ARM CPU,采用了超低功耗架構(gòu)和1.6GHz主頻的ARM7核CPU,由于應(yīng)用了高級(jí)的制造工藝和實(shí)際技術(shù),能夠?qū)⒏咝阅芫W(wǎng)絡(luò)服務(wù)滲透至高容量服務(wù)中,例如媒體服務(wù)器、網(wǎng)絡(luò)連接式儲(chǔ)存器。
3.1 系統(tǒng)測(cè)試
cStor系統(tǒng)測(cè)試主要針對(duì)MS316性能進(jìn)行測(cè)試,系統(tǒng)測(cè)試結(jié)果表明,當(dāng)客戶端數(shù)據(jù)條件相同時(shí),當(dāng)節(jié)點(diǎn)數(shù)量增加時(shí)系統(tǒng)的讀寫(xiě)性能也隨之在不斷的升高;當(dāng)儲(chǔ)存節(jié)點(diǎn)相同時(shí),當(dāng)客戶端訪問(wèn)數(shù)量在增加時(shí)客戶端的讀寫(xiě)性能也隨之在不斷的升高。當(dāng)儲(chǔ)存節(jié)點(diǎn)數(shù)量為18時(shí),寫(xiě)性能能夠達(dá)到500MB/s,讀性能能夠達(dá)到400MB/s。
3.2 硬件測(cè)試
硬件測(cè)試主要包括兩個(gè)方面:一方面,云儲(chǔ)存節(jié)點(diǎn)規(guī)格配置測(cè)試,測(cè)試采用cServerA2020(根據(jù)云服務(wù)器的應(yīng)用要求而專門開(kāi)發(fā)的一種功耗相對(duì)較低的儲(chǔ)存服務(wù)器),單個(gè)節(jié)點(diǎn)包括12個(gè)3TB的硬盤,因此單個(gè)節(jié)點(diǎn)的儲(chǔ)存容量為36TB;另一方面,節(jié)點(diǎn)性能測(cè)試,測(cè)試采用cServerA2020,測(cè)試結(jié)果表明:1MB、64kB、32kB文件在不同讀寫(xiě)比例的IOPS分別超過(guò)500次/s、2000次/s、2200次/s。
綜上所述,文章所述的PB級(jí)超低功耗云儲(chǔ)存系統(tǒng)是一種結(jié)合了硬件和軟件的綜合系統(tǒng),在cStor系統(tǒng)中存儲(chǔ)節(jié)點(diǎn)設(shè)備主板的功耗小于15W,單節(jié)點(diǎn)可以支持16塊磁盤,單節(jié)點(diǎn)的平均運(yùn)行功率只有不到100W,當(dāng)儲(chǔ)存節(jié)點(diǎn)數(shù)量為18時(shí),寫(xiě)性能能夠達(dá)到500MB/s,讀性能能夠達(dá)到400MB/s,1MB、64kB、32kB文件在不同讀寫(xiě)比例的IOPS分別超過(guò)500次/s、2000次/s、2200次/s。
參考文獻(xiàn)
[1]袁高峰,吳亞洲,薛妍妍.超低功耗云存儲(chǔ)系統(tǒng)——cStor[J].中興通訊技術(shù),2013,19(4)﹕22-23.
[2]丁高,田敬,陳東,等.UpStor﹕一個(gè)開(kāi)放的P2P存儲(chǔ)平臺(tái)[J].計(jì)算機(jī)研究與發(fā)展,2009,46(S)﹕250-257.
[3]SHVACHKO K,,KUANG H,RADIA S.The hadoop distributed file system[C]//Proceedings of the IEEE 26th Symposium on Mass Storage Systems and Technologies(MSST 10),May 3-7,2010,Incline Village,,NV,USA. Piscataway,NJ,USA.IEEE,2010﹕10p.