蔡宇昂,張鑫
(1.湖北警官學(xué)院,湖北 武漢 430034;2.華中科技大學(xué),湖北 武漢 430074)
為適應(yīng)大數(shù)據(jù)對(duì)于存儲(chǔ)系統(tǒng)的要求,人們提出了許多分布式文件系統(tǒng),分布式文件系統(tǒng)HDFS就是其中之一。在分布式系統(tǒng)Hadoop中,由于SSD(Hard Disk Driver,HDD)的不對(duì)稱I/O特性和價(jià)格因素,使得由SSD和HDD組成混合存儲(chǔ)系統(tǒng)是一種有效的解決方案。HDFS是針對(duì)同構(gòu)集群設(shè)計(jì)的,對(duì)存儲(chǔ)介質(zhì)的類型未加以區(qū)分,在為數(shù)據(jù)塊分配存儲(chǔ)空間和保存數(shù)據(jù)塊的過程中,不考慮存儲(chǔ)介質(zhì)之間的性能差異,導(dǎo)致新型存儲(chǔ)介質(zhì)的優(yōu)勢(shì)無法完全的發(fā)揮出來。對(duì)HDFS的數(shù)據(jù)分布進(jìn)行優(yōu)化、提高HDFS的數(shù)據(jù)存取速度具有重要意義。
論文根據(jù)數(shù)據(jù)被讀寫的頻率確定數(shù)據(jù)應(yīng)存放的存儲(chǔ)介質(zhì),解決數(shù)據(jù)在不同讀寫性能的存儲(chǔ)介質(zhì)間的分布與其熱度無關(guān)的問題,期望能為大數(shù)據(jù)在高效存取與處理、多種數(shù)據(jù)及多種應(yīng)用并存且并發(fā)服務(wù)等方面提供一些解決方案。在對(duì)數(shù)據(jù)分布策略進(jìn)行優(yōu)化之前將分析各類數(shù)據(jù)的時(shí)間和空間訪問特征,將其與多種特性的存儲(chǔ)設(shè)備關(guān)聯(lián),達(dá)到將數(shù)據(jù)存儲(chǔ)在最合適的位置的目的,使之能夠被快速地獲取和存儲(chǔ)。
基于負(fù)載訪問的數(shù)據(jù)管理策略在發(fā)揮SSD優(yōu)良讀性能的同時(shí)借助磁盤來減少對(duì)SSD的寫和擦除操作[1,2],系統(tǒng)通常采用靜態(tài)或動(dòng)態(tài)監(jiān)測(cè)的方法對(duì)頁面訪問情況進(jìn)行統(tǒng)計(jì),當(dāng)訪問負(fù)載變化較為頻繁時(shí),I/O 統(tǒng)計(jì)帶來的累積效應(yīng)將會(huì)使該模型在訪問負(fù)載變化時(shí)不能快速反應(yīng),文獻(xiàn)[3]對(duì)此進(jìn)行了改進(jìn),提出了一種時(shí)間敏感的SSD和HDD高效混合存儲(chǔ)模型。但是這兩種方法都是基于內(nèi)存頁的I/O統(tǒng)計(jì)信息來決定數(shù)據(jù)分布,一方面當(dāng)數(shù)據(jù)量和內(nèi)存增大時(shí)所需的元數(shù)據(jù)迅速增加,不能滿足大數(shù)據(jù)數(shù)據(jù)量大的需求;另一方面在頁級(jí)別難以利用各請(qǐng)求之間的相關(guān)性來加速存儲(chǔ)性能,難以很好地支持大數(shù)據(jù)高效處理。MapReduce框架還為另一種異構(gòu)計(jì)算平臺(tái)做了改進(jìn),比如多核處理器和核加速器,很多文章優(yōu)化了同構(gòu)集群下多租戶MapReduce工作,這些文章無論用哪種方式都是提出調(diào)度程序在面臨多重工作時(shí)讓本地任務(wù)的優(yōu)先級(jí)高于遠(yuǎn)程任務(wù),但是在異構(gòu)集群中,這些方法都不太適用。有論文提出一種稱為Tarazu的解決方案[4],對(duì)異構(gòu)集群下的MapReduce系統(tǒng)進(jìn)行了優(yōu)化,但其所做的優(yōu)化主要是針對(duì)任務(wù)調(diào)度方面,并未對(duì)異構(gòu)集群下數(shù)據(jù)的存取方式進(jìn)行改進(jìn)。現(xiàn)有國內(nèi)外研究在大規(guī)模分布式存儲(chǔ)、數(shù)據(jù)分布與存儲(chǔ)性能隔離等問題上都提供了充足的解決方案,但是大數(shù)據(jù)環(huán)境下需要合理分布數(shù)據(jù)以獲得更高的訪問效率,數(shù)據(jù)在異構(gòu)的存儲(chǔ)集群上的合理分布問題有待進(jìn)一步研究。
HDFS集群中具體執(zhí)行數(shù)據(jù)存儲(chǔ)邏輯功能的從節(jié)點(diǎn)都會(huì)駐留一個(gè)數(shù)據(jù)節(jié)點(diǎn)(DataNode)的守護(hù)進(jìn)程,來執(zhí)行分布式文件系統(tǒng)中的數(shù)據(jù)塊操作。DataNode會(huì)將HDFS數(shù)據(jù)塊保存在Linux本地文件系統(tǒng)的實(shí)際文件中,并將其視為Linux文件系統(tǒng)上的普通文件進(jìn)行管理。在原HDFS中,DataNode在接收到數(shù)據(jù)塊后,會(huì)在本地文件系統(tǒng)中隨機(jī)選擇存儲(chǔ)介質(zhì)加以存放,且一經(jīng)確定,數(shù)據(jù)塊的位置將不再發(fā)生改變,數(shù)據(jù)塊所處存儲(chǔ)介質(zhì)的性能優(yōu)劣是隨機(jī)的,不會(huì)根據(jù)數(shù)據(jù)的熱度智能的選擇數(shù)據(jù)塊的存放位置。為實(shí)現(xiàn)數(shù)據(jù)的更合理分布,新增一項(xiàng)工作:在DataNode初始化時(shí),統(tǒng)計(jì)處于自身管理下的存儲(chǔ)介質(zhì)的種類,并確定每種存儲(chǔ)介質(zhì)的讀寫性能值,在DataNode運(yùn)行的過程中,新增一個(gè)調(diào)度線程BlockScheduler,對(duì)存儲(chǔ)介質(zhì)進(jìn)行分類管理。
當(dāng)DataNode收到客戶端創(chuàng)建新文件的請(qǐng)求時(shí),會(huì)在寫性能較好的存儲(chǔ)介質(zhì)上為客戶端分配對(duì)應(yīng)存儲(chǔ)空間(而不是原來的隨機(jī)分配存儲(chǔ)空間),當(dāng)客戶端頻繁的對(duì)DataNode上的某個(gè)數(shù)據(jù)塊進(jìn)行讀操作時(shí),BlockScheduler會(huì)將該數(shù)據(jù)塊遷移到讀性能更好的存儲(chǔ)介質(zhì)上去,當(dāng)客戶端頻繁的對(duì)DataNode上的某個(gè)數(shù)據(jù)塊進(jìn)行寫操作時(shí),BlockScheduler會(huì)將該數(shù)據(jù)塊遷移到寫性能更好的存儲(chǔ)介質(zhì)上去。當(dāng)某種存儲(chǔ)介質(zhì)的剩余空間不足時(shí),BlockScheduler會(huì)對(duì)其進(jìn)行閾值調(diào)度,根據(jù)存儲(chǔ)在其上的數(shù)據(jù)塊的讀寫頻率將數(shù)據(jù)塊分散到其他存儲(chǔ)介質(zhì)上,以保持各存儲(chǔ)介質(zhì)的良好狀態(tài)。通過以上的數(shù)據(jù)塊遷移工作,就可以使被頻繁訪問的熱數(shù)據(jù)存放在對(duì)應(yīng)性能最好的存儲(chǔ)介質(zhì)上,從而提高DataNode對(duì)外提供服務(wù)的效率,縮短系統(tǒng)響應(yīng)時(shí)間。
調(diào)度線程BlockScheduler以一個(gè)固定時(shí)間為周期(TIME_GAP)對(duì)本DataNode管理下的所有數(shù)據(jù)塊的存儲(chǔ)位置進(jìn)行調(diào)度。每個(gè)周期內(nèi),BlockScheduler線程處于休眠狀態(tài)(最大限度降低調(diào)度線程帶來的系統(tǒng)開銷),DataNode在處理客戶端請(qǐng)求后,會(huì)額外增加一項(xiàng)計(jì)數(shù)工作:客戶端執(zhí)行修改數(shù)據(jù)塊(Append)請(qǐng)求后將涉及到的數(shù)據(jù)塊對(duì)應(yīng)的被寫次數(shù)(writeCount)加1;客戶端執(zhí)行讀數(shù)據(jù)塊(Read)請(qǐng)求后會(huì)將涉及到的數(shù)據(jù)塊對(duì)應(yīng)的被讀次數(shù)(readCount)加1。
每個(gè)周期結(jié)束時(shí),BlockScheduler會(huì)統(tǒng)計(jì)每個(gè)數(shù)據(jù)塊被讀寫的次數(shù),同時(shí)考慮數(shù)據(jù)塊所在存儲(chǔ)介質(zhì)的性能參數(shù),對(duì)針對(duì)每個(gè)數(shù)據(jù)塊進(jìn)行以下計(jì)算:
readCount/READ_PARAMETER + writeCount/WRITE_PARAMETER = needMove
(1)
readCount - writeCount = moveDest
(2)
把它們定義成參數(shù),統(tǒng)計(jì)得到所有數(shù)據(jù)塊的needMove的最大值moveStandard,根據(jù)moveStandard和存儲(chǔ)介質(zhì)種類數(shù)COUNT以及每個(gè)數(shù)據(jù)塊needMove計(jì)算得到每個(gè)數(shù)據(jù)塊應(yīng)提升的性能指數(shù)finalNeedMove:
finalNeedMove = COUNT/2 * needMove/moveStandard
(3)
設(shè)定一個(gè)判定讀寫性能是否平衡的閾值標(biāo)準(zhǔn)RW_Blance_Threshold,根據(jù)moveDest與RW_Blance_Threshold的差值格式化為[-1,1]:
* 如果moveDest < -RW_Blance_Threshold,則置moveDest為-1;
* 如果moveDest > RW_Blance_Threshold,則置moveDest為 1;
* 如果 |moveDest| < RW_Blance_Threshold則置moveDest為 0。
依次對(duì)各數(shù)據(jù)塊進(jìn)行判斷,如果finalNeedMove大于0,則將此數(shù)據(jù)塊根據(jù)moveDest移動(dòng)到其他存儲(chǔ)介質(zhì),移動(dòng)方向?yàn)椋盒阅芷胶庑訹moveDest-1,moveDest+1],綜合性能指數(shù)提高needMove,如果對(duì)應(yīng)存儲(chǔ)器不可用,則將性能指數(shù)再加1,依次類推,最高提高到性能平衡性[moveDest-1,moveDest+1]中綜合性能的最大值。
以上的調(diào)度過程持續(xù)不斷的將數(shù)據(jù)從低性能存儲(chǔ)介質(zhì)上遷移數(shù)據(jù)到高性能存儲(chǔ)介質(zhì)之上,當(dāng)熱數(shù)據(jù)被大量的遷移到性能較好的存儲(chǔ)介質(zhì)上后,相應(yīng)的存儲(chǔ)空間可能會(huì)被用盡,所以需要對(duì)各存儲(chǔ)介質(zhì)設(shè)相應(yīng)的閾值,以保證存儲(chǔ)介質(zhì)剩余空間狀態(tài)良好。當(dāng)存儲(chǔ)器的容量達(dá)到閾值時(shí),依然可以接收數(shù)據(jù)塊。上文提到,每個(gè)周期結(jié)束時(shí),會(huì)對(duì)熱數(shù)據(jù)進(jìn)行調(diào)度,如果調(diào)度的過程中發(fā)現(xiàn)數(shù)據(jù)遷移的目標(biāo)存儲(chǔ)介質(zhì)容量不足,則會(huì)對(duì)此存儲(chǔ)介質(zhì)進(jìn)行閾值調(diào)度。
在對(duì)某存儲(chǔ)介質(zhì)進(jìn)行閾值調(diào)度時(shí),BlockScheduler會(huì)統(tǒng)計(jì)得到系統(tǒng)中所有數(shù)據(jù)塊被讀寫次數(shù)的值(同上文提到的readCount、writeCount),并進(jìn)行以下計(jì)算:
readCount + writeCount = needLie
(4)
計(jì)算出所有數(shù)據(jù)塊的needLie值之后,BlockScheduler會(huì)統(tǒng)計(jì)needLie的最大值lieStandard,并以此為標(biāo)準(zhǔn),結(jié)合系統(tǒng)中存儲(chǔ)器種類數(shù)(COUNT)計(jì)算出此存儲(chǔ)介質(zhì)上的所有數(shù)據(jù)塊應(yīng)處于何種性能參數(shù)的存儲(chǔ)介質(zhì)之上。
finalNeedLie = COUNT* needLie/lieStandard
(5)
最后,BlockScheduler會(huì)根據(jù)每個(gè)數(shù)據(jù)塊的finalNeedLie值和moveDest(上午提到,在進(jìn)行數(shù)據(jù)塊調(diào)度時(shí),已經(jīng)計(jì)算得到了moveDest的值)將其轉(zhuǎn)移到綜合性能為對(duì)應(yīng)值的存儲(chǔ)介質(zhì)上。統(tǒng)計(jì)平衡性[moveDest-1,moveDest+1]內(nèi)可用的存儲(chǔ)器,根據(jù)finalNeedLie的值進(jìn)行轉(zhuǎn)移,如果對(duì)應(yīng)性能的存儲(chǔ)器的容量達(dá)到閾值LOAD_THRESHOLD時(shí),則將性能指數(shù)加1進(jìn)行轉(zhuǎn)移,依次類推,加到最大值還未找到則重新從性能最小值開始循環(huán)。
論文提出的數(shù)據(jù)分布優(yōu)化方案,將數(shù)據(jù)塊在DataNode內(nèi)部各存儲(chǔ)介質(zhì)間進(jìn)行遷移,能否高效的完成并去取得預(yù)期的效果取決于以下幾個(gè)關(guān)鍵因素。
(1)合理確定存儲(chǔ)介質(zhì)的性能參數(shù)。 為了較準(zhǔn)確的確定數(shù)據(jù)塊的合理位置,必須為存儲(chǔ)介質(zhì)的讀寫性能確定一個(gè)合理的參數(shù)。如果這個(gè)參數(shù)不能科學(xué)的確定,調(diào)度工作就沒有科學(xué)的依據(jù),也就變得毫無意義。
(2)合理評(píng)估數(shù)據(jù)被訪問的頻繁程度。 對(duì)數(shù)據(jù)塊進(jìn)行調(diào)度最大的根據(jù)就是數(shù)據(jù)塊被訪問的頻率,在系統(tǒng)實(shí)現(xiàn)中,必須根據(jù)數(shù)據(jù)塊被讀寫的次數(shù)對(duì)數(shù)據(jù)塊的熱度有一個(gè)科學(xué)的評(píng)估,同時(shí)聯(lián)系該數(shù)據(jù)塊所在的存儲(chǔ)介質(zhì)的性能參數(shù),合理的判定該數(shù)據(jù)塊是否需要被遷移。如果無法對(duì)數(shù)據(jù)的熱度進(jìn)行合理的評(píng)估,對(duì)數(shù)據(jù)塊的遷移就沒有了正確的方向,還有可能導(dǎo)致某個(gè)數(shù)據(jù)塊被遷來遷去,造成系統(tǒng)的震蕩,反而降低了原系統(tǒng)的性能。
(3)保證各個(gè)存儲(chǔ)介質(zhì)有足夠的剩余空間。 在對(duì)數(shù)據(jù)進(jìn)行遷移的過程中,必須保證數(shù)據(jù)塊的合理分布,使各類型存儲(chǔ)介質(zhì)都能有足夠的剩余空間,以保證調(diào)度過程能正常的進(jìn)行。如果某種存儲(chǔ)介質(zhì)剩余空間太小,就會(huì)導(dǎo)致無法接收更適合存儲(chǔ)在其上的數(shù)據(jù)塊,導(dǎo)致調(diào)度過程異常。
為使以上關(guān)鍵點(diǎn)得到有效的保證,本方案綜合考慮多種因素,并根據(jù)各要素對(duì)數(shù)據(jù)塊應(yīng)處的位置做出合理的判斷。
(1)合理確定數(shù)據(jù)塊的存儲(chǔ)位置。 對(duì)數(shù)據(jù)塊進(jìn)行調(diào)度的重點(diǎn)就是確定數(shù)據(jù)塊存儲(chǔ)在何種性能的存儲(chǔ)介質(zhì)之上最為合理。本方案在確定這一問題時(shí)依據(jù)了存儲(chǔ)介質(zhì)的性能參數(shù)和數(shù)據(jù)塊被讀寫的次數(shù)這兩個(gè)因素。在熱數(shù)據(jù)調(diào)度和閾值調(diào)度的過程中,確定數(shù)據(jù)塊應(yīng)處位置的參數(shù)都是依據(jù)數(shù)據(jù)塊被讀寫次數(shù)和所在存儲(chǔ)介質(zhì)性能參數(shù)的比例關(guān)系,這樣會(huì)使讀寫次數(shù)較多而存儲(chǔ)介質(zhì)性能很差的數(shù)據(jù)塊得到較快的性能提升,而讀寫次數(shù)與存儲(chǔ)介質(zhì)性能參數(shù)相符的數(shù)據(jù)塊會(huì)由于兩者比值很小而保持在當(dāng)前位置或僅有較小的性能提升,較好的照顧到所處存儲(chǔ)介質(zhì)較差的熱數(shù)據(jù),同時(shí)也使處于合理位置的數(shù)據(jù)塊不會(huì)被頻繁的遷移,從而提高數(shù)據(jù)塊調(diào)度的效率,避免為系統(tǒng)增加過多的額外負(fù)擔(dān)。
(2)保證數(shù)據(jù)在各存儲(chǔ)介質(zhì)間分布的平衡性。 隨著熱數(shù)據(jù)的遷移,性能較好的存儲(chǔ)介質(zhì)上的數(shù)據(jù)量會(huì)越來越大,如果不對(duì)數(shù)據(jù)分布的平衡性進(jìn)行考慮并建立相應(yīng)的機(jī)制加以保證,性能較好的存儲(chǔ)介質(zhì)的存儲(chǔ)空間會(huì)很快被耗盡,使更應(yīng)該被遷移到此種介質(zhì)上的數(shù)據(jù)塊無法完成遷移。本方案中的閾值調(diào)度較好的保證了數(shù)據(jù)在各存儲(chǔ)介質(zhì)間分布的平衡性。當(dāng)某種存儲(chǔ)介質(zhì)剩余存儲(chǔ)空間不足時(shí),會(huì)對(duì)其進(jìn)行閾值調(diào)度,將存儲(chǔ)在其上的數(shù)據(jù)塊遷移到其他存儲(chǔ)介質(zhì)中。在進(jìn)行數(shù)據(jù)塊的遷移時(shí),本方案重點(diǎn)考慮了數(shù)據(jù)塊被讀寫的次數(shù),根據(jù)讀寫次數(shù)將數(shù)據(jù)塊遷移到性能最合適的存儲(chǔ)介質(zhì)上,使得相應(yīng)數(shù)據(jù)塊在之后的調(diào)度過程中再次被遷移的可能性降到最低,從而提高了數(shù)據(jù)調(diào)度的整體性能。
論文所實(shí)現(xiàn)方案測(cè)試環(huán)境配置如表1所示。
表1 測(cè)試環(huán)境配置
3.2.1 讀性能測(cè)試
如圖1、圖2所示,在對(duì)原Hadoop系統(tǒng)進(jìn)行讀性能測(cè)試時(shí),測(cè)試程序先頻繁地隨機(jī)讀取預(yù)存好的測(cè)試文件,持續(xù)一段任意長時(shí)間(測(cè)試時(shí)設(shè)定的時(shí)間為1 min)。然后測(cè)試程序?qū)⑹畟€(gè)測(cè)試文件分別讀入內(nèi)存并統(tǒng)計(jì)完成整個(gè)讀取過程花費(fèi)的時(shí)間。在原Hadoop系統(tǒng)中,測(cè)試文件的位置整個(gè)測(cè)試的過程中保持其原來位置不變,未根據(jù)數(shù)據(jù)的熱度進(jìn)行遷移,客戶端讀取文件的平均速度為94.67 MB/s。在改進(jìn)后的Hadoop系統(tǒng)中,有3個(gè)文件(Text6、Text8、Text9)的讀取速度有顯著提升,這表明這些文件在被讀取的過程中存儲(chǔ)位置發(fā)生了改變,從低性能的存儲(chǔ)介質(zhì)遷移到了高性能的存儲(chǔ)介質(zhì)上,這使得客戶端讀取文件的平均速度提高為139.47 MB/s。改進(jìn)方案使Hadoop系統(tǒng)的數(shù)據(jù)讀取速度提高了47.3%。
圖1 改進(jìn)前后系統(tǒng)數(shù)據(jù)讀速度對(duì)比
圖2 改進(jìn)前后系統(tǒng)數(shù)據(jù)寫速度對(duì)比
3.2.2 寫性能測(cè)試
在對(duì)原Hadoop系統(tǒng)和改進(jìn)的系統(tǒng)進(jìn)行寫性能測(cè)試時(shí),測(cè)試程序從外部存儲(chǔ)介質(zhì)(保證此存儲(chǔ)介質(zhì)未被Hadoop系統(tǒng)使用,測(cè)試中用的是移動(dòng)硬盤)將預(yù)先準(zhǔn)備好的8個(gè)文件依次讀入內(nèi)存,然后寫入到Hadoop系統(tǒng)中,并統(tǒng)計(jì)從內(nèi)存中寫入Hadoop系統(tǒng)花費(fèi)的時(shí)間。在原Hadoop系統(tǒng)中,文件的寫入位置是根據(jù)容量來隨機(jī)分配的,而在方案改進(jìn)后的Hadoop系統(tǒng)中,文件的寫入位置被盡可能的安排在寫性能較好的存儲(chǔ)介質(zhì)上,只有高性能存儲(chǔ)介質(zhì)上容量不足時(shí)文件才會(huì)寫到低性能存儲(chǔ)介質(zhì)上,這使得更多的文件被寫入了寫性能較好的存儲(chǔ)介質(zhì)。如圖2所示,原Hadoop系統(tǒng)的平均寫入速度為71.56 MB/s,改進(jìn)后的Hadoop系統(tǒng)的平均寫入速度為79.56 MB/s,改進(jìn)方案使Hadoop系統(tǒng)的數(shù)據(jù)寫入速度提高了11.2%。
隨著越來越多的內(nèi)存、SSD等新型存儲(chǔ)設(shè)備被廣泛使用,混合存儲(chǔ)系統(tǒng)逐步成為目前研究的重點(diǎn)。當(dāng)前HDFS是針對(duì)同構(gòu)集群設(shè)計(jì)的,無法將混合存儲(chǔ)系統(tǒng)中存儲(chǔ)介質(zhì)的優(yōu)勢(shì)無法完全的發(fā)揮出來?,F(xiàn)有的對(duì)HDFS進(jìn)行改進(jìn)的方案都是針對(duì)任務(wù)調(diào)度、存儲(chǔ)性能隔離等問題而提出的,但是大數(shù)據(jù)環(huán)境下需要合理分布數(shù)據(jù)以獲得更高的訪問效率,論文對(duì)Hadoop數(shù)據(jù)分布方案進(jìn)行了研究,提出一種在原系統(tǒng)處理邏輯基礎(chǔ)上的數(shù)據(jù)動(dòng)態(tài)分布方案,在多種存儲(chǔ)介質(zhì)組成的混合存儲(chǔ)系統(tǒng)中優(yōu)化數(shù)據(jù)的分布,使Hadoop的讀速度提高了47.3%,寫速度提高了11.2%。同時(shí)方案根據(jù)數(shù)據(jù)塊的讀寫頻率,合理的判斷出數(shù)據(jù)塊的熱度并將數(shù)據(jù)塊遷移到最合適的存儲(chǔ)介質(zhì)之上,在數(shù)據(jù)遷移的過程中也為各存儲(chǔ)介質(zhì)的剩余空間的健康提供了保證機(jī)制,避免因數(shù)據(jù)塊的調(diào)度導(dǎo)致高性能存儲(chǔ)介質(zhì)爆滿。