◆田輝 田峻超 穆釗
中小型數(shù)據(jù)中心PUE值與可用性平衡方法的研究
◆田輝 田峻超 穆釗
(中國(guó)石油集團(tuán)東方地球物理勘探有限責(zé)任公司信息技術(shù)中心 北京 100007)
數(shù)據(jù)中心的PUE值與可用性是一對(duì)矛盾體,由于計(jì)算復(fù)雜、難以量化等原因,其平衡方法相關(guān)的研究工作一直未能深入展開(kāi),但該項(xiàng)研究對(duì)數(shù)據(jù)中心運(yùn)行的穩(wěn)定性和節(jié)能方面都具有重要的意義。本文以多個(gè)企業(yè)中小型數(shù)據(jù)中心的測(cè)試數(shù)據(jù)為基礎(chǔ),深入探討了PUE值與可用性之間的關(guān)系,以及維持PUE值與可用性平衡的主要計(jì)算方法,并在中小型數(shù)據(jù)中心進(jìn)行了實(shí)際驗(yàn)證,驗(yàn)證了方法的有效性,為該項(xiàng)研究的繼續(xù)展開(kāi)提供了一定的依據(jù)。
數(shù)據(jù)中心;節(jié)能;PUE;可用性
隨著我國(guó)信息化進(jìn)程的高速推進(jìn),各種不同級(jí)別的數(shù)據(jù)中心被陸續(xù)建立起來(lái)并投入到使用中,特別是一些企事業(yè)單位的中小型數(shù)據(jù)中心,其數(shù)量占據(jù)到數(shù)據(jù)中心總量的70%-80%,能耗體量巨大。而這些中小型數(shù)據(jù)中心往往受到成本或其他條件約束,并非完全按照國(guó)家規(guī)定的標(biāo)準(zhǔn)來(lái)建設(shè),因此中小型數(shù)據(jù)中心在能源效率和可用性維持上并不盡如人意。面對(duì)這樣的問(wèn)題,能否從數(shù)據(jù)中心PUE值與可用性相互關(guān)系上入手來(lái)尋找某種節(jié)能方法,即:保持一定可用性的前提下,盡可能降低數(shù)據(jù)中心PUE值,從而達(dá)到中小型數(shù)據(jù)中心節(jié)能的目標(biāo)。
數(shù)據(jù)中心PUE(Power Usage Effectiveness)是目前衡量數(shù)據(jù)中心或機(jī)房能源效率的通用指標(biāo),其計(jì)算公式為:
在數(shù)據(jù)中心能耗結(jié)構(gòu)中,制冷設(shè)備能耗是除IT設(shè)備能耗以外最大的能耗,相對(duì)于供配電系統(tǒng)與輔助系統(tǒng)的運(yùn)行能耗來(lái)說(shuō),制冷設(shè)備運(yùn)行能耗變化范圍最大。一些較為著名的綠色數(shù)據(jù)中心PUE值可達(dá)到1.2左右,其制冷設(shè)備、供配電系統(tǒng)以及輔助系統(tǒng)的能耗合計(jì)只占數(shù)據(jù)中心的總能耗的20%左右,但此類綠色數(shù)據(jù)中心在制冷設(shè)備、供配電系統(tǒng)、輔助系統(tǒng)、場(chǎng)地建設(shè)、動(dòng)環(huán)控制系統(tǒng)的成本投入遠(yuǎn)高于普通數(shù)據(jù)中心,對(duì)為數(shù)眾多的中心型數(shù)據(jù)中心和機(jī)房來(lái)說(shuō),根本無(wú)法達(dá)到,因此許多機(jī)房節(jié)能方法的研究重點(diǎn)集中在如何降低制冷設(shè)備能耗的方面,如:采用精密制冷設(shè)備、改善氣流組織、機(jī)房保溫措施等。
數(shù)據(jù)中心的可用性構(gòu)成比較復(fù)雜,由于數(shù)據(jù)中心是多種不同系統(tǒng)的綜合體,其可用性是:網(wǎng)絡(luò)可用性、IT設(shè)備可用性、制冷設(shè)備可用性、供配電以及其他輔助設(shè)備可用性共同組成,內(nèi)部既有冗余子系統(tǒng)的并行,也有不同子系統(tǒng)的串行。就基礎(chǔ)設(shè)備可用性而言可通過(guò)平均無(wú)故障時(shí)間MTBF(Mean Time Between Failures)與平均修復(fù)時(shí)間MTTR(Mean Time to Repair)等指標(biāo)計(jì)算完成,具體公式為:
從公式可以看出:數(shù)據(jù)中心基礎(chǔ)設(shè)備可用性的提高方法在于提高平均無(wú)故障時(shí)間MTBF或降低平均修復(fù)時(shí)間MTTR,降低MTTR與人員、技術(shù)、管理等因素的相關(guān)度較高,而延長(zhǎng)MTBF與設(shè)備自身的可靠性和運(yùn)行環(huán)境的相關(guān)度較高。
通過(guò)研究發(fā)現(xiàn),在一定條件下數(shù)據(jù)中心PUE值與可用性存在一定的相關(guān)性,數(shù)據(jù)中心的服務(wù)器、網(wǎng)絡(luò)、UPS、監(jiān)控等基礎(chǔ)設(shè)備的可用性受到溫濕度環(huán)境因素影響較大,而制冷設(shè)備的工作狀態(tài)又直接影響了數(shù)據(jù)中心的PUE值,當(dāng)維持較低的環(huán)境溫度時(shí),制冷設(shè)備能耗的提升則導(dǎo)致PUE值的升高,反之亦然。據(jù)統(tǒng)計(jì):環(huán)境溫度每高于器件工作溫度10攝氏度,設(shè)備元器件壽命就會(huì)縮短30%-50%,可靠性MTBF下降25%左右。已知一個(gè)線路輸出30kW企業(yè)級(jí)小型數(shù)據(jù)中心,在其能耗結(jié)構(gòu)中IT設(shè)備耗電占44%、制冷設(shè)備占38%、供配電設(shè)備占15%、其他輔助設(shè)備占3%,PUE值為2.27,可用性為99.99%,工作全年最多允許中斷(1-99.99%)*365天*24小時(shí)=0.876小時(shí)。當(dāng)制冷設(shè)備溫度上調(diào)10攝氏度時(shí),該數(shù)據(jù)中心基礎(chǔ)設(shè)備可靠性MTBF下降25%,假定平均修復(fù)時(shí)間MTTR取最大允許停機(jī)時(shí)長(zhǎng)0.876小時(shí),則根據(jù)公式2可推算出:數(shù)據(jù)中心當(dāng)前可用性下降為99.96%,溫度上調(diào)后,制冷設(shè)備功耗降低為原來(lái)的50%-60%,根據(jù)公式1可計(jì)算出該數(shù)據(jù)中心PUE值為1.84,比原可用性狀態(tài)下的PUE值下降了18.9%。通過(guò)對(duì)多個(gè)中小型數(shù)據(jù)中心的PUE值與可用性數(shù)據(jù)分析發(fā)現(xiàn):數(shù)據(jù)中心基礎(chǔ)設(shè)備的可用性與PUE值在一定范圍內(nèi)呈現(xiàn)正比關(guān)系,每個(gè)數(shù)據(jù)中心可用性與PUE對(duì)應(yīng)關(guān)系并非完全一樣,但在關(guān)系曲線的某一段取值范圍內(nèi)呈現(xiàn)局部線性關(guān)系,正好可以利用這種線性關(guān)系,通過(guò)調(diào)整數(shù)據(jù)中心基礎(chǔ)設(shè)備的可用性來(lái)降低數(shù)據(jù)中心的PUE值,從而達(dá)到節(jié)能的目標(biāo)。如圖1所示:在A點(diǎn)與C點(diǎn)之間的區(qū)域內(nèi),可用性與PUE值關(guān)系曲線為局部線性遞增關(guān)系,A點(diǎn)的可用性為0.9,PUE為1.4,C點(diǎn)的可用性為0.999,PUE為2.2,對(duì)中小型數(shù)據(jù)中心來(lái)說(shuō)可用性分布在0.9-0.999之間較為合理,PUE值可在1.4-2.2范圍之內(nèi)調(diào)節(jié),因此A點(diǎn)與C點(diǎn)之間的區(qū)域?yàn)槠胶鈪^(qū)域。平衡區(qū)域的實(shí)際物理意義在于,數(shù)據(jù)中心基礎(chǔ)設(shè)備的可用性過(guò)低或過(guò)高都是不可取的,特別對(duì)于中小型數(shù)據(jù)中心來(lái)說(shuō),維持0.999以上的可用性極大地增加了數(shù)據(jù)中心制冷設(shè)備能耗,而單純?yōu)樽非笾评湓O(shè)備極低功耗,把可用性下降到0.9以下,將引發(fā)數(shù)據(jù)中心嚴(yán)重的熱島效應(yīng),可能造成大面積的設(shè)備損壞。依照國(guó)際數(shù)據(jù)中心等級(jí)標(biāo)準(zhǔn)所規(guī)定的Tier 1的可用性為99.67%,恰好位于A點(diǎn)與C點(diǎn)PUE的均值點(diǎn)B附近,因此,B點(diǎn)為能耗與可用性平衡的最優(yōu)位置。
圖1 中小型數(shù)據(jù)中心可用性與PUE值關(guān)系曲線
為維持?jǐn)?shù)據(jù)中心PUE值與可用性的平衡關(guān)系,需要分別計(jì)算當(dāng)前PUE與可用性的具體數(shù)值,數(shù)據(jù)中心PUE值可以通過(guò)監(jiān)控系統(tǒng)的數(shù)值直接計(jì)算,而可用性的計(jì)算相對(duì)來(lái)說(shuō)較為復(fù)雜,公式2所給出的只是針對(duì)單個(gè)系統(tǒng)或單一設(shè)備的計(jì)算公式,整體計(jì)算需要考慮到不同子系統(tǒng)之間的耦合關(guān)系,通常使用RBD(Reliability Block Diagram)模型和Markov模型進(jìn)行計(jì)算,這里不做贅述,本文的重點(diǎn)是論證可用性與能耗之間的關(guān)系,為簡(jiǎn)化可用性的計(jì)算方法,可采用如下方法:(1)把中小型數(shù)據(jù)中心看作一個(gè)單一的基礎(chǔ)設(shè)備來(lái)計(jì)算其可用性;(2)采用黑盒測(cè)試的方法,采集環(huán)境溫濕度、制冷設(shè)備能耗等作為輸入數(shù)據(jù),采集數(shù)據(jù)中心基礎(chǔ)設(shè)備平均無(wú)故障運(yùn)行時(shí)間MTBF和平均修復(fù)時(shí)間MTTR作為輸出數(shù)據(jù),模擬可靠性與制冷設(shè)備能耗、溫濕度關(guān)系曲線;(3)確定最佳平衡點(diǎn),即可靠性在0.99附近對(duì)應(yīng)的環(huán)境溫度與制冷設(shè)備能耗的數(shù)值,即是制冷設(shè)備所調(diào)控的目標(biāo)。需要說(shuō)明的是:可靠性與制冷設(shè)備能耗之間并完全非線性關(guān)系,可通過(guò)建立二次或三次多項(xiàng)式進(jìn)行擬合,并采用最小二乘法求解最優(yōu)參數(shù)值:
Y=AX2+BX+C
這里Y為基礎(chǔ)設(shè)備可用性,X為制冷設(shè)備即時(shí)能耗,A、B、C為求解參數(shù)。除了多項(xiàng)式的擬合方法外,其他基于機(jī)器學(xué)習(xí)的方法也可以使用,如神經(jīng)網(wǎng)絡(luò)、遺傳算法等模型方法,如果數(shù)據(jù)中心有完整的日志數(shù)據(jù)與測(cè)試數(shù)據(jù),則對(duì)數(shù)據(jù)模型的訓(xùn)練更有幫助。
本文對(duì)國(guó)內(nèi)某企業(yè)的中小型數(shù)據(jù)中心進(jìn)行長(zhǎng)期測(cè)試實(shí)驗(yàn)和日志數(shù)據(jù)的收集與整理,并利用文中所介紹的方法建立了基礎(chǔ)設(shè)備可靠性與制冷設(shè)備功耗的關(guān)系曲線,進(jìn)而求解出PUE與可用性的平衡點(diǎn),并以此來(lái)控制制冷設(shè)備的工作狀態(tài),使得數(shù)據(jù)中心在保持0.99可用性的前提下,PUE值得到明顯改善。當(dāng)然每個(gè)數(shù)據(jù)中心的情況也不盡相同,并非都存在相同的關(guān)系曲線與平衡點(diǎn),文中的方法是否具有普適性,還需進(jìn)一步的研究與探討。
[1]黃赟. 數(shù)據(jù)中心合規(guī)設(shè)計(jì)中PUE值范圍選擇與分析[J]. 電信技術(shù),2016(12):56-59.
[2]戴新強(qiáng). 數(shù)據(jù)中心空調(diào)系統(tǒng)能耗與節(jié)能應(yīng)用研究[J].中國(guó)設(shè)備工程,2020(2):12-13.
[3]沈海華.基于馬爾可夫過(guò)程模型的服務(wù)器集群數(shù)據(jù)可用性分析[J].小型微型計(jì)算機(jī)系統(tǒng),2006,27(7):1276-1278.
[4]黃守鵬.國(guó)內(nèi)外高端服務(wù)器可用性測(cè)試方法研究[J].網(wǎng)絡(luò)安全與技術(shù)應(yīng)用,2011(3):54-57.
[5]劉元展. 數(shù)據(jù)中心供配電系統(tǒng)可用性設(shè)計(jì)[D]. 哈爾濱工業(yè)大學(xué),2015,6.
[6]吳亞奇. 數(shù)據(jù)中心機(jī)房節(jié)能方法研究[D]. 蘇州科技大學(xué),2015,6.