何新年,安真,葉雷霖( 華為技術有限公司,深圳 589; 深圳市迪威視訊股份有限公司,深圳 58000)
?
DCIM與數(shù)據(jù)中心基礎設施管理
何新年1,安真1,葉雷霖2
(1 華為技術有限公司,深圳 518129;2 深圳市迪威視訊股份有限公司,深圳 518000)
摘 要本文闡述了數(shù)據(jù)中心基礎設施管理中存在的問題,DCIM的發(fā)展及其對基礎設施管理的價值,DCIM在基礎設施管理中的具體應用;指出DCIM關注數(shù)據(jù)的綜合整理、關聯(lián)、挖掘與分析,并根據(jù)分析的結果優(yōu)化管理,是數(shù)據(jù)中心運營管理的發(fā)展方向。
關鍵詞數(shù)據(jù)中心;基礎設施管理;場地基礎設施;IT基礎設施;制冷監(jiān)控
數(shù)據(jù)中心是一整套復雜的設施。一個現(xiàn)代化的數(shù)據(jù)中心可分為4個層級,如圖1所示。L4層是應用層,包括各種信息服務、如私有云、公有云等;L3層是操作系統(tǒng)層,主要由各種軟件、數(shù)據(jù)庫等操作系統(tǒng)構成;L2層是信息設備硬件層,包括數(shù)據(jù)處理、數(shù)據(jù)傳輸和網(wǎng)絡通信等多種IT設備;L1層則是場地基礎設施層,囊括了支持IT運轉環(huán)境的各種場地設施。
IT基礎設施即L2層相關設施與場地基礎設施即L1層相關設施統(tǒng)稱為數(shù)據(jù)中心基礎設施,這些基礎設施涉及的產(chǎn)品數(shù)目眾多,種類繁雜,需要科學地管理和運維。
圖1 數(shù)據(jù)中心的分層架構
在我國,大規(guī)模數(shù)據(jù)中心的場地基礎設施往往存在多套監(jiān)控管理系統(tǒng),如電力監(jiān)控(EPMS)、暖通制冷監(jiān)控(BMS)、消防與安防監(jiān)控、動環(huán)系統(tǒng)等。這些監(jiān)控管理系統(tǒng)往往并行存在,每個系統(tǒng)都有自己獨立的數(shù)據(jù)采集、計算和執(zhí)行等裝置,獨立完成各自的功能。各系統(tǒng)之間,有的存在一些簡單的通信和聯(lián)系,有的則沒有任何關聯(lián)。
根據(jù)CA和IDC聯(lián)合推出的報告,84%的數(shù)據(jù)中心存在制冷、供電、空間和承重方面的問題,遭受的影響為延遲應用上線、OPEX增加甚至是中斷服務。為有效提高數(shù)據(jù)中心的可靠性,最大化投資效率并節(jié)省運營費用,需要對基礎設施進行統(tǒng)籌管理,但目前數(shù)據(jù)中心基礎設施管理普遍存在如下核心制約因素。
1.1 IT和Facility分開管理
數(shù)據(jù)中心的IT基礎設施管理相對比較成熟,很多企業(yè)都擁有具有自身管理特色的ITSM管理工具,它相對獨立,也有一定的標準可遵循。但其管理內(nèi)容幾乎不與數(shù)據(jù)中心的場地設施管理發(fā)生聯(lián)系。
根據(jù)IDC的報告,58%的數(shù)據(jù)中心將IT設備和Facility設備的管理分成了不同的部門,如圖2所示,這種現(xiàn)象非常普遍。這種職能劃分雖然在一定程度上有利于人員管理和權責劃分并保證專業(yè)性,但是增加了部門之間的溝通成本,降低了數(shù)據(jù)中心運維的效率,甚至提高了數(shù)據(jù)中心發(fā)生事故的風險。比如業(yè)務部門對需求的預測失誤導致了基礎設施的過度規(guī)劃和投資;Facility部門進行重大維護檢修時沒有及時知會到IT部門等。
圖2 IT和Facility分開管理
1.2 使用離散的管理工具
數(shù)據(jù)中心是一個多專業(yè)的綜合系統(tǒng),各個專業(yè)和崗位的維護人員會按照自己的習慣選用數(shù)據(jù)中心管理工具,比如采用Excel軟件進行資產(chǎn)和配置關系的管理、利用Visio軟件建立簡單的可視化模型、利用動環(huán)系統(tǒng)進行設備的數(shù)據(jù)采集和警告、使用系統(tǒng)自帶或廠商贈送的IT管理工具,使用離散的管理工具帶來了多方面的問題。
首先維護多個離散的管理工具提高了管理和擁有成本,造成無法采用統(tǒng)一的界面獲得所需要的信息;其次不同系統(tǒng)之間的數(shù)據(jù)難以關聯(lián)和共享,在制作報表和業(yè)務預測時尤其困難;最后需要花費大量時間去更新數(shù)據(jù)、保持數(shù)據(jù)同步,甚至新老數(shù)據(jù)發(fā)生沖突時找不到原因,數(shù)據(jù)維護非常痛苦。因此,采用統(tǒng)一的管理工具,對數(shù)據(jù)定義、接口定義和數(shù)據(jù)庫管理進行統(tǒng)一定義,在基礎設施管理中尤為迫切和重要。
1.3 L2和L1層匹配困難
為了滿足業(yè)務可持續(xù)發(fā)展的要求、降低TCO、提高業(yè)務靈活性,新一代數(shù)據(jù)中心在IT架構設計上更加的彈性化,采用了更多如虛擬化、模塊化等技術,使得供電和制冷等系統(tǒng)和服務器、存儲、網(wǎng)絡等IT基礎設施之間的匹配更加困難,如圖3所示。
圖3 虛擬化
傳統(tǒng)機柜部署的服務器數(shù)量通常不會太多,功率密度不會太高,用電負荷也不會波動太大,數(shù)據(jù)中心建設完成后,UPS的容量以及空調的制冷量很難再做出改變和調整。隨著虛擬化等技術的應用和推廣,負載可以在服務器之間實現(xiàn)動態(tài)的遷移,應用訪問也存在爆發(fā)性的特點,云計算的數(shù)據(jù)中心IT設備的功耗波動較大且比較頻繁,大量應用的刀片服務器使得單機柜的功率密度已經(jīng)突破10kW,如果制冷和供電不能及時跟上IT的需求變化,在設計和維護上處理不當,就很容易造成局部熱點,甚至導致服務器宕機。
1.4 場地設施監(jiān)控管理系統(tǒng)缺乏互聯(lián)互通
數(shù)據(jù)中心的電氣、制冷等關鍵設施都有自己專用的監(jiān)控系統(tǒng),由不同的專業(yè)廠商負責實施,各自為政,互不干涉,因此監(jiān)控系統(tǒng)往往各自獨立,無法實現(xiàn)互聯(lián)互通和數(shù)據(jù)共享。在數(shù)據(jù)中心運維管理上,這些系統(tǒng)往往牽一發(fā)而動全身,盲目操作,可能會造成意向不到的故障和混亂。數(shù)據(jù)中心場地基礎設施的控制管理,迫切需要各個系統(tǒng)步調一致,協(xié)同作戰(zhàn),共同提高運營管理水平。
針對基礎設施管理中存在的問題,數(shù)據(jù)中心需要統(tǒng)一的平臺能夠同時管理到IT基礎設施和場地基礎設施,實時監(jiān)控物理設備的容量、功耗、空間和環(huán)境等信息,讓多項專業(yè)管理功能互相匹配、互相協(xié)調、同步發(fā)展;同時也需要建立L1層和L2層的聯(lián)系,使得數(shù)據(jù)中心運營變得更有效、更協(xié)調、更可靠性,確保信息業(yè)務連續(xù)可靠,管理成本經(jīng)濟合理。
針對數(shù)據(jù)中心基礎設施管理的需求,數(shù)據(jù)中心基礎設施管理(DCIM)理念開始出現(xiàn),具體框架結構如圖4所示。
圖4 框架結構
不同機構對DCIM有不同定義,目前得到普遍認可的如下。
Gartner對DCIM的定義:DCIM工具可以監(jiān)控、測量、管理和控制數(shù)據(jù)中心所有IT相關設備(如服務器、存儲和交換機)和基礎設施相關設備(如PDU和精密空調)的使用情況及能耗水平。
451 Group對DCIM的定義:DCIM系統(tǒng)收集和管理數(shù)據(jù)中心的資產(chǎn)、資源使用以及運行狀態(tài)的信息,然后分發(fā)、整合、分析、使用以幫助數(shù)據(jù)中心管理者滿足業(yè)務和服務導向的目標,優(yōu)化數(shù)據(jù)中心運營。
盡管不同機構對DCIM有不同的定義,但是大家普遍認為:DCIM的價值主要表現(xiàn)為對各個場地基礎設施監(jiān)控子系統(tǒng)(EPMS、BMS、消防與安防監(jiān)控系統(tǒng)等)采集到的數(shù)據(jù),加以關聯(lián)、整合與分析,并做數(shù)據(jù)展示,提供從規(guī)劃、調優(yōu)、預測和變更等多個維度的綜合數(shù)據(jù)支撐,為決策與運維奠定數(shù)據(jù)基礎,從而實現(xiàn)數(shù)據(jù)中心基礎設施的科學管理。打通場地基礎設施和IT基礎設施的組織和信息斷層,并通過數(shù)據(jù)的分析和聚合,最大化數(shù)據(jù)中心的運營效率以保證數(shù)據(jù)中心的可用性和業(yè)務的連續(xù)性。
數(shù)據(jù)中心基礎設施管理雖然出現(xiàn)時間不長,業(yè)內(nèi)沒有統(tǒng)一成熟的模式,也沒有對其管理的內(nèi)容和方法達成一致,但其對數(shù)據(jù)中心基礎設施管理的價值已日益顯現(xiàn)。
3.1 幫助容量管理
DCIM能夠對數(shù)據(jù)中心的電量、制冷、空間、承重等容量進行追蹤、評估和記錄,并對供電和網(wǎng)絡等連接關系進行管理,并可對數(shù)據(jù)中心進行可視化建模,這種實時的精細化管理功能使得用戶擺脫了過去靠手摸、眼看等粗放的判斷方式。舉例來說,數(shù)據(jù)中心的每1U位都是寶貴的資源,通過DCIM實時了解每個機架和整個數(shù)據(jù)中心資源消耗情況,從而提高資產(chǎn)的利用率,延長數(shù)據(jù)中心的使用年限,就能優(yōu)化全生命周期的TCO,相應提高投資回報率。
3.2 篩選“僵尸服務器”
通過對服務器有功功率和CPU占用等信息的采集,可以定位數(shù)據(jù)中心空載或低負載的服務器,從而對這部分服務器資源進行負載整合或者下架,以提高設備利用率,降低數(shù)據(jù)中心功耗。通過結合IT設備的生命周期管理和服務器的能耗數(shù)據(jù),可以提前做出預算和計劃,淘汰一些老舊的、計算能力弱卻又能耗較高的服務器,進一步節(jié)能增效。
3.3 為節(jié)能提供決策依據(jù)
數(shù)據(jù)中心電費的支出在運維費用中占用了相當大的比例,提高能源利用率已經(jīng)成為數(shù)據(jù)中心行業(yè)的核心競爭力。通過DCIM管理工具,不但能夠監(jiān)控數(shù)據(jù)中心的PUE等關鍵能耗指標,能夠實時查看IT設備和基礎設施設備的能耗,還可以讓場地基礎設施與IT設備實現(xiàn)融合和匹配,讓制冷和供電隨著IT設備的需求變化而調整運行狀態(tài),真正做到按需而動,實現(xiàn)最佳的能源利用率。
數(shù)據(jù)中心的電力監(jiān)控、制冷自控等系統(tǒng)記錄了大量的基礎設施的運維數(shù)據(jù),但這些數(shù)據(jù)往往缺乏分析和管理。DCIM可以對這些數(shù)據(jù)進行分析和處理,并給運維提出更合理的運行方式和運行參數(shù)建議,甚至可以對部分故障進行預判斷,從而讓運維變得更主動、更有效,大大提高數(shù)據(jù)中心的可靠性和運營效率。同樣,在一些應用混合能源供給的數(shù)據(jù)中心,DCIM還能夠對水使用效率、碳使用效率或天然氣使用效率等進行有效監(jiān)控和數(shù)據(jù)分析。
3.4 協(xié)調流程管理
人員和流程也是數(shù)據(jù)中心運維過程中需要考慮的重要因素之一。UPTIME的調查顯示,數(shù)據(jù)中心的安全事故中,有70%屬于人為因素。DCIM可成為數(shù)據(jù)中心變更和流程管理的平臺。在實施數(shù)據(jù)中心變更時,可在DCIM工具中對變更中涉及到的每一步人員和流程進行管理和審批,比如在上架服務器時,DCIM可利用采集到的數(shù)據(jù)對供電、制冷、空間、網(wǎng)絡、承重等資源進行每一步的驗證和審批,并在實施前在系統(tǒng)上進行模擬演練,甚至可與API、上層的業(yè)務管理平臺或ITSM等工具的流程管理相結合,從而提高變更的可靠性,減少實施錯誤的概率。
3.5 優(yōu)化應急預案,指導應急處理
數(shù)據(jù)中心可用性的保障,一方面依靠優(yōu)秀的系統(tǒng)架構和高效的運維,盡可能地防患于未然,另一方面還要通過有效的應急演練和完善的災難恢復流程,減少事故發(fā)生頻率和縮短事故歷時。完善的DCIM工具不但可以幫助數(shù)據(jù)中心進行日常運維管理,還可以幫助管理者進行特殊事件管理,比如通過數(shù)據(jù)分析和整合,進行故障和報警判斷,完善災難響應和恢復計劃,指導應急處理,不斷提升管理水平。
中大型數(shù)據(jù)中心擁有的制冷監(jiān)控系統(tǒng)(BMS)通過軟硬件和執(zhí)行機構可以完成以下功能:根據(jù)負荷情況選擇設備運行;根據(jù)氣象參數(shù)選擇冷源的節(jié)能運行模式;根據(jù)故障場景自動告警并執(zhí)行預先設定的程序(選擇相應的設備狀態(tài)、閥門狀態(tài)等);監(jiān)測環(huán)境溫濕度、漏水、新風設備等。這種情況下下,增加DCIM系統(tǒng)的好處是什么呢?DCIM和現(xiàn)有的基礎設施監(jiān)控系統(tǒng)到底有什么區(qū)別呢?讓我們看看下面幾個場景。
(1)BMS可根據(jù)內(nèi)部、室外氣象條件和設備運行情況,嚴格控制服務器的空間環(huán)境。系統(tǒng)可根據(jù)服務器對環(huán)境的要求,監(jiān)視服務器的進風溫度、相對濕度,并以服務器的進風溫度控制精密空調的水閥開度,以送回風溫差、地板下靜壓或者其它信號輸入為依據(jù)控制精密空調EC風機的轉速。當進風溫度、相對濕度數(shù)值異常的,管理系統(tǒng)告警。DCIM則可以對運行參數(shù)進行統(tǒng)計分析,判斷BMS的控制閾值是否合理,并依據(jù)數(shù)據(jù)分析的結果,導出調整策略,達到優(yōu)化空調運行的目的。比如,BMS最初的空調送風溫度設定值為18℃,運行一段時間后,機房冷通道的溫度普遍低于20℃,則可以嘗試提高送風溫度設定值為20℃,甚至冷水機組的出水溫度也可嘗試提高,從而提升冷機能效、延長自然冷卻的運行時間,達到節(jié)能運行的目的。
(2)BMS可以對制冷系統(tǒng)進行臺數(shù)控制。加機時,BMS按照預設的順序啟動相應的制冷設備,減機時,BMS按照預設的順序關閉相應的制冷設備。加減機的閥值由軟件預先設定。DCIM則可以根據(jù)每次加減機的時機對數(shù)據(jù)進行分析,對照實際運行的冷機參數(shù),判斷加減機的閥值是否合理,是否避開了冷機的低效區(qū),同時提出調整策略。BMS調整后,還可以分析比對調整前后的運行數(shù)據(jù),再次判斷調整的必要性和正確性。當然,這些對比分析必須與電力監(jiān)控系統(tǒng)的數(shù)據(jù)相關聯(lián),比對調整前后用電量數(shù)據(jù),才能得出正確結論。冷機是數(shù)據(jù)中心的能耗大戶,通過對冷機的運行優(yōu)化,一定可以為節(jié)能做出貢獻。
(3)BMS可以針對故障組件告警,并選取備用機組投入運行。如當冷水機組故障時,管理系統(tǒng)應能自動啟動備用冷機;當精密空調故障時,管理系統(tǒng)應能自動啟動備用精密空調;當控制器故障時,管理系統(tǒng)應能自動切換至備用控制器。DCIM則從故障設備的記錄數(shù)據(jù),尋找故障發(fā)生的誘因和共性,探討縮短故障歷時的途徑,總結規(guī)律,甚至可以對某些故障做出預判斷,從而提前維修或更替可能故障的組件。力爭減少小故障,杜絕大事故。
通過DCIM上面幾個場景的分析,我們可以發(fā)現(xiàn)要做到基礎設施的科學管理,僅僅依靠幾個獨立的監(jiān)控系統(tǒng)是遠遠不夠的,各監(jiān)控系統(tǒng)采集到的數(shù)據(jù)也是零散的,需要對采集到的數(shù)據(jù)進行整合管理,現(xiàn)有數(shù)據(jù)還有巨大的挖掘空間。DCIM一方面讀取監(jiān)控數(shù)據(jù),另一方面對數(shù)據(jù)進行關聯(lián)比對、分析整理,并以此為依據(jù)對運營管理提出優(yōu)化策略,幫助數(shù)據(jù)中心精簡運維人員、減少事故發(fā)生、縮短事故歷時、優(yōu)化運維模式、降低運維成本、提升運維效率、節(jié)約能源消耗。
在國內(nèi)數(shù)據(jù)中心建設如火如荼,各種資源都在進入數(shù)據(jù)中心市場的大背景下,建設后期的運營服務已經(jīng)越來越引起各方的重視,數(shù)據(jù)中心管理工具也越來越引起運營商的重視。DCIM代表了基礎設施全面綜合管理的一種方式和方法,可以幫助數(shù)據(jù)中心的管理者和運維人員不斷提升數(shù)據(jù)中心基礎設施的管理水平和運營效率。
參考文獻
[1] FD Silva,JE Pultz,A Adams. Market Trends: Total Addressable DCIM Market Will Reach $1.7 Billion by 2016[R]. Gartner, 2012.
[2] IDC marketScape: Worldwide Datacenter Infrastructure Management 2013 Vendor Analysis[R]. IDC, 2013.
DCIM and datacenter infrastructure management
HE Xin-nian1, AN Zhen1, YE Lei-lin2
(1 Huawei Technologies Co., Ltd., Shenzhen 518129, China; 2 Shenzhen Diwei Communication Co., Ltd., Shenzhen 518000, China)
AbstractThis paper generally describes the problems of the operation and management of infrastructure of DC, the development of DCIM, the value of DCIM for Infrastructure of DC and the detailed use of DCIM. It points that DCIM attaches great emphasis on integration, mining and comprehensive analysis of data, then optimizes infrastructure management. DCIM is an effective tool for infrastructure management of datacenters in the future. Keywords datacenter; DCIM; site facility infrastructure; IT infrastructure; BMS
中圖分類號TN915
文獻標識碼A
文章編號1008-5599(2016)04-0046-05
收稿日期:2016-02-29