劉 建,朱小棟
(上海理工大學管理學院,上海 200093)
liujian568@pingan.com.cn;zhuxd@usst.edu.cn
新型基礎設施建設(簡稱“新基建”)包含大數(shù)據(jù)中心、人工智能、物聯(lián)網(IoT)等領域,與傳統(tǒng)基建相比,“新基建”內涵更加豐富,更能體現(xiàn)數(shù)字經濟特征。2022 年是“東數(shù)西算”工程啟動元年,在“新基建”“東數(shù)西算”工程引領下,大數(shù)據(jù)中心建設正如火如荼,與此同時綠色計算、低碳發(fā)展等理念也對數(shù)據(jù)中心能效提出了更高的要求。據(jù)《中國“新基建”發(fā)展研究報告》顯示,到2025 年,數(shù)據(jù)中心將占全球能耗的33%。在“雙碳”理念逐步深化的背景下,如何降低數(shù)據(jù)中心能耗、發(fā)展綠色計算就越發(fā)凸顯其重要性。
關于大數(shù)據(jù)中心的能效研究,目前業(yè)內已有不少成果,如谷歌利用機器學習來自動管理數(shù)據(jù)中心的冷卻系統(tǒng),對降低能耗產生了很好的效果。為了提高數(shù)據(jù)中心的散熱效率,李永利等人提出了一種基于機器學習的數(shù)據(jù)中心主動地板模型。國冰磊等人研究了數(shù)據(jù)庫系統(tǒng)的能耗問題,并以查詢負載為主要建模對象構建了一個可以有效降低系統(tǒng)能耗的模型。
大數(shù)據(jù)中心的能耗涉及很多方面,不僅有傳統(tǒng)的照明、制冷等因素,還涉及IT系統(tǒng)層的服務器、交換機等方面。各種因素間彼此也不是孤立的,如IT系統(tǒng)的負載、建筑物的材料等都會對制冷設備的能耗產生重大影響。大數(shù)據(jù)中心如何降低能耗是一個系統(tǒng)的問題,現(xiàn)有的研究都有其局限性和片面性,這主要體現(xiàn)在兩方面:(1)現(xiàn)有研究大多只關注在某一層面,如制冷、供電或IT系統(tǒng)資源調度、性能優(yōu)化等,沒有綜合考慮大數(shù)據(jù)中心各個層面的能效問題。(2)現(xiàn)有研究提出很多創(chuàng)新的節(jié)能手段和模型算法,但是對最基礎的能耗監(jiān)測和能耗數(shù)據(jù)獲取沒有系統(tǒng)的描述和展現(xiàn)。本文嘗試從大數(shù)據(jù)中心能耗監(jiān)控的角度,依托物聯(lián)網技術建立一個統(tǒng)一的能耗管理系統(tǒng),以解決目前能耗管理中面臨的一些實際問題。
根據(jù)PUE(Power Usage Efficiency)等數(shù)據(jù)中心能耗指標可以把大數(shù)據(jù)中心的能耗來源簡單分為兩部分:IT系統(tǒng)能耗和非IT系統(tǒng)能耗。IT系統(tǒng)包括服務器、網絡設備、數(shù)據(jù)庫系統(tǒng)等;非IT系統(tǒng)主要是指輔助設施,包括制冷設備、照明系統(tǒng)及其他建筑物等,具體如圖1所示。區(qū)別于傳統(tǒng)建筑物,大數(shù)據(jù)中心的能耗管理需要更多集中在IT系統(tǒng)層面。隨著云計算時代的來臨,標準化的通用服務器占據(jù)了大數(shù)據(jù)中心的半壁江山,以更細的粒度來研究計算、網絡、存儲等的能耗也是一個新的趨勢。
圖1 大數(shù)據(jù)中心能耗分析Fig.1 Energy consumption analysis of big data center
系統(tǒng)按照邏輯架構分為采集層、傳輸層、應用層,具體如圖2所示。
圖2 系統(tǒng)邏輯分層Fig.2 System logic layering
采集層:大數(shù)據(jù)中心各個設備差異較大,有傳統(tǒng)的建筑設施如供電和供水設備等,也有服務器、交換機等IT設備,如何有效地采集并傳輸各種設備的能耗數(shù)據(jù)是能耗管理過程中最基本也是最核心的問題。物聯(lián)網(Internet of Things,IoT)是指在互聯(lián)網基礎上,通過射頻識別技術、傳感器技術等完成任何物體與網絡的交互連接,從而實現(xiàn)物品的信息獲取和智能應用。利用物聯(lián)網技術,可以很好地將大數(shù)據(jù)中心各個設備的能耗數(shù)據(jù)統(tǒng)一采集到管理系統(tǒng)中。采集層中涉及的設備包括各類獨立運行的傳感設備,還有集成在空調、服務器和交換機等中的傳感芯片等。
發(fā)展綠色計算除了使用綠色清潔能源外,還有一個重要方向就是降低大數(shù)據(jù)中心的電力消耗。能耗數(shù)據(jù)的采集很大一部分就是電力數(shù)據(jù)的采集,利用物聯(lián)網技術來推進智能電網的發(fā)展是一個很好的方向。對于服務器的電力采集,可以通過多種方式獲取更為精細的數(shù)據(jù),如通過機柜智能PDU(Power Distribution Unit,電源分配單元)來獲取IT設備的整體用電數(shù)據(jù),通過服務器的帶外管理接口BMC(Baseboard Management Controller)或IPMI(Intelligent Platform Management Interface)來獲取更詳細的能耗數(shù)據(jù)。
傳輸層:通過采集層采集的數(shù)據(jù)經過智能網關、AIBOX(人工智能盒子)等設備傳輸至應用層。鑒于很多物聯(lián)網設備不具備物理網口的特性,傳輸網絡可以采用大數(shù)據(jù)中心本地有線網絡和無線網絡相結合的形式。智能盒子等邊緣設備對采集層的數(shù)據(jù)進行簡單的壓縮、去重等處理,可以極大地收斂傳輸層的數(shù)據(jù)量。傳輸層還需要考慮數(shù)據(jù)流動的安全性,必要的安全認證手段既可以規(guī)范眾多分散部署的采集裝置,也為應用層的設備管控提供支撐。
應用層:應用層是整個系統(tǒng)的中樞神經,包括設備管理、數(shù)據(jù)展現(xiàn)、能耗分析和監(jiān)控等功能。設備管理是指對傳感設備等物聯(lián)網終端進行管理,包括接入、設備啟停、參數(shù)配置和日志打印等操作。傳輸層簡單清理后的數(shù)據(jù),通過特定的模型和規(guī)則處理后用于可視化展示、大屏監(jiān)控等方面。能耗分析是指對大數(shù)據(jù)中心的各個模塊子系統(tǒng)的能耗數(shù)據(jù)進行系統(tǒng)性的分析評估,并提供詳細的評估報告和待優(yōu)化項。應用層預留公共接口和開放API,為后續(xù)其他能耗優(yōu)化方案提供對接支持。應用層可以通過和其他平臺的對接,如服務器的硬件管理系統(tǒng)和機房制冷控制系統(tǒng)等來測試具體能耗優(yōu)化方案,并通過展示平臺確認最終效果。
管理系統(tǒng)采用C/S架構設計,具體模塊包括儀表板、設備管理、能耗分析、系統(tǒng)管理等。
(1)儀表板:儀表板通過各種圖表系統(tǒng)展現(xiàn)大數(shù)據(jù)的能耗情況,顯示維度為:大數(shù)據(jù)中心→設備類型→IT類/服務器→計算CPU。用戶可以根據(jù)需求自定義儀表板顯示頁面,通過勾選不同數(shù)據(jù)源組合來適應監(jiān)控大屏、手機端等場景。
(2)設備管理:設備管理是整個系統(tǒng)的基礎模塊,包括網關管理、子設備信息、指令管理等功能,具體如圖3所示。網關管理用于對物聯(lián)網網關(IoT-Hub)進行統(tǒng)一管理,包括網關新增、子設備接入、安全管控等功能。在平臺完成網關設備接入后,需要分別對不同網關下的子設備進行接入管理,包括IT層設備和非IT層設備,接入類型可以是物聯(lián)網無線網絡、有線局域網和藍牙網絡等。網關的安全管理主要用于子設備與網關間安全密鑰的設置和存儲。子設備信息包含設備基礎信息,如類別、名稱、設備標簽、運行時間等,還可以新增擴展信息,如模組信息、固件版本、模組品牌和SDK語言等。指令管理是指對發(fā)送給子設備的命令、腳本或者程序包等的管理。常規(guī)指令包含設備啟停、數(shù)據(jù)包傳輸、參數(shù)調整等,高級指令包括如定制化的SDK包、人工智能算法,以及后續(xù)的一些能耗優(yōu)化模型等。
圖3 設備管理Fig.3 Device management
(3)能耗分析:能耗分析分為能耗評估和能耗監(jiān)控告警兩部分。能耗評估是指依托大數(shù)據(jù)平臺對能耗數(shù)據(jù)進行多維度的分析和評估并最終形成報告。能耗監(jiān)控告警是本系統(tǒng)的核心功能,包括監(jiān)控項管理、模板管理、告警設置等。本系統(tǒng)能耗監(jiān)控模塊與IT系統(tǒng)監(jiān)控如Zabbix、Prometheus等監(jiān)控軟件,還有第三方的設備監(jiān)控平臺如數(shù)據(jù)中心的動環(huán)監(jiān)控平臺、制冷系統(tǒng)監(jiān)控和專業(yè)服務器監(jiān)控系統(tǒng)等有很大的不同。主要體現(xiàn)在兩方面:一是監(jiān)控的指標更聚焦于能耗方面,采集的能耗數(shù)據(jù)也更全面且粒度更細;二是在能耗分析和評估的基礎上,能耗監(jiān)控能更好地利用AI告警、大數(shù)據(jù)預測等技術來提升監(jiān)控告警的時效性和準確性。
(4)系統(tǒng)管理:系統(tǒng)管理主要是指平臺后臺配置管理功能,包括租戶管理、用戶管理、頁面配置、區(qū)域設置等。
本系統(tǒng)采用“自下而上”的設計方法,主要包括邊緣平臺數(shù)據(jù)采集傳輸、設備管理及指令下發(fā)和大數(shù)據(jù)分析處理等方面。
系統(tǒng)整體包含數(shù)據(jù)中心邊緣平臺、云端管理平臺及第三方平臺三個部分。邊緣平臺主要包括物聯(lián)網子設備、物聯(lián)網網關和數(shù)據(jù)清洗壓縮設備。管理平臺采用云環(huán)境部署,統(tǒng)一處理邊緣平臺采集的數(shù)據(jù),并提供開放API接口與第三方服務對接。系統(tǒng)邏輯拓撲圖如圖4所示。
圖4 邏輯拓撲圖Fig.4 Logical topology diagram
設備管理是能耗管理系統(tǒng)最基礎的功能模塊,物聯(lián)網設備的接入、信息查詢及其指令管理是系統(tǒng)穩(wěn)定運行的保障。下面以設備管理模塊為例設計部分程序,圖5是部分功能接口設計。
圖5 部分接口設計Fig.5 Part of the interface design
服務端部分代碼如下:
管理系統(tǒng)主體使用云平臺部署,業(yè)務流通過VIP01進入消息隊列,數(shù)據(jù)流經VIP02進入Kafka集群最終傳輸至后端的Hadoop平臺。管理平臺的指令管理和設備管理任務通過MQ集群發(fā)布,邊緣網關作為訂閱者消費信息。本系統(tǒng)部署兩套消息隊列主要是為了將業(yè)務流與數(shù)據(jù)流進行隔離,確保業(yè)務系統(tǒng)的穩(wěn)定。應用服務集群采用Java語言開發(fā),組件服務一般部署多臺,前置LVS+Nginx(LVS:Linux Virtual Server;Nginx:高性能負載均衡軟件)來提高負載和保證高可用。系統(tǒng)部署拓撲圖如圖6所示。
圖6 部署拓撲圖Fig.6 Deployment topology diagram
本文在現(xiàn)有文獻基礎上,系統(tǒng)全面地分析了大數(shù)據(jù)中心各層次能耗因素,合理運用物聯(lián)網、云計算和大數(shù)據(jù)等技術設計了能耗管理系統(tǒng),旨在解決大數(shù)據(jù)中心能耗管理過程中的數(shù)據(jù)展示、能耗告警及能耗分析評估等問題。綠色計算是未來算力發(fā)展的新趨勢,在“雙碳”背景下,如何提高大數(shù)據(jù)中心的效率、降低能耗是一個持久的命題。由于時間有限,本文研究難免有不足之處,如數(shù)據(jù)采集模塊的統(tǒng)一和規(guī)范問題、能耗分析模型的設計問題等。后續(xù)的研究除了要進一步明確本系統(tǒng)的設計細節(jié),還需關注人工智能、新能源等技術在能耗方面的應用。