蔡國華 袁世州
摘要:數(shù)據(jù)中心是支撐中國搜索技術平臺的基礎組成部分,是建筑的地基。數(shù)據(jù)中心的運維工作直接關系到線上業(yè)務平臺的穩(wěn)定性、可靠性、安全性。筆者結(jié)合對數(shù)據(jù)中心多年的運維經(jīng)驗,結(jié)合實際業(yè)務需求,研發(fā)了中國搜索數(shù)據(jù)中心自動化運維平臺。本文將對平臺進行闡述,并對數(shù)據(jù)中心整體設備生命周期的管理提出建議。歡迎媒體行業(yè)數(shù)據(jù)中心管理人員相互交流。
關鍵詞:數(shù)據(jù)中心;自動化運維;機房設備
中圖分類號:TP393? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)20-0006-03
開放科學(資源服務)標識碼(OSID):
1前言
中國搜索數(shù)據(jù)中心的運維管理包括監(jiān)控(動力、環(huán)境、設備、線路)、故障處理、工程實施、設備資產(chǎn)管理、設備上架下架管理等工作,只有數(shù)據(jù)中心的穩(wěn)定運行才能確保線上業(yè)務的穩(wěn)定。筆者結(jié)合多年的數(shù)據(jù)中心運維工作經(jīng)驗,逐漸摸索出通過自動化運維替代部分人工運維的方法,通過自主研發(fā),整合行業(yè)開源系統(tǒng),建設自動化運維平臺。該平臺以CMDB系統(tǒng)為核心,將日常數(shù)據(jù)中心大量運維工作由人工轉(zhuǎn)為機器來處理,從而大大提升運維效率,擴大覆蓋范圍,降低運維成本。
2中國搜索數(shù)據(jù)中心簡介
截至目前,中國搜索數(shù)據(jù)中心運行的IT設備有3500余臺(含10%網(wǎng)絡設備),其中70%設備為過保設備且已運行近8年之久,整體網(wǎng)絡架構(gòu)為常見大型互聯(lián)網(wǎng)數(shù)據(jù)中心的網(wǎng)絡架構(gòu),即:出口核心路由器-核心交換機-接入交換機-終端設備。
中國搜索數(shù)據(jù)中心物理架構(gòu)上為單一數(shù)據(jù)中心多模塊化,機架數(shù)量300多架。由于是分期逐步建設,數(shù)據(jù)中心模塊涉及多個樓宇,中間涉及模塊間互聯(lián)、樓層間互聯(lián)、樓宇間互聯(lián)等工程。復雜多樣的物理結(jié)構(gòu)和日益老舊的設備維護,使得機房運維越來越低效,自動化運維平臺的研發(fā)工作勢在必行。
3數(shù)據(jù)中心自動化運維研究
日益老化的設備是中國搜索數(shù)據(jù)中心的頭等問題,針對大量老化且品牌不一的設備,如何第一時間發(fā)現(xiàn)故障并及時處理,保障數(shù)據(jù)中心的安全穩(wěn)定運行,是自動化運維平臺需要解決的問題。
數(shù)據(jù)中心自動化運維平臺以CMDB資產(chǎn)數(shù)據(jù)庫為基礎,通過整合開源平臺(Glpi,Cobbler,Zabbix,IPMI等),建立統(tǒng)一運維入口,實現(xiàn)了一個平臺解決數(shù)據(jù)中心自動化運維大部分問題。該平臺主要包含的功能有自動化資產(chǎn)管理、自動化裝機、自動化監(jiān)控報警等功能。下文對自動化平臺的各項功能進行介紹:
l 整體架構(gòu)圖
該功能主要通過OCS開源插件定時采集整個數(shù)據(jù)中心各個節(jié)點的資產(chǎn)數(shù)據(jù):包含設備序列號、CPU、內(nèi)存、硬盤、軟件清單等,OCS將采集到的數(shù)據(jù)與GLPI資源管理平臺整合,根據(jù)日常使用字段并通過對GLPI平臺二次開發(fā)形成外部可訪問的API接口,自動化運維平臺通過調(diào)用該API接口實現(xiàn)資產(chǎn)信息同步到自動化運維平臺,并在前端界面實現(xiàn)展示、查詢和管理。
后續(xù)所有對主機的控制操作均依賴于該資產(chǎn)管理模塊(CMDB)。
l 自動化裝機
自動化裝機的任務在中國搜索數(shù)據(jù)中心屬于頻繁性工作,少則一兩臺服務器,多則近千臺服務器。早期我們采用Kickstart+PXE的方式進行批量裝機,該裝機方式可大大提高人工裝機的效率,保持一致性。不過該方式存在的問題是需要人工將每臺服務器的MAC地址、主機名、IP地址等整合成獨立的可供kickstart讀取的文件,數(shù)據(jù)量一旦過多會造成效率低、錯誤率高等問題。針對該問題我們使用Cobbler自動化裝機開源系統(tǒng),通過數(shù)據(jù)中心自動化運維平臺調(diào)用CobblerAPI實現(xiàn)系統(tǒng)灌裝,通過制定ks配置文件實現(xiàn)不同文件系統(tǒng)劃分、軟件配置等服務器的多樣配置需求。RAID自動配置的功能通過PXE引導內(nèi)存型操作系統(tǒng),整合RAID卡CLI工具,調(diào)用預先設置好的配置文件進行RAID自動配置。
l 自動化監(jiān)控告警
自動化監(jiān)控告警包括服務器硬件故障監(jiān)控告警、網(wǎng)絡設備監(jiān)控告警、端口異常監(jiān)控告警、機房環(huán)境監(jiān)控告警等數(shù)據(jù)中心相關的監(jiān)控告警。服務器硬件層監(jiān)控主要通過自動化運維平臺采用IPMI協(xié)議通過BMC端口抓取底層硬件日志,從而獲取告警數(shù)據(jù),如圖4。系統(tǒng)層的監(jiān)控主要通過調(diào)用zabbix API獲取zabbix告警從界面展示出來。網(wǎng)絡設備和網(wǎng)絡端口的監(jiān)控主要通過調(diào)用Cacti的監(jiān)控數(shù)據(jù)實現(xiàn)監(jiān)控統(tǒng)一。機房環(huán)境監(jiān)控主要通過獲取服務器BMC進風口傳感器數(shù)據(jù),通過IPMI協(xié)議的“Inlet_Temp”字段獲取數(shù)據(jù),由于該自動化運維平臺所屬數(shù)據(jù)中心有多品牌、多型號服務器,每個型號的服務器對應IPMI的該字段不同。
l 集中遠程KVM虛擬桌面
我們對大部分服務器都配置了BMC帶外管理系統(tǒng),接有獨立的網(wǎng)絡環(huán)境,我們可以通過BMC帶外管理系統(tǒng)進行遠程開機、關機、重啟以及打開KVM虛擬桌面。不過在DBLOS系統(tǒng)開發(fā)以前無法集中管理,我們通過結(jié)合IPMI和jviewer實現(xiàn)了上述功能的集中管理,可以在一個平臺實現(xiàn)一個或多個機房的管理。
對于遠程集中開機、關機和重啟的功能采用IPMI遠程指令的方式,更多細節(jié)功能可參考IPMI官方文檔。
本段重點介紹集中遠程KVM桌面的實現(xiàn)方法,我們通過對BMC登錄的時候進行頁面Session抓取,獲得登錄方式,打包到Cookie中,攜帶該Cookie請求KVM的jviewer.jnlp文件,下載完該jnlp文件后使用java打開即可。
l 其他功能
為便于數(shù)據(jù)中心值班人員查看值班表以及填寫每班次的值班報告等信息,在自動化運維平臺上增加了值班日報填寫和值班表查看等功能。值班表采用了前端的fullcalendar插件,值班日報采用jQuery的Table插件。
系統(tǒng)設置功能涵蓋了對各個模塊的參數(shù)控制,如溫度采集的間隔、機柜最高溫告警設置、告警對象設置等。
4 數(shù)據(jù)中心生命周期管理研究
隨著中國搜索業(yè)務的高速發(fā)展,存在著新增業(yè)務、變更業(yè)務、擴展(或縮減)業(yè)務等復雜的循環(huán)周期,數(shù)據(jù)中心需要根據(jù)業(yè)務的生命周期進行快速支撐,IT設備也需要根據(jù)業(yè)務的變動而隨時調(diào)配使用。
針對以上的問題我們對數(shù)據(jù)中心整個生命周期運轉(zhuǎn)設計了閉環(huán)流程:
如何盡可能地使上述環(huán)節(jié)實現(xiàn)自動化管理,是我們?nèi)蘸蟮墓ぷ鞣较颉N覀兝硐氲臓顟B(tài)是重新需求開始只需在電子工單系統(tǒng)上進行相關確認審核即可完成整個流程的閉環(huán)。具體流程為:
1) 新需求:業(yè)務團隊在電子工單系統(tǒng)提交設備使用需求;
2) 新設備上架:此處的新設備是指從庫存取出或新購設備,在線上統(tǒng)稱為新設備;
3) 新業(yè)務上線:應用運維團隊將業(yè)務同步至新設備并進行相關統(tǒng)一配置;
4) 系統(tǒng)信息維護:主要是運行過程中的運維工作,可自動化監(jiān)控、告警、報修、反饋等;
5) 業(yè)務下線:業(yè)務團隊通過電子工單系統(tǒng)提交下線需求,相關負責人審批完成后即可進行自動化業(yè)務下線操作;
6) 資產(chǎn)回收或報廢:根據(jù)下線需求的電子工單進行自動化設備關機觀察、資產(chǎn)回收、通知相關人員。如服務器服役超時將自動化標記報廢并通知相關負責人進行報廢處理;
7) 系統(tǒng)重裝:回收或新購的服務器通過API方式與電子工單系統(tǒng)結(jié)合,進行自動化系統(tǒng)重裝;
8) 待分配狀態(tài):主要是完成系統(tǒng)重裝后將該資產(chǎn)放置庫存待分配的狀態(tài),以進行后續(xù)環(huán)節(jié)的操作。
5結(jié)語
中國搜索數(shù)據(jù)中心自動化運維平臺是結(jié)合自身業(yè)務情況和數(shù)據(jù)中心現(xiàn)狀進行設計的,目前已完成研發(fā),處于試運行階段。歡迎媒體行業(yè)數(shù)據(jù)中心管理人員相互交流。
參考文獻:
[1] Cobblermanuals. Cobbler官方網(wǎng)站.
[2] Intelligent Platform Management Interface Specification Second Generation v2.0. Intel官方網(wǎng)站.
【通聯(lián)編輯:光文玲】