李永超 周麗麗 張悅
大連市氣象信息中心 遼寧 大連 116001
隨著互聯(lián)網(wǎng)等技術(shù)的不斷進(jìn)步和云計(jì)算產(chǎn)業(yè)的高速發(fā)展,各個(gè)行業(yè)的信息化建設(shè)和數(shù)據(jù)中心規(guī)模發(fā)展迅速,以云計(jì)算發(fā)展為突出代表。氣象部門的私有云建設(shè)不僅參與了信息化技術(shù)應(yīng)用,同時(shí)也推動(dòng)了云計(jì)算行業(yè)的發(fā)展,近年來全國各級(jí)氣象部門都在廣泛開展云計(jì)算、虛擬化等嘗試,最終完成傳統(tǒng)信息技術(shù)到虛擬化應(yīng)用的轉(zhuǎn)變,并將虛擬化技術(shù)的優(yōu)勢逐漸體現(xiàn)出來[2]。隨著大連氣象系統(tǒng)信息化建設(shè)初具規(guī)模,已經(jīng)建設(shè)了覆蓋全市的高速業(yè)務(wù)專用網(wǎng)絡(luò)和高可用、高性能的數(shù)據(jù)中心。近些年來,隨著業(yè)務(wù)的不斷發(fā)展,各種氣象軟件和氣象資源不斷增加,業(yè)務(wù)環(huán)境中桌面終端的維護(hù)成本日益增長。2015年大連市氣象局服務(wù)器虛擬化平臺(tái)建設(shè)初步建成,分別由一套華為刀箱服務(wù)器集群和6臺(tái)利舊服務(wù)器集群搭建完成,由一套VCenter進(jìn)行集中管理。后經(jīng)多次升級(jí)擴(kuò)容,增加了7臺(tái)高性能服務(wù)器組建了第三套虛擬化集群,存儲(chǔ)和內(nèi)存等資源都得到了提升。作為虛擬化平臺(tái)管理人員,在為全局業(yè)務(wù)用戶提供便利的同時(shí)也帶來一些管理方面的困惑和技術(shù)瓶頸,有待于進(jìn)一步解決。
自2015年起,大連市氣象局基于服務(wù)器虛擬化技術(shù)實(shí)現(xiàn)了私有云以來,目前已完成3套服務(wù)器虛擬化集群和管理平臺(tái),資源池主要包括物理服務(wù)器20臺(tái)、CPU 736核、內(nèi)存1920G、存儲(chǔ)容量100T。運(yùn)行的虛擬機(jī)130余臺(tái),承載了氣象臺(tái)、服務(wù)中心、信息中心等多個(gè)重要業(yè)務(wù)系統(tǒng)[1]。
當(dāng)前私有云運(yùn)維管理自動(dòng)化程度不高,主要體現(xiàn)在兩個(gè)方面:一是資源池規(guī)模越來越大、虛擬機(jī)系統(tǒng)資源故障隱患點(diǎn)不易排查(比如內(nèi)存、CPU、存儲(chǔ)空間不足,物理機(jī)宕機(jī)等),僅依靠管理員人工監(jiān)控往往出現(xiàn)故障或隱患發(fā)現(xiàn)不及時(shí)、資源動(dòng)態(tài)分配失衡等問題,導(dǎo)致集群HA性能下降、虛擬機(jī)業(yè)務(wù)系統(tǒng)運(yùn)行不穩(wěn)定。二是用戶虛擬機(jī)管理采用紙質(zhì)化的申請(qǐng)流程不但效率低,而且檔案不易長久保存。開發(fā)智能化的運(yùn)維監(jiān)控管理平臺(tái)實(shí)現(xiàn)對(duì)集群中虛擬機(jī)、物理機(jī)和存儲(chǔ)等資源的自動(dòng)化監(jiān)控,提升用戶虛擬機(jī)管理水平。
搭建的B/S架構(gòu)虛擬化管理平臺(tái),其中主要開發(fā)模塊包括以下5個(gè)方面的內(nèi)容:基于VMware接口服務(wù),開發(fā)信息處理程序并設(shè)置計(jì)劃任務(wù)定時(shí)獲取資源池宿主服務(wù)器、通信網(wǎng)絡(luò)和存儲(chǔ)的負(fù)載信息;獲取虛擬機(jī)的運(yùn)行狀態(tài)信息,如告警、CPU、網(wǎng)絡(luò)等50余項(xiàng);開發(fā)資源池實(shí)時(shí)狀態(tài)和風(fēng)險(xiǎn)告警顯示模塊;開發(fā)資源池容量和余量信息報(bào)表導(dǎo)出模塊;開發(fā)虛擬機(jī)網(wǎng)上管理流程模塊,實(shí)現(xiàn)虛擬機(jī)審批自動(dòng)化。
圖1 虛擬機(jī)審批流程
圖2 虛擬化管理平臺(tái)
平臺(tái)搭建的技術(shù)難點(diǎn)和關(guān)鍵問題如下:利用接口程序獲取虛擬化集群設(shè)備和虛擬機(jī)的狀態(tài)信息并入庫;根據(jù)重要程度分級(jí)顯示狀態(tài)故障和隱患;故障出現(xiàn)時(shí)及時(shí)告警通知管理員進(jìn)行處理。平臺(tái)技術(shù)方案包括以下6個(gè)部分:①梳理平臺(tái)監(jiān)控內(nèi)容,整理監(jiān)控列表,分別從通訊狀態(tài)、宿主物理機(jī)、虛擬機(jī)、存儲(chǔ)層面選擇監(jiān)控選項(xiàng);②虛擬機(jī)審批流程設(shè)計(jì)。根據(jù)業(yè)務(wù)需要,用戶角色設(shè)計(jì)應(yīng)包括系統(tǒng)管理員、虛擬機(jī)管理員、虛擬機(jī)用戶、部門領(lǐng)導(dǎo)、主管領(lǐng)導(dǎo)等。③采用PHP等技術(shù)開發(fā)B/S版虛擬化管理平臺(tái),主要包括虛擬化重要資源監(jiān)控模塊、虛擬機(jī)申請(qǐng)流程模塊和報(bào)表生成模塊。④創(chuàng)建后臺(tái)sql server數(shù)據(jù)庫并根據(jù)需要設(shè)計(jì)表結(jié)構(gòu),包括用戶角色、集群、主機(jī)、CPU核數(shù)、CPU使用率、總內(nèi)存、內(nèi)存使用率、開機(jī)時(shí)間、統(tǒng)計(jì)時(shí)間等。⑤通過RVTools工具,開發(fā)后臺(tái)處理程序并設(shè)置定時(shí)處理任務(wù)獲取VMware VCenter的集群狀態(tài)信息,寫入平臺(tái)數(shù)據(jù)庫中。通過輸入VCenter的連接方式,連接上RVTools后,可以找到虛擬機(jī)、主機(jī)、集群、交換機(jī)、端口組以健康狀態(tài)等十幾個(gè)視圖。這些視圖的每一行都包含了非常詳細(xì)的信息。⑥平臺(tái)讀取后臺(tái)數(shù)據(jù)并顯示于前臺(tái)界面相應(yīng)位置,管理員設(shè)置相關(guān)告警閾值,顯示各資源運(yùn)行狀態(tài),超出閾值則發(fā)出告警通知值班員。虛擬機(jī)審批流程如圖1所示,虛擬化管理平臺(tái)設(shè)計(jì)如圖2所示[3]。
根據(jù)功能需求和設(shè)計(jì)完成了平臺(tái)的搭建、功能測試和穩(wěn)定性測試,其中功能模塊實(shí)現(xiàn)了對(duì)云數(shù)據(jù)中心資源的狀態(tài)采集和資源狀態(tài)統(tǒng)計(jì),并在此基礎(chǔ)上完成了異常告警模塊和多樣化數(shù)據(jù)展示;虛擬機(jī)資源審批模塊完成了各流程的轉(zhuǎn)發(fā)審批和資源配置要求不恰當(dāng)?shù)纫蛩卦斐蓪徟赐ㄟ^的情況下重新申請(qǐng)的流轉(zhuǎn),最終實(shí)現(xiàn)無紙化審批、集中監(jiān)控、動(dòng)態(tài)優(yōu)化、節(jié)能低耗等功能。虛擬機(jī)資源狀態(tài)告警功能通過將超閾值信息在平臺(tái)上紅色顯示以及推送到本地集中告警平臺(tái)數(shù)據(jù)庫中,并通過阿里云郵件系統(tǒng)和短信通知管理員和值班員,起到雙重告警的作用。該平臺(tái)與VCerter相比較,其優(yōu)點(diǎn)在于異常告警提醒和狀態(tài)信息多樣化展示,這也是開發(fā)本平臺(tái)的首要任務(wù)。平臺(tái)四個(gè)功能模塊:用戶虛擬機(jī)申請(qǐng)、部門虛擬機(jī)操作系統(tǒng)分配信息、集群資源池統(tǒng)計(jì)信息、全局各部門虛擬機(jī)數(shù)量統(tǒng)計(jì)信息[4-6]。如圖3(a)--3(d):
圖3 (a) 用戶虛擬機(jī)申請(qǐng)
圖3 (b) 部門虛擬機(jī)操作系統(tǒng)分配信息
圖3 (c) 集群資源池統(tǒng)計(jì)信息
圖3 (d) 全局各部門虛擬機(jī)數(shù)量統(tǒng)計(jì)信息
虛擬化管理平臺(tái)經(jīng)過測試和試運(yùn)行階段,時(shí)長為20個(gè)工作日。在測試階段完成了用戶虛擬機(jī)審批流程中用戶填表格選項(xiàng)煩瑣的問題,開發(fā)修訂后操作方式得到簡化;在測試運(yùn)行階段主管領(lǐng)導(dǎo)提出對(duì)資源池狀態(tài)統(tǒng)計(jì)表的修改意見,包括需要統(tǒng)計(jì)虛擬機(jī)資源使用狀態(tài)等。開發(fā)者對(duì)相應(yīng)問題進(jìn)行整理、總結(jié)和重新調(diào)整代碼,平臺(tái)功能得到進(jìn)一步完善和豐富[7]。
虛擬化運(yùn)維管理平臺(tái)在其管理員經(jīng)驗(yàn)積累和深入技術(shù)研究的基礎(chǔ)上完成了對(duì)本單位私有云集中運(yùn)維管理。平臺(tái)根據(jù)用戶角色和權(quán)限分配實(shí)現(xiàn)了部門用戶對(duì)虛擬機(jī)網(wǎng)上審批流程,包括用戶、部門領(lǐng)導(dǎo)、主管領(lǐng)導(dǎo)及管理員之間的自動(dòng)流轉(zhuǎn)功能;私有云資源管理模塊利用RVTools工具通過VMWare VCerter接口讀取資源池狀態(tài)信息,并實(shí)現(xiàn)入庫和顯示,其中顯示部分根據(jù)業(yè)務(wù)需要進(jìn)行分類統(tǒng)計(jì)和整理,并呈現(xiàn)多種顯示方式,如柱狀圖等。由于推廣應(yīng)用時(shí)間較短、用戶意見征集較少,平臺(tái)存在一定不足之處,如管理平臺(tái)包括申請(qǐng)、評(píng)估和終止環(huán)節(jié)各個(gè)周期的要求,促進(jìn)硬件資源、系統(tǒng)軟件合理配置等功能有待完善。