覃國孫
【摘 要】文章首先根據(jù)云管理平臺的基本特點介紹了基于虛擬化的云管理平臺的總體結(jié)構(gòu)設(shè)計思路,然后以廣西廣播電視監(jiān)測中心的監(jiān)測監(jiān)管云管理平臺為例,介紹了云管理平臺的功能架構(gòu)及其實現(xiàn),對企事業(yè)單位構(gòu)建私有云管理平臺具有一定的參考意義。
【關(guān)鍵詞】云管理平臺;虛擬化;高可用
【中圖分類號】TP311.52 【文獻(xiàn)標(biāo)識碼】A 【文章編號】1674-0688(2017)04-0030-03
0 前言
一個完整的云計算數(shù)據(jù)中心必然包含云管理平臺,它也是云數(shù)據(jù)中心的核心部分。云管理平臺的創(chuàng)建,一是為了提高資源的利用率,簡化資源和服務(wù)的管理和維護(hù),減少數(shù)據(jù)中心的運營成本;二是為了通過快速、簡單和可擴(kuò)展的方式創(chuàng)建和管理大型、復(fù)雜的IT基礎(chǔ)設(shè)施(服務(wù)器、網(wǎng)絡(luò)、應(yīng)用、存儲設(shè)備等)。本文旨在研究設(shè)計和實現(xiàn)一種既符合云管理平臺的基本特點,又貼合實際工作應(yīng)用需求的虛擬化云管理平臺。
1 云管理平臺總體結(jié)構(gòu)設(shè)計
本文提出的云管理平臺的技術(shù)思路主要從以下幾個方面去研究和設(shè)計,其總體結(jié)構(gòu)圖如圖1所示。
1.1 資源池化管理
通過對服務(wù)器和網(wǎng)絡(luò)設(shè)備等硬件資源進(jìn)行虛擬化處理,形成虛擬層面的資源池。該資源池可管理物理資源、虛擬資源、存儲資源和網(wǎng)絡(luò)資源。同時,可按需分配資源,為每一套應(yīng)用系統(tǒng)提供基礎(chǔ)的計算能力、存儲能力及網(wǎng)絡(luò)能力。
當(dāng)資源池中的資源不夠時,平臺能快速地將新增加的物理資源直接池化,平臺可自動識別新資源,在增加硬件資源的過程中不需要再做其他設(shè)定,由平臺自動進(jìn)行管理。虛擬服務(wù)器節(jié)點的增加由管理平臺對虛擬服務(wù)器鏡像進(jìn)行復(fù)制即可實現(xiàn)業(yè)務(wù)服務(wù)器的增加,整個過程的資源分配由平臺管理軟件自動實現(xiàn),減少了人工管理成本。
1.2 高可用管理
采用從虛擬機(jī)、應(yīng)用程序和業(yè)務(wù)數(shù)據(jù)3個維度進(jìn)行高可用管理的策略來保障部署在云上的業(yè)務(wù)的連續(xù)性。
1.2.1 虛擬機(jī)高可用
管理平臺底層設(shè)計采用分布式文件系統(tǒng),數(shù)據(jù)多備份,自動檢測故障,自動恢復(fù)數(shù)據(jù),可以保證虛擬機(jī)硬盤資源的安全性。CPU、內(nèi)存和存儲都化為虛擬資源被加入到資源池中,虛擬機(jī)可以在資源池中的任意物理機(jī)上啟動,并配合虛擬機(jī)動態(tài)切換機(jī)制,保證虛擬機(jī)的高可用。通過偵聽虛擬機(jī)的網(wǎng)絡(luò)和服務(wù)提供的Heartbeat接口,在短時間內(nèi)完成虛擬機(jī)狀態(tài)的判斷,并創(chuàng)建新虛擬機(jī)接替業(yè)務(wù)程序,切換時間視虛擬機(jī)的操作系統(tǒng)的不同而有所變化。
虛擬機(jī)鏡像采用支持寫時復(fù)制的qcow2鏡像格式,以鏡像模板加快照的方式創(chuàng)建和還原虛擬機(jī)。虛擬機(jī)中的業(yè)務(wù)應(yīng)用進(jìn)行升級更新時,可先在后臺復(fù)制的一臺虛擬機(jī)中進(jìn)行應(yīng)用升級,待該克隆虛擬機(jī)測試通過后快速替換運行原應(yīng)用程序的虛擬機(jī),采用這種虛擬機(jī)創(chuàng)建替換方法,使系統(tǒng)應(yīng)用不發(fā)生中斷,保證業(yè)務(wù)的連續(xù)性。
1.2.2 應(yīng)用程序高可用
管理平臺同時為虛擬機(jī)中的應(yīng)用程序提供Heartbeat接口,實時監(jiān)控應(yīng)用程序的健康狀態(tài),一旦監(jiān)控到當(dāng)前應(yīng)用程序與管理平臺部署的心跳檢測出現(xiàn)異常,管理平臺在預(yù)設(shè)閾值時間內(nèi)將自動關(guān)閉當(dāng)前的虛擬機(jī),啟動備機(jī),整個切換過程在極短的時間內(nèi)完成,能夠保證業(yè)務(wù)程序的高可用。
1.2.3 業(yè)務(wù)數(shù)據(jù)高可用
所有的虛擬機(jī)中都不保存業(yè)務(wù)數(shù)據(jù),所有業(yè)務(wù)數(shù)據(jù)通過映射網(wǎng)絡(luò)驅(qū)動器保存至分布式存儲中,采用基于分布式存儲的容災(zāi)設(shè)計,保證業(yè)務(wù)數(shù)據(jù)的高可用。
1.3 設(shè)備監(jiān)控管理
管理平臺通過接口實時采集基礎(chǔ)設(shè)施硬件等物理資源的各種自身狀態(tài)信息,并設(shè)計基于圖像可視化的設(shè)備監(jiān)控界面,實時展示服務(wù)器磁盤運行狀態(tài)和網(wǎng)絡(luò)設(shè)備端口連接狀態(tài)等,并能實現(xiàn)對虛擬資源及各個業(yè)務(wù)系統(tǒng)的應(yīng)用性能進(jìn)行監(jiān)控與管理,以便更全面、直觀地掌握整個平臺的使用狀況并及時進(jìn)行維護(hù)管理。
1.4 實時監(jiān)測告警管理
通過在多個計算節(jié)點部署集群化的監(jiān)視器,設(shè)計采用虛擬機(jī)主動向服務(wù)器發(fā)送心跳包的方式,避免了服務(wù)器主動發(fā)包方式會增加管理平臺負(fù)擔(dān)和依賴客戶端程序穩(wěn)定性的情況,建立管理平臺與虛擬機(jī)之間心跳包自動檢測機(jī)制,定時檢測虛擬機(jī)狀態(tài),發(fā)現(xiàn)異常后立即自動連接短信發(fā)布模塊向管理人員發(fā)送相應(yīng)的故障信息,能及時了解并處理平臺故障,保證云平臺的穩(wěn)定性和系統(tǒng)維護(hù)的高效性。
1.5 Web服務(wù)
云平臺管理軟件可對資源域中所有節(jié)點上的資源進(jìn)行統(tǒng)一管理,并提供Web接口給管理員和用戶,所有運維管理用戶角色都通過網(wǎng)絡(luò)查看云平臺的實時運行狀態(tài)及管理整個集群,并對權(quán)限內(nèi)的資源進(jìn)行訪問和操作。
云平臺管理軟件相當(dāng)于云操作系統(tǒng),本文設(shè)計將此軟件部署在高可用的虛擬機(jī)上,這樣的好處在于這臺虛擬機(jī)可以動態(tài)地生成于云平臺中的任一節(jié)點服務(wù)器上,相較于固定節(jié)點安裝方式更靈活可靠,并實現(xiàn)了管理軟件的業(yè)務(wù)連續(xù)、高可用。此外,管理軟件如果發(fā)生故障,只會影響云數(shù)據(jù)中心的管理功能,而不會影響整個數(shù)據(jù)中心的正常運轉(zhuǎn)。
2 云管理平臺主要功能設(shè)計
根據(jù)總體結(jié)構(gòu)設(shè)計與技術(shù)思路,設(shè)計云管理平臺的主要功能應(yīng)包括云平臺總覽、資源管理、項目管理、告警管理、模板管理、系統(tǒng)管理等功能模塊,其功能架構(gòu)圖如圖2所示。
由于設(shè)計實現(xiàn)的功能眾多,下面結(jié)合廣西廣播電視監(jiān)測中心云管理平臺實踐,選取幾個重要的功能進(jìn)行介紹。
2.1 云平臺總覽
云平臺總覽是將數(shù)據(jù)中心內(nèi)部的所有硬件信息的健康狀況、資源的使用率、所在網(wǎng)絡(luò)的位置等綜合地展現(xiàn)出來,給管理用戶展示更直觀的管理界面。通過該界面可直觀、動態(tài)地反映整個云平臺的實時運行狀態(tài),包括CPU、內(nèi)存、硬盤等池化資源的實時使用情況,各類物理服務(wù)器、交換機(jī)和存儲設(shè)備的網(wǎng)絡(luò)狀態(tài)和設(shè)備健康狀態(tài),以及一些集群的概況和告警信息等。其中,動態(tài)的系統(tǒng)拓?fù)湟晥D與機(jī)柜中實際的交換機(jī)和服務(wù)器盤位一一真實對應(yīng),具體到每個接口和每塊磁盤的狀態(tài),管理平臺每秒輪巡顯示所有機(jī)柜中每臺物理機(jī)和交換機(jī)的連接情況,以不同的顏色顯示每個節(jié)點、鏈路的實時狀況,并實時更新物理機(jī)的圖標(biāo)和連接線顏色,畫面更加生動、直觀,能更快速、全面地掌握整個云平臺的資源狀態(tài),也能更好地定位故障點,提高系統(tǒng)維護(hù)的及時性。云平臺總覽實際效果圖如圖3所示。
2.2 資源管理
資源管理包括物理機(jī)管理及監(jiān)控、虛擬機(jī)管理及監(jiān)控、存儲管理及監(jiān)控等模塊,其整合了數(shù)據(jù)中心內(nèi)部的計算資源、存儲資源、網(wǎng)絡(luò)資源,并做到從上層的應(yīng)用到底層硬件設(shè)備的實時監(jiān)控,幫助管理員和用戶檢查應(yīng)用和控制資源的動態(tài)分配。
2.2.1 虛擬機(jī)管理
虛擬機(jī)管理包括創(chuàng)建虛擬機(jī)、維護(hù)虛擬機(jī)、替換虛擬機(jī)、開關(guān)及刪除虛擬機(jī)、遠(yuǎn)程登錄虛擬機(jī)、分配和遷移虛擬機(jī)、制作虛擬機(jī)模版、虛擬機(jī)高可用管理等模塊,這些也是管理平臺日常使用最頻繁的功能。這里介紹創(chuàng)建虛擬機(jī)和虛擬機(jī)高可用管理這2個比較具有本平臺特點的功能。
2.2.1.1 創(chuàng)建虛擬機(jī)
創(chuàng)建虛擬機(jī)是管理平臺時常使用的操作,為提高管理使用效率,本平臺設(shè)計出的配置虛擬機(jī)界面幾乎是“傻瓜化”的,只需簡單填寫數(shù)字和拉動進(jìn)度條即可快速配置所需要的虛擬機(jī),真正做到了像使用水電一樣按需靈活分配,不用經(jīng)過培訓(xùn)即可操作,大大提高了工作效率。
2.2.1.2 虛擬機(jī)高可用管理
中心管理員或者團(tuán)隊管理員都可以對其管理的虛擬機(jī)進(jìn)行高可用操作。本平臺根據(jù)實際應(yīng)用需求設(shè)計提供了2種高可用的方式供用戶選擇,即還原式高可用和重啟式高可用。
還原式高可用能夠在虛擬機(jī)宕機(jī)時,按照最新的快照部署新的虛擬機(jī),保證虛擬機(jī)的業(yè)務(wù)不間斷;重啟式高可用能夠在虛擬機(jī)宕機(jī)、斷網(wǎng)、物理機(jī)斷連時,重啟虛擬機(jī),管理員可以通過實際登錄虛擬機(jī)查看其可用情況,如果用戶判定這臺虛擬機(jī)在重啟后可用,那么無需還原虛擬機(jī),如果用戶判定這臺虛擬機(jī)不可用,那么可以手動還原虛擬機(jī)。
2種高可用方式的設(shè)置可以使管理員根據(jù)需要靈活管理虛擬機(jī),以多種手段靈活保障虛擬機(jī)高可用。
2.2.2 告警管理
云管理平臺使用告警信息進(jìn)行實時短信發(fā)送的方式來進(jìn)行監(jiān)測預(yù)警。若告警持續(xù)1~3 min,那么平臺進(jìn)行第一次短信發(fā)送;若告警持續(xù)4~9 min,那么平臺進(jìn)行第二次短信發(fā)送;若告警持續(xù)10~30 min,那么平臺進(jìn)行第三次短信發(fā)送;若告警持續(xù)31~60 min,那么系統(tǒng)進(jìn)行第四次短信發(fā)送。經(jīng)過分類分級的短信設(shè)置,可以進(jìn)一步提高管理平臺響應(yīng)處理和及時解決故障的能力。
3 結(jié)語
經(jīng)過實踐證明,本平臺通過結(jié)合實際需求的設(shè)計應(yīng)用,能使云數(shù)據(jù)中心的運維管理人員通過全面可視化的多元操作管理界面,只需簡單操作,就能快速地對整個云數(shù)據(jù)中心的資源進(jìn)行動態(tài)靈活的管理調(diào)度、按需分配及運維操作,實現(xiàn)了易操作、易管理維護(hù)的效果,同時通過多種技術(shù)手段保證了云數(shù)據(jù)中心具備高可用性、高安全性,這對其他企業(yè)和單位構(gòu)建云管理平臺有一定的參考價值。
參 考 文 獻(xiàn)
[1]孫磊,沈蘇彬.一種基于OpenStack的云管理平臺[J].計算機(jī)技術(shù)與發(fā)展,2016(1):185-189.
[2]楊紹光,張云勇,等.基于OpenStack的云計算IaaS管理平臺研究[J].互聯(lián)網(wǎng)天地,2013(3).
[3]鄭楚鋒.虛擬數(shù)據(jù)中心云管理平臺的設(shè)計與實現(xiàn)[D].廣州:華南理工大學(xué)軟件學(xué)院,2012.