中國移動(dòng)通信集團(tuán)廣西有限公司信息技術(shù)管理部|宮大鵬 雷蕾 王濤
IT支撐系統(tǒng)是移動(dòng)業(yè)務(wù)正常運(yùn)行的基礎(chǔ)保障和支撐,在確保IT支撐系統(tǒng)的準(zhǔn)確性和可靠性的同時(shí),如何提升企業(yè)IT 支撐系統(tǒng)的支撐效能,實(shí)現(xiàn)IT支撐系統(tǒng)的高投資回報(bào)率,實(shí)現(xiàn)資源的合理配置,正逐漸成為電信運(yùn)營商中相關(guān)部門關(guān)注的焦點(diǎn)。本文通過使用多種大數(shù)據(jù)算法進(jìn)行容量預(yù)測(cè)和分析,希望在容量預(yù)測(cè)準(zhǔn)確性上有進(jìn)一步的突破。
容量分析規(guī)劃是指對(duì)移動(dòng)IT支撐系統(tǒng)進(jìn)行關(guān)鍵業(yè)務(wù)及相應(yīng)的設(shè)備容量、性能的關(guān)系分析。根據(jù)關(guān)鍵指標(biāo)數(shù)據(jù)與設(shè)備性能數(shù)據(jù)之間的關(guān)系,建立容量數(shù)學(xué)分析模型,結(jié)合各種因素(IT設(shè)備生命周期,系統(tǒng)優(yōu)化,業(yè)務(wù)的生命周期規(guī)律)對(duì)容量數(shù)學(xué)分析模型不斷改進(jìn)優(yōu)化,模型修正。容量管理服務(wù)引擎,是根據(jù)容量數(shù)學(xué)分析模型,結(jié)合設(shè)備性能數(shù)據(jù),關(guān)鍵業(yè)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行智能計(jì)算分析,得出IT設(shè)備的負(fù)載能力及未來業(yè)務(wù)的容量規(guī)劃能力,及時(shí)發(fā)現(xiàn)并預(yù)警容量性能瓶頸問題。
目前移動(dòng)用戶在IT支撐系統(tǒng)設(shè)備容量管理方面存在的主要問題包括:
1.缺乏對(duì)業(yè)務(wù)未來發(fā)展的預(yù)測(cè)分析(業(yè)務(wù)類型、業(yè)務(wù)功能、用戶量、性能需求等等);
2.缺乏對(duì)容量管理角色,以及其流程文檔化、規(guī)范化、標(biāo)準(zhǔn)化的清晰認(rèn)識(shí);
3.缺乏對(duì)引發(fā)IT容量問題根源的分析;
4.缺乏對(duì)大量、準(zhǔn)確的性能數(shù)據(jù)的收集和積累。
容量管理的目標(biāo)就是在合適時(shí)間、合適地點(diǎn)以及適當(dāng)?shù)某杀咎峁┖线m的資源,同時(shí)滿足移動(dòng)業(yè)務(wù)的持續(xù)增長(zhǎng)需要。
首先,通過收集業(yè)務(wù)和資源數(shù)據(jù),分析出業(yè)務(wù)量與資源容量使用情況的關(guān)系,建立起業(yè)務(wù)量與系統(tǒng)資源消耗量間的數(shù)學(xué)模型。
其次,從業(yè)務(wù)角度出發(fā),分析用戶使用業(yè)務(wù)的規(guī)律,找出業(yè)務(wù)發(fā)展的現(xiàn)有水平和未來趨勢(shì),并結(jié)合分析數(shù)學(xué)模型和業(yè)務(wù)發(fā)展水平,得出該系統(tǒng)的容量規(guī)劃和資源分配方案。
最后,根據(jù)業(yè)務(wù)的需求進(jìn)行虛擬資源再分配,從而解決因虛擬資源分配不合理,引起系統(tǒng)資源的頻繁回收與分配,造成部署的業(yè)務(wù)相互影響的問題。
基礎(chǔ)的容量數(shù)據(jù)已經(jīng)由監(jiān)控管理模塊或其它模塊采集,容量預(yù)測(cè)模塊通過接口直接獲取這些已有的數(shù)據(jù),以進(jìn)行容量預(yù)測(cè)。
數(shù)據(jù)據(jù)預(yù)處理主要對(duì)指標(biāo)數(shù)據(jù)進(jìn)行消噪溯源,對(duì)異常數(shù)據(jù)進(jìn)行特殊處理,避免異常數(shù)據(jù)影響預(yù)測(cè)模型的準(zhǔn)確性,異常數(shù)據(jù)主要來源于系統(tǒng)故障、節(jié)假日等,系統(tǒng)容量出現(xiàn)大的波動(dòng),如圖1所示。
通過系統(tǒng)容量歷史采樣數(shù)據(jù),利用指數(shù)平滑法對(duì)容量數(shù)據(jù)進(jìn)行平滑,并利用線性回歸算法建立容量預(yù)測(cè)模型。在本方案中,對(duì)于容量預(yù)測(cè)模型的建立主要通過數(shù)據(jù)層的Spark進(jìn)行,容量預(yù)測(cè)模型的建立步驟分為:一,計(jì)算容量分析指標(biāo)的平滑因子;二,計(jì)算容量分析指標(biāo)一次和二次指數(shù)平滑值;三,計(jì)算出線性回歸參數(shù)αt和βt,即截距和斜率;四,計(jì)算出容量分析指標(biāo)的調(diào)整因子。
在預(yù)計(jì)未來基礎(chǔ)架構(gòu)容量的需要時(shí),必須將業(yè)務(wù)發(fā)展變化需要的影響考慮到容量的發(fā)展變化當(dāng)中。將業(yè)務(wù)量變化的因素加入到性能指標(biāo)變化的過程中,更好地對(duì)未來性能指標(biāo)的發(fā)展做出預(yù)測(cè),是否要計(jì)算模型的調(diào)整因子,主要基于模型未調(diào)整前的精確度來決定。
利用大數(shù)據(jù)分析技術(shù),在大數(shù)據(jù)分析平臺(tái)的Hadoop框架中通過對(duì)IaaS、PaaS和SaaS各資源指標(biāo)的性能數(shù)據(jù)和告警數(shù)據(jù)基于MapReduce任務(wù)進(jìn)行批處理作業(yè),進(jìn)行智能分析計(jì)算,根據(jù)預(yù)測(cè)算法得出最后的預(yù)測(cè)數(shù)據(jù)。
能夠預(yù)測(cè)未來時(shí)間段的業(yè)務(wù)容量趨勢(shì)。
針對(duì)性能數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量檢查;篩選法定節(jié)假日等特殊時(shí)段;處理性能與業(yè)務(wù)指標(biāo)數(shù)據(jù)的采集周期,使其保持一致或近似;對(duì)CPU性能指標(biāo)、內(nèi)存性能指標(biāo)和虛擬內(nèi)存利用率指標(biāo),篩選出每天業(yè)務(wù)量最大值的產(chǎn)生時(shí)刻時(shí)的取值,用于計(jì)算資源容量預(yù)測(cè);對(duì)磁盤使用率、數(shù)據(jù)庫表空間使用率指標(biāo),按小時(shí)取平均值然后取每天的最大值,用于存儲(chǔ)資源容量預(yù)測(cè),如圖2所示。
圖1 數(shù)據(jù)處理邏輯流程
運(yùn)行指數(shù):衡量資源運(yùn)行壓力趨勢(shì),越高表示越忙。
能力指數(shù):衡量資源可用情況,對(duì)能力指數(shù)趨勢(shì)預(yù)測(cè)分析,可衡量業(yè)務(wù)系統(tǒng)主機(jī)的能力,取值范圍0-1。
對(duì)目前已經(jīng)納入到BOMC監(jiān)控范圍內(nèi)的系統(tǒng)平臺(tái)的歷史性能數(shù)據(jù)進(jìn)行采集,保留至少2年的歷史數(shù)據(jù),以便于歷史分析。
容量管理后臺(tái)計(jì)算引擎程序,根據(jù)計(jì)算模型,選取忙日忙時(shí)段的峰值數(shù)據(jù),進(jìn)行數(shù)據(jù)的處理計(jì)算,得到運(yùn)行指數(shù)和能力指數(shù),并結(jié)合業(yè)務(wù)指標(biāo)數(shù)據(jù),及預(yù)測(cè)模型進(jìn)行數(shù)據(jù)的趨勢(shì)預(yù)測(cè)分析,評(píng)估未來的容量規(guī)劃需求。
趨勢(shì)分析根據(jù)之前N個(gè)周期預(yù)測(cè)未來N個(gè)周期(月或天)資源性能負(fù)載情況,采用相應(yīng)的預(yù)測(cè)算法,對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)分析,智能判斷是否發(fā)生性能瓶頸或性能空閑,并能提前通過告警的方式通知用戶,采取應(yīng)對(duì)措施。說明:
圖2 CPU容量預(yù)測(cè)與內(nèi)存容量預(yù)測(cè)
1. 運(yùn)行指數(shù)公式(用戶數(shù)×每用戶月服務(wù)請(qǐng)求次數(shù)×月忙日集中系數(shù)×日忙時(shí)集中系數(shù)×每筆業(yè)務(wù)處理事物數(shù)/60/CPU使用閥值)。
2. 能力指數(shù)公式[(月話單量×話單長(zhǎng)度×存儲(chǔ)周期+其他)×盤陣RAID系數(shù)×(1+磁盤損耗)/存儲(chǔ)使用閾值]。
3. 如果運(yùn)算需要的指標(biāo)權(quán)重,運(yùn)行指數(shù)公式參數(shù),能力指數(shù)公式參數(shù)發(fā)生變化,則需要重新進(jìn)行該修改后的歷史數(shù)據(jù)的計(jì)算。
容量管理在電信企業(yè)管理中扮演著很重要的角色,它可以確保所有在云計(jì)算基礎(chǔ)架構(gòu)中任何與容量有關(guān)的變化都能夠支撐業(yè)務(wù)需求,通過容量管理,管理者可以在面對(duì)容量需求時(shí)作出最具成本效益的選擇。
對(duì)容量預(yù)測(cè)的深入研究,將以業(yè)務(wù)為基礎(chǔ),以建立的性能模型為依據(jù),避免傳統(tǒng)過于依賴規(guī)劃人員經(jīng)驗(yàn)的問題,使得容量規(guī)劃和資源的分配更加準(zhǔn)確。一方面使得系統(tǒng)處理能力能夠適應(yīng)業(yè)務(wù)快速變化發(fā)展的需求;另一方面,通過對(duì)資源的整合,減少硬件設(shè)備數(shù)量,有效地降低環(huán)境運(yùn)行成本,進(jìn)一步提升運(yùn)維管理水平。