范麗麗?阮前?蘇超
摘要:隨著云計(jì)算、大數(shù)據(jù)等技術(shù)的普遍使用,業(yè)務(wù)上云已經(jīng)成為主流趨勢(shì),云服務(wù)商業(yè)似雨后春筍般出現(xiàn)。云資源的規(guī)模也越來越大,動(dòng)輒幾萬甚至幾十萬臺(tái)服務(wù)器的規(guī)模;云上承載的業(yè)務(wù)系統(tǒng)數(shù)量迅速增至幾百甚至幾千,運(yùn)營分析的維度也變得精細(xì)化、多樣化,傳統(tǒng)粗獷的云資源運(yùn)營管理方式已無法滿足日益增長的運(yùn)營分析需求。一套有效的云資源全生命周期精細(xì)化管理運(yùn)營體系,能為云用戶提供便捷得云資源服務(wù),也能充分發(fā)揮“云”的優(yōu)勢(shì),實(shí)現(xiàn)云資源的可控、可管、可查,助力云服務(wù)商、云用戶實(shí)現(xiàn)降本增效。
關(guān)鍵詞:AI分析;精細(xì)化運(yùn)營;云資源運(yùn)營;云資源管理
一、背景
隨著微服務(wù)技術(shù)的快速發(fā)展和廣泛應(yīng)用,以及“業(yè)務(wù)應(yīng)用”與底層“云資源”的不斷解耦,云資源使用的方式基本實(shí)現(xiàn)“按需擴(kuò)縮”,使用的便捷性逐步增強(qiáng),“業(yè)務(wù)云化”已成為主流趨勢(shì)。很多企業(yè)采用租用云服務(wù)商的云資源,實(shí)現(xiàn)業(yè)務(wù)的快速部署。同時(shí),云服務(wù)商的“云”的規(guī)模也快速增加,從幾萬增加至幾十萬。傳統(tǒng)粗獷的資源運(yùn)營管理方式無法滿足“云”模式下,更加精細(xì)化和多樣的資源運(yùn)營需求。因此建立一套適用于“云”模式下的云資源全生命周期精細(xì)化管理運(yùn)營體系,合理有效地對(duì)云資源進(jìn)行管控勢(shì)在必行。這既便于云用戶實(shí)時(shí)了解所租用云資源的使用情況、業(yè)務(wù)運(yùn)行情況、及時(shí)擴(kuò)縮云資源,有效控制成本,也為云服務(wù)商擴(kuò)建云資源提供評(píng)估依據(jù),避免云資源空置,以提升云資源效能。
二、云資源全生命周期管理
構(gòu)建“事前、事中、事后”的云資源全生命周期運(yùn)營管理,以云用戶資源申請(qǐng)為起點(diǎn),以云用戶使用的資源回收至云為終點(diǎn),打通資源交付、資源開通、云資源回收三個(gè)關(guān)鍵云資源狀態(tài)節(jié)點(diǎn),實(shí)現(xiàn)云資源的全生命閉環(huán)管理。管理以“事中”的資源監(jiān)控和資源運(yùn)營分析結(jié)果為依據(jù),向前支撐“事前”云資源申請(qǐng)的審批評(píng)估,向后支撐“事后”云資源回收評(píng)估。
(一)資源申請(qǐng)
資源申請(qǐng)為云用戶使用云資源的第一步,在此之前云用戶需要根據(jù)即將上云的業(yè)務(wù)特點(diǎn)、需求、業(yè)務(wù)量等參數(shù)進(jìn)行云資源需求評(píng)估。上云的業(yè)務(wù)系統(tǒng)架構(gòu)設(shè)計(jì)必須為高可用架構(gòu),原則上應(yīng)為集群部署方式,需求評(píng)估需同步考慮架構(gòu)設(shè)計(jì)因素帶來的云資源冗余。云服務(wù)商會(huì)面向云用戶發(fā)布云資源產(chǎn)品目錄清單,云用戶可以根據(jù)評(píng)估后的需求進(jìn)行選擇申請(qǐng)。如果是擴(kuò)容的業(yè)務(wù)系統(tǒng)則可結(jié)合現(xiàn)網(wǎng)運(yùn)行業(yè)務(wù)的云資源分析結(jié)果進(jìn)行“事前”的需求評(píng)估。云用戶通過訂單或者工單的方式向云服務(wù)商提交資源申請(qǐng)。云服務(wù)商根據(jù)云用戶提交的資源申請(qǐng)材料對(duì)資源申請(qǐng)需求進(jìn)行評(píng)估,對(duì)合理的需求進(jìn)行交付,不合理的需求反饋云用戶進(jìn)行優(yōu)化調(diào)整。
(二)資源交付
資源交付為云用戶使用云資源的起點(diǎn),也是成本費(fèi)用計(jì)算、云資源使用分析的時(shí)間起點(diǎn)。云資源交付的數(shù)量以資源申請(qǐng)階段完成需求評(píng)估后,云用戶所提交的訂單或者為準(zhǔn),為云用戶后續(xù)使用云資源數(shù)量的上限閾值,云用戶在此閾值范圍內(nèi)可以進(jìn)行按需自服務(wù)創(chuàng)建和使用云資源。云資源交付的同時(shí),云上的自動(dòng)化工具也面向云用戶同步開放,云用戶可以按需使用。同時(shí)云服務(wù)商可對(duì)訂單或工單的審核、交付、通知進(jìn)行閉環(huán)管理并對(duì)交付數(shù)據(jù)進(jìn)行分析。
(三)資源開通
資源開通為資源交付后云用戶通過自服務(wù)方式按需對(duì)云資源進(jìn)行創(chuàng)建。開通后的云資源,云管理系統(tǒng)將會(huì)綁定開通時(shí)間、云用戶ID、業(yè)務(wù)系統(tǒng)ID等相關(guān)配置信息,用于后續(xù)云資源分析使用。云用戶開通云資源時(shí),可以使用云管理系統(tǒng)提供的自動(dòng)化工具批量安裝標(biāo)準(zhǔn)化的操作系統(tǒng)、鏡像、監(jiān)控工具等,如遇到相關(guān)問題,可以通過“云服務(wù)臺(tái)”向云服務(wù)商發(fā)起咨詢,云服務(wù)商有義務(wù)協(xié)助云用戶完成資源開通,配置策略等相關(guān)工作。云用戶可以通過工單的方式發(fā)起網(wǎng)絡(luò)策略、安全策略等云資源相關(guān)的其他需求。
(五)資源變更
資源變更主要是云用戶根據(jù)自身使用需求,變更云資源類型或者配置關(guān)系。主要用于云用戶內(nèi)部業(yè)務(wù)系統(tǒng)之間調(diào)整云資源數(shù)量、類型,或者變更與云資源相關(guān)的組織管理關(guān)系等,均由云用戶通過工單方式或者內(nèi)部其他流程自主發(fā)起,經(jīng)審批后生效。云管理系統(tǒng)會(huì)記錄資源變更生效時(shí)間,用于后續(xù)資源運(yùn)營分析使用。
(六)資源監(jiān)控
資源監(jiān)控是云資源全生命周期管理過程的“眼睛”,主要是對(duì)已開通資源的類型、狀態(tài)、性能進(jìn)行監(jiān)控。資源類型包括裸金屬、云主機(jī)、云存儲(chǔ)等;資源狀態(tài)包括測(cè)試中、運(yùn)行中、關(guān)機(jī)中等,性能數(shù)據(jù)包括CPU利用率、內(nèi)存利用率、存儲(chǔ)利用率、網(wǎng)絡(luò)資源利用率等。監(jiān)控中發(fā)現(xiàn)異常會(huì)向云用戶、云服務(wù)商發(fā)送告警信息。監(jiān)控?cái)?shù)據(jù)的來源大多為專業(yè)網(wǎng)管,通過數(shù)據(jù)接口方式獲取,如kafka等。
資源監(jiān)控的數(shù)據(jù)是云資源運(yùn)營分析的基礎(chǔ)數(shù)據(jù),外部獲取的監(jiān)控?cái)?shù)據(jù)格式一般不適用運(yùn)營分析,無法直接使用,需按照運(yùn)營分析相關(guān)要求進(jìn)行數(shù)據(jù)預(yù)處理,將從外部系統(tǒng)獲取的監(jiān)控?cái)?shù)據(jù)按照預(yù)處理規(guī)則,規(guī)范化處理后寫入運(yùn)營分析使用的數(shù)據(jù)庫。在數(shù)據(jù)處理規(guī)程中需配置一定的數(shù)據(jù)排查稽核規(guī)則,及時(shí)發(fā)現(xiàn)數(shù)據(jù)缺失、數(shù)據(jù)漏傳、數(shù)據(jù)漏取,以及數(shù)據(jù)異常等問題,并將相關(guān)問題及時(shí)向數(shù)據(jù)源反饋,以便及時(shí)排查、定位和修復(fù)相關(guān)數(shù)據(jù)問題。監(jiān)控?cái)?shù)據(jù)排查稽核周期應(yīng)盡量短,建議設(shè)置為天,或者小時(shí),過長的排查稽核周期會(huì)影響運(yùn)營分析質(zhì)量,同時(shí)也會(huì)導(dǎo)致數(shù)據(jù)問題排查周期長、問題定位難度大、排查效率低,也會(huì)進(jìn)一步影響云用戶使用體驗(yàn)。
(七)資源回收
資源回收主要是指云用戶結(jié)合自身業(yè)務(wù)發(fā)展情況,以及云資源運(yùn)營分析情況,經(jīng)綜合評(píng)估后,對(duì)計(jì)劃不再使用的云資源通過訂單或者工單的方式進(jìn)行釋放。釋放后的云資源回歸云服務(wù)商進(jìn)行再分配使用,并停止計(jì)費(fèi)。
三、資源運(yùn)營分析
資源運(yùn)營分析為云資源全生命周期管理最為核心的部分,向前為“事前”的資源申請(qǐng)?zhí)峁┬枨蠓治?、需求評(píng)審依據(jù),向后為“事后”的資源回收提供優(yōu)化部署、縮減資源的分析依據(jù)。
資源運(yùn)營分析的基礎(chǔ)數(shù)據(jù)包括資源監(jiān)控的數(shù)據(jù)、資源交付和資源開通相關(guān)的配置數(shù)據(jù),資源分析的主要目的是為用戶提供詳細(xì)的資源使用情況分析,以及改進(jìn)建議。內(nèi)容包括云用戶申請(qǐng)的資源類型和數(shù)量、開通使用的資源類型和數(shù)量、資源利用率情況,資源整體效能情況等,展現(xiàn)形式通常為月度總結(jié)報(bào)告、月度賬單、月度/年度趨勢(shì)曲線等。也可以結(jié)合AI等技術(shù)對(duì)未來一段時(shí)間內(nèi)的資源使用情況進(jìn)行預(yù)測(cè)等。
(一)云資源使用效能評(píng)估分析
資源運(yùn)行分析常見是使用CPU利用率、內(nèi)存利用率,單一的指標(biāo)無法全面體現(xiàn)云用戶資源的真實(shí)的使用情況,因此需要構(gòu)建一個(gè)綜合的評(píng)估模型,用綜合指標(biāo)來告知云用戶資源的整體使用情況及后續(xù)的整改建議。
綜合效能評(píng)估模型可以將CPU峰值、CPU均值、內(nèi)存峰值、內(nèi)存均值以及其他參數(shù)作為輸入?yún)?shù),并根據(jù)專家判斷法設(shè)置各參數(shù)權(quán)重,利用Bagging集成方法對(duì)輸入?yún)?shù)進(jìn)行AI模型訓(xùn)練,基于學(xué)習(xí)器包括K近鄰、決策樹和LSTM等方法,將計(jì)算的結(jié)果作為云用戶、業(yè)務(wù)系統(tǒng)的綜合效能評(píng)估得分,并反饋云用戶資源使用優(yōu)化的建議。比如回收某個(gè)業(yè)務(wù)系統(tǒng)云主機(jī)資源VCPU或者內(nèi)存利用率較低,建議回收部分VCPU和內(nèi)存資源;或者某個(gè)業(yè)務(wù)系統(tǒng)的裸金屬資源選型不合理,建議選擇性能更高或者更低配置的產(chǎn)品等。綜合效能評(píng)估一般按月進(jìn)行,并面向用戶發(fā)布當(dāng)月以及一定歷史周期內(nèi)的趨勢(shì)分析情況。
(二)低效無效資源分析
資源效能評(píng)估是以用戶、業(yè)務(wù)系統(tǒng)為對(duì)象分別進(jìn)行評(píng)估,評(píng)估云用戶、業(yè)務(wù)系統(tǒng)維度整體的資源使用情況,也是宏觀的角度提升優(yōu)化方向,但是如果云用戶、業(yè)務(wù)系統(tǒng)有較多低效或者無效資源,資源利用率或者效能評(píng)估的分析結(jié)果也會(huì)較差,低效無效資源分析是以單臺(tái)設(shè)備為最小顆粒度進(jìn)行云資源運(yùn)營分析,為云用戶提供設(shè)備維度的更精準(zhǔn)的優(yōu)化建議,進(jìn)一步為云用戶節(jié)約成本,提升資源效能。
低效資源主要是指長期處于利用率低或者低效能的云資源,判斷規(guī)則可以根據(jù)云資源實(shí)際運(yùn)營情況進(jìn)行設(shè)定,可以根據(jù)一個(gè)指標(biāo)設(shè)定判斷規(guī)則,也可以綜合幾個(gè)指標(biāo)設(shè)定判斷規(guī)則。通常是采用單臺(tái)云資源的CPU利用率和內(nèi)存利用率兩個(gè)指標(biāo),通過專家判斷法或者構(gòu)建AI模型分析來設(shè)定閾值,附加一定的時(shí)間周期設(shè)定判斷規(guī)則。最后統(tǒng)計(jì)低效資源占比情況分析,公式為低效資源總量/已交付的云資源總量,計(jì)算值越大,說明該云用戶或者業(yè)務(wù)系統(tǒng)低效資源占比越多,云資源效能提升的空間越大,云資源成本的優(yōu)化空間也越大。同時(shí),通過低效資源占比分析結(jié)果可以向下查詢低效資源的明細(xì),包括但不限于設(shè)備ID、設(shè)備位置、歸屬業(yè)務(wù)系統(tǒng)、歸屬云用戶。
(三)云資源使用預(yù)測(cè)分析
資源運(yùn)行分析除分析資源現(xiàn)網(wǎng)運(yùn)行外,需對(duì)未來一段時(shí)間內(nèi)趨勢(shì)進(jìn)行預(yù)測(cè),便于云用戶預(yù)知未來一段時(shí)間內(nèi)資源使用趨勢(shì),提前做好需求評(píng)估,提前進(jìn)行資源擴(kuò)縮申請(qǐng)。
結(jié)合一定歷史周期內(nèi)的資源利用率、資源效能情況,對(duì)未來進(jìn)行趨勢(shì)預(yù)測(cè),建議評(píng)估周期選擇至少13個(gè)月,兼顧同比和環(huán)比分析,采用數(shù)據(jù)統(tǒng)計(jì)分析方法計(jì)算設(shè)定預(yù)測(cè)合理區(qū)間的閾值,構(gòu)建AI訓(xùn)練模型,并將預(yù)測(cè)的結(jié)果發(fā)送給云用戶,如果預(yù)測(cè)結(jié)果不在合理區(qū)間,則同步給云用戶發(fā)送預(yù)警。
(四)云資源成本費(fèi)用分析
云資源費(fèi)用分析為云用戶提供清晰明了的云資源賬單,包含但不限于云用戶使用的云資源類型、云資源數(shù)量、使用時(shí)間、計(jì)費(fèi)單價(jià)、計(jì)費(fèi)總價(jià)等,并同時(shí)為云用戶提供一定歷史時(shí)間內(nèi)的資源使用量的趨勢(shì)分析、賬單費(fèi)用趨勢(shì)分析等。云資源賬單應(yīng)具備向下鉆取、可溯源等能力。
資源成本分析需要包含云用戶預(yù)算管理,結(jié)合云資源使用預(yù)測(cè)分析結(jié)果,當(dāng)預(yù)測(cè)有預(yù)算超支風(fēng)險(xiǎn)時(shí),提前向云用戶發(fā)布預(yù)警。同時(shí),結(jié)合低效無效資源分析情況,向云用戶發(fā)布閑置費(fèi)用/隱藏費(fèi)用的總量、占比等分析情況,便于云用戶及時(shí)釋放低效無效資源,節(jié)約成本。
四、結(jié)束語
云資源全生命周期管理各流程中云資源相關(guān)的屬性、狀態(tài)、性能等數(shù)據(jù)會(huì)產(chǎn)生變化,而這些數(shù)據(jù)均為資源精細(xì)化運(yùn)營分析的基礎(chǔ)數(shù)據(jù),因此在各流程環(huán)節(jié)中務(wù)必要有稽核、校驗(yàn)等機(jī)制,以保障運(yùn)營分析數(shù)據(jù)的準(zhǔn)確性。同時(shí),外部系統(tǒng)輸入的數(shù)據(jù),如專業(yè)網(wǎng)管的性能采集數(shù)據(jù)等,在進(jìn)行運(yùn)營分析前也需保障數(shù)據(jù)的質(zhì)量,一般會(huì)先按照運(yùn)營分析相關(guān)需求進(jìn)行數(shù)據(jù)治理,以保障外部輸入數(shù)據(jù)的完整性和準(zhǔn)確性,也便于及時(shí)發(fā)現(xiàn)和解決性能采集數(shù)據(jù)的質(zhì)量問題。
作者單位:范麗麗 阮前 蘇超 中移動(dòng)信息技術(shù)有限公司
參? 考? 文? 獻(xiàn)
[1]猴子·數(shù)據(jù)分析學(xué)院.數(shù)據(jù)分析思維方法分析和業(yè)務(wù)知識(shí).清華大學(xué)出版社.2020.11
[2]云計(jì)算開源產(chǎn)業(yè)聯(lián)盟.云優(yōu)化治理白皮書第一部分:成本優(yōu)化.2022.05
[3]云計(jì)算開源產(chǎn)業(yè)聯(lián)盟.云優(yōu)化治理白皮書第一部分:云資源效益優(yōu)化.2022.07
[4]孫宇熙.云計(jì)算與大數(shù)據(jù).人民郵電出版社.2017.01
[5]徐小龍等.云數(shù)據(jù)中心智能管理.電子工業(yè)出版社.2021.09
范麗麗(1982.03-),女,漢族,吉林長春,本科,中級(jí),研究方向:云資源運(yùn)營管理。