国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于馬爾可夫性的云原生應(yīng)用資源動(dòng)態(tài)分配策略的研究

2022-07-11 01:13曲左陽(yáng)王偉萌朱韋橋
電子技術(shù)與軟件工程 2022年7期
關(guān)鍵詞:利用率信息系統(tǒng)監(jiān)控

曲左陽(yáng) 王偉萌 朱韋橋

(中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司電子計(jì)算技術(shù)研究所 北京市 100081)

云化數(shù)據(jù)中心應(yīng)用系統(tǒng)自適應(yīng)資源動(dòng)態(tài)預(yù)分配機(jī)制能有效提高信息系統(tǒng)穩(wěn)定性,配合其他運(yùn)維手段可降低集群能耗,具有較高的研究?jī)r(jià)值。本文研究是在掌握云原生的資源走向的同時(shí),對(duì)計(jì)算資源、網(wǎng)絡(luò)資源等多個(gè)資源實(shí)體進(jìn)行操作和管理。資源管理的范疇包括生命周期、虛擬機(jī)狀態(tài)計(jì)算、資源分布等。資源動(dòng)態(tài)適配的目的是信息系統(tǒng)工作負(fù)載的合理運(yùn)用以及云端資源的高效分配。從業(yè)務(wù)角度出發(fā),研究資源動(dòng)態(tài)匹配技術(shù)對(duì)信息系統(tǒng)服務(wù)質(zhì)量的進(jìn)一步發(fā)展具有長(zhǎng)遠(yuǎn)的意義。

云計(jì)算中的資源調(diào)度問(wèn)題有兩個(gè)主要視角:來(lái)自基礎(chǔ)設(shè)施資源池和來(lái)自應(yīng)用服務(wù)。從基礎(chǔ)設(shè)施資源池的角度來(lái)看,調(diào)度策略應(yīng)該具有收斂邊界并降低維護(hù)和能耗成本。已有研究表明,云原生應(yīng)用的資源動(dòng)態(tài)分配策略不可能通過(guò)使用簡(jiǎn)單的算法或規(guī)則找到全局最優(yōu)解。而采用近似方法或深度學(xué)習(xí)方法,結(jié)果不可預(yù)測(cè)或需要大量的工程成本,這在實(shí)際環(huán)境中不實(shí)用。此外,大量信息系統(tǒng)堆疊后的工作負(fù)載的產(chǎn)生可能過(guò)于復(fù)雜,取決于環(huán)境的業(yè)務(wù)方向,因此很難找到一種通用的資源調(diào)度策略能夠很好的應(yīng)對(duì)各類(lèi)業(yè)務(wù)場(chǎng)景,因此本文試圖通過(guò)從鐵路主數(shù)據(jù)中心既有的應(yīng)用運(yùn)行情況研究資源調(diào)度特征結(jié)合事件驅(qū)動(dòng)思想,建立一個(gè)適用的資源分配模型。

1 主數(shù)據(jù)中心信息系統(tǒng)資源調(diào)度方式

在傳統(tǒng)模式下,資源管理的方式是將物理或者虛擬的操作系統(tǒng)分配給用戶(hù),通常是使用專(zhuān)用的配置管理工具來(lái)進(jìn)行安裝和部署軟件,然后通過(guò)標(biāo)準(zhǔn)化、自動(dòng)化的工具達(dá)到簡(jiǎn)化處理流程的目的。定額分配資源模式難以支撐業(yè)務(wù)發(fā)展,圍繞如何有效調(diào)整資源配置,提高資源利用率這一問(wèn)題,國(guó)內(nèi)外開(kāi)展可一系列研究,提出了很多基于CPU 利用率、內(nèi)存使用占比的資源配置方案,或者根據(jù)資源預(yù)測(cè)模型,結(jié)合熱遷移技術(shù)對(duì)資源進(jìn)行垂直伸縮,達(dá)到動(dòng)態(tài)分配資源提高資源利用率的目的。AWS 提供了Lambda 商用計(jì)算服務(wù)在可用性高的計(jì)算基礎(chǔ)設(shè)施上運(yùn)行用戶(hù)代碼,執(zhí)行計(jì)算資源的所有管理工作,其中包括服務(wù)器和操作系統(tǒng)維護(hù)、容量預(yù)置和自動(dòng)擴(kuò)展、代碼監(jiān)控和記錄。該服務(wù)實(shí)現(xiàn)只在需要時(shí)執(zhí)行代碼并自動(dòng)縮放。

云原生數(shù)據(jù)具有數(shù)據(jù)容量大,種類(lèi)繁多,對(duì)數(shù)據(jù)處理時(shí)效性要求高的特點(diǎn),目前運(yùn)維團(tuán)隊(duì)已經(jīng)開(kāi)展了響應(yīng)的云環(huán)境下智能運(yùn)維關(guān)鍵技術(shù)研究,其中在監(jiān)控智能化和感知分析領(lǐng)域進(jìn)行了較多的工作,對(duì)云環(huán)境下基礎(chǔ)設(shè)施運(yùn)行狀態(tài)進(jìn)行監(jiān)控,并依托于Hadoop 環(huán)境、ELK(Elasticsearch,Logstash, Kibana)架構(gòu)和傳統(tǒng)Zabbix 數(shù)據(jù)監(jiān)控環(huán)境。但此類(lèi)工作的最終目的在于應(yīng)對(duì)系統(tǒng)的故障分析與定位處置,雖然從被動(dòng)運(yùn)維向主動(dòng)運(yùn)維不斷發(fā)展,但對(duì)于應(yīng)用系統(tǒng)層面的資源響應(yīng)力度不足,對(duì)于應(yīng)用系統(tǒng)因部分資源短板導(dǎo)致的服務(wù)降級(jí)缺乏敏感性。

目前,企業(yè)私有云資源響應(yīng)機(jī)制主要是通過(guò)用戶(hù)側(cè)與開(kāi)發(fā)運(yùn)維側(cè)共同完成,資源響應(yīng)機(jī)制如圖1 所示。由于目前虛擬機(jī)計(jì)算資源無(wú)法跨宿主機(jī)調(diào)配,所以沒(méi)有進(jìn)行服務(wù)拆分或服務(wù)拆分粒度較大的應(yīng)用系統(tǒng),在資源告警引發(fā)服務(wù)降級(jí)時(shí),依然要面臨垂直擴(kuò)容和遷移,雖然這一過(guò)程可通過(guò)技術(shù)手段實(shí)現(xiàn)了自動(dòng)化處理,但依然存在兩個(gè)較為顯著的問(wèn)題,第一是資源配置響應(yīng)時(shí)間內(nèi),應(yīng)用系統(tǒng)服務(wù)會(huì)降級(jí)或熔斷;第二是部分應(yīng)用運(yùn)維團(tuán)隊(duì)會(huì)以應(yīng)用系統(tǒng)峰值流量水平超量申請(qǐng)資源導(dǎo)致資源的閑置和浪費(fèi)。

圖1:鐵路主數(shù)據(jù)中心資源響應(yīng)策略

2 動(dòng)態(tài)分配策略的業(yè)務(wù)量特征分析

以本文研究的鐵路主數(shù)據(jù)中心為例,所承載業(yè)務(wù)可歸屬分類(lèi)為6 個(gè)領(lǐng)域,且已有研究表明,旅客運(yùn)輸,鐵路建設(shè)等業(yè)務(wù)領(lǐng)域具有明顯的周期性波動(dòng),因此對(duì)于業(yè)務(wù)壓力導(dǎo)向的資源需求變動(dòng)可以將信息系統(tǒng)對(duì)于資源的需求劃分為離散的有限狀態(tài)。本文僅討論計(jì)算資源的動(dòng)態(tài)分配策略,并由遵循下列假設(shè):

有余量資源可供應(yīng)用系統(tǒng)直接擴(kuò)容;

每一個(gè)工作任務(wù)都可以在有限的時(shí)間內(nèi)完成處理。

收集主數(shù)據(jù)中心某可用域內(nèi)三套系統(tǒng)50 周監(jiān)控?cái)?shù)據(jù),取其中CPU 監(jiān)控?cái)?shù)據(jù)分別記為PC PM PQ,以自然周作為時(shí)間維度,對(duì)數(shù)據(jù)進(jìn)行切片,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理和等比例賦權(quán),具體方法如下:

系統(tǒng)CPU 使用頻率{{PC, PM, PQ|n∈R}};對(duì)于任意時(shí)間點(diǎn)n,0

將三類(lèi)監(jiān)控?cái)?shù)據(jù)標(biāo)準(zhǔn)化后等比加權(quán),作為特征變量,即

其中 X∈{C,M,Q};且0< n < 50,均值為m 標(biāo)準(zhǔn)差為s

根據(jù)特征變量均值回歸特性,設(shè)定分級(jí)如表1 所示,依據(jù)特征值偏離程度進(jìn)行分級(jí)。

表1:分級(jí)標(biāo)準(zhǔn)

根據(jù)上述描述對(duì)數(shù)據(jù)進(jìn)行處理如下:

依據(jù)表 2, 得到該集群加權(quán)CPU 利用率的均值m=9.269,標(biāo)準(zhǔn)差 s=5.388,由于集群在該階段的CPU 利用率較為平穩(wěn),為便于觀察將其劃分為極低利用率、低利用率、高利用率、極高利用率4 個(gè)狀態(tài),可將該時(shí)段內(nèi)信息系統(tǒng)資源用量劃分為如表3 所示的4 個(gè)狀態(tài)。

表2:50 周特征數(shù)據(jù)及狀態(tài)

表3:系統(tǒng)狀態(tài)分級(jí)

可采用卡方統(tǒng)計(jì)量對(duì)上述加權(quán)CPU 利用率序列進(jìn)行馬爾可夫性檢測(cè), 設(shè)研究序列包含 c 個(gè)可能的狀態(tài)用

f(i,j?E)記為轉(zhuǎn)移頻數(shù)概率矩陣,邊際概率P的計(jì)算方法如下:

表5:卡方統(tǒng)計(jì)量計(jì)算

轉(zhuǎn)移概率矩陣元素為P(i,j?E),卡方統(tǒng)計(jì)量可做如下計(jì)算:

若卡方分布統(tǒng)計(jì)量服從自由度為(c-1),通過(guò)查詢(xún)卡方分布表,在給定置信度α 下,若

則拒絕零假設(shè),認(rèn)為該集群加權(quán)CPU 利用率具備馬爾可夫性

根據(jù)表2 可知:

α=0.05,c=4

一步轉(zhuǎn)移概率矩陣為:

一步轉(zhuǎn)移頻數(shù)矩陣邊際概率見(jiàn)表4。

表4:一步轉(zhuǎn)移頻數(shù)邊際概率

拒絕0 假設(shè),檢驗(yàn)完成。

上述結(jié)果采用CPU 利用率進(jìn)行計(jì)算,在實(shí)際生產(chǎn)環(huán)境中,針對(duì)無(wú)狀態(tài)應(yīng)用可采用更加細(xì)致的監(jiān)控?cái)?shù)據(jù),如數(shù)據(jù)庫(kù)或緩存的計(jì)算資源使用情況。

3 資源動(dòng)態(tài)分配模型設(shè)計(jì)與驗(yàn)證

3.1 模型設(shè)計(jì)

通過(guò)信息系統(tǒng)既有監(jiān)控?cái)?shù)據(jù),依據(jù)當(dāng)前狀態(tài)輸出資源預(yù)分配策略是模型設(shè)計(jì)的主要目的。當(dāng)狀態(tài)發(fā)生轉(zhuǎn)換時(shí),已預(yù)先完成資源配置。為此需要明確策略前端的輸入源、狀態(tài)轉(zhuǎn)移概率閾值以及擴(kuò)展策略。

設(shè)某系統(tǒng)的資源用量離散狀態(tài)空間為S,每種狀態(tài)對(duì)應(yīng)的資源用量閾值為T(mén)S,在當(dāng)前監(jiān)控狀態(tài)下選擇最大轉(zhuǎn)移概率的狀態(tài)進(jìn)行資源分配,資源動(dòng)態(tài)分配策略為:

可以將各類(lèi)隨機(jī)事件的狀態(tài)值作為輸入源數(shù)據(jù),主要分為如下四類(lèi):

系統(tǒng)事件:CPU 內(nèi)存等計(jì)算資源變動(dòng)產(chǎn)生的事件,如利用率告警事件;

平臺(tái)事件:云平臺(tái)變動(dòng)產(chǎn)生的事件,如平臺(tái)負(fù)載變動(dòng)事件;

監(jiān)控事件:應(yīng)用監(jiān)控事件,如從Prometheus 等監(jiān)控平臺(tái)消費(fèi)事件;

中間件事件:由應(yīng)用系統(tǒng)中間件產(chǎn)生的事件,如數(shù)據(jù)庫(kù),消息隊(duì)列產(chǎn)生的事件;

外部事件:在上述事件之外提供外部事件擴(kuò)展,如通過(guò)gRPC 的事件擴(kuò)展。

同時(shí)在模型內(nèi)部設(shè)置兩個(gè)關(guān)鍵角色,用來(lái)平衡模型邊界:

閾值適配:一種閾值指標(biāo)服務(wù),暴露了大量與事件相關(guān)的數(shù)據(jù), 例如隊(duì)列長(zhǎng)度,允許基于事件的擴(kuò)展,消耗特定類(lèi)型的事件數(shù)據(jù)。閾值適配與HPA 等云平臺(tái)擴(kuò)縮容機(jī)制進(jìn)行通信,以驅(qū)動(dòng)平臺(tái)部署副本的擴(kuò)展。然后由部署直接從源頭消費(fèi)事件。這樣可以保留豐富的事件集成,讓完成或丟棄隊(duì)列消息之類(lèi)的可以立即使用。

擴(kuò)展策略:支持激活、注銷(xiāo)和動(dòng)態(tài)伸縮,在沒(méi)有狀態(tài)事件情況下將資源實(shí)例數(shù)量縮減注銷(xiāo)至零。擴(kuò)展策略還可以用于檢測(cè)是否應(yīng)激活或取消激活部署,然后將其反饋送到特定事件源中,模型部署如圖2 所示。

圖2:資源動(dòng)態(tài)分配機(jī)制

3.2 模型驗(yàn)證

模型驗(yàn)證主要評(píng)估面向無(wú)狀態(tài)應(yīng)用服務(wù)的集群資源響應(yīng)效果、資源分配策略的準(zhǔn)確性和擴(kuò)容的響應(yīng)時(shí)間。

選擇部署于獨(dú)立區(qū)域的系統(tǒng)K 的CPU 利用率監(jiān)控?cái)?shù)據(jù)作為模型驗(yàn)證的輸入數(shù)據(jù)源,累計(jì)收集數(shù)據(jù)量372 天,使用其中186 天數(shù)據(jù)按照表1 分級(jí)標(biāo)準(zhǔn)確定狀態(tài),并計(jì)算狀態(tài)轉(zhuǎn)移概率矩陣。使用剩余186 天的數(shù)據(jù)進(jìn)行驗(yàn)證。如圖3 所示,下方滑塊代表所用數(shù)據(jù)的切分,折線(xiàn)主圖內(nèi)對(duì)于所有數(shù)據(jù)進(jìn)行按天的均值上采樣,可以看到,由于測(cè)試系統(tǒng)的CPU 利用率最大峰值在50%之下,任務(wù)量整體不活躍,資源分配策略以縮減或維持實(shí)例數(shù)量為主,僅在部分突發(fā)任務(wù)時(shí)下發(fā)正向擴(kuò)容策略。這說(shuō)明,該策略具有一定的貪婪性響應(yīng),雖然可以適用業(yè)務(wù)激增的場(chǎng)景,但存在部分資源浪費(fèi)的情況。

圖3:CPU 利用率與資源分配曲線(xiàn)

計(jì)算策略結(jié)果的資源分配增量和CPU 利用數(shù)據(jù)的皮爾遜系數(shù)為0.56,模型策略的最終分配結(jié)果表明,本文設(shè)計(jì)的信息系統(tǒng)資源動(dòng)態(tài)分配策略的預(yù)分配結(jié)果與信息系統(tǒng)業(yè)務(wù)量后續(xù)變化水平具有一定的相關(guān)性。

4 結(jié)語(yǔ)

包括鐵路主數(shù)據(jù)中心在內(nèi),大多數(shù)云平臺(tái)的資源動(dòng)態(tài)分配問(wèn)題都可以歸類(lèi)為非確定多項(xiàng)式完全問(wèn)題,在多項(xiàng)式時(shí)間內(nèi)求解較為困難,本文嘗試基于系統(tǒng)的業(yè)務(wù)特性,將系統(tǒng)的資源需求劃分為有限狀態(tài),每個(gè)狀態(tài)固定資源增量,通過(guò)狀態(tài)轉(zhuǎn)移概率,對(duì)下一周期的資源需求狀態(tài)進(jìn)行預(yù)分配,這是一種在響應(yīng)精度和應(yīng)用效率之間的折衷;模型最終的分配結(jié)果呈現(xiàn)資源貪婪性,雖然對(duì)于縮容較為友好,但在一定程度上增加了數(shù)據(jù)中心的能耗,并存在一定的概率導(dǎo)致資源利用率較低。因此,要在資源響應(yīng)的穩(wěn)定性和資源利用之間進(jìn)行平衡,研究如何增加貪婪權(quán)重系數(shù)是進(jìn)一步工作的方向。

猜你喜歡
利用率信息系統(tǒng)監(jiān)控
企業(yè)信息系統(tǒng)安全防護(hù)
The Great Barrier Reef shows coral comeback
2019年全國(guó)煤炭開(kāi)采和洗選業(yè)產(chǎn)能利用率為70.6%
你被監(jiān)控了嗎?
Zabbix在ATS系統(tǒng)集中監(jiān)控中的應(yīng)用
化肥利用率穩(wěn)步增長(zhǎng)
基于區(qū)塊鏈的通航維護(hù)信息系統(tǒng)研究
淺議如何提高涉煙信息的利用率
信息系統(tǒng)審計(jì)中計(jì)算機(jī)審計(jì)的應(yīng)用
基于SG-I6000的信息系統(tǒng)運(yùn)檢自動(dòng)化診斷實(shí)踐
自贡市| 文登市| 平利县| 西吉县| 永仁县| 布拖县| 黎城县| 南溪县| 松江区| 鹤峰县| 正宁县| 应用必备| 淮安市| 临颍县| 泸溪县| 阆中市| 益阳市| 东方市| 东安县| 黄梅县| 应城市| 东明县| 东山县| 澜沧| 香格里拉县| 花莲县| 得荣县| 康平县| 岑巩县| 靖安县| 佛坪县| 象山县| 子洲县| 四平市| 开封县| 九龙城区| 宁明县| 浦北县| 柘城县| 项城市| 南康市|