一種權(quán)重自適應(yīng)的強化學(xué)習(xí)云資源調(diào)度算法

2021-05-21 04:47:30李成嚴唐立民

哈爾濱理工大學(xué)學(xué)報 2021年2期

李成嚴，孫巍，唐立民

(1.哈爾濱理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，哈爾濱 150080；2.中國航發(fā)哈爾濱東安發(fā)動機有限公司，哈爾濱 150066)

0 引言

云計算[1]是當前熱門的一種服務(wù)模式，為用戶提供動態(tài)可伸縮的廉價服務(wù)，同時減少與服務(wù)商之間的交互。用戶通過按需付費的方式享受到服務(wù)商通過網(wǎng)絡(luò)為其提供的資源共享池中的資源。

云資源調(diào)度[2]是指根據(jù)資源使用規(guī)則，不同的資源使用者按照規(guī)則在云服務(wù)平臺進行資源調(diào)整的過程。在合理的資源調(diào)度優(yōu)化算法對于提高云計算系統(tǒng)的綜合性能是至關(guān)重要的。

調(diào)度中的服務(wù)質(zhì)量約束包括運行成本、完成時間、安全性、可用性等。其中運行成本和完成時間分別是影響運營商和使用者滿意度的關(guān)鍵因素。Yao等[3]為了減少任務(wù)的完成時間，提出一種以最小化完成時間為目標的云資源調(diào)度模型。Zhang等[4]為了提高運營商的滿意度，研究了如何降低運營商的成本。Xu等[5]針對在滿足多個服務(wù)器提供高質(zhì)量服務(wù)的同時，如何降低能耗這一問題，提出了一種新的數(shù)據(jù)中心調(diào)度方案，將提升服務(wù)質(zhì)量與降低能源消耗這二者關(guān)系轉(zhuǎn)化為利潤與成本之間的關(guān)系。Jena等[6]通過優(yōu)化任務(wù)的等待時間來最大化虛擬機的吞吐量和保持任務(wù)優(yōu)先級之間的平衡。在實際需求中，將減少執(zhí)行時間和降低運行成本同時作為優(yōu)化目標對于調(diào)度算法來說是至關(guān)重要的。本文以減少虛擬機運行成本和任務(wù)總完成時間為優(yōu)化目標，建立了多目標云資源調(diào)度模型。

近年來，為求解云資源調(diào)度問題，國內(nèi)外學(xué)者提出了許多智能啟發(fā)式算法，如Zhang等[7]提出的蟻群算法，Gawanmeh等[8]提出的遺傳算法等。相較于上述算法，強化學(xué)習(xí)[9]作為一種與模型無關(guān)的具有學(xué)習(xí)能力的非監(jiān)督式智能搜索算法，在云資源調(diào)度問題上具備較好的學(xué)習(xí)效果，因此嘗試使用強化學(xué)習(xí)算法解決云資源調(diào)度問題。其中，Q學(xué)習(xí)算法[10]對于調(diào)度問題表現(xiàn)更加穩(wěn)定。Peng等[11]設(shè)計了一種基于強化學(xué)習(xí)和排隊論的任務(wù)調(diào)度方案，并在資源約束條件下優(yōu)化任務(wù)調(diào)度，將強化學(xué)習(xí)應(yīng)用于云工作流調(diào)度中利用狀態(tài)集結(jié)技術(shù)加快學(xué)習(xí)進度。針對算法易陷入局部最優(yōu)這一缺點，Bahrpeyma等[12]將Q學(xué)習(xí)算法中的動作選擇策略選為ε-greedy算法，通過ε調(diào)節(jié)探索與利用之間的平衡，Agent以一定概率重新隨機選擇動作，跳出局部最優(yōu)。Wu等[13]，以解決任務(wù)調(diào)度時間長，負載不均衡的問題，雖然算法可以尋找到最優(yōu)解，但仍存在收斂速度過慢問題。Reinaldo 等[14]提出了啟發(fā)式Q學(xué)習(xí)算法，在傳統(tǒng)Q學(xué)習(xí)的基礎(chǔ)上加入一個影響行為選擇的啟發(fā)式函數(shù)，函數(shù)利用先前的經(jīng)驗，指導(dǎo)Agent進行動作選擇，提高收斂速度，函數(shù)只改變動作的選擇，并不改變Q值。為了進一步提高算法的收斂速度，本文考慮將權(quán)重因子與啟發(fā)式函數(shù)相結(jié)合，依據(jù)Agent每次訓(xùn)練后的立即回報值，自動更新不同動作執(zhí)行后的權(quán)重因子，從而確定動作選擇策略，提高算法收斂速度。

本文提出一種權(quán)重自適應(yīng)的啟發(fā)式動作選擇策略。在ε-greedy算法的基礎(chǔ)上，引入結(jié)合了權(quán)重因子概念的啟發(fā)式函數(shù)，提出基于權(quán)重自適應(yīng)的啟發(fā)式Q學(xué)習(xí)算法(heuristics accelerate q-Learning based on adaptive weight，WHAQL)，并將它作用于多目標云資源調(diào)度模型的求解上。

1 多目標云資源調(diào)度模型

多目標優(yōu)化的云計算資源調(diào)度問題的數(shù)學(xué)模型定義如下：

1)任務(wù)集合定義為T={t1,t2…tn}，共n個任務(wù)，其中ti表示第i個任務(wù)，且ti={ti(1),ti(2)…ti(p)}，表示第i個任務(wù)包含p個不同的屬性。

2)執(zhí)行任務(wù)調(diào)度的虛擬機集合定義為VM={vm1,vm2…vmm}，共m臺虛擬機(m

3)第i個任務(wù)分配給第j臺虛擬機定義為

(1)

4)第i個任務(wù)在第j臺虛擬機的執(zhí)行時間定義為

ectij=sizei/mipj

(2)

其中，sizei為第i個任務(wù)的大??；mipj為第j臺虛擬機的處理速度。

5)第j臺虛擬機的總運行時間定義為

(3)

一個完整的調(diào)度方案Pi的總執(zhí)行時間定義為

(4)

執(zhí)行任務(wù)所消耗的總運行成本定義為

(5)

其中，cstj表示在單位時間內(nèi)，第j臺虛擬機執(zhí)行任務(wù)所消耗的資源成本。

多目標云資源調(diào)度的目標是使任務(wù)總執(zhí)行時間更短，同時所需的運行成本更低。則云計算資源調(diào)度的多目標優(yōu)化問題可以表示為

min[Time(Pi),Cost(Pi)]

(6)

針對多目標優(yōu)化問題，本文引入一種通過控制權(quán)值的方法求解多目標優(yōu)化問題的函數(shù)。考慮到任務(wù)的執(zhí)行時間和運行成本在數(shù)據(jù)規(guī)模上不統(tǒng)一，因此使用取對數(shù)的方法對數(shù)據(jù)進行標準化處理，最終調(diào)度Pi評價函數(shù)定義為

est(Pi)=ωlogTime(Pi)+(1-ω)logCost(Pi)

(7)

其中：ω∈[0,1]，表示用戶對執(zhí)行時間和運行成本的關(guān)注度，通過調(diào)整ω的大小來滿足用戶對執(zhí)行時間和運行成本的不同需求。

虛擬機的最短執(zhí)行時間與最長執(zhí)行時間的比值定義為系統(tǒng)的負載均衡函數(shù)，公式如下

(8)

根據(jù)式(8)可知，Load值越接近1，系統(tǒng)的負載越均衡，對資源的利用率越高。

在改進Q學(xué)習(xí)算法中，將針對多目標云資源調(diào)度模型中的優(yōu)化目標進行合理的算法設(shè)計，使改進后的Q學(xué)習(xí)算法更適用于解決此問題模型。

2 WHAQL算法設(shè)計與分析

2.1 強化學(xué)習(xí)

強化學(xué)習(xí)(Reinforcement learning，簡稱RL)是機器學(xué)習(xí)領(lǐng)域的一種通用算法，主要思想是 Agent通過一個“試錯”的過程，與環(huán)境進行交互得到回報值，以最大化回報值為目標進行學(xué)習(xí)。

Agent通過執(zhí)行動作與環(huán)境進行交互，當Agent執(zhí)行一個動作后，會使得狀態(tài)按某種概率轉(zhuǎn)移到另一個狀態(tài)；同時，環(huán)境會根據(jù)回報函數(shù)反饋給Agent回報值。過程如圖1所示，其中，t為時間(t=0,1,2,3...)；St∈S，S為狀態(tài)空間；At∈A(St)，A(St)為在狀態(tài)St時的動作集；Rt為t時刻的立即回報。

圖1 Agent與環(huán)境交互圖Fig.1 Interaction between agent and environment

2.2 云資源調(diào)度的馬爾科夫決策模型

2.2.1 馬爾科夫決策優(yōu)化方法

云資源調(diào)度問題可以用馬爾科夫決策過程[15](Markov decision process，MDP)來描述。MDP用五元組可以表示為{S,A,Q,R,γ}。

S：表示狀態(tài)集，狀態(tài)空間。

A：表示動作集，動作空間。

Q：表示狀態(tài)轉(zhuǎn)移函數(shù)，Q(st,at)表示在t時刻執(zhí)行動作at后，狀態(tài)在t+1時刻由st轉(zhuǎn)移為st+1所得到的Q值函數(shù)。

R：表示立即回報函數(shù)。r(st,at)表示在狀態(tài)st下執(zhí)行動作at得到的立即回報值。

γ：表示折扣因子，用于權(quán)衡長期回報與立即回報之間的重要程度。其中γ∈[0,1]，當γ=0時，代表只考慮立即回報，不考慮長期回報；當γ=1時，代表將長期回報與立即回報看得同等重要。

2.2.2 云資源調(diào)度的MDP模型

傳統(tǒng)的云資源調(diào)度問題中，狀態(tài)空間中的每一個狀態(tài)會定義為一個任務(wù)匹配矩陣Matrixm×n；動作空間中，每個狀態(tài)對應(yīng)的動作與任務(wù)數(shù)相對應(yīng)。比如說，第i個任務(wù)分配給第j臺虛擬機，在任務(wù)匹配矩陣中，mij=1。

由于上述狀態(tài)是定義為矩陣的形式，因此存在搜索空間過大問題。為了減少算法搜索空間，本文將狀態(tài)空間中的每一個狀態(tài)定義為數(shù)組形式，提高算法性能。本文云資源調(diào)度的MDP模型定義如下：

1)狀態(tài)空間由不同的狀態(tài)s構(gòu)成，由一個動態(tài)數(shù)組表示，其中狀態(tài)s用一維數(shù)組表示，s的下標表示任務(wù)序號，s的值表示虛擬機序號，數(shù)組的維數(shù)為任務(wù)的個數(shù)，數(shù)組數(shù)值的最大值為虛擬機序號的最大值。比如5個任務(wù)分配3臺虛擬機，則是一個維數(shù)為5的整形數(shù)組，每個元素的值表示任務(wù)分配到哪個虛機上執(zhí)行。

2)動作空間。將動作定義為整型變量，當執(zhí)行將第i個任務(wù)分配給第j臺虛擬機這一動作時，則將整型變量j賦值給狀態(tài)s數(shù)組中第i個值。

例如一維數(shù)組[1, 0, 0, 2, 1]，則表示第0個任務(wù)分配給1號虛擬機，第1個任務(wù)分配給0號虛擬機，完整對應(yīng)關(guān)系如下：

TaskID=0 VmID=1

TaskID=1 VmID=0

TaskID=2 VmID=0

TaskID=3 VmID=2

TaskID=4 VmID=1

3)立即回報定義了一種立即啟發(fā)式回報函數(shù)，能夠較精確的評價動作的好壞，為學(xué)習(xí)系統(tǒng)直接及時地提供回報信息，從而引導(dǎo)強化學(xué)習(xí)算法更快的學(xué)會最優(yōu)策略。此處將回報函數(shù)定義為

r=ωr_ect+(1-ω)r_cst

(9)

其中，r_ect和r_cst分別定義為

r_ect=Ect-Ti

(10)

r_cst=Cst-Ci

(11)

Ti和Ci分別表示當前狀態(tài)下已經(jīng)分配的任務(wù)的總執(zhí)行時間和執(zhí)行任務(wù)的總成本。Ect和Cst都表示較大常數(shù)，此處將Ect設(shè)置為所有任務(wù)在所有虛擬機上的總執(zhí)行時間，Cst設(shè)置所有任務(wù)在所有虛擬機上的總成本。用Ti和Ci來評價當前狀態(tài)下任務(wù)分配給第i臺虛擬機這一動作的好壞。式(10)和式(11)將Ti和Ci最小化問題轉(zhuǎn)化為回報值最大化問題，將任務(wù)調(diào)度的目標最小化完成時間與Q學(xué)習(xí)中最大化Q值函數(shù)聯(lián)系起來。

4)狀態(tài)轉(zhuǎn)移函數(shù)通過2.3節(jié)中Q學(xué)習(xí)算法中的Q值更新公式進行計算。

2.3 云資源調(diào)度的Q學(xué)習(xí)算法

Q學(xué)習(xí)算法作為一種基于值函數(shù)的離線學(xué)習(xí)算法，其核心是建立一個Q表，表的行和列分別表示狀態(tài)和動作，Q表的Q值是用來衡量在當前狀態(tài)下執(zhí)行該動作的價值。主要通過迭代下述步驟進行訓(xùn)練學(xué)習(xí)。

1)觀察當前狀態(tài)st，選擇合適的動作at。

2)狀態(tài)st轉(zhuǎn)移到下一狀態(tài)st+1，同時更新立即回報值r(st,at)。

3)在狀態(tài)st下執(zhí)行動作at的Q值函數(shù)定義為Q(st,at)，更新公式如下：

(12)

其中，α∈(0,1)，表示學(xué)習(xí)速率。

Q學(xué)習(xí)算法動作選擇策略一般選用ε-greedy算法，Agent以ε的概率隨機選取動作，即探索過程，以1-ε的概率選擇Q值最大的動作，即利用過程。策略概率分布定義為

(13)

其中，arandom表示隨機選擇一個動作；p,q∈[0,1]，p值決定Agent進行探索概率，p值越大，Agent進行探索的概率就越小。

Q學(xué)習(xí)算法的目標是形成一個策略π:S→A，通過Agent反復(fù)的訓(xùn)練過程實現(xiàn)Q值的最大化。

Q學(xué)習(xí)算法(q-learning，QL)偽碼如算法1所示。

算法1 Q學(xué)習(xí)算法偽碼

① Initializeω,ε,α,γ

② Initialize Q table

③ Repeat(for each episode):

④ Initialize statest

⑤ Repeat(for each step)

⑥ Select an action a using policy(13)

⑦ Execute actionatobserverandst+1

⑧ Update the values ofQ(st,at) according to equation(12)

⑨s=st+1

2.4 WHAQL算法設(shè)計

2.4.1 啟發(fā)式Q學(xué)習(xí)

針對Q學(xué)習(xí)算法收斂的速度慢這一問題，啟發(fā)式學(xué)習(xí)算法在傳統(tǒng)Q學(xué)習(xí)算法的基礎(chǔ)上，通過提供先驗知識去指導(dǎo)Agent進行動作選擇，動作選擇策略如下所示：

(14)

其中啟發(fā)式函數(shù)H(st,a)的更新公式定義為

(15)

其中：πH(st)表示狀態(tài)為st時，在啟發(fā)式函數(shù)H的指導(dǎo)下選擇的最優(yōu)動作；Δ表示啟發(fā)系數(shù)。

啟發(fā)式Q學(xué)習(xí)算法(heuristics accelerate Q-learning，HAQL)偽碼如算法2所示。

算法2 啟發(fā)式Q學(xué)習(xí)算法偽碼

① Initializeω,ε,α,γ

② Initialize Q table, H table

③ Repeat(for each episode):

④ Initialize statest

⑤ Repeat(for each step)

⑥ Update the values ofH(st,at) according to equation (15)

⑦ Select an action a using policy (16)

⑧ Execute actionatobserverandst+1

⑨ Update the values ofQ(st,at) according to equation (12)

在啟發(fā)式Q學(xué)習(xí)算法中，Δ為固定值，不隨著不同的動作進行自動更新，為了進一步加強不同動作反饋得到的回報值對動作選擇的指導(dǎo)，進而達到提高算法的收斂速度的目的，本文采用一種權(quán)重自適應(yīng)的啟發(fā)式動作選擇策略。

2.4.2 權(quán)重自適應(yīng)的啟發(fā)式動作選擇策略

權(quán)重自適應(yīng)的啟發(fā)式動作選擇策略設(shè)計如下。

設(shè)計G表存儲有權(quán)重因子的相關(guān)數(shù)據(jù)，元素為四元組〈si,ai,f(si,ai),rmax〉。si和ai分別表示需要更新權(quán)重因子的狀態(tài)和動作；f(si,ai)表示在狀態(tài)si下執(zhí)行動作ai的權(quán)重因子；rmax表示狀態(tài)si下的最大回報值。更新規(guī)則為：

(16)

其中：at表示Agent在當前周期中在狀態(tài)si下選擇的動作；rt表示當前周期在狀態(tài)si下執(zhí)行動作at反饋的回報值。f(si,ai)的值由rmax和rt共同決定。當rt>rmax時，即當前動作的回報值更大，該動作為目前最優(yōu)選擇，因此按式(17)對權(quán)重因子f(si,ai)進行更新。通過對權(quán)重因子的不斷更新，記錄下不同動作的重要性。

為了使權(quán)重因子的大小對Agent的動作選擇做出進一步的指導(dǎo)，將f(si,ai)與啟發(fā)式函數(shù)相結(jié)合，將啟發(fā)式函數(shù)的更新規(guī)則定義如下：

(17)

改進后的Q學(xué)習(xí)動作選擇機制定義為

(18)

2.5 WHAQL算法偽碼

算法3 改進Q學(xué)習(xí)算法偽碼

① Initializeω,ε,α,γ,U

② Initialize Q table, G table

③ Repeat(for each episode):

④ Initialize statest

⑤ Repeat(for each step)

⑥ Select an action a using policy (18)

⑦ Execute actionatobserverandst+1

⑧ Update the values ofQ(st,at) according to equation (12)

⑨ Update the values off(st,at) according to equation (16)

2.6 WHAQL算法收斂性分析

本節(jié)針對在WHAQL算法啟發(fā)式動作選擇策略的收斂性進行分析。

假設(shè)動作a1是在狀態(tài)s*下記錄的初始最優(yōu)動作，Agent通過學(xué)習(xí)得到了具有更大回報值的動作a2，根據(jù)式(16)可知：

f(s*,a1)

根據(jù)式(17)可知：

情況1：當a=a2時，

(19)

情況2：當a=a′時，其中a′表示包括a1在內(nèi)，但a1≠a2的其他動作。

G(s*,a′)=0

(20)

根據(jù)式(18)和式(19)可知：

Q(s*,a2)+G(s*,a2)=Q(s*,a2)+

(21)

根據(jù)式(21)可知：

Q(s*,a′)+G(s*,a′)=Q(s*,a′)+0=Q(s*,a′)

(22)

對比式(21)和式(22)，顯然

即

Q(s*,a2)+G(s*,a2)>Q(s*,a′)+G(s*,a′)

根據(jù)式(18)可知

π(s*)=a2

通過上述證明可知，基于權(quán)重自適應(yīng)的啟發(fā)式動作選擇策略收斂在權(quán)重因子大的策略；再通過魏英姿等[16]已證明過的啟發(fā)式Q學(xué)習(xí)算法的最優(yōu)策略不變性以及Q值迭代收斂性，可以證明WHAQL算法最終必將收斂于最優(yōu)策略。

3 仿真實驗

為測試本文所提出改進Q學(xué)習(xí)算法在解決本文所設(shè)計的多目標云資源調(diào)度模型的效率，將模型與算法在Cloudsim仿真平臺進行實驗。

利用Cloudsim仿真平臺隨機生成數(shù)據(jù)集，將任務(wù)大小定義在區(qū)間 [60000，120000]之間，虛擬機的處理速度定義在[400，1200]之間，通過式(2)可計算得到任務(wù)在不同虛擬機上的執(zhí)行時間，虛擬機單位時間內(nèi)的運行成本通過隨機生成的虛擬機處理速度進行規(guī)則計算得到，在根據(jù)式(5)到虛擬機的運行成本。

本文測試的任務(wù)規(guī)模從10個開始依次遞增10個，最多達到50個；虛擬機的數(shù)量設(shè)置為5個。實驗中的主要參數(shù)設(shè)置如表1所示。

表1 實驗參數(shù)設(shè)置Tab.1 Experimental parameter setting

WHAQL算法的參數(shù)設(shè)置如表2所示。

表2 算法參數(shù)設(shè)置Tab.2 Algorithm parameter setting

在相同數(shù)據(jù)集和算法參數(shù)設(shè)置下，本文從3個方面對改進后的算法WHAQL在求解多目標云資源調(diào)度問題上進行驗證。

3.1 算法尋優(yōu)能力

在尋優(yōu)能力方面，比較了以下4種算法：

1)按順序執(zhí)行的調(diào)度方案，將任務(wù)按順序依次分配在每個虛擬機上，即第一個任務(wù)分配給第一臺虛擬機，第二個任務(wù)分配給第二臺虛擬機等，用Equ表示。

2)遺傳算法[8](GA)。

3)Q學(xué)習(xí)算法[17](QL)。

4)基于自動更新權(quán)重的啟發(fā)式Q學(xué)習(xí)算法(WHAQL)。

圖2～圖4分別表示當ω=0.5、ω=1、ω=0時，使用上述4種算法對不同任務(wù)規(guī)模下的模型進行多次求解取平均值的結(jié)果。

圖2 ω=0.5時，算法尋優(yōu)能力對比圖Fig.2 ω=0.5 Comparison chart of algorithm′s optimization ability

圖3 ω=1時，算法尋優(yōu)能力對比圖Fig.3 ω=1 Comparison chart of algorithm′s optimization ability

圖4 ω=0時，算法尋優(yōu)能力對比圖Fig.4 ω=0 Comparison chart of algorithm′s optimization ability

其中，橫坐標表示任務(wù)規(guī)模，縱坐標表示評價函數(shù)值，評價函數(shù)值越小，算法的尋優(yōu)能力越強。

通過圖可以看出，當時間因子和成本因子均為0.5時，WHAQL所得到的調(diào)度方案可以得到最小化的評價函數(shù)；而當單獨考慮時間或成本時，WHAQL也能夠在時間或成本的最小化上獲得更好的結(jié)果。

3.2 算法收斂速度

在算法收斂速度方面，本文將基于權(quán)重自適應(yīng)的啟發(fā)式Q學(xué)習(xí)算法(WHAQL)與Q學(xué)習(xí)算法[17](QL)和啟發(fā)式Q學(xué)習(xí)算法[18](HAQL)進行對比。

圖5表示當任務(wù)規(guī)模為20，ω=0.5時，3種算法迭代過程的對比圖?？偟螖?shù)設(shè)置為5 000次，每迭代500次為一個學(xué)習(xí)階段，記錄一次結(jié)果，共10個學(xué)習(xí)階段。其中，橫坐標表示任務(wù)規(guī)模，縱坐標表示評價函數(shù)值。

圖5 ω=0.5 20task-5vm 收斂過程對比圖Fig.5 ω=0.5 20task-5vm Comparison of convergence process

觀察圖5中3種算法的迭代曲線可知，3種算法在經(jīng)歷不同的迭代次數(shù)后均可達到收斂；WHAQL和HAQL算法在啟發(fā)式函數(shù)指導(dǎo)下，兩者都較QL算法學(xué)習(xí)能力更強，更快達到收斂，而WHAQL算法在啟發(fā)式函數(shù)中引入自動更新的權(quán)重因子，對動作的指導(dǎo)能力得到加強，使其在3個算法中收斂速度最快；此外，WHAQL在引入自動更新的權(quán)重因子后，將每次動作反饋的回報值更好地用于指導(dǎo)下一次動作的選擇，使Agent更好地權(quán)衡了不同動作的重要程度，因此WHAQL相較于HAQL和QL算法，收斂到的評價函數(shù)值也更小?？梢?，改進后的算法WHAQL尋找最優(yōu)解的能力也更強。

3.3 算法負載均衡

在算法負載均衡方面，將WHAQL算法與Equ、GA[8]和QL算法[17]進行對比。

圖6表示當ω=0.5時，不同任務(wù)規(guī)模的情況下，4種算法的負載均衡對比圖。

其中，橫坐標表示任務(wù)規(guī)模，縱坐標表示負載均衡值，負載均衡值越接近1，系統(tǒng)的負載越均衡。

圖6 不同任務(wù)規(guī)模下的負載均衡程度Fig.6 Load balancing degree under different task scales

由圖6可知， WHAQL的負載均衡程度相較于其他3種算法效果更好，這證明WHAQL不僅對資源有更高的利用率，還可以有效減輕虛擬機的工作負載。

通過上述實驗可知，本文提出的WHAQL在尋優(yōu)能力上優(yōu)于其他幾種算法，相較于QL和HAQL也具備更快的收斂速度。將WHAQL應(yīng)用于多目標云資源調(diào)度模型，使任務(wù)的完成時間更短、虛擬機的運行成本更低，同時有效減輕虛擬機工作負載。從整體上提高了云資源調(diào)度的綜合性能。

4 結(jié) 論

本文將任務(wù)的完成時間和虛擬機的運行成本同時作為優(yōu)化目標，建立了多目標云計算資源調(diào)度模型，提出了一種基于權(quán)重自適應(yīng)的啟發(fā)式Q學(xué)習(xí)算法(WHAQL)。WHAQL在啟發(fā)式強化學(xué)習(xí)的基礎(chǔ)上引入了權(quán)重因子，進一步加強了對Agent動作選擇的指導(dǎo)，提高算法的收斂速度的同時，也提高了算法的尋優(yōu)能力。實驗證明WHAQL有效地提高了云資源調(diào)度的整體性能。

在未來研究工作中，主要研究如何對Q學(xué)習(xí)算法中的狀態(tài)空間進行整合優(yōu)化，使其更適用于解決未來更大規(guī)模的云資源調(diào)度問題。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種權(quán)重自適應(yīng)的強化學(xué)習(xí)云資源調(diào)度算法

0 引 言

1 多目標云資源調(diào)度模型

2 WHAQL算法設(shè)計與分析

2.1 強化學(xué)習(xí)

2.2 云資源調(diào)度的馬爾科夫決策模型

2.3 云資源調(diào)度的Q學(xué)習(xí)算法

2.4 WHAQL算法設(shè)計

2.5 WHAQL算法偽碼

2.6 WHAQL算法收斂性分析

3 仿真實驗

3.1 算法尋優(yōu)能力

3.2 算法收斂速度

3.3 算法負載均衡

4 結(jié) 論

0 引言