国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種權(quán)重平均值的深度雙Q網(wǎng)絡(luò)方法

2020-03-21 01:10吳金金
計算機研究與發(fā)展 2020年3期
關(guān)鍵詞:目標(biāo)值差分權(quán)重

吳金金 劉 全,2,3,4 陳 松 閆 巖

1(蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院 江蘇蘇州 215006) 2(符號計算與知識工程教育部重點實驗室(吉林大學(xué)) 長春 130012) 3(江蘇省計算機信息處理技術(shù)重點實驗室(蘇州大學(xué)) 江蘇蘇州 215006) 4(軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心(南京大學(xué)) 南京 210023)(20174227020@stu.suda.edu.cn)

在強化學(xué)習(xí)(reinforcement learning, RL)中,通常采用Markov決策過程(Markov decision processes, MDPs)作為不確定情況下的序貫決策問題的框架[1-2].RL的目標(biāo)是通過最大化累積未來獎賞來獲得最優(yōu)策略.目前部分算法可以應(yīng)用于帶有明確樣本轉(zhuǎn)移和獎賞的強化學(xué)習(xí)問題中,而大多數(shù)的無模型算法可以直接學(xué)習(xí)到不同的動作值[3-5].其中,Q學(xué)習(xí)(Q-learning)是迄今為止最受歡迎的模型無關(guān)的強化學(xué)習(xí)算法[5-6],但由于在評估動作值過程中包含1個最大化操作,有時學(xué)習(xí)到的動作值比真實值會高很多,這直接導(dǎo)致了動作值的過高估計.

深度學(xué)習(xí)(deep learning, DL)已經(jīng)成為機器學(xué)習(xí)領(lǐng)域的一大研究熱點[7].其能夠從原始圖像中獲取特征,通過線性或者非線性組合來獲得更好的數(shù)據(jù)表征.DL已經(jīng)在模型壓縮、神經(jīng)語言模型、情感分析等領(lǐng)域取得了很大的突破[8-10].深度學(xué)習(xí)和強化學(xué)習(xí)有著不同的特性,結(jié)合這兩者得到深度強化學(xué)習(xí)(deep reinforcement learning, DRL)[11-12],可以幫助agent在一些復(fù)雜的環(huán)境中更好地學(xué)習(xí)和決策.

深度Q網(wǎng)絡(luò)(deep Q-network, DQN)是第1個成功結(jié)合非線性函數(shù)逼近技術(shù)——深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)和Q學(xué)習(xí)的算法[13].DQN已經(jīng)被證明能夠在不同Atari 2600游戲中學(xué)習(xí)到人類級別的控制策略.DQN從當(dāng)前游戲狀態(tài)中評估每個可能動作的Q值.考慮到網(wǎng)絡(luò)中的Q值估計足夠精確,所以通常會在每個時間步選擇具有最大Q值的動作來進行游戲.DQN以及基于DQN的改進算法已被證明可以在許多Atari 2600游戲中表現(xiàn)優(yōu)異.

DQN將Q學(xué)習(xí)與靈活的深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,并在各種各樣的大量確定性Atari 2600游戲上進行測試,實驗結(jié)果表明它在許多游戲中達(dá)到了人類級別的表現(xiàn)[14].雖然深度神經(jīng)網(wǎng)絡(luò)提供了靈活的函數(shù)逼近以及低漸進逼近誤差的可能性,并且環(huán)境的確定性防止了噪聲的有害影響,但是在這種相對有利的情況下,DQN有時也會大大高估動作值.

針對這種情況,Van Hasselt等人[15]提出了深度雙Q網(wǎng)絡(luò)(double deep Q-network, DDQN).這種算法不僅可以產(chǎn)生更準(zhǔn)確的值估計,而且可以在部分游戲中獲得更高的分?jǐn)?shù).這表明DQN的高估確實會影響策略的好壞,并且降低高估對于游戲性能來說是有益的.但是,DDQN有時會低估動作值從而產(chǎn)生偏差[15].章宗長等人[16]在雙Q學(xué)習(xí)(double Q-learning, DQL)的基礎(chǔ)上提出了基于權(quán)重的雙Q學(xué)習(xí)(weighted double Q-learning, WDQ).該算法的目的是在單個估計器的高估和2個估計器的低估之間尋找平衡.實驗結(jié)果表明,該算法能有效減少估計誤差,并在大量的MDP問題中表現(xiàn)優(yōu)異.Anschel等人[17]提出了另一種解決高估現(xiàn)象的方法——基于平均值的深度Q網(wǎng)絡(luò)(averaged deep Q-network, Averaged-DQN),也就是計算先前學(xué)習(xí)到的Q值的平均值作為目標(biāo)值.實驗結(jié)果表明這種方法能有效提高訓(xùn)練的穩(wěn)定性,且表現(xiàn)突出.

在本文中,我們將章宗長等人[16]提出的帶權(quán)重的雙估計器擴展到了深度強化學(xué)習(xí)中.為了緩解深度Q網(wǎng)絡(luò)的高估和深度雙Q網(wǎng)絡(luò)的低估問題,我們將帶權(quán)重的雙估計器與深度雙Q網(wǎng)絡(luò)結(jié)合,形成新的基于權(quán)重的深度雙Q網(wǎng)絡(luò)算法(weighted double deep Q-network, WDDQN).此外,為了進一步減少目標(biāo)值估計的方差,我們對Anschel等人[17]提出的Averaged-DQN方法進行了改進.具體地,計算之前學(xué)習(xí)到的動作估計值的平均值來產(chǎn)生目標(biāo)值并且根據(jù)時間差分誤差(temporal difference error, TD error)動態(tài)地確定平均動作值的數(shù)量,并將之整合到基于權(quán)重的深度雙Q網(wǎng)絡(luò)中,形成一個新的深度強化學(xué)習(xí)框架——基于權(quán)重平均值的深度雙Q網(wǎng)絡(luò)(averaged weighted double deep Q-network, AWDDQN).

本文的主要貢獻(xiàn)有3個方面:

1) 將帶權(quán)重的雙估計器引入到深度雙Q網(wǎng)絡(luò)中,提出WDDQN算法.

2) 對Averaged-DQN中的Averaging方法進行了改進:通過計算之前學(xué)習(xí)到的動作估計值的平均值來產(chǎn)生目標(biāo)值,并且根據(jù)時間差分誤差動態(tài)地確定平均動作值的數(shù)量,將之與帶權(quán)重的雙估計器結(jié)合,產(chǎn)生更精確的動作值估計,并且提出AWDDQN算法.

3) 將AWDDQN應(yīng)用于Atari 2600的4個經(jīng)典游戲中,對比本文算法和其他相關(guān)算法的性能.實驗結(jié)果表明,通過結(jié)合雙估計器和改進的Averaging方法可以提升agent的性能.

1 背景知識

1.1 強化學(xué)習(xí)

強化學(xué)習(xí)能夠解決agent在環(huán)境中自主采取動作以最大化標(biāo)量獎賞信號的問題.在整個探索過程中,外界從未直接告知agent最優(yōu)動作.在每個離散時間步t=0,1,…,環(huán)境為agent提供1個觀察St,agent根據(jù)策略選擇1個動作At作出響應(yīng),然后獲得環(huán)境提供的立即獎賞Rt+1,并且轉(zhuǎn)移到下一狀態(tài)St+1.這種交互可以形式化地定義為MDPs模型[18],用元組〈S,A,T,R,γ〉表示,其中S表示有限狀態(tài)集合,A表示有限動作集合,T(s,a,s′)=P[St+1=s′|St=s,At=a]表示轉(zhuǎn)移函數(shù),R(s,a)=E[Rt+1|St=s,At=a]表示獎賞函數(shù),γ∈[0,1]表示折扣率.

agent的動作選擇由策略π給出,該策略定義了每個狀態(tài)的動作概率分布.在時刻t遇到狀態(tài)st,當(dāng)前agent獲得的未來獎賞的折扣總和稱為折扣回報,定義為

(1)

agent的目標(biāo)是通過尋找一個最優(yōu)策略來最大化期望折扣回報.

策略可以直接被學(xué)習(xí),也可以通過函數(shù)構(gòu)建.在基于值的強化學(xué)習(xí)[19]中,當(dāng)從給定狀態(tài)開始遵循策略π時,agent學(xué)習(xí)期望折扣回報的估計,可以是狀態(tài)值,Vπ(s)=Eπ[Gt|St=s],表示在狀態(tài)s遵循策略π到情節(jié)結(jié)束獲得的期望回報.也可以是狀態(tài)動作值,Qπ(s,a)=Eπ[Gt|St=s,At=a],表示在狀態(tài)s根據(jù)策略π選擇動作a,并一直遵循策略π到情節(jié)結(jié)束獲得的期望回報.從狀態(tài)動作值函數(shù)中推導(dǎo)出新策略的一種常見方法是采用關(guān)于動作值的ε-greedy策略,也就是以1-ε概率采取貪心動作,并且以ε概率隨機均勻地采取任意動作.這種策略更有利于agent在環(huán)境中探索:根據(jù)當(dāng)前估計隨機選擇次優(yōu)動作,agent可以在適當(dāng)?shù)臅r候發(fā)現(xiàn)并糾正該估計.

Q學(xué)習(xí)[5-6]是一種基于值迭代更新的算法,即直接估計最優(yōu)動作值函數(shù)Q*.表格式的Q學(xué)習(xí)算法利用以下更新規(guī)則來對當(dāng)前動作值函數(shù)的估計值進行更新:

(2)

其中,s′表示在狀態(tài)s采取動作a到達(dá)的下一個狀態(tài),a′表示在狀態(tài)s′選擇的動作,α∈[0,1]表示步長參數(shù),r表示在狀態(tài)s選擇動作a后獲得的立即獎賞.

當(dāng)狀態(tài)空間非常大的時候,存儲所有狀態(tài)動作對的值是難以實現(xiàn)的.對此常用的解決辦法是使用函數(shù)逼近方法來近似求解動作值函數(shù).一般采用參數(shù)θ[20],比如Q(s,a)≈Q(s,a;θ).Q(s,a;θ)表示使用參數(shù)θ近似估計的狀態(tài)動作值函數(shù),例如可用神經(jīng)網(wǎng)絡(luò)來求得.帶有函數(shù)逼近參數(shù)θ的Q學(xué)習(xí)更新使用學(xué)習(xí)規(guī)則:

(3)

1.2 深度Q網(wǎng)絡(luò)

較大的狀態(tài)空間或者動作空間使得agent難以獨立學(xué)習(xí)每個狀態(tài)動作對的Q值估計[21].在DRL中,策略π(a|s)或者Q(s,a)常用深層(即多層)神經(jīng)網(wǎng)絡(luò)表示.這些網(wǎng)絡(luò)參數(shù)通過梯度下降進行訓(xùn)練以擬合一些合適的損失函數(shù)[22].

在DQN[13]中,通過使用卷積神經(jīng)網(wǎng)絡(luò)[23]將深度網(wǎng)絡(luò)和強化學(xué)習(xí)成功地結(jié)合起來,以近似狀態(tài)s的動作值,其通常以網(wǎng)絡(luò)中的一些原始像素幀作為輸入.DQN算法包含2個重要組成部分:1)使用目標(biāo)網(wǎng)絡(luò);2)加入經(jīng)驗重放機制.在每個時間步上,agent基于當(dāng)前狀態(tài)選擇1個動作,并將該轉(zhuǎn)移(s,a,r,s′)添加到經(jīng)驗池中.神經(jīng)網(wǎng)絡(luò)的參數(shù)通過使用隨機梯度下降以使損失最小化,損失函數(shù)表示為目標(biāo)值和評估值之間的均方誤差,定義為

L(θ)=Es,a,r,s′[(yDQN-Q(s,a;θ))2],

(4)

其中,目標(biāo)值yDQN定義為

(5)

θ表示在線網(wǎng)絡(luò)的參數(shù),θ-表示目標(biāo)網(wǎng)絡(luò)的參數(shù).Q(s,a;θ)表示在線網(wǎng)絡(luò)的輸出,用于更新值函數(shù),Q(s′,a′;θ-)表示目標(biāo)網(wǎng)絡(luò)的輸出,用于計算目標(biāo)值.目標(biāo)網(wǎng)絡(luò)與在線網(wǎng)絡(luò)的結(jié)構(gòu)相同,只是它的參數(shù)是從在線網(wǎng)絡(luò)中每τ步復(fù)制而來,在τ個時間步內(nèi)目標(biāo)網(wǎng)絡(luò)的參數(shù)保持不變.Mnih等人[13]的實驗研究發(fā)現(xiàn),使用目標(biāo)網(wǎng)絡(luò)和經(jīng)驗重放可以相對穩(wěn)定地學(xué)習(xí)Q值,并在幾款A(yù)tari游戲中帶來超出人類級別的表現(xiàn).

算法1給出了DQN的具體流程.在每輪迭代i中,DQN算法通過利用近似動作值函數(shù)Q(s,a;θ)解決監(jiān)督學(xué)習(xí)問題,這是對式(2)的函數(shù)逼近形式的一種延伸.

算法1.DQN算法.

輸入:預(yù)處理后的圖像特征向量;

輸出:評估網(wǎng)絡(luò)參數(shù)θ.

① 初始化Q(s,a;θ)、隨機初始θ0;

② 初始化經(jīng)驗重放池D;

③ 初始化關(guān)于Q的探索性策略ε-greedy;

④ Fori=1 toN

⑦ 將轉(zhuǎn)移(s,a,r,s′)添加到D中;

⑧ End For

1.3 深度雙Q網(wǎng)絡(luò)

標(biāo)準(zhǔn)的Q學(xué)習(xí)和DQN的最大運算符使用相同的值進行評估和選擇1個動作,這使得agent會選擇高估值,導(dǎo)致過度樂觀的估計.為了解決這種問題,最有效的辦法是將選擇與評估分離.

在雙Q學(xué)習(xí)[5]中,通過隨機分配經(jīng)驗來更新2個值函數(shù)中的1個,從而學(xué)習(xí)2個值函數(shù),產(chǎn)生2組權(quán)重θ和θ′.對于每次更新,一組權(quán)重θ用于確定貪心策略,另一組權(quán)重θ′用于評估貪心策略的值.DQL的目標(biāo)值更新可以寫為

(6)

具有最大Q值的動作選擇仍然是由在線權(quán)重θ引起的.這意味著,和深度Q網(wǎng)絡(luò)一樣,貪心策略的值還是需要根據(jù)θ定義的當(dāng)前值來估計.

雙Q學(xué)習(xí)的思想是通過將目標(biāo)中的最大操作分解為動作選擇和動作評估來降低過高估計.在DQN框架中,目標(biāo)網(wǎng)絡(luò)是第2個值函數(shù)的最佳選擇,從而不必引入額外的網(wǎng)絡(luò).因此,在深度雙Q網(wǎng)絡(luò)中[15],通常根據(jù)在線網(wǎng)絡(luò)評估貪心策略,根據(jù)目標(biāo)網(wǎng)絡(luò)評估其價值.DDQN的更新與DQN相同,但其用目標(biāo)yDDQN替換:

(7)

與雙Q學(xué)習(xí)式(6)相比,第2個網(wǎng)絡(luò)的權(quán)重θ′被替換成目標(biāo)網(wǎng)絡(luò)的權(quán)重θ-,用于評估當(dāng)前的貪心策略.目標(biāo)網(wǎng)絡(luò)的更新與DQN保持不變,并定期將在線網(wǎng)絡(luò)的參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò).

Van Hasselt等人[15]的實驗研究證明DDQN可以有效減少過高估計,從而獲得更穩(wěn)定的學(xué)習(xí).并且DDQN算法在Atari 2600游戲中能夠獲得更好的表現(xiàn),能得到比DQN更好的性能.

2 基于權(quán)重平均值的深度雙Q網(wǎng)絡(luò)

本節(jié)將主要闡述如何將帶權(quán)重的雙估計器整合到深度雙Q網(wǎng)絡(luò)中,以及怎樣利用之前學(xué)習(xí)到的動作估計值的平均值來產(chǎn)生目標(biāo)值,并且根據(jù)時間差分誤差動態(tài)地確定平均動作值的數(shù)量.

我們提出AWDDQN算法的動機主要有2點:

1) 深度Q網(wǎng)絡(luò)存在著高估動作值的缺陷,雖然深度雙Q網(wǎng)絡(luò)在一定程度上緩解了這一問題,但是依然存在著低估動作值的問題.高估和低估問題都會對學(xué)習(xí)到的策略產(chǎn)生影響,有可能會導(dǎo)致agent的性能變差.為了緩解高估和低估的問題,本文將最近提出的帶權(quán)重的雙估計器[16]整合到深度雙Q網(wǎng)絡(luò)中.

2) 目標(biāo)值的計算偏差會對算法的性能有重要影響.雖然Averaged-DQN算法[17]利用之前學(xué)習(xí)到的K個動作Q值產(chǎn)生當(dāng)前動作值估計,但是K值的大小會影響算法的性能,在Averaged-DQN算法中沒有提出合適的確定K值的算法,只是簡單地設(shè)置為5,10,15.為了改進這種Averaging方法,不同于Averaged-DQN算法中使用固定數(shù)量的平均動作值求得目標(biāo)值,本文利用時間差分誤差動態(tài)地確定平均動作值的數(shù)量.動態(tài)性體現(xiàn)在本文根據(jù)經(jīng)驗池抽取樣本的時間差分誤差大小的不同,具有較小時間差分誤差的樣本,K=5,反之,K的取值為10.因此不同樣本計算目標(biāo)值的K值并不是固定的,是根據(jù)樣本的時間差分誤差大小動態(tài)決定的.進一步地,本文還將之與基于權(quán)重的雙估計器結(jié)合來進一步地減小動作值的估計偏差.

2.1 基于權(quán)重的雙估計器

針對DDQN低估動作值的問題,WDDQN算法以權(quán)重的方式結(jié)合了深度Q網(wǎng)絡(luò)和深度雙Q網(wǎng)絡(luò).WDDQN的目標(biāo)是減小目標(biāo)值估計的誤差,從而產(chǎn)生更精確的動作值估計.

不需要在DDQN中引入額外的網(wǎng)絡(luò),評估網(wǎng)絡(luò)依然產(chǎn)生具有最大動作值的動作,目標(biāo)網(wǎng)絡(luò)則用于評估最大動作的值.

WDDQN使用Q(s′,a*;θ)和Q(s′,a*;θ-)的線性結(jié)合計算目標(biāo)值,計算為

yWDDQN=r+γ[βQ(s′,a*;θ)+
(1-β)Q(s′,a*;θ-)],

(8)

其中,β定義為權(quán)重,計算為

(9)

動作a*表示為評估網(wǎng)絡(luò)具有最大動作值的動作,aL表示評估網(wǎng)絡(luò)具有最小動作值的動作,計算為

(10)

(11)

因此,Q(s′,a*;θ-)表示目標(biāo)網(wǎng)絡(luò)中在狀態(tài)s′的最大動作值,Q(s′,aL;θ-)表示目標(biāo)網(wǎng)絡(luò)中狀態(tài)s′的最小動作值.

式(9)中的c為超參數(shù),用來計算權(quán)重β.在具有不同特征的問題中,c的最優(yōu)值不一樣.例如具有不同動作數(shù)量的賭博機問題最優(yōu)的c值不同[16].因此,通常根據(jù)問題的特征自適應(yīng)地設(shè)置c值.本文實驗中采用的c值在多次實驗的基礎(chǔ)上選取.具體的WDDQN算法如算法2所示:

算法2.WDDQN算法.

輸入:初始化評估網(wǎng)絡(luò)參數(shù)θ、目標(biāo)網(wǎng)絡(luò)參數(shù)θ-、初始化經(jīng)驗池D;

輸出:評估網(wǎng)絡(luò)參數(shù)θ.

① Forepisode=1 toMdo

② 初始化初始狀態(tài)s0;

③ Fort=0 toTdo

④ 根據(jù)ε-greedy策略選擇動作at;

⑤ 執(zhí)行動作at,觀察下一狀態(tài)st+1和立即獎賞rt;

⑥ 將轉(zhuǎn)移樣本(st,at,rt,st+1)存入經(jīng)驗池中;

⑦ 從經(jīng)驗池D中抽取批量轉(zhuǎn)移樣本(sj,aj,rj,sj+1)進行更新;

⑩ 計算權(quán)重β:

(1-β)Q(sj+1,a*;θ-)];

2.2 基于時間差分誤差的Averaging方法

為了減少目標(biāo)值計算的方差,獲得更好的訓(xùn)練穩(wěn)定性和性能,Averaged-DQN算法[17]利用先前學(xué)習(xí)的動作值來計算平均值從而產(chǎn)生目標(biāo)值.然而,該算法僅僅只是將先前學(xué)習(xí)到的K個動作值求平均,K的取值為定值.若K值較小,算法的性能不理想.若K值較大,算法的性能有所提高,但大大增加了計算量.針對這個問題,本文對Averaging方法進行改進,利用轉(zhuǎn)移樣本的時間差分誤差來動態(tài)地確定K值,并將之與基于權(quán)重的雙估計器結(jié)合來進一步減少目標(biāo)值估計的偏差和方差.

AWDDQN在更新網(wǎng)絡(luò)參數(shù)時,從經(jīng)驗池中抽取n個轉(zhuǎn)移樣本.然后分別計算這n個樣本的時間差分誤差,時間差分誤差表示該樣本的目標(biāo)值和評估值之間的差距.若時間差分誤差較大,評估值不夠準(zhǔn)確,目標(biāo)值存在較大的方差.AWDDQN算法將這n個樣本的時間差分誤差進行排序分成2組,對具有不同時間差分誤差的樣本進行區(qū)別對待.因為較小K值對算法的性能提升不大,較大K值會導(dǎo)致計算量增加,算法耗時久,所以本文的K值經(jīng)驗性地選取為5和10.

對于時間差分誤差較小的樣本,計算目標(biāo)值時使用較少的K1=5個先前學(xué)習(xí)到的動作值的平均值來求目標(biāo)值.對于時間差分誤差較大的樣本,使用K2=10個先前學(xué)習(xí)到的動作值的平均值計算目標(biāo)值.這樣的方式避免使用較大的K值,導(dǎo)致增加計算量,并且能夠根據(jù)每個樣本的時間差分誤差動態(tài)地確定K值.AWDDQN計算目標(biāo)值時使用基于權(quán)重的雙估計器,計算為

(12)

AWDDQN將抽取的n個樣本按照時間差分誤差分成2組后,使用不同的K值進行目標(biāo)值的計算,然后采用隨機梯度下降方法對這一批量的樣本進行網(wǎng)絡(luò)參數(shù)的更新.

2.3 算法描述

在DDQN框架中,結(jié)合了基于權(quán)重的雙估計器和基于時間差分誤差的Averaging方法,形成了AWDDQN框架.

AWDDQN的實施過程如算法3所示:

算法3.AWDDQN算法.

輸入:初始化評估網(wǎng)絡(luò)參數(shù)θ、目標(biāo)網(wǎng)絡(luò)參數(shù)θ-、初始化經(jīng)驗池D;

輸出:評估網(wǎng)絡(luò)參數(shù)θ.

① Forepisode=1 toMdo

② 初始化初始狀態(tài)s0;

③ Fort=0 toTdo

④ 根據(jù)ε-greedy策略選擇動作at;

⑤ 執(zhí)行動作at,觀察下一狀態(tài)st+1和立即獎賞rt;

⑥ 將轉(zhuǎn)移樣本(st,at,rt,st+1)存放到經(jīng)驗池中;

⑦ 從經(jīng)驗池D中抽取n批量轉(zhuǎn)移樣本(sj,aj,rj,sj+1)進行更新;

⑧ 對抽取的n批量樣本按照時間差分誤差進行排序分成2組;

⑨ 具有較小時間差分誤差的樣本,K=5,具有較大時間差分誤差的樣本,K=10;

首先輸入初始化的超參數(shù),agent在初始狀態(tài)根據(jù)ε-greedy策略選擇動作a0,并執(zhí)行a0動作,得到下一狀態(tài)和獎賞,隨后將轉(zhuǎn)移樣本存入經(jīng)驗池中.訓(xùn)練網(wǎng)絡(luò)時,從經(jīng)驗池中抽取n個樣本,并按照時間差分誤差將樣本分成2組,然后使用基于時間差分誤差的Averaging方法和基于權(quán)重的雙估計器計算目標(biāo)值,接著使用隨機梯度下降更新網(wǎng)絡(luò)的參數(shù).agent在每個時間步根據(jù)網(wǎng)絡(luò)輸出的Q值來確定需要執(zhí)行的動作,經(jīng)過一定的時間步后,將當(dāng)前評估網(wǎng)絡(luò)的權(quán)重θ復(fù)制給目標(biāo)網(wǎng)絡(luò).

3 實驗及結(jié)果分析

本節(jié)主要介紹實驗平臺、實驗參數(shù)設(shè)置、實驗評估標(biāo)準(zhǔn)以及實驗結(jié)果分析.

3.1 實驗平臺描述

本文將OpenAI開發(fā)的Gym[24]實驗平臺作為實驗環(huán)境.Gym是一款用于研發(fā)和比較強化學(xué)習(xí)算法的工具包,它支持訓(xùn)練智能體agent完成多種任務(wù)——從行走到玩Pong或圍棋之類的游戲.Gym實驗平臺包含了Atari 2600,MuJoCo等多種游戲環(huán)境.Atari 2600中每個游戲環(huán)境不同,且包含多種游戲類型.Gym提供了一個嚴(yán)格的測試平臺,用來評估比較強化學(xué)習(xí)、模式學(xué)習(xí)、模仿學(xué)習(xí)、遷移學(xué)習(xí)以及深度強化學(xué)習(xí)這些方法.

DQN,DDQN使用了深度Q學(xué)習(xí)和雙Q學(xué)習(xí)算法來訓(xùn)練agent,由于存在高估和低估動作值的問題,它們的性能并不是很令人滿意.為了提升agent的性能,本文提出AWDDQN算法,并選取了4個Atari 2600游戲中具有代表性的游戲:Seaquest,Asterix,BeamRider,SpaceInvaders來設(shè)計實驗.實驗以DDQN為基準(zhǔn)比較算法,根據(jù)實驗結(jié)果評估AWDDQN算法在這些游戲上的表現(xiàn),并與DDQN,WDDQN,ADDQN進行比較.

DDQN是Van Hasselt等人[15]提出的深度雙Q網(wǎng)絡(luò).WDDQN是以加權(quán)的方式結(jié)合DQN和DDQN的算法.ADDQN是將基于時間差分誤差的Averaging方法加入到深度雙Q網(wǎng)絡(luò)中,不使用基于權(quán)重的雙Q學(xué)習(xí)算法更新網(wǎng)絡(luò)參數(shù),其目標(biāo)值計算為

yADDQN=r+

(13)

AWDDQN是本文提出的將基于權(quán)重的雙估計器和基于時間差分誤差A(yù)veraging方法結(jié)合的深度雙Q網(wǎng)絡(luò).

其中,AWDDQN的網(wǎng)絡(luò)結(jié)構(gòu)和DQN的網(wǎng)絡(luò)結(jié)構(gòu)相同,如圖1所示:該網(wǎng)絡(luò)由3個卷積層和2個全連接層構(gòu)成;第1個卷積層為32個步幅為4的8×8的過濾器,第2個卷積層為64個步幅為2的4×4的過濾器,第3個卷積層為64個步幅為1的3×3的過濾器,最后隱藏層是由512個神經(jīng)元組成的全連接線性層,輸出層神經(jīng)元數(shù)量和游戲合法動作數(shù)量相同.網(wǎng)絡(luò)的輸入是游戲的4幀畫面,輸出是該游戲狀態(tài)下每個動作的Q值.

Fig.1 The architecture of AWDDQN圖1 AWDDQN網(wǎng)絡(luò)結(jié)構(gòu)示意圖

3.2 實驗參數(shù)設(shè)置

在本文設(shè)計的實驗中,4種算法使用的大部分超參數(shù)是相同的,如表1所示.

上述4種算法的網(wǎng)絡(luò)結(jié)構(gòu)與DQN相同.在訓(xùn)練agent玩游戲的過程中,網(wǎng)絡(luò)模型的輸入通常是游戲的畫面,因為模型中的卷積層能夠自動學(xué)習(xí)到游戲畫面的良好特征表達(dá),所以在實驗之前,不需要人工設(shè)計特征作為網(wǎng)絡(luò)的輸入數(shù)據(jù).

在WDDQN中,使用了基于權(quán)重的雙Q學(xué)習(xí)更新方式,用來計算權(quán)重的超參數(shù)c取值為1,10,100.在ADDQN中,使用基于時間差分的Averaging方法計算目標(biāo)值進行更新,用來計算平均目標(biāo)值的超參數(shù)K取值為5,10.而在AWDDQN中,使用基于權(quán)重的雙Q學(xué)習(xí)和基于時間差分的Averaging方法結(jié)合計算目標(biāo)值.其中,c=10,K取值為5,10.

樣本池的最大容量為100萬個轉(zhuǎn)移樣本.在訓(xùn)練的開始階段,為了使agent在學(xué)習(xí)初期有足夠的樣本進行訓(xùn)練,在50 000更新時間步之前,agent采取隨機的策略存儲轉(zhuǎn)移樣本到樣本池中.這樣的方式使得agent的訓(xùn)練沒有偏向性.

在實驗中,還運用了一些常用方法[13]來減少不穩(wěn)定現(xiàn)象.

1) 獎賞限界.在Atari 2600游戲中,因為每個游戲的環(huán)境不同,所得到的最終得分也有著較大差異.為了更清晰地比較實驗效果,通常將每個游戲中的正獎賞設(shè)置為+1,負(fù)獎賞設(shè)置為-1,其余保持不變.

2) 誤差裁剪.在深度強化學(xué)習(xí)中,一般使用基于均方根的隨機梯度下降來逐步更新網(wǎng)絡(luò)參數(shù).在實驗過程中,將動量系數(shù)設(shè)為0.95.不同游戲之間使用不同的學(xué)習(xí)率影響算法的穩(wěn)定性,更有可能陷入局部最優(yōu).因此,在訓(xùn)練和測試過程中,將TD誤差項裁剪到[-1,1]區(qū)間中,并且將梯度裁剪到[-5,5]區(qū)間中.

3) 批量更新.每次更新網(wǎng)絡(luò)參數(shù)時,都需要從經(jīng)驗池中選取小批量的轉(zhuǎn)移樣本.在實驗中,批量n設(shè)置為32.同時,設(shè)置折扣因子為0.99.學(xué)習(xí)率η與行為策略的參數(shù)ε設(shè)置為從情節(jié)開始到一定區(qū)間內(nèi)遞減的方式,學(xué)習(xí)率η從0.005逐漸遞減到0.000 25,探索因子ε從1.0逐漸遞減到0.1.

Table 1 The Detailed Explanation of Hyperparameters表1 超參數(shù)的詳細(xì)說明

3.3 實驗評估

在強化學(xué)習(xí)方法中,通常采用經(jīng)歷1個情節(jié)所獲得的累積獎賞來作為評價標(biāo)準(zhǔn).在Atari 2600游戲中,將agent玩1局游戲作為1個情節(jié),因此,1局游戲所獲得的得分就是累積獎賞.

訓(xùn)練深度Q網(wǎng)絡(luò)往往需要很長時間,因此,一般深度Q網(wǎng)絡(luò)的訓(xùn)練通過分階段完成.在本文的實驗中,將訓(xùn)練過程中各階段得到的平均每情節(jié)獎賞數(shù)作為這4個算法性能的評估標(biāo)準(zhǔn).

在Mnih等人[13]提出的DQN中,其訓(xùn)練過程是通過200個階段來完成的.在每個階段中,參數(shù)更新經(jīng)歷了250 000時間步,評估過程經(jīng)歷了125 000時間步.DQN在GPU上的訓(xùn)練大約需要2周的時間.為了保證不同算法之間的參數(shù)一致性和計算效率,雖然本文實驗中的訓(xùn)練過程采用200個訓(xùn)練階段,但是每個訓(xùn)練階段只包含50 000時間步的參數(shù)更新過程以及25 000時間步的評估過程.這樣的設(shè)置在GPU上只需要3天就能在1個游戲環(huán)境下訓(xùn)練出1個模型.

3.4 實驗結(jié)果分析

本文首先比較了DDQN和WDDQN在訓(xùn)練玩Seaquest,Asterix,SpaceInvaders,BeamRider這4個游戲過程中的表現(xiàn),探究超參數(shù)c對WDDQN算法性能的影響.

為了驗證WDDQN算法在訓(xùn)練過程中的表現(xiàn)要優(yōu)于DDQN算法[15]并探究超參數(shù)c對WDDQN算法的影響,首先進行實驗來比較這2種算法在訓(xùn)練agent玩4種游戲時各階段所獲得的平均每情節(jié)獎賞.在WDDQN算法中,本文設(shè)置的超參數(shù)c,分別取值為1,10,100.圖2展示這2種算法在訓(xùn)練4種游戲時各階段平均每情節(jié)獎賞,其中x軸表示訓(xùn)練階段,y軸表示平均每情節(jié)獎賞.

Fig.2 Comparisons of DDQN,WDDQN for Atari games圖2 采用DDQN,WDDQN訓(xùn)練Seaquest,Asterix,SpaceInvaders,BeamRider時各階段平均每情節(jié)獎賞對比

圖2表明在訓(xùn)練這4種游戲時,隨著訓(xùn)練階段的增加,WDDQN算法獲得的平均每情節(jié)獎賞高于DDQN算法,尤其是在20個訓(xùn)練階段之后表現(xiàn)更加明顯.實驗結(jié)果表明使用基于權(quán)重的雙Q學(xué)習(xí)的WDDQN算法可以更大程度地減小目標(biāo)值估計的誤差,產(chǎn)生更精確的動作值估計,因此可以更加快速地學(xué)習(xí)到一些關(guān)鍵性策略,提高游戲得分.因此,WDDQN算法的性能好于DDQN,這說明了使用基于權(quán)重的雙Q學(xué)習(xí)訓(xùn)練agent比只使用雙Q學(xué)習(xí)訓(xùn)練更加有效.

WDDQN的3種算法在訓(xùn)練這4種游戲時的性能大致相當(dāng),沒有太大的差距.但是從圖2中的Asterix游戲?qū)Ρ葓D中看出,當(dāng)c=10時,WDDQN算法性能稍微好于當(dāng)c=1或100時,這說明WDDQN中計算權(quán)重的超參數(shù)c對算法性能存在著一定的影響.在第1組實驗中當(dāng)c取值為1,10,100時,WDDQN算法性能都要優(yōu)于DDQN算法,然而這樣的設(shè)置并不精確,可能還存在更優(yōu)的c的取值,或許也可以根據(jù)動作值將超參數(shù)c表示成函數(shù),使得c成為一個動態(tài)學(xué)習(xí)的參數(shù).

另外,從圖2可以看出,隨著訓(xùn)練階段的增加,尤其是在經(jīng)歷了180個訓(xùn)練階段之后,WDDQN的3種算法獲得的平均每情節(jié)獎賞趨于穩(wěn)定.這在一定程度上保證了WDDQN算法的穩(wěn)定性.

Fig.3 Average Q-values per episode for each stage of Seaquest圖3 訓(xùn)練Seaquest時各階段平均每情節(jié)狀態(tài)動作值

圖3對比了DDQN和WDDQN算法在訓(xùn)練Seaquest游戲時各階段獲得的平均每情節(jié)的最大動作Q值.Seaquest游戲是一種戰(zhàn)略性的游戲,提高得分的關(guān)鍵是agent是否能夠及時學(xué)習(xí)到一些關(guān)鍵性策略.比如,當(dāng)潛水艇在海底并且氧氣不足時,agent應(yīng)該選擇多次上浮到水面儲備氧氣的動作.但是在游戲中有些動作需要在一個狀態(tài)下重復(fù)執(zhí)行多次,該動作帶來的效益也會在較多時間步之后才會表現(xiàn)在游戲畫面上并且被agent感知.如果agent不能學(xué)習(xí)到這個動作,那么得分會很低.

圖3中WDDQN算法在訓(xùn)練過程中平均每情節(jié)最大Q值要比DDQN高3~4倍,這表明使用了基于權(quán)重的雙Q學(xué)習(xí)方法,能夠大幅度地減少動作值的低估,促進Q值的增長.而DDQN算法由于只使用雙Q學(xué)習(xí)算法,存在低估動作值的不足,因此Q值曲線上升緩慢.

Fig.4 Comparisons of WDDQN,ADDQN,AWDDQN for Atari games(c=10)圖4 采用WDDQN,ADDQN,AWDDQN算法訓(xùn)練4種游戲時各階段平均每情節(jié)獎賞對比(c=10)

WDDQN算法的Q值曲線一直處于上升趨勢,這表明如果訓(xùn)練階段增加,其平均每情節(jié)的最大Q值會越來越高,性能也會越來越好.從圖3可以發(fā)現(xiàn),WDDQN算法在訓(xùn)練時獲得的Q值平緩上升并趨于收斂,充分說明WDDQN算法在訓(xùn)練過程中的穩(wěn)定性和有效性.而相比于DDQN算法,WDDQN算法因為使用了基于權(quán)重的雙Q學(xué)習(xí)方法,在訓(xùn)練時更加穩(wěn)定,表現(xiàn)更好.

因此,在訓(xùn)練Seaquest游戲時,WDDQN算法可以有效地學(xué)習(xí)到關(guān)鍵性動作,在潛水艇氧氣不足且還在海底深處時,重復(fù)執(zhí)行向上動作多次直到儲備了足夠的氧氣.在DDQN中,由于采用雙Q學(xué)習(xí)的訓(xùn)練方式,對目標(biāo)值的估計不夠準(zhǔn)確,會出現(xiàn)低估的情況,因此難以學(xué)習(xí)到玩Seaquest氧氣不足時不斷向上的動作,所以agent的性能不是很理想.

本文對WDDQN,ADDQN,AWDDQN在訓(xùn)練過程中的表現(xiàn)進行比較.為了驗證AWDDQN算法在訓(xùn)練過程中的表現(xiàn)要優(yōu)于WDDQN和ADDQN算法,進行實驗來比較這3種算法在訓(xùn)練agent玩Seaquest,Asterix,SpaceInvaders,BeamRider等游戲時各階段所獲得的平均每情節(jié)獎賞.在這組實驗中,WDDQN和AWDDQN算法均使用超參數(shù)c=10,ADDQN使用超參數(shù)K取值為5,10.圖4展示3種算法在訓(xùn)練時各階段的平均每情節(jié)獎賞.

圖4表明AWDDQN算法的訓(xùn)練效果好于其余2種算法,隨著訓(xùn)練階段的增加,平均每情節(jié)獲得的獎賞越來越大,并且和WDDQN和ADDQN算法的差距越發(fā)顯著.這表明將基于權(quán)重的雙估計器和基于時間差分誤差的Averaging方法結(jié)合,能夠更加準(zhǔn)確地計算目標(biāo)值,更準(zhǔn)確地進行值估計.相對于單獨使用其中任一方法,AWDDQN算法能夠更加快速地學(xué)習(xí)一些關(guān)鍵性策略,提高游戲得分.因此在深度雙Q網(wǎng)絡(luò)中,將基于權(quán)重的雙估計器和基于時間差分誤差的Averaging方法結(jié)合是有效的,可以提升agent的性能,且性能超過這2個單一的方法.

ADDQN平均每情節(jié)獲得的獎賞和WDDQN算法相比,兩者之間差距不是很大.這能夠說明基于時間差分誤差的Averaging方法也可以改進DDQN算法的性能,其性能可以達(dá)到WDDQN的水平.然而,觀察圖4可以發(fā)現(xiàn),在Asterix和BeamRider游戲中,ADDQN算法平均每情節(jié)獲得的獎賞稍微低于WDDQN,這說明在某些游戲上ADDQN算法的性能會低于WDDQN.因此,ADDQN算法在一定程度上能夠進行比較精確的動作值估計,提升自身的決策能力.

在訓(xùn)練過程中,3種算法各階段的平均每情節(jié)獎賞值都存在一定波動,但是AWDDQN算法的波動相對較小,且平均每情節(jié)獎賞一直處于上升趨勢中.獎賞值產(chǎn)生波動主要原因是在訓(xùn)練網(wǎng)絡(luò)的過程中,每個時間步參數(shù)都在更新,雖然網(wǎng)絡(luò)參數(shù)每次的變動都很小,但也會導(dǎo)致最終輸出的動作值發(fā)生較大的變化,進而引起agent在下一階段中學(xué)習(xí)到的策略發(fā)生較大變化.

為了進一步說明這3種算法在訓(xùn)練時的穩(wěn)定性,圖5對比了上述3種算法在Seaquest游戲中各階段所獲得的平均每情節(jié)的最大動作Q值.

Fig.5 Average Q-values per episode for each stage of Seaquest(c=10)圖5 訓(xùn)練Seaquest時各階段平均每情節(jié)狀態(tài)動作值(c=10)

從圖5可以看出AWDDQN在訓(xùn)練過程中平均每情節(jié)最大Q值函數(shù)的曲線高于WDDQN和ADDQN,這表明AWDDQN結(jié)合使用基于權(quán)重的雙估計器和基于時間差分誤差的Averaging方法,減少了動作值的低估,促進了Q值的增長.

AWDDQN的Q值曲線一直處于上升的趨勢中,如果訓(xùn)練階段增加,其性能會越來越好.而對于WDDQN和ADDQN算法,因為一直學(xué)習(xí)不到游戲中能夠提高游戲得分的關(guān)鍵性策略,Q值曲線上升緩慢并趨于平緩.從圖5可以看出,在訓(xùn)練后期,3種算法的Q值上升平緩并趨于收斂,表明這3種算法在訓(xùn)練時的穩(wěn)定性,且AWDDQN算法在訓(xùn)練中表現(xiàn)更加穩(wěn)定.

進一步地,本文比較了不同超參數(shù)K的取值對AWDDQN算法性能和運行時間效率的影響.本文進行了WDDQN,ADDQN,AWDDQN算法運行時間的對比.在AWDDQN算法中,K值分別選取了3組:K取值為5,10;K取值為10,15;K取值為15,20.運行時間對比結(jié)果如表2所示:

Table 2 Average Epoch Training Time of WDDQN, ADDQN,AWDDQN表2 WDDQN,ADDQN,AWDDQN算法每訓(xùn)練階段 平均運行時間對比

從表2可以看出,AWDDQN算法的訓(xùn)練時間比WDDQN和ADDQN算法所需的時間長.WDDQN和ADDQN算法所需要的訓(xùn)練時間相差不大.雖然AWDDQN算法的訓(xùn)練時間較長,但其獲得的訓(xùn)練效果比其他2個算法更好.因此,AWDDQN算法的性能總體上優(yōu)于WDDQN和ADDQN算法.從表2的后3行可以發(fā)現(xiàn),選取不同K值來訓(xùn)練AWDDQN算法所花費的時間不同,對算法的影響較大.當(dāng)K取值為15,20時,AWDDQN算法的每訓(xùn)練階段平均運行時間為48.3 min,遠(yuǎn)高于其余2種AWDDQN算法.

Fig.6 Comparisons of AWDDQN with different values of K for Atari games圖6 選取不同K值的AWDDQN算法訓(xùn)練4種游戲時各階段平均每情節(jié)獎賞對比

另外,本文對比了具有不同K值的AWDDQN算法在訓(xùn)練Seaquest,Asterix,SpaceInvaders,Beam-Rider游戲時的表現(xiàn).從圖6可以看出,當(dāng)K取值為15,20時,AWDDQN算法獲得的各階段平均每情節(jié)獎賞最大.K取值為10,15的AWDDQN算法獲得的獎賞比K取值為5,10的算法大.在訓(xùn)練階段后期,AWDDQN算法的獎賞曲線趨于平緩,表明該算法具有穩(wěn)定性.因此,隨著K值的增加,AWDDQN算法的性能越來越好,更好地減小估計值和目標(biāo)值之間的誤差.然而,雖然算法性能有所提升,但其所需的訓(xùn)練時間增加,導(dǎo)致計算量增加,從而降低算法的運行效率.所以,在特定的游戲環(huán)境中,綜合考慮算法的運行效率和性能表現(xiàn),選取適當(dāng)?shù)腒值,有利于提高算法的效率,提升算法的性能.

最后本文還將訓(xùn)練完成后的DDQN,WDDQN,ADDQN,AWDDQN這4個算法用來玩這4個游戲,比較它們在測試過程中的性能.我們將訓(xùn)練完成后的模型經(jīng)歷1個步長為25 000的游戲測試過程來評估其性能的好壞.為了保證測試結(jié)果的多樣性,每次游戲的初始狀態(tài)都隨機選取.不同游戲中agent在訓(xùn)練和測試過程中都采用ε-greedy策略,其中,ε=0.05.實驗比較了4個模型在4種游戲中經(jīng)歷200次測試后得到的平均得分值和最大得分值.

實驗結(jié)果詳細(xì)如表3所示.從表3的平均值一列可以得到,與其他3種算法相比,訓(xùn)練完成后的AWDDQN算法在指導(dǎo)agent玩這4種游戲時的表現(xiàn)更好.這表明訓(xùn)練完成后的AWDDQN算法模型性能也優(yōu)于DDQN,WDDQN,ADDQN算法.另一方面,從表3的最大值一列中可以看出, AWDDQN在玩這4種游戲時的最優(yōu)表現(xiàn)也優(yōu)于其他3種算法.與訓(xùn)練過程類似,針對這4種游戲,AWDDQN算法的測試性能好于DDQN,WDDQN,ADDQN算法,WDDQN算法和ADDQN算法測試性能相當(dāng),但都優(yōu)于DDQN算法.

Table 3 The Scores of 4 Different Games After Different Training表3 訓(xùn)練完成后的不同算法在4種游戲上的測試得分評估

Note:The bold numbers indicate the best results in each game.

3.5 實驗總結(jié)

在本文實驗中,一共進行了4組對比實驗:第1組實驗對比了DDQN和WDDQN算法,探究基于權(quán)重的雙估計器是否能提高DDQN算法的性能并探究超參數(shù)c對WDDQN算法的影響;第2組實驗使用WDDQN,ADDQN,AWDDQN這3種算法模型訓(xùn)練agent玩Seaquest,Asterix,Space Invaders,BeamRider游戲,并分析比較它們在訓(xùn)練階段的表現(xiàn),探究AWDDQN算法是否能夠提高agent的性能;第3組實驗探討了不同超參數(shù)K的取值對AWDDQN算法的性能和運行時間效率的影響;在第4組實驗中,將這4種訓(xùn)練完成后的算法模型用來測試玩這4種游戲,再次分析比較它們的測試性能.

通過分析比較實驗結(jié)果,可以得出4個結(jié)論:

1) 基于權(quán)重的雙估計器權(quán)衡了單估計器和雙估計器的影響,能夠產(chǎn)生更加精確的動作值估計,因此基于權(quán)重的雙估計器方法提高了DDQN算法的性能,充分彌補DDQN存在低估動作值的不足.

2) 基于時間差分誤差的Averaging方法根據(jù)抽取樣本的時間差分誤差的大小動態(tài)確定使用先前學(xué)習(xí)到的動作值的數(shù)量,然后求平均值產(chǎn)生目標(biāo)值.在不增加算法計算量的基礎(chǔ)上能夠產(chǎn)生更精確的動作值估計,從而使得agent更加快速地學(xué)習(xí)到提高游戲得分的關(guān)鍵策略.

3) 在4種游戲中驗證了WDDQN,ADDQN,AWDDQN算法的性能,它們在訓(xùn)練過程和訓(xùn)練完成后的測試過程中,表現(xiàn)都優(yōu)于DDQN算法.并且AWDDQN算法的性能要優(yōu)于WDDQN和ADDQN,充分說明AWDDQN算法的有效性,將基于權(quán)重的雙估計器和基于時間差分誤差的Averaging方法結(jié)合能夠進一步提升agent的學(xué)習(xí)能力.

4) 在4種游戲中,具有3組不同K值的AWDDQN算法的性能表現(xiàn)不同.隨著K值的增加,AWDDQN算法性能有所提升,但其所需的訓(xùn)練時間增加,降低了算法的運行效率.因此,綜合考慮算法的運行效率和性能表現(xiàn),選取適當(dāng)?shù)腒值,有利于提高算法的效率,提升算法的性能.

4 總 結(jié)

本文將基于權(quán)重的雙估計器整合到了深度雙Q網(wǎng)絡(luò)中,提出了WDDQN算法,并且改進了Averaging方法,提出基于時間差分誤差的Averaging方法,形成新的ADDQN算法,最后為了進一步提升DDQN算法的性能,本文將這2種方法進行有效結(jié)合,提出AWDDQN算法.AWDDQN結(jié)合了基于權(quán)重雙估計器和基于時間差分誤差的Averaging方法的優(yōu)勢,能夠計算出更加準(zhǔn)確的目標(biāo)值,產(chǎn)生更精確的動作估計值,從而快速學(xué)習(xí)到對決策更有幫助的策略.本文選取4個游戲來驗證本文算法的有效性,同時對這4個游戲進行測試,結(jié)果表明AWDDQN算法平均每情節(jié)獲得的獎賞最高,并且表現(xiàn)更穩(wěn)定.

未來的研究工作包括如何將WDDQN算法中的超參數(shù)c變成一個可學(xué)習(xí)的參數(shù),而不是簡單地設(shè)置為一個常數(shù).此外,嘗試將本文提出的算法和其他網(wǎng)絡(luò)模型結(jié)合,比如基于競爭的Q網(wǎng)絡(luò)[25],深度循環(huán)網(wǎng)絡(luò)模型[26]等.諸如此類的改進方法會進一步提高算法的性能,提高agent的學(xué)習(xí)能力.

猜你喜歡
目標(biāo)值差分權(quán)重
一類分?jǐn)?shù)階q-差分方程正解的存在性與不存在性(英文)
權(quán)重望寡:如何化解低地位領(lǐng)導(dǎo)的補償性辱虐管理行為?*
序列型分?jǐn)?shù)階差分方程解的存在唯一性
AI講座:ML的分類方法
ML的迭代學(xué)習(xí)過程
權(quán)重常思“浮名輕”
一個求非線性差分方程所有多項式解的算法(英)
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
權(quán)重漲個股跌 持有白馬藍(lán)籌
基于差分隱私的數(shù)據(jù)匿名化隱私保護方法
五大连池市| 天峨县| 兴国县| 上栗县| 苏州市| 开封县| 博湖县| 宜城市| 金堂县| 舒城县| 炉霍县| 五寨县| 铁力市| 永定县| 利津县| 永康市| 义乌市| 福清市| 太原市| 甘谷县| 临泽县| 板桥市| 纳雍县| 荆门市| 崇礼县| 岳阳市| 南皮县| 丹凤县| 邓州市| 旬邑县| 龙游县| 富源县| 额济纳旗| SHOW| 玉山县| 沐川县| 昭苏县| 巴楚县| 吉隆县| 镇巴县| 彰化市|