一種權(quán)重平均值的深度雙Q網(wǎng)絡(luò)方法

2020-03-21 01:10吳金金

計算機研究與發(fā)展 2020年3期

吳金金劉全,2,3,4 陳松閆巖

1(蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院江蘇蘇州 215006) 2(符號計算與知識工程教育部重點實驗室(吉林大學(xué)) 長春 130012) 3(江蘇省計算機信息處理技術(shù)重點實驗室(蘇州大學(xué)) 江蘇蘇州 215006) 4(軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心(南京大學(xué)) 南京 210023)(20174227020@stu.suda.edu.cn)

在強化學(xué)習(xí)(reinforcement learning， RL)中，通常采用Markov決策過程(Markov decision processes, MDPs)作為不確定情況下的序貫決策問題的框架［1-2].RL的目標(biāo)是通過最大化累積未來獎賞來獲得最優(yōu)策略.目前部分算法可以應(yīng)用于帶有明確樣本轉(zhuǎn)移和獎賞的強化學(xué)習(xí)問題中，而大多數(shù)的無模型算法可以直接學(xué)習(xí)到不同的動作值［3-5].其中，Q學(xué)習(xí)(Q-learning)是迄今為止最受歡迎的模型無關(guān)的強化學(xué)習(xí)算法［5-6]，但由于在評估動作值過程中包含1個最大化操作，有時學(xué)習(xí)到的動作值比真實值會高很多，這直接導(dǎo)致了動作值的過高估計.

深度學(xué)習(xí)(deep learning， DL)已經(jīng)成為機器學(xué)習(xí)領(lǐng)域的一大研究熱點［7].其能夠從原始圖像中獲取特征，通過線性或者非線性組合來獲得更好的數(shù)據(jù)表征.DL已經(jīng)在模型壓縮、神經(jīng)語言模型、情感分析等領(lǐng)域取得了很大的突破［8-10].深度學(xué)習(xí)和強化學(xué)習(xí)有著不同的特性，結(jié)合這兩者得到深度強化學(xué)習(xí)(deep reinforcement learning， DRL)［11-12],可以幫助agent在一些復(fù)雜的環(huán)境中更好地學(xué)習(xí)和決策.

深度Q網(wǎng)絡(luò)(deep Q-network， DQN)是第1個成功結(jié)合非線性函數(shù)逼近技術(shù)——深度神經(jīng)網(wǎng)絡(luò)(deep neural network， DNN)和Q學(xué)習(xí)的算法［13].DQN已經(jīng)被證明能夠在不同Atari 2600游戲中學(xué)習(xí)到人類級別的控制策略.DQN從當(dāng)前游戲狀態(tài)中評估每個可能動作的Q值.考慮到網(wǎng)絡(luò)中的Q值估計足夠精確，所以通常會在每個時間步選擇具有最大Q值的動作來進行游戲.DQN以及基于DQN的改進算法已被證明可以在許多Atari 2600游戲中表現(xiàn)優(yōu)異.

DQN將Q學(xué)習(xí)與靈活的深度神經(jīng)網(wǎng)絡(luò)相結(jié)合，并在各種各樣的大量確定性Atari 2600游戲上進行測試，實驗結(jié)果表明它在許多游戲中達(dá)到了人類級別的表現(xiàn)［14].雖然深度神經(jīng)網(wǎng)絡(luò)提供了靈活的函數(shù)逼近以及低漸進逼近誤差的可能性，并且環(huán)境的確定性防止了噪聲的有害影響，但是在這種相對有利的情況下，DQN有時也會大大高估動作值.

針對這種情況，Van Hasselt等人［15]提出了深度雙Q網(wǎng)絡(luò)(double deep Q-network， DDQN).這種算法不僅可以產(chǎn)生更準(zhǔn)確的值估計，而且可以在部分游戲中獲得更高的分?jǐn)?shù).這表明DQN的高估確實會影響策略的好壞，并且降低高估對于游戲性能來說是有益的.但是，DDQN有時會低估動作值從而產(chǎn)生偏差［15].章宗長等人［16]在雙Q學(xué)習(xí)(double Q-learning， DQL)的基礎(chǔ)上提出了基于權(quán)重的雙Q學(xué)習(xí)(weighted double Q-learning， WDQ).該算法的目的是在單個估計器的高估和2個估計器的低估之間尋找平衡.實驗結(jié)果表明，該算法能有效減少估計誤差，并在大量的MDP問題中表現(xiàn)優(yōu)異.Anschel等人［17]提出了另一種解決高估現(xiàn)象的方法——基于平均值的深度Q網(wǎng)絡(luò)(averaged deep Q-network， Averaged-DQN)，也就是計算先前學(xué)習(xí)到的Q值的平均值作為目標(biāo)值.實驗結(jié)果表明這種方法能有效提高訓(xùn)練的穩(wěn)定性，且表現(xiàn)突出.

在本文中，我們將章宗長等人［16]提出的帶權(quán)重的雙估計器擴展到了深度強化學(xué)習(xí)中.為了緩解深度Q網(wǎng)絡(luò)的高估和深度雙Q網(wǎng)絡(luò)的低估問題，我們將帶權(quán)重的雙估計器與深度雙Q網(wǎng)絡(luò)結(jié)合，形成新的基于權(quán)重的深度雙Q網(wǎng)絡(luò)算法(weighted double deep Q-network， WDDQN).此外，為了進一步減少目標(biāo)值估計的方差，我們對Anschel等人［17]提出的Averaged-DQN方法進行了改進.具體地，計算之前學(xué)習(xí)到的動作估計值的平均值來產(chǎn)生目標(biāo)值并且根據(jù)時間差分誤差(temporal difference error, TD error)動態(tài)地確定平均動作值的數(shù)量，并將之整合到基于權(quán)重的深度雙Q網(wǎng)絡(luò)中，形成一個新的深度強化學(xué)習(xí)框架——基于權(quán)重平均值的深度雙Q網(wǎng)絡(luò)(averaged weighted double deep Q-network, AWDDQN).

本文的主要貢獻(xiàn)有3個方面：

1) 將帶權(quán)重的雙估計器引入到深度雙Q網(wǎng)絡(luò)中，提出WDDQN算法.

2) 對Averaged-DQN中的Averaging方法進行了改進：通過計算之前學(xué)習(xí)到的動作估計值的平均值來產(chǎn)生目標(biāo)值，并且根據(jù)時間差分誤差動態(tài)地確定平均動作值的數(shù)量，將之與帶權(quán)重的雙估計器結(jié)合，產(chǎn)生更精確的動作值估計，并且提出AWDDQN算法.

3) 將AWDDQN應(yīng)用于Atari 2600的4個經(jīng)典游戲中，對比本文算法和其他相關(guān)算法的性能.實驗結(jié)果表明，通過結(jié)合雙估計器和改進的Averaging方法可以提升agent的性能.

1 背景知識

1.1 強化學(xué)習(xí)

強化學(xué)習(xí)能夠解決agent在環(huán)境中自主采取動作以最大化標(biāo)量獎賞信號的問題.在整個探索過程中，外界從未直接告知agent最優(yōu)動作.在每個離散時間步t=0,1,…，環(huán)境為agent提供1個觀察St，agent根據(jù)策略選擇1個動作At作出響應(yīng)，然后獲得環(huán)境提供的立即獎賞Rt+1，并且轉(zhuǎn)移到下一狀態(tài)St+1.這種交互可以形式化地定義為MDPs模型［18]，用元組〈S,A,T,R,γ〉表示，其中S表示有限狀態(tài)集合，A表示有限動作集合，T(s,a,s′)=P［St+1=s′|St=s,At=a]表示轉(zhuǎn)移函數(shù)，R(s,a)=E［Rt+1|St=s,At=a]表示獎賞函數(shù)，γ∈［0,1]表示折扣率.

agent的動作選擇由策略π給出，該策略定義了每個狀態(tài)的動作概率分布.在時刻t遇到狀態(tài)st，當(dāng)前agent獲得的未來獎賞的折扣總和稱為折扣回報，定義為

(1)

agent的目標(biāo)是通過尋找一個最優(yōu)策略來最大化期望折扣回報.

策略可以直接被學(xué)習(xí)，也可以通過函數(shù)構(gòu)建.在基于值的強化學(xué)習(xí)［19]中，當(dāng)從給定狀態(tài)開始遵循策略π時，agent學(xué)習(xí)期望折扣回報的估計，可以是狀態(tài)值，Vπ(s)=Eπ［Gt|St=s]，表示在狀態(tài)s遵循策略π到情節(jié)結(jié)束獲得的期望回報.也可以是狀態(tài)動作值，Qπ(s,a)=Eπ［Gt|St=s,At=a]，表示在狀態(tài)s根據(jù)策略π選擇動作a，并一直遵循策略π到情節(jié)結(jié)束獲得的期望回報.從狀態(tài)動作值函數(shù)中推導(dǎo)出新策略的一種常見方法是采用關(guān)于動作值的ε-greedy策略，也就是以1-ε概率采取貪心動作，并且以ε概率隨機均勻地采取任意動作.這種策略更有利于agent在環(huán)境中探索：根據(jù)當(dāng)前估計隨機選擇次優(yōu)動作，agent可以在適當(dāng)?shù)臅r候發(fā)現(xiàn)并糾正該估計.

Q學(xué)習(xí)［5-6]是一種基于值迭代更新的算法，即直接估計最優(yōu)動作值函數(shù)Q*.表格式的Q學(xué)習(xí)算法利用以下更新規(guī)則來對當(dāng)前動作值函數(shù)的估計值進行更新：

(2)

其中，s′表示在狀態(tài)s采取動作a到達(dá)的下一個狀態(tài)，a′表示在狀態(tài)s′選擇的動作，α∈［0,1]表示步長參數(shù)，r表示在狀態(tài)s選擇動作a后獲得的立即獎賞.

當(dāng)狀態(tài)空間非常大的時候，存儲所有狀態(tài)動作對的值是難以實現(xiàn)的.對此常用的解決辦法是使用函數(shù)逼近方法來近似求解動作值函數(shù).一般采用參數(shù)θ［20]，比如Q(s,a)≈Q(s,a;θ).Q(s,a;θ)表示使用參數(shù)θ近似估計的狀態(tài)動作值函數(shù)，例如可用神經(jīng)網(wǎng)絡(luò)來求得.帶有函數(shù)逼近參數(shù)θ的Q學(xué)習(xí)更新使用學(xué)習(xí)規(guī)則：

(3)

1.2 深度Q網(wǎng)絡(luò)

較大的狀態(tài)空間或者動作空間使得agent難以獨立學(xué)習(xí)每個狀態(tài)動作對的Q值估計［21].在DRL中，策略π(a|s)或者Q(s,a)常用深層(即多層)神經(jīng)網(wǎng)絡(luò)表示.這些網(wǎng)絡(luò)參數(shù)通過梯度下降進行訓(xùn)練以擬合一些合適的損失函數(shù)［22].

在DQN［13]中，通過使用卷積神經(jīng)網(wǎng)絡(luò)［23]將深度網(wǎng)絡(luò)和強化學(xué)習(xí)成功地結(jié)合起來，以近似狀態(tài)s的動作值，其通常以網(wǎng)絡(luò)中的一些原始像素幀作為輸入.DQN算法包含2個重要組成部分：1)使用目標(biāo)網(wǎng)絡(luò);2)加入經(jīng)驗重放機制.在每個時間步上，agent基于當(dāng)前狀態(tài)選擇1個動作，并將該轉(zhuǎn)移(s,a,r,s′)添加到經(jīng)驗池中.神經(jīng)網(wǎng)絡(luò)的參數(shù)通過使用隨機梯度下降以使損失最小化，損失函數(shù)表示為目標(biāo)值和評估值之間的均方誤差，定義為

L(θ)=Es,a,r,s′［(yDQN-Q(s,a;θ))2]，

(4)

其中，目標(biāo)值yDQN定義為

(5)

θ表示在線網(wǎng)絡(luò)的參數(shù)，θ-表示目標(biāo)網(wǎng)絡(luò)的參數(shù).Q(s,a;θ)表示在線網(wǎng)絡(luò)的輸出，用于更新值函數(shù)，Q(s′,a′;θ-)表示目標(biāo)網(wǎng)絡(luò)的輸出，用于計算目標(biāo)值.目標(biāo)網(wǎng)絡(luò)與在線網(wǎng)絡(luò)的結(jié)構(gòu)相同，只是它的參數(shù)是從在線網(wǎng)絡(luò)中每τ步復(fù)制而來，在τ個時間步內(nèi)目標(biāo)網(wǎng)絡(luò)的參數(shù)保持不變.Mnih等人［13]的實驗研究發(fā)現(xiàn)，使用目標(biāo)網(wǎng)絡(luò)和經(jīng)驗重放可以相對穩(wěn)定地學(xué)習(xí)Q值，并在幾款A(yù)tari游戲中帶來超出人類級別的表現(xiàn).

算法1給出了DQN的具體流程.在每輪迭代i中，DQN算法通過利用近似動作值函數(shù)Q(s,a;θ)解決監(jiān)督學(xué)習(xí)問題，這是對式(2)的函數(shù)逼近形式的一種延伸.

算法1.DQN算法.

輸入：預(yù)處理后的圖像特征向量；

輸出：評估網(wǎng)絡(luò)參數(shù)θ.

① 初始化Q(s,a;θ)、隨機初始θ0；

② 初始化經(jīng)驗重放池D；

③ 初始化關(guān)于Q的探索性策略ε-greedy；

④ Fori=1 toN

⑦ 將轉(zhuǎn)移(s,a,r,s′)添加到D中；

⑧ End For

1.3 深度雙Q網(wǎng)絡(luò)

標(biāo)準(zhǔn)的Q學(xué)習(xí)和DQN的最大運算符使用相同的值進行評估和選擇1個動作，這使得agent會選擇高估值，導(dǎo)致過度樂觀的估計.為了解決這種問題，最有效的辦法是將選擇與評估分離.

在雙Q學(xué)習(xí)［5]中，通過隨機分配經(jīng)驗來更新2個值函數(shù)中的1個，從而學(xué)習(xí)2個值函數(shù)，產(chǎn)生2組權(quán)重θ和θ′.對于每次更新，一組權(quán)重θ用于確定貪心策略，另一組權(quán)重θ′用于評估貪心策略的值.DQL的目標(biāo)值更新可以寫為

(6)

具有最大Q值的動作選擇仍然是由在線權(quán)重θ引起的.這意味著，和深度Q網(wǎng)絡(luò)一樣，貪心策略的值還是需要根據(jù)θ定義的當(dāng)前值來估計.

雙Q學(xué)習(xí)的思想是通過將目標(biāo)中的最大操作分解為動作選擇和動作評估來降低過高估計.在DQN框架中，目標(biāo)網(wǎng)絡(luò)是第2個值函數(shù)的最佳選擇，從而不必引入額外的網(wǎng)絡(luò).因此，在深度雙Q網(wǎng)絡(luò)中［15]，通常根據(jù)在線網(wǎng)絡(luò)評估貪心策略，根據(jù)目標(biāo)網(wǎng)絡(luò)評估其價值.DDQN的更新與DQN相同，但其用目標(biāo)yDDQN替換：

(7)

與雙Q學(xué)習(xí)式(6)相比，第2個網(wǎng)絡(luò)的權(quán)重θ′被替換成目標(biāo)網(wǎng)絡(luò)的權(quán)重θ-，用于評估當(dāng)前的貪心策略.目標(biāo)網(wǎng)絡(luò)的更新與DQN保持不變，并定期將在線網(wǎng)絡(luò)的參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò).

Van Hasselt等人［15]的實驗研究證明DDQN可以有效減少過高估計，從而獲得更穩(wěn)定的學(xué)習(xí).并且DDQN算法在Atari 2600游戲中能夠獲得更好的表現(xiàn)，能得到比DQN更好的性能.

2 基于權(quán)重平均值的深度雙Q網(wǎng)絡(luò)

本節(jié)將主要闡述如何將帶權(quán)重的雙估計器整合到深度雙Q網(wǎng)絡(luò)中，以及怎樣利用之前學(xué)習(xí)到的動作估計值的平均值來產(chǎn)生目標(biāo)值，并且根據(jù)時間差分誤差動態(tài)地確定平均動作值的數(shù)量.

我們提出AWDDQN算法的動機主要有2點：

1) 深度Q網(wǎng)絡(luò)存在著高估動作值的缺陷，雖然深度雙Q網(wǎng)絡(luò)在一定程度上緩解了這一問題，但是依然存在著低估動作值的問題.高估和低估問題都會對學(xué)習(xí)到的策略產(chǎn)生影響，有可能會導(dǎo)致agent的性能變差.為了緩解高估和低估的問題，本文將最近提出的帶權(quán)重的雙估計器［16]整合到深度雙Q網(wǎng)絡(luò)中.

2) 目標(biāo)值的計算偏差會對算法的性能有重要影響.雖然Averaged-DQN算法［17]利用之前學(xué)習(xí)到的K個動作Q值產(chǎn)生當(dāng)前動作值估計，但是K值的大小會影響算法的性能，在Averaged-DQN算法中沒有提出合適的確定K值的算法，只是簡單地設(shè)置為5，10，15.為了改進這種Averaging方法，不同于Averaged-DQN算法中使用固定數(shù)量的平均動作值求得目標(biāo)值，本文利用時間差分誤差動態(tài)地確定平均動作值的數(shù)量.動態(tài)性體現(xiàn)在本文根據(jù)經(jīng)驗池抽取樣本的時間差分誤差大小的不同，具有較小時間差分誤差的樣本，K=5，反之，K的取值為10.因此不同樣本計算目標(biāo)值的K值并不是固定的，是根據(jù)樣本的時間差分誤差大小動態(tài)決定的.進一步地，本文還將之與基于權(quán)重的雙估計器結(jié)合來進一步地減小動作值的估計偏差.

2.1 基于權(quán)重的雙估計器

針對DDQN低估動作值的問題，WDDQN算法以權(quán)重的方式結(jié)合了深度Q網(wǎng)絡(luò)和深度雙Q網(wǎng)絡(luò).WDDQN的目標(biāo)是減小目標(biāo)值估計的誤差，從而產(chǎn)生更精確的動作值估計.

不需要在DDQN中引入額外的網(wǎng)絡(luò)，評估網(wǎng)絡(luò)依然產(chǎn)生具有最大動作值的動作，目標(biāo)網(wǎng)絡(luò)則用于評估最大動作的值.

WDDQN使用Q(s′,a*;θ)和Q(s′,a*;θ-)的線性結(jié)合計算目標(biāo)值，計算為

yWDDQN=r+γ［βQ(s′,a*;θ)+
(1-β)Q(s′,a*;θ-)],

(8)

其中,β定義為權(quán)重，計算為

(9)

動作a*表示為評估網(wǎng)絡(luò)具有最大動作值的動作，aL表示評估網(wǎng)絡(luò)具有最小動作值的動作，計算為

(10)

(11)

因此，Q(s′,a*;θ-)表示目標(biāo)網(wǎng)絡(luò)中在狀態(tài)s′的最大動作值，Q(s′,aL;θ-)表示目標(biāo)網(wǎng)絡(luò)中狀態(tài)s′的最小動作值.

式(9)中的c為超參數(shù)，用來計算權(quán)重β.在具有不同特征的問題中，c的最優(yōu)值不一樣.例如具有不同動作數(shù)量的賭博機問題最優(yōu)的c值不同［16].因此，通常根據(jù)問題的特征自適應(yīng)地設(shè)置c值.本文實驗中采用的c值在多次實驗的基礎(chǔ)上選取.具體的WDDQN算法如算法2所示：

算法2.WDDQN算法.

輸入：初始化評估網(wǎng)絡(luò)參數(shù)θ、目標(biāo)網(wǎng)絡(luò)參數(shù)θ-、初始化經(jīng)驗池D；

輸出：評估網(wǎng)絡(luò)參數(shù)θ.

① Forepisode=1 toMdo

② 初始化初始狀態(tài)s0；

③ Fort=0 toTdo

④ 根據(jù)ε-greedy策略選擇動作at；

⑤ 執(zhí)行動作at，觀察下一狀態(tài)st+1和立即獎賞rt；

⑥ 將轉(zhuǎn)移樣本(st,at,rt,st+1)存入經(jīng)驗池中；

⑦ 從經(jīng)驗池D中抽取批量轉(zhuǎn)移樣本(sj,aj,rj,sj+1)進行更新；

⑩ 計算權(quán)重β：

(1-β)Q(sj+1,a*;θ-)]；

2.2 基于時間差分誤差的Averaging方法

為了減少目標(biāo)值計算的方差，獲得更好的訓(xùn)練穩(wěn)定性和性能，Averaged-DQN算法［17]利用先前學(xué)習(xí)的動作值來計算平均值從而產(chǎn)生目標(biāo)值.然而，該算法僅僅只是將先前學(xué)習(xí)到的K個動作值求平均，K的取值為定值.若K值較小，算法的性能不理想.若K值較大，算法的性能有所提高，但大大增加了計算量.針對這個問題，本文對Averaging方法進行改進，利用轉(zhuǎn)移樣本的時間差分誤差來動態(tài)地確定K值，并將之與基于權(quán)重的雙估計器結(jié)合來進一步減少目標(biāo)值估計的偏差和方差.

AWDDQN在更新網(wǎng)絡(luò)參數(shù)時，從經(jīng)驗池中抽取n個轉(zhuǎn)移樣本.然后分別計算這n個樣本的時間差分誤差，時間差分誤差表示該樣本的目標(biāo)值和評估值之間的差距.若時間差分誤差較大，評估值不夠準(zhǔn)確，目標(biāo)值存在較大的方差.AWDDQN算法將這n個樣本的時間差分誤差進行排序分成2組，對具有不同時間差分誤差的樣本進行區(qū)別對待.因為較小K值對算法的性能提升不大，較大K值會導(dǎo)致計算量增加，算法耗時久，所以本文的K值經(jīng)驗性地選取為5和10.

對于時間差分誤差較小的樣本，計算目標(biāo)值時使用較少的K1=5個先前學(xué)習(xí)到的動作值的平均值來求目標(biāo)值.對于時間差分誤差較大的樣本，使用K2=10個先前學(xué)習(xí)到的動作值的平均值計算目標(biāo)值.這樣的方式避免使用較大的K值，導(dǎo)致增加計算量，并且能夠根據(jù)每個樣本的時間差分誤差動態(tài)地確定K值.AWDDQN計算目標(biāo)值時使用基于權(quán)重的雙估計器，計算為

(12)

AWDDQN將抽取的n個樣本按照時間差分誤差分成2組后，使用不同的K值進行目標(biāo)值的計算，然后采用隨機梯度下降方法對這一批量的樣本進行網(wǎng)絡(luò)參數(shù)的更新.

2.3 算法描述

在DDQN框架中，結(jié)合了基于權(quán)重的雙估計器和基于時間差分誤差的Averaging方法，形成了AWDDQN框架.

AWDDQN的實施過程如算法3所示：

算法3.AWDDQN算法.

輸入：初始化評估網(wǎng)絡(luò)參數(shù)θ、目標(biāo)網(wǎng)絡(luò)參數(shù)θ-、初始化經(jīng)驗池D；

輸出：評估網(wǎng)絡(luò)參數(shù)θ.

① Forepisode=1 toMdo

② 初始化初始狀態(tài)s0；

③ Fort=0 toTdo

④ 根據(jù)ε-greedy策略選擇動作at；

⑤ 執(zhí)行動作at，觀察下一狀態(tài)st+1和立即獎賞rt；

⑥ 將轉(zhuǎn)移樣本(st,at,rt,st+1)存放到經(jīng)驗池中；

⑦ 從經(jīng)驗池D中抽取n批量轉(zhuǎn)移樣本(sj,aj,rj,sj+1)進行更新；

⑧ 對抽取的n批量樣本按照時間差分誤差進行排序分成2組；

⑨ 具有較小時間差分誤差的樣本，K=5，具有較大時間差分誤差的樣本，K=10；

首先輸入初始化的超參數(shù)，agent在初始狀態(tài)根據(jù)ε-greedy策略選擇動作a0，并執(zhí)行a0動作，得到下一狀態(tài)和獎賞，隨后將轉(zhuǎn)移樣本存入經(jīng)驗池中.訓(xùn)練網(wǎng)絡(luò)時，從經(jīng)驗池中抽取n個樣本，并按照時間差分誤差將樣本分成2組，然后使用基于時間差分誤差的Averaging方法和基于權(quán)重的雙估計器計算目標(biāo)值，接著使用隨機梯度下降更新網(wǎng)絡(luò)的參數(shù).agent在每個時間步根據(jù)網(wǎng)絡(luò)輸出的Q值來確定需要執(zhí)行的動作，經(jīng)過一定的時間步后，將當(dāng)前評估網(wǎng)絡(luò)的權(quán)重θ復(fù)制給目標(biāo)網(wǎng)絡(luò).

3 實驗及結(jié)果分析

本節(jié)主要介紹實驗平臺、實驗參數(shù)設(shè)置、實驗評估標(biāo)準(zhǔn)以及實驗結(jié)果分析.

3.1 實驗平臺描述

本文將OpenAI開發(fā)的Gym［24]實驗平臺作為實驗環(huán)境.Gym是一款用于研發(fā)和比較強化學(xué)習(xí)算法的工具包，它支持訓(xùn)練智能體agent完成多種任務(wù)——從行走到玩Pong或圍棋之類的游戲.Gym實驗平臺包含了Atari 2600，MuJoCo等多種游戲環(huán)境.Atari 2600中每個游戲環(huán)境不同，且包含多種游戲類型.Gym提供了一個嚴(yán)格的測試平臺，用來評估比較強化學(xué)習(xí)、模式學(xué)習(xí)、模仿學(xué)習(xí)、遷移學(xué)習(xí)以及深度強化學(xué)習(xí)這些方法.

DQN，DDQN使用了深度Q學(xué)習(xí)和雙Q學(xué)習(xí)算法來訓(xùn)練agent，由于存在高估和低估動作值的問題，它們的性能并不是很令人滿意.為了提升agent的性能，本文提出AWDDQN算法，并選取了4個Atari 2600游戲中具有代表性的游戲：Seaquest，Asterix，BeamRider，SpaceInvaders來設(shè)計實驗.實驗以DDQN為基準(zhǔn)比較算法，根據(jù)實驗結(jié)果評估AWDDQN算法在這些游戲上的表現(xiàn)，并與DDQN，WDDQN，ADDQN進行比較.

DDQN是Van Hasselt等人［15]提出的深度雙Q網(wǎng)絡(luò).WDDQN是以加權(quán)的方式結(jié)合DQN和DDQN的算法.ADDQN是將基于時間差分誤差的Averaging方法加入到深度雙Q網(wǎng)絡(luò)中，不使用基于權(quán)重的雙Q學(xué)習(xí)算法更新網(wǎng)絡(luò)參數(shù)，其目標(biāo)值計算為

yADDQN=r+

(13)

AWDDQN是本文提出的將基于權(quán)重的雙估計器和基于時間差分誤差A(yù)veraging方法結(jié)合的深度雙Q網(wǎng)絡(luò).

其中，AWDDQN的網(wǎng)絡(luò)結(jié)構(gòu)和DQN的網(wǎng)絡(luò)結(jié)構(gòu)相同，如圖1所示：該網(wǎng)絡(luò)由3個卷積層和2個全連接層構(gòu)成；第1個卷積層為32個步幅為4的8×8的過濾器，第2個卷積層為64個步幅為2的4×4的過濾器，第3個卷積層為64個步幅為1的3×3的過濾器，最后隱藏層是由512個神經(jīng)元組成的全連接線性層，輸出層神經(jīng)元數(shù)量和游戲合法動作數(shù)量相同.網(wǎng)絡(luò)的輸入是游戲的4幀畫面，輸出是該游戲狀態(tài)下每個動作的Q值.

Fig.1 The architecture of AWDDQN圖1 AWDDQN網(wǎng)絡(luò)結(jié)構(gòu)示意圖

3.2 實驗參數(shù)設(shè)置

在本文設(shè)計的實驗中，4種算法使用的大部分超參數(shù)是相同的，如表1所示.

上述4種算法的網(wǎng)絡(luò)結(jié)構(gòu)與DQN相同.在訓(xùn)練agent玩游戲的過程中，網(wǎng)絡(luò)模型的輸入通常是游戲的畫面，因為模型中的卷積層能夠自動學(xué)習(xí)到游戲畫面的良好特征表達(dá)，所以在實驗之前，不需要人工設(shè)計特征作為網(wǎng)絡(luò)的輸入數(shù)據(jù).

在WDDQN中，使用了基于權(quán)重的雙Q學(xué)習(xí)更新方式，用來計算權(quán)重的超參數(shù)c取值為1,10,100.在ADDQN中，使用基于時間差分的Averaging方法計算目標(biāo)值進行更新，用來計算平均目標(biāo)值的超參數(shù)K取值為5,10.而在AWDDQN中，使用基于權(quán)重的雙Q學(xué)習(xí)和基于時間差分的Averaging方法結(jié)合計算目標(biāo)值.其中，c=10，K取值為5,10.

樣本池的最大容量為100萬個轉(zhuǎn)移樣本.在訓(xùn)練的開始階段，為了使agent在學(xué)習(xí)初期有足夠的樣本進行訓(xùn)練，在50 000更新時間步之前，agent采取隨機的策略存儲轉(zhuǎn)移樣本到樣本池中.這樣的方式使得agent的訓(xùn)練沒有偏向性.

在實驗中，還運用了一些常用方法［13]來減少不穩(wěn)定現(xiàn)象.

1) 獎賞限界.在Atari 2600游戲中，因為每個游戲的環(huán)境不同，所得到的最終得分也有著較大差異.為了更清晰地比較實驗效果，通常將每個游戲中的正獎賞設(shè)置為+1，負(fù)獎賞設(shè)置為-1，其余保持不變.

2) 誤差裁剪.在深度強化學(xué)習(xí)中，一般使用基于均方根的隨機梯度下降來逐步更新網(wǎng)絡(luò)參數(shù).在實驗過程中，將動量系數(shù)設(shè)為0.95.不同游戲之間使用不同的學(xué)習(xí)率影響算法的穩(wěn)定性，更有可能陷入局部最優(yōu).因此，在訓(xùn)練和測試過程中，將TD誤差項裁剪到［-1,1]區(qū)間中，并且將梯度裁剪到［-5,5]區(qū)間中.

3) 批量更新.每次更新網(wǎng)絡(luò)參數(shù)時，都需要從經(jīng)驗池中選取小批量的轉(zhuǎn)移樣本.在實驗中，批量n設(shè)置為32.同時，設(shè)置折扣因子為0.99.學(xué)習(xí)率η與行為策略的參數(shù)ε設(shè)置為從情節(jié)開始到一定區(qū)間內(nèi)遞減的方式，學(xué)習(xí)率η從0.005逐漸遞減到0.000 25，探索因子ε從1.0逐漸遞減到0.1.

Table 1 The Detailed Explanation of Hyperparameters表1 超參數(shù)的詳細(xì)說明

3.3 實驗評估

在強化學(xué)習(xí)方法中，通常采用經(jīng)歷1個情節(jié)所獲得的累積獎賞來作為評價標(biāo)準(zhǔn).在Atari 2600游戲中，將agent玩1局游戲作為1個情節(jié)，因此，1局游戲所獲得的得分就是累積獎賞.

訓(xùn)練深度Q網(wǎng)絡(luò)往往需要很長時間，因此，一般深度Q網(wǎng)絡(luò)的訓(xùn)練通過分階段完成.在本文的實驗中，將訓(xùn)練過程中各階段得到的平均每情節(jié)獎賞數(shù)作為這4個算法性能的評估標(biāo)準(zhǔn).

在Mnih等人［13]提出的DQN中，其訓(xùn)練過程是通過200個階段來完成的.在每個階段中，參數(shù)更新經(jīng)歷了250 000時間步，評估過程經(jīng)歷了125 000時間步.DQN在GPU上的訓(xùn)練大約需要2周的時間.為了保證不同算法之間的參數(shù)一致性和計算效率，雖然本文實驗中的訓(xùn)練過程采用200個訓(xùn)練階段，但是每個訓(xùn)練階段只包含50 000時間步的參數(shù)更新過程以及25 000時間步的評估過程.這樣的設(shè)置在GPU上只需要3天就能在1個游戲環(huán)境下訓(xùn)練出1個模型.

3.4 實驗結(jié)果分析

本文首先比較了DDQN和WDDQN在訓(xùn)練玩Seaquest，Asterix，SpaceInvaders，BeamRider這4個游戲過程中的表現(xiàn)，探究超參數(shù)c對WDDQN算法性能的影響.

為了驗證WDDQN算法在訓(xùn)練過程中的表現(xiàn)要優(yōu)于DDQN算法［15]并探究超參數(shù)c對WDDQN算法的影響，首先進行實驗來比較這2種算法在訓(xùn)練agent玩4種游戲時各階段所獲得的平均每情節(jié)獎賞.在WDDQN算法中，本文設(shè)置的超參數(shù)c，分別取值為1,10,100.圖2展示這2種算法在訓(xùn)練4種游戲時各階段平均每情節(jié)獎賞，其中x軸表示訓(xùn)練階段，y軸表示平均每情節(jié)獎賞.

Fig.2 Comparisons of DDQN,WDDQN for Atari games圖2 采用DDQN，WDDQN訓(xùn)練Seaquest，Asterix，SpaceInvaders，BeamRider時各階段平均每情節(jié)獎賞對比

圖2表明在訓(xùn)練這4種游戲時，隨著訓(xùn)練階段的增加，WDDQN算法獲得的平均每情節(jié)獎賞高于DDQN算法，尤其是在20個訓(xùn)練階段之后表現(xiàn)更加明顯.實驗結(jié)果表明使用基于權(quán)重的雙Q學(xué)習(xí)的WDDQN算法可以更大程度地減小目標(biāo)值估計的誤差，產(chǎn)生更精確的動作值估計，因此可以更加快速地學(xué)習(xí)到一些關(guān)鍵性策略，提高游戲得分.因此，WDDQN算法的性能好于DDQN，這說明了使用基于權(quán)重的雙Q學(xué)習(xí)訓(xùn)練agent比只使用雙Q學(xué)習(xí)訓(xùn)練更加有效.

WDDQN的3種算法在訓(xùn)練這4種游戲時的性能大致相當(dāng)，沒有太大的差距.但是從圖2中的Asterix游戲?qū)Ρ葓D中看出，當(dāng)c=10時，WDDQN算法性能稍微好于當(dāng)c=1或100時，這說明WDDQN中計算權(quán)重的超參數(shù)c對算法性能存在著一定的影響.在第1組實驗中當(dāng)c取值為1，10，100時，WDDQN算法性能都要優(yōu)于DDQN算法，然而這樣的設(shè)置并不精確，可能還存在更優(yōu)的c的取值，或許也可以根據(jù)動作值將超參數(shù)c表示成函數(shù)，使得c成為一個動態(tài)學(xué)習(xí)的參數(shù).

另外，從圖2可以看出，隨著訓(xùn)練階段的增加，尤其是在經(jīng)歷了180個訓(xùn)練階段之后，WDDQN的3種算法獲得的平均每情節(jié)獎賞趨于穩(wěn)定.這在一定程度上保證了WDDQN算法的穩(wěn)定性.

Fig.3 Average Q-values per episode for each stage of Seaquest圖3 訓(xùn)練Seaquest時各階段平均每情節(jié)狀態(tài)動作值

圖3對比了DDQN和WDDQN算法在訓(xùn)練Seaquest游戲時各階段獲得的平均每情節(jié)的最大動作Q值.Seaquest游戲是一種戰(zhàn)略性的游戲，提高得分的關(guān)鍵是agent是否能夠及時學(xué)習(xí)到一些關(guān)鍵性策略.比如，當(dāng)潛水艇在海底并且氧氣不足時，agent應(yīng)該選擇多次上浮到水面儲備氧氣的動作.但是在游戲中有些動作需要在一個狀態(tài)下重復(fù)執(zhí)行多次，該動作帶來的效益也會在較多時間步之后才會表現(xiàn)在游戲畫面上并且被agent感知.如果agent不能學(xué)習(xí)到這個動作，那么得分會很低.

圖3中WDDQN算法在訓(xùn)練過程中平均每情節(jié)最大Q值要比DDQN高3～4倍，這表明使用了基于權(quán)重的雙Q學(xué)習(xí)方法，能夠大幅度地減少動作值的低估，促進Q值的增長.而DDQN算法由于只使用雙Q學(xué)習(xí)算法，存在低估動作值的不足，因此Q值曲線上升緩慢.

Fig.4 Comparisons of WDDQN,ADDQN,AWDDQN for Atari games(c=10)圖4 采用WDDQN，ADDQN，AWDDQN算法訓(xùn)練4種游戲時各階段平均每情節(jié)獎賞對比(c=10)

WDDQN算法的Q值曲線一直處于上升趨勢，這表明如果訓(xùn)練階段增加，其平均每情節(jié)的最大Q值會越來越高，性能也會越來越好.從圖3可以發(fā)現(xiàn)，WDDQN算法在訓(xùn)練時獲得的Q值平緩上升并趨于收斂，充分說明WDDQN算法在訓(xùn)練過程中的穩(wěn)定性和有效性.而相比于DDQN算法，WDDQN算法因為使用了基于權(quán)重的雙Q學(xué)習(xí)方法，在訓(xùn)練時更加穩(wěn)定，表現(xiàn)更好.

因此，在訓(xùn)練Seaquest游戲時，WDDQN算法可以有效地學(xué)習(xí)到關(guān)鍵性動作，在潛水艇氧氣不足且還在海底深處時，重復(fù)執(zhí)行向上動作多次直到儲備了足夠的氧氣.在DDQN中，由于采用雙Q學(xué)習(xí)的訓(xùn)練方式，對目標(biāo)值的估計不夠準(zhǔn)確，會出現(xiàn)低估的情況，因此難以學(xué)習(xí)到玩Seaquest氧氣不足時不斷向上的動作，所以agent的性能不是很理想.

本文對WDDQN，ADDQN，AWDDQN在訓(xùn)練過程中的表現(xiàn)進行比較.為了驗證AWDDQN算法在訓(xùn)練過程中的表現(xiàn)要優(yōu)于WDDQN和ADDQN算法，進行實驗來比較這3種算法在訓(xùn)練agent玩Seaquest，Asterix，SpaceInvaders，BeamRider等游戲時各階段所獲得的平均每情節(jié)獎賞.在這組實驗中，WDDQN和AWDDQN算法均使用超參數(shù)c=10，ADDQN使用超參數(shù)K取值為5，10.圖4展示3種算法在訓(xùn)練時各階段的平均每情節(jié)獎賞.

圖4表明AWDDQN算法的訓(xùn)練效果好于其余2種算法，隨著訓(xùn)練階段的增加，平均每情節(jié)獲得的獎賞越來越大，并且和WDDQN和ADDQN算法的差距越發(fā)顯著.這表明將基于權(quán)重的雙估計器和基于時間差分誤差的Averaging方法結(jié)合，能夠更加準(zhǔn)確地計算目標(biāo)值，更準(zhǔn)確地進行值估計.相對于單獨使用其中任一方法，AWDDQN算法能夠更加快速地學(xué)習(xí)一些關(guān)鍵性策略，提高游戲得分.因此在深度雙Q網(wǎng)絡(luò)中，將基于權(quán)重的雙估計器和基于時間差分誤差的Averaging方法結(jié)合是有效的，可以提升agent的性能，且性能超過這2個單一的方法.

ADDQN平均每情節(jié)獲得的獎賞和WDDQN算法相比，兩者之間差距不是很大.這能夠說明基于時間差分誤差的Averaging方法也可以改進DDQN算法的性能，其性能可以達(dá)到WDDQN的水平.然而，觀察圖4可以發(fā)現(xiàn)，在Asterix和BeamRider游戲中，ADDQN算法平均每情節(jié)獲得的獎賞稍微低于WDDQN，這說明在某些游戲上ADDQN算法的性能會低于WDDQN.因此，ADDQN算法在一定程度上能夠進行比較精確的動作值估計，提升自身的決策能力.

在訓(xùn)練過程中，3種算法各階段的平均每情節(jié)獎賞值都存在一定波動，但是AWDDQN算法的波動相對較小，且平均每情節(jié)獎賞一直處于上升趨勢中.獎賞值產(chǎn)生波動主要原因是在訓(xùn)練網(wǎng)絡(luò)的過程中，每個時間步參數(shù)都在更新，雖然網(wǎng)絡(luò)參數(shù)每次的變動都很小，但也會導(dǎo)致最終輸出的動作值發(fā)生較大的變化，進而引起agent在下一階段中學(xué)習(xí)到的策略發(fā)生較大變化.

為了進一步說明這3種算法在訓(xùn)練時的穩(wěn)定性，圖5對比了上述3種算法在Seaquest游戲中各階段所獲得的平均每情節(jié)的最大動作Q值.

Fig.5 Average Q-values per episode for each stage of Seaquest(c=10)圖5 訓(xùn)練Seaquest時各階段平均每情節(jié)狀態(tài)動作值(c=10)

從圖5可以看出AWDDQN在訓(xùn)練過程中平均每情節(jié)最大Q值函數(shù)的曲線高于WDDQN和ADDQN，這表明AWDDQN結(jié)合使用基于權(quán)重的雙估計器和基于時間差分誤差的Averaging方法，減少了動作值的低估，促進了Q值的增長.

AWDDQN的Q值曲線一直處于上升的趨勢中，如果訓(xùn)練階段增加，其性能會越來越好.而對于WDDQN和ADDQN算法，因為一直學(xué)習(xí)不到游戲中能夠提高游戲得分的關(guān)鍵性策略，Q值曲線上升緩慢并趨于平緩.從圖5可以看出，在訓(xùn)練后期，3種算法的Q值上升平緩并趨于收斂，表明這3種算法在訓(xùn)練時的穩(wěn)定性，且AWDDQN算法在訓(xùn)練中表現(xiàn)更加穩(wěn)定.

進一步地，本文比較了不同超參數(shù)K的取值對AWDDQN算法性能和運行時間效率的影響.本文進行了WDDQN，ADDQN，AWDDQN算法運行時間的對比.在AWDDQN算法中，K值分別選取了3組:K取值為5,10;K取值為10,15;K取值為15,20.運行時間對比結(jié)果如表2所示：

Table 2 Average Epoch Training Time of WDDQN, ADDQN,AWDDQN表2 WDDQN，ADDQN，AWDDQN算法每訓(xùn)練階段平均運行時間對比

從表2可以看出，AWDDQN算法的訓(xùn)練時間比WDDQN和ADDQN算法所需的時間長.WDDQN和ADDQN算法所需要的訓(xùn)練時間相差不大.雖然AWDDQN算法的訓(xùn)練時間較長，但其獲得的訓(xùn)練效果比其他2個算法更好.因此，AWDDQN算法的性能總體上優(yōu)于WDDQN和ADDQN算法.從表2的后3行可以發(fā)現(xiàn)，選取不同K值來訓(xùn)練AWDDQN算法所花費的時間不同，對算法的影響較大.當(dāng)K取值為15,20時，AWDDQN算法的每訓(xùn)練階段平均運行時間為48.3 min，遠(yuǎn)高于其余2種AWDDQN算法.

Fig.6 Comparisons of AWDDQN with different values of K for Atari games圖6 選取不同K值的AWDDQN算法訓(xùn)練4種游戲時各階段平均每情節(jié)獎賞對比

另外，本文對比了具有不同K值的AWDDQN算法在訓(xùn)練Seaquest，Asterix，SpaceInvaders，Beam-Rider游戲時的表現(xiàn).從圖6可以看出，當(dāng)K取值為15,20時，AWDDQN算法獲得的各階段平均每情節(jié)獎賞最大.K取值為10,15的AWDDQN算法獲得的獎賞比K取值為5,10的算法大.在訓(xùn)練階段后期，AWDDQN算法的獎賞曲線趨于平緩，表明該算法具有穩(wěn)定性.因此，隨著K值的增加，AWDDQN算法的性能越來越好，更好地減小估計值和目標(biāo)值之間的誤差.然而，雖然算法性能有所提升，但其所需的訓(xùn)練時間增加，導(dǎo)致計算量增加，從而降低算法的運行效率.所以，在特定的游戲環(huán)境中，綜合考慮算法的運行效率和性能表現(xiàn)，選取適當(dāng)?shù)腒值，有利于提高算法的效率，提升算法的性能.

最后本文還將訓(xùn)練完成后的DDQN，WDDQN，ADDQN，AWDDQN這4個算法用來玩這4個游戲，比較它們在測試過程中的性能.我們將訓(xùn)練完成后的模型經(jīng)歷1個步長為25 000的游戲測試過程來評估其性能的好壞.為了保證測試結(jié)果的多樣性，每次游戲的初始狀態(tài)都隨機選取.不同游戲中agent在訓(xùn)練和測試過程中都采用ε-greedy策略，其中，ε=0.05.實驗比較了4個模型在4種游戲中經(jīng)歷200次測試后得到的平均得分值和最大得分值.

實驗結(jié)果詳細(xì)如表3所示.從表3的平均值一列可以得到，與其他3種算法相比，訓(xùn)練完成后的AWDDQN算法在指導(dǎo)agent玩這4種游戲時的表現(xiàn)更好.這表明訓(xùn)練完成后的AWDDQN算法模型性能也優(yōu)于DDQN，WDDQN，ADDQN算法.另一方面，從表3的最大值一列中可以看出， AWDDQN在玩這4種游戲時的最優(yōu)表現(xiàn)也優(yōu)于其他3種算法.與訓(xùn)練過程類似，針對這4種游戲，AWDDQN算法的測試性能好于DDQN，WDDQN，ADDQN算法，WDDQN算法和ADDQN算法測試性能相當(dāng)，但都優(yōu)于DDQN算法.

Table 3 The Scores of 4 Different Games After Different Training表3 訓(xùn)練完成后的不同算法在4種游戲上的測試得分評估

Note:The bold numbers indicate the best results in each game.

3.5 實驗總結(jié)

在本文實驗中，一共進行了4組對比實驗：第1組實驗對比了DDQN和WDDQN算法，探究基于權(quán)重的雙估計器是否能提高DDQN算法的性能并探究超參數(shù)c對WDDQN算法的影響；第2組實驗使用WDDQN，ADDQN，AWDDQN這3種算法模型訓(xùn)練agent玩Seaquest，Asterix，Space Invaders，BeamRider游戲，并分析比較它們在訓(xùn)練階段的表現(xiàn)，探究AWDDQN算法是否能夠提高agent的性能；第3組實驗探討了不同超參數(shù)K的取值對AWDDQN算法的性能和運行時間效率的影響；在第4組實驗中，將這4種訓(xùn)練完成后的算法模型用來測試玩這4種游戲，再次分析比較它們的測試性能.

通過分析比較實驗結(jié)果，可以得出4個結(jié)論：

1) 基于權(quán)重的雙估計器權(quán)衡了單估計器和雙估計器的影響，能夠產(chǎn)生更加精確的動作值估計，因此基于權(quán)重的雙估計器方法提高了DDQN算法的性能，充分彌補DDQN存在低估動作值的不足.

2) 基于時間差分誤差的Averaging方法根據(jù)抽取樣本的時間差分誤差的大小動態(tài)確定使用先前學(xué)習(xí)到的動作值的數(shù)量，然后求平均值產(chǎn)生目標(biāo)值.在不增加算法計算量的基礎(chǔ)上能夠產(chǎn)生更精確的動作值估計，從而使得agent更加快速地學(xué)習(xí)到提高游戲得分的關(guān)鍵策略.

3) 在4種游戲中驗證了WDDQN，ADDQN，AWDDQN算法的性能，它們在訓(xùn)練過程和訓(xùn)練完成后的測試過程中，表現(xiàn)都優(yōu)于DDQN算法.并且AWDDQN算法的性能要優(yōu)于WDDQN和ADDQN，充分說明AWDDQN算法的有效性，將基于權(quán)重的雙估計器和基于時間差分誤差的Averaging方法結(jié)合能夠進一步提升agent的學(xué)習(xí)能力.

4) 在4種游戲中，具有3組不同K值的AWDDQN算法的性能表現(xiàn)不同.隨著K值的增加，AWDDQN算法性能有所提升，但其所需的訓(xùn)練時間增加，降低了算法的運行效率.因此，綜合考慮算法的運行效率和性能表現(xiàn)，選取適當(dāng)?shù)腒值，有利于提高算法的效率，提升算法的性能.

4 總結(jié)

本文將基于權(quán)重的雙估計器整合到了深度雙Q網(wǎng)絡(luò)中，提出了WDDQN算法，并且改進了Averaging方法，提出基于時間差分誤差的Averaging方法，形成新的ADDQN算法，最后為了進一步提升DDQN算法的性能，本文將這2種方法進行有效結(jié)合，提出AWDDQN算法.AWDDQN結(jié)合了基于權(quán)重雙估計器和基于時間差分誤差的Averaging方法的優(yōu)勢，能夠計算出更加準(zhǔn)確的目標(biāo)值，產(chǎn)生更精確的動作估計值，從而快速學(xué)習(xí)到對決策更有幫助的策略.本文選取4個游戲來驗證本文算法的有效性，同時對這4個游戲進行測試，結(jié)果表明AWDDQN算法平均每情節(jié)獲得的獎賞最高，并且表現(xiàn)更穩(wěn)定.

未來的研究工作包括如何將WDDQN算法中的超參數(shù)c變成一個可學(xué)習(xí)的參數(shù)，而不是簡單地設(shè)置為一個常數(shù).此外，嘗試將本文提出的算法和其他網(wǎng)絡(luò)模型結(jié)合，比如基于競爭的Q網(wǎng)絡(luò)［25]，深度循環(huán)網(wǎng)絡(luò)模型［26]等.諸如此類的改進方法會進一步提高算法的性能，提高agent的學(xué)習(xí)能力.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種權(quán)重平均值的深度雙Q網(wǎng)絡(luò)方法

1 背景知識

1.1 強化學(xué)習(xí)

1.2 深度Q網(wǎng)絡(luò)

1.3 深度雙Q網(wǎng)絡(luò)

2 基于權(quán)重平均值的深度雙Q網(wǎng)絡(luò)

2.1 基于權(quán)重的雙估計器

2.2 基于時間差分誤差的Averaging方法

2.3 算法描述

3 實驗及結(jié)果分析

3.1 實驗平臺描述

3.2 實驗參數(shù)設(shè)置

3.3 實驗評估

3.4 實驗結(jié)果分析

3.5 實驗總結(jié)

4 總 結(jié)

4 總結(jié)