基于權(quán)重值的競(jìng)爭(zhēng)深度雙Q網(wǎng)絡(luò)算法

2021-12-06 01:43汪晨曦趙學(xué)艷郭新

南京信息工程大學(xué)學(xué)報(bào) 2021年5期

關(guān)鍵詞：網(wǎng)絡(luò)結(jié)構(gòu)競(jìng)爭(zhēng)深度

汪晨曦趙學(xué)艷郭新

0 引言

強(qiáng)化學(xué)習(xí)(Reinforcement Learning，RL)是由心理學(xué)、神經(jīng)科學(xué)以及控制科學(xué)等多學(xué)科融合而來的一類機(jī)器學(xué)習(xí)方法[1-3]，多用于解決序貫決策問題.目前強(qiáng)化學(xué)習(xí)可以分為基于模型的強(qiáng)化學(xué)習(xí)(model-based RL)和無模型強(qiáng)化學(xué)習(xí)(model-free RL)兩大類.在無模型強(qiáng)化學(xué)習(xí)算法中，Q學(xué)習(xí)(Q-learning)[4]是目前最流行的算法，它使用Q表格有效地構(gòu)建動(dòng)作狀態(tài)對(duì)，可直接根據(jù)Q值進(jìn)行動(dòng)作選擇.但在學(xué)習(xí)訓(xùn)練中，因?yàn)镼學(xué)習(xí)算法包括一個(gè)最大化的操作，直接導(dǎo)致對(duì)動(dòng)作值的過于樂觀估計(jì)，文獻(xiàn)[5]證明了該過估計(jì)有上限，而文獻(xiàn)[6]則證明在特定條件下，該過估計(jì)也可能存在下限.

隨著人工智能(Artificial Intelligence，AI)、深度學(xué)習(xí)(Deep Learning，DL)[7]等概念的愈發(fā)火熱，神經(jīng)網(wǎng)絡(luò)已經(jīng)成為一大研究熱點(diǎn).神經(jīng)網(wǎng)絡(luò)可將復(fù)雜邏輯的高維數(shù)據(jù)轉(zhuǎn)換成可靠的低維表示，已在計(jì)算機(jī)視覺、自然語言處理、推薦系統(tǒng)等方面展示出巨大作用.將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合起來，根據(jù)二者不同的特點(diǎn)，可以使得智能體在某些隨機(jī)環(huán)境下獲得更為良好的表現(xiàn).

近年來，深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合(Deep Reinforcement Learning，DRL)的智能體訓(xùn)練方法大放異彩.2013年Mnih等[8]提出的深度Q網(wǎng)絡(luò)(Deep Q-Network，DQN)算法在Atari 2600部分游戲中大幅超越人類玩家水平，該算法可預(yù)估所有策略的價(jià)值，取其中最佳策略執(zhí)行.

最初的DQN算法存在一些缺陷，例如目標(biāo)值不穩(wěn)定、樣本利用不充分等.針對(duì)上述問題，2015年Mnih等[9]提出設(shè)立回放經(jīng)驗(yàn)池和固定目標(biāo)值以使智能體訓(xùn)練更加穩(wěn)定：經(jīng)驗(yàn)回放打破樣本前后的關(guān)聯(lián)性，在訓(xùn)練中隨機(jī)采樣，而固定目標(biāo)值使得反向傳播算法更加穩(wěn)定.但由于估計(jì)偏差及噪聲作用，該算法有時(shí)會(huì)高估動(dòng)作值.

為了解決高估問題，Hasselt等[6]提出DDQN(Double Deep Q-Network)算法，采用雙估計(jì)器，將動(dòng)作選擇與動(dòng)作評(píng)估分離；文獻(xiàn)[10]提出競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)，將Q網(wǎng)絡(luò)有效分為價(jià)值函數(shù)與優(yōu)勢(shì)函數(shù)兩部分，其中價(jià)值函數(shù)僅僅與狀態(tài)有關(guān)，與動(dòng)作無關(guān).但Zhang等[11]指出引入雙估計(jì)器有時(shí)會(huì)導(dǎo)致低估動(dòng)作值，提出WDDQ(Weight Double Deep Q-learning)算法，采用權(quán)重值的方法對(duì)Q值進(jìn)行調(diào)節(jié)，仿真結(jié)果顯示該算法可有效提升訓(xùn)練的穩(wěn)定性.

本文針對(duì)DQN算法中的高估、DDQN算法與競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)中的低估問題，結(jié)合WDDQ算法的權(quán)重值方法，提出基于權(quán)重值的競(jìng)爭(zhēng)深度雙Q網(wǎng)絡(luò)算法(Weighted Dueling Double Deep Q-Network，WD3QN)，將競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)與改進(jìn)的雙估計(jì)器結(jié)合，對(duì)動(dòng)作值有更精準(zhǔn)的估計(jì)，有效減少誤差.通過對(duì)Open AI Gym中的經(jīng)典控制問題CartPole[12]進(jìn)行研究，實(shí)驗(yàn)結(jié)果表明，WD3QN算法與已有算法相比有更快的收斂速度和更好的穩(wěn)定性.

本文的其余部分安排如下：第1節(jié)介紹強(qiáng)化學(xué)習(xí)及其背景知識(shí)；第2節(jié)給出WD3QN算法設(shè)計(jì)；第3節(jié)給出實(shí)驗(yàn)結(jié)果與分析；第4節(jié)是總結(jié).

1 強(qiáng)化學(xué)習(xí)及背景知識(shí)

1.1 強(qiáng)化學(xué)習(xí)

在強(qiáng)化學(xué)習(xí)中，智能體需與外界環(huán)境進(jìn)行交互，找到最優(yōu)的序列決策，使獎(jiǎng)勵(lì)函數(shù)最大化.在一個(gè)離散的時(shí)間序列t=0,1,2,3,…中，對(duì)于每一個(gè)時(shí)刻t，智能體觀察環(huán)境狀態(tài)st∈S，根據(jù)當(dāng)前狀態(tài)st選擇動(dòng)作at∈A，獲得獎(jiǎng)勵(lì)回報(bào)rt∈R而后進(jìn)入下一個(gè)狀態(tài)st+1∈S.馬爾可夫決策框架下，使用元組〈S,A,P,R,γ〉表示整個(gè)探索過程：S是有限狀態(tài)集合；A是有限動(dòng)作集合；狀態(tài)轉(zhuǎn)移概率P(st+1|st,at)=P[St+1=st+1|St=st,At=at]；R(s,a)=Ε[Rt=rt|St=st,At=at]為相應(yīng)的獎(jiǎng)勵(lì)值；γ∈[0,1]，為折扣因子.

若面對(duì)離散有限的動(dòng)作及狀態(tài)空間，可以使用經(jīng)典的值迭代算法——Q學(xué)習(xí)算法.通過學(xué)習(xí)出一個(gè)表格(Q-table)，直接表示狀態(tài)s下每個(gè)動(dòng)作a的未來期望獎(jiǎng)勵(lì)，通過ε-greedy算法采取相應(yīng)的策略：即以ε概率采取任意可能動(dòng)作，以1-ε概率采取貪心策略，可避免智能體陷入局部最優(yōu)；與此同時(shí)設(shè)置衰減的ε參數(shù)，加快中后期智能體的訓(xùn)練速度.Q-learning算法流程如下：

算法1Q-learning

初始化Q,s；

For episode=1,maxepisodedo

在當(dāng)前狀態(tài)s下，通過ε-greedy算法，基于Q表格選擇動(dòng)作a；

采取動(dòng)作a，獲取獎(jiǎng)勵(lì)值r及下一狀態(tài)s′；

a*←argmaxaQ(s′,a)，

ζ←r+γQ(s′,a*)-Q(s,a)；

Q(s,a)←Q(s,a)+α×ζ，s←s′；

End For

當(dāng)動(dòng)作及狀態(tài)空間很大時(shí)，維數(shù)災(zāi)問題迎面而來，使用表格存下所有的動(dòng)作狀態(tài)對(duì)顯然并不現(xiàn)實(shí).可采用帶參數(shù)θ的函數(shù)近似方法來逼近最優(yōu)動(dòng)作價(jià)值函數(shù)，表達(dá)式如下：

Q(s,a;θ)≈Q*(s,a).

(1)

1.2 DQN算法

面對(duì)維數(shù)頗高的動(dòng)作及狀態(tài)空間，經(jīng)典的Q學(xué)習(xí)算法顯得力不從心，可將表格更新轉(zhuǎn)變?yōu)楹瘮?shù)近似問題，使用函數(shù)值來代替Q表格值.深度神經(jīng)網(wǎng)絡(luò)可將復(fù)雜邏輯的高維數(shù)據(jù)轉(zhuǎn)換成可靠的低維表示，有較好的特征提取能力，與Q學(xué)習(xí)算法結(jié)合，即深度Q網(wǎng)絡(luò).

在DQN算法中，使用多層神經(jīng)網(wǎng)絡(luò)逼近動(dòng)作價(jià)值函數(shù).為提高智能體agent訓(xùn)練時(shí)的穩(wěn)定性，引入兩個(gè)重要機(jī)制：經(jīng)驗(yàn)回放與固定目標(biāo)Q值.在訓(xùn)練過程中，當(dāng)前狀態(tài)s下選擇動(dòng)作a，獲得獎(jiǎng)勵(lì)值r且進(jìn)入下一狀態(tài)s′,數(shù)據(jù)樣本(s,a,r,s′)存入經(jīng)驗(yàn)池中，網(wǎng)絡(luò)參數(shù)θ通過隨機(jī)梯度下降算法優(yōu)化，其中目標(biāo)網(wǎng)絡(luò)值：

yDQN=r+γmaxa′Q(s′,a′;θ-),

(2)

損失函數(shù)如下：

l=(yDQN-Q(s,a;θ))2.

(3)

為避免樣本前后關(guān)聯(lián)性對(duì)結(jié)果的影響，每次隨機(jī)抽取m個(gè)樣本數(shù)據(jù)進(jìn)行訓(xùn)練.其中θ-代表目標(biāo)網(wǎng)絡(luò)參數(shù)，θ是當(dāng)前在線網(wǎng)絡(luò)參數(shù)，二者的網(wǎng)絡(luò)結(jié)構(gòu)一致，每C步進(jìn)行賦值：θ-←θ，經(jīng)驗(yàn)回放與固定目標(biāo)值可以提升算法的穩(wěn)定性，獲得較好的實(shí)驗(yàn)結(jié)果，算法流程如下：

算法2DQN算法

1) 初始化Q網(wǎng)絡(luò)Q(s,a;θ)參數(shù)，隨機(jī)初始化目標(biāo)網(wǎng)絡(luò)參數(shù)θ-；

2) 初始化經(jīng)驗(yàn)回放池D及外界環(huán)境；

3) 獲取初始狀態(tài)s0，根據(jù)ε-greedy算法選擇動(dòng)作a0并記錄r0；

4)Fori=1,Ndo

5) 計(jì)算目標(biāo)網(wǎng)絡(luò)值：yi=ri+γmaxa′Q(si+1,a′;θ-)；

6) 計(jì)算均方誤差損失函數(shù)：l=(yi-Q(si,ai;θ))2；

7) 利用隨機(jī)梯度下降算法更新網(wǎng)絡(luò)參數(shù)；

8) 每過C步，把當(dāng)前網(wǎng)絡(luò)參數(shù)賦給目標(biāo)網(wǎng)絡(luò)：θ-←θ；

9) 將樣本數(shù)據(jù)(si,ai,ri,si+1)存入經(jīng)驗(yàn)池D；

10)End For

在智能體訓(xùn)練中，DQN算法使用固定Q作為目標(biāo)值，隨機(jī)選取經(jīng)驗(yàn)重放池D中小批量數(shù)據(jù)樣本(s,a,r,s′)進(jìn)行梯度下降，每C步更新目標(biāo)網(wǎng)絡(luò)參數(shù).

2 基于權(quán)重值的競(jìng)爭(zhēng)深度雙Q網(wǎng)絡(luò)算法

2.1 DDQN算法

深度Q網(wǎng)絡(luò)算法由于選擇相應(yīng)動(dòng)作時(shí)對(duì)Q網(wǎng)絡(luò)值取最大化操作，導(dǎo)致對(duì)動(dòng)作值存在高估問題.深度雙Q網(wǎng)絡(luò)將動(dòng)作的選擇與評(píng)估分離，使用在線網(wǎng)絡(luò)選擇動(dòng)作，而目標(biāo)網(wǎng)絡(luò)則對(duì)動(dòng)作進(jìn)行評(píng)估，從而較好地降低過估計(jì).更新方式與DQN類似，公式如下：

yDDQN=r+γQ(s′,argmaxa′Q(s′,a′;θ);θ′).

(4)

與經(jīng)典深度Q網(wǎng)絡(luò)算法相比，DDQN算法沒有額外增加網(wǎng)絡(luò)，目標(biāo)網(wǎng)絡(luò)與在線網(wǎng)絡(luò)各司其職，同樣每C步對(duì)網(wǎng)絡(luò)賦值：θ′←θ.Hasselt等[6]的實(shí)驗(yàn)結(jié)果顯示，相比于DQN算法，DDQN能有效緩解高估問題，智能體性能有較好提升.

2.2 Dueling網(wǎng)絡(luò)結(jié)構(gòu)

深度雙Q網(wǎng)絡(luò)通過將動(dòng)作的選擇與評(píng)估操作分離，有效降低了過高估計(jì)影響.與此同時(shí)，Wang等[10]通過優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從而達(dá)到優(yōu)化算法的目的：競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)將Q網(wǎng)絡(luò)有效分為價(jià)值函數(shù)V(s;θ,α)(value function)與優(yōu)勢(shì)函數(shù)A(s,a;θ,β)(advantage function)兩部分，其中價(jià)值函數(shù)僅與狀態(tài)有關(guān)，與動(dòng)作無關(guān)，如圖1[10]所示.

圖1 Dueling網(wǎng)絡(luò)結(jié)構(gòu)[10]Fig.1 Dueling network[10]

公式如下：

Q(s,a;θ,α,β)=V(s;θ,α)+A(s,a;θ,β),

(5)

其中，α,β分別為價(jià)值函數(shù)與優(yōu)勢(shì)函數(shù)獨(dú)有的網(wǎng)絡(luò)參數(shù)，而θ則為公共網(wǎng)絡(luò)參數(shù).

在競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)中，優(yōu)勢(shì)函數(shù)與價(jià)值函數(shù)作為子網(wǎng)絡(luò)結(jié)構(gòu)，最終輸出值由二者線性組合得到.但在式(5)中，無法直接辨識(shí)出價(jià)值函數(shù)與優(yōu)勢(shì)函數(shù)各自的作用.為了提高函數(shù)可辨識(shí)度，實(shí)際工程中所使用的方法如下：

Q(s,a;θ,α,β)=V(s;θ,α)+

(6)

對(duì)優(yōu)勢(shì)函數(shù)A(s,a;θ,β)做中心化處理，相比于DQN，僅對(duì)Q網(wǎng)絡(luò)最終輸出部分做些許調(diào)整，結(jié)果證明，競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)降低過估計(jì)有顯著作用，提升智能體性能的同時(shí)亦優(yōu)化了網(wǎng)絡(luò)的穩(wěn)定性.

2.3 D3QN算法

將深度雙Q網(wǎng)絡(luò)與競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合，形成了新的強(qiáng)化學(xué)習(xí)算法：競(jìng)爭(zhēng)深度雙Q網(wǎng)絡(luò)算法(Dueling Double Deep Q-Network，D3QN).與DQN相比，D3QN有效緩解了最大化算子帶來的過估計(jì)影響，算法流程如下：

算法3D3QN算法

1) 初始化Q網(wǎng)絡(luò)Q(s,a;θ,α,β)參數(shù)，初始化目標(biāo)網(wǎng)絡(luò)參數(shù)θ′,將Q網(wǎng)絡(luò)的參數(shù)值賦給目標(biāo)網(wǎng)絡(luò)：θ′←θ，初始化經(jīng)驗(yàn)池D；

2) For episode=1,maxepisodedo

3) 初始化外界環(huán)境，r=0，得到狀態(tài)s0；

4) Fort=1,maxlengthdo

5) 根據(jù)當(dāng)前狀態(tài)st，輸入在線Q網(wǎng)絡(luò)中，根據(jù)ε-greedy 算法選擇當(dāng)前狀態(tài)下的動(dòng)作at；

6) 獲取下一狀態(tài)st+1和即時(shí)獎(jiǎng)勵(lì)rt，將樣本(st,at,rt,st+1)存入經(jīng)驗(yàn)池D；

7) 從經(jīng)驗(yàn)池D中隨機(jī)抽樣(sj,aj,rj,sj+1)m個(gè)進(jìn)行更新；

8) 計(jì)算當(dāng)前Q網(wǎng)絡(luò)目標(biāo)值:yj=rj+γQ(sj+1,argmaxa′Q(sj+1,a′;θ,α,β);θ′,α,β)；

9) 計(jì)算均方誤差損失函數(shù)：l=(yj-Q(sj,aj;θ,α,β))2；

10) 使用隨機(jī)梯度下降算法更新優(yōu)化網(wǎng)絡(luò)參數(shù)；

11) 每經(jīng)過τ步，有θ′←θ，賦值網(wǎng)絡(luò)參數(shù)；

12) End For

13) End For

2.4 基于權(quán)重值的競(jìng)爭(zhēng)深度雙Q網(wǎng)絡(luò)

深度雙Q網(wǎng)絡(luò)與競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)，對(duì)過估計(jì)解決良好，但雙Q學(xué)習(xí)有時(shí)也會(huì)存在低估問題[11].以上述算法為基礎(chǔ)，本文提出WD3QN算法，將雙估計(jì)器與競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合，Q值基于權(quán)重進(jìn)行調(diào)整，綜合算法性能.

同樣將動(dòng)作的選擇以及評(píng)估分離，佐以競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)，使用Q(s′,a′;θ,α,β)與Q(s′,a′;θ′,α,β)的加權(quán)值作目標(biāo)網(wǎng)絡(luò)值，計(jì)算公式如下：

yWD3QN=r+γ[η×Q(s′,a′;θ,α,β)+

(1-η)×Q(s′,a′;θ′,α,β)],

(7)

式中的η為權(quán)值，超參數(shù)c在實(shí)驗(yàn)中選取，計(jì)算公式如下：

η=δ/(c+δ),

(8)

其中δ值計(jì)算如下：

δ=|Q(s′,a′;θ′,α,β)-Q(s′,a″;θ′,α,β)|,

(9)

a′,a″分別代表取當(dāng)前網(wǎng)絡(luò)值最大與最小動(dòng)作：

a′=argmaxaQ(s′,a;θ,α,β),

(10)

a″=argminaQ(s′,a;θ,α,β).

(11)

整體算法流程如下：

算法4WD3QN算法

1) 隨機(jī)初始化Q網(wǎng)絡(luò)參數(shù)θ及目標(biāo)網(wǎng)絡(luò)參數(shù)θ′；

2) 初始化重放經(jīng)驗(yàn)池D，初始化智能體環(huán)境；

3) For episode=1,maxepisodedo

4) 獲取初始狀態(tài)s0；

5) Fori=1,Tdo

6) 將狀態(tài)si輸入在線Q網(wǎng)絡(luò)中，根據(jù)ε-greedy算法選擇動(dòng)作ai；

7) 獲取下一狀態(tài)si+1和獎(jiǎng)勵(lì)ri，將樣本(si,ai,ri,si+1)存入經(jīng)驗(yàn)池D；

8) 從經(jīng)驗(yàn)池D中抽取n個(gè)樣本(sk,ak,rk,sk+1)進(jìn)行參數(shù)更新；

9) a′=argmaxaQ(sk+1,a;θ,α,β)，

a″=argminaQ(sk+1,a;θ,α,β)；

10) δ=|Q(sk+1,a′;θ′,α,β)-Q(sk+1,a″;θ′,α,β)|，η=δ/(c+δ)；

11) 計(jì)算目標(biāo)值:yk=rk+γ[η×Q(sk+1,a′;θ,α,β)+(1-η)×Q(sk+1,a′;θ′,α,β)]；

12) 損失函數(shù)l=(yk-Q(sk,ak;θ,α,β))2，使用隨機(jī)梯度下降算法優(yōu)化網(wǎng)絡(luò)參數(shù)；

13) 每經(jīng)過τ步，更新目標(biāo)網(wǎng)絡(luò)參數(shù)：θ′←θ；

14) End For

15) End For

首先進(jìn)行參數(shù)初始化，智能體與環(huán)境交互并根據(jù)貪心策略選擇相應(yīng)動(dòng)作，將轉(zhuǎn)移樣本(s,a,r,s′)存入經(jīng)驗(yàn)重放池中.在訓(xùn)練時(shí)，隨機(jī)選取小批量樣本數(shù)據(jù)，根據(jù)式(7)計(jì)算目標(biāo)網(wǎng)絡(luò)值，使用隨機(jī)梯度下降算法更新相應(yīng)的網(wǎng)絡(luò)參數(shù)，每τ步對(duì)目標(biāo)網(wǎng)絡(luò)參數(shù)進(jìn)行賦值.

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)平臺(tái)與參數(shù)設(shè)置

算法驗(yàn)證環(huán)境：Open AI Gym[13],深度學(xué)習(xí)框架為PyTorch 1.8.1，Python版本3.7，以Gym中經(jīng)典控制問題CartPole為實(shí)驗(yàn)對(duì)象，采用DDQN算法，WDDQN算法[14]及D3QN算法作為baseline進(jìn)行對(duì)比，其中經(jīng)驗(yàn)重放池大小為200 000，minibatch為32，學(xué)習(xí)率設(shè)置0.000 5.WD3QN算法中：以系統(tǒng)狀態(tài)元組作為輸入，第1個(gè)全連接層為state_dim×512，而后分別過優(yōu)勢(shì)函數(shù)與價(jià)值函數(shù)層(均為512×512)，優(yōu)勢(shì)函數(shù)輸出層為512×action_dim，價(jià)值函數(shù)輸出層為512×1，經(jīng)線性組合得Q(s,a;θ,α,β).D3QN算法與上述基本相同，無基于權(quán)重值的雙估計(jì)器結(jié)構(gòu)；WDDQN算法則無競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu).訓(xùn)練時(shí)選擇隨機(jī)梯度下降算法，貪心策略中初始值為0.1，更新法則如下：ε=max (0.01,ε-10-6)，γ=0.99.

3.2 實(shí)驗(yàn)結(jié)果分析

與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同，深度強(qiáng)化學(xué)習(xí)使用自身產(chǎn)生的數(shù)據(jù)作為訓(xùn)練集，對(duì)算法達(dá)到穩(wěn)定快慢以及穩(wěn)定的持續(xù)時(shí)間長(zhǎng)短進(jìn)行評(píng)估.

首先研究WD3QN算法中超參數(shù)c的取值影響，分別取值1,10,100進(jìn)行訓(xùn)練，圖中橫坐標(biāo)episode為訓(xùn)練次數(shù)，縱坐標(biāo)為每次訓(xùn)練的總和回報(bào)值，對(duì)比結(jié)果圖2所示.

圖2 超參數(shù)c=(1,10,100)訓(xùn)練結(jié)果Fig.2 Training results with hyperparameter c equals 1 (a),10 (b),and 100(c)

若將以上過程視為訓(xùn)練狀態(tài)，對(duì)智能體每50個(gè)episode進(jìn)行評(píng)估，結(jié)果如圖3所示.

圖3 超參數(shù)c=(1,10,100)測(cè)試結(jié)果Fig.3 Testing results with hyperparameter c equals 1 (a),10 (b),and 100(c)

由圖3可以看出，算法的收斂性與穩(wěn)定性在c=10 時(shí)優(yōu)于c=1和100.粗略設(shè)置超參數(shù)c為常數(shù)其實(shí)并不準(zhǔn)確，在后續(xù)研究中，或可以考慮將其設(shè)置為自適應(yīng)參數(shù).下面對(duì)比實(shí)驗(yàn)中，默認(rèn)算法超參數(shù)c=10.

圖4為不同算法(DDQN,D3QN,WDDQN,WD3QN)的訓(xùn)練以及評(píng)估效果.

圖4 不同算法訓(xùn)練結(jié)果Fig.4 Training results of different algorithms

同樣對(duì)智能體每50個(gè)episode進(jìn)行相應(yīng)評(píng)估，結(jié)果如圖5所示.

圖5 不同算法測(cè)試結(jié)果Fig.5 Testing results of different algorithms

由圖4及圖5可以看出，在智能體訓(xùn)練與測(cè)試中，WD3QN算法的收斂性與穩(wěn)定性均明顯優(yōu)于其他三種算法，得益于競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)與深度雙Q網(wǎng)絡(luò)，緩解了對(duì)動(dòng)作值高估的影響.與此同時(shí)，基于權(quán)重值的雙估計(jì)器結(jié)構(gòu)在訓(xùn)練后期(episode>600)減輕對(duì)動(dòng)作值的低估問題，對(duì)目標(biāo)值的估計(jì)更加精確.

4 總結(jié)

本文提出一種基于權(quán)重值的競(jìng)爭(zhēng)深度雙Q網(wǎng)絡(luò)算法，將深度雙Q網(wǎng)絡(luò)與競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合，引入帶權(quán)重的雙估計(jì)器，對(duì)目標(biāo)網(wǎng)絡(luò)值有更精準(zhǔn)的估計(jì)，從而有更優(yōu)的策略選擇.通過實(shí)驗(yàn)仿真對(duì)比，證明該算法的收斂性與穩(wěn)定性均有效提升.下一步的研究?jī)?nèi)容即對(duì)權(quán)重比例c進(jìn)行探討，將其設(shè)置為自適應(yīng)超參數(shù)；與此同時(shí)也可嘗試加入循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、圖神經(jīng)網(wǎng)絡(luò)模型等.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡