汪晨曦 趙學(xué)艷 郭新
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是由心理學(xué)、神經(jīng)科學(xué)以及控制科學(xué)等多學(xué)科融合而來的一類機(jī)器學(xué)習(xí)方法[1-3],多用于解決序貫決策問題.目前強(qiáng)化學(xué)習(xí)可以分為基于模型的強(qiáng)化學(xué)習(xí)(model-based RL)和無模型強(qiáng)化學(xué)習(xí)(model-free RL)兩大類.在無模型強(qiáng)化學(xué)習(xí)算法中,Q學(xué)習(xí)(Q-learning)[4]是目前最流行的算法,它使用Q表格有效地構(gòu)建動(dòng)作狀態(tài)對(duì),可直接根據(jù)Q值進(jìn)行動(dòng)作選擇.但在學(xué)習(xí)訓(xùn)練中,因?yàn)镼學(xué)習(xí)算法包括一個(gè)最大化的操作,直接導(dǎo)致對(duì)動(dòng)作值的過于樂觀估計(jì),文獻(xiàn)[5]證明了該過估計(jì)有上限,而文獻(xiàn)[6]則證明在特定條件下,該過估計(jì)也可能存在下限.
隨著人工智能(Artificial Intelligence,AI)、深度學(xué)習(xí)(Deep Learning,DL)[7]等概念的愈發(fā)火熱,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為一大研究熱點(diǎn).神經(jīng)網(wǎng)絡(luò)可將復(fù)雜邏輯的高維數(shù)據(jù)轉(zhuǎn)換成可靠的低維表示,已在計(jì)算機(jī)視覺、自然語言處理、推薦系統(tǒng)等方面展示出巨大作用.將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合起來,根據(jù)二者不同的特點(diǎn),可以使得智能體在某些隨機(jī)環(huán)境下獲得更為良好的表現(xiàn).
近年來,深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合(Deep Reinforcement Learning,DRL)的智能體訓(xùn)練方法大放異彩.2013年Mnih等[8]提出的深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)算法在Atari 2600部分游戲中大幅超越人類玩家水平,該算法可預(yù)估所有策略的價(jià)值,取其中最佳策略執(zhí)行.
最初的DQN算法存在一些缺陷,例如目標(biāo)值不穩(wěn)定、樣本利用不充分等.針對(duì)上述問題,2015年Mnih等[9]提出設(shè)立回放經(jīng)驗(yàn)池和固定目標(biāo)值以使智能體訓(xùn)練更加穩(wěn)定:經(jīng)驗(yàn)回放打破樣本前后的關(guān)聯(lián)性,在訓(xùn)練中隨機(jī)采樣,而固定目標(biāo)值使得反向傳播算法更加穩(wěn)定.但由于估計(jì)偏差及噪聲作用,該算法有時(shí)會(huì)高估動(dòng)作值.
為了解決高估問題,Hasselt等[6]提出DDQN(Double Deep Q-Network)算法,采用雙估計(jì)器,將動(dòng)作選擇與動(dòng)作評(píng)估分離;文獻(xiàn)[10]提出競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu),將Q網(wǎng)絡(luò)有效分為價(jià)值函數(shù)與優(yōu)勢(shì)函數(shù)兩部分,其中價(jià)值函數(shù)僅僅與狀態(tài)有關(guān),與動(dòng)作無關(guān).但Zhang等[11]指出引入雙估計(jì)器有時(shí)會(huì)導(dǎo)致低估動(dòng)作值,提出WDDQ(Weight Double Deep Q-learning)算法,采用權(quán)重值的方法對(duì)Q值進(jìn)行調(diào)節(jié),仿真結(jié)果顯示該算法可有效提升訓(xùn)練的穩(wěn)定性.
本文針對(duì)DQN算法中的高估、DDQN算法與競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)中的低估問題,結(jié)合WDDQ算法的權(quán)重值方法,提出基于權(quán)重值的競(jìng)爭(zhēng)深度雙Q網(wǎng)絡(luò)算法(Weighted Dueling Double Deep Q-Network,WD3QN),將競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)與改進(jìn)的雙估計(jì)器結(jié)合,對(duì)動(dòng)作值有更精準(zhǔn)的估計(jì),有效減少誤差.通過對(duì)Open AI Gym中的經(jīng)典控制問題CartPole[12]進(jìn)行研究,實(shí)驗(yàn)結(jié)果表明,WD3QN算法與已有算法相比有更快的收斂速度和更好的穩(wěn)定性.
本文的其余部分安排如下:第1節(jié)介紹強(qiáng)化學(xué)習(xí)及其背景知識(shí);第2節(jié)給出WD3QN算法設(shè)計(jì);第3節(jié)給出實(shí)驗(yàn)結(jié)果與分析;第4節(jié)是總結(jié).
在強(qiáng)化學(xué)習(xí)中,智能體需與外界環(huán)境進(jìn)行交互,找到最優(yōu)的序列決策,使獎(jiǎng)勵(lì)函數(shù)最大化.在一個(gè)離散的時(shí)間序列t=0,1,2,3,…中,對(duì)于每一個(gè)時(shí)刻t,智能體觀察環(huán)境狀態(tài)st∈S,根據(jù)當(dāng)前狀態(tài)st選擇動(dòng)作at∈A,獲得獎(jiǎng)勵(lì)回報(bào)rt∈R而后進(jìn)入下一個(gè)狀態(tài)st+1∈S.馬爾可夫決策框架下,使用元組〈S,A,P,R,γ〉表示整個(gè)探索過程:S是有限狀態(tài)集合;A是有限動(dòng)作集合;狀態(tài)轉(zhuǎn)移概率P(st+1|st,at)=P[St+1=st+1|St=st,At=at];R(s,a)=Ε[Rt=rt|St=st,At=at]為相應(yīng)的獎(jiǎng)勵(lì)值;γ∈[0,1],為折扣因子.
若面對(duì)離散有限的動(dòng)作及狀態(tài)空間,可以使用經(jīng)典的值迭代算法——Q學(xué)習(xí)算法.通過學(xué)習(xí)出一個(gè)表格(Q-table),直接表示狀態(tài)s下每個(gè)動(dòng)作a的未來期望獎(jiǎng)勵(lì),通過ε-greedy算法采取相應(yīng)的策略:即以ε概率采取任意可能動(dòng)作,以1-ε概率采取貪心策略,可避免智能體陷入局部最優(yōu);與此同時(shí)設(shè)置衰減的ε參數(shù),加快中后期智能體的訓(xùn)練速度.Q-learning算法流程如下:
算法1Q-learning
初始化Q,s;
For episode=1,maxepisodedo
在當(dāng)前狀態(tài)s下,通過ε-greedy算法,基于Q表格選擇動(dòng)作a;
采取動(dòng)作a,獲取獎(jiǎng)勵(lì)值r及下一狀態(tài)s′;
a*←argmaxaQ(s′,a),
ζ←r+γQ(s′,a*)-Q(s,a);
Q(s,a)←Q(s,a)+α×ζ,s←s′;
End For
當(dāng)動(dòng)作及狀態(tài)空間很大時(shí),維數(shù)災(zāi)問題迎面而來,使用表格存下所有的動(dòng)作狀態(tài)對(duì)顯然并不現(xiàn)實(shí).可采用帶參數(shù)θ的函數(shù)近似方法來逼近最優(yōu)動(dòng)作價(jià)值函數(shù),表達(dá)式如下:
Q(s,a;θ)≈Q*(s,a).
(1)
面對(duì)維數(shù)頗高的動(dòng)作及狀態(tài)空間,經(jīng)典的Q學(xué)習(xí)算法顯得力不從心,可將表格更新轉(zhuǎn)變?yōu)楹瘮?shù)近似問題,使用函數(shù)值來代替Q表格值.深度神經(jīng)網(wǎng)絡(luò)可將復(fù)雜邏輯的高維數(shù)據(jù)轉(zhuǎn)換成可靠的低維表示,有較好的特征提取能力,與Q學(xué)習(xí)算法結(jié)合,即深度Q網(wǎng)絡(luò).
在DQN算法中,使用多層神經(jīng)網(wǎng)絡(luò)逼近動(dòng)作價(jià)值函數(shù).為提高智能體agent訓(xùn)練時(shí)的穩(wěn)定性,引入兩個(gè)重要機(jī)制:經(jīng)驗(yàn)回放與固定目標(biāo)Q值.在訓(xùn)練過程中,當(dāng)前狀態(tài)s下選擇動(dòng)作a,獲得獎(jiǎng)勵(lì)值r且進(jìn)入下一狀態(tài)s′,數(shù)據(jù)樣本(s,a,r,s′)存入經(jīng)驗(yàn)池中,網(wǎng)絡(luò)參數(shù)θ通過隨機(jī)梯度下降算法優(yōu)化,其中目標(biāo)網(wǎng)絡(luò)值:
yDQN=r+γmaxa′Q(s′,a′;θ-),
(2)
損失函數(shù)如下:
l=(yDQN-Q(s,a;θ))2.
(3)
為避免樣本前后關(guān)聯(lián)性對(duì)結(jié)果的影響,每次隨機(jī)抽取m個(gè)樣本數(shù)據(jù)進(jìn)行訓(xùn)練.其中θ-代表目標(biāo)網(wǎng)絡(luò)參數(shù),θ是當(dāng)前在線網(wǎng)絡(luò)參數(shù),二者的網(wǎng)絡(luò)結(jié)構(gòu)一致,每C步進(jìn)行賦值:θ-←θ,經(jīng)驗(yàn)回放與固定目標(biāo)值可以提升算法的穩(wěn)定性,獲得較好的實(shí)驗(yàn)結(jié)果,算法流程如下:
算法2DQN算法
1) 初始化Q網(wǎng)絡(luò)Q(s,a;θ)參數(shù),隨機(jī)初始化目標(biāo)網(wǎng)絡(luò)參數(shù)θ-;
2) 初始化經(jīng)驗(yàn)回放池D及外界環(huán)境;
3) 獲取初始狀態(tài)s0,根據(jù)ε-greedy算法選擇動(dòng)作a0并記錄r0;
4)Fori=1,Ndo
5) 計(jì)算目標(biāo)網(wǎng)絡(luò)值:yi=ri+γmaxa′Q(si+1,a′;θ-);
6) 計(jì)算均方誤差損失函數(shù):l=(yi-Q(si,ai;θ))2;
7) 利用隨機(jī)梯度下降算法更新網(wǎng)絡(luò)參數(shù);
8) 每過C步,把當(dāng)前網(wǎng)絡(luò)參數(shù)賦給目標(biāo)網(wǎng)絡(luò):θ-←θ;
9) 將樣本數(shù)據(jù)(si,ai,ri,si+1)存入經(jīng)驗(yàn)池D;
10)End For
在智能體訓(xùn)練中,DQN算法使用固定Q作為目標(biāo)值,隨機(jī)選取經(jīng)驗(yàn)重放池D中小批量數(shù)據(jù)樣本(s,a,r,s′)進(jìn)行梯度下降,每C步更新目標(biāo)網(wǎng)絡(luò)參數(shù).
深度Q網(wǎng)絡(luò)算法由于選擇相應(yīng)動(dòng)作時(shí)對(duì)Q網(wǎng)絡(luò)值取最大化操作,導(dǎo)致對(duì)動(dòng)作值存在高估問題.深度雙Q網(wǎng)絡(luò)將動(dòng)作的選擇與評(píng)估分離,使用在線網(wǎng)絡(luò)選擇動(dòng)作,而目標(biāo)網(wǎng)絡(luò)則對(duì)動(dòng)作進(jìn)行評(píng)估,從而較好地降低過估計(jì).更新方式與DQN類似,公式如下:
yDDQN=r+γQ(s′,argmaxa′Q(s′,a′;θ);θ′).
(4)
與經(jīng)典深度Q網(wǎng)絡(luò)算法相比,DDQN算法沒有額外增加網(wǎng)絡(luò),目標(biāo)網(wǎng)絡(luò)與在線網(wǎng)絡(luò)各司其職,同樣每C步對(duì)網(wǎng)絡(luò)賦值:θ′←θ.Hasselt等[6]的實(shí)驗(yàn)結(jié)果顯示,相比于DQN算法,DDQN能有效緩解高估問題,智能體性能有較好提升.
深度雙Q網(wǎng)絡(luò)通過將動(dòng)作的選擇與評(píng)估操作分離,有效降低了過高估計(jì)影響.與此同時(shí),Wang等[10]通過優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從而達(dá)到優(yōu)化算法的目的:競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)將Q網(wǎng)絡(luò)有效分為價(jià)值函數(shù)V(s;θ,α)(value function)與優(yōu)勢(shì)函數(shù)A(s,a;θ,β)(advantage function)兩部分,其中價(jià)值函數(shù)僅與狀態(tài)有關(guān),與動(dòng)作無關(guān),如圖1[10]所示.
圖1 Dueling網(wǎng)絡(luò)結(jié)構(gòu)[10]Fig.1 Dueling network[10]
公式如下:
Q(s,a;θ,α,β)=V(s;θ,α)+A(s,a;θ,β),
(5)
其中,α,β分別為價(jià)值函數(shù)與優(yōu)勢(shì)函數(shù)獨(dú)有的網(wǎng)絡(luò)參數(shù),而θ則為公共網(wǎng)絡(luò)參數(shù).
在競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)中,優(yōu)勢(shì)函數(shù)與價(jià)值函數(shù)作為子網(wǎng)絡(luò)結(jié)構(gòu),最終輸出值由二者線性組合得到.但在式(5)中,無法直接辨識(shí)出價(jià)值函數(shù)與優(yōu)勢(shì)函數(shù)各自的作用.為了提高函數(shù)可辨識(shí)度,實(shí)際工程中所使用的方法如下:
Q(s,a;θ,α,β)=V(s;θ,α)+
(6)
對(duì)優(yōu)勢(shì)函數(shù)A(s,a;θ,β)做中心化處理,相比于DQN,僅對(duì)Q網(wǎng)絡(luò)最終輸出部分做些許調(diào)整,結(jié)果證明,競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)降低過估計(jì)有顯著作用,提升智能體性能的同時(shí)亦優(yōu)化了網(wǎng)絡(luò)的穩(wěn)定性.
將深度雙Q網(wǎng)絡(luò)與競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,形成了新的強(qiáng)化學(xué)習(xí)算法:競(jìng)爭(zhēng)深度雙Q網(wǎng)絡(luò)算法(Dueling Double Deep Q-Network,D3QN).與DQN相比,D3QN有效緩解了最大化算子帶來的過估計(jì)影響,算法流程如下:
算法3D3QN算法
1) 初始化Q網(wǎng)絡(luò)Q(s,a;θ,α,β)參數(shù),初始化目標(biāo)網(wǎng)絡(luò)參數(shù)θ′,將Q網(wǎng)絡(luò)的參數(shù)值賦給目標(biāo)網(wǎng)絡(luò):θ′←θ,初始化經(jīng)驗(yàn)池D;
2) For episode=1,maxepisodedo
3) 初始化外界環(huán)境,r=0,得到狀態(tài)s0;
4) Fort=1,maxlengthdo
5) 根據(jù)當(dāng)前狀態(tài)st,輸入在線Q網(wǎng)絡(luò)中,根據(jù)ε-greedy 算法選擇當(dāng)前狀態(tài)下的動(dòng)作at;
6) 獲取下一狀態(tài)st+1和即時(shí)獎(jiǎng)勵(lì)rt,將樣本(st,at,rt,st+1)存入經(jīng)驗(yàn)池D;
7) 從經(jīng)驗(yàn)池D中隨機(jī)抽樣(sj,aj,rj,sj+1)m個(gè)進(jìn)行更新;
8) 計(jì)算當(dāng)前Q網(wǎng)絡(luò)目標(biāo)值:yj=rj+γQ(sj+1,argmaxa′Q(sj+1,a′;θ,α,β);θ′,α,β);
9) 計(jì)算均方誤差損失函數(shù):l=(yj-Q(sj,aj;θ,α,β))2;
10) 使用隨機(jī)梯度下降算法更新優(yōu)化網(wǎng)絡(luò)參數(shù);
11) 每經(jīng)過τ步,有θ′←θ,賦值網(wǎng)絡(luò)參數(shù);
12) End For
13) End For
深度雙Q網(wǎng)絡(luò)與競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu),對(duì)過估計(jì)解決良好,但雙Q學(xué)習(xí)有時(shí)也會(huì)存在低估問題[11].以上述算法為基礎(chǔ),本文提出WD3QN算法,將雙估計(jì)器與競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合,Q值基于權(quán)重進(jìn)行調(diào)整,綜合算法性能.
同樣將動(dòng)作的選擇以及評(píng)估分離,佐以競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu),使用Q(s′,a′;θ,α,β)與Q(s′,a′;θ′,α,β)的加權(quán)值作目標(biāo)網(wǎng)絡(luò)值,計(jì)算公式如下:
yWD3QN=r+γ[η×Q(s′,a′;θ,α,β)+
(1-η)×Q(s′,a′;θ′,α,β)],
(7)
式中的η為權(quán)值,超參數(shù)c在實(shí)驗(yàn)中選取,計(jì)算公式如下:
η=δ/(c+δ),
(8)
其中δ值計(jì)算如下:
δ=|Q(s′,a′;θ′,α,β)-Q(s′,a″;θ′,α,β)|,
(9)
a′,a″分別代表取當(dāng)前網(wǎng)絡(luò)值最大與最小動(dòng)作:
a′=argmaxaQ(s′,a;θ,α,β),
(10)
a″=argminaQ(s′,a;θ,α,β).
(11)
整體算法流程如下:
算法4WD3QN算法
1) 隨機(jī)初始化Q網(wǎng)絡(luò)參數(shù)θ及目標(biāo)網(wǎng)絡(luò)參數(shù)θ′;
2) 初始化重放經(jīng)驗(yàn)池D,初始化智能體環(huán)境;
3) For episode=1,maxepisodedo
4) 獲取初始狀態(tài)s0;
5) Fori=1,Tdo
6) 將狀態(tài)si輸入在線Q網(wǎng)絡(luò)中,根據(jù)ε-greedy算法選擇動(dòng)作ai;
7) 獲取下一狀態(tài)si+1和獎(jiǎng)勵(lì)ri,將樣本(si,ai,ri,si+1)存入經(jīng)驗(yàn)池D;
8) 從經(jīng)驗(yàn)池D中抽取n個(gè)樣本(sk,ak,rk,sk+1)進(jìn)行參數(shù)更新;
9) a′=argmaxaQ(sk+1,a;θ,α,β),
a″=argminaQ(sk+1,a;θ,α,β);
10) δ=|Q(sk+1,a′;θ′,α,β)-Q(sk+1,a″;θ′,α,β)|,η=δ/(c+δ);
11) 計(jì)算目標(biāo)值:yk=rk+γ[η×Q(sk+1,a′;θ,α,β)+(1-η)×Q(sk+1,a′;θ′,α,β)];
12) 損失函數(shù)l=(yk-Q(sk,ak;θ,α,β))2,使用隨機(jī)梯度下降算法優(yōu)化網(wǎng)絡(luò)參數(shù);
13) 每經(jīng)過τ步,更新目標(biāo)網(wǎng)絡(luò)參數(shù):θ′←θ;
14) End For
15) End For
首先進(jìn)行參數(shù)初始化,智能體與環(huán)境交互并根據(jù)貪心策略選擇相應(yīng)動(dòng)作,將轉(zhuǎn)移樣本(s,a,r,s′)存入經(jīng)驗(yàn)重放池中.在訓(xùn)練時(shí),隨機(jī)選取小批量樣本數(shù)據(jù),根據(jù)式(7)計(jì)算目標(biāo)網(wǎng)絡(luò)值,使用隨機(jī)梯度下降算法更新相應(yīng)的網(wǎng)絡(luò)參數(shù),每τ步對(duì)目標(biāo)網(wǎng)絡(luò)參數(shù)進(jìn)行賦值.
算法驗(yàn)證環(huán)境:Open AI Gym[13],深度學(xué)習(xí)框架為PyTorch 1.8.1,Python版本3.7,以Gym中經(jīng)典控制問題CartPole為實(shí)驗(yàn)對(duì)象,采用DDQN算法,WDDQN算法[14]及D3QN算法作為baseline進(jìn)行對(duì)比,其中經(jīng)驗(yàn)重放池大小為200 000,minibatch為32,學(xué)習(xí)率設(shè)置0.000 5.WD3QN算法中:以系統(tǒng)狀態(tài)元組作為輸入,第1個(gè)全連接層為state_dim×512,而后分別過優(yōu)勢(shì)函數(shù)與價(jià)值函數(shù)層(均為512×512),優(yōu)勢(shì)函數(shù)輸出層為512×action_dim,價(jià)值函數(shù)輸出層為512×1,經(jīng)線性組合得Q(s,a;θ,α,β).D3QN算法與上述基本相同,無基于權(quán)重值的雙估計(jì)器結(jié)構(gòu);WDDQN算法則無競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu).訓(xùn)練時(shí)選擇隨機(jī)梯度下降算法,貪心策略中初始值為0.1,更新法則如下:ε=max (0.01,ε-10-6),γ=0.99.
與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同,深度強(qiáng)化學(xué)習(xí)使用自身產(chǎn)生的數(shù)據(jù)作為訓(xùn)練集,對(duì)算法達(dá)到穩(wěn)定快慢以及穩(wěn)定的持續(xù)時(shí)間長(zhǎng)短進(jìn)行評(píng)估.
首先研究WD3QN算法中超參數(shù)c的取值影響,分別取值1,10,100進(jìn)行訓(xùn)練,圖中橫坐標(biāo)episode為訓(xùn)練次數(shù),縱坐標(biāo)為每次訓(xùn)練的總和回報(bào)值,對(duì)比結(jié)果圖2所示.
圖2 超參數(shù)c=(1,10,100)訓(xùn)練結(jié)果Fig.2 Training results with hyperparameter c equals 1 (a),10 (b),and 100(c)
若將以上過程視為訓(xùn)練狀態(tài),對(duì)智能體每50個(gè)episode進(jìn)行評(píng)估,結(jié)果如圖3所示.
圖3 超參數(shù)c=(1,10,100)測(cè)試結(jié)果Fig.3 Testing results with hyperparameter c equals 1 (a),10 (b),and 100(c)
由圖3可以看出,算法的收斂性與穩(wěn)定性在c=10 時(shí)優(yōu)于c=1和100.粗略設(shè)置超參數(shù)c為常數(shù)其實(shí)并不準(zhǔn)確,在后續(xù)研究中,或可以考慮將其設(shè)置為自適應(yīng)參數(shù).下面對(duì)比實(shí)驗(yàn)中,默認(rèn)算法超參數(shù)c=10.
圖4為不同算法(DDQN,D3QN,WDDQN,WD3QN)的訓(xùn)練以及評(píng)估效果.
圖4 不同算法訓(xùn)練結(jié)果Fig.4 Training results of different algorithms
同樣對(duì)智能體每50個(gè)episode進(jìn)行相應(yīng)評(píng)估,結(jié)果如圖5所示.
圖5 不同算法測(cè)試結(jié)果Fig.5 Testing results of different algorithms
由圖4及圖5可以看出,在智能體訓(xùn)練與測(cè)試中,WD3QN算法的收斂性與穩(wěn)定性均明顯優(yōu)于其他三種算法,得益于競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)與深度雙Q網(wǎng)絡(luò),緩解了對(duì)動(dòng)作值高估的影響.與此同時(shí),基于權(quán)重值的雙估計(jì)器結(jié)構(gòu)在訓(xùn)練后期(episode>600)減輕對(duì)動(dòng)作值的低估問題,對(duì)目標(biāo)值的估計(jì)更加精確.
本文提出一種基于權(quán)重值的競(jìng)爭(zhēng)深度雙Q網(wǎng)絡(luò)算法,將深度雙Q網(wǎng)絡(luò)與競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合,引入帶權(quán)重的雙估計(jì)器,對(duì)目標(biāo)網(wǎng)絡(luò)值有更精準(zhǔn)的估計(jì),從而有更優(yōu)的策略選擇.通過實(shí)驗(yàn)仿真對(duì)比,證明該算法的收斂性與穩(wěn)定性均有效提升.下一步的研究?jī)?nèi)容即對(duì)權(quán)重比例c進(jìn)行探討,將其設(shè)置為自適應(yīng)超參數(shù);與此同時(shí)也可嘗試加入循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、圖神經(jīng)網(wǎng)絡(luò)模型等.
南京信息工程大學(xué)學(xué)報(bào)2021年5期