李永強(qiáng) 周 鍵 馮 宇 馮遠(yuǎn)靜
LI Yongqiang1,ZHOU Jian1,F(xiàn)ENG Yu1,F(xiàn)ENG Yuanjing1
博弈問題是實(shí)際應(yīng)用中的常見問題,如圍棋、象棋、撲克游戲、對抗類電子游戲等.近年來,在模型未知的情況下,利用多智能體強(qiáng)化學(xué)習(xí)求解博弈問題受到廣泛關(guān)注[1-6].在現(xiàn)有文獻(xiàn)中,通常利用如下兩類框架描述多步博弈問題:擴(kuò)展形式博弈(Extensive-Form Games)和馬爾科夫博弈(Markov Games).
擴(kuò)展形式博弈適用于描述不完全信息、回合制博弈問題,如撲克游戲.回合制是指參與博弈的玩家在每步?jīng)Q策時,知道已行動玩家采取的動作.例如,在撲克游戲中,參與的玩家輪流出牌或下注,當(dāng)前行動的玩家可看到已行動玩家出的牌或下的注.為了解決生活中流行的擴(kuò)展形式博弈問題,學(xué)者們提出大量基于策略梯度的多智能體強(qiáng)化學(xué)習(xí)算法,如基于虛擬自博弈(Fictitious Self-Play)的方法[7-10]和基于反事實(shí)遺憾(Counter factual Regret)的方法[11-14].
馬爾科夫博弈適用于描述完全信息、同時移動博弈問題.同時移動博弈問題是指在每步?jīng)Q策時,所有參與的玩家同時選擇動作,玩家在決策時并不知道另一玩家會采取的動作,如軍事對抗博弈問題.
馬爾科夫博弈拓寬馬爾科夫決策過程(Markov Decision Process, MDP)只能有一個智能體的限制,馬爾科夫博弈可包含多個智能體.在使用多智能體強(qiáng)化學(xué)習(xí)方法求解博弈問題時,強(qiáng)化學(xué)習(xí)中的術(shù)語“智能體”一般稱為“玩家”,本文也保持這個習(xí)慣.這些玩家可以有各自的利益目標(biāo).兩方零和馬爾科夫博弈(Two-Player Zero-Sum Markov Games, TZMG)為馬爾科夫博弈的一種特殊情況,特殊之處是參與博弈的兩個玩家的利益完全相反.
針對TZMG的多智能體強(qiáng)化學(xué)習(xí)算法可分為兩類:值函數(shù)方法和策略梯度方法.現(xiàn)有文獻(xiàn)中大部分方法都是值函數(shù)方法.Littman[15]提出Minimax-Q,可找到納什均衡策略,但是由于每次更新Q函數(shù)需要構(gòu)建線性規(guī)劃以求解每個狀態(tài)階段博弈的納什均衡策略,計(jì)算量巨大.為了解決Minimax-Q的計(jì)算效率問題,Gran-Moya等[16]提出Soft Q-Learning,計(jì)算熵正則化條件下閉合形式的軟最優(yōu)策略,從而避免使用線性規(guī)劃更新Q函數(shù).然而,由于固定的正則化條件,策略可能無法達(dá)到納什均衡.為了在保持計(jì)算效率的同時保證策略收斂到納什均衡,Guan等[17]提出SNQ2L(Soft Nash Q2-Learning).值函數(shù)方法由于算法本身的限制并不適合動作空間大的環(huán)境.對于MDP,策略梯度方法比值函數(shù)方法更容易擴(kuò)展到大動作空間,通常收斂速度更快.
策略梯度方法在許多領(lǐng)域具有較優(yōu)性能[18-19].但是,對于TZMG,策略梯度方法的研究結(jié)果依然很少.Daskalakis等[20]提出雙時間尺度的策略梯度算法,解決TZMG問題,主要思想是兩個玩家采用快慢學(xué)習(xí)率交替進(jìn)行訓(xùn)練,本質(zhì)上還是單智能體強(qiáng)化學(xué)習(xí),并且訓(xùn)練過程比同時訓(xùn)練玩家的策略更繁瑣.
本文致力于實(shí)現(xiàn)同時訓(xùn)練并更新玩家的策略,圍繞這個目標(biāo),首先將策略梯度定理擴(kuò)展到TZMG,給出針對TZMG的策略梯度定理的嚴(yán)格證明.該定理是利用采樣數(shù)據(jù)估計(jì)TZMG的玩家策略梯度的理論基礎(chǔ).本文采用類似于單智能體REINFORCE[21]的思路估計(jì)TZMG下的玩家策略梯度,即利用完整采樣軌跡的回報(bào)均值估計(jì)期望回報(bào).得到玩家策略梯度的估計(jì)之后,可利用基于梯度的方法求解TZMG的等價問題,即最大最小化問題.由此,本文提出基于額外梯度的REINFORCE算法(Extra-Gradient Based REINFORCE, EG-R),求解最大最小化問題,解決直接使用梯度上升下降算法時,玩家的聯(lián)合策略無法達(dá)到近似納什均衡的問題.
馬爾科夫決策過程(MDP)可用一個五元組(S,A,P,ρ,γ)描述.其中:S表示有限狀態(tài)空間,狀態(tài)個數(shù)為|S|;A表示智能體的有限動作空間,動作個數(shù)為|A|;
P(s′,r|s,a)∶S×A→Δ(S×R)
表示在任意動作a∈A下,從任意狀態(tài)s∈S轉(zhuǎn)移到狀態(tài)s′∈S,且智能體獲得獎勵r的概率;ρ∶S→Δ(S)表示初始狀態(tài)的概率分布;γ∈(0,1]表示折扣因子.
MDP下的智能體與環(huán)境的交互如圖1所示,環(huán)境根據(jù)初始狀態(tài)的概率分布ρ生成初始狀態(tài)S0.在每個時刻t,智能體按照隨機(jī)策略
圖1 MDP下的智能體與環(huán)境的交互
π(·|St)∶S→Δ(A)
在當(dāng)前狀態(tài)St下選擇動作,得到的動作記為At.環(huán)境對動作At做出相應(yīng)響應(yīng),然后根據(jù)狀態(tài)轉(zhuǎn)移及獎勵生成的概率分布P將狀態(tài)從St轉(zhuǎn)移到St+1,并給出獎勵Rt,即
St+1,Rt~P(·,·|St,At).
智能體和環(huán)境如此交互直至終止時刻T.每局交互產(chǎn)生一條軌跡:
τ∶=(S0,A0,R0,S1,…,ST-1,AT-1,RT-1,ST).
獲得的回報(bào)大小體現(xiàn)智能體在這局交互中的表現(xiàn),回報(bào)定義為累計(jì)折扣獎勵:
對于MDP,只有一個智能體與環(huán)境交互,訓(xùn)練智能體的目的就是找到一個最優(yōu)策略,使智能體在與環(huán)境交互的過程中獲得最大的期望回報(bào).初始狀態(tài)為s時的期望回報(bào)定義為
Vs(π)∶=Eπ[G(τ)|S0=s].
(1)
由于初始狀態(tài)s服從概率分布ρ,期望回報(bào)也可定義為
Vρ(π)∶=Es~ρ[Vs(π)]=Eπ[G(τ)],
(2)
則最優(yōu)策略滿足
兩方零和馬爾科夫博弈(TZMG)可用一個六元組(S,A,B,P,ρ,γ)描述.其中:S表示有限狀態(tài)空間,狀態(tài)個數(shù)為|S|;A和B分別表示玩家1和玩家2的有限動作空間,動作個數(shù)分別為|A|和|B|;
P(s′,r|s,a,b)∶S×A×B→Δ(S×R)
表示在任意聯(lián)合動作(a,b)∈A×B下,從任意狀態(tài)s∈S轉(zhuǎn)移到狀態(tài)s′∈S,且玩家1獲得獎勵r,玩家2獲得獎勵-r的概率;ρ∶S→Δ(S)表示初始狀態(tài)的概率分布;γ∈(0,1]表示折扣因子.
TZMG下的玩家與環(huán)境的交互如圖2所示,一輪博弈開始時,環(huán)境根據(jù)初始狀態(tài)的概率分布ρ生成初始狀態(tài)S0.在每個時刻t,玩家1按照隨機(jī)策略
圖2 TZMG下的玩家與環(huán)境的交互
π(·|St)∶S→Δ(A)
在當(dāng)前狀態(tài)St下選擇動作,得到的動作記為At.同時,玩家2按照隨機(jī)策略
μ(·|St)∶S→Δ(B)
在當(dāng)前狀態(tài)St下選擇動作,得到的動作記為Bt.聯(lián)合動作(At,Bt)送入環(huán)境中執(zhí)行,環(huán)境根據(jù)狀態(tài)轉(zhuǎn)移及獎勵生成的概率分布P將環(huán)境狀態(tài)從St轉(zhuǎn)移到St+1,并給出獎勵Rt,即
St+1,Rt~P(·,·|St,At,Bt).
如此直至本輪博弈的終止時刻T.每輪博弈都會產(chǎn)生一條軌跡
τ∶=(S0,A0,B0,R0,S1,…,ST-1,AT-1,BT-1,RT-1,ST).
玩家1的回報(bào)定義為累積折扣獎勵:
由于是零和博弈,玩家2的回報(bào)為-G(τ).
對于TZMG,有兩個玩家同時與環(huán)境交互,相比式(1)和式(2),期望回報(bào)發(fā)生改變,初始狀態(tài)為s時的期望回報(bào)定義為
Vs(π,μ)∶=Eπ,μ[G(τ)|S0=s]
,
由于初始狀態(tài)s服從概率分布ρ,期望回報(bào)可定義為
Vρ(π,μ)∶=Es~ρ[Vs(π,μ)]=Eπ,μ[G(τ)].
(3)
由式(3)可知,期望回報(bào)Vρ(π,μ)不僅與己方策略有關(guān),也與對方策略有關(guān),即雙方的聯(lián)合策略(π,μ)共同確定Vρ(π,μ)的值.因此,TZMG的最優(yōu)策略為達(dá)到納什均衡時的聯(lián)合策略,此時的期望回報(bào)正好處于圖3中的鞍點(diǎn)處.所以,對于TZMG,訓(xùn)練玩家的目的就是找到一個納什均衡的聯(lián)合策略.由于兩個玩家的策略對期望回報(bào)的影響不同,為了找到納什均衡的聯(lián)合策略,兩個玩家的目標(biāo)也不同.玩家1的目標(biāo)是:對任意玩家2的策略μ,尋找最優(yōu)策略π*最大化期望回報(bào)Vρ(π,μ).如圖3所示,玩家1的策略參數(shù)更新方向應(yīng)為期望回報(bào)增大的方向.玩家2的目標(biāo)是:對任意玩家1的策略π,尋找最優(yōu)策略μ*最小化期望回報(bào)Vρ(π,μ).如圖3所示,玩家2的策略參數(shù)更新方向應(yīng)為期望回報(bào)減小的方向.
圖3 雙曲拋物面
文獻(xiàn)[22]證明TZMG滿足最大最小化定理,即對任意的TZMG,一定存在一個納什均衡的聯(lián)合策略(π*,μ*),使
Vρ(π,μ*)≤Vρ(π*,μ*)≤Vρ(π*,μ),
?π,μ.
(4)
式(4)也稱為鞍點(diǎn)不等式,由式(4)可知,納什均衡的聯(lián)合策略(π*,μ*)滿足
(5)
TZMG可能存在多個納什均衡的聯(lián)合策略,但是所有納什均衡的聯(lián)合策略的期望回報(bào)Vρ(π*,μ*)是相等的[20].
一方面,如圖1和圖2所示,根據(jù)MDP和TZMG的定義,MDP的狀態(tài)轉(zhuǎn)移和獎勵生成只跟環(huán)境狀態(tài)和一個智能體選擇的動作有關(guān),而TZMG的狀態(tài)轉(zhuǎn)移和獎勵生成跟環(huán)境狀態(tài),及玩家1和玩家2各自選擇的動作有關(guān).由于兩個玩家同時選擇動作,每個玩家并不知道對方選擇的動作,因此,有必要研究MDP下的策略梯度定理對于TZMG是否適用.
另一方面,TZMG求解的是一個最大最小化問題
最優(yōu)策略為期望回報(bào)處于鞍點(diǎn)時的聯(lián)合策略.而MDP求解的是一個最大化問題
最優(yōu)策略為期望回報(bào)最大時的策略.最大化問題只要使用梯度上升算法,一定可找到一個局部極大值,而最大最小化問題更復(fù)雜,直接使用梯度上升下降算法不一定能收斂到鞍點(diǎn).為了解決這個問題,本文使用額外梯度算法求解鞍點(diǎn).
考慮參數(shù)化的策略πθ和μφ,其中θ∈Rd和φ∈Rd為可調(diào)參數(shù).將聯(lián)合策略(πθ,μφ)代入期望回報(bào)Vρ(π,μ),結(jié)合式(3),得到關(guān)于參數(shù)θ和φ的性能指標(biāo)函數(shù):
J(θ,φ)=Vρ(πθ,μφ)=Eπθ,μφ[G(τ)].
(6)
由式(5)可知,TZMG問題可轉(zhuǎn)化為最大最小化問題:
(7)
采用基于梯度的方法(如梯度上升下降算法、額外梯度算法等)求解最大最小化問題(7)的前提是:在狀態(tài)轉(zhuǎn)移及獎勵生成的概率分布和初始狀態(tài)的概率分布未知時,實(shí)現(xiàn)用玩家與環(huán)境交互的采樣數(shù)據(jù)估計(jì)指標(biāo)函數(shù)J(θ,φ)關(guān)于參數(shù)θ和φ的梯度?θJ(θ,φ)∈Rd和?φJ(rèn)(θ,φ)∈Rd.
文獻(xiàn)[20]將對方策略看作環(huán)境不確定性的一部分,進(jìn)而給出關(guān)于己方策略參數(shù)的策略梯度估計(jì)方法,這本質(zhì)上還是基于MDP的策略梯度定理.本文給出針對TZMG的策略梯度定理的理論證明,該定理是利用采樣數(shù)據(jù)估計(jì)策略梯度的理論基礎(chǔ).
定理1對于兩方零和馬爾科夫博弈問題和參數(shù)化的聯(lián)合隨機(jī)策略(πθ,μφ),式(6)定義的指標(biāo)函數(shù)J(θ,φ)關(guān)于參數(shù)θ和φ的梯度分別為
(8)
證明由式(6)可得
?θJ(θ,φ)=
?θEπθ,μφ[G(τ)]=
Eπθ,μφ[?θlnPr(τ|πθ,μφ)G(τ)].
(9)
給定玩家的聯(lián)合策略(πθ,μφ),產(chǎn)生軌跡τ的概率為
Pr(τ|πθ,μφ)=
(10)
由式(10)可得
lnPr(τ|πθ,μφ)=
在上式中,ρ(S0)、P(St+1,Rt|St,At,Bt)、μφ(Bt|St)都與參數(shù)θ無關(guān),因此
將上式代入式(9),可得
同理可得
證畢.
注意到式(8)求期望的部分并不包含狀態(tài)轉(zhuǎn)移及獎勵生成的概率分布P和初始狀態(tài)的概率分布ρ,因此可使用采樣數(shù)據(jù)的均值估計(jì)期望.假設(shè)收集到一個軌跡集合
D∶={τi}i=1,2,…,N,
其中每條軌跡都是在當(dāng)前參數(shù)(θ,φ)確定的策略(πθ,μφ)下采樣得到,那么指標(biāo)函數(shù)J(θ,φ)關(guān)于參數(shù)θ和φ的梯度?θJ(θ,φ)和?φJ(rèn)(θ,φ)可估計(jì)如下:
?θJ(θ,φ)≈
?φJ(rèn)(θ,φ)≈
得到J(θ,φ)關(guān)于參數(shù)θ和φ的梯度估計(jì)后,就可利用基于梯度的方法求解最大最小化問題.簡單的方法為梯度上升下降算法,即每次更新參數(shù)時,沿著梯度?θJ(θ,φ)上升的方向更新參數(shù)θ的值,而沿著梯度?φJ(rèn)(θ,φ)下降的方向更新參數(shù)φ的值.
然而,即使對于簡單的最大最小化問題——凸凹最大最小化問題(指標(biāo)函數(shù)是關(guān)于最大化參數(shù)的凸函數(shù),關(guān)于最小化參數(shù)的凹函數(shù)),梯度上升下降算法也無法保證能收斂到指標(biāo)函數(shù)的鞍點(diǎn).例如,考慮最大最小化問題
其中x∈Rd,y∈Rd,顯然中心處的原點(diǎn)是該問題的鞍點(diǎn).利用梯度上升下降算法,(x,y)的軌跡是發(fā)散的,如圖4(a)所示,圖中的“五角星”為軌跡的起點(diǎn).而利用額外梯度算法,能收斂到該問題的鞍點(diǎn),如圖4(b)所示.相比梯度上升下降算法,每次迭代,額外梯度算法增加一步外推(Extrapolation)點(diǎn)的計(jì)算,使用外推點(diǎn)的梯度完成當(dāng)前參數(shù)的更新.
(a)梯度上升下降算法 (b)額外梯度算法
額外梯度算法求解最大最小化問題(7)的參數(shù)更新為
(11)
其中α為更新步長.
如果J(θ,φ)是關(guān)于θ的凸函數(shù)且關(guān)于φ的凹函數(shù),額外梯度算法(式(11))可收斂到J(θ,φ)的鞍點(diǎn)[23].如果J(θ,φ)是非凸非凹的,且滿足Minty變分不等式,那么額外梯度算法(式(11))也可收斂到J(θ,φ)的鞍點(diǎn)[24].但是最大最小化問題(7)的解在什么條件下滿足Minty變分不等式目前依然是一個未解決的問題.
基于額外梯度的REINFORCE算法的偽代碼見算法1.盡管該算法的收斂性目前沒有理論上的嚴(yán)格證明,但是第5節(jié)的仿真實(shí)驗(yàn)表明該算法可求解得到近似納什均衡的聯(lián)合策略.
算法1EG-R
輸入初始策略參數(shù)θ,φ
fori=1,2,…Ido
在策略(πθ,μφ)下,收集博弈軌跡集合
D∶={τi}i=1,2,…,N
計(jì)算策略梯度?θJ(θ,φ)和?φJ(rèn)(θ,φ)的估計(jì)值
D∶={τi}i=1,2,…,N
更新策略參數(shù)θ和φ
end for
本文采用DeepMind開發(fā)的open_spiel平臺上的兩玩家同時移動博弈游戲Oshi_Zumo驗(yàn)證EG-R算法.這款游戲是完全信息同時移動的零和博弈游戲,一輪博弈往往需要經(jīng)過多步博弈才能分出勝負(fù).游戲規(guī)則如下:有2K+1個格子一維排列,編號1,2,…,2K+1,在第K+1個格子上有一面旗幟,一輪博弈中玩家1和玩家2的每步博弈結(jié)果會控制旗幟的移動.玩家1和玩家2初始時各有N枚硬幣,每一步玩家1和玩家2同時出硬幣,記為M1和M2,然后對比M1和M2的大小.若M1>M2,旗幟向右移動一個格子;若M1 Oshi-Zumo游戲的狀態(tài)由3部分組成:玩家1的剩余硬幣數(shù)、玩家2的剩余硬幣數(shù)、旗幟的位置.旗幟的位置由格子的編號表示,當(dāng)從左移出第1個格子后,旗幟位置為0,當(dāng)從右移出第2K+1個格子后,旗幟位置為2K+2.玩家的動作就是出幣數(shù).Oshi- Zumo游戲在參數(shù)確定情況下,初始狀態(tài)是確定的.在本文的仿真研究中,Oshi-Zumo游戲的參數(shù)設(shè)置如下:初始幣數(shù)N=6,格子規(guī)模K=1,最小出幣數(shù)為0. 本文選擇2個對比算法:基于值函數(shù)的算法(Minimax-Q)和基于策略梯度的算法(梯度上升下降算法).這兩個對比算法和本文的EG-R超參數(shù)設(shè)置保持一致,更新次數(shù)設(shè)為50 000,每次更新的采樣局?jǐn)?shù)設(shè)為300,學(xué)習(xí)率α設(shè)為0.9.折扣因子λ設(shè)為1. 梯度上升下降算法和EG-R都是基于策略梯度的算法,玩家的策略采用直接參數(shù)化的方式.玩家在狀態(tài)s下的策略參數(shù)θs∈R|As|和φs∈R|Bs|可構(gòu)成一個參數(shù)向量,其中,|As|和|Bs|分別表示玩家1和玩家2在狀態(tài)s下的合法動作個數(shù).玩家1和玩家2在狀態(tài)s上的策略為: (12) 其中,[·]a表示在狀態(tài)s下的所有合法動作依次按照方括號內(nèi)的公式計(jì)算得到的向量,θ和φ的初始值全為0,即初始策略服從均勻分布. Minimax-Q是基于值函數(shù)的算法,Q值函數(shù)采用直接參數(shù)化的方式.Q值函數(shù)在狀態(tài)s下的參數(shù)q(s,·,·)∈R|As|×|Bs|可構(gòu)成一個參數(shù)矩陣.value[q(s,·,·)]表示以q(s,·,·)為收益矩陣的矩陣博弈的最優(yōu)值,定義如下: (13) 式(13)可采用線性規(guī)劃方法求解.求解式(13)可得到策略參數(shù)θs、φs、value[q(s,·,·)],再通過式(12)得到玩家在狀態(tài)s下的策略.Q值函數(shù)的更新公式如下: q(St,At,Bt)=(1-α)q(St,At,Bt)+ α(Rt+λ·value[q(St+1,·,·)]). 本文采用常用的納什收斂指標(biāo)評價聯(lián)合策略的性能.給定聯(lián)合策略(π,μ),納什收斂指標(biāo)為[25]: NashConv(π,μ)=Vρ(πb,μ)+Vρ(π,μb). 其中,πb表示玩家1在給定玩家2策略μ情況下的最佳響應(yīng)策略,μb同理.本文求解的是近似最佳響應(yīng)策略,固定對手的策略,對玩家進(jìn)行訓(xùn)練,直到玩家的勝率達(dá)到95%或策略參數(shù)的更新次數(shù)達(dá)到5 000次.給定對手玩家策略下,最佳響應(yīng)策略保證玩家的回報(bào)最大,需要注意的是,最佳響應(yīng)策略并不是唯一的.當(dāng) NashConv(π,μ)=0 時,聯(lián)合策略(π,μ)達(dá)到納什均衡;當(dāng) NashConv(π,μ)<ε, ?ε>0 時,聯(lián)合策略為近似納什均衡. 3種算法均收集10組實(shí)驗(yàn)的評估數(shù)據(jù),10組實(shí)驗(yàn)的納什收斂指標(biāo)均值如圖5所示,圖中陰影部分表示10組實(shí)驗(yàn)納什收斂指標(biāo)的離散程度,陰影的上下界分別由均值加減標(biāo)準(zhǔn)差得到.這3種算法納什收斂指標(biāo)的方差如圖6所示. (a)EG-R 由圖5(a)可看出,隨著更新次數(shù)的增加,EG-R納什收斂指標(biāo)的均值整體呈下降趨勢,當(dāng)更新次數(shù)達(dá)到50 000次左右時,納什收斂指標(biāo)的均值接近于0,此時聯(lián)合策略達(dá)到近似納什均衡.由于使用REINFORCE,所以不同實(shí)驗(yàn)組的方差較大,由圖6可知,EG-R的最大方差為0.403,在40 000次更新之前,方差的波動較大,但在40 000次更新之后,方差開始明顯減小,并最終趨向于0. 由圖5(b)可看出,梯度上升下降算法的納什收斂指標(biāo)的均值在1.0~1.7之間,無明顯的下降趨勢,由此可見,梯度上升下降算法無法得到近似納什均衡的聯(lián)合策略.梯度上升下降算法使用的也是REINFORCE,由圖6可知,不同實(shí)驗(yàn)組的方差很大,呈現(xiàn)增大的趨勢,最大方差為0.56. 圖6 3種算法的納什收斂指標(biāo)方差曲線 從圖6可看出Minimax-Q的方差很小,波動也很小,最大方差為0.002,同時從圖5(c)可看出,Minimax-Q的納什收斂指標(biāo)有輕微的下降趨勢,但在50 000次更新下,距離下降到0還很遙遠(yuǎn).由此可見,在限定更新次數(shù)的條件下,Minimax-Q無法得到近似納什均衡的聯(lián)合策略. 分析3種算法的納什收斂指標(biāo)的均值和方差的變化趨勢可看出,EG-R具有顯著的優(yōu)越性,具體體現(xiàn)在EG-R可在更少的更新次數(shù)下得到近似納什均衡的聯(lián)合策略,方差在后期明顯趨向于0. EG-R在訓(xùn)練過程中的方差較大,是因?yàn)槭褂肦EINFORCE.對于MDP,REINFORCE的方差也較大,廣泛認(rèn)可的一種解決方案是使用帶基線的RE-INFORCE.沿著這個思路,本文認(rèn)為對于TZMG,帶基線的EG-R的方差也會小于EG-R.為此進(jìn)行如下預(yù)實(shí)驗(yàn):使用帶基線的EG-R和EG-R分別進(jìn)行10組實(shí)驗(yàn),游戲參數(shù)和算法超參數(shù)的設(shè)置見4.1節(jié).然后,選取其中5個檢查點(diǎn)(檢查點(diǎn)的更新次數(shù)為10 000次更新的整數(shù)倍)的聯(lián)合策略進(jìn)行評估,得到這兩種算法的納什收斂指標(biāo)的均值和方差,如圖7所示.需要注意的是,EG-R的基線可以是任意函數(shù),但不能和玩家的策略相關(guān),本文選取的基線是歷史軌跡回報(bào)的滑動平均. 由圖7可看出,帶基線的EG-R在前4個檢查點(diǎn)處的方差小于EG-R,而在第5個檢查點(diǎn)處略大于EG-R.由圖5(a)可知,EG-R的納什收斂指標(biāo)越接近0,方差也越接近0.在第5個檢查點(diǎn)處,帶基線的EG-R的納什收斂指標(biāo)均值在0.2左右,而EG-R的納什收斂指標(biāo)均值在0左右,所以在第5個檢查點(diǎn)處帶基線的EG-R的方差略大于EG-R.總之,帶基線的EG-R確實(shí)可減小方差. (a)方差 (b)均值 EG-R的10組實(shí)驗(yàn)得到的聯(lián)合策略都達(dá)到近似納什均衡,但會收斂到兩個不同的近似納什均衡解(記為NE解1和NE解2).限于篇幅,本文僅給出NE解1和NE解2的聯(lián)合策略在10個狀態(tài)上的表現(xiàn),展示這兩種不同聯(lián)合策略的差異,具體如表1和表2所示.表中第2行的數(shù)字0~6表示玩家的動作,即玩家投出的硬幣數(shù),第1列表示狀態(tài),計(jì)算玩家在該狀態(tài)下選擇對應(yīng)動作的概率,-表示在該狀態(tài)下該玩家的合法動作不包括該動作.在一個狀態(tài)下,玩家選擇合法動作的概率之和為1,這些概率就是玩家在該狀態(tài)下的策略. 表1 部分狀態(tài)下NE解1的聯(lián)合策略 表2 部分狀態(tài)下NE解2的聯(lián)合策略 使用NE解1和NE解2的聯(lián)合策略各自進(jìn)行多次博弈,發(fā)現(xiàn)NE解1的聯(lián)合策略的博弈結(jié)果幾乎全是平局,輸局和贏局很少.而NE解2的聯(lián)合策略的博弈結(jié)果幾乎全是輸局和贏局,平局很少,且輸贏局?jǐn)?shù)幾乎相等. 雖然NE解1和NE解2的聯(lián)合策略的博弈結(jié)果不同,但是期望回報(bào)幾乎相等.NE解1和NE解2的玩家策略都是混合策略,即玩家在某個狀態(tài)下以某個概率分布選擇動作,若在某個狀態(tài)下確定性地選擇某個動作,為純策略.混合策略的近似納什均衡相對不穩(wěn)定,因?yàn)樗赊D(zhuǎn)換為它的混合均衡策略中任意正概率的策略,即純策略,也可轉(zhuǎn)換為這些純策略的任意概率組合[26].因此,相對純策略,混合策略的求解更困難. 為了進(jìn)一步驗(yàn)證EG-R訓(xùn)練得到的聯(lián)合策略是近似納什均衡策略,設(shè)計(jì)12組實(shí)驗(yàn),游戲參數(shù)和算法超參數(shù)的設(shè)置見4.1節(jié). 在每組實(shí)驗(yàn)中,玩家1和玩家2以選定的策略進(jìn)行1 000局博弈,記錄每局的回報(bào),然后使用1 000局回報(bào)的均值作為期望回報(bào)的估計(jì)值.玩家可選擇的策略有4種:EG-R訓(xùn)練得到的NE解1和NE解2的聯(lián)合策略、兩種隨機(jī)策略(高斯分布策略和均勻分布策略).高斯分布策略表示在每個狀態(tài)下玩家選取合法動作的概率服從標(biāo)準(zhǔn)正態(tài)分布.均勻分布策略表示在每個狀態(tài)下玩家選取動作的概率服從均勻分布,即在每個狀態(tài)下,玩家等概率選擇合法動作. 4種策略交叉博弈的回報(bào)均值如表3所示.由表可看出,當(dāng)玩家1和玩家2都使用NE解1的策略時,回報(bào)均值為0.當(dāng)玩家1使用NE解1的策略,玩家2使用均勻分布策略或高斯分布策略時,回報(bào)均值大于0.當(dāng)玩家1使用均勻分布策略或高斯分布策略,玩家2使用NE解1的策略時,回報(bào)均值小于0.根據(jù)鞍點(diǎn)不等式(4)可知,NE解1的聯(lián)合策略達(dá)到近似納什均衡.同理可知,NE解2的聯(lián)合策略也達(dá)到近似納什均衡.當(dāng)玩家1和玩家2分別選擇NE解1或NE解2的策略進(jìn)行博弈時,回報(bào)均值都在0附近,這說明雖然NE解1和NE解2的聯(lián)合策略不同,但是期望回報(bào)幾乎相等. 表3 4種策略交叉博弈的回報(bào)均值 為了驗(yàn)證EG-R的魯棒性,本文選擇3種不同難度等級的Oshi-Zumo游戲進(jìn)行實(shí)驗(yàn).不同難度等級的區(qū)別體現(xiàn)在:難度等級越高,游戲的狀態(tài)空間和玩家的動作空間越大,玩家的聯(lián)合策略越難收斂.不同難度等級的Oshi-Zumo游戲參數(shù)如表4所示,EG-R的超參數(shù)設(shè)置見4.1節(jié). 表4 3種難度等級的Oshi-Zumo游戲參數(shù) EG-R在3種游戲難度等級上的納什收斂指標(biāo)如圖8所示.由圖可看出,在難度等級1上,納什收斂指標(biāo)的均值接近于0,聯(lián)合策略達(dá)到近似納什均衡.在難度等級2和難度等級3上,納什收斂指標(biāo)的均值都呈現(xiàn)明顯的下降趨勢,但是限于更新次數(shù)還未下降到0.綜上所述,EG-R在更大的狀態(tài)空間和動作空間下,也可取得較好的效果. 圖8 EG-R在3種游戲難度等級上的納什收斂指標(biāo)均值曲線 為了在TZMG下實(shí)現(xiàn)同時訓(xùn)練并更新玩家的策略,本文首先將策略梯度定理推廣到TZMG,然后提出基于額外梯度的REINFORCE算法(EG-R).在Oshi-Zumo游戲中,對比分析EG-R的優(yōu)越性,并進(jìn)一步在不同難度等級的Oshi-Zumo游戲中驗(yàn)證EG-R的魯棒性.但是,由于REINFORCE本身的缺點(diǎn),不同實(shí)驗(yàn)組的方差較大,如何改進(jìn)算法以減小方差是今后的一個研究方向.借鑒在MDP下的經(jīng)驗(yàn),優(yōu)化基線函數(shù)或引入行動家-評論家框架會是優(yōu)先考慮的解決方案.另外將著重于EG-R收斂性的理論證明.4.2 實(shí)驗(yàn)結(jié)果對比
4.3 近似納什均衡解分析
4.4 不同難度等級實(shí)驗(yàn)結(jié)果對比
5 結(jié)束語