国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

兩方零和馬爾科夫博弈下的策略梯度算法

2023-02-25 09:06:54李永強(qiáng)馮遠(yuǎn)靜
模式識別與人工智能 2023年1期
關(guān)鍵詞:納什方差梯度

李永強(qiáng) 周 鍵 馮 宇 馮遠(yuǎn)靜

LI Yongqiang1,ZHOU Jian1,F(xiàn)ENG Yu1,F(xiàn)ENG Yuanjing1

博弈問題是實(shí)際應(yīng)用中的常見問題,如圍棋、象棋、撲克游戲、對抗類電子游戲等.近年來,在模型未知的情況下,利用多智能體強(qiáng)化學(xué)習(xí)求解博弈問題受到廣泛關(guān)注[1-6].在現(xiàn)有文獻(xiàn)中,通常利用如下兩類框架描述多步博弈問題:擴(kuò)展形式博弈(Extensive-Form Games)和馬爾科夫博弈(Markov Games).

擴(kuò)展形式博弈適用于描述不完全信息、回合制博弈問題,如撲克游戲.回合制是指參與博弈的玩家在每步?jīng)Q策時,知道已行動玩家采取的動作.例如,在撲克游戲中,參與的玩家輪流出牌或下注,當(dāng)前行動的玩家可看到已行動玩家出的牌或下的注.為了解決生活中流行的擴(kuò)展形式博弈問題,學(xué)者們提出大量基于策略梯度的多智能體強(qiáng)化學(xué)習(xí)算法,如基于虛擬自博弈(Fictitious Self-Play)的方法[7-10]和基于反事實(shí)遺憾(Counter factual Regret)的方法[11-14].

馬爾科夫博弈適用于描述完全信息、同時移動博弈問題.同時移動博弈問題是指在每步?jīng)Q策時,所有參與的玩家同時選擇動作,玩家在決策時并不知道另一玩家會采取的動作,如軍事對抗博弈問題.

馬爾科夫博弈拓寬馬爾科夫決策過程(Markov Decision Process, MDP)只能有一個智能體的限制,馬爾科夫博弈可包含多個智能體.在使用多智能體強(qiáng)化學(xué)習(xí)方法求解博弈問題時,強(qiáng)化學(xué)習(xí)中的術(shù)語“智能體”一般稱為“玩家”,本文也保持這個習(xí)慣.這些玩家可以有各自的利益目標(biāo).兩方零和馬爾科夫博弈(Two-Player Zero-Sum Markov Games, TZMG)為馬爾科夫博弈的一種特殊情況,特殊之處是參與博弈的兩個玩家的利益完全相反.

針對TZMG的多智能體強(qiáng)化學(xué)習(xí)算法可分為兩類:值函數(shù)方法和策略梯度方法.現(xiàn)有文獻(xiàn)中大部分方法都是值函數(shù)方法.Littman[15]提出Minimax-Q,可找到納什均衡策略,但是由于每次更新Q函數(shù)需要構(gòu)建線性規(guī)劃以求解每個狀態(tài)階段博弈的納什均衡策略,計(jì)算量巨大.為了解決Minimax-Q的計(jì)算效率問題,Gran-Moya等[16]提出Soft Q-Learning,計(jì)算熵正則化條件下閉合形式的軟最優(yōu)策略,從而避免使用線性規(guī)劃更新Q函數(shù).然而,由于固定的正則化條件,策略可能無法達(dá)到納什均衡.為了在保持計(jì)算效率的同時保證策略收斂到納什均衡,Guan等[17]提出SNQ2L(Soft Nash Q2-Learning).值函數(shù)方法由于算法本身的限制并不適合動作空間大的環(huán)境.對于MDP,策略梯度方法比值函數(shù)方法更容易擴(kuò)展到大動作空間,通常收斂速度更快.

策略梯度方法在許多領(lǐng)域具有較優(yōu)性能[18-19].但是,對于TZMG,策略梯度方法的研究結(jié)果依然很少.Daskalakis等[20]提出雙時間尺度的策略梯度算法,解決TZMG問題,主要思想是兩個玩家采用快慢學(xué)習(xí)率交替進(jìn)行訓(xùn)練,本質(zhì)上還是單智能體強(qiáng)化學(xué)習(xí),并且訓(xùn)練過程比同時訓(xùn)練玩家的策略更繁瑣.

本文致力于實(shí)現(xiàn)同時訓(xùn)練并更新玩家的策略,圍繞這個目標(biāo),首先將策略梯度定理擴(kuò)展到TZMG,給出針對TZMG的策略梯度定理的嚴(yán)格證明.該定理是利用采樣數(shù)據(jù)估計(jì)TZMG的玩家策略梯度的理論基礎(chǔ).本文采用類似于單智能體REINFORCE[21]的思路估計(jì)TZMG下的玩家策略梯度,即利用完整采樣軌跡的回報(bào)均值估計(jì)期望回報(bào).得到玩家策略梯度的估計(jì)之后,可利用基于梯度的方法求解TZMG的等價問題,即最大最小化問題.由此,本文提出基于額外梯度的REINFORCE算法(Extra-Gradient Based REINFORCE, EG-R),求解最大最小化問題,解決直接使用梯度上升下降算法時,玩家的聯(lián)合策略無法達(dá)到近似納什均衡的問題.

1 問題描述及背景知識

1.1 馬爾科夫決策過程問題

馬爾科夫決策過程(MDP)可用一個五元組(S,A,P,ρ,γ)描述.其中:S表示有限狀態(tài)空間,狀態(tài)個數(shù)為|S|;A表示智能體的有限動作空間,動作個數(shù)為|A|;

P(s′,r|s,a)∶S×A→Δ(S×R)

表示在任意動作a∈A下,從任意狀態(tài)s∈S轉(zhuǎn)移到狀態(tài)s′∈S,且智能體獲得獎勵r的概率;ρ∶S→Δ(S)表示初始狀態(tài)的概率分布;γ∈(0,1]表示折扣因子.

MDP下的智能體與環(huán)境的交互如圖1所示,環(huán)境根據(jù)初始狀態(tài)的概率分布ρ生成初始狀態(tài)S0.在每個時刻t,智能體按照隨機(jī)策略

圖1 MDP下的智能體與環(huán)境的交互

π(·|St)∶S→Δ(A)

在當(dāng)前狀態(tài)St下選擇動作,得到的動作記為At.環(huán)境對動作At做出相應(yīng)響應(yīng),然后根據(jù)狀態(tài)轉(zhuǎn)移及獎勵生成的概率分布P將狀態(tài)從St轉(zhuǎn)移到St+1,并給出獎勵Rt,即

St+1,Rt~P(·,·|St,At).

智能體和環(huán)境如此交互直至終止時刻T.每局交互產(chǎn)生一條軌跡:

τ∶=(S0,A0,R0,S1,…,ST-1,AT-1,RT-1,ST).

獲得的回報(bào)大小體現(xiàn)智能體在這局交互中的表現(xiàn),回報(bào)定義為累計(jì)折扣獎勵:

對于MDP,只有一個智能體與環(huán)境交互,訓(xùn)練智能體的目的就是找到一個最優(yōu)策略,使智能體在與環(huán)境交互的過程中獲得最大的期望回報(bào).初始狀態(tài)為s時的期望回報(bào)定義為

Vs(π)∶=Eπ[G(τ)|S0=s].

(1)

由于初始狀態(tài)s服從概率分布ρ,期望回報(bào)也可定義為

Vρ(π)∶=Es~ρ[Vs(π)]=Eπ[G(τ)],

(2)

則最優(yōu)策略滿足

1.2 兩方零和馬爾科夫博弈問題

兩方零和馬爾科夫博弈(TZMG)可用一個六元組(S,A,B,P,ρ,γ)描述.其中:S表示有限狀態(tài)空間,狀態(tài)個數(shù)為|S|;A和B分別表示玩家1和玩家2的有限動作空間,動作個數(shù)分別為|A|和|B|;

P(s′,r|s,a,b)∶S×A×B→Δ(S×R)

表示在任意聯(lián)合動作(a,b)∈A×B下,從任意狀態(tài)s∈S轉(zhuǎn)移到狀態(tài)s′∈S,且玩家1獲得獎勵r,玩家2獲得獎勵-r的概率;ρ∶S→Δ(S)表示初始狀態(tài)的概率分布;γ∈(0,1]表示折扣因子.

TZMG下的玩家與環(huán)境的交互如圖2所示,一輪博弈開始時,環(huán)境根據(jù)初始狀態(tài)的概率分布ρ生成初始狀態(tài)S0.在每個時刻t,玩家1按照隨機(jī)策略

圖2 TZMG下的玩家與環(huán)境的交互

π(·|St)∶S→Δ(A)

在當(dāng)前狀態(tài)St下選擇動作,得到的動作記為At.同時,玩家2按照隨機(jī)策略

μ(·|St)∶S→Δ(B)

在當(dāng)前狀態(tài)St下選擇動作,得到的動作記為Bt.聯(lián)合動作(At,Bt)送入環(huán)境中執(zhí)行,環(huán)境根據(jù)狀態(tài)轉(zhuǎn)移及獎勵生成的概率分布P將環(huán)境狀態(tài)從St轉(zhuǎn)移到St+1,并給出獎勵Rt,即

St+1,Rt~P(·,·|St,At,Bt).

如此直至本輪博弈的終止時刻T.每輪博弈都會產(chǎn)生一條軌跡

τ∶=(S0,A0,B0,R0,S1,…,ST-1,AT-1,BT-1,RT-1,ST).

玩家1的回報(bào)定義為累積折扣獎勵:

由于是零和博弈,玩家2的回報(bào)為-G(τ).

對于TZMG,有兩個玩家同時與環(huán)境交互,相比式(1)和式(2),期望回報(bào)發(fā)生改變,初始狀態(tài)為s時的期望回報(bào)定義為

Vs(π,μ)∶=Eπ,μ[G(τ)|S0=s]

由于初始狀態(tài)s服從概率分布ρ,期望回報(bào)可定義為

Vρ(π,μ)∶=Es~ρ[Vs(π,μ)]=Eπ,μ[G(τ)].

(3)

由式(3)可知,期望回報(bào)Vρ(π,μ)不僅與己方策略有關(guān),也與對方策略有關(guān),即雙方的聯(lián)合策略(π,μ)共同確定Vρ(π,μ)的值.因此,TZMG的最優(yōu)策略為達(dá)到納什均衡時的聯(lián)合策略,此時的期望回報(bào)正好處于圖3中的鞍點(diǎn)處.所以,對于TZMG,訓(xùn)練玩家的目的就是找到一個納什均衡的聯(lián)合策略.由于兩個玩家的策略對期望回報(bào)的影響不同,為了找到納什均衡的聯(lián)合策略,兩個玩家的目標(biāo)也不同.玩家1的目標(biāo)是:對任意玩家2的策略μ,尋找最優(yōu)策略π*最大化期望回報(bào)Vρ(π,μ).如圖3所示,玩家1的策略參數(shù)更新方向應(yīng)為期望回報(bào)增大的方向.玩家2的目標(biāo)是:對任意玩家1的策略π,尋找最優(yōu)策略μ*最小化期望回報(bào)Vρ(π,μ).如圖3所示,玩家2的策略參數(shù)更新方向應(yīng)為期望回報(bào)減小的方向.

圖3 雙曲拋物面

文獻(xiàn)[22]證明TZMG滿足最大最小化定理,即對任意的TZMG,一定存在一個納什均衡的聯(lián)合策略(π*,μ*),使

Vρ(π,μ*)≤Vρ(π*,μ*)≤Vρ(π*,μ),

?π,μ.

(4)

式(4)也稱為鞍點(diǎn)不等式,由式(4)可知,納什均衡的聯(lián)合策略(π*,μ*)滿足

(5)

TZMG可能存在多個納什均衡的聯(lián)合策略,但是所有納什均衡的聯(lián)合策略的期望回報(bào)Vρ(π*,μ*)是相等的[20].

1.3 求解兩方零和馬爾科夫博弈問題的難點(diǎn)

一方面,如圖1和圖2所示,根據(jù)MDP和TZMG的定義,MDP的狀態(tài)轉(zhuǎn)移和獎勵生成只跟環(huán)境狀態(tài)和一個智能體選擇的動作有關(guān),而TZMG的狀態(tài)轉(zhuǎn)移和獎勵生成跟環(huán)境狀態(tài),及玩家1和玩家2各自選擇的動作有關(guān).由于兩個玩家同時選擇動作,每個玩家并不知道對方選擇的動作,因此,有必要研究MDP下的策略梯度定理對于TZMG是否適用.

另一方面,TZMG求解的是一個最大最小化問題

最優(yōu)策略為期望回報(bào)處于鞍點(diǎn)時的聯(lián)合策略.而MDP求解的是一個最大化問題

最優(yōu)策略為期望回報(bào)最大時的策略.最大化問題只要使用梯度上升算法,一定可找到一個局部極大值,而最大最小化問題更復(fù)雜,直接使用梯度上升下降算法不一定能收斂到鞍點(diǎn).為了解決這個問題,本文使用額外梯度算法求解鞍點(diǎn).

2 兩方零和馬爾科夫博弈下的策略梯度定理

考慮參數(shù)化的策略πθ和μφ,其中θ∈Rd和φ∈Rd為可調(diào)參數(shù).將聯(lián)合策略(πθ,μφ)代入期望回報(bào)Vρ(π,μ),結(jié)合式(3),得到關(guān)于參數(shù)θ和φ的性能指標(biāo)函數(shù):

J(θ,φ)=Vρ(πθ,μφ)=Eπθ,μφ[G(τ)].

(6)

由式(5)可知,TZMG問題可轉(zhuǎn)化為最大最小化問題:

(7)

采用基于梯度的方法(如梯度上升下降算法、額外梯度算法等)求解最大最小化問題(7)的前提是:在狀態(tài)轉(zhuǎn)移及獎勵生成的概率分布和初始狀態(tài)的概率分布未知時,實(shí)現(xiàn)用玩家與環(huán)境交互的采樣數(shù)據(jù)估計(jì)指標(biāo)函數(shù)J(θ,φ)關(guān)于參數(shù)θ和φ的梯度?θJ(θ,φ)∈Rd和?φJ(rèn)(θ,φ)∈Rd.

文獻(xiàn)[20]將對方策略看作環(huán)境不確定性的一部分,進(jìn)而給出關(guān)于己方策略參數(shù)的策略梯度估計(jì)方法,這本質(zhì)上還是基于MDP的策略梯度定理.本文給出針對TZMG的策略梯度定理的理論證明,該定理是利用采樣數(shù)據(jù)估計(jì)策略梯度的理論基礎(chǔ).

定理1對于兩方零和馬爾科夫博弈問題和參數(shù)化的聯(lián)合隨機(jī)策略(πθ,μφ),式(6)定義的指標(biāo)函數(shù)J(θ,φ)關(guān)于參數(shù)θ和φ的梯度分別為

(8)

證明由式(6)可得

?θJ(θ,φ)=

?θEπθ,μφ[G(τ)]=

Eπθ,μφ[?θlnPr(τ|πθ,μφ)G(τ)].

(9)

給定玩家的聯(lián)合策略(πθ,μφ),產(chǎn)生軌跡τ的概率為

Pr(τ|πθ,μφ)=

(10)

由式(10)可得

lnPr(τ|πθ,μφ)=

在上式中,ρ(S0)、P(St+1,Rt|St,At,Bt)、μφ(Bt|St)都與參數(shù)θ無關(guān),因此

將上式代入式(9),可得

同理可得

證畢.

3 基于額外梯度的REINFORCE算法

注意到式(8)求期望的部分并不包含狀態(tài)轉(zhuǎn)移及獎勵生成的概率分布P和初始狀態(tài)的概率分布ρ,因此可使用采樣數(shù)據(jù)的均值估計(jì)期望.假設(shè)收集到一個軌跡集合

D∶={τi}i=1,2,…,N,

其中每條軌跡都是在當(dāng)前參數(shù)(θ,φ)確定的策略(πθ,μφ)下采樣得到,那么指標(biāo)函數(shù)J(θ,φ)關(guān)于參數(shù)θ和φ的梯度?θJ(θ,φ)和?φJ(rèn)(θ,φ)可估計(jì)如下:

?θJ(θ,φ)≈

?φJ(rèn)(θ,φ)≈

得到J(θ,φ)關(guān)于參數(shù)θ和φ的梯度估計(jì)后,就可利用基于梯度的方法求解最大最小化問題.簡單的方法為梯度上升下降算法,即每次更新參數(shù)時,沿著梯度?θJ(θ,φ)上升的方向更新參數(shù)θ的值,而沿著梯度?φJ(rèn)(θ,φ)下降的方向更新參數(shù)φ的值.

然而,即使對于簡單的最大最小化問題——凸凹最大最小化問題(指標(biāo)函數(shù)是關(guān)于最大化參數(shù)的凸函數(shù),關(guān)于最小化參數(shù)的凹函數(shù)),梯度上升下降算法也無法保證能收斂到指標(biāo)函數(shù)的鞍點(diǎn).例如,考慮最大最小化問題

其中x∈Rd,y∈Rd,顯然中心處的原點(diǎn)是該問題的鞍點(diǎn).利用梯度上升下降算法,(x,y)的軌跡是發(fā)散的,如圖4(a)所示,圖中的“五角星”為軌跡的起點(diǎn).而利用額外梯度算法,能收斂到該問題的鞍點(diǎn),如圖4(b)所示.相比梯度上升下降算法,每次迭代,額外梯度算法增加一步外推(Extrapolation)點(diǎn)的計(jì)算,使用外推點(diǎn)的梯度完成當(dāng)前參數(shù)的更新.

(a)梯度上升下降算法 (b)額外梯度算法

額外梯度算法求解最大最小化問題(7)的參數(shù)更新為

(11)

其中α為更新步長.

如果J(θ,φ)是關(guān)于θ的凸函數(shù)且關(guān)于φ的凹函數(shù),額外梯度算法(式(11))可收斂到J(θ,φ)的鞍點(diǎn)[23].如果J(θ,φ)是非凸非凹的,且滿足Minty變分不等式,那么額外梯度算法(式(11))也可收斂到J(θ,φ)的鞍點(diǎn)[24].但是最大最小化問題(7)的解在什么條件下滿足Minty變分不等式目前依然是一個未解決的問題.

基于額外梯度的REINFORCE算法的偽代碼見算法1.盡管該算法的收斂性目前沒有理論上的嚴(yán)格證明,但是第5節(jié)的仿真實(shí)驗(yàn)表明該算法可求解得到近似納什均衡的聯(lián)合策略.

算法1EG-R

輸入初始策略參數(shù)θ,φ

fori=1,2,…Ido

在策略(πθ,μφ)下,收集博弈軌跡集合

D∶={τi}i=1,2,…,N

計(jì)算策略梯度?θJ(θ,φ)和?φJ(rèn)(θ,φ)的估計(jì)值

D∶={τi}i=1,2,…,N

更新策略參數(shù)θ和φ

end for

4 實(shí)驗(yàn)及結(jié)果分析

4.1 實(shí)驗(yàn)設(shè)置和評估指標(biāo)

本文采用DeepMind開發(fā)的open_spiel平臺上的兩玩家同時移動博弈游戲Oshi_Zumo驗(yàn)證EG-R算法.這款游戲是完全信息同時移動的零和博弈游戲,一輪博弈往往需要經(jīng)過多步博弈才能分出勝負(fù).游戲規(guī)則如下:有2K+1個格子一維排列,編號1,2,…,2K+1,在第K+1個格子上有一面旗幟,一輪博弈中玩家1和玩家2的每步博弈結(jié)果會控制旗幟的移動.玩家1和玩家2初始時各有N枚硬幣,每一步玩家1和玩家2同時出硬幣,記為M1和M2,然后對比M1和M2的大小.若M1>M2,旗幟向右移動一個格子;若M1

Oshi-Zumo游戲的狀態(tài)由3部分組成:玩家1的剩余硬幣數(shù)、玩家2的剩余硬幣數(shù)、旗幟的位置.旗幟的位置由格子的編號表示,當(dāng)從左移出第1個格子后,旗幟位置為0,當(dāng)從右移出第2K+1個格子后,旗幟位置為2K+2.玩家的動作就是出幣數(shù).Oshi-

Zumo游戲在參數(shù)確定情況下,初始狀態(tài)是確定的.在本文的仿真研究中,Oshi-Zumo游戲的參數(shù)設(shè)置如下:初始幣數(shù)N=6,格子規(guī)模K=1,最小出幣數(shù)為0.

本文選擇2個對比算法:基于值函數(shù)的算法(Minimax-Q)和基于策略梯度的算法(梯度上升下降算法).這兩個對比算法和本文的EG-R超參數(shù)設(shè)置保持一致,更新次數(shù)設(shè)為50 000,每次更新的采樣局?jǐn)?shù)設(shè)為300,學(xué)習(xí)率α設(shè)為0.9.折扣因子λ設(shè)為1.

梯度上升下降算法和EG-R都是基于策略梯度的算法,玩家的策略采用直接參數(shù)化的方式.玩家在狀態(tài)s下的策略參數(shù)θs∈R|As|和φs∈R|Bs|可構(gòu)成一個參數(shù)向量,其中,|As|和|Bs|分別表示玩家1和玩家2在狀態(tài)s下的合法動作個數(shù).玩家1和玩家2在狀態(tài)s上的策略為:

(12)

其中,[·]a表示在狀態(tài)s下的所有合法動作依次按照方括號內(nèi)的公式計(jì)算得到的向量,θ和φ的初始值全為0,即初始策略服從均勻分布.

Minimax-Q是基于值函數(shù)的算法,Q值函數(shù)采用直接參數(shù)化的方式.Q值函數(shù)在狀態(tài)s下的參數(shù)q(s,·,·)∈R|As|×|Bs|可構(gòu)成一個參數(shù)矩陣.value[q(s,·,·)]表示以q(s,·,·)為收益矩陣的矩陣博弈的最優(yōu)值,定義如下:

(13)

式(13)可采用線性規(guī)劃方法求解.求解式(13)可得到策略參數(shù)θs、φs、value[q(s,·,·)],再通過式(12)得到玩家在狀態(tài)s下的策略.Q值函數(shù)的更新公式如下:

q(St,At,Bt)=(1-α)q(St,At,Bt)+

α(Rt+λ·value[q(St+1,·,·)]).

本文采用常用的納什收斂指標(biāo)評價聯(lián)合策略的性能.給定聯(lián)合策略(π,μ),納什收斂指標(biāo)為[25]:

NashConv(π,μ)=Vρ(πb,μ)+Vρ(π,μb).

其中,πb表示玩家1在給定玩家2策略μ情況下的最佳響應(yīng)策略,μb同理.本文求解的是近似最佳響應(yīng)策略,固定對手的策略,對玩家進(jìn)行訓(xùn)練,直到玩家的勝率達(dá)到95%或策略參數(shù)的更新次數(shù)達(dá)到5 000次.給定對手玩家策略下,最佳響應(yīng)策略保證玩家的回報(bào)最大,需要注意的是,最佳響應(yīng)策略并不是唯一的.當(dāng)

NashConv(π,μ)=0

時,聯(lián)合策略(π,μ)達(dá)到納什均衡;當(dāng)

NashConv(π,μ)<ε, ?ε>0

時,聯(lián)合策略為近似納什均衡.

4.2 實(shí)驗(yàn)結(jié)果對比

3種算法均收集10組實(shí)驗(yàn)的評估數(shù)據(jù),10組實(shí)驗(yàn)的納什收斂指標(biāo)均值如圖5所示,圖中陰影部分表示10組實(shí)驗(yàn)納什收斂指標(biāo)的離散程度,陰影的上下界分別由均值加減標(biāo)準(zhǔn)差得到.這3種算法納什收斂指標(biāo)的方差如圖6所示.

(a)EG-R

由圖5(a)可看出,隨著更新次數(shù)的增加,EG-R納什收斂指標(biāo)的均值整體呈下降趨勢,當(dāng)更新次數(shù)達(dá)到50 000次左右時,納什收斂指標(biāo)的均值接近于0,此時聯(lián)合策略達(dá)到近似納什均衡.由于使用REINFORCE,所以不同實(shí)驗(yàn)組的方差較大,由圖6可知,EG-R的最大方差為0.403,在40 000次更新之前,方差的波動較大,但在40 000次更新之后,方差開始明顯減小,并最終趨向于0.

由圖5(b)可看出,梯度上升下降算法的納什收斂指標(biāo)的均值在1.0~1.7之間,無明顯的下降趨勢,由此可見,梯度上升下降算法無法得到近似納什均衡的聯(lián)合策略.梯度上升下降算法使用的也是REINFORCE,由圖6可知,不同實(shí)驗(yàn)組的方差很大,呈現(xiàn)增大的趨勢,最大方差為0.56.

圖6 3種算法的納什收斂指標(biāo)方差曲線

從圖6可看出Minimax-Q的方差很小,波動也很小,最大方差為0.002,同時從圖5(c)可看出,Minimax-Q的納什收斂指標(biāo)有輕微的下降趨勢,但在50 000次更新下,距離下降到0還很遙遠(yuǎn).由此可見,在限定更新次數(shù)的條件下,Minimax-Q無法得到近似納什均衡的聯(lián)合策略.

分析3種算法的納什收斂指標(biāo)的均值和方差的變化趨勢可看出,EG-R具有顯著的優(yōu)越性,具體體現(xiàn)在EG-R可在更少的更新次數(shù)下得到近似納什均衡的聯(lián)合策略,方差在后期明顯趨向于0.

EG-R在訓(xùn)練過程中的方差較大,是因?yàn)槭褂肦EINFORCE.對于MDP,REINFORCE的方差也較大,廣泛認(rèn)可的一種解決方案是使用帶基線的RE-INFORCE.沿著這個思路,本文認(rèn)為對于TZMG,帶基線的EG-R的方差也會小于EG-R.為此進(jìn)行如下預(yù)實(shí)驗(yàn):使用帶基線的EG-R和EG-R分別進(jìn)行10組實(shí)驗(yàn),游戲參數(shù)和算法超參數(shù)的設(shè)置見4.1節(jié).然后,選取其中5個檢查點(diǎn)(檢查點(diǎn)的更新次數(shù)為10 000次更新的整數(shù)倍)的聯(lián)合策略進(jìn)行評估,得到這兩種算法的納什收斂指標(biāo)的均值和方差,如圖7所示.需要注意的是,EG-R的基線可以是任意函數(shù),但不能和玩家的策略相關(guān),本文選取的基線是歷史軌跡回報(bào)的滑動平均.

由圖7可看出,帶基線的EG-R在前4個檢查點(diǎn)處的方差小于EG-R,而在第5個檢查點(diǎn)處略大于EG-R.由圖5(a)可知,EG-R的納什收斂指標(biāo)越接近0,方差也越接近0.在第5個檢查點(diǎn)處,帶基線的EG-R的納什收斂指標(biāo)均值在0.2左右,而EG-R的納什收斂指標(biāo)均值在0左右,所以在第5個檢查點(diǎn)處帶基線的EG-R的方差略大于EG-R.總之,帶基線的EG-R確實(shí)可減小方差.

(a)方差 (b)均值

4.3 近似納什均衡解分析

EG-R的10組實(shí)驗(yàn)得到的聯(lián)合策略都達(dá)到近似納什均衡,但會收斂到兩個不同的近似納什均衡解(記為NE解1和NE解2).限于篇幅,本文僅給出NE解1和NE解2的聯(lián)合策略在10個狀態(tài)上的表現(xiàn),展示這兩種不同聯(lián)合策略的差異,具體如表1和表2所示.表中第2行的數(shù)字0~6表示玩家的動作,即玩家投出的硬幣數(shù),第1列表示狀態(tài),計(jì)算玩家在該狀態(tài)下選擇對應(yīng)動作的概率,-表示在該狀態(tài)下該玩家的合法動作不包括該動作.在一個狀態(tài)下,玩家選擇合法動作的概率之和為1,這些概率就是玩家在該狀態(tài)下的策略.

表1 部分狀態(tài)下NE解1的聯(lián)合策略

表2 部分狀態(tài)下NE解2的聯(lián)合策略

使用NE解1和NE解2的聯(lián)合策略各自進(jìn)行多次博弈,發(fā)現(xiàn)NE解1的聯(lián)合策略的博弈結(jié)果幾乎全是平局,輸局和贏局很少.而NE解2的聯(lián)合策略的博弈結(jié)果幾乎全是輸局和贏局,平局很少,且輸贏局?jǐn)?shù)幾乎相等.

雖然NE解1和NE解2的聯(lián)合策略的博弈結(jié)果不同,但是期望回報(bào)幾乎相等.NE解1和NE解2的玩家策略都是混合策略,即玩家在某個狀態(tài)下以某個概率分布選擇動作,若在某個狀態(tài)下確定性地選擇某個動作,為純策略.混合策略的近似納什均衡相對不穩(wěn)定,因?yàn)樗赊D(zhuǎn)換為它的混合均衡策略中任意正概率的策略,即純策略,也可轉(zhuǎn)換為這些純策略的任意概率組合[26].因此,相對純策略,混合策略的求解更困難.

為了進(jìn)一步驗(yàn)證EG-R訓(xùn)練得到的聯(lián)合策略是近似納什均衡策略,設(shè)計(jì)12組實(shí)驗(yàn),游戲參數(shù)和算法超參數(shù)的設(shè)置見4.1節(jié).

在每組實(shí)驗(yàn)中,玩家1和玩家2以選定的策略進(jìn)行1 000局博弈,記錄每局的回報(bào),然后使用1 000局回報(bào)的均值作為期望回報(bào)的估計(jì)值.玩家可選擇的策略有4種:EG-R訓(xùn)練得到的NE解1和NE解2的聯(lián)合策略、兩種隨機(jī)策略(高斯分布策略和均勻分布策略).高斯分布策略表示在每個狀態(tài)下玩家選取合法動作的概率服從標(biāo)準(zhǔn)正態(tài)分布.均勻分布策略表示在每個狀態(tài)下玩家選取動作的概率服從均勻分布,即在每個狀態(tài)下,玩家等概率選擇合法動作.

4種策略交叉博弈的回報(bào)均值如表3所示.由表可看出,當(dāng)玩家1和玩家2都使用NE解1的策略時,回報(bào)均值為0.當(dāng)玩家1使用NE解1的策略,玩家2使用均勻分布策略或高斯分布策略時,回報(bào)均值大于0.當(dāng)玩家1使用均勻分布策略或高斯分布策略,玩家2使用NE解1的策略時,回報(bào)均值小于0.根據(jù)鞍點(diǎn)不等式(4)可知,NE解1的聯(lián)合策略達(dá)到近似納什均衡.同理可知,NE解2的聯(lián)合策略也達(dá)到近似納什均衡.當(dāng)玩家1和玩家2分別選擇NE解1或NE解2的策略進(jìn)行博弈時,回報(bào)均值都在0附近,這說明雖然NE解1和NE解2的聯(lián)合策略不同,但是期望回報(bào)幾乎相等.

表3 4種策略交叉博弈的回報(bào)均值

4.4 不同難度等級實(shí)驗(yàn)結(jié)果對比

為了驗(yàn)證EG-R的魯棒性,本文選擇3種不同難度等級的Oshi-Zumo游戲進(jìn)行實(shí)驗(yàn).不同難度等級的區(qū)別體現(xiàn)在:難度等級越高,游戲的狀態(tài)空間和玩家的動作空間越大,玩家的聯(lián)合策略越難收斂.不同難度等級的Oshi-Zumo游戲參數(shù)如表4所示,EG-R的超參數(shù)設(shè)置見4.1節(jié).

表4 3種難度等級的Oshi-Zumo游戲參數(shù)

EG-R在3種游戲難度等級上的納什收斂指標(biāo)如圖8所示.由圖可看出,在難度等級1上,納什收斂指標(biāo)的均值接近于0,聯(lián)合策略達(dá)到近似納什均衡.在難度等級2和難度等級3上,納什收斂指標(biāo)的均值都呈現(xiàn)明顯的下降趨勢,但是限于更新次數(shù)還未下降到0.綜上所述,EG-R在更大的狀態(tài)空間和動作空間下,也可取得較好的效果.

圖8 EG-R在3種游戲難度等級上的納什收斂指標(biāo)均值曲線

5 結(jié)束語

為了在TZMG下實(shí)現(xiàn)同時訓(xùn)練并更新玩家的策略,本文首先將策略梯度定理推廣到TZMG,然后提出基于額外梯度的REINFORCE算法(EG-R).在Oshi-Zumo游戲中,對比分析EG-R的優(yōu)越性,并進(jìn)一步在不同難度等級的Oshi-Zumo游戲中驗(yàn)證EG-R的魯棒性.但是,由于REINFORCE本身的缺點(diǎn),不同實(shí)驗(yàn)組的方差較大,如何改進(jìn)算法以減小方差是今后的一個研究方向.借鑒在MDP下的經(jīng)驗(yàn),優(yōu)化基線函數(shù)或引入行動家-評論家框架會是優(yōu)先考慮的解決方案.另外將著重于EG-R收斂性的理論證明.

猜你喜歡
納什方差梯度
方差怎么算
一個改進(jìn)的WYL型三項(xiàng)共軛梯度法
THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
一種自適應(yīng)Dai-Liao共軛梯度法
計(jì)算方差用哪個公式
一類扭積形式的梯度近Ricci孤立子
方差生活秀
河南科技(2014年3期)2014-02-27 14:05:45
牙克石市| 甘孜| 新乐市| 明水县| 高邑县| 宜城市| 卢湾区| 商南县| 丹巴县| 庐江县| 新余市| 南华县| 白沙| 开封县| 枝江市| 马公市| 岳西县| 梨树县| 富锦市| 东宁县| 武邑县| 广平县| 太原市| 玉田县| 连南| 郯城县| 鸡东县| 建水县| 临汾市| 申扎县| 灌云县| 深水埗区| 商丘市| 凯里市| 曲阳县| 淄博市| 兴文县| 望谟县| 潮安县| 横峰县| 嘉善县|