梅 險(xiǎn),陳泳吉,何 哲,潘子翔,陳姝含,周 霖
(哈爾濱理工大學(xué) a.計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;b.測(cè)控技術(shù)與通信工程學(xué)院,哈爾濱 150080)
愛恩斯坦棋[1]是一個(gè)以隨機(jī)性為主要特征的博弈項(xiàng)目,對(duì)于所有參與者具有信息對(duì)稱的特性。建立棋局?jǐn)?shù)據(jù)庫(kù)是一種能夠靜態(tài)保存棋局狀態(tài)及對(duì)應(yīng)棋局勝率的方法。對(duì)于愛恩斯坦棋的棋局?jǐn)?shù)據(jù)庫(kù)如何調(diào)用倒推逆向分析算法來有效“窮盡”棋局的狀況,取其中部分局面生成殘局庫(kù),是本文主要的研究方向。
在博弈對(duì)局中隨著對(duì)局的進(jìn)行,棋盤棋子數(shù)量逐漸減少的相關(guān)棋類最終不存在平局的情況,我們稱這些棋種是收斂的。將愛恩斯坦棋作為這類棋種實(shí)現(xiàn)殘局?jǐn)?shù)據(jù)庫(kù)的標(biāo)志性代表。
“殘局”是對(duì)雙方棋子均已行動(dòng)但雙方仍然處于對(duì)峙狀態(tài)的一種描述,我們可以在有限的內(nèi)存中存儲(chǔ)殘局?jǐn)?shù)據(jù)構(gòu)建成為殘局?jǐn)?shù)據(jù)庫(kù)。對(duì)于完全信息博弈項(xiàng)目在博弈雙方完全理性的情況下,一個(gè)局面最終的勝負(fù)是確定的,殘局?jǐn)?shù)據(jù)庫(kù)僅需存儲(chǔ)每個(gè)局面使用搜索算法與逆向分析之后最終的勝負(fù)情況[2-3],而對(duì)于愛恩斯坦棋的特性,必須存儲(chǔ)一個(gè)局面的勝率,通過比較不同局面的勝率去選擇最優(yōu)走法[4]。
殘局?jǐn)?shù)據(jù)庫(kù)的存在能夠大大降低勝率評(píng)估時(shí)的計(jì)算復(fù)雜度。此外,由殘局?jǐn)?shù)據(jù)庫(kù)得到的勝率是真實(shí)的勝率,其精確度遠(yuǎn)高于通過算法對(duì)勝率的估計(jì),因此,可以將搜索算法同殘局?jǐn)?shù)據(jù)庫(kù)進(jìn)行有效結(jié)合,從而提高對(duì)局的最終勝率[5]。
在本文中,通過推導(dǎo)逆向分析代碼,實(shí)現(xiàn)在各方棋子數(shù)量均不超過3的情況下的倒推計(jì)算,建立殘局?jǐn)?shù)據(jù)庫(kù)。最終通過實(shí)驗(yàn)證明,倒推算法生成的殘局?jǐn)?shù)據(jù)庫(kù)能夠有效提高搜索算法效率[6-7]。
局面勝率分為“已走勝率”和“未走勝率”,對(duì)局雙方均有此概念定義,以下概念描述以己方為例。
“己方已走勝率”指己方落子后形成局面的勝率。“己方已走勝率”對(duì)應(yīng)的局面為己方達(dá)成勝利條件的局面。
“己方未走勝率”指對(duì)方剛走完,己方尚未行動(dòng)時(shí)己方的勝率?!凹悍轿醋邉俾省睂?duì)應(yīng)的局面為對(duì)方達(dá)成勝利條件的局面(為了理論上的對(duì)應(yīng),認(rèn)為對(duì)方達(dá)成勝利條件的情況下,存在己方處于未走且己方勝率為0的狀態(tài))。同時(shí),“己方未走勝率”所描述的局面是己方尚未擲骰子時(shí)的狀態(tài),已經(jīng)擲骰子的狀態(tài)另有概念。
為了區(qū)分玩家未走時(shí)骰子的情況,將擲骰子后的勝率稱為“擲后勝率”。玩家對(duì)局時(shí)要在此狀態(tài)下做出決策?!皵S后勝率”的計(jì)算除了須知局面信息外,還須結(jié)合骰子的點(diǎn)數(shù)。
對(duì)于一方“擲前未走”的狀態(tài),另一方就是“已走”狀態(tài),2種狀態(tài)相互對(duì)應(yīng),因此將“擲前未走”狀態(tài)下的勝率稱為“未走勝率”,而“擲后未走”是便于整體計(jì)算的一種中間狀態(tài)。雙方勝率的相關(guān)計(jì)算同理。狀態(tài)的轉(zhuǎn)換關(guān)系如圖1所示。
圖1 狀態(tài)的轉(zhuǎn)換關(guān)系
愛恩斯坦棋屬于零和博弈,且不存在平局的情況,因此在同一局面下雙方勝率之和為1。對(duì)應(yīng)一方的“已走”狀態(tài)下就是另一方的“擲前未走”狀態(tài),那么已走狀態(tài)下勝率為“已走勝率”,對(duì)應(yīng)對(duì)方的“未走勝率”。即在某一局面B下,設(shè)已走狀態(tài)為a,未走狀態(tài)為b,己方為W,對(duì)方為W′,則己方已走勝率等于1減去對(duì)方未走勝率的差:
(1)
在本文中,等于骰子數(shù)的己方棋子存活時(shí),該棋子稱為上子,當(dāng)棋子已不存在時(shí),大于骰子數(shù)的最接近存活己方棋子稱為上子;小于骰子數(shù)最接近且存在的己方棋子稱為下子。對(duì)于每方可以走的棋子均有橫走、豎走、斜走3種走法。
以u(píng)、d分別代表點(diǎn)數(shù)p對(duì)應(yīng)的上子和下子,h、s、x分別代表橫走、豎走、斜走(對(duì)于紅方為向右、向下、向右下;對(duì)于藍(lán)方為向左,向上,向左上),那么對(duì)于集合B(1)(p)元素最多為B(1)(p)={Bpuh,Bpus,Bpux,Bpdh,Bpds,Bpdx}(如Bpuh代表在B局面下點(diǎn)數(shù)p的上子橫走所形成的局面),且其中一些元素可能由于無下子、走法越過棋盤邊界等情況導(dǎo)致其不存在于場(chǎng)上。
擲后勝率:符號(hào)設(shè)為Wr,為當(dāng)前局面B與骰子數(shù)p下每種可行走法后形成新局面的已走勝率Wa的最大值,即Wr(B,p)=maxWa(B(1)(p));對(duì)方同理,Wr′(B,p)=maxWa′(B(1)(p))。
“擲前未走”狀態(tài)下對(duì)應(yīng)“未走勝率”,擲得每個(gè)骰子點(diǎn)數(shù)的概率相同,擲出骰子后轉(zhuǎn)換“擲后未走”狀態(tài),“擲后勝率”對(duì)應(yīng)“未走勝率”,那么未走勝率的數(shù)學(xué)期望就是當(dāng)前局面點(diǎn)數(shù)1到6擲后勝率的平均值,設(shè)當(dāng)前局面B下的未走勝率為Wb,則
(2)
式(2)建立了在某一局面B下“已走勝率Wa”“未走勝率Wb”“擲后勝率Wr”這三者中任意兩者之間的互化關(guān)系,其中“已走勝率Wa”和“未走勝率Wb”兩者的互化包含了敵我雙方的勝率互化(圖2)。
圖2 各勝率的互化關(guān)系
對(duì)于3種勝率互化的式子聯(lián)立可得:
(3)
式中,可視B為B(0),即走0步后形成局面的單個(gè)元素的集合。B(0)若設(shè)定為己方為“未走”狀態(tài),對(duì)方為“已走”狀態(tài),則B(1)(p)為雙方走了1步后對(duì)B(0)的雙方狀態(tài)進(jìn)行交換后的狀態(tài),即B(1)(p)的狀態(tài)變?yōu)榧悍綖椤耙炎摺?,?duì)方變?yōu)椤拔醋摺钡臓顟B(tài),以此類推,每步后的局面集合都對(duì)上一步的雙方狀態(tài)進(jìn)行交換。
為了表述方便,將紅方作為己方,藍(lán)方作為對(duì)方。
在進(jìn)行勝率推算時(shí),可以保持以其中一方作為己方計(jì)算勝率,將雙方“局面互換”?!熬置婊Q”也包括“位置互換”和“顏色互換”。此時(shí)雙方的“已走勝率”“未走勝率”“擲后勝率”也都交換,這時(shí)計(jì)算互換后紅方的各勝率其實(shí)是計(jì)算藍(lán)方的各勝率。將局面B進(jìn)行局面互換后形成的新局面記作B′,則:
(4)
為了方便運(yùn)算,用B′(i)(pi)來表示紅方走了i步且每走一步都執(zhí)行局面互換時(shí)所形成局面集合。當(dāng)i為偶數(shù),B′(i)(pi)=B(i)(pi),當(dāng)i為奇數(shù),B′(i)(pi)等于B(i)(pi)每個(gè)元素都進(jìn)行局面互換形成的集合。
在局面互換的條件下,根據(jù)式(3),可得局面倒推的公式:
(5)
一方棋子對(duì)應(yīng)的點(diǎn)數(shù)集合為p={1,2,3,4,5,6},將B1(p)展開成集合,可以發(fā)現(xiàn),對(duì)于一方連續(xù)的被移除棋子其對(duì)應(yīng)點(diǎn)數(shù)集合PN={p1,p2,…,pn},每個(gè)元素的上子相同,下子也相同。上子對(duì)應(yīng)點(diǎn)數(shù)pu的可行走法為集合pN共有的上子可行走法{Bpuuh,Bpuus,Bpuux},下子對(duì)應(yīng)點(diǎn)數(shù)pd對(duì)應(yīng)點(diǎn)數(shù)的可行走法為集合PN共有的下子可行走法{Bpuuh,Bpdus,Bpdux},由此集合PN共有可行走法的集合為{Bpuuh,Bpuus,Bpuux,Bpduh,Bpdus,Bpdux}
可知對(duì)于集合PN中任意一個(gè)元素px都有B(1)(pu)∪B(1)(pd)=B(1)(px),那么:
maxWb(B(1)(px))=maxWb(B(1)(pu)∪B(1)(pd))
(6)
因此不需要對(duì)被移除棋子的勝率進(jìn)行單獨(dú)計(jì)算,將之轉(zhuǎn)化為棋上子或下子中最大未走勝率的倍率即可。于是設(shè)置未乘概率和倍率2個(gè)概念:當(dāng)一個(gè)己方棋子存活時(shí),其未乘概率等于對(duì)應(yīng)的擲后勝率Wr(B,p),否則等于0;初始每個(gè)棋子對(duì)應(yīng)倍率為0,若該棋子存活則其倍率+1,否則其上子和下子中未乘概率最大的棋子對(duì)應(yīng)的倍率+1,于是式子(2)可以化成以下偽代碼:
局面的數(shù)據(jù)以如下形式進(jìn)行組織:以一個(gè)12位的26進(jìn)制數(shù)代表一個(gè)局面,每一位分別代表雙方每個(gè)棋子{1,2,3,4,5,6,-1,-2,-3,-4,-5,-6}的位置,數(shù)字0~24代表對(duì)應(yīng)棋子在5*5棋盤上的位置,數(shù)字25代表對(duì)應(yīng)棋子已從棋盤上移除(圖3)。局面的情況對(duì)應(yīng)一個(gè)特定的26進(jìn)制數(shù),該數(shù)可以作為勝率數(shù)組的下標(biāo)。
圖3 棋盤位置編號(hào)示意圖
“路徑”指當(dāng)前局面不斷行棋直到游戲結(jié)束的具體走法。在一個(gè)路徑所代表的走法中,雙方移動(dòng)的總步數(shù)就是該路徑的步數(shù)?!奥窂浇?jīng)過該局面”指代路徑行棋中形成的局面;“路徑指向該局面”指代到游戲結(jié)束形成的局面。
“局面復(fù)雜度C”:指在某一局面下,所有路徑的最大步數(shù)。路徑上經(jīng)過的每一個(gè)局面復(fù)雜度均比上一個(gè)局面對(duì)應(yīng)的復(fù)雜度低。如圖4所示。
圖4 復(fù)雜度行棋推進(jìn)示意圖
Wa({B′(1)(p)|1≤p≤6,p∈Z})均已生成是生成Wa(B)的充分條件,將以下函數(shù)稱為對(duì)局面或局面集合B的正推展開,其中已勝局面是指達(dá)成勝利條件之一的局面:
(7)
即取B局面互換條件下所有路徑中下一步所經(jīng)過的全部局面的集合。經(jīng)過正推展開得到的局面復(fù)雜度至少比原局面低1。當(dāng)一個(gè)局面正推展開所得到的局面集合中所有局面已走勝率均已得知時(shí),則可根據(jù)式(5)算出原局面的對(duì)應(yīng)局面勝率。對(duì)于已知Wa({B′(1)(p)|1≤p≤6,p∈Z}),根據(jù)式(4)可計(jì)算Wa(B),稱局面B為{B′(1)(p)|1≤p≤6,p∈Z}的倒推收斂,為正推展開的逆過程:
g-1({B′(1)(p)|1≤p≤6,p∈Z})=B
(8)
對(duì)當(dāng)前局面進(jìn)行正推展開得到的末節(jié)點(diǎn)進(jìn)行估值后,進(jìn)行倒推收斂得到當(dāng)前局面的估計(jì)勝率,這是愛恩斯坦棋使用極大極小值[8]算法構(gòu)建博弈樹的過程[9]。而對(duì)于UCT算法則是選擇性的正推展開與倒推收斂[10]。
當(dāng)對(duì)一個(gè)局面進(jìn)行多次正推展開,直至完全展開到每一條路徑的終點(diǎn),最終會(huì)完全展開為一個(gè)已勝局面集合,而所有已勝局面對(duì)應(yīng)局面勝率均為1,即已知。因此,任意存在的局面均可從已勝局面集合中倒推收斂,生成其對(duì)應(yīng)勝率。
要生成Wa(B),則需可倒推收斂于Wa(B)的局面先生成。這些所需局面相對(duì)于所收斂的局面來說,其對(duì)應(yīng)的局面復(fù)雜度更低。將達(dá)成勝利條件的己方已走局面的局面復(fù)雜度定為0,先生成所有局面復(fù)雜度的局面,再依次生成C=1的局面、C=2的局面、C=3的局面,以此類推[11]。如圖5所示。
圖5 倒推局面節(jié)點(diǎn)示意圖
局面復(fù)雜度最高的局面為開局局面(任意排列的開局局面復(fù)雜度是相同的)。局面復(fù)雜度與棋子點(diǎn)數(shù)、搖到的隨機(jī)數(shù)無關(guān)。在復(fù)雜度的視角里,局面只留下了己對(duì)方、位置2種屬性。將已勝局面用復(fù)雜度0標(biāo)記,把不存在局面用-1標(biāo)記,未生成局面用-2標(biāo)記。則局面復(fù)雜度標(biāo)記集合為{-2,-1,0,1,…,i},其中i為開局的局面復(fù)雜度。
將得到的所有正推展開包含局面B的局面集合,稱為對(duì)B的倒推展開r(B)。這些局面包括了對(duì)于己方每個(gè)存活棋子在任意方向后退且不越過邊界、不與其他棋子重疊所得到的局面,以及在每種情況都有在原位置重新放置任一已被吃的棋子,然后經(jīng)過局面互換后得到的局面[12]。通過倒推展開局面B能夠找出所有局面復(fù)雜度可能比B對(duì)應(yīng)局面復(fù)雜度高1的局面。
r(B)={B1|B∈g(B1)}
(9)
在局面互換條件下的倒推過程中,將會(huì)以“臨時(shí)局面復(fù)雜度c”對(duì)每個(gè)局面進(jìn)行標(biāo)記,以方便計(jì)算??傮w局面為有存儲(chǔ)、計(jì)算框架規(guī)定的所有存在局面與不存在局面的總和,在倒推前將總體局面標(biāo)記為c=-2。在對(duì)某個(gè)局面的臨時(shí)局面復(fù)雜度進(jìn)行重新標(biāo)記時(shí),c=-1和c=0的局面不可被重新標(biāo)記。圖6為倒推時(shí)局面的生成流程。
圖6 倒推局面生成流程
這是一個(gè)由復(fù)雜度倒推生成局面復(fù)雜度的過程。當(dāng)以上過程完成后,所有定義的局面都計(jì)算得到其準(zhǔn)確勝率。
在當(dāng)前生成如此龐大的數(shù)據(jù)量不現(xiàn)實(shí),將只生成和存儲(chǔ)部分已勝局面勝率數(shù)據(jù)作為殘局庫(kù),利用存儲(chǔ)的部分?jǐn)?shù)據(jù)提高算法搜索效率與準(zhǔn)確性,只生成和存儲(chǔ)除指定的幾個(gè)棋子外其他棋子都已被吃的局面的勝率。在進(jìn)行倒推展開時(shí),去除包含非局面組織棋子的局面,超出存儲(chǔ)范圍內(nèi)的局面將不會(huì)被生成[13-14]。
愛恩斯坦棋殘局?jǐn)?shù)據(jù)庫(kù)的局面數(shù)量?jī)H與各方的棋子數(shù)有關(guān),當(dāng)殘局?jǐn)?shù)據(jù)庫(kù)存儲(chǔ)每方3個(gè)棋子時(shí),局面復(fù)雜度分布如表1所示。
表1 局面復(fù)雜度分布
為了證實(shí)殘局庫(kù)的有效性與正確性,任意選取對(duì)局中的可窮舉殘局進(jìn)行測(cè)試,從殘局庫(kù)中提取對(duì)應(yīng)局面的已走勝率,與窮舉搜索算法結(jié)果對(duì)比,驗(yàn)證殘局庫(kù)數(shù)據(jù)的準(zhǔn)確性。例如在對(duì)局測(cè)試?yán)?,紅1向3個(gè)方向移動(dòng)后的形成局面的已走勝率如圖7所示。
圖7 局面勝率測(cè)試結(jié)果
在任意搜索算法可窮舉局面中,殘局庫(kù)中保存的局面數(shù)據(jù)與窮舉搜索算法得到的局面已走勝率數(shù)據(jù)完全相同,說明在可測(cè)試范圍內(nèi)。
將愛恩斯坦棋極大極小值α-β剪枝算法程序引入倒推算法獲取殘局庫(kù)設(shè)為實(shí)驗(yàn)組,并將原程序設(shè)為對(duì)照組,比較實(shí)驗(yàn)組和對(duì)照組在對(duì)抗其他程序時(shí)的獲勝概率。經(jīng)過實(shí)驗(yàn)得到如圖8所示的柱狀圖。
圖8 引入殘局庫(kù)前后獲勝概率
引入殘局庫(kù)后程序獲勝概率顯著增加,可知倒推算法生成的殘局?jǐn)?shù)據(jù)庫(kù)能夠幫助局面評(píng)估算法提升獲勝概率。
不僅是愛恩斯坦棋,對(duì)于任意收斂的信息對(duì)稱博弈項(xiàng)目(包括隨機(jī)棋類博弈),都能倒推生成殘局庫(kù),甚至在存儲(chǔ)容量足夠的情況下生成全部局面。但受到數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)和容量的限制,愛恩斯坦棋倒推生成的殘局庫(kù)體量仍然不足。過去的研究中有使用逆向分析的方法獲取完全博弈項(xiàng)目局面情況的,但由于其博弈項(xiàng)目不具有隨機(jī)性,得到的局面情況若以勝率表示則非0即1,且推知?jiǎng)俾什恍枰?jì)算。首次在隨機(jī)博弈項(xiàng)目中詳細(xì)研究了倒推生成局面勝率的方法,設(shè)計(jì)了按照局面復(fù)雜度逐步推知局面勝率的計(jì)算過程。通過該研究發(fā)現(xiàn),生成的愛恩斯坦棋殘局庫(kù)可幫助其他搜索算法減少搜索量、提高準(zhǔn)確性,以此提升算法的勝率。