鄭 歡
(武漢船舶職業(yè)技術(shù)學(xué)院,湖北 武漢 430015)
機(jī)器博弈是人工智能領(lǐng)域中一個重要且具有挑戰(zhàn)性的研究方向之一。它是人工智能的一塊試金石,而棋類游戲又是博弈的一個標(biāo)準(zhǔn)型問題,其研究成果中的各種搜索算法、模式識別為人工智能帶來了很多重要的方法理論。嵌入式系統(tǒng)已經(jīng)廣泛應(yīng)用到國民經(jīng)濟(jì)的各個方面。基于NiosII 軟核處理器的SOPC 技術(shù)憑借其設(shè)計方式靈活、開發(fā)周期短、可反復(fù)重構(gòu)等特點(diǎn),日益廣泛應(yīng)用到嵌入式系統(tǒng)開發(fā)中。
1.LCD 屏圖像顯示;
2.觸摸控制功能;
3.Tictactoe 和五子棋兩種棋的人機(jī)博弈;
4.對弈有雙人和人機(jī)兩種模式可選;
5.對弈難度有初級難度和高級難度兩種模式可選;
6.紅外控制提示音輸出;
Figure2.1 系統(tǒng)架構(gòu)
如圖2.1 所示,系統(tǒng)總體分為三大模塊:FPGA 開發(fā)板(DE0-CV)、紅外語音模塊、LTM 觸摸屏模塊,其中:
1.DE0-CV 開發(fā)板以Altera CycloneV 5CEBA4F23C7N FPGA 為核心,使用Verilog 語言設(shè)計CPU,觸摸屏、GPIO 及語音紅外接口的驅(qū)動以及觸摸屏的顯示內(nèi)容,CPU 上運(yùn)行軟件算法程序并實(shí)現(xiàn)對于LTM 觸摸屏和音頻模塊的控制
2.LTM 觸摸屏模塊:用來提供人機(jī)交互界面,控制整個系統(tǒng)的操作,協(xié)調(diào)各部分的功能,是人工博弈系統(tǒng)的核心控制單元。 。
3.語音播放模塊:實(shí)現(xiàn)系統(tǒng)語音提示功能。
DE0 FPGA 開發(fā)板是臺灣友晶公司開發(fā)的一套輕薄型的SOPC 開發(fā)平臺,DE0搭載了Altera CycloneV 5CEBA4F23C7N FPGA,可提供15,408 LEs(邏輯單元)以及346 I/O,并搭配了豐富的外部接口。
本設(shè)計使用Altera Cyclone III EP3C16F484C6N FPGA芯片作為硬件系統(tǒng)的功能平臺,在該FPGA 上面實(shí)現(xiàn)Nios II 軟核CPU 配置、觸摸屏的驅(qū)動模塊、觸摸屏顯示設(shè)計、紅外發(fā)射模塊和計時器模塊的設(shè)計等功能。在SOPC Builder 中構(gòu)建的Nios II 軟核CPU 是整個硬件系統(tǒng)的控制核心,它實(shí)現(xiàn)了控制系統(tǒng)運(yùn)轉(zhuǎn),計時器開閉,紅外發(fā)射器控制,觸摸屏 顯示和外部輸入信息獲取等功能。
由人機(jī)博弈算法流程圖可以看出,五子棋機(jī)器博弈的核心就是機(jī)器走棋的算法,本節(jié)將對本系統(tǒng)實(shí)現(xiàn)的五子棋機(jī)器走棋算法分層介紹,本系統(tǒng)實(shí)現(xiàn)的五子棋機(jī)器走棋的算法主要包括棋盤表示 、局面估值、搜索算法、生成走法、界面控制這幾個部分。
1.棋盤顯示和界面控制
其中棋盤表示和界面控制即交互界面,在LTM 觸摸屏上實(shí)現(xiàn),介于五子棋盤的特點(diǎn),程序中的棋盤表示是采用15*15 二維數(shù)組來表示的。白子,黑子,空位分別用不同的編碼來記錄,并加以區(qū)分。
2.局面估值、搜索算法、走法生成
由于五子棋機(jī)器博弈每一步下棋的過程中,局面估分、搜索算法、走法生成這些過程都是柔和在一起,而不是獨(dú)立分開的過程,所以本程序也將走法生成、局面估值、搜索算法嵌在一起,構(gòu)成了機(jī)器走棋函數(shù)。本系統(tǒng)的對弈設(shè)計了兩種難度的選擇,由兩種走棋函數(shù)來實(shí)現(xiàn)機(jī)器不同等級的智能。
初級難度的機(jī)器走棋函數(shù)只是讓機(jī)器對目前盤面進(jìn)行分析,選擇最優(yōu)的位置落子。經(jīng)過對五子棋知識深入的研究,以及不斷的下棋來積累經(jīng)驗(yàn) ,使本設(shè)計能夠?qū)⑽遄悠鍣C(jī)器博弈程序?qū)Ω鞣N棋型的估分做得很完善,使它能夠從盤面“看”出哪一點(diǎn)有利,哪一點(diǎn)不利,并權(quán)衡利、弊的大小,從而選擇出最優(yōu)的落子點(diǎn) 。本文實(shí)現(xiàn)的估值函數(shù)比較完善,所以本系統(tǒng)初級難度的機(jī)器走棋函數(shù)的效果比較理想。這讓初級難度的機(jī)器博弈算法對棋型的判斷和比較比一般的博弈程序更為出色。本算法實(shí)現(xiàn)的高級難度的機(jī)器走棋函數(shù)讓博弈程序在具有正確評估局面能力的基礎(chǔ)上,還能夠像人一樣進(jìn)行深層次的思考,推導(dǎo)目前盤面N 回合博弈之后的局面,從而及早做出合理的進(jìn)攻和防守策略。
極大-負(fù)極大值算法是通過極大-極小值算法[6]變換過來,二者是等價的。極大-極小值算法是考慮雙方對弈若干步之后,從可能的走法中選一步相對好的來走。若最大(Max)節(jié)點(diǎn)為甲方下的棋,此時選擇估值最大的點(diǎn)走。 最小( Min )節(jié)點(diǎn)為乙方下的棋,此時選擇估值最小的點(diǎn)行走。因此 Min 節(jié)點(diǎn)的父節(jié)點(diǎn)( Max 節(jié)點(diǎn))所賦的倒推值等于端節(jié)點(diǎn)估值中的最大值。 另一方面,Max 節(jié)點(diǎn)的父節(jié)點(diǎn)( Min 節(jié)點(diǎn)) 所賦的倒推值等于端節(jié)點(diǎn)估值中的最小值。這樣一級一級地計算倒推值,直至起始節(jié)點(diǎn)的后繼節(jié)點(diǎn)也被賦以倒推值為止,即從下往上逐層交替使用極小極大的選值方法。這種算法在搜索時將任何機(jī)器的弈棋水平都假設(shè)為最高,這樣的搜索質(zhì)量很高,得到的走法也比較合理。極大-負(fù)極大值算法則是將原本取Min 節(jié)點(diǎn)對應(yīng)的負(fù)值取反,就變成了正值,所以原本Min 節(jié)點(diǎn)是取負(fù)的最小值,現(xiàn)在則取正的最大值,這就叫極大-負(fù)極大值算法。
本算法的估值函數(shù)在對黑子和紅子估值時,對黑子得到的是正值,對白子為負(fù)值。
本算法中實(shí)現(xiàn)極大-負(fù)極大算法過程如下:
1.先對黑子(機(jī)器)估值,對初一組N 個極大的值,存為根節(jié)點(diǎn)
2.將這層以上的所有走法的棋子依次下入虛擬棋盤后對白子(玩家)估值,每次取出N 個節(jié)點(diǎn)
3.不斷重復(fù)1 和2 ,直到達(dá)到預(yù)定搜索深度。
搜索廣度和深度越大,計算越耗時,但經(jīng)實(shí)驗(yàn)表明機(jī)器的博弈智能越高。本系統(tǒng)選取搜索深度為5,廣度為3,經(jīng)大量的實(shí)驗(yàn)表明,在不耗費(fèi)很長的計算時間開銷的情況下,博弈算法達(dá)到了比較好的智能,較成功的平衡了搜索算法與智能水平之間的矛盾,本文實(shí)現(xiàn)的估值函數(shù)比較完善,使得該博弈程序能在沒有深度搜索的情況下識別出更多的棋型,這種算法顯著增強(qiáng)了對搜索的質(zhì)量,在實(shí)現(xiàn)同種智能的情況下大大降低了硬件要求,跟有利于機(jī)器博弈算發(fā)在嵌入式系統(tǒng)中的應(yīng)用。這也使得本機(jī)在沒有深度搜索的情況下,相對于其他的五子棋博弈程序,本系統(tǒng)實(shí)現(xiàn)的算法表現(xiàn)更為出色。