吳永琢
WU Yong-zhuo
(青島酒店管理職業(yè)技術(shù)學(xué)院,青島 266100)
在多機(jī)器人系統(tǒng)中逐漸采用多智能體技術(shù),例如足球機(jī)器人就是其典型。它要求在復(fù)雜環(huán)境下,實(shí)現(xiàn)機(jī)器人的控制和相互協(xié)作。行為學(xué)習(xí)能夠有效提高機(jī)器人的適應(yīng)能力,傳統(tǒng)的方式得到的信號(hào)并不理想。決策體系結(jié)構(gòu)是整個(gè)系統(tǒng)的關(guān)鍵,本文選擇了強(qiáng)化學(xué)習(xí)算法,同時(shí)引入了具有專家經(jīng)驗(yàn)的模糊推理來彌補(bǔ)Q學(xué)習(xí)收斂性較差的缺點(diǎn)。通過建立模糊規(guī)則庫,并且根據(jù)狀態(tài)和動(dòng)作不斷調(diào)整Q學(xué)習(xí)參數(shù),提高決策系統(tǒng)的自適應(yīng)能力和速度。通過仿真實(shí)驗(yàn),證明模糊Q學(xué)習(xí)算法的效果。
決策系統(tǒng)通過感知器接收視覺系統(tǒng)收集的賽場(chǎng)的綜合信息,并分析信息、建立規(guī)則庫、Q學(xué)習(xí)、決定策略,最后將它們發(fā)送給通信系統(tǒng)。機(jī)器人的決策系統(tǒng)結(jié)構(gòu)如圖1所示,包括:模糊化模塊、模糊規(guī)則庫、Q學(xué)習(xí)單元、行為融合等。它主要負(fù)責(zé)決策進(jìn)攻、防守,分析實(shí)時(shí)的現(xiàn)場(chǎng)環(huán)境、對(duì)方策略,利用模糊的Q學(xué)習(xí)算法對(duì)決策模塊進(jìn)行優(yōu)化,然后將指令發(fā)送給機(jī)器人,控制它們的行動(dòng)方式是進(jìn)攻或避障。
圖1 決策模型結(jié)構(gòu)圖
強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,是從環(huán)境到行為的映射學(xué)習(xí),在機(jī)器人、智能控制等領(lǐng)域有許多應(yīng)用。強(qiáng)化學(xué)習(xí)通過動(dòng)作-評(píng)價(jià)獲取知識(shí),不斷改進(jìn)方案來適應(yīng)周圍環(huán)境。Q學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)中的一種,它和模型無關(guān)。
Q 學(xué)習(xí)方法的待學(xué)習(xí)目標(biāo)函數(shù)用Q(s, a)表示,計(jì)算公式為:
其中0≤g≤1,r(s, a)表示立即回報(bào),V×(s)是最優(yōu)策略值。
在 Q學(xué)習(xí)中選擇動(dòng)作采用概率方法,選擇動(dòng)作ai的概率表示為:
將評(píng)估函數(shù)推導(dǎo)后得到:
進(jìn)入老齡化社會(huì)以來,福利國家的經(jīng)驗(yàn)促使中國政府也認(rèn)識(shí)到國家必須為日益增多的老年人提供適當(dāng)?shù)纳畋U?承擔(dān)起必要的照顧和幫助老年人的責(zé)任。2000年開始采取一系列措施解決老年人的養(yǎng)老問題,其中最重要的就是調(diào)動(dòng)和引導(dǎo)社會(huì)力量提供老年服務(wù)。而這個(gè)階段與改革開放初期福利化改革的根本區(qū)別在于強(qiáng)化國家責(zé)任和推進(jìn)社會(huì)化進(jìn)程的并行及有效平衡。養(yǎng)老服務(wù)業(yè)管理體制的核心是理順和規(guī)范政府和社會(huì)的關(guān)系,既要充分發(fā)揮政府的主導(dǎo)作用,又要充分發(fā)揮社會(huì)力量的主體作用;政府部門職責(zé)權(quán)限邊界明確,社會(huì)力量權(quán)利義務(wù)具體清晰。
當(dāng)Agent 應(yīng)用在空間連續(xù)的環(huán)境,Q學(xué)習(xí)算法在連續(xù)的狀態(tài)空間和動(dòng)作空間的離散化, 效率低、收斂慢,因此本文提出基于模糊的Q學(xué)習(xí)算法來處理例如足球機(jī)器人比賽等多人相互協(xié)作的狀態(tài)。
足球賽場(chǎng)情況瞬息萬變,因此狀態(tài)空間數(shù)據(jù)量龐大,用Q學(xué)習(xí)算法會(huì)需要比較長的學(xué)習(xí)過程,因此本文在Q學(xué)習(xí)算法上將其優(yōu)化,通過建立一個(gè)模糊規(guī)則庫,將龐大的實(shí)際狀態(tài)轉(zhuǎn)化成為數(shù)不多的模糊狀態(tài),大大降低了狀態(tài)空間數(shù)據(jù)的大小,從而提升學(xué)習(xí)速度。
采用IF_THEN的模糊規(guī)則,在agent受到狀態(tài)向量x后,利用模糊推理方法計(jì)算輸出空間的每一分量權(quán)值:
mi(x)表示IF_THEN規(guī)則里x的隸屬度。動(dòng)作選擇采用模糊推理的方法,實(shí)行利用策略。當(dāng)動(dòng)作由agent執(zhí)行以后,環(huán)境會(huì)給agent提供獎(jiǎng)懲信號(hào)。假設(shè)收到獎(jiǎng)勵(lì)信號(hào)r,那么模糊規(guī)則的權(quán)值表示:
其中r表示受到的獎(jiǎng)勵(lì),wmax是wk的最大值,a'jk表示自適應(yīng)學(xué)習(xí)率。
建立的模糊規(guī)則表如表1所示。
Q學(xué)習(xí)的過程為:
1)觀察目前的狀態(tài)s;
2)通過計(jì)算狀態(tài)被選中的概率,選擇確定并且執(zhí)行一個(gè)動(dòng)作a;
公式中,T表示溫度,其值的大小表示隨機(jī)程度,值越大表示隨機(jī)性就大。初始學(xué)習(xí)時(shí),T值偏大,隨著學(xué)習(xí)的深入,T值就逐漸降低來保證學(xué)習(xí)的良好效果。
3)觀察下一個(gè)新狀態(tài)s';
4)從環(huán)境中收到一個(gè)回報(bào)、強(qiáng)化的信號(hào)r;
5)根據(jù)狀態(tài)和動(dòng)作相應(yīng)的調(diào)整Q值;
a表示狀態(tài)動(dòng)作被選頻率,系數(shù)g=0.9。根據(jù)Q值來調(diào)整行為融合的加權(quán)值l。等到學(xué)習(xí)結(jié)束以后,l就按照貪婪策略來取值,Q值最大的就是對(duì)應(yīng)l的加權(quán)值。
6)新狀態(tài)滿足條件,則結(jié)束本次學(xué)習(xí);否則返回第2步執(zhí)行。
該方法的實(shí)驗(yàn)是在機(jī)器人足球仿真平臺(tái)Robot Soccer上。在實(shí)驗(yàn)時(shí)的主要參數(shù)設(shè)為:學(xué)習(xí)率初始設(shè)為0.8,折扣因子0.9,選擇動(dòng)作時(shí)按照隨機(jī)策略。
圖2 Q學(xué)習(xí)曲線圖
表1 模糊規(guī)則表
圖3 凈勝球統(tǒng)計(jì)對(duì)比圖
圖2表示的是機(jī)器人的進(jìn)攻策略Q值,可以發(fā)現(xiàn)學(xué)習(xí)步數(shù)的增加,Q值迅速上升,到300步左右時(shí),Q值就基本穩(wěn)定在0.35。可見,模糊Q學(xué)習(xí)效果好、速度快。
接著分別采用傳統(tǒng)的經(jīng)驗(yàn)策略和模糊Q學(xué)習(xí)算法策略兩種方式進(jìn)行凈勝球比賽統(tǒng)計(jì),結(jié)果如圖3所示。
在圖3中進(jìn)行了500場(chǎng)次的比賽,統(tǒng)計(jì)結(jié)果表明,傳統(tǒng)的按照專家經(jīng)驗(yàn)的凈勝球明顯沒有優(yōu)勢(shì)和規(guī)律性,基本上在0上下震蕩。而模糊Q學(xué)習(xí)模型就呈上升趨勢(shì),剛開始學(xué)習(xí)的階段,輸?shù)谋容^多,沒有經(jīng)驗(yàn)的策略來得好。這說明系統(tǒng)還在學(xué)習(xí),但隨著比賽場(chǎng)次的增加,Q學(xué)習(xí)的不斷改進(jìn)開始逐漸顯示其優(yōu)勢(shì)了,曲線明顯上升,凈勝球開始變成正值。到后來曲線走向開始變得平緩,是因?yàn)椴捎媚:齉學(xué)習(xí)方法后已經(jīng)學(xué)到了比賽對(duì)方的大部分策略。實(shí)驗(yàn)結(jié)果表明,模糊Q學(xué)習(xí)策略很有效。
多機(jī)器人相互協(xié)作問題是機(jī)器人技術(shù)中的重要課題,本人設(shè)計(jì)了一個(gè)決策系統(tǒng)模型,首先分析了傳統(tǒng)Q學(xué)習(xí)算法并指出其學(xué)習(xí)速度慢、收斂性差的不足,提出了模糊Q學(xué)習(xí)算法,建立了模糊規(guī)則庫,將眾多的實(shí)際狀態(tài)映射成不多的模糊狀態(tài),減小了狀態(tài)空間又提高了速度;然后設(shè)計(jì)了算法的學(xué)習(xí)過程等;最后通過仿真平臺(tái)Robot Soccer將傳統(tǒng)的經(jīng)驗(yàn)策略和模糊Q學(xué)習(xí)策略比較,實(shí)驗(yàn)結(jié)果表明模糊Q學(xué)習(xí)算法的速度比較快、效果更好。
[1]張汝波, 楊廣銘. Q學(xué)習(xí)及其在智能機(jī)器人局部路徑規(guī)劃中的應(yīng)用研究[J]. 計(jì)算機(jī)研究與發(fā)展, 1999, 36(12):1430-1436.
[2]劉金餛. 機(jī)器人控制系統(tǒng)的設(shè)計(jì)與Matlab仿真[M]. 北京:清華大學(xué)出版社, 2008.
[3]vincente Feliu, Jose A.Somolinos, Andres Garcia.Inverse Dynamics Based ControI System for a Three-Degree-of-reedom Flexible Arm[J]. IEEE Trans.on Robotics and Auomation. 2003. 12(6): 1007-1014.
[4]Chang Deng. Meng Joo Er. Automatic generation of fuzzy inference systems by dynamic fuzzy Q-learning[C].Systems, Man and Cybernetics,2003. IEEE International Conference on, Volume:4, Oct. 5-8, 2003, 3206-321.