模糊學(xué)習(xí)算法機(jī)器人相互協(xié)作模型研究

2012-08-26 08:05:38吳永琢

制造業(yè)自動(dòng)化 2012年18期

吳永琢

WU Yong-zhuo

（青島酒店管理職業(yè)技術(shù)學(xué)院，青島 266100）

0 引言

在多機(jī)器人系統(tǒng)中逐漸采用多智能體技術(shù)，例如足球機(jī)器人就是其典型。它要求在復(fù)雜環(huán)境下，實(shí)現(xiàn)機(jī)器人的控制和相互協(xié)作。行為學(xué)習(xí)能夠有效提高機(jī)器人的適應(yīng)能力，傳統(tǒng)的方式得到的信號(hào)并不理想。決策體系結(jié)構(gòu)是整個(gè)系統(tǒng)的關(guān)鍵，本文選擇了強(qiáng)化學(xué)習(xí)算法，同時(shí)引入了具有專家經(jīng)驗(yàn)的模糊推理來彌補(bǔ)Q學(xué)習(xí)收斂性較差的缺點(diǎn)。通過建立模糊規(guī)則庫，并且根據(jù)狀態(tài)和動(dòng)作不斷調(diào)整Q學(xué)習(xí)參數(shù)，提高決策系統(tǒng)的自適應(yīng)能力和速度。通過仿真實(shí)驗(yàn)，證明模糊Q學(xué)習(xí)算法的效果。

1 決策結(jié)構(gòu)模型

決策系統(tǒng)通過感知器接收視覺系統(tǒng)收集的賽場(chǎng)的綜合信息，并分析信息、建立規(guī)則庫、Q學(xué)習(xí)、決定策略，最后將它們發(fā)送給通信系統(tǒng)。機(jī)器人的決策系統(tǒng)結(jié)構(gòu)如圖1所示，包括：模糊化模塊、模糊規(guī)則庫、Q學(xué)習(xí)單元、行為融合等。它主要負(fù)責(zé)決策進(jìn)攻、防守，分析實(shí)時(shí)的現(xiàn)場(chǎng)環(huán)境、對(duì)方策略，利用模糊的Q學(xué)習(xí)算法對(duì)決策模塊進(jìn)行優(yōu)化，然后將指令發(fā)送給機(jī)器人，控制它們的行動(dòng)方式是進(jìn)攻或避障。

圖1 決策模型結(jié)構(gòu)圖

2 Q學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法，是從環(huán)境到行為的映射學(xué)習(xí)，在機(jī)器人、智能控制等領(lǐng)域有許多應(yīng)用。強(qiáng)化學(xué)習(xí)通過動(dòng)作-評(píng)價(jià)獲取知識(shí)，不斷改進(jìn)方案來適應(yīng)周圍環(huán)境。Q學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)中的一種，它和模型無關(guān)。

Q 學(xué)習(xí)方法的待學(xué)習(xí)目標(biāo)函數(shù)用Q(s, a)表示，計(jì)算公式為：

其中0≤g≤1，r(s, a)表示立即回報(bào)，V×(s)是最優(yōu)策略值。

在 Q學(xué)習(xí)中選擇動(dòng)作采用概率方法，選擇動(dòng)作ai的概率表示為：

將評(píng)估函數(shù)推導(dǎo)后得到：

進(jìn)入老齡化社會(huì)以來，福利國家的經(jīng)驗(yàn)促使中國政府也認(rèn)識(shí)到國家必須為日益增多的老年人提供適當(dāng)?shù)纳畋Ｕ?承擔(dān)起必要的照顧和幫助老年人的責(zé)任。2000年開始采取一系列措施解決老年人的養(yǎng)老問題，其中最重要的就是調(diào)動(dòng)和引導(dǎo)社會(huì)力量提供老年服務(wù)。而這個(gè)階段與改革開放初期福利化改革的根本區(qū)別在于強(qiáng)化國家責(zé)任和推進(jìn)社會(huì)化進(jìn)程的并行及有效平衡。養(yǎng)老服務(wù)業(yè)管理體制的核心是理順和規(guī)范政府和社會(huì)的關(guān)系，既要充分發(fā)揮政府的主導(dǎo)作用，又要充分發(fā)揮社會(huì)力量的主體作用；政府部門職責(zé)權(quán)限邊界明確，社會(huì)力量權(quán)利義務(wù)具體清晰。

當(dāng)Agent 應(yīng)用在空間連續(xù)的環(huán)境，Q學(xué)習(xí)算法在連續(xù)的狀態(tài)空間和動(dòng)作空間的離散化，效率低、收斂慢，因此本文提出基于模糊的Q學(xué)習(xí)算法來處理例如足球機(jī)器人比賽等多人相互協(xié)作的狀態(tài)。

3 模糊Q學(xué)習(xí)算法和實(shí)現(xiàn)

足球賽場(chǎng)情況瞬息萬變，因此狀態(tài)空間數(shù)據(jù)量龐大，用Q學(xué)習(xí)算法會(huì)需要比較長的學(xué)習(xí)過程，因此本文在Q學(xué)習(xí)算法上將其優(yōu)化，通過建立一個(gè)模糊規(guī)則庫，將龐大的實(shí)際狀態(tài)轉(zhuǎn)化成為數(shù)不多的模糊狀態(tài)，大大降低了狀態(tài)空間數(shù)據(jù)的大小，從而提升學(xué)習(xí)速度。

3.1 算法設(shè)計(jì)

采用IF_THEN的模糊規(guī)則，在agent受到狀態(tài)向量x后，利用模糊推理方法計(jì)算輸出空間的每一分量權(quán)值：

mi(x)表示IF_THEN規(guī)則里x的隸屬度。動(dòng)作選擇采用模糊推理的方法，實(shí)行利用策略。當(dāng)動(dòng)作由agent執(zhí)行以后，環(huán)境會(huì)給agent提供獎(jiǎng)懲信號(hào)。假設(shè)收到獎(jiǎng)勵(lì)信號(hào)r,那么模糊規(guī)則的權(quán)值表示：

其中r表示受到的獎(jiǎng)勵(lì)，wmax是wk的最大值，a'jk表示自適應(yīng)學(xué)習(xí)率。

建立的模糊規(guī)則表如表1所示。

3.2 算法的執(zhí)行

Q學(xué)習(xí)的過程為：

1）觀察目前的狀態(tài)s;

2）通過計(jì)算狀態(tài)被選中的概率，選擇確定并且執(zhí)行一個(gè)動(dòng)作a；

公式中，T表示溫度，其值的大小表示隨機(jī)程度，值越大表示隨機(jī)性就大。初始學(xué)習(xí)時(shí)，T值偏大，隨著學(xué)習(xí)的深入，T值就逐漸降低來保證學(xué)習(xí)的良好效果。

3）觀察下一個(gè)新狀態(tài)s'；

4）從環(huán)境中收到一個(gè)回報(bào)、強(qiáng)化的信號(hào)r；

5）根據(jù)狀態(tài)和動(dòng)作相應(yīng)的調(diào)整Q值；

a表示狀態(tài)動(dòng)作被選頻率，系數(shù)g＝0.9。根據(jù)Q值來調(diào)整行為融合的加權(quán)值l。等到學(xué)習(xí)結(jié)束以后，l就按照貪婪策略來取值，Q值最大的就是對(duì)應(yīng)l的加權(quán)值。

6）新狀態(tài)滿足條件，則結(jié)束本次學(xué)習(xí)；否則返回第2步執(zhí)行。

4 仿真實(shí)驗(yàn)及結(jié)果

該方法的實(shí)驗(yàn)是在機(jī)器人足球仿真平臺(tái)Robot Soccer上。在實(shí)驗(yàn)時(shí)的主要參數(shù)設(shè)為：學(xué)習(xí)率初始設(shè)為0.8，折扣因子0.9，選擇動(dòng)作時(shí)按照隨機(jī)策略。

圖2 Q學(xué)習(xí)曲線圖

表1 模糊規(guī)則表

圖3 凈勝球統(tǒng)計(jì)對(duì)比圖

圖2表示的是機(jī)器人的進(jìn)攻策略Q值，可以發(fā)現(xiàn)學(xué)習(xí)步數(shù)的增加，Q值迅速上升，到300步左右時(shí)，Q值就基本穩(wěn)定在0.35。可見，模糊Q學(xué)習(xí)效果好、速度快。

接著分別采用傳統(tǒng)的經(jīng)驗(yàn)策略和模糊Q學(xué)習(xí)算法策略兩種方式進(jìn)行凈勝球比賽統(tǒng)計(jì)，結(jié)果如圖3所示。

在圖3中進(jìn)行了500場(chǎng)次的比賽，統(tǒng)計(jì)結(jié)果表明，傳統(tǒng)的按照專家經(jīng)驗(yàn)的凈勝球明顯沒有優(yōu)勢(shì)和規(guī)律性，基本上在0上下震蕩。而模糊Q學(xué)習(xí)模型就呈上升趨勢(shì)，剛開始學(xué)習(xí)的階段，輸?shù)谋容^多，沒有經(jīng)驗(yàn)的策略來得好。這說明系統(tǒng)還在學(xué)習(xí)，但隨著比賽場(chǎng)次的增加，Q學(xué)習(xí)的不斷改進(jìn)開始逐漸顯示其優(yōu)勢(shì)了，曲線明顯上升，凈勝球開始變成正值。到后來曲線走向開始變得平緩，是因?yàn)椴捎媚：齉學(xué)習(xí)方法后已經(jīng)學(xué)到了比賽對(duì)方的大部分策略。實(shí)驗(yàn)結(jié)果表明，模糊Q學(xué)習(xí)策略很有效。

5 結(jié)束語

多機(jī)器人相互協(xié)作問題是機(jī)器人技術(shù)中的重要課題，本人設(shè)計(jì)了一個(gè)決策系統(tǒng)模型，首先分析了傳統(tǒng)Q學(xué)習(xí)算法并指出其學(xué)習(xí)速度慢、收斂性差的不足，提出了模糊Q學(xué)習(xí)算法，建立了模糊規(guī)則庫，將眾多的實(shí)際狀態(tài)映射成不多的模糊狀態(tài)，減小了狀態(tài)空間又提高了速度；然后設(shè)計(jì)了算法的學(xué)習(xí)過程等；最后通過仿真平臺(tái)Robot Soccer將傳統(tǒng)的經(jīng)驗(yàn)策略和模糊Q學(xué)習(xí)策略比較，實(shí)驗(yàn)結(jié)果表明模糊Q學(xué)習(xí)算法的速度比較快、效果更好。

[1]張汝波, 楊廣銘. Q學(xué)習(xí)及其在智能機(jī)器人局部路徑規(guī)劃中的應(yīng)用研究[J]. 計(jì)算機(jī)研究與發(fā)展, 1999, 36(12):1430-1436.

[2]劉金餛. 機(jī)器人控制系統(tǒng)的設(shè)計(jì)與Matlab仿真[M]. 北京:清華大學(xué)出版社, 2008.

[3]vincente Feliu, Jose A.Somolinos, Andres Garcia.Inverse Dynamics Based ControI System for a Three-Degree-of-reedom Flexible Arm[J]. IEEE Trans.on Robotics and Auomation. 2003. 12(6): 1007-1014.

[4]Chang Deng. Meng Joo Er. Automatic generation of fuzzy inference systems by dynamic fuzzy Q-learning[C].Systems, Man and Cybernetics，2003. IEEE International Conference on, Volume：4, Oct. 5-8, 2003, 3206-321.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡