国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

模糊學(xué)習(xí)算法機(jī)器人相互協(xié)作模型研究

2012-08-26 08:05:38吳永琢
制造業(yè)自動(dòng)化 2012年18期
關(guān)鍵詞:決策規(guī)則機(jī)器人

吳永琢

WU Yong-zhuo

(青島酒店管理職業(yè)技術(shù)學(xué)院,青島 266100)

0 引言

在多機(jī)器人系統(tǒng)中逐漸采用多智能體技術(shù),例如足球機(jī)器人就是其典型。它要求在復(fù)雜環(huán)境下,實(shí)現(xiàn)機(jī)器人的控制和相互協(xié)作。行為學(xué)習(xí)能夠有效提高機(jī)器人的適應(yīng)能力,傳統(tǒng)的方式得到的信號(hào)并不理想。決策體系結(jié)構(gòu)是整個(gè)系統(tǒng)的關(guān)鍵,本文選擇了強(qiáng)化學(xué)習(xí)算法,同時(shí)引入了具有專家經(jīng)驗(yàn)的模糊推理來彌補(bǔ)Q學(xué)習(xí)收斂性較差的缺點(diǎn)。通過建立模糊規(guī)則庫,并且根據(jù)狀態(tài)和動(dòng)作不斷調(diào)整Q學(xué)習(xí)參數(shù),提高決策系統(tǒng)的自適應(yīng)能力和速度。通過仿真實(shí)驗(yàn),證明模糊Q學(xué)習(xí)算法的效果。

1 決策結(jié)構(gòu)模型

決策系統(tǒng)通過感知器接收視覺系統(tǒng)收集的賽場(chǎng)的綜合信息,并分析信息、建立規(guī)則庫、Q學(xué)習(xí)、決定策略,最后將它們發(fā)送給通信系統(tǒng)。機(jī)器人的決策系統(tǒng)結(jié)構(gòu)如圖1所示,包括:模糊化模塊、模糊規(guī)則庫、Q學(xué)習(xí)單元、行為融合等。它主要負(fù)責(zé)決策進(jìn)攻、防守,分析實(shí)時(shí)的現(xiàn)場(chǎng)環(huán)境、對(duì)方策略,利用模糊的Q學(xué)習(xí)算法對(duì)決策模塊進(jìn)行優(yōu)化,然后將指令發(fā)送給機(jī)器人,控制它們的行動(dòng)方式是進(jìn)攻或避障。

圖1 決策模型結(jié)構(gòu)圖

2 Q學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,是從環(huán)境到行為的映射學(xué)習(xí),在機(jī)器人、智能控制等領(lǐng)域有許多應(yīng)用。強(qiáng)化學(xué)習(xí)通過動(dòng)作-評(píng)價(jià)獲取知識(shí),不斷改進(jìn)方案來適應(yīng)周圍環(huán)境。Q學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)中的一種,它和模型無關(guān)。

Q 學(xué)習(xí)方法的待學(xué)習(xí)目標(biāo)函數(shù)用Q(s, a)表示,計(jì)算公式為:

其中0≤g≤1,r(s, a)表示立即回報(bào),V×(s)是最優(yōu)策略值。

在 Q學(xué)習(xí)中選擇動(dòng)作采用概率方法,選擇動(dòng)作ai的概率表示為:

將評(píng)估函數(shù)推導(dǎo)后得到:

進(jìn)入老齡化社會(huì)以來,福利國家的經(jīng)驗(yàn)促使中國政府也認(rèn)識(shí)到國家必須為日益增多的老年人提供適當(dāng)?shù)纳畋U?承擔(dān)起必要的照顧和幫助老年人的責(zé)任。2000年開始采取一系列措施解決老年人的養(yǎng)老問題,其中最重要的就是調(diào)動(dòng)和引導(dǎo)社會(huì)力量提供老年服務(wù)。而這個(gè)階段與改革開放初期福利化改革的根本區(qū)別在于強(qiáng)化國家責(zé)任和推進(jìn)社會(huì)化進(jìn)程的并行及有效平衡。養(yǎng)老服務(wù)業(yè)管理體制的核心是理順和規(guī)范政府和社會(huì)的關(guān)系,既要充分發(fā)揮政府的主導(dǎo)作用,又要充分發(fā)揮社會(huì)力量的主體作用;政府部門職責(zé)權(quán)限邊界明確,社會(huì)力量權(quán)利義務(wù)具體清晰。

當(dāng)Agent 應(yīng)用在空間連續(xù)的環(huán)境,Q學(xué)習(xí)算法在連續(xù)的狀態(tài)空間和動(dòng)作空間的離散化, 效率低、收斂慢,因此本文提出基于模糊的Q學(xué)習(xí)算法來處理例如足球機(jī)器人比賽等多人相互協(xié)作的狀態(tài)。

3 模糊Q學(xué)習(xí)算法和實(shí)現(xiàn)

足球賽場(chǎng)情況瞬息萬變,因此狀態(tài)空間數(shù)據(jù)量龐大,用Q學(xué)習(xí)算法會(huì)需要比較長的學(xué)習(xí)過程,因此本文在Q學(xué)習(xí)算法上將其優(yōu)化,通過建立一個(gè)模糊規(guī)則庫,將龐大的實(shí)際狀態(tài)轉(zhuǎn)化成為數(shù)不多的模糊狀態(tài),大大降低了狀態(tài)空間數(shù)據(jù)的大小,從而提升學(xué)習(xí)速度。

3.1 算法設(shè)計(jì)

采用IF_THEN的模糊規(guī)則,在agent受到狀態(tài)向量x后,利用模糊推理方法計(jì)算輸出空間的每一分量權(quán)值:

mi(x)表示IF_THEN規(guī)則里x的隸屬度。動(dòng)作選擇采用模糊推理的方法,實(shí)行利用策略。當(dāng)動(dòng)作由agent執(zhí)行以后,環(huán)境會(huì)給agent提供獎(jiǎng)懲信號(hào)。假設(shè)收到獎(jiǎng)勵(lì)信號(hào)r,那么模糊規(guī)則的權(quán)值表示:

其中r表示受到的獎(jiǎng)勵(lì),wmax是wk的最大值,a'jk表示自適應(yīng)學(xué)習(xí)率。

建立的模糊規(guī)則表如表1所示。

3.2 算法的執(zhí)行

Q學(xué)習(xí)的過程為:

1)觀察目前的狀態(tài)s;

2)通過計(jì)算狀態(tài)被選中的概率,選擇確定并且執(zhí)行一個(gè)動(dòng)作a;

公式中,T表示溫度,其值的大小表示隨機(jī)程度,值越大表示隨機(jī)性就大。初始學(xué)習(xí)時(shí),T值偏大,隨著學(xué)習(xí)的深入,T值就逐漸降低來保證學(xué)習(xí)的良好效果。

3)觀察下一個(gè)新狀態(tài)s';

4)從環(huán)境中收到一個(gè)回報(bào)、強(qiáng)化的信號(hào)r;

5)根據(jù)狀態(tài)和動(dòng)作相應(yīng)的調(diào)整Q值;

a表示狀態(tài)動(dòng)作被選頻率,系數(shù)g=0.9。根據(jù)Q值來調(diào)整行為融合的加權(quán)值l。等到學(xué)習(xí)結(jié)束以后,l就按照貪婪策略來取值,Q值最大的就是對(duì)應(yīng)l的加權(quán)值。

6)新狀態(tài)滿足條件,則結(jié)束本次學(xué)習(xí);否則返回第2步執(zhí)行。

4 仿真實(shí)驗(yàn)及結(jié)果

該方法的實(shí)驗(yàn)是在機(jī)器人足球仿真平臺(tái)Robot Soccer上。在實(shí)驗(yàn)時(shí)的主要參數(shù)設(shè)為:學(xué)習(xí)率初始設(shè)為0.8,折扣因子0.9,選擇動(dòng)作時(shí)按照隨機(jī)策略。

圖2 Q學(xué)習(xí)曲線圖

表1 模糊規(guī)則表

圖3 凈勝球統(tǒng)計(jì)對(duì)比圖

圖2表示的是機(jī)器人的進(jìn)攻策略Q值,可以發(fā)現(xiàn)學(xué)習(xí)步數(shù)的增加,Q值迅速上升,到300步左右時(shí),Q值就基本穩(wěn)定在0.35。可見,模糊Q學(xué)習(xí)效果好、速度快。

接著分別采用傳統(tǒng)的經(jīng)驗(yàn)策略和模糊Q學(xué)習(xí)算法策略兩種方式進(jìn)行凈勝球比賽統(tǒng)計(jì),結(jié)果如圖3所示。

在圖3中進(jìn)行了500場(chǎng)次的比賽,統(tǒng)計(jì)結(jié)果表明,傳統(tǒng)的按照專家經(jīng)驗(yàn)的凈勝球明顯沒有優(yōu)勢(shì)和規(guī)律性,基本上在0上下震蕩。而模糊Q學(xué)習(xí)模型就呈上升趨勢(shì),剛開始學(xué)習(xí)的階段,輸?shù)谋容^多,沒有經(jīng)驗(yàn)的策略來得好。這說明系統(tǒng)還在學(xué)習(xí),但隨著比賽場(chǎng)次的增加,Q學(xué)習(xí)的不斷改進(jìn)開始逐漸顯示其優(yōu)勢(shì)了,曲線明顯上升,凈勝球開始變成正值。到后來曲線走向開始變得平緩,是因?yàn)椴捎媚:齉學(xué)習(xí)方法后已經(jīng)學(xué)到了比賽對(duì)方的大部分策略。實(shí)驗(yàn)結(jié)果表明,模糊Q學(xué)習(xí)策略很有效。

5 結(jié)束語

多機(jī)器人相互協(xié)作問題是機(jī)器人技術(shù)中的重要課題,本人設(shè)計(jì)了一個(gè)決策系統(tǒng)模型,首先分析了傳統(tǒng)Q學(xué)習(xí)算法并指出其學(xué)習(xí)速度慢、收斂性差的不足,提出了模糊Q學(xué)習(xí)算法,建立了模糊規(guī)則庫,將眾多的實(shí)際狀態(tài)映射成不多的模糊狀態(tài),減小了狀態(tài)空間又提高了速度;然后設(shè)計(jì)了算法的學(xué)習(xí)過程等;最后通過仿真平臺(tái)Robot Soccer將傳統(tǒng)的經(jīng)驗(yàn)策略和模糊Q學(xué)習(xí)策略比較,實(shí)驗(yàn)結(jié)果表明模糊Q學(xué)習(xí)算法的速度比較快、效果更好。

[1]張汝波, 楊廣銘. Q學(xué)習(xí)及其在智能機(jī)器人局部路徑規(guī)劃中的應(yīng)用研究[J]. 計(jì)算機(jī)研究與發(fā)展, 1999, 36(12):1430-1436.

[2]劉金餛. 機(jī)器人控制系統(tǒng)的設(shè)計(jì)與Matlab仿真[M]. 北京:清華大學(xué)出版社, 2008.

[3]vincente Feliu, Jose A.Somolinos, Andres Garcia.Inverse Dynamics Based ControI System for a Three-Degree-of-reedom Flexible Arm[J]. IEEE Trans.on Robotics and Auomation. 2003. 12(6): 1007-1014.

[4]Chang Deng. Meng Joo Er. Automatic generation of fuzzy inference systems by dynamic fuzzy Q-learning[C].Systems, Man and Cybernetics,2003. IEEE International Conference on, Volume:4, Oct. 5-8, 2003, 3206-321.

猜你喜歡
決策規(guī)則機(jī)器人
撐竿跳規(guī)則的制定
為可持續(xù)決策提供依據(jù)
數(shù)獨(dú)的規(guī)則和演變
決策為什么失誤了
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對(duì)我國的啟示
機(jī)器人來幫你
認(rèn)識(shí)機(jī)器人
機(jī)器人來啦
認(rèn)識(shí)機(jī)器人
新闻| 衡阳市| 山东| 仁化县| 綦江县| 上杭县| 阳城县| 同仁县| 五华县| 彩票| 原阳县| 银川市| 吉林省| 丹棱县| 北川| 化德县| 乡宁县| 响水县| 青州市| 茂名市| 马关县| 清新县| 揭西县| 老河口市| 崇州市| 开封县| 石景山区| 台中市| 平果县| 邵武市| 乌苏市| 琼结县| 龙州县| 辽宁省| 理塘县| 沽源县| 平邑县| 措美县| 沐川县| 彭山县| 筠连县|