曹 潔,朱寧寧
蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,蘭州 730050
動(dòng)態(tài)環(huán)境中的多機(jī)器人協(xié)同搬運(yùn)
曹 潔,朱寧寧
蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,蘭州 730050
多機(jī)器人系統(tǒng)是一個(gè)集環(huán)境感知、動(dòng)態(tài)決策、行為執(zhí)行等多功能的復(fù)雜系統(tǒng)。隨著多機(jī)器人在工業(yè)生產(chǎn)、醫(yī)療服務(wù)、航空航天等方面的應(yīng)用,多機(jī)器人協(xié)作成為機(jī)器人學(xué)研究的熱點(diǎn)。而多機(jī)器人協(xié)同搬運(yùn)問題無論是在理論層面還是在應(yīng)用上都有著非常廣闊的研究價(jià)值,一方面在真實(shí)的物理世界中,單個(gè)機(jī)器人通常無法完成很多任務(wù),另一方面,它也是研究多機(jī)器人協(xié)同任務(wù)的一個(gè)重要平臺(tái)[1]。
針對(duì)多機(jī)器人的避障問題,已經(jīng)提出了很多的方法,如模擬市場法、柵格法和基于行為的控制方法等?;谛袨榈目刂品椒ㄓ芍斯ぶ悄軐<襌.Brooks首先提出來,較于傳統(tǒng)方法,具有魯棒性好、快速性[2]等優(yōu)點(diǎn)而得到廣泛關(guān)注。由于多機(jī)器人工作環(huán)境的易變性和不可預(yù)見性,需要多機(jī)器人盡可能的適應(yīng)環(huán)境,以提高學(xué)習(xí)和決策能力。Q學(xué)習(xí)[3-4]無需建立環(huán)境模型,且可在線學(xué)習(xí),被用于多機(jī)器人避障問題中,但是,并不十分理想。這是因?yàn)殡S著多機(jī)器人數(shù)量增加,學(xué)習(xí)空間也快速增大,造成了學(xué)習(xí)速度非常緩慢,且環(huán)境信息不完備時(shí),聯(lián)合學(xué)習(xí)模型也難以適用。有學(xué)者將Q學(xué)習(xí)中的“狀態(tài)-動(dòng)作對(duì)”替換為“條件-行為對(duì)”,雖具有一定的有效性,但還是無法克服此問題;分布式兩層強(qiáng)化學(xué)習(xí)算法也被用于多機(jī)器人協(xié)作中,實(shí)驗(yàn)驗(yàn)證了其實(shí)際功能,但仍無法較大地減小存儲(chǔ)空間;將基于動(dòng)作預(yù)測的強(qiáng)化學(xué)習(xí)算法用于多機(jī)器人協(xié)同搬運(yùn)問題會(huì)大大促進(jìn)協(xié)作性能,缺點(diǎn)是在環(huán)境信息較少或者機(jī)器人存在自私目標(biāo)的情況下難以適用。Q學(xué)習(xí)是通過獎(jiǎng)勵(lì)值來強(qiáng)化正確的行為,它是一種數(shù)值分析方法,此方法忽略了多機(jī)器人的推理能力,而引入BDI模型能夠有效解決Q學(xué)習(xí)推理能力較弱的弊端[5-6],因此本文中的多機(jī)器人采用基于BDI模型的獨(dú)立強(qiáng)化學(xué)習(xí),使得多機(jī)器人學(xué)習(xí)過程不僅擁有強(qiáng)化學(xué)習(xí)的自適應(yīng)性和高度反應(yīng)性,而且擁有了推理功能。
本論文的創(chuàng)新點(diǎn)有:(1)本文將強(qiáng)化學(xué)習(xí)算法、BDI模型、基于行為的協(xié)同方法三者結(jié)合運(yùn)用于多機(jī)器人協(xié)同搬運(yùn)問題,并從仿真實(shí)驗(yàn)看,取得了較好的效果。(2)本文采用強(qiáng)化學(xué)習(xí)的評(píng)價(jià)函數(shù)是隨多機(jī)器人系統(tǒng)位置及離最近障礙物距離而變化的,評(píng)價(jià)函數(shù)可實(shí)時(shí)更新,并將其與基于強(qiáng)化學(xué)習(xí)的行為權(quán)重相結(jié)合,都使得本實(shí)驗(yàn)取得良好仿真效果。
馬爾可夫決策過程[7]中,多機(jī)器人所處的環(huán)境狀態(tài)表示為狀態(tài)集合動(dòng)作集合描述為多機(jī)器人在狀態(tài)st下,選擇動(dòng)作at并且執(zhí)行。同時(shí),狀態(tài)轉(zhuǎn)換為st+1,然后從環(huán)境中得到了強(qiáng)化信號(hào)rt。
Q學(xué)習(xí)是一類被廣泛應(yīng)用的強(qiáng)化學(xué)習(xí)算法[8],它用函數(shù)Q(x,a )表達(dá)與各個(gè)狀態(tài)相對(duì)應(yīng)的動(dòng)作的評(píng)估。其表達(dá)式為:
由于強(qiáng)化學(xué)習(xí)系統(tǒng)的目的是使得總的獎(jiǎng)勵(lì)值達(dá)到最大,因此,用可得:
在時(shí)刻t,多機(jī)器人根據(jù)當(dāng)前的狀態(tài)選擇一個(gè)動(dòng)作a,然后,根據(jù)以下表達(dá)式更新Q值:
“信念-愿望-意向”(BDI)多機(jī)器人系統(tǒng)根據(jù)內(nèi)部的心智狀態(tài)產(chǎn)生動(dòng)作進(jìn)而影響周圍環(huán)境。BDI多機(jī)器人系統(tǒng)有3個(gè)主要心智狀態(tài):信念(belief),愿望(desire)和意向(intention),分別代表多機(jī)器人所具有的信息、動(dòng)機(jī)和決策。而在多機(jī)器人BDI模型中,信念代表多機(jī)器人對(duì)當(dāng)前的環(huán)境與自身可能要采取的行為估計(jì);愿望代表多機(jī)器人對(duì)未來環(huán)境與自身可能要采取行為的喜好;意向代表多機(jī)器人為了達(dá)到某個(gè)目的做出的承諾。
BDI Robot的求解意見過程驅(qū)動(dòng)手段-目的的推理,同時(shí)還需要滿足幾個(gè)其他的約束:產(chǎn)生的意見必須和Robot當(dāng)前的信念及意圖一致;其次,應(yīng)能識(shí)別環(huán)境變化的趨勢,提供Robot獲得意圖的新方法或者新的可能性。一個(gè)BDI Robot慎思過程用過濾函數(shù)表示,過濾函數(shù)根據(jù)Robot當(dāng)前的意圖、信念和愿望來刷新Robot的意圖。它需要丟棄無法完成的或者已經(jīng)無意義的意圖,為不能實(shí)現(xiàn)的意圖選擇新的實(shí)現(xiàn)方法及意圖。
在多機(jī)器人系統(tǒng)體系結(jié)構(gòu)中可由E(環(huán)境)引起最初的變化。當(dāng)環(huán)境變化時(shí),機(jī)器人將收到新的信息來更新自身的bel(信念)。通過環(huán)境感知函數(shù)sence,機(jī)器人可感知到環(huán)境的變化。每當(dāng)環(huán)境發(fā)生變化,機(jī)器人將及時(shí)更新自身的bel(信念)以滿足新的變化的要求。機(jī)器人的bel是在開放的環(huán)境下,處于動(dòng)態(tài)變化之中。Bel變化將引起des(愿望)變動(dòng),des變動(dòng)會(huì)影響int(意向)的選擇及要采取的行為,最終影響整個(gè)環(huán)境發(fā)生變化。機(jī)器人的變動(dòng)為一種鏈?zhǔn)椒磻?yīng),E變化引起bel、des和int變化,最終又影響到E。
此動(dòng)態(tài)模型的具體定義:
(4)感知函數(shù)sence:ρ(bel)×e→ρ(bel),該函數(shù)跟據(jù)當(dāng)前對(duì)環(huán)境的感知和信念確定新的信念集合。
(5)意見函數(shù)opinion:ρ(bel)×ρ(int)→ρ(des),該函數(shù)跟據(jù)當(dāng)前環(huán)境的感知和意圖的執(zhí)行確定一個(gè)新目標(biāo)。
(6)過濾函數(shù)filter:ρ(bel)×ρ(des)×ρ(int)→ρ(int),該函數(shù)依據(jù)Robot當(dāng)前的意圖、信念及愿望更新Robot的意圖。
(7)行為函數(shù)action:Roti×ρ(int)→Roti×E,若i=j為內(nèi)部行為,若i≠j,則為外部行為。
{S,G,R,B,D,I,λ}中,S為離散的狀態(tài)空間,G為協(xié)同求解的目標(biāo),R為多機(jī)器人的集合,B為多機(jī)器人的信念集合,D為多機(jī)器人的愿望集合,I為多機(jī)器人的意圖集合,λ={λ1,λ2,…,λn}為多機(jī)器人問題求解時(shí)的價(jià)值系數(shù)集合,λ∈(0,1)。通常情況下,由于每個(gè)Robot都是依據(jù)自身的局部規(guī)劃來進(jìn)行局部求解,卻不考慮其他Robot的動(dòng)作規(guī)劃,因此Robot之間必然會(huì)存在意圖沖突,從而使式(8)成立:
意圖是多機(jī)器人系統(tǒng)的內(nèi)部動(dòng)力,而不穩(wěn)定性主要源于意圖沖突。由動(dòng)力學(xué)理論,系統(tǒng)的運(yùn)動(dòng)總趨向穩(wěn)定平衡態(tài)而遠(yuǎn)離不穩(wěn)定平衡態(tài)。針對(duì)多機(jī)器人系統(tǒng),不管是協(xié)作還是沖突,最終總要達(dá)到某個(gè)穩(wěn)定點(diǎn)或平衡點(diǎn)。如果將系統(tǒng)內(nèi)的多機(jī)器人分為兩部分:意圖有沖突的Robot與意圖無沖突的Robot,則可把系統(tǒng)看作雙矩陣對(duì)策系統(tǒng)。依據(jù)Nash定理,它必然存在混合策略平衡。若假定所有Robot學(xué)習(xí)同一個(gè)Nash平衡,這將使得每一個(gè)Robot的選擇能夠最優(yōu)地響應(yīng)其他Robot的選擇,因此式(9)得以成立:
這樣在系統(tǒng)中,所有Robot能夠追求共同最優(yōu)解,即追求最大限度地實(shí)現(xiàn)整體聯(lián)合意圖。
信息完備時(shí),聯(lián)合學(xué)習(xí)模型能有效實(shí)現(xiàn)多機(jī)器人協(xié)作,但當(dāng)機(jī)器人得不到完整信息時(shí),此方法難以使用。在信息不完備的情況下,多機(jī)器人采用獨(dú)立學(xué)習(xí)的方式。機(jī)器人不知道其他機(jī)器人的行為策略,每個(gè)機(jī)器人進(jìn)行獨(dú)立學(xué)習(xí),它依據(jù)自身得到的獎(jiǎng)勵(lì)維護(hù)狀態(tài)動(dòng)作對(duì)的Q值表,每一Q值表示某個(gè)優(yōu)化策略在此狀態(tài)動(dòng)作對(duì)的獎(jiǎng)勵(lì)值。已有文獻(xiàn)[9]證明了信息不完備時(shí)采用此規(guī)則進(jìn)行獨(dú)立強(qiáng)化學(xué)習(xí)能使得多機(jī)器人協(xié)作決策過程得以收斂。多機(jī)器人之間不能交互行為策略時(shí),某一狀態(tài),多機(jī)器人依據(jù)Q值表執(zhí)行動(dòng)作,且根據(jù)反饋得到的獎(jiǎng)勵(lì)值更新Q值表。
BDI模型通過形式化心智成分和邏輯推理實(shí)現(xiàn)多機(jī)器人行為的自主性和理性,強(qiáng)化學(xué)習(xí)通過感知環(huán)境狀態(tài)和得到的獎(jiǎng)勵(lì)值學(xué)習(xí)系統(tǒng)的最優(yōu)行為策略。單獨(dú)使用符號(hào)推理的邏輯方法無法使得效用最佳,而數(shù)值分析的強(qiáng)化學(xué)習(xí)也忽略了推理的環(huán)節(jié),對(duì)于多機(jī)器人系統(tǒng)來說,既需要對(duì)于環(huán)境信息推理,又要經(jīng)過學(xué)習(xí)不斷地強(qiáng)化正確行為使之得到最大的收益,因此,將強(qiáng)化學(xué)習(xí)和BDI模型結(jié)合起來研究多機(jī)器人協(xié)作問題。
3.1 基于權(quán)重的行為機(jī)制
搬運(yùn)物體分為兩個(gè)部分:(1)躲避障礙物;(2)向目標(biāo)區(qū)域前進(jìn)。在整個(gè)多機(jī)器人的協(xié)同搬運(yùn)中,都是由這兩個(gè)行為組成,但是,每個(gè)行為重要性是不同的。描述為:
其中,Weightavoid和Weightbin是躲避障礙物和向目標(biāo)區(qū)域前進(jìn)的權(quán)重。MS-AVOID-OBSTACLES、MS-MOVE-TO-OBJECTBIN分別代表躲避障礙物、向目標(biāo)區(qū)域前進(jìn)兩個(gè)行為。
3.2 基于強(qiáng)化學(xué)習(xí)的行為權(quán)重
多機(jī)器人協(xié)同搬運(yùn)過程中,不同的行為具有各自的權(quán)重,且在不相同的環(huán)境中各行為的重要性也有區(qū)別,為了能夠使得行為權(quán)重依據(jù)環(huán)境自動(dòng)進(jìn)行調(diào)整,采取了強(qiáng)化學(xué)習(xí)自動(dòng)學(xué)習(xí)理想的權(quán)重組合,以使得機(jī)器人能夠像人類一樣的學(xué)習(xí),完成協(xié)同搬運(yùn)過程。
學(xué)習(xí)初期,各行為權(quán)重都設(shè)有初始值,學(xué)習(xí)過程中,根據(jù)環(huán)境反饋的信息,運(yùn)用評(píng)價(jià)函數(shù)r對(duì)權(quán)重評(píng)價(jià),當(dāng)完成一次協(xié)同搬運(yùn)后,此權(quán)重就會(huì)被重新進(jìn)行計(jì)算:
若完成協(xié)同搬運(yùn)過程,則r為正,就使得當(dāng)前權(quán)重值增大;當(dāng)未完成時(shí),r為負(fù)值,使得當(dāng)前權(quán)重值減小。評(píng)價(jià)函數(shù)定義為:
式中,xavg表示在tmin時(shí)間間隔內(nèi),多機(jī)器人系統(tǒng)的位置;xt表示最近障礙物的位置;a是安全閾值。
3.3 距離最近原則的多機(jī)器人協(xié)同搬運(yùn)
距離最近原則即為在全部協(xié)同搬運(yùn)的多機(jī)器人中,選擇距離障礙物最近的機(jī)器人作為主機(jī)器人,由其發(fā)出指令進(jìn)而控制其他的機(jī)器人執(zhí)行動(dòng)作。如式(12)。在搬運(yùn)過程中,設(shè)離障礙物最近的作為主機(jī)器人,指揮其他從機(jī)器人行動(dòng)。
其中,Rmain為主機(jī)器人,Rn為n號(hào)機(jī)器人,DistanceRmin為機(jī)器人距離障礙物最近的距離,DistanceRn為機(jī)器人N到障礙物的距離。
4.1 實(shí)驗(yàn)場景
為了驗(yàn)證將BDI模型和強(qiáng)化學(xué)習(xí)相結(jié)合引入多機(jī)器人協(xié)同搬運(yùn)過程的有效性,在仿真環(huán)境下對(duì)其進(jìn)行驗(yàn)證。四個(gè)機(jī)器人站在兩兩互成90°角的等分點(diǎn)上抬著圓桶在如圖所示的障礙物環(huán)境中,將圓桶搬運(yùn)至目的地,本次實(shí)驗(yàn)任務(wù)假定該物體是密度分布均勻的,實(shí)驗(yàn)環(huán)境如圖1所示,實(shí)心物體代表障礙物,空心圓代表整個(gè)多機(jī)器人系統(tǒng)及圓桶的出發(fā)地。
圖1 障礙物、目標(biāo)區(qū)域位置設(shè)置
其中,出發(fā)地內(nèi)圓桶與四個(gè)機(jī)器人的位置分布放大圖如圖2所示,虛線代表出發(fā)地,空心圓代表圓桶,四個(gè)實(shí)心圓分別代表四個(gè)機(jī)器人。
圖2 出發(fā)地內(nèi)四個(gè)機(jī)器人與圓桶的位置放大圖
4.2 強(qiáng)化學(xué)習(xí)單元
(1)評(píng)價(jià)函數(shù)的表示
在多機(jī)器人協(xié)同搬運(yùn)過程中,各子行為初始權(quán)重分別設(shè)置為Weightavoid=1,Weightbin=1,各權(quán)重相應(yīng)的強(qiáng)化學(xué)習(xí)評(píng)價(jià)函數(shù)如下:
(2)狀態(tài)空間的表示
多機(jī)器人系統(tǒng)的狀態(tài)空間S:
其中,dl是多機(jī)器人系統(tǒng)左側(cè)距障礙物的距離,df是多機(jī)器人系統(tǒng)前方距障礙物的距離,dr是多機(jī)器人系統(tǒng)右側(cè)距障礙物的距離,dg是多機(jī)器人系統(tǒng)與目標(biāo)點(diǎn)之間的距離,
θ是多機(jī)器人系統(tǒng)當(dāng)前方向與目標(biāo)點(diǎn)的夾角。用這5個(gè)量作為狀態(tài)空間的5個(gè)維度,多機(jī)器人系統(tǒng)和障礙物的距離定義
(3)動(dòng)作空間的表示
多機(jī)器人系統(tǒng)的動(dòng)作空間A:
其中,a1為機(jī)器人轉(zhuǎn)動(dòng)+15°同時(shí)前進(jìn);a2為機(jī)器人轉(zhuǎn)動(dòng)-15°同時(shí)前進(jìn);a3為機(jī)器人轉(zhuǎn)動(dòng)+10°同時(shí)前進(jìn);a4為機(jī)器人轉(zhuǎn)動(dòng)-10°同時(shí)前進(jìn);a5為機(jī)器人前進(jìn)。
t時(shí)刻多機(jī)器人系統(tǒng)的狀態(tài)St為一個(gè)五維向量:
4.3 動(dòng)作選擇策略
學(xué)習(xí)的初始階段,因其Q值是隨機(jī)初始化,所以不具任何意義。為了探索到全部可能的動(dòng)作,引入Boltzmann分布實(shí)現(xiàn)初始階段動(dòng)作的隨機(jī)選擇,某個(gè)動(dòng)作被選擇的概率為:
圖3 機(jī)器人、障礙物和目標(biāo)點(diǎn)的位置圖
式中,T為虛擬溫度,隨著溫度增加,選擇的隨機(jī)性也加強(qiáng)。
隨著學(xué)習(xí)的進(jìn)程,Q值慢慢趨向于所期望的狀態(tài)-動(dòng)作值,此時(shí),根據(jù)貪婪策略選擇動(dòng)作,即選擇最大的Q值對(duì)應(yīng)著的動(dòng)作。
為了顯示出強(qiáng)化學(xué)習(xí)算法與BDI模型結(jié)合的有效性及優(yōu)越性,共進(jìn)行了三次實(shí)驗(yàn):
(1)原始強(qiáng)化學(xué)習(xí)算法用于多機(jī)器人協(xié)同搬運(yùn),如圖4所示。
圖4 原始強(qiáng)化學(xué)習(xí)算法用于多機(jī)器人協(xié)同搬運(yùn)軌跡圖(多次學(xué)習(xí)后)
(2)強(qiáng)化學(xué)習(xí)與BDI模型用于多機(jī)器人搬運(yùn)(學(xué)習(xí)初期),如圖5所示。
圖5 強(qiáng)化學(xué)習(xí)與BDI模型用于多機(jī)器人搬運(yùn)軌跡圖(學(xué)習(xí)初期)
(3)強(qiáng)化學(xué)習(xí)與BDI模型用于多機(jī)器人協(xié)同搬運(yùn),如圖6所示。
圖6 強(qiáng)化學(xué)習(xí)與BDI模型用于多機(jī)器人協(xié)同搬運(yùn)軌跡圖
并且,比較了強(qiáng)化學(xué)習(xí)-BDI模型結(jié)合與原始強(qiáng)化學(xué)習(xí)算法的循環(huán)次數(shù)與成功次數(shù)的效果,如圖7所示。
圖7 循環(huán)次數(shù)與成功次數(shù)的仿真結(jié)果
4.4 實(shí)驗(yàn)結(jié)果與分析
由圖4和圖7可以看出,原始強(qiáng)化學(xué)習(xí)算法在多機(jī)器人協(xié)同搬運(yùn)過程中,經(jīng)過較多次學(xué)習(xí),機(jī)器人還是總與障礙物相撞,這是因?yàn)閺?qiáng)化學(xué)習(xí)算法存儲(chǔ)空間很大,學(xué)習(xí)速度很慢,并且不具備推理能力,在環(huán)境信息不完備的情況下,聯(lián)合學(xué)習(xí)模型難以適用;將BDI模型與強(qiáng)化學(xué)習(xí)結(jié)合起來用于多機(jī)器人協(xié)同搬運(yùn)時(shí),多機(jī)器人系統(tǒng)在一個(gè)存在隨機(jī)設(shè)置障礙物的環(huán)境中運(yùn)行,在初始階段,由于多機(jī)器人處于隨機(jī)選擇動(dòng)作的階段,因此運(yùn)行中路線不平滑;但是經(jīng)過多次學(xué)習(xí)后,多機(jī)器人能夠?qū)崿F(xiàn)在躲避障礙物的條件下順利到達(dá)目標(biāo)區(qū)域,并且運(yùn)行軌跡比較平滑。隨著學(xué)習(xí)的持續(xù),運(yùn)行效果也越來越好。這是因?yàn)锽DI模型的引入能夠有效解決強(qiáng)化學(xué)習(xí)推理能力弱的問題。
將多機(jī)器人系統(tǒng)的獨(dú)立強(qiáng)化學(xué)習(xí)與BDI模型相結(jié)合,使得多機(jī)器人系統(tǒng)不僅具有強(qiáng)化學(xué)習(xí)的自適應(yīng)性和高度反應(yīng)性,而且也擁有了BDI模型的推理能力,這就使只用數(shù)值分析卻忽略推理環(huán)節(jié)的強(qiáng)化學(xué)習(xí)方法結(jié)合了邏輯推理方法。在使用此方法后,有效地減少了多機(jī)器人系統(tǒng)與障礙物發(fā)生碰撞的次數(shù),增大了實(shí)現(xiàn)協(xié)同搬運(yùn)的成功率,具有良好的學(xué)習(xí)效果。仿真結(jié)果也表明了此方法的有效性,可以滿足多機(jī)器人系統(tǒng)的要求。本文主要是把此方法用在靜障礙物的情形下,今后的工作是把此方法應(yīng)用到更為復(fù)雜的環(huán)境中,實(shí)現(xiàn)更多的功能。
[1]Bauer A,Wollherr D,Buss M.Human-robot collaboration:a survey[J].International Journal of Humanoid Robotics,2008,5(1):47-66.
[2]Jan G E,Chang K Y,Parberry I.Optimal path planning for mobile robotnavigation[J].IEEE-ASME Transactionson Mechatronics,2008,13(4):451-460.
[3]Busoniu L,Babuska R,De Schutter B.A comprehensive survey ofmultiagentreinforcementlearning[J].IEEE Transactions on Systems,Man and Cybernetics,2008,38(2):156-172.
[4]Hwang K S,Ko Y C,Alouini M S.Performance analysis of incremental opportunistic relaying over identically and nonidentically distributed cooperative paths[J].IEEE Trans on Wireless Commun,2009,8(4):1953-1961.
[5]樸松昊,孫立寧,鐘秋波.動(dòng)態(tài)環(huán)境下的多智能體機(jī)器人協(xié)作模型[J].華中科技大學(xué)學(xué)報(bào),2008,36(10):39-52.
[6]樊建,鄭昌陸,費(fèi)敏銳.基于角色變換和強(qiáng)化學(xué)習(xí)的多機(jī)器人協(xié)同仿真[J].系統(tǒng)仿真學(xué)報(bào),2009,21(21):6964-6967.
[7]顏振亞,鄭寶玉,林志偉.無線傳感器網(wǎng)絡(luò)中機(jī)會(huì)協(xié)作傳輸及其性能研究[J].電子與信息學(xué)報(bào),2009,31(1):215-218.
[8]Gosavi A.Reinforcement learning:a tutorial survey and recent advances[J].INFORMS Journal on Computing,2009,21(2):178-192.
[9]Juang C F,Hsu C H.Reinforcement interval type-2 fuzzy controller design by online rule generation and Q-value-aided antcolony optimization[J].IEEE Transon Systems,Man and Cybernetics Part B,2009,39(6):1528-1542.
CAO Jie,ZHU Ningning
College of Computer and Communication,Lanzhou University of Technology,Lanzhou 730050,China
In the multi-robot cooperative carrying process,traditional reinforcement learning only uses numerical analysis and ignored reasoning approach.To solve this problem,independence reinforcement learning for multi-robot combines with Belief-Desire-Intention(BDI)model,which makes reinforcement learning link logical reasoning capabilities.And the distance nearest principle is employed which means that the nearest robot ranged from obstacles is the leader robot to control other robots move.Evaluation function which changes with the location of multi-robot and the barriers is proposed,and it combines with the behavior weight based on reinforcement learning which becomes more and more optimized through constantly interacting with the environment.Simulation results show that this method is feasible,and the cooperative carrying process can be successfully achieved. Key words:multi-robot;reinforcement learning;cooperative carrying;obstacle avoidance
在多機(jī)器人協(xié)同搬運(yùn)過程中,針對(duì)傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法僅使用數(shù)值分析卻忽略了推理環(huán)節(jié)的問題,將多機(jī)器人的獨(dú)立強(qiáng)化學(xué)習(xí)與“信念-愿望-意向”(BDI)模型相結(jié)合,使得多機(jī)器人系統(tǒng)擁有了邏輯推理能力,并且,采用距離最近原則將離障礙物最近的機(jī)器人作為主機(jī)器人,并指揮從機(jī)器人運(yùn)動(dòng),提出隨多機(jī)器人系統(tǒng)位置及最近障礙物位置變化的評(píng)價(jià)函數(shù),同時(shí)將其與基于強(qiáng)化學(xué)習(xí)的行為權(quán)重結(jié)合運(yùn)用,在多機(jī)器人通過與環(huán)境不斷交互中,使行為權(quán)重逐漸趨向最佳。仿真實(shí)驗(yàn)表明,該方法可行,能夠成功實(shí)現(xiàn)協(xié)同搬運(yùn)過程。
多機(jī)器人;強(qiáng)化學(xué)習(xí);協(xié)同搬運(yùn);避障
A
TP242
10.3778/j.issn.1002-8331.1202-0215
CAO Jie,ZHU Ningning.Multi-robot cooperative carrying in dynamic environment.Computer Engineering and Applications,2013,49(23):252-256.
曹潔(1966—),女,博士生導(dǎo)師,教授,主要研究領(lǐng)域?yàn)橹悄芙煌ㄏ到y(tǒng)、信息融合理論及應(yīng)用;朱寧寧(1986—),女,碩士。E-mail:307516638@qq.com
2012-02-13
2012-03-23
1002-8331(2013)23-0252-05
CNKI出版日期:2012-06-15 http://www.cnki.net/kcms/detail/11.2127.TP.20120615.1726.038.html