国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Sarsa(λ)強(qiáng)化學(xué)習(xí)的空間機(jī)械臂路徑規(guī)劃研究

2019-05-09 10:02帷,盧
宇航學(xué)報(bào) 2019年4期
關(guān)鍵詞:離線機(jī)械狀態(tài)

徐 帷,盧 山

(1. 上海航天控制技術(shù)研究所,上海 201109;2. 上海市空間智能控制技術(shù)重點(diǎn)實(shí)驗(yàn)室,上海 201109)

0 引 言

近年來,航天任務(wù)的日益發(fā)展對(duì)航天器的結(jié)構(gòu)和功能提出了大型化和復(fù)雜化等要求,這使得在軌服務(wù)與操作技術(shù)在諸如航天器在軌維修、模塊更換甚至大型航天器在軌建造等方向具有極大的應(yīng)用前景,但同時(shí)也存在操作的安全性和穩(wěn)定性方面的較大挑戰(zhàn)。傳統(tǒng)的研究思路是借助于操作航天器上的多源相對(duì)狀態(tài)敏感器,由航天員或地面人員遙操作決策,對(duì)捕獲機(jī)構(gòu)、飛網(wǎng)或艙外機(jī)械臂等執(zhí)行機(jī)構(gòu)輸出相應(yīng)指令以實(shí)現(xiàn)對(duì)相對(duì)狀態(tài)的控制[1]。由于存在信號(hào)傳輸?shù)奶斓卮蠡芈窌r(shí)延、不同人決策經(jīng)驗(yàn)的相異性等因素,這種完全由人參與的在軌操作都有局限性。因此,國外最新研究主要是針對(duì)在軌操作的自主、智能化任務(wù)規(guī)劃和決策等方向開展的[2]。

空間機(jī)械臂由于可利用冗余自由度來同時(shí)實(shí)現(xiàn)對(duì)目標(biāo)的捕獲和障礙物回避等復(fù)雜操作,從而易于實(shí)現(xiàn)在軌的精細(xì)化操作,因此和其他執(zhí)行機(jī)構(gòu)相比具有較大的應(yīng)用前景。為實(shí)現(xiàn)對(duì)其的平穩(wěn)控制,相關(guān)學(xué)者在其路徑規(guī)劃方面進(jìn)行了深入研究。陳鋼等[3]利用一種主任務(wù)零空間的重復(fù)運(yùn)動(dòng)規(guī)劃方法對(duì)關(guān)節(jié)角速度進(jìn)行規(guī)劃,減小了關(guān)節(jié)角與基座位姿在運(yùn)動(dòng)過程中的漂移。黃興宏等[4]將軌跡規(guī)劃問題轉(zhuǎn)換為最優(yōu)控制問題,設(shè)計(jì)了一種全程恒定基座姿態(tài)零擾動(dòng)的末端位姿軌跡規(guī)劃方法。以上文獻(xiàn)[3-4]均未涉及障礙物避碰問題。王悅等[5]提出一種試探性規(guī)劃算法,通過碰撞檢測(cè)、無碰撞目標(biāo)構(gòu)型求解、無碰撞路徑搜索算法和路徑平滑等步驟,在C空間中搜索出一條能使機(jī)械臂不與障礙發(fā)生碰撞且末端到達(dá)目標(biāo)點(diǎn)的路徑,但該方法只適用于靜態(tài)障礙物環(huán)境,且在平滑曲線時(shí)需要人工干預(yù)以合理地劃分運(yùn)動(dòng)段。文獻(xiàn)[6]基于非線性模型預(yù)測(cè)理論提出了一種避障方法,但臂桿到障礙距離的約束構(gòu)造存在一定困難。Montiel等[7]采用一種人工勢(shì)場(chǎng)法,實(shí)現(xiàn)了復(fù)雜動(dòng)態(tài)環(huán)境下的避障路徑規(guī)劃,但是此方法是根據(jù)局部信息計(jì)算獲得規(guī)劃結(jié)果,容易產(chǎn)生局部極小值而使得機(jī)械臂在障礙物附近反復(fù)運(yùn)動(dòng)造成任務(wù)失敗。羊帆等[8]基于障礙物偽距離技術(shù),采用逆幾何模型求解期望末端位姿下的連桿偽距離估計(jì)值構(gòu)造避障約束條件,進(jìn)而通過求解非線性優(yōu)化問題,獲得避障期望軌跡。

上述傳統(tǒng)思路大部分可總結(jié)為在特定的本體動(dòng)力學(xué)、目標(biāo)及障礙特性情況下對(duì)最優(yōu)規(guī)劃策略的研究。當(dāng)存在更復(fù)雜的環(huán)境未知且不確定情況時(shí),這些方法的魯棒性和可行性都面臨一定疑問。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,智能體通過與環(huán)境的交互,在多次試錯(cuò)過程中接收從環(huán)境獲得的評(píng)價(jià)反饋,逐漸學(xué)習(xí)得到不同環(huán)境狀態(tài)下的最優(yōu)行為策略[9-10]。由于滿足馬爾科夫過程的強(qiáng)化學(xué)習(xí)無需環(huán)境精確模型和先驗(yàn)知識(shí),而僅需感知環(huán)境狀態(tài),就能完成從環(huán)境狀態(tài)到動(dòng)作映射的學(xué)習(xí),且其在線運(yùn)行時(shí)還能針對(duì)動(dòng)態(tài)變化的環(huán)境進(jìn)行策略的實(shí)時(shí)修正,因此能夠克服傳統(tǒng)決策方法的不足,在機(jī)器人決策與控制領(lǐng)域已經(jīng)得到一定應(yīng)用[11-13]。

借鑒上述相關(guān)研究成果,本文以空間機(jī)械臂末端目標(biāo)跟蹤捕獲及全臂的避障任務(wù)為研究背景,在對(duì)機(jī)械臂-目標(biāo)-障礙進(jìn)行三維空間運(yùn)動(dòng)學(xué)關(guān)系分析的基礎(chǔ)上,設(shè)計(jì)符合強(qiáng)化學(xué)習(xí)應(yīng)用要求的二維狀態(tài)變量和擬合獎(jiǎng)賞函數(shù),利用結(jié)合資格跡的Sarsa(λ)強(qiáng)化學(xué)習(xí)算法進(jìn)行各臂轉(zhuǎn)動(dòng)動(dòng)作的強(qiáng)化訓(xùn)練,仿真結(jié)果表明由本算法得到的各臂的最終狀態(tài)-動(dòng)作值函數(shù)表可作為機(jī)械臂在線路徑規(guī)劃的決策依據(jù),該表后期在線自主調(diào)整能力亦較強(qiáng),因而驗(yàn)證了本算法較強(qiáng)的魯棒性和智能性。

1 Sarsa(λ)強(qiáng)化學(xué)習(xí)

圖1 強(qiáng)化學(xué)習(xí)基本框架Fig.1 Basic frame of reinforcement learning

強(qiáng)化學(xué)習(xí)一般需要對(duì)隨機(jī)與離散狀態(tài)這一類問題進(jìn)行建模。在實(shí)際應(yīng)用中,最常采用的是馬爾可夫決策過程(MDP)?,F(xiàn)實(shí)中MDP四元組E=S,A,P,R往往很難得知,該情形下的強(qiáng)化學(xué)習(xí)稱為免模型學(xué)習(xí)[14]。與批處理式的、通過多次采樣求取平均積累獎(jiǎng)賞來作為期望積累獎(jiǎng)賞的Monte Carlo方法相比,時(shí)序差分方法在每次試探后都利用即時(shí)獲得的獎(jiǎng)賞信號(hào)對(duì)狀態(tài)-動(dòng)作值函數(shù)Q(s,a)進(jìn)行增量式更新,因此具有較強(qiáng)的實(shí)時(shí)性和在線學(xué)習(xí)能力。

(1)

Agent的動(dòng)作選擇通常采用ε-貪心策略或者Softmax算法。這兩種算法的基本思想都是確定狀態(tài)動(dòng)作值函數(shù)Q(si,ai)到動(dòng)作ai在狀態(tài)si下被選擇概率的映射。這兩種策略表示如下:

πε-greedy(s,a)=

(2)

(3)

式中:A為動(dòng)作集中包含的基本動(dòng)作數(shù)量。

由式(2)可見,ε-貪心策略中最大的Q值對(duì)應(yīng)的動(dòng)作被選擇的概率最大,其他動(dòng)作的概率相等;而Softmax策略中各動(dòng)作的概率依據(jù)其對(duì)應(yīng)Q值不同形成Boltzmann分布,同時(shí)通過溫度參數(shù)T可進(jìn)一步調(diào)節(jié)各動(dòng)作被“探索”和“利用”的隨機(jī)水平。由于Softmax策略的靈活性,本文選擇其作為空間機(jī)械臂規(guī)劃訓(xùn)練時(shí)的動(dòng)作選擇策略。

式(1)表示的基本Sarsa算法與有效跡結(jié)合可獲得學(xué)習(xí)收斂速度更快的Sarsa(λ)算法[15]。有效跡et可按下式進(jìn)行遞推表示:

et+1(s,a)=

(4)

式中:γ是折扣因子,而λ是衰減系數(shù)。由式(4)可見,某狀態(tài)被訪問且其下某動(dòng)作被選擇得越頻繁,對(duì)應(yīng)的資格跡衰減得越慢,因此有效跡可看做是狀態(tài)-動(dòng)作對(duì)(s,a)被訪問的頻次的一種體現(xiàn)。

Sarsa(λ)算法即是將有效跡加入基本Sarsa算法的值函數(shù)增量式更新部分:

(5)

2 空間機(jī)械臂運(yùn)動(dòng)學(xué)分析

工程中常見的空間機(jī)械臂具有六或七個(gè)自由度結(jié)構(gòu)。圖2所示為典型六自由度靈巧操作機(jī)械臂,分別由2個(gè)肩關(guān)節(jié)(A和B)、一個(gè)肘關(guān)節(jié)(C)以及三個(gè)腕關(guān)節(jié)(D、E和F)組成。

圖2 空間多自由度機(jī)械臂分解結(jié)構(gòu)Fig.2 Breakdown structure of multi DOF space manipulator

2.1 路徑規(guī)劃問題描述

由圖2可見,機(jī)械臂末端在工作空間中所能到達(dá)的位置由六個(gè)關(guān)節(jié)所轉(zhuǎn)動(dòng)的角度共同決定。但是,最末的兩個(gè)關(guān)節(jié)E和F主要決定機(jī)械臂末端安裝的操作器在本體系下的姿態(tài);對(duì)于大范圍運(yùn)動(dòng)目標(biāo)跟蹤這種粗捕獲任務(wù)而言,對(duì)末端定位起主要作用的還是A~D四個(gè)關(guān)節(jié)自由度。因此,對(duì)于本文研究的路徑規(guī)劃和決策問題,可以將六自由度結(jié)構(gòu)進(jìn)行合理簡(jiǎn)化,用圖3所示的模型進(jìn)行描述。

圖3中Oxyz為機(jī)械臂在平臺(tái)上的安裝基準(zhǔn)坐標(biāo)系。θ1~θ4分別為兩個(gè)肩關(guān)節(jié)、一個(gè)肘關(guān)節(jié)a和一個(gè)腕關(guān)節(jié)b相對(duì)于其零位的轉(zhuǎn)角,當(dāng)這4個(gè)轉(zhuǎn)角均為零時(shí),機(jī)械臂初始零位沿x軸方向伸展。W為機(jī)械臂的工作平面(圖3中虛線框所示),由肩關(guān)節(jié)一的實(shí)時(shí)轉(zhuǎn)動(dòng)角度θ1確定,而其后的各關(guān)節(jié)及對(duì)應(yīng)三節(jié)臂桿(長度分別為l1、l2及l(fā)3)、末端點(diǎn)c均在W平面內(nèi)運(yùn)動(dòng)。T為末端點(diǎn)c期望跟蹤的目標(biāo)點(diǎn),M為障礙物,其在W面內(nèi)的旋轉(zhuǎn)投影點(diǎn)(即T繞z軸旋轉(zhuǎn)至到達(dá)W平面內(nèi)的點(diǎn))分別為T′和M′。

2.2 空間點(diǎn)的幾何關(guān)系

在作仿真分析時(shí),圖3所示的各點(diǎn)在運(yùn)動(dòng)過程中的空間坐標(biāo)按如下方法計(jì)算:

(6)

點(diǎn)T′和T(xT,yT,zT)、點(diǎn)M′和M(xM,yM,zM)的關(guān)系為:

(7)

3 Sarsa(λ)強(qiáng)化學(xué)習(xí)路徑規(guī)劃

3.1 環(huán)境狀態(tài)設(shè)計(jì)

根據(jù)2.1節(jié)描述,環(huán)境狀態(tài)s的設(shè)計(jì)需要能夠體現(xiàn)末端點(diǎn)c對(duì)目標(biāo)T的偏離以及各agent相對(duì)障礙M的距離。因此,這里設(shè)計(jì)由目標(biāo)偏差和障礙距離組成的二維狀態(tài)。設(shè)決策θ1~θ4轉(zhuǎn)角變化量a1~a4的智能體編號(hào)為AG1~AG4。

對(duì)于AG1而言,其主要作用是讓AG2~AG4所在的工作平面W能夠到達(dá)T(即T=T′)。在該過程中,W有可能會(huì)多次經(jīng)過M(即M=M′),但這往往是無法避免的,對(duì)M的回避主要由AG2~AG4的轉(zhuǎn)動(dòng)來實(shí)現(xiàn)。因此,AG1對(duì)應(yīng)的目標(biāo)偏差ΔT1和障礙距離ΔM1可分別定義為點(diǎn)T和T′以及M和M′相對(duì)于z軸的張角,即:

(8)

對(duì)于AG2~AG4而言,各關(guān)節(jié)轉(zhuǎn)動(dòng)只會(huì)對(duì)c在W面內(nèi)的位置產(chǎn)生影響,當(dāng)c到達(dá)T′時(shí),才算完成面內(nèi)目標(biāo)跟蹤的任務(wù)。因此,ΔT2~ΔT4表示為:

(9)

由式(9)可見,ΔTi(i=2,3,4)主要體現(xiàn)了c和T′對(duì)各關(guān)節(jié)的張角;在實(shí)際工程應(yīng)用中,通過傳感器感知該張角是容易實(shí)現(xiàn)的。

同時(shí)M與特定AGi(i=2,3,4)的距離只需考慮該臂桿線段范圍而不是整條直線,因此可考慮采用橢圓形狀的障礙距離程度評(píng)價(jià),此時(shí)臂桿兩端點(diǎn)為橢圓焦點(diǎn),當(dāng)M在運(yùn)動(dòng)過程中位于同一個(gè)橢圓上時(shí),可認(rèn)為其與臂桿的距離程度相等,發(fā)生碰撞的危險(xiǎn)性相同。以AG2為例,上述障礙距離程度如圖4所示,ΔM2-ΔM4按照式(10)進(jìn)行計(jì)算。

圖4 橢圓形障礙距離程度判據(jù)Fig.4 Elliptic criterion for degree of obstacle distance

(10)

需要說明的是,機(jī)械臂在實(shí)際工作環(huán)境中可能有多個(gè)障礙,實(shí)際應(yīng)用中AGi只需選取感知到實(shí)時(shí)距離程度最近的障礙進(jìn)行后續(xù)環(huán)境狀態(tài)的判斷。

將上述分析的目標(biāo)偏差ΔTi和障礙距離ΔMi組成二維狀態(tài)向量Si=ΔTi,ΔMi,Si即可作為AGi對(duì)自身所處完整環(huán)境的感知依據(jù)。由式(1)可知,Sarsa算法的實(shí)施需要對(duì)不同狀態(tài)及動(dòng)作分配存儲(chǔ)空間,以記錄值函數(shù)Q(sj,ak),因此為避免數(shù)據(jù)處理過程中的“維數(shù)災(zāi)”問題,這里首先對(duì)連續(xù)二維狀態(tài)Si進(jìn)行離散化劃分。如圖5所示,對(duì)于AG2~AG4,將ΔTi和ΔMi各分為6段(QS=Quite Small,S=Small,M=Middle,B=Big,VB=Very Big,QB=Quite Big;NB=Negative Big,NM=Negative Middle,NS=Negative Small,PS=Positive Small,PM=Positive Middle,PB=Positive Big),則二維狀態(tài)空間被劃分為36個(gè)區(qū)間(對(duì)每個(gè)區(qū)間對(duì)應(yīng)的二維狀態(tài)分別用兩位數(shù)字進(jìn)行編號(hào))。如圖6所示,AG1的狀態(tài)劃分類似,但ΔMi可為正負(fù),所以原點(diǎn)位置有所不同。

圖5 AG2~AG4二維狀態(tài)空間S2~S4離散劃分Fig.5 Discrete division of two-dimensional state space S2~S4 for AG2~AG4

圖6 AG1二維狀態(tài)空間S1離散劃分Fig.6 Discrete division of two-dimensional state space S1 for AG1

3.2 獎(jiǎng)賞函數(shù)設(shè)計(jì)

3.3 路徑規(guī)劃算法流程

基于上述分析,基于Sarsa(λ)強(qiáng)化學(xué)習(xí)的路徑規(guī)劃算法流程如下。

1)初始化:AGi下,對(duì)?si∈Si,ai∈Ai,令Q(si,ai)=0,e(si,ai)=0,其中Q(si,ai)和e(si,ai)分別代表si所位于的離散狀態(tài)區(qū)間下動(dòng)作ai的值函數(shù)和有效跡;設(shè)定初始溫度參數(shù)T0、試探次數(shù)Pi=0、學(xué)習(xí)周期數(shù)Ei=0;

2)AGi感知二維狀態(tài)si(0),并依據(jù)式(3)按一定概率選擇一個(gè)動(dòng)作ai(0);

3)AGi執(zhí)行所選擇的動(dòng)作ai(0);

4)AGi感知下一時(shí)刻狀態(tài)si(1);Pi++,Ti=T0/Pi;并依據(jù)式(3)按一定概率選擇動(dòng)作ai(1);

5)根據(jù)環(huán)境轉(zhuǎn)移狀態(tài)si(1)從擬合獎(jiǎng)賞函數(shù)反饋獎(jiǎng)賞值Ri[ΔTi(1),ΔMi(1)];用式(5)更新Q[si(0),ai(0)]、e[si(0),ai(0)];

6)判斷:若至少滿足以下兩條件之一,則轉(zhuǎn)7);否則轉(zhuǎn)8);

條件①:AGi與障礙物相碰;

條件②:末端點(diǎn)c到達(dá)目標(biāo)附近;

7)Ei++,Pi=0;判斷:若Ei達(dá)到設(shè)定上限值,則結(jié)束學(xué)習(xí),否則依據(jù)式(3)重新選擇動(dòng)作ai(1),并轉(zhuǎn)8)。

8)狀態(tài)及動(dòng)作更新:si(0)←si(1),ai(0)←ai(1),轉(zhuǎn)3)。

4 仿真校驗(yàn)

本部分通過在Matlab R2014a環(huán)境下建立的模型進(jìn)行仿真,驗(yàn)證上述路徑規(guī)劃各設(shè)計(jì)步驟的有效性和工程實(shí)用性。

4.1 仿真參數(shù)

機(jī)械臂結(jié)構(gòu)及初始構(gòu)型參數(shù)、障礙與目標(biāo)相對(duì)于基準(zhǔn)坐標(biāo)系的運(yùn)動(dòng)情況及強(qiáng)化學(xué)習(xí)算法參數(shù)如表1~3所示,設(shè)ω1=0.03 rad/s、ω2=0.015 rad/s。用于擬合獎(jiǎng)賞函數(shù)的離散二維狀態(tài)點(diǎn)及對(duì)應(yīng)的獎(jiǎng)賞值如表4~5所示。

由表4可見,ΔMi愈大,ΔTi的絕對(duì)值愈小,則

表1 仿真初始參數(shù)Table 1 Simulation parameter

表2 目標(biāo)運(yùn)動(dòng)參數(shù)Table 2 Target moving parameter

表4 AG2~AG4獎(jiǎng)賞函數(shù)擬合數(shù)據(jù)Table 4 Data used for reward function fitting of AG2~AG4

表5 AG1獎(jiǎng)賞函數(shù)擬合數(shù)據(jù)Table 5 Data used for reward function fitting of AG1

從環(huán)境反饋的獎(jiǎng)賞值愈大,表示對(duì)實(shí)現(xiàn)目標(biāo)跟蹤及避障的獎(jiǎng)勵(lì);反之,ΔMi愈小,ΔTi的絕對(duì)值愈大,則從環(huán)境反饋的獎(jiǎng)賞值愈小,表示對(duì)狀態(tài)背離任務(wù)目標(biāo)的懲罰。表5亦可作類似的解讀。

將表4和表5數(shù)據(jù)用雙立方插值方法進(jìn)行曲面擬合,可得到如圖7和圖8所示的連續(xù)二維狀態(tài)空間上的光滑獎(jiǎng)賞函數(shù)曲面。

圖7 AG2~AG4擬合獎(jiǎng)賞函數(shù)Fig.7 Fitted reward function for AG2~AG4

圖8 AG1擬合獎(jiǎng)賞函數(shù)Fig.8 Fitted reward function for AG1

圖7和圖8分別為ΔMi和ΔTi在最小到最大數(shù)據(jù)點(diǎn)范圍內(nèi)的擬合曲面,為保證算法能平穩(wěn)收斂,二維狀態(tài)空間所有區(qū)域上的獎(jiǎng)賞值必須有界,這只需對(duì)圖中ΔMi、ΔTi范圍邊界上的擬合值進(jìn)行水平延展即可,此時(shí)拓展二維狀態(tài)空間上的最大、最小值和圖中的最大、最小值相等。

4.2 仿真結(jié)果及分析

根據(jù)上述條件開展仿真分析,步長0.1 s,即每0.1 s執(zhí)行一次Sarsa(λ)路徑規(guī)劃學(xué)習(xí)算法,仿真主要分為兩階段。第一階段為離線訓(xùn)練階段,即0~50 s內(nèi)目標(biāo)靜止于初始位置,各臂桿智能體通過Sarsa(λ)強(qiáng)化學(xué)習(xí)算法尋找機(jī)械臂末端點(diǎn)c能夠跟蹤目標(biāo)T的無碰撞聯(lián)合構(gòu)型。如圖9所示,經(jīng)反復(fù)探索,機(jī)械臂從初始沿x軸平行伸展的構(gòu)型逐漸變換到末端點(diǎn)c穩(wěn)定位于T附近且與障礙物無碰撞的構(gòu)型,這主要是通過動(dòng)作集A中大范圍搜索動(dòng)作(±5°、±2°)配合小范圍調(diào)整動(dòng)作(±0.88°、±0.31°)以及靜止動(dòng)作(0°)實(shí)現(xiàn)的。第二階段為在線應(yīng)用階段,即50 s之后目標(biāo)開始作表1所示的三軸空間運(yùn)動(dòng),該階段主要考察離線訓(xùn)練階段對(duì)環(huán)境狀態(tài)和相應(yīng)動(dòng)作策略學(xué)習(xí)的效果,模擬空間機(jī)械臂執(zhí)行捕獲連續(xù)運(yùn)動(dòng)目標(biāo)同時(shí)避障的任務(wù)情況。如圖10所示,機(jī)械臂隨目標(biāo)T的運(yùn)動(dòng)作相應(yīng)構(gòu)型調(diào)整,使得末端點(diǎn)c始終跟隨T的運(yùn)動(dòng)。在機(jī)械臂工作平面W將要到達(dá)障礙M時(shí),臂桿Oa及ab及時(shí)調(diào)整構(gòu)型做了避讓動(dòng)作,同時(shí)c依然對(duì)T實(shí)現(xiàn)了穩(wěn)定跟蹤。

圖9 離線訓(xùn)練過程Fig.9 Off line training process

圖10 在線應(yīng)用過程Fig.10 On line application process

圖11 全過程ΔMi、ΔTi及cT′變化情況Fig.11 Curves of ΔMi, ΔTi and cT′ during entire process

如圖11所示,各agent在兩個(gè)仿真階段都實(shí)現(xiàn)了任務(wù)目標(biāo)。在離線訓(xùn)練階段(0~50 s),ΔT1逐漸收斂到零附近,表示工作平面W及時(shí)到達(dá)了目標(biāo)T。同時(shí)由于此時(shí)障礙M也恰好位于W內(nèi),所以ΔM1同期也減小到零。此時(shí)AG2~AG4各臂桿開始調(diào)整構(gòu)型并做出避讓動(dòng)作,在50 s時(shí)基本實(shí)現(xiàn)避障及目標(biāo)跟蹤。在線應(yīng)用階段,ΔT1除了在ΔM1過零時(shí)間段附近有少量抖動(dòng)外,其他時(shí)間都為零,表示工作平面W能跟蹤運(yùn)動(dòng)目標(biāo)T,以及W到達(dá)障礙M時(shí)需要根據(jù)實(shí)際環(huán)境作進(jìn)一步學(xué)習(xí)判斷;AG2~AG4的聯(lián)合動(dòng)作能夠保證對(duì)M的避讓同時(shí)末端點(diǎn)c穩(wěn)定跟蹤T′,在穩(wěn)定跟蹤階段,規(guī)劃精度達(dá)到ΔT1優(yōu)于1°、cT′優(yōu)于10(由于強(qiáng)化學(xué)習(xí)的特性,在線應(yīng)用階段在達(dá)到目的后仍然要在T附近進(jìn)行試探,所以仿真曲線上體現(xiàn)出微幅振蕩性,實(shí)際工程應(yīng)用中可用平滑濾波方法進(jìn)行處理。)

圖12 全過程Pi及Ei變化情況Fig.12 Curves of Piand Ei during entire process

如圖12所示,離線訓(xùn)練階段由于要探索并形成初始策略,故第一個(gè)Ei下Pi增長較大,在初始策略形成后,以后只需根據(jù)環(huán)境的變化做少量的探索就可以保證對(duì)T的跟蹤和M的避讓。

離線訓(xùn)練階段最終的二維狀態(tài)-動(dòng)作值函數(shù)如表6所示(以AG1為例)。

由表6可知,50 s離線訓(xùn)練結(jié)束時(shí)的狀態(tài)-動(dòng)作值函數(shù)表體現(xiàn)了經(jīng)過探索試錯(cuò)形成的狀態(tài)-動(dòng)作映射策略。例如在狀態(tài)S22下,動(dòng)作-2°的值函數(shù)最大,即AG1選擇讓?duì)?轉(zhuǎn)動(dòng)-2°的概率最大。對(duì)照?qǐng)D6可知,狀態(tài)S22對(duì)應(yīng)于ΔM1和ΔT1均為Negative Middle,此時(shí)轉(zhuǎn)角θ1確實(shí)需要中等程度地減小,才能使得工作平面盡快達(dá)到目標(biāo)T,而選擇動(dòng)作-2°則恰好符合這種要求,其他狀態(tài)下的動(dòng)作值函數(shù)亦可作類似解讀。以上分析驗(yàn)證了訓(xùn)練所得策略的正確性,因而可作為機(jī)械臂在線路徑規(guī)劃的決策依據(jù)。

表6 AG1部分狀態(tài)-動(dòng)作值離線訓(xùn)練結(jié)果Table 6 Off line training result of partial state-action value for AG1

5 結(jié) 論

針對(duì)自主化、智能化在軌精細(xì)操作的任務(wù)需求,本文將機(jī)器學(xué)習(xí)領(lǐng)域的強(qiáng)化學(xué)習(xí)思想應(yīng)用于對(duì)空間多自由度機(jī)械臂的路徑規(guī)劃技術(shù)研究,設(shè)計(jì)了一種基于Sarsa(λ)算法的機(jī)械臂運(yùn)動(dòng)目標(biāo)跟蹤與避障方法,通過離線訓(xùn)練與在線應(yīng)用全過程的數(shù)學(xué)仿真驗(yàn)證了算法的合理性。本方法應(yīng)用過程不顯含系統(tǒng)的動(dòng)力學(xué)和運(yùn)動(dòng)學(xué)模型,也不像傳統(tǒng)方法那樣會(huì)因?yàn)檠趴杀染仃嚽竽娑菀壮霈F(xiàn)奇異問題,因而具備一定的智能性與魯棒性,以及工程化應(yīng)用的可能性。實(shí)際工程中為便于在軌應(yīng)用,可根據(jù)空間機(jī)械臂構(gòu)型先期在地面進(jìn)行如本文仿真校驗(yàn)部分所述的離線學(xué)習(xí)訓(xùn)練,利用所得的狀態(tài)-動(dòng)作值函數(shù)表作為執(zhí)行在軌任務(wù)的初始策略依據(jù),即可進(jìn)行如本文仿真校驗(yàn)中在線應(yīng)用階段的直接運(yùn)用,同時(shí)根據(jù)在軌環(huán)境特性的變化可實(shí)現(xiàn)策略的自主在線調(diào)整。另一方面,即使不進(jìn)行地面先期離線訓(xùn)練,本文所述的方法也較適用于大型航天器的在軌制造/裝配等任務(wù)。這些任務(wù)的共同特點(diǎn)是:環(huán)境特性未知,無法完全由人參與決策制定,但是環(huán)境在較長時(shí)間內(nèi)具有慢變特性,同時(shí)留給機(jī)械臂進(jìn)行精細(xì)操作的時(shí)間較充裕。這種情況下可充分進(jìn)行在線強(qiáng)化學(xué)習(xí)訓(xùn)練,發(fā)揮本方法可實(shí)現(xiàn)自主、智能化任務(wù)規(guī)劃和決策的優(yōu)勢(shì)。

本文后續(xù)進(jìn)一步的研究方向包括提升動(dòng)作輸出平滑度的連續(xù)狀態(tài)/動(dòng)作空間的機(jī)械臂路徑規(guī)劃強(qiáng)化學(xué)習(xí)方法研究。

猜你喜歡
離線機(jī)械狀態(tài)
基于卷積神經(jīng)網(wǎng)絡(luò)的離線筆跡鑒別系統(tǒng)
一種基于ResNet的車鉤狀態(tài)識(shí)別方法及其應(yīng)用
新版Windows 10補(bǔ)丁離線安裝更簡(jiǎn)單
調(diào)試機(jī)械臂
狀態(tài)聯(lián)想
生命的另一種狀態(tài)
簡(jiǎn)單機(jī)械
按摩機(jī)械臂
好進(jìn)難出 應(yīng)對(duì)迅雷“口袋戰(zhàn)”
離線發(fā)文件 不是會(huì)員也能用