基于深度強(qiáng)化學(xué)習(xí)的空間機(jī)械臂柔順捕獲控制方法研究*

2022-08-02 14:08周元子周曉東

空間控制技術(shù)與應(yīng)用 2022年1期

文聞，周元子,2*，周曉東，陶東

1. 北京控制工程研究所，北京 100094；

2. 精密轉(zhuǎn)動(dòng)和傳動(dòng)機(jī)構(gòu)長壽命技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室，北京 100094

0 引言

機(jī)械臂具有自由度高、末端工具配置靈活等特點(diǎn)，被廣泛應(yīng)用于空間操控領(lǐng)域，一個(gè)典型應(yīng)用便是對目標(biāo)航天器或空間碎片進(jìn)行捕獲[1].在捕獲過程中，通常需要操控機(jī)械臂對目標(biāo)施加作用力使得目標(biāo)速度降至和己方航天器相同，此外，為了保證操作安全，需要盡可能減小捕獲過程中目標(biāo)對己方航天器的影響[2].

為減小目標(biāo)速度，常用方法是在抓取目標(biāo)后控制機(jī)械臂末端進(jìn)行運(yùn)動(dòng)跟蹤[3]以實(shí)現(xiàn)對目標(biāo)減速或消旋，而為了減小目標(biāo)對己方航天器作用力的影響，往往需要在抓捕完成后針對形成連接的組合體系統(tǒng)施加穩(wěn)定控制.通常，這些穩(wěn)定控制方法無法避免碰撞瞬間產(chǎn)生的沖擊力，而是把航天器和機(jī)械臂整體作為控制對象進(jìn)行自適應(yīng)控制或魯棒控制，從而盡可能減小沖擊力、目標(biāo)殘余動(dòng)量產(chǎn)生的不利影響.例如文獻(xiàn)[4]采用基于動(dòng)力學(xué)模型的魯棒控制算法對機(jī)械臂與目標(biāo)聯(lián)合系統(tǒng)實(shí)現(xiàn)鎮(zhèn)定控制，而文獻(xiàn)[5]針對漂浮基座上空間機(jī)械臂抓取自由目標(biāo)的問題，提出了一種基于系統(tǒng)動(dòng)力學(xué)模型的自適應(yīng)魯棒控制方法.另一種減小捕獲過程沖擊影響的方法是在碰撞過程中就對機(jī)械臂施加主動(dòng)柔順控制.對于配備了機(jī)械臂的航天器而言，通過設(shè)計(jì)各種主動(dòng)柔順控制方法實(shí)現(xiàn)柔順捕獲可以很大程度上降低碰撞沖擊力對航天器的影響，從而簡化航天器本體的控制策略.在各類柔順控制方法中，利用阻抗控制來減小交互作用力是最常見的方法.文獻(xiàn)[6]針對機(jī)械臂捕獲自旋衛(wèi)星提出了一種基于航天器基座和機(jī)械臂動(dòng)力學(xué)模型的消旋與穩(wěn)定控制方法，控制效果受到阻抗控制器參數(shù)的影響.文獻(xiàn)[7]構(gòu)建了一種基于空間機(jī)械臂運(yùn)動(dòng)狀態(tài)和關(guān)節(jié)力矩測量的碰撞力觀測器，為阻抗控制器提供碰撞力輸入以實(shí)現(xiàn)柔順行為，但是這種間接測量碰撞力的方法無法對碰撞做出快速反應(yīng).文獻(xiàn)[8]研究了機(jī)械臂追趕自由漂浮目標(biāo)的問題，在機(jī)械臂接觸目標(biāo)時(shí)設(shè)置適當(dāng)?shù)母櫵俣?，同時(shí)利用阻抗控制器實(shí)現(xiàn)與目標(biāo)的連續(xù)接觸.還有學(xué)者在阻抗控制的基礎(chǔ)上，設(shè)計(jì)了機(jī)械臂末端參考軌跡自適應(yīng)調(diào)節(jié)策略以進(jìn)一步改善交互性能.如文獻(xiàn)[9]提出了一種基于關(guān)節(jié)力矩變化進(jìn)行碰撞預(yù)測并調(diào)整機(jī)械臂末端參考位置以適應(yīng)碰撞力的方法，但是由于該方法沒有利用力傳感器信息，只有當(dāng)控制系統(tǒng)檢測到機(jī)械臂關(guān)節(jié)在外力作用下產(chǎn)生微小位移后才進(jìn)行運(yùn)動(dòng)調(diào)整，因此同樣難以減小碰撞瞬間的沖擊力.

無論是針對“航天器—目標(biāo)”組合體的穩(wěn)定控制方法還是針對機(jī)械臂的阻抗控制方法，通常都依賴對機(jī)械臂、航天器、目標(biāo)的動(dòng)力學(xué)模型、接觸模型以及阻抗控制模型中大量參數(shù)的有效估計(jì)，而未來空間操控的發(fā)展趨勢是針對未知目標(biāo)實(shí)現(xiàn)自主、智能的任務(wù)規(guī)劃和決策.近年來，智能控制方法伴隨著深度強(qiáng)化學(xué)習(xí)技術(shù)的快速發(fā)展也有了更廣泛的應(yīng)用[10]，例如，如文獻(xiàn)[11-12]將強(qiáng)化學(xué)習(xí)方法用于對空間目標(biāo)的捕獲控制.在各種智能控制方法中，深度確定性策略梯度(deep deterministic policy gradient，DDPG)算法[13]能夠很好地解決連續(xù)動(dòng)作空間上的強(qiáng)化學(xué)習(xí)問題，因此在許多涉及機(jī)器人控制的領(lǐng)域取得了不錯(cuò)的效果.例如文獻(xiàn)[14]提出了一種將阻抗控制算法和用DDPG算法相結(jié)合的智能柔順裝配策略.文獻(xiàn)[15]將DDPG方法用于空間雙機(jī)械臂的協(xié)同捕獲規(guī)劃.

本文在深度強(qiáng)化學(xué)習(xí)框架下利用DDPG方法能夠解決連續(xù)狀態(tài)、動(dòng)作空間問題的優(yōu)勢，提出了一種適用于空間機(jī)械臂的柔順控制方法，以實(shí)現(xiàn)在捕獲碰撞瞬間減小沖擊力和降低目標(biāo)速度的目標(biāo).設(shè)計(jì)了基于深度神經(jīng)網(wǎng)絡(luò)和確定性策略的智能柔順控制器，使用符合人類手臂柔順交互規(guī)律的獎(jiǎng)勵(lì)函數(shù)在仿真環(huán)境中對控制器進(jìn)行訓(xùn)練，最終使得機(jī)械臂僅利用末端工具對目標(biāo)施加接觸力即可實(shí)現(xiàn)柔順捕獲.通過不同條件下的捕獲仿真驗(yàn)證了這種不依賴模型的智能控制方法的有效性.

1 柔順捕獲控制方法介紹

1.1 人類柔順捕獲行為機(jī)制分析與學(xué)習(xí)研究

人類利用手臂、手掌對飛行目標(biāo)進(jìn)行抓捕是通過手眼協(xié)調(diào)來完成的，如圖1所示，這一簡單技能是在人類成長過程中通過不斷練習(xí)逐漸獲得的.在學(xué)習(xí)過程中，人類會(huì)利用視覺預(yù)判目標(biāo)的動(dòng)量，如果目標(biāo)動(dòng)量過大則在與目標(biāo)接觸的瞬間讓手掌與目標(biāo)一起同向運(yùn)動(dòng)以減小沖擊.當(dāng)手掌與目標(biāo)接觸后，通過感知目標(biāo)與手掌之間的接觸力來調(diào)節(jié)手臂運(yùn)動(dòng)從而保持和目標(biāo)連續(xù)接觸，并持續(xù)施加阻力以降低目標(biāo)速度，直到最后目標(biāo)被手掌捕獲.通過練習(xí)，人類很快就能學(xué)會(huì)如何適當(dāng)?shù)卣{(diào)節(jié)手臂的阻抗與速度.本文通過學(xué)習(xí)人類捕獲目標(biāo)時(shí)的這種力與速度的調(diào)節(jié)機(jī)制，利用深度神經(jīng)網(wǎng)絡(luò)及DDPG算法，設(shè)計(jì)適用于空間機(jī)械臂捕獲在軌飛行目標(biāo)的智能柔順控制器.

圖1 人類手臂捕獲運(yùn)動(dòng)目標(biāo)過程

圖2給出了本文使用機(jī)械臂進(jìn)行運(yùn)動(dòng)目標(biāo)捕獲的場景示意.在捕獲時(shí)，機(jī)械臂末端安裝有力傳感器，當(dāng)檢測到碰撞沖擊力后，如果控制器具有上文中描述的人類經(jīng)驗(yàn)，則會(huì)控制末端工具與目標(biāo)之間保持連續(xù)接觸而不脫離，同時(shí)不斷對目標(biāo)施加作用力并跟隨目標(biāo)實(shí)現(xiàn)同向移動(dòng).本文設(shè)計(jì)的控制器直接輸出關(guān)節(jié)控制力矩，因此在進(jìn)行訓(xùn)練時(shí)需要學(xué)會(huì)機(jī)械臂的運(yùn)動(dòng)控制策略以及類人柔順交互控制策略.這些控制策略最終都需要借助DDPG算法框架中的深度神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn).

圖2 機(jī)械臂捕獲運(yùn)動(dòng)目標(biāo)示意

1.2 DDPG算法介紹

DDPG算法是LILLICRAP等[13]對確定性策略梯度(deterministic policy gradient，DPG)方法進(jìn)行改造進(jìn)而提出的一種基于行動(dòng)者-評(píng)論家(Actor-Critic)框架的算法，圖3給出了該算法的學(xué)習(xí)框架，包含了行動(dòng)者(Actor)網(wǎng)絡(luò)(即動(dòng)作價(jià)值函數(shù)Q(s,a|θQ))和評(píng)論家(Critic)網(wǎng)絡(luò)(即確定性策略函數(shù)μ(s|θμ))，每個(gè)網(wǎng)絡(luò)又由一個(gè)在線更新網(wǎng)絡(luò)和一個(gè)目標(biāo)網(wǎng)絡(luò)組成.它采用“經(jīng)驗(yàn)回放”技巧解決了樣本獨(dú)立同分布的要求，使得智能體能夠在小批量樣本中學(xué)習(xí).在學(xué)習(xí)過程中，采用離線學(xué)習(xí)機(jī)制：使用隨機(jī)策略在環(huán)境中探索，將產(chǎn)生樣本存放到經(jīng)驗(yàn)回放區(qū)中，訓(xùn)練時(shí)隨機(jī)抽取樣本來更新網(wǎng)絡(luò)參數(shù).此外，DDPG方法還借助獨(dú)立的目標(biāo)網(wǎng)絡(luò)解決了用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)算法的訓(xùn)練穩(wěn)定性問題.通過對兩個(gè)目標(biāo)神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行“軟”更新而不是直接從在線更新網(wǎng)絡(luò)中復(fù)制，使得目標(biāo)網(wǎng)絡(luò)參數(shù)不斷逼近在線更新網(wǎng)絡(luò)參數(shù)，從而提高學(xué)習(xí)過程的穩(wěn)定性.

圖3 DDPG算法的學(xué)習(xí)框架結(jié)構(gòu)

2 控制器設(shè)計(jì)

本文采用DDPG算法在虛擬環(huán)境進(jìn)行大量捕獲仿真以獲得機(jī)械臂柔順捕獲策略.在學(xué)習(xí)過程中，需要不斷改進(jìn)策略以獲得最大的獎(jiǎng)勵(lì).在仿真環(huán)境中，一個(gè)訓(xùn)練回合中的每一步行動(dòng)者網(wǎng)絡(luò)都要根據(jù)機(jī)械臂自身的各種狀態(tài)信息輸出控制力矩，通過不斷地進(jìn)行捕獲仿真以便在末端工具與目標(biāo)的大量交互過程中學(xué)到不同狀態(tài)下最優(yōu)的力矩控制策略.文中對“最優(yōu)”的評(píng)價(jià)標(biāo)準(zhǔn)是捕獲交互過程中產(chǎn)生的沖擊力越小越好，即實(shí)現(xiàn)“柔順”，同時(shí)捕獲結(jié)束時(shí)目標(biāo)的速度越接近零越好，即實(shí)現(xiàn)“捕獲”.

當(dāng)完成柔順捕獲控制的訓(xùn)練后，圖3中的在線行動(dòng)者網(wǎng)絡(luò)可直接作為智能柔順控制器用于機(jī)械臂控制.本文根據(jù)捕獲目標(biāo)時(shí)的環(huán)境狀態(tài)、機(jī)械臂控制量數(shù)目以及控制問題的復(fù)雜程度，對DDPG算法中的4個(gè)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了設(shè)計(jì).其中，在線行動(dòng)者網(wǎng)絡(luò)和在線評(píng)論家網(wǎng)絡(luò)均采用了三層線性全連接神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，而兩個(gè)目標(biāo)網(wǎng)絡(luò)的結(jié)構(gòu)和在線網(wǎng)絡(luò)完全一致.

評(píng)論家網(wǎng)絡(luò)的結(jié)構(gòu)如圖4(b)所示，該網(wǎng)絡(luò)輸入除包括行動(dòng)者網(wǎng)絡(luò)的18個(gè)輸入量外，還包括6維主動(dòng)控制力矩.網(wǎng)絡(luò)中全連接層的神經(jīng)元數(shù)量同樣設(shè)為600，輸出層維數(shù)為1，即“狀態(tài)-動(dòng)作”的價(jià)值，各隱層的激活函數(shù)采用ReLU函數(shù)，輸出層不設(shè)置激活函數(shù).

圖4 DDPG算法中行動(dòng)者網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)的結(jié)構(gòu)

圖5為本文采用的控制方案，控制器的核心為1個(gè)深度神經(jīng)網(wǎng)絡(luò)(即在線行動(dòng)者網(wǎng)絡(luò)μ(s|θμ))，由于其輸入的各物理量取值范圍不同，因此需要對輸入的向量進(jìn)行歸一化處理.控制器輸出為關(guān)節(jié)控制力矩，由于雙曲正切激活函數(shù)的取值范圍為(-1～1)，因此還需要將輸出控制力矩映射到合適的區(qū)間.

圖5 基于DDPG方法的柔順控制方案

本文設(shè)計(jì)控制器的核心思想是模仿人類捕獲目標(biāo)時(shí)的動(dòng)作協(xié)調(diào)機(jī)制，從而達(dá)到類似的柔順效果.根據(jù)強(qiáng)化學(xué)習(xí)的基本原理，需要設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù).獎(jiǎng)勵(lì)函數(shù)對期望的行為給出正回報(bào)，對不期望的行為給出負(fù)回報(bào)，通過訓(xùn)練使得控制器在多次交互中學(xué)會(huì)產(chǎn)生能夠獲取較大回報(bào)的行為.因此，獎(jiǎng)勵(lì)函數(shù)應(yīng)當(dāng)鼓勵(lì)那些能夠使目標(biāo)經(jīng)過交互作用后速度降為0的控制行為，同時(shí)鼓勵(lì)那些能夠驅(qū)動(dòng)機(jī)械臂末端工具順應(yīng)目標(biāo)運(yùn)動(dòng)、從而減小沖擊力的控制行為.本文設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)r形式如式(1)所示.

(1)

式(1)中，va為目標(biāo)的飛行速度，vr為機(jī)械臂末端工具和目標(biāo)之間的相對速度.獎(jiǎng)勵(lì)函數(shù)的第一項(xiàng)鼓勵(lì)機(jī)械臂末端工具產(chǎn)生和目標(biāo)運(yùn)動(dòng)方向一致的跟隨運(yùn)動(dòng)以降低碰撞沖擊力，第二項(xiàng)在目標(biāo)速度接近0時(shí)設(shè)置了分段獎(jiǎng)勵(lì)，越接近0獲得的獎(jiǎng)勵(lì)也越大，式(1)中最后一項(xiàng)為訓(xùn)練過程中當(dāng)前回合內(nèi)上一步控制器輸出控制力矩的平方和，旨在懲罰控制器產(chǎn)生過大的控制力矩以減小不必要的動(dòng)作.否則，訓(xùn)練時(shí)機(jī)械臂往往會(huì)產(chǎn)生大幅度動(dòng)作而不利于實(shí)現(xiàn)末端精細(xì)柔順控制.

在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中，判斷一個(gè)回合結(jié)束的標(biāo)志為：

1)被捕獲目標(biāo)的運(yùn)動(dòng)速度小于給定閾值；

2)力傳感器檢測到的碰撞力大于設(shè)定的閾值；

3)目標(biāo)被反彈朝著其它方向運(yùn)動(dòng)超出一定范圍；

4)末端工具越來越遠(yuǎn)離目標(biāo)并超出一定范圍；

5)機(jī)械臂連桿發(fā)生碰撞或者關(guān)節(jié)角度超限.

3 仿真實(shí)例

本文在Simulink軟件中建立了仿真環(huán)境，利用Matlab軟件的多體系統(tǒng)工具箱實(shí)現(xiàn)了6自由度機(jī)械臂和目標(biāo)模型的建立，利用其神經(jīng)網(wǎng)絡(luò)工具箱和強(qiáng)化學(xué)習(xí)工具箱實(shí)現(xiàn)了圖3中行動(dòng)者網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)的搭建，最后進(jìn)行了智能柔順控制器的訓(xùn)練和測試.

圖6是本文所采用的串聯(lián)型機(jī)械臂的構(gòu)型，機(jī)械臂具備6個(gè)主動(dòng)關(guān)節(jié).本文僅通過末端工具與目標(biāo)的接觸來對目標(biāo)進(jìn)行捕獲，而非夾持或鎖定目標(biāo)來阻止目標(biāo)運(yùn)動(dòng)或逃逸.這與參考文獻(xiàn)[8]的研究思路是一致的，能夠簡化機(jī)械臂與目標(biāo)之間的接觸動(dòng)力學(xué)建模.為了評(píng)價(jià)柔順控制對碰撞沖擊力的影響，在末端工具和末端關(guān)節(jié)之間設(shè)置了1個(gè)虛擬力傳感器，用來測量捕獲過程目標(biāo)對機(jī)械臂產(chǎn)生的沖擊力，其坐標(biāo)系如圖6所示.

圖6 6自由度空間機(jī)械臂結(jié)構(gòu)示意

設(shè)與機(jī)械臂固聯(lián)的航天器位姿固定，目標(biāo)質(zhì)量為40 kg.訓(xùn)練時(shí)，設(shè)目標(biāo)以固定初始運(yùn)動(dòng)速度v0=0.1 m/s沿-Z方向抵近機(jī)械臂，二者間的碰撞力由Simulink的空間接觸力模塊進(jìn)行計(jì)算.

為驗(yàn)證基于DDPG算法的智能柔順控制器的優(yōu)勢，針對捕獲過程進(jìn)行了相同初始條件下施加不同控制方案的捕獲仿真，分別包括：鎖定機(jī)械臂關(guān)節(jié)使得目標(biāo)與末端工具直接碰撞、采用固定參數(shù)的阻抗控制方案進(jìn)行捕獲、采用參考軌跡自適應(yīng)阻抗控制方案進(jìn)行捕獲以及采用智能柔順控制方案進(jìn)行捕獲.

機(jī)械臂與目標(biāo)產(chǎn)生碰撞時(shí)，其接觸過程的動(dòng)力學(xué)方程可寫為

(2)

(3)

此時(shí)機(jī)械臂的期望動(dòng)力學(xué)特性變?yōu)?/p>

(4)

式(3)中，

(5)

Md、Bd、Kd給出了期望的阻抗關(guān)系，x為末端位置，xref為參考軌跡.

利用式(3)便可以向機(jī)械臂各關(guān)節(jié)施加基于傳感器測量信息的主動(dòng)控制力矩以改變機(jī)械臂相對目標(biāo)的表征慣量、剛度和阻尼特性，其控制框圖如圖7所示.在目標(biāo)飛行方向上，機(jī)械臂的動(dòng)力學(xué)模型轉(zhuǎn)換為和“質(zhì)量—彈簧—阻尼”系統(tǒng)等價(jià)的形式，如圖8所示.

圖7 機(jī)械臂阻抗控制框圖

圖8 施加阻抗控制后機(jī)械臂的動(dòng)力學(xué)等價(jià)形式

參考文獻(xiàn)[17]，將主動(dòng)控制力矩設(shè)為

(6)

則機(jī)械臂的期望動(dòng)力學(xué)特性變?yōu)?/p>

(7)

(8)

仿真時(shí)，對于上述兩種阻抗控制方案，設(shè)定機(jī)械臂末端工具在碰撞前保持不動(dòng).4種不同控制方案的捕獲仿真結(jié)果如圖9、圖10所示.由圖9可知，在機(jī)械臂關(guān)節(jié)鎖定情況下，目標(biāo)與末端工具碰撞過程的沖擊力最大接近350 N.固定參數(shù)的阻抗控制方案能夠在一定程度上降低碰撞交互瞬間的沖擊力.參考軌跡自適應(yīng)阻抗控制器可根據(jù)力反饋立刻改變參考軌跡，從而進(jìn)一步減小碰撞沖擊力.智能柔順控制器作用下捕獲過程產(chǎn)生的最大沖擊力是4種情況中最小的.從圖10中目標(biāo)的速度變化可知，關(guān)節(jié)鎖定時(shí)碰撞導(dǎo)致目標(biāo)幾乎被反彈，捕獲任務(wù)失敗，而在智能柔順控制作用下目標(biāo)速度幾乎降為0，且目標(biāo)也沒有產(chǎn)生反向運(yùn)動(dòng).因此，經(jīng)過訓(xùn)練的智能柔順控制器能夠獲得更好的柔順捕獲性能.

圖9 4種不同控制作用下捕獲過程最大沖擊力的變化

圖10 捕獲過程目標(biāo)速度的變化

在對智能柔順控制器進(jìn)行訓(xùn)練時(shí)，目標(biāo)質(zhì)量設(shè)為40 kg，速度設(shè)為-0.1 m/s，為評(píng)估已經(jīng)訓(xùn)練好的控制器對不同狀態(tài)目標(biāo)的捕獲適應(yīng)性，本文也針對不同目標(biāo)質(zhì)量和運(yùn)動(dòng)速度的情況進(jìn)行了仿真.

圖11和圖12是目標(biāo)初始速度為-0.2 m/s時(shí)捕獲仿真得到的沖擊力和目標(biāo)速度變化情況，當(dāng)目標(biāo)速度增加一倍時(shí)，對于兩種基于阻抗控制原理的控制器，捕獲過程最大沖擊力變化較大，而智能柔順控制器很好地保證了最大沖擊力沒有明顯的增大.在圖12中，當(dāng)捕獲結(jié)束后，智能柔順控制器和參考軌跡自適應(yīng)阻抗控制器對目標(biāo)的減速效果基本一致.

圖13和圖14是目標(biāo)質(zhì)量為80 kg時(shí)捕獲仿真得到的沖擊力和目標(biāo)速度變化情況，可以看出當(dāng)目標(biāo)質(zhì)量增加一倍時(shí)，智能柔順控制器仍然能夠很好地保證了最大沖擊力在200N附近.在圖14中，當(dāng)捕獲結(jié)束后，3種主動(dòng)柔順控制器都實(shí)現(xiàn)了對目標(biāo)的減速作用.此外，由圖9、圖11和圖13可知，智能柔順控制器在捕獲碰撞過程中和目標(biāo)不斷接觸產(chǎn)生了多次碰撞，實(shí)現(xiàn)了通過增加接觸時(shí)間以減小單次碰撞的沖擊力的效果.

圖11 捕獲不同速度目標(biāo)過程的最大沖擊力變化

圖12 捕獲不同初始速度目標(biāo)過程的目標(biāo)速度變化

圖13 捕獲不同質(zhì)量目標(biāo)過程的最大沖擊力變化

圖14 捕獲不同質(zhì)量目標(biāo)過程的目標(biāo)速度變化

4 結(jié) 論

本文提出了一種基于DDPG算法的空間機(jī)械臂柔順捕獲控制方法，基于人臂捕獲目標(biāo)時(shí)的柔順調(diào)節(jié)思想設(shè)計(jì)了強(qiáng)化學(xué)習(xí)所需的獎(jiǎng)勵(lì)函數(shù)，控制器采用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn).在仿真環(huán)境中進(jìn)行了控制器的訓(xùn)練，最終實(shí)現(xiàn)了良好的柔順捕獲效果.和傳統(tǒng)基于阻抗控制原理的柔順控制方案相比，本文提出的方法能有效減小碰撞瞬間產(chǎn)生的最大沖擊力并促使目標(biāo)停止運(yùn)動(dòng).該方法不依賴機(jī)械臂、目標(biāo)的動(dòng)力學(xué)模型，同時(shí)，在對訓(xùn)練中未出現(xiàn)的不同狀態(tài)目標(biāo)進(jìn)行捕獲時(shí)也具有較好的適應(yīng)性.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡