文 聞, 周元子,2*, 周曉東, 陶 東
1. 北京控制工程研究所,北京 100094;
2. 精密轉(zhuǎn)動(dòng)和傳動(dòng)機(jī)構(gòu)長壽命技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100094
機(jī)械臂具有自由度高、末端工具配置靈活等特點(diǎn),被廣泛應(yīng)用于空間操控領(lǐng)域,一個(gè)典型應(yīng)用便是對目標(biāo)航天器或空間碎片進(jìn)行捕獲[1].在捕獲過程中,通常需要操控機(jī)械臂對目標(biāo)施加作用力使得目標(biāo)速度降至和己方航天器相同,此外,為了保證操作安全,需要盡可能減小捕獲過程中目標(biāo)對己方航天器的影響[2].
為減小目標(biāo)速度,常用方法是在抓取目標(biāo)后控制機(jī)械臂末端進(jìn)行運(yùn)動(dòng)跟蹤[3]以實(shí)現(xiàn)對目標(biāo)減速或消旋,而為了減小目標(biāo)對己方航天器作用力的影響,往往需要在抓捕完成后針對形成連接的組合體系統(tǒng)施加穩(wěn)定控制.通常,這些穩(wěn)定控制方法無法避免碰撞瞬間產(chǎn)生的沖擊力,而是把航天器和機(jī)械臂整體作為控制對象進(jìn)行自適應(yīng)控制或魯棒控制,從而盡可能減小沖擊力、目標(biāo)殘余動(dòng)量產(chǎn)生的不利影響.例如文獻(xiàn)[4]采用基于動(dòng)力學(xué)模型的魯棒控制算法對機(jī)械臂與目標(biāo)聯(lián)合系統(tǒng)實(shí)現(xiàn)鎮(zhèn)定控制,而文獻(xiàn)[5]針對漂浮基座上空間機(jī)械臂抓取自由目標(biāo)的問題,提出了一種基于系統(tǒng)動(dòng)力學(xué)模型的自適應(yīng)魯棒控制方法.另一種減小捕獲過程沖擊影響的方法是在碰撞過程中就對機(jī)械臂施加主動(dòng)柔順控制.對于配備了機(jī)械臂的航天器而言,通過設(shè)計(jì)各種主動(dòng)柔順控制方法實(shí)現(xiàn)柔順捕獲可以很大程度上降低碰撞沖擊力對航天器的影響,從而簡化航天器本體的控制策略.在各類柔順控制方法中,利用阻抗控制來減小交互作用力是最常見的方法.文獻(xiàn)[6]針對機(jī)械臂捕獲自旋衛(wèi)星提出了一種基于航天器基座和機(jī)械臂動(dòng)力學(xué)模型的消旋與穩(wěn)定控制方法,控制效果受到阻抗控制器參數(shù)的影響.文獻(xiàn)[7]構(gòu)建了一種基于空間機(jī)械臂運(yùn)動(dòng)狀態(tài)和關(guān)節(jié)力矩測量的碰撞力觀測器,為阻抗控制器提供碰撞力輸入以實(shí)現(xiàn)柔順行為,但是這種間接測量碰撞力的方法無法對碰撞做出快速反應(yīng).文獻(xiàn)[8]研究了機(jī)械臂追趕自由漂浮目標(biāo)的問題,在機(jī)械臂接觸目標(biāo)時(shí)設(shè)置適當(dāng)?shù)母櫵俣?,同時(shí)利用阻抗控制器實(shí)現(xiàn)與目標(biāo)的連續(xù)接觸.還有學(xué)者在阻抗控制的基礎(chǔ)上,設(shè)計(jì)了機(jī)械臂末端參考軌跡自適應(yīng)調(diào)節(jié)策略以進(jìn)一步改善交互性能.如文獻(xiàn)[9]提出了一種基于關(guān)節(jié)力矩變化進(jìn)行碰撞預(yù)測并調(diào)整機(jī)械臂末端參考位置以適應(yīng)碰撞力的方法,但是由于該方法沒有利用力傳感器信息,只有當(dāng)控制系統(tǒng)檢測到機(jī)械臂關(guān)節(jié)在外力作用下產(chǎn)生微小位移后才進(jìn)行運(yùn)動(dòng)調(diào)整,因此同樣難以減小碰撞瞬間的沖擊力.
無論是針對“航天器—目標(biāo)”組合體的穩(wěn)定控制方法還是針對機(jī)械臂的阻抗控制方法,通常都依賴對機(jī)械臂、航天器、目標(biāo)的動(dòng)力學(xué)模型、接觸模型以及阻抗控制模型中大量參數(shù)的有效估計(jì),而未來空間操控的發(fā)展趨勢是針對未知目標(biāo)實(shí)現(xiàn)自主、智能的任務(wù)規(guī)劃和決策.近年來,智能控制方法伴隨著深度強(qiáng)化學(xué)習(xí)技術(shù)的快速發(fā)展也有了更廣泛的應(yīng)用[10],例如,如文獻(xiàn)[11-12]將強(qiáng)化學(xué)習(xí)方法用于對空間目標(biāo)的捕獲控制.在各種智能控制方法中,深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法[13]能夠很好地解決連續(xù)動(dòng)作空間上的強(qiáng)化學(xué)習(xí)問題,因此在許多涉及機(jī)器人控制的領(lǐng)域取得了不錯(cuò)的效果.例如文獻(xiàn)[14]提出了一種將阻抗控制算法和用DDPG算法相結(jié)合的智能柔順裝配策略.文獻(xiàn)[15]將DDPG方法用于空間雙機(jī)械臂的協(xié)同捕獲規(guī)劃.
本文在深度強(qiáng)化學(xué)習(xí)框架下利用DDPG方法能夠解決連續(xù)狀態(tài)、動(dòng)作空間問題的優(yōu)勢,提出了一種適用于空間機(jī)械臂的柔順控制方法,以實(shí)現(xiàn)在捕獲碰撞瞬間減小沖擊力和降低目標(biāo)速度的目標(biāo).設(shè)計(jì)了基于深度神經(jīng)網(wǎng)絡(luò)和確定性策略的智能柔順控制器,使用符合人類手臂柔順交互規(guī)律的獎(jiǎng)勵(lì)函數(shù)在仿真環(huán)境中對控制器進(jìn)行訓(xùn)練,最終使得機(jī)械臂僅利用末端工具對目標(biāo)施加接觸力即可實(shí)現(xiàn)柔順捕獲.通過不同條件下的捕獲仿真驗(yàn)證了這種不依賴模型的智能控制方法的有效性.
人類利用手臂、手掌對飛行目標(biāo)進(jìn)行抓捕是通過手眼協(xié)調(diào)來完成的,如圖1所示,這一簡單技能是在人類成長過程中通過不斷練習(xí)逐漸獲得的.在學(xué)習(xí)過程中,人類會(huì)利用視覺預(yù)判目標(biāo)的動(dòng)量,如果目標(biāo)動(dòng)量過大則在與目標(biāo)接觸的瞬間讓手掌與目標(biāo)一起同向運(yùn)動(dòng)以減小沖擊.當(dāng)手掌與目標(biāo)接觸后,通過感知目標(biāo)與手掌之間的接觸力來調(diào)節(jié)手臂運(yùn)動(dòng)從而保持和目標(biāo)連續(xù)接觸,并持續(xù)施加阻力以降低目標(biāo)速度,直到最后目標(biāo)被手掌捕獲.通過練習(xí),人類很快就能學(xué)會(huì)如何適當(dāng)?shù)卣{(diào)節(jié)手臂的阻抗與速度.本文通過學(xué)習(xí)人類捕獲目標(biāo)時(shí)的這種力與速度的調(diào)節(jié)機(jī)制,利用深度神經(jīng)網(wǎng)絡(luò)及DDPG算法,設(shè)計(jì)適用于空間機(jī)械臂捕獲在軌飛行目標(biāo)的智能柔順控制器.
圖1 人類手臂捕獲運(yùn)動(dòng)目標(biāo)過程
圖2給出了本文使用機(jī)械臂進(jìn)行運(yùn)動(dòng)目標(biāo)捕獲的場景示意.在捕獲時(shí),機(jī)械臂末端安裝有力傳感器,當(dāng)檢測到碰撞沖擊力后,如果控制器具有上文中描述的人類經(jīng)驗(yàn),則會(huì)控制末端工具與目標(biāo)之間保持連續(xù)接觸而不脫離,同時(shí)不斷對目標(biāo)施加作用力并跟隨目標(biāo)實(shí)現(xiàn)同向移動(dòng).本文設(shè)計(jì)的控制器直接輸出關(guān)節(jié)控制力矩,因此在進(jìn)行訓(xùn)練時(shí)需要學(xué)會(huì)機(jī)械臂的運(yùn)動(dòng)控制策略以及類人柔順交互控制策略.這些控制策略最終都需要借助DDPG算法框架中的深度神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn).
圖2 機(jī)械臂捕獲運(yùn)動(dòng)目標(biāo)示意
DDPG算法是LILLICRAP等[13]對確定性策略梯度(deterministic policy gradient,DPG)方法進(jìn)行改造進(jìn)而提出的一種基于行動(dòng)者-評(píng)論家(Actor-Critic)框架的算法,圖3給出了該算法的學(xué)習(xí)框架,包含了行動(dòng)者(Actor)網(wǎng)絡(luò)(即動(dòng)作價(jià)值函數(shù)Q(s,a|θQ))和評(píng)論家(Critic)網(wǎng)絡(luò)(即確定性策略函數(shù)μ(s|θμ)),每個(gè)網(wǎng)絡(luò)又由一個(gè)在線更新網(wǎng)絡(luò)和一個(gè)目標(biāo)網(wǎng)絡(luò)組成.它采用“經(jīng)驗(yàn)回放”技巧解決了樣本獨(dú)立同分布的要求,使得智能體能夠在小批量樣本中學(xué)習(xí).在學(xué)習(xí)過程中,采用離線學(xué)習(xí)機(jī)制:使用隨機(jī)策略在環(huán)境中探索,將產(chǎn)生樣本存放到經(jīng)驗(yàn)回放區(qū)中,訓(xùn)練時(shí)隨機(jī)抽取樣本來更新網(wǎng)絡(luò)參數(shù).此外,DDPG方法還借助獨(dú)立的目標(biāo)網(wǎng)絡(luò)解決了用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)算法的訓(xùn)練穩(wěn)定性問題.通過對兩個(gè)目標(biāo)神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行“軟”更新而不是直接從在線更新網(wǎng)絡(luò)中復(fù)制,使得目標(biāo)網(wǎng)絡(luò)參數(shù)不斷逼近在線更新網(wǎng)絡(luò)參數(shù),從而提高學(xué)習(xí)過程的穩(wěn)定性.
圖3 DDPG算法的學(xué)習(xí)框架結(jié)構(gòu)
本文采用DDPG算法在虛擬環(huán)境進(jìn)行大量捕獲仿真以獲得機(jī)械臂柔順捕獲策略.在學(xué)習(xí)過程中,需要不斷改進(jìn)策略以獲得最大的獎(jiǎng)勵(lì).在仿真環(huán)境中,一個(gè)訓(xùn)練回合中的每一步行動(dòng)者網(wǎng)絡(luò)都要根據(jù)機(jī)械臂自身的各種狀態(tài)信息輸出控制力矩,通過不斷地進(jìn)行捕獲仿真以便在末端工具與目標(biāo)的大量交互過程中學(xué)到不同狀態(tài)下最優(yōu)的力矩控制策略.文中對“最優(yōu)”的評(píng)價(jià)標(biāo)準(zhǔn)是捕獲交互過程中產(chǎn)生的沖擊力越小越好,即實(shí)現(xiàn)“柔順”,同時(shí)捕獲結(jié)束時(shí)目標(biāo)的速度越接近零越好,即實(shí)現(xiàn)“捕獲”.
當(dāng)完成柔順捕獲控制的訓(xùn)練后,圖3中的在線行動(dòng)者網(wǎng)絡(luò)可直接作為智能柔順控制器用于機(jī)械臂控制.本文根據(jù)捕獲目標(biāo)時(shí)的環(huán)境狀態(tài)、機(jī)械臂控制量數(shù)目以及控制問題的復(fù)雜程度,對DDPG算法中的4個(gè)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了設(shè)計(jì).其中,在線行動(dòng)者網(wǎng)絡(luò)和在線評(píng)論家網(wǎng)絡(luò)均采用了三層線性全連接神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),而兩個(gè)目標(biāo)網(wǎng)絡(luò)的結(jié)構(gòu)和在線網(wǎng)絡(luò)完全一致.
評(píng)論家網(wǎng)絡(luò)的結(jié)構(gòu)如圖4(b)所示,該網(wǎng)絡(luò)輸入除包括行動(dòng)者網(wǎng)絡(luò)的18個(gè)輸入量外,還包括6維主動(dòng)控制力矩.網(wǎng)絡(luò)中全連接層的神經(jīng)元數(shù)量同樣設(shè)為600,輸出層維數(shù)為1,即“狀態(tài)-動(dòng)作”的價(jià)值,各隱層的激活函數(shù)采用ReLU函數(shù),輸出層不設(shè)置激活函數(shù).
圖4 DDPG算法中行動(dòng)者網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)的結(jié)構(gòu)
圖5為本文采用的控制方案,控制器的核心為1個(gè)深度神經(jīng)網(wǎng)絡(luò)(即在線行動(dòng)者網(wǎng)絡(luò)μ(s|θμ)),由于其輸入的各物理量取值范圍不同,因此需要對輸入的向量進(jìn)行歸一化處理.控制器輸出為關(guān)節(jié)控制力矩,由于雙曲正切激活函數(shù)的取值范圍為(-1~1),因此還需要將輸出控制力矩映射到合適的區(qū)間.
圖5 基于DDPG方法的柔順控制方案
本文設(shè)計(jì)控制器的核心思想是模仿人類捕獲目標(biāo)時(shí)的動(dòng)作協(xié)調(diào)機(jī)制,從而達(dá)到類似的柔順效果.根據(jù)強(qiáng)化學(xué)習(xí)的基本原理,需要設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù).獎(jiǎng)勵(lì)函數(shù)對期望的行為給出正回報(bào),對不期望的行為給出負(fù)回報(bào),通過訓(xùn)練使得控制器在多次交互中學(xué)會(huì)產(chǎn)生能夠獲取較大回報(bào)的行為.因此,獎(jiǎng)勵(lì)函數(shù)應(yīng)當(dāng)鼓勵(lì)那些能夠使目標(biāo)經(jīng)過交互作用后速度降為0的控制行為,同時(shí)鼓勵(lì)那些能夠驅(qū)動(dòng)機(jī)械臂末端工具順應(yīng)目標(biāo)運(yùn)動(dòng)、從而減小沖擊力的控制行為.本文設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)r形式如式(1)所示.
(1)
式(1)中,va為目標(biāo)的飛行速度,vr為機(jī)械臂末端工具和目標(biāo)之間的相對速度.獎(jiǎng)勵(lì)函數(shù)的第一項(xiàng)鼓勵(lì)機(jī)械臂末端工具產(chǎn)生和目標(biāo)運(yùn)動(dòng)方向一致的跟隨運(yùn)動(dòng)以降低碰撞沖擊力,第二項(xiàng)在目標(biāo)速度接近0時(shí)設(shè)置了分段獎(jiǎng)勵(lì),越接近0獲得的獎(jiǎng)勵(lì)也越大,式(1)中最后一項(xiàng)為訓(xùn)練過程中當(dāng)前回合內(nèi)上一步控制器輸出控制力矩的平方和,旨在懲罰控制器產(chǎn)生過大的控制力矩以減小不必要的動(dòng)作.否則,訓(xùn)練時(shí)機(jī)械臂往往會(huì)產(chǎn)生大幅度動(dòng)作而不利于實(shí)現(xiàn)末端精細(xì)柔順控制.
在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,判斷一個(gè)回合結(jié)束的標(biāo)志為:
1)被捕獲目標(biāo)的運(yùn)動(dòng)速度小于給定閾值;
2)力傳感器檢測到的碰撞力大于設(shè)定的閾值;
3)目標(biāo)被反彈朝著其它方向運(yùn)動(dòng)超出一定范圍;
4)末端工具越來越遠(yuǎn)離目標(biāo)并超出一定范圍;
5)機(jī)械臂連桿發(fā)生碰撞或者關(guān)節(jié)角度超限.
本文在Simulink軟件中建立了仿真環(huán)境,利用Matlab軟件的多體系統(tǒng)工具箱實(shí)現(xiàn)了6自由度機(jī)械臂和目標(biāo)模型的建立,利用其神經(jīng)網(wǎng)絡(luò)工具箱和強(qiáng)化學(xué)習(xí)工具箱實(shí)現(xiàn)了圖3中行動(dòng)者網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)的搭建,最后進(jìn)行了智能柔順控制器的訓(xùn)練和測試.
圖6是本文所采用的串聯(lián)型機(jī)械臂的構(gòu)型,機(jī)械臂具備6個(gè)主動(dòng)關(guān)節(jié).本文僅通過末端工具與目標(biāo)的接觸來對目標(biāo)進(jìn)行捕獲,而非夾持或鎖定目標(biāo)來阻止目標(biāo)運(yùn)動(dòng)或逃逸.這與參考文獻(xiàn)[8]的研究思路是一致的,能夠簡化機(jī)械臂與目標(biāo)之間的接觸動(dòng)力學(xué)建模.為了評(píng)價(jià)柔順控制對碰撞沖擊力的影響,在末端工具和末端關(guān)節(jié)之間設(shè)置了1個(gè)虛擬力傳感器,用來測量捕獲過程目標(biāo)對機(jī)械臂產(chǎn)生的沖擊力,其坐標(biāo)系如圖6所示.
圖6 6自由度空間機(jī)械臂結(jié)構(gòu)示意
設(shè)與機(jī)械臂固聯(lián)的航天器位姿固定,目標(biāo)質(zhì)量為40 kg.訓(xùn)練時(shí),設(shè)目標(biāo)以固定初始運(yùn)動(dòng)速度v0=0.1 m/s沿-Z方向抵近機(jī)械臂,二者間的碰撞力由Simulink的空間接觸力模塊進(jìn)行計(jì)算.
為驗(yàn)證基于DDPG算法的智能柔順控制器的優(yōu)勢,針對捕獲過程進(jìn)行了相同初始條件下施加不同控制方案的捕獲仿真,分別包括:鎖定機(jī)械臂關(guān)節(jié)使得目標(biāo)與末端工具直接碰撞、采用固定參數(shù)的阻抗控制方案進(jìn)行捕獲、采用參考軌跡自適應(yīng)阻抗控制方案進(jìn)行捕獲以及采用智能柔順控制方案進(jìn)行捕獲.
機(jī)械臂與目標(biāo)產(chǎn)生碰撞時(shí),其接觸過程的動(dòng)力學(xué)方程可寫為
(2)
(3)
此時(shí)機(jī)械臂的期望動(dòng)力學(xué)特性變?yōu)?/p>
(4)
式(3)中,
(5)
Md、Bd、Kd給出了期望的阻抗關(guān)系,x為末端位置,xref為參考軌跡.
利用式(3)便可以向機(jī)械臂各關(guān)節(jié)施加基于傳感器測量信息的主動(dòng)控制力矩以改變機(jī)械臂相對目標(biāo)的表征慣量、剛度和阻尼特性,其控制框圖如圖7所示.在目標(biāo)飛行方向上,機(jī)械臂的動(dòng)力學(xué)模型轉(zhuǎn)換為和“質(zhì)量—彈簧—阻尼”系統(tǒng)等價(jià)的形式,如圖8所示.
圖7 機(jī)械臂阻抗控制框圖
圖8 施加阻抗控制后機(jī)械臂的動(dòng)力學(xué)等價(jià)形式
參考文獻(xiàn)[17],將主動(dòng)控制力矩設(shè)為
(6)
則機(jī)械臂的期望動(dòng)力學(xué)特性變?yōu)?/p>
(7)
(8)
仿真時(shí),對于上述兩種阻抗控制方案,設(shè)定機(jī)械臂末端工具在碰撞前保持不動(dòng).4種不同控制方案的捕獲仿真結(jié)果如圖9、圖10所示.由圖9可知,在機(jī)械臂關(guān)節(jié)鎖定情況下,目標(biāo)與末端工具碰撞過程的沖擊力最大接近350 N.固定參數(shù)的阻抗控制方案能夠在一定程度上降低碰撞交互瞬間的沖擊力.參考軌跡自適應(yīng)阻抗控制器可根據(jù)力反饋立刻改變參考軌跡,從而進(jìn)一步減小碰撞沖擊力.智能柔順控制器作用下捕獲過程產(chǎn)生的最大沖擊力是4種情況中最小的.從圖10中目標(biāo)的速度變化可知,關(guān)節(jié)鎖定時(shí)碰撞導(dǎo)致目標(biāo)幾乎被反彈,捕獲任務(wù)失敗,而在智能柔順控制作用下目標(biāo)速度幾乎降為0,且目標(biāo)也沒有產(chǎn)生反向運(yùn)動(dòng).因此,經(jīng)過訓(xùn)練的智能柔順控制器能夠獲得更好的柔順捕獲性能.
圖9 4種不同控制作用下捕獲過程最大沖擊力的變化
圖10 捕獲過程目標(biāo)速度的變化
在對智能柔順控制器進(jìn)行訓(xùn)練時(shí),目標(biāo)質(zhì)量設(shè)為40 kg,速度設(shè)為-0.1 m/s,為評(píng)估已經(jīng)訓(xùn)練好的控制器對不同狀態(tài)目標(biāo)的捕獲適應(yīng)性,本文也針對不同目標(biāo)質(zhì)量和運(yùn)動(dòng)速度的情況進(jìn)行了仿真.
圖11和圖12是目標(biāo)初始速度為-0.2 m/s時(shí)捕獲仿真得到的沖擊力和目標(biāo)速度變化情況,當(dāng)目標(biāo)速度增加一倍時(shí),對于兩種基于阻抗控制原理的控制器,捕獲過程最大沖擊力變化較大,而智能柔順控制器很好地保證了最大沖擊力沒有明顯的增大.在圖12中,當(dāng)捕獲結(jié)束后,智能柔順控制器和參考軌跡自適應(yīng)阻抗控制器對目標(biāo)的減速效果基本一致.
圖13和圖14是目標(biāo)質(zhì)量為80 kg時(shí)捕獲仿真得到的沖擊力和目標(biāo)速度變化情況,可以看出當(dāng)目標(biāo)質(zhì)量增加一倍時(shí),智能柔順控制器仍然能夠很好地保證了最大沖擊力在200N附近.在圖14中,當(dāng)捕獲結(jié)束后,3種主動(dòng)柔順控制器都實(shí)現(xiàn)了對目標(biāo)的減速作用.此外,由圖9、圖11和圖13可知,智能柔順控制器在捕獲碰撞過程中和目標(biāo)不斷接觸產(chǎn)生了多次碰撞,實(shí)現(xiàn)了通過增加接觸時(shí)間以減小單次碰撞的沖擊力的效果.
圖11 捕獲不同速度目標(biāo)過程的最大沖擊力變化
圖12 捕獲不同初始速度目標(biāo)過程的目標(biāo)速度變化
圖13 捕獲不同質(zhì)量目標(biāo)過程的最大沖擊力變化
圖14 捕獲不同質(zhì)量目標(biāo)過程的目標(biāo)速度變化
本文提出了一種基于DDPG算法的空間機(jī)械臂柔順捕獲控制方法,基于人臂捕獲目標(biāo)時(shí)的柔順調(diào)節(jié)思想設(shè)計(jì)了強(qiáng)化學(xué)習(xí)所需的獎(jiǎng)勵(lì)函數(shù),控制器采用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn).在仿真環(huán)境中進(jìn)行了控制器的訓(xùn)練,最終實(shí)現(xiàn)了良好的柔順捕獲效果.和傳統(tǒng)基于阻抗控制原理的柔順控制方案相比,本文提出的方法能有效減小碰撞瞬間產(chǎn)生的最大沖擊力并促使目標(biāo)停止運(yùn)動(dòng).該方法不依賴機(jī)械臂、目標(biāo)的動(dòng)力學(xué)模型,同時(shí),在對訓(xùn)練中未出現(xiàn)的不同狀態(tài)目標(biāo)進(jìn)行捕獲時(shí)也具有較好的適應(yīng)性.