摘要: 針對非結(jié)構(gòu)環(huán)境下末端實時移動機械臂阻抗控制力跟蹤問題,通過動態(tài)調(diào)節(jié)阻尼系數(shù)以應對接觸環(huán)境的不確定性。為確保阻抗策略的高效搜索,利用機械臂與接觸環(huán)境交互產(chǎn)生狀態(tài)-動作序列構(gòu)建概率預測模型(PPM)。學習過程中,機械臂僅需與非結(jié)構(gòu)接觸環(huán)境進行少量交互即可獲得最優(yōu)變阻抗策略,這使得該過程在真實機械臂上直接訓練成為可能。仿真實驗表明,在幾種非結(jié)構(gòu)環(huán)境下,所提出的方法使力跟蹤動態(tài)和穩(wěn)態(tài)性能均明顯優(yōu)于傳統(tǒng)阻抗控制和自適應變阻抗控制。
關鍵詞: 變阻抗控制; 機械臂力跟蹤; 強化學習; 非結(jié)構(gòu)環(huán)境; 概率預測模型
中圖分類號: TP 273文獻標志碼: A"" 文章編號: 1000 5013(2024)04 0461 10
Probability Prediction Reinforcement Learning for Variable Impedance Force Tracking Control of Robotic Arms in Unstructured Environments
DONG Zicheng1, HU Weishi2, SHAO Hui1, GUO Lin1
(1. College of Information Science and Engneering, Huaqiao University, Xiamen 361021, China;
2. Department of Laboratory and Device Management, Huaqiao University, Xiamen 361021, China)
Abstract: Aiming at the real time impedance control force tracking problems of the end mobile robotic arm in a unstructured environment, the damping coefficient is dynamically adjusted to cope with the uncertainty of the contact environment. To ensure efficient search of the impedance strategy, a probabilistic prediction model (PPM) is constructed by utilizing the interaction between the robotic arm and the contact environment to generate state action sequences. During the learning process, the robotic arm only needs to interact minimally with the unstructured contact environment to obtain the optimal variable impedance strategy. This makes it possible to directly train the process on a real robotic arm. Simulation results show that in several unstructured environments, the proposed method significantly outperforms the traditional impedance control and adaptive variable impedance control in both dynamic and steady state force tracking performance.
Keywords: variable impedance control; robotic arm force tracking; reinforcement learning; unstructured environment; probability prediction model
機械臂已經(jīng)被廣泛應用于各類接觸式任務,如人機協(xié)作[1]、貨物裝卸[2]、外科手術[3]等。這些場景中,除了高精度的運動控制外,還需考慮末端接觸力的跟蹤控制,以保證機械臂作業(yè)效果和交互安全性。阻抗控制是一種機械臂力控制的經(jīng)典方法,然而,實際中的接觸環(huán)境往往是動態(tài)且未知的,經(jīng)典阻抗控制缺乏適應環(huán)境變化的能力,因此,難以實現(xiàn)精確力控制。
一些國內(nèi)外學者研究了非結(jié)構(gòu)環(huán)境下的阻抗控制力跟蹤方法,目前主要方法可歸結(jié)為參考軌跡自適應和變阻抗控制兩類。參考軌跡自適應通過辨識環(huán)境信息或直接根據(jù)接觸力來預測機器人的參考軌跡。Li等[4]用李雅普諾夫理論對接觸動力學進行分析,提出一種迭代學習控制器,調(diào)節(jié)參考軌跡使接觸力保持在所需范圍,控制性能優(yōu)于傳統(tǒng)阻抗控制,但所需迭代次數(shù)較多。劉勝遂等[5]提出基于卡爾曼濾波的自適應阻抗控制方法,對機械臂接觸環(huán)境的位置和剛度進行估計,但仍存在一定力跟蹤誤差。李振等[6]在基于環(huán)境參數(shù)估計自適應生成參考軌跡的方法上,采用遺傳算法補償接觸力誤差,提高了接觸力跟蹤精度。Roveda等[7]關注阻抗控制接觸力過沖的問題,采用擴展卡爾曼濾波對環(huán)境剛度進行連續(xù)自適應估計,避免接觸過程的力超調(diào)和不穩(wěn)定,但該方法的響應速度較慢且跟蹤精度有限。此類方法依賴于環(huán)境信息的辨識精度,對辨識誤差力控精度有較大影響。變阻抗控制是一種更簡單有效的自適應力控制方法,對環(huán)境特性的估計誤差不敏感,關鍵在于設計控制性能良好而通用的變阻抗策略以應對復雜的接觸環(huán)境。Jung等[8]和Duan等[9]提出的自適應變阻抗控制算法具有等價的形式,根據(jù)機械臂末端接觸力實時調(diào)節(jié)阻尼系數(shù),能夠在未知剛度和幾何形狀的曲面上實現(xiàn)力跟蹤,但該方法的跟蹤精度受限于采樣頻率和初始阻抗參數(shù),在控制器和力傳感器的采樣頻率足夠高時,才能獲得較好的控制效果。Cao等[10]對該自適應變阻抗方法進行改進,提出一種自適應更新率策略,但力控精度提升有限。Hamedani等[11]提出了基于小波神經(jīng)網(wǎng)絡的智能變阻抗算法來自動調(diào)節(jié)阻尼系數(shù),但這種方法在斜面和復雜曲面上的力跟蹤精度不高,且動態(tài)性能不佳。此類變阻抗方法難以較好地平衡力跟蹤動態(tài)性能和穩(wěn)態(tài)誤差,綜合控制性能仍存在提升空間。
人工智能的快速發(fā)展為機械臂控制問題提供了新思路,例如,利用強化學習,機械臂能夠通過試錯的方式優(yōu)化自身行為,而不需要本體和環(huán)境的先驗信息[12-13]。Buchli等[14]提出一種基于策略函數(shù)的強化學習算法PI2,將此方法運用于機器人的自適應阻抗控制中,并證明其最優(yōu)性。Li等[15]提出一種強化學習變阻抗方法,通過仿真和實驗證明機器人與環(huán)境只需少量交互即可成功學習出力控制策略。Wu等[16]研究了人機協(xié)作最優(yōu)阻抗問題,用Q-Learning設計自適應阻抗控制律,使機器人能夠根據(jù)接觸力在線估測人的示教軌跡,實現(xiàn)人機平順交互。Du等[17]將虛擬阻尼項引入傳統(tǒng)阻抗控制中,使用模糊強化學習對虛擬阻尼進行調(diào)整,提升了手術機器人的力跟蹤性能,并保證能量消耗最優(yōu)。然而,目前大多數(shù)基于強化學習的變阻抗方法主要關注任務本身而忽略了數(shù)據(jù)效率,機械臂需與環(huán)境進行大量交互以采集足量的訓練樣本,這在實際機械臂系統(tǒng)中存在安全問題,且交互過程通常非常耗時,因此,數(shù)據(jù)效率低下成為嚴重限制強化學習在實際機器人系統(tǒng)中應用的主要原因之一[18-20]?;诖?,本文提出一種概率預測強化學習下非結(jié)構(gòu)環(huán)境機械臂變阻抗力跟蹤控制(PPM-VIC)方法。
1 問題描述
笛卡爾空間中,阻抗控制利用質(zhì)量-彈簧-阻尼模型維持機械臂運動狀態(tài)與外力之間的動態(tài)關系,使機械臂末端呈現(xiàn)期望的柔順性?;谖恢玫淖杩箍刂?,如圖1所示。圖1中:Fd,F(xiàn)e分別表示期望力和實際接觸力,F(xiàn)d,F(xiàn)e∈Rk,k為受力數(shù);Xr,Xd分別表示參考軌跡和期望軌跡,
Xr,Xd∈Rn,在位置控制精度足夠高的情況下可近似認為機械臂末端實際軌跡與期望軌跡相等,即X=Xd。阻抗模型將力跟蹤誤差轉(zhuǎn)化為運動補償量,與參考軌跡疊加后得到期望軌跡,機械臂末端跟蹤期望軌跡可實現(xiàn)力跟蹤。
對于n自由度的機械臂系統(tǒng),阻抗控制的一般形式可表示為
M(X¨r-X¨d)+B(X·r-X·d)+K(Xr-Xd)=Fd-Fe。(1)
式(1)中:M,B,K分別為質(zhì)量、阻尼和剛度矩陣,它們直接決定了阻抗模型的動力學特性,M,B,K∈Rn×n。
純剛性接觸環(huán)境Fe定義為
Fe=Ke(Xe-X)," Xe≥X,0," Xelt;X。(2)
式(2)中:Ke為環(huán)境剛度,Ke∈Rk×n;Xe為環(huán)境位置,Xe∈Rn;Xe≥X為機器人末端處于接觸狀態(tài)。
為簡化分析,假設阻抗模型在笛卡爾空間各方向上是解耦的,以一維力跟蹤為例,設fe,fd,m,b,k,ke,xe分別表示Fe,F(xiàn)d,M,B,K,Ke,Xe中的元素。
根據(jù)文獻[9,11]的分析,若環(huán)境剛度未知或時變,可設力控方向的剛度為零,以實現(xiàn)力跟蹤無偏差,故設k≡0。非結(jié)構(gòu)環(huán)境中,環(huán)境位置xe通常難以精確獲取,因此,可用常值估計量x^e代替,假設估計誤差δxe=x^e-xe。令e=xe-xd=xe-x,則e^=e+δxe,用e^代替式(1)中的偏差項e,有
Δf=fd-fe=me^¨+be^·=m(e¨+δx¨e)+b(e·+δx·e)=m(x¨e-x¨+δx¨e)+b(x·e-x·+δx·e)。(3)
機械臂末端執(zhí)行器在未知幾何形狀的接觸面上實時移動時,末端實際軌跡、真實環(huán)境軌跡和估計誤差可能隨時間連續(xù)變化,即x,x·,x¨,xe,x·e,x¨e,δxe,δx·e,δx¨e時變,因此,式(3)的跟蹤誤差Δf將始終存在。自適應阻抗參數(shù)可以補償環(huán)境位置時變產(chǎn)生的跟蹤誤差,而質(zhì)量系數(shù)的變化容易引起系統(tǒng)震蕩[9]。
2 強化學習變阻抗策略
最優(yōu)變阻抗策略π*(st)在任意時刻狀態(tài)st滿足跟蹤誤差Δfe=0。無模型強化學習(如深度確定性策略梯度算法(DDPG)、近端策略優(yōu)化算法(PPO)等)通常要求智能體與環(huán)境進行大量交互以收集足夠的訓練樣本,但過多的交互可能會對環(huán)境和機器人造成潛在的損傷,在實際機器人應用中并不可取。強化學習可根據(jù)交互數(shù)據(jù)建立接觸狀態(tài)轉(zhuǎn)移模型p(st+1|st),從而顯著提高數(shù)據(jù)利用效率。
為消除未知動態(tài)環(huán)境引起的力跟蹤誤差,引入高斯過程建立接觸狀態(tài)轉(zhuǎn)移概率模型,借助該模型近似預測未來一段時間內(nèi)的狀態(tài)分布,并采用價值函數(shù)Vπ(s)進行評估,最后使用BFGS(broyden-fletcher-goldfarb-shanno)算法更新參數(shù),以逐步逼近最優(yōu)變阻抗策略。
2.1 策略學習框架
考慮機械臂移動方向和受力方向,設連續(xù)狀態(tài)s=[py,pz,fz,Δfz]T,其中,py,pz分別表示世界坐標系下機械臂末端位置在y和z方向的對應分量,fz為力控方向上的實際接觸力,Δfz為力跟蹤誤差,自適應調(diào)整量u為力控方向的阻尼系數(shù)。定義自適應阻抗策略π(st,θ),θ為待學習的策略參數(shù)。自適應阻抗策略由兩部分構(gòu)成。1) 徑向基(RBF)神經(jīng)網(wǎng)絡,將狀態(tài)映射到初始控制量u′=π′(s)。
2) 飽和函數(shù)表達式為u=Sat(u′),將控制量限制在合理范圍內(nèi)。
RBF神經(jīng)網(wǎng)絡等價于N個高斯核的線性組合,即
π′(st)=Ni=1βikπ(ci,st)=βTπkπ(Cπ,st);(4)
kπ(ci,st)=exp-12(ci-st)TΛπ-1(ci-st)。(5)
式(4),(5)中:βπ=(Kπ+σ2πI)-1yπ表示加權向量,Kπ是由元素kπ(ci,cj),i,j=1,2,…,N構(gòu)成的Gram矩陣,I為單位矩陣,yπ為訓練目標,yπ=π′(Cπ)+ηπ,ηπ~N(0,σ2πI)表示測量噪聲,σ2π代表噪聲方差;Λπ為加權歐式權重矩陣;Cπ表示核函數(shù)的中心點,Cπ=[c1,c2,…,cN]T。
令g(u′)=[9sin(u′)+sin(3u′)]/8∈[-1,1],飽和函數(shù)Sat(u′)把控制量限制在umax與umin之間,其表達式為
Sat(u′)=12(umax-umin)g(u′)+12(umax+umin)。(6)
代價函數(shù)設計為有界的形式,設目標狀態(tài)star=[0,0,fd,0]T,ΛL為對角權重矩陣,與位置相關的元素為零,常數(shù)λ用于控制代價函數(shù)達到飽和時的狀態(tài)偏差度。
代價函數(shù)L(st)∈[0,1]為
L(st)=1-exp-12λ2(st-star)TΛL(st-star)。(7)
2.2 接觸狀態(tài)概率預測模型
假設連續(xù)狀態(tài)s∈RE、連續(xù)控制量u∈R1及隨機噪聲ω均服從高斯分布,則預測模型為高斯過程,即h~GP(m(·),k(·,·))。接觸狀態(tài)概率預測模型表達式為
st=h(st-1,ut-1,ω)。(8)
機械臂在特定變阻抗策略作用下沿接觸環(huán)境表面的運動過程中,以固定頻率對數(shù)據(jù)采樣,構(gòu)成預測模型的訓練輸入X=[s1,s2,…,sn]T及訓練目標Y=[Δ1,Δ2,…,Δn]T,其中,st=(st,ut)∈RE+1表示狀態(tài)-動作二元組,Δt=st+1-st∈RE為相鄰時刻的狀態(tài)變化量。
協(xié)方差函數(shù)k(·,·)與式(5)有相似的形式,即
k(s,s′)=σ2fexp-12(s-s′)TΛ-1(s-s′)+δσ2 ω 。(9)
式(9)中:δ在s與s′相等時為1,否則為0;Λ=diag(l21,l22,…,l2E)是由尺度l組成的權重矩陣,與信號方差σ2f,噪聲方差σ2ω共同構(gòu)成預測模型的超參數(shù)(利用第二類最大似然估計[19]獲取)。
每個獨立的預測模型分別對應每一維狀態(tài)分量。由于高斯分布經(jīng)非線性映射通常會變成非高斯分布,對于任一輸入st-1~N(μst-1,Σst-1)∈RE+1,利用矩匹配法近似預測輸出Δt~N(μΔt,ΣΔt)∈RE,故預測均值為
μΔt=[βT1q1,…,βTEqE]T。(10)
式(10)中:βa=(Ka+σ2ωaI)-1ya,a∈[1,2,…,E],Ka,σωa,ya分別表示第a個預測模型的Gram矩陣、噪聲方差及訓練目標;向量qa=[qa1,qa2,…,qan]T∈Rn,
qai=σ2faexp(-12(si-μst-1)T(Σst-1+Λa)-1(si-μst-1))Σst-1Λa-1+I。(11)
式(11)中:σfa,Λa分別為對應預測模型的信號方差和權重矩陣。
預測協(xié)方差(ΣΔt)為
ΣΔt=var[h1(st-1)]…cov[h1(st-1),hE(st-1)]cov[hE(st-1),h1(st-1)]…var[hE(st-1)]。(12)
式(12)中:對角線元素var[ha(st-1)]為第a個預測模型對st的預測方差,非對角線元素cov[ha(st-1),hb(st-1)],b∈[1,2,…,E]為不同預測模型對同一輸入st的預測混合協(xié)方差。
預測協(xié)方差各元素為
σ2fa-tr[(Ka+σ2ωaI)-1Q]+βTaQβa-(μaΔt)2," a=b,βTaQβb-μaΔtμbΔt," a≠b。(13)
令P=Σst-1(Λ-1a+Λ-1b)+I,ρi=si-μst-1,ρj=sj-μst-1,zi,j=Λ-1aρi+Λ-1bρj,i,j∈[1,2,…,n]。
矩陣Q∈Rn×n的元素為
Qi,j=σfaσfbPexp12[ρTiΛ-1aρi+ρjTΛ-1bρj-zTi,jP-1Σzi,j]。(14)
2.3 狀態(tài)預測及策略評估
相鄰時刻的狀態(tài)概率分布為
p(st-1)RBFp(u′t-1)→p(ut-1)→p(s′t-1)→p(st-1)GPp(Δt)→p(st)。(15)
假設前一時刻的狀態(tài)概率分布p(st-1)已知,可得出初始控制量概率分布p(u′t-1),其均值和協(xié)方差分別為
μu′t-1=βTπqπ,Σu′t-1=βTπQπβπ-(βTπqπ)2。(16)
根據(jù)正弦函數(shù)期望和方差的性質(zhì),容易計算限幅后的控制量概率分布p(ut-1),繼而初始聯(lián)合概率分布p(st-1,u′t-1)=p(s′t-1),p(s′t-1)計算式為
p(s′t-1)=Nμst-1μu′t-1,Σst-1Σst-1,u′t-1ΣTst-1,u′t-1Σu′t-1。(17)
非對角線元素(Σst-1,u′t-1)的計算式為
Σst-1,u′t-1=Ni=1βπiqπiΣst-1(Σst-1+Λπ)-1(si-μst-1)。(18)
利用正弦函數(shù)期望和方差的性質(zhì),可以得到聯(lián)合概率分布p(st-1),根據(jù)當前預測模型及矩匹配法,可預測狀態(tài)變化量的概率分布p(Δt),考慮到Δt=f(st-1,ut-1,ω)-st-1,p(st)計算式為
p(st)=
μst=μst-1+μΔt-1,
Σst=Σst-1+Σst-1,Δt+ΣTst-1,Δt+ΣΔt。(19)
式(19)中:μst-1和Σst-1分別為上一時刻的狀態(tài)分布;μΔt-1和ΣΔt分別為狀態(tài)變化量的預測分布;Σst-1,Δt分別為交叉協(xié)方差項。
重復式(15),得到虛擬狀態(tài)序列[s0,s1,…,sH],以此實現(xiàn)策略評估,序列的價值函數(shù)(Vπ(s0))為
Vπ(s0)=Ht=0E[L(st)]=Ht=0∫L(st)p(st)dst。(20)
2.4 策略參數(shù)更新
待學習的策略參數(shù)θ=[Cπ,yπ,Λπ,σ2π]。最優(yōu)變阻抗策略為
π*(s,θ*)=argθ min Vπ(s0)。(21)
為保證價值函數(shù)最小,需計算策略參數(shù)的梯度,即
dVπ(s0)dθ=Ht=1ddθE[L(st)]。(22)
代價函數(shù)L(st)依賴狀態(tài)概率分布p(st)~N(μst,Σst),利用鏈式法則,有
dE[L(st)]dθ=E[L(st)]μst·dμstdθ+E[L(st)]Σst·dΣstdθ。(23)
令Ψ=ΛL(I+ΣstΛL)-1,由式(7),期望E[L(st)]為
E[L(st)]=∫L(st)p(st)dst=1-exp-12(μst-star)TΨ(μst-star)I+ΣstΛL。(24)
則偏導數(shù)為
E[L(st)]μst=-E[L(st)](μst-star)TΨ,(25)
E[L(st)]Σst=12E[L(st)][Ψ(μst-star)(μst-star)T-I]Ψ。(26)
當前時刻的狀態(tài)概率分布p(st)由前一時刻的狀態(tài)概率分布p(st-1)通過策略π(st-1,θ)及高斯過程模型h(·)預測得到。因此,再次利用鏈式法則,有
dμstdθ=μstμst-1·dμst-1dθ+μstΣst-1·dΣst-1dθ+μstθ,(27)
dΣstdθ=Σstμst-1·dμst-1dθ+ΣstΣst-1·dΣst-1dθ+Σstθ。(28)
顯然,這是一個迭代計算的過程,dμst-1dθ和dΣst-1dθ由前次計算中得出,利用鏈式法則,有
μstθ=μΔtμut-1·μut-1θ+μΔtΣut-1·Σut-1θ,(29)
Σstθ=ΣΔtμut-1·μut-1θ+ΣΔtΣut-1·Σut-1θ。(30)
由價值函數(shù)算出策略參數(shù)的梯度,使用BFGS算法更新策略參數(shù),當Vπ(s0)趨于零時,訓練收斂。
3 仿真驗證及分析
仿真實驗基于MATLAB/Simulink設計,用Robotic Toolbox搭建PUMA560機械臂模型,期望充分體現(xiàn)機械臂動力學特性。PUMA560型機械臂可視化模型,如圖2所示。軌跡生成和接觸環(huán)境模型通過S-Function實現(xiàn),機械臂位置內(nèi)環(huán)可達較高控制精度,滿足驗證要求。仿真和策略訓練過程在搭載Core i7-10700型工作站中完成,無GPU加速。
3.1 訓練設置
策略網(wǎng)絡模型,如圖3所示。輸入層由當前狀態(tài)st構(gòu)成,隱藏層神經(jīng)元個數(shù)N根據(jù)實際情況而定,其中的高斯核函數(shù)對輸入信息進行空間映射變換,輸出層對隱藏層神經(jīng)元的信息進行線性加權求和,得到初始控制量u′t,經(jīng)連續(xù)可微的飽和函數(shù)Sat限幅到合理的范圍內(nèi),得到最終控制量ut。訓練時基于BFGS(broyden-fletcher-goldfarb-shanno)算法更新策略。
3.2 訓練過程
假設接觸環(huán)境剛度ke=5 000 N·m-1,環(huán)境為余弦曲面(圖4),力控方向(z方向)的期望力fd=10 N,在機械臂運動過程中,保持末端姿態(tài)不變。選擇合適的質(zhì)量系數(shù)m=0.2 kg和剛度系數(shù)k=0 N·m-1,阻尼系數(shù)由策略網(wǎng)絡動態(tài)調(diào)整。機械臂末端在y方向上運動速度為0.16 m·s-1,x方向位置保持不變,機械臂從接觸面的起點運動至終點需6 s。為減少訓練時間,將Simulink仿真步長固定為0.005 s,決策頻率為0.05 s,采樣頻率0.05 s,阻尼為0.01~150.00,預測時間域為120,隱藏層神經(jīng)元數(shù)N為200,代價函數(shù)飽和系數(shù)λ為5。
在每一次訓練迭代中,機械臂在當前阻抗策略(第1次迭代使用隨機策略)的作用下從接觸面的起點運動到終點,同時,以特定頻率狀態(tài)和控制量進行采樣。完成一次交互后,采樣的數(shù)據(jù)用于估計高斯過程預測模型的超參數(shù)。機械臂根據(jù)當前策略與該預測模型進行虛擬交互,產(chǎn)生虛擬狀態(tài)-動作序列,并以此虛擬數(shù)據(jù)計算價值函數(shù)。最后,計算價值函數(shù)的梯度,更新策略的參數(shù)。隨著迭代次數(shù)的增加,用于訓練預測模型的數(shù)據(jù)集不斷擴充,模型趨于準確,預測不確定性趨于降低。
訓練過程中的代價,如圖5所示。圖5中:L為價值;藍色曲線是機械臂與預測模型進行虛擬交互時的預測代價,其寬度表示預測過程的不確定性;紅色曲線為機械臂與真實環(huán)境交互的實際代價,直接反應了力控制效果。
由圖5可知:在訓練初期,由于數(shù)據(jù)集較小,高斯過程模型的預測是不準確的,方差很大,隨著迭代次數(shù)的增多,預測模型趨于準確,不確定性變得很??;最終,預測代價與實際代價都趨于零,機械臂獲得最優(yōu)變阻抗策略π*(s,θ*)。
圖6為訓練結(jié)果。對比訓練結(jié)果與傳統(tǒng)阻抗控制、自適應變阻抗控制(初始阻尼系數(shù)設為20 N·m-1,更新率為0.02)[9]可知:參考軌跡不準確導致傳統(tǒng)阻抗控制在非結(jié)構(gòu)環(huán)境中無法實現(xiàn)恒力跟蹤,接觸力穩(wěn)態(tài)誤差隨環(huán)境位置的變化而呈現(xiàn)周期性變化,最大穩(wěn)態(tài)跟蹤誤差為1.6 N;相對而言,自適應變阻抗控制穩(wěn)態(tài)精度更高,但動態(tài)過程較差,其穩(wěn)態(tài)跟蹤誤差與初始阻尼系數(shù)、更新率及采樣頻率有關,更高精度的力跟蹤參數(shù)易導致更差的動態(tài)過程[8],在此場景下最大穩(wěn)態(tài)誤差約為0.25 N。因此,提出的PPM-VIC方法具有很小的超調(diào)和更高的穩(wěn)態(tài)跟蹤精度。
3.3 接觸環(huán)境的對比測試
為了驗證訓練的變阻抗策略是否適用于其他類型的接觸環(huán)境,設計斜面環(huán)境恒力跟蹤、復雜曲面環(huán)境恒力跟蹤和復雜曲面環(huán)境變力跟蹤3種非結(jié)構(gòu)環(huán)境任務場景,初始環(huán)境剛度均為ke=5 000 N·m-1。對機械臂而言,環(huán)境信息未知。
設置機械臂的作業(yè)環(huán)境為斜率未知的斜面,則機械臂末端實時移動過程中x·e為非零常值,x¨e=0。斜面環(huán)境恒力跟蹤,如圖7所示。
由圖7(b)可知:在斜面環(huán)境下,傳統(tǒng)阻抗控制在剛度系數(shù)k=0時始終存在恒定的穩(wěn)態(tài)誤差;自適應變阻抗控制在接觸初期會產(chǎn)生較大的超調(diào),需要約0.7 s才能使接觸力穩(wěn)定至期望值,動態(tài)性能較差,但穩(wěn)態(tài)時可實現(xiàn)高精度力跟蹤;PPM-VIC方法在剛發(fā)生接觸時存在微小抖震,但超調(diào)量明顯小于另外兩種控制方式,穩(wěn)定后跟蹤精度優(yōu)于自適應變阻抗。接觸環(huán)境剛度突變時,3種控制方法都表現(xiàn)出不同程度的超調(diào)和震蕩,但PPM-VIC方法表現(xiàn)出更優(yōu)的控制效果。
斜面環(huán)境恒力跟蹤性能對比,如表1所示。對于未知表達式的復雜接觸曲面,顯然xe,x·e,x¨e≠0且始終隨著時間變化。設期望力fd=10 N,復雜曲面環(huán)境恒力跟蹤,如圖8所示。
由圖8(b)可知:接觸環(huán)境起伏對傳統(tǒng)阻抗控制的影響最大,跟蹤誤差與環(huán)境位置變化速度有關,2 s后環(huán)境變化速度明顯變大,力跟蹤誤差也隨之增大。自適應變阻抗控制的動態(tài)性能較差,但穩(wěn)態(tài)誤差優(yōu)于傳統(tǒng)阻抗控制。PPM-VIC方法幾乎不受環(huán)境位置變化的影響,能夠以較高的精度跟蹤恒定期望力。
復雜曲面環(huán)境恒力跟蹤性能對比,如表2所示。復雜曲面環(huán)境變力跟蹤性能對比,如表3所示。
設期望力為變力,即fd=10+5sin(t)N,復雜曲面環(huán)境變力跟蹤,如圖9所示。
由圖9可知:前1.5 s環(huán)境位置變化相對平緩,3種控制方法均可在穩(wěn)定后較好地跟蹤期望力;自2.5 s開始,接觸環(huán)境變得陡峭,傳統(tǒng)阻抗控制和自適應變阻抗都出現(xiàn)了不同程度的跟蹤誤差,但自適應變阻抗誤差較小,PPM-VIC方法仍然能以較高精度跟蹤連續(xù)變化的期望力。
4 結(jié)束語
針對非結(jié)構(gòu)環(huán)境下機械臂難以實現(xiàn)良好的力跟蹤性能,以及強化學習數(shù)據(jù)利用效率低的問題,將機械臂力控制問題建模為馬爾可夫決策過程,提出一種基于概率預測強化學習的PPM-VIC方法。利用概率預測模型及矩匹配法預測未來時間域內(nèi)的狀態(tài)序列分布,從而產(chǎn)生大量虛擬訓練樣本,使機械臂僅需與環(huán)境交互18次即可獲得良好的變阻抗策略。仿真結(jié)果表明,提出的變阻抗策略適用于各種非結(jié)構(gòu)接觸環(huán)境,其超調(diào)量、震蕩幅度及穩(wěn)態(tài)精度均顯著優(yōu)于傳統(tǒng)阻抗控制和自適應變阻抗控制,在期望力恒定和連續(xù)變化時均具備良好的跟蹤性能。
參考文獻:
[1] PETERNEL L,TSAGARAKIS N,CALDWELL D,et al.Robot adaptation to human physical fatigue in human-robot co-manipulation[J].Autonomous Robots,2018,42(5):1011-1021.DOI 10.1007/s10514-017-9678.
[2] 倪濤,黎銳,繆海峰,等.船載機械臂末端位置實時補償[J].吉林大學學報(工學版),2020,50(6):2028-2035.DOI:10.13229/j.cnki.jdxbgxb20190662.
[3] REN Qinyuan,ZHU Wenxin,ZHAO Feng,et al.Learning-based force control of a surgical robot for tool-soft tissue interaction[J].IEEE Robotics and Automation Letters,2021,6(4):6345-6352.DOI:10.1109/LRA.2021.3093018.
[4] LI Y,GOWRISHANKAR G,NATHANAEL J,et al.Force, impedance, and trajectory learning for contact tooling and haptic identification[J].IEEE Transactions on Robotics,2018,34(5):1-13.DOI:10.1109/TRO.2018.2830405.
[5] 劉勝遂,李利娜,熊曉燕,等.基于卡爾曼濾波的機器人自適應控制方法研究[J].機電工程,2023,40(6):936-944.DOI:10.3969/j.issn.1001-4551.2023.06.017.
[6] 李振,趙歡,王輝,等.機器人磨拋加工接觸穩(wěn)態(tài)自適應力跟蹤研究[J].機械工程學報,2022,58(9):200-209.DOI:10.3901/JME.2022.09.200.
[7] ROVEDA L,IANNACCI N,VICENTINI F,et al.Optimal impedance force-tracking control design with impact formulation for interaction tasks[J].IEEE Robotics and Automation Letters,2016,1(1):130-136.DOI:10.1109/LRA.2015.2508061.
[8] JUNG S,HSIA T C,BONITZ R G.Force tracking impedance control of robot manipulators under unknown environment[J].IEEE Transactions on Control Systems Technology,2004,12(3):474-483.DOI:10.1109/TCST.2004.824320.
[9] DUAN Jinjun,GAN Yajui,CHEN Ming,et al.Adaptive variable impedance control for dynamic contact force tracking in uncertain environment[J].Robotics and Autonomous Systems,2018,102:54-65.DOI:10.1016/j.robot.2018.01.009.
[10] CAO Hongli,CHEN Xiaoan,HE Ye,et al.Dynamic adaptive hybrid impedance control for dynamic contact force tracking in uncertain environments[J].IEEE Access,2019,7:83162-83174.DOI:10.1109/ACCESS.2019.2924696.
[11] HAMEDANI M H,SADEGHIAN H,ZEKRI M,et al.Intelligent impedance control using wavelet neural network for dynamic contact force tracking in unknown varying environments[J].Control Engineering Practice,2021,113:104840.DOI:10.1016/J.CONENGPRAC.2021.104840.
[12] ANDRYCHOWICZ O M,BAKER B,CHOCIEJ M,et al.Learning dexterous in-hand manipulation[J].The International Journal of Robotics Research,2020,39(1):3-20.DOI:10.1177/0278364919887447.
[13] LI Yunfei,KONG Tao,LI Lei,et al.Learning design and construction with varying-sized materials via prioritized memory resets[C]∥International Conference on Robotics and Automation.Philadelphia:IEEE Press.2022:7469-7476.DOI:10.1109/ICRA46639.2022.9811624.
[14] BUCHLI J,STULP F,THEODOROU E,et al.Learning variable impedance control[J].The International Journal of Robotics Research,2011,30(7):820-833.DOI:10.1177/0278364911402527.
[15] LI Chao,ZHANG Zhi,XIA Guihua,et al.Efficient force control learning system for industrial robots based on variable impedance control[J].Sensors,2018,18(8):2539.DOI:10.3390/s18082539.
[16] WU Min,HE Yanhao,LIU S.Adaptive impedance control based on reinforcement learning in a human-robot collaboration task with human reference estimation[J].International Journal of Mechanics and Control,2020,21(1):21-32.DOI:10.1007/978-3-030-19648-6_12.
[17] DU Zhijiang,WANG Wei,YAN Zhiyuan,et al.Variable admittance control based on fuzzy reinforcement learning for minimally invasive surgery manipulator[J].Sensors,2017,17(4):844.DOI:10.3390/s17040844.
[18] DEISENROTH M P,F(xiàn)OX D,RASMUSSEN C E.Gaussian processes for data-efficient learning in robotics and control[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(2):408-423.DOI:10.1109/TPAMI.2013.218.
[19] RASMUSSEN C E,WILLIAMS C K I.Gaussian processes for machine learning[M].Cambridge:MIT Press,2005.
[20] DEISENROTH M P.Efficient reinforcement learning using Gaussian process[D].Karlsruhe:Karlsruhe Institute of Technology,2010.DOI:10.5445/KSP/1000019799.
(責任編輯: 陳志賢" 英文審校: 陳婧)