陳進,張志巧,廖彩淇,唐學(xué)明
(江蘇大學(xué)機械工程學(xué)院,江蘇鎮(zhèn)江,212013)
氣振盤式播種流水線作為一種自動化程度較高的農(nóng)業(yè)機械,機械臂排種是其中重要環(huán)節(jié)。目前,本團隊研制的氣振盤式精密播種流水線在作業(yè)過程中,受二自由度機械臂運動限制,育秧盤需在排種位等待吸種盤完成排種[1]。由于原二自由度機械臂不支持動態(tài)改變既定規(guī)劃并與其他裝置相協(xié)調(diào),需操作人員縱向協(xié)調(diào)流水線播種進程,導(dǎo)致機械臂與流水線的協(xié)調(diào)性成為影響播種效率的重要因素。為代替二自由度機械臂靈活高效地完成播種相關(guān)動作,提高播種效率,亟需開展關(guān)節(jié)式機械臂動態(tài)自主運動規(guī)劃算法研究。
伴隨著人工智能技術(shù)研究的發(fā)展,強化學(xué)習(xí)的應(yīng)用逐漸廣泛[2]。強化學(xué)習(xí)的優(yōu)越性體現(xiàn)在智能體能夠通過與環(huán)境的交互,從過去的經(jīng)驗中不斷改進行為,使得智能體能夠完全自主[3]。Deng等[4]基于深度強化學(xué)習(xí)算法,添加額外獎勵和外部獎勵優(yōu)化控制策略用于輔助手操作學(xué)習(xí)。Wang等[5]采用無精確模型的強化學(xué)習(xí)算法引導(dǎo)飛機向某一方向移動,通過設(shè)置連續(xù)動作獎勵函數(shù)和位置獎勵函數(shù)來提高訓(xùn)練效率。Tang等[6]證明在近端策略優(yōu)化算法中加入動作掩碼可剔除動作集中的無效動作,提高訓(xùn)練效果。Kim等[7]提出模塊化獎勵塑造的方法可用于解決機械手復(fù)雜操作任務(wù)。Sangiovanni等[8]采用深度強化學(xué)習(xí)中的NAF連續(xù)控制算法成功實現(xiàn)機械臂的動態(tài)避障。國內(nèi)外研究表明,深度強化學(xué)習(xí)在連續(xù)控制上具有顯著成效,但當(dāng)深度強化學(xué)習(xí)系統(tǒng)變得越來越普通時,引發(fā)期望行為的獎勵函數(shù)的設(shè)計將會變得更加重要[9]。
本文的研究重點是基于深度強化學(xué)習(xí)與環(huán)境交互獲得機械臂控制策略,制定自適應(yīng)運動規(guī)劃策略以適應(yīng)目標(biāo)動作,實現(xiàn)機械臂與流水線上目標(biāo)物體的協(xié)調(diào)運動。特別是,針對改進后的近端策略優(yōu)化(PPO),測試該算法在播種平臺中的有效性。
氣振盤式播種流水線主要包括流水線、加種裝置和播種裝置(圖1)。其中流水線沿作業(yè)方向依次設(shè)置鋪底土機構(gòu)、掃底土機構(gòu)、壓穴機構(gòu)、覆表土機構(gòu)、掃表土機構(gòu)和灑水機構(gòu)[1]。播種裝置由六軸機械臂、吸種盤、振動供種構(gòu)成。本文研究對象為機械臂、吸種盤及流水線上的育秧盤。機械臂底座固定在支架上,位于振動種盤左側(cè);吸種盤固定在機械臂末端。當(dāng)育秧盤進入流水線后,依次經(jīng)過鋪底土、掃底土、壓穴環(huán)節(jié);同時,機械臂帶動吸種盤下行吸種,吸種完成后,吸種盤攜種至流水線正上方,在跟隨育秧盤同步運動過程中將籽粒排入育秧盤中;此時,育秧盤依次進入覆表土、掃表土、灑水環(huán)節(jié),吸種盤返回初始位置,等待下一播種周期。
1.2.1 二自由度播種機械臂存在問題
本團隊現(xiàn)有的氣振盤式播種流水線采用二自由度直角坐標(biāo)式機械臂帶動吸種盤完成播種。吸種盤的運動過程如圖2所示。因為吸種盤只能在面YOZ內(nèi)移動,而育秧盤沿X軸負(fù)方向移動,所以育秧盤需在排種位停止等待吸種盤到達排種位后,再進行排種。受二自由度機械臂運動路徑的限制,排種時,流水線上育秧盤需暫停移動,影響整體播種效率。
1.2.2 六軸播種機械臂運動規(guī)劃
本文采用六軸機械臂帶動吸種盤完成吸種、攜種、排種動作,任務(wù)規(guī)劃流程為①-②-③-④,如圖3所示。由P0(x0,y0,z0)下降至吸種位Pi(xi,yi,zi),其中i=1,2,…;氣泵開啟正壓,吸種完成后,吸種盤運行至預(yù)排種位P′i(x′i,y′i,z′i);控制吸種盤在跟隨育秧盤作同步運動過程中完成排種;排種結(jié)束后,吸種盤從P″i(x″i,y″i,z″i)運行至初始位置P0(x0,y0,z0),完成一個播種周期。在吸種盤運動過程中,Pi為吸種位,由種層厚度決定;P′i為預(yù)排種位,取決于育秧盤的位置;P″i為排種結(jié)束位。
圖3 吸種盤運動路徑
(1)
式中:df——距離權(quán)重;
af——加速度權(quán)重;
of——角度偏差權(quán)重;
q——關(guān)節(jié)位置,rad;
根據(jù)攜種運動學(xué)要求,在攜種過程中無籽粒脫落的條件下[10]:由牛頓第二定律可獲得吸種盤的最大加速度如式(2)所示,并建立吸種盤在第t+1時刻下的速度約束如式(3)所示。
(2)
(3)
式中:amax——吸種盤最大加速度,m/s2;
m——籽粒質(zhì)量,kg;
P——氣流場對籽粒的作用力,N;
g——重力加速度,取值9.8 m/s2;
Sf——吸附系數(shù),取值0.66;
ts——采樣時間,s;
運動規(guī)劃算法需要滿足跟隨排種的定位及姿態(tài)要求。文中機械臂末端執(zhí)行器為吸種盤,采用的育秧盤規(guī)格為590 mm×290 mm,孔距為18 mm。在排種過程中,吸種盤底面的排種孔需在育秧盤的穴孔范圍內(nèi),方可排種成功。根據(jù)圖4對吸種盤位置誤差范圍進行分析,半徑為9 mm的圓形區(qū)域為排種有效區(qū)域,C為吸種盤上排種孔中心點,O為穴孔中心點,ΔX,ΔY分別為點C與點O在X,Y軸上的位置偏差。定位要求為:吸種盤底面中心點與育秧盤中心點在X,Y軸上位置偏差的絕對值均小于9 mm,且兩點距離小于9 mm。根據(jù)圖5對吸種盤旋轉(zhuǎn)角度誤差范圍進行分析。圓形表示育秧盤上的穴孔位置,當(dāng)吸種盤偏轉(zhuǎn)角大于θ時,排種位置超出穴孔區(qū)域。通過計算θ的反正切值可知,θ為1.78°,即要求吸種盤在Z軸上的偏轉(zhuǎn)角度誤差的絕對值小于1.78°。同理可求得吸種盤在X,Y軸上的偏轉(zhuǎn)角度誤差的絕對值需小于3.69°和1.78°。
圖4 排種區(qū)域
圖5 Z軸偏轉(zhuǎn)角范圍
近端策略優(yōu)化(PPO)屬于一種新型深度強化學(xué)習(xí)算法,基于信任區(qū)域策略梯度(TRPO)[11]改進而來,結(jié)合了Q-learning和深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢[12],滿足強化學(xué)習(xí)的馬爾可夫性,可通過梯度下降對參數(shù)進行優(yōu)化,最大化期望獎勵。
馬爾可夫決策過程[13]可用于描述智能體與環(huán)境交互的過程,是一種強化學(xué)習(xí)的數(shù)學(xué)模型[14]。假設(shè)狀態(tài)轉(zhuǎn)化和動作概率均具有馬爾可夫性,即狀態(tài)轉(zhuǎn)化到下一狀態(tài)的概率僅與前一狀態(tài)有關(guān),且當(dāng)前狀態(tài)采取的動作的概率僅與當(dāng)前狀態(tài)有關(guān)。智能體根據(jù)t時刻的環(huán)境狀態(tài)st決定執(zhí)行動作at;當(dāng)動作執(zhí)行后,智能體獲得延遲獎勵值rt,此時動作at對環(huán)境產(chǎn)生一個新的狀態(tài)st+1;智能體根據(jù)新的環(huán)境狀態(tài)St+1再決定執(zhí)行動作at+1,依次循環(huán)。智能體通過神經(jīng)網(wǎng)絡(luò)與環(huán)境進行交互而產(chǎn)生的序列τ={…st,at,rt,st+1,at+1,rt+1,…}可構(gòu)成馬爾可夫決策的動態(tài)過程。馬爾可夫模型可由{s,a,r}簡單描述[15]。其中,狀態(tài)s包括環(huán)境中機械臂關(guān)節(jié)位置及轉(zhuǎn)速,末端執(zhí)行器位置,目標(biāo)位置,末端執(zhí)行器與目標(biāo)姿態(tài)間的偏轉(zhuǎn)角度,目標(biāo)物體的移動速度,末端執(zhí)行器的速度,碰撞信息;動作a由關(guān)節(jié)角速度描述;獎勵r由獎勵函數(shù)給出,具體設(shè)計方法將在后續(xù)內(nèi)容中做詳細(xì)介紹。
智能體對于給定狀態(tài)下要執(zhí)行的動作具有一定的隨機性,計算期望獎勵值如式(4)所示。
(4)
式中:rt——t時刻的獎勵值;
pθ(τ)——當(dāng)神經(jīng)網(wǎng)絡(luò)參數(shù)為θ時,序列τ發(fā)生的概率。
PPO中假設(shè)存在參數(shù)為θk的策略,用θk與環(huán)境互動采樣數(shù)據(jù)來訓(xùn)練θ??紤]到在實際應(yīng)用中,無法對τ直接求導(dǎo),所以用st,at替換τ。為最大化期望獎勵值,修改獎勵對應(yīng)的梯度更新公式如式(5)所示。
(5)
其中,Aθk(st,at)是修改后的優(yōu)勢函數(shù),用于評估st。若優(yōu)勢函數(shù)為正,則需要增加策略梯度;若優(yōu)勢函數(shù)為負(fù),則需減小策略梯度[4]。
當(dāng)更新前后的分布差異較大時,容易導(dǎo)致最終結(jié)果無法收斂。為保證參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)輸出動作概率分布與更新后策略的動作概率分布相差不會太大,PPO給出兩種解決方案:(1)引入KL散度來表示兩個動作概率分布之間的差異,自動調(diào)整KL散度的懲罰因子;(2)采用剪裁構(gòu)造新的目標(biāo)函數(shù)控制概率比。本文采用截斷(clip)機制將新舊策略的概率比限制在(1-ε,1+ε)內(nèi),將目標(biāo)函數(shù)近似為式(6)[16]。
(6)
式中:ε——新舊策略的最大差值,取值0.2;
pθ(at|st)——當(dāng)環(huán)境狀態(tài)為st時,參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)輸出動作為at的概率;
pθk(at|st)——當(dāng)環(huán)境狀態(tài)為st時,參數(shù)為θk的神經(jīng)網(wǎng)絡(luò)輸出動作為at的概率。
強化學(xué)習(xí)的缺點是收斂時間長[17]。獎勵塑造是人為設(shè)計獎勵函數(shù)加快訓(xùn)練過程的方法。強化學(xué)習(xí)的最終目標(biāo)是最大化長期累積的獎勵,所以獎勵函數(shù)設(shè)計的好壞直接影響強化學(xué)習(xí)算法性能的好壞及收斂速度的快慢。針對播種機械臂,若采用是否成功到達目標(biāo)點作為獎勵,由于獎勵過于稀疏,很容易使得智能體無法識別關(guān)鍵動作,導(dǎo)致訓(xùn)練效果不佳,此類稀疏獎勵問題也一直是深度強化學(xué)習(xí)在解決實際任務(wù)中面臨的核心問題[18]。故本文提出一種基于過程動作的獎勵函數(shù)設(shè)計方法,利用機械臂末端執(zhí)行器及目標(biāo)物體的位姿及速度引導(dǎo)機械臂按照期望姿態(tài)運動,完成預(yù)定動作。
在本研究中,需遵循以下規(guī)則。
1) 在排種過程中,吸種盤底面需平行于育秧盤上表面。
2) 吸種盤需盡可能朝著靠近目標(biāo)點的方向運動,禁止大幅度翻轉(zhuǎn)動作的出現(xiàn)。
根據(jù)Ng[19]提出:存在一個真值函數(shù)Φ使得改變后的獎勵函數(shù)構(gòu)成的馬爾可夫過程的最優(yōu)控制不變。結(jié)合最優(yōu)控制目標(biāo)函數(shù),可得Φ(st)公式如式(7)所示。
Φ(st)=RS(st)+RP(st)
(7)
式中:RS(st)——狀態(tài)st下的單值獎勵函數(shù);
RP(st)——狀態(tài)st下的過程獎勵函數(shù)。
根據(jù)上述規(guī)則,單值獎勵和過程獎勵均由機械臂和環(huán)境交互產(chǎn)生,用戶可以根據(jù)任務(wù)要求來量化。當(dāng)過程關(guān)鍵動作完成時,給出正向及時獎勵;當(dāng)機械臂與環(huán)境實體發(fā)生碰撞時,給出反向懲罰。終止?fàn)顟B(tài)設(shè)置為機械臂完成目標(biāo)動作或在指定時間內(nèi)未完成規(guī)定動作。針對跟隨階段,根據(jù)跟隨時間與采樣時間的比值可知,若連續(xù)存在固定數(shù)據(jù)點的位置及偏角誤差均在誤差范圍內(nèi),則表明機械臂完成跟隨排種,結(jié)束本次訓(xùn)練周期,并給予單次正向獎勵。單值獎勵函數(shù)定義如式(8)所示。
(8)
式中:a1——正向獎勵,取值2;
a2,a3——負(fù)向獎勵,分別取值-0.1,-0.2。
過程獎勵函數(shù)包含距離獎勵和姿態(tài)獎勵,具體操作如下。
RP=RD(st,st-1)+Rθ(st)
(9)
式中:RD(st,st-1)——距離獎勵函數(shù);
Rθ(st)——姿態(tài)獎勵函數(shù)。
距離獎勵函數(shù)與當(dāng)前狀態(tài)和前一狀態(tài)的距離值有關(guān)。用相鄰兩個時刻間的距離差判斷吸種盤的運動方向,當(dāng)距離差小于零,表明吸種盤正靠近目標(biāo)點,正向獎勵值變大;反之,表明吸種盤正遠(yuǎn)離目標(biāo)點,給予反向獎勵值。
(10)
(11)
式中:df、σ——距離參數(shù),分別取值為5.3,0.56;
姿態(tài)獎勵與吸種盤的偏轉(zhuǎn)角度有關(guān),具體公式如式(12)所示。
(12)
式中:θf——偏轉(zhuǎn)角參數(shù),取值0.25;
(13)
(14)
采用上述方法可依次求解第t時刻吸種盤在Y軸和Z軸方向上的夾角
將UG中建立的機械臂及流水線三維模型導(dǎo)入V-REP,為機械臂添加六個旋轉(zhuǎn)關(guān)節(jié)及環(huán)境碰撞檢測功能,將吸種盤固定于機械臂末端,編寫流水線傳送功能子腳本,建立氣振盤式播種流水線仿真平臺,構(gòu)建類似OpenAI Gym的交互環(huán)境,采用Remote API實現(xiàn)V-REP 和Python間的通訊[20-21],評價運動規(guī)劃算法的有效性。仿真環(huán)境如圖6所示。建立世界坐標(biāo)系,其中流水線沿X軸方向放置,育秧盤沿X軸負(fù)方向勻速運動。機械臂為伯朗特六軸工業(yè)機械臂BRTIRUS0707A,最大負(fù)載為7 kg,最大運動半徑為700 mm,重定位精度為±0.03 mm,各關(guān)節(jié)轉(zhuǎn)角范圍分別為(-170°,+170°),(-100°,+100°),(-60°,+140°),(-180°,+180°),(-115°,+115°),(-360°,+360°)。由于本文只考慮運動規(guī)劃算法的應(yīng)用性能,不考慮仿真環(huán)境與真實環(huán)境的誤差問題,故通過V-REP 獲取的目標(biāo)位姿信息可直接應(yīng)用于參數(shù)計算。
為研究機械臂運動規(guī)劃問題,對環(huán)境做如下假設(shè)。
1) 吸種盤的預(yù)排種位設(shè)置在距離育秧盤中心點正上方0.05 m處的矩形平面內(nèi)。
2) 不考慮吸種盤排種的瞬間動作,當(dāng)吸種盤底面中心點跟隨育秧盤中心點移動固定時間后,則認(rèn)定吸種盤完成排種動作。
圖6 仿真環(huán)境
設(shè)置端口號為19999,啟動服務(wù)器V-REP,與客戶端使用socket套接字進行通訊[21]。當(dāng)python計算出一組控制序列后,通過Remote API發(fā)送給V-REP,控制機械臂運動,并采集育秧盤及吸種盤的運行參數(shù)返回給客戶端,更新算法中機械臂與環(huán)境的交互狀態(tài)進行訓(xùn)練。為驗證算法的收斂速度、跟隨性能及整體播種效果,首先設(shè)置算法收斂速度對比試驗,采用吸種盤和目標(biāo)點間距離的相反數(shù)表示獎勵值,進行訓(xùn)練,保存模型;采用本文提出的基于過程動作的獎勵函數(shù),對機械臂進行訓(xùn)練,對比獎勵值的收斂情況。接著將訓(xùn)練好的模型載入聯(lián)合仿真,設(shè)置育秧盤進入待排種區(qū)域內(nèi)的運行速度為-0.2 m/s,連續(xù)進行20盤跟隨排種測試,當(dāng)育秧盤運動到(0.67, -0.326, 0.823)時開始記錄育秧盤的坐標(biāo)、吸種盤的坐標(biāo)及偏轉(zhuǎn)角,當(dāng)育秧盤到達(-0.6, -0.326, 0.823)時結(jié)束記錄,數(shù)據(jù)用于評價算法的跟隨效果。最后采用混合式運動規(guī)劃方法,對氣振盤式播種機械臂的運動過程進行規(guī)劃,由于下行和返回原點屬于典型的點對點運動,故直接采用快速探索隨機樹(RRT)算法對該過程進行路徑規(guī)劃;針對攜種過程及排種過程,采用改進后的PPO算法,連續(xù)進行30盤播種測試,記錄吸種盤的運行速度,計算平均播種周期。
3.3.1 收斂速度
采用吸種盤和目標(biāo)點間距離的相反數(shù)表示獎勵值,整個訓(xùn)練過程的獎勵值如圖7所示,訓(xùn)練28 000步后,獎勵值仍無法收斂,表明智能體暫未學(xué)習(xí)到可以完成預(yù)定動作的方法。而采用過程動作匹配設(shè)計的獎勵函數(shù),獎勵值如圖8所示,在約18 000步后,累積獎勵值可收斂至最大值,表明智能體已成功習(xí)得一種可完成任務(wù)的方法;且獎勵值在早期上升到最大獎勵值的速度明顯快于常用獎勵函數(shù)設(shè)置方法,說明基于過程動作的獎勵函數(shù)的設(shè)計方法可在早期引導(dǎo)機械臂進行有效學(xué)習(xí),減少算法在早期的探索時間,加快收斂速度。
圖7 PPO的獎勵值變化圖
圖8 改進PPO的獎勵值變化圖
3.3.2 跟隨性能
圖9 吸種盤及目標(biāo)點的運動軌跡
以吸種盤與育秧盤間的三軸位置誤差及點間距離作為跟隨位置效果的評價標(biāo)準(zhǔn),位置誤差結(jié)果如圖10所示。在跟隨運動過程中,變化較為顯著的為Y軸的位置誤差。由于在跟隨期間,吸種盤需要在X軸方向上保持較高控制精度,且不能碰撞到流水線支架,故習(xí)得的運動策略較為保守,導(dǎo)致Y軸測量值大于真實值,但由圖11可知,點間距離誤差可保持在(2.5 mm, 4.5 mm)范圍內(nèi),且吸種盤在X,Y,Z軸上的位置誤差的絕對值基本保持在2.5 mm,3.0 mm和1.1 mm,滿足跟隨排種的定位要求。
圖10 吸種盤和目標(biāo)點間的三軸位置誤差
以吸種盤與育秧盤間的偏轉(zhuǎn)角度差作為跟隨姿態(tài)的評價標(biāo)準(zhǔn),由于育秧盤的空間姿態(tài)始終與坐標(biāo)軸保持一致,故直接求解吸種盤在X,Y,Z軸上的偏轉(zhuǎn)角。偏轉(zhuǎn)角的仿真數(shù)據(jù)如圖12所示,跟隨過程中,吸種盤在X,Y,Z軸上的偏轉(zhuǎn)角度誤差的絕對值分別保持在1.20°,1.14°和1.28°之內(nèi),滿足跟隨排種的姿態(tài)要求。
圖11 吸種盤和目標(biāo)點間的距離誤差
圖12 吸種盤和目標(biāo)點間的姿態(tài)誤差
3.3.3 整體播種效果
截取一個播種周期中吸種盤運動過程如圖13所示,機械臂在單個播種周期內(nèi)可完成吸種、攜種、排種循環(huán)運動。吸種盤底面中心點運行速度如圖14所示,吸種盤下行吸種過程為直線運動,Z軸平均速度為-0.1 m/s,運動時間為0.8 s;在吸種位停留1 s,等待吸種完成;攜種過程為曲線運動;排種過程可近似為直線運動,在X軸上的平均速度為-0.202 m/s,跟隨排種過程持續(xù)1 s;最后返回初始位置。通過計算30盤播種時間的平均值可知平均播種周期約為5.1 s。
綜合上述分析,該方法可在保證控制精度的情況下,使得機械臂快速完成吸種、攜種、排種、返回原點等相關(guān)動作。
圖13 一組狀態(tài)測試流程圖
圖14 吸種盤的運行速度
本文提出一種基于深度強化學(xué)習(xí)的播種機械臂運動規(guī)劃算法,利用V-REP搭建氣振盤式播種仿真平臺,設(shè)計過程動作匹配獎勵函數(shù),構(gòu)建近端策略優(yōu)化算法框架,并驗證規(guī)劃算法的有效性。該算法可減少機械臂的無效學(xué)習(xí),滿足跟隨排種的位姿要求,為超級稻精密播種的智能化控制提供有效依據(jù)。
1) 根據(jù)氣振盤式播種流水線的工作特點,采用六軸機械臂設(shè)計跟隨式排種方法,可避免流水線在播種過程中暫停等待排種;最終平均播種周期由7.2 s減少至5.1 s,提高了播種效率。
2) 提出一種基于深度強化學(xué)習(xí)的播種機械臂運動規(guī)劃算法,設(shè)計基于過程動作的獎勵函數(shù),構(gòu)建近端策略優(yōu)化算法框架,加快算法的收斂速度;利用V-REP 對氣振盤式播種機械臂運動規(guī)劃算法進行仿真,仿真結(jié)果表明,該算法可實現(xiàn)跟隨排種,且吸種盤在X,Y,Z軸上位置誤差的絕對值小于2.5、3.0、1.1 mm,跟隨距離誤差絕對值小于4.5 mm,偏轉(zhuǎn)角誤差的絕對值小于1.20°,1.14°,1.28°,滿足跟隨排種的定位及姿態(tài)要求。