寧涵雪 張偉軍
(上海交通大學(xué)機(jī)械與動(dòng)力工程學(xué)院,上海 200240)
隨著我國(guó)經(jīng)濟(jì)的快速發(fā)展,電力系統(tǒng)已成為國(guó)家高效發(fā)展的動(dòng)脈線和社會(huì)繁榮的生命線。目前我國(guó)電力資源與電力消耗的地理分布極不平衡,國(guó)家電網(wǎng)建立了眾多輸電鐵塔來(lái)協(xié)調(diào)各地區(qū)的用電與發(fā)電。這些鐵塔工作環(huán)境惡劣,長(zhǎng)時(shí)間裸露在空氣中,可能會(huì)出現(xiàn)安全隱患,因此需要維修人員定期對(duì)輸電鐵塔進(jìn)行巡檢和維護(hù)。傳統(tǒng)的鐵塔檢修工作通過(guò)人工完成,維修人員采用雙安全帶交替綁定鐵塔的方式攀爬鐵塔,工作強(qiáng)度高且安全風(fēng)險(xiǎn)極大。使用機(jī)器人代替人工執(zhí)行任務(wù)可以降低維修人員勞動(dòng)強(qiáng)度和安全隱患,并且能夠提升巡檢效率和覆蓋率。目前爬塔機(jī)器人大都機(jī)械結(jié)構(gòu)復(fù)雜,攀爬步態(tài)復(fù)雜[1-6],不同鐵塔的障礙環(huán)境又有很大差異,這給機(jī)器人的使用和使用帶來(lái)了一定困難。因此要求機(jī)器人具有適應(yīng)不同障礙環(huán)境的自動(dòng)攀爬能力,從而降低機(jī)器人的操作難度,提高機(jī)器人工作效率和適用廣泛性。
目前對(duì)于爬塔機(jī)器人的自動(dòng)控制方法主要分為兩類,一類是根據(jù)機(jī)械結(jié)構(gòu)和任務(wù)需求,設(shè)計(jì)機(jī)器人狀態(tài)機(jī)或行為樹(shù),在實(shí)際工作中結(jié)合環(huán)境感知數(shù)據(jù)和機(jī)器人狀態(tài),按照預(yù)設(shè)邏輯執(zhí)行任務(wù)[7-10];另一類則是使用強(qiáng)化學(xué)習(xí)等智能算法來(lái)確定機(jī)器人運(yùn)動(dòng)策略[11-14]。前者便于完成機(jī)器人底層控制,但應(yīng)用場(chǎng)景單一,一般一種狀態(tài)機(jī)或行為樹(shù)策略只能對(duì)應(yīng)一種障礙環(huán)境;后者可以根據(jù)不同環(huán)境來(lái)調(diào)整運(yùn)動(dòng)策略,但是許多任務(wù)實(shí)際不需要通過(guò)訓(xùn)練就可以直接決策,這些任務(wù)增加了學(xué)習(xí)的負(fù)擔(dān),在實(shí)際控制中計(jì)算效率過(guò)低。
本論文根據(jù)層次化控制理論對(duì)輸電鐵塔攀爬機(jī)器人的自動(dòng)攀爬進(jìn)行研究,利用深度確定性策略梯度算法(Deep Deterministic Policy Gradient)得出的越障策略作為高層決策,輸出任務(wù)序列,并將其映射到行為樹(shù)上具體節(jié)點(diǎn),通過(guò)執(zhí)行行為樹(shù)節(jié)點(diǎn)實(shí)現(xiàn)具體動(dòng)作。論文首先介紹了爬塔機(jī)器人的工作環(huán)境和機(jī)械結(jié)構(gòu),分析了機(jī)器人攀爬時(shí)的越障步態(tài),并介紹了環(huán)境感知系統(tǒng)以及底層硬件系統(tǒng),分析了可獲取到的機(jī)器人狀態(tài)信息與鐵塔障礙信息。接著根據(jù)機(jī)器人建立馬爾可夫決策模型,利用DDPG算法訓(xùn)練機(jī)器人越障策略。最后,對(duì)該方法在不同障礙環(huán)境下進(jìn)行仿真,并結(jié)合行為樹(shù)集成到爬塔機(jī)器人控制系統(tǒng)中進(jìn)行實(shí)地試驗(yàn),驗(yàn)證其有效性和適應(yīng)能力。
本文中機(jī)器人的工作環(huán)境是高壓輸電鐵塔,按照結(jié)構(gòu)可分為羊角塔、貓頭塔、干字塔、酒杯塔等,如圖1所示。鐵塔主材上有角鐵、鉚釘、螺栓、連接板等障礙,如圖2所示,其長(zhǎng)度和位置在不同鐵塔上有很大差異。本課題的機(jī)器人需要在這些常規(guī)鐵塔的主材上實(shí)現(xiàn)自主攀爬功能,因此需要針對(duì)不同鐵塔的障礙環(huán)境調(diào)整越障策略,提高爬塔機(jī)器人的適應(yīng)性。
a.羊角塔 b. 貓頭塔 c. “干”字塔 d. 酒杯塔
圖2 鐵塔障礙
爬塔機(jī)器人機(jī)械結(jié)構(gòu)如圖3所示,由一個(gè)導(dǎo)軌式機(jī)體和兩個(gè)結(jié)構(gòu)相同的攀附足構(gòu)成。
a. 升降機(jī)構(gòu) b. 伸縮機(jī)構(gòu) c.旋轉(zhuǎn)機(jī)構(gòu)
機(jī)體由鋁方管搭建,形成一個(gè)矩形框架,機(jī)體尾部放置電池、控制器、路由器等電氣元件和控制設(shè)備;機(jī)體頭部設(shè)置激光雷達(dá)、工業(yè)相機(jī)等傳感設(shè)備;機(jī)體導(dǎo)軌上有固定齒條,可供攀附足沿導(dǎo)軌方向移動(dòng)。攀附足包含升降、伸縮和旋轉(zhuǎn)三個(gè)自由度,足底為一個(gè)電磁鐵,可通電實(shí)現(xiàn)強(qiáng)磁和消磁。升降機(jī)構(gòu)通過(guò)齒輪齒條結(jié)構(gòu)實(shí)現(xiàn),伸縮機(jī)構(gòu)通過(guò)電推杠實(shí)現(xiàn),旋轉(zhuǎn)機(jī)構(gòu)通過(guò)伺服電機(jī)實(shí)現(xiàn)。機(jī)器人總長(zhǎng)l1=2.1 m,導(dǎo)軌行程l3=1.6 m,足長(zhǎng)l2=0.3 m。
機(jī)器人在攀爬過(guò)程中可以選擇三種動(dòng)作策略:整體升降、上足升降、下足升降。整體升降需要兩足同時(shí)吸附在鐵塔上,讓兩足以同方向同速度加速度升降,使機(jī)器人機(jī)體實(shí)現(xiàn)升降。上足升降需要首先讓下足電磁鐵強(qiáng)磁,上足電磁鐵消磁,保證機(jī)器人在只有一個(gè)攀附足吸附在鐵塔上的情況下不會(huì)掉落;上足縮到底,判斷上足的落足點(diǎn),將上足移動(dòng)到指定位置再伸出,從而越過(guò)鐵塔上障礙;最終讓上下足電磁鐵去電,恢復(fù)兩足同時(shí)吸附在鐵塔的狀態(tài)。下足升降過(guò)程同上足升降。機(jī)器人通過(guò)升降機(jī)構(gòu)讓機(jī)體和上下足交替運(yùn)動(dòng),實(shí)現(xiàn)機(jī)器人相對(duì)于鐵塔的位移,通過(guò)伸縮機(jī)構(gòu)使攀附足避開(kāi)鐵塔環(huán)境中的斜拉角鋼、螺栓、鉚釘?shù)日系K區(qū),在無(wú)障礙位置落足,實(shí)現(xiàn)攀爬過(guò)程中的越障功能,如圖4所示。
圖4 主材攀爬運(yùn)動(dòng)
機(jī)器人硬件系統(tǒng)框圖如圖5所示,可分為運(yùn)動(dòng)控制系統(tǒng)和環(huán)境感知系統(tǒng)。
圖5 硬件系統(tǒng)框圖
(1)運(yùn)動(dòng)控制系統(tǒng):本機(jī)器人采用EtherCAT工業(yè)總線,主站控制器倍??刂破鞣胖糜跈C(jī)體尾部,從站ELMO驅(qū)動(dòng)器放置于足部,實(shí)現(xiàn)組的升降、伸縮和旋轉(zhuǎn)功能,控制器的IO模塊控制電磁鐵的強(qiáng)磁、消磁和去電。
(2)環(huán)境感知系統(tǒng):上下足和機(jī)體頭尾都裝有工業(yè)相機(jī)和激光測(cè)距,機(jī)體頭部裝有激光雷達(dá)。相機(jī)用于檢測(cè)鐵塔主材與足相對(duì)位置,判斷足落點(diǎn)是否在鐵塔主材范圍內(nèi),同時(shí)供使用者實(shí)時(shí)監(jiān)控機(jī)器人環(huán)境;激光測(cè)距用于獲取障礙與足之間距離,激光雷達(dá)用于獲取鐵塔上障礙的點(diǎn)云數(shù)據(jù),兩者結(jié)合可獲取機(jī)器人當(dāng)前的環(huán)境障礙信息,包括障礙相對(duì)于機(jī)器人的位置和障礙大小,作為后續(xù)越障決策的輸入?yún)?shù)。
機(jī)器人越障過(guò)程是一個(gè)在基于連續(xù)狀態(tài)空間和連續(xù)動(dòng)作空間的決策過(guò)程,因此我們選擇DDPG算法,它是基于DQN算法引入了確定性策略梯度,從而解決連續(xù)動(dòng)作問(wèn)題。
對(duì)于一個(gè)智能體,如果它t+1時(shí)刻的狀態(tài)只和t時(shí)刻的狀態(tài)有關(guān),那么該狀態(tài)轉(zhuǎn)換就具有馬爾可夫性,當(dāng)一個(gè)隨機(jī)過(guò)程的任意時(shí)刻狀態(tài)都具有馬爾可夫性,則被稱為馬爾可夫過(guò)程,即:
P(Xt+1=sj+1│X0=s0,X1=s1,,Xt=st)=P(Xt+1=sj+1|Xt=st)
(1)
爬塔機(jī)器人越障過(guò)程可看作機(jī)器人在一維網(wǎng)格上運(yùn)動(dòng),上下足可以交替向前移動(dòng),機(jī)器人的當(dāng)前狀態(tài)只與前一步的狀態(tài)和前一步動(dòng)作相關(guān),因此可建立越障過(guò)程的馬爾可夫決策模型。
設(shè)機(jī)體長(zhǎng)度為L(zhǎng)robot,上下足長(zhǎng)度為L(zhǎng)foot,世界坐標(biāo)下機(jī)體頂端位置Ytop,上足頂端位置Yup,下足頂端位置Ydown, 本次越障的目標(biāo)位置Ytarget。越障目標(biāo)位置由單次環(huán)境感知能獲取的范圍決定,通過(guò)可獲取范圍內(nèi)每個(gè)障礙起始位置和結(jié)束位置的世界坐標(biāo),將所有障礙的信息放入隊(duì)列中,每次進(jìn)行越障決策前對(duì)障礙信息隊(duì)列更新,若機(jī)器人已越障成功,則將隊(duì)列中該障礙信息彈出,若當(dāng)前感知到的障礙還未放入隊(duì)列,則將障礙信息放入隊(duì)列如圖6所示。
圖6 障礙信息更新邏輯
圖7 DDPG算法框架
3.1.1 連續(xù)狀態(tài)空間
通過(guò)分析越障過(guò)程中的決策因素,可知上下足相對(duì)于機(jī)體的位置以及上下足是否與障礙有碰撞會(huì)影響決策結(jié)果。根據(jù)機(jī)器人狀態(tài)信息和障礙信息,定義狀態(tài)空間如下:S=[uppos,downpos,upoverlap,downvoerlap],其中uppos表示上足相對(duì)機(jī)體的位置;downpos表示下足相對(duì)機(jī)體位置;upoverlap和downvoerlap分別表示上下足當(dāng)前位置與障礙是否有重疊。
上下足相對(duì)機(jī)體的位置取值范圍為(0,1),分別如式(2)~(3)所示。
(2)
(3)
上下足與障礙的重疊情況判斷邏輯如式(4)~式(5)所示。
3.1.2 連續(xù)動(dòng)作空間
機(jī)器人越障過(guò)程中可選擇的動(dòng)作有上足升、下足升和整體升,因此可以定義動(dòng)作空間A=[upmove,downmove,bothmove],每個(gè)動(dòng)作的取值范圍都是[0,Lrobot]:
機(jī)器人位置更新需要受到機(jī)械約束,更新公式如式(6)~式(8)所示。
3.1.3 獎(jiǎng)勵(lì)函數(shù)
為了加速訓(xùn)練速度,除了跟障礙有重合的情況,我們考慮給接近目標(biāo)位置的狀態(tài)更高的獎(jiǎng)勵(lì),這樣在動(dòng)作選擇時(shí)策略會(huì)更傾向連續(xù)運(yùn)動(dòng)更遠(yuǎn)的距離,這也符合實(shí)際中我們希望機(jī)器人攀爬速度更快的目標(biāo)如式(9)~式(10)所示。
(4)
(5)
(6)
(7)
(8)
(9)
(10)
機(jī)器人按照策略執(zhí)行動(dòng)作獲取獎(jiǎng)勵(lì),得到累計(jì)獎(jiǎng)勵(lì)如式(11)所示。
(11)
式中:R(s,t)表示當(dāng)前軌跡下的累計(jì)獎(jiǎng)勵(lì),γ表示折扣系數(shù),反映了獎(jiǎng)勵(lì)隨時(shí)間重要性下降。
按照一定策略π可獲得在狀態(tài)st下采取動(dòng)作at的獎(jiǎng)勵(lì)期望Rt,可以評(píng)估策略π的價(jià)值,用Bellman等式來(lái)定義:
Q(st,at)=E[r(st,at)+γQ(st+1,π(st+1))]
(12)
其中最大的價(jià)值對(duì)應(yīng)的策略即最優(yōu)策略π*:
(13)
深度確定性策略梯度方法(Deep Deterministic Policy Gradient, DDPG)將Actor-Critic算法作為其基本框架,通過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)策略和動(dòng)作值函數(shù)近似,并使用隨機(jī)梯度法來(lái)訓(xùn)練策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)模型中的參數(shù)。對(duì)于策略函數(shù)和價(jià)值函數(shù)都使用了實(shí)時(shí)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的雙重神經(jīng)網(wǎng)絡(luò)模型。同時(shí)該算法借鑒了DQN算法中的經(jīng)驗(yàn)回放機(jī)制,Actor與環(huán)境交互產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù)將存儲(chǔ)到經(jīng)驗(yàn)池中,再抽取其中一批數(shù)據(jù)樣本訓(xùn)練,使算法更容易收斂。
根據(jù)DDPG算法框架,可得DDPG算法執(zhí)行過(guò)程如下。
表1 DDPG算法流程
仿真運(yùn)行環(huán)境:(1)硬件環(huán)境:Intel i7-11800H ,16 G內(nèi)存,NVIDIA 3060;(2)軟件環(huán)境:Python 3.7,Paddle 2.5.2。選取不同位置和不同長(zhǎng)度的障礙作為訓(xùn)練集和測(cè)試集,共進(jìn)行了160000次訓(xùn)練以學(xué)習(xí)最佳的越障策略,訓(xùn)練過(guò)程的獎(jiǎng)勵(lì)回報(bào)如圖8所示。
圖8 仿真迭代圖
圖9 測(cè)試環(huán)境
從圖中可看出訓(xùn)練開(kāi)始階段由于智能體沒(méi)有相關(guān)經(jīng)驗(yàn),從較低的獎(jiǎng)勵(lì)值開(kāi)始探索,通過(guò)不斷從經(jīng)驗(yàn)中學(xué)習(xí)來(lái)提高獎(jiǎng)勵(lì)回報(bào),Test reward提高到-80左右時(shí)可以穩(wěn)定完成越障。
設(shè)置五種障礙環(huán)境:一個(gè)短障礙、一個(gè)長(zhǎng)障礙、兩個(gè)短障礙、一長(zhǎng)一短障礙以及三個(gè)障礙,每種環(huán)境下取10個(gè)不同的障礙長(zhǎng)度和障礙間隔的數(shù)據(jù),將其作為測(cè)試集檢驗(yàn)訓(xùn)練效果。
最終可以獲得不同障礙環(huán)境下測(cè)試效果如下表,所有測(cè)試集均可完成越障,證明了算法的可靠性。
表2 測(cè)試結(jié)果
為驗(yàn)證該越障算法實(shí)用性,將DDPG算法集成在機(jī)器人控制系統(tǒng)中,在實(shí)際場(chǎng)景進(jìn)行越障試驗(yàn)。機(jī)器人自動(dòng)控制由行為樹(shù)作為基本框架,其中越障決策由強(qiáng)化學(xué)習(xí)計(jì)算得到,將越障策略映射到行為樹(shù)對(duì)應(yīng)節(jié)點(diǎn)來(lái)執(zhí)行底層控制。機(jī)器人控制框架圖如圖10所示。
圖10 機(jī)器人控制框架
實(shí)驗(yàn)工況包括羊角塔、干字塔、酒杯塔、鋼管塔、10 kV鐵塔,機(jī)器人針對(duì)工況對(duì)應(yīng)輸出了越障策略如圖11~圖12所示。
圖11 不同實(shí)驗(yàn)工況
如下頁(yè)圖13所示,在五種工況下,機(jī)器人都基于環(huán)境感知和強(qiáng)化學(xué)習(xí)做出了合適的越障決策,并能結(jié)合行為樹(shù)完成越障,表明機(jī)器人具備針對(duì)不同障礙環(huán)境的自主攀爬鐵塔能力。
本文針對(duì)爬塔機(jī)器人在不同障礙環(huán)境下都需要具備自主攀爬能力的問(wèn)題,提出了將傳統(tǒng)基于預(yù)設(shè)控制邏輯的行為樹(shù)和能針對(duì)環(huán)境靈活調(diào)整決策的強(qiáng)化學(xué)習(xí)結(jié)合的層次化控制方法。建立了爬塔機(jī)器人的馬爾可夫決策模型,并利用可應(yīng)用在連續(xù)動(dòng)作空間的DDPG算法進(jìn)行訓(xùn)練;同時(shí)設(shè)計(jì)了機(jī)器人行為樹(shù),并將強(qiáng)化學(xué)習(xí)得到的策略映射到行為樹(shù)具體節(jié)點(diǎn),實(shí)現(xiàn)底層控制動(dòng)作。室外不同工況下的攀爬實(shí)驗(yàn)表明該控制方法能夠有效地指導(dǎo)機(jī)器人自動(dòng)攀爬鐵塔。