劉偉龍,李 彬*,侯蘭東,徐一明
齊魯工業(yè)大學(xué)(山東省科學(xué)院) a.數(shù)學(xué)與統(tǒng)計學(xué)院;b.電氣工程與自動化學(xué)院,山東 濟南 250353
與輪式和履帶式機器人相比,腿足式機器人對非結(jié)構(gòu)化復(fù)雜地形具有更強的適應(yīng)性和更小的地形破壞性,盡管控制算法較為復(fù)雜,腿足式機器人的研發(fā)依舊是機器人研究領(lǐng)域最受歡迎的方向之一。腿足式機器人主要包括雙足機器人、四足機器人以及多足爬行機器人等。四足機器人的開發(fā)借鑒了獵豹和羚羊等敏捷的四足動物的身體結(jié)構(gòu)。相較于其他腿足式機器人,四足機器人既可以實現(xiàn)靜態(tài)穩(wěn)定、高負載和高動態(tài)魯棒性運動,又能在運動控制方面減少開發(fā)人員工作難度,所以四足仿生機器人是多年來機器人領(lǐng)域的研究熱點。國內(nèi)外近些年涌現(xiàn)出一批優(yōu)秀的四足機器人研究團隊,主要有美國的波士頓動力公司、麻省理工學(xué)院、瑞士蘇黎世聯(lián)邦理工學(xué)院、中國杭州宇樹科技、杭州云深處科技和山東優(yōu)寶特智能機器人公司等。
最受關(guān)注的四足機器人研發(fā)團隊當(dāng)數(shù)美國的波士頓動力(Boston Dynamics)公司,2005年,波士頓動力公司推出了他們的第一代液壓驅(qū)動四足機器人BigDog[1-2]。2008年他們又推出了第二代BigDog。2012年,波士頓動力公司發(fā)布了一款大型四足機器人LS3,在繼續(xù)提高負載和續(xù)航能力的基礎(chǔ)上,搭載了一些傳感器,可以實現(xiàn)環(huán)境感知和對人員的跟隨任務(wù)。2015年推出了使用電機和液壓機混合驅(qū)動方式的機器人Spot,后來過渡到的純電驅(qū)動的Spot mini,并于2019開始出售。波士頓動力公司的部分四足機器人如圖1所示。
圖1 波士頓動力四足機器人
麻省理工學(xué)院開發(fā)的四足機器人MIT Cheetah系列推動了四足機器人的快速發(fā)展,2012年模仿獵豹的腿部構(gòu)造研發(fā)第一款四足機器人Cheetah[3]。同年推出了二代Cheetah2[4-8]機器人。2018年發(fā)布了第三代Cheetah3[9-11]進一步提高能量轉(zhuǎn)化效率。2019年,小型四足機器人Mini Cheetah[12]發(fā)布,該研究團隊也開源了Mini Cheetah機器人的軟硬件系統(tǒng),掀起了四足機器人領(lǐng)域的研究熱潮。麻省理工學(xué)院的四足機器人如圖2。
圖2 MIT Cheetah系列四足機器人
蘇黎世聯(lián)邦理工學(xué)院的ANYbotics團隊2017年推出了基于串聯(lián)彈性致動器的四足機器人ANYmal[13-15],用于復(fù)雜環(huán)境中實現(xiàn)穩(wěn)定行走,并搭載特定傳感器完成任務(wù),例如工業(yè)巡檢和泄漏氣體檢測報警等特定工作。該團隊在2019年發(fā)布了ANYmal-C,旨在拓展更廣泛的應(yīng)用場景,為基于深度強化學(xué)習(xí)的四足機器人探索了一些新的研究方向[16-17]。ANYmal系列四足機器人如圖3。
圖3 ANYmal系列四足機器人
杭州宇樹科技公司2017年推出Laikago四足機器人,該機器人被國內(nèi)外很多研究團隊作為二次開發(fā)的實驗平臺[18]。2019年宇樹科技推出了Laikago的改進款A(yù)liengo并在2020年推出了小型四足機器人A1。2021年宇樹科技推出了首款伴隨型四足機器人Go1,可以實現(xiàn)優(yōu)異的人員跟隨能力。宇樹科技公司的部分四足機器人如圖4。
圖4 宇樹科技四足機器人
杭州云深處科技公司在2017年推出了“絕影”四足機器人[19]。隨后云深處科技推出了“絕影”系列四足機器人的其他型號,分別有“絕影Mini”“絕影Mini Lite”和“絕影X20”,該系列擁有大量外擴平臺,支持豐富的傳感設(shè)備模塊化組合搭載,可以勝任多場景的任務(wù)。云深處科技的“絕影”系列四足機器人如圖5。
圖5 云深處科技絕影系列四足機器人
山東優(yōu)寶特智能機器人公司2016年推出了一款使用舵機驅(qū)動的小型四足機器人e-DOG,主要面向科研和教育行業(yè)。2019年,推出了使用高功率密度無刷直流電機驅(qū)動的中型四足機器人YoBoGo。該機器人二次開發(fā)性較好,可適用于農(nóng)業(yè)、物流、教育和科研等領(lǐng)域應(yīng)用。優(yōu)寶特智能機器人公司推出的四足機器人如圖6。
齊魯工業(yè)大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院機器人-環(huán)境智能交互創(chuàng)新團隊參與研制了一臺智能感知、避障跟隨四足機器人。該四足機器人搭載兩部深度相機及一臺十六線3D激光雷達組成環(huán)境感知的硬件系統(tǒng),使用超寬帶(Ultra Wide Band,UWB)模塊作為定位系統(tǒng)??蓪崿F(xiàn)環(huán)境地形感知和障礙物躲避,也可以完成對人員的跟隨和物資搬運任務(wù)。該四足機器人如圖7所示。
圖7 智能感知避障跟隨四足機器人
目前,四足機器人的控制方法已經(jīng)比較成熟,也可以實現(xiàn)低能耗、高動態(tài)性和魯棒性的控制。但傳統(tǒng)的機器人控制方法需要對機器人運動學(xué)和動力學(xué)精確地建模分析,設(shè)計四足機器人的敏捷運動需要大量的專業(yè)知識和繁瑣的手動調(diào)參。近年來隨著機器學(xué)習(xí)領(lǐng)域技術(shù)的發(fā)展,深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)已經(jīng)在諸多領(lǐng)域取得了令人矚目的成績,于是便有一些研究人員開始考慮將學(xué)習(xí)的方法引入到機器人上,讓機器人在盡可能少人工設(shè)計和干預(yù)的情形下自主學(xué)習(xí)復(fù)雜的控制策略,實現(xiàn)靈活穩(wěn)定的運動。
2018年,加州大學(xué)伯克利分校的Xue Bin Peng等[20]提出了DeepMimic方法,使用強化學(xué)習(xí)方法模仿示例運動,進而學(xué)習(xí)穩(wěn)定的控制策略,使用雙足、四足等仿真角色學(xué)習(xí)了基本的運動和高動態(tài)性的雜技動作。該模仿學(xué)習(xí)方法使用近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法進行訓(xùn)練。另外還提出在訓(xùn)練過程中對參考狀態(tài)進行初始化和提前終止錯誤動作是有必要的,可以避免陷入錯誤的策略浪費計算資源,顯著地提高學(xué)習(xí)效率和效果。
為了使四足機器人復(fù)制四足動物靈活敏捷的運動技能,Xue Bin Peng等[21]提出了一個模仿學(xué)習(xí)系統(tǒng)。使用動作捕捉技術(shù)采集四足動物的運動數(shù)據(jù)作為參考動作,使用強化學(xué)習(xí)方法合成控制策略,使機器人能夠在現(xiàn)實世界中復(fù)現(xiàn)該動作。最后將策略轉(zhuǎn)移到四足機器人Laikago,機器人高效地模仿了trot步態(tài)和原地轉(zhuǎn)向等動作。
2018年,Google Brain和Google DeepMind的研究人員Jie Tan等[22]提出了一個利用深度強化學(xué)習(xí)技術(shù)訓(xùn)練四足機器人運動控制器的方法,通過定義一個簡單的獎勵信號,使四足機器人從零開始學(xué)習(xí)運動。通過建立精確的關(guān)節(jié)電機模型、添加延遲和擾動等方法來縮小仿真環(huán)境到物理現(xiàn)實世界的差距,提高控制策略的魯棒性??刂撇呗栽诜抡嬷羞M行訓(xùn)練,然后部署到Ghost Robotics的Minitaurs四足機器人上。
腿足式機器人的運動控制是一項復(fù)雜且具有挑戰(zhàn)性的任務(wù),Deepali Jain等[23]引入了一個分層結(jié)構(gòu)控制方法來自動分解復(fù)雜的運動任務(wù)。使用層次強化學(xué)習(xí)(Hierarchical Reinforcement Learning,HRL)方法將復(fù)雜的任務(wù)分解為簡單的子任務(wù),將體系結(jié)構(gòu)分為高層和低層策略網(wǎng)絡(luò)兩部分,并對其進行聯(lián)合訓(xùn)練。使用PyBullet對策略進行仿真訓(xùn)練,將訓(xùn)練得到的控制策略應(yīng)用于四足機器人Minitaur的路徑跟蹤任務(wù)上。
Sehoon Ha等[24]開發(fā)了一個在現(xiàn)實世界中不需要人為干預(yù)的腿足式機器人學(xué)習(xí)運動策略的系統(tǒng)。該系統(tǒng)通過使用軟演員-評論家(Soft Actor-Critic,SAC) 算法求解馬爾科夫決策過程(Markov Decision Process,MDP),使用PyBullet仿真環(huán)境進行大量的訓(xùn)練。在平坦的地面、有彈性的床墊和有凹陷的門墊等地形上測試了他們提出的系統(tǒng),Minitaur機器人可以在幾個小時內(nèi)學(xué)會在這些地形上行走,并為每種地形獲得獨特和專門的步態(tài)。
Jemin Hwangbo等[25]提出了一種在仿真中訓(xùn)練神經(jīng)網(wǎng)絡(luò)策略并將其轉(zhuǎn)移到腿足式機器人系統(tǒng)上的方法。首先對機器人的物理參數(shù)進行辨識,并估計辨識過程中的不確定性。然后訓(xùn)練一個關(guān)節(jié)執(zhí)行器網(wǎng)絡(luò),對復(fù)雜的執(zhí)行器動力學(xué)建立模型。接下來使用置信域策略優(yōu)化(Trust Region Policy Optimization,TRPO)算法訓(xùn)練控制策略。最后直接在ANYmal機器人實體系統(tǒng)上部署經(jīng)過訓(xùn)練的策略,ANYmal能夠精確而高效地執(zhí)行高層的速度指令,并將最快速度提高了25%。
復(fù)雜地形下的腿足式機器人運動,是機器人技術(shù)的一個重大挑戰(zhàn)。Vassilios Tsounis等[16]提出了訓(xùn)練地形感知神經(jīng)網(wǎng)絡(luò)策略的DeepGait方法,它結(jié)合了基于模型的運動規(guī)劃和強化學(xué)習(xí)的方法。該方法由一個地形感知規(guī)劃器和一個基礎(chǔ)運動控制器組成。將該方法應(yīng)用到ANYmal機器人上,可以順利規(guī)劃落足點并通過狹窄的橋梁等地形。
Joonho Lee等[17]提出了一個不依賴視覺信息的四足機器人強化學(xué)習(xí)控制器。該控制器僅使用來自關(guān)節(jié)編碼器和慣性測量單元的本體感受測量得到的值。仿真中采用強化學(xué)習(xí)的方法對控制器進行訓(xùn)練,控制器由神經(jīng)網(wǎng)絡(luò)策略驅(qū)動。該控制器被用于ANYmal和ANYmal-C兩代四足機器人上,機器人可以在泥土、沙子、碎石、茂密的植被、雪地、小溪和其他各種自然中的復(fù)雜地形中穩(wěn)定地行走。
針對四足機器人實時在線自適應(yīng)的問題,Ashish Kumar等[26]提出了快速電機自適應(yīng) (Rapid Motor Adaptation,RMA) 算法,該算法由基本策略和適應(yīng)模塊兩個組件組成。RMA完全在仿真環(huán)境中使用強化學(xué)習(xí)方法訓(xùn)練,并部署在宇樹科技的Al機器人上。在巖石、草地、混凝土、鵝卵石、樓梯等地形中,機器人的通過成功率達到了70%~80%。
隨著人工智能和機器學(xué)習(xí)領(lǐng)域技術(shù)的發(fā)展,深度強化學(xué)習(xí)在感知和決策問題中展現(xiàn)出優(yōu)勢?;趯W(xué)習(xí)方法的主要思路就是智能體與環(huán)境進行交互試錯,在這個過程中鼓勵積極正向的行為,懲罰消極負向的行為,經(jīng)過多次的交互試錯訓(xùn)練,根據(jù)受到鼓勵的程度學(xué)習(xí)積極正向或期望的行為策略,達到從無到有的學(xué)習(xí)目的。
將深度強化學(xué)習(xí)應(yīng)用到四足機器人的運動控制上,一項重要的工作就是環(huán)境的設(shè)計,其中包含機器人狀態(tài)空間、動作空間和獎勵函數(shù)的設(shè)計,這項工作往往需要根據(jù)學(xué)習(xí)的任務(wù)目標去制定。四足機器人的狀態(tài)空間通常會包含機器人在世界坐標系下的三維位置信息、三維的速度信息、三維的姿態(tài)角信息、三維的姿態(tài)角速度信息、12個關(guān)節(jié)的位置信息和12個關(guān)節(jié)的角速度等信息。動作空間通常由12個關(guān)節(jié)電機輸出的位置、力矩和期望運動軌跡參數(shù)等組成。獎勵函數(shù)根據(jù)具體的任務(wù)目標進行設(shè)定,例如把機器人學(xué)習(xí)穩(wěn)定的快速行走作為任務(wù)目標,通常將機器人前進方向的移動距離和速度設(shè)置為正獎勵項,將偏航和俯仰角度和角速度設(shè)置為負獎勵項。
狀態(tài)作為機器人運動控制策略網(wǎng)絡(luò)的輸入,動作作為策略網(wǎng)絡(luò)的輸出,機器人執(zhí)行動作與環(huán)境交互,機器人的狀態(tài)發(fā)生轉(zhuǎn)移,同時環(huán)境會反饋一個獎勵函數(shù),策略網(wǎng)絡(luò)根據(jù)新的狀態(tài)和獎勵函數(shù)選擇下一步的動作。在這個過程中策略網(wǎng)絡(luò)是不斷更新的,更新的過程的也就是深度強化學(xué)習(xí)算法訓(xùn)練運動控制器的過程。
深度強化學(xué)習(xí)方法可以分為基于值函數(shù)的和基于策略梯度的方法?;谥岛瘮?shù)的深度強化學(xué)習(xí)方法適用于解決離散動作空間的問題。而機器人運動控制任務(wù)是一個連續(xù)動作空間問題,基于策略梯度的深度強化學(xué)習(xí)方法更加適合[27]。常用的基于策略梯度的方法有深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法[28]、置信域策略優(yōu)化(Trust Region Policy Optimization,TRPO)算法[29]、異步優(yōu)勢行動家-評論家(Asynchronous Advantage Actor-Critic,A3C)算法[30]和近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法[31]等。目前,PPO算法是深度強化學(xué)習(xí)方法處理機器人運動控制任務(wù)使用最廣泛的算法。
基于深度強化學(xué)習(xí)方法訓(xùn)練機器人控制器通常需要消耗大量的時間和計算資源,而且訓(xùn)練是從零開始的,機器人控制策略訓(xùn)練的前期往往會做出讓人難以預(yù)料的錯誤動作,非常容易造成機器人硬件設(shè)備的損壞,因為機器人硬件成本較為昂貴且機載微型計算機的計算性能有限,在實體機器人上進行深度強化學(xué)習(xí)控制器的訓(xùn)練成本和時間代價較大,所以常用的做法是在仿真中訓(xùn)練深度強化學(xué)習(xí)控制策略,在實體機器人部署訓(xùn)練后的策略。
目前,比較主流的機器人仿真平臺主要有Webots、PyBullet、Gazebo、MuJoCo、V-REP和Isaac Gym等。其中比較適合用于深度強化學(xué)習(xí)訓(xùn)練機器人控制策略的仿真平臺有PyBullet和MuJoCo。PyBullet是一個Python的模塊,它基于Bullet物理引擎,系統(tǒng)兼容性較好且支持多種格式的機器人仿真模型,PyBullet可以輕松地調(diào)用多數(shù)深度強化學(xué)習(xí)算法庫,非常適合機器人進行深度強化學(xué)習(xí)算法的訓(xùn)練和實驗。MuJoCo是基于多關(guān)節(jié)接觸動力學(xué)的物理引擎的仿真平臺,其中包含了很多強化學(xué)習(xí)算法的環(huán)境和例程,比較適合用于強化學(xué)習(xí)算法的驗證。從物理引擎、開發(fā)語言、系統(tǒng)兼容性、適用場景和操作難度等方面考慮,PyBullet較為適合進行四足機器人深度強化學(xué)習(xí)控制器的訓(xùn)練和實驗仿真,也是目前較受歡迎的深度強化學(xué)習(xí)機器人仿真平臺。
如何將仿真環(huán)境中訓(xùn)練的策略移植到實體機器人上,并使機器人展現(xiàn)出優(yōu)異的性能,是四足機器人應(yīng)用深度強化學(xué)習(xí)方法進行運動控制面臨的一大挑戰(zhàn)。由于仿真環(huán)境與真實世界環(huán)境存在差異,導(dǎo)致仿真到現(xiàn)實之間的控制策略轉(zhuǎn)移存在困難,解決這個問題的思路有兩種,一是在仿真環(huán)境中建立盡可能接近于現(xiàn)實的精確機器人和環(huán)境模型,二是在仿真過程中引入隨機的干擾噪聲和延遲,提高仿真訓(xùn)練策略的魯棒性。
四足機器人使用基于學(xué)習(xí)的方法,可以自主學(xué)習(xí)運動技能和指定的任務(wù)。未來的四足機器人的發(fā)展方向是將四足機器人智能感知能力和智能控制能力緊密融合,四足機器人的智能化水平得以提高,就可以在多領(lǐng)域進行部署。未來四足機器人的主要應(yīng)用場景主要有工業(yè)領(lǐng)域和智能家居生態(tài)。
相較于輪式和履帶式移動機器人,四足機器人具有更好的地形適應(yīng)性和更小的地形破壞性,相較于其他腿足式機器人,具有更好的穩(wěn)定性和更高的負載能力。四足機器人可以代替人類進入對生命安全造成威脅的場景,并完成一些工作任務(wù)。四足機器人背部具有豐富的擴展接口,搭載傳感設(shè)備、巡檢設(shè)備和操作終端后,可以完成地下礦井有毒氣體檢測、工廠設(shè)備溫度檢測、未知環(huán)境探測、管道電纜巡檢、物資運送等工業(yè)場景任務(wù)。
四足機器人擁有近似寵物友好的外形,可以成為智慧家庭的一部分。四足機器人可以作為陪伴兒童和老人的智能寵物,通過加載自然語言交互系統(tǒng)、表情顯示器以及觸摸傳感器等設(shè)備,實現(xiàn)與人類的智能情感交互?;趯W(xué)習(xí)方法的四足機器人具有自主學(xué)習(xí)運動控制策略的能力和環(huán)境感知能力,機器人可以搭載立體相機和激光雷達等傳感器實現(xiàn)與家庭環(huán)境的交互,學(xué)習(xí)到多種靈活敏捷的運動技能,實現(xiàn)智能化的環(huán)境感知。另外,連接云端以后,四足機器人個體學(xué)習(xí)到的運動策略可以共享到云端,也可以從云端獲取其他機器人的運動技能,大大提高機器人的學(xué)習(xí)效率?;谏疃葟娀瘜W(xué)習(xí)方法的四足機器人有望推動智能家居和萬物互聯(lián)的發(fā)展。
本文介紹了目前國內(nèi)外具有代表性的四足機器人平臺和一些使用深度強化學(xué)習(xí)方法訓(xùn)練四足機器人控制器的工作。然后分析了更適合進行深度強化學(xué)習(xí)方法訓(xùn)練四足機器人控制策略的仿真平臺及環(huán)境,總結(jié)目前由仿真環(huán)境到四足機器人實體平臺存在的難點及減小仿真到現(xiàn)實之間差距的思路。最后,對具有學(xué)習(xí)能力的四足機器人的應(yīng)用場景進行展望。
根據(jù)深度強化學(xué)習(xí)四足機器人運動控制的研究現(xiàn)狀,本團隊未來的研究工作主要在以下三方面:
使用基于學(xué)習(xí)的方法訓(xùn)練四足機器人學(xué)習(xí)不同的步態(tài)并根據(jù)速度進行自適應(yīng)步態(tài)切換,步態(tài)生成部分使用模仿學(xué)習(xí)方法進行訓(xùn)練,加入專家參考軌跡并設(shè)定軌跡擬合獎勵函數(shù),引導(dǎo)機器人生成多種步態(tài),通過設(shè)定速度適應(yīng)閾值,使機器人生成自適應(yīng)的步態(tài)切換。
訓(xùn)練四足機器人自主學(xué)習(xí)路徑規(guī)劃問題,使用柵格法建立環(huán)境地圖,將機器人和地圖的位置信息作為狀態(tài)空間信息,機器人的前進和轉(zhuǎn)向速度作為動作空間信息,獎勵函數(shù)按照四足機器人距離目標點和障礙物的距離作為標準進行設(shè)計,訓(xùn)練四足機器人找到最優(yōu)路徑。
訓(xùn)練四足機器人學(xué)習(xí)跌倒復(fù)位的控制策略,隨機化機器人跌倒?fàn)顟B(tài),機器人的質(zhì)心高度和關(guān)節(jié)角度作為狀態(tài)空間信息,關(guān)節(jié)位置指令作為動作空間,根據(jù)恢復(fù)過程中與正常站立的質(zhì)心和關(guān)節(jié)位置誤差作為設(shè)計獎勵函數(shù)的依據(jù),訓(xùn)練并生成四足機器人的跌倒自恢復(fù)控制策略。