国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強化學習分層控制的雙足機器人多模式步態(tài)系統(tǒng)研究

2024-05-30 04:53:54徐毓松上官倩芡安康
關鍵詞:步態(tài)階梯足跡

徐毓松 上官倩芡 安康

摘??要:?提出一種基于深度強化學習(DRL)分層控制的雙足機器人多模式步態(tài)生成系統(tǒng). 首先采用優(yōu)勢型演員-評論家框架作為高級控制策略,引入近端策略優(yōu)化(PPO)算法、課程學習(CL)思想對策略進行優(yōu)化,設計比例-微分(PD)控制器為低級控制器;然后定義機器人觀測和動作空間進行策略參數(shù)化,并根據(jù)對稱雙足行走步態(tài)周期性的特點,設計步態(tài)周期獎勵函數(shù)和步進函數(shù);最后通過生成足跡序列,設計多模式任務場景,并在Mujoco仿真平臺下驗證方法的可行性. 結果表明,本方法能夠有效提高雙足機器人在復雜環(huán)境下行走的穩(wěn)定性以及泛化性.

關鍵詞:?雙足機器人;?步態(tài)規(guī)劃;?近端策略優(yōu)化(PPO);?多模式任務;?課程學習(CL)

中圖分類號:?TP 18 ???文獻標志碼:?A ???文章編號:?1000-5137(2024)02-0260-08

Research on multi-mode gait hierarchical control system of biped robot based on hierarchical control of deep reinforcement learning

XU Yusong,?SHANGGUAN Qianqian?,?AN Kang?

(College of Information,?Mechanical and Electrical Engineering,?Shanghai Normal University,?Shanghai 201418,?China)

Abstract:?According to the current research in the application of bipedal robot gait control,?there still existed deficiency and challenge related to stability and generalization in complex scenarios. A multi-mode bipedal robot gait generation system based on hierarchical control using deep reinforcement learning (DRL)?was proposed. Initially,?an advantage-actor-critic framework was employed as the high-level control strategy,?integrating proximal policy optimization (PPO)?algorithm and the concept of curriculum learning (CL)?to optimize the policy. A proportional-differential (PD)?controller was designed as the low-level controller. Next,?the robot's observation and action spaces were defined for policy parameterization. Leveraging the cyclic nature of symmetric bipedal walking gaits,?a gait cycle reward function and stepping function were devised. Finally,?by generating footstep sequences,?multiple-mode task scenarios were formulated,?and the feasibility of the method was validated using the Mujoco simulation platform. The results demonstrated that the improved approach effectively enhanced the stability and generalization of bipedal robot walking in complex environments.

Key words:?bipedal robot;?gait planning;?proximal policy optimization(PPO);?multimodal task;?course learning(CL)

深度強化學習(DRL)結合了深度學習強大的數(shù)據(jù)處理以及強化學習交互決策的能力,是解決雙足機器人步態(tài)控制的重要思路. ZHAO等1利用深度Q網(wǎng)絡(DQN)算法解決了非平整地面上雙足機器人的穩(wěn)態(tài)控制問題,但DQN只適用于離散和低維動作空間,限制了其處理連續(xù)和高維動作空間的能力.KUMAR等2采用深度確定性策略梯度(DDPG)算法規(guī)劃雙足機器人的步態(tài),實驗結果顯示,控制效果良好. 但DDPG算法可能引起過高估計價值的問題,這種估計誤差可能隨時間累積,影響策略更新的質量. 在復雜環(huán)境下雙足機器人的步態(tài)控制需要更加穩(wěn)定和高效的策略算法,近端策略優(yōu)化(PPO)3基于策略梯度(PG)4算法和演員-評論家5框架,對策略更新方式進行了優(yōu)化,擁有更強的穩(wěn)健性和收斂性,并能很好地適用于雙足機器人連續(xù)動作的場景,使其成為目前解決雙足機器人步行控制問題最常用的DRL算法之一.

本文作者采用近PPO算法,解決算法策略更新質量差,以及無法處理連續(xù)高維動作空間場景的問題. 加入課程學習的訓練思想,解決算法易陷入局部最大值的問題,并設計多模式任務對雙足機器人進行步行控制,解決算法策略泛化性差的問題. 最終的實驗結果表明:本方法能夠使機器人在單一策略下完成上下階梯、不平整路面、轉彎、后退等多種模式的步行任務,具有較強的穩(wěn)定性和泛化性.

1 ?DRL策略架構

1.1 優(yōu)勢型演員-評論家框架

強化學習方法可分為基于值和基于策略兩類. 基于值的算法能夠在每一步都進行策略更新,提高了效率,但僅適用于處理小規(guī)模的離散問題. 而對于處理狀態(tài)與動作空間龐大,甚至連續(xù)無限的情況,策略梯度法更有優(yōu)勢,但其策略參數(shù)每回合更新一次,學習效率較低. 演員-評論家框架則將這兩類算法的優(yōu)勢相結合,既能處理連續(xù)狀態(tài)與動作空間的問題,又具有每步更新策略的能力.在此基礎上,優(yōu)勢型演員-評論家算法使用Advantage函數(shù)來估計動作的優(yōu)劣,相對于Aho-Corasick(AC)算法,Advantage函數(shù)考慮每個動作相對于平均動作的優(yōu)勢,有助于減少訓練過程中的方差,使訓練更加穩(wěn)定,同時更準確地評估動作的價值,提高學習效率.

首先,將初始狀態(tài)s輸入actor網(wǎng)絡,產(chǎn)生均值u和標準差σ,構建一個高斯分布. 然后從中采樣,將樣本的橫坐標值進行裁減,輸出最后的動作action. action和環(huán)境交互,產(chǎn)生新的狀態(tài)s_和即時獎勵r,將ss_分別輸入critic網(wǎng)絡,分別輸出價值和估計值vv_. 通過v,v_和r構成優(yōu)勢函數(shù),再近似成時序差分(TD)誤差,結合action的概率分布,更新actor網(wǎng)絡的參數(shù),而critic網(wǎng)絡通過vv_的均方誤差更新自身參數(shù). 最后,使用s_更新s,進行新一輪訓練.

1.2 PPO算法

策略梯度方法在更新策略參數(shù)時,學習率設定過大,可能導致策略過快更新,難以收斂;學習率設定過小,則會使學習進展緩慢. Actor-Critic框架使用同一策略進行采樣和實時更新,使得每次采樣的數(shù)據(jù)只能被單次使用,效率較低. PPO算法克服了這些問題,其核心思想是近端優(yōu)化,并結合重要性采樣和策略裁剪來保證訓練的穩(wěn)定性和收斂性,使得模型能夠學習到更好的策略. 通過在每次更新中PPO算法對策略進行小步長的改變,以確保新的策略不會與舊的策略相差太遠,有助于防止訓練中出現(xiàn)不穩(wěn)定性;在計算策略更新時,PPO算法使用重要性采樣來估計新舊策略之間的差異,比較新策略與舊策略在樣本上的表現(xiàn),以確定是否接受該次更新.

1.3 課程學習思想

傳統(tǒng)的強化學習訓練可能面臨以下問題:(1)?復雜任務下,隨機初始化的智能體難以獲得有效的獎勵信號,導致學習緩慢;(2)?直接從難度較高的環(huán)境開始訓練可能使模型運行困難,難以學習有效策略. 在DRL中,課程學習是一種訓練策略,將學習任務分解為遞增難度的階段,以解決上述問題.

為實現(xiàn)機器人在復雜環(huán)境,如階梯、不平整路面下保持穩(wěn)定步態(tài),采用關于樣本分布的課程. 首先策略只運用于平面序列,即手動生成的足跡序列和規(guī)劃器生成的彎曲路徑. 然后經(jīng)過M次迭代后,將臺階的高度從0米線性提高或降低h米,繼續(xù)迭代N次,階梯高度P與訓練迭代次數(shù)i的關系如下:

(1)

其中,k={-1,1},k=-1表示臺階高度下降,k=1表示臺階高度上升.

2 ?基于DRL的分層控制架構設計流程

2.1 分層控制框架設計

分層控制框架包括一個高級別強化學習(RL)策略以及一個1 000 Hz的低級別比例-微分(PD)控制器.RL策略以40 Hz緩慢地更新關節(jié)位置,PD控制器將期望的關節(jié)位置轉換為關節(jié)扭矩.由于PD控制器使用相對較低的增益,預測位置的誤差可能非常大,而RL策略利用其中的跟蹤誤差來產(chǎn)生作用力,驅使機器人前進6. PD控制器與負責向RL策略提供所需足跡和機器人根部航向的足部序列生成器協(xié)同工作,理想情況下,足部序列生成器將依靠對環(huán)境有效的感知,為機器人動態(tài)規(guī)劃路徑分級控制結構概述如圖2所示.

RL策略的輸入是將要執(zhí)行的兩個計劃足跡、時鐘信號和機器人狀態(tài),通過傳統(tǒng)方法進行足跡規(guī)劃,即交替性規(guī)劃左右腳足跡的步長、步寬及步高.RL策略做出的預測結果被添加到中性運動位置(偏置),發(fā)送到PD控制回路.

2.2 DRL策略架構參數(shù)化

為了讓DRL策略架構應用在雙足機器人上,需要定義觀測空間即機器人的內部和外部狀態(tài),以及時鐘信號作為RL策略能夠感知的輸入?yún)?shù),同時定義機器人各個關節(jié)組成的動作空間作為RL策略的輸出參數(shù).

觀測空間包括了機器人的內部狀態(tài)、外部狀態(tài)和時鐘信號,其中內部狀態(tài)包括了每個致動關節(jié)的位置和速度(僅在腿部)、滾轉和俯仰方向以及根部(骨盆)的角速度. 外部狀態(tài)包括了兩個即將執(zhí)行的足跡數(shù)據(jù)的3D位置和1D航向描述. 時鐘信號用于后續(xù)的周期獎勵,可以由循環(huán)相位變量的單個標量表示,該循環(huán)相位變量每個時間步長從0遞增到1,也可以將投影到2D單位周期,

, (2)

其中,L重置為0之后的周期. 這種投影是為了防止時鐘輸入在每個周期結束時從1突然跳變到0,導致系統(tǒng)不平穩(wěn)的情況.

動作的空間包括機器人腿被致動關節(jié)(只考慮下半身的12個)的期望位置. 來自策略的期望關節(jié)位置預測結果在被發(fā)送到較低級別的PD控制器之前,會被添加到與機器人的半坐姿相對應的固定馬達偏移中.

2.3 DRL策略架構獎勵函數(shù)設計

強化學習通過最大化獎勵來更新模型參數(shù),進而控制雙足機器人穩(wěn)定行走,故獎勵函數(shù)的設計至關重要.

本文按照SIEKMANN7提出的周期性獎勵組合的思想,將一個步態(tài)周期分為單腳支撐(SS)和雙腳支撐(DS)階段,如圖3所示. 在上半步態(tài)周期中,DS階段雙腳均觸底(右腳在前,左腳在后),SS階段右腳與地面靜態(tài)接觸作為支撐腳,而左腳在空中擺動作為擺動腳. 在下半周期中左腳轉變?yōu)橹文_,右腳轉變?yōu)閿[動腳,周而復始.

調節(jié)腳部地面反作用力的獎勵項和速度,計算如下:

(3)

其中,,,分別是左右腳調節(jié)地面反作用力和速度的相位函數(shù). 在SS階段,函數(shù)I ?∈?[-1,1]激勵擺動腳的速度,懲罰擺動腳的地面反作用力,同時懲罰支撐腳的速度,并激勵支撐腳的地面反作用力;在DS階段,正好相反. 將機器人在SS及DS階段的持續(xù)時間分別設置為0.8 s和0.2 s. 當位于步態(tài)周期的第一個單支撐區(qū)域時,接近于-1,而則接近于1,表明的較大值會得到負回報,而的較大值則會得到正回報,即左腳在擺動,右腳提供支撐.

除了周期性獎勵外,還需要激勵機器人根據(jù)預設的目標位置對身體進行步進和定向. 步進函數(shù)可以劃分為命中獎勵和進度獎勵. 命中獎勵的作用是促使機器人將任意一只腳放在即將到來的目標點上,只有當其中一只腳或者兩只腳在目標半徑內,才會觸發(fā)這個獎勵機制.

假設為目標足跡和與足跡鄰近腳的距離,為目標足跡和根部的距離,則步進獎勵

, (4)

其中,,是可調節(jié)的超參數(shù). 根方向項鼓勵四元數(shù)接近期望的四元數(shù),四元數(shù)是由0°的滾轉角、0°的俯仰角和一定角度偏航角組成的歐拉角,

(5)

其中,表示的內積.

2.4 多模式任務設計

多模式任務的設計主要通過足跡序列規(guī)劃器實現(xiàn). 足跡由一個3D點組成,該點附有一個航向矢量(),分別表示腳放置的目標位置和機器人軀干的目標偏航方向. 通過將“航向矢量”附加到足跡上,可以實現(xiàn)機器人多模式步態(tài)生成.

向前行走的足跡計劃通過交替定義機器人步長、步寬、步高而生成,通過在線段的左右交替放置點,從機器人根部在地板上的投影開始,向前延伸. 同理,對于向后行走,可以通過將點放置在向后方延伸的線段左側和右側來生成平面;對于原地站立,軌跡僅由原點處的1步組成;對于橫向行走,將步長轉換到縱軸方向;對于在彎曲路徑上行走,使用Humanoid Navigation ROS軟件包8中的足跡規(guī)劃器生成足跡,該軟件包實現(xiàn)了基于搜索的規(guī)劃器;對于上樓與下樓,通過設置固定的步高實現(xiàn),步高根據(jù)課程學習參數(shù)設定,同時設置階梯的高度隨步高變化,樓梯梯段固定等于臺階長度,以確保觀察到的目標臺階正好位于樓梯梯段的中間;對于不平整階梯行走,通過對步態(tài)高度進行方向和高度的正負交替變化生成足跡.

3 ?引入課程學習的多模式任務實驗與討論

3.1 多模式任務實驗

本實驗設置actor和critic網(wǎng)絡都為多層感知(MLP)架構,包含兩個各含有256個神經(jīng)元的隱藏層,使用ReLu作為激活函數(shù). 為了限制參與者預測的范圍,策略的輸出通過TanH層傳遞. 將訓練迭代次數(shù)設置為20 000次,每個PPO的推出長度為400個時間步長,即機器人一個回合的長度,每個訓練批次包含64個回合. 學習率設置為0.000 1,其他超參數(shù)設置參考文獻[7].

多模式任務包括斜走、站立、后退、橫走和前進模式,分別以[0.15,?0.05,?0.20,?0.30,?0.30]的概率在每次訓練回合中出現(xiàn). 前進模式下,機器人的步行高度方向及上下樓均為隨機變化. 此外,隨機化機器人的初始相位以及關節(jié)噪聲來增加策略的探索能力. 最后,將模型導入Mujoco仿真器中,并在JVRC_19機器人上進行訓練,JVRC_1是一款為虛擬環(huán)境設計的機器人,身高1.72 m,體重62 kg,本研究凍結其除髖、膝、踝之外的其他關節(jié).

斜走模式通過隨機選取Humanoid Navigation ROS軟件包生成的足跡,如圖4所示. 橫走模式只規(guī)劃y方向上的目標位置,大步長和小步長交替循環(huán),且隨機化初始方向,如圖5所示. 前進模式包括上樓和下樓兩個場景,通過隨機化目標位置高度及方向,實現(xiàn)兩個場景的初始化. 通過遞增目標位置高度,設置20格階梯,隨機化前兩個或三個階梯高度,并保持不變,即目標位置高度不變.通過課程學習的參數(shù)設定步高,最大為0.1 m,如圖6所示.

3.2 引入課程學習對策略效果影響的對比實驗

為了增強策略的學習效果,避免策略因為陷入局部最優(yōu)而無法達到目標訓練效果的困境,引入課程學習技術. 多模式場景下,除前進模式外,機器人都是在水平面且無障礙物情況下步行,無需使用課程學習. 而在前進模式下,如果階梯的高度過高,即使有步進獎勵函數(shù)的激勵,也無法保證機器人在每一回合訓練中都能脫離平面步行狀態(tài),調整自身關節(jié)角度和重心變化,邁上階梯. 一旦機器人倒地,會觸發(fā)獎懲機制,導致總獎勵變少. 此時,策略會在每個時間步內都選擇原地踏步來避免總體獎勵減少,易陷入局部最優(yōu).

對策略不使用課程學習進行訓練,并讓機器人在階梯高度為0.3 m的場景下行走,實驗結果如圖7所示,機器人在面對臺階時并未有抬腳動作,而是原地踏步.

為進一步檢驗算法對機器人的極限泛化能力,將階梯高度提升到0.3 m(接近關節(jié)電機驅動能力的極限),對該場景加入課程學習進行迭代訓練,如圖8所示.

比較兩次實驗策略在每回合的獎勵以及時間步長,得到訓練過程的評估圖,如圖9~10所示.策略訓練評估以100次為頻率,橫軸為迭代次數(shù),左側縱軸為回合總獎勵,右側縱軸為回合長度.

對策略加入課程學習進行訓練,算法在執(zhí)行3 000次迭代后,可達到收斂狀態(tài),回合獎勵穩(wěn)定在250~300.

根據(jù)對比實驗可知,對于多模態(tài)步態(tài)控制方法,加入課程學習有利于算法探索復雜場景,同時因為課程學習是在訓練周期中逐步提升階梯高度,使得機器人在最大階梯高度之內的隨機階梯高度下,都能正常穩(wěn)定地行走,也提升了方法的泛化能力.

4 ?結語

針對現(xiàn)階段雙足機器人使用DRL進行步態(tài)規(guī)劃仍存在的穩(wěn)定性、泛化性不足的問題,本文作者提出一種基于DRL算法,采用分層控制框架進行雙足機器人步態(tài)的生成,同時針對復雜環(huán)境設計多模式任務,在Mujoco仿真平臺上使用JVRC_1機器人驗證了該方法的可行性和穩(wěn)定性. 根據(jù)雙足機器人步行周期性的規(guī)律,使用步態(tài)周期獎勵和步進獎勵提升策略學習效率和穩(wěn)定性;為驗證方法在多任務下的穩(wěn)定性,設計包括前進、后退、橫走、斜行、站立、上下樓及不平整階梯場景為一體的多模式任務用于策略學習,并得到穩(wěn)定的實驗效果;為了避免策略在多模式下學習陷入局部最優(yōu),引入課程學習思想,將學習任務分解為遞增難度的階段,讓機器人穩(wěn)定學習.通過對比實驗,證明了在各種復雜環(huán)境下,本方法能有效提高雙足機器人穩(wěn)定行走的能力,使其具有較強的泛化性和穩(wěn)健性,為DRL在雙足機器人步行控制領域的應用提供了新的思路. 然而,如何進一步提升算法的效率、穩(wěn)定性、可遷移性都是本研究需要逐步完善的方面.

參考文獻:

[1] ZHAO Y T,?HAN B,?LUO Q. Walking stability control method based on deep Q-network for biped robot on uneven ground [J]. Journal of Computer Applications,?2018,38(9):2459.

[2] KUMAR A,?PAUL N,?OMKAR S N. Bipedal walking robot using deep deterministic policy gradient [J/OL]. arXiv,?2018[2023-12-01]. https:?//arxiv.org/abs/1807.05924.

[3] SCHULMAN J,?WOLSKI F,?DHARIWAL P,?et al. Proximal policy optimization algorithms [J/OL]. arXiv,?2017[2023-12-01]. https:?//arxiv.org/abs/1707.06347.

[4] SUTTON R S,?MCALLESTER D,?SINGH S,?et al. Policy gradient methods for reinforcement learning with function approximation [C]// Proceedings of the 12th International Conference on Neural Information Processing Systems.Cambridge:?ACM,?1999:1057-1063.

[5] KONDA V,?TSITSIKLIS J. Actor-critic algorithms[J]. Advances in Neural Information Processing Systems,?1999,12:4-6.

[6] HWANGBO J,?LEE J,?DOSOVITSKIY A,?et al. Learning agile and dynamic motor skills for legged robots [J]. Science Robotics,?2019,4(26):9-12.

[7] SIEKMANN J,?GODSE Y,?FERN A,?et al.Sim-to-real learning of all common bipedal gaits via periodic reward composition [C]// IEEE International Conference on Robotics and Automation. Xi'an:IEEE,?2021:?7309-7315.

[8] HORNUNG A,?DORNBUSH A,?LIKHACHEV M,?et al. Anytime search-based footstep planning with suboptimality bounds[C]// 12th IEEE-RAS International Conference on Humanoid Robots. Osaka:?IEEE,?2012:674-679.

[9] OKUGAWA M,?OOGANE K,?SHIMIZU M,?et al.Proposal of inspection and rescue tasks for tunnel disasters:task development of Japan virtual robotics challenge [C]// IEEE International Symposium on Safety,?Security,?and Rescue Robotics. West Lafayette:?IEEE,?2015:1-2.

(責任編輯:包震宇,顧浩然)

DOI:?10.3969/J.ISSN.1000-5137.2024.02.018

收稿日期:?2023-12-23

作者簡介:?徐毓松(1999—),?男,?碩士研究生,?主要從事雙足機器人方面的研究. E?mail:?1000513417@smail.shnu.edu.cn

* 通信作者:?上官倩芡(1976—),?女,?副教授,?主要從事人工智能方面的研究. E?mail:?shangguan@shnu.edu.cn;安康(1981—),?男,?副教授,?主要從事雙足機器人方面的研究. E?mail:?ankang@shnu.edu.cn

引用格式:?徐毓松,?上官倩芡,?安康. 基于深度強化學習分層控制的雙足機器人多模式步態(tài)系統(tǒng)研究?[J]. 上海師范大學學報?(自然科學版中英文),?2024,53(2):260?267.

Citation format:?XU Y S,?SHANGGUAN Q Q,?AN K. Research on multi-mode gait hierarchical control system for bipedal robot based on deep reinforcement learning [J]. Journal of Shanghai Normal University (Natural Sciences),?2024,53(2):260?267.

猜你喜歡
步態(tài)階梯足跡
小螞蟻與“三角步態(tài)”
科學大眾(2024年5期)2024-03-06 09:40:34
基于面部和步態(tài)識別的兒童走失尋回系統(tǒng)
電子制作(2018年18期)2018-11-14 01:48:04
成長足跡
基于Kinect的學步期幼兒自然步態(tài)提取
自動化學報(2018年6期)2018-07-23 02:55:42
足跡
心聲歌刊(2018年6期)2018-01-24 00:56:12
爬階梯
小學生導刊(2016年5期)2016-12-01 06:02:46
時光階梯
幸福(2016年9期)2016-12-01 03:08:50
有趣的階梯
足跡
社會與公益(2016年2期)2016-04-13 02:49:06
春的足跡
小主人報(2015年5期)2015-02-28 20:43:29
莒南县| 高雄县| 仲巴县| 清镇市| 玛纳斯县| 合山市| 嫩江县| 青铜峡市| 西乡县| 东乌珠穆沁旗| 寿光市| 扎赉特旗| 铜梁县| 隆子县| 斗六市| 崇文区| 肇东市| 平顺县| 兴安盟| 龙州县| 章丘市| 金川县| 漠河县| 迁安市| 华宁县| 茌平县| 平阴县| 禄劝| 左贡县| 文成县| 东乡族自治县| 东光县| 连平县| 博湖县| 莱阳市| 肇源县| 石首市| 晋宁县| 合阳县| 扬州市| 忻州市|