基于改進的DDPG算法的蛇形機器人路徑規(guī)劃方法

2023-05-30 02:02:12郝崇清任博恒趙慶鵬侯寶帥白彤武曉晶樊勁輝

河北科技大學學報 2023年2期

郝崇清任博恒趙慶鵬侯寶帥白彤武曉晶樊勁輝

摘要：針對蛇形機器人執(zhí)行路徑規(guī)劃任務時，面對復雜環(huán)境傳統(tǒng)強化學習算法出現(xiàn)的訓練速度慢、容易陷入死區(qū)導致收斂速度慢等問題，提出了一種改進的深度確定性策略梯度（deep deterministic policy gradient，DDPG）算法。首先，在策略-價值（actor-critic）網(wǎng)絡中引入多層長短期記憶（long short-term memory，LSTM）神經(jīng)網(wǎng)絡模型，使其控制經(jīng)驗池中信息的記憶和遺忘程度；其次，通過最優(yōu)化特征參數(shù)將CPG（central pattern generators）網(wǎng)絡融入強化學習模型，并設計新型網(wǎng)絡狀態(tài)空間和獎勵函數(shù)；最后，將改進算法與傳統(tǒng)算法分別部署在Webots環(huán)境中進行仿真實驗。結果表明，相比于傳統(tǒng)算法，改進算法整體訓練時間平均降低了15%，到達目標點迭代次數(shù)平均降低了22%，減少了行駛過程中陷入死區(qū)的次數(shù)，收斂速度也有明顯的提升。因此所提算法可以有效地引導蛇形機器人躲避障礙物，為其在復雜環(huán)境下執(zhí)行路徑規(guī)劃任務提供了新的思路。

關鍵詞：機器人控制；蛇形機器人；改進的DDPG算法；強化學習；CPG網(wǎng)絡；Webots三維仿真

Path planning method of snake-like robot based on improved DDPG algorithm

HAO Chongqing¹，REN Boheng¹，ZHAO Qingpeng²，HOU Baoshuai¹，

BAI Tong¹，WU Xiaojing¹，F(xiàn)AN Jinhui¹

（1.School of Electrical Engineering， Hebei University of Science and Technology， Shijiazhuang， Hebei 050018， China; 2.School of Communication and Information Engineering， Nanjing University of Posts and Telecommunications， Nanjing， Jiangsu 210023， China）

Abstract：Aiming at the problems of low training speed and convergence speed caused by falling into a dead zone of traditional reinforcement learning algorithm of the snake-like robot when performing path planning task in multi-obstacle environment， an improved deep deterministic policy gradient（DDPG） algorithm was proposed. Firstly， a multi-layer long short-term memory （LSTM） neural network model was introduced into the actor-critic network to control the memory and forgetting degree of information in the experience pool; secondly， the CPG（central pattern generators） network was integrated into a reinforcement learning model by optimizing feature parameters， designing new network state space and reward function， finally， The improved algorithm and the traditional algorithm were deployed in Webots environment for simulation experiments.The results show that compared with the traditional algorithm， the overall training time of the improved algorithm is reduced by 15% on average， and the number of iterations to reach the target point is reduced by 22% on average， which reduces the times of falling into the dead zone during driving and obviously improves the convergence speed. The algorithm can effectively guide the snake-like robot to avoid obstacles， thus providing a new idea for its performing path planning task in multi-obstacle environment.

Keywords：robot control; snake-like? robot; improved DDPG algorithm; intensive learning; CPG network; Webots 3D simulation

蛇形機器人因其強大的環(huán)境適應能力，被廣泛應用于地質勘探、災后救援和醫(yī)療等領域^［¹^］。在執(zhí)行任務時，蛇形機器人需要結合多種環(huán)境信息進行路徑規(guī)劃和導航，其中路徑規(guī)劃作為導航的主要部分，其結果的優(yōu)劣程度直接影響了蛇形機器人完成任務的質量

^［2^］。然而，傳統(tǒng)的路徑規(guī)劃方法都需要部署在已知環(huán)境下，例如A*算法^［³^］、卡爾曼濾波算法^［4^］、LOS（line of sight）算法^［⁵^］等，面對未知障礙物場景，怎樣引導其自主完成路徑規(guī)劃任務成為蛇形機器人研究的熱點話題。

近年來，隨著人工智能算法的發(fā)展，強化學習（reinforcement learning，RL）算法^［⁶^］在蛇形機器人路徑規(guī)劃中得到了廣泛的應用。該算法通過與環(huán)境進行交互從而優(yōu)化蛇形機器人的動作，使其自主完成路徑規(guī)劃任務，但是隨著環(huán)境復雜度的增加，導致RL算法收斂速度慢，難以處理高維連續(xù)狀態(tài)和動作信息。為了解決該類問題，JIA等^［⁷^］提出了一種基于改進RL算法的蛇形機器人路徑規(guī)劃方法，該方法將蛇形機器人運動學模型融入RL算法中，實現(xiàn)路徑規(guī)劃和避障的同時，有效節(jié)省了算法收斂時間，減少了發(fā)散次數(shù)。BING等^［⁸^］將RL算法與逆強化學習（inverse reinforcement learning，IRL）算法相結合提出了一種節(jié)能和損傷恢復的滑動步態(tài)方法，通過設計相關控制器，使其生成自適應運動步態(tài)的同時擁有損傷恢復能力。

利用RL算法進行路徑規(guī)劃相關任務時，為了降低蛇形機器人連續(xù)狀態(tài)空間的信息維度，提高算法的訓練速度，LIU等^［⁹^］提出了一種基于RL算法的軟體機器蛇目標跟蹤控制方法，將CPG（central pattern generators，CPG）網(wǎng)絡與強化學習模塊相結合，通過對松岡CPG系統(tǒng)振蕩特性的理論分析，利用強化學習算法在模擬環(huán)境中學習控制策略，以用于蛇機器人執(zhí)行目標跟蹤任務，該方法不僅使蛇形機器人具備了一定的環(huán)境自適應能力，而且還降低了RL算法的信息傳輸維度。嚴浙平等^［¹⁰^］提出了一種基于模型預測和中樞模式發(fā)生器的軌跡跟蹤控制方法，用于控制六足仿生機器人，該方法在實驗中表現(xiàn)出良好的運動性能和穩(wěn)定性。

針對多種障礙物場景，蛇形機器人需要更強的自適應路徑規(guī)劃能力，從而避免陷入死區(qū)導致目標不可達的問題，QIN等^［¹¹^］提出了一種欠驅動的自適應軌跡控制方法，使蛇形機器人能夠跟蹤到較小的工作空間。JIANG等^［¹²^］結合RL算法提出了一種具有不同拓撲結構的多層脈沖神經(jīng)網(wǎng)絡（SNN）模型，從蛇形機器人動態(tài)視覺傳感器（DVS）獲得視覺信號，驅動其運動控制器跟蹤特定的運動對象，以便快速地走出死區(qū)區(qū)域。為了提高RL算法的收斂速度、降低網(wǎng)絡訓練時間，張瀚等^［¹³^］將深度確定性策略梯度算法（DDPG）與人工勢場法相融合，有效提升了算法的性能。CHO等^［¹⁴^］利用DDPG算法進行蠑螈機器人的路徑規(guī)劃，使用Gazebo動態(tài)模擬器設置可移動障礙物，并通過算法訓練模型使蠑螈機器人能順利完成自適應路徑規(guī)劃任務，驗證了DDPG算法的穩(wěn)定性。國內外學者雖然提出了功能更強大的RL算法，但是面對多障礙環(huán)境仍然存在算法隨機性強、容易陷入死區(qū)狀態(tài)，造成算法訓練時間長、收斂速度慢等問題。

針對上述問題，通過在策略-價值網(wǎng)絡中引入多層LSTM神經(jīng)網(wǎng)絡模型，使DDPG算法擁有選擇性記憶功能，并根據(jù)蛇形機器人復雜的運動環(huán)境，設計全新的狀態(tài)空間和相關獎勵函數(shù)，從而引導DDPG算法更好地完成算法訓練和路徑規(guī)劃任務。為了減少DDPG算法中數(shù)據(jù)的傳輸維度，利用Matsuoka振蕩器搭建CPG網(wǎng)絡并且最優(yōu)化超參數(shù)，將CPG網(wǎng)絡融入DDPG算法中用于實現(xiàn)蛇形機器人多模式運動。為了驗證算法的有效性，在Webots環(huán)境中搭建了蛇形機器人模型，將所提算法部署在該模型上進行路徑規(guī)劃實驗研究，并對該算法在不同環(huán)境復雜度下的性能進行分析。

1 強化學習算法

1.1 深度確定性策略梯度算法^［15^］

1.2 LSTM神經(jīng)網(wǎng)絡模型

隨著迭代次數(shù)的不斷增加，DDPG算法總會削弱之前得到的最優(yōu)經(jīng)驗影響。在DNN算法中LSTM神經(jīng)網(wǎng)絡模型^［¹⁸^］可以控制網(wǎng)絡對于經(jīng)驗的記憶和遺忘程度，其網(wǎng)絡模型是基于循環(huán)神經(jīng)網(wǎng)絡模型（recurrent neural network，RNN）的一種改進。與傳統(tǒng)RNN算法相比，

LSTM算法在其隱藏層中增加了一個細胞狀態(tài)（cell state）^［¹⁹^］，使網(wǎng)絡自循環(huán)的權重產(chǎn)生了變化，在模型參數(shù)固定的情況下，根據(jù)網(wǎng)絡權重的動態(tài)改變可以調節(jié)不同時刻網(wǎng)絡更新狀態(tài)，從而避免梯度消失或梯度爆炸的問題。LSTM算法包含的3種門結構分別定義為記憶門、遺忘門和輸出門，其網(wǎng)絡結構如圖2所示。

單個LSTM神經(jīng)網(wǎng)絡模型轉化為細胞狀態(tài)公式^［¹⁸^］：

式中：xt表示網(wǎng)絡當前輸入；ft表示遺忘門限；it表示輸入門限；ot表示輸出門限；σ表示激活函數(shù)；W表示當前門的網(wǎng)絡權重；b表示當前門的偏置參數(shù)；t表示候選輸入向量；Ct表示當前時刻網(wǎng)絡狀態(tài)；Ct-1表示前一時刻網(wǎng)絡狀態(tài)；ht-1表示上一時刻隱藏層輸出。

2 蛇形機器人路徑規(guī)劃方法

2.1 改進的DDPG算法

在進行蛇形機器人路徑規(guī)劃任務時，DDPG算法容易出現(xiàn)陷入死區(qū)問題，不僅降低算法訓練速度和收斂速度，而且會導致任務無法完成。為了提高算法的穩(wěn)定性，在DDPG算法的Actor-Critic網(wǎng)絡中引入多層LSTM神經(jīng)網(wǎng)絡模型，將Actor-Critic網(wǎng)絡全連接層替換成LSTM神經(jīng)元，通過滑動窗口控制樣本信息的記憶和遺忘程度，使其優(yōu)先學習高獎勵值的動作。面對復雜環(huán)境，為提高蛇形機器人的適應能力，根據(jù)環(huán)境設計全新的狀態(tài)空間和獎勵函數(shù)，從而更快地進行獎勵累計并訓練更好的模型。

改進的DDPG算法將Actor-Critic網(wǎng)絡的前3個全連接層替換成多層LSTM神經(jīng)網(wǎng)絡模型，為了防止網(wǎng)絡反向傳播過程中出現(xiàn)梯度消失問題，利用全連接層在整個神經(jīng)網(wǎng)絡模型中將樣本特征映射到標記空間中，并與網(wǎng)絡上輪迭代獲得的隱藏狀態(tài)一同送入LSTM單元中。為了獲得所需要的期望運動空間，將LSTM單元提取到的高維特征映射至一維向量空間內，通過之前提取的特征語義信息，進行輸出降維并送入連接層中。

根據(jù)蛇形機器人的路徑規(guī)劃任務以及雷達、視覺傳感器的數(shù)據(jù)信息，改進的DDPG算法將蛇形機器人當前網(wǎng)絡迭代下所獲得的狀態(tài)空間信息和采取的動作分別作為輸入和輸出，其中每輪迭代獲得的動作根據(jù)Critic網(wǎng)絡評判都會獲得相應的獎勵值，通過Actor網(wǎng)絡和Critic網(wǎng)絡進行梯度更新，從而獲得更新后的網(wǎng)絡權重以及訓練模型。改進的DDPG算法中Actor網(wǎng)絡和Critic網(wǎng)絡分別由4層神經(jīng)網(wǎng)絡構成，其網(wǎng)絡結構如圖3所示，Actor-Critic網(wǎng)絡前3層為LSTM記憶單元，第4層為全連接層，其每個記憶單元包括了256個隱藏神經(jīng)元節(jié)點，分別利用sigmoid函數(shù)和tanh函數(shù)作為激活函數(shù)，通過獲取蛇形機器人狀態(tài)空間的時序信息，獲得其轉彎角度和運動方向。

2.2 蛇形機器人CPG控制網(wǎng)絡

根據(jù)蛇形機器人關節(jié)運動模型設計了CPG控制網(wǎng)絡，該網(wǎng)絡由互相連接的Matsuoka振蕩器組成，其每個振蕩器包含了一對互相抑制的神經(jīng)元模型，其CPG網(wǎng)絡數(shù)學模型如式（10）所示^［⁹^］：

2.3 路徑規(guī)劃模型訓練框架

為了減少DDPG算法中輸入、輸出的數(shù)據(jù)維度并提高算法的訓練效率，通過分析CPG網(wǎng)絡模型參數(shù)并進行最優(yōu)化處理，獲取控制蛇形機器人運動的振幅A、頻率F和轉向參數(shù)u。如圖3所示，將CPG網(wǎng)絡模型與改進的DDPG算法框架和Webots仿真環(huán)境框架相結合，組成循環(huán)網(wǎng)絡，即蛇形機器人自學習框架。在Webots仿真環(huán)境中根據(jù)視覺感知和全局定位坐標結合，獲取障礙物的位置并作為Actor網(wǎng)絡的輸入，使其輸出一個實時的確定性動作。為了獲得一個最理想的動作作為輸出，改進的DDPG算法利用Critic網(wǎng)絡依據(jù)狀態(tài)空間和設定的獎勵去為當前動作打分。為了降低Actor-Critic網(wǎng)絡的輸入、輸出維度，將CPG網(wǎng)絡經(jīng)過模塊化處理，輸入為最優(yōu)特征參數(shù)，輸出為速度、角速度、轉向因子的大小，結合到Webots仿真的蛇形機器人模型中，從而實現(xiàn)在線實時控制。

2.4 狀態(tài)、動作空間搭建與獎勵函數(shù)設計

為了驗證改進的DDPG算法在蛇形機器人路徑規(guī)劃任務中的有效性，利用蛇形機器人的Solidworks模型搭建了Webots仿真環(huán)境并將算法部署到仿真中進行訓練。為了對比不同算法的實際效果，使用控制變量法，設置一致的網(wǎng)絡參數(shù)用于更新訓練模型，如表1所示。在Webots仿真中，黃色方塊為障礙物模型，藍色方塊為蛇形機器人路徑規(guī)劃任務目標點，如圖5所示。

執(zhí)行路徑規(guī)劃任務時，蛇形機器人每次網(wǎng)絡迭代所獲得的信息包括機器人的當前位置、關節(jié)角度變化、CPG網(wǎng)絡的最優(yōu)特征參數(shù)、目標點距離和方位以及障礙物距離和方位。為了提高算法的收斂速度，減少訓練時間，本文利用CPG網(wǎng)絡的最優(yōu)特征參數(shù)去控制機器蛇的運動并設計相應的狀態(tài)空間St=（N，d1～d5，θdn，θend，Dend，P），如圖5所示。N表示障礙物數(shù)量，θdn表示最近障礙物與蛇頭的夾角，θend表示目標點與蛇頭的夾角，Dend表示目標點與蛇頭的距離，P表示CPG網(wǎng)絡最優(yōu)特征參數(shù)。為了避免蛇形機器人碰撞障礙物，設置出現(xiàn)在攝像頭中的障礙物數(shù)量N≤5并根據(jù)距離設置閾值。為了評估運動是否接近目標，通過設置d1～d5表示可視范圍中最近5個障礙物與蛇頭的相對距離。建立蛇形機器人運動學模型，如式（3）所示，定義動作空間為線速度V和偏移角度φ，其運動參數(shù)包括線速度［vmin，vmax］和蛇頭偏移角度［φmin，φmax］，并設置速度范圍［0.0 m/s，0.2 m/s］和偏移角度范圍［-1.5 rad，1.5rad］。

獎勵函數(shù)會影響強化學習的收斂性，根據(jù)獎勵函數(shù)設置的優(yōu)劣，從而使Actor-Critic網(wǎng)絡得到更好的性能進行網(wǎng)絡模型訓練。本文設計的獎勵函數(shù)由3方面組成，分別為蛇形機器人與環(huán)境障礙物距離信息、攝像頭信息和關節(jié)角度，如式（11）所示：

式中：R1表示距離判斷函數(shù)；R2表示攝像頭信息判斷函數(shù)，蛇形機器人的運動方向總是向障礙物少的一側偏移;R3表示蛇頭轉動范圍，其受到剛體結構限制；Dm表示距離障礙物的最小距離；Dwall表示與墻體的最小距離，避免蛇形機器人與障礙物和墻體產(chǎn)生碰撞，Dmh表示與目標點的最小距離，用以指引蛇形機器人的運動方向。

3 仿真實驗

3.1 仿真環(huán)境創(chuàng)建及參數(shù)設置

為了更加清晰地觀察改進DDPG算法的收斂速度和訓練效果，在Webots環(huán)境中，根據(jù)障礙物的密集程度搭建了2種仿真環(huán)境，分別為稀疏障礙物場景和密集障礙物場景。其中稀疏障礙物場景，地圖大小為3 m×3 m，障礙物大小為25 cm×25 cm，數(shù)量為20個并隨機分布，如圖6 a）所示。密集障礙物環(huán)境，地圖大小為3 m×3 m，障礙物大小為25 cm×25 cm，數(shù)量為40個，如圖6 b）所示。

仿真環(huán)境中參數(shù)設置會影響其訓練效果和穩(wěn)定性，所以實驗前需要初始化CPG網(wǎng)絡參數(shù)和改進的DDPG算法參數(shù)，以及隨機部署障礙物位置、目標點和蛇形機器人初始位置。DDPG算法參數(shù)如表1所示，CPG網(wǎng)絡參數(shù)如表2所示。

3.2 稀疏障礙物環(huán)境仿真

為了驗證改進的DDPG算法的有效性，將其與原算法分別部署到稀疏障礙物地圖中，通過設置獎勵和相關約束，使蛇形機器人進行訓練并積累經(jīng)驗，從而完成路徑規(guī)劃任務。

為降低初始階段算法的隨機性，解決蛇形機器人進入死區(qū)區(qū)域造成訓練時間過長等問題，設置訓練模型每回合最大迭代次數(shù)為1 500，并記錄蛇形機器人每回合訓練后的平均獎勵值和完成任務所需的迭代次數(shù)。為了突出蛇形機器人到達目標點時的獎勵狀態(tài)，設置完成任務后呈現(xiàn)正獎勵狀態(tài)，未完成任務或陷入死區(qū)區(qū)域后呈現(xiàn)負獎勵狀態(tài)，如圖7 a）所示。

在稀疏障礙物環(huán)境下，改進DDPG算法的平均獎勵值在回合數(shù)迭代20次以后開始出現(xiàn)明顯的上升趨勢，30次后逐漸收斂，平均獎勵值從負值逐漸趨近于0，說明改進的DDPG算法已經(jīng)積累了避障和趨近目標點的經(jīng)驗，隨后由于算法積累經(jīng)驗不足和隨機性，使蛇形機器人陷入死區(qū)區(qū)域，導致平均獎勵值出現(xiàn)了短暫的下降趨勢。由于LSTM算法控制樣本信息的遺忘和記憶，平均獎勵值短暫地下降之后，很快恢復至正值并且逐漸收斂，在算法訓練回合迭代到60次以后，每次的平均獎勵值在0～250之間波動且波動較小，如圖7 a）所示。

而DDPG算法訓練回合迭代40次以后陷入死區(qū)區(qū)域，因其積累了大量劣質經(jīng)驗，所以需要較多的訓練回合才能逐漸收斂，DDPG算法訓練回合迭代60次之后平均獎勵值達到正值，80次之后才逐漸收斂，收斂之后由于劣質經(jīng)驗的存在，導致蛇形機器人會陷入死區(qū)區(qū)域，從而造成目標任務無法完成。根據(jù)每回合最大迭代次數(shù)，搜索時間隨著獎勵值的收斂逐漸下降，改進的DDPG算法在訓練回合迭代120次之后，每回合迭代次數(shù)逐漸穩(wěn)定維持在600～700次，說明改進的DDPG算法具有在稀疏障礙物環(huán)境下完成路徑規(guī)劃任務的能力。DDPG算法改進前后搜索時間如圖7 b）所示。

在稀疏地圖環(huán)境下，分別測試2種算法訓練好的模型。DDPG算法完成蛇形機器人路徑規(guī)劃任務需要987次訓練回合迭代，而改進的DDPG算法僅需要938次訓練回合迭代。利用Python的Pygame功能包實時繪制其在地圖中的任務軌跡，結果表明，改進的DDPG算法在完成任務時間和規(guī)劃路徑長度方面優(yōu)于原算法，如圖8 a）所示。

另一方面，蛇形機器人節(jié)律運動的柔順性直接影響了蛇形機器人的運動狀態(tài)，其轉彎動作主要依靠蛇頭的偏轉角度，在CPG網(wǎng)絡控制下其余關節(jié)會隨著蛇頭角度變換進行跟隨。由于障礙物的復雜性，改進DDPG算法使得蛇形機器人在路徑規(guī)劃任務中以較少的偏轉次數(shù)到達目標點，而DDPG算法在執(zhí)行路徑規(guī)劃任務時會出現(xiàn)短暫的連續(xù)轉彎動作或者大幅度的轉彎動作，從而造成蛇頭曲線出現(xiàn)尖波和連續(xù)波動。根據(jù)仿真中蛇頭關節(jié)角度變化，可以看到改進的DDPG算法規(guī)劃路徑相對于DDPG算法出現(xiàn)尖波和連續(xù)波動的情況較少，如圖8 b）所示。

3.3 密集障礙物環(huán)境仿真

在密集障礙物環(huán)境中，分別基于改進的DDPG算法、DDPG算法、PPO算法^［²¹^］和A2C算法^［²²^］進行蛇形機器人路徑規(guī)劃任務，并對4種算法的迭代獎勵值和搜索時間進行對比分析。改進的DDPG算法相對于其他算法，用更少的迭代次數(shù)積累了更多的優(yōu)秀經(jīng)驗，獎勵回報值和搜索時間曲線在訓練回合迭代200次后逐漸收斂。面對死區(qū)問題借助多層LSTM神經(jīng)網(wǎng)絡的記憶功能可以更快速地適應環(huán)境，用盡量少的訓練次數(shù)走出死區(qū)區(qū)域或重新規(guī)劃路徑，隨著迭代次數(shù)的增加，蛇形機器人規(guī)劃路徑的長度逐漸減小并趨于穩(wěn)定，訓練回合迭代300次以后蛇形機器人能夠更快地完成路徑規(guī)劃任務，如圖9、圖10所示。

相比于DDPG算法、PPO算法和A2C算法，改進的DDPG算法在較短時間內找到了最優(yōu)路徑，其經(jīng)過978次訓練回合迭代后完成了路徑規(guī)劃任務且路徑較為平滑。為了對比不同算法性能的優(yōu)劣，在蛇形機器人執(zhí)行路徑規(guī)劃任務中利用Pygame功能包生成規(guī)劃路徑曲線，通過仿真對比分析，改進的DDPG算法不僅規(guī)劃的路徑較為平滑且長度更短，而其他3種算法會陷入短暫的死區(qū)區(qū)域從而導致規(guī)劃路徑較長，如圖11 a）所示，密集障礙物環(huán)境下各算法路徑規(guī)劃長度對比如表3所示。通過對比分析不同算法下蛇形機器人的蛇頭角度變化曲線可知，改進的DDPG算法不僅轉彎角度更加平滑，而且沒有連續(xù)的角度突變，如圖11 b）所示。

面對連續(xù)避障情況時，因為狀態(tài)空間和獎勵值的設置，蛇形機器人會受到多種限制，出現(xiàn)短暫的決策過程。為了更加清晰地對比改進DDPG算法的優(yōu)化效果，避免隨機性結果的產(chǎn)生，每種算法使用相同的參數(shù)設置，實驗對比了密集障礙物場景下4種算法的最優(yōu)路徑規(guī)劃次數(shù)、陷入死區(qū)的次數(shù)、平均訓練時間和模型測試中得到的平均規(guī)劃路徑長度，分別進行10次訓練并取其平均值，如表4所示。

從表4可以看出，改進的DDPG算法在訓練中可以更快地收斂，其整體訓練時間相比于其他算法平均降低了15%，模型測試中完成規(guī)劃路徑迭代次數(shù)降低了22%，提高了算法的快速性。為使蛇形機器人更好地適應環(huán)境以完成路徑規(guī)劃任務，改進的DDPG算法因為多層LSTM神經(jīng)網(wǎng)絡的選擇記憶功能，每次訓練只會在訓練前期陷入死區(qū)區(qū)域，并且通過更多優(yōu)質經(jīng)驗的積累提高了網(wǎng)絡模型訓練的穩(wěn)定性。

4 結語

本文提出的改進DDPG算法，可以有效解決蛇形機器人在選擇最優(yōu)路徑時的局部死區(qū)問題和路徑規(guī)劃算法訓練速度慢的問題。通過改變網(wǎng)絡結構、引入LSTM神經(jīng)網(wǎng)絡模型，快速積累高獎勵值樣本，獲得優(yōu)質經(jīng)驗；同時，對搭建的CPG網(wǎng)絡模型進行最優(yōu)化特征參數(shù)處理，并將其融入DDPG算法中，結合新型狀態(tài)空間和獎勵函數(shù)，進而更好地引導蛇形機器人完成路徑規(guī)劃任務。仿真結果表明，改進算法具有收斂速度快、訓練時間短、完成任務迭代次數(shù)多和陷入死區(qū)次數(shù)少等優(yōu)勢。因此本文提出的算法可使蛇形機器人能夠在復雜環(huán)境中自主進行路徑規(guī)劃，為實際應用中更加安全且快速地完成導航與控制任務提供了有價值的解決方案。

本文主要研究了蛇形機器人平面路徑規(guī)劃，但未考慮地形起伏變化。未來研究擬基于蛇形機器人的多模式運動，改進運動控制策略和路徑規(guī)劃方法，提高機器人的環(huán)境適應能力。

參考文獻/References：

［1］ PETTERSEN K Y.Snake robots［J］.Annual Reviews in Control，2017，44：19-44.

［2］ LIU Jindong，TONG Yuchuang，LIU Jinguo.Review of snake robots in constrained environments［J］.Robotics and Autonomous Systems，2021，141.DOI：10.1016/j.robot.2021.103785.

［3］ YU Xue，CHEN Weineng，GU Tianlong，et al.ACO-A*：Ant colony optimization plus A* for 3-D traveling in environments with dense obstacles［J］.IEEE Transactions on Evolutionary Computation，2019，23（4）：617-631.

［4］ HAN Siwei，XIAO Wenyu，YU Zhenghong，et al.Adaptive climbing gait design of snake robot based on extended Kalman filter［J］.Journal of Physics：Conference Series，2022.DOI： 10.1088/1742-6596/2183/1/012003.

［5］ BORHAUG E，PAVLOV A，PETTERSEN K Y.Integral LOS control for path following of underactuated marine surface vessels in the presence of constant ocean currents［C］//2008 47th IEEE Conference on Decision and Control.Cancun：IEEE，2008：4984-4991.

［6］鄭瑩，段慶洋，林利祥，等.深度強化學習在典型網(wǎng)絡系統(tǒng)中的應用綜述［J］.無線電通信技術，2020，46（6）：603-623.

ZHENG Ying，DUAN Qingyang，LIN Lixiang，et al.A survey on the applications of deep reinforcement learning in classical networking systems［J］.Radio Communications Technology，2020，46（6）：603-623.

［7］ JIA Yuanyuan，MA Shugen.A coach-based Bayesian reinforcement learning method for snake robot control［J］.IEEE Robotics and Automation Letters，2021，6（2）：2319-2326.

［8］ BING Zhenshan，LEMKE C，CHENG Long，et al.Energy-efficient and damage-recovery slithering gait design for a snake-like robot based on reinforcement learning and inverse reinforcement learning［J］.Neural Networks，2020，129：323-333.

［9］ LIU Xuan，GASOTO R，JIANG Ziyi，et al.Learning to locomote with artificial neural-network and CPG-based control in a soft snake robot［C］//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems （IROS）.Las Vegas：IEEE，2020：7758-7765.

［10］嚴浙平，楊皓宇，張偉，等.基于模型預測-中樞模式發(fā)生器的六足機器人軌跡跟蹤控制［J］.機器人，2023，45（1）：58-69.

YAN Zheping，YANG Haoyu，ZHANG Wei，et al.Trajectory tracking control of hexapod robot based on model prediction and central pattern generator［J］.Robot，2023，45（1）：58-69.

［11］QIN Guodong，WU Huapeng，CHENG Yong，et al.Adaptive trajectory control of an under-actuated snake robot［J］.Applied Mathematical Modelling，2022，106：756-769.

［12］JIANG Zhuangyi，OTTO R，BING Zhenshan，et al.Target tracking control of a wheel-less snake robot based on a supervised multi-layered SNN［C］//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems （IROS）.Las Vegas：IEEE，2020：7124-7130.

［13］張瀚，解明揚，張民，等.融合DDPG算法的移動機器人路徑規(guī)劃研究［J］.控制工程，2021，28（11）：2136-2142.

ZHANG Han，XIE Mingyang，ZHANG Min，et al.Path planning of mobile robot with fusion DDPG algorithm［J］.Control Engineering of China，2021，28（11）：2136-2142.

［14］CHO Y，MANZOOR S，CHOI Y.Adaptation to environmental change using reinforcement learning for robotic salamander［J］.Intelligent Service Robotics，2019，12（3）：209-218.

［15］CARRARA F，F(xiàn)ALCHI F，CALDELLI R，et al.Detecting adversarial example attacks to deep neural networks［C］//Proceedings of the 15th International Workshop on Content-Based Multimedia Indexing.Florence：Association for Computing Machinery，2017：1-7.

［16］PENG Xuebin，BERSETH G，van de PANNE M.Terrain-adaptive locomotion skills using deep reinforcement learning［J］.ACM Transactions on Graphics，2016，35（4）：1-12.

［17］PENG Xuebin，BERSETH G，YIN Kangkang，et al.DeepLoco：Dynamic locomotion skills using hierarchical deep reinforcement learning［J］.ACM Transactions on Graphics，2017，36（4）：1-13.

［18］CHEN Chewen，TSENG S P，KUAN Tawen，et al.Outpatient text classification using attention-based bidirectional LSTM for robot-assisted servicing in hospital［J］.Information，2020，11（2）.DOI： 10.3390/info11020106.

［19］YU Yong，SI Xiaosheng，HU Changhua，et al.A review of recurrent neural networks：LSTM cells and network architectures［J］.Neural Computation，2019，31（7）：1235-1270.

［20］LIAO Xiaocun，ZHOU Chao，ZOU Qianqian，et al.Dynamic modeling and performance analysis for a wire-driven elastic robotic fish［J］.IEEE Robotics and Automation Letters，2022，7（4）：11174-11181.

［21］YANG Laiyi，BI Jing，YUAN Haitao.Dynamic path planning for mobile robots with deep reinforcement learning［J］.IFAC-PapersOnLine，2022，55（11）：19-24.

［22］XING Xiangrui，DING Hongwei，LIANG Zhuguan，et al.Robot path planner based on deep reinforcement learning and the seeker optimization algorithm［J］.Mechatronics，2022，88.DOI： 10.1016/j.mechatronics.2022.102918.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于改進的DDPG算法的蛇形機器人路徑規(guī)劃方法