国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于強(qiáng)化學(xué)習(xí)的多機(jī)器人系統(tǒng)的環(huán)圍編隊(duì)控制

2023-04-29 10:02:57韓藝琳王麗麗楊洪勇范之琳
關(guān)鍵詞:強(qiáng)化學(xué)習(xí)運(yùn)動(dòng)控制目標(biāo)跟蹤

韓藝琳 王麗麗 楊洪勇 范之琳

摘要: 針對(duì)機(jī)器人對(duì)未知目標(biāo)的編隊(duì)跟蹤問題,建立機(jī)器人運(yùn)動(dòng)控制模型,提出了基于強(qiáng)化學(xué)習(xí)的目標(biāo)跟蹤與環(huán)圍控制策略。在強(qiáng)化學(xué)習(xí)策略驅(qū)動(dòng)下,機(jī)器人探索發(fā)現(xiàn)目標(biāo)點(diǎn)位置并展開跟蹤,使用環(huán)圍編隊(duì)運(yùn)動(dòng)模型對(duì)機(jī)器人跟蹤策略進(jìn)行實(shí)時(shí)優(yōu)化,實(shí)現(xiàn)對(duì)逃逸目標(biāo)點(diǎn)的動(dòng)態(tài)跟蹤與環(huán)圍控制。搭建了多機(jī)器人運(yùn)動(dòng)測(cè)試環(huán)境,實(shí)驗(yàn)表明結(jié)合強(qiáng)化學(xué)習(xí)的方法能夠縮短多機(jī)器人編隊(duì)調(diào)節(jié)時(shí)間,驗(yàn)證了多機(jī)器人環(huán)圍編隊(duì)控制策略的有效性。

關(guān)鍵詞: 運(yùn)動(dòng)控制;強(qiáng)化學(xué)習(xí);目標(biāo)跟蹤;環(huán)圍控制

中圖分類號(hào): TP273+.5文獻(xiàn)標(biāo)識(shí)碼: A

Ring-around Formation Control of Multi-robot Systems Based on Reinforcement Learning

HAN Yilin, WANG Lili, YANG Hongyong, FAN Zhilin

Abstract:For the robot formation tracking problem of unknown target, a robot motion control model is established, and a target tracking and ring-around control strategy based on Reinforcement Learning(RL) is proposed to solve the problem. Driven by RL, the robot explore the location of the target point and initiate tracking. The robot tracking strategy is optimized in real time using the ring-around formation motion model to achieve dynamic tracking and ring-around control of the fleeing target point. A multi-robot motion control environment is established, and the experiments indicate that the combined RL can accelerate the multi-robot formation adjustment time and prove the efficiency of the multi-robot ring-around formation control strategy.

Key words: motion control; reinforcement learning; target tracking; ring-around formation control

0 引言

近年來,多機(jī)器人系統(tǒng)以其執(zhí)行效率高、功能多樣、任務(wù)分配合理[1]等特點(diǎn)受到越來越多學(xué)者的重視,通過在系統(tǒng)內(nèi)部建立多機(jī)器人之間合理的約束控制與協(xié)同策略,使多機(jī)器人系統(tǒng)能夠處理大部分單機(jī)器人難以應(yīng)對(duì)的復(fù)雜問題。比如在協(xié)同探索[2]和軌跡跟蹤[3]等領(lǐng)域中,采用多機(jī)器人編隊(duì)協(xié)作、運(yùn)動(dòng)學(xué)控制等方法能夠?qū)崿F(xiàn)對(duì)系統(tǒng)的一致性控制。因此,編隊(duì)和運(yùn)動(dòng)學(xué)[4]約束組成的協(xié)同控制方法,成為解決復(fù)雜情況下多機(jī)器人系統(tǒng)問題的重要研究方向。

針對(duì)多機(jī)器人編隊(duì)系統(tǒng),常用方法有模糊PID法[5]、神經(jīng)網(wǎng)絡(luò)[6]、強(qiáng)化學(xué)習(xí)[7]等。其中,神經(jīng)網(wǎng)絡(luò)將關(guān)注點(diǎn)放在處理機(jī)器人與目標(biāo)點(diǎn)的跟蹤訓(xùn)練與路徑規(guī)劃方面,對(duì)控制算法要求較高,且訓(xùn)練時(shí)間長,不適用于動(dòng)態(tài)未知環(huán)境;模糊PID法對(duì)環(huán)境依賴較小,但缺乏對(duì)系統(tǒng)整體的規(guī)則設(shè)定,難以得到整體的決策。為提高機(jī)器人對(duì)環(huán)境的適應(yīng)度,Yu等[8]結(jié)合模糊控制與神經(jīng)網(wǎng)絡(luò),提出一種容錯(cuò)控制策略,實(shí)現(xiàn)在復(fù)雜環(huán)境下的同步跟蹤控制,Zhang等[9]提出一種基于自適應(yīng)差分的多無人機(jī)編隊(duì)預(yù)測(cè)控制算法,實(shí)現(xiàn)對(duì)運(yùn)動(dòng)軌跡的自適應(yīng)調(diào)整。為避免機(jī)器人的路徑軌跡與任務(wù)目標(biāo)不匹配[10]情況,Loris等[11]提出結(jié)合迭代學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的方法,實(shí)現(xiàn)學(xué)習(xí)算法控制器參數(shù)的在線調(diào)整與軌跡跟蹤控制。相比其他方法,強(qiáng)化學(xué)習(xí)善于在線處理環(huán)境信息,能夠搭載其他路徑規(guī)劃算法,更有利于實(shí)現(xiàn)多機(jī)器人編隊(duì)尋找最優(yōu)路徑。

目標(biāo)環(huán)圍控制是多機(jī)器人系統(tǒng)對(duì)目標(biāo)點(diǎn)進(jìn)行編隊(duì)包圍的一種特殊狀態(tài),主要利用了多機(jī)器人系統(tǒng)的路徑規(guī)劃、協(xié)同編隊(duì)和跟蹤控制等相關(guān)控制技術(shù),完成機(jī)器人規(guī)劃最優(yōu)路線、切換環(huán)形編隊(duì)、對(duì)逃逸目標(biāo)點(diǎn)以環(huán)圍編隊(duì)形式進(jìn)行追蹤等任務(wù)。對(duì)于目標(biāo)信息不確定的環(huán)境,Gao等[12]提出了一種基于向量場(chǎng)的分布式控制策略,使用分布式控制率進(jìn)行目標(biāo)狀態(tài)估計(jì),實(shí)現(xiàn)了多機(jī)器人系統(tǒng)的期望運(yùn)動(dòng);Chou等[13]將目標(biāo)搜索算法與PID控制結(jié)合,實(shí)現(xiàn)機(jī)器人在未知環(huán)境中的自主避障與導(dǎo)航。對(duì)于帶有逃逸功能的目標(biāo)點(diǎn),可以利用機(jī)器人速度和運(yùn)動(dòng)學(xué)的差異彌補(bǔ)間距[14]上的不足,Yao等[15]提出了一種用于主動(dòng)目標(biāo)跟蹤的隨機(jī)非線性模型預(yù)測(cè)控制(SNMPC)算法,實(shí)現(xiàn)多機(jī)器人對(duì)目標(biāo)的環(huán)航控制;Lu等[16]提出了基于激光測(cè)距儀的目標(biāo)檢測(cè)和跟蹤算法,實(shí)現(xiàn)移動(dòng)機(jī)器人對(duì)運(yùn)動(dòng)目標(biāo)的實(shí)時(shí)跟蹤。

現(xiàn)有研究多數(shù)僅討論了多機(jī)器人對(duì)逃逸目標(biāo)點(diǎn)的合作控制[17],缺少對(duì)多機(jī)器人協(xié)同編隊(duì)和避碰的考慮。基于此,本文擬研究基于強(qiáng)化學(xué)習(xí)的多機(jī)器人系統(tǒng)的環(huán)圍編隊(duì)控制,利用分布式思想為機(jī)器人協(xié)作提供通信支持,機(jī)器人在強(qiáng)化學(xué)習(xí)算法訓(xùn)練下探索接近目標(biāo)點(diǎn)的最優(yōu)軌跡,結(jié)合運(yùn)動(dòng)學(xué)模型用于控制多機(jī)器人環(huán)形編隊(duì)。除此之外,在環(huán)形編隊(duì)控制器基礎(chǔ)上,基于強(qiáng)化學(xué)習(xí)的多機(jī)器人系統(tǒng)要實(shí)現(xiàn)對(duì)目標(biāo)點(diǎn)的環(huán)圍控制,為多機(jī)器人系統(tǒng)設(shè)計(jì)合理的目標(biāo)追蹤策略,以及處理追蹤和編隊(duì)過程中各個(gè)機(jī)器人之間路徑?jīng)_突和避碰的策略。

1 研究目標(biāo)

本文主要利用強(qiáng)化學(xué)習(xí)方法解決多機(jī)器人系統(tǒng)的環(huán)圍編隊(duì)控制問題,針對(duì)此類問題可分解為兩個(gè)步驟:目標(biāo)跟蹤和目標(biāo)環(huán)圍。一是建立環(huán)境勢(shì)場(chǎng),機(jī)器人對(duì)目標(biāo)進(jìn)行識(shí)別跟蹤,逐步進(jìn)入環(huán)形編隊(duì)狀態(tài);二是目標(biāo)點(diǎn)逃逸時(shí),多機(jī)器人的運(yùn)動(dòng)控制與強(qiáng)化學(xué)習(xí)訓(xùn)練相結(jié)合進(jìn)行協(xié)作圍捕,直至達(dá)成合理的集體決策[18]。

假設(shè)多機(jī)器人系統(tǒng)中的各機(jī)器人與坐標(biāo)中心的連線為軸線,為保持相鄰軸線之間的角度穩(wěn)定,通過調(diào)整每個(gè)機(jī)器人的位置,保證軸線之間恒等的角度。多機(jī)器人系統(tǒng)環(huán)形編隊(duì)控制如圖1所示。

其中,五星區(qū)域表示多機(jī)器人系統(tǒng)坐標(biāo)中心點(diǎn),ω為編隊(duì)穩(wěn)定時(shí)鄰居機(jī)器人軸線之間的期望夾角,當(dāng)多機(jī)器人之間保持大小為ω的夾角并均勻分布在環(huán)形軌跡上,表示多機(jī)器人系統(tǒng)實(shí)現(xiàn)環(huán)圍編隊(duì)控制,在有N個(gè)機(jī)器人的編隊(duì)系統(tǒng)中,ω?cái)?shù)值計(jì)算為

(1)

2 基于強(qiáng)化學(xué)習(xí)的多機(jī)器人編隊(duì)目標(biāo)環(huán)圍算法設(shè)計(jì)

2.1 多機(jī)器人系統(tǒng)的強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)以馬爾科夫過程為理論研究基礎(chǔ),馬爾科夫決策過程可以被看做一個(gè)五元組〈S,A,R,P,γ〉,其中,S為系統(tǒng)狀態(tài)空間,A為系統(tǒng)動(dòng)作空間,P為狀態(tài)轉(zhuǎn)換概率,R為狀態(tài)回報(bào),γ為學(xué)習(xí)過程折扣因子,該過程指的是在與環(huán)境進(jìn)行交互后,得到不同的回報(bào)并評(píng)估當(dāng)前采取的動(dòng)作,形成自身的經(jīng)驗(yàn)策略π。

一般情況下,強(qiáng)化學(xué)習(xí)中的回報(bào)以累積經(jīng)驗(yàn)的方式表示:

(2)

其中,r為瞬時(shí)回報(bào),t為運(yùn)動(dòng)時(shí)刻,j為執(zhí)行步數(shù)。

對(duì)于多機(jī)器人系統(tǒng)的強(qiáng)化學(xué)習(xí)過程,當(dāng)系統(tǒng)處于狀態(tài)st={s0,s1…,sN},聯(lián)合策略可以表示為π(st|ut)。為使多機(jī)器人系統(tǒng)采取的聯(lián)合策略接近于最優(yōu)策略π(st|u′),使用強(qiáng)化學(xué)習(xí)方法中的經(jīng)典算法Q-Learning算法進(jìn)行策略優(yōu)化。計(jì)算每個(gè)機(jī)器人在動(dòng)作策略u(píng)t下的狀態(tài)-動(dòng)作值函數(shù)為

3 實(shí)驗(yàn)驗(yàn)證

為驗(yàn)證基于強(qiáng)化學(xué)習(xí)的多機(jī)器人系統(tǒng)的環(huán)圍編隊(duì)控制算法的有效性,設(shè)定多組不同的起始點(diǎn)和目標(biāo)機(jī)動(dòng)環(huán)境,對(duì)具有逃逸能力的目標(biāo)點(diǎn)進(jìn)行自由追蹤,設(shè)定初始逃逸速度vg=0.3,隨著環(huán)圍編隊(duì)的穩(wěn)定,目標(biāo)點(diǎn)由于受到阻力而被逼停,最終vg=0。多機(jī)器人起始速度分別設(shè)置為:v1=0.6,v2=0.5,v3=0.4,v4=0.3。

假設(shè)多機(jī)器人系統(tǒng)在靜態(tài)和動(dòng)態(tài)環(huán)境下移動(dòng),多機(jī)器人系統(tǒng)運(yùn)動(dòng)后留下的曲線軌跡分別如圖2和圖3所示,多機(jī)器人速度和轉(zhuǎn)動(dòng)量變化分別如圖4和圖5所示,多機(jī)器人系統(tǒng)的收斂速率如圖6所示。

靜態(tài)環(huán)圍控制軌跡如圖2所示,機(jī)器人在與環(huán)境的交互過程中,考慮周圍鄰居的狀態(tài)和速度信息,實(shí)時(shí)調(diào)整自身的動(dòng)作避免發(fā)生碰撞,使接近目標(biāo)點(diǎn)的路線為最優(yōu)路徑,實(shí)驗(yàn)結(jié)果證明了改進(jìn)強(qiáng)化學(xué)習(xí)算法可以實(shí)現(xiàn)多機(jī)器人對(duì)靜態(tài)目標(biāo)的圍捕。

在動(dòng)態(tài)環(huán)境中,多機(jī)器人在接近目標(biāo)點(diǎn)的最小安全范圍內(nèi)進(jìn)行動(dòng)態(tài)環(huán)圍,由于環(huán)航編隊(duì)前期,機(jī)器人需要考慮包括鄰居機(jī)器人和目標(biāo)點(diǎn)在內(nèi)的斥力,以及目標(biāo)追蹤階段中指向目標(biāo)點(diǎn)進(jìn)行環(huán)航編隊(duì)的引力,因而該過程中存在軌跡波動(dòng),形成編隊(duì)隊(duì)列的難度較大,如圖3所示。當(dāng)目標(biāo)點(diǎn)發(fā)生不確定方向位移時(shí),多個(gè)機(jī)器人使用強(qiáng)化學(xué)習(xí)方法在線調(diào)整速度控制器,使編隊(duì)系統(tǒng)能夠在運(yùn)動(dòng)學(xué)模型控制下進(jìn)行跟蹤控制,并根據(jù)轉(zhuǎn)向角度和速度調(diào)整編隊(duì)距離,由于環(huán)航編隊(duì)的特性,此時(shí)速度收斂較慢。當(dāng)多機(jī)器人系統(tǒng)形成較為穩(wěn)定的編隊(duì)后,機(jī)器人所受到的勢(shì)場(chǎng)力逐漸減小到0,得到穩(wěn)定的編隊(duì)環(huán)圍策略。

圖4所示為多機(jī)器人系統(tǒng)環(huán)圍動(dòng)態(tài)目標(biāo)點(diǎn)的速度變化過程,為機(jī)器人設(shè)計(jì)帶有加速度的控制器,當(dāng)機(jī)器人接近目標(biāo)點(diǎn)的安全距離時(shí),進(jìn)入環(huán)航編隊(duì)并與鄰居機(jī)器人獲得通信,對(duì)逃逸目標(biāo)點(diǎn)展開追蹤。圖5表示多機(jī)器人系統(tǒng)環(huán)圍動(dòng)態(tài)目標(biāo)點(diǎn)的轉(zhuǎn)動(dòng)量變化過程,隨著多機(jī)器人完成跟蹤目標(biāo)點(diǎn)進(jìn)入環(huán)圍階段,多個(gè)機(jī)器人的轉(zhuǎn)動(dòng)量逐漸收斂并達(dá)到一致。當(dāng)機(jī)器人在強(qiáng)化學(xué)習(xí)與動(dòng)力學(xué)模型的交互作用下,找到滿足編隊(duì)約束的動(dòng)作策略后,與鄰居機(jī)器人進(jìn)行通信并調(diào)整自身速度與轉(zhuǎn)動(dòng)量,因此當(dāng)多機(jī)器人在環(huán)圍軌跡上學(xué)習(xí)到最優(yōu)速度和角度轉(zhuǎn)動(dòng)量時(shí),多機(jī)器人系統(tǒng)達(dá)到最優(yōu),多機(jī)器人可保持在最優(yōu)軌跡上環(huán)圍。

圖6展示了多機(jī)器人系統(tǒng)中每個(gè)機(jī)器人隨Q值訓(xùn)練步數(shù)的變化,在目標(biāo)跟蹤階段采取人工勢(shì)場(chǎng)法作為目標(biāo)導(dǎo)向,機(jī)器人探索路徑過程中耗費(fèi)代價(jià)小,機(jī)器人策略生成速度加快。隨多機(jī)器人系統(tǒng)迭代訓(xùn)練步數(shù)的增加,機(jī)器人累積獎(jiǎng)賞增多,當(dāng)訓(xùn)練經(jīng)過350步后,多機(jī)器人系統(tǒng)基本達(dá)到環(huán)圍狀態(tài),此時(shí)系統(tǒng)內(nèi)部相對(duì)穩(wěn)定。當(dāng)多機(jī)器人系統(tǒng)學(xué)習(xí)到穩(wěn)定的策略時(shí),受勢(shì)場(chǎng)影響小,機(jī)器人Q值達(dá)到最大,多機(jī)器人系統(tǒng)實(shí)現(xiàn)對(duì)目標(biāo)點(diǎn)的環(huán)圍編隊(duì)控制。綜上所述,本文使用控制器對(duì)強(qiáng)化學(xué)習(xí)過程進(jìn)行改進(jìn),機(jī)器人能夠快速學(xué)習(xí)到跟蹤與環(huán)圍策略,并維持系統(tǒng)穩(wěn)定。

4 結(jié)論

本文基于強(qiáng)化學(xué)習(xí)設(shè)計(jì)了多機(jī)器人環(huán)圍編隊(duì)控制系統(tǒng),采用分布式設(shè)計(jì)思想降低系統(tǒng)內(nèi)的通信損耗,編隊(duì)中的機(jī)器人只能接收到鄰居機(jī)器人的信息。同時(shí),將強(qiáng)化學(xué)習(xí)算法中訓(xùn)練與尋優(yōu)的性能與機(jī)器人運(yùn)動(dòng)學(xué)模型相結(jié)合,編隊(duì)和環(huán)圍軌跡不再依賴訓(xùn)練后得到的策略,利用結(jié)合強(qiáng)化學(xué)習(xí)的速度控制器規(guī)劃最優(yōu)軌跡,從而在較短時(shí)間內(nèi)達(dá)到期望的環(huán)圍效果,不需通過反復(fù)多次的實(shí)驗(yàn)訓(xùn)練,仍能收斂到速度一致狀態(tài)。

雖然機(jī)器人環(huán)圍編隊(duì)控制系統(tǒng)能夠?qū)崿F(xiàn)路徑收斂,但是當(dāng)目標(biāo)點(diǎn)數(shù)量增加時(shí),需要將多個(gè)機(jī)器人進(jìn)行合理分組跟蹤,分組機(jī)器人之間可能存在協(xié)作與競爭的關(guān)系,都會(huì)影響算法的收斂速度。因此,接下來將針對(duì)不確定環(huán)境下的多機(jī)器人分組一致性進(jìn)行研究。

參考文獻(xiàn):

[1]YAN Z, JOUANDEAU N, CHERIF A A. A survey and analysis of multi-robot coordination[J]. International Journal of Advanced Robotic Systems, 2013, 10(12):399.

[2]QU Y, SUN Y, WANG K, et al. Multi-UAV Cooperative Search method for a Moving Target on the Ground or Sea[C]//2019 Chinese Control Conference (CCC). GuangZhou,? China: IEEE, 2019: 4049-4054.

[3]KAMALAPURKAR R, ANDREWS L, WALTERS P, et al. Model-based reinforcement learning for infinite-horizon approximate optimal tracking[J]. IEEE transactions on neural networks and learning systems, 2016, 28(3): 753-758.

[4]路蘭,殷水英. 基于空間交互作用的中國省際人口流動(dòng)模型研究[DB/OL]. (2023-08-08)[2023-08-15].https://link.cnki.net/urlid/11.1115.F.20230808.1339.004.

LU L, YIN S Y. Study on the model of inter-provincial population flow in China based on spatial interaction[DB/OL]. https://link.cnki.net/urlid/11.1115.F.20230808.1339.004.

[5]MOHAN B M, SINHA A. The simplest fuzzy PID controllers: mathematical models and stability analysis[J]. Soft Computing, 2006, 10(10): 961-975.

[6]于欣波,賀威,薛程謙,等.基于擾動(dòng)觀測(cè)器的機(jī)器人自適應(yīng)神經(jīng)網(wǎng)絡(luò)跟蹤控制研究[J].自動(dòng)化學(xué)報(bào), 2019, 45(7):1307-1324.

YU X B, HE W, XUE C J, et al. Research on robot adaptive neural network tracking control based on disturbance observer [J]. Journal of Automation, 2019,45(7):1307-1324.

[7]徐鵬,謝廣明,文家燕,等.事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)多智能體編隊(duì)控制[J].智能系統(tǒng)學(xué)報(bào), 2019,14(1):93-98.

XU P, XIE G M, WEN J Y, et al. Event driven reinforcement learning multi-agent formation control [J]. Journal of Intelligent Systems, 2019,14(1):93-98.

[8]YU Z, ZHANG Y, LIU Z, et al. Distributed adaptive fractional-order fault-tolerant cooperative control of networked unmanned aerial vehicles via fuzzy neural networks[J]. IET Control Theory & Applications, 2019, 13(17): 2917-2929.

[9]ZHANG B, SUN X, LIU S, et al. Adaptive differential evolution-based distributed model predictive control for multi-UAV formation flight[J]. International Journal of Aeronautical and Space Sciences, 2020: 21(2):538-548.

[10] YIN S, XIAO B. Tracking control of surface ships with disturbance and uncertainties rejection capability[J]. IEEE/ASME Transactions on Mechatronics, 2016, 22(3): 1154-1162.

[11] ROVEDA L, PALLUCCA G, PEDROCCHI N, et al. Iterative learning procedure with reinforcement for high-accuracy force tracking in robotized tasks[J]. IEEE Transactions on Industrial Informatics, 2017, 14(4): 1753-1763.

[12] GAO S, SONG R, LI Y. Cooperative control of multiple nonholonomic robots for escorting and patrolling mission based on vector field[J]. IEEE Access, 2018, 6: 41883-41891.

[13] CHOU C Y, JUANG C F. Navigation of an autonomous wheeled robot in unknown environments based on evolutionary fuzzy control[J]. Inventions, 2018, 3(1): 3.

[14] WANG M, LUO J, YUAN J, et al. Detumbling strategy and coordination control of kinematically redundant space robot after capturing a tumbling target[J]. Nonlinear Dynamics, 2018, 92(3): 1023-1043.

[15] YAO W, LU H, ZENG Z, et al. Distributed static and dynamic circumnavigation control with arbitrary spacings for a heterogeneous multi-robot system[J]. Journal of Intelligent & Robotic Systems, 2019, 94(3): 883-905.

[16] LU C, WANG J, CUI X. Moving Target Tracking with Robot Based on Laser Range Finder[C]//2020 5th International Conference on Automation, Control and Robotics Engineering (CACRE). Dalian, China: IEEE, 2020: 21-25.

[17] WANG Y, LU D, SUN C Y. Cooperative control for multi-player pursuit-evasion games with reinforcement learning[J]. Neurocomputing, 2020,412:101-114

[18] GE H, SONG Y, WU C, et al. Cooperative deep Q-learning with Q-value transfer for multi-intersection signal control[J]. IEEE Access, 2019, 7: 40797-40809.

[19] SAMPEDRO C, BAVLE H, Rodriguez-Ramos A, et al. Laser-Based Reactive Navigation for Multirotor Aerial Robots using Deep Reinforcement Learning[C]// 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Madrid, Spain: IEEE, 2018.

[20] NOGUCHI Y, MAKI T. Path Planning Method Based on Artificial Potential Field and Reinforcement Learning for Intervention AUVs[C]// 2019 IEEE Symposium on? Underwater Technology (UT). Taiwan, China: IEEE, 2019:1-6.

(責(zé)任編輯 耿金花)

收稿日期: 2021-03-12;修回日期:2022-04-10

基金項(xiàng)目: 國家自然科學(xué)基金(61673200)

第一作者: 韓藝琳(1997-),女,山東淄博人,碩士研究生,主要研究方向?yàn)橐苿?dòng)多機(jī)器人編隊(duì)控制。

通信作者: 楊洪勇(1967-),男,山東德州人,博士,教授,主要研究方向?yàn)橐苿?dòng)多機(jī)器人編隊(duì)控制。

猜你喜歡
強(qiáng)化學(xué)習(xí)運(yùn)動(dòng)控制目標(biāo)跟蹤
基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
智能交通車流自動(dòng)導(dǎo)引系統(tǒng)
多視角目標(biāo)檢測(cè)與跟蹤技術(shù)的研究與實(shí)現(xiàn)
基于改進(jìn)連續(xù)自適應(yīng)均值漂移的視頻目標(biāo)跟蹤算法
具有自主感知行為的虛擬人運(yùn)動(dòng)控制技術(shù)研究綜述
分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
基于Java串口通訊的檢測(cè)系統(tǒng)程序設(shè)計(jì)
空管自動(dòng)化系統(tǒng)中航跡濾波算法的應(yīng)用與改進(jìn)
科技視界(2016年5期)2016-02-22 12:25:31
三維平動(dòng)并聯(lián)機(jī)床控制系統(tǒng)設(shè)計(jì)
瑞金市| 满城县| 炎陵县| 获嘉县| 昌平区| 鹤峰县| 志丹县| 洪洞县| 高要市| 新竹县| 宁乡县| 惠州市| 新竹市| 渑池县| 习水县| 贵州省| 临泽县| 克什克腾旗| 钟祥市| 哈尔滨市| 定州市| 乌什县| 乌恰县| 普定县| 来凤县| 宁安市| 运城市| 宣汉县| 讷河市| 河东区| 商河县| 罗江县| 延庆县| 江陵县| 浪卡子县| 苏州市| 巨野县| 石棉县| 宜都市| 岳阳市| 涡阳县|