国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多機(jī)器人智能化協(xié)同技術(shù)研究進(jìn)展

2021-12-31 09:22:56張迎雪陳金寶陳傳志
載人航天 2021年6期
關(guān)鍵詞:機(jī)系統(tǒng)協(xié)同機(jī)器人

張迎雪, 陳 萌,2*, 陳金寶, 陳傳志

(1.南京航空航天大學(xué)航天學(xué)院, 南京 211106; 2.上海宇航系統(tǒng)工程研究所, 上海 201109)

1 引言

機(jī)器人技術(shù)多機(jī)系統(tǒng)突破了單個機(jī)器人負(fù)載和數(shù)據(jù)處理等方面的瓶頸,可加快執(zhí)行速度,提高效率,并具有更強(qiáng)的環(huán)境適應(yīng)能力和容錯能力。協(xié)作是多機(jī)系統(tǒng)特色,系統(tǒng)中多個機(jī)器人既相互制約又相互配合[1],實(shí)現(xiàn)了“1+1>2”的效果。 團(tuán)隊中的異構(gòu)機(jī)器人通過優(yōu)勢互補(bǔ),為系統(tǒng)提供更豐富的解決方案,不僅滿足多變的環(huán)境和嚴(yán)苛的需求,還可以降低整體制造成本,目前已被應(yīng)用于工業(yè)自動化、軍事國防、救援搶險、深空探測等眾多領(lǐng)域[2-3]。

多機(jī)協(xié)同的系統(tǒng)架構(gòu)主要分為集中式、分布式和混合式共3 種,詳細(xì)對比見表1。

表1 多機(jī)協(xié)同體系結(jié)構(gòu)Table 1 Architecture of multi-robot cooperative system

多機(jī)協(xié)同是集合多種功能于一體的復(fù)雜系統(tǒng)。 其中,同步定位與地圖構(gòu)建(Simultaneous Localization And Mapping,SLAM)是多機(jī)系統(tǒng)完成全自主移動的前提條件和復(fù)雜探索的必要基礎(chǔ);路徑規(guī)劃、任務(wù)分配是異構(gòu)多機(jī)器人實(shí)現(xiàn)智能化探測和作業(yè)的核心關(guān)鍵技術(shù);多機(jī)系統(tǒng)與強(qiáng)化學(xué)習(xí)的結(jié)合是未來多機(jī)協(xié)同發(fā)展的必然路徑。 本文從以上4 個方面對多機(jī)協(xié)同系統(tǒng)進(jìn)行分析和總結(jié),歸納關(guān)鍵技術(shù),探討該領(lǐng)域目前存在的主要問題,并展望多機(jī)器人智能化協(xié)同技術(shù)未來的發(fā)展趨勢。

2 多機(jī)器人系統(tǒng)的發(fā)展概況

多機(jī)系統(tǒng)的研究可以追溯到20 世紀(jì)80 年代。 日本對于多機(jī)系統(tǒng)的研究起步最早。 1988年基于分布式體系架構(gòu)的CEBOT (Cellular Robotic System)[4]通過重構(gòu),組成能夠?qū)崿F(xiàn)學(xué)習(xí)的復(fù)雜機(jī)器人系統(tǒng)。 1989 年研制的Actress[5]異構(gòu)機(jī)器人具備自主操作能力,并利用通信協(xié)議實(shí)現(xiàn)多機(jī)協(xié)同。

1994 年,美國加州大學(xué)開發(fā)的大規(guī)模分布式SWARM 系統(tǒng)通過機(jī)器人之間的交流獲得群體智能[6]。 1998 年美國的ALLIANCE 異構(gòu)機(jī)器人團(tuán)隊[7],利用焦躁和默許2 種類型的動機(jī)以此調(diào)節(jié)機(jī)器人的工作狀態(tài)。 同年,歐盟研制出MARTHA混合式系統(tǒng)結(jié)構(gòu)[8],通過相互協(xié)調(diào)進(jìn)行路線規(guī)劃和軌跡生成。

進(jìn)入21 世紀(jì),各國紛紛投身于多機(jī)系統(tǒng)的研究,并不斷加大對該領(lǐng)域的投入。 2004 年美國DARPA 中MARS-2020 計劃[9]的研究目標(biāo)之一,就是在動態(tài)及危險環(huán)境中,通過地面與空中多機(jī)器人的團(tuán)隊協(xié)作實(shí)現(xiàn)通信偵查作業(yè)。 2006年該機(jī)構(gòu)的另一個項目SDR[10]開發(fā)了由大約80 個機(jī)器人組成的異構(gòu)機(jī)器人團(tuán)隊,旨在大型室內(nèi)環(huán)境中探索,繪制空間地圖并檢測有價值的目標(biāo)物體,實(shí)現(xiàn)保護(hù)等特定任務(wù)。 2013 年歐盟的AVERT 項目[11]研發(fā)用于搜救和干預(yù)危險行動的多機(jī)器人團(tuán)隊,在協(xié)同過程中完成緊耦合任務(wù)。 2014 年美國 NASA 研制的名為Swarmie 小型機(jī)器人[12],模擬蟻群的工作方式,用于搜救和偵查,并有望用于深空探測中尋找水源,如圖1 所示。

圖1 NASA 研制的Swarmie 小型機(jī)器人[12]Fig.1 Swarmie robot developed by NASA[12]

2015 年俄羅斯開始打造機(jī)器人衛(wèi)星部隊[13],以“整體打包,太空釋放”的方式將其部署到近地軌道完成太空裝配及檢修任務(wù)。 2018 年美國明尼蘇達(dá)大學(xué)MARS 實(shí)驗(yàn)室通過在不同機(jī)器人建立的地圖之間增加點(diǎn)和線特征的幾何約束構(gòu)成大規(guī)模3D 環(huán)境地圖[14]。

中國最早開展多機(jī)系統(tǒng)研究的是上海交通大學(xué)和中科院沈陽自動化研究所,研制的DAMAS[15]利用Petri 網(wǎng)建立了分布式的集中裝配系統(tǒng)。 蔡自興等[16]系統(tǒng)地闡述了多機(jī)系統(tǒng),并提出利用遺傳算法提升地圖構(gòu)建的效率和精確度,引入離散PSO 解決多機(jī)協(xié)同分配,并針對異構(gòu)多機(jī)器人不同感知能力的特點(diǎn)設(shè)計了協(xié)同定位算法,增強(qiáng)系統(tǒng)位置預(yù)測能力[17]。 王浩等[18]提出分層追逃算法來處理多機(jī)系統(tǒng)中出現(xiàn)的追捕,以及如何解決追逃過程中的約束條件、追捕聯(lián)盟等問題。 魏明珠[19]通過一致步長迭代和更新,實(shí)現(xiàn)了月面多機(jī)器人分布式協(xié)同定位,提升了月面定位的效率和精度。 于曉強(qiáng)[20]提出基于擴(kuò)展一致性的拍賣算法,利用多航天器之間的協(xié)同,完成在軌裝配的任務(wù)分配問題。

為提升空間探索效率,國際空間站的機(jī)械臂也由單臂向多臂協(xié)同發(fā)展。 國際空間站靈巧機(jī)械手SPDM 與機(jī)器人航天員R2 采用雙臂構(gòu)型,協(xié)同實(shí)現(xiàn)空間站裝配與維修[21]。 日本實(shí)驗(yàn)艙機(jī)械臂JEMRMS[22],在小臂工作時由主臂接收能源和數(shù)據(jù),形成串聯(lián)構(gòu)型,協(xié)同完成復(fù)雜靈巧操作任務(wù),如圖2 所示。

圖2 日本實(shí)驗(yàn)艙機(jī)械臂JEMRMS[22]Fig.2 Japanese robotic arm JEMRMS[22]

天宮二號機(jī)械臂系統(tǒng)在空間實(shí)驗(yàn)室任務(wù)中順利完成人機(jī)協(xié)同、在軌維修等關(guān)鍵技術(shù)的驗(yàn)證[23],見圖3。 中國空間站為核心艙和實(shí)驗(yàn)艙分別配備2 套機(jī)械臂,2 套機(jī)械臂可獨(dú)立或協(xié)同執(zhí)行任務(wù),也可串聯(lián)成組合臂,擴(kuò)大空間作業(yè)范圍[24],如圖4 所示。

圖3 天宮二號航天員與機(jī)械手的人機(jī)協(xié)同試驗(yàn)Fig.3 Man-Machine Collaboration Test between astronauts and manipulator in Tiangong-2

圖4 中國空間站核心艙與實(shí)驗(yàn)艙機(jī)械臂級聯(lián)Fig.4 The core module and experimental module manipulator cascade in the Chinese space station

多機(jī)協(xié)同理念已被應(yīng)用于中國空間站的建造,輔助或替代航天員完成在軌組裝及維修等任務(wù),大幅提高了空間操作的安全性,對于未來開展大規(guī)模集群操作,深空探測復(fù)雜任務(wù)等均具有重要意義。

3 多機(jī)器人同步定位與地圖構(gòu)建

SLAM 即機(jī)器人對其所在環(huán)境構(gòu)建空間模型,并在該環(huán)境中迅速定位。 2004 年美國NASA發(fā)射的機(jī)遇號和勇氣號火星探測器以基于視覺的SLAM(Visual-based SLAM)為主,完成了高精度的定位。 2021 年毅力號火星車搭載機(jī)智號火星直升機(jī)成功降落在火星表面,火星直升機(jī)將實(shí)時創(chuàng)建的地圖發(fā)送給火星車,實(shí)現(xiàn)天地協(xié)同SLAM,如圖5 所示。

圖5 機(jī)智號火星直升機(jī)和毅力號火星車Fig. 5 Ingenuity helicopter and Perseverance Mars rover

目前,已將單機(jī)器人的SLAM 成功擴(kuò)展至多機(jī)協(xié)同SLAM,通過融合各機(jī)器人觀測信息,提升SLAM 的精度。 本文按照數(shù)據(jù)處理的主要方式,將多機(jī)器人SLAM 分為以下3 類。

3.1 基于濾波器的SLAM

基于濾波器的SLAM 常以擴(kuò)展卡爾曼濾波(Extended Kalman Filter,EKF)算法通過更新以及預(yù)測不斷迭代,解決地圖和位姿估計。 隨著機(jī)器人數(shù)量和所在環(huán)境逐漸擴(kuò)大,累積誤差會嚴(yán)重影響濾波效果。 Roumeliotis[25]將地圖重疊問題轉(zhuǎn)換成地標(biāo)約束,減少地圖對齊過程中因噪聲引起的位置估計誤差。 Huang[26]提出新的信息感知方法,用可觀測性約束提升EKF 的一致性。 然而基于濾波的方法,其時間和空間復(fù)雜度均為o(n2),因此更適用于小規(guī)模地圖環(huán)境的構(gòu)建。

將協(xié)方差矩陣變?yōu)樾畔⒕仃?,可得到擴(kuò)展信息濾波器(Extended Information Filter,EIF)EIFSLAM 算法。 奔粵陽等[27]利用聯(lián)合分布狀態(tài)和信息濾波參數(shù)的稀疏性,從時間和計算兩方面減少復(fù)雜度,確保協(xié)同定位的精度和有效性。

不同于EKF-SLAM,粒子濾波器(Particle Filter,PF)可以處理任意噪聲模型。 Roh[28]利用多假設(shè)分析的地圖合并技術(shù)和粒子群優(yōu)化算法,解決缺乏特征或局部極大值的多機(jī)器人地圖合并,提高地圖融合精度。 但是粒子的多樣性會隨時間推移而發(fā)生退化。 因此Havangi[29]提出了無跡Fast SLAM 算法,改進(jìn)重采樣步驟,讓粒子集向概率密度函數(shù)值較大的區(qū)域移動,克服粒子貧化。

EKF-SLAM 是解決該問題的經(jīng)典方法,然而受到算法一致性、數(shù)據(jù)關(guān)聯(lián)問題以及計算成本三方面限制。 EIF-SLAM 由于信息的可加特性,更適合擴(kuò)展至多機(jī)器人系統(tǒng)。 PF-SLAM 在處理非線性、非高斯系統(tǒng)上魯棒性強(qiáng),運(yùn)算精度更高。

3.2 基于優(yōu)化的SLAM

基于優(yōu)化的方法中,圖優(yōu)化SLAM(Graphbased SLAM)利用約束條件和目標(biāo)函數(shù),把問題變?yōu)榛趫D的構(gòu)建和優(yōu)化。 Campos R[30]利用水下編隊機(jī)器人,通過融合地理參考光和導(dǎo)航數(shù)據(jù)建立空間地圖,并加入光學(xué)約束對地圖進(jìn)行優(yōu)化。然而Graph-based SLAM 需要建立在正確數(shù)據(jù)關(guān)聯(lián)的基礎(chǔ)上,計算要求較高。

Submap-SLAM 中[31],子地圖的匹配將局部地圖融合,組成大規(guī)模全局地圖,有效抑制了全局誤差的累積。 Vidal-Calleja[32]利用濾波和平滑方法將協(xié)同地空多機(jī)系統(tǒng)中各自生成的3D 子地圖進(jìn)行組合拼接,成功解決了大型戶外環(huán)境的SLAM 問題。 但是在利用Submap-SLAM 得到整體地圖時,需要調(diào)整子地圖的尺寸。

不同于濾波方法僅利用當(dāng)前較少數(shù)據(jù)進(jìn)行軌跡更新,基于優(yōu)化的方法分析所有觀測數(shù)據(jù),更新整條軌跡。 通過對關(guān)鍵節(jié)點(diǎn)的維護(hù),優(yōu)化SLAM問題,具有計算量小且精度高等優(yōu)點(diǎn)。

3.3 基于人工智能的SLAM

隨著人工智能的興起,利用智能化方法解決有關(guān)濾波和優(yōu)化,提升SLAM 算法得到了快速發(fā)展。神經(jīng)網(wǎng)絡(luò)對于非線性模型具有強(qiáng)大的擬合能力。Omid 等[33]利用徑向基網(wǎng)絡(luò)彌補(bǔ)噪聲假設(shè)和線性化過程中的系統(tǒng)誤差,降低SLAM 的不確定性。Havangi 等[34]將模糊運(yùn)算與濾波器相結(jié)合,用模糊推理系統(tǒng)監(jiān)督無跡卡爾曼濾波的性能,用于特征位置估計,使算法具有更高的精度和魯棒性。

近年來已有學(xué)者利用深度學(xué)習(xí)解決多機(jī)器人SLAM 中如閉環(huán)檢測、語義地圖的生成等問題。閉環(huán)檢測的目標(biāo)是識別移動機(jī)器人之前曾達(dá)到的場景,可顯著降低隨時間累加的位置誤差,建立一致性地圖。 張浩然[35]借鑒深度學(xué)習(xí)能夠提取復(fù)雜圖像中的抽象特征,將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)用于閉合檢測,提升檢測準(zhǔn)確率的同時降低了運(yùn)算量。 為繪制更加精確的空間地圖,在包含環(huán)境的幾何信息之外,還會加入語義信息的描述。 Mccormac[36]從多個視點(diǎn)中得到的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)語義預(yù)測融合到地圖中,不僅能夠建立稠密的3D 語義地圖,而且可以改善僅使用單幀執(zhí)行分割的基線方法。 將深度學(xué)習(xí)與SLAM 結(jié)合,展示了深度學(xué)習(xí)在精確度和復(fù)雜性方面的強(qiáng)大優(yōu)勢,提升了系統(tǒng)的學(xué)習(xí)能力和智能化水平,未來極具發(fā)展?jié)摿Α?多機(jī)SLAM 方法對比如表2 所示。

表2 多機(jī)SLAM 方法對比表Table 2 Comparison of multi-robot SLAM

在多機(jī)SLAM 中,機(jī)器人構(gòu)建環(huán)境地圖與協(xié)同定位相輔相成,高精度的定位手段搭配不同地圖創(chuàng)建方式,是未來多機(jī)器人SLAM 的重要方向。目前多機(jī)協(xié)同SLAM 存在的問題有:

1)協(xié)同SLAM 中,需要較大的通訊量,如何降低通訊代價和復(fù)雜度;

2)如何提供更可靠、安全、抗干擾的定位服務(wù),提高定位精度和實(shí)時性;

3)如何更好地利用人工智能、深度學(xué)習(xí)等手段,提升SLAM 的智能化水平,實(shí)現(xiàn)更高程度的人機(jī)交互。

4 多機(jī)器人任務(wù)分配

隨著系統(tǒng)在規(guī)模和功能上的愈加復(fù)雜,多機(jī)器人任務(wù)分配(Multi-Robot Task Allocation,MRTA)成為多機(jī)協(xié)同研究的熱點(diǎn)問題之一,其策略的優(yōu)劣會對任務(wù)執(zhí)行效果產(chǎn)生直接的影響。 MRTA 最初注重系統(tǒng)對任務(wù)的完成情況;近年來,在完成任務(wù)的前提下,更關(guān)注分配過程中的協(xié)調(diào)與合作。

早期任務(wù)分配方法多以集中式分配為主,基于運(yùn)籌學(xué)的匈牙利算法、單純形法等傳統(tǒng)方法被應(yīng)用于機(jī)器人之間的任務(wù)分配。 當(dāng)任務(wù)規(guī)模和機(jī)器人數(shù)量不斷擴(kuò)大,遺傳算法、蟻群算法等進(jìn)化算法充分發(fā)揮了啟發(fā)式算法的優(yōu)勢。 其中,蟻群算法[37]通過感知環(huán)境中信息素濃度,利用正負(fù)反饋機(jī)制來尋找最短路徑,是一種全局優(yōu)化算法。Zheng 等[38]提出了一種基于蟻群算法的集中式、離線優(yōu)化策略,利用2 種信息素記錄任務(wù)分配的傾向性和任務(wù)處理順序,從而實(shí)現(xiàn)任務(wù)優(yōu)化分配和調(diào)度。 遺傳算法通過模擬生物進(jìn)化過程,通過自然選擇以及遺傳學(xué)機(jī)理,最終得到系統(tǒng)最優(yōu)解。Jose[39]面對復(fù)雜任務(wù)分配的組合優(yōu)化問題時,在遺傳算法中加入了兩種貪婪策略,提高全局搜索能力。

集中式任務(wù)分配中,中小規(guī)模的分配問題可通過枚舉得到全局最優(yōu),其最優(yōu)解的獲取大多以犧牲機(jī)器人的自主性為代價。 然而,MRTA 是一個非確定性多項式困難(Non-deterministic Polynomial-hard,NP-hard)組合優(yōu)化問題,計算復(fù)雜度隨機(jī)器人數(shù)量的遞增,呈指數(shù)型增長,因此集中式分配不利于解決大規(guī)模任務(wù)分配。 此外,該方法普遍適用于機(jī)器人和環(huán)境均保持不變的情況,由于任務(wù)分配通常是一個動態(tài)的決策過程,因此在實(shí)際應(yīng)用中存在一定的局限性。

分布式任務(wù)分配依靠各機(jī)器人自身傳感器規(guī)劃其行為,對動態(tài)變化環(huán)境適應(yīng)性更強(qiáng),反應(yīng)速度更快。 基于行為和基于市場機(jī)制是較為常用的兩種分布式分配方法。 基于行為的分配方式在狀態(tài)信息與行為之間構(gòu)成映射,通過設(shè)定的刺激,觸發(fā)相應(yīng)的行為。 Parker 提出的ALLIANCE 就是典型的采用激勵行為的任務(wù)分配系統(tǒng)。 以利益最大化為準(zhǔn)則,用更少的通訊實(shí)現(xiàn)協(xié)作屬于市場機(jī)制的任務(wù)分配模式[40],其經(jīng)典代表為合同網(wǎng)模型。Wang 等[41]在傳統(tǒng)合同網(wǎng)方法中加入焦慮模型,提高任務(wù)分配效率。

拍賣算法使用更加明確的市場規(guī)則確定任務(wù)的分配,近年來用以改進(jìn)傳統(tǒng)合同網(wǎng)模型。 根據(jù)算法需要競拍的回合數(shù)、每個回合能夠參與機(jī)器人的數(shù)量以及參與競拍的任務(wù)數(shù)量,可主要分為3 種類型[42]:組合拍賣(Combinatorial Auction)、并行拍賣(Parallel Auction)以及單項順序拍賣(Sequential-Single-Item Auction, SSI)算法。

在組合拍賣中,每一個機(jī)器人都可以對目標(biāo)子集進(jìn)行投標(biāo),是唯一能夠獲得最佳解決方案的拍賣手段[43]。 Cui 等[44]將平衡判斷公式和平衡評價因子引入到在線任務(wù)分配方法中,用于處理動態(tài)任務(wù)分配中的不平衡問題。

在并行拍賣中,拍賣只持續(xù)一輪,任務(wù)同時競標(biāo),并立即分配。 Zhang 等[45]在并行拍賣的收益矩陣中加入修正函數(shù),使得該算法在總成本和完成時間上取得更好的性能。

初始條件已知的情況下,標(biāo)準(zhǔn)的單項順序拍賣算法考慮了目標(biāo)之間的協(xié)同作用,通過多輪拍賣進(jìn)行分配[46]。 Wei 等[47]為解決任務(wù)執(zhí)行過程中出現(xiàn)的拍賣順序約束條件,將SSI 算法擴(kuò)展到動態(tài)分配。 由于分配任務(wù)的性質(zhì)逐漸由傳統(tǒng)單次、確定性向動態(tài)、再分配、不確定性轉(zhuǎn)變,以分布式為主的任務(wù)分配結(jié)構(gòu)適用范圍更廣。

基于行為和基于市場機(jī)制的策略均需要利用一定的先驗(yàn)知識來完成。 強(qiáng)化學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等智能任務(wù)分配理論減少了對先驗(yàn)知識的依賴,因此得到了快速發(fā)展與廣泛應(yīng)用。 Dai[48]在合同網(wǎng)算法中加入BP 神經(jīng)網(wǎng)絡(luò),用于融合多機(jī)器人拍賣時的競標(biāo)價格,提升動態(tài)任務(wù)分配的快速性和實(shí)時性。 強(qiáng)化學(xué)習(xí)在應(yīng)用于多機(jī)器人時高維度的狀態(tài)空間有時會引發(fā)維度災(zāi)難。 Kawano[49]采用分層強(qiáng)化學(xué)習(xí)巧妙解決了維度爆炸問題,逐步進(jìn)行子任務(wù)的分解和學(xué)習(xí)。

表3 分析對比了不同分配方法的任務(wù)規(guī)模、適用類型以及優(yōu)缺點(diǎn)等,可針對不同應(yīng)用環(huán)境、任務(wù)需求,選擇適當(dāng)?shù)姆峙浞绞?,或組合其中算法,優(yōu)化性能。 目前任務(wù)規(guī)劃仍存在如下幾個方面的問題:

表3 不同任務(wù)分配方法對比Table 3 Comparison of different task allocation methods

1)如何對異構(gòu)機(jī)器人的能力進(jìn)行定義和分類,任務(wù)分配時,如何根據(jù)異構(gòu)機(jī)器人的能力劃分任務(wù)。

2)面對機(jī)器人突發(fā)故障,或無法完成既定任務(wù),如何撤銷并及時調(diào)整任務(wù);如何處理動態(tài)任務(wù)以及任務(wù)的再分配過程。

3)如何更好地平衡分配過程中的通訊成本,解決通訊延時與約束。

目前在該領(lǐng)域主要采取的是理論研究和仿真分析,實(shí)驗(yàn)驗(yàn)證正在逐步建立與豐富。 未來的研究方向如圖6 所示。

圖6 多機(jī)器人任務(wù)分配發(fā)展需求Fig.6 Development needs of multi-robot task allocation

5 多機(jī)器人路徑規(guī)劃

多機(jī)器人路徑規(guī)劃(Multi-Robot Path Planning,MRPP)不僅需要保證機(jī)器人均能順利安全抵達(dá)目標(biāo)點(diǎn),還需要滿足一定的優(yōu)化標(biāo)準(zhǔn)[50],這是多目標(biāo)、多約束的組合優(yōu)化問題,體現(xiàn)了系統(tǒng)在復(fù)雜環(huán)境自主規(guī)劃與組織協(xié)調(diào)能力。

集中式路徑規(guī)劃通過統(tǒng)一調(diào)度為每個機(jī)器人構(gòu)造最佳無碰路徑。 這種結(jié)構(gòu)整體的協(xié)調(diào)性較好,但是容錯性、柔性較差。 人工勢場充分利用斥力場和引力場的相互作用力,尋找無碰自由路徑,是一種實(shí)時考慮空間構(gòu)型的規(guī)劃手段。Matoui 等[51]采用集中式方法,用改進(jìn)的人工勢場解決多機(jī)器人在線避碰,提升對動態(tài)環(huán)境的適應(yīng)性。

分布式路徑規(guī)劃中單個機(jī)器人均可自行安排運(yùn)動路線,實(shí)現(xiàn)更加復(fù)雜的協(xié)同任務(wù)。 盡管系統(tǒng)整體柔性以及靈活性更強(qiáng),但是全局規(guī)劃能力較差。 夏清松等[52]將基于蟻群算法的全局路徑規(guī)劃與局部作業(yè)避障規(guī)則相結(jié)合,設(shè)計出較短、無碰的組合路徑。 粒子群算法可用于多約束組合優(yōu)化問題的求解,運(yùn)行效率高,但是無法保證全局最優(yōu)解。 Bilbeisi 等[53]設(shè)計了優(yōu)化粒子群算法,無需先驗(yàn)知識,實(shí)現(xiàn)動態(tài)避障的同時,通過協(xié)同合作到達(dá)目標(biāo)點(diǎn)。 D*算法是通過遍歷全部節(jié)點(diǎn),實(shí)現(xiàn)最短路徑的全局規(guī)劃算法。 Peng 等[54]利用改進(jìn)的D*算法,通過機(jī)器人之間的交互快速重新規(guī)劃,找到時間最短路徑。 然而,該方法不適用于較大的空間搜索范圍。 人工蜂群算法根據(jù)對蜜蜂覓食過程的觀察,利用正負(fù)反饋機(jī)制尋找到更優(yōu)質(zhì)的食物源。 Wang 等[55]改進(jìn)了蜂群算法中覓食和淘汰機(jī)制,保證能夠同時實(shí)現(xiàn)多目標(biāo)優(yōu)化,提高了算法的運(yùn)行效率。 該算法自組織能力強(qiáng),能與其他啟發(fā)式算法相結(jié)合,實(shí)現(xiàn)優(yōu)勢互補(bǔ)。 Zhao 等[56]開發(fā)了2 種模糊控制器,分別用于避障和目標(biāo)定向,實(shí)現(xiàn)了多機(jī)系統(tǒng)未知動態(tài)障礙物環(huán)境下的路徑選擇。 將神經(jīng)網(wǎng)絡(luò)用于路徑規(guī)劃中,使系統(tǒng)擁有自學(xué)習(xí)能力,可應(yīng)對動態(tài)變化環(huán)境以及較多障礙物情況,魯棒性強(qiáng)。Zhang 等[57]將最短路徑表示為線性規(guī)劃問題,采用有偏一致性神經(jīng)網(wǎng)絡(luò)進(jìn)行有效的分布式求解,得到最短的軌跡路線。

混合式路徑規(guī)劃中單個機(jī)器人不具備完全的自主能力,仍會依賴中央處理單元。 張丹露等[58]采用集中和分布控制相結(jié)合的方法,利用交通規(guī)則、預(yù)約表和改進(jìn)的A*算法解決碰撞和死鎖。其中A*算法是目前使用較多的一種啟發(fā)式搜索算法,可用于全局路徑規(guī)劃。

表4 歸納總結(jié)了不同的規(guī)劃算法。 通過融合多種路徑規(guī)劃,并引入智能及優(yōu)化方法,以獲得更強(qiáng)大的性能是新的發(fā)展趨勢。

表4 路徑規(guī)劃方法對比表Table 4 Comparison of path planning methods

目前路徑規(guī)劃存在的問題主要體現(xiàn)在如下幾點(diǎn):

1)復(fù)雜環(huán)境下,全局路徑規(guī)劃實(shí)時性差,可能導(dǎo)致行動滯后于環(huán)境變化,導(dǎo)致避障失敗。

2)大部分路徑規(guī)劃難以處理好可達(dá)性、安全性等性能指標(biāo)的約束以及計算量、求解時間之間的平衡。

3)大多數(shù)的路徑規(guī)劃僅在仿真平臺上進(jìn)行驗(yàn)證,實(shí)物系統(tǒng)的發(fā)展有待加強(qiáng)。

因此,路徑規(guī)劃研究方向總結(jié)如圖7。

圖7 多機(jī)器人路徑規(guī)劃發(fā)展需求Fig.7 The development needs of multi-robot path planning

6 多機(jī)協(xié)同與強(qiáng)化學(xué)習(xí)結(jié)合的理論與方法

傳統(tǒng)的機(jī)器人控制對先驗(yàn)知識的依賴性較強(qiáng),這類機(jī)器人無法應(yīng)對復(fù)雜變化或未知的環(huán)境。強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)作為一種在線學(xué)習(xí)的方法,能夠在智能體與環(huán)境的交互中,不斷修正行為,獲得對環(huán)境的適應(yīng)性。 將RL 應(yīng)用于多機(jī)系統(tǒng),無疑會帶來新的突破,進(jìn)一步擴(kuò)展其應(yīng)用范圍[59]。

多機(jī)協(xié)同的強(qiáng)化學(xué)習(xí)不僅是對獨(dú)立機(jī)器人學(xué)習(xí)情況的簡單疊加,更要考慮信息交互,協(xié)商與信度分配等問題[60]。 學(xué)習(xí)的難度和復(fù)雜度將遠(yuǎn)大于單機(jī)器人的學(xué)習(xí)。 多機(jī)強(qiáng)化學(xué)習(xí)系統(tǒng)按照結(jié)構(gòu)劃分,可分為集中和分布兩種模式。

集中式RL 利用中央單元進(jìn)行協(xié)同目標(biāo)的統(tǒng)一學(xué)習(xí)。 群體中的單個機(jī)器人僅用作數(shù)據(jù)采集和執(zhí)行任務(wù)的載體,并不具備獨(dú)立學(xué)習(xí)的能力。 隨著機(jī)器人數(shù)量增加而出現(xiàn)的靈活性差、維度災(zāi)難、難以收斂等問題,限制了集中式強(qiáng)化學(xué)習(xí)的發(fā)展。

在分布式RL 中,機(jī)器人自身即為一個獨(dú)立主體,在相互通訊、協(xié)作中,不僅需要學(xué)習(xí)有利于個體的最優(yōu)策略,也要兼顧全局的學(xué)習(xí)目標(biāo)[61],實(shí)現(xiàn)更高層次的智能化。 分布式RL 學(xué)習(xí)中包含:中央RL、獨(dú)立RL、群體RL 和社會RL。

在中央RL 系統(tǒng)中[62],單個機(jī)器人無法采取主動學(xué)習(xí)的方式,只能被動地接受學(xué)習(xí)結(jié)果,而由中央機(jī)器人承擔(dān)全局性的學(xué)習(xí)任務(wù)(圖8)。

圖8 中央強(qiáng)化學(xué)習(xí)Fig.8 RL Centrally

獨(dú)立RL 如圖9 所示[62],雖然單個機(jī)器人可以感知周圍環(huán)境,選擇能夠?qū)崿F(xiàn)最大回報的動作策略。但是系統(tǒng)中的機(jī)器人僅依據(jù)自身利益選擇動作,而不考慮團(tuán)體的發(fā)展,因此這種學(xué)習(xí)方式很難實(shí)現(xiàn)全局最優(yōu)的目標(biāo)。 適合解決系統(tǒng)中包含個體數(shù)目較多并且松散耦合的任務(wù)情況。 其中根據(jù)智能體強(qiáng)化信號分配結(jié)構(gòu)信度是亟待解決的難點(diǎn)問題。

圖9 獨(dú)立強(qiáng)化學(xué)習(xí)[63]Fig.9 RL Individually[63]

群體RL 系統(tǒng)如圖10 所示[63],每個機(jī)器人在進(jìn)行動作策略的選擇時,都在維護(hù)系統(tǒng)的整體利益。 因此,該種學(xué)習(xí)方式中狀態(tài)空間或動作空間的規(guī)模龐大,是機(jī)器人數(shù)目的指數(shù)倍,交互關(guān)系和學(xué)習(xí)難度會隨之增加變得復(fù)雜,出現(xiàn)學(xué)習(xí)速度緩慢的情況。 群體強(qiáng)化學(xué)習(xí)系統(tǒng)還需要進(jìn)一步優(yōu)化數(shù)據(jù)結(jié)構(gòu),加快運(yùn)算速度及收斂過程。 然而,狀態(tài)空間和動作空間的維度災(zāi)難問題仍是群體強(qiáng)化學(xué)習(xí)的弱點(diǎn)之一。

圖10 群體強(qiáng)化學(xué)習(xí)Fig.10 RL in Groups

社會RL 在系統(tǒng)里引入了社會或經(jīng)濟(jì)模型,從管理學(xué)、社會學(xué)的角度調(diào)節(jié)機(jī)器人之間的關(guān)系,實(shí)現(xiàn)系統(tǒng)整體的學(xué)習(xí),以此提高智能化水平,其本質(zhì)上是獨(dú)立強(qiáng)化學(xué)習(xí)的擴(kuò)展。 然而社會強(qiáng)化學(xué)習(xí)克服了獨(dú)立強(qiáng)化學(xué)習(xí)中機(jī)器人之間自私的缺點(diǎn),可以建立更加復(fù)雜的系統(tǒng)結(jié)構(gòu),動作策略選擇更優(yōu)。 不同強(qiáng)化學(xué)習(xí)之間的對比匯總?cè)绫? 所示。

表5 多機(jī)器人強(qiáng)化學(xué)習(xí)對比Table 5 Comparison of multi-robot RL

未來多機(jī)協(xié)同會更加注重群體智能、對最優(yōu)策略的自學(xué)習(xí)以及對環(huán)境的自適應(yīng)能力。 強(qiáng)化學(xué)習(xí)與多機(jī)器人的融合具有更為廣闊的發(fā)展前景,未來該領(lǐng)域的發(fā)展趨勢有:

1)有效化解機(jī)器人執(zhí)行任務(wù)時的沖突,獲得更合理的結(jié)構(gòu)信度分配。

2)充分利用不同機(jī)器人的知識和經(jīng)驗(yàn),提升團(tuán)隊協(xié)作的效率。

3)設(shè)計在線強(qiáng)化學(xué)習(xí)算法,保證多機(jī)器人均能實(shí)現(xiàn)有限時間收斂,提升算法的實(shí)時性和快速性。

4)團(tuán)隊中開展多目標(biāo)學(xué)習(xí)。 目標(biāo)之間可以相互關(guān)聯(lián)或存在沖突,不僅需要研究機(jī)器人之間的協(xié)同效應(yīng),還需研究目標(biāo)之間的協(xié)調(diào)與決策。

7 總結(jié)與展望

多機(jī)器人協(xié)同系統(tǒng)利用機(jī)器人的相互協(xié)作實(shí)現(xiàn)更多復(fù)雜功能,在眾多領(lǐng)域給人類社會帶來巨大變革。 對于中國未來高效開展航天探測任務(wù),實(shí)現(xiàn)大規(guī)模集群操作等目標(biāo)影響深遠(yuǎn)。 未來多機(jī)系統(tǒng)的總體趨勢體現(xiàn)在如下方面:

1)團(tuán)隊中的機(jī)器人能夠形成更加緊密的協(xié)作,從單一功能向多功能發(fā)展,滿足復(fù)雜多變的任務(wù)需求,不斷提高系統(tǒng)整體性能,降低開發(fā)成本。

2)處理好異構(gòu)機(jī)器人之間的通信,平衡好團(tuán)隊數(shù)量及工作質(zhì)量,進(jìn)一步提升團(tuán)隊協(xié)作效率。

3)充分應(yīng)用人工智能、強(qiáng)化學(xué)習(xí)等技術(shù)提升團(tuán)隊自主判斷、智能分析規(guī)劃以及操作的能力是未來重要的發(fā)展方向。

猜你喜歡
機(jī)系統(tǒng)協(xié)同機(jī)器人
蜀道難:車與路的協(xié)同進(jìn)化
手持式觸摸測試機(jī)對閘機(jī)系統(tǒng)的維護(hù)研究
“四化”協(xié)同才有出路
汽車觀察(2019年2期)2019-03-15 06:00:50
三醫(yī)聯(lián)動 協(xié)同創(chuàng)新
經(jīng)濟(jì)、可靠的自動開關(guān)機(jī)系統(tǒng)
機(jī)器人來幫你
認(rèn)識機(jī)器人
機(jī)器人來啦
認(rèn)識機(jī)器人
京石高速公路自助發(fā)卡機(jī)系統(tǒng)的設(shè)計與應(yīng)用
精河县| 大理市| 高平市| 广宁县| 屯留县| 江津市| 三台县| 将乐县| 余江县| 台安县| 晴隆县| 普宁市| 武陟县| 丰原市| 金湖县| 阳山县| 灵山县| 云龙县| 格尔木市| 五原县| 六安市| 龙井市| 江源县| 凌海市| 客服| 莎车县| 临夏县| 阳泉市| 綦江县| 周宁县| 宿松县| 固原市| 汤阴县| 平罗县| 佳木斯市| 新竹县| 东海县| 饶平县| 新兴县| 桂平市| 新野县|