国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

服務(wù)機(jī)器人社會(huì)意識(shí)導(dǎo)航方法綜述

2022-06-09 11:57:20劉哲凝張文智鐘潤(rùn)豪
關(guān)鍵詞:行人軌跡機(jī)器人

何 麗,張 恒,袁 亮,劉哲凝,張文智,鐘潤(rùn)豪,張 帥

1.新疆大學(xué) 機(jī)械工程學(xué)院,烏魯木齊 830017

2.北京化工大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100029

《中國(guó)制造2025》規(guī)劃將機(jī)器人列為重點(diǎn)發(fā)展領(lǐng)域之一,提出了推進(jìn)服務(wù)機(jī)器人應(yīng)用的重大需求。且由于人口老齡化加劇和智能化生活的普及,機(jī)器人服務(wù)人們?nèi)粘I畹男枨笕找嬖黾樱卺t(yī)療健康、家庭服務(wù)、餐飲服務(wù)、消殺防疫等不同服務(wù)領(lǐng)域發(fā)揮著重要的作用。特別是新冠肺炎疫情爆發(fā)以來(lái),許多服務(wù)都要避免人與人的直接接觸,更突顯出研發(fā)新一代能夠適應(yīng)各種復(fù)雜多變環(huán)境且具備社會(huì)意識(shí)的服務(wù)機(jī)器人的迫切性。王天然院士指出,與人的共融改變了人與機(jī)器人的關(guān)系,是下一代機(jī)器人的本質(zhì)特征[1]。因此,在實(shí)時(shí)多變、與人共融的社會(huì)工作環(huán)境中,服務(wù)機(jī)器人需要有像人一樣的思考和交流能力,能夠?qū)崿F(xiàn)安全、可靠、舒適的自主導(dǎo)航,以獨(dú)立完成各種復(fù)雜的任務(wù)。

伴隨著傳感器技術(shù)的快速發(fā)展以及人工智能與機(jī)器人技術(shù)的深度融合,機(jī)器人智能導(dǎo)航技術(shù)已經(jīng)取得了較大的發(fā)展,目前已經(jīng)實(shí)現(xiàn)了在復(fù)雜環(huán)境中的自主移動(dòng)和動(dòng)態(tài)避障功能[2]。但要想使服務(wù)機(jī)器人真正走進(jìn)人們的日常生活,基于避障到達(dá)目的地的自主導(dǎo)航已無(wú)法滿(mǎn)足人機(jī)共融的需求,人們逐漸關(guān)注對(duì)自主導(dǎo)航過(guò)程中人類(lèi)舒適度、自然性和社會(huì)性[3]的研究,以及建立具備社會(huì)意識(shí)的智能導(dǎo)航規(guī)劃系統(tǒng)。

社會(huì)意識(shí)導(dǎo)航是指機(jī)器人在人-機(jī)-物共享空間時(shí),根據(jù)人類(lèi)的社會(huì)交互行為規(guī)則進(jìn)行智能導(dǎo)航規(guī)劃的行為。傳統(tǒng)機(jī)器人的社會(huì)意識(shí)導(dǎo)航技術(shù)只是簡(jiǎn)單地繞開(kāi)人類(lèi)舒適區(qū),沒(méi)有考慮人類(lèi)的交互行為和社會(huì)規(guī)則,無(wú)法按照人類(lèi)可接受的社會(huì)行為進(jìn)行導(dǎo)航。針對(duì)該問(wèn)題,Charalampous等人[4]提出在地圖構(gòu)建中引入社會(huì)映射,將獲取的人類(lèi)交互信息表征到地圖中,以進(jìn)一步提高服務(wù)機(jī)器人的社會(huì)意識(shí)導(dǎo)航能力。Moller等人[5]為讓服務(wù)機(jī)器人更好地融入人們的日常生活,做出社會(huì)可接受的“正確”行為,結(jié)合主動(dòng)視覺(jué)、機(jī)器人導(dǎo)航、人機(jī)互動(dòng)和人類(lèi)社會(huì)行為建模四個(gè)功能模塊,讓機(jī)器人具備社會(huì)意識(shí)導(dǎo)航的能力??梢?jiàn),為提升服務(wù)機(jī)器人的社會(huì)可接受性,與人共融的社會(huì)意識(shí)導(dǎo)航一直是服務(wù)機(jī)器人研究領(lǐng)域的熱點(diǎn)之一。

本文梳理了現(xiàn)階段國(guó)內(nèi)外有關(guān)服務(wù)機(jī)器人社會(huì)意識(shí)導(dǎo)航方法的研究工作和成果,對(duì)社會(huì)意識(shí)導(dǎo)航系統(tǒng)框架及主要研究方法進(jìn)行了概述;并依據(jù)服務(wù)機(jī)器人對(duì)社會(huì)行為感知程度及方式的不同,對(duì)基于社會(huì)空間關(guān)系模型、社會(huì)行為學(xué)習(xí)及行人軌跡預(yù)測(cè)的社會(huì)意識(shí)導(dǎo)航方法進(jìn)行歸納總結(jié),并對(duì)未來(lái)的發(fā)展趨勢(shì)進(jìn)行了展望。

1 服務(wù)機(jī)器人社會(huì)意識(shí)導(dǎo)航概述

與人共融服務(wù)機(jī)器人需要具有社會(huì)可接受的行為,能夠安全地、舒適地接近靜動(dòng)態(tài)的人類(lèi)和人類(lèi)群體,尊重人的社會(huì)習(xí)俗同時(shí)完成導(dǎo)航任務(wù)。服務(wù)機(jī)器人社會(huì)意識(shí)導(dǎo)航系統(tǒng)框架如圖1所示。該導(dǎo)航系統(tǒng)是在感知、定位、運(yùn)動(dòng)規(guī)劃和運(yùn)動(dòng)控制的傳統(tǒng)導(dǎo)航框架上融入了社會(huì)意識(shí)導(dǎo)航模塊,旨在通過(guò)人體檢測(cè)追蹤、行人狀態(tài)提取、社會(huì)反應(yīng)控制、社會(huì)交互檢測(cè)等方法提取周?chē)h(huán)境的社會(huì)特征,以區(qū)分人類(lèi)與常規(guī)障礙并能夠?qū)咏鼨C(jī)器人的行人做出合理避讓和運(yùn)動(dòng)規(guī)劃。

圖1 社會(huì)意識(shí)導(dǎo)航系統(tǒng)框架Fig.1 System framework for socially-aware navigation

結(jié)合服務(wù)機(jī)器人社會(huì)意識(shí)導(dǎo)航的發(fā)展歷程,依據(jù)社會(huì)行為感知程度及方式的不同,社會(huì)意識(shí)導(dǎo)航主要研究方法可分為以下三類(lèi):

(1)基于社會(huì)空間關(guān)系模型的導(dǎo)航方法。在早期研究中,由于導(dǎo)航過(guò)程行人數(shù)據(jù)繁雜難以利用,研究者們通過(guò)社會(huì)空間建模研究了基于模型的社會(huì)意識(shí)導(dǎo)航方法。主要通過(guò)一些社會(huì)規(guī)則假定,建立社會(huì)力模型或高斯模型,進(jìn)行手工計(jì)算后由這些模型推導(dǎo)的結(jié)果指導(dǎo)機(jī)器人導(dǎo)航過(guò)程。

(2)基于社會(huì)行為學(xué)習(xí)的導(dǎo)航方法。雖基于模型的方法具有計(jì)算效率和可解釋性的優(yōu)勢(shì),但適用性有限,這些模型的參數(shù)在不同環(huán)境甚至不同行人之間差異很大,同時(shí)也無(wú)法考慮復(fù)雜時(shí)變的社會(huì)關(guān)系。因此研究者們提出了基于社會(huì)行為學(xué)習(xí)的導(dǎo)航方法,通過(guò)深度學(xué)習(xí)捕捉由大量傳感器數(shù)據(jù)得到的環(huán)境和周?chē)祟?lèi)的特征,實(shí)現(xiàn)了社會(huì)意識(shí)導(dǎo)航過(guò)程由模型驅(qū)動(dòng)向數(shù)據(jù)驅(qū)動(dòng)的轉(zhuǎn)變。

(3)基于行人軌跡預(yù)測(cè)的導(dǎo)航方法?;诳臻g數(shù)據(jù)的學(xué)習(xí)方法由于計(jì)算過(guò)程的時(shí)滯性,降低了服務(wù)機(jī)器人與人友好交互的能力?;诖耍芯空邆兺ㄟ^(guò)行人軌跡預(yù)測(cè)與社會(huì)意識(shí)導(dǎo)航算法進(jìn)行時(shí)序匹配,更好地適應(yīng)行人場(chǎng)景中的高動(dòng)態(tài)性。

2 基于社會(huì)空間關(guān)系模型的導(dǎo)航方法

社會(huì)空間關(guān)系模型主要包含社會(huì)力模型和高斯模型。其中社會(huì)力模型考慮行人的速度和方向進(jìn)行模型構(gòu)建,高斯模型則通過(guò)行人的社會(huì)交互意圖建立交互空間來(lái)表現(xiàn)出社會(huì)意識(shí)。

2.1 基于社會(huì)力模型的導(dǎo)航方法

傳統(tǒng)社會(huì)力模型方法的核心是引入目標(biāo)點(diǎn)對(duì)機(jī)器人的“引力”和障礙物對(duì)機(jī)器人的“斥力”,通過(guò)力的合成實(shí)現(xiàn)讓機(jī)器人既能向目標(biāo)點(diǎn)移動(dòng),又能避開(kāi)障礙物。在人的周?chē)砑印俺饬Α笨梢詫?shí)現(xiàn)機(jī)器人在導(dǎo)航時(shí)避讓行人,但是這種避讓僅把人當(dāng)作“障礙物”來(lái)處理,并沒(méi)有把人當(dāng)成服務(wù)對(duì)象來(lái)對(duì)待。

部分研究人員通過(guò)改進(jìn)或加入更多的社會(huì)力模型來(lái)實(shí)現(xiàn)多場(chǎng)景的社會(huì)意識(shí)導(dǎo)航。Ferrer等人[6]將社會(huì)力模型(social force model,SFM)引入導(dǎo)航中,提出了一種基于社會(huì)力模型的機(jī)器人社會(huì)意識(shí)導(dǎo)航方法,它將人類(lèi)之間的社會(huì)互動(dòng)用社會(huì)域或力量模型來(lái)表示,主要描述了人與機(jī)器人、人與人和人與障礙物之間的交互力。在導(dǎo)航中,機(jī)器人對(duì)社會(huì)力模型做出反應(yīng),可以大大提高行人的接受度,實(shí)驗(yàn)結(jié)果表明引入社會(huì)力模型的導(dǎo)航方法,具有社會(huì)感知意識(shí)且方差更小,能夠更高效地處理不同的社會(huì)任務(wù)。此后,服務(wù)機(jī)器人的社會(huì)意識(shí)導(dǎo)航研究經(jīng)常通過(guò)改進(jìn)或擴(kuò)展SFM以提高其在人類(lèi)社會(huì)中舒適性導(dǎo)航的能力。Malviya等人[7]不僅考慮人與人、人與機(jī)器人之間的吸引與排斥,還考慮他們之間保持的距離是否均衡,以及這些距離在不同人類(lèi)行為和社會(huì)習(xí)俗里的變化,通過(guò)加入幾種不同的社會(huì)力擴(kuò)展了社會(huì)力模型,有助于模擬不同的人類(lèi)行為并且運(yùn)動(dòng)軌跡更符合社會(huì)習(xí)俗,使得機(jī)器人的導(dǎo)航行為更加令人滿(mǎn)意。但該方法只適用于全體社會(huì)意識(shí)環(huán)境下的某一種,不適合復(fù)雜的社交場(chǎng)景,泛化性能較差,并且靈活性不高。Pérez-Hurtado等人[8]采用了一種基于膜計(jì)算的社會(huì)導(dǎo)航模型,提供了一種固有的并行計(jì)算框架,可以在并行硬件上模擬計(jì)算,能夠滿(mǎn)足機(jī)器人導(dǎo)航對(duì)實(shí)時(shí)性的要求,并結(jié)合動(dòng)態(tài)窗口法和社會(huì)力模型規(guī)劃出能夠滿(mǎn)足社會(huì)要求的路徑。

除了改進(jìn)社會(huì)力模型外,一些研究人員在社會(huì)意識(shí)導(dǎo)航中考慮空間關(guān)系學(xué)來(lái)實(shí)現(xiàn)合理的社交導(dǎo)航。Wang等人[9]在基于社會(huì)力模型和空間關(guān)系學(xué)的機(jī)器人導(dǎo)航框架上,提出了一種考慮速度約束的自適應(yīng)運(yùn)動(dòng)控制方法進(jìn)行模型匹配。基于空間關(guān)系理論構(gòu)建了社會(huì)空間勢(shì)場(chǎng),以產(chǎn)生社會(huì)交互力,而后提出一種動(dòng)態(tài)控制方法,在結(jié)合運(yùn)動(dòng)速度約束的同時(shí)處理動(dòng)態(tài)模型的不確定性,使機(jī)器人的運(yùn)動(dòng)受到目標(biāo)社會(huì)力模型的自適應(yīng)控制,可以有效地解決感知人類(lèi)的運(yùn)動(dòng)控制問(wèn)題。與純運(yùn)動(dòng)控制和基于動(dòng)態(tài)模型的控制相比,該方法在結(jié)合運(yùn)動(dòng)速度約束的同時(shí)可以處理動(dòng)態(tài)模型的不確定性,可以進(jìn)一步調(diào)節(jié)機(jī)器人與人之間的空間關(guān)系。雖然所提出的方法沒(méi)有違反空間約束,但是機(jī)器人的導(dǎo)航軌跡侵入了個(gè)人區(qū)域,社會(huì)規(guī)范不嚴(yán)格,沒(méi)有區(qū)分不同年齡、關(guān)系的行人。Reddy等人[10]通過(guò)添加新的社會(huì)力量模型,根據(jù)社會(huì)行為選擇幾何間隙來(lái)保證機(jī)器人與人群的舒適距離,提出了一種結(jié)合社會(huì)力模型、幾何方法和間隙選擇策略的混合算法。該算法在真實(shí)環(huán)境下表現(xiàn)較好,機(jī)器人在人群密集的環(huán)境下與人類(lèi)的最小間隙為0.56 m,比次最佳方法高出10 cm以上,且未違反最小距離約束,時(shí)間花費(fèi)少。與基于社會(huì)力模型的方法相比,該方法保持了更大的間隙,提供最大可能的交互空間,產(chǎn)生了更安全的軌跡。但是在導(dǎo)航過(guò)程中,沒(méi)有考慮人類(lèi)的情緒狀態(tài)和行為方式,人機(jī)交互的可能性較小。Kivrak等人[11]針對(duì)人工勢(shì)場(chǎng)法普遍存在陷入局部最優(yōu)的問(wèn)題,擴(kuò)展了基于社會(huì)力模型的局部規(guī)劃器,將其與A*算法結(jié)合,同時(shí)納入了社交區(qū)域,并且考慮社會(huì)力大小和某些點(diǎn)的不連續(xù)可能發(fā)生的高速轉(zhuǎn)彎和振蕩問(wèn)題,對(duì)連續(xù)的時(shí)間戳力進(jìn)行一種插值或平滑處理,使得機(jī)器人的運(yùn)動(dòng)不會(huì)引起人類(lèi)的不適;且為了避免不必要的重新規(guī)劃和提供平滑的運(yùn)動(dòng)控制,提出一種關(guān)鍵路徑點(diǎn)選擇算法,通過(guò)修剪全局路徑的某些部分來(lái)提取全局路徑的路徑點(diǎn)用于機(jī)器人的路徑規(guī)劃,實(shí)現(xiàn)一個(gè)完整、社交、平滑并且計(jì)算負(fù)荷低的機(jī)器人社會(huì)意識(shí)導(dǎo)航。

也有部分研究人員將人類(lèi)運(yùn)動(dòng)軌跡考慮進(jìn)社會(huì)力模型的導(dǎo)航方法中,Repiso等人[12]提出了一種機(jī)器人以人類(lèi)社會(huì)行為陪伴個(gè)人或人群的導(dǎo)航方法,該方法將并排和V形的行人模型與預(yù)期的動(dòng)力學(xué)規(guī)劃器相結(jié)合,機(jī)器人跟行人保持并排或V形隊(duì)形,預(yù)先避免靜態(tài)和動(dòng)態(tài)障礙物,并可以動(dòng)態(tài)改變其在群體中的位置。利用貝葉斯人類(lèi)運(yùn)動(dòng)意向性預(yù)測(cè)器(Bayesian human motion intentionality predictor,BHMIP),機(jī)器人可以從目的地中選擇人群最可能去的目的地。通過(guò)結(jié)合BHMIP和SFM,機(jī)器人能夠預(yù)測(cè)行人運(yùn)動(dòng),在5 s的時(shí)間窗口內(nèi)來(lái)預(yù)測(cè)他們的行為。此外,該方法還考慮了行人的隨機(jī)性和運(yùn)動(dòng)方向,機(jī)器人能夠調(diào)整速度,以適應(yīng)人的行為。但是遇到人群密集存在遮擋的情況下,機(jī)器人無(wú)法實(shí)時(shí)保持隊(duì)形,導(dǎo)航性能較差。Kamezaki等人[13]針對(duì)傳統(tǒng)路徑規(guī)劃方法會(huì)出現(xiàn)機(jī)器人在試圖通過(guò)密集人群時(shí)無(wú)法與人類(lèi)進(jìn)行協(xié)調(diào),從而導(dǎo)致凍結(jié)的問(wèn)題,開(kāi)發(fā)出一種避障性、主動(dòng)性和可引導(dǎo)性的近端群體導(dǎo)航方法,該方法基于一種新開(kāi)發(fā)的可引導(dǎo)社會(huì)力量模型,首先基于社會(huì)力模型融合路徑規(guī)劃方法主動(dòng)生成避碰、近端和引導(dǎo)物理觸摸路徑等多條路徑,基于可引導(dǎo)社會(huì)力量模型主動(dòng)預(yù)測(cè)人體運(yùn)動(dòng),根據(jù)機(jī)器人運(yùn)動(dòng)效率和人群入侵指數(shù)選擇最優(yōu)路徑,最后根據(jù)施加的力在人群中反應(yīng)移動(dòng),不僅可接近人類(lèi),還可通過(guò)物理觸碰人類(lèi)來(lái)引導(dǎo)人類(lèi)避讓?zhuān)鉀Q了機(jī)器人低效率的繞道問(wèn)題和凍結(jié)問(wèn)題。Kivrak等人[14]提出了基于碰撞預(yù)測(cè)的社會(huì)力模型,把該模型用作局部路徑規(guī)劃器,使得機(jī)器人在局部未知環(huán)境能夠進(jìn)行平滑、安全的導(dǎo)航,在走廊等室內(nèi)環(huán)境場(chǎng)景中生成與人友好的無(wú)碰路徑。這是首次有人將社會(huì)力模型應(yīng)用于未知環(huán)境下,但其被應(yīng)用于真實(shí)環(huán)境時(shí)對(duì)傳感器和模型參數(shù)依賴(lài)高,在多層建圖后才能快速檢測(cè)障礙物,進(jìn)行安全無(wú)碰撞的社會(huì)意識(shí)導(dǎo)航,準(zhǔn)備工作較多。

為使機(jī)器人在人類(lèi)社會(huì)中表現(xiàn)出更流暢及更符合社會(huì)習(xí)俗的軌跡,可以增加對(duì)人類(lèi)行為信息的利用,一些研究人員將個(gè)體或者群體的狀態(tài)信息和社會(huì)力模型相結(jié)合,實(shí)現(xiàn)深層次的社會(huì)意識(shí)導(dǎo)航。Patompak等人[15]對(duì)社會(huì)力模型進(jìn)行改進(jìn),將其擴(kuò)展到人與機(jī)器人之間的社會(huì)關(guān)系,提出了一種基于社會(huì)力模型的社會(huì)關(guān)系模型(social relation model,SRM)的導(dǎo)航方法,機(jī)器人通過(guò)獲取人類(lèi)的行為信息和社會(huì)交互程度來(lái)估計(jì)人類(lèi)與機(jī)器人之間的關(guān)系,利用這些信息確定人類(lèi)不可接受的區(qū)域,從而遵循一定的社會(huì)約束進(jìn)行導(dǎo)航。在基于過(guò)渡的快速隨機(jī)樹(shù)算法上測(cè)試SRM的影響,結(jié)果表明通過(guò)集成SRM,可以降低不同環(huán)境下不可接受度和平均路徑長(zhǎng)度,該模型在考慮人類(lèi)可接受的感覺(jué)同時(shí),有助于提高導(dǎo)航效率。然而該實(shí)驗(yàn)假設(shè)人與機(jī)器人之間的關(guān)系因素很簡(jiǎn)單,并僅由測(cè)試者指定,沒(méi)有考慮其他因素來(lái)定義人類(lèi)和機(jī)器人之間的關(guān)系。除了考慮機(jī)器人與人之間的交互關(guān)系外,還要考慮機(jī)器人會(huì)面對(duì)人在與物體互動(dòng)的狀態(tài),不去打破人-物之間的關(guān)系,Truong等人[16]考慮復(fù)雜社交環(huán)境下的機(jī)器人導(dǎo)航問(wèn)題,創(chuàng)新性地將機(jī)器人與人-物之間的交互考慮到導(dǎo)航系統(tǒng)中,提出一種社會(huì)反應(yīng)控制,通過(guò)將個(gè)體狀態(tài)(位置、方向、運(yùn)動(dòng)和人類(lèi)視野)和社會(huì)互動(dòng)群體(群體類(lèi)型、群體中心、群體半徑和群體速度)納入傳統(tǒng)的社會(huì)力量模型,將其與傳統(tǒng)的路徑規(guī)劃技術(shù)相結(jié)合,使移動(dòng)服務(wù)機(jī)器人能夠在人類(lèi)交互環(huán)境中安全和社交地導(dǎo)航,并在真實(shí)場(chǎng)景驗(yàn)證了其方法的有效性,但對(duì)傳感器要求高是限制其在大范圍應(yīng)用的主要原因。Yang等人[17]提出基于完整系統(tǒng)特征的擴(kuò)展社會(huì)力模型方法,以激光測(cè)距儀和相機(jī)作為傳感器,構(gòu)建環(huán)境模型和檢測(cè)人類(lèi)行為信息。對(duì)人群進(jìn)行社會(huì)學(xué)研究的基礎(chǔ)上,構(gòu)建了動(dòng)態(tài)分組模型,將行人行為具體化到一個(gè)群體中,以實(shí)現(xiàn)社會(huì)導(dǎo)航,為了與周?chē)h(huán)境互動(dòng),開(kāi)發(fā)擴(kuò)展社會(huì)力模型并且使用多策略決策模塊,設(shè)計(jì)幾種不同功能的機(jī)器人行為,從而作為一個(gè)整體完成了機(jī)器人導(dǎo)航框架,解決機(jī)器人在復(fù)雜和密集的環(huán)境很難進(jìn)行社交友好的導(dǎo)航問(wèn)題。但以上方法對(duì)檢測(cè)的精準(zhǔn)程度要求較高,若出現(xiàn)部分遮擋問(wèn)題其效率則會(huì)受到很大影響。

表1對(duì)基于社會(huì)力模型的導(dǎo)航方法進(jìn)行了對(duì)比,從表中可以看出通過(guò)加入社會(huì)力模型可以使機(jī)器人擁有良好的交互能力,在此基礎(chǔ)上融合其他方法能夠讓機(jī)器人在導(dǎo)航過(guò)程中更加適應(yīng)行人的行為和運(yùn)動(dòng),實(shí)現(xiàn)社會(huì)意識(shí)導(dǎo)航。但目前基于社會(huì)力模型的方法仍然存在不足,算法的傳感器依賴(lài)性高,而且算法對(duì)不同環(huán)境的適用性不高,與人類(lèi)的運(yùn)動(dòng)軌跡還有一定的差距,想要實(shí)現(xiàn)能被行人完全接受的安全性高、適用范圍廣的社會(huì)感知導(dǎo)航還需對(duì)以上算法繼續(xù)深入研究和改進(jìn)。

表1 基于社會(huì)空間關(guān)系模型的導(dǎo)航方法對(duì)比Table 1 Comparison of navigation methods based on social spatial relationship model

2.2 基于高斯模型的導(dǎo)航方法

上述社會(huì)力模型的建立主要是基于行人的行走速度和方向,用引力和斥力來(lái)表征行人的交互意圖,沒(méi)有考慮行人的行為方式和社交狀態(tài),存在一定的局限性。而利用高斯模型建立行人的交互空間,機(jī)器人可以根據(jù)行人的社會(huì)交互信息調(diào)整社交區(qū)域,修改自己的軌跡,保證社會(huì)群體的心理安全和舒適性,表現(xiàn)出社會(huì)意識(shí)和交互行為。因此,建立社會(huì)空間模型對(duì)實(shí)現(xiàn)服務(wù)機(jī)器人社會(huì)意識(shí)導(dǎo)航是十分必要的。

在社會(huì)力模型的基礎(chǔ)上,Sheng等人[18]提出了一種基于社會(huì)力高斯行人社交模型的社會(huì)意識(shí)導(dǎo)航方法,利用高斯函數(shù)改進(jìn)了行人社交模型,以適應(yīng)不同的行人運(yùn)動(dòng)行為和密度,且不需要關(guān)于環(huán)境的先驗(yàn)信息和復(fù)雜的參數(shù)調(diào)整。該模型通過(guò)遵循人類(lèi)社會(huì)規(guī)則,模擬行人社交空間,提高了機(jī)器人完成任務(wù)的成功率和效率。但是在行人密集的情況下,機(jī)器人的路徑平滑性較差,需要執(zhí)行更多的轉(zhuǎn)彎、加速和減速。Gines等人[19]提出了一種人類(lèi)可接受的機(jī)器人導(dǎo)航算法,將社會(huì)行為模塊和社會(huì)導(dǎo)航模塊集成到機(jī)器人認(rèn)知架構(gòu)中,并添加社會(huì)關(guān)系層修改本地代價(jià)地圖,利用高斯函數(shù)建立了不同的社交區(qū)域。機(jī)器人不僅可以探測(cè)到人類(lèi)的個(gè)人區(qū)域,還能夠感知人類(lèi)對(duì)其的態(tài)度,調(diào)整社交區(qū)域的大小。經(jīng)過(guò)測(cè)試,參與者認(rèn)為機(jī)器人和人之間的距離足夠,舒適度好。雖然提高了社會(huì)意識(shí)導(dǎo)航的舒適度,但行駛路徑和導(dǎo)航時(shí)間較長(zhǎng)。

上述方法雖然一定程度上保證了人類(lèi)的安全和舒適性,但是行駛路徑和時(shí)間較長(zhǎng),且路徑不平滑。針對(duì)此問(wèn)題,Ngo等人[20]提出了一種利用動(dòng)態(tài)窗口法和優(yōu)化成本函數(shù)的移動(dòng)機(jī)器人導(dǎo)航框架。將獲取的人類(lèi)狀態(tài)進(jìn)行個(gè)人空間建模,在參考路徑的假設(shè)下,建立了機(jī)器人的運(yùn)動(dòng)模型,采用動(dòng)態(tài)窗口法和優(yōu)化成本函數(shù)搜索圖中的最短路徑。實(shí)驗(yàn)對(duì)三個(gè)框架(沒(méi)有人類(lèi)感知框架,有人類(lèi)區(qū)域的基本模型和擴(kuò)展的個(gè)人空間)進(jìn)行測(cè)試。結(jié)果表明在保證行人的安全和舒適的情況下,機(jī)器人接近行人的路徑更平滑,沒(méi)有打破安全閾值。但是由于計(jì)算繁重和導(dǎo)航過(guò)程復(fù)雜,只能應(yīng)用于低密度人群。Daza等人[21]提出了一種基于最優(yōu)互惠避免碰撞的社會(huì)導(dǎo)航方法,使用對(duì)稱(chēng)高斯函數(shù)模型來(lái)表示個(gè)人距離和鄰近區(qū)域,將交互模型與導(dǎo)航算法結(jié)合,機(jī)器人可適應(yīng)不同場(chǎng)景下的導(dǎo)航。結(jié)果表明機(jī)器人在避免入侵社交區(qū)域時(shí)的運(yùn)動(dòng)路徑平滑。但是在導(dǎo)航過(guò)程中,只考慮了行人的社交區(qū)域,沒(méi)有考慮人機(jī)互動(dòng)的其他特征,例如社會(huì)習(xí)俗、身份文化等方面的因素。

在服務(wù)機(jī)器人社會(huì)意識(shí)導(dǎo)航過(guò)程中,服務(wù)機(jī)器人不僅能夠友好地避讓行人,還應(yīng)及時(shí)獲取人類(lèi)的交互信息,識(shí)別行為動(dòng)作,依據(jù)不同的社會(huì)交互調(diào)整社會(huì)空間模型,進(jìn)行社會(huì)意識(shí)導(dǎo)航。Truong等人[22]提出了一個(gè)具有社會(huì)意識(shí)的機(jī)器人導(dǎo)航框架,通過(guò)深度圖像和激光數(shù)據(jù)融合進(jìn)行人體檢測(cè)及跟蹤,獲取行為信息,使用二維高斯函數(shù)對(duì)社會(huì)群體交互空間建模。機(jī)器人可以檢測(cè)人或人群的接近姿態(tài),進(jìn)而能夠安全地、舒適地接近社會(huì)環(huán)境中的人類(lèi)群體。在模擬和真實(shí)場(chǎng)景的實(shí)驗(yàn)中,服務(wù)機(jī)器人使用該導(dǎo)航框架成功地處理了10種社會(huì)情境,能夠保證個(gè)人和社會(huì)群體的心理安全和舒適性。然而,該導(dǎo)航框架不適用于高動(dòng)態(tài)的社會(huì)環(huán)境,人類(lèi)的時(shí)變運(yùn)動(dòng)會(huì)導(dǎo)致輕微的預(yù)測(cè)誤差。Charalampous等人[23]提出一個(gè)允許在人類(lèi)居住環(huán)境中綜合導(dǎo)航的機(jī)器人框架。在機(jī)器人的巡視過(guò)程中,機(jī)器人可以檢測(cè)到人類(lèi),同時(shí)利用深度學(xué)習(xí)策略來(lái)識(shí)別人類(lèi)的行為,結(jié)合深度信息發(fā)現(xiàn)個(gè)人在地圖上的位置,構(gòu)建三維度量圖,并根據(jù)所識(shí)別的動(dòng)作,使用高斯函數(shù)構(gòu)建交互空間模型改變社交區(qū)域。其中加入人體檢測(cè)和動(dòng)作識(shí)別模塊,可以判斷人類(lèi)活動(dòng),機(jī)器人并不是簡(jiǎn)單地避免碰撞人類(lèi),而是能夠遵循社會(huì)行為進(jìn)行導(dǎo)航。但是在人體檢測(cè)模塊失效的情況下,人們會(huì)被視為簡(jiǎn)單的障礙,機(jī)器人只是避免碰撞,沒(méi)有考慮社交規(guī)則。Truong等人[24]又提出了基于RGB-D和激光數(shù)據(jù)融合的人類(lèi)檢測(cè)和跟蹤,并用于社會(huì)感知的機(jī)器人導(dǎo)航框架。與以往的工作不同,該方法考慮了人的相對(duì)位置和運(yùn)動(dòng)狀態(tài),以及人和機(jī)器人之間的相對(duì)運(yùn)動(dòng),利用二維高斯函數(shù)建模人類(lèi)擴(kuò)展的個(gè)人空間。此外,該方法對(duì)站立、行走的個(gè)人和兩三個(gè)人組成的人群場(chǎng)景進(jìn)行測(cè)試,服務(wù)機(jī)器人能夠保證人類(lèi)在社會(huì)環(huán)境中的安全和舒適進(jìn)行導(dǎo)航,但是對(duì)于人物交互的關(guān)注程度小。在此基礎(chǔ)上,又提出了一個(gè)更有效的保證人類(lèi)安全的導(dǎo)航框架[25]。該框架不僅考慮了人類(lèi)狀態(tài)和交互信息,利用高斯函數(shù)建模擴(kuò)展的個(gè)人空間和社會(huì)互動(dòng)空間,而且將兩者結(jié)合形成一個(gè)動(dòng)態(tài)的社會(huì)區(qū)域。該區(qū)域可以作為導(dǎo)航系統(tǒng)的人類(lèi)感知決策模塊,允許移動(dòng)機(jī)器人可以在人類(lèi)居住的環(huán)境中安全和社會(huì)性地接近人群,并對(duì)人與物交互做出合適的反應(yīng)。但是需要強(qiáng)大、實(shí)時(shí)和魯棒的人工檢測(cè)和跟蹤技術(shù)來(lái)提高導(dǎo)航系統(tǒng)的性能,在高動(dòng)態(tài)環(huán)境中導(dǎo)航速度不夠快。

利用二維對(duì)稱(chēng)高斯函數(shù)建立社會(huì)空間模型,沒(méi)有考慮人類(lèi)所有維度的信息,如距離、身份、位置、移動(dòng)和方向,服務(wù)機(jī)器人做出的導(dǎo)航行為不是最合適的,而使用非對(duì)稱(chēng)高斯函數(shù)能夠根據(jù)不同的社會(huì)特征和運(yùn)動(dòng)狀態(tài)表征不同的社交距離,從而建立不同的社會(huì)空間模型,服務(wù)機(jī)器人對(duì)此做出相適應(yīng)的行為,進(jìn)行社會(huì)感知導(dǎo)航。Vega等人[26]提出了使用自適應(yīng)空間密度函數(shù)在人類(lèi)靜態(tài)環(huán)境中的社會(huì)導(dǎo)航,根據(jù)人群的空間排列有效地聚類(lèi),并使用非對(duì)稱(chēng)高斯函數(shù)和全局密度函數(shù)構(gòu)建數(shù)學(xué)模型定義場(chǎng)景中個(gè)人空間和每個(gè)物體對(duì)應(yīng)的空間。測(cè)試結(jié)果表明,導(dǎo)航架構(gòu)中使用聚類(lèi)算法和社會(huì)規(guī)則可以實(shí)現(xiàn)社會(huì)可接受的導(dǎo)航,不會(huì)影響導(dǎo)航性能。但是該方法只考慮了靜態(tài)的情景,沒(méi)有考慮動(dòng)態(tài)的行人交互及行人姿態(tài)的變化。Chen等人[27]提出了一種考慮社會(huì)習(xí)俗權(quán)重的導(dǎo)航框架。通過(guò)獲取人類(lèi)狀態(tài)和社會(huì)互動(dòng)的信息,利用二維非對(duì)稱(chēng)高斯函數(shù)計(jì)算了社會(huì)互動(dòng)空間中點(diǎn)的代價(jià)進(jìn)行建模。機(jī)器人運(yùn)動(dòng)路徑受社會(huì)習(xí)俗權(quán)重的影響,社會(huì)習(xí)俗的權(quán)重越大,機(jī)器人離社會(huì)互動(dòng)空間越遠(yuǎn)。Calderita等人[28]提出了一個(gè)引入依賴(lài)時(shí)間社會(huì)映射的導(dǎo)航框架,該框架主要應(yīng)用于護(hù)理中心,根據(jù)深度狀態(tài)表征和表層認(rèn)知結(jié)構(gòu)構(gòu)建時(shí)間依賴(lài)的社會(huì)地圖,使用非對(duì)稱(chēng)高斯函數(shù)對(duì)個(gè)人交互空間建模,該函數(shù)由兩個(gè)不同方向的橢圓函數(shù)構(gòu)成。與經(jīng)典路徑規(guī)劃相比,機(jī)器人能夠安全到達(dá)目標(biāo)且不會(huì)打擾人類(lèi)治療等行為活動(dòng)。但是該方法的導(dǎo)航路徑和時(shí)間較長(zhǎng),對(duì)于護(hù)理中心不同的人物,機(jī)器人仍然無(wú)法準(zhǔn)確區(qū)別對(duì)待。如機(jī)器人應(yīng)更接近工作人員,而與普通人保持友好的社會(huì)距離。

表1對(duì)基于高斯模型的導(dǎo)航方法進(jìn)行了對(duì)比,從表中可以看出,大部分研究都是使用高斯函數(shù)對(duì)人群進(jìn)行社會(huì)空間建模,不同之處在于,部分研究通過(guò)深度圖像和激光數(shù)據(jù)融合技術(shù)及時(shí)獲取人類(lèi)的行為狀態(tài)和交互信息,識(shí)別人體動(dòng)作并及時(shí)調(diào)整空間關(guān)系模型,可以在一定程度上提高服務(wù)機(jī)器人社會(huì)意識(shí)導(dǎo)航的安全性和舒適性。雖然上述研究在各種社會(huì)環(huán)境下顯示了較好的實(shí)驗(yàn)效果,但目前服務(wù)機(jī)器人構(gòu)建社會(huì)空間關(guān)系模型缺乏時(shí)序性和高動(dòng)態(tài)性,它不僅需要及時(shí)準(zhǔn)確地獲取人體信息,還需對(duì)時(shí)序信息進(jìn)行及時(shí)持續(xù)的跟蹤和更新,并結(jié)合注意力機(jī)制,融合人群分組及行人軌跡預(yù)測(cè)方法,建立動(dòng)態(tài)社會(huì)交互空間模型,以提高服務(wù)機(jī)器人與人交互的實(shí)時(shí)性和友好性,滿(mǎn)足社會(huì)意識(shí)導(dǎo)航的需求。

3 基于社會(huì)行為學(xué)習(xí)的導(dǎo)航方法

基于模型的方法,如上述社會(huì)力模型、高斯模型等,都傾向于設(shè)計(jì)一個(gè)特定的規(guī)則來(lái)描述社會(huì)行為,將社會(huì)意識(shí)導(dǎo)航問(wèn)題轉(zhuǎn)化為一個(gè)優(yōu)化問(wèn)題,這些方法具有一定的計(jì)算效率和可解釋性,但因這些模型的參數(shù)在不同環(huán)境甚至不同行人之間差異很大,適用性有限?;趯W(xué)習(xí)的方法通過(guò)在大量的訓(xùn)練數(shù)據(jù)上優(yōu)化網(wǎng)絡(luò)獲得導(dǎo)航策略,早期采用監(jiān)督學(xué)習(xí)的范式,通過(guò)模仿學(xué)習(xí)讓機(jī)器人模仿專(zhuān)家行為來(lái)學(xué)習(xí)導(dǎo)航策略。Tai等人[29]提出了一種能夠讓機(jī)器人直接利用原始深度信息來(lái)在行人動(dòng)態(tài)環(huán)境中持續(xù)學(xué)習(xí)的導(dǎo)航方法,使用生成對(duì)抗模仿學(xué)習(xí)對(duì)行為克隆策略進(jìn)行了改進(jìn),讓機(jī)器人不再需要特定傳感器來(lái)獲取數(shù)據(jù),同時(shí)大大降低了計(jì)算時(shí)間,提高了導(dǎo)航過(guò)程的實(shí)時(shí)性,但算法性能受到機(jī)器人速度和視角的影響,而且訓(xùn)練出的導(dǎo)航策略無(wú)法適應(yīng)復(fù)雜擁擠環(huán)境。

近年來(lái),為了解決機(jī)器人在擁擠環(huán)境下的社會(huì)意識(shí)導(dǎo)航問(wèn)題,將深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)應(yīng)用于機(jī)器人導(dǎo)航的研究中,DRL結(jié)合了深度學(xué)習(xí)的表示能力和強(qiáng)化學(xué)習(xí)的決策能力,基于DRL模型的導(dǎo)航方法可以使機(jī)器人具備自主學(xué)習(xí)和決策的能力,具有學(xué)習(xí)能力強(qiáng)、對(duì)傳感器精度依賴(lài)低等優(yōu)點(diǎn)[30]。深度強(qiáng)化學(xué)習(xí)的目標(biāo)是通過(guò)與環(huán)境的交互最大化獎(jiǎng)勵(lì)函數(shù)來(lái)學(xué)習(xí)導(dǎo)航策略,一些研究者基于獎(jiǎng)勵(lì)函數(shù)的改進(jìn)來(lái)實(shí)現(xiàn)符合社會(huì)規(guī)則和考慮人類(lèi)舒適性的導(dǎo)航任務(wù),Chen等人[31]提出SA-CADRL,通過(guò)添加復(fù)雜的社會(huì)規(guī)范獎(jiǎng)勵(lì)來(lái)實(shí)現(xiàn)類(lèi)人的社交導(dǎo)航行為;Cui等人[32]提出了一個(gè)深度世界過(guò)渡模型來(lái)估計(jì)機(jī)器人未來(lái)的觀測(cè)和相應(yīng)的獎(jiǎng)勵(lì),并設(shè)計(jì)了一個(gè)考慮社會(huì)習(xí)俗的獎(jiǎng)勵(lì)函數(shù)來(lái)指導(dǎo)導(dǎo)航策略的訓(xùn)練。上述導(dǎo)航策略能夠遵循右行的社會(huì)規(guī)則,能夠在人群中適應(yīng)行人的速度,但是沒(méi)有適應(yīng)行人的舒適區(qū)域。Lu等人[33]進(jìn)一步研究行人舒適距離隨人群密度的變化規(guī)律,將該規(guī)律應(yīng)用于DRL獎(jiǎng)勵(lì)函數(shù)的塑造,得到了彈性獎(jiǎng)勵(lì)函數(shù),該獎(jiǎng)勵(lì)函數(shù)可以指導(dǎo)并訓(xùn)練出適應(yīng)不同密度人群和考慮行人舒適性的導(dǎo)航策略,然而,僅僅通過(guò)獎(jiǎng)勵(lì)函數(shù)來(lái)鼓勵(lì)機(jī)器人進(jìn)行復(fù)雜的社交活動(dòng)是一項(xiàng)具有挑戰(zhàn)性的任務(wù),即使獎(jiǎng)勵(lì)函數(shù)在某些情況下看起來(lái)很明顯,它通常也必須被規(guī)則化。深度強(qiáng)化學(xué)習(xí)中的一個(gè)新興領(lǐng)域關(guān)注的是內(nèi)在動(dòng)機(jī)[34],內(nèi)在動(dòng)機(jī)以不同的方式內(nèi)在地激勵(lì)機(jī)器人的導(dǎo)航行為,其中一種方式被稱(chēng)為“授權(quán)”,授權(quán)被應(yīng)用于激勵(lì)機(jī)器人獨(dú)立完成導(dǎo)航行為,并在獎(jiǎng)勵(lì)較少的環(huán)境中進(jìn)行訓(xùn)練,Heiden等人[35]使用授權(quán)為機(jī)器人提供內(nèi)在動(dòng)機(jī),機(jī)器人在其環(huán)境中努力為人類(lèi)賦權(quán),這樣人類(lèi)就不會(huì)被機(jī)器人的存在和運(yùn)動(dòng)所干擾。

行人數(shù)量的增加和動(dòng)態(tài)變化給機(jī)器人導(dǎo)航造成很大挑戰(zhàn),適應(yīng)密集動(dòng)態(tài)人群的DRL模型是發(fā)展社會(huì)意識(shí)導(dǎo)航技術(shù)的關(guān)鍵。Everett等人[36]提出在網(wǎng)絡(luò)輸入處加入長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM),通過(guò)LSTM編碼大量的行人狀態(tài)到固定長(zhǎng)度的向量里,使機(jī)器人擁有通過(guò)觀察任意數(shù)量的行人來(lái)選擇動(dòng)作的能力。Liu等人[37]針對(duì)機(jī)器人在擁擠復(fù)雜的動(dòng)態(tài)環(huán)境下無(wú)法導(dǎo)航的問(wèn)題,融合了模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)方法,通過(guò)將靜態(tài)障礙物和行人的信息分開(kāi)處理,提出可廣泛應(yīng)用于實(shí)體機(jī)器人的導(dǎo)航方法。Everett等人[38]隨后針對(duì)機(jī)器人導(dǎo)航過(guò)程中行人數(shù)量增加的問(wèn)題,開(kāi)發(fā)一種新的算法來(lái)學(xué)習(xí)避碰策略,用LSTM編碼空間表示取代時(shí)間表示,能夠在鄰近行人數(shù)量增多時(shí),提高機(jī)器人的避碰能力和最優(yōu)決策能力,但是簡(jiǎn)化了對(duì)其他行人動(dòng)作模型的假設(shè)。

在動(dòng)態(tài)密集人群中導(dǎo)航時(shí),機(jī)器人不僅要避免與人碰撞、還要考慮人類(lèi)的舒適性與社會(huì)規(guī)則,以往基于模型的方法只考慮了單個(gè)的人機(jī)交互。受到注意力機(jī)制的啟發(fā),Chen等人[39]超越單個(gè)的人機(jī)交互,聯(lián)合建模人與機(jī)器人和人與人之間的交互,利用自我注意機(jī)制將交互特征聚合為群體表示,從而推斷出鄰近人類(lèi)對(duì)其未來(lái)狀態(tài)的相對(duì)重要性,產(chǎn)生了具有交互認(rèn)知能力的導(dǎo)航效果,但是,當(dāng)人群規(guī)模增大時(shí),導(dǎo)航性能就會(huì)下降。Chen等人[40]提出了利用網(wǎng)絡(luò)識(shí)別并關(guān)注人群中對(duì)導(dǎo)航有影響的人來(lái)解決這個(gè)問(wèn)題,首先訓(xùn)練了一個(gè)基于人眼注視數(shù)據(jù)的圖卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以準(zhǔn)確估計(jì)人群中不同主體的注意力,然后將學(xué)習(xí)到的注意力整合到一個(gè)基于圖的強(qiáng)化學(xué)習(xí)結(jié)構(gòu)中,所提出的注意機(jī)制能夠?yàn)闄C(jī)器人的鄰居分配有意義的權(quán)重,并且具有額外的可解釋性。孫立香等人[41]針對(duì)值函數(shù)模型難以擬合復(fù)雜行人環(huán)境的問(wèn)題,基于行人交互信息對(duì)值函數(shù)網(wǎng)絡(luò)進(jìn)行改進(jìn),通過(guò)行人角度網(wǎng)格對(duì)行人之間的交互信息進(jìn)行提取,并通過(guò)注意力機(jī)制提取行人行走軌跡的時(shí)序特征,學(xué)習(xí)得到行人當(dāng)前狀態(tài)與歷史狀態(tài)的相對(duì)重要性以及對(duì)機(jī)器人導(dǎo)航策略的聯(lián)合影響。Xu等人[42]針對(duì)值函數(shù)模型只學(xué)習(xí)稀疏獎(jiǎng)勵(lì)下的離散動(dòng)作導(dǎo)航策略,收斂速度慢、動(dòng)作空間有限的問(wèn)題,提出了一種基于增廣關(guān)系圖的深度強(qiáng)化學(xué)習(xí)方法,通過(guò)將交叉熵方法引入到關(guān)系圖學(xué)習(xí)框架中,在連續(xù)動(dòng)作-狀態(tài)空間中獲得足夠的訓(xùn)練樣本,并引入圖形注意力網(wǎng)絡(luò)提取高效、可擴(kuò)展的群體交互特征。

社會(huì)環(huán)境下的服務(wù)機(jī)器人要處理的信息不應(yīng)該僅僅是一系列人,而應(yīng)是一個(gè)更復(fù)雜的數(shù)據(jù)結(jié)構(gòu),包括人與機(jī)器人、人群內(nèi)部和人與物之間的交互關(guān)系,這種復(fù)雜的交互關(guān)系可以通過(guò)關(guān)系圖來(lái)表示,圖卷積神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)是一種特別適合用來(lái)處理這些關(guān)系圖的方法,并且具有可擴(kuò)展性的優(yōu)點(diǎn)。Chen等人[43]提出了基于深度強(qiáng)化學(xué)習(xí)的關(guān)系圖學(xué)習(xí)方法應(yīng)用于機(jī)器人社交導(dǎo)航,首先利用智能體之間的潛在特征來(lái)推理它們之間的關(guān)系,并使用一個(gè)圖卷積神經(jīng)網(wǎng)絡(luò)在每個(gè)智能體的狀態(tài)表示中編碼高階交互,然后將其用于狀態(tài)預(yù)測(cè)與值估計(jì)。所提出方法能夠在考慮人類(lèi)群體時(shí)間變化的情況下,執(zhí)行多步前瞻性的規(guī)劃,但是這種方法忽略了人類(lèi)的方向、速度等其他信息。Rodriguez等人[44]利用GNN的關(guān)系歸納偏差產(chǎn)生場(chǎng)景表示,結(jié)合GNN和CNN生成用于社會(huì)意識(shí)導(dǎo)航的實(shí)時(shí)成本圖,該模型的主要限制是它考慮的場(chǎng)景是靜態(tài)的。Bachiller等人[45]進(jìn)一步提出了由六個(gè)消息傳遞圖神經(jīng)網(wǎng)絡(luò)組成的GNN架構(gòu),使得導(dǎo)航模型能夠適應(yīng)于動(dòng)態(tài)場(chǎng)景,并且可擴(kuò)展,可以考慮更多數(shù)量的交互和社會(huì)因素。Liu等人[46]將社交導(dǎo)航場(chǎng)景建模為一個(gè)分散的時(shí)空?qǐng)D,以捕捉機(jī)器人與多個(gè)人類(lèi)在空間和時(shí)間上的交互,然后將分散的時(shí)空?qǐng)D轉(zhuǎn)化為一種新的端到端的分散結(jié)構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò),能夠推理時(shí)空關(guān)系,用于機(jī)器人社交導(dǎo)航?jīng)Q策,并使用無(wú)模型的深度強(qiáng)化學(xué)習(xí)算法來(lái)訓(xùn)練網(wǎng)絡(luò),由于機(jī)器人完全從自己的經(jīng)驗(yàn)中學(xué)習(xí),由此產(chǎn)生的導(dǎo)航策略更容易適應(yīng)密集的人群和部分可觀性。

表2對(duì)基于深度強(qiáng)化學(xué)習(xí)的導(dǎo)航方法進(jìn)行對(duì)比,可以看出,基于深度強(qiáng)化學(xué)習(xí)算法進(jìn)行社會(huì)行為學(xué)習(xí)為解決社會(huì)意識(shí)導(dǎo)航問(wèn)題提供了有效的手段,特別是在高密度人群和高交互復(fù)雜度的場(chǎng)景。但是這些方法大多是在模擬環(huán)境中實(shí)現(xiàn)的,真實(shí)世界更加復(fù)雜和動(dòng)態(tài),將這些訓(xùn)練好的導(dǎo)航策略遷移到真實(shí)世界的機(jī)器人社會(huì)意識(shí)導(dǎo)航任務(wù)中是核心挑戰(zhàn)。

表2 基于深度強(qiáng)化學(xué)習(xí)的導(dǎo)航方法對(duì)比Table 2 Comparison of navigation methods based on deep reinforcement learning

4 基于行人軌跡預(yù)測(cè)的導(dǎo)航方法

在人-機(jī)-物共享空間的服務(wù)場(chǎng)景中實(shí)現(xiàn)機(jī)器人的自主導(dǎo)航,對(duì)場(chǎng)景中的行人進(jìn)行軌跡預(yù)測(cè)是一個(gè)關(guān)鍵點(diǎn)。行人軌跡預(yù)測(cè)的核心任務(wù)是利用過(guò)去觀察到的行人運(yùn)動(dòng)軌跡,通過(guò)建立模型,讓機(jī)器學(xué)習(xí)由行為推理、與他人的交互、周?chē)h(huán)境的影響等產(chǎn)生的一些規(guī)則,理解復(fù)雜環(huán)境中的人類(lèi)運(yùn)動(dòng),從而在未來(lái)短時(shí)間內(nèi)預(yù)測(cè)行人的運(yùn)動(dòng)軌跡。

大多數(shù)基于當(dāng)前觀測(cè)的反應(yīng)性社會(huì)力模型通常適用于跟蹤問(wèn)題,對(duì)于預(yù)測(cè)問(wèn)題來(lái)說(shuō),這類(lèi)方法由于其貪婪性會(huì)在長(zhǎng)期預(yù)測(cè)中失敗,并會(huì)在局部代價(jià)最小的區(qū)域被阻塞。為了解決上述問(wèn)題,Chung等人[47]在自我圖的基礎(chǔ)上進(jìn)行了改進(jìn),提出了行人自我圖(pedestrian egograph,PEG),通過(guò)統(tǒng)計(jì)多種行人路徑,并將統(tǒng)計(jì)后的路徑數(shù)據(jù)作為樣本用來(lái)生成不同的軌跡,同時(shí)利用egograph的多假設(shè)特性,幫助建立軌跡預(yù)測(cè)的概率模型;為了讓機(jī)器人能夠理解行人行為與環(huán)境之間的空間關(guān)系,建立了一個(gè)空間認(rèn)知模型,并通過(guò)實(shí)驗(yàn)對(duì)方法的效果進(jìn)行了驗(yàn)證,證明了基于該算法的服務(wù)機(jī)器人能通過(guò)檢測(cè)和學(xué)習(xí)環(huán)境中的空間效應(yīng)來(lái)表現(xiàn)出社會(huì)可接受的運(yùn)動(dòng)。為了解決機(jī)器人在人口稠密環(huán)境中的導(dǎo)航任務(wù),Kuderer等人[48]提出了一種基于最大熵原理的導(dǎo)航學(xué)習(xí)方法。該方法允許機(jī)器人從觀察到的行人軌跡中捕捉并學(xué)習(xí)人類(lèi)導(dǎo)航行為的潛在概率分布,使其能夠預(yù)測(cè)其周?chē)腥说男袨椋⒆龀鲞m當(dāng)?shù)姆磻?yīng),但該方法只關(guān)注于導(dǎo)航軌跡。為了讓服務(wù)機(jī)器人能夠了解他們所接觸到的人的意圖以及同時(shí)識(shí)別他們的行為,Xiao等人[49]提出了一種學(xué)習(xí)預(yù)測(cè)行人未來(lái)動(dòng)作的解決方案,將改良后的距離函數(shù)融合進(jìn)聚類(lèi)算法中,使其可以測(cè)量機(jī)器人附近的那些非重疊軌跡的相似性。然后使用了預(yù)訓(xùn)練的支持向量機(jī),將當(dāng)前觀察到的行人軌跡的起始部分與樣本的起始部分進(jìn)行匹配,從而對(duì)未來(lái)路徑提出多個(gè)選項(xiàng),讓機(jī)器人能夠以不打擾行人的方式進(jìn)行移動(dòng)。Bera等人[50]提出了SocioSense,與以往的社會(huì)意識(shí)導(dǎo)航算法相比,該方法無(wú)需預(yù)計(jì)算,算法的實(shí)時(shí)性好,同時(shí)其具有通用性和良好的解釋性。但是該系統(tǒng)的行人軌跡數(shù)據(jù)是通過(guò)透視矯正得到的,存在準(zhǔn)確性和局限性問(wèn)題;而行為分類(lèi)是基于人格模型和Eysenck PEN建立的,這可能無(wú)法為所有觀察到的行為進(jìn)行建模。

許多方法都試圖通過(guò)與人保持適當(dāng)距離來(lái)提高人類(lèi)的舒適性,但那些方法很多沒(méi)有考慮到靜態(tài)導(dǎo)航規(guī)劃會(huì)導(dǎo)致機(jī)器人為了適應(yīng)人的運(yùn)動(dòng)而持續(xù)改變其導(dǎo)航行為。機(jī)器人持續(xù)的導(dǎo)航規(guī)劃會(huì)導(dǎo)致其行為缺乏一致性并且會(huì)讓人感覺(jué)混亂和不自然,無(wú)法實(shí)現(xiàn)社會(huì)意識(shí)導(dǎo)航任務(wù)。Kollmitz等人[51]提出了一種新的人類(lèi)意識(shí)導(dǎo)航方法,該方法使用社會(huì)代價(jià)地圖和及時(shí)規(guī)劃來(lái)改善人口稠密環(huán)境中的移動(dòng)機(jī)器人導(dǎo)航行為,但該方法只適用于局部導(dǎo)航規(guī)劃。服務(wù)機(jī)器人如果想用于真實(shí)環(huán)境,就需要在較長(zhǎng)時(shí)間范圍內(nèi)進(jìn)行導(dǎo)航規(guī)劃,因此Bruckschen等人[52]提出了一種基于長(zhǎng)期運(yùn)動(dòng)預(yù)測(cè)、人類(lèi)舒適區(qū)域約束的路徑規(guī)劃系統(tǒng)和基于時(shí)間依賴(lài)性代價(jià)地圖的人類(lèi)感知導(dǎo)航系統(tǒng)。通過(guò)分析行人之間的交互,將學(xué)習(xí)到的知識(shí)轉(zhuǎn)化為可用于預(yù)測(cè)未來(lái)導(dǎo)航目標(biāo)的基礎(chǔ),然后應(yīng)用代價(jià)網(wǎng)格來(lái)限制機(jī)器人與人類(lèi)之間的距離,同時(shí)利用基于時(shí)間的路徑規(guī)劃方法以實(shí)現(xiàn)高效且讓人感到舒適的導(dǎo)航行為。

代價(jià)地圖存在實(shí)時(shí)性和適用性問(wèn)題,無(wú)法適應(yīng)復(fù)雜環(huán)境,而神經(jīng)網(wǎng)絡(luò)在發(fā)展過(guò)程中逐漸被用于行人軌跡預(yù)測(cè)。在此基礎(chǔ)上,Chen等人[53]對(duì)社會(huì)意識(shí)模型進(jìn)行了改進(jìn),在當(dāng)前行人軌跡序列輸入層和行人位置估計(jì)層之間增加一個(gè)集合池化層,從而更準(zhǔn)確地模擬行人軌跡。由于使用了基于預(yù)測(cè)的行人軌跡和跟蹤代價(jià)判斷來(lái)優(yōu)化局部避障功能,使機(jī)器人能夠以更安全、更高效的方式在不斷變換的中低密度人群環(huán)境中行進(jìn)。Pfeiffer等人[54]的工作考慮了行人周?chē)撵o態(tài)環(huán)境,引入了一種基于極坐標(biāo)的空間一維網(wǎng)格對(duì)周?chē)腥诉M(jìn)行編碼,使其可以捕捉行人之間的復(fù)雜交互,還可以將環(huán)境中的靜態(tài)障礙物納入到導(dǎo)航規(guī)劃中,同時(shí)降低了預(yù)測(cè)過(guò)程中的運(yùn)算復(fù)雜性,讓該方法具有擴(kuò)展到密集人群的能力。而且該方法不需要已知行人的目的地,這一特性能夠讓機(jī)器人更好地適應(yīng)現(xiàn)實(shí)世界。Sathyamoorthy等人[55]為了解決機(jī)器人在不同密度人群中的適應(yīng)性問(wèn)題,提出了Dense-CAvoid,改進(jìn)了RobustTP算法并與導(dǎo)航算法相融合,提高了對(duì)傳感器噪聲數(shù)據(jù)的處理能力,能夠在密集人群中生成平滑的軌跡。但是在導(dǎo)航過(guò)程中,機(jī)器人可能會(huì)產(chǎn)生凍結(jié)問(wèn)題。為了解決上述問(wèn)題,又提出了Frozone[56],利用行人檢測(cè)和行人軌跡預(yù)測(cè),提前確定機(jī)器人可能會(huì)發(fā)生凍結(jié)或者會(huì)對(duì)人類(lèi)產(chǎn)生干擾的區(qū)域,構(gòu)建潛在凍結(jié)區(qū),讓機(jī)器人在行進(jìn)過(guò)程中避開(kāi)該區(qū)域,以滿(mǎn)足機(jī)器人在密集行人環(huán)境中的安全性和符合社會(huì)規(guī)則的要求。但該方法仍然存在一定的局限性:凍結(jié)區(qū)在沒(méi)有人類(lèi)愿意配合的情況下,仍是無(wú)法完全避免。該方法的表現(xiàn)很大程度上受到行人跟蹤算法和對(duì)行人友好度建模算法的影響。

表3對(duì)基于行人軌跡預(yù)測(cè)的導(dǎo)航方法進(jìn)行了對(duì)比,從表中可以看出,這些方法雖有不同,但都關(guān)注導(dǎo)航過(guò)程中的實(shí)時(shí)性、適用性、對(duì)人類(lèi)社會(huì)關(guān)系的理解以及對(duì)人類(lèi)復(fù)雜交互捕捉和互動(dòng)的能力。盡管這些方法在上述方面做了許多改進(jìn),但在復(fù)雜的現(xiàn)實(shí)環(huán)境中,要想讓機(jī)器人實(shí)現(xiàn)符合社會(huì)規(guī)則的順滑的運(yùn)動(dòng)規(guī)劃,還需要在算法實(shí)時(shí)性和不同環(huán)境的適應(yīng)性上做出更多努力。

表3 基于行人軌跡預(yù)測(cè)的導(dǎo)航方法對(duì)比Table 3 Comparison of navigation methods based on pedestrian trajectory prediction

5 挑戰(zhàn)與展望

盡管學(xué)者們對(duì)服務(wù)機(jī)器人社會(huì)意識(shí)導(dǎo)航技術(shù)已經(jīng)進(jìn)行了大量的研究,并取得了一定的成果,但若想進(jìn)一步提升機(jī)器人的社會(huì)意識(shí)導(dǎo)航性能,仍面臨著許多難題和挑戰(zhàn)。首先,對(duì)于復(fù)雜高動(dòng)態(tài)密集人群的檢測(cè),行人之間存在遮擋等問(wèn)題,機(jī)器人難以準(zhǔn)確地識(shí)別行人?,F(xiàn)有行人軌跡預(yù)測(cè)方法仍存在無(wú)法對(duì)周?chē)鷪?chǎng)景充分理解、無(wú)法適應(yīng)復(fù)雜多變的環(huán)境,社會(huì)意識(shí)導(dǎo)航的過(guò)程中機(jī)器人無(wú)法考慮自身對(duì)人類(lèi)的影響等問(wèn)題。其次,在社會(huì)生活中,人類(lèi)的行為活動(dòng)是一系列連貫的動(dòng)作,有些動(dòng)作只有細(xì)微的差別但是意義完全不同。但是機(jī)器人在導(dǎo)航過(guò)程中,識(shí)別相似的動(dòng)作判別一致,對(duì)不同時(shí)刻行人的人體信息缺少跟蹤和更新,檢測(cè)識(shí)別行人是片段化、不連續(xù)的,構(gòu)建社會(huì)交互空間的時(shí)序性不能保證,無(wú)法進(jìn)行友好的社會(huì)性導(dǎo)航。最后,目前導(dǎo)航算法中對(duì)行人的反應(yīng)因素考慮較少,大部分研究者將行人視為動(dòng)態(tài)、無(wú)反應(yīng)的障礙進(jìn)行訓(xùn)練,導(dǎo)致現(xiàn)實(shí)環(huán)境中的機(jī)器人運(yùn)動(dòng)使行人感到不適,行人會(huì)因此產(chǎn)生機(jī)器人沒(méi)有預(yù)測(cè)到的反應(yīng),行人和機(jī)器人短期相互作用產(chǎn)生振蕩,導(dǎo)致機(jī)器人短期難以做出合適的路徑規(guī)劃。

在眾多先進(jìn)技術(shù)與應(yīng)用創(chuàng)新的挑戰(zhàn)下,目前對(duì)社會(huì)意識(shí)導(dǎo)航的理論研究和系統(tǒng)開(kāi)發(fā)還需要進(jìn)一步深入,具體有以下幾個(gè)方面:

(1)通過(guò)多源信息融合構(gòu)建低成本、魯棒性強(qiáng)、檢測(cè)效率高的社會(huì)意識(shí)導(dǎo)航系統(tǒng),使其在多異構(gòu)環(huán)境都能正常使用。深入研究多種信息源融合處理技術(shù),產(chǎn)生對(duì)人類(lèi)和所處環(huán)境較全面的檢測(cè),保證數(shù)據(jù)的完整性和數(shù)據(jù)傳輸?shù)母咝?,減小多源信息融合過(guò)程中產(chǎn)生的誤差,降低損耗率和關(guān)聯(lián)難度,從而獲得全面和具體的數(shù)據(jù)信息,實(shí)現(xiàn)在密集人群中并存在部分遮擋環(huán)境下的精確檢測(cè)的社會(huì)意識(shí)導(dǎo)航。

(2)在社會(huì)行為認(rèn)知上可通過(guò)精確感知社交線(xiàn)索信息幫助服務(wù)機(jī)器人充分理解人類(lèi)行為和意圖。在現(xiàn)有的社會(huì)意識(shí)導(dǎo)航中增加多個(gè)社交線(xiàn)索的聯(lián)合分析系統(tǒng),增加多個(gè)檢測(cè)窗口,檢測(cè)行人的多個(gè)可見(jiàn)部位,并擴(kuò)展人體信息特征識(shí)別類(lèi)型,將人體姿態(tài)、頭部朝向、面部表情、生理活動(dòng)等指導(dǎo)著社交活動(dòng)的信號(hào)融合識(shí)別,建立知識(shí)信息的相關(guān)聯(lián)系,將多種類(lèi)型的信息特征進(jìn)行融合,同時(shí)增強(qiáng)機(jī)器人對(duì)人體外觀模型的學(xué)習(xí),從而提高機(jī)器人對(duì)行人意圖的精確感知。

(3)有效的時(shí)空建模可極大地提高行為識(shí)別的精度,實(shí)現(xiàn)高效的長(zhǎng)時(shí)序時(shí)空特征建模有助于提高社會(huì)意識(shí)導(dǎo)航的被接受程度和應(yīng)用范圍。通過(guò)從準(zhǔn)確的時(shí)序信息中提煉更精確的時(shí)空特征和運(yùn)動(dòng)特性,設(shè)計(jì)多尺度時(shí)空特征融合模塊,探索高效率的多尺度時(shí)空特征提取網(wǎng)絡(luò),實(shí)現(xiàn)實(shí)時(shí)和高效的社會(huì)意識(shí)導(dǎo)航。

6 總結(jié)

本文首先總結(jié)了服務(wù)機(jī)器人社會(huì)意識(shí)導(dǎo)航系統(tǒng)框架;其次對(duì)其中社會(huì)行為認(rèn)知層面涉及到的基于模型的社會(huì)空間關(guān)系建模方法、基于數(shù)據(jù)的社會(huì)行為學(xué)習(xí)方法、基于時(shí)空序列的行人軌跡預(yù)測(cè)方法的國(guó)內(nèi)外研究進(jìn)展進(jìn)行了總結(jié)歸納。最后在列舉分析了現(xiàn)有社會(huì)意識(shí)導(dǎo)航優(yōu)勢(shì)與不足之后,探討了現(xiàn)有社會(huì)意識(shí)導(dǎo)航存在的問(wèn)題,并對(duì)該領(lǐng)域未來(lái)的發(fā)展方向進(jìn)行了展望。

目前,針對(duì)服務(wù)機(jī)器人社會(huì)意識(shí)導(dǎo)航相關(guān)理論、方法及技術(shù)還不夠完善,距離服務(wù)機(jī)器人能“像人一樣”的自主移動(dòng)和工作的目標(biāo)還有一定的差距。因此,在服務(wù)機(jī)器人社會(huì)意識(shí)導(dǎo)航研究及其實(shí)際應(yīng)用的未來(lái)工作中,應(yīng)該進(jìn)一步加深對(duì)導(dǎo)航算法體系的理論研究,以現(xiàn)有的服務(wù)機(jī)器人系統(tǒng)為著手點(diǎn),加強(qiáng)時(shí)空數(shù)據(jù)的分析匹配、數(shù)據(jù)特征的提取能力以及學(xué)習(xí)模型效率的研究,進(jìn)一步提高服務(wù)機(jī)器人社會(huì)意識(shí)導(dǎo)航系統(tǒng)性能,提升服務(wù)機(jī)器人在動(dòng)態(tài)社會(huì)環(huán)境下的與人共融性及友好交互,進(jìn)而推進(jìn)服務(wù)機(jī)器人在多場(chǎng)景下的應(yīng)用與普及。

猜你喜歡
行人軌跡機(jī)器人
毒舌出沒(méi),行人避讓
意林(2021年5期)2021-04-18 12:21:17
軌跡
軌跡
路不為尋找者而設(shè)
軌跡
進(jìn)化的軌跡(一)——進(jìn)化,無(wú)盡的適應(yīng)
我是行人
機(jī)器人來(lái)幫你
認(rèn)識(shí)機(jī)器人
機(jī)器人來(lái)啦
日土县| 营山县| 鄂托克旗| 额尔古纳市| 分宜县| 衢州市| 宜兴市| 淳化县| 安义县| 天峻县| 延长县| 商都县| 民权县| 梁河县| 新巴尔虎左旗| 天峨县| 延庆县| 绥中县| 平度市| 措美县| 嘉义市| 海晏县| 大石桥市| 鞍山市| 尤溪县| 来宾市| 鸡东县| 清徐县| 崇礼县| 社会| 安陆市| 汶川县| 灵川县| 石景山区| 祁东县| 乌拉特后旗| 新和县| 日喀则市| 威宁| 新民市| 安平县|