姚 沖,周 暉
(南通大學(xué) 信息科學(xué)技術(shù)學(xué)院,江蘇 南通 226019)
行人的未來(lái)軌跡對(duì)于無(wú)人駕駛技術(shù)、道路安全、機(jī)器人導(dǎo)航[1]等的發(fā)展至關(guān)重要。研究目標(biāo)是使無(wú)人駕駛等設(shè)備能夠預(yù)測(cè)行人的未來(lái)軌跡,并在沒(méi)有人為干預(yù)的情況下安全有效地執(zhí)行任務(wù)[2]。Karasev等[3]通過(guò)輸入一種具有指導(dǎo)方向的意圖函數(shù)預(yù)測(cè)未來(lái)方向。Rathore等[4]提出了一個(gè)可擴(kuò)展的聚類(lèi)和基于馬爾可夫鏈的混合框架,以此處理密集重疊的軌跡。在Saleh等[5]的研究中結(jié)合了逆向強(qiáng)化學(xué)習(xí)和雙向遞歸神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)行人軌跡。Alahi等[6]提出的Social-LSTM通過(guò)對(duì)周?chē)腥说木W(wǎng)格化建模,隱藏池化行人特征等預(yù)測(cè)行人軌跡。Xu等[7]對(duì)行人間不同的距離影響進(jìn)行了探索。通過(guò)結(jié)合兩種不同的LSTM以及建立同時(shí)模擬個(gè)人與群體活動(dòng)的模型[8,9]來(lái)預(yù)測(cè)行人軌跡。雖然長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)在序列學(xué)習(xí)[10]方面表現(xiàn)優(yōu)秀,但其仍有缺陷。Fernando等[11]提出一個(gè)基于LSTM網(wǎng)絡(luò)的注意力機(jī)制框架,在真實(shí)世界場(chǎng)景中為準(zhǔn)確預(yù)測(cè)行人軌跡提供了參考。孫等[12]運(yùn)用注意力機(jī)制描述行人交互的運(yùn)動(dòng)模式。通過(guò)引入不同的注意力機(jī)制[13,14]能夠有效提高行人軌跡預(yù)測(cè)的準(zhǔn)確性;考慮軌跡多模態(tài)并由生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[15,16]進(jìn)行模型泛化也為預(yù)測(cè)的準(zhǔn)確性做出很大貢獻(xiàn)。Sadeghian等[1]在基于GAN的框架下,利用場(chǎng)景圖像信息預(yù)測(cè)個(gè)體的行為軌跡,但當(dāng)前基于數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè)行人軌跡的方法還是存在準(zhǔn)確率低等問(wèn)題。
針對(duì)上述存在的問(wèn)題,提出基于時(shí)空?qǐng)D的生成對(duì)抗網(wǎng)絡(luò)(spatial-temporal graph GAN,ST-GAN)架構(gòu),該架構(gòu)綜合考慮人與環(huán)境的交互,通過(guò)時(shí)空?qǐng)D與全局節(jié)點(diǎn)提高計(jì)算效率,并可生成合理的多模態(tài)預(yù)測(cè)軌跡。
(1)
(2)
(3)
(4)
其中,t表示任意時(shí)刻,tobs表示可觀(guān)測(cè)時(shí)刻,tpre表示預(yù)測(cè)時(shí)刻。
如圖1所示,ST-GAN的整體網(wǎng)絡(luò)架構(gòu)主要由軌跡生成器、編碼器模塊、融合判別器、鑒別器模塊組成。首先,編碼器模塊接收行人與固定障礙物的歷史軌跡即二維坐標(biāo),利用LSTM對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行特征編碼,同時(shí)對(duì)行人軌跡的多模態(tài)通過(guò)生成控制點(diǎn)進(jìn)行預(yù)測(cè)并作為假設(shè)建議。然后,將行人節(jié)點(diǎn)、障礙物節(jié)點(diǎn)合并為一組全新的空間合并向量,通過(guò)非線(xiàn)性嵌入功能處理空間合并向量并通過(guò)LSTM獲得全局節(jié)點(diǎn)編碼。其次,通過(guò)使用縮放點(diǎn)積注意力機(jī)制將全局權(quán)重分配到每個(gè)行人節(jié)點(diǎn)上得到交互式特征編碼。接著,將行人節(jié)點(diǎn)編碼與噪聲編碼、交互式特征編碼作為軌跡生成器的條件生成預(yù)測(cè)軌跡。最后,利用融合判別器將兩者的結(jié)果進(jìn)行相似度S分析,α為預(yù)定義閾值。預(yù)測(cè)軌跡與真實(shí)軌跡共同輸入鑒別器模塊,以此生成更加真實(shí)的行人未來(lái)軌跡。
(5)
(6)
(7)
對(duì)行人的軌跡進(jìn)行多模態(tài)預(yù)測(cè),將行人在有限時(shí)間內(nèi)的軌跡建模為連續(xù)的曲線(xiàn),避免傳統(tǒng)的以散點(diǎn)圖為主的軌跡預(yù)測(cè)帶來(lái)爆炸性的低效組合。通過(guò)減少建模過(guò)程中對(duì)曲線(xiàn)參數(shù)的改變,來(lái)更好產(chǎn)生多模態(tài)預(yù)測(cè)曲線(xiàn)組反映行人行走傾向及意圖。
對(duì)時(shí)間長(zhǎng)度為T(mén)=tobs+tpre的軌跡計(jì)算擬合誤差。選擇以三次多項(xiàng)式為基礎(chǔ)的曲線(xiàn)進(jìn)行計(jì)算,以確保曲線(xiàn)的復(fù)雜度能夠達(dá)到預(yù)測(cè)的精度要求。由于參數(shù)的微小變化也會(huì)使曲線(xiàn)的形狀大幅改變,故創(chuàng)造性地選用一組點(diǎn)表示曲線(xiàn)。這些點(diǎn)包括兩個(gè)控制點(diǎn),即終點(diǎn)和曲率點(diǎn),另外還有一個(gè)歷史軌跡點(diǎn)。曲率點(diǎn)通過(guò)反映軌跡曲線(xiàn)的彎曲程度,決定軌跡曲線(xiàn)的走向,曲率點(diǎn)由距離變量γ決定。距離變量γ定義為軌跡曲線(xiàn)到當(dāng)前所在點(diǎn)與終點(diǎn)連線(xiàn)中點(diǎn)的垂直距離,如圖2所示。將曲率點(diǎn)編碼為γ,可以靈活地生成具有不同彎曲程度的曲線(xiàn),對(duì)此可以更好地進(jìn)行軌跡多模態(tài)預(yù)測(cè)。
(8)
由行人歷史可觀(guān)測(cè)位置,可得到可能的軌跡曲線(xiàn)
(9)
對(duì)于行人未來(lái)軌跡的預(yù)測(cè),由先驗(yàn)知識(shí)可知一些極小概率的情況是不會(huì)發(fā)生的,所以可以由此過(guò)濾一部分不可能區(qū)域。利用歷史軌跡確定出行人未來(lái)會(huì)行走的一個(gè)多邊形區(qū)域,即行人可移動(dòng)區(qū)域。通過(guò)式(10)得出在行人可移動(dòng)區(qū)域之外的不可能性分?jǐn)?shù)來(lái)明確約束預(yù)測(cè)軌跡
(10)
其中,r是未來(lái)行人在可移動(dòng)區(qū)域之外的比率,σ是衰減因子。與放棄可移動(dòng)區(qū)域以外的預(yù)測(cè)結(jié)果相比,衰減分?jǐn)?shù)保證了預(yù)測(cè)結(jié)果的多樣性。
(11)
(12)
(13)
(14)
(15)
當(dāng)共同考慮場(chǎng)景中的行人節(jié)點(diǎn)與障礙物節(jié)點(diǎn)時(shí),交互式特征編碼稱(chēng)為全交互式特征編碼;當(dāng)僅考慮場(chǎng)景中行人節(jié)點(diǎn)時(shí),稱(chēng)為部分交互式特征編碼。至此,利用LSTM完成對(duì)各節(jié)點(diǎn)的特征編碼。
(16)
(17)
其中,v是符合標(biāo)準(zhǔn)正態(tài)分布的噪聲向量,MLP(·)是多層感知器,Wmix、Wmixe是嵌入的權(quán)值。
(18)
(19)
(20)
由式(20)得到以上兩種方法所求行人未來(lái)軌跡的相似度。當(dāng)相似度S大于等于預(yù)定義閾值α?xí)r,我們認(rèn)為這兩種方法所求出的結(jié)果是相似的,同時(shí)這個(gè)結(jié)果也是最優(yōu)的。當(dāng)相似度S小于預(yù)定義閾值α?xí)r,我們認(rèn)為這兩種方法求得的結(jié)果存在差異。此時(shí)通過(guò)動(dòng)態(tài)調(diào)整權(quán)重以及距離變量γ的方法重新求取行人未來(lái)軌跡,直至相似度S達(dá)到要求,并將預(yù)測(cè)結(jié)果作為GAN的輸入。
在生成行人的未來(lái)位置坐標(biāo)后,為使結(jié)果更加準(zhǔn)確,通過(guò)GAN對(duì)預(yù)測(cè)軌跡進(jìn)行評(píng)估,生成一個(gè)合理的未來(lái)行人軌跡分布圖。GAN由兩個(gè)相互對(duì)立的神經(jīng)網(wǎng)絡(luò)組成:生成器G與鑒別器D。生成器G用于捕捉真實(shí)數(shù)據(jù)的數(shù)據(jù)分布,使其具備一定的模仿真實(shí)數(shù)據(jù)的能力,鑒別器D估計(jì)所給樣本數(shù)據(jù)是來(lái)自訓(xùn)練集中的真實(shí)行人軌跡數(shù)據(jù)而不是生成器G中數(shù)據(jù)的概率。通過(guò)鑒別器D對(duì)行人軌跡的評(píng)估,使行人未來(lái)軌跡的分布更加符合真實(shí)情況
(21)
(22)
Ride_i=MLP(hide_i;Wide3)
(23)
文中對(duì)提出的ST-GAN模型的期望目標(biāo)如下
(24)
式中:λ是加權(quán)系數(shù),其中LGAN(G,D) 和LL2(G)的定義如下
(25)
(26)
對(duì)于損失函數(shù)的設(shè)計(jì)構(gòu)造,除了實(shí)現(xiàn)了min-max問(wèn)題的對(duì)抗性損失,還使用了L2損失函數(shù)來(lái)評(píng)估行人真實(shí)未來(lái)軌跡與預(yù)測(cè)軌跡之間的差異。
本節(jié)利用兩個(gè)公共數(shù)據(jù)集對(duì)提出的ST-GAN模型進(jìn)行測(cè)評(píng)。首先介紹實(shí)驗(yàn)中的數(shù)據(jù)集和相關(guān)設(shè)置,然后通過(guò)介紹所要計(jì)算的性能參數(shù)來(lái)評(píng)測(cè)模型效果,最后和其它模型進(jìn)行比較。
實(shí)驗(yàn)部分運(yùn)用到的兩個(gè)公共數(shù)據(jù)集分別是ETH[18]和UCY[19]。其中,ETH數(shù)據(jù)集包含ETH-univ和ETH-hotel兩個(gè)場(chǎng)景,UCY數(shù)據(jù)集包含UCY-zara1、UCY-zara2、UCY-univ這3個(gè)場(chǎng)景。具體的包括行人穿梭交叉、路口處行人轉(zhuǎn)彎、行人跟隨、行人躲避固定障礙物等。實(shí)驗(yàn)中,選擇使用8 s內(nèi)的數(shù)據(jù)進(jìn)行模型評(píng)測(cè),時(shí)間步長(zhǎng)為0.4 s。將8 s分為兩部分,第一部分為前3.2 s是訓(xùn)練數(shù)據(jù),共8個(gè)時(shí)間步長(zhǎng);第二部分為后4.8 s是測(cè)試數(shù)據(jù),共12個(gè)時(shí)間步長(zhǎng)。除此之外,實(shí)驗(yàn)還記錄了模型的推理時(shí)間。在模型評(píng)測(cè)中,研究方法與之前研究方法類(lèi)似[15],使用平均位移誤差(average displacement error,ADE)和最終位移誤差(final displacement error,F(xiàn)DE)作為基準(zhǔn)度量標(biāo)準(zhǔn)。
在ST-GAN行人軌跡預(yù)測(cè)框架中,沒(méi)有使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取圖片特征以對(duì)場(chǎng)景信息進(jìn)行建模[20]。其中,實(shí)例節(jié)點(diǎn)的坐標(biāo)嵌入為16維向量,LSTM網(wǎng)絡(luò)隱藏層單元個(gè)數(shù)在編碼器與解碼器中分別為16和32。使用Adam優(yōu)化器訓(xùn)練生成器和鑒別器模型,初始學(xué)習(xí)率為0.001。該模型基于PyTorch搭建,GPU為NVIDIA Titan XP。
(27)
FDE定義為所有行人未來(lái)預(yù)測(cè)軌跡與實(shí)際軌跡最終位置的平均L2歐式距離
(28)
在實(shí)驗(yàn)評(píng)測(cè)中,選擇5個(gè)模型作為對(duì)比模型。這5個(gè)模型分別為:LSTM[6]、S-LSTM[6]、SA-LSTM[13]、S-GAN[15]和Social-BiGAT[16]。本節(jié)中將僅考慮行人節(jié)點(diǎn)的方法稱(chēng)為ST-GAN-1,同時(shí)考慮行人節(jié)點(diǎn)與固定障礙物節(jié)點(diǎn)的方法稱(chēng)為ST-GAN-2。在表1中,總結(jié)了這7個(gè)模型的創(chuàng)新點(diǎn)和建模角度。應(yīng)當(dāng)注意的是,只有在測(cè)試ST-GAN-2模型時(shí),才考慮場(chǎng)景中固定障礙物節(jié)點(diǎn)的坐標(biāo),而其它模型不將此信息作為輸入。
表1 模型創(chuàng)新點(diǎn)與建模角度
定量評(píng)估是通過(guò)運(yùn)用數(shù)學(xué)模型對(duì)所要進(jìn)行分析的對(duì)象在各項(xiàng)關(guān)鍵性能指標(biāo)上的評(píng)估分析。表2中列出了兩個(gè)公共數(shù)據(jù)集上以ADE和FDE為指標(biāo)的5種場(chǎng)景對(duì)應(yīng)模型的評(píng)估結(jié)果,ADE與FDE用斜線(xiàn)隔開(kāi)。從表中可以看出,LSTM模型的預(yù)測(cè)效果很不理想,因?yàn)榇四P椭皇菑膫€(gè)體的角度出發(fā),沒(méi)有考慮人與環(huán)境交互的影響。由于S-LSTM模型考慮到了人與環(huán)境交互的影響并利用池層捕捉社會(huì)交互,故總體上S-LSTM模型的預(yù)測(cè)效果優(yōu)于LSTM模型。對(duì)于SA-LSTM模型,其在S-LSTM模型的基礎(chǔ)上引入了社會(huì)注意力機(jī)制,提高了整體模型對(duì)人群交互的掌控。通過(guò)捕捉每個(gè)行人在人群中的相對(duì)重要性,從而更好了解不同運(yùn)動(dòng)狀態(tài)對(duì)行人未來(lái)軌跡的影響。對(duì)兩者進(jìn)行性能比較可知,在5種場(chǎng)景下的數(shù)據(jù)集所計(jì)算出的平均ADE和平均FDE分別下降了14%和12%。數(shù)據(jù)表明,引入注意力機(jī)制有助于提高軌跡預(yù)測(cè)模型的精準(zhǔn)度。
表2 各模型在5個(gè)公共數(shù)據(jù)集上的ADE和FDE
除以上3種模型外,基于圖注意力機(jī)制的Social-BiGAT模型和基于GAN的軌跡預(yù)測(cè)模型S-GAN,其多模態(tài)預(yù)測(cè)軌跡的預(yù)測(cè)效果優(yōu)于上述3種模型。這兩種模型的預(yù)測(cè)結(jié)果與前3種模型相比具有較小的預(yù)測(cè)誤差,這也是多模態(tài)預(yù)測(cè)的優(yōu)勢(shì)。在某些數(shù)據(jù)集上雖然Social-BiGAT模型性能優(yōu)于本文模型,但是由于其選取了VGG編碼器處理原始圖像,故模型實(shí)時(shí)性將受到影響。與Social-BiGAT和S-GAN模型不同,ST-GAN-1模型通過(guò)融合行人節(jié)點(diǎn)的交互信息進(jìn)行多模態(tài)預(yù)測(cè)行人軌跡。評(píng)估結(jié)果表明,ST-GAN-1模型進(jìn)一步減小了軌跡預(yù)測(cè)的誤差。有趣的是,盡管ST-GAN-2模型同時(shí)考慮了場(chǎng)景信息中的行人節(jié)點(diǎn)與固定障礙物節(jié)點(diǎn),但是在UCY-zara1、UCY-zara2、UCY-univ這3個(gè)場(chǎng)景中,ST-GAN-1模型與ST-GAN-2模型所表現(xiàn)的評(píng)估結(jié)果并無(wú)很大的差異。通過(guò)場(chǎng)景觀(guān)察,認(rèn)為行人軌跡與固定障礙物的位置有關(guān)。以上3個(gè)場(chǎng)景中只有停在路邊的車(chē)輛,其對(duì)行人的路線(xiàn)決策影響較小。在ETH-univ和ETH-hotel兩個(gè)場(chǎng)景中,行人在行走過(guò)程中有很多的固定障礙物需要躲避,所以考慮了固定障礙物節(jié)點(diǎn)的ST-GAN-2模型表現(xiàn)得更為出色。與S-GAN模型相比,5種場(chǎng)景下ST-GAN-2模型的性能指標(biāo)平均ADE與平均FDE分別降低了19%和14%。
除此之外,模型的推理速度對(duì)于軌跡預(yù)測(cè)至關(guān)重要,在自動(dòng)駕駛技術(shù)中尤為突出,快速的推理速度給予系統(tǒng)更多的決策時(shí)間,從而使得決策更加合理。在表3中記錄了各個(gè)模型的推理速度,可以看出準(zhǔn)確率最低的LSTM模型的推理速度最快。S-LSTM模型需要計(jì)算每個(gè)行人在網(wǎng)格范圍內(nèi)與其他行人的交互,計(jì)算效率相對(duì)較低,推理速度不理想。SA-LSTM模型通過(guò)成對(duì)交互計(jì)算來(lái)捕捉人群中每個(gè)行人對(duì)于整體的相對(duì)重要性,該方法重復(fù)計(jì)算且大量消耗計(jì)算資源,推理速度最慢。和推理速度最快的S-GAN模型相似,所提出的ST-GAN模型通過(guò)前向計(jì)算將所有的實(shí)例特征節(jié)點(diǎn)匯總到全局節(jié)點(diǎn)。實(shí)驗(yàn)結(jié)果表明,全局節(jié)點(diǎn)能夠更有效地捕捉交互特征。對(duì)比SA-LSTM模型,ST-GAN-1模型的推理速度提高了25.4倍,ST-GAN-2模型的推理速度提高了23.3倍。
表3 模型的推理速度
以ETH-hotel、ETH-univ、UCY-zara1這3個(gè)場(chǎng)景數(shù)據(jù)集為背景對(duì)ST-GAN-2模型進(jìn)行定性評(píng)估??梢暬Y(jié)果如圖3所示,在所列出的場(chǎng)景中,當(dāng)行人處于穩(wěn)定的行走狀態(tài)時(shí),模型以多模態(tài)軌跡預(yù)測(cè)方法得到的行人未來(lái)軌跡分布與真實(shí)的未來(lái)軌跡高度一致。實(shí)驗(yàn)結(jié)果表明,所提模型可以很好地理解實(shí)驗(yàn)中所列舉出的復(fù)雜場(chǎng)景,比如行人在行走過(guò)程中躲避障礙物、行人之間的穿插以及跟隨等。具體地說(shuō),圖3中,粗虛線(xiàn)表示歷史軌跡,粗實(shí)線(xiàn)表示真實(shí)未來(lái)軌跡,大量細(xì)實(shí)線(xiàn)表示多模態(tài)預(yù)測(cè)軌跡。在圖3(a)、圖3(b)中,此模型成功預(yù)測(cè)了行人在行走過(guò)程中躲避樹(shù)木和路燈的行動(dòng)。圖3(b)、圖3(c)中,此模型很好地理解了行人之間的跟隨并做出了準(zhǔn)確預(yù)測(cè)。圖3(d)、圖3(e)中,該模型準(zhǔn)確地預(yù)測(cè)了行人交互以及躲避路邊石球的行為。綜上所述,本文提出的模型具有良好的預(yù)測(cè)性能,在簡(jiǎn)單場(chǎng)景中預(yù)測(cè)軌跡與真實(shí)軌跡完全貼合。
然而,實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)行人的運(yùn)動(dòng)狀態(tài)突然發(fā)生巨大改變時(shí),模型對(duì)行人的軌跡預(yù)測(cè)與其真實(shí)軌跡之間會(huì)發(fā)生很大的偏差。例如在圖3(f)中,模型對(duì)此場(chǎng)景的預(yù)測(cè)輸出是防止兩者發(fā)生碰撞。但是實(shí)際上,當(dāng)兩行人見(jiàn)面后,其中一人改變了行走方向,兩人朝著同一方向行進(jìn)。但是在圖3(g)、圖3(h)中模型對(duì)正在直線(xiàn)行走的兩個(gè)行人預(yù)測(cè)出了存在轉(zhuǎn)彎的傾向。在其它場(chǎng)景中,通過(guò)觀(guān)察行人的真實(shí)未來(lái)軌跡與模型預(yù)測(cè)軌跡,可以發(fā)現(xiàn),隨著場(chǎng)景信息進(jìn)一步的輸入到訓(xùn)練模型中,預(yù)測(cè)的未來(lái)軌跡分布與真實(shí)的未來(lái)軌跡之間的偏差在逐步減小。
本文提出了一種基于ST-GAN框架的行人軌跡預(yù)測(cè)模型,通過(guò)靈活的時(shí)空?qǐng)D結(jié)構(gòu)完整地模擬了人與環(huán)境各類(lèi)型的交互。創(chuàng)新性地提出用于集成場(chǎng)景上下文信息的全局節(jié)點(diǎn),并結(jié)合了兩種預(yù)測(cè)行人軌跡的方法。此外,通過(guò)引入GAN對(duì)行人軌跡進(jìn)行多模態(tài)預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,提出的框架是準(zhǔn)確有效的,精確度與速度都得到了提高。
在未來(lái)的研究中,探索如何將人物行為姿態(tài)融入框架,并且在框架中加入豐富的語(yǔ)義信息處理網(wǎng)絡(luò)。通過(guò)對(duì)模型的進(jìn)一步完善,針對(duì)行人未來(lái)軌跡預(yù)測(cè)的工作,其預(yù)測(cè)的精度、速度等將會(huì)有很大的提升。