孫亞圣 姜奇 胡潔 戚進 彭穎紅
摘 要:針對長短期記憶網(wǎng)絡(LSTM)在行人軌跡預測問題中孤立考慮單個行人,且無法進行多種可能性預測的問題,提出基于注意力機制的行人軌跡預測生成模型(AttenGAN),來對行人交互模式進行建模和概率性地對多種合理可能性進行預測。AttenGAN包括一個生成器和一個判別器,生成器根據(jù)行人過去的軌跡概率性地對未來進行多種可能性預測,判別器用來判斷一個軌跡是真實的還是由生成器偽造生成的,進而促進生成器生成符合社會規(guī)范的預測軌跡。生成器由一個編碼器和一個解碼器組成,在每一個時刻,編碼器的LSTM綜合注意力機制給出的其他行人的狀態(tài),將當前行人個體的信息編碼為隱含狀態(tài)。預測時,首先用編碼器LSTM的隱含狀態(tài)和一個高斯噪聲連接來對解碼器LSTM的隱含狀態(tài)初始化,解碼器LSTM將其解碼為對未來的軌跡預測。在ETH和UCY數(shù)據(jù)集上的實驗結(jié)果表明,AttenGAN模型不僅能夠給出符合社會規(guī)范的多種合理的軌跡預測,并且在預測精度上相比傳統(tǒng)的線性模型(Linear)、LSTM模型、社會長短期記憶網(wǎng)絡模型(S-LSTM)和社會對抗網(wǎng)絡(S-GAN)模型有所提高,尤其在行人交互密集的場景下具有較高的精度性能。對生成器多次采樣得到的預測軌跡的可視化結(jié)果表明,所提模型具有綜合行人交互模式,對未來進行聯(lián)合性、多種可能性預測的能力。
關(guān)鍵詞:軌跡預測;長短期記憶網(wǎng)絡;生成對抗網(wǎng)絡;注意力機制;行人交互
中圖分類號: TP391.4
文獻標志碼:A
文章編號:1001-9081(2019)03-0668-07
Abstract: Aiming at that Long Short Term Memory (LSTM) has only one pedestrian considered in isolation and cannot realize prediction with various possibilities, an attention mechanism based generative model for pedestrian trajectory prediction called AttenGAN was proposed to construct pedestrian interaction model and predict multiple reasonable possibilities. The proposed model was composed of a generator and a discriminator. The generator predicted multiple possible future trajectories according to pedestrians past trajectory probability while the discriminator determined whether the trajectories were really existed or generated by the discriminator and gave feedback to the generator, making predicted trajectories obtained conform social norm more. The generator consisted of an encoder and a decoder. With other pedestrians information obtained by the attention mechanism as input, the encoder encoded the trajectories of the pedestrian as an implicit state. Combined with Gaussian noise, the implicit state of LSTM in the encoder was used to initialize the implicit state of LSTM in the decoder and the decoder decoded it into future trajectory prediction. The experiments on ETH and UCY datasets show that AttenGAN can provide multiple reasonable trajectory predictions and can predict the trajectory with higher accuracy compared with Linear, LSTM, S-LSTM (Social LSTM) and S-GAN (Social Generative Adversarial Network) models, especially in scenes of dense pedestrian interaction. Visualization of predicted trajectories obtained by the generator indicated the ability of this model to capture the interaction pattern of pedestrians and jointly predict multiple reasonable possibilities.
Key words: trajectory prediction; Long Short Term Memory (LSTM); Generative Adversarial Network (GAN); attention mechanism; pedestrian interaction
0 引言
行人軌跡預測是指根據(jù)行人過去一段時間的軌跡,預測其未來的軌跡,該技術(shù)在自動駕駛[1]和服務機器人導航[2-3]中都有著廣泛的應用。行人在決策的過程中比較靈活主觀,甚至完全相同的場景,不同的人都會采取不同的決策,其機動性和靈活性大大增加了該問題的難度,其具體的難點可以概括為以下幾個方面:
1)如何預測出既符合物理約束,又符合社會規(guī)范的軌跡。符合物理約束指預測出的軌跡應該是物理可行的,例如一個人不能穿過另一個人等。符合社會規(guī)范指行人的一些社會學行為,例如結(jié)伴而行、相互禮讓等。
2)如何對多個行人之間的相互影響進行建模。行人在作決策時不是獨立的,而是存在例如躲避、追趕、跟隨、超過等交互性的行為。
3)如何預測出多個合理的軌跡。在實際場景中,往往不只有一種軌跡符合條件,通常有多個軌跡都是合理的。
目前行人軌跡預測方法主要有4類:基于社會力模型、基于馬爾可夫模型、基于循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)和基于生成對抗網(wǎng)絡(Generative Adversarial Network, GAN)的方法。
基于社會力模型[4]的方式根據(jù)引力與斥力的方式對行人進行建模,認為行人的目標會對行人產(chǎn)生引力進而吸引他們向目標走,行人之間產(chǎn)生斥力進而防止行人之間發(fā)生碰撞。該類模型具有模型簡單直觀、復雜性低的優(yōu)點;但存在模型對模型參數(shù)過于敏感,模型能力不夠強,泛化能力差,無法對于行人一些社會性的行為如結(jié)隊而行等進行描述的缺陷。在基于社會力模型思想的基礎上,為了可以概率性地預測軌跡而不是給出單一的軌跡,Trautman等[5]提出了交互式高斯過程IGP,利用高斯過程對每一個行人的軌跡進行預測,并根據(jù)社會力模型的勢函數(shù)計算該預測的概率,進而在預測的過程中考慮了行人之間的相互影響,同時能夠概率性地預測未來的軌跡。
Morris等[6]使用基于隱含馬爾可夫模型的方法對不同類別行人的軌跡進行時空的概率性建模。Kitani等[7]使用基于隱含馬爾可夫過程的方式對行人進行建模,并使用反向強化學習的方式訓練模型參數(shù),進而學習外界靜態(tài)的物理環(huán)境對行人的影響。
近年來隨深度學習的發(fā)展,基于數(shù)據(jù)驅(qū)動的建模方式成為研究熱點,由于行人軌跡預測本質(zhì)上是一個時序序列,故其主要以循環(huán)神經(jīng)網(wǎng)絡(RNN)為代表性的建模方式。但RNN無法進行高層次的空間關(guān)系建模,為刻畫行人在空間的交互,Alahi等[8]提出了社會長短期記憶網(wǎng)絡模型(Social Long Short Term Memory, S-LSTM),首先對空間進行網(wǎng)格化,并根據(jù)網(wǎng)格直接對每個個體附近網(wǎng)格中的其他個體的隱含特征池化,利用該池化結(jié)果對個體進行符合物理原理和社會規(guī)范的軌跡預測。但其假設對該個體的影響是由與該個體的位置遠近決定的,而在實際中,一個個體的行為決策不僅與空間位置有關(guān),還與其他個體的運動方向、運動速度有關(guān),例如一個個體可能會提前行動躲避前面一位比較遠的與他相對而行的個體,而對于他后面距離比較近的個體并不會采取什么行動。因此,Vemula等[9]中使用了結(jié)構(gòu)化RNN對各個個體建模,并利用時空關(guān)系圖來描述各個個體的隨時間和空間的軌跡變化規(guī)律,時空關(guān)系圖的每個節(jié)點代表每一個行人個體,每個節(jié)點與其他節(jié)點用空間邊相連,與自己用時間邊相連,空間邊和時間邊都用RNN來描述其隨時間的變化,最后在每個節(jié)點更新時使用注意力機制來融合與其相鄰的邊的信息,該方法較好地對時空進行建模,但其計算復雜度相對較高。
Gupta等[10]將生成對抗網(wǎng)絡引入行人軌跡預測中,提出了社會對抗網(wǎng)絡(Social Generative Adversarial Network, S-GAN)模型,該模型提出了一種新的池化策略來描述該行人之間的影響,并利用了生成對抗網(wǎng)絡的思想進一步強迫軌跡預測模塊預測出符合社會規(guī)范的軌跡。
鑒于基于生成對抗網(wǎng)絡方法預測的軌跡更加符合物理約束和社會規(guī)范,且通過生成器的采樣可以產(chǎn)生多個合理的軌跡。 故本文借助生成對抗網(wǎng)絡的思想,并使用注意力機制來融合行人之間的相對位置信息進而對人群交互進行建模。實驗表明該方法可以有效地提高預測的精度,并且可以對多種合理的可能性進行預測。
1 相關(guān)理論
1.1 注意力機制
注意力機制最早被用于圖像處理的領(lǐng)域[11],而后也被廣泛應用在自然語言處理方向[12]。注意力機制的本質(zhì)是對于一組感興趣的特征中的每一個特征進行softmax打分,例如這一組感興趣的特征可能是一幅圖片,那么就是對圖片中的每一個像素進行打分,例如這一組感興趣的特征是一個句子,那么就是對該句子中的每一個單詞進行打分。通常注意力機制的輸入為當前狀態(tài)ht和感興趣的一組特征f=(f 1, f 2,…, f n),輸出為對這n個特征的softmax打分s=(s1,s2,…,sn),在后續(xù)處理中可以利用該打分對特征進行過濾[13]或重新整合輸入到系統(tǒng)中。
1.2 生成對抗網(wǎng)絡
生成對抗網(wǎng)絡(GAN)[14]由一個生成器(Generator, G)和一個判別器(Discriminator, D)組成。生成器的輸入為符合某種先驗分布的噪聲,如高斯分布、均勻分布等,生成器學著把該分布變化為與樣本分布一致的分布;判別器的輸入為來自生成器中的樣本和來自訓練集的樣本,判別器學著分辨一個樣本是由生成器生成的還是訓練集中的。通過同時對生成器和判別器的博弈訓練,生成器最終可以生成類似訓練集的樣本。由于生成器學到的是一個和訓練集類似的概率分布,每次采樣都會給出一個不同的合理樣本,故可以被用來對多種可能性進行預測。
1.3 長短期記憶網(wǎng)絡模塊
循環(huán)神經(jīng)網(wǎng)絡(RNN)被廣泛用來對時序序列建模,每一個時刻,RNN根據(jù)上一個時刻的狀態(tài)ht-1和當前的輸入xt計算出當前時刻的狀態(tài)ht,故每一個時刻狀態(tài)ht包含了它之前時刻的所有有用信息。
為了解決傳統(tǒng)RNN訓練時后向傳播存在的梯度彌散的問題,長短期記憶網(wǎng)絡(Long Short Term Memory, LSTM)[15]被提出。通過加入輸入門、遺忘門和輸出門來在每個時刻有選擇地遺忘,有選擇地加入新的信息給當前狀態(tài)ht,該策略使得后向誤差可以向前傳播很多步不消失。類似于RNN,LSTM網(wǎng)絡也可以表示為:
2 行人軌跡生成模型
2.1 問題定義
2.2 整體網(wǎng)絡結(jié)構(gòu)
2.3 注意力模塊
行人個體的行為決策不僅與他自己當前的位置信息Xti和過去的狀態(tài)ht-1i有關(guān),也與他周圍的行人個體有關(guān)。為了刻畫他周圍的行人個體對他的影響,使用注意力機制來選擇對當前行人有用的其他行為個體的位置信息Hti輸入到編碼器LSTM模塊。
2.4 編碼器模塊
編碼器模塊LSTM的輸入為注意力模塊提取的對當前行人有用的周圍行人的位置信息Hti和當前行人的位置信息Xti。
2.5 解碼器模塊
解碼器模塊LSTM的初始隱含狀態(tài)htdi由編碼器最后時刻t=tobs的狀態(tài)htei和高斯噪聲z決定。我們將htei經(jīng)過一個多層感知機模塊MLP(·)并與噪聲z連接得到htdi。
2.6 判別器
2.8 模型訓練過程
對抗訓練過程中,生成器G根據(jù)過去的軌跡Xi以及從先驗噪聲分布中采樣的z偽造出未來可能的軌跡G(Xi,z),該軌跡輸入到判別器后得到D(G(Xi,z)),生成器盡力使其接近1,但判別器盡量使其接近0,在這樣的博弈訓練過程中,最終兩者達到平衡,由此達到讓生成器預測出符合物理約束和社會規(guī)范的軌跡的目的。具體的訓練過程見以下偽代碼。
為保證生成器生成軌跡的多樣性,在計算位置偏移損失時,我們本文會進行k次采樣,并選用損失最小的那組數(shù)據(jù)的對網(wǎng)絡進行反向傳播優(yōu)化。由于訓練時誤差回傳使用的是效果最好的一種猜測,該種方式可以促進模型大膽地對各種可能性進行猜測,而不是給出一個相對保險的軌跡預測,該策略可以有效地避免生成器預測的軌跡大都相似的問題[17]。本文中取k=10,在對模型評價的時候,同理也是隨機進行k次采樣選用最小的偏移誤差作為模型在偏移誤差指標上的最終表現(xiàn)。模型訓練過程如GAN_LOOP所示。
網(wǎng)絡訓練過程GAN_LOOP:
3 實驗仿真與結(jié)果分析
本文在數(shù)據(jù)集ETH[18]和UCY[19]上驗證所提出的AttenGAN模型,這兩個數(shù)據(jù)集包含五個不同的真實的行人交互的場景,ETH數(shù)據(jù)集包含ETH和Hotel兩個場景,UCY數(shù)據(jù)集包含Zara1、Zara2和Univ三個場景。實驗運行在Ubuntu 16.04 LTS 的操作系統(tǒng)上,GPU為NVIDIA GTX 1080TI,CPU為i7700k,采用Pytorch 0.4的深度學習框架,CUDA toolkit 8.0的運行環(huán)境。
為驗證本文提出的模型的有效性,選取了經(jīng)典的線性回歸模型Linear、樸素的長短期記憶網(wǎng)絡模型LSTM以及最近提出的社會長短期記憶網(wǎng)絡模型(S-LSTM)和社會對抗網(wǎng)絡模型(S-GAN)作對比。
3.1 模型參數(shù)與訓練過程
網(wǎng)絡訓練采用批量訓練的方式,每一批包含64組數(shù)據(jù),每一組數(shù)據(jù)包含若干個行人,觀測序列長度tobs=8,預測序列長度tpred=8,訓練和預測階段生成器采樣次數(shù)k=8。使用Adam優(yōu)化算法對生成器和判別器進行同時訓練降低其損失函數(shù)。訓練迭代次數(shù)設為8000,生成器和判別器的學習速率都設為1×10-3,每隔4000次將學習速率減小為原來的0.1倍,Adam優(yōu)化器中的權(quán)重衰減系數(shù)設為1×10-5。
測試集與訓練集的劃分方式與文獻[9-10]類似,每個場景中劃分70%的數(shù)據(jù)為訓練集,30%的數(shù)據(jù)為驗證集。采用五折交叉驗證的方式,用其他4個場景中的訓練數(shù)據(jù)訓練網(wǎng)絡,選用在驗證集上表現(xiàn)最好的網(wǎng)絡在目標場景進行測試和精度計算,在5個場景中重復這樣的操作。模型訓練過程中生成損失,判別損失和位置偏移損失如圖2所示。
由圖2可知,隨著訓練過程迭代次數(shù)的增加,生成損失和位置偏移損失呈現(xiàn)緩慢下降趨勢,判別損失呈現(xiàn)緩慢上升趨勢,但可以看到最終都波動減小,趨于平緩。綜合損失函數(shù)的變化趨勢,實驗中將訓練的迭代次數(shù)設為8000。
3.2 預測精度性能比較
類似于文獻[20],選用平均偏移誤差(Average Differential Error, ADE)和最終偏移誤差(Final Differential Error, FDE)作為評價指標來刻畫預測軌跡的準確性。
其中:平均偏移誤差ADE用來刻畫預測序列的在所有預測時刻t平均的準確性,最終偏移誤差FDE用來刻畫預測序列累計在最后時刻tpred的準確性。
各種軌跡模型的結(jié)果在平均偏移誤差ADE上的對比結(jié)果如表1的ADE部分,在最終偏移誤差FDE上的對比結(jié)果如表1的FDE部分,表中單位為米(m),表中每行描述一個方法在不同場景下的計算偏移誤差。ADE和FDE數(shù)值越小表示模型預測與真實偏移越小,模型預測越準確,表中用粗體下劃線標明了在每個場景上表現(xiàn)性能最好的模型。
從表1中可以看出,考慮平均偏移誤差ADE時,所提的AttenGAN模型在Univ、Zara1和Zara2的場景上的預測精度性能均是最好的。相對于基于網(wǎng)格劃分與“社會池化”的S-
LSTM模型,S-GAN和AttenGAN使用了對抗機制,因此預測精度更高。而S-GAN所提的基于“池化模塊”融合的方式需要在觀測序列結(jié)束的時刻tobs來融合周圍行人的信息,AttenGAN則可以在每一個時刻t均進行信息融合,并且,不同于S-GAN在“池化模塊”對于所有行人作全局性的最大池化操作,AttenGAN“有選擇”地融合對當前行人有用的那些信息,因此模型具有更強的表現(xiàn)能力,進而可以精確地對行人交互模式進行刻畫。故相比于S-GAN,AttenGAN的預測精度得以進一步的提高。
從表1的FDE部分可以看出,考慮最終偏移誤差FDE時,所提的AttenGAN模型在ETH、Univ和Zara2的場景中預測精度性能均是最好的。
但是注意到在Hotel場景中,線性回歸Linear模型在ADE和FDE指標上都表現(xiàn)最好,我們猜測這可能與Hotel場景中行人交互較少,大多為線性化的軌跡有一定關(guān)系。
綜合表1可以看出,基于神經(jīng)網(wǎng)絡的模型比傳統(tǒng)的線性Linear模型預測精度更高,這是由于神經(jīng)網(wǎng)絡模型更加復雜,表現(xiàn)能力更強;基于生成對抗網(wǎng)絡GAN的模型如S-GAN和AttenGAN比直接對偏移誤差優(yōu)化的LSTM和S-LSTM預測精度高,這是由于生成對抗的訓練方式提高了模型對概率分布的刻畫性能,進一步優(yōu)化了性能。由于注意力機制的引入,相比S-GAN本文提出的AttenGAN模型在預測精度性能上有進一步的提升,其預測精度性能在ADE和FDE指標上的平均水平均為最高平均ADE和平均FDE更低。
圖3中給出了Linear、S-LSTM和AttenGAN在ETH數(shù)據(jù)集的Hotel場景上的預測軌跡對比,虛線為模型可觀測的過去的軌跡,最后2張圖為AttenGAN表現(xiàn)不好的情況。模型根據(jù)觀測的8個時刻(3.2s)的軌跡,向前預測8個時刻(3.2s)。由于AttenGAN每次會預測10條軌跡,這里展示位置偏移誤差最小的一條軌跡。從圖3中可以看出,AttenGAN能夠預測出與真實軌跡相近的軌跡。在圖3(a)中AttenGAN成功地預測出該行人將前面的人超過并且又回到原路線的行為,Linear則無法對這樣的場景進行較好的預測,而S-LSTM卻給出了超過前面行人然后“向右”避讓另一個行人的預測軌跡。在圖3(c)中,AttenGAN預測出了兩個行人并排行走面對沖突時,選擇保持原方向等待對方讓路的行為,而S-LSTM則預測該行人會采取“避讓”的方式。這在一定程度上體現(xiàn)了AttenGAN可以進行多種可能性的預測的優(yōu)勢,如在上述情況S-LSTM預測的路線也是有可能的,但由于其預測的單一性,無法對真實情況正確建模。圖3(e)(f)為AttenGAN預測失敗的情形,在圖3(e)中該行人向右轉(zhuǎn)走向公交車,AttenGAN則預測其會繼續(xù)向前走,在圖3(f)中行人斜向穿過了人行道,AttenGAN則預測其會減速跟隨前面的行人繼續(xù)在人行道上行走,失敗的情形說明AttenGAN缺乏對行人某些有目的的特定行為進行建模的能力,但AttenGAN仍然給出了較為合理的預測軌跡。
3.3 模型效率比較
本節(jié)對比基于神經(jīng)網(wǎng)絡實現(xiàn)方式的各種軌跡預測模型的時間性能,訓練所用參數(shù)均和3.1節(jié)中的模型參數(shù)一致,每個模型訓練的迭代次數(shù)都設為8000。為反映模型的實時性能,各個模型的預測時間平均為預測一組數(shù)據(jù)所需要的時間。
從表2中可以看出,從上到下,所提模型的復雜程度逐漸增加,模型訓練時間和預測時間均增加。S-LSTM“社會池化”層需要融合網(wǎng)格中的多個隱含狀態(tài),故時間開銷要大于LSTM。相比基于LSTM的方法,基于GAN方法的S-GAN和AttenGAN需要訓練生成模型和判別模型兩個模型,且要進行多次采樣,而每一次采樣生成器都會進行一次前向傳播,故訓練所用時間更長。同理,S-GAN與AttenGAN模型在預測時間方面相比其他方法更久也是由于其每次會預測多個合理序列而不是一個平均性的序列。相比S-GAN,AttenGAN訓練時間更長一些,這是由于AttenGAN引入的注意力機制在每一個時刻都進行信息融合,而S-GAN只在觀測了完整觀測序列后進行一次全局池化,故AttenGAN時間花費更大。綜上,AttenGAN犧牲了部分時間性能來保證其預測精度以及所生成軌跡的多樣性,但模型的實時性能依舊可以保證。
3.4 定性分析
給定一個場景,根據(jù)過去的軌跡未來可能會有多種合理性的預測,不同于傳統(tǒng)模型給出一個平均化的軌跡預測,得益于生成對抗的思想,每一次生成器從噪聲取樣AttenGAN都會給出一種合理性的預測。圖4中為UCY數(shù)據(jù)集中Zara2場景在4分40秒時,AttenGAN給出的3種預測可能性,模型向前預測8個時刻(3.2s),其中實線是真實的行人軌跡,虛線是模型預測的行人軌跡,箭頭方向指示行人的運動方向,箭頭位置代表行人最終所在位置。圖4(a)為模型預測行人之間保持原行走速度和方向不發(fā)生碰撞的情形;圖4(b)為模型預測的右邊行人通過減慢速度并改變方向來與避免與左邊行人發(fā)生碰撞的情形;圖4(c)為模型預測的行人之間采用“靠右”的社會規(guī)范進行避讓的情形,該預測與真實的行人軌跡比較貼合。
可以看出,模型可以預測出的多種行人之間相互避讓情形的合理軌跡,能夠基本滿足物理約束和社會規(guī)范。
4 結(jié)語
為對行人的交互性運動模式進行建模,本文提出了基于注意力機制的軌跡預測生成模型,并引入生成對抗網(wǎng)絡對模型進行訓練。實驗結(jié)果表明注意力機制可以很好地描述行人之間的交互性運動模式,并可以對行人軌跡進行聯(lián)合性的預測,在預測精度性能方面上優(yōu)于Linear、LSTM、S-LSTM和S-GAN模型。同時,基于生成對抗網(wǎng)絡的訓練方式該模型可以對未來多種合理的可能性軌跡進行預測,而非僅僅預測一個平均的軌跡。
由于模型復雜程度的提高,可以看出,該模型在時間性能上與其他模型相比較差,且在行人交互較少的場景中表現(xiàn)欠佳,推測可能在用注意力機制進行信息融合時引入了部分噪聲。
通過注意力機制,可以將其他模態(tài)信息例如圖片等信息加入到該模型中,進而進一步提高預測的準確性。后續(xù)研究會考慮將其他模態(tài)的信息例如圖片,視頻信息融合到模型中來刻畫外界物理環(huán)境對行人的影響,以此進一步提高模型的預測精度。
參考文獻 (References)
[1] LARGE F, VASQUEZ D, FRAICHARD T, et al. Avoiding cars and pedestrians using velocity obstacles and motion prediction [J]. IEEE Intelligent Vehicles Symposium, 2004: 375-379.
LARGE F, VASQUEZ D, FRAICHARD T, et al. Avoiding cars and pedestrians using velocity obstacles and motion prediction [EB/OL]. [2018-07-01]. https://www.researchgate.net/publication/29642615_Avoiding_Cars_and_Pedestrians_using_V-Obstacles_and_Motion_Prediction.
[2] THOMPSON S, HORIUCHI T, KAGAMI S. A probabilistic model of human motion and navigation intent for mobile robot path planning [C]// Proceedings of the 2009 4th International Conference on Autonomous Robots and Agents. Piscataway, NJ: IEEE, 2009: 663-668.
[3] BENNEWITZ M. Learning motion patterns of people for compliant robot motion [J]. The International Journal of Robotics Research, 2005, 24(1): 31-48.
[4] HELBING D, MOLNR P. Social force model for pedestrian dynamics [J]. Physical Review E: Statistical Physics Plasmas Fluids and Related Interdisciplinary Topics, 1995, 51(5): 4282-4286.
[5] TRAUTMAN P, KRAUSE A. Unfreezing the robot: navigation in dense, interacting crowds [C]// Proceedings of the 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE, 2010: 797-803.
[6] MORRIS B T, TRIVEDI M M. Trajectory learning for activity understanding: unsupervised, multilevel, and long-term adaptive approach [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(11): 2287-2301.
[7] KITANI K M, ZIEBART B D, BAGNELL J A, et al. Activity forecasting [C]// Proceedings of the 2012 European Conference on Computer Vision, LNCS 7575. Berlin: Springer, 2012: 201-214.
[8] ALAHI A, GOEL K, RAMANATHAN V, et al. Social LSTM: human trajectory prediction in crowded spaces [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 961-971.
[9] VEMULA A, MUELLING K, OH J. Social attention: modeling attention in human crowds [EB/OL]. [2017-10-12] ?[2018-03-25]. https://arxiv.org/pdf/1710.04689.pdf.
[10] GUPTA A, JOHNSON J, LI F-F, et al. Social GAN: socially acceptable trajectories with generative adversarial networks [EB/OL]. [2018-03-29] [2018-05-04]. https://arxiv.org/abs/1803.10892.pdf.
[11] MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention [C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014, 2: 2204-2212.
[12] CHEN H, SUN M, TU C, et al. Neural sentiment classification with user and product attention [C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, Texas: [s. n.], 2016: 1650-1659.
[13] 盧玲,楊武,王遠倫,等.結(jié)合注意力機制的長文本分類方法[J].計算機應用,2018,38(5):1272-1277.(LU L, YANG W, WANG Y L, et al. Long text classification combined with attention mechanism [J]. Journal of Computer Applications, 2018, 38(5):1272-1277.)
[14] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Advances in Neural Information Processing Systems, 2014, 3: 2672-2680.
[15] HOCHREITER S, SCHMIDHUBER J. Long short-term memory [M]// GRAVES A. Supervised Sequence Labelling with Recurrent Neural Networks. Berlin: Springer, 2012: 37-45.
[16] XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention [J]. International conference on machine learning. 2015: 2048-2057.
XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention [EB/OL]. [2018-07-01]. https://arxiv.org/pdf/1502.03044v2.pdf.
[17] FAN H, SU H, GUIBAS L. A point set generation network for 3D object reconstruction from a single image [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 2463-2471.
[18] PELLEGRINI S, ESS A, van GOOL L. Improving data association by joint modeling of pedestrian trajectories and groupings [C]// Proceedings of the 2010 European Conference on Computer Vision, LNCS 6311. Berlin: Springer, 2010: 452-465.
[19] LERNER A, CHRYSANTHOU Y, LISCHINSKI D. Crowds by example [J]. Computer Graphics Forum, 2007, 26(3): 655-664.
[20] LEE N, CHOI W, VERNAZA P, et al. DESIRE: Distant future prediction in dynamic scenes with interacting Agents [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 2165-2174.