張子涵,周斌,李文豪
(中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074)
近年來(lái),隨著計(jì)算機(jī)視覺(jué)和人工智能的進(jìn)步,軌跡處理技術(shù)廣泛應(yīng)用于機(jī)器人導(dǎo)航、自動(dòng)駕駛、視頻的智能監(jiān)控等領(lǐng)域。人類(lèi)軌跡的預(yù)測(cè)最近已經(jīng)成為計(jì)算機(jī)視覺(jué)界一個(gè)充滿活力的研究課題。軌跡預(yù)測(cè)是根據(jù)過(guò)去的運(yùn)動(dòng)軌跡進(jìn)行建模,從而預(yù)測(cè)未來(lái)一段時(shí)間的軌跡,其中行人的軌跡預(yù)測(cè)是軌跡預(yù)測(cè)領(lǐng)域研究的基礎(chǔ)與重點(diǎn)?,F(xiàn)有的行人軌跡預(yù)測(cè)研究工作可以分為基于傳統(tǒng)模型和基于深度學(xué)習(xí)的方法。
Kalman提出卡爾曼濾波,將統(tǒng)計(jì)學(xué)應(yīng)用于軌跡預(yù)測(cè),利用前一時(shí)刻的狀態(tài)(和可能的測(cè)量值)來(lái)得到當(dāng)前時(shí)刻下?tīng)顟B(tài)的最優(yōu)估計(jì)。Chen等提出了光流卡爾曼濾波,此模型較傳統(tǒng)的卡爾曼濾波更精準(zhǔn),但只能局限于速度不變,運(yùn)動(dòng)較慢的行人。Williams提出用高斯過(guò)程分布來(lái)對(duì)行人的速度和方向等運(yùn)動(dòng)參數(shù)進(jìn)行建模。Helbing和Molnar的Social Forces模型是經(jīng)典論文之一,他們提出了兩種力,第一種力是引導(dǎo)人們相互走近的吸引力,第二種力是使行人避免碰撞的排斥力。Trautman和Krause提出進(jìn)一步的改進(jìn),在Social Forces模型基礎(chǔ)上利用高斯IGP得出行人軌跡的概率性預(yù)測(cè)。這些傳統(tǒng)模型局限于手動(dòng)設(shè)置的行人屬性和函數(shù),僅適用于行人基本沒(méi)有互動(dòng)的情況,逐漸被數(shù)據(jù)所驅(qū)動(dòng)的深度學(xué)習(xí)模型所超越。
行人的軌跡可以看做一個(gè)典型的序列到序列(sequence-to-sequence,seq2seq)問(wèn)題,因此善于處理時(shí)間序列的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)逐漸走進(jìn)研究者們的視野。然而,由于梯度消失或梯度爆炸的問(wèn)題,簡(jiǎn)單的RNN很難記住長(zhǎng)期的輸入信息,所以研究者設(shè)計(jì)出擅長(zhǎng)處理長(zhǎng)期依賴關(guān)系數(shù)據(jù)的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM),尤其是LSTM在時(shí)間序列數(shù)據(jù)處理的成功應(yīng)用如語(yǔ)音識(shí)別、語(yǔ)言翻譯、圖像字幕等,為行人的軌跡預(yù)測(cè)提供了嶄新的思路。最經(jīng)典的是Alahi等提出的Social-LSTM模型,此模型中提出了一個(gè)新的概念“Social Pooling”,即根據(jù)行人的空間距離判斷處于鄰域內(nèi)行人的隱藏狀態(tài)進(jìn)行共享,得到行人周?chē)男畔?,以代表其他行人?duì)目標(biāo)行人軌跡的影響。其結(jié)果表明,Social-LSTM模型平均比Social Forces模型和其他基線方法更接近真實(shí)結(jié)果。然而,Social-LSTM模型對(duì)于重要場(chǎng)景的上下文信息具有一定的局限性。Lee等提出了深度隨機(jī)逆最優(yōu)控制RNN編碼器-解碼器(desire)框架,將場(chǎng)景上下文進(jìn)行排序和細(xì)化而不是直接對(duì)場(chǎng)景信 息 納 入 軌 跡 預(yù) 測(cè)。Bartoli等用contentpooling層進(jìn)一步拓展了Social-LSTM模型,這也使神經(jīng)網(wǎng)絡(luò)能夠研究障礙如何影響行人運(yùn)動(dòng)。Xue等創(chuàng)新性地提出了三種分工不同的LSTM來(lái)分別捕獲行人過(guò)去的信息、行人彼此的互動(dòng)信息和場(chǎng)景布局的信息,并用圓形鄰域代替矩形鄰域,使得預(yù)測(cè)精準(zhǔn)度進(jìn)一步提高。
如今,各種軌跡預(yù)測(cè)模型算法也被應(yīng)用于運(yùn)動(dòng)員的軌跡預(yù)測(cè)。預(yù)測(cè)運(yùn)動(dòng)員的運(yùn)動(dòng)軌跡相比于預(yù)測(cè)行人軌跡更加困難,因?yàn)槊恳粋€(gè)運(yùn)動(dòng)員對(duì)于下一時(shí)刻運(yùn)動(dòng)行為的選擇,不僅取決于自身的意圖,還取決于其他運(yùn)動(dòng)員的位置、運(yùn)動(dòng)方向以及運(yùn)動(dòng)速度。這些因素并不能直接觀察得到,只能從過(guò)去的信息推測(cè)出來(lái)。特別是在足球、籃球或者短道速滑等具有激烈對(duì)抗性的運(yùn)動(dòng)比賽中,預(yù)測(cè)運(yùn)動(dòng)軌跡具有極其關(guān)鍵的地位,能否提高預(yù)測(cè)精度,對(duì)于充分了解己方和對(duì)方運(yùn)動(dòng)員的位置信息與運(yùn)動(dòng)方式對(duì)在比賽中獲得戰(zhàn)術(shù)優(yōu)勢(shì),或者賽后的比賽數(shù)據(jù)精準(zhǔn)分析來(lái)說(shuō)都至關(guān)重要。Cohan使用LSTM來(lái)預(yù)測(cè)籃球運(yùn)動(dòng)員最佳的運(yùn)動(dòng)位置。Zheng等也研究了NBA球員的軌跡預(yù)測(cè),提出了一個(gè)基于VAE和LSTM的深度生成模型,并經(jīng)過(guò)弱監(jiān)督訓(xùn)練的深度生成模型來(lái)預(yù)測(cè)整個(gè)球隊(duì)的軌跡。
在本文工作中,將軌跡預(yù)測(cè)應(yīng)用于短道速滑中,旨在預(yù)測(cè)分析運(yùn)動(dòng)員的運(yùn)動(dòng)軌跡。短道速滑的軌跡分析屬于運(yùn)動(dòng)員軌跡預(yù)測(cè)領(lǐng)域,可以借鑒現(xiàn)代的行人軌跡預(yù)測(cè)理論方法進(jìn)行研究。短道速滑運(yùn)動(dòng)員運(yùn)動(dòng)特點(diǎn)與行人的特點(diǎn)相比主要有以下不同:
(1)短道速滑運(yùn)動(dòng)員的運(yùn)動(dòng)方向都是同向的,而行人的運(yùn)動(dòng)方向并不固定,受到場(chǎng)景和其他行人的影響。
(2)短道速滑運(yùn)動(dòng)員的運(yùn)動(dòng)速度與行人行走速度相比更快且變化更頻繁。因此,本文將運(yùn)動(dòng)員的速度信息作為重要條件。
(3)短道速滑運(yùn)動(dòng)員的運(yùn)動(dòng)軌跡相比行人而言,更具有規(guī)律性。
雖然,短道速滑運(yùn)動(dòng)軌跡具有規(guī)律性,大致分為直道軌跡和彎道軌跡。但是,在短道速滑訓(xùn)練或者比賽中,運(yùn)動(dòng)員之間出現(xiàn)頻繁的遮擋及位置交錯(cuò)的情況下難以避免地會(huì)出現(xiàn)運(yùn)動(dòng)員的軌跡紊亂現(xiàn)象,是否能準(zhǔn)確地預(yù)測(cè)短道速滑運(yùn)動(dòng)員軌跡成為了一種挑戰(zhàn)。
綜上所述,本文提出了一個(gè)基于LSTM編碼器-解碼器(encoder-decoder)框架的位置速度信息LSTM(position-velocity-LSTM,PV-LSTM)的軌跡預(yù)測(cè)模型,將軌跡預(yù)測(cè)應(yīng)用于短道速滑中,專(zhuān)注于運(yùn)動(dòng)員在真實(shí)訓(xùn)練或者比賽中的運(yùn)動(dòng)軌跡,從而準(zhǔn)確預(yù)測(cè)運(yùn)動(dòng)員未來(lái)的軌跡。
PV-LSTM在Encoder模塊采用速度和位置LSTM分別處理位置和速度信息,并在Encoder和Decoder中間引入注意力機(jī)制,添加速度注意力機(jī)制模塊,計(jì)算速度權(quán)重對(duì)軌跡影響較大的運(yùn)動(dòng)員軌跡信息,旨在提升軌跡預(yù)測(cè)的精度,最后在Decoder模塊對(duì)軌跡進(jìn)行預(yù)測(cè)。
在運(yùn)動(dòng)比賽或訓(xùn)練中,假設(shè)場(chǎng)上的運(yùn)動(dòng)員數(shù)量為,所以在時(shí)刻,場(chǎng)景中的每個(gè)運(yùn)動(dòng)員都由2D坐標(biāo)(x,y)表示。我們從=1到=T觀察每個(gè)運(yùn)動(dòng)員的位置,目的是預(yù)測(cè)運(yùn)動(dòng)員從=T到=T的位置,其中T與T分別表示結(jié)束觀察的時(shí)刻和結(jié)束預(yù)測(cè)的時(shí)刻。給定觀察軌跡P=[(,),…,(x,y)],其中和分別代表橫向位置和縱向位置。對(duì)于速度信息來(lái)說(shuō),短道速滑運(yùn)動(dòng)員在做行為決策的時(shí)候,相對(duì)速度比絕對(duì)速度更為重要,因此對(duì)于周?chē)乃倩\(yùn)動(dòng)員,本文選擇與目標(biāo)運(yùn)動(dòng)員的相對(duì)速度作為輸入U=[(,),…,(u,v)],其中和分別代表橫向速度和縱向速度。輸入到編碼器中的歷史位置和速度信息是:
其中,表示運(yùn)動(dòng)員中的一員,在時(shí)刻的歷史位置信息和速度信息。
整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,模型框架包括如下幾個(gè)模塊:LSTM編碼器模塊、注意力模塊和LSTM解碼器模塊。LSTM編碼器模塊首先將觀察到的位置信息和速度信息分別輸入到位置LSTM模塊和速度LSTM模塊,以獲得相應(yīng)模塊的隱藏狀態(tài)。接著將速度隱藏狀態(tài)輸入到對(duì)應(yīng)的注意力模塊中進(jìn)行加權(quán)求和,再與位置隱藏狀態(tài)連接形成最終上下文向量,最后LSTM解碼器模塊生成預(yù)測(cè)的軌跡。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖
編碼器模塊是由多層感知機(jī)(multi-layer perception,MLP)、位 置LSTM和 速 度LSTM組成。對(duì)于輸入進(jìn)編碼器的每個(gè)運(yùn)動(dòng)員的位置和速度信息,本模型通過(guò)MLP把信息分別嵌入到向量中,即:
其中,A和B是運(yùn)動(dòng)員在各個(gè)時(shí)刻的位置和速度隱藏狀態(tài)總和。
傳統(tǒng)編碼器輸出的B不能完全代表T之內(nèi)所有的速度狀態(tài)信息,因?yàn)榫幋a器-解碼器模型具有一定的局限性,第一個(gè)輸入序列信息會(huì)被隨后輸入序列數(shù)據(jù)稀釋或覆蓋,而且隨著輸入序列長(zhǎng)度的增加,這種現(xiàn)象會(huì)更加嚴(yán)重。
為了解決這一問(wèn)題,本模型采用注意力機(jī)制,其核心思想是在解碼過(guò)程的每一個(gè)時(shí)刻,都會(huì)選擇更合適的上下文向量。在本實(shí)驗(yàn)中,不同時(shí)間的速度信息對(duì)未來(lái)軌跡有不同的影響,注意力機(jī)制可以使影響預(yù)測(cè)結(jié)果的信息分配更大的權(quán)重,聚焦有用的信息,使預(yù)測(cè)更加精準(zhǔn)。上下文向量本質(zhì)上就是將所有隱藏狀態(tài)進(jìn)行加權(quán)求和得到的,B可以改寫(xiě)為:
最終,得到速度的上下文向量并與所有位置信息的隱藏狀態(tài)進(jìn)行連接,即:
其中是具非線性的全連接層,使得輸出的是最終的上下文向量,并輸入到LSTM解碼模塊。
通過(guò)注意力模塊輸入到本模塊的是最終上下文向量C,本模塊的結(jié)構(gòu)是標(biāo)準(zhǔn)的LSTM模型,輸出的預(yù)測(cè)軌跡計(jì)算公式如下:
上一個(gè)時(shí)間步LSTM解碼器的輸出作為輸入傳遞給下一個(gè)時(shí)間步LSTM解碼器,也就是說(shuō)解碼器在時(shí)間步時(shí)攜帶著時(shí)間步-1的位置與信息,在輸入到下一個(gè)時(shí)間步之前對(duì)位置與速度信息進(jìn)行加權(quán)并更新。
本文將嵌入層的維度設(shè)置為16,每個(gè)LSTM層的維度設(shè)置為32。該模型使用Adam優(yōu)化器進(jìn)行訓(xùn)練,初始學(xué)習(xí)率為0.001。在訓(xùn)練過(guò)程中,本預(yù)測(cè)模型將Droput率設(shè)置為0.2,以避免過(guò)度擬合。本文使用的數(shù)據(jù)集有速滑運(yùn)動(dòng)員日常訓(xùn)練的數(shù)據(jù)集(DET),由多名速滑運(yùn)動(dòng)員日常訓(xùn)練數(shù)據(jù)組成,ETH由750名行人數(shù)據(jù)組成,UCY由786名行人數(shù)據(jù)組成。ETH包含ETH和Hotel場(chǎng)景,UCY包含UNIV,ZARA1和ZARA2場(chǎng)景,數(shù)據(jù)集包含了豐富的現(xiàn)實(shí)世界場(chǎng)景。本文使用平均位移誤差(ADE)和最終位移誤差(FDE)兩個(gè)指標(biāo),其值越小表示誤差越小,精確度越高。
(1)ADE是預(yù)測(cè)軌跡與地面真值軌跡中所有點(diǎn)之間的平均歐氏距離。
(2)FDE定義為預(yù)測(cè)軌跡的最終點(diǎn)(目標(biāo)點(diǎn))與地面真值目標(biāo)點(diǎn)之間的歐氏距離。
為了檢測(cè)PV-LSTM模型相較于其他模型的精度提升,將所有模型進(jìn)行實(shí)驗(yàn)并與基準(zhǔn)模型進(jìn)行對(duì)比:
(1)Vanilla-LSTM:僅將位置信息作為輸入,并且沒(méi)有任何交互模塊的LSTM,本文將此設(shè)為基準(zhǔn)模型,作為參考標(biāo)準(zhǔn)。
(2)Social-LSTM:采用一個(gè)社會(huì)池化層對(duì)人與人之間的相互作用進(jìn)行建模的LSTM。
(3)PV-LSTM-NA(沒(méi)有注意力模塊):取消注意力模塊之后的PV-LSTM。
實(shí)驗(yàn)運(yùn)行在Ubuntu20.04 LTS的操作系統(tǒng)上,GPU為NVIDIA GTX 2060,采用的是Pytorch 1.7.1的深度學(xué)習(xí)框架,CUDA 11.0的運(yùn)行環(huán)境。
第一組實(shí)驗(yàn)是各個(gè)實(shí)驗(yàn)?zāi)P驮诙痰浪倩\(yùn)動(dòng)員日常訓(xùn)練的數(shù)據(jù)集(DET)上訓(xùn)練并測(cè)試,旨在判斷本文模型對(duì)速滑運(yùn)動(dòng)員軌跡的有效提升性。具體的實(shí)驗(yàn)結(jié)果如表1所示。
綜合表1可以得出,各種網(wǎng)絡(luò)模型在DET數(shù)據(jù)集下實(shí)驗(yàn)結(jié)果均較為理想,但是,PVLSTM在兩個(gè)指標(biāo)下的性能結(jié)果均優(yōu)于Vanilla-LSTM、Social-LSTM和PV-LSTM-NA。結(jié)合具體場(chǎng)景情況而言,短道速滑運(yùn)動(dòng)的場(chǎng)地分為兩段直道和兩段彎道。對(duì)于直道,軌跡多成線性狀態(tài),各個(gè)網(wǎng)絡(luò)模型均能預(yù)測(cè)較為精準(zhǔn),差距并不大。因此,圖2分別表示的是各個(gè)網(wǎng)絡(luò)模型下場(chǎng)地左側(cè)和場(chǎng)地右側(cè)對(duì)于同一名運(yùn)動(dòng)員運(yùn)動(dòng)預(yù)測(cè)軌跡對(duì)比可視化。可以清晰地看出本文模型在彎道比Vanilla-LSTM和Social-LSTM的精準(zhǔn)性更高,對(duì)于短道速滑軌跡分析具有關(guān)鍵性的作用。綜上表明,PV-LSTM相對(duì)于基準(zhǔn)模型,其ADE和FDE精度分別提升22.86%和21.95%,均優(yōu)于其他模型,在短道速滑軌跡預(yù)測(cè),尤其是彎道的軌跡預(yù)測(cè)更精準(zhǔn),更具有實(shí)際的應(yīng)用價(jià)值。
圖2 賽道左右兩側(cè)彎道預(yù)測(cè)軌跡可視化
表1 各種模型在DET數(shù)據(jù)集下ADE和FDE結(jié)果對(duì)比
第二組實(shí)驗(yàn)是各個(gè)實(shí)驗(yàn)?zāi)P驮贓TH和UCY上訓(xùn)練,即分別在4個(gè)場(chǎng)景上訓(xùn)練,在剩下的一個(gè)場(chǎng)景上測(cè)試,依次循環(huán)5次,旨在判斷本文模型對(duì)軌跡預(yù)測(cè)的不同場(chǎng)景的泛化性。具體實(shí)驗(yàn)結(jié)果如表2所示。
綜合表2可以看出,Vanilla-LSTM、Social-LSTM和PV-LSTM-NA在ETH和UCY的各 個(gè)數(shù)據(jù)集的表現(xiàn)各有千秋。本文提出的PV-LSTM在各個(gè)數(shù)據(jù)集上雖具有良好的效果,但是性能結(jié)果 相 比Vanilla-LSTM、Social-LSTM和PVLSTM-NA并不具備明顯的優(yōu)勢(shì),這是因?yàn)樾腥说乃俣缺冗\(yùn)動(dòng)員的速度慢太多,速度變化也不是很明顯。結(jié)合實(shí)際場(chǎng)景分析,ETH場(chǎng)景下的行人進(jìn)出建筑物的運(yùn)動(dòng)軌跡大多都是非線性的,因此各個(gè)模型的預(yù)測(cè)效果均不理想。在HOTEL,ZARA1和ZARA2場(chǎng)景中的行人密度穩(wěn)定,行人軌跡大多呈直線性狀態(tài),各模型的預(yù)測(cè)結(jié)果較為理想。本文提出的PV-LSTM在各個(gè)數(shù)據(jù)集訓(xùn)練和測(cè)試的結(jié)果與基準(zhǔn)模型相比,ADE和FDE平均精度分別提升了6.67%和6.52%,均優(yōu)于其他模型。進(jìn)一步表明PV-LSTM精度更高的同時(shí)具有一定的泛化性。
表2 各種模型在各數(shù)據(jù)集下的ADE和FDE結(jié)果對(duì)比
針對(duì)短道速滑運(yùn)動(dòng)員在場(chǎng)地上運(yùn)動(dòng)時(shí),因速度快、較擁擠等情況容易導(dǎo)致軌跡紊亂的痛點(diǎn),本文設(shè)計(jì)了一種基于注意力機(jī)制的編碼器-解碼器軌跡預(yù)測(cè)模型,構(gòu)造一個(gè)包含LSTM編碼器模塊,一個(gè)注意力模塊,一個(gè)LSTM解碼器模塊的網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果表明,在與文獻(xiàn)中現(xiàn)有的模型相比,在真實(shí)的運(yùn)動(dòng)員訓(xùn)練數(shù)據(jù)集上,尤其是在關(guān)鍵的彎道軌跡預(yù)測(cè)中具有更高的精準(zhǔn)性,PV-LSTM模型在ETH/UCY上具有一定的泛化性,證明了本文PV-LSTM模型的可行性。