馬征 楊大山 張?zhí)煜?/p>
摘要:目前煤礦井下人員軌跡預(yù)測方法中,Transformer 與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶(LSTM)網(wǎng)絡(luò)相比,在處理數(shù)據(jù)時不僅計算量小,同時還有效解決了梯度消失導(dǎo)致的長時依賴問題。但當(dāng)環(huán)境中涉及多人同時運動時,Transformer 對于場景中所有人員未來軌跡的預(yù)測會出現(xiàn)較大偏差。并且目前在井下多人軌跡預(yù)測領(lǐng)域尚未出現(xiàn)一種同時采用Transformer 并考慮個體之間相互影響的模型。針對上述問題,提出一種基于SocialTransformer 的井下多人軌跡預(yù)測方法。首先對井下每一個人員獨立建模,獲取人員歷史軌跡信息,通過Transformer 編碼器進行特征提取,接著由全連接層對特征進行表示,然后通過基于圖卷積的交互層相互連接,該交互層允許空間上接近的網(wǎng)絡(luò)彼此共享信息,計算預(yù)測對象在受到周圍鄰居影響時對周圍鄰居分配的注意力,從而提取其鄰居的運動模式,繼而更新特征矩陣,最后新的特征矩陣由Transformer 解碼器進行解碼,輸出對于未來時刻的人員位置信息預(yù)測。實驗結(jié)果表明, Social Transformer 的平均位移誤差相較于Transformer 降低了45.8%,且與其他主流軌跡預(yù)測方法LSTM,S?GAN,Trajectron++和Social?STGCNN 相比分別降低了67.1%,35.9%,30.1% 和10.9%,有效克服了煤礦井下多人場景中由于人員間互相影響導(dǎo)致預(yù)測軌跡失準(zhǔn)的問題,提升了預(yù)測精度。
關(guān)鍵詞:電子圍欄;井下多人軌跡預(yù)測;Transformer;交互編碼;Social Transformer
中圖分類號:TD67文獻標(biāo)志碼:A
0 引言
近年來電子圍欄技術(shù)在煤礦井下危險作業(yè)區(qū)域人員安全防護領(lǐng)域得到廣泛應(yīng)用[1],但該技術(shù)僅限于對已發(fā)生危險進行判別,難以預(yù)測未發(fā)生風(fēng)險。人員軌跡預(yù)測技術(shù)通過學(xué)習(xí)個體或群體移動模式,預(yù)測未來行動路徑,結(jié)合電子圍欄,能提前識別潛在危險,保障井下安全生產(chǎn)。
早期的人員軌跡預(yù)測采用線性[2]或高斯回歸模型[3-4]、時間序列分析[5]和自回歸模型[6]手動計算人員未來位置,不僅計算量大、耗時長,且預(yù)測誤差較大。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,Zhang Jianjing 等[7]采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型表示人員運動信息,例如人的速度、方向和運動模式。然而,RNN 的單一信息傳輸通路和多次非線性激活操作在處理長期序列時可能導(dǎo)致長期記憶丟失[8]。為解決該問題,Song Xiao 等[9]提出了基于RNN的長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)模型進行人員軌跡預(yù)測,LSTM 引入了2 條計算通道,用于解決長期記憶丟失問題。然而,由于LSTM采用順序輸入方式融入序列位置信息,導(dǎo)致模型并行性較差, 同時過度依賴歷史數(shù)據(jù), 訓(xùn)練復(fù)雜度高。T. Salzmann 等[10]結(jié)合LSTM 與CNN 提出了Trajectron++,能夠針對多個互動的行人生成多模態(tài)預(yù)測軌跡,但面臨長時間預(yù)測的問題。A. Mohamed等[11]提出的Social?STGCNN(Spatio-Temporal GraphConvolutional Neural Network)通過建模人與人之間的關(guān)系來更好地考慮人員與周圍物體相互作用的影響,但模型復(fù)雜且運算時間較長,不具備實時性。V.Shankar 等[12]使用Transformer 進行人員軌跡預(yù)測,具有強大的并行性。與RNN,LSTM 等相比,Transformer在處理數(shù)據(jù)時顯著降低了計算負擔(dān),同時有效解決了梯度消失導(dǎo)致的長時依賴問題。然而,Transformer在處理單人軌跡預(yù)測方面表現(xiàn)出色,但當(dāng)環(huán)境中涉及多人同時運動時,其對于場景中所有人員未來軌跡的預(yù)測會出現(xiàn)明顯偏差。這是因為個體在移動過程中受到周圍人員的影響,而Transformer 在人員軌跡預(yù)測時未充分考慮周圍人員的運動狀態(tài)[13-15],導(dǎo)致對目標(biāo)軌跡的預(yù)測存在偏差。
為解決上述問題,本文基于Transformer 設(shè)計了交互層,提出了一種基于Social Transformer 的井下多人軌跡預(yù)測方法。對井下每個人員進行獨立建模,獲取其歷史軌跡信息,同時考慮目標(biāo)周圍人員運動狀態(tài),通過交互編碼預(yù)測井下多人場景中目標(biāo)的未來軌跡。
1 方法整體結(jié)構(gòu)
基于Social Transformer 的井下多人軌跡預(yù)測方法的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1 所示。首先通過Transformer編碼器對多人歷史軌跡信息進行特征提取,接著由全連接層對特征進行表示;然后通過交互層相互連接,該交互層允許空間上接近的網(wǎng)絡(luò)共享信息,計算預(yù)測對象在受到周圍鄰居影響時對周圍鄰居分配的注意力,提取其鄰居的運動模式,進而更新特征矩陣;最后新的特征矩陣由Transformer 解碼器進行解碼,輸出對未來時刻的人員位置信息預(yù)測。
2 Transformer 網(wǎng)絡(luò)模型
2.1 Transformer 網(wǎng)絡(luò)模型結(jié)構(gòu)
Transformer 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2 所示。Transformer 由6 個編碼器和6 個解碼器組成。編碼器包含自注意力層、前饋全連接層及規(guī)范化層,負責(zé)提取輸入序列的特征。解碼器包含自注意力層、編解碼注意力層、前饋全連接層和規(guī)范化層,負責(zé)將編碼器提取到的特征轉(zhuǎn)換成輸出。將一組包含行人當(dāng)前位置二維坐標(biāo)和歷史位置二維坐標(biāo)的序列輸入Transformer 模型中,通過位置編碼標(biāo)記時間戳后進入編碼器,然后每一個編碼器使用上一個編碼器的輸出作為輸入進行特征提取,最后將特征矩陣輸入解碼器進行解碼,得到預(yù)測結(jié)果。
2.2 自注意力機制
Transformer 以自注意力機制為核心,自注意力機制結(jié)構(gòu)如圖3 所示[16]。自注意力機制可以使模型關(guān)注需要關(guān)注的部分,從而減少因關(guān)注無關(guān)部分造成的資源浪費。對于一個序列X,自注意力機制可以計算X 中每個元素之間的相關(guān)程度,從而得到一個注意力矩陣。自注意力機制中有3 個矩陣,分別為Q(Query, 提問) 矩陣、K(Key, 鍵) 矩陣及對應(yīng)的V(Value,值)矩陣,Q,K,V 都是對X 進行不同線性變換之后的結(jié)果,都可獨立作為X 的代表。
圖3 中,首先計算Q 和K 的點積,為了防止點積結(jié)果過大,將結(jié)果除以dK(dK為K 的維度),然后利用softmax 將結(jié)果歸一化為概率分布,再乘以V 得到權(quán)重求和的表示。
式中:A(i) 為目標(biāo)i 的注意力;T 為輸入序列的長度。
3 Social Transformer 網(wǎng)絡(luò)模型
Social Transformer 網(wǎng)絡(luò)模型包括時序建模、周圍人員尋找、信息交互編碼及未來軌跡預(yù)測等關(guān)鍵步驟,利用自注意力機制提取目標(biāo)周圍鄰居的運動狀態(tài),并準(zhǔn)確評估其對目標(biāo)軌跡的影響程度,彌補了傳統(tǒng)Transformer 網(wǎng)絡(luò)模型在復(fù)雜場景下的局限性,可實現(xiàn)更精準(zhǔn)的多人軌跡預(yù)測。
3.1 時序建模
Social Transformer 對于多人場景中每一個行人進行獨立建模,使用Transformer 編碼器對目標(biāo)歷史軌跡進行特征提取,通過自注意力機制計算行人在不同時刻位置之間的自注意力,從而提取出行人的時間維度及運動模式,并且完成時序建模。
該建模方式不僅能夠更加深入地理解每一個行人的運動特征,同時通過自注意力機制,能夠捕捉到行人在不同時間點上的關(guān)鍵運動信息,為多人軌跡預(yù)測提供可靠的時序基礎(chǔ)。
3.2 周圍人員尋找
令hi = A(i),表示行人 i 對于自身的注意力。hi可以體現(xiàn)行人i 的運動特征,通過建立交互層,將行人i 及其鄰居的特征信息融合,進而使得行人i 能夠提取其周圍人員的運動特征信息,從而對未來軌跡做出更好的判斷。
對于每一時刻,根據(jù)行人的位置信息構(gòu)建一個空間圖。由于在1 個場景中,1 個人不可能與所有其他人同時產(chǎn)生聯(lián)系,因此引入距離閾值R,該閾值表示在未來一段時間內(nèi)可能與行人i 發(fā)生交互的人與行人i 之間的最大距離。若兩者之間的距離大于R,則表示2 人之間不存在邊;若距離不大于R,則認(rèn)定行人i 將會與對方發(fā)生交互,即這2 人之間存在邊,意味著行人i 的未來行動軌跡將受到對方運動狀態(tài)的影響。行人i 的鄰居j 的集合為
式中:m 為鄰居數(shù)量:(xit,yit),(xjt ,yjt)分別為行人i、鄰居j 在t 時刻的位置坐標(biāo)。
3.3 信息交互編碼
對鄰居j 的信息進行交互編碼。本文基于圖卷積設(shè)計了一種新的交互層,用于將多人的運動特征進行信息融合。
自注意力機制可看作是無向全連接圖上的消息傳遞,具體而言,對于行人i 的運動特征信息hi,提取矩陣Q 的行向量qi、矩陣K 的行向量及矩陣V 的行向量vi。同理,對于鄰居j,提取其矩陣Q 的行向量qj、矩陣K 的行向量kj及矩陣V 的行向量vj。則可定義圖卷積中從鄰居j 到行人i 的消息傳遞為
Mj→i = qikTj(3)
本文設(shè)計的交互層可以理解為一個基于注意力的圖卷積機制,行人間的信息可通過圖的邊進行傳遞。對于任意圖G,G 含有m 個節(jié)點(表示鄰居),代表場景內(nèi)m 個預(yù)測對象,這些對象互相連接。在圖G 中,行人i 對于其鄰居j 分配的注意力為
式中dki為ki的維度。
因此,行人i 對于所有鄰居分配的注意力為
式中f (·) 為全連接操作,通過全連接層將行人 i 的鄰居j 的特征信息進行初步融合。
行人與附近人員信息交互過程如圖4 所示。在階段1,將行人i 與附近人員抽象到二維坐標(biāo)系中,其中黑色圓圈代表行人i,其余圓圈代表附近人員;在階段2,在一定的空間距離內(nèi)選取行人i 周圍鄰居;在階段3 與階段4,將行人i 周圍鄰居的特征信息進行匯聚。
Social Transformer 網(wǎng)絡(luò)模型在預(yù)測行人i 的未來軌跡時,不僅要考慮其周圍鄰居的運動特征,還需要將行人i 本身的運動特征作為重要考量,因此,將行人i 對自身的注意力及對所有鄰居的注意力進行進一步信息融合:
最后,通過一個具有ReLU 非線性的嵌入函數(shù)φ(·)的編碼器優(yōu)化特征[17-18],完成信息交互編碼。
Aopt (i) = encoder (φ(A(i));C) (8)
式中:Aopt (i)為優(yōu)化后的行人i 對自身的注意力及對所有鄰居的注意力融合結(jié)果;encoder(·)為編碼操作;為初始值大于0 且小于1 的隨機平均數(shù),隨著模型不斷迭代訓(xùn)練調(diào)整,直到模型性能達到最優(yōu)。
3.4 未來軌跡預(yù)測
Zi作為編碼器最終的輸出,輸入到解碼器中。在解碼器每一層,使用上個時間點的預(yù)測結(jié)果、上一層解碼器的輸出及上一層編碼器輸出的特征矩陣進行解碼。預(yù)測時,本文選取最后一個時刻的特征矩陣,與高斯噪聲結(jié)合后進行預(yù)測。目的是能較好地對軌跡預(yù)測中的不確定性進行建模,并可用于產(chǎn)生多種預(yù)測結(jié)果。最后得到行人i 在未來一段時間內(nèi)的軌跡預(yù)測。
4 實驗與結(jié)果分析
4.1 數(shù)據(jù)集與評價指標(biāo)
為了定量評估本文方法在進行井下多人軌跡預(yù)測時的效果,本文使用5 個人員軌跡預(yù)測數(shù)據(jù)集,包括4 個開放數(shù)據(jù)集及1 個由數(shù)百段不同井下場景視頻構(gòu)成的煤礦井下人員軌跡自建數(shù)據(jù)集。
BIWI Hotel, Crowds UCY, MOT PETS 及SDD(Stanford Drone Dataset)數(shù)據(jù)集為人員軌跡預(yù)測領(lǐng)域較為權(quán)威的4 個開放數(shù)據(jù)集,包含酒店、街道等人員密集場景,共有11 448 條人員軌跡。自建數(shù)據(jù)集由896 條井下人員軌跡構(gòu)成,包含12 座井工礦的井下變電所、井下水泵房、井下車場、膠帶行人側(cè)等場景的多人軌跡數(shù)據(jù),能較為全面地覆蓋煤礦井下行人場景。
為衡量多人軌跡預(yù)測方法的精度,引入平均位移誤差(Average Displacement Error, ADE)作為評價指標(biāo)[19],該指標(biāo)是指預(yù)測軌跡和真值軌跡所有點的平均歐氏距離,能夠反映預(yù)測軌跡的整體準(zhǔn)確性。
式中:F 為預(yù)測的未來坐標(biāo)的數(shù)量;xgtn為第 n 個坐標(biāo)的基準(zhǔn)位置;xpredn為第 n 個坐標(biāo)的預(yù)測位置。
4.2 模型訓(xùn)練
Social Transformer 網(wǎng)絡(luò)模型在具有Theano[20]的單個GPU 上進行訓(xùn)練。為了在訓(xùn)練模型時充分利用數(shù)據(jù)集,本文使用留一法,從5 個數(shù)據(jù)集中選擇4 個作為訓(xùn)練集,使用這4 個訓(xùn)練集來訓(xùn)練模型,將剩余的1 個數(shù)據(jù)集作為測試集,用于評估模型性能,重復(fù)上述步驟,確保每個數(shù)據(jù)集都作為測試集被使用1 次,從而覆蓋所有可能的組合。模型訓(xùn)練時,輸入的人員歷史位置坐標(biāo)首先通過全連接層編碼為一個大小為32(代表一次性能輸入32 個人員位置坐標(biāo))的向量,隨后經(jīng)過ReLU 激活函數(shù)處理。處理輸入數(shù)據(jù)時,設(shè)置丟棄比率為0.1,嵌入特征的維度為32。為了找到最佳學(xué)習(xí)率,在簡化版本的模型上進行超參數(shù)搜索, 范圍為0.000 1~ 0.004, 間隔為0.000 1,并選擇最佳性能的學(xué)習(xí)率(0.001 5)來訓(xùn)練模型。本文使用Adam 優(yōu)化器,批量大小為16,進行300 個epochs 的網(wǎng)絡(luò)訓(xùn)練。每個批次包含大約256個行人,在不同的時間窗口內(nèi),通過一個注意力掩碼矩陣掩蓋掉當(dāng)前時刻之后的信息,以加速訓(xùn)練過程。采用的損失函數(shù)為
4.3 定量實驗
在定量實驗中,對于場景中的每一個人,預(yù)測其12 幀(4.8 s)內(nèi)的運動軌跡。將Social Transformer 與LSTM, Transformer, S?GAN[21](Sequential GenerativeAdversarial Networks) , Trajectron++, Social?STGCNN進行比較,每種方法重復(fù)運行20 次,最終取平均值,結(jié)果見表1。
由表1 可看出, Social Transformer 在5 種數(shù)據(jù)集的測試中, ADE 均為最低, 表現(xiàn)優(yōu)異。相比于Transformer,Social Transformer 在ADE 指標(biāo)上降低了46.8%,精度提升明顯,由此可見,在Transformer 中加入交互層能夠大幅提升模型在多人軌跡預(yù)測時的精度。
井下場所的智能視頻分析對于實時性要求很高,因此對上述6 種方法的訓(xùn)練時間及預(yù)測時間進行比較, 結(jié)果如圖5 所示。對于相同的訓(xùn)練集,LSTM 訓(xùn)練時間為89 h,預(yù)測時間為198 ms,均為最高。Trajectron++和Social?STGCNN 在訓(xùn)練時間和預(yù)測時間上的表現(xiàn)較為優(yōu)秀,分別為44 h、43 ms 和49 h、29 ms。而Social Transformer 在訓(xùn)練和預(yù)測2 個階段都表現(xiàn)出較高的效率,具有最短的訓(xùn)練時間和預(yù)測時間,分別為29 h、22 ms,在6 種軌跡預(yù)測方法中耗時最少。
4.4 消融實驗
在進行人員軌跡預(yù)測時,預(yù)測序列長度及歷史數(shù)據(jù)的多少是影響預(yù)測結(jié)果的重要因素,為分析這2 種因素對于本文方法進行多人軌跡預(yù)測結(jié)果的影響,進行消融實驗。
4.4.1 預(yù)測序列長度對軌跡預(yù)測效果的影響
將預(yù)測序列從12 幀(4.8 s)更改為28 幀(11.2 s),挑選來自5 個數(shù)據(jù)集的1 000 條人員軌跡進行實驗,各方法預(yù)測結(jié)果見表2。
由表2 可看出,3 種方法在進行人員軌跡預(yù)測時的誤差均會隨著預(yù)測時間的延長而增加,其中SocialTransformer 的ADE 最低。從預(yù)測未來12 幀到預(yù)測未來28 幀,LSTM 的ADE 提高了181%,而Transformer與Social Transformer 的ADE 分別提高了93% 和66%。Social Transformer 在預(yù)測序列長度增加后的誤差增長幅度明顯低于LSTM,略低于Transformer,這是由于Social Transformer 在進行人員軌跡預(yù)測時,會將周圍人員的運動狀態(tài)及其未來軌跡一起進行交互編碼,對于預(yù)測長時間的序列具有更好的穩(wěn)定性。
4.4.2 歷史數(shù)據(jù)缺失對軌跡預(yù)測效果的影響
分別設(shè)定不同程度的歷史數(shù)據(jù)缺失,挑選來自5 個數(shù)據(jù)集的1 000 條人員軌跡進行實驗,各方法預(yù)測結(jié)果見表3。
由表3 可看出,缺失歷史數(shù)據(jù)會提高預(yù)測結(jié)果的ADE,其中,LSTM 尤其難以處理歷史數(shù)據(jù)缺失問題,一旦缺失數(shù)據(jù)量過大,預(yù)測結(jié)果準(zhǔn)確性將受到極大影響,在缺失6 幀時,LSTM 的ADE 較無缺失情況提升了87%;相比之下,Transformer 和Social Transformer在面對歷史數(shù)據(jù)缺失時,其ADE 的提升幅度較小,分別提高了33%,29%。
4.5 定性實驗
采用井下多人場景(中央變電所、水泵房及副井口車輛轉(zhuǎn)載點) 的視頻進行定性實驗, 分別使用LSTM, Transformer, Social Transformer 對人員未來7 幀(2.8 s)的運動軌跡進行預(yù)測,并對視頻中人員預(yù)測軌跡與基準(zhǔn)軌跡的重合程度進行主觀判斷,預(yù)測效果分別如圖6?圖9 所示,紅色方框為人員歷史軌跡,藍色方框為人員基準(zhǔn)軌跡,黃色方框為人員預(yù)測軌跡。
由圖6 可看出,對單人場景的人員軌跡進行預(yù)測時, Transformer 與Social Transformer 的預(yù)測效果基本相同,預(yù)測軌跡和基準(zhǔn)軌跡基本無偏差,而使用LSTM 處理后的預(yù)測軌跡則與基準(zhǔn)軌跡產(chǎn)生少量偏差。由圖7(a)、圖8(a)可看出,對多人場景的人員軌跡進行預(yù)測時,采用LSTM 處理后的預(yù)測軌跡與基準(zhǔn)軌跡從前2 幀開始就出現(xiàn)誤差,且誤差隨著預(yù)測時間延長而增加,導(dǎo)致對于最終位置的預(yù)測偏差較大。由圖9(a)可看出,LSTM 在預(yù)測時傾向于沿用歷史軌跡的運動趨勢,并未考慮對向行人的運動狀態(tài),從而造成預(yù)測失準(zhǔn)現(xiàn)象。由圖7(b)、圖8(b)、圖9(b) 可看出, 采用Transformer 預(yù)測的效果比LSTM 略好,預(yù)測軌跡與基準(zhǔn)軌跡更貼近,這是因為Transformer 會更好地利用歷史數(shù)據(jù)對未來做出推測,而LSTM 由于梯度消失,造成預(yù)測結(jié)果失準(zhǔn)。由圖7(c) 、圖8(c) 、圖9(c) 可看出, 采用SocialTransformer 預(yù)測時,盡管每一幀的預(yù)測位置與基準(zhǔn)位置略有偏差,但由于考慮了周圍人員的運動狀態(tài),使得整體預(yù)測軌跡與基準(zhǔn)軌跡保持近似。因此Social Transformer 相較于LSTM 和Transformer,在進行多人場景的人員軌跡預(yù)測時具有一定的精度提升效果。
5 結(jié)論
1) 基于Transformer 模型進行改進,并將改進后的Social Transformer 網(wǎng)絡(luò)模型用于井下多人軌跡預(yù)測。采用時序建模,提取行人的時間維度運動模式,確定目標(biāo)周圍鄰居;通過設(shè)計交互層,使用自注意力機制提取目標(biāo)鄰居運動狀態(tài)對于目標(biāo)未來軌跡的影響;將預(yù)測目標(biāo)及其鄰居的運動特征信息進行融合,從而更精準(zhǔn)地預(yù)測目標(biāo)未來軌跡。
2) 實驗結(jié)果表明,Social Transformer 的ADE 相較于Transformer 降低了45.8%,且與主流軌跡預(yù)測方法LSTM,S?GAN,Trajectron++和Social?STGCNN相比分別降低了67.1%,35.9%,30.1% 和10.9%,有效解決了煤礦井下多人場景中由于人員間互相影響導(dǎo)致預(yù)測軌跡失準(zhǔn)的問題,能夠同時預(yù)測多人軌跡,提升了預(yù)測精度。
參考文獻(References):
[ 1 ]劉海忠. 電子圍欄中心監(jiān)控平臺的設(shè)計與開發(fā)[D]. 武漢:華中師范大學(xué),2012.
LIU Haizhong. Design and development of centermonitoring platform for electronic fence[D]. Wuhan:Central China Normal University,2012.
[ 2 ]JEONG N Y,LIM S H,LIM E,et al. Pragmatic clinicaltrials for real-world evidence: concept andimplementation[J]. Cardiovascular Pevention andPharmacotherapy,2020,2(3):85-98.
[ 3 ]KLENSKE E D, ZEILINGER M N, SCHOLKOPF B,et al. Gaussian process-based predictive control forperiodic error correction[J]. IEEE Transactions onControl Systems Technology,2016,24(1):110-121.
[ 4 ]HUNT K J, SBARBARO D, ?BIKOWSKI R, et al.Neural networks for control systems-a survey[J].Automatica,1992,28(6):1083-1112.
[ 5 ]PRESTON D B. Spectral analysis and time series[J].Technometrics,1983,25(2):213-214.
[ 6 ]AKAIKE H. Fitting autoregreesive models forprediction[M]//PARZEN E,TANABE K,KITAGAWAG. Selected papers of Hirotugu Akaike. New York:Springer-Verlag New York Inc,1998:131-135.
[ 7 ]ZHANG Jianjing, LIU Hongyi, CHANG Qing, et al.Recurrent neural network for motion trajectoryprediction in human-robot collaborative assembly[J].CIRP Annals,2020,69(1):9-12.
[ 8 ]SHERSTINSKY A. Fundamentals of recurrent neuralnetwork (RNN) and long short-term memory (LSTM)network[J]. Physica D: Nonlinear Phenomena, 2020.DOI:10.1016/j.physd.2019.132306.
[ 9 ]SONG Xiao, CHEN Kai, LI Xu, et al. Pedestriantrajectory prediction based on deep convolutional LSTMnetwork[J]. IEEE Transactions on IntelligentTransportation Systems,2020,22(6):3285-3302.
[10]SALZMANN T, IVANOVIC B, CHAKRAVARTY P,et al. Trajectron++: dynamically-feasible trajectoryforecasting with heterogeneous data[C]. 16th EuropeanConference on Computer Vision, Glasgow, 2020:683-700.
[11]MOHAMED A, QIAN Kun, ELHOSEINY M, et al.Social-STGCNN: a social spatio-temporal graphconvolutional neural network for human trajectoryprediction[C]. IEEE/CVF Conference on ComputerVision and Pattern Recognition, Seattle, 2020:14424-14432.
[12] SHANKAR V, YOUSEFI E, MANASHTY A, et al.Clinical-GAN: trajectory forecasting of clinical eventsusing transformer and generative adversarialnetworks[J]. Artificial Intelligence in Medicine, 2023,138. DOI:10.1016/j.artmed.2023.102507.
[13]HAN Kai, WANG Yunhe, CHEN Hanting, et al. Asurvey on vision transformer[J]. IEEE Transactions onPattern Analysis and Machine Intelligence, 2023,45(1):87-110.
[14]GRAHAM B, EL-NOUBY A, TOUVRON H, et al.LeViT: a vision transformer in ConvNets clothing forfaster inference[C]. IEEE/CVF International Conferenceon Computer Vision,Montreal,2021:12259-12269.
[15]ARNAB A, DEHGHANI M, HEIGOLD G, et al.ViViT: a video vision transformer[C]. IEEE/CVFInternational Conference on Computer Vision,Montreal,2021:6836-6846.
[16]VASWANI A, SHAZEER N, PARMAR N, et al.Attention is all you need[C]. 31st Conference on NeuralInformation Processing Systems, Long Beach, 2017:5998-6008.
[17]劉赟. ReLU 激活函數(shù)下卷積神經(jīng)網(wǎng)絡(luò)的不同類型噪聲增益研究[D]. 南京:南京郵電大學(xué),2023.
LIU Yun. Research on different types of noise gain inconvolutional neural networks under ReLU activationfunction[D]. Nanjing: Nanjing University of Posts andTelecommunications,2023.
[18]靳晶晶,王佩. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別算法研究[J]. 通信與信息技術(shù),2022(2):76-81.
JIN Jingjing, WANG Pei. Research on imagerecognition algorithm based on convolutional neuralnetwork[J]. Communications and InformationTechnology,2022(2):76-81.
[19]ALAHI A,GOEL K,RAMANATHAN V,et al. SocialLSTM: human trajectory prediction in crowdedspaces[C]. IEEE Conference on Computer Vision andPattern Recognition,Las Vegas,2016:961-971.
[20]BERGSTRA J, BREULEUX O, BASTIEN F, et al.Theano: a CPU and GPU math compiler in Python[C].The 9th Python in Science Conference, 2010. DOI:10.25080/majora-92bf1922-003.
[21]PESARANGHADER A, WANG Yiping, HAVAEI M.CT-SGAN: computed tomography synthesis GAN[C]//ENGELHARDT S,OKSUZ I,ZHU Dajiang,et al. Deepgenerative models, and data augmentation, labelling,and imperfections. Berlin:Springer-Verlag,2021:67-79.
基金項目:中央高校基本科研業(yè)務(wù)費專項項目(FRF-TP-24-060A) ;天地科技股份有限公司科技創(chuàng)新創(chuàng)業(yè)資金專項項目(2023-TDZD005-005,2023CG-ZB-10)。