劉一松 高含露 蔡凱祥
摘 要:
當(dāng)前人體運動預(yù)測的方法大多采用基于圖卷積網(wǎng)絡(luò)的自回歸模型,沒有充分考慮關(guān)節(jié)間的特有關(guān)系和自回歸網(wǎng)絡(luò)性能的限制,從而產(chǎn)生平均姿態(tài)和誤差累積等問題。為解決以上問題,提出融合時空圖卷積網(wǎng)絡(luò)和非自回歸的模型對人體運動進行預(yù)測。一方面利用時空圖卷積的網(wǎng)絡(luò)提取人體運動序列的局部特征,可以有效減少三維人體運動預(yù)測場景中的平均姿態(tài)問題和過度堆疊圖卷積層引起的過平滑問題的發(fā)生;另一方面將非自回歸模型與時空圖卷積網(wǎng)絡(luò)進行結(jié)合,減少誤差累計問題的發(fā)生。利用Human3.6M的數(shù)據(jù)集進行80 ms、160 ms、320 ms和400 ms的人體運動預(yù)測實驗。結(jié)果表明,NAS-GCN模型與現(xiàn)有方法相比,能預(yù)測出更精確的結(jié)果。
關(guān)鍵詞:人體運動預(yù)測;非自回歸;圖卷積網(wǎng)絡(luò)
中圖分類號:TP181?? 文獻標志碼:A??? 文章編號:1001-3695(2024)03-048-0956-05doi: 10.19734/j.issn.1001-3695.2023.07.0323
Three-dimensional human motion prediction combining spatiotemporal graph
convolutional networks and non-autoregressive models
Liu Yisong, Gao Hanlu, Cai Kaixiang
(School of Computer Science & Communication Engineering, Jiangsu University, Zhenjiang Jiangsu 212013, China)
Abstract:
The current methods for predicting human motion mostly use autoregressive models based on graph convolutional networks, without fully considering the unique relationships between joints and the limitations of autoregressive network performance, resulting in issues such as average posture and error accumulation. To address the above issues, this paper proposed a fusion of spatiotemporal graph convolutional networks and non autoregressive models for predicting human motion. On the one hand, using a network of spatiotemporal graph convolutions to extract local features of human motion sequences could effectively reduce the occurrence of average pose problems and oversmooth problems caused by excessive stacking of graph convolutions in 3D human motion prediction scenes. On the other hand, it combined non-autoregressive models with spatiotemporal graph convolutional networks to reduce the occurrence of error accumulation problems. Conduct human motion prediction experiments using a Human3.6M dataset for 80 ms, 160 ms, 320 ms, and 400 ms. The experimental results indicate that the NAS-GCN model predicts more accurate results compared to existing methods. Key words:human motion prediction; non-autoregressive; graph convolutional network
0 引言
三維人體運動預(yù)測目前主要用于人機交互、運動分析和體育預(yù)測等領(lǐng)域,該方向由人體姿態(tài)特征提取和運動預(yù)測兩部分組成。由于深度學(xué)習(xí)的發(fā)展,近年來相關(guān)方法已經(jīng)使得模型預(yù)測的精確度得到很大提升。
基于圖卷積網(wǎng)絡(luò)(graphical convolutional network,GCN)的自回歸模型是目前人體運動預(yù)測的主流方法,該方法利用圖卷積網(wǎng)絡(luò)的模型學(xué)習(xí)人體非歐幾里德數(shù)據(jù)的特征和內(nèi)部規(guī)律,模擬關(guān)節(jié)的空間相互作用。盡管現(xiàn)有研究使用了多種方法對其進行改進,如人工構(gòu)造的時空圖卷積網(wǎng)絡(luò)和結(jié)構(gòu)化預(yù)測層[1,2]、自適應(yīng)學(xué)習(xí)空間特征[3~5]等,但依舊存在以下問題:a)預(yù)測長期運動時容易收斂到一個靜止的姿態(tài)即平均姿態(tài);b)模型預(yù)測誤差隨時間推移累計,最終崩潰到不可信的狀態(tài)。
對于問題a)來說,由于當(dāng)前圖卷積網(wǎng)絡(luò)在提取特征過程中大多只注重相鄰關(guān)節(jié)之間的連接性,沒有充分考慮幾何分離關(guān)節(jié)之間的隱性關(guān)系,容易導(dǎo)致平均姿態(tài)問題的產(chǎn)生。為了解決這個問題,Cui等人[6]利用兩個參數(shù)化圖卷積網(wǎng)絡(luò)學(xué)習(xí)關(guān)節(jié)之間的動態(tài)關(guān)系,捕獲關(guān)節(jié)之間的隱式關(guān)系。Liu等人[7]在其基礎(chǔ)上提出捕獲幾何分離關(guān)節(jié)之間隱藏聯(lián)系的圖卷積網(wǎng)絡(luò)和自適應(yīng)學(xué)習(xí)的圖卷積網(wǎng)絡(luò),利用優(yōu)化的GCN學(xué)習(xí)運動序列的空間特征,可以緩解部分平均姿態(tài)問題。但使用GCN構(gòu)建全局關(guān)系時,過度堆疊圖卷積層會導(dǎo)致過平滑問題的發(fā)生,同時基于自回歸的模型本身具有一定的限制。
針對問題b),文獻[8,9]表明,人體運動預(yù)測過程中誤差累積產(chǎn)生的主要原因是當(dāng)前預(yù)測往往依賴于之前的時間步數(shù)據(jù)。文獻[10]進一步證實由于自回歸模型自身網(wǎng)絡(luò)性能的限制,不可避免地涉及誤差累積問題。為解決該問題,Li等人比較人體運動序列預(yù)測與非自回歸機器翻譯模型,并驗證非自回歸模型用于減少人體運動序列誤差累積問題的可行性,提出一種多任務(wù)非自回歸運動預(yù)測模型[9]。文獻[11]將基于骨架的活動分類與非自回歸模型進行結(jié)合,提出精度優(yōu)于自回歸方法且計算量更低的非自回歸模型,進一步驗證了非自回歸模型對于降低誤差累積的有效性。但基于非自回歸的方法研究重點大多集中于全局時間關(guān)系建模,對于關(guān)節(jié)之間的相關(guān)性即空間特征提取考慮得不夠充分。
針對上述目前研究工作中存在的問題,本文提出融合時空圖卷積網(wǎng)絡(luò)和非自回歸模型(non-autoregressive combines spatio-temporal graphical convolutional network,NAS-GCN)的三維人體運動預(yù)測??紤]到非自回歸模型對于全局提取能力較好,而對于人體運動序列的局部特征提取能力較差,因此在特征提取時先利用改進GCN的局部特征編碼器,再結(jié)合非自回歸模型對數(shù)據(jù)集進行全局特征提取與預(yù)測,使得模型對于空間特征提取進一步優(yōu)化的同時減少誤差累積的發(fā)生。同時為了解決時間表示方面的問題,提出將最終序列編碼后輸入解碼器的策略,相對于自回歸模型準確率更高,效率更快。
本文主要包括如下改進:a)提出改進的時空特征圖卷積網(wǎng)絡(luò)提取局部特征,充分考慮骨骼解剖學(xué)運動定律以減少平均姿態(tài)的發(fā)生,同時添加初始殘差和恒等映射解決過平滑問題;b)利用非自回歸模型代替自回歸模型,將改進圖卷積網(wǎng)絡(luò)和非自回歸的模型融合,提取人體運動的局部和全局特征。在更全面地考慮人體運動序列時空關(guān)系的同時進一步提升了模型對局部和全局特征的提取能力,從而減少誤差累積問題的發(fā)生。具體來說,一方面提出了多層殘差半約束圖(multilayer residual semi constrained graph, MRSG)提取人體空間特征,該模型通過模擬骨骼解剖學(xué)的運動定律提取人體運動的空間結(jié)構(gòu),以減少人體骨骼之間歧義,其中GCN提取人體運動序列特征時,過多堆疊會限制GCN,從而導(dǎo)致過平滑問題,因此在模型中添加初始殘差和恒等映射對過平滑問題進行一定的緩解;另一方面針對誤差累積問題引入了非自回歸模型,該模型用并行預(yù)測人體運動序列的方法解決了自回歸模型解碼串行輸出的問題。
1 本文方法
本文提出NAS-GCN模型,由局部特征編碼器(local feature encoder,LFE)、局部特征解碼器(local feature decoder,LFD)和基于Transformer的非自回歸編-解碼器組成。其中局部特征編碼器LFE、局部特征解碼器LFD用于提取人體運動序列的局部特征,基于Transformer的非自回歸編-解碼器用于全局的特征提取。整體模型如圖1所示。
1.1 局部特征提取
文獻[12]提出當(dāng)模型對于空間特征提取不夠準確時,預(yù)測往往會收斂到平均姿態(tài),因此為了更好地獲取人體運動時各個關(guān)節(jié)之間的隱藏關(guān)系,提取人體運動序列的空間結(jié)構(gòu)特征。本文提出LFE和LFD學(xué)習(xí)人體骨骼的空間相關(guān)性,以減少平均姿態(tài)問題的發(fā)生。
1.1.1 局部特征編碼器(LFE)
局部特征編碼器LFE由MRSG和TCN組成,該模型將輸入數(shù)據(jù)分別利用MRSG和TCN進行局部空間特征、時間特征的提取,最后將提取到的空間特征和時間特征結(jié)合,得到人體運動序列的局部特征。
1)局部空間特征提取MRSG
MRSG的主要模塊為GCNadd,用來提取局部空間特征,減少由于過度堆疊GCNadd帶來的過平滑問題,其中GCNadd為優(yōu)化后的GCN。GCN可以提取人體骨骼之間的關(guān)系,學(xué)習(xí)骨骼關(guān)節(jié)對之間的連接,但是該方法對人體隱藏關(guān)系的提取能力較差,例如打電話時上半身的變化可能比下半身更加豐富,走路時更加注重腿部和手臂的協(xié)調(diào)性等。因此本文提出MRSG模型模擬骨骼解剖學(xué)的運動定律,提取人體運動的空間結(jié)構(gòu),減少人體骨骼之間歧義,以提高預(yù)測人體骨骼空間相關(guān)性。
2 實驗結(jié)果與分析
2.1 實驗設(shè)置
實驗使用RTX2080Ti GPU,Linux操作系統(tǒng),PyTorch深度學(xué)習(xí)框架。訓(xùn)練學(xué)習(xí)率為10-4,批量大小為16。在預(yù)訓(xùn)練過程中,學(xué)習(xí)率從0逐漸增加到10-4,從而提高了訓(xùn)練的穩(wěn)定性。模型采用50幀,輸出25幀的1 s運動。實驗設(shè)置epochs為400,steps_per_epoch為200,num_heads為8,dim_ffn為2 048。編碼器輸入前需要對數(shù)據(jù)進行歸一化操作,使得數(shù)據(jù)更加穩(wěn)定。
本文使用Human3.6 M的數(shù)據(jù)集進行人體運動預(yù)測。該數(shù)據(jù)集遵循了訓(xùn)練和測試的標準協(xié)議。該數(shù)據(jù)庫采用三維的骨骼模型對人體運動序列進行表示,且一個三維姿態(tài)由32個三維坐標組成,相當(dāng)于一個96維的矢量。其中訓(xùn)練集5用于測試,其他訓(xùn)練集用于訓(xùn)練。輸入序列長為2 s,對預(yù)測序列的前1 000 ms進行測試。通過計算預(yù)測和真實值之間的歐拉角誤差評估序列。在訓(xùn)練過程中,模型采用MRSG提取空間特征,TCN提取時間特征,將兩者融合后,利用非自回歸模型對全局特征進行提取,最后得出預(yù)測的人體運動序列。
為了驗證NAS-GCN,本文根據(jù)式(12)計算損失函數(shù),并與其他模型進行對比,預(yù)測平均角度誤差MAE,MAE是角度空間產(chǎn)生的預(yù)測與真實值直接的平均距離損失,該值越低表示數(shù)據(jù)越好。
2.2 消融實驗
本節(jié)在Human3.6M數(shù)據(jù)集中驗證了不同類型LFE的效果。提出利用LFE和LFD進行人體運動序列的局部特征提取,用MRSG層、TCN層或MLP層對LFE、LFD進行實驗。不同類型的局部特征提取的平均值如表1所示,后綴enc表示解碼器LFD為MLP,后綴full表示解碼器LFD為MRSG。
經(jīng)過實驗發(fā)現(xiàn),利用gcntcn_full進行局部特征提取,即當(dāng)LFE由MRSG與TCN組成時,MAE值更加精確。綜上所述,局部空間編碼器中利用MRSG可以有效避免出現(xiàn)過擬合的情況,進一步提高了數(shù)據(jù)精度。
2.3 與自回歸方法的比較
為了驗證NAS-GCN非自回歸模型在長期預(yù)測的效果,表2顯示了本模型與自回歸模型測試結(jié)果的對比。其中局部特征提取與POTR網(wǎng)絡(luò)的實驗參數(shù)同文獻[9]。從表中數(shù)據(jù)可以觀察到,MAE值有明顯的降低,其中1 000 ms的長期預(yù)測比原模型[9]的MAE降低了約4.52%。自回歸版本不使用查詢姿態(tài),而是根據(jù)前一次的結(jié)果預(yù)測一個運動向量。本文的非自回歸方法在大多數(shù)時間間隔內(nèi)顯示出比同類方法更低的MAE,具體數(shù)據(jù)如表2所示。
2.4 與其他模型比較
表3比較了NAS-GCN模型與其他網(wǎng)絡(luò)在H3.6M數(shù)據(jù)集中11個活動的誤差。加粗表示最好數(shù)據(jù),下畫線其次。對于每個數(shù)據(jù),從上到下分別展示了ZeroV[7]、Res-sup[7]、POTR[9]、ST-Transformer[11]、Skel-TNet[17]、DCT-GCN[18]等先進方法與當(dāng)前NAS-GCN的預(yù)測,非自回歸模型在短期內(nèi)獲得第一和第二個較低的MAE,并且在80 ms內(nèi)最低,同時與從前的非自回歸模型相比,在長期內(nèi)誤差有了很明顯的降低。使用最后一個輸入序列作為查詢姿態(tài)減少誤差累積,且該方法在長期預(yù)測方面也取得了較大的進步。
圖5對預(yù)測動作MAE進行比較,主要包括directions、ea-ting、taking photo與greeting四個動作,其中灰色為ground truth,第三行為NAS-GCN的數(shù)據(jù),在精確度上有了很大的提高。根據(jù)圖片發(fā)現(xiàn),POTR的eating動作沒有充分考慮上半身的變化,左臂應(yīng)該是平穩(wěn)向下的,因此使用NAS-GCN效果更好;POTR的taking photo動作集中在左臂,與真實動作相反,而NAS-GCN集中于右臂的變化;POTR的greeting動作出現(xiàn)了平均姿態(tài)問題,而NAS-GCN注意到了左腿相應(yīng)的變化并作出改變。綜上,相比于POTR網(wǎng)絡(luò),NAS-GCN更加接近真實動作,網(wǎng)絡(luò)改善效果比較明顯。
3 結(jié)束語
NAS-GCN模型用于人體運動預(yù)測,首先通過人體運動序列局部特征提取的編碼器LFE、LFD提取局部時空特征;然后,引入非自回歸模型提取全局特征并進行人體運動序列的預(yù)測。其中LFE由MRSG和TCN組成,該方法可以降低人體骨骼特征提取不準確引起的平均姿態(tài)問題和過度堆疊引起的過平滑問題,提高預(yù)測精確度。非自回歸模型有助于降低誤差累積。雖然當(dāng)前預(yù)測減少了平均姿態(tài)的出現(xiàn)頻率,但在長期范圍內(nèi)序列依然存在平均姿態(tài)問題,下一步將研究優(yōu)化查詢序列的過程,同時針對多人和更復(fù)雜的環(huán)境進行人體運動預(yù)測,以提高研究的全面性。
參考文獻:
[1]Jain A,Zamir A R,Savarese S,et al. Structural-RNN: deep learning on spatio-temporal graphs [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 5308-5317.
[2]Aksan E,Kaufmann M,Hilliges O. Structured prediction helps 3D human motion modelling [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 7144-7153.
[3]Mao Wei,Liu Miaomiao,Salzmann M,et al. Learning trajectory dependencies for human motion prediction [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 9489-9497.
[4]Li Maosen,Chen Siheng,Zhao Yangheng,et al. Dynamic multiscale graph neural networks for 3D skeleton based human motion prediction [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 214-223.
[5]Li Maosen,Chen Siheng,Zhao Yangheng,et al. Multiscale spatio-temporal graph neural networks for 3D skeleton-based motion prediction[J]. IEEE Trans on Image Processing,2021,30(23): 7760-7775.
[6]Cui Qiongjie,Sun Huaijiang,Yang Fei. Learning dynamic relationships for 3D human motion prediction [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 6519-6527.
[7]Liu Zhenguang,Su Pengxiang,Wu Shuang,et al. Motion prediction using trajectory cues [C]// Proc of IEEE/CVF International Confe-rence on Computer Vision. Piscataway,NJ: IEEE Press,2021: 13299-13308.
[8]Martinez J,Black M J,Romero J. On human motion prediction using recurrent neural networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 2891-2900.
[9]Martínez-González A,Villamizar M,Odobez J M. Pose Transformers (POTR):human motion prediction with non-autoregressive Transfor-mers [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2021: 2276-2284.
[10]Li Bin,Tian Jian,Zhang Zhongfei,et al. Multitask non-autoregressive model for human motion prediction [J]. IEEE Trans on Image Processing,2020,30(8): 2562-2574.
[11]Aksan E,Kaufmann M,Cao Peng,et al. A spatio-temporal Transfor-mer for 3D human motion prediction [C]// Proc of International Con-ference on 3D Vision. Piscataway,NJ: IEEE Press,2021: 565-574.
[12]Wang He,Ho E S L,Shum H P H,et al. Spatio-temporal manifold learning for human motions via long-horizon modeling[J].IEEE Trans on Visualization and Computer Graphics,2019,27(1): 216-227.
[13]Chen Ming,Wei Zhewei,Huang Zengfeng,et al. Simple and deep graph convolutional networks [C]// Proc of International Conference on Machine Learning. [S.l.]:PMLR,2020: 1725-1735.
[14]何冰倩,魏維,張斌. 基于深度學(xué)習(xí)的輕量型人體動作識別模型 [J]. 計算機應(yīng)用研究,2020,37(8): 2547-2551. (He Bingqian,Wei Wei,Zhang Bin. Lightweight human action recognition model based on deep learning [J]. Application Research of Computers,2020,37(8): 2547-2551.)
[15]Bai Shaojie,Kolter J Z,Koltun V. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling [EB/OL]. (2018-04-19). https://arxiv. org/abs/1803. 01271.
[16]戴俊明,曹陽,沈琴琴,等. 基于多時空圖卷積網(wǎng)絡(luò)的交通流預(yù)測 [J]. 計算機應(yīng)用研究,2022,39(3): 780-784. (Dai Junming,Cao Yang,Shen Qinqin,et al. Traffic flow prediction based on multi-temporal graph convolutional networks [J]. Application Research of Computers,2022,39(3): 780-784.)
[17]Guo Xiao,Choi J. Human motion prediction via learning local structure representations and temporal dependencies [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2019: 2580-2587.
[18]Mao Wei,Liu Miaomiao,Salzmann M. History repeats itself: human motion prediction via motion attention [C]// Proc of the 16th European Conference on Computer Vision.Berlin:Springer,2020:474-489.