基于單模態(tài)的多尺度特征融合人體行為識別方法

2023-10-21 07:40劉鎖蘭田珍珍王洪元林龍王炎

計算機應用 2023年10期

劉鎖蘭，田珍珍，王洪元*，林龍，王炎

劉鎖蘭1，2，田珍珍1，王洪元1*，林龍1，王炎1

（1.常州大學計算機與人工智能學院阿里云大數(shù)據(jù)學院軟件學院，江蘇常州 213164； 2.江蘇省社會安全圖像與視頻理解重點實驗室（南京理工大學），南京 210094）（ ? 通信作者電子郵箱 hywang@cczu.edu.cn）

針對人體行為識別任務中未能充分挖掘超距關節(jié)點之間潛在關聯(lián)的問題，以及使用多模態(tài)數(shù)據(jù)帶來的高昂訓練成本的問題，提出一種單模態(tài)條件下的多尺度特征融合人體行為識別方法。首先，將人體的原始骨架圖進行全局特征關聯(lián)，并利用粗尺度的全局特征捕獲遠距離關節(jié)點間的聯(lián)系；其次，對全局特征關聯(lián)圖進行局部劃分以得到融合了全局特征的互補子圖（CSGF），利用細尺度特征建立強關聯(lián)，并形成多尺度特征的互補；最后，將CSGF輸入時空圖卷積模塊中提取特征，并聚合提取后的結果以輸出最終的分類結果。實驗結果表明，在行為識別權威數(shù)據(jù)集NTU RGB+D60上，所提方法的準確率分別為89.0%（X-sub）和94.2%（X-view）；在具有挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集NTU RGB+D120上，所提方法的準確率分別為83.3%（X-sub）和85.0%（X-setup），與單模態(tài)下的ST-TR（Spatial-Temporal TRansformer）相比，分別提升1.4和0.9個百分點，與輕量級SGN（Semantics-Guided Network）相比，分別提升4.1和3.5個百分點?？梢?，所提方法能夠充分挖掘多尺度特征的協(xié)同互補性，并有效提高單模態(tài)條件下模型的識別準確率和訓練效率。

人體行為識別；骨架關節(jié)點；圖卷積網(wǎng)絡；單模態(tài)；多尺度；特征融合

0 引言

隨著人工智能的興起和智能化時代的不斷推進，人體行為識別技術在智能安防、自動駕駛、異常行為監(jiān)測、虛擬現(xiàn)實等方面有許多實際的應用。行為識別的本質是分類識別，即從視頻、RGB圖像或骨架序列中提取一系列人體活動時的動作信息，提取特征以識別它的分類類別。其中，骨架數(shù)據(jù)排除了視頻和RGB圖像所帶來的復雜背景、光照條件、不同視角和設備運動等的噪聲干擾，具有良好的抗干擾性；此外，深度采集設備的應用和先進的人體姿態(tài)估計算法使得獲取骨架數(shù)據(jù)變得更容易［1］，因此基于骨架數(shù)據(jù)的行為識別技術得到了快速的發(fā)展。

基于傳統(tǒng)深度學習的方法將骨架手動構造為關節(jié)坐標向量序列或偽圖像，并將它輸入遞歸神經(jīng)網(wǎng)絡（Recurrent Neural Network， RNN）［2］或卷積神經(jīng)網(wǎng)絡（Convolutional Neural Network， CNN）［3］中建模［4］。然而，RNN和CNN只適用于處理具有一定順序的規(guī)則數(shù)據(jù)，忽略了人體關節(jié)節(jié)點之間的自然連接特征和人體動作之間的時空依賴關系，因此對人體行為特征的提取具有局限性。在現(xiàn)實生活中規(guī)則的結構占比較少，較多為具有復雜連接關系的不規(guī)則結構的拓撲圖，如人體骨骼結構、知識圖譜、社交網(wǎng)絡和貿(mào)易網(wǎng)絡等。骨架本質上是非歐幾里得結構的數(shù)據(jù)，在空間中表示為拓撲圖的形式，把關節(jié)節(jié)點視為圖的頂點，關節(jié)之間的自然連接視為圖的邊，圖卷積網(wǎng)絡（Graph Convolution Network，GCN）為此類拓撲圖問題提供了較好的解決方案。Yan等［5］提出了ST-GCN（Spatial-Temporal Graph Convolutional Network），該模型是GCN在人體骨架行為識別領域的首次應用。使用圖卷積方法構造人體骨架拓撲圖，模擬人體關節(jié)之間的自然連接，分別從時域和空域兩個維度提取特征，從而可以更好地挖掘骨架運動的特征信息。但是ST-GCN仍然存在許多不足：1）手工定義的拓撲圖結構忽略了非自然連接的關節(jié)之間的動態(tài)關聯(lián)，如跑步和行走對于手腳之間的協(xié)調運動很重要，在物理空間中不直接連接的手臂與腳有著非常強的關聯(lián)關系；2）分區(qū)策略關注身體部分之間的強關聯(lián)，注重局部的差異性；3）GCN通過卷積操作建模局部關系，使得ST-GCN對遠距離的關節(jié)點之間潛在關系的挖掘能力較弱。

針對上述問題，本文提出一種基于單模態(tài)的多尺度特征融合的人體行為識別方法。對原始人體骨架圖的每個關節(jié)點建立全連接，生成全局特征關聯(lián)圖，即為全局特征；根據(jù)人體固定物理結構將全局特征關聯(lián)圖劃分成若干子圖，得到互補子圖（Complementary Subgraphs with Global Features， CSGF），即為局部特征。子圖隱式地包含全局特征，同時顯式地包含局部特征，可以從不同尺度的特征充分挖掘骨架空間運動信息，全面且敏銳地捕獲相似動作的辨別性特征，提高行為識別的準確率。實驗結果表明，在使用單模態(tài)數(shù)據(jù)的條件下，本文方法取得了不錯的識別效果。

1 相關工作

1.1　圖卷積網(wǎng)絡

隨著深度學習方法的不斷演變和性能的不斷提高，行為識別得到了快速的發(fā)展。對于基于深度學習方法的行為識別模型，最初人們使用RNN將骨架數(shù)據(jù)表示為具有預定義遍歷規(guī)則的序列數(shù)據(jù)，并將它輸入基于RNN的模型［6］，如長短時記憶（Long Short-Term Memory， LSTM）和門控循環(huán)單元（Gated Recurrent Unit， GRU）。但是由于RNN方法本身的局限性，只能獲取相鄰幾幀內人體動作的短期時間上下文關系，未考慮空間方面人體骨架的連接關系，行為識別表達十分有限。CNN的出現(xiàn)彌補了RNN對空間信息表達的不足，在處理歐幾里得數(shù)據(jù)（如圖像）方面取得了顯著的成果［7］。但是骨架數(shù)據(jù)的本質并不是歐幾里得數(shù)據(jù)，而是具有圖形拓撲結構的非歐幾里得數(shù)據(jù)。受GCN啟發(fā)，人們開始廣泛研究基于GCN方法的行為識別模型。

主流的GCN分為兩大類：光譜域GCN［8-9］和空間域GCN［10-11］。光譜域GCN利用于圖傅里葉變換在光譜域上執(zhí)行圖卷積操作，由于此方法使用了圖拉普拉斯特征矩陣的特征值和特征向量，即對固定的鄰接矩陣使用特征分解操作，使得它只適用于特定結構的圖并且計算效率和圖的擴展都受到了限制。此方法的經(jīng)典之作為Kipf等［12］提出的半監(jiān)督分類的譜GCN。與光譜域GCN相比，空間域GCN處理不同鄰域中的節(jié)點的特征信息，更新每個節(jié)點的特征向量，再聚合自身和相鄰節(jié)點的特征，最后使用激活函數(shù)將合并的特征進行激活變換。本文采用空間域GCN的方法。GCN首先作為譜卷積的一階近似被引入［13］，之后陸續(xù)出現(xiàn)了許多以此為基線的各種模型。ST-GCN描述了原始人體骨架結構，并首次將圖卷積運用于行為識別領域，構造了時空圖卷積模型。Cheng等［14］使用Shift算子替代普通卷積算子，提出了時空移位圖卷積模型Shift-GCN（Shift Graph Convolutional Network）。Song等［15］提出了RA-GCN（Richly Activated Graph Convolutional Network），將網(wǎng)絡設計成多流結構，旨在學習運動豐富的鑒別特征，最后使用Softmax激活函數(shù)將多分支聚合。Cho等［16］提出了一種自注意力網(wǎng)絡（Self-Attention Network， SAN），在時間域每個分片中結構化嵌入自注意力以建模長期語義信息，提升識別性能。

ST-GCN將時空圖卷積定義為：

式（1）可以用鄰接矩陣表示為：

1.2　特征融合

在行為識別領域，基于單一特征訓練的網(wǎng)絡模型的性能有限，這是因為網(wǎng)絡挖掘單一特征的辨別性差異的能力有限。當兩個動作的區(qū)別在某種特征敏感特性上差異較小時，輸出的分類結果就可能產(chǎn)生偏差，導致分類準確率降低。

通常這類類內方差較小的問題的解決思路是使用特征融合的方法，提取不同尺度的特征，實現(xiàn)特征的互補，彌補單一特征對人體行為動作表達的不足。粗尺度特征用于度量語義相似度，具有較大的感受野，但會丟失事物部分與整體的關系；細尺度特征用于度量細粒度相似度［17］，具有較小的感受野，能夠表征部分和整體的關系，但是會產(chǎn)生語義歧義和噪聲干擾。融合這兩種特征可以實現(xiàn)特征的優(yōu)勢互補，提升模型的性能。

特征融合方法一般分為三類，分別是基于貝葉斯決策理論的算法、基于稀疏表示理論的算法和基于深度學習理論的算法。隨著深度神經(jīng)網(wǎng)絡的快速發(fā)展，基于深度學習理論的特征融合算法逐漸成為主流，它的核心思想是在深度卷積神經(jīng)網(wǎng)絡中加入特征融合過程，改進網(wǎng)絡模型［18］。ST-GCN將人體動作序列中的骨架關節(jié)點坐標信息流抽象為空域和時域兩個維度，在GCN中分別提取空域特征和時域特征進行特征融合，從而更全面地提升模型的識別準確率；2S-AGCN（two-Stream Adaptive Graph Convolutional Network）［19］在關節(jié)流［5］的基礎上增加了骨骼流，并將雙流的原始數(shù)據(jù)送入自適應圖卷積網(wǎng)絡中形成高層次的特征表達，最后在決策層進行特征融合。鑒于深度學習理論的蓬勃發(fā)展，本文亦采用基于深度學習理論的特征融合方法。

2 本文方法

本文方法的整體流程如圖1所示，首先，將人體的原始骨架圖進行全局關聯(lián)，得到具有全局關聯(lián)信息的特征圖；其次，在全局特征關聯(lián)圖的基礎上，根據(jù)人體行為特點和骨架的自然連接關系進行局部劃分；再次，將劃分后的子圖分別輸入空間圖卷積模塊中進行特征提取，聚合提取后的結果；最后，送入時間圖卷積模塊進行卷積，輸出最終的分類結果。

圖1　本文方法的整體流程

2.1　特征融合

2.1.1全局特征關聯(lián)圖

針對空間上超距的關節(jié)點間關聯(lián)性較弱的問題，本文設計了全局特征關聯(lián)圖以關聯(lián)人體中的所有關節(jié)點，即把感受野擴大到整個人體骨架圖，建立全局域的關節(jié)相關性，如圖2（a）所示。

同時，人體行為可以被表述為一系列關節(jié)鉸鏈的復雜聯(lián)動系統(tǒng)。為了挖掘人體骨架各關節(jié)點在不同行為中的貢獻度，設置了可學習的掩碼，可以自適應地調整各關節(jié)點的權重，數(shù)學定義為：

其中：表示全局特征關聯(lián)圖；的數(shù)學定義為+1，表示可學習的掩碼。

2.1.2局部子圖

全局特征關聯(lián)圖可以從宏觀上識別人體行為，但是對局部細節(jié)感知較弱，如對于相似動作的識別，全局的關注信息不能很好地捕獲它們之間的差異。針對這個問題，本文設計了局部子圖以捕獲相似動作的差異性，同時建立人體物理連接的強相關性。

基于生活經(jīng)驗可知，每個身體部分的重要性是不同的，而且人體行為動作具有協(xié)調對稱性。為了探索人體協(xié)調對稱的有效性，本文將頭頸和軀干合并，將左右臂合并，將左右腿合并，此時整個人體骨架圖被視為3個部分，表示為；為了探索頭頸和軀干的有效性，本文將左右手臂和左右腿分別視為1個部分，將頭頸和軀干分別視為1個部分，此時整體人體骨架圖被視為4個部分，表示為；為探索人體左側和右側單側的有效性，本文將頭頸和軀干合并為1個部分，將左手、右手、左腿、右腿分別視為1個部分，此時整個人體骨架圖被視為5個部分，表示為5subgraph：；為了探索每個身體部分的有效性，本文將頭頸、左臂、軀干、右臂、左腿、右腿分別視為1個部分，此時整個人體骨架圖被視為6個部分，表示為6subgraph：。

2.1.3特征融合模塊

人體行為動作通常與骨架關節(jié)的相互作用和組合有關，如走路與跑步需要四肢關節(jié)與骨骼的協(xié)調聯(lián)動以執(zhí)行動作，在空間結構上并不直接相連的關節(jié)與肢體具有很強的動作關聯(lián)性；因此在關注局部肢體運動信息的同時，全局特征的關聯(lián)性也至關重要。據(jù)此，本文提出全局與局部特征融合策略，以提取不同尺度的空間特征。粗尺度的全局特征建立全局域的關節(jié)相關性，關注全局特征信息，在空間上將感受野擴大到整個人體骨架圖，挖掘遠距離關節(jié)點間的潛在關聯(lián)；細尺度的局部特征建立各肢體之間的運動相關性，關注局部特征信息，在空間上將感受野縮放至肢體部分，挖掘各肢體部分對人體行為的重要性，有效融合全局與局部特征，以實現(xiàn)特征的互補。與傳統(tǒng)特征融合策略相比，本文并不是將全局與局部特征進行簡單的連接或者相加操作，而是在全局特征關聯(lián)圖上挖掘局部特征信息，具體做法是：基于全局特征關聯(lián)圖劃分子圖，劃分方案見2.1.2節(jié)，根據(jù)物理上肢體與軀干的連接關系，將全局特征關聯(lián)圖劃分為6個部分子圖，由此得到的子圖被定義為融合了全局特征的互補子圖（CSGF）。該互補子圖隱式地融合了全局特征信息，具有低層次的關節(jié)語義信息；同時顯式地融合了局部特征信息，具有高層次的肢體語義信息。因此，本文通過提取不同尺度的空間特征，挖掘粗尺度的全局特征和細尺度的局部特征之間的互補屬性，從多尺度特征層次提高行為識別對相似動作的判別能力，提升模型的性能。

由式（3）得到全局特征關聯(lián)圖，在此基礎上根據(jù)2.1.2節(jié)的子圖劃分方案，得到融合了全局特征的互補子圖集合，形式上可以表示為：

其中“～”代表全局信息。

2.2　時空圖卷積模塊結構

上述特征融合完成之后，將融合后的互補子圖輸入時空圖卷積模塊中訓練。本文的時空圖卷積的主干網(wǎng)絡來自ST-GCN，由9個時空圖卷積模塊組成，每個模塊如圖4所示，由空間子圖卷積和時間圖卷積這兩個模塊級聯(lián)構成：空間子圖卷積聚合提取的空間特征，再輸入時間卷積中提取時間特征。9個時空圖卷積模塊的輸出通道數(shù)分別為64、64、64、128、128、128、256、256、256，其中，在第4個和第7個模塊時間卷積之后設置下采樣，過濾貢獻度小或者冗余特征，保留重要的特征信息。最后將256維的特征向量送入Softmax激活函數(shù)中預測分類，預測的分類與實際標簽相同的概率即為該模型最終的識別準確率。

圖4　時空圖卷積模塊

在單幀中，融合了全局特征信息的互補子圖卷積可以將式（2）改寫為：

因此，時空圖卷積定義為：

算法1 網(wǎng)絡訓練過程。

1） for=1 to 9 //遍歷9層網(wǎng)絡層

2） for=1 to//特征轉換過程

3） for=0 to

5） end for

6） end for

8） for=1 to

10）執(zhí)行式（7） //子圖卷積

11）執(zhí)行式（8） //子圖聚合

12） end for

13）執(zhí)行式（9） //時間卷積

14） end for

15）重復1）～14），直至網(wǎng)絡收斂

3 實驗與結果分析

3.1　數(shù)據(jù)集

本文在兩個行為識別領域公開的具有權威性和挑戰(zhàn)性的數(shù)據(jù)集上進行實驗。

NTU RGB+D60［21］是目前應用最廣泛的大型行為識別RGB數(shù)據(jù)集，它包含在室內使用3個Microsoft Kinect v2攝像機捕獲的不同視圖的行為動作片段，由不同年齡段的40名志愿者演繹行為動作，包含60個動作類別，共計56 000個動作樣本。其中，最后10個類是2個對象之間的互動，其余都是單人視頻片段，并且每個視頻片段包含最多2個人體骨架，每個人體骨架由25個關節(jié)點構成。該數(shù)據(jù)集的作者提出了兩個評估協(xié)議：1）交叉對象（X-sub）協(xié)議將其中20個對象的40 320個視頻組成訓練集，其余20個對象的16 560個視頻組成測試集；2）交叉視圖（X-view）協(xié)議將攝像機2和攝像機3采集的37 920個視頻作為訓練集，而攝像機1采集的18 960個視頻作為測試集。值得注意的是，實驗中刪除了302個具有缺失或者不完整骨架數(shù)據(jù)的樣本。

NTU RGB+D120［22］是NTU RGB+D60的擴展版，也是目前最大的基于骨架的室內行為識別數(shù)據(jù)集。該數(shù)據(jù)集用3個攝像機拍攝不同視角的106名志愿者的行為動作，包含120個動作類別，共計114 480個動作樣本。該數(shù)據(jù)集作者提出了兩個評估協(xié)議：1）交叉對象（X-sub）將對象分成兩組，分別表示訓練集（63 026個視頻）和測試集（50 922個視頻）；2）交叉設置（X-setup）根據(jù)相機設置ID進行劃分，偶數(shù)ID的樣本組成訓練集，奇數(shù)ID的樣本組成測試集。同樣地，實驗中刪除了該數(shù)據(jù)集中532個具有缺失或不完整骨架數(shù)據(jù)的不良樣本。

3.2　實驗設置

在實驗的過程中，批處理大?。╞atch size）設置為32，模型迭代次數(shù)（epoch）設置為120，初始學習率為0.1，分別迭代到第20、50、70、100輪時，學習率逐步衰減原來的1/10。使用SGD（Stochastic Gradient Descent）優(yōu)化器優(yōu)化模型，在訓練時設置Dropout為0.5，防止過擬合。選擇交叉熵作為反向傳播梯度的損失函數(shù)，選擇Softmax分類器分類。所有實驗使用2個Nvidia GTX 2080Ti GPU完成訓練，并且依托于PyTorch的深度學習框架［23］，版本號為3.6。

3.3　實驗結果及分析

3.3.1單模態(tài)有效性分析

多模態(tài)包含多種不同模態(tài)的數(shù)據(jù)類型，可以實現(xiàn)模態(tài)間的信息互補，提高模型性能。但是多模態(tài)數(shù)據(jù)也存在諸多局限性：1）數(shù)據(jù)具有異質性，模態(tài)對齊困難；2）模態(tài)融合可能存在冗余和噪聲干擾，融合效果難以預測且可解釋性不強；3）模型參數(shù)量大且訓練需要消耗較大內存空間，對算力有更高的要求。近年來，行為識別領域的發(fā)展越來越趨于使用多模態(tài)構建網(wǎng)絡，實驗精度有所提高，但同時網(wǎng)絡參數(shù)量、算法復雜度成倍增長，對算力的要求也越來越高，造成了時間成本和資源成本的大幅提高。因此，本文使用單模態(tài)構造簡單高效的網(wǎng)絡模型，提出一種單模態(tài)下的多特征融合方法。雖然客觀上單模態(tài)數(shù)據(jù)雖只攜帶單一的信息量，但主觀上可以通過深度學習模型豐富單模態(tài)數(shù)據(jù)特征的層次，從而增強單模態(tài)數(shù)據(jù)的特征表達，同時降低時間和資源成本。

與其他方法相比，本文在單模態(tài)下實現(xiàn)了與多模態(tài)相當甚至更優(yōu)的識別性能。如表1所示，對比方法有Shift-GCN［14］、RA-GCN［15］、ST-TR（Spatial-Temporal TRansformer）、PL-GCN（Part-Level Graph Convolutional Network）［24］、DGNN（Directed Graph Neural Network）［25］、PB-GCN（Part-Based Graph Convolutional Network）［26］。

在同等單模態(tài)下，本文方法的準確率與PL-GCN相當，但是參數(shù)量更少；與多模態(tài)的DGNN相比，本文方法的準確率降低了0.9個百分點，但是參數(shù)量低于DGNN的1/6，因此消耗的內存資源更少，對實驗算力的硬件條件要求更低，總體性價比較高。與多模態(tài)的RA-GCN相比，本文方法的準確率和參數(shù)量均具有明顯優(yōu)勢。綜上所述，本文方法簡單高效，并且取得了不錯的效果，整體性價比更高。

表1　NTU RGB+D60（X-sub協(xié)議）上不同方法的準確率對比

注：“s”表示流（stream）。

3.3.2單一特征有效性分析

為了探索全局與局部特征關聯(lián)圖的單特征有效性，本文在NTU RGB+D60數(shù)據(jù)集的兩個協(xié)議（X-sub和X-view）上進行了相應的消融實驗。

相較于ST-GCN將整個人體骨架圖輸入網(wǎng)絡訓練，本文分別將全局特征關聯(lián)圖（Global feature graph）和局部子圖（3subgraph、4subgraph、5subgraph、6subgraph）輸入網(wǎng)絡訓練，訓練結果如表2所示。從表2中可以看出，在兩個協(xié)議上，與ST-GCN相比，單特征全局特征關聯(lián)圖分別提升了5.2個百分點和4.8個百分點，單特征局部子圖（4subgraph）分別提升了5.9個百分點和5.4個百分點，表明了全局特征關聯(lián)圖可以突破人體骨架的固定連接，捕獲遠距離關節(jié)之間的全局關系；同時，表明局部子圖可以將模型的注意力集中人體局部特征，捕捉行為的細粒相似度，提升模型性能。從表2中還可以看出，在4種局部子圖劃分方案中，4subgraph的劃分方案效果最優(yōu)，表明頭頸的運動對行為識別具有一定的影響，同時表明人體行為具有較強的協(xié)調對稱性。

3.3.3多特征融合的有效性分析

為了驗證新型多特征融合策略的有效性，本文在NTU RGB+D數(shù)據(jù)集的X-sub和X-view協(xié)議上進行實驗。

根據(jù)2.1.2節(jié)的劃分方案將全局特征關聯(lián)圖劃分為不同數(shù)量的互補子圖，對應表2所示的多特征融合列舉的4個方法。

從表2可以看出，多特征融合后的實驗結果均高于單特征的Global feature graph方法的結果。同時，在X-sub和X-view協(xié)議上，與單特征3subgraph方法的實驗結果相比，多特征融合Global feature graph+3subgraph方法分別提升了2.0和0.9個百分點；與4subgraph方法的實驗結果相比，Global feature graph+4subgraph方法分別提升了1.6和0.5個百分點；與5subgraph方法的實驗結果相比，Global feature graph+5subgraph方法分別提升了1.3和0.7個百分點；與6subgraph方法的實驗結果相比，Global feature graph+6subgraph方法分別提升了1.7和0.4個百分點。由此可以看出，多特征融合的4個方法的實驗結果均高于單特征的4種子圖方法，表明了多特征融合的效果比單特征效果有更高的識別準確率，驗證了全局和局部特征具有互補性。與此同時，再次證明了4個子圖劃分方案的有效性，因此，本文采用4個子圖劃分方案作為最終的實驗結果。

表2　NTU RGB+D60數(shù)據(jù)集上的消融實驗結果單位：%

3.3.4與其他方法的對比

為了驗證方法的有效性，本文在NTU RGB+D60和NTU RGB+D120兩個數(shù)據(jù)集上進行了對比實驗。對比方法有ST-GCN［5］、PB-GCN［26］、Shift-GCN［14］、SAN［16］、RA-GCN［15］、PGCN-TCA（Pseudo Graph Convolutional Network with Temporal and Channel-wise Attention）［27］、ST-TR［28］、SGN（Semantics-Guided Network）［29］、SkeleMixCLR（Contrastive Learning of visual Representation with a spatio-temporal Skeleton Mixing augmentation）［30］、MST-GCN（Multi-scale Spatial Temporal Graph Convolutional Network）［31］。如表3所示，本文方法在NTU RGB+D60數(shù)據(jù)集的兩個通用協(xié)議X-sub和X-view上的準確率分別為89.0%和94.2%。

從表3中可以看出，在無其他數(shù)據(jù)流的情況下，僅選擇關節(jié)點相對坐標作為單數(shù)據(jù)流輸入，在X-sub協(xié)議上，本文方法的準確率比ST-GCN高7.5個百分點，比PB-GCN高1.5個百分點，比Shift-GCN（1s）高1.2個百分點，比ST-TR高0.3個百分點。與其他輸入額外的多種數(shù)據(jù)流的方法相比，本文方法的識別準確率也優(yōu)于其他對比方法。在X-view協(xié)議上，本文方法優(yōu)于大部分方法，但略低于Shift-GCN（1s）、ST-TR、SGN、MST-GCN。Shift-GCN（1s）方法中的時間圖卷積和空間圖卷積部分均使用了Shift卷積算子，本文僅在空間圖卷積中運用Shift卷積算子，時間圖卷積部分使用常規(guī)Conv卷積算子（因為基于本文的特征融合方法不適用時間Shift卷積算子，沿時間維度的通道移位會破壞原有的空間特征關聯(lián)結構，從而導致模型的識別準確率下降），但本文方法在NTU RGB+D120的兩個協(xié)議上的實驗效果均優(yōu)于Shift-GCN（1s）方法；ST-TR中的Transformer注意力機制具有出色的全局特性和模態(tài)融合能力，但缺點是計算效率低，且開銷巨大；SGN和MST-GCN模型都是輕量，在NTU RGB+D60數(shù)據(jù)集上達到了不錯的識別效果，但是模型輕量和準確率不能兼得，所以它在更大的NTU RGB+D120數(shù)據(jù)集上的實驗效果不佳。

表3　不同方法在NTU RGB+D60數(shù)據(jù)集上的識別準確率單位：%

綜上所述，本文方法在NTU RGB+D60數(shù)據(jù)集上有不錯的實驗效果，表明全局與局部特征能夠從更高層次的語義信息理解人體行為，敏銳地捕獲相似動作的辨別性差異。

如表4所示，本文方法在NTU RGB+D120數(shù)據(jù)集的兩個通用協(xié)議X-sub和X-setup上的準確率分別為83.3%和85.0%。對比方法為GVFE+AS-GCN with DH-TCN（Graph Vertex Feature Encoder and Actional-Structural Graph Convolutional Network with Dilated Hierarchical Temporal Convolutional Network）［32］、Gimme Signals［33］、SGN、Shift-GCN、RA-GCN、ST-TR、SkeleMixCLR和MST-GCN。在無其他數(shù)據(jù)流的情況下，僅選擇關節(jié)點坐標作為單數(shù)據(jù)流輸入，在X-sub協(xié)議上本文方法比Shift-GCN（1s）的準確率高2.4個百分點，比單模態(tài)下的ST-TR的準確率高1.4個百分點；在X-setup協(xié)議上比Shift-GCN（1s）的準確率高1.8個百分點，比ST-TR的準確率高0.9個百分點。與輕量級模型SGN相比，在兩個協(xié)議上的準確率分別高4.1和3.5個百分點；與輕量級模型MST-GCN（1s）相比，在兩個協(xié)議上的準確率均高0.5個百分點。綜上分析，驗證了本文方法的有效性。

表4　不同方法在NTU RGB+D120數(shù)據(jù)集上的識別準確率單位：%

4 結語

為了提高人體關節(jié)點之間的全局建模能力，彌補卷積操作以及人體固有連接的局限性，本文提出了一種單模態(tài)條件下的基于多尺度特征融合的人體行為識別方法，從粗尺度的全局方面捕獲遠距離的關節(jié)點之間的關系，同時從細尺度的局部方面關注人的身體部分的強關聯(lián)，對人體行為識別從不同尺度特征形成互補關系，敏銳捕捉相似行為之間的差異性，提高識別性能。在具有挑戰(zhàn)性的兩個大型數(shù)據(jù)集NTU RGB+D60和NTU RGB+D120上的實驗結果表明，本文方法能達到較高的識別精度。近年行為識別領域蓬勃發(fā)展，識別精度也越來越高，但是網(wǎng)絡的規(guī)模和參數(shù)量也成倍增長，對實驗算力也提出了更高的要求，在保證識別精度的前提下，探索更輕量級的、更少參數(shù)量的、訓練更快的網(wǎng)絡模型是下一步值得深入研究的課題。

[1] SI C， CHEN W， WANG W， et al. An attention enhanced graph convolutional LSTM network for skeleton-based action recognition［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019： 1227-1236.

[2] OORD A van den， KALCHBRENNER N， KAVUKCUOGLU K. Pixel recurrent neural networks［C］// Proceedings of the 33rd International Conference on Machine Learning. New York： JMLR.org， 2016： 1747-1756.

[3] DEFFERRARD M， BRESSON X， VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering［C］// Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2016： 3844-3852.

[4] YANG H， YAN D， ZHANG L， et al. Feedback graph convolutional network for skeleton-based action recognition［J］. IEEE Transactions on Image Processing， 2022， 31： 164-175.

[5] YAN S， XIONG Y， LIN D. Spatial temporal graph convolutional networks for skeleton-based action recognition［C］// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2018： 7444-7452.

[6] SHI L， ZHANG Y， CHENG J， et al. Decoupled spatial-temporal attention network for skeleton-based action recognition［C］// Proceedings of the 2020 Asian Conference on Computer Vision， LNCS 12626. Cham： Springer， 2021： 38-53.

[7] CHEN Y， ZHANG Z， YUAN C， et al. Channel-wise topology refinement graph convolution for skeleton-based action recognition［C］// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Piscataway： IEEE， 2021： 13339-13348.

[8] LI C， CUI Z， ZHENG W， et al. Action-attending graphic neural network［J］. IEEE Transactions on Image Processing， 2018， 27（7）： 3657-3670.

[9] PENG W， HONG X， CHEN H， et al. Learning graph convolutional network for skeleton-based human action recognition by neural searching［C］// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2020： 2669-2676.

[10] ZHAO R， WANG K， SU H， et al. Bayesian graph convolution LSTM for skeleton based action recognition［C］// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway： IEEE， 2019： 6882-6892.

[11] GAO J， HE T， ZHOU X， et al. Focusing and diffusion： bidirectional attentive graph convolutional networks for skeleton-based action recognition［EB/OL］. （2019-12-24）. ［2022-08-13］.https：//arxiv.org/pdf/1912.11521.pdf.

[12] KIPF T N， WELLING M. Semi-supervised classification with graph convolutional networks［EB/OL］. （2017-02-22）. ［2022-09-10］.https：//arxiv org/pdf/1609.02907.pdf.

[13] LIU Z， ZHANG H， CHEN Z， et al. Disentangling and unifying graph convolutions for skeleton-based action recognition［C］// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2020： 143-152.

[14] CHENG K， ZHANG Y， HE X， et al. Skeleton-based action recognition with shift graph convolutional network［C］// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2020： 180-189.

[15] SONG Y F， ZHANG Z， SHAN C， et al. Richly activated graph convolutional network for robust skeleton-based action recognition［J］. IEEE Transactions on Circuits and Systems for Video Technology， 2021， 31（5）： 1915-1925.

[16] CHO S， MAQBOOL M H， LIU F， et al. Self-attention network for skeleton-based human action recognition［C］// Proceedings of the 2020 IEEE Winter Conference on Applications of Computer Vision. Piscataway： IEEE， 2020： 624-633.

[17] YU W， YANG K， YAO H， et al. Exploiting the complementary strengths of multi-layer CNN features for image retrieval［J］. Neurocomputing， 2017， 237： 235-241.

[18] 劉渭濱，鄒智元，邢薇薇. 模式分類中的特征融合方法［J］. 北京郵電大學學報， 2017， 40（4）： 1-8.（LIU W B， ZOU Z Y， XING W W. Feature fusion method in pattern classification［J］. Journal of Beijing University of Posts and Telecommunications， 2017， 40（4）： 1-8.）

[19] SHI L， ZHANG Y， CHENG J， et al. Two-stream adaptive graph convolutional networks for skeleton-based action recognition［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019： 12018-12027.

[20] CHEN Y， ROHRBACH M， YAN Z， et al. Graph-based global reasoning networks［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019： 433-442.

[21] SHAHROUDY A， LIU J， NG T T， et al. NTU RGB+ D： a large scale dataset for 3D human activity analysis［C］// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 1010-1019.

[22] LIU J， SHAHROUDY A， PEREZ M， et al. NTU RGB+ D 120： a large-scale benchmark for 3D human activity understanding［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2020， 42（10）： 2684-2701.

[23] PASZKE A， GROSS S， CHINTALA S， et al. Automatic differentiation in PyTorch［EB/OL］. （2017-10-29）［2020-12-01］.https：//openreview.net/pdf？id=BJJsrmfCZ.

[24] HUANG L， HUANG Y， OUYANG W， et al. Part-level graph convolutional network for skeleton-based action recognition［C］// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2020： 11045-11052.

[25] SHI L， ZHANG Y， CHENG J， et al. Skeleton-based action recognition with directed graph neural networks［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019： 7904-7913.

[26] THAKKAR K， NARAYANAN P J. Part-based graph convolutional network for action recognition［EB/OL］. （2018-09-13）［2022-08-13］.https：//arxiv.org/pdf/1809.04983.pdf.

[27] YANG H， GU Y， ZHU J， et al. PGCN-TCA： pseudo graph convolutional network with temporal and channel-wise attention for skeleton-based action recognition［J］. IEEE Access， 2020， 8： 10040-10047.

[28] PLIZZARI C， CANNICI M， MATTEUCCI M. Skeleton-based action recognition via spatial and temporal transformer networks［J］. Computer Vision and Image Understanding， 2021， 208/209： No.103219.

[29] ZHANG P， LAN C， ZENG W， et al. Semantics-guided neural networks for efficient skeleton-based human action recognition［C］// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2020： 1109-1118.

[30] CHEN Z， LIU H， GUO T， et al. Contrastive learning from spatio-temporal mixed skeleton sequences for self-supervised skeleton-based action recognition［EB/OL］. （2022-07-07）［2022-10-23］.https：//arxiv.org/pdf/2207.03065.pdf.

[31] CHEN Z， LI S， YANG B， et al. Multi-scale spatial temporal graph convolutional network for skeleton-based action recognition［C］// Proceedings of the 35th AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2021： 1113-1122.

[32] PAPADOPOULOS K， GHORBEL E， AOUADA D， et al. Vertex feature encoding and hierarchical temporal modeling in a spatial-temporal graph convolutional network for action recognition［C］// Proceedings of the 25th International Conference on Pattern Recognition. Piscataway： IEEE， 2021： 452-458.

[33] MEMMESHEIMER R， THEISEN N， PAULUS D. Gimme signals： discriminative signal encoding for multimodal activity recognition［C］// Proceedings of the 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway： IEEE， 2020： 10394-10401.

Human action recognition method based on multi-scale feature fusion of single mode

LIU Suolan1，2， TIAN Zhenzhen1， WANG Hongyuan1*， LIN Long1， WANG Yan1

（1，，，，213164，；2（），210094，）

In order to solve the problem of insufficient mining of potential association between remote nodes in human action recognition tasks， and the problem of high training cost caused by using multi-modal data， a multi-scale feature fusion human action recognition method under the condition of single mode was proposed. Firstly， the global feature correlation of the original skeleton diagram of human body was carried out， and the coarse-scale global features were used to capture the connections between the remote nodes. Secondly， the global feature correlation graph was divided locally to obtain the Complementary Subgraphs with Global Features （CSGFs）， the fine-scale features were used to establish the strong correlation， and the multi-scale feature complementarity was formed. Finally， the CSGFs were input into the spatial-temporal Graph Convolutional module for feature extraction， and the extracted results were aggregated to output the final classification results. Experimental results show that the accuracy of the proposed method on the authoritative action recognition dataset NTU RGB+D60 is 89.0% （X-sub） and 94.2% （X-view） respectively. On the challenging large-scale dataset NTU RGB+D120， the accuracy of the proposed method is 83.3% （X-sub） and 85.0% （X-setup） respectively， which is 1.4 and 0.9 percentage points higher than that of the ST-TR （Spatial-Temporal TRansformer） under single modal respectively， and 4.1 and 3.5 percentage points higher than that of the lightweight SGN （Semantics-Guided Network）. It can be seen that the proposed method can fully exploit the synergistic complementarity of multi-scale features， and effectively improve the recognition accuracy and training efficiency of the model under the condition of single modal.

human action recognition; skeleton joint; Graph Convolutional Network (GCN); single mode; multi-scale; feature fusion

This work is partially supported by National Natural Science Foundation of China （61976028）， Open Project of Jiangsu Key Laboratory of Image and Video Understanding for Social Security （J2021-2）.

LIU Suolan， born in 1980， Ph. D.， associate professor. Her research interests include computer vision， artificial intelligence.

TIAN Zhenzhen， born in 1997， M. S. candidate. Her research interests include computer vision， pattern recognition.

WANG Hongyuan， born in 1960， Ph. D.， professor. His research interests include image processing， computer vision， artificial intelligence， pattern recognition.

LIN Long， born in 1998， M. S. candidate. His research interests include computer vision， data augmentation.

WANG Yan， born in 1999， M. S. candidate. His research interests include computer vision， pattern recognition.

1001-9081（2023）10-3236-08

10.11772/j.issn.1001-9081.2022101473

2022?10?11；

2022?12?29；

國家自然科學基金資助項目（61976028）；江蘇省社會安全圖像與視頻理解重點實驗室開放課題（J2021?2）。

劉鎖蘭（1980—），女，江蘇泰州人，副教授，博士，CCF會員，主要研究方向：計算機視覺、人工智能；田珍珍（1997—），女，河南鄭州人，碩士研究生，主要研究方向：計算機視覺、模式識別；王洪元（1960—），男，江蘇常熟人，教授，博士，CCF會員，主要研究方向：圖像處理、計算機視覺、人工智能、模式識別；林龍（1998—），男，四川德陽人，碩士研究生，主要研究方向：計算機視覺、數(shù)據(jù)增強；王炎（1999—），男，江蘇連云港人，碩士研究生，主要研究方向：計算機視覺、模式識別。

TP391.41

2023?01?03。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于單模態(tài)的多尺度特征融合人體行為識別方法

0 引言

1 相關工作

1.1 圖卷積網(wǎng)絡

1.2 特征融合

2 本文方法

2.1 特征融合

2.2 時空圖卷積模塊結構

3 實驗與結果分析

3.1 數(shù)據(jù)集

3.2 實驗設置

3.3 實驗結果及分析

4 結語

1.1　圖卷積網(wǎng)絡

1.2　特征融合

2.1　特征融合

2.2　時空圖卷積模塊結構

3.1　數(shù)據(jù)集

3.2　實驗設置

3.3　實驗結果及分析