国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于骨架的自適應(yīng)尺度圖卷積動(dòng)作識(shí)別

2022-12-01 02:37王小娟肖亞博
關(guān)鍵詞:關(guān)鍵點(diǎn)骨骼尺度

王小娟,鐘?云,金?磊,肖亞博

基于骨架的自適應(yīng)尺度圖卷積動(dòng)作識(shí)別

王小娟,鐘?云,金?磊,肖亞博

(北京郵電大學(xué)電子工程學(xué)院,北京 100876)

基于骨架的動(dòng)作識(shí)別任務(wù)中,一般將骨骼序列表示為預(yù)定義的時(shí)空拓?fù)鋱D.然而,由于樣本的多樣性,固定尺度的拓?fù)鋱D往往不是最優(yōu)結(jié)構(gòu),針對(duì)樣本特性構(gòu)建自適應(yīng)尺度的骨骼拓?fù)鋱D能夠更好地捕捉時(shí)空特征;另外,不同尺度的骨骼圖能夠表達(dá)不同粒度的人體結(jié)構(gòu)特征,因此對(duì)多個(gè)不同尺度的拓?fù)鋱D進(jìn)行特征提取與融合是有必要的.針對(duì)這些問(wèn)題,提出了一種自適應(yīng)尺度的圖卷積動(dòng)作識(shí)別模型.該模型包含自適應(yīng)尺度圖卷積模塊和多尺度融合模塊兩部分.自適應(yīng)尺度圖卷積模塊基于先驗(yàn)與空間注意力機(jī)制,構(gòu)建關(guān)鍵點(diǎn)的活躍度判決器,將活躍點(diǎn)細(xì)化為小尺度結(jié)構(gòu)、非活躍點(diǎn)聚合為大尺度結(jié)構(gòu),在加速節(jié)點(diǎn)間特征傳遞的同時(shí)最小化特征損耗;多尺度融合模塊基于通道注意力機(jī)制,動(dòng)態(tài)融合不同尺度的特征,進(jìn)一步提升網(wǎng)絡(luò)的靈活性;最后,綜合關(guān)鍵點(diǎn)、骨骼、運(yùn)動(dòng)信息實(shí)現(xiàn)多路特征聚合的動(dòng)作判別,豐富模型的特征表達(dá).結(jié)果表明:該算法在NTU-RGBD數(shù)據(jù)集的CS和CV子集上分別取得了89.7%和96.1%的分類(lèi)準(zhǔn)確率,顯著提高了動(dòng)作識(shí)別的準(zhǔn)確性.

人體骨架;動(dòng)作識(shí)別;自適應(yīng)尺度;圖卷積

動(dòng)作識(shí)別是計(jì)算機(jī)視覺(jué)中的基礎(chǔ)任務(wù),在安防、醫(yī)療、運(yùn)動(dòng)等領(lǐng)域有著廣泛的應(yīng)用[1].傳統(tǒng)動(dòng)作識(shí)別任務(wù)多以RGB-D視頻為輸入,但是視頻數(shù)據(jù)蘊(yùn)含著豐富信息的同時(shí)也存在著光照、角度、距離等因素的干擾,使模型無(wú)法專(zhuān)注于人體動(dòng)作的表達(dá)[2].因此,人體骨架以其對(duì)環(huán)境的強(qiáng)魯棒性獲得了廣泛關(guān)注.

傳統(tǒng)的骨架動(dòng)作識(shí)別多采用基于手工特征提取的方法,例如,Hussein等[3]提取了骨骼序列上的協(xié)方差矩陣,Wang等[4]設(shè)計(jì)了骨骼相對(duì)位置的特征表達(dá),Vemulapalli等[5]利用李群流形對(duì)骨骼序列建模.這些方法往往需要耗費(fèi)大量計(jì)算資源,且精度較低.隨著深度學(xué)習(xí)的發(fā)展,數(shù)據(jù)驅(qū)動(dòng)的方式受到了越來(lái)越多的關(guān)注,主要包括兩類(lèi):第1類(lèi)是基于RNN的方法,將不同關(guān)鍵點(diǎn)編碼成向量,再用RNN提取時(shí)域信息[6],這種方式難以捕捉骨骼間的連接關(guān)系.第2類(lèi)是基于CNN的方法,直接對(duì)骨骼數(shù)據(jù)進(jìn)行二維或三維卷積[7],但關(guān)鍵點(diǎn)之間的鄰接關(guān)系是不規(guī)則的,因此傳統(tǒng)卷積并不適用.

圖卷積在多個(gè)領(lǐng)域的良好表現(xiàn)[8],為骨架動(dòng)作識(shí)別提供了新思路.Yan等[9]首次將人體關(guān)鍵點(diǎn)作為節(jié)點(diǎn),骨骼作為邊,構(gòu)建了時(shí)空?qǐng)D,顯著提升了識(shí)別精度.Liu等[10]提出了3D圖卷積,統(tǒng)一了時(shí)空維度的特征提取方式.Shi等[11]設(shè)計(jì)了全局卷積核,使每個(gè)節(jié)點(diǎn)都能獲取圖的整體信息.Obinata等[12]提出了時(shí)域拓展模塊,將鄰居關(guān)系拓展到了相鄰幀.上述方法雖然取得了一定的效果,但是仍存在一些缺陷:①用預(yù)定義尺度的拓?fù)鋱D表示骨骼序列,缺乏靈活性;人體不同動(dòng)作往往需要不同身體部位的協(xié)同配合,如“喝水”、“拿杯子”等小動(dòng)作需要對(duì)手指、嘴巴等細(xì)粒度結(jié)構(gòu)進(jìn)行分析,而“跑步”、“舉重”等大動(dòng)作需要對(duì)胳膊、腿等粗粒度結(jié)構(gòu)進(jìn)行分析.因此如果網(wǎng)絡(luò)能對(duì)不同樣本,自適應(yīng)地學(xué)得圖的最佳尺度,就能夠更精準(zhǔn)地對(duì)骨骼序列建模;②缺乏對(duì)特征的多尺度提取與融合.對(duì)骨骼序列構(gòu)建多個(gè)不同尺度的拓?fù)鋱D能夠提取不同粒度的結(jié)構(gòu)特征,對(duì)于動(dòng)作識(shí)別任務(wù)而言是至關(guān)重要的.

基于上述分析,提出了自適應(yīng)圖卷積模塊和多尺度融合模塊,基于先驗(yàn)與空間注意力機(jī)制構(gòu)建活躍度判別器,對(duì)數(shù)據(jù)進(jìn)行多粒度卷積,利于特征提取;基于通道注意力機(jī)制,動(dòng)態(tài)融合不同尺度的特征,提高網(wǎng)絡(luò)靈活性;綜合關(guān)鍵點(diǎn)、骨骼、運(yùn)動(dòng)信息(運(yùn)動(dòng)信息包括兩路:關(guān)鍵點(diǎn)運(yùn)動(dòng)信息和骨骼運(yùn)動(dòng)信息)4路輸出,豐富特征的表達(dá),大幅提高了預(yù)測(cè)精度.

1?基于圖卷積的骨架動(dòng)作識(shí)別

圖表示是骨架動(dòng)作識(shí)別的首要問(wèn)題,在保留骨骼原始連接關(guān)系的基礎(chǔ)上增加網(wǎng)絡(luò)的靈活性,提高節(jié)點(diǎn)間信息的傳遞效率是至關(guān)重要的.

1.1?圖表示

1.2 應(yīng)?用

空域上,用GCN提取特征,基于第1.1節(jié)的骨骼圖表示方法,聚合鄰居節(jié)點(diǎn)的信息,具體公式為

時(shí)域上,現(xiàn)有方法[9-12]多采用一維卷積的方式,對(duì)同一關(guān)鍵點(diǎn)在不同幀的特征進(jìn)行融合.

2?自適應(yīng)尺度圖卷積的動(dòng)作識(shí)別

2.1?網(wǎng)絡(luò)結(jié)構(gòu)

本模型構(gòu)建過(guò)程主要分為3部分:特征獲取、模型訓(xùn)練和模型融合,如圖1所示.

(1)特征獲取:對(duì)原始骨架中具有鄰接關(guān)系的關(guān)鍵點(diǎn)對(duì)取向量差,作為骨骼數(shù)據(jù),其計(jì)算式為

式中表示節(jié)點(diǎn)和節(jié)點(diǎn)間的骨骼,由人體關(guān)節(jié)間的真實(shí)連接情況得到.

分別對(duì)原始數(shù)據(jù)和骨骼數(shù)據(jù)取運(yùn)動(dòng)信息,其計(jì)算式為

(2) 模型訓(xùn)練:模型由10個(gè)基礎(chǔ)網(wǎng)絡(luò)層堆疊而成,每層網(wǎng)絡(luò)結(jié)構(gòu)相似,包括時(shí)、空特征提取單元.其中,空間特征提取單元如圖2所示.

圖2?空間特征提取單元(實(shí)心點(diǎn)代表活躍結(jié)構(gòu))

首先,對(duì)數(shù)據(jù)進(jìn)行批歸一化處理,綜合先驗(yàn)判別機(jī)制,共同構(gòu)建活躍度判決器,生成自適應(yīng)尺度的圖結(jié)構(gòu).而后,多個(gè)尺度的骨骼圖卷積后動(dòng)態(tài)融合,完成空域特征的提取.時(shí)域上,采用與ST-GCN[9]相同的策略,進(jìn)行一維卷積.每層網(wǎng)絡(luò)的輸出通道數(shù)依次是64、64、64、64、128、128、128、128、256、256.

(3)模型融合:由(1)得到了模型的4路輸入,單路模型按照(2)進(jìn)行訓(xùn)練,得到概率分布向量,對(duì)4路輸出加權(quán)融合,概率值最大的類(lèi)別即為預(yù)測(cè)值.

2.2?自適應(yīng)尺度圖卷積模塊

自適應(yīng)尺度圖卷積模塊基于活躍度判決得到最佳的圖結(jié)構(gòu),使得骨骼圖的數(shù)值和尺度都能夠與網(wǎng)絡(luò)的其他參數(shù)共同訓(xùn)練,極大提高了網(wǎng)絡(luò)的靈活性.

2.2.1?活躍度判決器

人體不同動(dòng)作都有主要活動(dòng)的關(guān)節(jié),也稱(chēng)這些關(guān)節(jié)在當(dāng)前動(dòng)作中較為活躍.在構(gòu)建動(dòng)作分類(lèi)模型時(shí),如果網(wǎng)絡(luò)能夠有區(qū)別地對(duì)活躍度不同的點(diǎn)給予不同的關(guān)注,就能更好地區(qū)分動(dòng)作.因此,筆者將活躍度作為自適應(yīng)尺度圖的構(gòu)建依據(jù),并就關(guān)鍵點(diǎn)的活躍度度量設(shè)計(jì)了一種聯(lián)合先驗(yàn)判別與空間注意力機(jī)制的策略,具體如下.

通過(guò)步驟1和步驟2得到先驗(yàn)與空間注意力機(jī)制各自的活躍度判別矩陣,在兩個(gè)活躍度矩陣中活躍度均大于閾值的點(diǎn)作為活躍點(diǎn),反之則為非活躍點(diǎn).

2.2.2?自適應(yīng)尺度圖卷積模塊

自適應(yīng)尺度圖卷積模塊包括自適應(yīng)尺度圖的構(gòu)建和圖卷積操作兩部分.

不同尺度的圖能夠豐富語(yǔ)義信息的表達(dá).大尺度下,特征進(jìn)行粗粒度的融合,加速信息傳遞,例如,圖3(a)中,頭(點(diǎn))與腰(點(diǎn))是三階鄰居,在小尺度下,需要3次卷積才能融合.但是在大尺度下,如圖3(b)中,僅需要1次聚合就能實(shí)現(xiàn)特征交互.

因此,大尺度圖能夠更快地發(fā)現(xiàn)自然結(jié)構(gòu)中距離較遠(yuǎn)的節(jié)點(diǎn)間關(guān)系.但由于大尺度圖一般是通過(guò)對(duì)關(guān)鍵點(diǎn)取平均得到的,因此存在一定的特征損耗.

筆者提出的自適應(yīng)尺度圖結(jié)構(gòu)能夠在最大化保留關(guān)鍵信息的前提下加速特征傳遞,具體如下:首先,基于先驗(yàn)劃分得到大尺度圖,如圖3(b)所示;接著,將圖結(jié)構(gòu)輸入活躍度判別器,由第2.2.1節(jié)中的步驟1和步驟2綜合得到活躍度判別結(jié)果,圖3(c)中的紅色點(diǎn)代表活躍點(diǎn)、灰色點(diǎn)代表非活躍點(diǎn);最后,將包含活躍點(diǎn)的大尺度結(jié)構(gòu)還原為小尺度關(guān)鍵點(diǎn),得到圖3(d),從而實(shí)現(xiàn)了數(shù)據(jù)驅(qū)動(dòng)的自適應(yīng)尺度圖的構(gòu)建.自適應(yīng)尺度圖中包含了人體不同尺度的結(jié)構(gòu),活躍部位往往是小尺度結(jié)構(gòu),非活躍部位往往是大尺度結(jié)構(gòu).特別地,每層網(wǎng)絡(luò)結(jié)構(gòu)均包含活躍度判別器及自適應(yīng)尺度圖的構(gòu)建模塊,因此樣本在不同網(wǎng)絡(luò)層中會(huì)自適應(yīng)得到不同的圖結(jié)構(gòu),從而進(jìn)行自適應(yīng)尺度的圖卷積,以充分提取不同節(jié)點(diǎn)之間的關(guān)系.

圖3?自適應(yīng)尺度圖的構(gòu)建(紅色實(shí)心點(diǎn)代表活躍點(diǎn))

在獲取自適應(yīng)尺度圖后,采用2s-AGCN[11]的結(jié)構(gòu)進(jìn)行圖卷積操作,其表達(dá)式為

2.3?多尺度融合模塊

自適應(yīng)尺度圖卷積模塊能夠根據(jù)樣本的局部特性,在單個(gè)骨架上生成尺度自適應(yīng)的圖,如第2.2.2節(jié)所述,加速了活躍點(diǎn)與其余點(diǎn)的信息交互,更利于發(fā)現(xiàn)局部活躍點(diǎn)特征的區(qū)分性,因此,筆者將自適應(yīng)尺度圖卷積模塊輸出作為局部特征,同時(shí)將原小尺度圖(圖3(a))的卷積輸出作為全局特征,進(jìn)行加權(quán)融合,如圖4所示.

圖4?多尺度融合模塊

多尺度融合模塊基于通道注意力機(jī)制,首先,對(duì)原尺度特征和自適應(yīng)尺度特征進(jìn)行元素和操作,得到

3?實(shí)驗(yàn)結(jié)果與分析

3.1?數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

(1) NTU-RGBD[15]:該數(shù)據(jù)集是目前動(dòng)作識(shí)別領(lǐng)域最大的室內(nèi)數(shù)據(jù)集,包含了60個(gè)類(lèi)別的56880個(gè)數(shù)據(jù)樣本,每個(gè)類(lèi)別都包含了3個(gè)Kinect v2攝像機(jī)捕獲的40名志愿者的數(shù)據(jù).按不同的劃分標(biāo)準(zhǔn)可得到以下兩個(gè)子集:①Cross-Subject(CS):根據(jù)志愿者的編號(hào)劃分?jǐn)?shù)據(jù)集.訓(xùn)練集有40320個(gè)樣本,測(cè)試集有16560個(gè)樣本;②Cross-View(CV):根據(jù)攝像機(jī)的編號(hào)劃分?jǐn)?shù)據(jù)集.訓(xùn)練集有37920個(gè)樣本,測(cè)試集有18960個(gè)樣本.

(2)評(píng)價(jià)指標(biāo):使用top-1準(zhǔn)確率作為評(píng)價(jià)指標(biāo).

(3)數(shù)據(jù)預(yù)處理:為了減少輸入數(shù)據(jù)分布的影響,本文使用時(shí)間維度中第1幀的中心節(jié)點(diǎn)坐標(biāo)作為坐標(biāo)原點(diǎn)來(lái)標(biāo)準(zhǔn)化數(shù)據(jù).然后,為了減小不同視角的影響,筆者旋轉(zhuǎn)了坐標(biāo)軸,使得骨骼的左右肩線與水平軸平行、脊柱與縱軸平行.

3.2?活躍度判別的可視化

如圖5所示,隨機(jī)選取了3個(gè)不同類(lèi)別的樣本的初始活躍度判別情況進(jìn)行可視化,可見(jiàn)不同類(lèi)別樣本的活躍度判別情況差異較大,進(jìn)一步生成的圖尺度結(jié)構(gòu)也不相同,因此本模型能夠進(jìn)行靈活的圖構(gòu)建.

圖5?不同樣本的活躍度判別(實(shí)心點(diǎn)代表活躍點(diǎn))

3.3?訓(xùn)練參數(shù)設(shè)置與實(shí)驗(yàn)結(jié)果

本研究使用pytorch搭建網(wǎng)絡(luò),使用了帶有動(dòng)量的隨機(jī)梯度下降算法和交叉熵?fù)p失函數(shù)來(lái)進(jìn)行優(yōu)化,權(quán)重削減系數(shù)設(shè)為0.0002,批大小為32.由于數(shù)據(jù)集中單個(gè)樣本最多包含兩個(gè)人體數(shù)據(jù),因此,將僅包含一個(gè)人體樣本的數(shù)據(jù)用0進(jìn)行填充,保證樣本維度的統(tǒng)一.另外,樣本的最大幀數(shù)為300幀,筆者也對(duì)不滿(mǎn)300幀的樣本用0進(jìn)行了填充.初始學(xué)習(xí)率設(shè)為0.05,在第30輪、40輪和60輪后減小為1/10.

為了分別驗(yàn)證本研究提出的自適應(yīng)尺度圖卷積模塊和多尺度融合模塊,在NTU-RGBD的跨視角子集(CV)上進(jìn)行了消融實(shí)驗(yàn).表1是在基線算法的基礎(chǔ)上僅加了自適應(yīng)尺度圖卷積模塊的效果.

表1 自適應(yīng)尺度圖卷積模塊在NTU-RGBD數(shù)據(jù)集上的消融實(shí)驗(yàn)

Tab.1 Ablation experiments on the scale adaptive graph convolution module using the NTU-RGBD dataset

(1) 單路輸入:使用關(guān)鍵點(diǎn)作為輸入時(shí),Top-1準(zhǔn)確率由93.7%提升到了94.1%;使用骨骼作為輸入時(shí),Top-1準(zhǔn)確率由93.2%提升到了94.0%.

(2) 多路輸入:使用關(guān)鍵點(diǎn)和骨骼同時(shí)作為輸入時(shí),Top-1準(zhǔn)確率提升了0.2%,使用完整4路輸入時(shí),準(zhǔn)確率提升了0.7%.綜上,自適應(yīng)尺度圖卷積模塊對(duì)于提升動(dòng)作識(shí)別的準(zhǔn)確性是較有效的.

表2描述了在基線算法上同時(shí)使用自適應(yīng)尺度模塊和多尺度融合模塊的效果,與表1中僅適用自適應(yīng)尺度模塊的效果進(jìn)行比較.

(1) 單路輸入:使用關(guān)鍵點(diǎn)作為輸入時(shí),Top-1準(zhǔn)確率由94.1%提升到了94.4%;使用骨骼作為輸入時(shí),Top-1準(zhǔn)確率由94.0%提升到了94.2%.

(2) 多路輸入:同時(shí)使用關(guān)鍵點(diǎn)和骨骼2路輸入時(shí),Top-1準(zhǔn)確率提升了0.5%;完整4路輸入時(shí),Top-1準(zhǔn)確率提升了0.3%.

表2 多尺度融合模塊在NTU-RGBD數(shù)據(jù)集上的消融實(shí)驗(yàn)

Tab.2 Ablation experiments on the multiscale fusion module using the NTU-RGBD dataset

另外,將完整模型與基線模型相比,Top-1準(zhǔn)確率由95.1%提升到了96.1%,說(shuō)明筆者所提出的兩個(gè)模塊在本數(shù)據(jù)集上有較好表現(xiàn).

為了進(jìn)一步與現(xiàn)有方法比較,將模型與多個(gè)目前識(shí)別效果較好的算法在NTU-RGBD數(shù)據(jù)集上進(jìn)行了對(duì)比,表3結(jié)果表明,本文所提出的自適應(yīng)動(dòng)態(tài)尺度圖卷積算法在NTU-RGBD數(shù)據(jù)集上較有競(jìng)爭(zhēng)力.

表3 本文算法與其他算法在NTU-RGBD數(shù)據(jù)集上的對(duì)比

Tab.3 Comparing the validation accuracy of the proposed method with those of previous methods using the NTU-RGBD dataset

4?結(jié)?語(yǔ)

針對(duì)基于圖卷積的動(dòng)作識(shí)任務(wù)中缺乏圖尺度自適應(yīng)機(jī)制、未考慮多尺度圖的特征提取與融合等問(wèn)題,提出了自適應(yīng)尺度圖卷積的動(dòng)作識(shí)別算法,首先基于先驗(yàn)與空間注意力機(jī)制構(gòu)建關(guān)鍵點(diǎn)活躍度判別器,既保留了動(dòng)作核心特征,又加快了特征傳遞效率.此外,基于通道注意力機(jī)制構(gòu)建了多尺度融合模塊,將局部特征與全局特征進(jìn)行動(dòng)態(tài)融合,提高了網(wǎng)絡(luò)的靈活性.最終,將關(guān)鍵點(diǎn)、骨骼與對(duì)應(yīng)運(yùn)動(dòng)信息獨(dú)立訓(xùn)得的概率向量加權(quán)元融合,得到最終的預(yù)測(cè)結(jié)果.實(shí)驗(yàn)結(jié)果表明:本文方法能夠自適應(yīng)調(diào)節(jié)圖尺度,靈活處理不同動(dòng)作間的細(xì)微差異,較好地實(shí)現(xiàn)動(dòng)作分類(lèi),最優(yōu)Top-1準(zhǔn)確率相比于基線方法提高了1.0%.

[1] Herath S,Harandi M,Porikli F.Going deeper into action recognition:A survey[J].Image and Vision Computing, 2017,60:4-21.

[2] Simonyan K,Zisserman A. Two-stream convolutional networks for action recognition in videos[C]// Neural Information Processing Systems. Montreal,Canada,2014:568-576.

[3] Hussein M E,Torki M,Gowayyed M A,et al. Human action recognition using a temporal hierarchy of covariance descriptors on 3D joint locations[C]// International Joint Conference on Artificial Intelligence. Beijing,China,2013:2466-2479.

[4] Wang J,Liu Z C,Wu Y. Mining actionlet ensemble for action recognition with depth cameras[C]// IEEE Computer Vision and Pattern Recognition. Providence,USA,2012:1290-1297.

[5] Vemulapalli R,Arrate F,Chellappa R. Human action recognition by representing 3D skeletons as points in a lie group[C]// IEEE Conference on Computer Vision and Pattern Recognition. Columbus,USA,2014:588-595.

[6] Qi M S,Wang Y H,Qin J,et al.StagNet:An attentive semantic RNN for group activity and individual action recognition[J].IEEE Transactions on Circuits and Systems for Video Technology,2020,30(2):549-565.

[7] Lin J,Gan C,Han S.TSM:Temporal shift module for efficient video understanding[C]// IEEE International Conference on Computer Vision. Seoul,Korea,2019:7082-7092.

[8] Zhao M C,Xiu S W,Peng W,et al. Multi-label image recognition with graph convolutional networks [C]// IEEE Conference on Computer Vision and Pattern Recognition.Long Beach,USA,2019:5172-5181.

[9] Yan S J,Xiong Y J,Lin D H.Spatial temporal graph convolutional networks for skeleton-based action recognition[C]// AAAI Conference on Artificial Intelligence. New Orleans,USA,2018:7444-7452.

[10] Liu Z Y,Zhang H W,Chen Z H,et al. Disentangling and unifying graph convolutions for skeleton-based action recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:140-149.

[11] Shi L,Zhang Y F,Cheng J,et al.Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:12018-12027.

[12] Obinata Y,Yamamoto T. Temporal extension module for skeleton-based action recognition[C]// International Conference on Pattern Recognition. Milan,Italy,2020:112-118.

[13] Fang H S,Xie S Q,Tai Y W,et al. RMPE:Regional multi-person pose estimation[C]// IEEE International Conference on Computer Vision. Venice,Italy,2017:2353-2362.

[14] Gang L. Learning skeleton information for human action analysis using kinect[J]. Signal Processing Image Communication,2020,84:115814.

[15] Shahroudy A,Liu J,Ng T T,et al. NTU RGB+D:A large scale dataset for 3D human activity analysis[C]// IEEE Computer Vision and Pattern Recognition. Las Vegas,USA,2016:1010-1019.

[16] Carlos C,F(xiàn)ran?ois B,William R S, et al. Skeleton image representation for 3D action recognition based on tree structure and reference joints[C]// IEEE Brazilian Symposium on Computer Graphics and Image Processing. Rio de Janeiro,Brazil,2019:16-23.

[17] Tae S K,Austin R. Interpretable 3D human action analysis with temporal convolutional networks[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Honolulu,USA,2017:1623-1631.

[18] Jongmin Y,Yongsang Y,Moongu J. Predictively encoded graph convolutional network for noise-robust skeleton-based action recognition[EB/OL]. https:// arxiv.org/abs/2003.07514,2020-03-17.

[19] Li S,Li W Q,Chris C,et al. Deep independently recurrent neural network[EB/OL]. https://arxiv.org/ abs/1910.06251v1,2019-10-11.

[20] Ding X L,Yang K,Chen W. A semantics-guided graph convolutional network for skeleton-based action recognition[C]// International Conference on Innovation in Artificial Intelligence. Xiamen,China,2020:130-136.

Scale Adaptive Graph Convolutional Network for Skeleton-Based Action Recognition

Wang Xiaojuan,Zhong Yun,Jin Lei,Xiao Yabo

(School of Electronic Engineering,Beijing University of Posts and Telecommunications,Beijing 100876,China)

In skeleton-based action recognition,graph convolutional network(GCN),which models the human skeleton sequences as spatiotemporal graphs,have achieved excellent performance. However,in existing GCN-based methods,the topology of the graph is set manually,and it is fixed over all layers and input samples. This approach may not be optimal for diverse samples. Constructing an scale adaptive graph based on sample characteristics can better capture spatiotemporal features. Moreover,most methods do not explicitly exploit the multiple scales of body components,which carry crucial information for action recognition. In this paper,we proposed a scale adaptive graph convolutional network comprising a dynamic scale graph convolution module and a multiscale fusion module. Specifically,we first used an a priori and attention mechanism to construct an activity judger,which can divide each keypoint into two parts based on whether it is active;thereafter,a scale adaptive graph was automatically learned. This module accelerated the feature transfer between nodes while minimizing the feature loss. Furthermore,we proposed a multiscale fusion module based on the channel attention mechanism to extract features at different scales and fuse features across scales. Moreover,we used a four-stream framework to model the first-order,second-order,and motion information of a skeleton,which shows notable improvement in terms of recognition accuracy. Extensive experiments on the NTU-RGBD dataset demonstrate the effectiveness of our method. Results show that the algorithm achieves 89.7% and 96.1% classification accuracy on the cross-subject(CS) and cross-view(CV) subsets of the NTU-RGBD dataset,respectively,thus significantly improving the accuracy of action recognition.

human skeleton;action recognition;scale adaptive;graph convolutional network(GCN)

TP391.41

A

0493-2137(2022)03-0306-07

10.11784/tdxbz202012073

2020-12-31;

2021-04-06.

王小娟(1985—??),女,博士,副教授,wj2718@bupt.edu.cn.

金?磊,jinlei@bupt.edu.cn.

國(guó)家自然科學(xué)基金資助項(xiàng)目(62071056).

Supported by the National Natural Science Foundation of China (No. 62071056).

(責(zé)任編輯:孫立華)

猜你喜歡
關(guān)鍵點(diǎn)骨骼尺度
環(huán)境史衰敗論敘事的正誤及其評(píng)判尺度
論建筑工程管理關(guān)鍵點(diǎn)
肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
利用定義法破解關(guān)鍵點(diǎn)
3D打印骨骼指日可待
宇宙的尺度
機(jī)械能守恒定律應(yīng)用的關(guān)鍵點(diǎn)
9
骨骼是如何生長(zhǎng)的
神奇的骨骼
延长县| 诸暨市| 广饶县| 龙岩市| 阿鲁科尔沁旗| 特克斯县| 南部县| 玉环县| 梁河县| 长兴县| 简阳市| 呼伦贝尔市| 滦平县| 商水县| 耒阳市| 晋宁县| 海林市| 南城县| 建阳市| 武汉市| 珠海市| 新安县| 普兰店市| 秀山| 盐源县| 醴陵市| 湖北省| 孟州市| 临西县| 宁明县| 德惠市| 子长县| 东海县| 永靖县| 桓仁| 介休市| 温州市| 南川市| 府谷县| 东乡族自治县| 五原县|