辛華磊 丁英強(qiáng) 高 猛 陳恩慶
(鄭州大學(xué)信息工程學(xué)院,河南鄭州 450001)
人體動(dòng)作識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的熱門(mén)研究方向之一,包括深度相機(jī)在內(nèi)的多種傳感器的出現(xiàn)使得人們可以使用RGB、光流、深度[1]和骨骼等多種模態(tài)數(shù)據(jù)進(jìn)行動(dòng)作建模。其中骨骼模態(tài)數(shù)據(jù)與其他模態(tài)數(shù)據(jù)相比沒(méi)有復(fù)雜的背景和動(dòng)態(tài)環(huán)境,并且能夠編碼自然人體結(jié)構(gòu),具有較強(qiáng)的環(huán)境適應(yīng)性和動(dòng)作表達(dá)能力。同時(shí)Kinect相機(jī)的應(yīng)用和姿態(tài)估計(jì)算法的發(fā)展使得人體骨骼數(shù)據(jù)可以比較容易地獲得,因此基于骨骼點(diǎn)數(shù)據(jù)的動(dòng)作識(shí)別正獲得越來(lái)越多的關(guān)注和研究。
早期骨骼點(diǎn)動(dòng)作識(shí)別方法使用人工構(gòu)建的特征進(jìn)行動(dòng)作識(shí)別[2,3],需要大量調(diào)參且特征表現(xiàn)力差。近年來(lái)隨著硬件資源的提升,深度學(xué)習(xí)表現(xiàn)出了越來(lái)越強(qiáng)大的建模優(yōu)勢(shì),因此研究人員更多使用深度學(xué)習(xí)模型對(duì)人體動(dòng)作特征進(jìn)行自動(dòng)提取和分類?;谏疃葘W(xué)習(xí)的骨骼點(diǎn)動(dòng)作識(shí)別方法最早主要使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[4]和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[5]提取人體動(dòng)作特征。雖然這些方法都可以處理骨骼點(diǎn)數(shù)據(jù)的時(shí)間和空間信息,但它們并未充分利用骨點(diǎn)數(shù)據(jù)的天然圖形結(jié)構(gòu)。近年出現(xiàn)的圖卷積網(wǎng)絡(luò)(GCN)可以充分利用節(jié)點(diǎn)之間的連接關(guān)系來(lái)對(duì)數(shù)據(jù)進(jìn)行建模,十分適合基于骨骼點(diǎn)數(shù)據(jù)的動(dòng)作識(shí)別應(yīng)用場(chǎng)景。因此Yan 等人率先將圖卷積網(wǎng)絡(luò)引入到骨骼動(dòng)作識(shí)別提出時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN)[6],利用人體關(guān)節(jié)之間的自然連接關(guān)系進(jìn)行動(dòng)作建模。但目前基于GCN 的模型往往使用固定空間配置分區(qū)方案且手動(dòng)設(shè)定各骨骼關(guān)節(jié)點(diǎn)之間的連接關(guān)系,無(wú)法更好適應(yīng)不同動(dòng)作的變化特征。針對(duì)此問(wèn)題,本文提出多配置分區(qū)的自適應(yīng)時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型用于骨骼點(diǎn)動(dòng)作識(shí)別。
基于GCN 的骨骼點(diǎn)動(dòng)作識(shí)別模型中的各個(gè)分區(qū)(即鄰接矩陣)即構(gòu)成了模型的基本圖卷積算子,用來(lái)對(duì)骨骼點(diǎn)數(shù)據(jù)進(jìn)行卷積運(yùn)算。傳統(tǒng)用于骨骼點(diǎn)動(dòng)作識(shí)別的GCN 模型采用的空間配置分區(qū)策略是根據(jù)人體關(guān)節(jié)的自然連接關(guān)系將骨骼點(diǎn)數(shù)據(jù)固定地劃分為根節(jié)點(diǎn)、向心點(diǎn)和離心點(diǎn)三個(gè)分區(qū)。使用固定的分區(qū)策略或卷積算子,將無(wú)法為骨骼點(diǎn)建立更豐富的連接關(guān)系,可能不能更好適應(yīng)不同動(dòng)作的變化特征,無(wú)法保證該策略一定是最優(yōu)的。為了探究不同分區(qū)個(gè)數(shù)對(duì)網(wǎng)絡(luò)性能的影響,本文提出在可行的分區(qū)個(gè)數(shù)范圍內(nèi)(由實(shí)驗(yàn)室硬件條件決定)迭代訓(xùn)練搜索最優(yōu)的分區(qū)個(gè)數(shù)的方法。同時(shí)各個(gè)分區(qū)或卷積算子(即鄰接矩陣)由人工根據(jù)人體關(guān)節(jié)自然連接關(guān)系構(gòu)建,人為的將三個(gè)分區(qū)分別限制在根節(jié)點(diǎn)集、向心集和離心集,當(dāng)分區(qū)個(gè)數(shù)高于3 時(shí)將無(wú)法充分利用人體關(guān)節(jié)自然連接關(guān)系,而在一定程度上限制了鄰接矩陣的自適應(yīng)學(xué)習(xí)能力,因此本文提出擺脫人體骨骼點(diǎn)自然連接關(guān)系束縛的方法,使用可學(xué)習(xí)的矩陣代替人工構(gòu)建的鄰接矩陣。本文所選取的主要對(duì)比對(duì)象(基線)是石磊等人提出的雙流自適應(yīng)圖卷積網(wǎng) 絡(luò)(2s-AGCG)[7],在NTU-RGBD[8]和Kinetics-Skeleton[9]等大型數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)結(jié)果表明本文所提方法可以獲得比目前多數(shù)文獻(xiàn)更高的動(dòng)作識(shí)別精度。
基于RNN的方法主要使用LSTM和GRU等網(wǎng)絡(luò)對(duì)骨骼序列進(jìn)行時(shí)序建模。把骨骼數(shù)據(jù)的3D位置坐標(biāo)序列作為輸入,可以建立時(shí)域中人體關(guān)節(jié)信息和運(yùn)動(dòng)之間的聯(lián)系,但是單獨(dú)無(wú)法處理人體骨架的空間信息,因此需要引入額外的處理模塊。Du等人[4]提出分層遞歸神經(jīng)網(wǎng)絡(luò)將人體骨架分為五部分,對(duì)主干和四肢分別進(jìn)行處理,該分層結(jié)構(gòu)可以處理人體骨架各部分之間的空間關(guān)系。為了建立更強(qiáng)的空間依賴,Liu 等人[10]提出一種關(guān)節(jié)鄰接圖的遍歷方法,首次探索輸入序列中關(guān)節(jié)之間的連接關(guān)系。基于RNN 的方法很難建模高層語(yǔ)義信息,所以基于CNN的方法更為人們所青睞。Li等人[5]將人體骨骼數(shù)據(jù)轉(zhuǎn)化為偽圖像作為CNN 的輸入,首次在時(shí)間和關(guān)節(jié)上聚合特征。文獻(xiàn)[11]提出的全局共現(xiàn)網(wǎng)絡(luò)(HCN),創(chuàng)造性地將關(guān)節(jié)和通道的維度進(jìn)行交換從而實(shí)現(xiàn)特征并行計(jì)算,并可以很自然地拓展到多人的動(dòng)作識(shí)別任務(wù)。雖然基于RNN 和CNN 的骨骼動(dòng)作識(shí)別方法,都可以在時(shí)間和空間提取數(shù)據(jù)的動(dòng)作特征,使網(wǎng)絡(luò)性能達(dá)到較高的水平,但它們并未充分利用骨點(diǎn)數(shù)據(jù)的天然圖形結(jié)構(gòu),未充分利用人體關(guān)節(jié)之間的連接關(guān)系。
圖卷積網(wǎng)絡(luò)(GCN)可以充分利用節(jié)點(diǎn)之間的連接關(guān)系來(lái)對(duì)數(shù)據(jù)進(jìn)行建模,Yan 等人[6]提出了時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN),首次將GCN 引入到骨骼動(dòng)作識(shí)別上。ST-GCN 使用固定的由人體自然連接構(gòu)建的鄰接矩陣,因此網(wǎng)絡(luò)無(wú)法對(duì)其時(shí)空?qǐng)D結(jié)構(gòu)進(jìn)行優(yōu)化。為了解決這樣的問(wèn)題,石磊等人[7]提出了自適應(yīng)圖卷積網(wǎng)絡(luò)層(2s-AGCN),在預(yù)定義的時(shí)空?qǐng)D上添加了數(shù)據(jù)注意力矩陣和自適應(yīng)鄰接矩陣,用來(lái)為人體關(guān)節(jié)學(xué)習(xí)更豐富的連接關(guān)系。為了捕獲更強(qiáng)的關(guān)節(jié)依賴關(guān)系,文獻(xiàn)[12]提出添加A-link 推理模塊的AS-GCN 網(wǎng)絡(luò)。文獻(xiàn)[13]認(rèn)為節(jié)點(diǎn)和骨骼之間有運(yùn)動(dòng)相關(guān)性,提出的DGNN模型將ST-GCN 中的無(wú)向時(shí)空?qǐng)D定義為有向的時(shí)空?qǐng)D來(lái)更好地利用節(jié)點(diǎn)和骨骼之間的運(yùn)動(dòng)相關(guān)性。此外,多數(shù)GCNs 模型的最后分類階段使用平均池化層聚合數(shù)據(jù)信息忽略了數(shù)據(jù)的時(shí)空結(jié)構(gòu),Liu 等人[14]提出的GCN-HCRF 模型為了解決這一問(wèn)題將分類層替換為隱藏條件隨機(jī)場(chǎng)保留數(shù)據(jù)的時(shí)空結(jié)構(gòu)進(jìn)行端到端訓(xùn)練。但是,以上這些GCN模型均使用固定3 個(gè)空間配置分區(qū)且手動(dòng)設(shè)定各骨骼關(guān)節(jié)點(diǎn)之間的連接關(guān)系,無(wú)法更好適應(yīng)不同動(dòng)作的變化特征。針對(duì)此問(wèn)題,為了搜索更合理的配置分區(qū)個(gè)數(shù)和自適應(yīng)獲取關(guān)節(jié)點(diǎn)連接關(guān)系,本文提出了多配置分區(qū)的自適應(yīng)時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型用于骨骼動(dòng)作識(shí)別方法。下文第3 節(jié)和第4節(jié)分別介紹方法的細(xì)節(jié)和實(shí)驗(yàn)。
本文提出的用于骨骼動(dòng)作識(shí)別的多配置分區(qū)的自適應(yīng)時(shí)空?qǐng)D卷積網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1 所示。網(wǎng)絡(luò)整體包括一個(gè)批量歸一化層(BN)、十個(gè)多配置分區(qū)的自適應(yīng)圖卷積網(wǎng)絡(luò)層(MP-AGCN,具體結(jié)構(gòu)將在下文介紹)并分別和時(shí)間一維卷積(TCN)級(jí)聯(lián)(L1 到L10),還有一個(gè)全連接層(FC)。為了保證網(wǎng)絡(luò)的穩(wěn)定性在圖卷積之間添加殘差連接(Res),殘差連接自L2 層開(kāi)始。首先經(jīng)過(guò)BN 層對(duì)數(shù)據(jù)進(jìn)行歸一化處理,然后十個(gè)MP-AGCN 和TCN級(jí)聯(lián)提取歸一化后數(shù)據(jù)的動(dòng)作特征,最后FC 層對(duì)特征進(jìn)行分類。L1 到L10 層MP-AGCN 輸入輸出維度和TCN 卷積步長(zhǎng)如表1 所示,MP-AGCN 中2D卷積核大小為1×1,TCN中一維卷積核大小為9。
表1 十層MP-AGCN參數(shù)和TCN卷積步長(zhǎng)設(shè)置Tab.1 Ten-layer MP-AGCN parameters and TCN convolution step setting
時(shí)空?qǐng)D卷積網(wǎng)絡(luò)的輸入可以表示為一張時(shí)空?qǐng)DG=(V,E),如圖2 左側(cè)所示。V={vti|t=1,...,T,i=1,...,N},T表示序列幀,N表示關(guān)節(jié)位置,vti表示第t幀第i關(guān)節(jié)的2D 或3D 坐標(biāo)數(shù)據(jù);E包括ES和EF,ES={vtivtj|(i,j)∈H}表示在一張骨骼數(shù)據(jù)幀中人體關(guān)節(jié)之間的連接,H為關(guān)節(jié)自然連接集合,EF={vtiv(t+1)i}表示在時(shí)間緯度上相同關(guān)節(jié)互聯(lián)。ST-GCN 采用空間配置分區(qū)的策略根據(jù)節(jié)點(diǎn)距人體重心的遠(yuǎn)近距離將時(shí)空?qǐng)D劃分為三個(gè)分區(qū),根節(jié)點(diǎn)集、向心點(diǎn)集和離心點(diǎn)集如圖2 右側(cè)所示。黑色填充的圓節(jié)點(diǎn)表示根節(jié)點(diǎn),黑色填充的方形節(jié)點(diǎn)是向心點(diǎn),黑色填充的三角形節(jié)點(diǎn)為離心點(diǎn)。
單張骨架上ST-GCN由下面公式(1)所定義:
其中fin作為網(wǎng)絡(luò)輸入,輸入的是時(shí)空?qǐng)D中的骨架序列V,fout為ST-GCN 網(wǎng)絡(luò)輸出,是經(jīng)過(guò)全連接層輸出的行為類別。Kv的大小由配置分區(qū)個(gè)數(shù)所決定,文獻(xiàn)[6]使用空間配置分區(qū)的劃分方式,將Kv的大小設(shè)置為3。三個(gè)配置分區(qū)分別由鄰接矩陣Ak表示,其中k∈{1,2,3},Ak大小為N×N。Wk是圖卷積的權(quán)重函數(shù),是一個(gè)卷積核大小為1×1 的二維卷積。Mk是一個(gè)N×N的注意矩陣用以學(xué)習(xí)鄰接矩陣中節(jié)點(diǎn)連接的重要性權(quán)重,⊙表示點(diǎn)積。
由于ST-GCN 中鄰接矩陣A k在各個(gè)時(shí)空?qǐng)D卷積網(wǎng)絡(luò)層共享,并且只能使用人體自然連接關(guān)系,而無(wú)法建立不存在的連接,但很多動(dòng)作過(guò)程中不直接相連的骨骼節(jié)點(diǎn)間也會(huì)存在動(dòng)作的相互關(guān)聯(lián)。例如穿鞋等動(dòng)作,手和腳之間的骨骼關(guān)節(jié)點(diǎn)會(huì)有關(guān)聯(lián)關(guān)系,即會(huì)存在人體自然結(jié)構(gòu)關(guān)節(jié)點(diǎn)之外的連接關(guān)系,此時(shí)僅包含人體骨骼點(diǎn)自然連接關(guān)系的預(yù)定義鄰接矩陣將無(wú)法保證學(xué)習(xí)得到的骨骼點(diǎn)連接關(guān)系是最優(yōu)的?;诖?,自適應(yīng)時(shí)空?qǐng)D卷積網(wǎng)絡(luò)[7](2s-AGCN)試圖自適應(yīng)地學(xué)習(xí)不存在的連接關(guān)系,同時(shí)試圖學(xué)習(xí)樣本之間的數(shù)據(jù)相關(guān)性。2s-AGCN 的空間圖卷積結(jié)構(gòu)如圖3 左側(cè)所示,該結(jié)構(gòu)圖可由公式(2)表示。
其中Bk是一個(gè)和Ak行列個(gè)數(shù)相同的矩陣,其參數(shù)在訓(xùn)練中學(xué)習(xí),用以建立人體結(jié)構(gòu)不存在的關(guān)節(jié)連接關(guān)系。Ck是樣本數(shù)據(jù)之間的注意力圖,可以由公式(3)得到,使該模型完全是數(shù)據(jù)驅(qū)動(dòng)的,其中Wθ和Wφ是高斯嵌入函數(shù)的權(quán)重。兩個(gè)高斯嵌入函數(shù)的輸出相乘得到大小為N×N的關(guān)節(jié)相似性權(quán)重矩陣,該相似性矩陣經(jīng)過(guò)softmax 激活函數(shù)[7]得出樣本中任意兩個(gè)關(guān)節(jié)之間的相似性得分。不同樣本在受試者和攝像機(jī)的影響下即便是相同動(dòng)作特征也會(huì)具有相當(dāng)大的差異。雙曲正切tanh 函數(shù)可以擴(kuò)大特征效果,因此本文使用tanh函數(shù)(tanh計(jì)算公式如公式(4)所示)計(jì)算樣本之間的相似性。與STGCN 一樣2S-AGCN 同樣添加了殘差連接以保證網(wǎng)絡(luò)的穩(wěn)定性。
多數(shù)基于GCN 的模型往往使用固定空間配置分區(qū)方案且手動(dòng)設(shè)定各骨骼關(guān)節(jié)點(diǎn)之間的連接關(guān)系,無(wú)法更好適應(yīng)不同動(dòng)作的變化特征。針對(duì)此問(wèn)題,我們提出多配置分區(qū)的自適應(yīng)時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型用于骨骼點(diǎn)動(dòng)作識(shí)別,通過(guò)搜索更合理的配置分區(qū)個(gè)數(shù)和自適應(yīng)獲取關(guān)節(jié)點(diǎn)連接關(guān)系使網(wǎng)絡(luò)模型具有更強(qiáng)的動(dòng)作表示和建模能力。
目前基于GCN 的方法均是將時(shí)空?qǐng)D劃分為根節(jié)點(diǎn)集,向心點(diǎn)集和離心點(diǎn)集三個(gè)分區(qū),即Kv=3。然而,不同類型的動(dòng)作其骨骼數(shù)據(jù)的特點(diǎn)也不盡相同,因此骨骼節(jié)點(diǎn)配置分區(qū)的數(shù)目也應(yīng)該相應(yīng)靈活調(diào)整,固定的配置分區(qū)個(gè)數(shù)將限制模型對(duì)骨骼數(shù)據(jù)的建模能力。因此,本文中我們探索了不同配置分區(qū)數(shù)目對(duì)骨骼點(diǎn)行為識(shí)別的影響。我們使用搜索的方法,將訓(xùn)練集上達(dá)到最高識(shí)別率的配置分區(qū)劃分個(gè)數(shù)作為模型配置分區(qū)個(gè)數(shù)選定的依據(jù)。本文所提模型的空間網(wǎng)絡(luò)結(jié)構(gòu)可以用圖3中右側(cè)圖表示。該網(wǎng)絡(luò)結(jié)構(gòu)也可由如下公式(5)表示
其中,k∈{1,2,...,Kv},Kv為配置分區(qū)個(gè)數(shù),根據(jù)不同動(dòng)作訓(xùn)練數(shù)據(jù)的特點(diǎn)搜索得到,相關(guān)實(shí)驗(yàn)結(jié)果見(jiàn)4.2.1 小節(jié)。Bk和時(shí)間網(wǎng)絡(luò)與文獻(xiàn)[7]中使用相同的配置方案,Ck中相似性函數(shù)使用雙曲正切tanh函數(shù)。
此外,文獻(xiàn)[7]中研究了各個(gè)類型的圖對(duì)于動(dòng)作識(shí)別的重要性,表明公式(2)中Ak、Bk和Ck都影響模型的最終識(shí)別結(jié)果。而后續(xù)文獻(xiàn)[7]的作者進(jìn)一步探究了Ak的必要性[15],即只使用Bk和Ck兩個(gè)類型的圖,且Bk使用Ak進(jìn)行初始化,結(jié)果表明同樣可以獲得與同時(shí)使用三個(gè)類型圖相同的識(shí)別性能。因此可以證明Bk在訓(xùn)練過(guò)程中獲得的信息可以代替Ak。另一方面,當(dāng)分區(qū)個(gè)數(shù)不為3 時(shí),將需要對(duì)文獻(xiàn)[7,15]中根據(jù)人體自然連接關(guān)系構(gòu)造的三個(gè)分區(qū)Ak進(jìn)行改造。我們探究了多種構(gòu)造方式,但均無(wú)法保證所構(gòu)造的Ak是最優(yōu)的,在多個(gè)分區(qū)情況下無(wú)法充分利用人體自然連接關(guān)系。因此我們提出完全舍棄預(yù)定義的Ak,不使用其對(duì)Bk進(jìn)行初始化,即脫離人體關(guān)節(jié)自然連接關(guān)系,只使用Bk和Ck從零開(kāi)始學(xué)習(xí)關(guān)節(jié)之間的連接關(guān)系及相應(yīng)的權(quán)重。這樣就可以避免模型無(wú)法充分利用人體自然連接關(guān)系而受到不必要的約束或限制,從而更好地對(duì)復(fù)雜動(dòng)作進(jìn)行建模。
研究表明骨骼數(shù)據(jù)中不止骨骼關(guān)節(jié)點(diǎn)坐標(biāo)很重要,關(guān)節(jié)點(diǎn)與關(guān)節(jié)點(diǎn)之間的一段骨骼同樣重要。可以使用一個(gè)向量(骨骼向量)表示一段骨骼,此向量的大小和方向分別表示該段骨骼的長(zhǎng)短和方向。人體骨架的中心關(guān)節(jié)點(diǎn)被視為源關(guān)節(jié)點(diǎn)。骨骼向量的大小為骨骼兩端關(guān)節(jié)點(diǎn)坐標(biāo)的差值,而骨骼向量的方向是自靠近源關(guān)節(jié)點(diǎn)的關(guān)節(jié)指向遠(yuǎn)離源關(guān)節(jié)點(diǎn)的關(guān)節(jié)。自然人體結(jié)構(gòu)中沒(méi)有關(guān)節(jié)點(diǎn)指向中心關(guān)節(jié)點(diǎn),因此將指向中心關(guān)節(jié)點(diǎn)的骨架向量設(shè)為0,可保證骨骼向量數(shù)據(jù)(骨骼模態(tài))的矩陣尺寸與骨骼關(guān)節(jié)點(diǎn)數(shù)據(jù)(關(guān)節(jié)模態(tài))的矩陣尺寸相同。因此,這兩種模態(tài)可使用相同的網(wǎng)絡(luò),經(jīng)過(guò)完全相同的實(shí)驗(yàn)細(xì)節(jié),但可以獲得不同的結(jié)果。本文使用雙流融合的方法將兩個(gè)模態(tài)數(shù)據(jù)的結(jié)果進(jìn)行綜合處理,以獲得最佳的分類得分。
NTU-RGBD[8]:NTU-RGBD 數(shù)據(jù)集中有60 個(gè)動(dòng)作類別,包含56000 個(gè)動(dòng)作數(shù)據(jù)。數(shù)據(jù)集中的每一個(gè)動(dòng)作數(shù)據(jù)由一系列的骨骼動(dòng)作幀組成,每一幀最多包含兩個(gè)骨架,每個(gè)骨架有25 個(gè)骨骼節(jié)點(diǎn),每個(gè)骨骼節(jié)點(diǎn)都有對(duì)應(yīng)的三維空間坐標(biāo)數(shù)據(jù)。該數(shù)據(jù)集的訓(xùn)練集和驗(yàn)證集有兩種劃分方式,跨目標(biāo)(X-Sub)劃分方式和跨視角(X-View)劃分方式。Kinetics-Skeleton[9]:Kinetics 數(shù)據(jù)集中有400 個(gè)動(dòng)作類別,包含300000個(gè)動(dòng)作數(shù)據(jù)。數(shù)據(jù)集中的每一個(gè)動(dòng)作數(shù)據(jù)由一系列的骨骼動(dòng)作幀組成,每一幀最多包含兩個(gè)骨架,每個(gè)骨架有18 個(gè)骨骼節(jié)點(diǎn),每個(gè)骨骼節(jié)點(diǎn)都有對(duì)應(yīng)的三維空間坐標(biāo)數(shù)據(jù)。我們首先使用文獻(xiàn)[7]中的數(shù)據(jù)預(yù)處理方式對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理。
本文實(shí)驗(yàn)所用的硬件平臺(tái)是包括2塊RTX2080 Ti 顯卡,軟件平臺(tái)包括cuda10.0 和pytorch 1.7.1 框架。本文使用的參數(shù)配置與文獻(xiàn)[7]保持一致,在兩個(gè)數(shù)據(jù)集上均使用隨機(jī)梯度下降優(yōu)化策略,且初始學(xué)習(xí)率和權(quán)重衰減率分別為0.1 和0.0001,而批量大小在NTU-RGBD 和Kinetics-Skeleton 數(shù)據(jù)集上分別為32 和64。在NTU-RGBD 數(shù)據(jù)集上的學(xué)習(xí)率衰減策略是在第30和第40 epoch分別除以10,訓(xùn)練次數(shù)設(shè)置為50 epoch。在Kinetics-Skeleton 數(shù)據(jù)集上的學(xué)習(xí)率衰減策略是在第45 和第55 epoch 分別除以10,訓(xùn)練次數(shù)為65 epoch。
下面首先對(duì)網(wǎng)絡(luò)各個(gè)組件做了消融實(shí)驗(yàn)驗(yàn)證其有效性,隨后對(duì)不同配置分區(qū)數(shù)量的網(wǎng)絡(luò)分類性能進(jìn)行實(shí)驗(yàn)分析以獲得最佳的分區(qū)個(gè)數(shù),然后計(jì)算關(guān)節(jié)模態(tài)和骨骼模態(tài)兩種模態(tài)綜合的分類得分,驗(yàn)證骨骼模態(tài)對(duì)該方法分類結(jié)果的促進(jìn)作用。最后將該方法與目前一些主流和先進(jìn)的方法進(jìn)行比較,驗(yàn)證本文所提方法的性能水平。
4.2.1 激活函數(shù)和矩陣初始化方法實(shí)驗(yàn)
本節(jié)首先驗(yàn)證雙曲正切tanh 函數(shù)對(duì)網(wǎng)絡(luò)性能的影響,在2s-AGCN 網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn)探究,實(shí)驗(yàn)結(jié)果如表2所示。表中數(shù)據(jù)表明tanh函數(shù)可以明顯提高網(wǎng)絡(luò)識(shí)別準(zhǔn)確率。
然后比較本文自適應(yīng)矩陣初始化與文獻(xiàn)[15]中提出的矩陣初始化的性能差異,實(shí)驗(yàn)結(jié)果如表3所示,其中BC 表示使用Ak初始化自適應(yīng)鄰接矩陣Bk,BC/A 表示使用0.000001 初始化Bk,3P 和5P 分別表示分區(qū)個(gè)數(shù)3 和5(BC 方法多余的2 個(gè)分區(qū)由A2、A3初始化,BCPA 方法多余的2 個(gè)分區(qū)由0.000001 初始化)。表3 結(jié)果與表2 結(jié)果相比,充分證明了2s-AGCN 網(wǎng)絡(luò)中A k的不必要性。Ak根據(jù)人體自然關(guān)節(jié)連接關(guān)系構(gòu)建,但將其劃分為根節(jié)點(diǎn)集、向心點(diǎn)集和離心點(diǎn)集三個(gè)分區(qū)并使其作為常數(shù)與參數(shù)矩陣Bk相加,在一定程度上限制了參數(shù)矩陣Bk的學(xué)習(xí)能力。文獻(xiàn)[15]使用Ak初始化Bk,從而擺脫了Ak作為常數(shù)相加時(shí)的限制能力。在分區(qū)個(gè)數(shù)為3 時(shí)使用Ak初始化Bk網(wǎng)絡(luò)識(shí)別準(zhǔn)確率最高,表明人體關(guān)節(jié)自然連接約束對(duì)網(wǎng)絡(luò)識(shí)別性能有促進(jìn)作用,但當(dāng)在分區(qū)個(gè)數(shù)不為3 時(shí),需要對(duì)Ak進(jìn)行重新構(gòu)造,本文探索的多種構(gòu)造方法,最優(yōu)的方式是多余分區(qū)由A2、A3初始化,結(jié)果如表3 所示。但我們無(wú)法保證構(gòu)造的初始化矩陣是最好的,即無(wú)法很好的利用人體關(guān)節(jié)自然連接關(guān)系,因此本文不使用這種約束條件,使用0.000001 初始化B k,在分區(qū)個(gè)數(shù)高于3 時(shí)效果最好。
表2 不同激活函數(shù)對(duì)網(wǎng)絡(luò)性能的影響Tab.2 Influence of different activation functions on network performance
表3 不同矩陣初始化方法對(duì)網(wǎng)絡(luò)性能的影響Tab.3 Influence of different matrix initialization methods on network performance
4.2.2 多配置分區(qū)實(shí)驗(yàn)
2s-AGCN 方法使用固定3 個(gè)配置分區(qū)的策略,而我們認(rèn)為在分區(qū)個(gè)數(shù)增加的情況下,網(wǎng)絡(luò)模型分類性能會(huì)有提升。本小節(jié)實(shí)驗(yàn)驗(yàn)證不同數(shù)量分區(qū)個(gè)數(shù)對(duì)網(wǎng)絡(luò)性能的影響。在NTU-RGBD 數(shù)據(jù)集的X-View 劃分方式下我們進(jìn)行大量實(shí)驗(yàn),結(jié)果如下表4 所示。從表中的實(shí)驗(yàn)結(jié)果可以看到,在配置分區(qū)數(shù)量較少情況下網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率性能隨著配置分區(qū)個(gè)數(shù)的增加有所增長(zhǎng),在配置分區(qū)個(gè)數(shù)為5 的情況下網(wǎng)絡(luò)性能達(dá)到最優(yōu),隨著分區(qū)個(gè)數(shù)的繼續(xù)增加,網(wǎng)絡(luò)性能開(kāi)始下降。其原因分析如下:在網(wǎng)絡(luò)性能未達(dá)到最優(yōu)的情況下,隨著配置分區(qū)的個(gè)數(shù)增加,圖卷積核尺寸增大,網(wǎng)絡(luò)可以學(xué)習(xí)到更豐富的人體關(guān)節(jié)之間的連接關(guān)系。而在分區(qū)個(gè)數(shù)達(dá)到5 之后,網(wǎng)絡(luò)性能下降的原因是每個(gè)人體整體骨骼關(guān)節(jié)數(shù)量較小(每個(gè)人體僅包含18 至22 個(gè)骨骼關(guān)節(jié)點(diǎn)數(shù)據(jù)),多于5 個(gè)分區(qū)后,無(wú)法再建模更豐富的骨骼關(guān)節(jié)點(diǎn)連接關(guān)系。在分區(qū)個(gè)數(shù)為5的策略下,網(wǎng)絡(luò)學(xué)習(xí)到的骨骼關(guān)節(jié)點(diǎn)連接矩陣可如下圖4所示。
表4 不同數(shù)量配置分區(qū)對(duì)網(wǎng)絡(luò)性能的影響Tab.4 The impact of different number of configuration partitions on network performance
4.2.3 雙流融合實(shí)驗(yàn)
本小節(jié)驗(yàn)證骨骼模態(tài)對(duì)該方法分類結(jié)果的促進(jìn)作用,使用雙流融合的方法將兩個(gè)模態(tài)數(shù)據(jù)的結(jié)果進(jìn)行綜合。在NTU-RGBD 數(shù)據(jù)集的X-View 劃分方式下,多次實(shí)驗(yàn)表明骨骼數(shù)據(jù)可以提升該方法的性能。實(shí)驗(yàn)結(jié)果如下表5所示。
表5 雙流網(wǎng)絡(luò)性能Tab.5 Two-Stream network performance
4.2.4 與目前主流方法的性能對(duì)比
為了驗(yàn)證本文所提方法的性能水平,我們?cè)贜TU-RGBD 和Kinetics-Skeleton 數(shù)據(jù)集上與目前一些主流和先進(jìn)的方法做了比較。參與對(duì)比的方法包括CNN 方法和GCN 方法等。下表6 和表7 分別列出了這些算法在NTU-RGBD 和Kinetics-Skeleton數(shù)據(jù)集上的準(zhǔn)確率。結(jié)果表明本文所提方法獲得比目前多數(shù)文獻(xiàn)更高的動(dòng)作識(shí)別精度。在NTURGBD 數(shù)據(jù)集X-Sub 劃分方式下識(shí)別率比2s-AGCN模型提高0.7 個(gè)百分點(diǎn),在其X-View 劃分方式下識(shí)別率比2s-AGCN 模型提高0.5 個(gè)百分點(diǎn)。同時(shí)在Kinetics-Skeleton 數(shù)據(jù)集上,識(shí)別率相較DGNN 模型提升0.4 個(gè)百分點(diǎn),相較2s-AGCN 模型提升1.2 個(gè)百分點(diǎn)。
表6 不同方法在NTU-RGBD數(shù)據(jù)集下的比較Tab.6 Methods were compared under the NTU-RGBD dataset
表7 不同方法在Kinetics-Skeleton數(shù)據(jù)集的比較Tab.7 Methods compared on the Kinetics-Skeleton dataset
本文提出一種用于骨骼動(dòng)作識(shí)別的多配置分區(qū)的自適應(yīng)時(shí)空?qǐng)D卷積網(wǎng)絡(luò),擺脫人體自然連接關(guān)系的約束和相應(yīng)的空間配置分區(qū)策略,通過(guò)搜索更合理的配置分區(qū)個(gè)數(shù)并自適應(yīng)獲取關(guān)節(jié)點(diǎn)連接關(guān)系實(shí)現(xiàn)對(duì)骨骼點(diǎn)動(dòng)作特征更充分的利用。為了驗(yàn)證該方法的有效性,分別在NTU-RGBD 和Kinetics-Skeleton 等大型數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),結(jié)果表明本文所提方法可獲得比目前多數(shù)文獻(xiàn)更高的動(dòng)作識(shí)別精度,在NTU-RGBD 數(shù)據(jù)集的X-Sub 和X-View兩種劃分方式下分別達(dá)到了89.2%和95.6%的準(zhǔn)確率,同時(shí),在Kinetics-Skeleton 數(shù)據(jù)集上達(dá)到了37.3%的準(zhǔn)確率。