国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的關(guān)節(jié)點(diǎn)行為識(shí)別綜述

2021-06-24 09:40:14薛盼盼王傳旭
電子與信息學(xué)報(bào) 2021年6期
關(guān)鍵詞:關(guān)節(jié)點(diǎn)集上骨架

劉 云 薛盼盼 李 輝 王傳旭

(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院 青島 266061)

1 引言

人類行為識(shí)別是計(jì)算機(jī)視覺的一個(gè)重要分支,在很多方面都有廣泛應(yīng)用,例如智能監(jiān)控、人機(jī)交互、視頻檢索和運(yùn)動(dòng)分析[1]。目前,已有一些學(xué)者對(duì)行為識(shí)別進(jìn)行了綜述,比如朱煜等人[2]、羅會(huì)蘭等人[3]、張會(huì)珍等人[4]、Zhu等人[5],這些綜述文章無論是側(cè)重于傳統(tǒng)行為識(shí)別方法還是側(cè)重于深度學(xué)習(xí)行為識(shí)別方法,所利用的信息多是RGB(Red(紅色)、Green(綠色)、Blue(藍(lán)色))數(shù)據(jù)和深度數(shù)據(jù),沒有專門針對(duì)關(guān)節(jié)點(diǎn)信息行為識(shí)別進(jìn)行系統(tǒng)的歸納總結(jié)。近年來,關(guān)節(jié)點(diǎn)數(shù)據(jù)的獲取隨著低成本設(shè)備的發(fā)展更加容易,例如Microsoft Kinect[6]。隨著深度學(xué)習(xí)的發(fā)展,利用關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行行為識(shí)別的研究取得了豐碩成果,但目前在該領(lǐng)域的系統(tǒng)歸納較少。與RGB數(shù)據(jù)和深度數(shù)據(jù)相比,關(guān)節(jié)點(diǎn)本身是人體的高級(jí)特征,不易受外觀影響,同時(shí)能夠更好地避免背景遮擋、光照變化以及視角變化產(chǎn)生的噪聲影響,同時(shí)在計(jì)算和存儲(chǔ)方面也是有效的[7]。利用關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行行為識(shí)別從發(fā)展歷程上主要分為兩大類:基于手工特征的方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)的利用關(guān)節(jié)數(shù)據(jù)進(jìn)行行為識(shí)別是基于手工特征[8—10]。

關(guān)節(jié)點(diǎn)數(shù)據(jù)通常表示為一系列點(diǎn)的坐標(biāo)向量,在不同的深度學(xué)習(xí)網(wǎng)絡(luò)和算法中,關(guān)節(jié)點(diǎn)數(shù)據(jù)一般表示為偽圖像、向量序列和拓?fù)鋱D,不同的深度學(xué)習(xí)主干網(wǎng)絡(luò)架構(gòu)適合處理的數(shù)據(jù)表示方式也不同。通常來說,基于深度學(xué)習(xí)算法的改進(jìn)主要是針對(duì)3個(gè)方面:數(shù)據(jù)處理方式、網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)融合方式。數(shù)據(jù)處理方式主要表現(xiàn)為是否進(jìn)行數(shù)據(jù)預(yù)處理和數(shù)據(jù)降噪的方法,不同技術(shù)之間的數(shù)據(jù)融合方式也較為相似,對(duì)研究工作區(qū)分較大的是網(wǎng)絡(luò)架構(gòu),因此本文也將根據(jù)主干網(wǎng)絡(luò)架構(gòu)的不同對(duì)關(guān)節(jié)點(diǎn)行為識(shí)別方法進(jìn)行歸納總結(jié)。

2 基于深度學(xué)習(xí)的關(guān)節(jié)點(diǎn)行為識(shí)別

在深度學(xué)習(xí)背景下,關(guān)節(jié)點(diǎn)行為識(shí)別是針對(duì)已剪輯好的包含關(guān)節(jié)點(diǎn)位置數(shù)據(jù)的視頻片段進(jìn)行的特征提取和識(shí)別。常見處理關(guān)節(jié)點(diǎn)數(shù)據(jù)的深度學(xué)習(xí)方法有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、圖卷積網(wǎng)絡(luò),對(duì)應(yīng)的關(guān)節(jié)點(diǎn)數(shù)據(jù)的表示方式為偽圖像、向量序列和拓?fù)鋱D。本節(jié)按照主干網(wǎng)絡(luò)將基于深度學(xué)習(xí)的關(guān)節(jié)點(diǎn)行為識(shí)別方法分為基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別、基于圖卷積網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別和基于混合網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別。圖1為基于深度學(xué)習(xí)的關(guān)節(jié)點(diǎn)行為識(shí)別流程圖。首先原始的關(guān)節(jié)點(diǎn)數(shù)據(jù)輸入網(wǎng)絡(luò),其中橫軸方向表示關(guān)節(jié)點(diǎn)的編號(hào),縱軸方向的(x,y,z)表示關(guān)節(jié)點(diǎn)的3維坐標(biāo),豎軸方向表示時(shí)間幀,然后將其饋送到不同的網(wǎng)絡(luò)模型中進(jìn)行行為特征的提取,最終得到行為識(shí)別結(jié)果。

圖1 基于深度學(xué)習(xí)的關(guān)節(jié)點(diǎn)行為識(shí)別流程圖

2.1 基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別

CNN提供了一種有效的網(wǎng)絡(luò)架構(gòu),可以在大型數(shù)據(jù)集中提取人體行為特征,這些特征可通過從數(shù)據(jù)中學(xué)習(xí)到的局部卷積濾波器或內(nèi)核來識(shí)別?;贑NN的方法分別將時(shí)間幀和骨架關(guān)節(jié)的位置坐標(biāo)編碼為行和列,然后將數(shù)據(jù)饋送到CNN中進(jìn)行行為識(shí)別,類似于圖像分類。圖2為基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別流程圖。首先將原始的關(guān)節(jié)點(diǎn)數(shù)據(jù)輸入到行為識(shí)別網(wǎng)絡(luò)中,一般為了方便使用基于CNN的網(wǎng)絡(luò)做特征提取會(huì)將關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行轉(zhuǎn)置映射到圖像中,其中行表示不同的關(guān)節(jié),列表示不同的幀,(x,y,z)的3D坐標(biāo)值被視為圖像的3個(gè)通道,然后進(jìn)行卷積操作。卷積展開的作用是將多維的數(shù)據(jù)1維化,該環(huán)節(jié)是卷積操作和全連接之間的常用過渡方式。全連接是在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中起到“分類器”的作用,也就是將學(xué)到的特征空間表示映射到樣本標(biāo)記空間。最后經(jīng)過這一系列的操作就能夠得到行為識(shí)別的結(jié)果。

圖2 基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別流程圖

2017年Kim等人[12]提出一種殘差時(shí)間卷積網(wǎng)絡(luò)用于關(guān)節(jié)點(diǎn)行為識(shí)別,該網(wǎng)絡(luò)框架是一種明確學(xué)習(xí)易于解釋的3D人類行為識(shí)別的時(shí)空表示方法。殘差時(shí)間卷積是在CNN的基礎(chǔ)上設(shè)計(jì)的,網(wǎng)絡(luò)由1維卷積的堆疊單元構(gòu)成,并且能夠在時(shí)間和空間上分配不同程度的注意力,但是該方法的識(shí)別精度一般。同年Li等人[13]采用雙流CNN架構(gòu)組合人體關(guān)節(jié)的位置和速度信息,同時(shí)引入了一種新的骨架變換器模塊,實(shí)現(xiàn)了重要骨架節(jié)點(diǎn)的自動(dòng)重新排列和選擇,該方法較高的識(shí)別準(zhǔn)確率證明了CNN模擬時(shí)間模式的能力。Liu等人[14]提出視圖不變方法,不僅消除視圖變化的影響還能保留原始關(guān)節(jié)數(shù)據(jù)中的運(yùn)動(dòng)特征,同時(shí)提出一種增強(qiáng)的骨架可視化方法用于視圖不變的人體行為識(shí)別。Ke等人[15]于2017年最先將遷移學(xué)習(xí)應(yīng)用于關(guān)節(jié)點(diǎn)行為識(shí)別中。同年Ke等人[16]又進(jìn)一步將原始關(guān)節(jié)點(diǎn)數(shù)據(jù)轉(zhuǎn)換為3個(gè)灰度圖像片段,灰度圖像是使用關(guān)節(jié)與參考關(guān)節(jié)之間的相對(duì)位置生成的,這與Li等人[13]的轉(zhuǎn)換方法類似,Ke等人[16]所提出的方法首先將每個(gè)骨架序列轉(zhuǎn)換成3個(gè)片段,每個(gè)片段由幾幀組成,用于使用深度CNN進(jìn)行空間時(shí)間特征學(xué)習(xí),識(shí)別準(zhǔn)確率提高了約4%。由于先前的研究并未完全利用人體行為中視頻片段之間的時(shí)間關(guān)系,Le等人[17]在2018年提出了一種新的框架,該框架首先將骨架序列分割為不同的時(shí)間段,然后利用從細(xì)到粗的CNN架構(gòu)同時(shí)提取關(guān)節(jié)點(diǎn)序列的時(shí)間和空間特征。該網(wǎng)絡(luò)架構(gòu)較淺,能夠一定程度上避免數(shù)據(jù)量不足的問題,從表1可以看出,在SBU這種不是特別大的數(shù)據(jù)集上識(shí)別精度很好,達(dá)到了99.1%。Li等人[18]提出層次共現(xiàn)網(wǎng)絡(luò),首先將每個(gè)關(guān)節(jié)點(diǎn)進(jìn)行單獨(dú)的編碼,用CNN獨(dú)立地學(xué)習(xí)每個(gè)關(guān)節(jié)點(diǎn)的點(diǎn)水平特征,然后將每個(gè)關(guān)節(jié)都視為CNN的通道來學(xué)習(xí)層次共現(xiàn)特征,其行為識(shí)別準(zhǔn)確率超越了大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別方法。劉庭煜等人[19]針對(duì)生產(chǎn)車間工作人員行為識(shí)別與智能監(jiān)控問題提出一種基于關(guān)節(jié)點(diǎn)數(shù)據(jù)的生產(chǎn)行為識(shí)別方法,首先將預(yù)處理好的人體關(guān)節(jié)點(diǎn)數(shù)據(jù)合并成人體行為的時(shí)空特征RGB圖像,然后送入3維深度卷積神經(jīng)網(wǎng)絡(luò)中,該方法具有較高實(shí)用價(jià)值,并且在數(shù)據(jù)集MSR Action3D上的準(zhǔn)確率可以達(dá)到84.27%。針對(duì)復(fù)雜的交互動(dòng)作識(shí)別準(zhǔn)確率不夠高的問題,姬曉飛等人[20]提出一種基于RGB和關(guān)節(jié)點(diǎn)數(shù)據(jù)雙流信息融合的卷積神經(jīng)網(wǎng)絡(luò),其中RGB視頻信息在送入卷積神經(jīng)網(wǎng)絡(luò)之前進(jìn)行關(guān)鍵幀的提取縮短了訓(xùn)練時(shí)間,雙流信息的融合提高了識(shí)別準(zhǔn)確率。Yan等人[21]提出基于姿態(tài)的行為識(shí)別網(wǎng)絡(luò),該網(wǎng)絡(luò)是一個(gè)簡潔3維CNN框架,由空間姿態(tài)CNN、時(shí)序姿態(tài)CNN和動(dòng)作CNN 3個(gè)語義模塊組成,可以作為另一個(gè)語義流與RGB流和光學(xué)流互補(bǔ),該網(wǎng)絡(luò)框架較為簡潔,但是準(zhǔn)確率一般,在JHMDB數(shù)據(jù)集上的準(zhǔn)確率僅為69.5%。Caetano等人[22,23]、Li等人[24]從設(shè)計(jì)新的骨架表示圖像入手,其中Caetano等人[22]提出一種基于樹結(jié)構(gòu)和參考關(guān)節(jié)的3維行為識(shí)別的骨架圖像表示方法,在JHMDB數(shù)據(jù)集上的識(shí)別準(zhǔn)確率與Yan等人[21]所提出方法相同。Caetano等人[23]又引入了一種新的方法通過計(jì)算骨架關(guān)節(jié)的運(yùn)動(dòng)幅度和方向值來編碼時(shí)間動(dòng)態(tài),使用不同的時(shí)間尺度來計(jì)算關(guān)節(jié)的運(yùn)動(dòng)值能夠有效過濾噪聲運(yùn)動(dòng)值。Li等人[24]是用集合代數(shù)的方式對(duì)骨架關(guān)節(jié)信息進(jìn)行重新編碼。Yang等人[25]提出了一個(gè)輕量級(jí)的網(wǎng)絡(luò)框架,該網(wǎng)絡(luò)由多個(gè)卷積神經(jīng)網(wǎng)絡(luò)組合而成,大大提高了速度,但是識(shí)別精度和其他方法相比較低。主干網(wǎng)絡(luò)為卷積神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別及代表性工作如表1所示。

表1 主干網(wǎng)絡(luò)為卷積神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別及代表性工作

2.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以處理長度可變的序列數(shù)據(jù),長短期記憶模型(Long Short Term Memory,LSTM)是一種變種的RNN,由于其細(xì)胞狀態(tài)能夠決定哪些時(shí)間狀態(tài)應(yīng)該被留下哪些應(yīng)該被遺忘,所以在處理關(guān)節(jié)點(diǎn)視頻這種時(shí)序數(shù)據(jù)時(shí)有更大優(yōu)勢(shì),從而被較多地應(yīng)用到關(guān)節(jié)點(diǎn)行為識(shí)別中,圖3為基于循環(huán)神經(jīng)網(wǎng)絡(luò)的行為識(shí)別流程圖。首先將關(guān)節(jié)點(diǎn)數(shù)據(jù)表示為向量序列,每一個(gè)向量序列包含一個(gè)時(shí)間幀上的所有關(guān)節(jié)點(diǎn)的位置信息;然后將向量序列送入以循環(huán)神經(jīng)網(wǎng)絡(luò)為主干的行為識(shí)別網(wǎng)絡(luò)中;最后得到行為識(shí)別的結(jié)果。

Shahroudy等人[26]在2016年提出了NTU RGB+D數(shù)據(jù)集,同時(shí)提出了一種新的遞歸神經(jīng)網(wǎng)絡(luò)來模擬每個(gè)身體部位特征的長期時(shí)間相關(guān)性進(jìn)行關(guān)節(jié)點(diǎn)數(shù)據(jù)的行為識(shí)別,可以更有效并且直觀地保持每個(gè)身體部位的上下文信息,但是識(shí)別準(zhǔn)確率不高,在NTU RGB+D數(shù)據(jù)集上跨表演者模式(Cross Sbuject,CS)的準(zhǔn)確率是62.9%,跨視角模式(Cross View,CV)的準(zhǔn)確率是70.3%。該文獻(xiàn)為之后利用NTU RGB+D數(shù)據(jù)集進(jìn)行行為識(shí)別研究的方法提供了對(duì)比的基準(zhǔn)。Liu等人[27]提出一種基于信任門的長短期記憶模型(SpatioTemporal-Long Short Term Memory, ST-LSTM),信任門模塊能夠降低關(guān)節(jié)點(diǎn)數(shù)據(jù)的噪聲,提高行為識(shí)別的準(zhǔn)確率。Liu等人[28]又在ST-LSTM的基礎(chǔ)上做了進(jìn)一步的改進(jìn),在LSTM中加入一種新穎的多模式特征融合策略,使在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的準(zhǔn)確率(比如NTU RGB+D和UK-Kinect)都有較大提升,其中在NTU RGB+D數(shù)據(jù)集上的準(zhǔn)確率提高了約3%。2017年Liu等人[29]提出全局上下文感知長短期記憶模型框架(Global Context-aware Attention Long Short Term Memory networks, GCA-LSTM),該框架主要由兩層LSTM構(gòu)成,第1層生成全局的背景信息,第2層加入注意力機(jī)制,更好地聚焦每一幀的關(guān)鍵關(guān)節(jié)點(diǎn)從而提高行為識(shí)別準(zhǔn)確率。同年Liu等人[30]又在GCA-LSTM的基礎(chǔ)上進(jìn)行了擴(kuò)展,加入粗粒度和細(xì)粒度的注意力機(jī)制,識(shí)別準(zhǔn)確率在NTU RGB+D數(shù)據(jù)集上約提高了3%,在UK-Kinect數(shù)據(jù)集上提高了約1%。Zheng等人[31]提出了一種雙流注意力循環(huán)LSTM網(wǎng)絡(luò),如圖4所示。循環(huán)關(guān)系網(wǎng)絡(luò)學(xué)習(xí)單個(gè)骨架中的空間特征,多層LSTM學(xué)習(xí)骨架序列中的時(shí)間特征。該雙流的網(wǎng)絡(luò)中,一個(gè)網(wǎng)絡(luò)輸入的是原始關(guān)節(jié)點(diǎn)數(shù)據(jù),另一個(gè)網(wǎng)絡(luò)輸入的是成對(duì)關(guān)節(jié)之間的連線數(shù)據(jù),關(guān)節(jié)點(diǎn)數(shù)據(jù)強(qiáng)調(diào)絕對(duì)位置,連線數(shù)據(jù)強(qiáng)調(diào)相對(duì)位置。在每個(gè)流中,首先增加每個(gè)關(guān)節(jié)點(diǎn)或關(guān)節(jié)連線數(shù)據(jù)的維數(shù),然后發(fā)送給RNN用于提取單個(gè)骨架中的空間特征,同時(shí)生成一個(gè)可學(xué)習(xí)的掩碼將更多注意力集中在骨架的潛在區(qū)分部分,再使用多層LSTM學(xué)習(xí)骨架序列的時(shí)間特征,最后以加權(quán)平均運(yùn)算作為融合策略,以合并來自兩個(gè)流的預(yù)測。該網(wǎng)絡(luò)能更加有效地利用豐富的結(jié)構(gòu)或關(guān)節(jié)信息,準(zhǔn)確率較高。Li等人[32]提出了一個(gè)獨(dú)立遞歸神經(jīng)網(wǎng)絡(luò)(Independently Recurrent Neural Network, IndRNN),不同層之間的神經(jīng)元之間跨層連接,同一層中的神經(jīng)元彼此獨(dú)立,能更好地在網(wǎng)絡(luò)較深的情況下防止梯度爆炸和梯度消失。王佳鋮等人[33]針對(duì)車間作業(yè)行為識(shí)別問題提出了基于工件注意力的車間行為在線識(shí)別模型,不僅通過將人的關(guān)節(jié)點(diǎn)信息輸入以門控循環(huán)單元為基礎(chǔ)的模型對(duì)行為動(dòng)作進(jìn)行分類,還同時(shí)將工件的語義特征作為注意力融入進(jìn)去,該方法有利于提高車間數(shù)字化管理能力,最終在自建數(shù)據(jù)集上準(zhǔn)確率為88.5%,但是在標(biāo)準(zhǔn)數(shù)據(jù)集IXMAS上準(zhǔn)確率僅為29.8%,這說明該方法適用性較差。主干網(wǎng)絡(luò)為循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別及代表性工作如表2所示。

圖3 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的行為識(shí)別流程圖

2.3 基于圖卷積網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別

圖4 雙流長短期記憶模型框架[31]

表2 主干網(wǎng)絡(luò)為循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別及代表性工作

人體骨架關(guān)節(jié)本身是一種拓?fù)鋱D,卷積神經(jīng)網(wǎng)絡(luò)無法直接處理這種非歐幾里得結(jié)構(gòu)的數(shù)據(jù),因?yàn)橥負(fù)鋱D中每個(gè)點(diǎn)的相鄰頂點(diǎn)數(shù)目可能不同,難以用一個(gè)同樣大小的卷積核進(jìn)行卷積計(jì)算,而圖卷積神經(jīng)網(wǎng)絡(luò)能夠直接處理這種拓?fù)鋱D。圖5為基于圖卷積網(wǎng)絡(luò)的行為識(shí)別流程圖。首先將關(guān)節(jié)點(diǎn)數(shù)據(jù)表示為拓?fù)鋱D,在空間域上頂點(diǎn)由空間邊緣線連接,在時(shí)域上相鄰幀之間對(duì)應(yīng)關(guān)節(jié)由時(shí)間邊緣線連接,每個(gè)關(guān)節(jié)點(diǎn)的屬性特征是空間坐標(biāo)向量;然后將拓?fù)鋱D輸入以圖卷積網(wǎng)絡(luò)為主干的行為識(shí)別網(wǎng)絡(luò)中,最終得到行為識(shí)別的結(jié)果。

Yan等人[34]使用圖卷積進(jìn)行關(guān)節(jié)點(diǎn)行為識(shí)別能夠形成骨架關(guān)節(jié)的層次表示得到較好的識(shí)別結(jié)果,但由于感受野較小,難以學(xué)習(xí)無物理聯(lián)系的關(guān)節(jié)之間的關(guān)系。Shi等人[35]、Li等人[36]都在試圖克服這些問題,Shi等人[35]提出的雙流自適應(yīng)圖卷積網(wǎng)絡(luò),骨架關(guān)節(jié)的拓?fù)鋱D可以用BP算法自適應(yīng)地學(xué)習(xí),增加圖形構(gòu)建模型的靈活性。該雙流框架不僅利用骨架數(shù)據(jù)的1階信息(關(guān)節(jié)點(diǎn)信息),還利用骨架的2 階信息(骨骼的長度和方向),在N T U RGB+D數(shù)據(jù)集上準(zhǔn)確率較Yan等人[34]的方法提高了約7%。Li等人[36]提出了一種編碼器-解碼器的方法來捕獲隱含的關(guān)節(jié)相關(guān)性以及使用鄰接矩陣的高階多項(xiàng)式獲取關(guān)節(jié)之間的物理結(jié)構(gòu)鏈接。Gao等人[37]將圖形回歸用于基于骨架的行為識(shí)別,對(duì)于圖卷積而言,圖形的表示很重要,圖形回歸的方法能夠優(yōu)化時(shí)空幀的基礎(chǔ)圖形,充分利用人體關(guān)節(jié)之間空間上物理和非物理的依賴關(guān)系以及連續(xù)幀上的時(shí)間連通性。Li等人[38]提出一種時(shí)空?qǐng)D卷積方法,能夠?qū)⒆曰貧w滑動(dòng)平均序列學(xué)習(xí)能力與局部卷積濾波器結(jié)合。對(duì)于每個(gè)幀構(gòu)造無向圖,其中僅按照人體關(guān)節(jié)的自然連接構(gòu)造圖,無時(shí)間連通性,在NTU RGB+D上的識(shí)別準(zhǔn)確率CS和CV分別為74.9%和86.3%, 與其他方法相比準(zhǔn)確率較低。Tang等人[39]提出深度漸進(jìn)強(qiáng)化學(xué)習(xí)方法,該方法可以提取關(guān)鍵幀,然后用圖卷積網(wǎng)絡(luò)進(jìn)行行為識(shí)別,行為識(shí)別的準(zhǔn)確率一般,但是提高了訓(xùn)練效率。在實(shí)際應(yīng)用中經(jīng)常遇到關(guān)節(jié)點(diǎn)信息缺失的問題,大多數(shù)的基于關(guān)節(jié)點(diǎn)行為識(shí)別的模型都是針對(duì)完整的骨架數(shù)據(jù),但是真實(shí)場景中可能會(huì)出現(xiàn)部分關(guān)節(jié)點(diǎn)信息缺失的情況,Song等人[40]提出針對(duì)不完整骨架的行為識(shí)別的激活圖卷積網(wǎng)絡(luò),以提高圖卷積網(wǎng)絡(luò)在關(guān)節(jié)點(diǎn)行為識(shí)別中的魯棒性。Peng等人[41]提出將神經(jīng)體系結(jié)構(gòu)搜索用于構(gòu)建圖卷積網(wǎng)絡(luò),該搜索策略中將交叉熵演化策略與重要性混合方法相結(jié)合,提高了采樣效率和存儲(chǔ)效率。Wu等人[42]提出將空間殘差層和密集連接塊增強(qiáng)引入時(shí)空?qǐng)D卷積網(wǎng)絡(luò),這種方法能夠提高時(shí)空信息的處理效率,并且也容易與主流時(shí)空?qǐng)D卷積方法結(jié)合。Shi等人[43]在雙流自適應(yīng)圖卷積網(wǎng)絡(luò)[35]的基礎(chǔ)上進(jìn)行改進(jìn),將骨架數(shù)據(jù)表示為基于自然人體關(guān)節(jié)和骨骼之間運(yùn)動(dòng)依賴的有向無環(huán)圖,準(zhǔn)確率提升了約1%。Li等人[44]提出了一種新穎的共生圖卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)不僅包含行為識(shí)別的功能模塊,還包含動(dòng)作預(yù)測模塊,兩個(gè)模塊相互促進(jìn),顯著提高了行為識(shí)別和動(dòng)作預(yù)測的準(zhǔn)確率,在NTU RGB+D數(shù)據(jù)集上CS和CV的準(zhǔn)確率均超過90%。Yang等人[45]提出一個(gè)帶有時(shí)間和通道注意力機(jī)制的偽圖卷積網(wǎng)絡(luò),通過這種方式不僅能提取關(guān)鍵幀,還能篩選出包含更多特征的輸入幀。行為識(shí)別性能優(yōu)于大多數(shù)方法,但仍存在問題,因?yàn)閹瑪?shù)遠(yuǎn)遠(yuǎn)大于通道數(shù),可能會(huì)導(dǎo)致省略一些關(guān)鍵信息。圖卷積網(wǎng)絡(luò)雖然能提高識(shí)別的準(zhǔn)確率,但計(jì)算較復(fù)雜,計(jì)算速度也較慢,Wu等人[46]、Chen等人[47]更關(guān)注提高圖卷積網(wǎng)絡(luò)的速度,其中Wu等人[46]所提到的方法比Chen等人[47]所提到的方法產(chǎn)生高達(dá)兩個(gè)數(shù)量級(jí)的加速。主干網(wǎng)絡(luò)為圖卷積網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別及代表性工作如表3所示。

圖5 基于圖卷積網(wǎng)絡(luò)的行為識(shí)別流程圖

2.4 基于混合網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別

與以上3種主干網(wǎng)絡(luò)架構(gòu)相比,基于混合網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別的研究充分利用了卷積神經(jīng)網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)在空間域上特征提取的能力以及循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)序分類的優(yōu)勢(shì),能夠得到較好的行為識(shí)別結(jié)果。圖6為基于混合網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別流程圖。首先將原始的關(guān)節(jié)點(diǎn)數(shù)據(jù)根據(jù)不同的混合網(wǎng)絡(luò)的需要進(jìn)行相應(yīng)的關(guān)節(jié)點(diǎn)表示;然后將其饋送進(jìn)混合網(wǎng)絡(luò)中,混合網(wǎng)絡(luò)的主干網(wǎng)絡(luò)一般會(huì)包含卷積神經(jīng)網(wǎng)絡(luò)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)、圖卷積網(wǎng)絡(luò)中的兩個(gè)或更多;最終將提取到的行為特征進(jìn)行行為分類得到行為識(shí)別結(jié)果。

Zhang等人[48]提出了一種視圖自適應(yīng)方案,根據(jù)該方案設(shè)計(jì)了兩個(gè)視圖自適應(yīng)神經(jīng)網(wǎng)絡(luò),分別基于LSTM和CNN,視圖自適應(yīng)子網(wǎng)會(huì)在識(shí)別期間自動(dòng)確定最佳的虛擬觀察視點(diǎn)。視圖自適應(yīng)神經(jīng)網(wǎng)絡(luò)由兩大部分組成,一個(gè)是由視圖自適應(yīng)子網(wǎng)和主LSTM組成的視圖自適應(yīng)循環(huán)網(wǎng)絡(luò),將新的視點(diǎn)下的關(guān)節(jié)點(diǎn)表示送入主LSTM網(wǎng)絡(luò)確定行為識(shí)別,如圖7所示;還有一個(gè)是由視圖自適應(yīng)子網(wǎng)和主CNN組成的視圖自適應(yīng)卷積網(wǎng)絡(luò),將新的觀察視點(diǎn)下的關(guān)節(jié)點(diǎn)表示送入主CNN中確定行為類別。分階段訓(xùn)練完之后,再將兩部分網(wǎng)絡(luò)的分類分?jǐn)?shù)融合預(yù)測。該方法不僅減弱了視角不同對(duì)行為識(shí)別結(jié)果的影響,同時(shí)利用了CNN擅長提取空間域特征和循環(huán)神經(jīng)網(wǎng)絡(luò)擅長提取時(shí)間域行為特征的優(yōu)勢(shì),得到了較好的行為識(shí)別結(jié)果。Hu等人[49]不僅考慮時(shí)間域和空間域行為特征的提取,還提出了一種殘差頻率注意力方法,主要用來學(xué)習(xí)頻率模式,該文獻(xiàn)所提出的網(wǎng)絡(luò)框架可以看作CNN的變體和圖雜交方法結(jié)合,取得了較高的行為識(shí)別準(zhǔn)確率。Si等人[50,51]、Gao等人[52]都是采用圖卷積和LSTM相結(jié)合的方式進(jìn)行關(guān)節(jié)點(diǎn)的行為識(shí)別研究,圖卷積更加擅長空間域的特征提取,LSTM更加擅長時(shí)間域的特征提取。Si等人[51]所提出的注意力增強(qiáng)圖卷積LSTM網(wǎng)絡(luò)(Attention enhanced Graph Convolutional Long Short Term Memory network, AGC-LSTM),不僅可以提取空間域和時(shí)間域的行為特征,還通過增加頂層AGC-LSTM層的時(shí)間接受域來增強(qiáng)學(xué)習(xí)高級(jí)特征的能力,從而降低計(jì)算成本。Gao等人[52]提出基于雙向注意力圖卷積網(wǎng)絡(luò),利用聚焦和擴(kuò)散機(jī)制從人類關(guān)節(jié)點(diǎn)數(shù)據(jù)中學(xué)習(xí)時(shí)空上下文信息,取得了非常好的實(shí)驗(yàn)結(jié)果,其中在NTU RGB+D數(shù)據(jù)集上的準(zhǔn)確率達(dá)到國內(nèi)外領(lǐng)先水平。Zhang等人[53]將關(guān)節(jié)的語義(幀索引和關(guān)節(jié)類型)作為網(wǎng)絡(luò)輸入的一部分與關(guān)節(jié)的位置和速度一同饋送進(jìn)語義感知圖卷積層和語義感知卷積層,通過實(shí)驗(yàn)證明,利用語義信息能夠降低模型復(fù)雜度和提高行為識(shí)別的準(zhǔn)確率。利用關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行行為識(shí)別時(shí),骨架關(guān)節(jié)的復(fù)雜時(shí)空變化糾纏在一起,Xie等人[54]提出一種時(shí)間空間重新校準(zhǔn)方案來緩解這種復(fù)雜的變化,這是第1次為關(guān)節(jié)點(diǎn)行為識(shí)別開發(fā)RNN+CNN網(wǎng)絡(luò)框架。Weng等人[55]提出一種可變形姿態(tài)遍歷卷積網(wǎng)絡(luò),在執(zhí)行遍歷卷積時(shí)通過考慮不同權(quán)重的上下文關(guān)節(jié)來優(yōu)化每個(gè)關(guān)節(jié)的卷積核大小,對(duì)嘈雜的關(guān)節(jié)更具有魯棒性,然后將學(xué)習(xí)的姿勢(shì)饋送到LSTM共同優(yōu)化姿勢(shì)表征和時(shí)間序列。主干網(wǎng)絡(luò)為混合網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別及代表性工作如表4所示。

表3 主干網(wǎng)絡(luò)為圖卷積網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別及代表性工作

圖6 基于混合網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別流程圖

圖7 視圖自適應(yīng)循環(huán)神經(jīng)網(wǎng)絡(luò)[48]

表4 主干網(wǎng)絡(luò)為混合網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別及代表性工作

3 關(guān)節(jié)點(diǎn)數(shù)據(jù)集發(fā)展及評(píng)估標(biāo)準(zhǔn)

3.1 關(guān)節(jié)點(diǎn)數(shù)據(jù)集發(fā)展及簡述

近年來,深度學(xué)習(xí)的快速發(fā)展使數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)在行為識(shí)別領(lǐng)域取得了較好的成果,大規(guī)模的數(shù)據(jù)集的提出對(duì)深度學(xué)習(xí)的發(fā)展有著重大意義。在基于深度學(xué)習(xí)的關(guān)節(jié)點(diǎn)行為識(shí)別的研究中,相關(guān)數(shù)據(jù)集的發(fā)展也同樣起著較大的推動(dòng)作用。在關(guān)節(jié)點(diǎn)行為識(shí)別研究中常用的數(shù)據(jù)集主要分為兩大類,一類是利用Kinect攝像機(jī)獲取多模態(tài)行為識(shí)別數(shù)據(jù)集[9,26,56—69],另一類是從包含RGB信息的行為識(shí)別數(shù)據(jù)集[68,70,71]中用OpenPose工具箱估計(jì)每個(gè)關(guān)節(jié)點(diǎn)的位置[72]。早期的數(shù)據(jù)集規(guī)模較小,相對(duì)而言更適用于在深度學(xué)習(xí)出現(xiàn)之前的手工提取特征方法。同時(shí)早期的數(shù)據(jù)集還有其他的局限性,首先,由于表演者的數(shù)量較少和表演者的年齡范圍較窄導(dǎo)致行為的內(nèi)部變化非常有限;其次,行為類別數(shù)量較少,通過找到簡單的運(yùn)動(dòng)模式就可以容易地區(qū)分每個(gè)行為類別,使分類任務(wù)的挑戰(zhàn)性降低。為了滿足深度學(xué)習(xí)的需求,大規(guī)模數(shù)據(jù)集相繼出現(xiàn)。新加坡南洋理工大學(xué)在2016年公開了NTU RGB+D數(shù)據(jù)集,為國內(nèi)外進(jìn)行行為識(shí)別研究提供了數(shù)據(jù)支撐;DeepMind公司在2017年公開了Kinects數(shù)據(jù),該數(shù)據(jù)集從You-Tube上收集,以HMDB-51[71]和UCF-101[73]為基準(zhǔn),具有較大的規(guī)模和較高的質(zhì)量。表5列舉了常用來做關(guān)節(jié)點(diǎn)行為識(shí)別的多模態(tài)數(shù)據(jù)集,接下來重點(diǎn)介紹在關(guān)節(jié)點(diǎn)行為識(shí)別研究中常用的大規(guī)模數(shù)據(jù)集[26,68,69]。

表5 關(guān)節(jié)點(diǎn)行為識(shí)別數(shù)據(jù)集簡介

NTU RGB+D數(shù)據(jù)集是由新加坡南洋理工大學(xué)制作并整理而成的,于2016年公開。深度傳感器的出現(xiàn)使獲取物體和人體有效的3D結(jié)構(gòu)的成本大大降低[74],該數(shù)據(jù)集是由3個(gè)深度攝像機(jī)Microsoft Kinect v2在室內(nèi)拍攝完成的。3個(gè)攝像機(jī)的水平方向一致,角度分別為—45°, 0°, 45°。包含了25個(gè)主要的身體關(guān)節(jié)的3D位置,如圖8所示[26],關(guān)節(jié)點(diǎn)位置對(duì)照表如表6所示。數(shù)據(jù)集包含有超過56000個(gè)視頻樣本和400萬幀,有40個(gè)表演者,60種不同的動(dòng)作類,涉及日常動(dòng)作40項(xiàng)(包括飲酒、飲食、閱讀等)、交互動(dòng)作11項(xiàng)(包括拳打腳踢、擁抱等)、與健康相關(guān)的動(dòng)作9項(xiàng)(包括打噴嚏、蹣跚、摔倒等),數(shù)據(jù)集示例如圖9所示[26]。該數(shù)據(jù)集有302個(gè)樣本關(guān)節(jié)點(diǎn)數(shù)據(jù)不完整,在進(jìn)行關(guān)節(jié)點(diǎn)行為識(shí)別時(shí)可以忽略。

圖8 人體關(guān)節(jié)點(diǎn)示意圖[26]

表6 關(guān)節(jié)點(diǎn)位置對(duì)照表

Kinects數(shù)據(jù)集取自YouTube視頻,每段動(dòng)作剪輯約10 s,包含400個(gè)動(dòng)作類,每個(gè)動(dòng)作類由400~1150個(gè)視頻剪輯。動(dòng)作涵蓋范圍較廣,包含人與物的交互、人與人的交互、單人動(dòng)作。利用公開的Openpose工具箱能夠在Kinects數(shù)據(jù)集提取18個(gè)關(guān)節(jié)點(diǎn)位置(X,Y,C),其(X,Y )為關(guān)節(jié)點(diǎn)的2維位置坐標(biāo),C是位置坐標(biāo)的置信度,關(guān)節(jié)框架被記錄為18個(gè)元組的數(shù)組,圖10為Openpose工具箱提取關(guān)節(jié)點(diǎn)示意圖[72]。

NTU RGB+D 120數(shù)據(jù)集在NTU RGB+D數(shù)據(jù)集的基礎(chǔ)上擴(kuò)充到了120個(gè)動(dòng)作,動(dòng)作的種類未發(fā)生變化,每個(gè)動(dòng)作類包含的動(dòng)作個(gè)數(shù)均有增加,日常動(dòng)作增加到了82個(gè)(包括吃、寫、坐下、移動(dòng)物體等),與健康有關(guān)的動(dòng)作增加到了12個(gè)(包括吹鼻子、嘔吐、蹣跚、跌倒等),交互的動(dòng)作增加到了26個(gè)(包括握手、推、打、擁抱等)。與NTU RGB+D數(shù)據(jù)集相比,該數(shù)據(jù)集行為識(shí)別的難度有所增加。

3.2 關(guān)節(jié)點(diǎn)數(shù)據(jù)集評(píng)估標(biāo)準(zhǔn)

常見行為識(shí)別準(zhǔn)確率的評(píng)估標(biāo)準(zhǔn)為Top1和Top5。模型預(yù)測某個(gè)行為類別的準(zhǔn)確率時(shí),如M2I數(shù)據(jù)集包含行為類別有22個(gè),模型會(huì)給出22個(gè)按概率從高到低的類別排名。其中Top1的準(zhǔn)確率為排名第1的類別與實(shí)際結(jié)果相符的準(zhǔn)確率,Top5的準(zhǔn)確率為排名前5類別中包含實(shí)際結(jié)果的準(zhǔn)確率。一般一種模型在一個(gè)數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果的準(zhǔn)確率Acc即為Top1的準(zhǔn)確率。NTU RGB+D和NTU RGB+D 120數(shù)據(jù)集經(jīng)常出現(xiàn)CS和CV兩種測試模式,其中CS為跨表演者測試中Top1的準(zhǔn)確率,CV為跨視角測試中Top1的準(zhǔn)確率。Kinects數(shù)據(jù)集較為特殊,對(duì)其而言Top5比Top1更有說服力,因?yàn)樵摂?shù)據(jù)集中一段視頻可能包含多個(gè)動(dòng)作但是標(biāo)簽僅標(biāo)注一個(gè)動(dòng)作,因此在表1—表4中Kinects數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果同時(shí)包含Top1和Top5。

圖9 NTU RGB+D數(shù)據(jù)集示例[26]

圖10 Openpose提取關(guān)節(jié)點(diǎn)示意圖[72]

4 總結(jié)與展望

本文通過對(duì)基于深度學(xué)習(xí)的關(guān)節(jié)點(diǎn)行為識(shí)別進(jìn)行總結(jié)和分析,得出以下結(jié)論:

(1) 關(guān)節(jié)點(diǎn)數(shù)據(jù)一般有3種表示方式:偽圖像、向量序列和拓?fù)鋱D。卷積神經(jīng)網(wǎng)絡(luò)適合處理偽圖像,循環(huán)神經(jīng)網(wǎng)絡(luò)適合處理向量序列,圖卷積網(wǎng)絡(luò)適合處理拓?fù)鋱D。從表1—表4可知,在NTU RGB+D數(shù)據(jù)集上僅包含圖卷積的方法比僅比包含卷積神經(jīng)網(wǎng)絡(luò)的方法平均準(zhǔn)確率高約5%,比僅包含循環(huán)神經(jīng)網(wǎng)絡(luò)的方法高約10%,證明了圖卷積在關(guān)節(jié)點(diǎn)行為識(shí)別方面的優(yōu)越性,這是因?yàn)槿梭w關(guān)節(jié)點(diǎn)所構(gòu)成的骨架實(shí)質(zhì)上就是圖結(jié)構(gòu),但是通常包含圖卷積的網(wǎng)絡(luò)也更復(fù)雜。僅包含循環(huán)神經(jīng)網(wǎng)絡(luò)方法的識(shí)別準(zhǔn)確率相對(duì)最低,因?yàn)樾袨閯?dòng)作在空間域上的變化幅度要大于在時(shí)間域上的,而循環(huán)神經(jīng)網(wǎng)絡(luò)更適合處理時(shí)序性問題。基于混合網(wǎng)絡(luò)的關(guān)節(jié)點(diǎn)行為識(shí)別方法通常具有兩種或多種主干網(wǎng)絡(luò)的優(yōu)勢(shì)其準(zhǔn)確率也較高,但同時(shí)網(wǎng)絡(luò)的復(fù)雜度也較高。

(2) 目前關(guān)節(jié)點(diǎn)行為識(shí)別方法在標(biāo)準(zhǔn)數(shù)據(jù)集上的準(zhǔn)確率有大幅度提高,以NTU RGB+D數(shù)據(jù)集為例,已經(jīng)從CS和CV的準(zhǔn)確率分別為62.9%和70.3%[26]提升到了90.3%和96.3%[52]。但實(shí)際應(yīng)用場景中可能會(huì)出現(xiàn)關(guān)節(jié)點(diǎn)的部分?jǐn)?shù)據(jù)缺失或需要較高的訓(xùn)練和測試速度以實(shí)現(xiàn)實(shí)時(shí)性,有些學(xué)者針對(duì)這些問題提出了解決方法,比如缺失關(guān)節(jié)點(diǎn)的激活[40]或者構(gòu)建輕量級(jí)的網(wǎng)絡(luò)[24],但目前準(zhǔn)確率都一般。也有些研究是針對(duì)特殊的應(yīng)用場景,比如劉庭煜等人[19]針對(duì)車間工人行為識(shí)別,雖然在特定的場景中準(zhǔn)確率較高,但適用性較差。

綜合當(dāng)前基于深度學(xué)習(xí)的關(guān)節(jié)點(diǎn)行為識(shí)別方法的研究現(xiàn)狀,對(duì)今后的研究做出如下展望:

(1) 隨著5G時(shí)代的到來,數(shù)據(jù)信息的主要載體已經(jīng)從PC轉(zhuǎn)換到移動(dòng)端,這有利用將關(guān)節(jié)點(diǎn)行為識(shí)別應(yīng)用于移動(dòng)端。但是目前利用關(guān)節(jié)點(diǎn)進(jìn)行行為識(shí)別的網(wǎng)絡(luò)模型均較為復(fù)雜,其中以循環(huán)神經(jīng)網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)最為明顯,難以在實(shí)際應(yīng)用中推廣,因此期待未來能夠提出更加輕量級(jí)并且準(zhǔn)確度較高的網(wǎng)絡(luò)。

(2) 關(guān)節(jié)點(diǎn)行為識(shí)別多應(yīng)用于無人駕駛、機(jī)器人以及醫(yī)療監(jiān)控等領(lǐng)域,行為識(shí)別系統(tǒng)在行為動(dòng)作發(fā)生之后對(duì)行為進(jìn)行識(shí)別。但是在某些應(yīng)用場景中人們更希望能夠進(jìn)行行為預(yù)測,比如當(dāng)無人駕駛系統(tǒng)預(yù)測到一個(gè)人有闖紅燈的行為時(shí)可以及時(shí)調(diào)整駕駛軌跡。Li等人[44]就利用關(guān)節(jié)點(diǎn)的行為預(yù)測進(jìn)行了深入的研究,但是準(zhǔn)確率有待提高,這也是未來的研究方向之一。

(3) 目前關(guān)節(jié)點(diǎn)行為識(shí)別的訓(xùn)練數(shù)據(jù)多是剪輯好的視頻幀,無需進(jìn)行動(dòng)作檢測,但是在實(shí)際應(yīng)用中,能夠識(shí)別行為發(fā)生的時(shí)間段是有必要的,因此將關(guān)節(jié)點(diǎn)的動(dòng)作檢測與行為識(shí)別相結(jié)合也有較高的研究價(jià)值。

(4) 深度學(xué)習(xí)需要大量的樣本進(jìn)行訓(xùn)練,但對(duì)數(shù)據(jù)集進(jìn)行準(zhǔn)確有效的標(biāo)注是需要耗費(fèi)大量人力物力的。無監(jiān)督學(xué)習(xí)可以利用無標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練,這將解決數(shù)據(jù)集標(biāo)注所面臨的問題,具有較大的研究價(jià)值。

(5) 雖然很多關(guān)節(jié)點(diǎn)行為識(shí)別方法在標(biāo)準(zhǔn)數(shù)據(jù)集上識(shí)別的準(zhǔn)確率很高,但是這些方法都是針對(duì)無遮擋的情況進(jìn)行的,在實(shí)際的應(yīng)用場景中可能會(huì)出現(xiàn)部分關(guān)節(jié)點(diǎn)被遮擋的情況,現(xiàn)在的大部分方法在這種情況下的識(shí)別效果并不好,因此提高在有遮擋情況下的識(shí)別準(zhǔn)確率有利于關(guān)節(jié)點(diǎn)行為識(shí)別與實(shí)際應(yīng)用的結(jié)合。

猜你喜歡
關(guān)節(jié)點(diǎn)集上骨架
淺談管狀骨架噴涂方法
基于深度學(xué)習(xí)和視覺檢測的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動(dòng)作識(shí)別
Cookie-Cutter集上的Gibbs測度
骨架密度對(duì)炭/炭多孔骨架壓力浸滲銅的影響
鏈完備偏序集上廣義向量均衡問題解映射的保序性
復(fù)扇形指標(biāo)集上的分布混沌
搞好新形勢(shì)下軍營美術(shù)活動(dòng)需把握的關(guān)節(jié)點(diǎn)
內(nèi)支撐骨架封抽技術(shù)在突出煤層瓦斯抽采中的應(yīng)用
中國煤層氣(2014年3期)2014-08-07 03:07:45
幾道導(dǎo)數(shù)題引發(fā)的解題思考
日喀则市| 同心县| 清新县| 横山县| 合川市| 台州市| 崇义县| 荥阳市| 肥东县| 辽源市| 象州县| 塔城市| 新丰县| 拉萨市| 温州市| 上林县| 贡嘎县| 稷山县| 玉溪市| 华池县| 营口市| 灵寿县| 葵青区| 阿克| 玉林市| 贵溪市| 泸西县| 尚志市| 教育| 平乐县| 武安市| 德庆县| 应用必备| 清镇市| 延吉市| 三台县| 甘孜| 潞城市| 连平县| 紫金县| 蒙阴县|