熊新炎,張 童
(哈爾濱商業(yè)大學(xué) 輕工學(xué)院,哈爾濱 150028)
隨著科技日新月異的發(fā)展,對(duì)于智能安防檢測(cè)[1]、人機(jī)交互領(lǐng)域[2]、虛擬實(shí)現(xiàn)領(lǐng)域[3]的應(yīng)用需求,人體行為識(shí)別成為計(jì)算機(jī)視覺(jué)領(lǐng)域中的研究熱點(diǎn)之一[4],在國(guó)內(nèi)外人受到廣泛研究人員的關(guān)注.人體行為識(shí)別的方法大致可分為兩種:1)基于傳感器采集數(shù)據(jù)方法,再利用識(shí)別算法對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試.Zhang等[5]提出一種多傳感器數(shù)據(jù)融合人體行為識(shí)別,該方法通過(guò)LSTM網(wǎng)絡(luò),增加數(shù)據(jù)之間的聯(lián)系,保留了其中有效的數(shù)據(jù),而且所需要的參數(shù)相對(duì)于其他網(wǎng)絡(luò)減少,但是,該網(wǎng)絡(luò)模型的訓(xùn)練速度較慢,消耗的網(wǎng)絡(luò)資源較多.Tran[6]等提出一種C3D網(wǎng)絡(luò)進(jìn)行人體識(shí)別,該網(wǎng)絡(luò)是在原有的2D網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行修改,提高了網(wǎng)絡(luò)的計(jì)算效率,但是三維網(wǎng)絡(luò)的參數(shù)容易出現(xiàn)過(guò)擬合現(xiàn)象.Guo[7]等人提出一種深度學(xué)習(xí)網(wǎng)絡(luò)來(lái)對(duì)可穿戴設(shè)備人體行為數(shù)據(jù)進(jìn)行識(shí)別,在網(wǎng)絡(luò)模型中增加了多個(gè)分支結(jié)構(gòu),其目的是對(duì)不同傳感器數(shù)據(jù)進(jìn)行分別特征提取與融合,使該網(wǎng)絡(luò)具有較強(qiáng)的泛華能力,但是這種方法增加了網(wǎng)絡(luò)的計(jì)算復(fù)雜度,增加了訓(xùn)練的時(shí)間與模型計(jì)算的成本.2)基于相機(jī)采集數(shù)據(jù)方法,人體骨骼序列可以通過(guò)Kinect和OpenPose進(jìn)行采集建模,通過(guò)一些算法達(dá)到識(shí)別人體行為的目的.Xin等[8]提出一種基于特征選擇的模板識(shí)別方法,但是這個(gè)方法每個(gè)動(dòng)作的參考模板過(guò)于單一,這使動(dòng)作之間的差異性降低.Li等[9]提出一種人體關(guān)節(jié)點(diǎn)角度測(cè)量的姿勢(shì)識(shí)別算法,該方法能夠?qū)崟r(shí)監(jiān)測(cè)人體骨骼節(jié)點(diǎn)之間的角度,但是對(duì)于一些細(xì)微動(dòng)作的檢測(cè)還是不夠明顯.
綜合上述方法的分析研究,針對(duì)文獻(xiàn)[10]提出的一種雙流時(shí)空卷積方法存在的一些問(wèn)題,本文提出一種基于Kinect的改進(jìn)雙流時(shí)空卷積神經(jīng)網(wǎng)絡(luò)方法進(jìn)行人體動(dòng)作識(shí)別.該方法首先使用RestNet-50網(wǎng)絡(luò)模塊替換了原網(wǎng)絡(luò)中的VGG-16網(wǎng)絡(luò)模塊,增加其網(wǎng)絡(luò)的深度,然后引入了殘差連接和批標(biāo)準(zhǔn)化,減少了梯度消散和數(shù)據(jù)過(guò)擬合問(wèn)題,實(shí)現(xiàn)良好的網(wǎng)絡(luò)效果.進(jìn)過(guò)HMDB-51和UCF-101兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比分析,驗(yàn)證了改進(jìn)的雙流卷積神經(jīng)網(wǎng)絡(luò)是可行的.
人體是一個(gè)復(fù)雜的結(jié)構(gòu),為了方便計(jì)算與分析,將復(fù)雜的人體結(jié)構(gòu),簡(jiǎn)化為圖1所示的人體關(guān)節(jié)點(diǎn)骨骼模型.其選取人體中的20個(gè)主要關(guān)節(jié),并進(jìn)行數(shù)字標(biāo)記,將整個(gè)人體結(jié)構(gòu)進(jìn)行簡(jiǎn)化.為了計(jì)算方便,就必須對(duì)這些關(guān)節(jié)點(diǎn)的坐標(biāo)轉(zhuǎn)化到世界坐標(biāo)系中.設(shè)第一個(gè)關(guān)節(jié)點(diǎn)的坐標(biāo)為M1(x1,y1,z1)并將這個(gè)關(guān)節(jié)點(diǎn)定位主要關(guān)節(jié)點(diǎn),然后帶入式(1)中求出剩下關(guān)節(jié)點(diǎn)轉(zhuǎn)換后的坐標(biāo).
圖1 關(guān)節(jié)點(diǎn)標(biāo)記圖Figure 1 Joint point marking diagram
M′i=M1(x1,y,z1)-Mi(xi,yi,zi)
(1)
其中M′i為轉(zhuǎn)換后的坐標(biāo),M1(x1,y1,z1)為關(guān)節(jié)中心點(diǎn).
人體的行為是動(dòng)態(tài)的,為了提取動(dòng)態(tài)人體行為特征,假設(shè)輸入一張時(shí)空?qǐng)D片為G(N,E),某一段視頻的幀數(shù)為T,將每個(gè)關(guān)節(jié)點(diǎn)在T幀內(nèi)的特征矩陣表示為Ni,則所有關(guān)節(jié)點(diǎn)在T幀內(nèi)的特征矩陣集合表示為:
N={nti|t=1,2,3,…,T,i=1,2,…,20}
(2)
E分為兩個(gè)部分,一個(gè)是單幀內(nèi)所有關(guān)節(jié)點(diǎn)連接集合Es,另一個(gè)是在T幀內(nèi)同一位置關(guān)節(jié)點(diǎn)的連接集合Ef.圖2為人體關(guān)節(jié)點(diǎn)的時(shí)空?qǐng)D構(gòu)建圖.
圖2 人體關(guān)節(jié)點(diǎn)的時(shí)空?qǐng)D構(gòu)建圖Figure 2 Construction of spatiotemporal map of human joint points
Es={ntintj|(i,j=1,2,…,20) }
(3)
Ef={ntin(t+1)i}
(4)
為了更好地區(qū)分動(dòng)作之間的差異,可以使用余弦相似度來(lái)到達(dá)區(qū)分的目的.假設(shè)兩個(gè)節(jié)點(diǎn)的坐標(biāo)為A(xi,yi,zi),B(xi+1,yi+1,zi+1),
那么兩個(gè)相鄰關(guān)
節(jié)點(diǎn)的向量就可以表示為:
(5)
通過(guò)式(3)求得兩個(gè)相鄰節(jié)點(diǎn)之間形成的特征向量,就能根據(jù)式(4)求出兩個(gè)相鄰向量之間的夾角θ.
(6)
其中i=1,2,…,20.
2.1時(shí)空雙流神經(jīng)網(wǎng)絡(luò)
時(shí)空雙流卷積網(wǎng)絡(luò)進(jìn)行人體識(shí)別時(shí),會(huì)從兩個(gè)方面對(duì)視頻數(shù)據(jù)進(jìn)行處理,一個(gè)是空間維度,空間維度處理的是單幀內(nèi)的人體行為信息,而另一個(gè)時(shí)間維度處理的是連續(xù)視頻幀的光流信息產(chǎn)生的光流圖像[11],圖3是時(shí)空雙流神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖.
圖3 時(shí)空雙流神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Figure 3 Structure of spatiotemporal dual flow neural network
雙流神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用的是VGG-16網(wǎng)絡(luò)[9],VGG-16網(wǎng)絡(luò)有13個(gè)卷積層和3個(gè)全連接層,該網(wǎng)絡(luò)在每次池化之后,經(jīng)過(guò)卷積通道數(shù)都會(huì)翻倍,這樣的好處就是為了保留更多的特征.但是,隨著層數(shù)不斷提高,準(zhǔn)確率反而降低.所以本文便提出一種改進(jìn)的時(shí)空雙流神經(jīng)網(wǎng)絡(luò)來(lái)解決這一問(wèn)題.
根據(jù)上文所述,雙流卷積網(wǎng)絡(luò)VGG-16模型所存在的問(wèn)題,本文提出使用RestNet-50網(wǎng)絡(luò)模型替代了原有的VGG-16模型,并且在該網(wǎng)絡(luò)中加入了殘差模塊,便增加了雙流網(wǎng)絡(luò)的深度,同時(shí)減少了數(shù)據(jù)過(guò)擬合,降低了梯度爆炸問(wèn)題,實(shí)現(xiàn)良好的網(wǎng)絡(luò)效果.表1是RestNet-50的網(wǎng)絡(luò)結(jié)構(gòu).每個(gè)網(wǎng)絡(luò)層都有不同數(shù)量的殘差模塊,在第一層和第五層結(jié)束后面分別有一個(gè)最大池化層和一個(gè)平均池化層,最后還有一層全連接層.
表1 RestNet-50網(wǎng)絡(luò)結(jié)構(gòu)
RestNet-50網(wǎng)絡(luò)相對(duì)于 VGG-16 網(wǎng)絡(luò)模型來(lái)說(shuō),增加雙流網(wǎng)絡(luò)的網(wǎng)絡(luò)深度,但同時(shí)也會(huì)出現(xiàn)一些新的問(wèn)題,梯度消散、網(wǎng)絡(luò)退化等等,為了解決這一問(wèn)題,本文在網(wǎng)絡(luò)中加入了殘差連接模塊.圖4為殘差模塊的結(jié)構(gòu)圖.
圖4 殘差模塊Figure 4 Residual module
本文設(shè)計(jì)的基于Kinect的雙層時(shí)空卷網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,首先通過(guò)Kinect提取到的骨骼關(guān)節(jié)點(diǎn)序列,然后通過(guò)軟件將這些序列分成兩個(gè)部分,傳入空間模塊和時(shí)間模塊兩個(gè)子網(wǎng)絡(luò)中,這兩個(gè)網(wǎng)絡(luò)由5個(gè)卷積層構(gòu)成,卷積完成之后再送入dropout層中減少數(shù)據(jù)的過(guò)擬合,然后進(jìn)行數(shù)據(jù)的融合與連接,最后再分類輸出.
圖5 整體識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)Figure 5 Overall Identification Network Structure
實(shí)驗(yàn)環(huán)境:Windows 10 操作系統(tǒng);CPU:Intel core i5-10200H;顯卡:NVIDIA GTX1650Ti 4G GDDR6 獨(dú)立顯卡;運(yùn)行內(nèi)存:8G;利用 MatlabR2020b 搭建深度學(xué)習(xí)框架.
本文所使用的數(shù)據(jù)集為HMDB-51和UCF-101這兩個(gè)被廣泛使用的數(shù)據(jù)集.HMDB-51數(shù)據(jù)集和UCF101數(shù)據(jù)集都是從YouTube收集來(lái)的具有真實(shí)動(dòng)作視頻的動(dòng)作識(shí)別數(shù)據(jù)集.HMDB-51擁有來(lái)自51個(gè)動(dòng)作類別的6 849個(gè)視頻,每個(gè)動(dòng)作至少包含101個(gè)視頻,分辨率320*240.UCF101擁有來(lái)自101個(gè)動(dòng)作類別的13 320個(gè)視頻,在動(dòng)作方面具有最大的多樣性,101個(gè)動(dòng)作類別的視頻分為25組,每組可以包含4~7個(gè)動(dòng)作的視頻.
利用OpenPose 在VS2017軟件上將 HMDB-51和UCF-101 數(shù)據(jù)集里面的視頻分解為空間和時(shí)間兩個(gè)部分,空間為單幀RGB圖像,時(shí)間為光流圖像,視頻的幀數(shù)設(shè)置為20幀,通過(guò)Kinect相機(jī)中算法對(duì)掃描單幀RGB圖像中的骨骼關(guān)節(jié)點(diǎn).在Matlab2020上構(gòu)建深度學(xué)習(xí)框架,將單幀RGB圖像和光流圖像分別輸入到空間和時(shí)間兩個(gè)子卷積網(wǎng)絡(luò)中,融合卷積完成之后再送入dropout層中減少數(shù)據(jù)的過(guò)擬合,然后進(jìn)行數(shù)據(jù)的融合與連接,最后再分類輸出.訓(xùn)練次數(shù)設(shè)置為100,數(shù)據(jù)集中70%作為訓(xùn)練集,30%作為實(shí)驗(yàn)集,最終實(shí)驗(yàn)的結(jié)果如圖6所示,HMDB-51的識(shí)別準(zhǔn)確率為70.8%,UCF-101的識(shí)別準(zhǔn)確率為91.4%,在準(zhǔn)確率上有明顯提高.
圖6 HMDB-51和UCF-101的驗(yàn)證結(jié)果Figure 6 Validation Results of HMDB-51 and UCF-101
在HMDB-51和UCF-101 數(shù)據(jù)集上面與其他研究方法進(jìn)行對(duì)比,識(shí)別準(zhǔn)確率進(jìn)行對(duì)比結(jié)果如表2所示.本文算法與多個(gè)文獻(xiàn)中所使用的方法都有略微的提高,通過(guò)結(jié)果的比較,可以看出本文所提出的方法能更好完成動(dòng)作識(shí)別任務(wù).
表2 與其他研究方法對(duì)比Table 2 Comparison with other research methods
本文提出一種基于Kinect的雙流時(shí)空卷積網(wǎng)絡(luò)進(jìn)行人體動(dòng)作識(shí)別的方法.該方法在舍去了原有的雙流卷積模塊中的VGG-16框架,用RestNet-50網(wǎng)絡(luò)框架代替,并加入殘差模塊,增加了網(wǎng)絡(luò)深度,減少梯度消散和數(shù)據(jù)過(guò)擬合,在HMDB-51和UCF-101這兩個(gè)數(shù)據(jù)集上的識(shí)別率分別是70.8%和91.4%,對(duì)比其他方面,本文方法在識(shí)別率上有明顯提高,但是由于網(wǎng)絡(luò)深度的增加和殘差模塊的加入,增加了網(wǎng)絡(luò)模型中的參數(shù),且識(shí)別訓(xùn)練花費(fèi)的時(shí)間較長(zhǎng),前期對(duì)視頻的處理方式有一些復(fù)雜化,這些問(wèn)題將在今后的工作中進(jìn)一步完善.