付仔蓉, 吳勝昔, 吳瀟穎, 顧幸生
(華東理工大學(xué)能源化工過(guò)程智能制造教育部重點(diǎn)實(shí)驗(yàn)室,上海 200237)
人體行為動(dòng)作識(shí)別是以人為中心,研究人體活動(dòng)的重要分支之一。基于機(jī)器視覺(jué)的人體行為識(shí)別是自動(dòng)解釋圖像或者視頻序列中固定場(chǎng)景的人體正在執(zhí)行什么動(dòng)作或活動(dòng),如從2D 圖像中提取卷積特征,利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)實(shí)現(xiàn)自動(dòng)姿勢(shì)識(shí)別[1]。人體行為識(shí)別在人機(jī)交互、智能監(jiān)視系統(tǒng)[2]、視頻搜索、游戲、行人檢測(cè)、醫(yī)療保健自動(dòng)化系統(tǒng)[3]、智能駕駛和智能家居等方面具有實(shí)際的應(yīng)用前景。
在過(guò)去的幾十年中,研究者廣泛使用彩色圖像(RGB)數(shù)據(jù)來(lái)識(shí)別人體行為動(dòng)作。如 Ciocca 等[4]利用輸入的RGB 圖像進(jìn)行動(dòng)作識(shí)別與跟蹤,但由于其背景雜亂、身體遮擋、觀察點(diǎn)角度不同、光線照明變化、執(zhí)行率和生物特征變化等引起的一系列問(wèn)題,造成行為識(shí)別困難。隨著具有成本效益的深度圖像(RGB-D)傳感器如Microsoft Kinect 和Asus Xtion 等的開(kāi)發(fā),Liu 等[5]提出了一種多模式相關(guān)表示學(xué)習(xí)(MCRL)模型,從RGB-D 視頻中識(shí)別人類(lèi)動(dòng)作。與傳統(tǒng)彩色圖像數(shù)據(jù)相比,深度數(shù)據(jù)具有對(duì)光線和照明變化不敏感、更容易從雜亂的背景中減去前景和提供場(chǎng)景的3D 幾何結(jié)構(gòu)信息等特點(diǎn),使用深度數(shù)據(jù)的人體行為識(shí)別引起了研究人員的廣泛關(guān)注。隨著易于使用的深度傳感器和相關(guān)算法的推進(jìn),可以從深度圖像中輕松地進(jìn)行高精度的關(guān)節(jié)位置的計(jì)算,從而獲得骨骼關(guān)節(jié)點(diǎn)的3D 坐標(biāo),使得基于骨骼關(guān)節(jié)點(diǎn)坐標(biāo)的人體行為識(shí)別獲得了新的發(fā)展。Song 等[6]提出了一種多流圖卷積網(wǎng)絡(luò)(GCN)對(duì)不完整且嘈雜的骨骼數(shù)據(jù)進(jìn)行行為識(shí)別并取得了較好的效果。由于骨骼關(guān)節(jié)點(diǎn)3D 坐標(biāo)的簡(jiǎn)潔性、魯棒性、視圖獨(dú)立表示和骨骼節(jié)點(diǎn)特征矢量運(yùn)算的快速性,近幾年使用骨骼關(guān)節(jié)點(diǎn)進(jìn)行人體識(shí)別成為一個(gè)較為活躍的研究課題。
隨著RGB-D 傳感器的快速發(fā)展,Jamie 等[7]從單個(gè)深度圖像快速準(zhǔn)確地預(yù)測(cè)骨骼關(guān)節(jié)點(diǎn)的3D 坐標(biāo)位置,促進(jìn)了使用關(guān)節(jié)點(diǎn)進(jìn)行人體行為識(shí)別的研究。Vantigodi 等[8]使用3D 骨架關(guān)節(jié)坐標(biāo)提取每個(gè)關(guān)節(jié)的時(shí)間方差及其時(shí)間加權(quán)方差作為分類(lèi)的特征,基于SVM 在人體動(dòng)作檢測(cè)數(shù)據(jù)集(MHAD)上的識(shí)別準(zhǔn)確率達(dá)到了96.06%,充分展示了利用3D 關(guān)節(jié)點(diǎn)位置數(shù)據(jù)進(jìn)行人體行為識(shí)別的可行性。從3D 關(guān)節(jié)點(diǎn)位置提取出重要的特征來(lái)進(jìn)行人體行為動(dòng)作分類(lèi)十分關(guān)鍵。Ahmed 等[9]采用關(guān)節(jié)相對(duì)距離(Joint Relative Distance,JRD)和關(guān)節(jié)相對(duì)角度(Joint Relative Angle,JRA)來(lái)編碼不同骨骼關(guān)節(jié)的時(shí)空運(yùn)動(dòng)模式,有效地提高了整體識(shí)別準(zhǔn)確率;Liu 等[10]將骨骼關(guān)節(jié)點(diǎn)的所有坐標(biāo)轉(zhuǎn)換為距離矩陣進(jìn)行視圖不變下的動(dòng)作識(shí)別,表明關(guān)節(jié)之間的距離包含了身體的全局結(jié)構(gòu)信息,關(guān)節(jié)之間的角度信息可以明顯描述出局部動(dòng)態(tài)變化,兩者結(jié)合可以有效地區(qū)分人體行為。隨著人工智能的發(fā)展,深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)方面取得了顯著的成功,基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)在語(yǔ)音、文本和圖像識(shí)別中被廣泛使用,其在人體行為識(shí)別方面也不甘落后。Sharma 等[11]提出了一種建立在多層RNN之上的LSTM 模型,選擇性地關(guān)注部分動(dòng)作視頻幀,并拍攝一些動(dòng)作視頻后對(duì)其進(jìn)行分類(lèi);Zhu 等[12]使用改進(jìn)RNN 的端對(duì)端深LSTM 網(wǎng)絡(luò),基于骨骼關(guān)節(jié)點(diǎn)坐標(biāo)來(lái)進(jìn)行行為識(shí)別,在數(shù)據(jù)集HDM05 上達(dá)到了97.25%的識(shí)別準(zhǔn)確率;Kwon 等[13]通過(guò)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)學(xué)習(xí)更重要和全面的空間和時(shí)間信息來(lái)對(duì)人體行為進(jìn)行劃分。
視圖變化帶來(lái)了嚴(yán)重的運(yùn)動(dòng)和外觀變化,這使得相同類(lèi)型的不同動(dòng)作難以區(qū)分,因此在任意視圖下的人體動(dòng)作識(shí)別仍然是一個(gè)挑戰(zhàn)。針對(duì)這一問(wèn)題,本文從3D 骨骼節(jié)點(diǎn)數(shù)據(jù)中提取視圖和尺度不變的歐式距離特征,以及關(guān)節(jié)點(diǎn)之間的相對(duì)角度特征,組合構(gòu)成特征集合來(lái)進(jìn)行人體行為劃分。近來(lái)深度學(xué)習(xí)方法在各種計(jì)算機(jī)視覺(jué)方面表現(xiàn)出優(yōu)異的效果,其中LSTM 模型可以更好地獲取較長(zhǎng)距離數(shù)據(jù)間的依賴關(guān)系,在行為識(shí)別等時(shí)域序列上取得了優(yōu)異的效果。然而傳統(tǒng)的LSTM 從單一方向進(jìn)行學(xué)習(xí),忽略了未來(lái)的上下文信息。人類(lèi)行為動(dòng)作是由一系列動(dòng)作組成,一些不同的動(dòng)作在開(kāi)始時(shí)可能具有類(lèi)似的動(dòng)作,但最終動(dòng)作結(jié)果卻完全不同。在LSTM 基礎(chǔ)上改進(jìn)的BI-LSTM 模型可以學(xué)習(xí)雙向空間和時(shí)間信息,模擬動(dòng)作的時(shí)空信息,從而對(duì)類(lèi)似動(dòng)作進(jìn)行更準(zhǔn)確的劃分。本文采用BI-LSTM 模型加強(qiáng)上下雙向時(shí)間信息,同時(shí)對(duì)距離和角度空間信息進(jìn)行互補(bǔ),在標(biāo)準(zhǔn)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率達(dá)到了97.8%,取得了良好的識(shí)別效果。
選取從深度相機(jī)Kinectv2 獲得的25 個(gè)骨骼關(guān)節(jié)點(diǎn)中較為活躍的20 個(gè)關(guān)節(jié)點(diǎn),以減少干擾和計(jì)算量,計(jì)算其相對(duì)參考點(diǎn)的視圖和尺度不變特性的距離和角度特征集合。利用BI-LSTM 挖掘出更深層次的較長(zhǎng)骨骼序列中上下文的時(shí)間信息,與空間特征相結(jié)合對(duì)人體行為進(jìn)行區(qū)分??傮w流程如圖1 所示。
圖1人體行為識(shí)別總體流程圖Fig.1Overall frame of human action recognition
利用深度相機(jī)獲取人體關(guān)節(jié)的三維坐標(biāo),分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集兩部分。訓(xùn)練數(shù)據(jù)集用于模型構(gòu)建和參數(shù)調(diào)整,訓(xùn)練完成后利用測(cè)試數(shù)據(jù)集測(cè)試模型性能。本文使用標(biāo)準(zhǔn)數(shù)據(jù)集UTKinect-Action3D。
在人體骨骼中,各個(gè)關(guān)節(jié)點(diǎn)之間的相對(duì)距離特征具有良好的視圖和尺度不變特性,可以描述出人體運(yùn)動(dòng)時(shí)局部感興趣區(qū)域的特征,而且對(duì)光線的明暗程度和視角的微小變化具有很強(qiáng)的適應(yīng)性,因此本文采用關(guān)節(jié)點(diǎn)的相對(duì)距離作為人體行為劃分的特征。人體在運(yùn)動(dòng)時(shí),各個(gè)關(guān)節(jié)點(diǎn)的活躍程度是有差異的,例如手部和腳部的位置在不同動(dòng)作下有較為明顯的差異。為了消除與動(dòng)作識(shí)別無(wú)關(guān)的關(guān)節(jié)點(diǎn)和減少計(jì)算量,選取從RGB-D 傳感器獲取的25 個(gè)關(guān)節(jié)點(diǎn)中較為活躍的20 個(gè)關(guān)節(jié)點(diǎn) s={1,2,···,20} ,如圖2所示。其中頭部關(guān)節(jié)點(diǎn)1 在人體運(yùn)動(dòng)時(shí)與其他關(guān)節(jié)點(diǎn)的位置變化較大,對(duì)動(dòng)作劃分有良好的區(qū)分性;脊柱關(guān)節(jié)點(diǎn)3 在任何運(yùn)動(dòng)過(guò)程中幾乎保持穩(wěn)定靜止,具有很好的參考性,因此選取頭部關(guān)節(jié)點(diǎn)1 和脊柱關(guān)節(jié)點(diǎn)3 為參考點(diǎn)。
圖220 個(gè)關(guān)節(jié)點(diǎn)圖Fig.2Map of20joint points
同一副骨架在第N 幀里面的兩個(gè)關(guān)節(jié)點(diǎn)i ∈{2,4,···,20}和參考點(diǎn) j ∈{1,3} 的三維坐標(biāo)分別為Pi=(xi,yi,zi)和 Pj=(xj,yj,zj) 。關(guān)節(jié)點(diǎn) i 和參考點(diǎn)j之間的相對(duì)距離(JRD)可以定義為3D 空間中這兩個(gè)關(guān)節(jié)之間的歐幾里德距離 Di,j,其計(jì)算公式如式(1)所示。例如右手部關(guān)節(jié)點(diǎn)12 到頭部參考點(diǎn)1 的歐式距離 D12,1和到脊柱參考點(diǎn)3 的歐式距離 D12,3如圖3 所示。
在很多情況下,人體的身高和體重等身材體型的差異較大,為了消除這種情況造成的影響,提高識(shí)別準(zhǔn)確率,需要對(duì) Di,j進(jìn)行歸一化,計(jì)算公式如下:
其中, d 為人的肩膀中心關(guān)節(jié)點(diǎn)2 到脊柱中心關(guān)節(jié)點(diǎn)3 的歐幾里德距離 D2,3,如圖3 所示。
現(xiàn)有20 個(gè)骨骼關(guān)節(jié)點(diǎn),深度相機(jī)獲取到N 幀骨骼序列,則在同一幀中會(huì)產(chǎn)生36 維的距離特征向量。所有N 幀骨骼序列中的36×N 維向量組成了相對(duì)歐式距離特征 D′。
圖3右手到參考點(diǎn)距離Fig.3Distance of right hand to reference point
人體部位的運(yùn)動(dòng)若僅僅由相對(duì)歐式距離特征建模則會(huì)忽略關(guān)節(jié)和關(guān)節(jié)角度的位置信息,不能充分運(yùn)用骨骼序列中包含的特征信息,所以本文同時(shí)提取了相對(duì)角度特征(JAR)。它是相鄰身體部位對(duì)的靜態(tài)姿勢(shì)的良好描述,而且關(guān)節(jié)點(diǎn)之間的相對(duì)角度特征具有很好的尺度不變性,可直接由關(guān)節(jié)點(diǎn)三維坐標(biāo)求出,計(jì)算簡(jiǎn)單,并且對(duì)不同動(dòng)作具有良好的識(shí)別效果。例如人在行走和喝水時(shí),手部和頭部相對(duì)參考點(diǎn)脊柱的相對(duì)角度是不一樣的。
關(guān)節(jié)點(diǎn)使用的是2.1 節(jié)中的20 個(gè)關(guān)節(jié)點(diǎn)s={1,2,···,20},因?yàn)槠渲械? 號(hào)脊柱關(guān)節(jié)點(diǎn)在任何運(yùn)動(dòng)過(guò)程中幾乎均保持穩(wěn)定靜止,所以選取脊柱關(guān)節(jié)點(diǎn)為參考關(guān)節(jié)點(diǎn),并且命名為關(guān)節(jié)點(diǎn) r ,同一副骨架在第N 幀中任意兩個(gè)不同關(guān)節(jié)點(diǎn) i ∈s 和 j ∈s (且i 和j 不能是參考關(guān)節(jié)點(diǎn)),其中關(guān)節(jié)點(diǎn) i 的三維坐標(biāo)為 Pi=(xi,yi,zi) ,關(guān)節(jié)點(diǎn) j 的三維坐標(biāo)為 Pj=(xj,yj,zj) ,則關(guān)節(jié)點(diǎn) i 和 j 之間相對(duì)脊柱參考關(guān)節(jié)點(diǎn)r=(xr,yr,zr)的相對(duì)角度特征 θi,j的計(jì)算公式見(jiàn)式(3)~ 式(7)。例如右肩膀關(guān)節(jié)點(diǎn)9 相對(duì)于右手關(guān)節(jié)點(diǎn)12 的角度特征 θ9,12如圖4所示。
其中
現(xiàn)有19 個(gè)關(guān)節(jié)點(diǎn)相對(duì)于參考點(diǎn) r 有N 幀骨骼序列,則在同一幀中會(huì)產(chǎn)生171 維的角特征向量,所有N 幀中則會(huì)有171×N 維向量組成相對(duì)角度特征 θ 。
圖4右肩膀與右手的相對(duì)角度θ9,12Fig.4Relative angle θ9,12 of the right shoulder and right hand
關(guān)節(jié)向量由兩個(gè)相鄰的關(guān)節(jié)點(diǎn)組成,而關(guān)節(jié)角度由兩個(gè)相鄰的關(guān)節(jié)向量組成。將相對(duì)距離特征和相對(duì)角度特征集中表示,充分利用骨骼數(shù)據(jù)中包含的信息來(lái)劃分人體行為。令特征集合
其中: D′為歐式距離特征集合; θ 為角度特征集合。將同一副骨架在N 幀內(nèi)的(36+171)×N 維特征集合v作為特征輸入,利用BI-LSTM 網(wǎng)絡(luò)進(jìn)行人體行為動(dòng)作識(shí)別,示意圖如圖5 所示。
圖5特征集合劃分行為示意圖Fig.5Diagram of feature set partitioning action
RNN 架構(gòu)在處理和查找音頻、視頻和文本等時(shí)空數(shù)據(jù)中的隱藏模式顯示出了強(qiáng)大的功能。它以順序方式處理數(shù)據(jù),由于其參數(shù)計(jì)算量較大,在RNN處理數(shù)據(jù)序列后期時(shí),初始輸入序列對(duì)參數(shù)更新的影響變得可以忽略不計(jì),導(dǎo)致出現(xiàn)梯度消失的問(wèn)題。而LSTM 正是在RNN 基礎(chǔ)上添加門(mén)機(jī)制和存儲(chǔ)單元來(lái)解決這個(gè)問(wèn)題的改進(jìn)算法,其具體結(jié)構(gòu)如圖6 所示??刂崎L(zhǎng)期序列模式識(shí)別的LSTM 特殊結(jié)構(gòu)為:輸入數(shù)據(jù) xt、輸出門(mén) ot、保持存儲(chǔ)單元隨時(shí)間(t)狀態(tài)的遺忘門(mén) ft、影響記憶信息的輸入門(mén) it、決定記憶和遺忘信息的存儲(chǔ)單元 ct和調(diào)節(jié)信息流入或流出的非線性門(mén)控單元。式(9)~ 式(14)為L(zhǎng)STM 單元執(zhí)行的過(guò)程,具體計(jì)算過(guò)程如圖7 所示。
圖6LSTM 結(jié)構(gòu)Fig.6LSTM structure
圖7LSTM 執(zhí)行過(guò)程Fig.7LSTM execution process
其中: Wxi、 bi分別為輸入數(shù)據(jù)和輸入門(mén)之間的權(quán)重矩陣和偏差量矩陣; Wxf、 bf分別為輸入數(shù)據(jù)和遺忘門(mén)之間的權(quán)重矩陣和偏差量矩陣; Wxcbc分別為輸入數(shù)據(jù)和存儲(chǔ)單元之間的權(quán)重矩陣和偏差量矩陣:Wxo、 bo分別為輸入數(shù)據(jù)和輸出門(mén)之間的權(quán)重矩陣和偏差矩陣: Whi、 Whf、 Who分別為隱藏狀態(tài)和各個(gè)門(mén)之間的權(quán)重矩陣; tanh 是特殊函數(shù); σ 是sigmoid 型函數(shù); ? 是特殊運(yùn)算符號(hào); ht?1為t?1 時(shí)刻的隱藏狀態(tài); xt為 t 時(shí)刻的輸入骨骼特征; ft為 t 時(shí)刻的遺忘門(mén),它在需要時(shí)可以清除來(lái)自存儲(chǔ)單元的信息;輸出門(mén) ot保存著即將到來(lái)的骨骼數(shù)據(jù)的信息,它是根據(jù)當(dāng)前骨骼幀的輸入 xt和前一幀骨骼數(shù)據(jù)的隱藏狀態(tài) ht?1來(lái)計(jì)算。通過(guò)輸出門(mén) ot和存儲(chǔ)單元ct來(lái)計(jì)算 t 時(shí)刻的骨骼數(shù)據(jù)的隱藏狀態(tài) ht,依次循環(huán)可以計(jì)算出每個(gè)時(shí)刻骨骼數(shù)據(jù)的隱藏狀態(tài)。動(dòng)作識(shí)別不需要LSTM 的中間進(jìn)行輸出,而是直接輸出動(dòng)作的類(lèi)別,所以采用在LSTM 網(wǎng)絡(luò)的最終狀態(tài)上應(yīng)用softmax分類(lèi)器輸出最終行為動(dòng)作分類(lèi)的結(jié)果。
BI-LSTM 是LSTM 的改良形式,使用LSTM 對(duì)較長(zhǎng)骨骼序列進(jìn)行建模時(shí),無(wú)法確定從后面骨骼序列到前面序列的信息。在BI-LSTM 中,使用一前一后兩個(gè)相反方向的LSTM 來(lái)解決這個(gè)問(wèn)題。 t 時(shí)刻的輸出結(jié)果不僅取決于骨骼序列中的先前幀,還取決于即將到來(lái)的幀。BI-LSTM 的結(jié)構(gòu)簡(jiǎn)單,由兩個(gè)相反方向的LSTM 堆疊在一起,一個(gè)LSTM 向前傳遞,另外一個(gè)朝著相反的方向傳遞,最后基于兩個(gè)LSTM 的隱藏狀態(tài)組合計(jì)算人體行為結(jié)果分類(lèi)輸出。圖8 所示為BI-LSTM 的總體框架結(jié)構(gòu),前向LSTML得到隱藏狀態(tài) hLt(t=0, 1, ···, n) ,見(jiàn)式(15);后向 LSTMR得到隱藏狀態(tài) hRt(t=0, 1, ···, n) ,見(jiàn)式(16);最后將兩式組合得到BI-LSTM 的隱藏狀態(tài),見(jiàn)式(17)。將最終的隱藏狀態(tài)通過(guò)softmax 得到最后的行為動(dòng)作分類(lèi)結(jié)果。
圖8BI-LSTM 網(wǎng)絡(luò)層Fig.8BI-LSTM layer
本文選用的數(shù)據(jù)集是Xia 等[14]制作的UTKinect-Action3D 標(biāo)準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集使用深度攝像機(jī)Kinect 以每秒30 幀收集了10 種人體行為動(dòng)作,包括走路、坐下、站起、拿起、抬起、扔、推、拉、揮手和拍手,每個(gè)動(dòng)作由不同的10 個(gè)人重復(fù)做2 次。該數(shù)據(jù)集有3 種格式,包括分辨率640×480 的RGB 圖像、分辨率320×240 的深度圖像、3D 坐標(biāo)的骨骼關(guān)節(jié)點(diǎn)數(shù)據(jù)。數(shù)據(jù)集包含6220幀、200 個(gè)動(dòng)作樣本,每個(gè)動(dòng)作樣本的操作長(zhǎng)度范圍從5 幀到120 幀。數(shù)據(jù)集拍攝角度差異大并有部分身體遮擋,如圖9 所示。由于視點(diǎn)的變化和身體遮擋,使其具有挑戰(zhàn)性。
BI-LSTM 模型的參數(shù)設(shè)置會(huì)影響動(dòng)作識(shí)別的效果。經(jīng)過(guò)多次反復(fù)實(shí)驗(yàn),確定BI-LSTM 模型參數(shù)中批數(shù)據(jù)尺寸和Epoch 設(shè)置為16 和400,學(xué)習(xí)率為0.001,隱藏層設(shè)置為100 時(shí)訓(xùn)練與識(shí)別效果最好。損失函數(shù)采用交叉熵,優(yōu)化算法為Adam,其余參數(shù)均為默認(rèn)值。采用行為動(dòng)作識(shí)別的準(zhǔn)確率作為評(píng)價(jià)指標(biāo),計(jì)算公式如下:
其中:p 為正確識(shí)別出測(cè)試集中的動(dòng)作的數(shù)量;q 為測(cè)試集所有動(dòng)作的數(shù)量。
在UTKinect-Action3D 數(shù)據(jù)集中,不是每一幀都有動(dòng)作發(fā)生,為了提高識(shí)別的準(zhǔn)確率,減少計(jì)算量,選取動(dòng)作發(fā)生時(shí)間段內(nèi)的幀,提取骨骼數(shù)據(jù)的相對(duì)距離特征和相對(duì)角度特征。將10 人中的前6 人的動(dòng)作作為訓(xùn)練集,后4 人的動(dòng)作作為測(cè)試集。將相對(duì)距離特征、相對(duì)角度特征分別輸入到LSTM 中進(jìn)行行為動(dòng)作的劃分,結(jié)果如表1所示。從表1 中可以看出,結(jié)合相對(duì)距離和相對(duì)角度的特征集合比只使用一種相對(duì)特征的準(zhǔn)確率要高,識(shí)別效果也更好。圖10示出了JRD+JAR 特征集合在LSTM上的實(shí)驗(yàn)結(jié)果。測(cè)試集的準(zhǔn)確率在Epoch=400 時(shí)趨于穩(wěn)定,最高可達(dá)到92.1%。并且相對(duì)距離特征更能描述人體運(yùn)動(dòng)的特點(diǎn),原因可能是相對(duì)距離特征的維數(shù)相對(duì)于角度特征要高。
圖9UTKinect-Action3D 標(biāo)準(zhǔn)數(shù)據(jù)集Fig.9UTKinect-Action3D standard dataset
表1不同特征在LSTM 上的實(shí)驗(yàn)結(jié)果Table1Experimental results of different features on LSTM
圖10JRD+JAR 特征集合在LSTM 上的實(shí)驗(yàn)結(jié)果Fig.10Experimental results of JRD+JAR feature on LSTM
同樣的測(cè)試集和訓(xùn)練集,JRD+JAR 特征集合在BI-LSTM 上的實(shí)驗(yàn)結(jié)果如圖11 所示。測(cè)試集的準(zhǔn)確率在Epoch=400 時(shí)趨于穩(wěn)定,最高可達(dá)到97.8%,相比于LSTM 模型,準(zhǔn)確率提高了5.7%。BI-LSTM 可以捕獲三維骨骼坐標(biāo)隨時(shí)間演變的深層時(shí)空特征,混淆矩陣實(shí)驗(yàn)結(jié)果如圖12 所示。從圖12 中可以看出,大部分動(dòng)作類(lèi)有較好的識(shí)別效果,只有兩個(gè)動(dòng)作類(lèi)識(shí)別率低于90%,其中將抬起識(shí)別為走路的誤判率為22%、將推識(shí)別為扔的誤判率為20%,因?yàn)檫@兩類(lèi)動(dòng)作具有相似的運(yùn)動(dòng)。即使這樣,本文的實(shí)驗(yàn)方案仍然具有良好的識(shí)別準(zhǔn)確率。
圖11JRD+JAR 特征集合在BI-LSTM 上的實(shí)驗(yàn)結(jié)果Fig.11Experimental results of JRD+JAR feature on BI-LSTM
圖12UTKinect-Acition3D 數(shù)據(jù)集混淆矩陣圖Fig.12Confusion matrices on UTKinect-Action3D dataset
將直接輸入骨骼數(shù)據(jù)特征、提取相對(duì)距離、相對(duì)角度特征在BI-LSTM 上進(jìn)行對(duì)比,結(jié)果如表2 所示??梢钥闯?,準(zhǔn)確率與LSTM 模型相比有明顯提高。
表2不同特征在BI-LSTM 上的實(shí)驗(yàn)結(jié)果Table2Experimental results of different features on BI-LSTM
不同特征輸入的結(jié)果顯示,使用JRD+JAR 特征在BI-LSTM 上的識(shí)別準(zhǔn)確率比直接輸入關(guān)節(jié)點(diǎn)3D位置時(shí)提高了10.3%、比提取JRD 特征提高了5.0%、比提取JAR 特征提高了8.9%,說(shuō)明相對(duì)距離特征加上相對(duì)角度特征充分使用了骨骼數(shù)據(jù)中包含的空間運(yùn)動(dòng)信息,對(duì)人體行為識(shí)別有更好的效果。
本文使用相對(duì)距離和相對(duì)角度特征在UTKinect-Acition3D 數(shù)據(jù)集上進(jìn)行行為動(dòng)作識(shí)別,準(zhǔn)確率為97.80%,可以有效且準(zhǔn)確地實(shí)現(xiàn)動(dòng)作分類(lèi)。為了驗(yàn)證本文方法的識(shí)別效果,將BI-LSTM 模型在UTKinect-Acition3D 數(shù)據(jù)集上的識(shí)別結(jié)果與其他網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行比較,結(jié)果見(jiàn)表3。其中Random forest[15]是從骨骼數(shù)據(jù)中提取成對(duì)距離特征使用隨機(jī)森林法來(lái)進(jìn)行識(shí)別;SVM[16]使用關(guān)節(jié)點(diǎn)的角度作為特征,通過(guò)SVM進(jìn)行識(shí)別;ST-LSTM 的樹(shù)狀結(jié)構(gòu)模型[17]輸入數(shù)據(jù)是骨骼數(shù)據(jù),該模型驗(yàn)證實(shí)驗(yàn)同樣采用留一法交叉驗(yàn)證;多層LSTM[18]使用關(guān)節(jié)和聯(lián)合線之間的距離的幾何關(guān)系特征來(lái)分類(lèi)。
從表3 可以看出,BI-LSTM 模型在UTKinect-Acition3D 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率整體優(yōu)于其他模型,比Random forest 的最高準(zhǔn)確率提高了9.90%,比SVM 的最高準(zhǔn)確率提高了3.73%,比ST-LSTM 的最高準(zhǔn)確率提高了0.80%,比Multilayer LSTM 的最高準(zhǔn)確率提高了1.84%。結(jié)果表明基于骨骼的相對(duì)距離和相對(duì)角度特征的BI-LSTM 模型具有較強(qiáng)的識(shí)別能力,提高了識(shí)別準(zhǔn)確率。
表3BI-LSTM 與其他文獻(xiàn)方法在UTKinect-Action3D 數(shù)據(jù)集上的比較結(jié)果Table3Comparison results of BI-LSTM model and other models on UTKinect-Action3D dataset
本文提出了基于視圖和尺度不變的歐式距離和關(guān)節(jié)點(diǎn)之間的相對(duì)角度特征來(lái)獲取骨骼數(shù)據(jù)中的空間信息,利用BI-LSTM 來(lái)學(xué)習(xí)骨骼數(shù)據(jù)中上下文的時(shí)間信息,在UTKinect-Action3D 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率達(dá)到了97.80%。相比傳統(tǒng)的行為識(shí)別,骨骼數(shù)據(jù)比圖像包含更多維度的信息,深度學(xué)習(xí)網(wǎng)絡(luò)能夠自動(dòng)提取復(fù)雜的空間時(shí)間特征,識(shí)別率顯著提升。但目前的行為識(shí)別仍在研究階段,未來(lái)將繼續(xù)進(jìn)行行為識(shí)別應(yīng)用到具體場(chǎng)景的研究。