鄧淦森 丁文文 楊超
摘要:針對(duì)復(fù)雜環(huán)境下深度相機(jī)提取人體骨骼信息失效的問題,利用RGB圖像提取運(yùn)動(dòng)特征,提出結(jié)合人體部分重要關(guān)節(jié)點(diǎn)信息進(jìn)行行為識(shí)別的方法。首先根據(jù)人體行為圖片捕捉人體各關(guān)節(jié)點(diǎn)的空間位置信息,建立坐標(biāo)系描繪出人體骨架,將三視圖嵌入二值圖像中;利用Lucas-Kanade光流算法得到關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)信息,構(gòu)成由張量表示的動(dòng)作序列;估計(jì)動(dòng)作特征描述序列,再映射到格拉斯曼流形上完成人體行為識(shí)別和分類。在MSRActinos3D、UCFKinect數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法能夠有效識(shí)別各種人體行為。
關(guān)鍵詞:投影信息;Lucas-Kanade光流算法;字典學(xué)習(xí)
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A
近幾年計(jì)算機(jī)視覺和圖像處理高速發(fā)展,在人機(jī)交互、視頻監(jiān)控、虛擬現(xiàn)實(shí)等領(lǐng)域有了廣泛的應(yīng)用。人體行為識(shí)別的方法主要是特征提取和深度學(xué)習(xí),其中,基于深度學(xué)習(xí)方法對(duì)數(shù)據(jù)庫(kù)和硬件設(shè)備要求較高,需要大量數(shù)據(jù)進(jìn)行參數(shù)訓(xùn)練來構(gòu)建模型;基于特征提取方法,整個(gè)建模過程更加節(jié)省時(shí)間,設(shè)備要求較低,早期基于特征提取方法主要依賴于RGB圖像進(jìn)行人體行為識(shí)別,提取圖像運(yùn)動(dòng)區(qū)域并確定跟蹤目標(biāo)點(diǎn)。如利用圖像中Harris角點(diǎn)作為特征點(diǎn)并結(jié)合Lucas-Kanade光流算法跟蹤提取運(yùn)動(dòng)特征表示動(dòng)作[1]。為了優(yōu)化識(shí)別效果,確定目標(biāo)點(diǎn)以及提取特征存在噪聲時(shí),直接提取人體行為運(yùn)動(dòng)描述符識(shí)別人體行為,如利用光流向量沿著動(dòng)作執(zhí)行者的邊緣建立的局部描述[2],這些方法識(shí)別率不高的原因在于獲取人體動(dòng)作行為的RGB圖像時(shí)存在噪聲。深度相機(jī)的出現(xiàn)極大地解決了RGB圖像提取的問題,深度相機(jī)利用自身發(fā)射的紅外線提取人體行為圖片,然而由于黑色物質(zhì)可吸收紅外線,在周圍環(huán)境比較黑暗的情況下基于RGB圖像人體行為識(shí)別成為難題。因此直接從RGB圖像中提取人體關(guān)節(jié)點(diǎn)作為人體的直接特征,有助于提高對(duì)人體行為識(shí)別的準(zhǔn)確率,利用關(guān)節(jié)點(diǎn)3D坐標(biāo)直方圖作為特征描述符,可以更精確的識(shí)別人體行為[3];在利用人體關(guān)節(jié)點(diǎn)行為識(shí)別的基礎(chǔ)上,可以采用描述符確定骨骼關(guān)節(jié)之間的距離關(guān)系用于手部姿態(tài)識(shí)別[4]。在此基礎(chǔ)上,根據(jù)骨架關(guān)節(jié)的差異,結(jié)合動(dòng)作的靜態(tài)姿態(tài)、運(yùn)動(dòng)特性和整體動(dòng)力學(xué)信息設(shè)計(jì)了一種新的動(dòng)作特征描述符,提高了識(shí)別效果[5]。由于Kinect深度相機(jī)可以較好的提取人體關(guān)節(jié)點(diǎn),使人體行為識(shí)別脫離了特征描述符的概念,完全基于關(guān)節(jié)點(diǎn)坐標(biāo)以及人體骨架信息;如利用骨骼投影圖特征,得到骨骼關(guān)節(jié)點(diǎn)的整體分布,最后利用支持向量機(jī)(Support Vector Machines,SVM)人體識(shí)別[6]。基于文獻(xiàn)[2],為了降低不同動(dòng)作關(guān)節(jié)點(diǎn)運(yùn)動(dòng)軌跡帶來的影響,每個(gè)動(dòng)作以臀部或者頸部為骨架中心點(diǎn)的識(shí)別算法,有效的提高了行為識(shí)別的精度[7];為降低行為識(shí)別實(shí)驗(yàn)的門檻,僅根據(jù)已有人體骨架的簡(jiǎn)易描繪并利用人體姿態(tài)估計(jì)技術(shù)[8]估計(jì)關(guān)節(jié)點(diǎn)位置信息,利用人體中心投影消除肢體遮擋的影響,最后完成人體行為識(shí)別測(cè)試[9];在此基礎(chǔ)上,將流形與人體行為識(shí)別相結(jié)合,用分層判別的方法識(shí)別人體動(dòng)作,該方法的魯棒性較好[10]。而將關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息編碼成可觀測(cè)張量序列,并對(duì)觀測(cè)序列利用Tucker分解得到線性系統(tǒng)的特征描述符,可以完成行為識(shí)別測(cè)試[11]。上述文獻(xiàn)均利用RGB圖像手工提取特征描述符作為動(dòng)作特征進(jìn)行人體行為識(shí)別,隨著卷積神經(jīng)網(wǎng)絡(luò)和圖卷積神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,更進(jìn)一步提高了人體行為識(shí)別的準(zhǔn)確率,通過端到端的學(xué)習(xí)方式對(duì)骨骼數(shù)據(jù)分析和處理,完成人體行為識(shí)別任務(wù)[12-14]。本文首先利用人體姿態(tài)估計(jì)技術(shù)提取部分關(guān)節(jié)點(diǎn)坐標(biāo),對(duì)簡(jiǎn)易人體運(yùn)動(dòng)骨架進(jìn)行投影;在投影圖中利用LK光流算法獲得關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息;利用基于張量的線性系統(tǒng)得到特征描述符,映射到格拉斯曼流形上完成動(dòng)作分類和識(shí)別。
1 重要關(guān)節(jié)點(diǎn)提取
人體骨架信息是人體運(yùn)動(dòng)最具代表性、最直接的特征。利用人體姿態(tài)估計(jì)技術(shù)[8]估計(jì)出人體部分重要關(guān)節(jié)點(diǎn)并賦予編號(hào)信息:左肩膀(1)、右肩膀(2)、頸部(3)、脊柱(4)、臀部(5)、左肘(6)、右肘(7)、左手(8)、右手(9)、左膝(10)、右膝(11)、左腳(12)、右腳(13)、頭部(14)用于行為識(shí)別,其中臀部關(guān)節(jié)點(diǎn)坐標(biāo)利用右肩膀和左膝所在直線與左肩膀和右膝所在直線近似估計(jì)。本文的算法流程如圖1所示。
從圖像中估計(jì)人體骨架關(guān)節(jié)點(diǎn)后,需要對(duì)人體骨架預(yù)處理,包括骨架尺度歸一化,骨架視角旋轉(zhuǎn),刪除人體部分節(jié)點(diǎn)和無(wú)效幀的關(guān)節(jié)點(diǎn)信息,增補(bǔ)丟失關(guān)節(jié)點(diǎn)等。人體骨架尺度歸一化時(shí)以脊柱與臀部關(guān)節(jié)點(diǎn)組成向量的模長(zhǎng)等于1(根據(jù)經(jīng)驗(yàn)所設(shè))為標(biāo)準(zhǔn),對(duì)每個(gè)關(guān)節(jié)點(diǎn)坐標(biāo)按比例縮放,即Pj=Pi/|P4|。如圖2中b為繪制簡(jiǎn)易人體骨架尺度歸一化后的圖片,a、c分別表示縮放前的人體骨架。
2 基于骨架投影的二值圖像
獲得關(guān)節(jié)點(diǎn)運(yùn)動(dòng)軌跡的空間分布后,全面提取人體骨架運(yùn)動(dòng)信息是行為識(shí)別的重要依據(jù)。每一幀骨架在XOY,XOZ,YOZ三個(gè)平面上投影得到主視圖(a),側(cè)視圖(b),俯視圖(c),如圖3所示。
骨架三視圖嵌入二值圖像,坐標(biāo)系轉(zhuǎn)換之前如圖4所示,坐標(biāo)系轉(zhuǎn)換后如圖5所示。
3 特征提取
利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀之間的相關(guān)性找到上一幀跟當(dāng)前幀之間存在的運(yùn)動(dòng)關(guān)系,計(jì)算出相鄰幀之間物體的運(yùn)動(dòng)信息。假設(shè)相鄰幀空間一致即相同表面相鄰的點(diǎn)具有相似的運(yùn)動(dòng),利用Lucas-Kanade稀疏光流算法計(jì)算二值圖像相鄰幀的光流場(chǎng),得到圖像中的運(yùn)動(dòng)區(qū)域和運(yùn)動(dòng)骨架在豎直與水平方向的位移大小,可以更好的描述整體骨架的運(yùn)動(dòng)情況以及記錄每個(gè)關(guān)節(jié)點(diǎn)在光流場(chǎng)中隨著每一幀變化的運(yùn)動(dòng)信息。如圖6所示,以前一幀的關(guān)節(jié)點(diǎn)作為目標(biāo)點(diǎn),記錄人體的運(yùn)動(dòng)信息。相較于直接提取關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息通過光流場(chǎng)提取關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)信息,可以更加簡(jiǎn)潔的表達(dá)出關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)方向,以及與各個(gè)坐標(biāo)軸之間的夾角,同時(shí)骨架的三視圖也將各個(gè)關(guān)節(jié)點(diǎn)之間的空間信息保留下來。
5 實(shí)驗(yàn)與討論
5.1 動(dòng)作識(shí)別數(shù)據(jù)集
實(shí)驗(yàn)環(huán)境:聯(lián)想拯救者,CPU 3.2 GHz,內(nèi)存16 G,Visual Studio 2012,MatlabR2018b。實(shí)驗(yàn)在MSRAction3D和UTKinect數(shù)據(jù)集上進(jìn)行,這兩個(gè)數(shù)據(jù)集是基于Kinect深度相機(jī)拍攝的人體骨骼數(shù)據(jù)整理而成,利用其中14個(gè)人體骨骼重要關(guān)節(jié)點(diǎn)坐標(biāo),對(duì)本文所提出方法進(jìn)行行為識(shí)別實(shí)驗(yàn)。MSRAction3D數(shù)據(jù)集共有567個(gè)動(dòng)作樣本,20個(gè)動(dòng)作類別,每個(gè)動(dòng)作類別由 10 位演員執(zhí)行2~3次。UTKinect數(shù)據(jù)集是得克薩斯州大學(xué)奧斯汀分校建立的數(shù)據(jù)集,由10個(gè)人執(zhí)行10類動(dòng)作:步行、坐下、站立、拿起、攜帶、投擲、推動(dòng)、拉、揮手、拍手。
5.2 MSRAtions3D數(shù)據(jù)集
MSRAtions3D數(shù)據(jù)集在所執(zhí)行的動(dòng)作中不與任何對(duì)象交互該數(shù)據(jù)集,由于動(dòng)作變化較小,許多動(dòng)作非常相似,用類似于Kinect裝置的深度傳感器記錄數(shù)據(jù),將整個(gè)數(shù)據(jù)集劃分為AS1、AS2和AS3的子集,每個(gè)子集包含8個(gè)動(dòng)作,子集的分類見表1[15]。AS1和AS2組動(dòng)作涉及相似的運(yùn)動(dòng),而AS3動(dòng)作更復(fù)雜,涉及更多關(guān)節(jié)的參與。本文分別使用跨主題測(cè)試設(shè)置識(shí)別每個(gè)子集,其中一半的受試者用于訓(xùn)練,另一半用于獲取測(cè)試數(shù)據(jù)。
首先對(duì)每個(gè)動(dòng)作編碼提取動(dòng)作信息并輸入基于張量的線性系統(tǒng),得到系統(tǒng)相關(guān)參數(shù)的估計(jì),進(jìn)而得到動(dòng)作的預(yù)測(cè)類別,最終得到實(shí)驗(yàn)結(jié)果[11]。表2是在MSRAtions3D數(shù)據(jù)集上本文方法的識(shí)別率與其他方法進(jìn)行比較的結(jié)果(帶*號(hào)的為最優(yōu)結(jié)果),可以看出本文方法在AS3復(fù)雜動(dòng)作數(shù)據(jù)集上具有較高的識(shí)別精度,在AS1和AS2子集上也均高于其他方法,并且平均識(shí)別率高于92%。
5.3 UTKinect數(shù)據(jù)集
UTKinect數(shù)據(jù)集使用固定的深度相機(jī)以15fps的幀速率收集數(shù)據(jù)。這些動(dòng)作由10個(gè)不同的人執(zhí)行,同一動(dòng)作每人進(jìn)行2次,數(shù)據(jù)集中共包含199個(gè)動(dòng)作序列,6 220幀,序列的持續(xù)時(shí)間從5幀到120幀。在執(zhí)行給定動(dòng)作時(shí)會(huì)發(fā)生明顯的變化,例如拾起動(dòng)作,用一只或兩只手執(zhí)行相同的動(dòng)作,UTKinect數(shù)據(jù)集實(shí)驗(yàn)時(shí),將所有關(guān)節(jié)點(diǎn)以Hip和Neck為中心分別歸一化,為了便于比較,在UTKinect序列上應(yīng)用文獻(xiàn)[3]提出的實(shí)驗(yàn)方案,保留一個(gè)序列交叉驗(yàn)證(LOOCV),其中199個(gè)序列用于訓(xùn)練,每個(gè)測(cè)試集中只有一個(gè)用于測(cè)試。結(jié)果見表3,與其他的方法相比,本文方法的識(shí)別率是95.98%,分別高于其他相關(guān)實(shí)驗(yàn)HOJ3D[3]方法,CRF[10]方法5.08%,4.28%,高于自適應(yīng)骨骼中心[7]算法0.8%,對(duì)一些動(dòng)作如坐、站、撿、搬、拉、揮手等,能夠精確識(shí)別。
為驗(yàn)證以頸部為中心化后對(duì)識(shí)別率的影響,數(shù)據(jù)處理時(shí)以Hip為中心點(diǎn)歸一化,重復(fù)上述的實(shí)驗(yàn)步驟。圖7是以頸部為中心化的數(shù)據(jù)實(shí)驗(yàn),平均識(shí)別率高于93%,證明該方法具有較高的魯棒性。但在走、搬、拍手動(dòng)作上識(shí)別率不高,這可能是由于中心化后人體整體移動(dòng)大范圍信息集中于頸部以下。
本文驗(yàn)證了對(duì)觀測(cè)序列Y∈R14×24×M進(jìn)行Tucker分解后核心張量的Mode3維數(shù)對(duì)本方法的影響,圖8為Mode3對(duì)識(shí)別率的影響,識(shí)別率隨著分解后核心張量Z∈R14×24×dMode3的增大呈正相關(guān),當(dāng)Mode3達(dá)到9維時(shí)識(shí)別率最高,隨后達(dá)到飽和。
6 結(jié)論
本文所提出的人體行為識(shí)別算法在MSRAtions3D數(shù)據(jù)集中AS3子集上有突出的識(shí)別優(yōu)勢(shì),說明本文算法針對(duì)于一些復(fù)雜動(dòng)作或者一些組合動(dòng)作具有魯棒性。本文算法在AS1上識(shí)別效果較好,但在AS2子集上仍存在改進(jìn)的地方,原因可能是AS2子集中大部分動(dòng)作執(zhí)行部位偏向于手臂以及手部,并且動(dòng)作產(chǎn)生的時(shí)間較短信息提取不充分,可對(duì)該子集部分動(dòng)作執(zhí)行插幀操作,提高動(dòng)作執(zhí)行幀數(shù)。UTKinect數(shù)據(jù)集對(duì)多數(shù)動(dòng)作的識(shí)別率達(dá)到高度識(shí)別,但是對(duì)于扔的識(shí)別率較低,可能是在提取動(dòng)作信息時(shí)所提取的信息并不能更好的描述該類運(yùn)動(dòng),因此造成識(shí)別率較低,后續(xù)將根據(jù)不同的動(dòng)作提取具有代表性的特征,也嘗試其他對(duì)識(shí)別率有貢獻(xiàn)的張量分解方法。
參考文獻(xiàn)
[1]郭瑞峰,賈榕.LK光流法的多信息融合目標(biāo)跟蹤算法研究[J].現(xiàn)代電子技術(shù),2019,42(18):55-59.
[2]KUMAR S S, JOHN M. Human activity recognition using optical flow based feature set[C]// IEEE International Carnahan Conference on Security Technology (ICCST). Orlando, 2016: 138-142.
[3]XIA L, CHEN C C, Aggarwal J K. View invariant human action recognition using histograms of 3D joints[C]// Computer Vision and Pattern Recognition. Providence, 2012: 20-27.
[4]WARCHO D, KAPUS'CIN'SKI T. Human action recognition using bone pair descriptor and distance descriptor[J]. Symmetry, 2020, 12(10): 1580.
[5]YANG X D, TIAN Y L. Effective 3d action recognition using eigenjoints[J]. Journal of Visual Communication and Image Representation, 2014, 25(1): 2-11.
[6]黃瀟逸. 基于骨骼關(guān)節(jié)點(diǎn)投影特征的人體行為識(shí)別方法[J]. 現(xiàn)代計(jì)算機(jī), 2019(36): 3-7.
[7]冉憲宇, 劉凱, 李光, 等. 自適應(yīng)骨骼中心的人體行為識(shí)別算法[J]. 中國(guó)圖象圖形學(xué)報(bào), 2018, 23(4): 519-525.
[8]FANG H S, XIE S, TAI Y W, et al. RMPE: Regional multi-person pose estimation[C]// 2017 IEEE International Conference on Computer Vision Workshops (ICCVW). Venice, 2017: 2334-2343.
[9]郭天曉, 胡慶銳, 李建偉, 等. 基于人體骨架特征編碼的健身動(dòng)作識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(5): 1458-1464.
[10] HAN L, XU X X, LIANG W, et al. Discriminative human action recognition in the learned hierarchical manifold space[J]. Image and Vision Computing, 2010, 28(5): 836-849.
[11] DING W W, LIU K, BELYAEV E, et al. Tensor-based linear dynamical systems for action recognition from 3D skeletons[J]. Pattern Recognition, 2018, 77: 75-86.
[12] 石耀. 基于骨骼數(shù)據(jù)的人體行為識(shí)別[D]. 北京:北京郵電大學(xué), 2021.
[13] JOHANSSON G. Visual perception of biological motion and a model for its analysis[J]. Perception & Psychophysics, 1973, 14(2): 201-211.
[14] WANG L, HUYNH D Q, KONIUSZ P. A comparative review of recent kinect-based action recognition algorithms[J]. IEEE Transactions on Image Processing, 2019, 29: 15-28.
[15] LI W Q, ZHANG Z Y, LIU Z C. Action recognition based on a bag of 3D points[C]// Computer Vision and Pattern Recognition-workshops. San Francisco, 2010: 9-14.
[16] DING W W, LIU K, FU X J, et al. Profile HMMs for skeleton-based human action recognition[J]. Signal Processing-Image Communication, 2016, 42: 109-119.
Human Behavior Recognition Based on Bone Projection Information
DENG Gan-sen, DING Wen-wen, YANG Chao
(School of Mathematical Sciences, Huabei Normal University, Huaibei 235000, China)
Abstract: Aiming at the problem that the extraction of human skeletal information by depth cameras fails in complex environment, a method was proposed to combine some important joint points information of human body for behavior recognition by using the motion features extracted from RGB images. Firstly, the spatial position information of each joint point of the human body was captured according to the human behavior picture, the coordinate system was established to depict the human skeleton, and the three views were embedded in the binary image. The Lucas-Kanade optical flow algorithm was used to obtain the motion information of the nodes, which constituted a sequence of actions represented by a tensor. Estimated action feature description sequences, which were mapped to the Grassmann manifold for human behavior recognition and classification. The results of experiments on the MSRActinos3D, UCFKinect datasets show that the method can effectively recognize various human behaviors.
Keywords: projection information; Lucas-Kanade optical flow algorithm; dictionary learning
收稿日期:2022-05-27
基金項(xiàng)目:安徽省自然科學(xué)基金(批準(zhǔn)號(hào):1908085MF186)資助;安徽省高等學(xué)校自然科學(xué)研究項(xiàng)目(批準(zhǔn)號(hào):KJ2019A0956)資助。
通信作者:丁文文,女,博士,副教授,主要研究方向?yàn)槿斯ぶ悄?。E-mail: dww2048@163.com