紀(jì)亮亮 趙敏
摘 要:3D人體行為識別數(shù)據(jù)庫發(fā)展給人體行為識別研究者提供了便利,然而現(xiàn)存數(shù)據(jù)庫視角固定等問題限制了機(jī)器人移動范圍。為了研究真實環(huán)境下的人體行為識別,建立一個基于RGB-D攝像機(jī)的動態(tài)多視角人體行為數(shù)據(jù)庫DMV Action3D,收集了20人的600多個行為視頻,約60萬幀彩色圖像和深度圖像。另外,在DMV Action3D數(shù)據(jù)庫基礎(chǔ)上,利用CRFasRNN圖片分割技術(shù)將人像進(jìn)行分割并分別提取Harris3D特征,利用隱馬爾可夫模型對動態(tài)視角下的人體行為進(jìn)行識別。實驗結(jié)果表明,在動態(tài)視角下使用CRFasRNN圖像分割方法,人像分割效果突出,且不受環(huán)境、場景、光照因素影響,與真實環(huán)境下人體輪廓的相似度極高。DMV Action3D數(shù)據(jù)集對于研究真實環(huán)境下人體行為具有較大優(yōu)勢,為服務(wù)機(jī)器人識別真實環(huán)境下人體行為提供了一個較佳資源。
關(guān)鍵詞:人體行為識別;3D數(shù)據(jù)庫;CRFasRNN
DOI:10. 11907/rjdk. 182080
中圖分類號:TP317.4文獻(xiàn)標(biāo)識碼:A文章編號:1672-7800(2019)003-0178-05
0 引言
基于視覺的行為識別研究在人機(jī)交互、智能監(jiān)控和視頻檢索中有重要應(yīng)用價值。隨著立體視覺和深度傳感器的發(fā)展,3D場景和深度信息獲取為人體行為識別分析提供了多樣化的研究手段和方法。人體行為數(shù)據(jù)庫的建立給行為識別研究提供了便利,常用的人體行為3D數(shù)據(jù)庫包括:微軟MSR Action3D[1]、MSR Daily Activity[2]、康奈爾大學(xué)CAD-60[3]和CAD-120[4]、UTD-MHAD[5]、UWA3D Multiview II[6]、南陽理工大學(xué)的NTU RGB+D[7]等。其中,NTU RGB+D數(shù)據(jù)庫極其豐富,包含17個視角、80個場景、40個采集動作對象、60組動作、56 880個樣本,存有RGB+D+IR+3DJoints數(shù)據(jù)提供研究者使用。然而,這些數(shù)據(jù)庫在滿足場景多變、視角多變、動作類別豐富的條件下卻忽略了重要一點:所有機(jī)器視角都為靜態(tài)視角,服務(wù)型機(jī)器人在移動情況下,其視角信息會隨著移動路徑發(fā)生背景變化、光照變化、遮擋等情況,因此靜態(tài)視角提供的數(shù)據(jù)信息對于移動機(jī)器人識別研究不再適用。
研究動態(tài)機(jī)器視角信息需要建立動態(tài)視角人體行為數(shù)據(jù)庫。本文使用Microsoft Kinect傳感器,選取30組復(fù)雜人體行為,包括日常生活行為、運(yùn)動行為和異常行為三大類,設(shè)計多個人體、物體、環(huán)境具有交互作用的動作,采集20個人的習(xí)慣動作,建成一個超過60萬幀的人類行為識別3D數(shù)據(jù)庫DMV3 Dataset。Kinect從3個視角出發(fā),其中2個為固定垂直視角(正視角、側(cè)視角),1個為為動態(tài)視角,用一款ROS機(jī)器人圍繞人體作半圓運(yùn)動,動態(tài)錄制了人體行為動作的整個過程。
數(shù)據(jù)庫人體行為的復(fù)雜性和多變性使得識別算法復(fù)雜度大幅增加。基于圖像的常用算法如幀差法[9]、光流算法[10]在動態(tài)機(jī)器視角下完全失效,使得動態(tài)視角下行為識別難度遠(yuǎn)遠(yuǎn)超過靜態(tài)視角。本文提出使用CRFasRNN[8]對移動視頻序列幀中的人體進(jìn)行分割,CRFasRNN是一個端到端的深度學(xué)習(xí)方法,將神經(jīng)網(wǎng)絡(luò)與概率圖模型的優(yōu)勢結(jié)合,用于解決像素級圖像分割問題。該方法不受場景和光照變化影響,對分割后的人像提取人體特征,最后利用隱馬爾可夫模型進(jìn)行訓(xùn)練分類。
1 相關(guān)工作
人體行為識別方法研究隨著3D深度圖像的發(fā)展有了很多突破。隨著人體數(shù)據(jù)庫更新,人體識別方法經(jīng)歷了3個階段:第一階段,基于灰度視頻序列的特征提取方法,例如幀差算法、光流算法等;第二階段,基于彩色圖、深度圖以及關(guān)節(jié)點的特征提取方法,例如三通道HOG特征[11]、SIFT[12]、BRISK[13]等;第三階段,基于深度學(xué)習(xí)的特征提取方法,例如文獻(xiàn)[14]提出用3D CNN模型自動識別視頻序列中的人體動作。但是,也存在一定不足:一是現(xiàn)有的數(shù)據(jù)庫動作類別較少且部分行為數(shù)據(jù)不完整,如MSR Action3D數(shù)據(jù)庫僅限于游戲動作,沒有與物體交互的行為,CAD數(shù)據(jù)庫具有多背景特點,但視頻樣本數(shù)量有限;二是目前已經(jīng)存在的數(shù)據(jù)庫多數(shù)都為固定單視角,多視角數(shù)據(jù)能給研究者提供多角度間信息相關(guān)研究,以此判斷視角的優(yōu)劣性問題;三是目前采集的數(shù)據(jù)庫背景都是靜態(tài)的,靜態(tài)視角下人體行為識別方法在動態(tài)視角下出現(xiàn)了不適用性,在機(jī)器人移動視角下,無法驗證跟隨機(jī)器人動態(tài)識別人體行為,或者為移動機(jī)器人尋找最佳視角。
在神經(jīng)網(wǎng)絡(luò)和概率圖模型結(jié)合方面,使用神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)構(gòu)化輸出研究中較為杰出的方法有:Do等[15]提出了神經(jīng)網(wǎng)絡(luò)和馬爾可夫網(wǎng)絡(luò)進(jìn)行組合,對序列標(biāo)簽進(jìn)行分類識別;Bell等[16]和Chen[17]使用CRF改進(jìn)從CNN中獲得的分割結(jié)果,前者重點為材料識別和分割,后者則在語意圖像分割上提出了顯著的改進(jìn)方法;在自然語言處理中,Yao等[18]表明通過引入CRF模型可以顯著提高基于RNN的字體識別性能。在此之前所有方法都是利用神經(jīng)網(wǎng)絡(luò)提取特征,再將特征輸入圖模型進(jìn)行訓(xùn)練分類,而文獻(xiàn)[19]則將卷積網(wǎng)絡(luò)中可變形的部分模型表示為一種MRF,作為神經(jīng)網(wǎng)絡(luò)的一層,將圖模型結(jié)構(gòu)直接變?yōu)樯窠?jīng)網(wǎng)絡(luò)的迭代層。而CRFasRNN的突出貢獻(xiàn)在于將密集CRF作為RNN,形成端到端可訓(xùn)練的圖像分割系統(tǒng)。
2 動態(tài)多視角數(shù)據(jù)庫建立
TurtleBot[20]是一款移動機(jī)器人,其硬件主要有Yujin Kobuki移動底座、Kinect視覺傳感器、2 200mAh(或?????????? 4 400mAh)電池和可裝卸的結(jié)構(gòu)模塊,使用著名的ROS(Robot Operating System)作為操作系統(tǒng),能實現(xiàn)3D地圖導(dǎo)航、跟隨等功能。
在DMV3 Dataset數(shù)據(jù)庫中,所有動作都是在復(fù)雜背景中使用Kinect從兩個靜態(tài)視角和一個動態(tài)視角進(jìn)行攝制完成的。動態(tài)攝像頭由TurtleBot機(jī)器人外接Kinect,從正面到側(cè)面以人為圓心、半徑2.5m的軌道上隨機(jī)進(jìn)行錄制。圖2為攝像機(jī)錄制場景。兩個靜態(tài)攝像頭的角度為90°,攝像頭1從正面錄制,攝像頭2從側(cè)面錄制。
數(shù)據(jù)庫包含3個不同場景下的30個不同人體行為。每類行為包含20個動作,是一個多角度、動態(tài)視角下交互式人體行為數(shù)據(jù)庫。人體行為包含三大類,分別為基本動作類(10個)、與物體交互類(15個)和行為異常類(5個)?;緞幼黝愑袉问指吲e揮舞、拋出、鼓掌、雙手揮舞、慢跑、坐下起立、原地向上跳、自拍、看手表、坐在地上。與物體交互類有讀書、寫字、擦汗、脫外套、穿/脫鞋子、戴/摘眼鏡、踢箱子、從口袋里拿東西、打電話、喝水、吃零食、在黑板上寫字、使用電腦、搬箱子、搬椅子。行為異常類包含摔倒、躺在地上、摔杯子、從椅子上跌落、肚子疼。DMV Action3D數(shù)據(jù)庫包含彩色圖、深度圖、關(guān)節(jié)點位置和時間等信息,既保證了多視角、多背景、多樣本和多交互行為,還增加了一個動態(tài)視角,為實驗者分析視角和尋找最佳角度提供了可供驗證的數(shù)據(jù)庫。
3 CRFasRNN人像提取
人體行為識別研究重點在于如何提取視頻序列中的人體特征。人體特征值是指可以描述人體運(yùn)動信息的特征,一般方法有:提取圖像的顏色、紋理特征、角點或者利用關(guān)節(jié)點狀態(tài)獲取人體運(yùn)動的方向、速度等。本文提出使用CRFasRNN方法對移動視頻序列幀中的人體進(jìn)行分割并提取特征。CRFasRNN是一個端到端的深度學(xué)習(xí)方法,其將神經(jīng)網(wǎng)絡(luò)與概率圖模型的優(yōu)勢結(jié)合,用于解決像素級圖像分割問題。本文將簡單介紹用于分割圖像的條件隨機(jī)場圖模型和CRFasRNN方法中用到的公式標(biāo)簽等。
圖像中每個像素[i]具有類別標(biāo)簽[xi],還有對應(yīng)的觀測值[yi],每個像素點作為圖模型的節(jié)點,像素與像素間的關(guān)系作為邊,即構(gòu)成了一個條件隨機(jī)場,通過觀測變量[yi]推測像素[i]對應(yīng)的類別標(biāo)簽[xi]。條件隨機(jī)場滿足吉布斯分布,如式(1)。
CRF-RNN網(wǎng)絡(luò)使用反向傳播算法[21]和隨機(jī)梯度下降法形成了端到端可訓(xùn)練網(wǎng)絡(luò)。在訓(xùn)練期間,將一張完整的圖片作為輸入,使用損失函數(shù)計算網(wǎng)絡(luò)中每個像素輸出的誤差,例如圖4中Softmax函數(shù)表示相對于真實圖片分割的誤差。FCN-8s作為網(wǎng)絡(luò)的第一部分,輸出作為CRF的一元勢函數(shù),在網(wǎng)絡(luò)的正向傳輸中,通過CNN階段進(jìn)入CRF-RNN網(wǎng)絡(luò)中后,需要[T]次迭代才可以輸出,Softmax損失函數(shù)隨著CRF-RNN網(wǎng)絡(luò)迭代的結(jié)束而結(jié)束。在反向傳播期間,一旦誤差達(dá)到了CRF-RNN網(wǎng)絡(luò)輸出[Y],則在RNN網(wǎng)絡(luò)輸入[U]到來之前進(jìn)行[T]次迭代。訓(xùn)練期間,平均場迭代次數(shù)[T]設(shè)置為5,避免了網(wǎng)絡(luò)崩潰,也減少了訓(xùn)練時間,測試時迭代次數(shù)為10。
4 實驗與分析
CRFasRNN分割人像不受光照變化和場景變化影響,在機(jī)器震動或者人速度較快、圖片幀出現(xiàn)模糊的情況下分割效果依然顯著,人像分割精確,邊緣少有毛刺現(xiàn)象。圖5展示動態(tài)機(jī)器視角下復(fù)雜環(huán)境中的30組人體分割效果。
對分割好的圖片分別利用Harris3D方法[24]提取特征,3D特征的優(yōu)勢在于增加了時間維度,保留了動作的運(yùn)動趨勢特征。圖6、圖7分別展示分割前與分割后的角點檢測對比,可以看出,經(jīng)過分割后的圖片去除了大量背景干擾,由于在運(yùn)動視角下,人和背景相對于攝像頭產(chǎn)生的復(fù)雜運(yùn)動使得人體運(yùn)動檢測變得困難,利用CRFasRNN進(jìn)行人像提取去除背景后,在移動視角下能夠準(zhǔn)確提取人體運(yùn)動特征信息。
最后,利用HMM模型對獲取的人體邊緣特征進(jìn)行訓(xùn)練分類,最終得到行為識別率為94.74%,混淆矩陣如圖8所示。
5 結(jié)語
本文提出一種動態(tài)機(jī)器視角下的人體姿態(tài)識別方法,利用CRFasRNN對移動機(jī)器視角下的人像進(jìn)行分割并提取角點信息。實驗證明,在動態(tài)視角下CRFasRNN圖像分割方法使人像分割效果突出、邊界清晰,與真實環(huán)境下的人體輪廓相似度極高,超越了其它圖像分割方法。CRFasRNN對視頻幀進(jìn)行分割后去除了大量背景環(huán)境干擾,該方法不受環(huán)境、場景、光照因素影響,也不受機(jī)器視角中人數(shù)的影響,可以識別多人的行為。另外,本文提供了一個較大規(guī)模的動態(tài)視角人體行為識別數(shù)據(jù)庫DMV3 Dataset,數(shù)據(jù)庫場景多變、動作復(fù)雜,對于研究真實環(huán)境下的人體行為具有顯著優(yōu)勢和較大使用價值。
參考文獻(xiàn):
[1] LI W,ZHANG Z,LIU Z. Action recognition based on a bag of 3D points[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops ,2010:9-14.
[2] WANG J, LIU Z, WU Y, et al. Mining action let ensemble for action recognition with depth cameras[C]. Computer Vision and Pattern Recognition (CVPR), 2012: 1290-1297.
[3] SUNG J, PONCE C, SELMAN B, et al. Unstructured human activity detection from RGBD images[J]. IEEE International Conference on Robotics & Automation, 2011, 44(8):47-55.
[4] KOPPULA H S,GUPTA R,SAXENA A. Learning human activities and object affordances from RGB-D videos[J]. International Journal of Robotics Research, 2013, 32(8):951-970.
[5] CHEN C,JAFARI R,KEHTARNAVAZ N. UTD-MHAD: a multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor[C]. IEEE International Conference on Image Processing, 2015:168-172.
[6] RAHMANI H,MAHMOOD A,DU H,et al. Histogram of oriented principal components for cross-view action recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,38(12):2430-2443.
[7] SHAHROUDY A, LIU J, NG T T, et al. NTU RGB+D: a large scale dataset for 3D human activity analysis[C]. Computer Vision & Pattern Recognition ,2016:1010-1019.
[8] ZHENG S,JAYASUMANA S, ROMERA-PAREDES B, et al. Conditional random fields as recurrent neural networks[C]. IEEE International Conference on Computer Vision, 2016:1529-1537.
[9] YAMADA T,HAYAMIZU Y, YAMAMOTO Y, et al. A stretchable carbon annotate strain sensor for human-motion detection[J]. Nature Nanotechnology, 2011, 6(5):296-301.
[10] TAO M,BAI J,KOHLI P, et al. Simple flow: a non iterative, sub linear optical flow algorithm[J]. Computer Graphics Forum, 2012, 31(2pt1):345-353.
[11] LI N, CHENG X, ZHANG S, et al. Realistic human action recognition by fast HOG3D and self-organization feature map[J]. Machine Vision & Applications, 2014, 25(7):1793-1812.
[12] TOMPSON J, JAIN A, LECUN Y, et al. Joint training of a convolution network and a graphical model for human pose estimation[C]. Eprint Arxiv, 2014:1799-1807.
[13] LEUTENEGGER S, CHLI M, SIEGWART R Y. BRISK: binary robust invariant scalable key points[J]. International Conference on Computer Vision(ICCV), 2011, 58(11):2548-2555.
[14] XU W, XU W, YANG M, et al. 3D Convolution neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012: 35(1):221-231.
[15] DO T M T, ARTIERES T. Neural conditional random fields[C]. Thirteenth International Conference on Artificial Intelligence & Statistics, 2010:177-184.
[16] BELL S,UPCHURCH P,SNAVELY N, et al. Material recognition in the wild with the Materials in context database[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2015:3479-3487.
[17] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Deep lab: semantic image segmentation with deep convolution nets, aurous convolution, and fully connected CRFs[J]. IEEE Trans Pattern Anal Mach Intel, 2016, 40(4):834-848.
[18] YAO K, PENG B, ZWEIG G, et al. Recurrent conditional random field for language understanding[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, 2014:4077-4081.
[19] GIRSHICK R R,IANDOLA F,DARRELL T,et al. Deformable part models are convolutional neural networks[C]. Computer Vision and Pattern Recognition, 2015:437-446.
[20] KNISS J, JIN K, IVANS R, et al. Robotics Research with TurtleBot 2016[D]. Idaho:Boise State University Scholar Works, 2016.
[21] LéCUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[22] LONG J,SHELHAMER E,DARRELL T. Fully convolution networks for semantic segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015:3431-3440.
[23] KOLTUN V. Efficient inference in fully connected CRFs with Gaussian edge potentials[C]. International Conference on Neural Information Processing Systems, 2011:109-117.
[24] SIPIRAN I, BUSTOS B. Harris 3D: a robust extension of the Harris operator for interest point detection on 3D meshes[J]. Visual Computer, 2011, 27(11):963.
(責(zé)任編輯:何 麗)