蔣加伏++趙怡?k
摘要:針對傳統(tǒng)人體動作識別算法,往往重點解決某一類行為識別,不具有通用性的問題,提出一種局部證據(jù)RBF人體行為高層特征自相似融合識別算法。首先,借用隨時間變化的廣義自相似性概念,利用時空興趣點光流場局部特征提取方法,構(gòu)建基于自相似矩陣的人體行為局部特征描述;其次,在使用SVM算法進(jìn)行獨立個體行為識別后,利用所提出的證據(jù)理論RBF(Radial Basis Function)高層特征融合,實現(xiàn)分類結(jié)構(gòu)優(yōu)化,從而提高分類準(zhǔn)確度;仿真實驗表明,所提方案能夠明顯提高人體行為識別算法效率和識別準(zhǔn)確率。
關(guān)鍵詞:局部特征描述;證據(jù)理論;RBF網(wǎng)絡(luò);自相似;高層特征融合
中圖分類號:TP39文獻(xiàn)標(biāo)識碼:A
1概述
近年來,人體行為識別已得到廣泛應(yīng)用,特別是在醫(yī)療診斷、視覺監(jiān)控等領(lǐng)域[1]。該算法主要涉及到人體運動檢測/估計,身體和手腳跟蹤以及行為理解等三個方面,本文研究重點研究人體行為活動的識別和描述 [2]。識別過程為:傳感器信息獲取、特征描述、行為識別三個過程。
在普適計算應(yīng)用方面,常用方法有三種:一是外部傳感器,如文獻(xiàn)[3]接觸式紅外壓力式傳感器組合;二是可穿戴傳感器,如文獻(xiàn)[4]基于穿戴RFID對人體行為進(jìn)行捕獲判定;三是環(huán)境監(jiān)測傳感器,主要有溫度、濕度及光照傳感器等,通常作為補(bǔ)充[5]。外部傳感器使用方便,輻射小,應(yīng)用最為廣泛。
在人體特征表示上通常分為:全局和局部特征兩種。在全局特征描述中,對整個視頻上對人體行為進(jìn)行特征提取,然后進(jìn)行相似性識別。如文獻(xiàn)[6]改進(jìn)方向全局人體行為特征描述,可對形狀相近的人體行為進(jìn)行有效識別。在局部特征描述中,方法是在視頻序列中,提取人體行為的局部特征,利用直方圖或者時序模型構(gòu)建人體行為特征,如文獻(xiàn)[7]三維梯度直方圖人體行為局部特征描述。相對于全局特征描述,局部特征描述優(yōu)點在于能夠更為有效地對時域和空域信息進(jìn)行融合。
在完成局部的人體行為特征描述后,進(jìn)行的人體行為識別,常用的方法有距離匹配和狀態(tài)空間法。狀態(tài)空間法對人體行為進(jìn)行直接建模,能夠?qū)θ梭w行為時序信息進(jìn)行充分利用,不足之處是算法的控制參數(shù)較多。而距離匹配雖簡單,但未考慮人體行為動態(tài)過程,因此算法的識別率相對較低[8]。
綜合上述分析,本文構(gòu)建自相似矩陣人體行為局部特征描述,并設(shè)計證據(jù)理論RBF高層特征融合算法,實現(xiàn)人體行為識別分類結(jié)構(gòu)優(yōu)化。
4實驗與分析
本節(jié)實驗基于KTH數(shù)據(jù)庫及較復(fù)雜的多視角MuHAViMAS14數(shù)據(jù)庫進(jìn)行實驗。硬件條件:CPU:I5-4590,3.3GHz;內(nèi)存:金士頓ddr3 1600,4GHz。
對比算法:文獻(xiàn)[11]局部SVM算法(LSVM),文獻(xiàn)[12]動態(tài)貝葉斯算法(DBN),文獻(xiàn)[13]單純時空興趣點特征提取SVM算法(STIPSVM)。
仿真指標(biāo)選取平均預(yù)測精度mAP,可定義如下:
AP=Numar/Numtar·Numtra (19)
式中,Numar為獲取數(shù)量;Numtar為行為總數(shù);Numtra為人體行動總數(shù)。
KTH數(shù)據(jù)庫:該數(shù)據(jù)庫有6種人體行為:行走、慢跑、快跑、拳擊、擺手、拍手,如圖5所示。KTH數(shù)據(jù)庫含有2391幅不同人體行為圖像。
每種人體動作行為各選取該動作行為圖像總數(shù)量的1/4作為訓(xùn)練數(shù)據(jù)集。算法各運行30次,上述6種人體行為的平均預(yù)測精度mAP值見表1所示。
從表1中可看出,上述算法均能對KTH數(shù)據(jù)庫進(jìn)行較有效識別,平均識別精度在70%以上。其中對比算法在行走、慢跑、快跑三種行為的識別率偏低,原因是這三種人體行為存在邊界交叉,因此三種算法在對其進(jìn)行識別時,識別率偏低,平均在71%~77%之間。而在區(qū)別較大的拳擊、擺手、拍手三種行為中,這三種算法識別率能達(dá)到82%~89%間。本文所提算法識別率均明顯好于對比算法,能達(dá)到90%~96%之間,顯示了算法良好識別能力。為更清晰對比,平均預(yù)測精度和運行時間曲線如圖6所示。采用本文算法獲得的混淆矩陣如圖7所示。
從圖6可看出,在預(yù)測精度上,本文算法要始終高于對比算法,保持在90%以上,而對比算法識別率互有高低,保持在70%~90%之間;在算法運行時間上,本文算法的運行時間最短,保持在7s~9s之間,其次是DBN算法,運行時間在10s~11.5s之間,其余兩種算法因用到SVM算法,運行時間相近,保持在14s~18s間。從圖7混淆矩陣可看出,本文算法除在個別行為間達(dá)到15%混淆概率外,其他行為間的混淆比例很低,說明識別效果很好。
MuHAViMAS14數(shù)據(jù)庫:該數(shù)據(jù)庫作為較復(fù)雜測試對象,來進(jìn)一步驗證本文算法的性能有效性。該數(shù)據(jù)庫中一共含有14種人體行為,分別進(jìn)行編碼{a,b,c,d,e,f,g,h,i,j,k,l,m,n}。該數(shù)據(jù)庫示例圖片如圖8所示。該數(shù)據(jù)庫由兩個人在兩個視角下完成,視角分別為:正面和45度角。這兩個視角下各有68個視頻,包含角度和動作的變化,識別難度大。對比算法同上,仿真指標(biāo)選取上述14種人體行為識別率均值(運行30次),計算方法參見公式(19)。對比結(jié)果如表2所示,表2同時給出算法30次運行時間均值。圖9給出算法混淆矩陣。
表2給出對比算法在MuHAViMAS14數(shù)據(jù)庫中14種人體行為的平均識別率結(jié)果,從圖中可明顯看出,本文算法在更為復(fù)雜的數(shù)據(jù)庫上的識別率雖有所降低,但仍然保持在80%以上識別率,而對比算法的識別率均出現(xiàn)大幅降低,僅能保證60%多的識別率。在算法運行時間方面,本文算法的運行時間需要17.3s比KTH數(shù)據(jù)庫要長1倍左右,而對比算法的運行時間均在30s左右。
圖9給出本文算法在MuHAViMAS14數(shù)據(jù)庫中獲取的混淆矩陣,從該矩陣中可看出,在個別行為之間存在較大混淆概率,比如在人體行為f與人體行為h之間存在25%的混淆概率,在g與h之間也存在25%的混淆概率等,比在KTH數(shù)據(jù)庫上的混淆概率要高很多。
5結(jié)束語
針對傳統(tǒng)人體動作識別算法識別率不高的問題,提出一種局部證據(jù)RBF人體行為高層特征自相似融合識別算法,進(jìn)行有效解決,實驗結(jié)果顯示,本文算法在識別率和收斂速度上均要好于對比算法。存在的不足是,在復(fù)雜的多視角MuHAVi-MAS14數(shù)據(jù)庫上個別人體行為間的混淆概率值依然較高,仍然存在較大的提升空間。
參考文獻(xiàn)
[1]MEDINA J R, LORENZ T, HIRCHE S. Synthesizing Anticipatory Haptic Assistance Considering Human Behavior Uncertainty[J]. IEEE Transactions on Robotics, 2015, 31(1): 180-190.
[2]田國會, 尹建芹, 韓 旭. 一種基于關(guān)節(jié)點信息的人體行為識別新方法[J]. 機(jī)器人, 2014, 36(3): 285-291.
[3]Gu Tao,Wang Liang,Wu Zhanqing. A pattern mining approach to sensor—based human activity recognition[J].IEEE Transactions on Knowledge and Data Engineering, 2013, 23(9): 1359-1372.
[4]STIKIC M, HUYNH T, LAERHOVEN K V.ADL recognition based on the combination of RFID and aceelerometer sensing[C]. //Proceedings of the International Conference of Pervasive Computing Technologies for Heahhcare, Tampere, Finland, 2008, pp. 245-250.
[5]PHILIPOSE M, FISHKIN K P, PERKOWITZ M. Inferring activities from interactions with objects[J]. IEEE Pervasive Computing, 2004, 3(4): 50-57.
[6]CAI J X, FENG G C, TANG X. Human action recognition using oriented holistic feature[C]. // 20th IEEE International Conference on Image Processing, USA, IEEE, 2013, pp. 2420-2424.
[7]ALEXANDER K,MARCIN M, CORDELIA S. A spatiotemporal descriptor based on 3dgradients[C]. //British Machine Vision Conference, IEEE Computer Society, 2008, 995-1004.
[8]蔡加欣, 馮國燦, 湯鑫. 基于局部輪廓和隨機(jī)森林的人體行為識別[J]. 光學(xué)學(xué)報, 2014, 34(10): 1-10.
[9]JUNEJO I N, DEXTER E, Laptev I. Crossview action recognition from temporal self similarities[J]. //Proceedings of the European conference on computer vision, USA, IEEE, 2008, pp. 293-306.
[10]BARRI A, DOOMS A, JANSEN B. A Locally Adaptive System for the Fusion of Objective Quality Measures[J]. IEEE Transactions on Image Processing, 2014, 23(6): 2446-2458.
[11]SCHULDT C, LAPTEV I, CAPUTO B. Recognizing human actions: a local SVM approach[C]. //Proceedings of the international conference on pattern recognition, USA, IEEE, 2004:32-36.
[12]NIEBLES J C, WANG H, LI F F. Unsupervised learning of human action categories using spatial-temporal words[C]. //British machine vision conference, Copper Mountain, IEEE,2006:22-28.
[13]WONG S F,CIPOLLA R. Extracting spatio-temporal interest points using global information[C]. //IEEE conference on computer vision and pattern recognition. Rio de Janeiro, IEEE,2007:1-8.