石愛輝,程 勇,曹雪虹,
(1.南京郵電大學 通信與信息工程學院,江蘇 南京 210003;2.南京工程學院 通信工程學院,江蘇 南京 211167)
人體行為識別研究在智能監(jiān)控、人機交互等領域具有廣闊的應用前景,因而受到越來越多的研究者關注。在實際應用中,由于視頻中人體行為動作的多變性、復雜的背景以及攝像機的視角變化等因素,人體行為識別仍是計算機視覺領域的難點和熱點問題[1-2]。
近些年涌現了大量的人體行為識別算法,例如基于模板匹配的方法,其主要思路是將不同種類行為視頻序列提取的特征數據建立相應的模板,識別時將待測視頻提取的特征數據與模板進行比較匹配。這種方法雖然計算量小,實現相對簡單,但需要存儲各種動作視頻的特征數據作為模板,存儲代價較大[3]。基于光流的方法,主要利用光流這種基于視頻中幀與幀之間變化的運動信息。文獻[4]提出在基于視頻的人體行為識別過程中,可以將視頻序列中的光流信息轉化為更能明顯區(qū)分不同動作差異的運動特征,利用不同層面的運動特征參數表示視頻序列中的光流信息?;谂d趣點的方法是利用histogram of oriented gradient (HOG)[5]和histograms optical flow (HOF)[5]等描述子對視頻中檢測到的時空興趣點局部區(qū)域進行描述。由于時空興趣點是對視頻中運動顯著區(qū)域的描述,包含了豐富的動作細節(jié)信息,因此具有較好的抗噪聲性能。
文獻[6]提出基于密集軌跡的人體行為識別方法,即通過跟蹤光流場密集采樣的特征點來獲得軌跡,并計算軌跡位移向量及其軌跡中子時空塊的梯度方向直方圖(HOG)、光流直方圖(HOF)和運動邊界直方圖(MBH)[7]作為視頻序列的底層局部特征描述子,然后將這些局部特征描述子作為視覺詞袋模型(BoVW)[8]的輸入獲得視頻序列的全局表達,最后將這種視頻全局表達作為支持向量機的輸入進行分類識別,取得了較好的識別效果。
在目前的行為識別算法中,基于視覺詞袋模型的方法是研究熱點之一。在傳統的視覺詞袋模型中,對所有視頻的一部分局部特征描述子進行一次k-means聚類而形成的碼本,其視覺詞匯并不具有很好的代表性。而有效的字典學習是視覺詞袋模型的關鍵步驟,文中提出對視頻中提取的局部特征描述子根據取自不同視頻和不同種類動作進行兩層k-means聚類,形成更有代表性和區(qū)分度的碼本。特征融合是一種使得特征描述魯棒性更強的有效方法,對于視頻中提取的兩種局部特征描述子HOG和HOF,在分別形成全局視頻表達后進行融合,融合后的全局視頻表達特征更具有區(qū)分性和魯棒性。
文中算法框架如圖1所示。首先對視頻中的時空興趣點進行檢測,然后利用HOG和HOF作為局部特征描述子對興趣點進行描述,接著將HOG和HOF描述子分別作為詞袋模型的輸入,得到兩種不同的視頻級全局表達,將這兩種視頻級全局表達進行融合作為最終的視頻級表達特征,最后將其代入到支持向量機中對行為動作進行分類。
在人體行為識別的課題研究中,由于進行實驗仿真所使用到的數據庫中的視頻相對簡單和穩(wěn)定,因而不需要對其中的人體進行跟蹤和檢測,所以對視頻提取局部特征是一種常見的方法。
對于視頻中的時空興趣點,一種具有魯棒性好、適應性強的時空特征被廣泛使用,其通過Harris角點檢測[9]擴展到包括時間維的三維空間即Harris-3D獲得。Harris角點檢測的基本原理是選擇不同尺度的局部空間,計算其中每個像素二階矩陣的特征值,對于某個像素點的特征值為局部最大值時被視為角點。對于包括時間維的三維空間,其中的尺度空間包括空間尺度和時間尺度,對于被認為是時空興趣點的像素點在空間域和時間域會同時有顯著的變化,因此在時空域上表示一個圖像序列V(·),利用其與高斯核函數作卷積獲得其尺度空間表示:
(1)
(2)
參照Harris角點檢測的像素二階矩陣,在時空尺度空間的二階矩陣可表示為:
(3)
(4)
(5)
(6)
假設λ1,λ2,λ3為μ矩陣的特征值,則時空興趣點由推廣的Harris響應函數的局部最大值處定義:
H=det(μ)-ktrace3(μ)=λ1λ2λ3-
k(λ1+λ2+λ3)3
(7)
視頻中興趣點可以根據參數進行多尺度提取,檢測到興趣點后,為了在興趣點處提取HOG/HOF特征,文獻[10]在特征點處抽取大小為(2kσi;2kσi;2kτ)的局部視頻塊(k=9),然后將其分成空時為3*3*2的網格。對于每個網格,將梯度方向量化為4,光流方向量化為5(其中包含一個靜止方向),從而一個時空興趣點可以通過72維的HOG和90維的HOF來加以描述。
傳統的BoVW中利用全局描述子對視頻進行描述,主要分成三個步驟:首先利用k-means聚類算法對視頻中獲取的局部特征描述子進行聚類形成字典,然后根據底層特征描述子和字典形成頻率直方圖對視頻進行描述,最后對直方圖進行歸一化處理后作為視頻的中層表達。在視覺詞袋模型中對視頻提取的特征描述子進行聚類形成字典時,文中提出對視頻中提取的特征描述子進行兩層聚類優(yōu)化碼本,提高碼本的表達能力。其中兩層k-means聚類的過程如圖2所示,首先對訓練集中的每一個視頻提取的HOG和HOF特征描述子分別進行k-means聚類,聚類數目為視頻中,興趣點數目的25%,然后對同種行為動作的視頻的聚類結果再進行k-means聚類,聚類數目大小為K,最后將所有動作種類的聚類結果作為視覺詞匯連接成碼本,這樣的碼本更有代表性和區(qū)分度。除此之外,兩層k-means聚類還能夠降低對實驗仿真內存的要求并減少聚類所花的時間。其中K的大小可以根據仿真實驗的效果在一個范圍內進行選擇。
圖2 對每個視頻以及每種動作進行聚類的流程
圖3是分別使用傳統聚類方法形成的碼本和優(yōu)化碼本在KTH數據庫中鼓掌和揮手動作的直方圖表示。利用以上構建的字典,視覺單詞的位置與相應的行為動作之間有了對應關系,從而改變了直方圖的分布情況。與傳統詞袋模型中使用的碼本相比,在一定程度上提高了同種動作視頻的視覺單詞直方圖分布的相似程度,而使得不同動作類別的視覺直方圖分布的差異明顯。
圖3 兩種不同行為直方圖的表示
HOG特征描述子包含了視頻圖像中的表觀形狀信息,而HOF特征描述子包含了視頻圖像中的運動信息。但文獻[11]的實驗結果表明,僅僅使用HOF特征描述子比使用HOF和HOG特征描述子在描述子級融合的效果好,對于描述子級融合是將描述視頻中局部特征的多個描述子串聯在一起形成單個的描述子,然后將其送入到BoVW框架中獲取全局視頻表達。針對這種情況,文中將HOF和HOG描述子在視頻表達級層面進行融合,其過程如圖4所示。視頻表達級的融合是將描述視頻中局部特征的HOF和HOG描述子分別送入BoVW框架中獲取到兩種不同的視頻全局表達,然后對這兩種視頻全局表達進行融合作為最終的視頻表達級特征。對于HOG和HOF這兩種不同的特征描述子,在形成視頻表達級描述子相關性較大時,視頻表達級層面上的特征融合比在局部特征描述子級層面上的直接融合效果要好。
圖4 視頻級表達特征融合方法
使用支持向量機(SVM)分類器進行分類識別。SVM的主要思想:在空間H中,如果要將訓練數據集(x1,y1),(x2,y2),…,(xm,ym)分成兩類yi∈{-1,+1},對于所有能將數據集分成兩類的超平面wx+b=0,選擇一個最優(yōu)決策超平面使得該平面兩側距離該平面最近的兩類樣本之間的距離最大化,其中w和b的值可以通過Lagrange乘數αi求解約束條件下的極小值問題求得[12]。
(8)
其中,對應非零αi的xi向量稱為支持向量。引入核函數K(x,y)巧妙地解決了在高維空間中的內積運算,較好地解決了非線性分類問題。文中使用的是線性核函數。
為了驗證文中算法的有效性,選擇兩個比較經典的數據集(KTH和Weizmann)進行仿真實驗。
KTH數據集包括6類行為動作(walking、jogging、running、boxing、hand waving、hand clapping),是由25個不同的人在4種不同場景下(室內、室外、尺度變化和衣著變化)采集完成。所有視頻背景相對靜止,攝像機的運動比較輕微,視頻的幀率為25幀/s,分辨率為160x120,整個數據集包含了599個視頻文件。將其中16人的所有動作視頻作為訓練集,其余9人的所有動作視頻作為測試集。最后的識別率是由測試集中所有被正確識別出的視頻個數計算得到。
Weizmann數據集包括10種不同類型的行為視頻(bend、jump、jack、pjump、run、side、skip、walk、wave1、wave2),每種動作由9個不同的人所展示,采用的方法是將其中1人的所有動作視頻作為測試集,其他人的所有動作視頻作為訓練集,循環(huán)9次,最后將平均正確率作為識別率。
圖5分別是使用一次k-means方法和使用兩次k-means方法對局部特征描述子進行聚類,構建不同數量的視覺詞匯在KTH和Weizmann數據集上的識別率對比曲線??梢钥闯?,在不同數量的視覺詞匯下,使用優(yōu)化后的碼本的識別率明顯高于使用傳統聚類方法形成的碼本的識別率。Weizmann數據集中的視頻序列的長度較短,視頻中提取的時空興趣點的數目也較少,在構建碼本時視覺詞匯的數量也相應減少,導致在Weizmann數據集上的識別率明顯低于KTH數據集上的識別率。
同時,識別率總體上是隨著碼本大小增加而不斷提高,當碼本到達一定的數目后識別率基本保持不變。而當字典過大時,一些視頻中的時空興趣點較少對應到碼本上,詞匯減少不能有效地描述視頻。相較于使用傳統的聚類方法形成的碼本,碼本優(yōu)化后在KTH和Weizmann數據集上的識別率提升了3%左右,證明了文中方法的有效性。
(a)使用一次k-means方法
(b)使用兩次k-means方法
使用單個HOF特征描述子以及優(yōu)化后的碼本形成的頻率直方圖作為視頻表達級描述子在KTH和Weizmann數據集上的識別率,分別為95.8%和93.3%。而使用HOG和HOF特征描述子以及各自優(yōu)化后的碼本形成的兩種頻率直方圖融合作為最終的視頻表達級描述子在Weizmann與KTH數據集上仿真實驗效果最好時的識別率,分別為96.7%和94.4%。從實驗結果可以看出,結合碼本優(yōu)化和視頻表達級特征融合的方法與傳統方法相比,在KTH與Weizmann數據集上的識別率均有不同程度的提升,表明了該方法的有效性。
表1列出了文中方法與近年來人體行為識別研究課題在KTH和Weizmann數據集上識別率的比較。與其他方法相比,文中方法在這兩個數據庫上均取得了較高的識別率。
表1 各算法平均識別率對比 %
為了提高視覺詞袋模型應用在人體行為識別研究課題的識別率,引入了一種結合多層k-means聚類與視頻級表達特征融合的行為識別算法,降低了對內存的要求并減少了聚類所用的時間,可以更有效地描述視頻。仿真結果表明,該方法在兩個經典數據集上的識別率高于大多數算法。針對如何提高易混淆動作的識別率以及選用其他編碼方法替代VQ編碼將是下一步的研究工作。
[1] 王 博,李 燕.視頻序列中的時空興趣點檢測及其自適應分析[J].計算機技術與發(fā)展,2014,24(4):49-52.
[2] 劉雨嬌,范 勇,高 琳,等.基于時空深度特征的人體行為識別算法[J].計算機工程,2015,41(5):259-263.
[3] 李瑞峰,王亮亮,王 珂.人體動作行為識別研究綜述[J].模式識別與人工智能,2014,27(1):35-48.
[4] ALI S,SHAH M.Human action recognition in videos using kinematic features and multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(2):288-303.
[5] WANG H,YI Y.Tracking salient key points for human action recognition[C]//IEEE international conference on systems,man,and cybernetics.[s.l.]:IEEE,2015:3048-3053.
[6] WANG Heng,KLASER A,SCHMID C,et al.Action recognition by dense trajectories[C]//Proceedings of IEEE international conference on computer vision and pattern recognition.Washington D C,USA:IEEE Press,2011:3169-3176.
[7] LI Q,CHENG H,ZHOU Y,et al.Human action recognition using improved salient dense trajectories[J].Computational Intelligence & Neuroscience,2016,2016:6750459.
[8] FARAKI M,PALHANG M,SANDERSON C.Log-Euclidean bag of words for human action recognition[J].IET Computer Vision,2015,9(3):331-339.
[9] HARRIS C,STEPHENS M.A combined corner and edge detector[C]//Proceedings of alvey vision conference.[s.l.]:[s.n.],1988:147-151.
[10] LAPTEV I,MARSZALEK M,SCHMID C,et al.Learning realistic human actions from movies[C]//IEEE computer society conference on computer vision and pattern recognition.[s.l.]:IEEE,2008:1-8.
[11] KLASER A,MARSZALEK M,SCHMID C.A spatio-temporal descriptor based on 3D-gradients[C]//British machine vision conference.[s.l.]:[s.n.],2008:995-1004.
[12] 邊肇祺,張學工.模式識別[M].第2版.北京:清華大學出版社,2000:296-303.
[13] LU M,ZHANG L.Action recognition by fusing spatial-temporal appearance and the local distribution of interest points[C]//International conference on future computer and communication engineering.[s.l.]:[s.n.],2014:75-78.
[14] DOLLAR P,RABAUD V,COTTRELL G,et al.Behavior recognition via sparse spatio-temporal features[C]//IEEE international workshop on visual surveillance & performance evaluation of tracking & surveillance.[s.l.]:IEEE,2005:65-72.
[15] TU H B,XIA L M,WANG Z W.The complex action recognition via the correlated topic model[J].Scientific World Journal,2014,2014:810185.