張 良 魯夢夢 姜 華
?
局部分布信息增強的視覺單詞描述與動作識別
張 良*魯夢夢 姜 華
(中國民航大學智能信號與圖像處理天津市重點實驗室 天津 300300)
傳統(tǒng)的單詞包(Bag-Of-Words, BOW)算法由于缺少特征之間的分布信息容易造成動作混淆,并且單詞包大小的選擇對識別結果具有較大影響。為了體現(xiàn)興趣點的分布信息,該文在時空鄰域內(nèi)計算興趣點之間的位置關系作為其局部時空分布一致性特征,并提出了融合興趣點表觀特征的增強單詞包算法,采用多類分類支持向量機(Support Vector Machine, SVM)實現(xiàn)分類識別。分別針對單人和多人動作識別,在KTH數(shù)據(jù)集和UT-interaction數(shù)據(jù)集上進行實驗。與傳統(tǒng)單詞包算法相比,增強單詞包算法不僅提高了識別效率,而且削弱了單詞包大小變化對識別率的影響,實驗結果驗證了算法的有效性。
人體行為識別;局部分布特征;增強單詞包模型;支持向量機
1 引言
人體行為識別是計算機視覺領域的熱門研究課題之一,它具有非常重要的現(xiàn)實意義,在智能視頻監(jiān)控、虛擬現(xiàn)實、醫(yī)療輔助和運動員動作分析等方面[1]有著十分廣泛的應用。但是,由于背景復雜、攝相機抖動、光照變化、遮擋以及不同動作者的類內(nèi)差異等都使目前的行為識別面臨著很大的挑戰(zhàn)。
基于局部時空特征的單詞包(Bag-Of-Words, BOW)算法作為一種簡單有效、魯棒性較強的行為表示方法,在行為識別領域得到了廣泛的應用。傳統(tǒng)單詞包算法是對檢測到的時空興趣點計算表觀特征描述子,并對描述子聚類形成視覺單詞包。通過將每個視頻的特征向量映射到單詞包空間得到視頻的詞頻分布直方圖表示。文獻[7]采用BOW算法和狀態(tài)空間法進行行為識別,在計算量和精確度之間實現(xiàn)了平衡。文獻[8]從全局的角度出發(fā),篩選時空單詞構建顯著性視覺詞匯,彌補了基于局部區(qū)域的單詞包算法造成的全局信息的缺失。文獻[9]選取單詞包中包含信息量豐富的視覺單詞構建新的視覺單詞包,使最終的視覺詞匯更具有效性。
但是傳統(tǒng)的單詞包算法只考慮了每個視覺詞匯出現(xiàn)的次數(shù),而忽略了特征之間的位置關系。近年來,許多研究者開始把特征之間的時空關系作為人體行為識別的關鍵。文獻[10]提出了情境感知的時空描述子,每種行為由特定的動作單元表示,并且涵蓋了動作單元之間的幾何信息,彌補了傳統(tǒng)BOW造成的語義鴻溝問題。文獻[11]計算特征點出現(xiàn)的先后次序,將代表詞匯出現(xiàn)先后次序的二值矩陣用于行為識別。 文獻[12]基于單詞包模型,采用高階共生矩陣將視覺單詞映射到共生空間對行為進行表示,識別結果受單詞包大小的影響減弱。文獻[13]通過分析視覺單詞之間的共生關系,選擇穩(wěn)定的興趣點用于行為識別。文獻[14]采用直方圖交叉核計算詞匯之間的時空上下文關系,對視覺詞匯進行加權實現(xiàn)行為識別。
考慮到同種動作擁有相似的興趣點分布信息,不同動作的興趣點的分布情況不相同,本文提出了融合興趣點的表觀特征和局部時空分布一致性特征的增強單詞包算法進行行為識別。該算法不需要精確的人體檢測定位、背景減除、目標跟蹤等,也不要求特征點在全局空間嚴格匹配,計算過程簡便。主要包括以下3個方面:(1)采用Harris3D檢測器提取視頻中的時空興趣點,確保特征點的有效性;(2)提出了構建興趣點的位置關系作為局部時空分布一致性特征,它是直接對檢測到的特征點進行計算而非時空單詞,避免了映射到單詞包空間帶來的量化誤差。然后結合興趣點的HOG3D特征構建增強單詞包模型,此模型不僅包含了表觀信息,也涵蓋了空間分布信息;(3)行為建模與分類,采用多類分類SVM實現(xiàn)分類識別。通過實驗證明,增加局部時空分布特征的單詞包模型能夠彌補傳統(tǒng)單詞包算法因缺少詞匯之間位置關系而造成的缺陷,提高了識別精度,減少動作之間的混淆程度。
2 特征檢測與描述
本文提出了增強單詞包算法的人體行為識別,圖1給出了本文的算法框架,大體分為兩個部分:訓練部分和測試部分。在訓練階段,首先采用Harris3D檢測器提取訓練視頻中的局部時空興趣點,然后計算興趣點的表觀特征集和局部時空分布特征集。分別對這兩類特征集聚類得到表觀特征單詞包和局部分布特征單詞包?;谶@兩類單詞包,統(tǒng)計每個單詞在訓練視頻中出現(xiàn)的次數(shù),得到訓練視頻的表觀特征直方圖和局部分布特征直方圖,將這兩個直方圖向量級聯(lián)起來并分配動作類別編號,作為訓練視頻的類別統(tǒng)計直方圖。它是一個維的特征向量,K值由聚類中心個數(shù)確定。計算所有訓練視頻的類別統(tǒng)計直方圖,輸入SVM訓練,確定動作分類器模型。在測試部分,以同樣的方法計算測試視頻中的時空興趣點以及兩類特征集,采用KNN算法,將特征集投影到單詞包空間,統(tǒng)計每個視覺單詞出現(xiàn)的次數(shù)得到測試視頻的詞頻分布直方圖,輸入訓練好的SVM進行識別。
2.1 Harris3D時空興趣點檢測
時空興趣點是典型的局部特征,反映了視頻中在時間域和空間域都有明顯變化的地方,具有很好的特征描述和類別區(qū)分能力。目前應用比較廣泛的是文獻[15]提出的Harris3D時空興趣點。
首先,將視頻序列變換到3維的高斯空間,如式(1)所示。
圖1 行為識別框架
把角點響應函數(shù)取正最大值的像素點作為時空興趣點。由于每個動作都有一定的持續(xù)時間,為了估計行為的時空范圍,文獻[15]引入了時空高斯塊,其定義為
將表示此時空事件的高斯塊映射到高斯空間,得到其線性空間為
根據(jù)高斯函數(shù)的性質(zhì),可以得到函數(shù)的規(guī)范形式:
分別求在,,方向的二階導數(shù),,,規(guī)范化得到,,,規(guī)范化后函數(shù)極值在高斯塊的中心取得,即,。然后計算歸一化的時空拉普拉斯算子同時在時間尺度和空間尺度上的極值點,得到的即為最佳時間尺度和空間尺度。的計算公式為
為了使興趣點的尺度剛好匹配相應行為的時空范圍,實驗中進行了尺度自適應迭代。
Harris3D檢測器在KTH數(shù)據(jù)庫上檢測到的興趣點如圖2所示:
圖2 特征點在KTH視頻幀上的展示
2.2 特征描述子
本文提出了融合興趣點的表觀特征和局部時空分布特征的行為描述子。其中表觀特征采用3維梯度方向直方圖[16](Three Dimension Histogram of Gradients, HOG3D),它代表了興趣點鄰域內(nèi)的像素變化信息;局部時空分布特征代表了時空鄰域內(nèi)興趣點之間的位置分布信息。
2.2.1 HOG3D描述子 HOG3D描述了特征點鄰域的平均梯度,它的計算主要包括3個方面:梯度的計算、梯度方向的量化、直方圖的計算以及描述子的生成。
2.2.2 局部時空分布一致性特征 局部時空分布一致性特征描述了興趣點的分布信息。以KTH數(shù)據(jù)庫為例,任意選取KTH中的兩個人(p1, p2),分別執(zhí)行4種不同的動作(跑步,慢跑,打拳,拍手),計算相應的時空興趣點。由圖3可以看出,對于同種動作而言,盡管產(chǎn)生的時空興趣點不盡相同,但是興趣點的分布在其局部空間內(nèi)保持一致,把這一特性作為興趣點的局部時空分布一致性特征并用于行為分類識別。
(1)選取興趣點的時空鄰域塊大小,統(tǒng)計鄰域塊內(nèi)興趣點的個數(shù),并記為。
(2)記錄興趣點之間的位置關系,包含距離和方向,以向量形式表示。對于鄰域塊中的任一興趣點,其與興趣點之間的位置關系記作,。
考慮到距離越近的興趣點對興趣點的描述貢獻越大,為了簡化計算,選取距離最近的前/3個興趣點,并計算這/3個興趣點與的時空位置關系,即把作為興趣點的局部時空分布特征。局部時空相對位置信息的計算是基于特征點本身,不會引起由特征點映射到單詞包空間[11,12]造成的量化誤差,也不需要其它預處理操作,計算方便的同時也獲得了充足的分布信息,增強了描述子的魯棒性。
3 行為建模和分類
雖然同類動作產(chǎn)生的時空興趣點不盡相同,但是同類動作具有相似的表觀特征集和時空分布特征集。通過增強單詞包模型構建動作原型,以原型來描述視頻中的行為,采用SVM分類器實現(xiàn)分類識別。
增強單詞包模型是基于K均值聚類,通過分別對歸一化后的局部時空分布特征集和表觀特征集進行聚類得到時空分布單詞包和表觀特征單詞包,,為聚類中心的大小,l為時空分布單詞,q為表觀特征單詞。將兩個單詞包進行串聯(lián)融合得到增強后的單詞包,其大小為。
圖3 不同動作興趣點的時空分布
在分類階段采用基于徑向基核函數(shù)的多類分類SVM。對于一個包含類動作類別的數(shù)據(jù)集,設類別標簽為,表示動作類別。在訓練階段,將每個視頻中的詞頻分布直方圖和類別標簽輸入SVM進行訓練,得到每個行為的原型;在測試階段,計算測試視頻的特征描述子,并映射到增強單詞包空間獲得其詞頻分布直方圖,將輸入已訓練的SVM,輸出結果即為測試視頻的動作類別。
4 實驗及結果分析
4.1單人行為識別實驗及結果分析
實驗采用的單人動作數(shù)據(jù)集是KTH數(shù)據(jù)集。它包含了6種動作:走路,慢跑,跑步,打拳,揮手,拍手,由25個動作者在4種不同的場景(室外,有尺度變化的室外,動作者有著裝變化的室外,室內(nèi))下完成,共計600個視頻。
4.1.1 傳統(tǒng)單詞包算法的單人行為識別 傳統(tǒng)的BOW算法對表觀特征描述子進行K均值聚類,聚類中心個數(shù)的選擇不僅代表了單詞包的大小,而且也決定著識別效果的好壞。實驗中依次選擇單詞包的大小為100, 150, 200, 250, 300, 350, 400, 450, 500, 600, 700和800。如圖4所示,通過多次試驗我們得到下面的結論:當=300時識別效果較好。當在100~300時,隨著單詞包的增大,識別效率有所提高。但是當單詞包大小超過300時,反而降低了識別效率。
在KTH數(shù)據(jù)集中,采用留一交叉驗證,把24位動作者的視頻數(shù)據(jù)當作訓練集,剩余1個人的全部行為視頻當作測試集。重復此過程10次,統(tǒng)計每個動作被正確識別和錯誤識別的次數(shù),得到KTH的混淆矩陣如圖5所示。從混淆矩陣可以得到基于傳統(tǒng)BOW算法的多類分類SVM行為識別方法在在KTH數(shù)據(jù)集上的平均識別率為87.7%。
4.1.2 增強單詞包算法的單人行為識別 為了有效描述特征點的局部分布特征,選取的局部鄰域塊的大小為30×15×4,在此時空體內(nèi)計算特征點之間的分布信息??紤]到單詞包大小會影響識別效果,為了選取最佳的特征單詞包,進行多次試驗,分別依次選擇表觀單詞包和局部時空分布單詞包的大小為100, 200, 300, 400, 500, 600, 700和800,實現(xiàn)(100, 100) ,, (100, 800),,(800,100),,(800, 800)共計64種單詞包組合。通過多次實驗,統(tǒng)計在每種單詞包組合下的識別效率。如圖6所示,“*”所在位置的識別效果最好,即最佳單詞包大小為(400, 400)。并且可以看出,隨著單詞包大小的增加,識別率有所提高,但是當單詞包大小超過一定范圍時,識別率基本保持穩(wěn)定。說明增強單詞包算法減弱了識別率對單詞包大小變化的敏感程度。
同樣采用留一交叉驗證,重復實驗10次,將10次的平均值作為最終的分類精度。所得結果的混淆矩陣如圖7所示。計算可知,增強單詞包算法在KTH數(shù)據(jù)集上的平均識別率為93.6%。與傳統(tǒng)單詞包算法相比,不僅識別率有了很大提高,并且減弱了單詞包大小變化對識別率的影響。
從表1可以看出,與文獻[2,3,16]中基于傳統(tǒng)單詞包算法的行為識別相比,本文提出的增強單詞包算法算法在KTH數(shù)據(jù)集上識別效果更好,與文獻[12,13,14]中結合單詞的時空上下文信息的行為識別方法相比,本文也取得了較為滿意的識別效果。
圖4單詞包大小對KTH識別率的影響 圖5 KTH數(shù)據(jù)庫的混淆矩陣
圖6 增強單詞包大小對KTH識別率的影響 圖7 KTH數(shù)據(jù)庫的混淆矩陣
表1 與現(xiàn)有方法識別率對比(%)
算法
KTH數(shù)據(jù)庫
本文算法
93.6
文獻[2]
93.3
文獻[3]
90.0
文獻[12]
91.2
文獻[13]
90.5
文獻[14]
93.0
文獻[16]
91.4
4.2 兩人交互異常行為識別實驗及結果分析
UT-interaction數(shù)據(jù)庫一共包含6種交互行為類別,包括擁抱、踢打、用手指人、推打、揮手、捶打。實驗時將每個視頻數(shù)據(jù)截斷為10 s左右的視頻片段,一共得到120個視頻片段。并將這6種行為分為兩類:異常行為(推打、踢打、捶打)和正常行為(擁抱、握手、用手指人)。
增強單詞包算法在KTH數(shù)據(jù)庫上的成功應用證明了算法的有效性,因此將其應用在兩人交互異常行為識別中。兩人交互行為中往往包含許多單一背景且只有一個目標出現(xiàn),或者是兩目標之間距離很大的視頻幀,這些都屬于無關幀。為了避免對無關視頻幀的計算,在提取興趣點之前采取一些預處理措施來選取感興趣的幀。
圖8(a)是采用高斯混合模型(GMM)提取到的前景圖像,圖8(b)是對前景圖像進行形態(tài)學處理得到的增強后的前景圖。并把前景目標的中心看作運動目標所在的位置,如圖9所示。
感興趣幀的選取是以前景目標之間的位置關系為基礎,分為以下兩種情況:
(1)交互過程中兩人沒有出現(xiàn)遮擋:計算前景目標之間的距離,將兩目標之間的距離小于給定閾值的視頻幀作為候選的感興趣幀。
圖8 前景檢測
圖9 目標中心標記
(2)交互過程中出現(xiàn)遮擋:當兩目標首次出現(xiàn)距離小于閾值時,記錄時刻1,接著兩目標出現(xiàn)遮擋。當兩個目標又重新分開,且在2時刻兩目標之間的距離小于給定閾值,在時刻兩目標之間的距離大于給定的閾值時,記錄時刻2,并將1-2時間段內(nèi)的視頻幀記為感興趣幀,為幀間隔。
兩人交互異常行為的識別是基于感興趣幀,對感興趣幀提取時空興趣點,并采用增強單詞包算法結合二分類SVM實現(xiàn)分類識別。圖10是在UT-interaction數(shù)據(jù)庫上檢測到的特征點。
表2展示了在UT-interaction數(shù)據(jù)集上采用感興趣幀技術前后各項指標的對比情況。
由表2可以看出,選取感興趣幀前后,基于增強單詞包算法的交互異常行為檢測都取得了較好的識別效果。選取感興趣幀之后,不僅降低了計算機的存儲空間,大幅度降低了算法耗時,提高了運算
表2 選取感興趣幀前后對比情況
比較
沒有選取感興趣幀
選取感興趣幀
對比結果
特征點檢測及描述子計算的時間(s)
52062
31680
下降39.1%
增強單詞包形成的時間(s)
15840
6840
下降56.8%
異常行為分類精度(%)
93.3
95.0
提高1.7%
圖10 UT-interaction數(shù)據(jù)庫特征點檢測結果展示
效率。而且避免了對無關幀的計算,減少了誤判的興趣點,分類準確度也有了一定程度提高。
5 結束語
本文提出了一種融合興趣點的表觀特征和時空位置分布特征的增強單詞包算法用于行為識別。在單人行為數(shù)據(jù)集KTH上進行實驗,并與傳統(tǒng)的單詞包算法進行對比,驗證了增強單詞包算法的優(yōu)越性。在多人交互行為數(shù)據(jù)庫UT-interaction上提出篩選感興趣幀技術,不僅減少了算法的耗時,而且提高了分類精度。在下一步的工作中,我們計劃將在更加復雜真實的環(huán)境中驗證算法的有效性。
[1] 胡瓊, 秦磊, 黃慶明. 基于視覺的人體動作識別綜述[J]. 計算機學報, 2013, 36(12): 2512-2524. doi: 10.3724/SP.J.1016. 2013.02512.
HU Qiong, QIN Lei, and HUANG Qingming. Human action recognition review based on computer vision[J]., 2013, 36(12): 2512-2524. doi: 10.3724/SP.J. 1016.2013.02512.
[2] BEBAR A A and HEMAYED E E. Comparative study for feature detector in human activity recognition[C]. IEEE the 9th International conference on Computer Engineering Conference, Giza, 2013: 19-24. doi: 10.1109/ICENCO.2013. 6736470.
[3] LI F and DU J X. Local spatio-temporal interest point detection for human action recognition[C]. IEEE the 5th International Conference on Advanced Computational Intelligence, Nanjing, 2012: 579-582. doi: 10.1109/ICACI. 2012.6463231.
[4] ONOFRI L, SODA P, and IANNELLO G. Multiple subsequence combination in human action recognition[J]., 2014, 8(1): 26-34. doi: 10.1049/iet-cvi.2013.0015.
[5] FOGGIA P, PERCANNELLA G, SAGGESE A,Recognizing human actions by a bag of visual words[C]. IEEE International Conference on Systems, Man, and Cybernetics, Manchester, 2013: 2910-2915. doi: 10.1109/SMC.2013.496.
[6] ZHANG X, MIAO Z J, and WAN L. Human action categories using motion descriptors[C]. IEEE 19th International Conference on Image Processing, Orlando, FL, 2012: 1381-1384. doi: 10.1109/ICIP.2012.6467126.
[7] LI Y and KUAI Y H. Action recognition based on spatio-temporal interest point[C]. IEEE the 5th International
[8] Conference on Biomedical Engineering and Informatics, Chongqing, 2012: 181-185. doi: 10.1109/BMEI.2012.6512972.
[9] REN H and MOSELUND T B.[C]. IEEE the 20th International Conference on Image Processing, Melbourne, VIC, 2013: 2807-2811. doi: 10.1109/ICIP.2013.6738578.
[10] COZAR J R, GONZALEZ-LINARES J M, GUIL N,. Visual words selection for human action classification[C]. International Conference on High Performance Computing and Simulation, Madrid, 2012: 188-194. doi: 10.1109/ HPCSim.2012.6266910.
[11] WANG H R, YUAN C F, HU W M,. Action recognition using nonnegative action component representation and sparse basis selection[J]., 2014, 23(2): 570-581. doi: 10.1109/TIP.2013. 2292550.
[12] BILINSKI P and BREMOND F. Contextual statistics of space-time ordered features for human action recognition[C]. IEEE the 9th International Conference on Advanced Video and Signal-based Surveillance, Beijing, 2012: 228-233. doi: 10.1109/AVSS.2012.29.
[13] ZHANG L, ZHEN X T, and Shao L. High order co-occurrence of visualwords for action recognition[C]. IEEE the 19th
International Conference on Image Processing, Orlando, FL, 2012: 757-760. doi: 10.1109/ICIP.2012.6466970.
[14] SHAN Y H, ZHANG Z, ZHANG J,. Interest point selection with spatio-temporal context for realistic action recognition[C]. IEEE the 9th International Conference on Advanced Video and Signal-based Surveillance, Beijing, 2012: 94-99. doi: 10.1109/AVSS.2012.43.
[15] TIAN Y and RUAN Q Q. Weight and context method for action recognition using histogram Intersection[C]. The 5th IET International Conference on Wireless, Mobile and Multimedia Networks, Beijing, 2013: 229-233. doi: 10.1049/ cp.2013.2414.
[16] LAPTEV I and LIDEBERG T. Space-time interest points[C]. IEEE the 9th International Conference on Computer Vision, Nice, France, 2003: 432-439. doi: 10.1109/ICCV.2003. 1238378.
[17] KLASER A, MARSZALEK M, and SCHMID C.[C]. The 19th Conference on British Machine Vision and Pattern Recognition, Leeds, United Kingdom, 2008: 1-10.
張 良: 男,1970年生,教授,主要研究方向為圖像處理、模式識別、智能視頻分析.
An Improved Scheme of Visual Words Description and Action Recognition Using Local Enhanced Distribution Information
ZHANG Liang LU Mengmeng JIANG Hua
(Key Laboratory of Advanced Signal and Image Processing, Civil Aviation University of China, Tianjin 300300, China)
The traditional Bag-Of-Words (BOW) model easy causes confusion of different action classes due to the lack of distribution information among features. And the size of BOW has a large effect on recognition rate. In order to reflect the distribution information of interesting points, the position relationship of interesting points in local spatio-temporal region is calculated as the consistency of distribution features. And the appearance features are fused to build the enhanced BOW model. SVM is adopted for multi-classes recognition. The experiment is carried out on KTH dataset for single person action recognition and UT-interaction dataset for multi-person abnormal action recognition. Compared with traditional BOW model, the enhanced BOW algorithm not only has a great improvement in recognition rate, but also reduces the influence of BOW model’s size on recognition rate. The experiment results of the proposed algorithm show the validity and good performance.
Human action recognition; Local distribution features; Enhanced Bag-Of-Words (BOW) model; Support Vector Machine (SVM)
The National Natural Science Foundation of China (61179045)
TP391
A
1009-5896(2016)03-0549-08
10.11999/JEIT150410
2015-04-08;改回日期:2015-12-08;網(wǎng)絡出版:2016-01-22
張良 stonemark@vip.163.com
國家自然科學基金(61179045)