楊豐嘉
摘 ?要:人體行為識別作為計算機視覺研究熱點,在智能監(jiān)控、人機交互、運動分析等領(lǐng)域具有廣泛的應(yīng)用前景。文章運用時空特征協(xié)方差矩陣表征視頻中人體行為,分別研究并改進了基于Log-Euclidean詞袋模型與基于Stein核稀疏編碼的人體行為識別算法。
關(guān)鍵詞:識別算法;智能監(jiān)控;優(yōu)化
中圖分類號:TP391 ? ? ? ? 文獻標志碼:A ? ? ? ? 文章編號:2095-2945(2019)35-0010-02
Abstract: As a research hotspot of computer vision, human activity recognition has a wide application prospect in the fields of intelligent monitoring, human-computer interaction, motion analysis and so on. In this paper, the spatio-temporal feature covariance matrix is used to represent the human behavior in the video, and the human behavior recognition algorithms based on Log-Euclidean bag model and Stein kernel sparse coding are studied and improved respectively.
Keywords: identification algorithm; intelligent monitoring; optimization
1 本文主要貢獻及創(chuàng)新
本文主要研究特征協(xié)方差矩陣表征人體行為的方法,根據(jù)行為表征方式的不同以及協(xié)方差矩陣的幾何特性,分別研究并改進了一種基于Log-Euclidean詞袋模型的人體行為識別框架以及一種基于Stein核稀疏編碼的人體行為識別算法,主要貢獻及創(chuàng)新點如下:
第一,研究特征協(xié)方差矩陣融合不同特征表征人體行為的方法。綜合分析梯度與光流特征在行為表征中的作用,總結(jié)他人成果,重新組合改進梯度光流特征,提取人體邊緣與運動特性。為了提高行為特征的穩(wěn)定性和魯棒性,引入基于時空輪廓信息的外觀特征。研究協(xié)方差矩陣計算預(yù)處理與歸一化方法。
第二,研究基于改進的Log-Euclidean詞袋模型的人體行為識別算法。將視頻劃分為連續(xù)視頻段,將視頻段劃分為相互重疊時空立方塊,在時空立方塊中計算協(xié)方差矩陣,為了利用歐式空間幾何特性,通過對數(shù)運算將協(xié)方差矩陣轉(zhuǎn)換為Log-Euclidean空間向量。改進Log-Euclidean空間詞袋模型人體行為建模,采用譜聚類代替?zhèn)鹘y(tǒng)聚類算法如k-means進行字典學習,譜聚類操作簡便,對聚類數(shù)敏感度低,性能優(yōu)于傳統(tǒng)聚類算法,采用局部約束線性編碼代替常見的軟/硬編碼、稀疏編碼算法,局部約束稀疏編碼重構(gòu)良好、稀疏平滑,且擁有快速計算方法。結(jié)合空間金字塔模型進行特征池化,整合視頻行為特征,采用非線性支撐向量機進行行為分類與識別。
2 基于改進的Log-Euclidean詞袋模型的人體行為識別
人體行為識別算法包括行為特征提取、行為建模以及行為理解與描述三個關(guān)鍵技術(shù)。本章從關(guān)鍵技術(shù)入手,研究了提取時空立方塊特征協(xié)方差矩陣的方法,將協(xié)方差矩陣轉(zhuǎn)換為Log-Euclidean空間向量,將黎曼流形空間問題轉(zhuǎn)換為歐式空間問題;我們將經(jīng)典的視覺詞袋模型(bag of visual words)運用于行為建模,并改進了傳統(tǒng)詞袋模型中字典學習與編碼方法,研究使用譜聚類[}3s}(spectral clustering)字典學習方法代替?zhèn)鹘y(tǒng)的k-means等聚類算法,譜聚類相較于傳統(tǒng)的聚類方法操作簡便且性能優(yōu)越,特征編碼采用局部約束線性編碼[}36}(LLC),而不是傳統(tǒng)的軟/硬編碼、稀疏編碼,LLC編碼基于稀疏編碼,但是采用局部約束代替稀疏限制條件,稀疏平滑且重構(gòu)良好,能快速計算;最后,探討非線性支撐向量機(SVM)行為識別與理解。
2.1 行為特征提取
將視頻劃分為連續(xù)等長視頻段,將視頻段劃分為大小相同、相互重疊的時空立方塊(cuboids),對每個立方塊提取梯度光流特征或者外觀特征,計算相應(yīng)的時空三維協(xié)方差矩陣,協(xié)方差矩陣位于黎曼流形空間。為了避免流形空間非線性運算,對協(xié)方差矩陣進行對數(shù)運算,從黎曼流形映射到對稱矩陣空間,即線性空間。對稱矩陣含有冗余特征,可以將對稱矩陣映射到Log-Euclidean空間,即將對稱矩陣有規(guī)律的拉伸為向量。在Log-Euclidean空間可以采用歐式空間方法對行為特征進行處理,從而識別人體行為。
2.2 改進的Log-Euclidean詞袋模型
在行為特征提取過程中,提取時空立方塊協(xié)方差矩陣,轉(zhuǎn)換為Log-Euclidean空間向量,為了更好的表征視頻中人體行為,我們采用改進的詞袋模型進行建模。傳統(tǒng)的詞袋模型通常采用k-means聚類進行字典學習,而改進的Log-Euclidean詞袋模型則在Log-Euclidean特征空間采用譜聚類[[35]進行字典學習,譜聚類相較于k-means等傳統(tǒng)聚類方法表現(xiàn)更好,且操作簡便,對聚類數(shù)的敏感度更低。傳統(tǒng)的詞袋模型通常采用軟/硬編碼、稀疏編碼等進行特征編碼,而改進的Log-Euclidean詞袋模型則采用局部約束線性編碼(LLC)對視頻段中人體行為進行編碼,LLC相較于常見的編碼方法具有局部約束與重構(gòu)良好等屬性,局部是比稀疏更本質(zhì)的屬性,并且具有快速算法,時間復(fù)雜度低。改進的Log-Euclidean詞袋模型操作簡便,具有更好的穩(wěn)定性,能有效提高行為特征編碼的判別能力。結(jié)合空間金字塔模型進行特征池化,整合視頻段特征,最終生成視頻人體行為特征。
3 基于Stein核稀疏編碼的人體行為識別
為了改進視頻段協(xié)方差矩陣判別能力并加快分類識別速度,我們引入了基于對稱正定矩陣空間的協(xié)方差矩陣降維方法,該方法不需要進行空間和數(shù)據(jù)類型的轉(zhuǎn)換,可以降低特征協(xié)方差矩陣的維數(shù),保留黎曼幾何特性,并能增加數(shù)據(jù)類內(nèi)聚合度和類間離散度,從而提高識別準確率。改進的Log-Euclidean詞袋模型雖然相對傳統(tǒng)詞袋模型有不少改進,且提高了穩(wěn)定性和特征編碼判別能力,但詞袋模型無疑仍是比較繁雜的框架,缺少實際應(yīng)用價值。為了克服這些缺陷,我們將視頻段中改進的梯度光流協(xié)方差矩陣或外觀協(xié)方差矩陣與Stein核稀疏編碼算法進行組合構(gòu)建行為識別框架,結(jié)構(gòu)極其簡單,計算復(fù)雜度低,具有良好的識別準確率。核稀疏編碼是采用Stein核將協(xié)方差矩陣映射到再生核希爾伯特空間,進行稀疏編碼和字典學習。
3.1 視頻段特征協(xié)方差矩陣
在本章中,我們采用特征協(xié)方差矩陣表征視頻段人體行為。將視頻序列劃分為互相重疊的等長視頻段,在視頻段中進行深度時空特征采樣,提取每個像素的梯度光流特征或者外觀特征。融合各個特征,采用計算特征協(xié)方差矩陣,因此每個視頻段中人體行為可由單一協(xié)方差矩陣表征,行為特征極其簡單且具有協(xié)方差矩陣描述子的各種優(yōu)勢。
為了節(jié)約內(nèi)存,加快計算速度,將視頻劃分為長度為L的連續(xù)視頻段,為了增強行為識別的魯棒性,增加樣本的多樣性,使視頻段之間相互重疊,設(shè)移動步長為step。對于循環(huán)行為,最佳視頻段長度為一個完整的行為所需的幀數(shù),至少包含一個完整的行為周期,視頻段長度的設(shè)置方法與第三章中一致。至于視頻段的重疊,是為了應(yīng)對時間對齊問題的,對于劃分視頻段,其中行為的起始與終止時間是不確定的,存在隨機性。為了使訓(xùn)練樣本能盡可能多樣化,對視頻采取一定程度的重疊劃分,移動步長N根據(jù)視頻長度設(shè)置,通常N≤L,以盡量匹配測試樣本中的各種情況,提高行為識別準確率。
對于每個視頻段,選擇梯度光流特征或者外觀特征,計算協(xié)方差矩陣。每個視頻段對應(yīng)著唯一的特征協(xié)方差矩陣,因此該行為特征表示方法非常簡潔,大大降低了后續(xù)計算復(fù)雜度。
3.2 協(xié)方差矩陣降維
協(xié)方差矩陣可融合不同特征,保持較低的維數(shù),但視頻段中人體行為存在多樣性,為了改進協(xié)方差矩陣的判別能力,同時提高識別理解速度,我們引入基于對稱正定矩陣空間的協(xié)方差矩陣降維。本節(jié)所研究的協(xié)方差矩陣降維方法不僅能保留流形的屬性又能直接使用現(xiàn)有的基于流形的識別技術(shù),降維后的特征可以保持原始特征之間的關(guān)聯(lián)性,增加數(shù)據(jù)的魯棒性以及數(shù)據(jù)類間離散度和類內(nèi)聚合度,因而能增加低維特征的判別能力,提高算法的識別準確率。
4 結(jié)束語
特征協(xié)方差矩陣是一種強有力的數(shù)字圖像表征形式,可以融合不同特征且維數(shù)相對較低,現(xiàn)如今正逐漸運用于人體行為識別領(lǐng)域。我們在綜合分析他人行為特征的基礎(chǔ)上,重新結(jié)合梯度與光流特征,改進梯度光流特征表征運動人體邊緣信息和運動特性。同時引入了基于運動人體時空輪廓信息的外觀特征。
將視頻劃分為連續(xù)視頻段,對視頻分段進行密實采用,計算時空立方塊特征協(xié)方差矩陣。由于協(xié)方差矩陣屬于黎曼流形空間,為了便于采用歐式空間特性,將協(xié)方差矩陣轉(zhuǎn)換為Log-Euclidean空間向量,同時也去除了協(xié)方差矩陣中的冗余特征。我們改進了Log-Euclidean詞袋模型:采用譜聚類代替?zhèn)鹘y(tǒng)的聚類算法如k-means進行字典學習,譜聚類操作簡單,對聚類數(shù)敏感度低,性能優(yōu)于傳統(tǒng)的聚類算法;采用LLC編碼代替?zhèn)鹘y(tǒng)的軟/硬編碼、稀疏編碼等常見編碼算法,LLC編碼以稀疏編碼為基礎(chǔ),但相對于稀疏編碼具有更好的重構(gòu)穩(wěn)定性,是稀疏平滑的,且具有快速計算方法。結(jié)合空間金字塔模型進行特征池化,整合視頻中行為特征,采用非線性SVM算法進行行為分類識別。我們在標準行為數(shù)據(jù)庫上采用LOOCV方法進行實驗分析,討論實驗參數(shù)對行為識別的影響,與其它方法進行對比分析,探討改進的Log-Euclidean詞袋模型法的有效性與不足。
參考文獻:
[1]裴啟程.基于Kinect的人體行為識別研究[D].南京郵電大學,2018.
[2]孫君鳳.基于運動歷史圖的人體行為識別算法研究[D].山東大學,2018.
[3]張超.基于RealSense的動態(tài)手勢設(shè)計及識別方法研究[D].華中師范大學,2018.
[4]楊萍萍.基于Kinect的手勢動作識別研究及其在虛擬仿真系統(tǒng)中的應(yīng)用[D].南京大學,2018.
[5]敖琳.基于Kinect骨骼信息的人體動作識別與行為分析[D].哈爾濱工程大學,2018.
[6]楊喆.基于無人機平臺的目標檢測與人機交互算法研究[D].哈爾濱工業(yè)大學,2017.
[7]劉小建.基于Kinect的手勢識別及其在場景驅(qū)動中的應(yīng)用[D].中北大學,2017.
[8]丁文文.基于三維骨架的時空表示與人體行為識別[D].西安電子科技大學,2017.
[9]李陽.基于深度圖像的動作識別及應(yīng)用研究[D].國防科學技術(shù)大學,2016.