甄先通,張磊
(廣東石油化工學院 計算機學院,廣東 茂名 525000)
目前,人體行為識別廣泛應(yīng)用于運動分析、虛擬現(xiàn)實、人機交互等領(lǐng)域,市場應(yīng)用前景廣。人體行為識別研究是指通過分析與理解傳感器采集的人體運動數(shù)據(jù),使計算機能夠理解人類的行為與意圖,賦予計算機智能化特性。在人體行為識別研究中,深度學習近年來也取得了豐碩的成果。時空雙流網(wǎng)絡(luò)模型[1]分別對視頻中的RGB信息和光流信息訓練單獨的神經(jīng)網(wǎng)絡(luò),在最后層將特征融合。文獻[2]中提出時空金字塔網(wǎng)絡(luò),在其中加入了視覺注意力機制,進一步提高系統(tǒng)性能。文獻[3]中將CNN和LSTM結(jié)合,先用LSTM處理時序信息,再將編碼后的特征輸入CNN進行動作識別。
本文研究有別于深度學習,從人體行為主要由運動特征和結(jié)構(gòu)信息組成的事實出發(fā)[4,5],從全局特征描述的角度,提出新的基于運動與結(jié)構(gòu)特征嵌入的表示方法。提出了一個統(tǒng)一的框架集成運動和結(jié)構(gòu)信息來表示人體行為,可以有效地捕捉到人體行為動態(tài)變化的線索。所提的方法將多尺度分析技術(shù)(即高斯金字塔和中心-環(huán)繞機制)引入到人體行為表示中,并通過Gabor濾波器和最大池化提取有效的生物特征,進行判別局部對齊分析,獲得更具信息性和鑒別性的表示。
本文所提出的運動與結(jié)構(gòu)特征嵌入方法的系統(tǒng)框架見圖1。具體如下:(1)對原始視頻序列做相鄰幀差分(DoF)預處理,得到具有幀差的三維體。(2)在兩個特征通道中分別提取運動特征和結(jié)構(gòu)信息。在運動特征通道中,獲得一個對運動信息進行編碼的特征映射,即運動歷史圖像(MHI)。在結(jié)構(gòu)特征通道中,從DoF三維體中提取5個特征映射。(3)將(2)中的每一個特征映射輸入高斯金字塔[6],并利用多尺度分析技術(shù),在高斯金字塔不同層得到不同的分辨率。在高斯金字塔的每一層上執(zhí)行中心-環(huán)繞操作[7],從而產(chǎn)生一系列子帶映射,其中具有不同尺度的特征劃分成不同的子帶。(4)采用兩段特征提取[8](即Gabor濾波和最大池化)來選擇不變特征表示。Gabor濾波器是特征提取中濾波器組的常見選擇,它可以捕獲邊緣和方向信息[7]。第二階段中的特征池化技術(shù)(如最大池化)由于其不變性,在低層特征提取算法中受到了更多的關(guān)注。(5)使用一種稱為判別局部對齊[9]的降維技術(shù)將運動和結(jié)構(gòu)特征嵌入到低維空間中,從而實現(xiàn)更緊湊和更具判別力的表示。
圖1 運動與結(jié)構(gòu)特征嵌入描述符提取框架
假設(shè)I(x,y,t)表示一個進行DoF幀差分后的圖像序列,D(x,y,t)為對應(yīng)的二進制圖像序列,其值0和1分別表示對應(yīng)位置是否存在相應(yīng)的運動,位置運動信息可由圖像的差分得到相關(guān)信息。用Hτ(x,y,t)表示運動歷史圖像,其具體計算如下:
(1)
式中:τ為定義運動范圍的持續(xù)時間。
視頻序列可以看作X-Y-T的三維體。對原始視頻序列做相鄰幀差分預處理,很好地保留了與動作相關(guān)的信息,很大程度上抑制背景差異和噪聲。以幀差三維體的中心為中心,獲取X-Y、X-T和Y-T三個正交平面,結(jié)合幀差三維體的起始和結(jié)束切片,可以得到5個結(jié)構(gòu)平面。這些平面中包含動作的空間和時間結(jié)構(gòu)信息。3個X-Y平面給出動作的動態(tài)結(jié)構(gòu)(3個方面的身體姿勢信息),而X-T和Y-T平面記錄時間結(jié)構(gòu),這5個平面包含相互補充的結(jié)構(gòu)信息。圖2顯示了從幀差三維體中提取的結(jié)構(gòu)平面特征信息。圖2右側(cè)第2~3個平面同時記錄空間和時間結(jié)構(gòu)信息,與最上面的起始切面和最下面的結(jié)束切面結(jié)合,可以提供動作的動態(tài)結(jié)構(gòu)信息。
圖2 從幀差體積提取的結(jié)構(gòu)平面特征信息
為了刻畫人眼可以處理多分辨率和多尺度的信息這種特性,采用圖像金字塔技術(shù)建立多尺度圖像組。高斯金字塔基準層定義為原始圖像,重復對前一層圖像進行高斯濾波和下采樣得到后一層圖像,從而得到不同尺度的目標圖像,構(gòu)成圖像的金字塔結(jié)構(gòu)。高斯金字塔各尺度層計算如下:
Gl(x,y)=∑m∑nw(m,n)Gl-1(2x+m,2y+n)
(2)
式中:G0(x,y)=I(x,y)為金字塔最底層的原始圖像;l為金字塔的層級;w(m,n)為高斯加權(quán)函數(shù),其權(quán)重對任何層都保持一致。
采用中心-環(huán)繞機制來提取局部區(qū)域的對比度信息。在中心-環(huán)繞機制中,中心區(qū)域刺激視覺神經(jīng)使其興奮,同心的周邊大區(qū)域則抑制這種興奮[10],如圖3所示。這種對局部不連續(xù)性非常敏感的結(jié)構(gòu),特別適合檢測相對于周邊背景突出的目標。
圖3 中心-環(huán)繞機制的空間形式
在5層高斯金字塔基礎(chǔ)上,對中心層c和環(huán)繞層s采用中心-環(huán)繞機制。由于高斯金字塔的各層的尺度不同,中心層級和環(huán)繞層級之間的比例不同,將環(huán)繞層級的圖像插值成與相應(yīng)中心層級大小相同,再用中心層級逐點減去插值后的環(huán)繞層級的圖像,以生成相關(guān)子帶圖像。其中環(huán)繞層s=c+d,而d為環(huán)繞層級和中心層的距離。本文中,產(chǎn)生6個子帶的圖像,其(c,s)的取值分別為(2,5)(2,6)(3,6)(3,7)(4,7)(4,8)。
圖4給出了高斯金字塔(c,s)為(2,5)的中心環(huán)繞操作圖。圖4左邊5層金字塔中,以第2層為中心層、第5層為環(huán)繞層,將環(huán)繞層對應(yīng)的圖像的尺度利用插值方法擴展到中心層尺度大小,做差分,形成右邊的子帶映射結(jié)果。
圖4 高斯金字塔的(c,s)為(2,5)的中心-環(huán)繞操作
Gabor濾波器具有如空間定位、方向選擇性和空間頻率的特性,采用Gabor濾波器來提取方向信息。
2D Gabor母函數(shù)定義為
(3)
式中:x0=xcosθ+ysinθ;y0=-xsinθ+ycosθ;x0,y0的范圍決定了Gabor濾波器的尺度,而θ決定了Gabor濾波器的方向;r為空間縱橫比,決定了Gabor函數(shù)形狀。
本文采用的Gabor濾波器具有8個尺度,范圍為從7×7到21×21像素、4個方向包括0°、45°、90°和135°。利用這些Gabor濾波器對初始輸入圖像進行卷積,得到32幅包含多方向信息的特征圖。
不同子帶圖像的Gabor濾波器輸出,在局部鄰域上進行最大池化,池化的結(jié)果將對位置偏移和可能尺度錯誤具有魯棒性。最大池化定義如下:
h(x,y)=max(x,y)∈G(x,y)[g(x,y)]
(4)
式中:g(x,y)為Gabor濾波器的響應(yīng);G(x,y)為像素(x,y)的鄰域,即感受野。最大池化的鄰域窗口是Gabor濾波器尺度。將最大池化后的結(jié)果串聯(lián),作為人體行為表示的描述符。
基于運動與結(jié)構(gòu)特征嵌入表示,具體算法的偽代碼如下:
算法1:基于運動與結(jié)構(gòu)特征嵌入表示
2.按照式(1)計算得到Hτ(x,y,t)序列,并取中間幀和最后幀作為代表幀。
3.將D進行X-Y、X-T和Y-T平面投影,加上起始幀和結(jié)束幀,構(gòu)成5個平面。
4.將步驟2和3中的7個平面,分別作為輸入,生成對應(yīng)的高斯金字塔,其中金字塔的層數(shù)選擇8層。
5. 對7個平面中每一個平面對應(yīng)的金字塔做中心環(huán)繞,中心層和環(huán)繞層分別為(2,5)(2,6)(3,6)(3,7)(4,7)(4,8),產(chǎn)生6個子帶的圖像。
6. 對7個平面的6個子帶圖像,分別用Gabor濾波器從尺度7×7到21×21像素8個尺度,0°、45°、90°和135°這4個方向,共32幅包含多方向信息的特征圖,即得到7×6×32幅Gabor濾波后的圖像。
7. 對7×6×32幅Gabor濾波后的圖像按照保留d個元素進行最大池化。
8. 將7×6×32×d拉直,形成一個特征向量,形成人體行為表示的描述符。
得到人體行為表示的描述符后,采用判別局部對齊(DLA)分析進行降維[9],將其輸入SVM分類器得到輸出的人體行為類別。
本方法在多攝像機IXMAS數(shù)據(jù)集和真實的UCF Sports數(shù)據(jù)集上對所提出的方法進行了評估。
為了分析所提出運動與結(jié)構(gòu)特征嵌入方法各部分有效性,包括高斯金字塔、運動結(jié)構(gòu)信息及降維方法。在對中間結(jié)果進行分析中選用降維方法包括主成分分析(PCA)、線性判別分析(LDA)、局部保持映射(LPP)、近鄰保持嵌入(NPE)、Isomap方法、判別局部對齊(DLA)方法。
圖5為IXMAS數(shù)據(jù)集5個鏡頭的性能分析,不同顏色的柱形表示不同的降維方法,每幅子圖中三個柱狀體群分別對應(yīng)單獨的高斯金字塔(A)、運動結(jié)構(gòu)信息(B)以及高斯金字塔+運動結(jié)構(gòu)信息(A+B)的性能。
圖5 各個部分不同組合以及不同降維方法在IXMAS數(shù)據(jù)集上的性能分析
由圖5可知,對于所有鏡頭數(shù)據(jù),高斯金字塔+運動結(jié)構(gòu)信息在幾乎所有的降維方法下對性能均有所提高。對比所有的組合下的性能,高斯金字塔+運動結(jié)構(gòu)信息+DLA性能最佳。
表1給出了UCF Sports數(shù)據(jù)集上降維及各部分性能對比分析。與IXMAS數(shù)據(jù)集相比,UCF Sports數(shù)據(jù)集更接近于真實的數(shù)據(jù)集。
由表1可知,單獨使用高斯金字塔系統(tǒng)的性能在各種降維方法下性能較好,這說明高斯金字塔的有效性。對運動結(jié)構(gòu)信息而言,盡管單獨使用運動結(jié)構(gòu)信息的性能不佳,但運動結(jié)構(gòu)信息是對高斯金字塔的有效信息補充。對比不同的降維方法,可以看出Isomap和DLA方法都獲得了很好的性能。與Isomap相比,DLA方法可以有效利用標簽信息,性能更好。
表1 UCF Sports數(shù)據(jù)集上降維及各部分性能對比分析%PCALDALPPNPEIsomapDLA高斯金字塔91.891.288.391.991.892.4運動結(jié)構(gòu)信息49.644.052.942.654.553.2高斯金字塔+運動結(jié)構(gòu)信息93.190.589.891.293.993.9
表2和表3給出了所提出的基于運動與結(jié)構(gòu)特征嵌入方法與其他方法在IXMAS和UCF Sports數(shù)據(jù)集性能對比結(jié)果。
由表2可知,對鏡頭1、鏡頭2、鏡頭3、鏡頭5中,所提出的運動與結(jié)構(gòu)特征嵌入方法具有較佳性能。在鏡頭4中所提出的方法性能略低于Weinland提出的Local SVM方法[12],但高于其他方法。
表2 基于運動與結(jié)構(gòu)特征嵌入方法在IXMAS數(shù)據(jù)集性能%鏡頭1鏡頭2鏡頭3鏡頭4鏡頭5運動與結(jié)構(gòu)特征嵌入方法84.987.990.186.978.9GMKL[11]76.474.573.671.860.4AFMKL[11]81.980.177.177.673.4Local SVM[12]84.785.887.988.572.6Information Maximization Feature[13]76.773.372.173.1-4D Action Feature Models[14]72.053.068.163.0-3D Exemplars[15]65.470.054.566.033.6Temporal Self-similarities[16]76.477.673.668.866.1
表3 基于運動與結(jié)構(gòu)特征嵌入方法在UCF Sports數(shù)據(jù)集性能 %
由表3可知,在UCF Sports數(shù)據(jù)集上,本文所提出的方法優(yōu)于Weinland 所提出的方法[12]。與最新的深度學習結(jié)合雙向LSTM方法[19]相比,在沒有注意力機制的前提下,本文提出的方法性能略優(yōu)于該方法,但深度模型結(jié)合雙向LSTM模型在結(jié)合注意力機制以及中心損失函數(shù)的前提下,其性能優(yōu)于本文提出方法,這在一定程度上說明了深度學習方法的有效性。
本文提出的基于運動與結(jié)構(gòu)特征嵌入方法,在充分考慮運動形態(tài)變化以及視頻三維體在時空投影后保留的平面結(jié)構(gòu)信息的基礎(chǔ)上,結(jié)合反映人眼多尺度分析的高斯金字塔和中心-環(huán)繞的邊緣物體成像機理,利用Gabor濾波器和最大池化提取特征描述符,并通過判別局部對齊方法將描述符嵌入到低維空間,在保證系統(tǒng)性能的同時提高運算效率。通過在IXMAS數(shù)據(jù)集和真實的UCF Sports數(shù)據(jù)集上的實驗分析,結(jié)果表明所提出方法的有效性。