劉海華,郝麗芳,諶先敢
(中南民族大學(xué) 生物醫(yī)學(xué)工程學(xué)院,武漢430074)
人體動(dòng)作識(shí)別在智能監(jiān)控、高級(jí)人機(jī)交互和虛擬現(xiàn)實(shí)等方面的廣泛應(yīng)用,使得基于視覺(jué)的動(dòng)作識(shí)別成為當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn).由于人的視覺(jué)系統(tǒng)是一個(gè)復(fù)雜的系統(tǒng),深入了解其處理感知信息的方式,以及模擬該方式實(shí)現(xiàn)準(zhǔn)確而快速的動(dòng)作分類與識(shí)別,是計(jì)算機(jī)視覺(jué)領(lǐng)域研究者共同關(guān)注的研究課題.大腦視覺(jué)皮層信息加工機(jī)制的研究可以追溯到20世紀(jì)中期,Wiese和Hubei于1959年根據(jù)對(duì)貓的視覺(jué)皮層研究,提出了一種基于視覺(jué)皮層的層次結(jié)構(gòu)模型,該模型為模擬生物視制的對(duì)象識(shí)別和分類奠定了理論基礎(chǔ)[1].在此之后,對(duì)視覺(jué)皮層信息處理機(jī)制的研究取得了很多成果.Poggio提出了基于腹側(cè)通路的層次模型,即稱之為HMAX模型并將該模型進(jìn)行了擴(kuò)展,用來(lái)進(jìn)行物體識(shí)別[2].JHuang根據(jù)腹側(cè)通路與背側(cè)通路在組織結(jié)構(gòu)上的相似性,模擬視覺(jué)系統(tǒng)的背側(cè)通路,提出了類似HMAX模型的動(dòng)作識(shí)別層次模型[3].該模型的輸入是一組包含人體動(dòng)作的灰度視頻序列,輸出是一組能表達(dá)視頻中人體動(dòng)作的特征向量.該模型通過(guò)濾波、局部最大化和全局最大化等操作獲取動(dòng)作特征,取得了較好的識(shí)別效果.Schindler 提出了結(jié)合采樣的光流信息和形狀輪廓信息進(jìn)行動(dòng)作識(shí)別的方法[4].該方法為模擬運(yùn)動(dòng)和形狀兩條通路進(jìn)行人體動(dòng)作識(shí)別提供了先例驗(yàn)證,但光流的計(jì)算所需要的時(shí)間較長(zhǎng),識(shí)別的時(shí)效性不高.
Giese和Poggio對(duì)腹側(cè)通路和背側(cè)通路的信息處理在動(dòng)作識(shí)別中的作用進(jìn)行了論證[5],表明兩個(gè)通路在動(dòng)作識(shí)別中都能發(fā)揮作用,但沒(méi)有融合兩個(gè)通路的信息進(jìn)行動(dòng)作識(shí)別.為此,本文提出了一種融合形狀特征和運(yùn)動(dòng)特征的動(dòng)作識(shí)別方法,該方法基于HMAX模型的結(jié)構(gòu),模擬腹側(cè)通路和背側(cè)通路,提取形狀特征和運(yùn)動(dòng)特征,并采用線性的方式融合兩種特征,實(shí)現(xiàn)人體動(dòng)作識(shí)別.在該方法中通過(guò)限定特征小塊的選擇區(qū)域,提高形狀特征和運(yùn)動(dòng)特征的有效性,提高動(dòng)作識(shí)別效率和性能[6].
在視覺(jué)系統(tǒng)雙通道理論中,背側(cè)視覺(jué)通路主要處理運(yùn)動(dòng)信息,而腹側(cè)視覺(jué)通路主要處理形狀信息,且視覺(jué)通路對(duì)信息的處理都是從低級(jí)到高級(jí)分層進(jìn)行的[7,8].由于視覺(jué)皮層的腹側(cè)和背側(cè)通路在組織結(jié)構(gòu)上具有相似性,根據(jù)HMAX模型的結(jié)構(gòu),本文建議的動(dòng)作特征計(jì)算層次模型如圖1所示.
圖1 特征計(jì)算模型結(jié)構(gòu)
該模型分別有運(yùn)動(dòng)信息處理通道和形狀信息處理通道兩條通道,分別進(jìn)行運(yùn)動(dòng)特征和形狀特征計(jì)算,從而提取人體動(dòng)作和形狀特征.兩條特征提取通道主要由交替的簡(jiǎn)單單元(S)和復(fù)雜單元(C)組成,構(gòu)造成4層的層次結(jié)構(gòu),如S1、C1和S2、C2單元.其中S單元的處理是為了增加模型的選擇性,C單元?jiǎng)t主要是通過(guò)最大化操作來(lái)增加特征的空間不變性[3].在此基礎(chǔ)上,將兩個(gè)通道計(jì)算的特征進(jìn)行融合,從而獲取人體動(dòng)作的特征.
由于視覺(jué)皮層感知信息加工的背側(cè)通路始于V1,通過(guò)V2進(jìn)入背內(nèi)側(cè)區(qū)和中顳區(qū)(MT,亦稱V5),然后抵達(dá)頂下小葉[9].因此,運(yùn)動(dòng)特征提取通道主要模擬V1和MT區(qū)域神經(jīng)元的屬性處理視頻中豐富的運(yùn)動(dòng)信息,從而提取動(dòng)作特征.其中S1、C1單元主要模擬V1中的簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞對(duì)運(yùn)動(dòng)信息的加工,而S2、C2模擬MT中的神經(jīng)元獲取運(yùn)動(dòng)特征.
1.1.1 S1單元
計(jì)算模型的第一階段是模擬初級(jí)視覺(jué)皮層中簡(jiǎn)單細(xì)胞對(duì)外界刺激的響應(yīng)計(jì)算,因此,模擬背側(cè)通路中的S1單元是計(jì)算V1中簡(jiǎn)單細(xì)胞對(duì)運(yùn)動(dòng)刺激的響應(yīng),從而獲取運(yùn)動(dòng)信息.由于時(shí)空濾波器可模擬簡(jiǎn)單細(xì)胞的屬性,因此,簡(jiǎn)單細(xì)胞對(duì)運(yùn)動(dòng)刺激的響應(yīng)可通過(guò)時(shí)空濾波器對(duì)視頻序列的操作得到,即:
S1v,θ(x,y,t)=
(1)
其中,I(x,y,t)為輸入的視頻序列,而Fv,θ(x,y,t)為時(shí)空濾波器(其具體定義在文獻(xiàn)[10]中有詳細(xì)表述);v,θ分別表示濾波器的速度和方向;[?]+表示半路修正操作.從式(1)可以看出,輸入視頻圖像I(x,y,t)經(jīng)過(guò)濾波器Fv,θ(x,y,t)可獲取S1單元的響應(yīng),即獲取對(duì)輸入視頻感知的運(yùn)動(dòng)信息.由于時(shí)空濾波器具有多方向多速度屬性,每組v,θ對(duì)應(yīng)于S1單元的1個(gè)實(shí)體.
1.1.2 C1單元
C1單元主要是模擬V1中的復(fù)雜細(xì)胞,通過(guò)對(duì)每個(gè) S1單元所獲運(yùn)動(dòng)信息進(jìn)行局部最大值的匯聚操作,從而獲取對(duì)局部空間形變具有容忍能力的特征.最大化操作的具體步驟是:利用n×n的滑動(dòng)窗口,以間隔為n/2個(gè)像素對(duì)S1單元獲取的運(yùn)動(dòng)信息圖像進(jìn)行采樣,如圖2所示.對(duì)每個(gè)滑動(dòng)窗口采樣所獲取的運(yùn)動(dòng)信息子圖像根據(jù)其強(qiáng)度值進(jìn)行最大化處理,從而獲得該運(yùn)動(dòng)信息子圖像對(duì)應(yīng)的C1運(yùn)動(dòng)特征,其計(jì)算為如下:
(2)
因此,運(yùn)動(dòng)信息圖像C1v,θ(x,y,t)經(jīng)過(guò)式(2)處理后獲取大小為原圖像2/n倍的特征圖.圖2給出了KTH動(dòng)作視頻數(shù)據(jù)庫(kù)中Boxing動(dòng)作視頻序列經(jīng)S1,C1單元的響應(yīng),其中n=8,時(shí)空濾波器選擇4個(gè)方向,2個(gè)速度.
圖2 視頻圖像所對(duì)應(yīng)的S1,C1單元響應(yīng)
1.1.3 特征模板的提取
C1單元獲取了運(yùn)動(dòng)特征圖是處理的中間特征,在訓(xùn)練階段,在C1特征圖中提取特征模板(小塊),為系統(tǒng)下一個(gè)階段的S2特征計(jì)算提供運(yùn)動(dòng)原型.在JHuang模型中,采取隨機(jī)采樣的方法獲取特征小塊,即隨機(jī)選取某視頻的某幀,在該幀的C1區(qū)域隨機(jī)選取特征小塊.該方法具有較強(qiáng)的隨意性,當(dāng)選取的小塊含有較強(qiáng)的運(yùn)動(dòng)信息時(shí),則有利于表達(dá)動(dòng)作;相反,當(dāng)所選小塊在背景上時(shí),則不利于動(dòng)作特征的表達(dá).針對(duì)該問(wèn)題,本文提出限定特征小塊選取區(qū)域的方法選取特征小塊.
在選取特征小塊時(shí),選擇運(yùn)動(dòng)目標(biāo)輪廓位置的小塊更能有效地表達(dá)動(dòng)作.由于這些位置的運(yùn)動(dòng)能量并不是整個(gè)響應(yīng)中最大的,而是次最大響應(yīng)的,因此,對(duì)不同方向和速度的C1在響應(yīng)求平均,選取C1響應(yīng)為最大響應(yīng)93%~94%的區(qū)域,再?gòu)脑搮^(qū)域中隨機(jī)選取特征小塊,具體的實(shí)現(xiàn)方法如圖3所示.
圖3 特征小塊選取示意圖
1.1.4 S2,C2單元
S2、C2單元分別通過(guò)模板匹配和最大化操作,逐步增加特征的選擇性和不變性.模板匹配的目的是獲取對(duì)動(dòng)作原型較敏感的特征,其操作是由S2單元完成,具體的步驟是將C1響應(yīng)和所有的特征小塊進(jìn)行模板匹配操作,為了獲取稀疏特征,利用歸一化點(diǎn)積來(lái)計(jì)算,其計(jì)算公式由下列(3)式完成:
(3)
其中,C1(x,y,t)為C1單元所獲特征圖像,Pp(x′,y′)為所選取的第p個(gè)特征小塊的特征矢量.如果特征小塊大小為n×n,則矢量的維數(shù)為NvNθn2.從式(3)可見(jiàn)將視頻圖像的C1單元響應(yīng)C1v,θ和Pp進(jìn)行匹配得到動(dòng)作敏感特征S2p(x,y,t).
為了增強(qiáng)特征在尺度上和位移上的不變性,須進(jìn)行全局最大化操作獲取有效的特征,即將S2單元在所有方向、尺度和位置上響應(yīng)取最大值,這樣能得到代表C1響應(yīng)和運(yùn)動(dòng)原型之間匹配程度的特征向量,即:
C2p(t)=maxx,yS2p(x,y,t),
(4)
對(duì)于P個(gè)運(yùn)動(dòng)原型模板,可獲取P維的特征向量.該向量所包含的元素?cái)?shù)值,反應(yīng)了某幀圖像的C1響應(yīng)和某特征小塊的最佳匹配程度.通過(guò)S1,C1,S2,C2等一系列操作,最終獲得模擬背側(cè)通路的運(yùn)動(dòng)特征向量C2p.
形狀特征提取通道是模擬視覺(jué)皮層的腹側(cè)通路完成.視覺(jué)皮層的腹部通路也起始于視覺(jué)皮層的V1區(qū),依次通過(guò)V2,V4,進(jìn)入下顳葉(IT).根據(jù)生理運(yùn)動(dòng)識(shí)別實(shí)驗(yàn)可以發(fā)現(xiàn),除了背側(cè)通路信息加工所獲取的運(yùn)動(dòng)特征在運(yùn)動(dòng)模式識(shí)別中發(fā)揮重要作用,腹側(cè)通路信息加工所獲取的形狀特征對(duì)運(yùn)動(dòng)模式識(shí)別也產(chǎn)生影響.因此,在特征計(jì)算模型中增加了腹側(cè)通路的信息處理,從而獲取運(yùn)動(dòng)人體的形狀特征,從而提高動(dòng)作識(shí)別的準(zhǔn)確性.由圖1可知形狀特征的提取也由4個(gè)單元完成,即S1、C1、S2、C2.S1單元模擬簡(jiǎn)單細(xì)胞對(duì)靜態(tài)刺激的響應(yīng),該單元可使用不同方向和尺度的2D Gabor濾波器實(shí)現(xiàn)[11].因此,視頻序列圖像作用于簡(jiǎn)單細(xì)胞的響應(yīng)可由不同方向和尺度的Gabor濾波器組對(duì)序列圖像的操作完成,即:
(5)
其中,I(x,y)為某時(shí)刻序列圖像,Gσ,θ(x,y)為二維Gabor空間濾波器,*為卷積符號(hào).表達(dá)為:
(6)
(a)Sf1單元響應(yīng) (b)Cf1單元響應(yīng)
為了充分利用時(shí)空特征進(jìn)行動(dòng)作識(shí)別,需要對(duì)時(shí)空特征進(jìn)行特征融合操作,采用線性加權(quán)的方法特進(jìn)行征融合,即將上述提取的運(yùn)動(dòng)特征和形狀特征按式(7)構(gòu)造新的特征向量:
(7)
利用融合運(yùn)動(dòng)特征和形狀特征所構(gòu)建的特征向量來(lái)表達(dá)動(dòng)作.為了對(duì)動(dòng)作進(jìn)行識(shí)別,需要采用合適的分類器.由于支持向量機(jī)(SVM)在模式識(shí)別分類中有著廣泛的應(yīng)用,具有較好的魯棒性,本文選用該分類方法.在測(cè)試過(guò)程中,對(duì)測(cè)試視頻每幀獲得其預(yù)測(cè)標(biāo)簽,通過(guò)對(duì)這些預(yù)測(cè)標(biāo)簽進(jìn)行投票,測(cè)試視頻獲得能表示其動(dòng)作類別的標(biāo)簽,從而實(shí)現(xiàn)視頻序列中動(dòng)作的識(shí)別.
為了驗(yàn)證建議方法的有效性,選取公共的KTH標(biāo)準(zhǔn)視頻數(shù)據(jù)庫(kù)作為實(shí)驗(yàn)數(shù)據(jù)庫(kù).KTH數(shù)據(jù)庫(kù)含有boxing、hand waving、hand clapping、running、jogging、walking等6類動(dòng)作,且這些動(dòng)作由25個(gè)人分別在四個(gè)不同的環(huán)境下完成,從而組成599個(gè)視頻.S1環(huán)境是戶外環(huán)境,S2環(huán)境是伴隨有尺度變化的戶外環(huán)境,S3環(huán)境是戶外環(huán)境,但目標(biāo)著裝不同,S4環(huán)境是伴隨有光線變化的室內(nèi)環(huán)境.
在測(cè)試過(guò)程中,采取5倍交叉驗(yàn)證:將25個(gè)集合隨機(jī)均等劃分成五組,其中每組分別輪流作為測(cè)試集合,剩下的其他組作為訓(xùn)練集,最終的識(shí)別結(jié)果取5次結(jié)果的平均值.
另外,由于信息檢測(cè)與特征提取過(guò)程中各種參數(shù)設(shè)置將直接影響測(cè)試性能和效率,為了測(cè)試的統(tǒng)一性,對(duì)所涉及的參數(shù)進(jìn)行設(shè)置,其中運(yùn)動(dòng)通道中時(shí)空濾波器的參數(shù)設(shè)置分別為:速度設(shè)置為3和6,方向設(shè)置為0°、90°、180°和270°;而在形狀通道的2DGabor濾波器的方向參數(shù)設(shè)置為0°、45°、90°、135°,尺度設(shè)置為.在特征小塊提取階段,特征小塊的尺寸大小設(shè)置分別為,兩通道特征小塊的提取數(shù)目均為70.
2.2.1 不同加權(quán)系數(shù)的識(shí)別性能
為了評(píng)估形狀特征和運(yùn)動(dòng)特征對(duì)動(dòng)作識(shí)別性能的影響,利用式(7)對(duì)形狀特征和運(yùn)動(dòng)特征在識(shí)別中所占比例不同時(shí)的性能進(jìn)行分析.圖5給出了不同加權(quán)因子與識(shí)別性能的曲線.從圖5顯示的曲線可知,當(dāng)形狀特征達(dá)到合適的比例時(shí),所獲得的識(shí)別性能較好;而當(dāng)形狀特征的比重過(guò)大,運(yùn)動(dòng)特征相對(duì)減少,則會(huì)降低動(dòng)作識(shí)別效果.這表明動(dòng)作識(shí)別的過(guò)程中,運(yùn)動(dòng)特征信息占主導(dǎo)作用,而加入適當(dāng)比例的形狀特征信息有助于更加準(zhǔn)確的進(jìn)行識(shí)別.根據(jù)測(cè)試數(shù)據(jù)表明當(dāng)加權(quán)系數(shù)λ為0.3時(shí),識(shí)別效果達(dá)到最佳.
圖5 不同加權(quán)系數(shù)對(duì)識(shí)別性能的影響
2.2.2 識(shí)別性能比較
為了驗(yàn)證建議模型的有效性,將其與JHuang模型、Schindler模型進(jìn)行比較[3,4].為了保證性能比較的公平性,所選擇的視頻圖像幀數(shù)與JHuang模型選取幀數(shù)相同,即50幀,且時(shí)空濾波器參數(shù)設(shè)置一致時(shí).表1給出了建議模型與JHuang模型的動(dòng)作識(shí)別性能.從表1顯示的數(shù)據(jù)可以發(fā)現(xiàn),建議模型對(duì)KTH數(shù)據(jù)庫(kù)中4個(gè)條件下的動(dòng)作識(shí)別性能均高于JHuang的模型的性能,這同樣表明了加入適當(dāng)比例的形狀特征能更有效地進(jìn)行動(dòng)作識(shí)別.由表1可以看出本文建議的模型的性能略高于Schindler模型的識(shí)別性能.Schindler模型在選取小塊的過(guò)程中同JHuang模型方法相同,仍采用隨機(jī)選取的方法,其小塊數(shù)目是500.在此基礎(chǔ)上,運(yùn)用線性PCA進(jìn)行篩選,獲取有效的特征提取.而本文建議模型是根據(jù)時(shí)空濾波器提取運(yùn)動(dòng)信息,限定特征小塊的選取區(qū)域,提高特征小塊選取的有效性,其在限定區(qū)域的特征小塊隨機(jī)選取的特征小塊數(shù)量為70個(gè),從而減少了計(jì)算量,提高了識(shí)別的效率.
表1 建議模型與其他模型識(shí)別性能對(duì)比
2.2.3 幀數(shù)對(duì)識(shí)別性能的影響
在進(jìn)行動(dòng)作識(shí)別時(shí),大多數(shù)的動(dòng)作識(shí)別系統(tǒng)使用整個(gè)視頻,或較多的視頻序列圖像提取特征,這不僅增加了特征計(jì)算所需要的時(shí)間,而且不能滿足實(shí)際應(yīng)用的需求.為了提高動(dòng)作識(shí)別效率,滿足應(yīng)用要求需要使用較少幀的視頻圖像進(jìn)行快速識(shí)別.為此,在本文建議的模型中采用連續(xù)7幀圖像作為動(dòng)作識(shí)別的輸入.表2給出了本文建議的模型與Schindler模型[12]的動(dòng)作識(shí)別性能結(jié)果.從表2的實(shí)驗(yàn)結(jié)果表明,當(dāng)融合形狀特征和運(yùn)動(dòng)特征時(shí),運(yùn)用較少幀數(shù)圖像的特征提取可達(dá)到較好的識(shí)別效果.雖然本文建議模型的識(shí)別性能在KTH數(shù)據(jù)庫(kù)中S3環(huán)境下的識(shí)別性能比Schindler模型的識(shí)別性能低,但從整體的平均識(shí)別性能上看,兩個(gè)模型的識(shí)別性能是相當(dāng)?shù)?由于本文建議模型特征小塊選取的數(shù)量比Schindler模型的數(shù)量少,計(jì)算量較少,更適合實(shí)際應(yīng)用.
表2 幀數(shù)為7時(shí)建議模型與Schindler模型識(shí)別行為對(duì)比
在動(dòng)作識(shí)別中,特征提取是一個(gè)關(guān)鍵的步驟.為此,本文提出了融合形狀特征和動(dòng)作特征的方法進(jìn)行動(dòng)作識(shí)別,并且采用模擬視覺(jué)皮層信息處理的方法構(gòu)建了動(dòng)作時(shí)空特征提取計(jì)算模型.該方法通過(guò)模擬視覺(jué)皮層在空間上相對(duì)獨(dú)立,在組織結(jié)構(gòu)上類似的腹側(cè)通路和背側(cè)通路進(jìn)行運(yùn)動(dòng)人體的形狀特征和運(yùn)動(dòng)特征提取;同時(shí)根據(jù)形狀特征和運(yùn)動(dòng)特征對(duì)動(dòng)作識(shí)別的影響,采用線性的方法融合時(shí)空特征,以此作為表達(dá)動(dòng)作的特征向量,并采用支持向量機(jī)進(jìn)行動(dòng)作分類,獲得了較好的動(dòng)作識(shí)別效果.在特征計(jì)算過(guò)程中,為了降低計(jì)算負(fù)載,采用運(yùn)動(dòng)信息較顯著的區(qū)域中選取特征小塊,從而增強(qiáng)了所選特征小塊的有效性.
雖然該模型能較好地模擬視覺(jué)皮層的信息處理機(jī)制,有效提高視頻動(dòng)作的識(shí)別性能.但是,如何更有效利用時(shí)、空特征之間的關(guān)系,在更復(fù)雜的場(chǎng)景情況下準(zhǔn)確地識(shí)別動(dòng)作,有待進(jìn)一步的研究.人類視覺(jué)系統(tǒng)是一個(gè)功能強(qiáng)大的復(fù)雜系統(tǒng),如何搭建更完善的模型去模擬整個(gè)視覺(jué)系統(tǒng),實(shí)現(xiàn)動(dòng)作更準(zhǔn)確地識(shí)別有待進(jìn)一步深入探索.
[1]Hubel D H,Wiesel T N.Receptive fields of single neurones in the cat's striate cortex[J].The Journal of physiology,1959,148(3): 574-591.
[2]Riesenhuber M,Poggio T.Hierarchical models of object recognition in cortex[J].Nature neuroscience,1999,2(11): 1019-1025.
[3]Jhuang H,Serre T,Wolf L,et al.A biologically inspired system for action recognition [C]// IEEE .Computer Vision,2007.ICCV2007.IEEE 11th International Conference on .Rio de Janeiro:IEEE,2007: 1-8.
[4]Schindler K,Van Gool L.Combining densely sampled form and motion for human action recognition[M].Berlin : Pattern Recognition,2008: 122-131.
[5]Giese M A,Poggio T.Neural mechanisms for the recognition of biological movements[J].Nature Reviews Neuroscience,2003,4(3): 179-192.
[6]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,1998,20(11): 1254-1259.
[7]Niebles J C,Fei-Fei L.A hierarchical model of shape and appearance for human action classification[C]// IEEE .Computer Vision and Pattern Recognition,2007.CVPR2007.IEEE Conference on.Minneapolis: IEEE,2007: 1-8.
[8]Riesenhuber M,Poggio T.Hierarchical models of object recognition in cortex[J].Nature neuroscience,1999,2(11): 1019-1025.
[9]湯毓婧.基于人腦視覺(jué)感知機(jī)理的分類和識(shí)別[D].南京:南京理工大學(xué),2009.
[10]Simoncelli E P,Heeger D J.A model of neuronal responses in visual area MT[J].Vision Research,1998,38(5): 743-761.
[11]Jones J P,Palmer L A.An evaluation of the two-dimensional Gabor filter model of simple receptive fields in cat striate cortex[J].Journal of Neurophysiology,1987,58(6): 1233-1258.
[12]Schindler K,Van Gool L.Action snippets: How many frames does human action recognition require?[C]// IEEE.Computer Vision and Pattern Recognition,2008.CVPR 2008.IEEE Conference on.Anchorage: IEEE,2008: 1-8.