国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多特征融合的人體行為識(shí)別?

2019-11-12 06:38:34
關(guān)鍵詞:梯度方向光流識(shí)別率

劉 昕 張 冰

(江蘇科技大學(xué)電信信息學(xué)院 鎮(zhèn)江 212003)

1 引言

如今的生活中,人們對(duì)計(jì)算機(jī)的依賴(lài)程度越來(lái)越深,視頻作為傳遞信息的載體也具有獲取快捷、內(nèi)容豐富、表現(xiàn)直接等突出優(yōu)勢(shì)。而基于視頻的人體行為識(shí)別主要是通過(guò)計(jì)算機(jī)對(duì)外部傳感器采集到的視頻序列,采用模板匹配、狀態(tài)空間、基于模型等方法進(jìn)行處理、分析、學(xué)習(xí)并理解其中人的動(dòng)作行為。近年來(lái),為了進(jìn)一步提高識(shí)別率,Niebles[1]等提出了將幾何信息引入到概率潛在語(yǔ)義分析模型中,這類(lèi)高層語(yǔ)義分析方法可以有效提高識(shí)別率[2],但同時(shí)存在復(fù)雜度高,耗時(shí)長(zhǎng)等問(wèn)題。因此,如何在提高識(shí)別率的同時(shí)又將計(jì)算復(fù)雜度控制在一定范圍內(nèi),就成為了當(dāng)前研究行為識(shí)別的焦點(diǎn)之一[3],而特征融合恰好可以解決這一問(wèn)題。

單一的特征雖然也可以較為準(zhǔn)確地描述視頻中人體行為的運(yùn)動(dòng)信息,但是它只能表達(dá)動(dòng)作的部分屬性,不同的特征描述的視頻信息的側(cè)重點(diǎn)也不同,所以?xún)H僅使用單一的特征表達(dá)的信息比較片面,無(wú)法準(zhǔn)確全面地描述人體運(yùn)動(dòng),從而限制了行為識(shí)別準(zhǔn)確度的提高。多特征融合將多種信息以一定的方式進(jìn)行合并,使不同的信息相互補(bǔ)充,既可以更加準(zhǔn)確地表征運(yùn)動(dòng),又可以減少信息冗余,在精度和效率上都有較大的優(yōu)勢(shì)。本文提出了一種基于特征融合的描述方法,選取三維梯度方向直方圖(3DHOG)與三維光流方向直方圖(3DHOF)作為特征融合的基礎(chǔ)。

2 人體行為識(shí)別框架

本文主要對(duì)人體行為識(shí)別技術(shù)進(jìn)行探究,那么對(duì)人體的特征提取是必不可少的。特征一般可以分為全局特征和局部特征。相對(duì)于全局特征,局部特征具有良好的魯棒性,而時(shí)空興趣點(diǎn)就是常用的局部特征之一[4]。在對(duì)運(yùn)動(dòng)人體提取到興趣點(diǎn)之后,采用融合了三維梯度直方圖(3DHOG)與三維光流方向直方圖(3DHOF)的新特征描述子對(duì)提取到的興趣點(diǎn)進(jìn)行量化描述,得到一個(gè)多維特征向量。對(duì)該特征使用視覺(jué)詞袋模型BOW 進(jìn)行降維處理[5],最終通過(guò)支持向量機(jī)SVM進(jìn)行識(shí)別[6]。

圖1 人體行為識(shí)別框架

2.1 背景分割

人體行為識(shí)別過(guò)程中,運(yùn)動(dòng)中的人體才是研究目標(biāo),而時(shí)空興趣點(diǎn)的檢測(cè)對(duì)復(fù)雜背景較為敏感。因此,在對(duì)視頻序列的處理中,如何減少來(lái)自背景中的無(wú)關(guān)興趣點(diǎn)十分重要。背景減除法在獲取視頻中人體運(yùn)動(dòng)部分和去除無(wú)關(guān)背景信息方面,能夠發(fā)揮很好的效果。但是,對(duì)于視頻來(lái)說(shuō),如果攝像機(jī)靜止,場(chǎng)景固定,就可以認(rèn)為背景是已知的,然而實(shí)際情況下,視頻的背景也會(huì)發(fā)生變化,那么背景模型的建立和不斷更新就顯得尤為重要。為了解決這一問(wèn)題,本文采用混合高斯背景建模的方法提取出前景[7],可提取出完整的前景目標(biāo),如圖2(a)所示。

圖2(a)中是混合高斯背景建模法提取的前景目標(biāo),(b)是KTH數(shù)據(jù)庫(kù)中walk的一幀。

圖2 (a)混合高斯背景建模法提取的前景目標(biāo);(b)KTH數(shù)據(jù)庫(kù)中walk的一幀

2.2 提取時(shí)空興趣點(diǎn)

在對(duì)圖像序列的處理過(guò)程中,總是關(guān)注變化較為明顯的部分。因此,我們對(duì)圖像中像素點(diǎn)變化強(qiáng)烈的點(diǎn)非常感興趣,這些變化強(qiáng)烈的像素點(diǎn)包含了圖像的大部分信息,目標(biāo)可以用這些興趣點(diǎn)進(jìn)行可區(qū)別的表示。本文采用局部特征對(duì)目標(biāo)信息進(jìn)行表示,這樣可以有效避免目標(biāo)遮擋、目標(biāo)形態(tài)變化等復(fù)雜情況。

比較主流的興趣點(diǎn)檢測(cè)有3D-Harris時(shí)空興趣點(diǎn)檢測(cè)算法,該算法對(duì)于變化強(qiáng)烈的局部特征,具有很好的提取效果,但是該算法得到的時(shí)空興趣點(diǎn)在數(shù)量上較少,只能在動(dòng)作方向發(fā)生改變時(shí)才能發(fā)揮更好的作用。對(duì)于一些變化程度較小的運(yùn)動(dòng)不能夠有效提取到足夠的興趣點(diǎn)。雖然視頻處理提倡使用稀疏的局部時(shí)空特征,但是獲得的時(shí)空興趣點(diǎn)太少時(shí),就不能把視頻中的運(yùn)動(dòng)信息表述清楚。為了彌補(bǔ)這一缺點(diǎn),本文采用Dollar 時(shí)空興趣點(diǎn)檢測(cè)[8],該方法檢測(cè)到的時(shí)空興趣點(diǎn)要比3D-Harris算法提取到的興趣點(diǎn)稠密的多,具體原理如下:

I(x,y,t)為一個(gè)視頻序列,R為響應(yīng)函數(shù)

其中,g( x,y;σ2)用來(lái)進(jìn)行空間域?yàn)V波,是一個(gè)二維高斯平滑核函數(shù):

用Gabor 濾波器對(duì)時(shí)間維度進(jìn)行濾波,hev和hod是一對(duì)正交的Gabor濾波器:

實(shí)驗(yàn)過(guò)程中,判斷像素點(diǎn)是否為時(shí)空興趣點(diǎn),要先設(shè)定Dollar 算法的閾值λ,將響應(yīng)函數(shù)R 的局部最大值與閾值λ 的大小進(jìn)行比較,若響應(yīng)函數(shù)值大于λ 就認(rèn)為該點(diǎn)為時(shí)空興趣點(diǎn)。設(shè)置λ 的大小就可以控制時(shí)空興趣點(diǎn)的數(shù)量。

3 時(shí)空興趣點(diǎn)描述

3.1 3DHOG描述子

3DHOG 即三維空間的梯度方向直方圖[9],它是二維HOG 描述在三維空間的繼承與擴(kuò)展,該描述子繼承了其在二維平面上,對(duì)光照變化的良好抵抗性。由于時(shí)空興趣點(diǎn)在不同時(shí)間和空間尺度下,對(duì)其領(lǐng)域進(jìn)行描述時(shí),所描述的立體大小是不同的,因此描述子所描述的三維空間區(qū)域隨著當(dāng)前的時(shí)間尺度和空間尺度的變化而變化[10]。

為了得到三維空間的梯度,這里使用積分視頻,方便計(jì)算和實(shí)現(xiàn)。

1)計(jì)算梯度

v(x,y,t)是一個(gè)視頻序列,vx、vy、vt分別是對(duì)x、y、t 方向的偏導(dǎo),則積分視頻可以定義為

a=(x,y,t,w,h,l)T表示寬、高、長(zhǎng)分別為w、h、l的視頻立方體,a=(ax,ay,at)T表示平均梯度,其中:

2)量化梯度

為了統(tǒng)計(jì)梯度向量直方圖,需要將向量根據(jù)方向量化到不同的通道內(nèi),量化過(guò)程與二維平面中量化n 個(gè)方向的梯度類(lèi)似,在三維空間中,實(shí)際上就是把正多邊形變?yōu)檎嗝骟w。

一個(gè)正n 面體,在三維歐式坐標(biāo)中,使其中心對(duì)應(yīng)坐標(biāo)的原點(diǎn),通過(guò)映射,將平均梯度映射到正多面體每個(gè)面的中心。

pi=( p1,p2,…pn)T(i=1,2,…n)表示正n 面體的中心,定義向量P

3)直方圖的建立

定義一個(gè)立方體快C=(xc,yc,tc,wc,hc,lc)T,劃分的子塊大小為S×S×S ,計(jì)算每個(gè)子塊的直方圖。

如圖2(b)所示,對(duì)每一個(gè)視頻子塊ai,它的平均梯度gˉai經(jīng)過(guò)量化處理后,都會(huì)得到每個(gè)子塊的直方圖qai。最終,視頻序列的直方圖由子塊的直方圖累加得到。

然而,本文的3DHOG 描述是基于時(shí)空興趣點(diǎn)展開(kāi)的,每個(gè)時(shí)空興趣點(diǎn)所在尺度不同,S 的大小也 不 同。即 對(duì) 于 一 個(gè) 時(shí) 空 興 趣 點(diǎn)S=(xs,ys,ts,σs,τs)T,(xs,ys,ts)為它的三維時(shí)空坐標(biāo),σs,τs分別為空間尺度和時(shí)間尺度,興趣點(diǎn)S 的鄰域?yàn)镽S=(xs,ys,ts,ws,hs,ls)T,其 中 ws=hs=σ0σs2+n1,ls=τ0τs2+n2,參數(shù)σ0,τ0表示了像素與尺度的比例關(guān)系。將像素快RS分成一組M×M×N 個(gè)單元,將每個(gè)單元的梯度方向直方圖按照一定順序組合在一起,形成最終的時(shí)空梯度方向直方圖,即ds=(hc1,hc2,…,hcM×M×N)。

3.2 3DHOF描述子

光流反映了像素運(yùn)動(dòng)的瞬時(shí)速度,代表了圖像序列中相鄰序列之間的運(yùn)動(dòng)信息,HOG 描述子是對(duì)像素點(diǎn)的梯度方向進(jìn)行統(tǒng)計(jì),而HOF 描述子就是對(duì)像素點(diǎn)的光流信息進(jìn)行統(tǒng)計(jì)。3DHOF 描述子則是在時(shí)間和空間對(duì)光流求取梯度后,再進(jìn)行三維時(shí)空量化,構(gòu)建三維光流梯度方向直方圖特征[11~12]。具體方法如下:

1)稠密光流提取

步驟一:對(duì)視頻幀構(gòu)建尺度總數(shù)為Numδ的圖像金字塔,相鄰圖層之間的比率為1 √2。視頻幀在不同尺度下每個(gè)w 像素進(jìn)行網(wǎng)格采樣,獲得稠密采樣點(diǎn)。然后選取特征角點(diǎn),本文采用Dollar 時(shí)空興趣點(diǎn)檢測(cè)法對(duì)稠密采樣點(diǎn)進(jìn)行篩選,去除平滑區(qū)域的采樣點(diǎn),其中λ 的取值方法在2.2 節(jié)中有具體描述。

步驟二:去除靜止角點(diǎn),假設(shè)采樣點(diǎn)處的光流flowp=( )flowpx,flowpy,如果∥flowp∥≥Tflow,則將該點(diǎn)作為興趣點(diǎn)并記入興趣點(diǎn)總數(shù)Nump,否則認(rèn)為該點(diǎn)不能作為興趣點(diǎn)。

步驟三:特征點(diǎn)跟蹤,具體方法如下:對(duì)t 時(shí)刻的圖像It,若計(jì)算得到該點(diǎn)的稠密光流為flowt=(ut,vt),其中ut,vt分別為t 時(shí)刻光流在水平和垂直方向上的分量,則圖像It中的一個(gè)像素點(diǎn)Pt=(xt,yt),在圖像It+1中的跟蹤位置Pt+1為

其中,M 是一個(gè)中值濾波器,中值濾波相較于線性濾波更加魯棒,對(duì)處于運(yùn)動(dòng)邊界的點(diǎn)也能實(shí)現(xiàn)很好的軌跡跟蹤[13]。

2)3DHOF特征提取算法

本文中分別在時(shí)間和空間對(duì)光流求梯度,再進(jìn)行三維時(shí)空量化,構(gòu)建三維光流梯度方向直方圖,具體步驟如下:

步驟一:獲取視頻幀 fi的稠密光流圖像flowi(x,y)。

步驟二:根據(jù)獲得的稠密軌跡點(diǎn),分別計(jì)算低i幀中每個(gè)軌跡點(diǎn)在x,y,t三個(gè)方向上的光流梯度。

步驟三:梯度的量化,獲取光流梯度量化的方向bin 和模值q,計(jì)算光流矢量與坐標(biāo)軸之間的夾角,根據(jù)角度將其投影到對(duì)應(yīng)的直方圖bin 中,根據(jù)模值進(jìn)行加權(quán)。

步驟四:首先將視頻分為若干小的連通區(qū)域si,然后計(jì)算每個(gè)連通區(qū)域的光流直方圖,并將所有區(qū)域的直方圖連接得到3DHOF特征描述子。

4 特征融合

在特征提取中,HOG 特征描述子是對(duì)細(xì)胞(cell)中的每個(gè)像素點(diǎn)的梯度方向進(jìn)行統(tǒng)計(jì),而HOF特征描述子是對(duì)每個(gè)像素點(diǎn)的光流進(jìn)行統(tǒng)計(jì),將二維圖像中的處理方法擴(kuò)展到三維空間中,不同點(diǎn)在于二維圖像中的細(xì)胞單元(cell)在三維時(shí)空域中變?yōu)榱Ⅲw塊(Patch)。每個(gè)立體快的處理方法如下:實(shí)驗(yàn)中,將每個(gè)立方體分為20 個(gè)細(xì)胞,3DHOG使用4 個(gè)bin,3DHOF 使用5 個(gè)bin,則梯度方向直方圖為80 維,光流直方圖為100 維,再將兩個(gè)特征拼接起來(lái),成為融合特征。

本文中,先用Dollar 時(shí)空興趣點(diǎn)檢測(cè)方法對(duì)輸入的視頻進(jìn)行興趣點(diǎn)檢測(cè),得到興趣點(diǎn)的位置坐標(biāo)(x,y,t)。以檢測(cè)到的時(shí)空興趣點(diǎn)為中心向三維空間進(jìn)行鄰域擴(kuò)充,得到一個(gè)立方體空間P,立方體大小為(H,W,T),用3DHOG 和3DHOF 描述子進(jìn)行描述,得到時(shí)空特征向量L。然后以立方體P 的8 個(gè)頂點(diǎn)為中心進(jìn)行鄰域擴(kuò)充,得到P1,P2…P8八個(gè)立方體,再次使用3DHOG 和3DHOF描述子進(jìn)行特征描述,得到L1,L2…L8八個(gè)特征向量。最后,將之前得到的特征向量L 與這八個(gè)特征向量拼接在一起,融合后的特征向量為F=(L,L1,L2…L8)。

5 實(shí)驗(yàn)結(jié)果與析

本文利用Weizmann 數(shù)據(jù)庫(kù)和KTH 數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)評(píng)估,實(shí)驗(yàn)在Matlab 2014a 編程環(huán)境中進(jìn)行。Weizmann 數(shù)據(jù)庫(kù)一共包括90 段視頻,這些視頻分別由9 個(gè)人執(zhí)行10 個(gè)不同的動(dòng)作(bend、jack、jump、pjump、run、sideways、skip、walk、wave1、wave2),視頻的背景,視角以及攝像頭都是靜止的。實(shí)驗(yàn)采取留一法交叉驗(yàn)證,即依次把每個(gè)人的10 種動(dòng)作作為測(cè)試樣本,剩下的所有動(dòng)作作為訓(xùn)練樣本,整個(gè)實(shí)驗(yàn)過(guò)程重復(fù)10 次。本方法在Weizman 數(shù)據(jù)庫(kù)中的識(shí)別結(jié)果如下圖4 所示,平均識(shí)別率達(dá)到98.82%。

圖4 復(fù)合時(shí)空特征算法在Weimann數(shù)據(jù)集上的混淆矩陣

KTH 視頻數(shù)據(jù)庫(kù)包含6 種行為,包括拍手、揮手、拳擊、慢跑、快跑和走。每種動(dòng)作由25個(gè)人在4個(gè)不同場(chǎng)景中完成,合計(jì)將近600 段視頻,是一個(gè)數(shù)據(jù)量相對(duì)較大的數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)的視頻樣本中包含了尺度變化、光照變化、著裝變化等。本實(shí)驗(yàn)從數(shù)據(jù)庫(kù)中隨機(jī)抽取15 個(gè)人的視頻作為測(cè)試樣本,剩余的10 個(gè)人作為訓(xùn)練樣本,本文方法在KTH 數(shù)據(jù)庫(kù)中的識(shí)別結(jié)果如下圖5 所示,平均識(shí)別率為95.04%。

圖5 復(fù)合時(shí)空特征算法在KTH數(shù)據(jù)集上的混淆矩陣

表1 列出了本文實(shí)驗(yàn)在兩個(gè)不同視頻數(shù)據(jù)庫(kù)上的具體數(shù)據(jù)表現(xiàn)。

表1 本文算法在不同數(shù)據(jù)集中的表現(xiàn)

如表1 結(jié)果所示,在相同的驗(yàn)證方法下,采用復(fù)合時(shí)空特征的識(shí)別率比采用單一特征的識(shí)別率明顯提高,證明了本文采取的特征融合方法的有效性。

表2 列出了本文方法和目前其他方法在Weizmann 數(shù)據(jù)集和KTH 數(shù)據(jù)集上識(shí)別率的比較[14~15]??梢钥闯觯疚牡姆椒ㄈ〉昧溯^高的識(shí)別率。

表2 本文算法與其他算法識(shí)別率的比較

6 結(jié)語(yǔ)

由于基于視頻的人體行為識(shí)別在多個(gè)領(lǐng)域都有廣泛的應(yīng)用和潛在價(jià)值,成為很多領(lǐng)域的熱門(mén)研究課題。本文主要從時(shí)空興趣點(diǎn)的提取和特征描述方面出發(fā),有效減少了背景中無(wú)關(guān)興趣點(diǎn)的數(shù)量。采用了3DHOG 和3DHOF 相融合的復(fù)合特征對(duì)興趣點(diǎn)進(jìn)行描述,仿真實(shí)驗(yàn)證實(shí)本文方法在Weizmann 和KTH 數(shù)據(jù)集上都取得了較高的識(shí)別率,但由于興趣點(diǎn)的提取可能不夠準(zhǔn)確、個(gè)人動(dòng)作差異,不同行為的相似性等原因,仍然存在錯(cuò)判的情況。后期,本文有待通過(guò)獲取更多的數(shù)據(jù)來(lái)消除個(gè)體差異等問(wèn)題帶來(lái)的影響,進(jìn)一步提高算法性能。

猜你喜歡
梯度方向光流識(shí)別率
利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
基于機(jī)器視覺(jué)的鋼軌接觸疲勞裂紋檢測(cè)方法
鐵道建筑(2021年11期)2021-03-14 10:01:48
基于類(lèi)圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
基于梯度方向一致性引導(dǎo)的邊緣檢測(cè)研究
基于物理學(xué)的改善粒子圖像測(cè)速穩(wěn)健光流方法研究
提升高速公路MTC二次抓拍車(chē)牌識(shí)別率方案研究
基于光譜上下文特征的多光譜艦船ROI鑒別方法
基于支持向量機(jī)的分類(lèi)器訓(xùn)練研究
高速公路機(jī)電日常維護(hù)中車(chē)牌識(shí)別率分析系統(tǒng)的應(yīng)用
黄龙县| 迭部县| 伊春市| 井冈山市| 南康市| 霍城县| 扶沟县| 图木舒克市| 梅州市| 遵义县| 顺义区| 新巴尔虎左旗| 吉首市| 彩票| 永和县| 诸城市| 信丰县| 广昌县| 广州市| 光泽县| 榆社县| 安西县| 陆丰市| 丹东市| 碌曲县| 汨罗市| 屯留县| 西贡区| 宝兴县| 宁国市| 临夏县| 广东省| 金溪县| 陇南市| 新乡县| 兴义市| 定结县| 吴忠市| 隆尧县| 乡宁县| 东城区|