国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時(shí)空信息和非負(fù)成分表示的動(dòng)作識(shí)別

2016-09-21 05:21王健弘章品正姜龍玉羅立民
關(guān)鍵詞:識(shí)別率底層時(shí)空

王健弘  張 旭  章品正  姜龍玉  羅立民

(東南大學(xué)影像科學(xué)與技術(shù)實(shí)驗(yàn)室, 南京 210096)

?

基于時(shí)空信息和非負(fù)成分表示的動(dòng)作識(shí)別

王健弘 張旭 章品正 姜龍玉 羅立民

(東南大學(xué)影像科學(xué)與技術(shù)實(shí)驗(yàn)室, 南京 210096)

為充分利用時(shí)空分布信息及視覺(jué)單詞間的關(guān)聯(lián)信息,提出了一種新的時(shí)空-非負(fù)成分表示方法(ST-NCR)用于動(dòng)作識(shí)別.首先,基于視覺(jué)詞袋(BoVW)表示,利用混合高斯模型對(duì)每個(gè)視覺(jué)單詞所包含的局部特征的時(shí)空位置分布進(jìn)行建模,計(jì)算時(shí)空Fisher向量(STFV)來(lái)描述特征位置的時(shí)空分布;然后,利用非負(fù)矩陣分解從BoVW表示中學(xué)習(xí)動(dòng)作基元并對(duì)動(dòng)作視頻進(jìn)行編碼.為有效融合時(shí)空信息,采用基于圖正則化的非負(fù)矩陣分解,并且將STFV作為圖正則化項(xiàng)的一部分.在3個(gè)公共數(shù)據(jù)庫(kù)上對(duì)該方法進(jìn)行了測(cè)試,結(jié)果表明,相比于BoVW表示和不帶時(shí)空信息的非負(fù)成分表示方法,該方法能夠提高動(dòng)作識(shí)別率.

動(dòng)作識(shí)別;非負(fù)成分表示;時(shí)空Fisher向量;視覺(jué)詞袋

人體動(dòng)作識(shí)別是當(dāng)前計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的研究熱點(diǎn)之一,它在視頻分析、視頻檢索、智能監(jiān)控以及人機(jī)交互等領(lǐng)域中有著廣泛的應(yīng)用[1].人體動(dòng)作識(shí)別最關(guān)鍵的問(wèn)題是如何有效并具有區(qū)分性地表示動(dòng)作視頻片段.目前廣泛應(yīng)用的方法是提取視頻中的局部特征并采用視覺(jué)詞袋(BoVW)給出視頻表示.該方法采用碼書中的視覺(jué)單詞對(duì)動(dòng)作視頻中的每一個(gè)局部特征進(jìn)行編碼,然后統(tǒng)計(jì)整段視頻的視覺(jué)單詞直方圖作為該視頻的表示向量.已有許多學(xué)者針對(duì)局部特征進(jìn)行了研究,提出了一些行之有效的特征,如HOG/HOF[2],HOG3D[3],Gist3D[4],以及密集軌跡[5]等.同時(shí),也有學(xué)者從改進(jìn)編碼方式角度來(lái)提高識(shí)別精度,包括局部軟分配[6]、稀疏編碼[7]以及局部約束線性編碼[8]等.

但BoVW方法仍存在一些缺陷:基于BoVW給出的表示向量?jī)H統(tǒng)計(jì)了視覺(jué)單詞的出現(xiàn)頻次,卻未考慮視覺(jué)單詞之間的關(guān)系;該方法還忽略了局部特征的位置分布信息.有效利用這些信息對(duì)于提高動(dòng)作識(shí)別率是有益的.

為解決上述問(wèn)題,本文提出一種基于時(shí)空位置信息和非負(fù)成分表示的動(dòng)作識(shí)別方法.非負(fù)成分表示是一種中層表示方法,采用動(dòng)作基元作為詞典基本單元,每個(gè)動(dòng)作基元由若干相關(guān)的底層視覺(jué)單詞構(gòu)成,通過(guò)非負(fù)矩陣分解(NMF)從訓(xùn)練樣本的BoVW底層特征表示中學(xué)習(xí)得到.時(shí)空信息采用時(shí)空Fisher向量(STFV)表示,時(shí)空Fisher向量描述每一個(gè)視覺(jué)單詞所對(duì)應(yīng)的所有底層局部特征位置的時(shí)空分布.將時(shí)空Fisher向量在計(jì)算非負(fù)成分表示時(shí)加入,得到結(jié)合時(shí)空分布信息的非負(fù)成分表示向量,稱之為時(shí)空-非負(fù)成分表示(ST-NCR).采用時(shí)空-非負(fù)成分表示作為動(dòng)作視頻的最終表征來(lái)訓(xùn)練SVM分類器,實(shí)現(xiàn)動(dòng)作識(shí)別.

1 時(shí)空Fisher向量

考慮到由同一視覺(jué)單詞所描述的底層局部特征的時(shí)空位置分布具有一定的規(guī)律性,本文利用混合高斯模型和Fisher向量描述底層局部特征時(shí)空位置分布以及該分布和視覺(jué)單詞之間的關(guān)系.

首先采用混合高斯模型對(duì)每個(gè)視覺(jué)單詞所包含的底層特征時(shí)空位置分布進(jìn)行建模,設(shè)ln∈R3(n=1,2,…,N)為特征xn∈Rd(n=1,2,…,N)所對(duì)應(yīng)的時(shí)空位置坐標(biāo),視覺(jué)單詞總數(shù)為K,則第k個(gè)視覺(jué)單詞所對(duì)應(yīng)的特征位置分布可表示為

(1)

式中,N(·)表示高斯分布;G為高斯模型的個(gè)數(shù);ωkg,μkg和σkg分別為第g個(gè)高斯模型的混合權(quán)重、均值向量和協(xié)方差矩陣.基于式(1),位置ln的全局分布可表示為

(2)

式中,γn(k)為特征xn分配到視覺(jué)單詞k的權(quán)重.得到位置ln的全局分布后,求取時(shí)空Fisher向量.對(duì)位置ln的全局分布p(ln)求對(duì)數(shù)似然函數(shù)關(guān)于μkg和σkg的梯度,位置ln關(guān)于μkg和σkg的歸一化梯度向量Gμ,kg和Gσ,kg可由如下公式得到:

(3)

(4)

(5)

2 非負(fù)成分表示

非負(fù)成分表示是采用非負(fù)矩陣分解[9]對(duì)BoVW底層特征表示進(jìn)行分解得到的.非負(fù)矩陣分解是一種矩陣分解方法,它將一個(gè)非負(fù)矩陣分解為2個(gè)非負(fù)矩陣的乘積.非負(fù)矩陣分解能夠降低數(shù)據(jù)維度,同時(shí),相對(duì)于其他矩陣分解方法,由于有非負(fù)約束的存在,數(shù)據(jù)由基向量疊加表達(dá),具有一定的物理意義和可解釋性,并且合乎大腦感知的直觀體驗(yàn).

令yi∈RM(i=1,2,…,N)為第i個(gè)視頻的一個(gè)M維的底層特征表示向量,Y=[y1,y2,…,yN]∈RM×N為由所有視頻的底層特征表示組成的矩陣.對(duì)Y進(jìn)行非負(fù)矩陣分解,即最小化以下目標(biāo)函數(shù):

(6)

式中,U=[u1,u2,…,uK]∈RM×K和V=[v1,v2,…,vN]∈RK×N為非負(fù)矩陣.若將U的每一列定義為一個(gè)動(dòng)作基元,則列向量中每一個(gè)元素對(duì)應(yīng)一個(gè)底層特征的視覺(jué)單詞,動(dòng)作基元可以看成是由多個(gè)相關(guān)的底層特征視覺(jué)單詞共同構(gòu)成的中層特征表示.矩陣V中的列向量vi則可以看作是第i個(gè)視頻基于動(dòng)作基元詞典U的中層表示向量,本文將vi稱之為視頻i的非負(fù)成分表示.

非負(fù)成分表示相對(duì)于BoVW底層特征表示而言更加簡(jiǎn)潔.通過(guò)非負(fù)矩陣分解可以找出視覺(jué)單詞間的關(guān)聯(lián),同時(shí)提取出真正有效通用的視覺(jué)單詞,抑制一些僅存在于少數(shù)樣本,對(duì)后續(xù)分類作用不大的視覺(jué)單詞.

2.1時(shí)空-非負(fù)成分表示

常用的特征融合方法有特征表示融合和核融合.特征表示融合是在底層或中層特征表示時(shí)將2種特征向量拼接.由于時(shí)空Fisher向量維數(shù)較大,特征表示融合方法得到的表示向量維數(shù)過(guò)大,不利于后續(xù)計(jì)算,而且會(huì)導(dǎo)致結(jié)果主要受時(shí)空Fisher向量的影響.核融合首先分別求取底層特征和時(shí)空Fisher向量的非負(fù)成分表示,在SVM分類前計(jì)算核矩陣,將2個(gè)核矩陣融合后再進(jìn)行分類.對(duì)于核融合,由于2種特征非負(fù)成分表示分開(kāi)求取,因此同一樣本中底層特征和時(shí)空Fisher向量之間的相互關(guān)系在中層表示中得不到體現(xiàn).

為解決以上問(wèn)題,本文提出一種新的融合方法,即采用基于圖正則化的非負(fù)矩陣分解(GNMF)[10]計(jì)算動(dòng)作基元矩陣U以及非負(fù)成分表示矩陣V,同時(shí)將時(shí)空Fisher向量作為圖正則化項(xiàng)的一部分,與底層特征在圖正則化項(xiàng)內(nèi)融合.該方法不僅有效融合了時(shí)空分布信息,而且非負(fù)成分表示的向量維度也沒(méi)有增加.由此得到的非負(fù)成分表示被稱為時(shí)空-非負(fù)成分表示.該方法的目標(biāo)函數(shù)如下:

(7)

(8)

(9)

式中,δ為寬度參數(shù).

式(7)中的β用來(lái)調(diào)節(jié)WF和WD所占比重,當(dāng)β=1時(shí),式(7)退化為標(biāo)準(zhǔn)形式的GNMF.GNMF通過(guò)添加圖正則化項(xiàng)保證了數(shù)據(jù)在變換前后的空間結(jié)構(gòu)具有相似性,即式(7)保證了如果2個(gè)同類樣本底層特征表示和時(shí)空分布相似,那么兩者的時(shí)空-非負(fù)成分表示也依然是相似的.

2.2時(shí)空-非負(fù)成分表示計(jì)算方法

(10)

該目標(biāo)函數(shù)與標(biāo)準(zhǔn)GNMF簡(jiǎn)化后的形式相同,可采用交替迭代的方法求解U和V,迭代規(guī)則如下:

(11)

(12)

式中,符號(hào)⊙表示兩矩陣對(duì)應(yīng)元素相乘;除法表示兩矩陣對(duì)應(yīng)元素相除.

對(duì)于測(cè)試集的視頻樣本,首先計(jì)算所有樣本的底層特征表示Yt={yt1,yt2,…,ytNt}以及時(shí)空Fisher向量Zt={zt1,zt2,…,ztNt},其中Nt為測(cè)試視頻樣本的數(shù)目.最簡(jiǎn)單的求取中層表示的方法是根據(jù)詞典U直接計(jì)算Vt=U?Yt,符號(hào)?表示偽逆.但是這種方法求出的中層表示無(wú)法保證非負(fù)特性,同時(shí)該方法忽略了測(cè)試樣本的時(shí)空分布信息以及測(cè)試集與訓(xùn)練集之間的關(guān)系.本文考慮依然采用GNMF求取測(cè)試集的非負(fù)成分表示Vt,將測(cè)試集和訓(xùn)練集的數(shù)據(jù)同時(shí)代入式(7),則目標(biāo)函數(shù)變?yōu)槿缦滦问?

(13)

式中,符號(hào)^表示矩陣同時(shí)包含訓(xùn)練集和測(cè)試集的數(shù)據(jù).對(duì)于式(13),U和V已知,測(cè)試集的非負(fù)矩陣Vt=(vt(ij))為變量,求解Vt使目標(biāo)函數(shù)最小化.采用拉格朗日乘子法求解,設(shè)φij為約束vt(ij)≥0所對(duì)應(yīng)的拉格朗日乘子,Φ=(φij).構(gòu)造如下拉格朗日函數(shù)L:

(14)

將拉格朗日函數(shù)L對(duì)Vt求一階偏導(dǎo),可得

(15)

(16)

進(jìn)一步推導(dǎo),可得到Vt的迭代更新規(guī)則:

(17)

式中,W2和D2為與L2相對(duì)應(yīng)的矩陣分塊.式(17)體現(xiàn)了測(cè)試集的時(shí)空-非負(fù)成分表示計(jì)算不僅依賴于動(dòng)作基元字典U,同時(shí)也考慮了時(shí)空分布信息以及測(cè)試集與訓(xùn)練集各樣本間的相關(guān)性,這保證了訓(xùn)練集和測(cè)試集時(shí)空-非負(fù)成分表示的一致性.圖1給出了整個(gè)方法的實(shí)現(xiàn)流程圖.

圖1 本文方法的實(shí)現(xiàn)流程圖

3 實(shí)驗(yàn)結(jié)果與分析

3.1數(shù)據(jù)庫(kù)及參數(shù)設(shè)置

本實(shí)驗(yàn)采用3個(gè)通用的動(dòng)作識(shí)別評(píng)估數(shù)據(jù)庫(kù)KTH,YouTube和HMDB51來(lái)驗(yàn)證本文方法的有效性.KTH數(shù)據(jù)庫(kù)[11]包含25人在4個(gè)不同場(chǎng)景下的6類動(dòng)作(Walking, Jogging, Running, Boxing, Waving, Clapping),共計(jì)600個(gè)視頻.實(shí)驗(yàn)設(shè)置同文獻(xiàn)[11],600個(gè)視頻分為2 391段,將16人的動(dòng)作片段作為訓(xùn)練集,其余9人的動(dòng)作片段作為測(cè)試集.YouTube數(shù)據(jù)庫(kù)[12]包含11類動(dòng)作,每一類動(dòng)作被分為25個(gè)獨(dú)立的組,每組4~8個(gè)視頻,不同組的視頻是在不同環(huán)境下拍攝的,共計(jì)1 168個(gè)視頻片段.視頻全部取自YouTube網(wǎng)站,分辨率低,背景復(fù)雜.實(shí)驗(yàn)采用留一法交叉驗(yàn)證[12],每次一組視頻用作測(cè)試,其余24組作為訓(xùn)練集,取25次結(jié)果的均值作為最終識(shí)別率.HMDB51數(shù)據(jù)庫(kù)[13]包含51類動(dòng)作,共6 766個(gè)視頻片段,視頻來(lái)自電影片段和視頻網(wǎng)站,由于動(dòng)作種類多、場(chǎng)景復(fù)雜,HMDB51數(shù)據(jù)庫(kù)非常具有挑戰(zhàn)性.按照文獻(xiàn)[13]將6 766個(gè)視頻分為3組,在3組視頻上分別進(jìn)行訓(xùn)練和測(cè)試,取3組結(jié)果的平均值作為最終識(shí)別率.圖2為從3個(gè)數(shù)據(jù)庫(kù)中部分視頻截取的圖像.

密集軌跡方法[14]是最有效的底層局部特征提取方法,近年來(lái)得到廣泛應(yīng)用.本文選用3個(gè)基于密集軌跡的特征作為底層特征,分別為HOG,HOF和MBH.底層特征字典大小統(tǒng)一為4 000,底層特征表示統(tǒng)一采用局部軟分配的編碼方式.相比于BoVW方法中采用的硬分配編碼方式,局部軟分配具有更好的精度和魯棒性,同時(shí)能保證底層特征表示非負(fù),這是本文方法后續(xù)處理的前提條件.

(a) KTH數(shù)據(jù)庫(kù)

(b) YouTube數(shù)據(jù)庫(kù)

(c) HMDB51數(shù)據(jù)庫(kù)

時(shí)空Fisher向量計(jì)算過(guò)程中,每個(gè)視覺(jué)單詞所對(duì)應(yīng)的混合高斯模型中高斯模型數(shù)目設(shè)置為9.由于底層特征視覺(jué)單詞非常多,直接訓(xùn)練混合高斯模型將非常耗時(shí),實(shí)驗(yàn)中,簡(jiǎn)化為所有視覺(jué)單詞采用相同的混合高斯模型.該統(tǒng)一模型的生成方式為:將單位立方等分為8個(gè)小立方,連同自身共9個(gè)立方,設(shè)每個(gè)立方內(nèi)底層特征時(shí)空位置分布都是均勻分布,計(jì)算均值和方差,由此得到9個(gè)高斯模型,將這9個(gè)模型的等權(quán)重組合作為實(shí)驗(yàn)中使用的混合高斯模型.

本文采用RBF-χ2核的非線性SVM作為分類器,由于動(dòng)作識(shí)別是多分類問(wèn)題,采用一對(duì)多方法,對(duì)每一類動(dòng)作訓(xùn)練一個(gè)分類器,樣本測(cè)試時(shí)選擇分?jǐn)?shù)最高的動(dòng)作類別作為最終分類結(jié)果.

3.2實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證本文提出的時(shí)空-非負(fù)成分表示方法的有效性,將本文方法ST-NCR與BoVW底層特征表示以及不帶時(shí)空信息的非負(fù)成分表示(NCR)方法在相同條件下進(jìn)行比較.ST-NCR和NCR均以BoVW底層特征表示結(jié)果為基礎(chǔ),ST-NCR是通過(guò)在NCR中增加時(shí)空分布信息改進(jìn)得到的.NCR和ST-NCR的基元詞典大小設(shè)置為500,ST-NCR的權(quán)重參數(shù)β設(shè)置為0.55.ST-NCR與其他方法在KTH,YouTube和HMDB51數(shù)據(jù)庫(kù)上的識(shí)別率比較結(jié)果如表1~表3所示.

從表1~表3可看出,在3個(gè)數(shù)據(jù)庫(kù)上,NCR和ST-NCR的結(jié)果均明顯好于BoVW的結(jié)果.這表明采用非負(fù)成分的中層表示方法相比于BoVW底層表示方法能夠更有效地表征運(yùn)動(dòng)視頻.同時(shí)還可以看出,ST-NCR的識(shí)別率要優(yōu)于NCR,這顯示了本文方法的有效性.

表1 3種方法在KTH數(shù)據(jù)庫(kù)上的識(shí)別率比較 %

表2 3種方法在YouTube數(shù)據(jù)庫(kù)上的識(shí)別率比較 %

表33種方法在HMDB51數(shù)據(jù)庫(kù)上的識(shí)別率比較 %

方法HOGHOFMBH BoVW37.339.546.4 NCR38.643.448.5 ST-NCR40.244.851.3

為進(jìn)一步研究權(quán)重參數(shù)β對(duì)ST-NCR結(jié)果的影響,選用底層特征HOG和HOF,選擇不同的β值,在KTH和YouTube數(shù)據(jù)庫(kù)上分別進(jìn)行實(shí)驗(yàn),結(jié)果如圖3所示.從圖中可看出,隨著β值的增大,識(shí)別率的趨勢(shì)基本是先增大然后回落,在β值為0.5附近取得峰值.這一結(jié)果顯示引入時(shí)空分布信息后能夠提高識(shí)別率,同時(shí)時(shí)空分布信息與HOG和HOF特征所描述的信息是互為補(bǔ)充的,聯(lián)合使用的識(shí)別率高于使用單一信息的識(shí)別率.

圖3 不同權(quán)重參數(shù)β對(duì)ST-NCR結(jié)果的影響

為進(jìn)一步提高識(shí)別率,將基于3個(gè)底層特征(HOG,HOF和MBH)所得到的ST-NCR進(jìn)行融合.在3個(gè)測(cè)試數(shù)據(jù)庫(kù)上,將融合后的中層表示所得識(shí)別率與其他文獻(xiàn)的識(shí)別率數(shù)據(jù)進(jìn)行比較,結(jié)果見(jiàn)表4.由表可看出,本文方法在KTH數(shù)據(jù)庫(kù)上的識(shí)別率與文獻(xiàn)[15]的識(shí)別率接近,但高于其他方法;在YouTube和HMDB51數(shù)據(jù)庫(kù)上,本文方法的識(shí)別率已經(jīng)超過(guò)其他所有方法.

表4本文融合后識(shí)別率與其他文獻(xiàn)方法識(shí)別率比較 %

方法來(lái)源KTHYouTubeHMDB51 文獻(xiàn)[15]98.226.9 文獻(xiàn)[16]93.975.8 文獻(xiàn)[5]95.385.448.3 文獻(xiàn)[17]95.582.2 文獻(xiàn)[18]88.053.9 本文97.889.255.4

4 結(jié)語(yǔ)

本文提出了一種新的中層動(dòng)作表示方法用于動(dòng)作識(shí)別,該方法基于動(dòng)作基元表征動(dòng)作視頻,同時(shí)融合了底層特征時(shí)空分布信息.首先,基于BoVW表示,利用混合高斯模型對(duì)視覺(jué)單詞所包含特征的時(shí)空位置分布進(jìn)行建模,計(jì)算時(shí)空Fisher向量;然后,將時(shí)空Fisher向量作為圖約束的一部分,利用GNMF對(duì)BoVW底層特征表示結(jié)果進(jìn)行分解,得到動(dòng)作基元以及基于動(dòng)作基元的時(shí)空-非負(fù)成分表示.實(shí)驗(yàn)結(jié)果表明,與BoVW表示以及不帶時(shí)空信息的非負(fù)成分表示方法相比,本文所提出的時(shí)空-非負(fù)成分表示方法能提高動(dòng)作識(shí)別率.

References)

[1]Turaga P, Chellappa R, Subrahmanian V S, et al. Machine recognition of human activities: A survey[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology, 2008, 18(11): 1473-1488. DOI:10.1109/tcsvt.2008.2005594.

[2]Laptev I, Marszalek M, Schmid C, et al. Learning realistic human actions from movies[C]//IEEEConferenceonComputerVisionandPatternRecognition. Anchorage, USA, 2008: 1-8. DOI:10.1109/cvpr.2008.4587756.

[3]Klaser A, Marszalek M, Schmid C. A spatio-temporal descriptor based on 3d-gradients[C]//19thBritishMachineVisionConference. Leeds, UK, 2008: 995-1004. DOI:10.5244/c.22.99.

[4]Solmaz B, Assari S M, Shah M. Classifying web videos using a global video descriptor[J].MachineVisionandApplications, 2012, 24(7): 1473-1485. DOI:10.1007/s00138-012-0449-x.

[5]Wang H, Kl?ser A, Schmid C, et al. Dense trajectories and motion boundary descriptors for action recognition[J].InternationalJournalofComputerVision, 2013, 103(1): 60-79. DOI: 10.1007/s11263-012-0594-8.

[6]Liu L Q, Wang L, Liu X W. In defense of soft-assignment coding[C]//IEEEInternationalConferenceonComputerVision. Barcelona, Spain, 2011: 2486-2493.

[7]Yang J, Yu K, Gong Y, et al. Linear spatial pyramid matching using sparse coding for image classification[C]//IEEEConferenceonComputerVisionandPatternRecognition. Miami, USA, 2009: 1794-1801.

[8]Wang J, Yang J, Yu K, et al. Locality-constrained linear coding for image classification[C]//IEEEConferenceonComputerVisionandPatternRecognition. San Francisco, CA, USA, 2010: 3360-3367. DOI:10.1109/cvpr.2010.5540018.

[9]Lee D D, Seung H S. Learning the parts of objects by non-negative matrix factorization[J].Nature, 1999, 401(6755): 788-791. DOI:10.1038/44565.

[10]Cai D, He X, Han J, et al. Graph regularized nonnegative matrix factorization for data representation[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2011, 33(8): 1548-1560. DOI:10.1109/TPAMI.2010.231.

[11]Schuldt C, Laptev I, Caputo B. Recognizing human actions: A local SVM approach[C]//Proceedingsofthe17thInternationalConferenceonPatternRecognition. Cambridge, UK, 2004: 32-36. DOI:10.1109/icpr.2004.1334462.

[12]Liu J, Luo J, Shah M. Recognizing realistic actions from videos “in the wild”[C]//IEEEConferenceonComputerVisionandPatternRecognition. Miami, USA, 2009: 1996-2003.

[13]Kuehne H, Jhuang H, Garrote E, et al. HMDB: A large video database for human motion recognition[C]//IEEEInternationalConferenceonComputerVision. Barcelona, Spain, 2011: 2556-2563. DOI:10.1109/iccv.2011.6126543.

[14]Wang H, Kl?ser A, Schmid C, et al. Dense trajectories and motion boundary descriptors for action recognition[J].InternationalJournalofComputerVision, 2013, 103(1): 60-79. DOI:10.1007/s11263-012-0594-8.

[15]Sadanand S, Corso J J. Action bank: A high-level representation of activity in video[C]//IEEEConferenceonComputerVisionandPatternRecognition. Providence, USA, 2012: 1234-1241.

[16]Le Q V, Zou W Y, Yeung S Y, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis[C]//IEEEConferenceonComputerVisionandPatternRecognition. Providence, USA, 2011: 3361-3368.

[17]Wang H, Yuan C, Hu W, et al. Action recognition using nonnegative action component representation and sparse basis selection[J].IEEETransactionsonImageProcessing, 2014, 23(2): 570-581. DOI:10.1109/tip.2013.2292550.

[18]Yang X, Tian Y. Action recognition using super sparse coding vector with spatio-temporal awareness[C]//13thEuropeanConferenceonComputerVision. Zurich, Switzerland, 2014: 727-741. DOI:10.1007/978-3-319-10605-2_47.

Action recognition based on spatio-temporal information and nonnegative component representation

Wang Jianhong Zhang Xu Zhang Pinzheng Jiang Longyu Luo Limin

(Laboratory of Image Science and Technology, Southeast University, Nanjing 210096, China)

To make full use of spatial-temporal information and the relationship among different visual words, a novel spatial-temporal nonnegative component representation method (ST-NCR) is proposed for action recognition. First, based on BoVW (bag of visual words) representation, the locations of local features belonging to each visual word are modeled with the Gaussian mixture model, and a spatio-temporal Fisher vector (STFV) is calculated to describe the location distribution of local features. Then, nonnegative matrix factorization (NMF) is employed to learn the action components and encode the action video samples. To incorporate the spatial-temporal cues for final representation, the graph regularized NMF (GNMF) is adopted, and STFV is used as part of graph regularization. The proposed method is extensively evaluated on three public datasets. Experimental results demonstrate that compared with BoVW representation and nonnegative component representation without spatio-temporal information, the method can obtain better action recognition accuracy.

action recognition; nonnegative component representation; spatio-temporal Fisher vector; bag of visual words

10.3969/j.issn.1001-0505.2016.04.001

2016-02-24.作者簡(jiǎn)介: 王健弘(1984—),男,博士生;羅立民(聯(lián)系人),男,博士,教授,博士生導(dǎo)師,luo.list@seu.edu.cn.

國(guó)家自然科學(xué)基金青年科學(xué)基金資助項(xiàng)目(61401085)、教育部留學(xué)歸國(guó)人員科研啟動(dòng)基金資助項(xiàng)目(2015).

10.3969/j.issn.1001-0505.2016.04.001.

TP391.4

A

1001-0505(2016)04-0675-06

引用本文: 王健弘,張旭,章品正,等.基于時(shí)空信息和非負(fù)成分表示的動(dòng)作識(shí)別[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,46(4):675-680.

猜你喜歡
識(shí)別率底層時(shí)空
航天企業(yè)提升采購(gòu)能力的底層邏輯
跨越時(shí)空的相遇
鏡中的時(shí)空穿梭
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
玩一次時(shí)空大“穿越”
提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
時(shí)空之門
回到現(xiàn)實(shí)底層與悲憫情懷
梅河口市| 体育| 屏边| 财经| 石泉县| 随州市| 永城市| 抚宁县| 绵竹市| 密云县| 黄石市| 高清| 金坛市| 宝鸡市| 阳泉市| 射阳县| 景德镇市| 奇台县| 大城县| 土默特右旗| 阜城县| 岢岚县| 喀喇沁旗| 沙河市| 微博| 丹巴县| 井研县| 平和县| 莒南县| 肇州县| 莎车县| 海阳市| 丁青县| 铜山县| 美姑县| 庄河市| 万年县| 定西市| 福海县| 伊宁县| 两当县|