龔冬穎,黃敏,張洪博,李紹滋
(1.廈門(mén)大學(xué) 智能科學(xué)與技術(shù)系,福建 廈門(mén) 361005;2.廈門(mén)大學(xué) 福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建 廈門(mén) 361005; 3.華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門(mén) 361005)
RGBD人體行為識(shí)別中的自適應(yīng)特征選擇方法
龔冬穎,黃敏,張洪博,李紹滋
(1.廈門(mén)大學(xué) 智能科學(xué)與技術(shù)系,福建 廈門(mén) 361005;2.廈門(mén)大學(xué) 福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建 廈門(mén) 361005; 3.華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門(mén) 361005)
目前在RGBD視頻的行為識(shí)別中,為了提高識(shí)別準(zhǔn)確率,許多方法采用多特征融合的方式。通過(guò)實(shí)驗(yàn)分析發(fā)現(xiàn),行為在特定特征上的分類(lèi)效果好,但是多特征融合并不能體現(xiàn)個(gè)別特征的分類(lèi)優(yōu)勢(shì),同時(shí)融合后的特征維度很高,時(shí)空開(kāi)銷(xiāo)大。為了解決這個(gè)問(wèn)題,提出了RGBD人體行為識(shí)別中的自適應(yīng)特征選擇方法,通過(guò)隨機(jī)森林和信息熵分析人體關(guān)節(jié)點(diǎn)判別力,以高判別力的人體關(guān)節(jié)點(diǎn)的數(shù)量作為特征選擇的標(biāo)準(zhǔn)。通過(guò)該數(shù)量閾值的篩選,選擇關(guān)節(jié)點(diǎn)特征或者關(guān)節(jié)點(diǎn)相對(duì)位置作為行為識(shí)別特征。實(shí)驗(yàn)結(jié)果表明,該方法相比于特征融合的算法,行為識(shí)別的準(zhǔn)確率有了較大提高,超過(guò)了大部分算法的識(shí)別結(jié)果。
人體行為識(shí)別;自適應(yīng)特征選擇;信息熵;隨機(jī)森林
人體行為識(shí)別在計(jì)算機(jī)視覺(jué)領(lǐng)域上有很重要的研究意義,廣泛應(yīng)用于異常人體行為識(shí)別、用戶身份識(shí)別、基于內(nèi)容的體育視頻檢索、智能家居環(huán)境等。目前,人體行為識(shí)別主要困難在于用于人體行為識(shí)別的視頻持續(xù)在一系列的時(shí)間和空間,視頻基于一個(gè)很高維的時(shí)間和空間,行為表示困難,同時(shí)同一個(gè)動(dòng)作受執(zhí)行個(gè)體、速度、衣著、光照、遮擋和攝像頭拍攝角度的影響,行為的類(lèi)內(nèi)距離大,類(lèi)間差異小。新推出的3-D體感攝像機(jī)(例如Kinect),除了提供RGB視頻外,還有深度信息、關(guān)節(jié)點(diǎn)信息,能快速分割前景背景,為人體行為識(shí)別帶來(lái)了新的思路。因此,目前許多行為識(shí)別的工作都是基于RGB視頻序列的。
現(xiàn)有RGBD視頻的行為識(shí)別中,特征主要分為兩種:深度表觀特征和關(guān)節(jié)點(diǎn)運(yùn)動(dòng)特征。深度表觀特征主要基于某一時(shí)空領(lǐng)域內(nèi)的深度點(diǎn)云信息,側(cè)重描述時(shí)空域內(nèi)的深度表觀細(xì)節(jié),可以是某一時(shí)空域內(nèi)的占有模式[1]、4-D法向量統(tǒng)計(jì)[2]和運(yùn)動(dòng)歷史圖梯度統(tǒng)計(jì)[3]等。關(guān)節(jié)點(diǎn)運(yùn)動(dòng)特征主要基于關(guān)節(jié)點(diǎn)3-D位置,通過(guò)關(guān)節(jié)點(diǎn)位置的時(shí)間變化[1]和空間偏移值[4]來(lái)描述行為,此方法特征緊湊,避免了大量的冗余計(jì)算。但在一些人物交互的行為中,僅采用關(guān)節(jié)點(diǎn)運(yùn)動(dòng)特征無(wú)法刻畫(huà)交互物體,需要引入深度表觀特征。
因此,很多學(xué)者嘗試采用特征融合的方法,同時(shí)使用多模態(tài)特征來(lái)描述行為。在一些方法中[5-7],結(jié)合了多種從2-D圖像提取的特征,使用單個(gè)分類(lèi)器進(jìn)行分類(lèi)。還有一些方法中設(shè)計(jì)了多種分類(lèi)器。文獻(xiàn)[8-9]通過(guò)對(duì)各種分類(lèi)器的分類(lèi)結(jié)果進(jìn)行整合,從而提高了行為識(shí)別的準(zhǔn)確率。
但是這些特征融合方法普遍存在3個(gè)缺陷:1)視頻存在類(lèi)內(nèi)類(lèi)間的區(qū)別,用多個(gè)特征串聯(lián)可能存在結(jié)果受其中某個(gè)特征影響,結(jié)果達(dá)不到預(yù)期效果;2)無(wú)法對(duì)特征與類(lèi)別之間的關(guān)系進(jìn)行分析;3)多特征融合的維度很高,對(duì)于訓(xùn)練以及測(cè)試需要大量的時(shí)間,而目前普遍采用的降維方式如PCA會(huì)降低準(zhǔn)確率。因此,本文設(shè)計(jì)了一種特征選擇方式,根據(jù)關(guān)節(jié)特征分析關(guān)節(jié)點(diǎn)的判別類(lèi)型,選擇不同的行為特征用于識(shí)別行為。
本文提出的自適應(yīng)特征選擇方法,分別采用HON4D關(guān)節(jié)點(diǎn)表觀特征[10]和關(guān)節(jié)點(diǎn)相對(duì)距離特征作為行為表示特征。要實(shí)現(xiàn)上述目的,主要存在的問(wèn)題是在測(cè)試過(guò)程中,需要確定特征選擇的依據(jù)。對(duì)于MSR-Daily Activity 3-D數(shù)據(jù)集來(lái)說(shuō),盡管已經(jīng)知道HON4D關(guān)節(jié)點(diǎn)特征在喝水、吃東西等類(lèi)別上效果較好,相對(duì)距離特征對(duì)于看書(shū)、打電話、玩游戲等行為的識(shí)別較好,但是在測(cè)試過(guò)程中測(cè)試樣本卻是不知道該使用什么特征來(lái)表現(xiàn)。通過(guò)實(shí)驗(yàn)分析發(fā)現(xiàn),采用HON4D關(guān)節(jié)點(diǎn)特征分類(lèi)較好時(shí),對(duì)應(yīng)于高判別力的關(guān)節(jié)點(diǎn)數(shù)量較多。因此在本文中采用隨機(jī)森林對(duì)HON4D關(guān)節(jié)點(diǎn)進(jìn)行建模,根據(jù)關(guān)節(jié)點(diǎn)的類(lèi)別投票結(jié)果熵,將其結(jié)果作為關(guān)節(jié)點(diǎn)的判別力,提出了自適應(yīng)熵閾值,選擇高判別力的關(guān)節(jié)點(diǎn);同時(shí)基于高判別力關(guān)節(jié)點(diǎn)數(shù)量的特征選擇方法,用于表示行為,進(jìn)而提高行為的識(shí)別率。
目前,在RGBD的人體行為識(shí)別中主要采用基于關(guān)節(jié)點(diǎn)序列的運(yùn)動(dòng)軌跡特征以及基于局部或者整體的表觀特征。
關(guān)節(jié)點(diǎn)運(yùn)動(dòng)軌跡特征是指骨架在時(shí)間序列上的變化所提取的特征。Yang[11]提出基于關(guān)節(jié)點(diǎn)3-D位置的位置特征、運(yùn)動(dòng)特征和位移特征,使用貝葉斯最鄰近法則(NBNN)進(jìn)行分類(lèi)。Wang等[1]在Actionlet Ensemble中使用到3-D關(guān)節(jié)點(diǎn)相對(duì)位置特征,并且添加了傅里葉時(shí)間金字塔提高精度。Xia等[4]在3-D關(guān)節(jié)點(diǎn)球形位置計(jì)算直方圖,通過(guò)隱馬爾可夫模型建立3-D關(guān)節(jié)點(diǎn)的時(shí)間演變模型進(jìn)行分類(lèi)。
另一種主要特征是基于局部或整體的表觀表示。Wang等[1]提出LOP作為關(guān)節(jié)點(diǎn)的深度表觀信息,用此特征來(lái)描述人體與物體的交互。HOPC是Rahmani[12]提出的基于3-D點(diǎn)云的表示方法,圍繞該點(diǎn)可以得到自適應(yīng)時(shí)空支撐體。SNV是Yang等[2]在時(shí)空體內(nèi)描述的深度表觀信息和變化信息,該特征是由深度序列劃分成時(shí)空網(wǎng)格,并聚類(lèi)底層法向量獲得的。
不同的特征在不同行為上具有不同的識(shí)別強(qiáng)度。不少文章也選擇了多特征的方法,使得這些特征存在互補(bǔ)性。除了一些單純使用不同特征簡(jiǎn)單連接進(jìn)行融合以外[1,13-14],還有一些特征進(jìn)行了融合處理。Gao等[15]提取深度序列圖的不同特征,然后進(jìn)行多特征映射并且使用字典學(xué)習(xí)模型。Liu等[16]提出基于3D2的CNN框架,這個(gè)框架可以自動(dòng)從原始深度視頻序列提取時(shí)空特征。Li等[17]使用組合稀疏正則化,提出用多特征稀疏融合(MFSF)排序以獲得特征的共享和特定結(jié)構(gòu)的重要性。
現(xiàn)有方法中,結(jié)合關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息和局部表觀信息能很好地描述行為。關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息雖然可以表現(xiàn)人體運(yùn)動(dòng)姿態(tài),但是在捕獲變化的時(shí)候無(wú)法避免運(yùn)動(dòng)速度的影響。在關(guān)節(jié)點(diǎn)局部表觀信息上,雖然可以捕捉一些人體的姿態(tài)信息,但是描述運(yùn)動(dòng)特點(diǎn)有限。HON4D的特征較短,經(jīng)過(guò)傅里葉變化后,保留的低頻信息不僅特征短、而且判別力強(qiáng)。因此,在本文提出的模型中,采用關(guān)節(jié)點(diǎn)相對(duì)距離作為運(yùn)動(dòng)信息模型,關(guān)節(jié)點(diǎn)位置的HON4D特征作為表觀信息模型,根據(jù)關(guān)節(jié)點(diǎn)的判別力,選擇不同的特征,進(jìn)而增強(qiáng)分類(lèi)性能。在特征處理上采用Actionlet Ensemble提出的傅里葉時(shí)間金字塔,此方法能夠很好地去除時(shí)間上對(duì)分類(lèi)帶來(lái)的影響。
在本節(jié)中,我們將詳細(xì)介紹自適應(yīng)特征選擇方法。本文考慮了兩種特征,即體現(xiàn)關(guān)節(jié)點(diǎn)表觀信息的HON4D特征[10]和運(yùn)動(dòng)變化的關(guān)節(jié)點(diǎn)相對(duì)距離特征。在特征選擇上,基于關(guān)節(jié)點(diǎn)熵進(jìn)行自適應(yīng)特征選擇,人體行為識(shí)別方法如圖1所示。
圖1 自適應(yīng)特征選擇方法框架Fig.1 The frame of adaptive feature selection method
2.1 特征介紹
再將各幀的相對(duì)關(guān)節(jié)點(diǎn)位移串聯(lián),進(jìn)行傅里葉變換,即
取變換后的低頻信息,最終得到關(guān)節(jié)點(diǎn)相對(duì)距離特征。其次,在表觀特征上,我們對(duì)HON4D進(jìn)行了改進(jìn),根據(jù)關(guān)節(jié)點(diǎn)判別力篩選出前N個(gè)判別力強(qiáng)的關(guān)節(jié)點(diǎn)特征。關(guān)節(jié)點(diǎn)判別力是指某個(gè)關(guān)節(jié)點(diǎn)的特征在數(shù)據(jù)集上準(zhǔn)確率的評(píng)判值。為了得到不同關(guān)節(jié)點(diǎn)判別力評(píng)價(jià),我們將每個(gè)關(guān)節(jié)點(diǎn)HON4D特征隨機(jī)森林(RF)中進(jìn)行模型訓(xùn)練,得到各個(gè)模型中的袋外估計(jì)錯(cuò)誤率,以便用來(lái)評(píng)價(jià)關(guān)節(jié)點(diǎn)的判別力。隨機(jī)森林是一個(gè)具有T棵決策樹(shù)的集成模型。本文采用自舉采樣法,在訓(xùn)練階段,每棵決策樹(shù)都會(huì)在訓(xùn)練集中生成自舉采樣,大約丟棄37%的樣本,根據(jù)這些丟棄樣本去計(jì)算袋外估計(jì)錯(cuò)誤率。
對(duì)于給定行為c(c=1,2,…,cCls),cCls為數(shù)據(jù)集的類(lèi)別,根據(jù)各關(guān)節(jié)點(diǎn)p(p=1,2,…,nJoint)在相應(yīng)的RF模型上計(jì)算的該行為上的袋外估計(jì)錯(cuò)誤率,每個(gè)行為將得到一個(gè)關(guān)節(jié)點(diǎn)錯(cuò)誤率升序的排序表。則最終數(shù)據(jù)為(1+cCls)個(gè)排序表,其中第1列為所有數(shù)據(jù)集對(duì)于其中一個(gè)行為的平均錯(cuò)誤率。最終,從基于整個(gè)數(shù)據(jù)集上的關(guān)節(jié)點(diǎn)升序表中取出前N個(gè)關(guān)節(jié)點(diǎn),將其HON4D特征串聯(lián),得到表觀特征。
2.2 基于熵的自適應(yīng)特征選擇方法
關(guān)節(jié)點(diǎn)相對(duì)位移特征,適用于運(yùn)動(dòng)變化較大的行為,如靜止、站起、坐下等,而表觀特征則可以刻畫(huà)交互物體和局部細(xì)節(jié)變化的行為,如看書(shū)、打電話等。因此,應(yīng)根據(jù)行為的特點(diǎn)選擇合適的特征。為此,本文提出了基于熵的自適應(yīng)特征選擇方法。
首先,為了評(píng)估表觀特征對(duì)于各行為的判別力,我們將各關(guān)節(jié)點(diǎn)的表觀特征輸入RF模型,從訓(xùn)練模型中得到?jīng)Q策樹(shù)的投票結(jié)果,由投票結(jié)果的不確定性去判斷該類(lèi)特征在行為分類(lèi)上是否具備代表性。確定性強(qiáng),表示該特征能夠充分代表樣本,反之,則使用關(guān)節(jié)點(diǎn)相對(duì)位移。由于任何信息都存在冗余,冗余的程度與不確定性有關(guān),排除冗余后的平均信息量稱(chēng)為“信息熵”。不確定性函數(shù)為
對(duì)于整個(gè)信息源而言,熵的定義為
由此得到每個(gè)樣本的信息熵,并求出S個(gè)樣本的平均信息熵,因此在cCls類(lèi)行為中可得到在該模型的信息熵Enj(nj=1,2,…,nJoint)。
在訓(xùn)練模型中可以得到平均信息熵,根據(jù)此信息熵得到針對(duì)于此關(guān)節(jié)點(diǎn)模型的熵的閾值。
作為特征自適應(yīng)選擇的選擇器時(shí),測(cè)試樣本在經(jīng)過(guò)20個(gè)關(guān)節(jié)點(diǎn)模型時(shí),可以類(lèi)似于訓(xùn)練模型得到20個(gè)熵。本文中熵的意義為,HON4D特征的熵越大信息不確定性越大,表示測(cè)試樣本使用HON4D不能準(zhǔn)確描述行為,因此不使用關(guān)節(jié)點(diǎn)特征,而選擇關(guān)節(jié)點(diǎn)相對(duì)距離特征。
在實(shí)驗(yàn)中,本文設(shè)定當(dāng)測(cè)試樣本的熵超過(guò)訓(xùn)練模型中得到的平均信息熵的個(gè)數(shù)為C,設(shè)置閾值為Cp,C 算法詳見(jiàn)算法1。 算法1 基于熵的自適應(yīng)特征選擇算法 輸入 訓(xùn)練樣本平均熵,測(cè)試樣本HON4D特征與關(guān)節(jié)點(diǎn)相對(duì)距離特征,20個(gè)關(guān)節(jié)點(diǎn)模型,關(guān)節(jié)點(diǎn)相對(duì)距離模型,HON4D關(guān)節(jié)點(diǎn)組合模型,閾值Cp,平均信息熵Enj(nj=1,2,…,nJoint) 輸出 預(yù)測(cè)標(biāo)簽。 1)初始化C為0。 2)for 第nj個(gè)關(guān)節(jié)點(diǎn)in所有關(guān)節(jié)點(diǎn)數(shù)目 do。 3)第nj個(gè)關(guān)節(jié)點(diǎn)的HON4D特征作為測(cè)試樣本特征,由相對(duì)應(yīng)的關(guān)節(jié)點(diǎn)模型測(cè)試得到cCls個(gè)投票結(jié)果。 4)計(jì)算cCls個(gè)投票結(jié)果的投票概率。 5)計(jì)算該模型下的投票熵。 6)比較Enj與該模型下的投票熵,若Enj小,則C+1。 7)end for。 8)比較C與Cp,若C小,則使用關(guān)節(jié)點(diǎn)相對(duì)距離特征;若C大,則使用HON4D特征。 9)輸出預(yù)測(cè)標(biāo)簽。 為了驗(yàn)證本方法的可用性,我們將在MSR-Daily Activity 3D數(shù)據(jù)集上驗(yàn)證。該數(shù)據(jù)使用Kinect設(shè)備拍攝,是日?;顒?dòng)的數(shù)據(jù)集,如圖2。在這個(gè)數(shù)據(jù)集中,動(dòng)作覆蓋手、腿、軀干以及其他一些互動(dòng)行為。其中數(shù)據(jù)集中每個(gè)行為由10個(gè)人完成,每個(gè)人分別以不同的姿態(tài)完成。該數(shù)據(jù)集樣本數(shù)為320。在本文的實(shí)驗(yàn)中,我們將在每個(gè)行為中選取5個(gè)人所完成的10個(gè)樣本,也就是其中160個(gè)作為訓(xùn)練樣本,其余160個(gè)作為測(cè)試樣本。 在設(shè)置參數(shù)方面,HON4D中網(wǎng)格大小為60×60×10,步長(zhǎng)為3×3×1,傅里葉變換取低頻信息10。在本文的方法中,需要設(shè)置閾值:每個(gè)關(guān)節(jié)點(diǎn)的信息熵閾值和高判別力關(guān)節(jié)點(diǎn)的數(shù)量閾值。其中,每個(gè)關(guān)節(jié)點(diǎn)的信息熵閾值采用各自的平均信息熵作為閾值,是一種自適應(yīng)的方法,不需要手動(dòng)調(diào)節(jié)。同時(shí),通過(guò)實(shí)驗(yàn)對(duì)比,關(guān)節(jié)點(diǎn)數(shù)量的閾值Cp=16時(shí),行為識(shí)別的準(zhǔn)確率最高。 3.1 特征介紹 在HON4D的關(guān)節(jié)點(diǎn)判別力表示中,我們采用錯(cuò)誤率的方式進(jìn)行衡量,可以從20個(gè)關(guān)節(jié)點(diǎn)模型中分別得到16個(gè)行為的錯(cuò)誤率。從圖2可以看出,某個(gè)行為中錯(cuò)誤率較低的關(guān)節(jié)點(diǎn)在該行為中占據(jù)比較重要的位置,比如圖2(a)的行為為喝水的動(dòng)作,重要的關(guān)節(jié)點(diǎn)主要集中在手部、頭部,這些關(guān)節(jié)點(diǎn)的錯(cuò)誤率也較低。 根據(jù)這16個(gè)行為的關(guān)節(jié)點(diǎn)錯(cuò)誤率可以得到針對(duì)整個(gè)數(shù)據(jù)集的平均錯(cuò)誤率,由平均錯(cuò)誤率可以得到相應(yīng)關(guān)節(jié)點(diǎn)的排序?yàn)閧2,10,11,1,12,5,9,3,17,4,7,13,6,8,14,18,15,19,16,20}。 圖2 關(guān)節(jié)點(diǎn)錯(cuò)誤率骨架圖Fig.2 The skeleton diagram of joint point error 實(shí)驗(yàn)中,我們采用交叉驗(yàn)證法,發(fā)現(xiàn)取前12個(gè)關(guān)節(jié)點(diǎn)子序列時(shí),分類(lèi)模型結(jié)果最佳。圖3給出了測(cè)試集在不同關(guān)節(jié)點(diǎn)個(gè)數(shù)下的準(zhǔn)確率變化,準(zhǔn)確率隨關(guān)節(jié)點(diǎn)個(gè)數(shù)增加而提升,但到達(dá)某個(gè)范圍值后趨于穩(wěn)定。在后續(xù)實(shí)驗(yàn)中,我們選取前12個(gè)關(guān)節(jié)點(diǎn)子序列的HON4D特征作為表觀特征。 圖3 HON4D模型關(guān)節(jié)點(diǎn)準(zhǔn)確率Fig.3 The joint accuracy of HON4D model 為了判斷關(guān)節(jié)點(diǎn)局部特征是否能夠代表該行為,本文引入關(guān)節(jié)點(diǎn)的信息熵。從圖2可以清楚看到,(c)(d)(e)(f)(j)(k)圖中的行為中大部分的關(guān)節(jié)點(diǎn)錯(cuò)誤率都較高,而(i)(o)(p)圖中行為的關(guān)節(jié)點(diǎn)錯(cuò)誤率都很低。如圖4中所示,這幾個(gè)行為的熵在錯(cuò)誤率高的行為中,熵同樣高,這樣說(shuō)明了關(guān)節(jié)點(diǎn)表觀特征在這些行為中,不確定性大,無(wú)法將其分到正確的類(lèi)別。相反的,在其錯(cuò)誤率較低的行為中,其熵普遍也比較低,可以使用關(guān)節(jié)點(diǎn)表觀特征代表該行為。因此,可以看出使用熵作為兩個(gè)特征模型的判斷標(biāo)準(zhǔn)是可行的。 同時(shí),每個(gè)關(guān)節(jié)點(diǎn)信息熵的閾值,對(duì)實(shí)驗(yàn)結(jié)果有著較大影響。采用統(tǒng)一閾值的方式雖然簡(jiǎn)單,但是并沒(méi)有區(qū)分不同關(guān)節(jié)點(diǎn)的差異,而每個(gè)關(guān)節(jié)點(diǎn)采用不同的閾值手動(dòng)調(diào)節(jié)的方法,參數(shù)較多。因此,本文采用平均信息熵作為閾值的自適應(yīng)方法,不需要設(shè)置參數(shù)。 由圖5可以看出,在設(shè)置相同的閾值中準(zhǔn)確率最高為88.75%,而采用本文提出的方法,在該數(shù)據(jù)集上準(zhǔn)確率可以達(dá)到91.25%,提高了2.5%。 圖4 關(guān)節(jié)點(diǎn)熵骨架圖Fig.4 The skeleton diagram of joint point entropy 圖5 相同閾值準(zhǔn)確率Fig.5 The accuracy of same threshold 3.2 行為識(shí)別分析結(jié)果 本文使用了兩種特征,一種是基于關(guān)節(jié)點(diǎn)判別力的HON4D 局部表觀特征,另一種是使用關(guān)節(jié)點(diǎn)相對(duì)距離變化來(lái)表達(dá)該數(shù)據(jù)集。根據(jù)高判別力關(guān)節(jié)點(diǎn)的數(shù)量選擇不同的特征用于行為識(shí)別。在實(shí)驗(yàn)中,數(shù)量閾值Cp從1~20,結(jié)果如圖6所示。 圖6 Cp取值準(zhǔn)確率Fig.6 The accuracy of Cp’s value 通過(guò)圖6的對(duì)比可以看出,在Cp=16時(shí),準(zhǔn)確率是91.25%, 達(dá)到最高。分類(lèi)的混淆矩陣如圖7~圖9所示。 圖7 HON4D特征的混淆矩陣Fig.7 The confusion matrix of HON4D feature 圖8 相對(duì)距離特征的混淆矩陣Fig.8 The confusion matrix of the relative positions feature 圖9 自適應(yīng)特征選擇方法的混淆矩陣Fig.9 The confusion matrix of adaptive feature selection method 從混淆矩陣可以看出,在圖2中(c)(d)(e)(f)(j)(k)這幾種行為上,HON4D特征的分類(lèi)效果較差,由此可以驗(yàn)證本文引入熵來(lái)作為判斷該特征是可以成立的。關(guān)節(jié)點(diǎn)相對(duì)距離特征在圖2(c)(d)(e)(f)(j)(k)這些行為上較有優(yōu)勢(shì)。而本文提出的特征選擇方法,將這兩種特征的優(yōu)勢(shì)進(jìn)行了充分的合并,結(jié)果有了很大的提高。 目前,基于該數(shù)據(jù)集的方法非常多。由表1可知,目前大部分使用直接串聯(lián)的特征效果并不理想,使用本文中的兩個(gè)特征時(shí),整體的準(zhǔn)確率只達(dá)到了86.25%,由于特征關(guān)節(jié)點(diǎn)相對(duì)距離線性可分,直接導(dǎo)致結(jié)果受到關(guān)節(jié)點(diǎn)相對(duì)距離的影響,其中HON4D特征就無(wú)法發(fā)揮作用。 表1 對(duì)比實(shí)驗(yàn)準(zhǔn)確率 文中提出了特征自適應(yīng)選擇方法,此方法包括4個(gè)組成部分,即 HON4D關(guān)節(jié)點(diǎn)模型、HON4D關(guān)節(jié)點(diǎn)組合模型、關(guān)節(jié)點(diǎn)相對(duì)距離模型和自適應(yīng)特征選擇器。首先我們根據(jù)HON4D的關(guān)節(jié)點(diǎn)特征訓(xùn)練得到關(guān)節(jié)點(diǎn)隨機(jī)森林的模型,根據(jù)平均熵結(jié)果為測(cè)試投票結(jié)果的閾值,以此來(lái)權(quán)衡HON4D關(guān)節(jié)點(diǎn)特征在此測(cè)試樣本中是否存在較高的識(shí)別率。本文提出的方法在MSR-Daily Activity 3D這個(gè)數(shù)據(jù)集上評(píng)估。實(shí)驗(yàn)結(jié)果表明,本文的方法確實(shí)有效。 [1]WANG Jiang, LIU Zicheng, WU Ying, et al. Mining actionlet ensemble for action recognition with depth cameras[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, USA, 2012: 1290-1297. [2]YANG Xiaodong, TIAN Yingli. Super normal vector for activity recognition using depth sequences[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 804-811. [3]CHEN Chen, JAFARI R, KEHTARNAVAZ N. Action recognition from depth sequences using depth motion maps-based local binary patterns[C]//Proceedings of 2015 IEEE Winter Conference on Applications of Computer Vision. Waikoloa, USA, 2015: 1092-1099. [4]XIA LU, CHEN C C, AGGARWAL J K. View invariant human action recognition using histograms of 3D joints[C]//Proceedings of 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence, USA, 2012: 20-27. [5]LIU Jingen, ALI S, SHAH M. Recognizing human actions using multiple features[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA, 2008: 1-8. [6]WANG Liang, ZHOU Hang, LOW S C, et al. Action recognition via multi-feature fusion and Gaussian process classification[C]//Proceedings of 2009 Workshop on Applications of Computer Vision. Snowbird, USA, 2009: 1-6. [7]LIU Jia, YANG Jie, ZHANG Yi, et al. Action recognition by multiple features and hyper-sphere multi-class SVM[C]//Proceedings of the 20th International Conference on Pattern Recognition. Istanbul, Turkey, 2010: 3744-3747. [8]BENMOKHTAR R. Robust human action recognition scheme based on high-level feature fusion[J]. Multimedia tools and applications, 2014, 69(2): 253-275. [9]TRAN K, KAKADIARIS I A, SHAH S K. Fusion of human posture features for continuous action recognition[C]//Proceedings of the 11th European Conference on Trends and Topics in Computer Vision. Heraklion, Greece, 2010: 244-257. [10]OREIFEJ O, LIU Zicheng. HON4D: histogram of oriented 4D normals for activity recognition from depth sequences[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 716-723. [11]YANG Xiaodong, TIAN Yingli. Effective 3D action recognition using EigenJoints[J]. Journal of visual communication and image representation, 2014, 25(1): 2-11. [12]RAHMANI H, MAHMOOD A, HUYNH D Q, et al. Real time action recognition using histograms of depth gradients and random decision forests[C]//Proceedings of 2014 IEEE Winter Conference on Applications of Computer Vision. Steamboat Springs, USA, 2014: 626-633. [13]YU Gang, LIU Zicheng, YUAN Junsong. Discriminative orderlet mining for real-time recognition of human-object interaction[M]//CREMERS D, REID I, SAITO H, et al. Computer Vision—ACCV 2014. Lecture Notes in Computer Science. Cham: Springer International Publishing, 2015: 50-65. [14]CHAARAOUI A A, PADILLA-LOPEZ J R, FLOREZ-REVUELTA F. Fusion of skeletal and silhouette-based features for human action recognition with RGB-D devices[C]//Proceedings of 2013 IEEE International Conference on Computer Vision Workshops. Sydney, Australia, 2013: 91-97. [15]GAO Zan, ZHANG Hua, LIU A A, et al. Human action recognition on depth dataset[J]. Neural computing and applications, 2016, 27(7): 2047-2054. [16]LIU Zhi, ZHANG Chenyang, TIAN Yingli. 3D-based deep convolutional neural network for action recognition with depth sequences[J]. Image and vision computing, 2016, 55(2): 93-100. [17]LI Meng, LEUNG H, SHUM H P H. Human action recognitionvia skeletal and depth based feature fusion[C]//Proceedings of the 9th International Conference on Motion in Games. Burlingame, USA, 2016: 123-132. Adaptive feature selection method for action recognition of human body in RGBD data GONG Dongying1,2,HUANG Min1,2,ZHANG Hongbo3,LI Shaozi1,2 (1. Intelligent Science & Technology Department, Xiamen University, Xiamen 361005, China; 2. Fujian Key Laboratory of Brain-like Intelligent Systems, Xiamen University, Xiamen 361005, China; 3. Computer Science & Technology School, Huaqiao University, Xiamen 361005, China) Many methods adopt the technique of multi-feature fusion to improve the recognition accuracy of RGBD video. Experimental analyses revealed that the classification effect of certain behavior in some features is good; however, multi-feature fusion cannot reflect the classification superiority of certain features. Moreover, multi-feature fusion is highly dimensional and considerably expensive in terms of time and space. This research proposes an adaptive feature selection method for RGBD human-action recognition to solve this problem. First, random forest and information entropy were used to analyze the judgment ability of the human joints, whereas the number of human joints with high judgment ability were chosen as the feature selection criterion. By screening the threshold number, either the joint feature or the relative positions of the joints was used as the recognition feature of action. Experimental results show that compared with multi-feature fusion, the method significantly improved the accuracy of action recognition and outperformed most other algorithms. action recognition of human body; adaptive feature selection; information entropy; random forest 龔冬穎,女,1992年生,碩士研究生,主要研究方向?yàn)樾袨樽R(shí)別、機(jī)器學(xué)習(xí)。 黃敏,女,1982年生,博士研究生,主要研究方向?yàn)樾袨樽R(shí)別、機(jī)器學(xué)習(xí)、目標(biāo)檢測(cè)和圖像檢索。 張洪博,男,1986年生,講師,博士,主要研究方向?yàn)槿梭w行為識(shí)別,主持國(guó)家自然科學(xué)基金青年項(xiàng)目和福建省自然科學(xué)基金面上項(xiàng)目各1項(xiàng),發(fā)表學(xué)術(shù)論文多篇,其中被SCI、EI檢索20余篇。 10.11992/tis.201611008 http://kns.cnki.net/kcms/detail/23.1538.TP.20170228.1323.004.html 2016-11-07. 日期:2017-02-28. 國(guó)家自然科學(xué)基金項(xiàng)目 ( 61572409, 61571188 ,61202143);福建省自然科學(xué)基金項(xiàng)目 (2013J05100);中醫(yī)健康管理福建省2011協(xié)同創(chuàng)新中心項(xiàng)目. 李紹滋. E-mail:szlig@xmu.edu.cn. TP391.41 A 1673-4785(2017)01-001-07 龔冬穎,黃敏,張洪博,等.RGBD人體行為識(shí)別中的自適應(yīng)特征選擇方法[J]. 智能系統(tǒng)學(xué)報(bào), 2017, 12(1): 1-7. 英文引用格式:GONG Dongying,HUANG Min,ZHANG Hongbo,et al.Adaptive feature selection method for action recognition of human body in RGBD data[J]. CAAI transactions on intelligent systems, 2017, 12(1):1-7.3 實(shí)驗(yàn)結(jié)果
4 總結(jié)