国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合交互信息和能量特征的三維復(fù)雜人體行為識(shí)別

2018-09-07 01:33:14王永雄張孫杰
關(guān)鍵詞:關(guān)節(jié)點(diǎn)識(shí)別率物體

王永雄,曾 艷,李 璇,尹 鐘,張孫杰,劉 麗

(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093) E-mail:wyxiong@usst.edu.cn

1 引 言

識(shí)別和理解人的行為是智能服務(wù)機(jī)器人和智能輔助系統(tǒng)的主要任務(wù)之一,也是人機(jī)共融技術(shù)的主要難點(diǎn)和瓶頸.近年來(lái),隨著3D設(shè)備(例如RGB-D攝像頭) 的普及,由于3D視覺具有較大優(yōu)勢(shì)和表達(dá)能力,基于3D視覺的行為識(shí)別也得到了較大的發(fā)展.

首先,特征提取是基于圖像的行為識(shí)別最先考慮的問題.常見的特征主要有尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[1]、方向梯度直方圖特征HOG[2](Histogram of Oriented Gradient)和人體姿態(tài)關(guān)節(jié)角等2D靜態(tài)特征[3],人體運(yùn)動(dòng)的速度、軌跡等3D動(dòng)態(tài)特征[4]以及時(shí)空興趣點(diǎn)特征(Space-Time Interest Points,STIP[5])和改進(jìn)密集軌跡特征(improved dense trajectories,IDT[6,7])等基于興趣點(diǎn)的特征.一般情況下,隨著特征維數(shù)的增加,識(shí)別準(zhǔn)確率隨之提高,但是計(jì)算量隨之變大,而且難以從高層語(yǔ)義上進(jìn)行理解,因此需要對(duì)特征數(shù)據(jù)進(jìn)行降維,生成有利于識(shí)別的高層語(yǔ)義特征.Li FeiFei等人[8]提出了一種新的局部特征方法,通過使用局部的高層語(yǔ)義信息建立局部特征矩陣,然后使用聚類的方法建立BOW特征,實(shí)現(xiàn)了多種特征數(shù)據(jù)的融合和降維.近年來(lái)隨著深度學(xué)習(xí)理論的發(fā)展,將其應(yīng)用于人體行為識(shí)別中,也取得了很好的效果[9,10].Ji等[11]將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)擴(kuò)展到具有時(shí)間信息的3DCNN,在視頻數(shù)據(jù)的時(shí)間維度和空間維度上進(jìn)行特征計(jì)算.Ng等[12]使用長(zhǎng)短時(shí)記憶型RNN對(duì)視頻進(jìn)行建模,將底層CNN的輸出連接起來(lái)作為下一時(shí)刻的輸入,在UCF101數(shù)據(jù)庫(kù)上獲得了82.6%的識(shí)別率.從視覺顯著性和生物學(xué)觀點(diǎn)看,人總是關(guān)注人體運(yùn)動(dòng)的肢體和含有信息量的姿態(tài).田國(guó)會(huì)等人[13]在三維關(guān)節(jié)點(diǎn)數(shù)據(jù)基礎(chǔ)上提取了向量角度與向量模的比值作為特征表征人體姿態(tài),采用動(dòng)態(tài)時(shí)間規(guī)整 (Dynamic Time Warping,DTW) 進(jìn)行模板匹配,實(shí)現(xiàn)人體行為識(shí)別.我們認(rèn)為:人體動(dòng)作的差異不僅表現(xiàn)在位置信息上,還表現(xiàn)在肢體的基于能量特征表示的信息上.因此本文提取人體運(yùn)動(dòng)產(chǎn)生的關(guān)節(jié)點(diǎn)動(dòng)能和姿態(tài)勢(shì)能作為全局運(yùn)動(dòng)特征[14],在此基礎(chǔ)上再加入描述性的局部特征,用于表示運(yùn)動(dòng)的形態(tài)變化,例如關(guān)節(jié)點(diǎn)關(guān)節(jié)角、關(guān)節(jié)點(diǎn)方向變化等,并采用BOW算法對(duì)特征降維,生成有利于識(shí)別的高層語(yǔ)義特征.

上述方法考慮了人體姿態(tài)的靜態(tài)和動(dòng)態(tài)特征,但復(fù)雜的人體行為往往和物體、環(huán)境有交互作用.如果沒有融合人與物、人與環(huán)境、甚至人與人之間的交互信息,則無(wú)法消除或減少類似動(dòng)作和復(fù)雜行為識(shí)別的不確定性和歧義性.例如奔跑和踢足球、喝水和打電話、手持刀和手持杯子等動(dòng)作,人體姿態(tài)和運(yùn)動(dòng)過程相似,孤立地研究人的行為,而忽略了與人交互的物體或者場(chǎng)景信息,這無(wú)疑大大降低了推理的準(zhǔn)確性.因此利用人與物、人與環(huán)境之間的交互信息,可以提高人體行為的識(shí)別率,減少行為識(shí)別的歧義性[15].常規(guī)的思路有兩個(gè):一是分別識(shí)別人的行為和物體再融合;二是分別提取人的行為和物體的特征,組成組合特征再識(shí)別.Gupta和Davis提出了采用概率圖模型對(duì)人與物的交互作用進(jìn)行建模,通過貝葉斯網(wǎng)絡(luò)同時(shí)對(duì)物體和行為進(jìn)行分類和識(shí)別[16].Koppula等人[17]結(jié)合物品的“可操作性(affordances,例如杯子具有可移動(dòng)性和可盛物性)”,采用結(jié)構(gòu)化SVM方法進(jìn)行復(fù)雜行為識(shí)別.Moore等人利用物體識(shí)別的結(jié)果提升行為識(shí)別的性能[18],或者利用行為識(shí)別的結(jié)果提升物體識(shí)別性能,然而上述的行為識(shí)別準(zhǔn)確率依賴于物體分類的準(zhǔn)確性.當(dāng)物體分類出現(xiàn)錯(cuò)誤時(shí),其結(jié)果對(duì)行為識(shí)別往往有負(fù)面作用.在實(shí)際中,各式各樣的物體識(shí)別本身就很復(fù)雜,由于光線、角度,特別是手部的局部遮擋等原因,物體的準(zhǔn)確定位、分割和識(shí)別都比較困難[19].因此本文提出了融合物體信息和能量特征的3D行為識(shí)別,具體步驟如下:在提取人體骨架特征的基礎(chǔ)上,采用Harris[20]算子檢測(cè)算法快速定位與人交互物體的關(guān)鍵點(diǎn),然后在3D深度圖上利用區(qū)域生長(zhǎng)法對(duì)物體進(jìn)行分割,實(shí)現(xiàn)了從復(fù)雜背景中自動(dòng)分割出待識(shí)別的物體,然后組合人體動(dòng)能、勢(shì)能、其他局部特征和物體特征等多種特征,實(shí)現(xiàn)了融合人物交互信息的復(fù)雜行為識(shí)別.

本文的創(chuàng)新包括:

從能量的角度提取人體骨架動(dòng)能、姿態(tài)勢(shì)能、關(guān)節(jié)點(diǎn)位置等特征構(gòu)建局部特征矩陣,可以定量地表示人體行為的能量信息,并采用BOW算法對(duì)特征降維,生成有利于識(shí)別的高層語(yǔ)義特征.

在深度云圖中,采用Harris算子自動(dòng)獲取區(qū)域生長(zhǎng)法的種子,自動(dòng)分割出與人體交互的手持物體,并提取交互物體的Hu矩特征融入最終的組合特征.

通過融合與人體產(chǎn)生交互的物體、環(huán)境信息,大幅度地提高類似動(dòng)作或復(fù)雜行為的識(shí)別率.

2 特征提取和行為識(shí)別方法

3D人體行為常使用空間三維坐標(biāo)、深度信息以及關(guān)節(jié)點(diǎn)角度等特征描述[21].本文使用Kinect獲得深度圖像和與之相對(duì)應(yīng)的彩色圖像,利用Kinect SDK獲取人體三維骨架模型.本文采用的人體骨架模型由15個(gè)關(guān)節(jié)點(diǎn)組成,具體順序和編號(hào)如表1所示.

表1 關(guān)節(jié)點(diǎn)編號(hào)Table 1 Joint numbers

2.1 基于BOW特征的人體行為表示

根據(jù)人體生理學(xué)和運(yùn)動(dòng)學(xué),我們首先提取關(guān)節(jié)點(diǎn)空間三維坐標(biāo)、方向變化、關(guān)節(jié)點(diǎn)動(dòng)能、姿態(tài)勢(shì)能和關(guān)節(jié)角等特征構(gòu)建人體空間特征矩陣.Kinect可以識(shí)別15個(gè)關(guān)節(jié)點(diǎn),因此每一幀圖像包含了一百多維特征數(shù)據(jù).為了有效組合各種特征數(shù)據(jù),降低特征向量維度,本文采用BOW模型構(gòu)建特征向量.BOW構(gòu)建過程如圖1.

圖1 Bag Of Word構(gòu)建過程Fig.1 Building process of Bag Of Word

根據(jù)提取的空間三維坐標(biāo)、方向變化特征、關(guān)節(jié)點(diǎn)動(dòng)能特征和人體姿態(tài)勢(shì)能特征等4類特征組成第Ft幀的特征矩陣Yt,它的每行對(duì)應(yīng)一個(gè)關(guān)節(jié)點(diǎn)(n=15),按列依次存放以上4類特征,如(1)所示:

(1)

其中:Pn,t表示第n個(gè)關(guān)節(jié)點(diǎn)在Ft幀中的空間坐標(biāo).

φn,t=(xn,t-xn,t-1,yn,t-yn,t -1,zn,t-zn,t-1)

(2)

φn,t表示Ft幀中第n個(gè)關(guān)節(jié)點(diǎn)相對(duì)于Ft-1幀中第n個(gè)關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)方向矢量.

(3)

Ekn,t表示Ft幀中第n個(gè)關(guān)節(jié)點(diǎn)的動(dòng)能,kn為第n個(gè)關(guān)節(jié)點(diǎn)的動(dòng)能參數(shù)(為了簡(jiǎn)單,實(shí)驗(yàn)中kn取1),Δt表示相鄰兩幀之間的時(shí)間間隔,Ekn,t可以定量地表示人體骨架關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)能量信息.

(4)

En,t表示人體姿態(tài)勢(shì)能,能夠定量地反映人體的姿態(tài)信息,L是勢(shì)能參數(shù)(實(shí)驗(yàn)中選1),Pi,t為Ft幀中第i個(gè)關(guān)節(jié)點(diǎn)位置,P1,t表示Ft幀頭部關(guān)節(jié)點(diǎn),即我們選定的零勢(shì)能參照點(diǎn).

(5)

k-means中k值根據(jù)實(shí)驗(yàn)選擇5為最佳,聚類迭代次數(shù)為100,n為15.聚類后得到5個(gè)聚類中心Ci(i=1,…,5),然后將所有特征向量映射到這5個(gè)聚類中心,得到第Ft幀的BOWt特征如下

BOWt=[bin1,…,bink]

(6)

BOW特征構(gòu)建過程描述如下:

i.初始化:BOWt=[0,0,0,0,0],

ii.即bink=0(k=1,2,3,4,5)

iii.1)令

Yt=[vector1,vector2,vector3,…,vector15]T

(7)

2)利用K-means算法對(duì)vectori(i=1,2,…,15)聚類后得到5個(gè)聚類中C1、C2、C3、C4、C5即Ck(k=1,2,3,4,5)。

3)fori:15,

fork:5,

根據(jù)公式(8)計(jì)算所有vector與Ck的歐氏距離

Dk=‖vectori-Ck‖

(8)

end

如果D[index]是D中的最小值

binindex=binindex+1

end

關(guān)節(jié)角是人體骨架表示中常用的特征,在不同動(dòng)作下,關(guān)節(jié)角的變化規(guī)律是不同的,例如刷牙洗臉時(shí)往往僅有上肢關(guān)節(jié)角變化幅度明顯,且呈現(xiàn)出有規(guī)律的變化,而人跑步或者行走時(shí),四肢關(guān)節(jié)角都會(huì)發(fā)生明顯變化.因此四肢關(guān)節(jié)角作為一種識(shí)別特征是非常直觀有效的.我們根據(jù)人體運(yùn)動(dòng)學(xué)規(guī)律定義6個(gè)最具代表性的人體關(guān)節(jié)角,如圖2所示.

圖2 人體關(guān)節(jié)角示意圖Fig.2 Human joint angle

其中θ1和θ2表示左右手大臂與小臂形成的夾角,θ3和θ4分別表示左右腿大腿與小腿的夾角,θ5和θ6分別表示左右手大臂與軀干形成的夾角.然后對(duì)提取的6個(gè)關(guān)節(jié)角θi(i=1,2,…,6)歸一化處理,如下式,

(9)

由于本文提取的關(guān)節(jié)角特征個(gè)數(shù)較少不利于降維處理而且比較重要,因此關(guān)節(jié)角與BOWt一起構(gòu)建特征向量,即構(gòu)建一個(gè)k+6維的特征向量AFt(Activity Feature),

(10)

2.2 交互物體的檢測(cè)和分割

正確檢測(cè)與分割與人體產(chǎn)生交互的物體是有效提高人體行為識(shí)別的前提條件.一般來(lái)說手持物體是與人交互作用最多的物體,因此,我們這里只考慮人與物交互的手持物體.在復(fù)雜背景下,由于手持物體的大小不一、手對(duì)物體可能發(fā)生遮擋,手持物體的檢測(cè)和分割是比較困難.Harris算子就是一種局部特征提取算法,該算法可以獲得穩(wěn)定、重復(fù)性高的角點(diǎn),無(wú)論在哪個(gè)角度這些角點(diǎn)都可以很好地勾勒出物體的大致輪廓,基本不受手部遮擋的影響.

為了分割手持物體,Lv Xiong等人直接選取手部坐標(biāo)作為區(qū)域生長(zhǎng)法的生長(zhǎng)種子點(diǎn)[22],該方法在實(shí)際應(yīng)用中有一定局限性,例如很多時(shí)候手部中心位置 (關(guān)節(jié)點(diǎn)) 會(huì)稍微離開交互的物體區(qū)域,此時(shí)若以手部關(guān)節(jié)點(diǎn)為區(qū)域生長(zhǎng)種子分割結(jié)果常常是不正確的.為了解決這個(gè)問題,降低誤分割率,本文提出了一種改進(jìn)的區(qū)域生長(zhǎng)種子定位方法,首先提取圖像中的Har-ris角點(diǎn),將角點(diǎn)坐標(biāo)(x,y)與對(duì)應(yīng)深度圖的深度值depth構(gòu)成Harris角點(diǎn)的三維坐標(biāo)(x,y,depth),然后選取距離手部關(guān)節(jié)點(diǎn)最近的N個(gè)Harris角點(diǎn),計(jì)算這N個(gè)點(diǎn)的中心作為區(qū)域生長(zhǎng)種子(這里N=4,并確保種子與手部關(guān)節(jié)之間的距離小于閾值),具體流程如圖3.確定區(qū)域生長(zhǎng)種子后,利用區(qū)域生長(zhǎng)算法在深度圖像中實(shí)現(xiàn)復(fù)雜背景下手持物體的準(zhǔn)確分割.

圖3 區(qū)域生長(zhǎng)種子定位流程圖Fig.3 Flow chart of region growing seed location

2.3 融合交互物體特征的人體行為表示

幾何不變矩(Invariant Moments)是一種高效的圖像特征,具有平移、灰度、尺度、旋轉(zhuǎn)不變性.Hu提出把一副M*N的灰度分布圖像表示為函數(shù)f(x,y),(x,y)為圖像平面坐標(biāo),其p+q階幾何矩mqp和中心矩μqp定義如式(11)和式(12):

mpq=?xpyqf(x,y)

(11)

μpq=?(x-x0)p(y-y0)qf(x,y)

(12)

這里p,q=0,1,…;x0=m10/m00,y0=m01/m00,m10,m00,m01分別是p=1,q=0時(shí)的1階幾何矩、p=0,q=0時(shí)的0階幾何矩和p=0,q=1時(shí)的1階幾何矩.為了保證圖像特征具有平移不變性以及尺度不變性,如下公式定義歸一化中心不變矩.根據(jù)Hu的理論,利用歸一化中心矩作為特征能保證上述兩種不變性.

(13)

為了提高人體行為的識(shí)別率,減少行為識(shí)別的歧義性,通過加入物體特征信息可以有效避免因姿態(tài)相同而導(dǎo)致的誤識(shí)別,本文選擇Hu矩特征作為與人體產(chǎn)生交互物體的特征.Hu矩特征向量由7個(gè)矩特征組成,通常第一矩I1、和第二矩I2對(duì)識(shí)別貢獻(xiàn)較大,因此本文中只選取了I1和I2.

I1=y20+y02

(14)

(15)

融合物體特征的特征向量CFt(CombinedFeaturet)如下式

CFt=[AFtOFt]

(16)

2.4 分類方法介紹

基于核的SVM算法具有良好的泛化能力,且結(jié)構(gòu)化風(fēng)險(xiǎn)小[23].其關(guān)鍵問題之一是選取合適的核函數(shù)和獲得最優(yōu)的參數(shù),選擇合適的核函數(shù)可使SVM發(fā)揮最好的分類能力,常用的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基內(nèi)核(Radial Basis Function,RBF Kernel)、sigmoid核函數(shù).因?yàn)镽BF核函數(shù)具有良好的性能且調(diào)節(jié)參數(shù)較少[24],本文采用基于RBF核函數(shù)的SVM分類器(RBF-SVM),RBF核函數(shù)公式如公式(17)所示:

(17)

其中xc為核函數(shù)中心,c為函數(shù)的寬度參數(shù)γ,為核參數(shù).實(shí)驗(yàn)發(fā)現(xiàn)RBF-SVM在實(shí)際分類問題中表現(xiàn)出了良好的性能由于實(shí)驗(yàn)中涉及16組實(shí)驗(yàn)動(dòng)作的對(duì)比,而SVM算法最初是為二值分類問題設(shè)計(jì)的,當(dāng)處理多類問題時(shí),就需要構(gòu)造合適的多類分類器.本實(shí)驗(yàn)應(yīng)用一對(duì)一法構(gòu)建SVM多類分類器,其做法是在任意兩類樣本之間設(shè)計(jì)一個(gè)SVM,因此k個(gè)類別的樣本就需要設(shè)計(jì)k(k-1)/2個(gè)SVM.

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)庫(kù)

為了驗(yàn)證算法的有效性,本文分別在微軟公司的MSR Daily Activity 3D 數(shù)據(jù)庫(kù)[25,26]和康奈爾大學(xué)的CAD-60數(shù)據(jù)庫(kù)[27]進(jìn)行實(shí)驗(yàn).這兩個(gè)數(shù)據(jù)庫(kù)都在計(jì)算機(jī)視覺領(lǐng)域尤其是人體行為識(shí)別領(lǐng)域應(yīng)用非常廣泛.

MSR Daily Activity 3D數(shù)據(jù)庫(kù)包含了16個(gè)日常行為的短視頻:喝水、吃東西、閱讀書籍、打電話、寫字、使用筆記本、使用吸塵器、歡呼慶祝、站立不動(dòng)、拋紙張、玩游戲、躺在沙發(fā)上、來(lái)回踱步、彈吉他、起來(lái)、坐下,如圖4.共有10位實(shí)驗(yàn)者依次完成這16個(gè)動(dòng)作,每個(gè)動(dòng)作大概有120幀.

CAD-60數(shù)據(jù)庫(kù)包含了4個(gè)人12個(gè)日常行為的數(shù)據(jù),具有較好的代表性.這12個(gè)動(dòng)作分別為:漱口,刷牙,戴隱形眼鏡,打電話,喝水,打開藥盒,烹飪(切碎),烹飪(攪拌),在沙發(fā)上休息,黑板上寫字,用電腦工作,4 人中包含兩男兩女,男女中各有一個(gè)左撇子.每一位參與者在 5個(gè)不同的場(chǎng)景下:辦公室、廚房、臥室、洗漱間、客廳進(jìn)行這12個(gè)日常動(dòng)作.在本文實(shí)驗(yàn)中為了驗(yàn)證手持物體對(duì)行為識(shí)別的影響,只選取了打電話、黑板上寫字、喝水、刷牙、打開藥盒、用電腦工作這六個(gè)動(dòng)作.

圖4 MSR Daily Activity 3D數(shù)據(jù)庫(kù)Fig.4 Date base of MSR Daily Activity 3D

這兩個(gè)數(shù)據(jù)庫(kù)都是由Kinect完成采集,其中包含深度圖像 (*.bin文件),人體關(guān)節(jié)點(diǎn)在三位空間中的坐標(biāo) (x,y,z)(*.txt文本)、關(guān)節(jié)點(diǎn)相對(duì)圖像的三維坐標(biāo)(u,v,depth),其中u和v均做歸一化處理,depth表示對(duì)應(yīng)像素點(diǎn)的深度值,以及RGB彩色視頻(*.avi文件).由于數(shù)據(jù)庫(kù)中絕大部分行為(動(dòng)作)都包含了人—物交互關(guān)系,因此行為識(shí)別的難度比較大.

3.2 SVM分類器訓(xùn)練

通過RBF-SVM訓(xùn)練獲得分類器的兩個(gè)重要的參數(shù):懲罰因子c和核參數(shù)γ[28],本實(shí)驗(yàn)中采用的是臺(tái)灣大學(xué)林智仁教授開發(fā)的在matlab上的SVM工具包,其中包含交叉驗(yàn)證方法的libsvm程序?qū)崿F(xiàn)SVM算法,其中-c對(duì)應(yīng)c,-g對(duì)應(yīng)γ.參數(shù)訓(xùn)練結(jié)果如圖5所示,圖中曲線表示識(shí)別率的等高線,標(biāo)注的數(shù)值表示對(duì)應(yīng)的識(shí)別率.通過反復(fù)交叉驗(yàn)證選擇了一組最優(yōu)參數(shù)c=32、g=24,星號(hào)標(biāo)注的點(diǎn)為最優(yōu)參數(shù)點(diǎn).

圖5 RBF-SVM參數(shù)c和g表示的識(shí)別率的等高線圖Fig.5 RBF-SVM recognition rate counter map of parameter c and g

3.3 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證物體自動(dòng)分割效果和融合交互物體特征的復(fù)雜行為識(shí)別效果,分別進(jìn)行了基于Harris角點(diǎn)檢測(cè)的物體自動(dòng)分割實(shí)驗(yàn)、基于人體特征AFt的行為識(shí)別和基于融合交互物體特征與人體行為特征CFt的行為識(shí)別實(shí)驗(yàn).

3.3.1 基于Harris算子的自動(dòng)物體分割實(shí)驗(yàn)

Harris算子可以有效地檢測(cè)出圖像中穩(wěn)定、重復(fù)性高的角點(diǎn),無(wú)論在哪個(gè)角度這些角點(diǎn)都可以很好地勾勒出物體的大致輪廓,并不受手部遮擋、光照變化的影響.因此我們選擇Harris角點(diǎn)自動(dòng)提取區(qū)域生長(zhǎng)算法的種子,然后在對(duì)應(yīng)的深度圖像中,利用區(qū)域生長(zhǎng)算法實(shí)現(xiàn)復(fù)雜背景下手持物體的自動(dòng)分割,最后把分割出的物體結(jié)合原來(lái)的彩色圖顯現(xiàn)出來(lái).

圖6 區(qū)域生長(zhǎng)法自動(dòng)物體分割圖Fig.6 Segmenting object automatically by region growing seed method

這里列出了“吃東西”,“喝水”,“看書”三個(gè)典型的具有手持物體的動(dòng)作分割結(jié)果,實(shí)驗(yàn)效果如圖6.從圖6第一列的彩色圖中可以看出第一個(gè)動(dòng)作“吃東西”,其手持物體體積較大且正對(duì)鏡頭;第二個(gè)動(dòng)作“喝水”,其手持物體“水杯”的體積較小且部分被手部遮擋;第三個(gè)動(dòng)作“看書”,其手持物體“書本”沒有正對(duì)鏡頭只能看到側(cè)面.圖6的第2列是自動(dòng)分割物體后的深度圖,可以看出實(shí)驗(yàn)中3個(gè)動(dòng)作中的物體沒有受到角度和大小的影響,都達(dá)到了很好的分割效果.圖6第3列是分割出的物體的對(duì)應(yīng)彩色圖.

實(shí)驗(yàn)結(jié)果顯示,基于Harris角點(diǎn)的區(qū)域生長(zhǎng)法能夠較好地自動(dòng)分割手持物體.

3.3.2 只采用人體特征AFt的行為識(shí)別實(shí)驗(yàn)

我們分別在MSR Daily Activity 3D和CAD-60數(shù)據(jù)庫(kù)進(jìn)行了實(shí)驗(yàn).實(shí)驗(yàn)中,隨機(jī)提取該數(shù)據(jù)庫(kù)中每個(gè)動(dòng)作的80%數(shù)據(jù)作為SVM的訓(xùn)練集,將余下20%的數(shù)據(jù)作為測(cè)試集.重復(fù)實(shí)驗(yàn)5次后,將實(shí)驗(yàn)結(jié)果的平均值作為最終的實(shí)驗(yàn)結(jié)果.

MSR Daily Activity 3D數(shù)據(jù)庫(kù)中每個(gè)動(dòng)作的都存在手持物體,且許多動(dòng)作之間有著較高的相似性.當(dāng)只采用AFt作為特征而不考慮交互物體特征時(shí),由姿態(tài)相同而導(dǎo)致的誤識(shí)別比較大,因此非常適合做對(duì)比實(shí)驗(yàn).圖7顯示了只采用AFt作為特征進(jìn)行行為識(shí)別時(shí)MSR Daily Activity 3D數(shù)據(jù)庫(kù)中16個(gè)動(dòng)作的混淆矩陣結(jié)果,從圖中可以看出實(shí)驗(yàn)平均準(zhǔn)確率僅為58.8%,如“喝水”、“吃東西”、“看書”、“打游戲”、“躺在沙發(fā)上”等動(dòng)作的誤識(shí)別情況比較嚴(yán)重.

CAD-60數(shù)據(jù)庫(kù)數(shù)據(jù)量比較大,我們只選取了手持物體比較明顯的動(dòng)作進(jìn)行識(shí)別.從圖8中可以看出這六個(gè)動(dòng)作的平均識(shí)別率已經(jīng)高達(dá)88.0%,這說明這六個(gè)動(dòng)作的人體姿態(tài)存在較大差異,應(yīng)用人體特征識(shí)別可以取得比較滿意的識(shí)別效果.

3.3.3 基于組合交互物體特征與人體行為特征CFt的行為識(shí)別實(shí)驗(yàn)

為了驗(yàn)證交互物體信息對(duì)行為識(shí)別的有效性,這里采用組合的新特征CFt進(jìn)行行為識(shí)別,其他的條件都與上一組實(shí)驗(yàn)相同,行為識(shí)別的混淆矩陣如圖8、圖9.

圖7 只采用AFt特征在MSR數(shù)據(jù)庫(kù)上行為識(shí)別混淆矩陣Fig.7 Confusion matrix of activity recognition in MSR database based on AFt features

圖8 只采用AFt特征在CAD-60數(shù)據(jù)庫(kù)上的行為識(shí)別混淆矩陣Fig.8 Confusion matrix of activity recognition in CAD-60 database based on AFt features

圖9 基于CFt特征在MSR數(shù)據(jù)庫(kù)上的行為識(shí)別混淆矩陣Fig.9 Confusion matrix of activity recognitionin MSR database based on CFt features

從圖中可以看出融合手持物體特征之后,MSR Daily Activity 3D數(shù)據(jù)庫(kù)中的16個(gè)動(dòng)作的準(zhǔn)確率都有所提高,平均準(zhǔn)確率從58.8%提高至82.9%.如“喝水”、“吃東西”、“看書”、“打電話”、“寫字”、“打游戲”、“扔紙團(tuán)”、“彈吉他”等動(dòng)作的識(shí)別率都很高,原因是這些動(dòng)作中,準(zhǔn)確地分割出了手持物體,準(zhǔn)確地提取到物體特征,因此識(shí)別率得到大幅提升.CAD-60數(shù)據(jù)庫(kù)中6個(gè)動(dòng)作的平均準(zhǔn)確率也從88.0%提高至94.0%,可見這六個(gè)動(dòng)作僅使用人體特征已經(jīng)取得比較滿意的識(shí)別效果,加入物體特征后識(shí)別也更加準(zhǔn)確了.

另外,從圖8中可以看出融合手持物體特征之后,“躺在沙發(fā)上” 、“站著不動(dòng)”、“站立”、“走路”和“坐下”這5個(gè)動(dòng)作的誤識(shí)率沒有明顯提高,主要原因是這五個(gè)行為中沒有手持物體.沒有手持物體的行為識(shí)別率偏低可能需要構(gòu)建更復(fù)雜特征,針對(duì)這個(gè)問題,我們將做進(jìn)一步研究.

圖10 基于CFt特征在MSR數(shù)據(jù)庫(kù)上的行為識(shí)別混淆矩陣Fig.10 Confusion matrix of activity recognition in MSR database based on CFt features

在CAD-60數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果和MSR Daily Activity 3D數(shù)據(jù)庫(kù)中類似,對(duì)比圖8和圖10,我們可以看出6個(gè)動(dòng)作的準(zhǔn)確率都有了一定的提高平均準(zhǔn)確率也從88.0%提高至94.0%,尤其是“打開藥盒”這個(gè)動(dòng)作的準(zhǔn)確率高達(dá)100%,可見這六個(gè)動(dòng)作僅使用人體特征已經(jīng)取得比較滿意的識(shí)別效果,加入物體特征后識(shí)別也更加準(zhǔn)確了.

同時(shí),為了驗(yàn)證我們方法的總體性能,表2列舉了我們的方法和目前多種最新方法的實(shí)驗(yàn)結(jié)果對(duì)比.

表2 不同特征和分類方法的對(duì)比結(jié)果Table 2 Comparison experiment results based on different features and methods

從表2中可以看出全部MSR Daily Activity 3D數(shù)據(jù)庫(kù)中16個(gè)行為的總的平均識(shí)別準(zhǔn)確率為82.9%,處在中間水平,但我們的特征維數(shù)很低,只有13維,和別的方法相比計(jì)算量明顯減小.對(duì)比圖7和圖9,可以清楚地看出其中11個(gè)具有手持物體的復(fù)雜行為的識(shí)別率有明顯提高,比如喝水的識(shí)別率從69%提高到92%,其中喝水和吃東西的誤識(shí)別率從13%降到0,喝水和看書的誤識(shí)別率從7%降到0,這是由于喝水時(shí)的手持物體“杯子”與另兩個(gè)動(dòng)作中的 “食物”、“書本”進(jìn)行了有效的區(qū)分.特別地,如果去除沒有手持物體的5個(gè)行為,剩下的有手持物體的11個(gè)行為的平均識(shí)別率高達(dá)89.1%,超過其他所有方法的識(shí)別率.在CAD-60數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果顯示我們6個(gè)動(dòng)作的準(zhǔn)確率高達(dá)94.0%,在現(xiàn)有的方法上有了較大的提高.

因此,在兩個(gè)數(shù)據(jù)庫(kù)的實(shí)驗(yàn)有效地驗(yàn)證了融合手持物體特征可以大幅提高復(fù)雜行為的識(shí)別率,交互信息的引入對(duì)識(shí)別有很大的促進(jìn)作用.

4 結(jié)束語(yǔ)

考慮到與人交互物體對(duì)人體行為識(shí)別的重要作用,本文提出了一種對(duì)交互物體信息和人體動(dòng)作特征聯(lián)合建模的三維人體識(shí)別方法,該方法提取了人體骨架動(dòng)能、關(guān)節(jié)點(diǎn)位置、姿態(tài)勢(shì)能等多種特征聚類為高層語(yǔ)義BOW特征,其中人體骨架動(dòng)能和姿態(tài)勢(shì)能特征能夠定量地表示視頻中人體動(dòng)作,區(qū)域生長(zhǎng)法能夠較好地自動(dòng)分割手持物體,融合交互物體的Hu矩特征對(duì)易混淆的人體行為有很好的補(bǔ)充作用,可以大幅度減少行為識(shí)別的歧義性,針對(duì)人與物體交互等復(fù)雜的人體行為識(shí)別率有較大的提高.在特征提取方面,例如與IDT方法結(jié)合是我們今后的研究方向之一,同時(shí)將考慮人體行為特征和交互物體的信息,進(jìn)一步提高行為識(shí)別的準(zhǔn)確性和適用性.

猜你喜歡
關(guān)節(jié)點(diǎn)識(shí)別率物體
基于深度學(xué)習(xí)和視覺檢測(cè)的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動(dòng)作識(shí)別
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
深刻理解物體的平衡
基于真耳分析的助聽器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
我們是怎樣看到物體的
提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
搞好新形勢(shì)下軍營(yíng)美術(shù)活動(dòng)需把握的關(guān)節(jié)點(diǎn)
高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
為什么同一物體在世界各地重量不一樣?
东海县| 龙州县| 大港区| 兴国县| 乌拉特前旗| 苏尼特右旗| 凤翔县| 怀化市| 台安县| 曲松县| 松桃| 襄樊市| 固原市| 德庆县| 龙陵县| 黄平县| 子洲县| 镇赉县| 闵行区| 普兰店市| 明水县| 翁牛特旗| 牙克石市| 天镇县| 克什克腾旗| 普兰店市| 广南县| 樟树市| 会泽县| 慈溪市| 哈巴河县| 华蓥市| 舒兰市| 临清市| 红河县| 牙克石市| 浮梁县| 崇义县| 西丰县| 瑞安市| 河北省|