国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于RGB-D圖像核描述子的物體識別方法

2017-04-17 05:18健,蔣
計(jì)算機(jī)應(yīng)用 2017年1期
關(guān)鍵詞:類別編碼局部

駱 健,蔣 旻

(1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430065; 2.智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室(武漢科技大學(xué)),武漢 430065)

(*通信作者電子郵箱345467866@qq.com)

基于RGB-D圖像核描述子的物體識別方法

駱 健1,2,蔣 旻1,2*

(1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430065; 2.智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室(武漢科技大學(xué)),武漢 430065)

(*通信作者電子郵箱345467866@qq.com)

針對傳統(tǒng)的顏色-深度(RGB-D)圖像物體識別的方法所存在的圖像特征學(xué)習(xí)不全面、特征編碼魯棒性不夠等問題,提出了基于核描述子局部約束線性編碼(KD-LLC)的RGB-D圖像物體識別方法。首先,在圖像塊間匹配核函數(shù)基礎(chǔ)上,應(yīng)用核主成分分析法提取RGB-D圖像的3D形狀、尺寸、邊緣、顏色等多個(gè)互補(bǔ)性核描述子;然后,分別對它們進(jìn)行LLC編碼及空間池化處理以形成相應(yīng)的圖像編碼向量;最后,把這些圖像編碼向量融合成具有魯棒性、區(qū)分性的圖像表示。基于RGB-D數(shù)據(jù)集的仿真實(shí)驗(yàn)結(jié)果表明,作為一種基于人工設(shè)計(jì)特征的RGB-D圖像物體識別方法,由于所提算法綜合利用深度圖像和RGB圖像的多方面特征,而且對傳統(tǒng)深度核描述子的采樣點(diǎn)選取和緊湊基向量的計(jì)算這兩方面進(jìn)行了改進(jìn),使得物體類別識別率達(dá)到86.8%,實(shí)體識別率達(dá)到92.7%,比其他同類方法具有更高的識別準(zhǔn)確率。

RGB-D圖像;物體識別;局部約束線性編碼;核描述子;空間池化

0 引言

基于機(jī)器視覺的物體識別是模式識別領(lǐng)域一個(gè)方興未艾的研究方向。目標(biāo)物體的特征提取是其中的關(guān)鍵技術(shù)之一。從物體的RGB圖像中可以提取代表該物體的顏色、紋理和輪廓等特征,但那些從RGB圖像中提取的特征易受光照變化、陰影、視角等因素的干擾[1]?,F(xiàn)在,有很多相機(jī)能快速獲取帶深度信息的RGB(RGB-Depth, RGB-D)圖像,其中,深度圖像記錄的是場景上各點(diǎn)與相機(jī)之間的距離信息,能直接反映物體表面的三維特征,是對RGB圖像信息的有效補(bǔ)充。因此,基于RGB-D圖像信息的RGB-D物體識別已成為計(jì)算機(jī)視覺領(lǐng)域近年來的一個(gè)研究熱點(diǎn)。已有的相關(guān)研究大體可以歸納為以下兩大類。

1) 基于特征自動(dòng)學(xué)習(xí)的方法。

特征學(xué)習(xí),采用深度學(xué)習(xí)[2]中的不同網(wǎng)絡(luò)結(jié)構(gòu),通過無監(jiān)督或有監(jiān)督的訓(xùn)練,使得網(wǎng)絡(luò)能自動(dòng)學(xué)習(xí)圖像的有效特征。其中,文獻(xiàn)[3-5]雖在RGB-D物體識別方面都取得了比較好的識別效果,但此類基于特征自動(dòng)學(xué)習(xí)的深度學(xué)習(xí)算法往往計(jì)算量很大,對計(jì)算機(jī)的硬件條件要求較高。

2) 基于人工設(shè)計(jì)特征提取及表達(dá)的方法。

根據(jù)先驗(yàn)知識進(jìn)行人工設(shè)計(jì)特征提取,再采用詞袋(Bag Of Feature, BOF)[6]和空間金字塔匹配(Spatial Pyramid Matching, SPM)[7]方法進(jìn)行特征表達(dá),是近年來的一個(gè)研究熱點(diǎn)。Silberman等[8]同時(shí)提取RGB圖像和對應(yīng)深度圖像的尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)特征,在RGB-D場景分類中取得了不錯(cuò)效果。Bo等[9]提出的分層匹配追蹤(Hierarchical Matching Pursuit, HMP)算法;Blum等[10]提出了卷積K均值描述算子;Jin等[11]結(jié)合人工設(shè)計(jì)特征及機(jī)器學(xué)習(xí)算法等,在RGB-D物體的目標(biāo)識別方面均取得了很好的性能。

但是,上述大部分傳統(tǒng)的人工設(shè)計(jì)特征提取的方法應(yīng)用于RGB-D圖像識別時(shí),仍采用RGB圖像的特征獲取方法對深度圖像進(jìn)行底層特征提取,忽視了深度圖像所特有的3D幾何局部特性。為了克服這個(gè)缺點(diǎn),本文采用核描述子方法[12]來提取深度圖獨(dú)有的底層特征。針對深度圖像的底層特征提取,在文獻(xiàn)[12]基礎(chǔ)上,Bo等[13]提出了深度核描述子方法。該方法克服了傳統(tǒng)深度特征依賴視角的缺點(diǎn),大大提高了在單一視角的條件下對象的識別精度,但其深度核描述子的計(jì)算仍存在如下缺陷。

1) 等間隔采樣導(dǎo)致某些采樣點(diǎn)無效,從而影響該點(diǎn)局部特征向量的計(jì)算。

2) 對均勻密集采樣的基向量執(zhí)行核主元分析(Kernel Principal Component Analysis, KPCA)得到的緊湊基向量,無法獲知其中最具代表性的樣本,繼而影響核描述子特征表示的能力。

為了克服以上缺點(diǎn),本文首先對傳統(tǒng)深度核描述子的采樣點(diǎn)選取和緊湊基向量的計(jì)算這兩方面均進(jìn)行相應(yīng)的改進(jìn),以強(qiáng)化核描述子的特征表示能力。其次,在此基礎(chǔ)上,提出了一種基于核描述子編碼的RGB-D物體識別方法,該方法從圖像顏色、邊緣、形狀、大小等不同方面分別提取RGB圖像及深度圖像的核描述子底層特征,不同核描述子經(jīng)局部約束線性編碼(Locality-constrained Linear Coding, LLC)[14]和空間池化處理后形成圖像特征,再通過串行融合,生成的最終圖像描述更加魯棒,更加具有區(qū)分性。因此,相較于已有的方法[10,13-16],本文提出的核描述子編碼算法,在物體識別性能方面取得了顯著性的提高。

1 核描述子的局部特征提取

在對象識別任務(wù)中,最關(guān)鍵的步驟之一是計(jì)算不同圖像(塊)的相似度。最常用的方法,是以圖像小塊(如8×8的patch)為單位,將圖像塊內(nèi)像素的局部特征向量用直方圖等量化方式統(tǒng)計(jì)出來,再通過計(jì)算兩塊之間的特征向量內(nèi)積得到彼此的相似度,這種特征表達(dá)由于計(jì)算量小,簡便易行,得到了廣泛的應(yīng)用,但此方式存在量化誤差。

近年來,文獻(xiàn)[12-13]提出在計(jì)算圖像塊相似度時(shí)引入核方法(稱為匹配核),用連續(xù)空間的核函數(shù)來代替分箱的沖激函數(shù),來避免上述方法在特征離散化時(shí)帶來的量化誤差。該方法用匹配核求出兩個(gè)圖像塊上所有像素某連續(xù)特征值之間的距離,然后再求距離的平均值,得到的結(jié)果即為圖像塊的相似度[12]。

匹配核提供了一種能更精確計(jì)算圖像塊的相似度的方法,更重要的是該方法還提供了一種高效的策略從匹配核中直接計(jì)算單個(gè)局部特征,這種策略計(jì)算得到的局部特征稱為核描述子。

計(jì)算核描述子有3個(gè)步驟:1)設(shè)計(jì)合適的匹配核,以某種測度(如梯度、顏色等)來測量圖像塊之間的相似度;2)計(jì)算匹配核的低維表達(dá),得到能近似表達(dá)匹配核的低維基向量組;3)通過將局部特征向量投影到基向量組所表達(dá)的特征空間上,得到核描述子。

在此基礎(chǔ)上,Bo等[13]提出深度核描述子,雖在RGB-D圖像識別方面取得了不錯(cuò)效果,但其中尺寸核描述子(Size Kernel Descriptor, Size-KD)和Spin核描述子(Spin Kernel Descriptor, Spin-KD)的計(jì)算仍存在以下缺陷:1)在計(jì)算Size-KD或Spin-KD時(shí),從對象點(diǎn)云中選擇一定數(shù)量的點(diǎn)作為參考點(diǎn),這些參考點(diǎn)組成一個(gè)子點(diǎn)云。子點(diǎn)云是原始對象點(diǎn)云的一種近似采樣,這種采樣應(yīng)該盡可能地反映原始對象點(diǎn)云的分布。Bo等[13]對對象點(diǎn)云圖進(jìn)行等間隔均勻采樣以生成子點(diǎn)云,當(dāng)遇到采樣點(diǎn)在深度值小于0時(shí),將該點(diǎn)標(biāo)記為“無效”,不對其進(jìn)行采樣。在實(shí)驗(yàn)中,研究發(fā)現(xiàn),有大量樣本在采樣過程中標(biāo)為“無效”,進(jìn)而影響了該采樣點(diǎn)局部特征向量計(jì)算的準(zhǔn)確性。2)在計(jì)算Size-KD或Spin-KD時(shí),需生成緊湊基向量組,Bo等[13]采取對均勻密集采樣的基向量執(zhí)行KPCA的方式獲取緊湊基向量組,這種方法假定原始基向量空間中樣本數(shù)據(jù)均勻分布,沒有考察哪些樣本最具代表性,因而導(dǎo)致無法更有效地降低核描述子特征維度。

針對以上缺陷,本文提出了一種改進(jìn)的尺寸核描述子(Size-KD)和Spin核描述子(Spin-KD)描述子。與Bo等[13]相比,本文算法有兩點(diǎn)改進(jìn):第一,將對象點(diǎn)云圖等間隔劃分若干個(gè)子區(qū)域,選取每個(gè)子區(qū)域中深度值最大的點(diǎn)作為參考點(diǎn),以此方式生成子點(diǎn)云,既能滿足均勻采樣原則,又能在一定程度上降低生成無效采樣點(diǎn)的概率。實(shí)驗(yàn)驗(yàn)證表明,本算法的無效采樣點(diǎn)占有率較前者降低了5%~11%。第二,在計(jì)算緊湊基向量時(shí),本文算法通過訓(xùn)練的方式學(xué)習(xí)特征空間中樣本數(shù)據(jù)的分布規(guī)律,以便更有效地降低特征維度。

為了使RGB-D物體的圖像特征表示更加全面,本文除了采用改進(jìn)的Size-KD以及Spin-KD外,還結(jié)合了文獻(xiàn)[12-13]中提出的梯度核描述子(Gradient Kernel Descriptor, Gradient-KD)、局部二值模式核描述子(Local Binary Pattern Kernel Descriptor, LBP-KD)、顏色核描述子(Color Kernel Descriptor, Color-KD),分別從邊緣、顏色、尺寸和形狀多個(gè)方面表達(dá)RGB圖像(深度圖像)的局部特性。再對上述核描述子采取LLC特征編碼,即可得到不同的圖像表述,進(jìn)而完成RGB-D圖像物體的識別。

由于篇幅所限,本文只對改進(jìn)的尺寸核描述子的計(jì)算過程進(jìn)行全面的闡述,對于其他核描述子,只介紹匹配核的設(shè)計(jì)過程,它們匹配核的低維表達(dá)和特征向量映射的過程和尺寸核描述子相似,所以不加贅述。

1.1 尺寸核描述子

尺寸核描述子(Size-KD)根據(jù)深度圖像轉(zhuǎn)化的3D點(diǎn)云獲取對象的物理尺寸大小信息。由于不同對象實(shí)體都有特定的大小,因此對象的物理尺寸信息對于物體識別非常重要。為此,需要先將深度圖像的每個(gè)像素投影到對應(yīng)的三維坐標(biāo)向量中以此形成3D點(diǎn)云,再計(jì)算每個(gè)點(diǎn)到點(diǎn)云中給定參考點(diǎn)之間的距離,以此獲取對象的尺寸大小信息。其尺寸相似度匹配核函數(shù):

(1)

由此,改進(jìn)的尺度核描述子的計(jì)算流程如下。

步驟1 采樣生成子點(diǎn)云。根據(jù)式(2)對深度圖進(jìn)行間隔采樣,生成子點(diǎn)云r。其中:ri、Pi分別為第i個(gè)正方形網(wǎng)格中子網(wǎng)格內(nèi)的采樣點(diǎn)和所有點(diǎn)集合,Nsub為子網(wǎng)格數(shù),z(x)為x點(diǎn)的深度坐標(biāo)。

r={ri|z(ri)=max{z(Pi)},i∈[1,Nsub]}

(2)

Dri={dj|dj=DistC(qj,ri),j∈[1,N],i∈[1,Nsub]}

(3)

步驟3 計(jì)算尺度特征向量均值Fsize(ri)。計(jì)算Dri中每個(gè)尺度元素的尺度匹配核,并由式(4)求出均值Fsize(ri)。其中尺度匹配核函數(shù)ksize(·)見式(1)定義,bd=[b1,b2,…,bNd]為尺度屬性值域上均勻密集采樣后得到的尺度基向量。

(4)

步驟4 計(jì)算緊湊基向量組Esize。根據(jù)式(5),計(jì)算Esize,其中Fsize為訓(xùn)練集中每張點(diǎn)云圖獲取的采樣點(diǎn)經(jīng)式(4)得到Fsize(ri)的集合,緊湊基向量組Esize是通過對Fsize執(zhí)行KPCA,然后選取前Dim個(gè)主元后得到的特征向量。

Esize=Kpca(Fsize,Dim)

(5)

步驟5 計(jì)算采樣點(diǎn)ri的尺度核描述子SIZE_KD(ri)。由式(6),將采樣點(diǎn)ri的Fsize(ri)投影到Esize所表達(dá)的特征空間上,即得SIZE_KD(ri):

SIZE_KD(ri)=Esize×Fsize(ri)

(6)

1.2 梯度核描述子

梯度核描述子(Gradient-KD)獲取RGB圖像(深度圖像)的邊緣信息。主要由使用梯度幅值來權(quán)衡每個(gè)像素影響的歸一化線性核、計(jì)算梯度方向相似度的方向核以及衡量像素間空間緊密度的位置高斯核構(gòu)成,兩個(gè)圖像塊間相似度函數(shù)由式(7)給出:

(7)

ks(p,q)=exp(-γs‖p-q‖2)

(8)

1.3 局部二值模式核描述子

局部二值模式核描述子(LBP-KD)獲取RGB圖像(深度圖像)的局部邊緣信息。在3×3的窗口內(nèi),以窗口中心像素為閾值,將相鄰的8個(gè)像素的灰度值與其進(jìn)行比較,若周圍像素值大于中心像素值,則該像素點(diǎn)的位置被標(biāo)記為1,否則為0。這樣,3×3鄰域內(nèi)的8個(gè)點(diǎn)可產(chǎn)生8維的二進(jìn)制的列向量b(p),結(jié)合衡量其邊緣相似度的高斯核函數(shù)kb,得到核函數(shù):

(9)

1.4 顏色核描述子

顏色核描述子(Color-KD)獲取RGB圖像的外觀顏色信息。在像素值基礎(chǔ)上,構(gòu)造的顏色匹配核函數(shù)如下:

(10)

其中:c(p)表示位置p像素的顏色值;kc與ks為衡量像素值相似度及像素點(diǎn)位置的高斯核函數(shù)。

1.5 Spin核描述子

Spin核描述子(Spin-KD),根據(jù)深度圖像轉(zhuǎn)化的3D點(diǎn)云獲取對象的3D形狀信息。而“SpinImage”[17]是一種影響較大的三維物體局部形狀描述子,已成功應(yīng)用于三維目標(biāo)識別、表面匹配等多項(xiàng)任務(wù)。若給定三維目標(biāo)表面的一個(gè)有向點(diǎn)p*,過該點(diǎn)的法向量為n*,切平面為T,以(p*,n*)表示該點(diǎn)屬性,則目標(biāo)表面上的其他任意點(diǎn)p∈P的屬性表示(p,n)可以通過[ηp,ξp,βp]給出,則有:

(11)

其中:ηp表示點(diǎn)p到切平面T的有向垂直距離;ξp表示p到法向量n*的垂直距離;βp為法線n與n*之間的角度。通過式(12)旋轉(zhuǎn)核函數(shù)將像素點(diǎn)屬性[ηp,ξp,βp]轉(zhuǎn)化圖像的局部形狀特征。

(12)

2 局部約束線性編碼

用X表示從一幅圖像中提取的D維的特征描述子集合,如X=[x1,x2,…,xN]∈RD×N,其中xi∈RD是X中第i個(gè)描述子。B為字典,包含M個(gè)元素,即B=[b1,b2,…,bM]∈RD×M。利用字典B對每個(gè)特征描述子xi進(jìn)行重構(gòu),可以表示為:xi≈Bci,可采用不同編碼方式得到對應(yīng)的ci∈RM。

局部約束線性編碼(LLC),是在稀疏編碼(SPMbasedonSparsecodes,ScSPM)[18]、局部坐標(biāo)編碼(LocalCoordinateCoding,LCC)[19]等線性編碼方法的基礎(chǔ)上的再次改進(jìn),利用局部約束將每個(gè)描述子投影到其局部坐標(biāo)系統(tǒng)中,在保證稀疏性的同時(shí)又解決了ScSPM方法計(jì)算復(fù)雜度高等問題。其基本思想為:對于待編碼的特征描述子xi,使用距離xi最近的k個(gè)字典元素的線性組合表達(dá)該特征描述子,其中k遠(yuǎn)小于字典元素的個(gè)數(shù)M(k?M),其優(yōu)化目標(biāo)函數(shù)為:

(13)

s.t. 1Tci=1,?i

其中:B為學(xué)習(xí)得到的字典;ci為待優(yōu)化的特征的編碼系數(shù);λ為LLC中的懲罰因子;⊙表示對應(yīng)元素相乘;di表示可為每個(gè)基向量分配不同自由度的局部性適配器,所分配的自由度與其和輸入描述子xi的相似性成正比。1表示全部元素為1的向量,約束條件1Tci=1保證編碼的平移不變性,局部正則化項(xiàng)‖di⊙ci‖2能夠確保相似的特征描述子具有相似的編碼。Yu等[19]理論上認(rèn)為,在某些情況下局部性比稀疏性更重要,因?yàn)闈M足特征的局部性約束必然能夠滿足特征的稀疏性,反之卻未必。稀疏性約束旨在保證重構(gòu)性的前提下使編碼系數(shù)L0范數(shù)盡可能小,而LLC的局域性約束則是使用距離特征最近的字典元素表達(dá)特征,因此該特征的稀疏表達(dá)具有更強(qiáng)的區(qū)別力。

3 基于KD-LLC的RGB-D物體識別

此外,為了獲取物體類的不同數(shù)據(jù)結(jié)構(gòu),本文采取最常用的K-means聚類算法對訓(xùn)練圖像集特征聚類,生成LLC中的視覺字典B。

本文算法的訓(xùn)練階段的流程簡述如下(由于各個(gè)描述子的處理過程類似,所以訓(xùn)練過程中1)~3)步驟以尺寸核描述子(Size-KD)為例說明),對應(yīng)圖1中的實(shí)線步驟①②③④⑤⑥。

5)訓(xùn)練分類器(對應(yīng)圖中實(shí)線步驟⑥)。基于訓(xùn)練集ΩΔ,用SVM算法訓(xùn)練得到圖像分類器。

圖1 基于核描述子編碼的RGB-D圖像物體識別方法流程

4 實(shí)驗(yàn)及結(jié)果分析

4.1 RGB-D數(shù)據(jù)庫

本文實(shí)驗(yàn)采用Lai等[15]公布的具有多分類多層次多視角的RGB-D數(shù)據(jù)庫。其中,該數(shù)據(jù)庫包含51個(gè)不同類別的家用物品和300個(gè)這些類別的實(shí)體,每個(gè)對象實(shí)體均含有從3個(gè)不同的水平視角高度(30°、45°和60°)進(jìn)行360°旋轉(zhuǎn)獲取的圖像,使得數(shù)據(jù)集包含將近250 000張RGB-D圖像。通過對每個(gè)實(shí)體中的圖像以每5幀的間隔進(jìn)行抽樣,最終得到41 877張RGB圖像以及對應(yīng)的深度圖像。圖2展示了用于實(shí)驗(yàn)的RGB-D數(shù)據(jù)集中每個(gè)類別的物體。

圖2 RGB-D數(shù)據(jù)庫中實(shí)體圖像

4.2 實(shí)驗(yàn)過程

本文實(shí)驗(yàn)的設(shè)置與Lai等[15]保持一致,包括類別和實(shí)體的識別。首先,對于類別識別,從數(shù)據(jù)集的每一個(gè)類別中隨機(jī)抽取1個(gè)實(shí)體對象用作測試,保留下來的作為訓(xùn)練集。隨機(jī)實(shí)驗(yàn)10次,取其平均值作為類別識別精度和標(biāo)準(zhǔn)偏差的最終結(jié)果。其次,對于實(shí)體的識別,數(shù)據(jù)集中的所有實(shí)體對象選取30°和60°圖像作為訓(xùn)練集,45°作為測試集。實(shí)驗(yàn)中對于提取Gradient-KD、LBP-KD和SIFT,需先將圖像都轉(zhuǎn)換為灰度圖([0,1]),對于Color-KD圖像的RGB值也需標(biāo)準(zhǔn)化([0,1]),并在保持原圖像的高寬比例不變的前提下調(diào)整每幅圖像的大小在300像素×300像素內(nèi),將圖像按照每8像素劃分為16像素×16像素的patch塊。從每個(gè)patch塊中分別提取描述子,得到每個(gè)Gradient-KD、LBP-KD及Color-KD特征是D=200維的向量,SIFT特征為D=128維向量。對于Size-KD提取,其中每個(gè)參考點(diǎn),在3D點(diǎn)云中與之計(jì)算的采樣點(diǎn)的數(shù)量不超過256,而Spin-KD則設(shè)定參考點(diǎn)的周圍局部區(qū)域半徑為0.4 cm并且采樣的鄰近點(diǎn)的數(shù)目不超過200。得到每個(gè)Size-KD特征是D=50,Spin-KD是D=200向量。緊接著在字典學(xué)習(xí)的過程中,字典大小設(shè)置為M=256,由于從整個(gè)數(shù)據(jù)集上提取的各個(gè)描述子的特征數(shù)目龐大,全部用于字典學(xué)習(xí)耗費(fèi)時(shí)間太長,實(shí)驗(yàn)中分別對每種描述子隨機(jī)采樣20萬個(gè)特征作為訓(xùn)練數(shù)據(jù)。進(jìn)行LLC操作,在獲得每個(gè)描述子的編碼后,應(yīng)用SPM將每幅圖像在空間劃分為三層,每層的子區(qū)域數(shù)目分別為4×4、2×2、1×1。然后,每層子區(qū)域使用最大池化算法[12]后拼接起來獲得該層的編碼,最后在層與層之間同樣使用拼接的操作,這樣就得到每幅圖像在該核描述子下池化后的編碼向量表示,即為:M×L=256×21維的向量。將此些向量進(jìn)行相應(yīng)串聯(lián)融合得到RGB特征、Depth特征以及融合二者的RGB-D特征,最終使用liblinear工具包[20]對RGB-D特征進(jìn)行線性分類。

4.3 實(shí)驗(yàn)結(jié)果比較

Bo等[13]通過采用金字塔高效匹配核(Efficient Match Kernel,EMK)[21]將核描述子聚集成對象級的高級特征,在RGB-D圖像分類問題上已經(jīng)取得了不錯(cuò)分類結(jié)果。針對Bo等[13]計(jì)算Size-KD與Spin-KD存在的缺陷,本文提出了改進(jìn)的Size-KD與Spin-KD,以及在此基礎(chǔ)上的核描述子編碼算法。對于核描述子改進(jìn)前后,本文與Bo等[13]識別結(jié)果如圖3所示。

從圖3(a)和(b)可以看出,相較于Size-KD與Spin-KD,改進(jìn)的Size-KD與Spin-KD在類別及實(shí)體識別上均可取得更好的識別效果。對于單獨(dú)的深度圖核描述子特征、將深度圖的核描述子特征融合及將RGB圖核描述子融合后的特征的識別結(jié)果如表1所示。

從表1的實(shí)驗(yàn)效果對比可以看出,對于深度圖像,本文提出的方法雖在某些單獨(dú)核描述子的識別率上稍低于Bo等[13],但總體而言,融合這些特征后的深度圖像的識別與其相差不大。關(guān)鍵是在RGB圖像識別方面,有了較大的提升,尤其是在實(shí)體識別方面更加地明顯。與Bo等[13]相比,在融合RGB圖像的邊緣和顏色特征后,本文在類別識別方面提高了3.09%,實(shí)體識別方面提高了17.05%。額外加入SIFT特征后,識別效果還能得到進(jìn)一步提升。表2顯示了本文及傳統(tǒng)的基于人工設(shè)計(jì)特征提取算法在RGB圖像、深度圖像和結(jié)合二者特征的RGB-D圖像方面的物體識別準(zhǔn)確率。

圖3 核描述子改進(jìn)前后識別率對比

表1 核描述子識別效果對比 %

Tab.1 Recognition accuracy comparison of different kernel descriptors %

描述子類別(Category)Bo等方法[13]本文方法實(shí)體(Instance)Bo等方法[13]本文方法Gradient?KD69.0±2.370.4±1.239.839.9LBP?KD66.3±1.371.9±1.336.136.2KPCA50.2±2.9—29.5—Spin?KD64.4±3.159.9±2.528.830.1Size?KD60.0±3.361.3±4.932.025.9Depth?All78.8±2.778.7±2.354.353.4RGB?All77.7±1.980.1±1.878.692.0注:“—”表示無相應(yīng)的值。

不難看出,在類別識別和實(shí)體識別中,RGB特征相對而言比深度特征更為有用。此外:由于深度特征能直接描述物體的外在輪廓信息,因此在物體的類別識別中效果較好;RGB特征能突出物體的細(xì)節(jié)信息,所以在更為詳細(xì)的實(shí)體識別中,表現(xiàn)明顯優(yōu)于深度特征;而RGB-D特征綜合了二者的優(yōu)勢,識別的準(zhǔn)確率最高。

相較于先前的傳統(tǒng)方法,本文提出的方法,雖在深度特征識別方面,準(zhǔn)確率稍低于Bo等[13],但在RGB以及RGB-D特征識別方面,均達(dá)到最好的識別效果。而且在實(shí)體識別方面優(yōu)勢更加地明顯。

4.4 誤差分析

圖4展示了本文方法在RGB-D數(shù)據(jù)集上類別分類時(shí)產(chǎn)生的混淆矩陣。其中混淆矩陣的y軸表示數(shù)據(jù)集的真實(shí)類別標(biāo)簽,x軸表示預(yù)測的類別標(biāo)簽?;煜仃噷蔷€上元素的值代表本文方法在各類別上平均分類識別率,第i行j列的元素表示的是將類別i的圖像誤分類到j(luò)類別上的百分比。從圖4中不難看出,本文提出的基于核描述子編碼,從RGB-D圖像中提取多個(gè)互補(bǔ)特征進(jìn)行融合的分類識別方法取得了非常好的效果。其中,唯有球類(2-ball)與蘑菇類(32-mushroom)分類錯(cuò)誤,誤將球類(2-ball)、蘑菇類(32-mushroom)識別為大蒜類(21-garlic)。

表2 方法識別結(jié)果比較 %

圖4 基于核描述子編碼的RGB-D圖像物體識別模型的混淆矩陣

圖5(a)展示了本文方法識別效果差且容易混淆的類別。其中,球與大蒜、帽子(9-cap)與水壺(38-pitcher)、大蒜與蘑菇它們在顏色和外形輪廓等方面都非常相似,從而導(dǎo)致分類出現(xiàn)了偏差。而在實(shí)體識別方面,雖取得了很好的效果,但仍存在細(xì)微的識別誤差,如圖5(b),可以看出,對于在顏色、大小、輪廓等特征極度相似,肉眼也不能清晰地分辨同一類別不同實(shí)體對實(shí)驗(yàn)的識別效果產(chǎn)生了影響,如能加以改進(jìn),識別率將在此基礎(chǔ)上可進(jìn)一步提高。

圖5 易混淆的類別及實(shí)體

5 結(jié)語

本文采用RGB-D數(shù)據(jù)庫,結(jié)合物體的RGB圖像和深度圖像信息,提出了基于核描述子編碼的RGB-D圖像物體識別方法。該方法生成的圖像表示融合了RGB-D圖像多方面特征信息,可有效解決因圖像特征學(xué)習(xí)不全面而帶來的識別效果差等問題。實(shí)驗(yàn)結(jié)果分析表明,與單獨(dú)使用RGB圖像和深度圖像相比,結(jié)合RGB圖像特征和深度圖像特征能有效提高物體識別的準(zhǔn)確率,有效地完成多分類物體的識別。同時(shí),該方法在單個(gè)核描述子的識別精度方面仍需進(jìn)一步改進(jìn),如何設(shè)計(jì)更加合理、有效的匹配核函數(shù)將是下一步研究的方向。

)

[1] 黃曉琳,薛月菊,涂淑琴,等.基于壓縮感知理論的RGB-D圖像分類方法[J].計(jì)算機(jī)應(yīng)用與軟件,2014(3):195-198.(HUANGXL,XUEYJ,TUSQ,etal.RGB-Dimageclassificationbasedoncompressedsensingtheory[J].ComputerApplicationsandSoftware, 2014(3): 195-198.)

[2] 余凱,賈磊,陳雨強(qiáng),等.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799-1804.(YUK,JIAL,CHENYQ,etal.Deeplearning:yesterday,today,andtomorrow[J].JournalofComputerResearchandDevelopment, 2013, 50(9): 1799-1804.)

[3]SOCHERR,HUVALB,BHATB,etal.Convolutional-recursivedeeplearningfor3Dobjectclassification[C]//NIPS’12:Proceedingsofthe25thInternationalConferenceonNeuralInformationProcessingSystems.WestChester,OH:CurranAssociatesInc., 2012: 665-673.

[4]SCHWARZM,SCHULZH,BEHNKES.RGB-Dobjectrecognitionandposeestimationbasedonpre-trainedconvolutionalneuralnetworkfeatures[C]//Proceedingsofthe2015InternationalConferenceonRoboticsandAutomation.Piscataway,NJ:IEEE, 2015: 1329-1335.

[5] 盧良鋒,謝志軍,葉宏武.基于RGB特征與深度特征融合的物體識別算法[J].計(jì)算機(jī)工程,2016,42(5):186-193.(LULF,XIAZJ,YEHW.ObjectrecognitionalgorithmbasedonRGBfeatureanddepthfeaturefusing[J].ComputerEngineering, 2016, 42(5): 186-193.)

[6]CSURKAG,DANCECR,FANL,etal.Visualcategorizationwithbagsofkeypoints[C]//ECCV2004:ProceedingsofECCVInternationalWorkshoponStatisticalLearninginComputerVision.Berlin:Springer, 2004: 1-22.

[7]LAZEBNIKS,SCHMIDC,PONCEJ.Beyondbagsoffeatures:spatialpyramidmatchingforrecognizingnaturalscenecategories[C]//Proceedingsofthe2006IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2006: 2169-2178.

[8]SILBERMANN,HOIEMD,KOHLIP,etal.IndoorsegmentationandsupportinferencefromRGBDimages[C]//ECCV’12:Proceedingsofthe12thEuropeanConferenceonComputerVision.Berlin:Springer, 2012: 746-760.

[9]BOL,RENX,FOXD.UnsupervisedfeaturelearningforRGB-Dbasedobjectrecognition[C]//Proceedingsofthe13thInternationalSymposiumonExperimentalRobotics.Berlin:Springer, 2013: 387-402.

[10]BLUMM,SPRINGENBERGJT,WULFINGJ,etal.AlearnedfeaturedescriptorforobjectrecognitioninRGB-Ddata[C]//Proceedingsofthe2012IEEEInternationalConferenceonRoboticsandAutomation.Piscataway,NJ:IEEE, 2012: 1298-1303.

[11]JINL,GAOS,LIZ,etal.Hand-craftedfeaturesormachinelearntfeatures?togethertheyimproveRGB-Dobjectrecognition[C]//Proceedingsofthe2015IEEEInternationalSymposiumonMultimedia.Piscataway,NJ:IEEE, 2015: 311-319.

[12]BOL,RENX,FOXD.Kerneldescriptorsforvisualrecognition[C]//Proceedingsofthe2010ConferenceonNeuralInformationProcessingSystems2010.WestChester,OH:CurranAssociatesInc., 2010: 244-252.

[13]BOL,RENX,FOXD.Depthkerneldescriptorsforobjectrecognition[C]//Proceedingsofthe2011IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems.Piscataway,NJ:IEEE, 2011: 821-826.

[14]WANGJ,YANGJ,YUK,etal.Locality-constrainedlinearcodingforimageclassification[C]//Proceedingsofthe2010IEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEE, 2010: 3360-3367.

[15]LAIK,BOL,RENX,etal.Alarge-scalehierarchicalmulti-viewRGB-Dobjectdataset[C]//ICRA2011:Proceedingsofthe2011IEEEInternationalConferenceonRoboticsandAutomation.Piscataway,NJ:IEEE, 2011: 1817-1824.

[16]BOL,LAIK,RENX,etal.Objectrecognitionwithhierarchicalkerneldescriptors[C]//Proceedingsofthe2011IEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEE, 2011: 1729-1736.

[17]JOHNSONAE,HEBERTM.Usingspinimagesforefficientobjectrecognitionincluttered3Dscenes[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 1999, 21(5): 433-449.

[18]YANGJC,YUK,GONGYH,etal.Linearspatialpyramidmatchingusingsparsecodingforimageclassification[C]//Proceedingsofthe2009IEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEE, 2009: 1794-1801.

[19]YUK,ZHANGT,GONGYH.Nonlinearlearningusinglocalcoordinatecoding[C]//NIPS2009:AdvancesinNeuralInformationProcessingSystems22.WestChester,OH:CurranAssociatesInc., 2009: 1-9.

[20]FANRE,CHANGKW,HSIEHCJ,etal.LIBLINEAR:alibraryforlargelinearclassification[J].JournalofMachineLearningResearch, 2010, 9(12): 1871-1874.

[21]BOL,SMINCHISESCUC.Efficientmatchkernelbetweensetsoffeaturesforvisualrecognition[C]//NIPS2009:AdvancesinNeuralInformationProcessingSystems22.WestChester,OH:CurranAssociatesInc., 2009: 135-143.

ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(41571396),theNationalTrainingProgramofInnovation(201410488017).

LUO Jian, born in 1991, M.S.candidate.His research interests include computer vision, machine learning.

JIANG Min, born in 1975, Ph.D., professor.Her research interests include computer vision, robot automatic navigation.

Object recognition method based on RGB-D image kernel descriptor

LUO Jian1,2, JIANG Min1,2*

(1.CollegeofComputerScienceandTechnology,WuhanUniversityofScienceandTechnology,WuhanHubei430065,China;2.HubeiProvinceKeyLaboratoryofIntelligentInformationProcessingandReal-timeIndustrialSystem(WuhanUniversityofScienceandTechnology),WuhanHubei430065,China)

The traditional RGB-Depth (RGB-D) image object recognition methods have some drawbacks, such as insufficient feature learning and poor robustness of feature coding.In order to solve these problems, an object recognition method of RGB-D image based on Kernel Descriptor and Locality-constrained Linear Coding (KD-LLC) was proposed.Firstly, based on the kernel function of image block matching, several complementary kernel descriptors from RGB-D images, such as 3D shape, size, edges and color, were extracted using Kernel Principal Component Analysis (KPCA).Then, the extracted feature from different cues, were processed by using LLC and Spatial Pyramid Pooling (SPP) to form the corresponding image coding vectors.Finally, the vectors were combined to obtain robust and distinguishable image representation.As a hand-crafted feature method, the proposed algorithm was compared to other hand-crafted feature methods on a RGB-D image dataset.In the proposed algorithm, multiple cues from depth image and RGB image were used, and the sampling points selection and basis vectors calculation schema for depth kernel descriptor generation were proposed.Due to above-mentioned improvements, the category and instance recognition accuracy of the proposed algorithm for objects can respectively reach 86.8% and 92.7%, which are higher than those of the previously hand-crafted feature methods for object recognition from RGB-D images.

RGB-D image; object recognition; Locality-constrained Linear Coding (LLC); kernel descriptor; Spatial Pyramid Pooling (SPP)

2016-07-04;

2016-08-12。

國家自然科學(xué)基金面上項(xiàng)目(41571396);國家創(chuàng)新訓(xùn)練項(xiàng)目(201410488017)。

駱健(1991—),男,湖北黃岡人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí); 蔣旻(1975—),女,湖南隆回人,教授,博士,主要研究方向:計(jì)算機(jī)視覺、機(jī)器人自動(dòng)導(dǎo)航。

1001-9081(2017)01-0255-07DOI:10.11772/j.issn.1001-9081.2017.01.0255

TP

A

猜你喜歡
類別編碼局部
爨體蘭亭集序(局部)
生活中的編碼
論陶瓷刻劃花藝術(shù)類別與特征
一起去圖書館吧
《全元詩》未編碼疑難字考辨十五則
凡·高《夜晚露天咖啡座》局部[荷蘭]
子帶編碼在圖像壓縮編碼中的應(yīng)用
Genome and healthcare
丁學(xué)軍作品
局部遮光器
阆中市| 枝江市| 大姚县| 商都县| 南皮县| 武鸣县| 宝山区| 余庆县| 辽宁省| 屯留县| 西平县| 木兰县| 东阿县| 建水县| 迭部县| 黄陵县| 鄂温| 疏附县| 二手房| 台南县| 白水县| 江陵县| 桦川县| 扎赉特旗| 布尔津县| 镇沅| 瑞昌市| 宁晋县| 天柱县| 安化县| 垣曲县| 西峡县| 岗巴县| 绥棱县| 上林县| 栾城县| 苍南县| 长葛市| 扎鲁特旗| 龙井市| 大冶市|