国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于馬爾科夫隨機(jī)場(chǎng)的非參數(shù)化RGB-D場(chǎng)景理解

2016-08-04 06:18:32費(fèi)婷婷龔小謹(jǐn)

費(fèi)婷婷,龔小謹(jǐn)

(浙江大學(xué) 信息與電子工程學(xué)系,浙江 杭州 310027)

?

基于馬爾科夫隨機(jī)場(chǎng)的非參數(shù)化RGB-D場(chǎng)景理解

費(fèi)婷婷,龔小謹(jǐn)

(浙江大學(xué) 信息與電子工程學(xué)系,浙江 杭州 310027)

摘要:針對(duì)RGB-D場(chǎng)景下的場(chǎng)景理解問(wèn)題,提出高效的基于標(biāo)簽傳遞機(jī)制的非參數(shù)化場(chǎng)景理解算法.該算法主要分為標(biāo)簽源構(gòu)建、超像素雙向匹配和標(biāo)簽傳遞三個(gè)步驟.與傳統(tǒng)的參數(shù)化RGB-D場(chǎng)景理解方法相比,該算法不需要繁瑣的訓(xùn)練,具有簡(jiǎn)單高效的特點(diǎn).與傳統(tǒng)的非參數(shù)化場(chǎng)景理解方法不同,該算法在系統(tǒng)的各個(gè)設(shè)計(jì)環(huán)節(jié)都有效利用了深度圖提供的三維信息,在超像素匹配環(huán)節(jié)提出雙向匹配機(jī)制,以減少特征誤匹配;構(gòu)建基于協(xié)同表示分類(CRC)的馬爾科夫隨機(jī)場(chǎng)(MRF),用Graph Cuts方法求出最優(yōu)解,獲得場(chǎng)景圖像每個(gè)像素的語(yǔ)義標(biāo)簽.該算法分別在室內(nèi)的NYU-V1數(shù)據(jù)集和室外的KITTI數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有算法相比,該算法取得了顯著的性能提升, 對(duì)室內(nèi)、外場(chǎng)景均適用.

關(guān)鍵詞:場(chǎng)景理解;非參數(shù)化;RGB-D;馬爾科夫隨機(jī)場(chǎng)(MRF)

場(chǎng)景理解是用模式識(shí)別和人工智能的方法對(duì)場(chǎng)景圖像進(jìn)行分析、描述、分類和解釋,最終得到場(chǎng)景圖像中每個(gè)像素語(yǔ)義標(biāo)簽的技術(shù),是計(jì)算機(jī)視覺(jué)的一個(gè)重要課題,在無(wú)人車駕駛、機(jī)器人導(dǎo)航、虛擬現(xiàn)實(shí)、安防監(jiān)控等領(lǐng)域有著廣泛的應(yīng)用.

近年來(lái),隨著激光雷達(dá)[1]以及微軟Kinect[2]等距離傳感器的面世,場(chǎng)景深度信息的獲取變得更加容易,結(jié)合三維點(diǎn)云數(shù)據(jù)或致密深度等三維信息的場(chǎng)景理解方法引起了眾多學(xué)者的廣泛關(guān)注[3-6].譚倫正等[4-5]采用神經(jīng)網(wǎng)絡(luò)訓(xùn)練的方法來(lái)進(jìn)行場(chǎng)景理解;Ren等[6]提出基于分割樹(shù)的參數(shù)化場(chǎng)景理解方法,對(duì)分割樹(shù)的每一層分別訓(xùn)練一個(gè)支持向量機(jī)(supportvectormachine,SVM)分類器,結(jié)合馬爾科夫隨機(jī)場(chǎng)(Markovrandomfield,MRF)進(jìn)行求解.這些參數(shù)化方法都依賴繁瑣的模型訓(xùn)練,對(duì)場(chǎng)景類別的伸縮性非常差,一旦場(chǎng)景的語(yǔ)義類別發(fā)生增減,就需要對(duì)所有語(yǔ)義類別重新訓(xùn)練模型,非常耗費(fèi)運(yùn)算時(shí)間和計(jì)算資源.本文設(shè)計(jì)一種無(wú)需依賴任何訓(xùn)練、通過(guò)場(chǎng)景圖像間的相似性傳遞語(yǔ)義標(biāo)簽的非參數(shù)化方法.

現(xiàn)有的非參數(shù)化場(chǎng)景理解方法主要在二維圖像上展開(kāi)研究[7-13],Liu等[11]首先提出通過(guò)標(biāo)簽傳遞進(jìn)行場(chǎng)景理解的思路,將目標(biāo)像素與標(biāo)簽源像素SIFT特征的最小歐氏距離定義為似然函數(shù),構(gòu)建MRF求解目標(biāo)圖像每個(gè)像素的標(biāo)簽.由于基于像素的方法計(jì)算量太大,Tighe等[12]提出用超像素作為場(chǎng)景理解的基本處理單元,設(shè)計(jì)利用目標(biāo)超像素標(biāo)簽源中k近鄰(k-nearestneighbor,kNN)屬于各個(gè)語(yǔ)義類別的頻率,定義目標(biāo)超像素屬于該語(yǔ)義類別的似然.Yang等[13]在文獻(xiàn)[12]的基礎(chǔ)上設(shè)計(jì)稀有類別的補(bǔ)充機(jī)制,提高了稀有類別的標(biāo)注準(zhǔn)確率.這些非參數(shù)化場(chǎng)景理解方法都利用像素或者超像素間的匹配度進(jìn)行標(biāo)簽傳遞,沒(méi)有考慮匹配到的各個(gè)近鄰對(duì)目標(biāo)對(duì)象的貢獻(xiàn)差異.針對(duì)該問(wèn)題,Eigen等[14]提出自適應(yīng)近鄰的標(biāo)簽傳遞方法,在文獻(xiàn)[12]的基礎(chǔ)上為目標(biāo)待標(biāo)注對(duì)象匹配到的各個(gè)近鄰分配權(quán)重,以度量各近鄰對(duì)目標(biāo)對(duì)象的貢獻(xiàn)差異,但權(quán)重的獲得是通過(guò)訓(xùn)練得到的.為了避免耗時(shí)繁瑣的訓(xùn)練,本文創(chuàng)新性地設(shè)計(jì)了基于協(xié)同表示分類 (collaborativerepresentationbasedclassification,CRC)[15]的標(biāo)簽傳遞機(jī)制,不僅充分考慮了標(biāo)簽源中的不同超像素對(duì)目標(biāo)超像素的貢獻(xiàn)差異,而且節(jié)省了運(yùn)算時(shí)間和計(jì)算資源,使得整個(gè)算法更加簡(jiǎn)單高效.

二維圖像包含的信息有限,單純利用二維圖像的信息進(jìn)行場(chǎng)景理解難以取得令人滿意的效果,為了提升算法性能,在算法的各個(gè)步驟都充分利用了深度圖的三維幾何信息.

1) 在標(biāo)簽源的構(gòu)建過(guò)程中,設(shè)計(jì)了基于深度的法向量直方圖,用以檢索與目標(biāo)圖像空間布局相似的圖像.

2) 在局部特征雙向匹配的過(guò)程中,從深度圖中提取了深度梯度核描述符.

3) 在MRF的平滑項(xiàng)中,設(shè)計(jì)了基于深度的表面法向量平滑項(xiàng),用以懲罰為表面法向量夾角過(guò)大的相鄰超像素分配相同語(yǔ)義標(biāo)簽的情況.

1算法概述

提出的非參數(shù)化的場(chǎng)景理解方法主要分為3個(gè)步驟:標(biāo)簽源構(gòu)建、超像素雙向特征匹配和基于馬爾科夫隨機(jī)場(chǎng)(MRF)的標(biāo)簽傳遞.標(biāo)簽源由相似圖像檢索集和稀有類別詞典兩部分組成,相似圖像檢索大大縮小了標(biāo)簽源的范圍,不僅減少了場(chǎng)景不同的噪聲標(biāo)簽的干擾,而且大幅提升了算法的運(yùn)算速度.超像素雙向特征匹配的目的是衡量匹配的超像素對(duì)之間的相似度,為標(biāo)簽的傳遞提供依據(jù).考慮到圖像相鄰超像素間語(yǔ)義類別的平滑性,構(gòu)建馬爾科夫隨機(jī)場(chǎng)(MRF),進(jìn)一步提升算法的性能.如圖1所示為該算法的流程框圖.

圖1 場(chǎng)景理解算法流程圖Fig.1 Flow chart of scene parsing algorithm

首先輸入目標(biāo)待標(biāo)注場(chǎng)景的RGB圖像和深度圖,結(jié)合RGB圖像中提取的外觀特征和深度圖中提取的三維幾何特征,將待標(biāo)注的目標(biāo)圖像與訓(xùn)練集中已標(biāo)注的圖像進(jìn)行全局特征匹配,根據(jù)歐氏距離構(gòu)建目標(biāo)圖像的相似圖像檢索集.為了減少目標(biāo)圖像中稀有類別標(biāo)簽的丟失,根據(jù)各語(yǔ)義類別的超像素在訓(xùn)練集中所占的比例,構(gòu)建稀有類別詞典,與相似圖像檢索集一起作為待標(biāo)注圖像的標(biāo)簽源.結(jié)合RGB-D圖像的顏色信息和深度信息對(duì)目標(biāo)圖像及目標(biāo)圖像標(biāo)簽源的超像素進(jìn)行特征提取,并對(duì)提取的特征進(jìn)行雙向特征匹配.構(gòu)建基于協(xié)同表示分類(CRC)[15]的馬爾科夫隨機(jī)場(chǎng)(MRF),通過(guò)Graphcuts[16]的方法求解能量方程得到目標(biāo)圖像每個(gè)超像素的語(yǔ)義標(biāo)簽.

2標(biāo)簽源構(gòu)建

通常相似的場(chǎng)景所包含的語(yǔ)義信息往往是相似的,在數(shù)據(jù)量足夠大的前提下,總是能夠找到與目標(biāo)待標(biāo)注圖像場(chǎng)景相似的圖像,這為利用圖像間的相似性進(jìn)行語(yǔ)義標(biāo)簽的傳遞提供了可能.

為了降低算法的運(yùn)算量,減少場(chǎng)景不同的噪聲圖像標(biāo)簽對(duì)目標(biāo)圖像標(biāo)注的干擾,首先根據(jù)全局特征匹配構(gòu)建待標(biāo)注目標(biāo)圖像的相似圖像檢索集.為了充分表達(dá)圖像的全局特征,采用3種全局特征:GIST特征[17]、顏色直方圖hcol和法向量直方圖hnor.GIST特征[17]和顏色直方圖都從RGB圖像中提取,本文提取的GIST特征為960維,從目標(biāo)圖像的R、G、B3個(gè)通道,在方向分別為8、8、4的3個(gè)尺度上提取,顏色直方圖分別將R、G、B三個(gè)通道的值量化到8個(gè)單位柱上生成一個(gè)24維的特征.

法向量直方圖是本文提出的一種新的三維全局特征,從圖像的深度圖中提取,先對(duì)深度圖中的每個(gè)像素計(jì)算對(duì)應(yīng)的三維法向量n(x,y,z),然后將圖像所有像素的法向量的x、y、z三個(gè)維度的值分別量化到8個(gè)單位上,生成一個(gè)24維的特征.法向量直方圖能夠檢索出具有相似空間布局的圖像,但與GIST不同的是,在場(chǎng)景不十分雜亂,空間結(jié)構(gòu)較規(guī)律的情況下,法向量直方圖能夠更好地描述圖像的整體空間布局,檢索到的相似圖像的空間布局與目標(biāo)圖像更相近,對(duì)應(yīng)的例子見(jiàn)圖2的測(cè)試圖像1.

在3種全局特征提取完成后,根據(jù)每種特征,分別將訓(xùn)練集圖像按與目標(biāo)圖像對(duì)應(yīng)特征的歐氏距離升序排列.為了最大限度地剔除與目標(biāo)圖像場(chǎng)景不同的圖像,以減少噪聲標(biāo)簽的干擾,將排列好的3組圖像的前K1(K1=350)個(gè)圖像的交集作為目標(biāo)圖像的相似圖像檢索集.

圖2 標(biāo)簽源構(gòu)建流程圖Fig.2 Flow chart of label pool construction

全局特征只能描述圖像的全局信息,因此目標(biāo)圖像中的某些語(yǔ)義標(biāo)簽,尤其是稀有類別的語(yǔ)義標(biāo)簽很可能在其相似圖像檢索集中缺失,從而導(dǎo)致這些語(yǔ)義標(biāo)簽無(wú)法通過(guò)標(biāo)簽傳遞被準(zhǔn)確標(biāo)注.如圖2的測(cè)試圖像2,目標(biāo)測(cè)試圖像中有一個(gè)小電視機(jī),但3種全局特征檢索到的相似圖像檢索集中沒(méi)有“電視機(jī)”這個(gè)語(yǔ)義標(biāo)簽.針對(duì)該問(wèn)題,將各個(gè)語(yǔ)義類別的超像素在訓(xùn)練集中占比低于3%的類別定義為稀有類別,分別對(duì)各稀有類別的超像素進(jìn)行K-means聚類,聚類中心個(gè)數(shù)設(shè)置為100,這100個(gè)聚類中心構(gòu)成的集合為該類別的詞典.將稀有類別超像素的詞典與相似圖像檢索集的超像素作為目標(biāo)圖像的標(biāo)簽源.標(biāo)簽源的構(gòu)建流程如圖2所示.

3超像素雙向特征匹配

3.1特征提取

標(biāo)簽傳遞在像素或者超像素上都可以進(jìn)行.本文采用超像素作為標(biāo)簽傳遞的基本單元,一方面大大降低了算法的運(yùn)算成本;另一方面,在特征提取的過(guò)程中,對(duì)像素的特征提取考慮的往往是以該像素為中心的固定尺寸的方格范圍,與之相比,超像素通常能夠?qū)儆谕粋€(gè)物體的區(qū)域聚集起來(lái),為特征提取提供更好的空間支持.本文采用TurboPixel算法[18]對(duì)圖像進(jìn)行過(guò)分割,利用核描述符(Kerneldescriptor)[19]對(duì)生成的超像素進(jìn)行特征提取.核描述符是Bo等[19]提出的一種特征提取方法,本文從二維圖像中提取了梯度核描述符fgd和顏色核描述符fcol,從深度圖中提取了深度梯度核描述符fgd-d;然后將3種核描述符串聯(lián),生成待匹配的局部特征f.

(1)

(2)

與SIFT、HOG等傳統(tǒng)特征相比,核描述符可以通過(guò)設(shè)計(jì)不同的核函數(shù),將顏色、紋理、形狀等多種二維及三維特征整合成相同的形式,不僅能夠有效地利用二維圖像的外觀信息和三維圖像的幾何信息,對(duì)圖像進(jìn)行更全面的表達(dá),而且相同的特征形式能夠更好地進(jìn)行特征融合,為后續(xù)的處理提供便利.

3.2雙向特征匹配

標(biāo)簽傳遞的本質(zhì)是根據(jù)超像素間的相似度,將標(biāo)簽源中已標(biāo)注的超像素的標(biāo)簽通過(guò)某種傳遞機(jī)制傳遞給目標(biāo)待標(biāo)注的超像素.首先對(duì)目標(biāo)圖像中待標(biāo)注的超像素與標(biāo)簽源中已標(biāo)注的超像素進(jìn)行相似度度量,傳統(tǒng)的方法主要通過(guò)超像素間的單向特征匹配來(lái)實(shí)現(xiàn).為了有效減少單向特征匹配不可避免的誤匹配,本文設(shè)計(jì)了一種雙向匹配策略.

為了剔除集合SR(si)中誤匹配的超像素,設(shè)計(jì)將SR(si)中的超像素反向匹配到目標(biāo)圖像.對(duì)于SR(si)中的每個(gè)超像素sq,根據(jù)核描述符的歐氏距離,在目標(biāo)圖像的超像素ST中找出與其最相似的超像素N(sq).若si與N(sq)的二維歐氏距離太大或者三維高度相差太大,則把SR(si)中的超像素sq從中剔除,最后生成si的匹配集mi,描述如下.

(3)

4基于馬爾科夫隨機(jī)場(chǎng)的標(biāo)簽傳遞

考慮到超像素鄰域間的上、下文約束,構(gòu)建基于馬爾科夫隨機(jī)場(chǎng)(MRF)的標(biāo)簽傳遞模型.將為目標(biāo)圖像每個(gè)超像素分配語(yǔ)義標(biāo)簽的問(wèn)題轉(zhuǎn)換成最小化如下能量函數(shù)的優(yōu)化問(wèn)題:

(4)

式中:L為目標(biāo)待標(biāo)注圖像所有超像素的標(biāo)簽集;l為超像素的語(yǔ)義標(biāo)簽;ψdata為馬爾科夫隨機(jī)場(chǎng)(MRF)的數(shù)據(jù)項(xiàng);ψsmooth為馬爾科夫隨機(jī)場(chǎng)(MRF)的平滑項(xiàng),主要對(duì)鄰域超像素對(duì)(si,sj)的語(yǔ)義標(biāo)簽進(jìn)行平滑,過(guò)分割后與目標(biāo)超像素si有公共邊的所有超像素集合組成該目標(biāo)超像素的鄰域;λ為自定義的平衡系數(shù),λ=10.式(4)的優(yōu)化函數(shù)可以利用Graph Cuts[16]求解,Graph cuts是一種十分有用和流行的能量?jī)?yōu)化算法,該方法把圖像分割問(wèn)題與圖的最小割(min cut)問(wèn)題相關(guān)聯(lián).首先用一個(gè)無(wú)向圖G=表示要分割的圖像,其中V和E分別為頂點(diǎn)(vertex)和邊(edge)的集合.此處的Graph和普通的Graph稍有不同.普通的圖由頂點(diǎn)和邊構(gòu)成,若邊是有方向的,則稱為有向圖,否則為無(wú)向圖,且邊是有權(quán)值的,不同的邊可以有不同的權(quán)值,分別代表不同的物理意義.GraphCuts圖是在普通圖的基礎(chǔ)上多了2個(gè)頂點(diǎn),這2個(gè)頂點(diǎn)分別用符號(hào)“S”和“T”表示,統(tǒng)稱為終端頂點(diǎn).其他所有的頂點(diǎn)都必須和這2個(gè)頂點(diǎn)相連形成邊集合中的一部分.

GraphCuts中的Cuts是指這樣一個(gè)邊的集合,該集合中所有邊的斷開(kāi)會(huì)導(dǎo)致殘留“S”和“T”圖的分開(kāi),所以就稱為“割”.若一個(gè)割的邊的所有權(quán)值之和最小,則稱為最小割,即圖割的結(jié)果.福特-富克森定理表明,網(wǎng)路的最大流(maxflow)與最小割(mincut)相等.由Boykov發(fā)明的max-flow/min-cut算法[16]可以用來(lái)獲得s-t圖的最小割.

雖然馬爾科夫隨機(jī)場(chǎng)模型已經(jīng)在現(xiàn)有的非參數(shù)化場(chǎng)景理解方法中得到了廣泛使用[10-12],但與傳統(tǒng)的非參數(shù)化方法相比,本文數(shù)據(jù)項(xiàng)的設(shè)計(jì)更有效,在平滑項(xiàng)中增加的鄰域超像素間的三維幾何約束進(jìn)一步提升了算法性能.具體的構(gòu)建方法詳述如下.

4.1MRF數(shù)據(jù)項(xiàng)構(gòu)建

在傳統(tǒng)的非參數(shù)化場(chǎng)景理解方法中,MRF數(shù)據(jù)項(xiàng)的構(gòu)建一般都直接利用各近鄰與目標(biāo)超像素的歐氏距離來(lái)構(gòu)建數(shù)據(jù)項(xiàng),這樣的處理方式忽視了不同近鄰對(duì)目標(biāo)超像素的貢獻(xiàn)差異.針對(duì)該問(wèn)題,采用基于協(xié)同表示分類(CRC)[15]的匹配殘差來(lái)構(gòu)建數(shù)據(jù)項(xiàng).

當(dāng)目標(biāo)超像素si及局部特征fi確定后,在si的匹配集mi與稀有類別詞典共同構(gòu)建的標(biāo)簽源的標(biāo)簽類別C(si)中為目標(biāo)超像素分配一個(gè)語(yǔ)義標(biāo)簽.CRC模型假設(shè)目標(biāo)超像素位于標(biāo)簽源超像素的子空間,先通過(guò)求解L2正則化的最小二乘問(wèn)題來(lái)估計(jì)系數(shù)矩陣:

(5)

式中:F為標(biāo)簽源中所有超像素的特征排列堆疊構(gòu)建得到的測(cè)量矩陣;γ為一個(gè)自定義的正則系數(shù),γ=10-3.Zhang等[15]指出,式(5)中由L2范數(shù)正則化的協(xié)同表示問(wèn)題可以通過(guò)矩陣法得到如下形式的解:

α*=(FTF+γI)-1FTfi.

(6)

令P=(FTF+γI)-1FT,因?yàn)镻與樣本無(wú)關(guān),可以預(yù)計(jì)算成一個(gè)投影矩陣,每當(dāng)要計(jì)算待標(biāo)注目標(biāo)超像素si的系數(shù)α*時(shí),只需將超像素的特征fi投影到矩陣P,無(wú)需再次計(jì)算P,所以運(yùn)算速度非???

設(shè)計(jì)如下形式的數(shù)據(jù)項(xiàng):

(7)

設(shè)計(jì)的基于CRC的數(shù)據(jù)項(xiàng)本質(zhì)上是通過(guò)α*為目標(biāo)超像素標(biāo)簽源中的各個(gè)超像素分配了自適應(yīng)的權(quán)重,充分考慮了標(biāo)簽源中不同超像素對(duì)目標(biāo)超像素的貢獻(xiàn)差異.與其他通過(guò)離線訓(xùn)練來(lái)分配權(quán)重的方法[14]相比,本文的方法更加簡(jiǎn)單、高效.

4.2MRF平滑項(xiàng)構(gòu)建

本文算法的平滑項(xiàng)主要根據(jù)相鄰超像素間的相似度進(jìn)行構(gòu)建,結(jié)合二維圖像信息和三維幾何信息,構(gòu)建如下形式的平滑項(xiàng):

(8)

式中:φnor為相鄰超像素si與sj表面法向量的內(nèi)積,是利用從深度圖中提取的表面法向量ni和nj,設(shè)計(jì)的一種新的平滑項(xiàng).通常,表面法向量夾角大的相鄰超像素屬于相同語(yǔ)義類別的可能性較小,因此,設(shè)計(jì)該平滑項(xiàng)來(lái)對(duì)表面法向量夾角過(guò)大的相鄰超像素分配到相同的語(yǔ)義標(biāo)簽進(jìn)行懲罰.φf(shuō)ea利用相鄰超像素特征的相似度對(duì)語(yǔ)義標(biāo)簽進(jìn)行平滑,趨向于使特征相似的相鄰超像素具有相同的語(yǔ)義標(biāo)簽,特征fi和fj的提取如前文所述,融合了二維圖像的顏色信息和三維圖像的幾何信息.φnor的內(nèi)積形式本質(zhì)上是一個(gè)夾角余弦函數(shù),是普適的向量相似度的度量標(biāo)準(zhǔn);φf(shuō)ea采用徑向基函數(shù)的形式,是普適的特征相似度的度量標(biāo)準(zhǔn).因?yàn)閮烧叨际菤w一化后的結(jié)果,具有可比性,共同平滑鄰域超像素語(yǔ)義標(biāo)簽的平滑性.

5實(shí)驗(yàn)結(jié)果與分析

5.1室內(nèi)場(chǎng)景

首先在室內(nèi)場(chǎng)景的NYU-V1數(shù)據(jù)集[5]上進(jìn)行實(shí)驗(yàn).NYU-V1數(shù)據(jù)集[5]包含2 284幅由Kinect采集得到的480×640像素的圖像,每幅圖像對(duì)應(yīng)有人工標(biāo)注的語(yǔ)義標(biāo)簽,經(jīng)過(guò)WordNet的處理,將所有的語(yǔ)義標(biāo)簽種類縮減至12個(gè)語(yǔ)義類別,除此之外的所有類別都?xì)w到“背景”一類.在實(shí)驗(yàn)過(guò)程中,隨機(jī)選取數(shù)據(jù)集中60%的圖像作為訓(xùn)練集,剩下的40%作為測(cè)試集.根據(jù)12個(gè)語(yǔ)義類別的超像素在數(shù)據(jù)集中的占比,選取占比不超過(guò)3%的語(yǔ)義類別作為稀有類別,得到的稀有類別為“電視機(jī)”、“窗戶”、“沙發(fā)”、“床”和“墻畫”.

表1將本文算法與現(xiàn)有的幾個(gè)前沿場(chǎng)景理解算法進(jìn)行像素準(zhǔn)確率pp的性能對(duì)比.分析表1可以發(fā)現(xiàn),不管與現(xiàn)有的參數(shù)化的RGB-D場(chǎng)景理解算法[6]還是非參數(shù)化的RGB場(chǎng)景理解算法[12]相比,該算法的像素準(zhǔn)確率都得到了顯著的提高,在性能上取得了長(zhǎng)足的進(jìn)步.

表1 像素準(zhǔn)確率結(jié)果的對(duì)比

圖3 語(yǔ)義類別準(zhǔn)確率的對(duì)比結(jié)果圖Fig.3 Comparative results of per-class accuracy

為了進(jìn)一步分析該算法的優(yōu)缺點(diǎn),針對(duì)每個(gè)語(yǔ)義類別的準(zhǔn)確率,與Ren等[6]提出的參數(shù)化RGB-D場(chǎng)景理解算法及Tighe等[12]提出的非參數(shù)化RGB場(chǎng)景理解算法進(jìn)行比較.實(shí)驗(yàn)結(jié)果如圖3所示.圖中,pc為語(yǔ)義類別準(zhǔn)確率.對(duì)比圖3中該算法的RGB結(jié)果和RGB-D結(jié)果可以發(fā)現(xiàn),在每個(gè)語(yǔ)義類別上,該算法在RGB-D上的準(zhǔn)確率都比RGB上的準(zhǔn)確率高,證明該算法對(duì)深度信息進(jìn)行了有效利用.

對(duì)比本文算法的RGB-D結(jié)果與Ren等[6]的參數(shù)化RGB-D場(chǎng)景理解算法結(jié)果可知,本文算法取得了更高的準(zhǔn)確率,原因在于該算法的非參數(shù)化機(jī)制,因?yàn)閰?shù)化方法需要對(duì)每個(gè)語(yǔ)義類別訓(xùn)練模型,但即使屬于同一個(gè)語(yǔ)義類別的物體的特征也不盡相同,比如沙發(fā)有皮質(zhì)的和布藝的,桌子有木質(zhì)的和塑料的,顏色更是多種多樣,所以難以訓(xùn)練出一個(gè)能夠表達(dá)所有樣本的模型.最典型的體現(xiàn)是在 “背景”這類,由于該類別表示的是許多語(yǔ)義類別的雜糅,而非單純的某一種語(yǔ)義類別,基于模型訓(xùn)練的參數(shù)化方法無(wú)法為“背景”類別訓(xùn)練生成一個(gè)具有語(yǔ)義意義的模型.即使有效結(jié)合了深度信息,Ren等[6]的參數(shù)化方法在這一類上仍然無(wú)法取得好的效果.本文的非參數(shù)化方法基于相似超像素之間的標(biāo)簽傳遞,只要數(shù)據(jù)量足夠大,總是能夠找到與目標(biāo)超像素足夠相似的樣本,進(jìn)行準(zhǔn)確的標(biāo)簽傳遞.

與Ren等[6]提出的算法相比,在“天花板”和“墻畫”這兩個(gè)類別上沒(méi)有取得更好的效果.經(jīng)過(guò)分析可以發(fā)現(xiàn),在原始的數(shù)據(jù)集中,這兩個(gè)類別的人工標(biāo)注存在較多的誤標(biāo)注,即使對(duì)超像素進(jìn)行了正確的匹配,也無(wú)法在標(biāo)簽傳遞的過(guò)程中避免因?yàn)檎`標(biāo)注帶來(lái)的影響.與參數(shù)化方法[6]相比,本文算法對(duì)誤標(biāo)注更敏感.

圖4列出了幾組典型的實(shí)驗(yàn)結(jié)果圖.觀察圖4的第1組實(shí)驗(yàn)結(jié)果圖可以發(fā)現(xiàn),單純基于RGB的場(chǎng)景理解很難區(qū)分顏色相似、但分屬不同語(yǔ)義類別的物體,觀察第2和第3組實(shí)驗(yàn)結(jié)果圖可以發(fā)現(xiàn),單純的RGB場(chǎng)景理解難以處理光照昏暗的情況,而深度信息不受顏色和光照的影響,結(jié)合深度信息的RGB-D場(chǎng)景理解能夠有效地處理這些情況.

本文的場(chǎng)景理解方法在NYU-V1數(shù)據(jù)集中平均每張圖片的本地測(cè)試時(shí)間為149.8s,其中,核描述符的計(jì)算較慢, 單張圖片的平均用時(shí)占到了總用

圖4 NYU-V1數(shù)據(jù)集中的幾組典型實(shí)驗(yàn)結(jié)果圖Fig.4 Typical examples from NYU-V1 dataset

時(shí)的一半,為79.5s.在相同的計(jì)算機(jī)配置下,文獻(xiàn)[6]的方法用作者官網(wǎng)上的原始代碼,在NYU-V1數(shù)據(jù)集上的總用時(shí)為4.92×105s,平均每張圖片需要用時(shí)538.5s.因?yàn)楸疚乃惴ú恍枰?xùn)練的過(guò)程,而且數(shù)據(jù)集的全局特征只需要計(jì)算一次存下來(lái)即可,基于CRC的馬爾科夫數(shù)據(jù)項(xiàng)的計(jì)算可以先對(duì)投影矩陣進(jìn)行預(yù)計(jì)算,每計(jì)算一個(gè)超像素的協(xié)同系數(shù),只需要進(jìn)行一次投影,所以運(yùn)算速度非???

5.2室外場(chǎng)景

本文算法能夠同時(shí)適用于室內(nèi)、外場(chǎng)景,在室外場(chǎng)景的KIITI數(shù)據(jù)集[20]上進(jìn)行簡(jiǎn)單的實(shí)驗(yàn).隨機(jī)選取96張圖像作為測(cè)試集.KITTI數(shù)據(jù)集[20]中的圖像沒(méi)有給出對(duì)應(yīng)的語(yǔ)義標(biāo)簽,若通過(guò)全局特征匹配的方法選取標(biāo)簽源,因?yàn)槲覀兊乃惴ㄊ潜O(jiān)督的,則需要事先對(duì)標(biāo)簽源中的圖像進(jìn)行人工標(biāo)注,而像素級(jí)語(yǔ)義標(biāo)簽的人工標(biāo)注非常耗時(shí),因?yàn)镵ITTI數(shù)據(jù)集是時(shí)序的,將測(cè)試集中每張圖像前面第3幀的圖像作為該圖像的標(biāo)簽源,能夠達(dá)到減少不同場(chǎng)景干擾的目的.本文沒(méi)有另行計(jì)算測(cè)試集圖像的相似圖像檢索集和稀有類別詞典.

在RGB和RGB-D上分別進(jìn)行實(shí)驗(yàn),在RGB上取得了89.8%的像素級(jí)準(zhǔn)確率,在RGB-D上取得了93.9%的像素級(jí)準(zhǔn)確率.圖5列出了幾組典型的室外場(chǎng)景的實(shí)驗(yàn)結(jié)果圖.可以看出,本文算法在室外場(chǎng)景中取得了理想的效果.分析圖5可以發(fā)現(xiàn),只利用RGB信息的場(chǎng)景理解,很難對(duì)室外場(chǎng)景的陰影部分進(jìn)行準(zhǔn)確的標(biāo)記,而陰影在室外場(chǎng)景中是非常普遍的,加入深度信息后,陰影的問(wèn)題得到了很好的解決.

圖5 KITTI數(shù)據(jù)集中的幾組典型實(shí)驗(yàn)結(jié)果圖Fig.5 Typical examples from KITTI dataset

6結(jié)語(yǔ)

本文提出基于標(biāo)簽傳遞機(jī)制的非參數(shù)化RGB-D場(chǎng)景理解方法.與傳統(tǒng)的參數(shù)化RGB-D場(chǎng)景理解方法相比,本文算法不需要繁瑣的訓(xùn)練,不僅降低了運(yùn)算成本,提升了運(yùn)算速度,而且在準(zhǔn)確率上得到了顯著的提高.與傳統(tǒng)的非參數(shù)化RGB場(chǎng)景理解方法相比,本文算法一方面有效結(jié)合了深度信息;另一方面,本文算法比傳統(tǒng)非參數(shù)化方法優(yōu)越的地方在于:1)設(shè)計(jì)了雙向特征匹配機(jī)制,有效減少了傳統(tǒng)非參數(shù)化方法單向特征匹配產(chǎn)生的誤匹配;2)設(shè)計(jì)了基于CRC的匹配殘差的標(biāo)簽傳遞機(jī)制,比基于kNN歐氏距離的標(biāo)簽傳遞機(jī)制更好地描述了標(biāo)簽源中不同超像素對(duì)目標(biāo)超像素的貢獻(xiàn)差異,有效提升了算法的性能.

室內(nèi)、外場(chǎng)景的實(shí)驗(yàn)結(jié)果證明,提出的方法簡(jiǎn)單高效,效果可靠.

參考文獻(xiàn)(References):

[1]Velodyne.Velodynehdl-64e[EB/OL]. [2014-06-10].http:∥velodynelidar.com/lidar/.

[2]Kinect.Microsoftkinect[EB/OL]. [2014-06-10].http:∥www.microsoft.com/enus/kinectforwindows/develop/learn.aspx.

[3] 閆飛, 莊嚴(yán), 王偉. 移動(dòng)機(jī)器人基于多傳感器信息融合的室外場(chǎng)景理解[J]. 控制理論與應(yīng)用, 2011, 28(8):1093-1098.

YANFei,ZHUANGYan,WANGWei.Outdoorscenecomprehensionofmobilerobotbasedonmulti-sensorinformationfusion[J].ControlTheoryandApplications, 2011, 28(8):1093-1098.

[4] 譚倫正, 夏利民, 夏勝平. 基于多級(jí)Sigmoid神經(jīng)網(wǎng)絡(luò)的城市交通場(chǎng)景理解[J]. 國(guó)防科技大學(xué)學(xué)報(bào), 2012, 34(4): 1001-2486.

TANLun-zheng,XIALi-min,XIASheng-ping.Urbantrafficsceneunderstandingbasedonmulti-levelsigmoidalneuralnetwork[J].JournalofNationalUniversityofDefenseTechnology, 2012, 34(4): 1001-2486.

[5]SILBERMANN,FERGUSR.Indoorscenesegmentationusingastructuredlightsensor[C]∥ProceedingsofICCV.Barcelona:IEEE, 2011: 601-608.

[6]RENXiao-feng,BOLie-feng,FOXD.RGB-(D)scenelabeling:featuresandalgorithms[C]∥ProceedingsofCVPR.Providence:IEEE, 2012: 2759-2766.

[7]TORRALBAA,FERGUSR,FREEMANWT. 80milliontinyimages:alargedatasetfornon-parametricobjectandscenerecognition[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2008, 30(11): 1958-1970.

[8]SHOTTONJ,WINNJ,ROTHERC,etal.Textonboostforimageunderstanding:multi-classobjectrecognitionandsegmentationbyjointlymodelingtexture,layout,andcontext[J].InternationalJournalofComputerVision, 2009, 81(1): 2-23.

[9]FARABETC,COUPRIEC,NAJMANL,etal.Learninghierarchicalfeaturesforscenelabeling[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2013, 35(8): 1915-1929.

[10]STURGESSP,ALAHARIK,LADICKYL,etal.Combiningappearanceandstructurefrommotionfeaturesforroadsceneunderstanding[C] ∥ProceedingsofBMVC.London:BMVA, 2009.

[11]LIUCe,YUENJ,TORRALBAA.Nonparametricsceneparsing:labeltransferviadensescenealignment[C]∥ProceedingsofCVPR.Miami:IEEE, 2009: 1972-1979.

[12]TIGHEJ,LAZEBNIKS.Superparsing:scalablenonparametricimageparsingwithsuperpixels[C] ∥ProceedingsofECCV.Heraklion:Springer, 2010: 352-365.

[13]YANGJ,PRICEB,COHENS,etal.Contextdrivensceneparsingwithattentiontorareclasses[C] ∥ProceedingsofCVPR.Columbus:IEEE, 2014.

[14]EIGEND,FERGUSR.Nonparametricimageparsingusingadaptiveneighborsets[C] ∥ProceedingsofCVPR.Providence:IEEE, 2012: 2799-2806.

[15]ZHANGLie,YANGMeng,FENGXiang-chu.Sparserepresentationorcollaborativerepresentation:whichhelpsfacerecognition? [C] ∥ProceedingsofICCV.Barcelona:IEEE, 2011: 471-478.

[16]BOYKOVY,VEKSLERO,ZABIHR.Fastapproximateenergyminimizationviagraphcuts[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2001, 23(11): 1222-1239.

[17]OLIVAA,TORRALBAA.Buildingthegistofascene:theroleofglobalimagefeaturesinrecognition[J].ProgressInBrainResearch, 2006, 155: 23-36.

[18]LEVINSHTEINA,STEREA,KUTULAKOSNK,etal.Turbopixels:fastsuperpixelsusinggeometricflows[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2009, 31(12): 2290-2297.

[19]BOLie-feng,RENXiao-feng,FOXD.Kerneldescriptorsforvisualrecognition[C] ∥NIPS.Vancouver:NeuralInformationProcessingSystemsFoundation, 2010: 244-252.

[20]GEIGERA,LENZP,URTASUMR.Arewereadyforautonomousdriving?theKITTIvisionbenchmarksuite[C] ∥ProceedingsofCVPR.Providence:IEEE, 2012: 3354-3361.

收稿日期:2015-05-13.浙江大學(xué)學(xué)報(bào)(工學(xué)版)網(wǎng)址: www.journals.zju.edu.cn/eng

作者簡(jiǎn)介:費(fèi)婷婷(1990-),女,碩士生,從事機(jī)器視覺(jué)研究.ORCID: 0000-0003-1924-426X.E-mail:21231083@zju.edu.cn 通信聯(lián)系人:龔小謹(jǐn),女,副教授.ORCID:0000-0001-9955-3569.E-mail:gongxj@zju.edu.cn

DOI:10.3785/j.issn.1008-973X.2016.07.014

中圖分類號(hào):TP 391

文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1008-973X(2016)07-1322-08

NonparametricRGB-DsceneparsingbasedonMarkovrandomfieldmodel

FEITing-ting,GONGXiao-jin

(Department of Information Science and Electronic Engineering, Zhejiang University, Hangzhou 310027, China)

Abstract:An effective nonparametric method was proposed for RGB-D scene parsing. The method is based upon the label transferring scheme, which includes label pool construction, bi-directional superpixel matching and label transferring stages. Compared to traditional parametric RGB-D scene parsing methods, the approach requires no tedious training stage, which makes it simple and efficient. In contrast to previous nonparametric techniques, our method not only incorporate geometric contexts at all the stages, but also propose a bi-directional scheme for superpixel matching in order to reduce mismatching. Then a collaborative representation based classification (CRC) mechanism was built for Markov random field (MRF), and parsing result was achieved through minimizing the energy function via Graph Cuts. The effectiveness of the approach was validated both on the indoor NYU Depth V1 dataset and the outdoor KITTI dataset. The approach outperformed both state-of-the-art RGB-D parsing techniques and a classical nonparametric superparsing method. The algorithm can be applied to different scenarios, having a strong practical value.

Key words:scene parsing; nonparametric; RGB-D; Markov random field (MRF)

长沙县| 新野县| 民丰县| 共和县| 蒙自县| 南丹县| 武冈市| 普陀区| 恩平市| 天水市| 柳河县| 西畴县| 瓦房店市| 大悟县| 肃南| 延边| 商南县| 中西区| 读书| 无为县| 海宁市| 正定县| 陕西省| 龙山县| 新干县| 阳泉市| 望都县| 梓潼县| 康平县| 天等县| 肥乡县| 安龙县| 莆田市| 电白县| 隆德县| 家居| 启东市| 临朐县| 仙游县| 即墨市| 夏津县|