姚拓中 左文輝 宋加濤 應(yīng)宏微
結(jié)合物體先驗(yàn)和空域約束的室內(nèi)空域布局推理
姚拓中1左文輝2宋加濤1應(yīng)宏微1
對(duì)結(jié)構(gòu)化室內(nèi)場(chǎng)景的空域布局結(jié)構(gòu)進(jìn)行估計(jì)是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一.然而,對(duì)于內(nèi)部堆放了眾多雜亂物體的室內(nèi)場(chǎng)景,現(xiàn)有的大多數(shù)方法容易受到各種物體遮擋的影響而無法對(duì)這一類場(chǎng)景的布局結(jié)構(gòu)進(jìn)行準(zhǔn)確推理.為此,本文方法充分考慮了房間和物體之間的幾何和語義關(guān)聯(lián)性,參數(shù)化地對(duì)房間和內(nèi)部物體的三維體積分別進(jìn)行描述,并且提出利用多種高層圖像語義來獲取物體的先驗(yàn)信息.此外,還在此基礎(chǔ)上加入了空域排他性和空域位置等多種空域約束,進(jìn)而在改進(jìn)室內(nèi)場(chǎng)景空域布局估計(jì)的同時(shí)為物體的識(shí)別和定位提供關(guān)鍵信息.本文方法不僅具有較低的求解復(fù)雜度,而且通過試驗(yàn)表明相比于現(xiàn)有的經(jīng)典方法在雜亂的室內(nèi)場(chǎng)景中能夠取得更為魯棒的空域布局推理結(jié)果.
空域布局推理,物體先驗(yàn),空域約束,組合優(yōu)化
室內(nèi)場(chǎng)景的三維空域布局推理在計(jì)算機(jī)視覺的諸多領(lǐng)域均具有非常重要的價(jià)值,例如機(jī)器人的自主導(dǎo)航以及自動(dòng)物體識(shí)別和安放等.人類通常通過空域推理能力對(duì)室內(nèi)場(chǎng)景中存在的各個(gè)平面和物體的尺寸和位置等信息進(jìn)行理解,例如,能夠識(shí)別桌子和沙發(fā)等家具并對(duì)其結(jié)構(gòu)進(jìn)行描繪,或者發(fā)現(xiàn)沙發(fā)的某部分遮擋了床并且兩者之間存在一定的間距等.然而,使計(jì)算機(jī)具備人類具有的上述空域布局理解能力對(duì)于計(jì)算機(jī)視覺而言是一個(gè)具有挑戰(zhàn)性的工作.
迄今為止,已有不少基于參數(shù)化場(chǎng)景空間的方法用于從諸如“曼哈頓世界”(Manhattan world)[1]等受約束的室內(nèi)場(chǎng)景中恢復(fù)出相應(yīng)的三維結(jié)構(gòu)模型[2?3].這些基于單幅圖像的方法通常采用諸如消失點(diǎn)估計(jì)[4?5]以及幾何結(jié)構(gòu)預(yù)測(cè)[6?7]等經(jīng)典解決思路.然而,上述方法只關(guān)注室內(nèi)場(chǎng)景的三個(gè)主方向估計(jì),并沒有嘗試提取房間結(jié)構(gòu)以及物體尺寸等更為詳細(xì)的三維描述信息,因而僅能用于沒有雜亂物體堆放的空房間.相比之下,由于物體遮擋造成的房間形狀結(jié)構(gòu)模糊化更具挑戰(zhàn)性.
目前,已有一部分工作嘗試了從單幅圖像中對(duì)雜亂堆放了眾多物體的場(chǎng)景進(jìn)行三維結(jié)構(gòu)恢復(fù).受路徑規(guī)劃應(yīng)用的啟發(fā),Nabbe等使用基于圖像的外觀模型將室外場(chǎng)景標(biāo)注成地平面、垂直地面區(qū)域以及天空區(qū)域三個(gè)大類[8],但其并沒有在室內(nèi)場(chǎng)景中進(jìn)行相關(guān)試驗(yàn).Micusik等在對(duì)比試驗(yàn)中采用類似的場(chǎng)景幾何和語義標(biāo)注方法[9]對(duì)場(chǎng)景的布局結(jié)構(gòu)進(jìn)行描述,被應(yīng)用到室內(nèi)場(chǎng)景中并取得了一定的效果[10].此外,還有一些方法致力于推理場(chǎng)景的深度[11?12]和幾何語義屬性[13].不過,此類方法在雜亂的室內(nèi)場(chǎng)景中往往僅能實(shí)現(xiàn)較為粗略的空域布局推理結(jié)果,無法準(zhǔn)確勾勒出房間的空間結(jié)構(gòu).
最近幾年的一些研究采用不同的參數(shù)化表示法對(duì)物體和房間之間的上下文關(guān)系進(jìn)行建模并取得了良好的效果.Gupta等根據(jù)“積木世界”概念對(duì)室內(nèi)外場(chǎng)景進(jìn)行解析,并在基于立方體表示的房間地圖基礎(chǔ)上對(duì)位于其中的物體三維結(jié)構(gòu)進(jìn)行估計(jì)[14];Lee等同樣利用了積木世界中的約束規(guī)則來將物體建模成與墻壁和地板對(duì)應(yīng)的軸相平行的立方體[3,15];Hedau等從圖像中恢復(fù)雜亂堆放物體的標(biāo)注并且使用簡(jiǎn)單的先驗(yàn)信息獲取物體在三維場(chǎng)景中的空域位置[2,16];Wang等提出的類似方法則不需要雜亂場(chǎng)景的人工標(biāo)注[17].然而,上述方法均將房間和物體的空域結(jié)構(gòu)分開進(jìn)行分析,沒有考慮到兩者之間存在密切的幾何和語義關(guān)聯(lián)性,進(jìn)而影響了最終結(jié)果的魯棒性.值得注意的是,目前已有一小部分工作開始致力于對(duì)室內(nèi)場(chǎng)景中房間和物體的空域布局實(shí)現(xiàn)同步推理并取得了一定的成效[18?19],但是上述方法主要通過構(gòu)建復(fù)雜的圖模型進(jìn)行參數(shù)求解,由于假設(shè)空間巨大造成算法的復(fù)雜度過大,進(jìn)而影響了算法的效率和可靠性.
相比于將場(chǎng)景中的物體以積木分塊形式進(jìn)行建模實(shí)現(xiàn)場(chǎng)景空域布局定性推理的方法[14?15],本文采用更為簡(jiǎn)化的參數(shù)化模型,即在立方體表示法的基礎(chǔ)上同時(shí)對(duì)房間的空域結(jié)構(gòu)及其內(nèi)部物體的分布進(jìn)行聯(lián)合推理,基本流程如圖1所示.
1)本文算法提取房間內(nèi)的直線段并估計(jì)相互正交的三個(gè)主消失點(diǎn),上述消失點(diǎn)定義了房間中各個(gè)平面(例如不同朝向的墻壁、天花板和地板等)的主方向并為房間內(nèi)部的地板,墻面以及天花板等提供了空域約束.
2)結(jié)合上述幾何信息和多種高層圖像語義分別生成房間和物體的初始結(jié)構(gòu)假設(shè)(均用立方體表示).
3)在房間和物體結(jié)構(gòu)假設(shè)的基礎(chǔ)上,生成一系列候選的場(chǎng)景配置假設(shè)(房間假設(shè)+物體假設(shè)).
4)由于并非所有房間和物體的結(jié)構(gòu)假設(shè)都滿足場(chǎng)景配置假設(shè)的約束,為此本文使用簡(jiǎn)單的三維空域推理對(duì)上述約束進(jìn)行強(qiáng)化,并對(duì)每個(gè)“房間–物體”假設(shè)對(duì)以及“物體–物體”假設(shè)對(duì)進(jìn)行空域兼容性測(cè)試并挑選出滿足要求的場(chǎng)景配置.
5)在最終的場(chǎng)景配置假設(shè)推理中,為了有效減少場(chǎng)景配置假設(shè)搜索的計(jì)算復(fù)雜度,本文利用基于經(jīng)典的組合優(yōu)化法來采樣出最優(yōu)的場(chǎng)景配置.
圖1 本文算法的基本流程Fig.1 The fl owchart of our algorithm
與文獻(xiàn)[2]類似,本文通過兩個(gè)步驟生成房間的結(jié)構(gòu)假設(shè).1)使用基于幾何的方法對(duì)三個(gè)相互正交的主消失點(diǎn)進(jìn)行估計(jì)以獲取盒子的朝向信息,如圖2所示.其中,直線段到消失點(diǎn)的角距離定義為該直線段與其中點(diǎn)到該消失點(diǎn)連線之間的夾角,如圖2(a)所示.2)通過對(duì)與消失點(diǎn)方向相一致的直線段對(duì)進(jìn)行采樣,獲取具有朝向一致性的墻面對(duì)應(yīng)的參數(shù)化表達(dá)和尺度信息.為了選擇最優(yōu)的房間結(jié)構(gòu)假設(shè),采用結(jié)構(gòu)化學(xué)習(xí)對(duì)每個(gè)候選的房間結(jié)構(gòu)假設(shè)進(jìn)行評(píng)估,進(jìn)而得到對(duì)應(yīng)的置信度估計(jì).
圖2 角距離和直線段組的定義Fig.2 The de fi nitions of the angle distance and straight line groups
本文用立方體結(jié)構(gòu)對(duì)每個(gè)房間進(jìn)行建模,并且絕大多數(shù)室內(nèi)平面的朝向均與該立方體的三個(gè)主方向相一致.目前,已有不少方法可實(shí)現(xiàn)對(duì)圖像中相互正交的消失點(diǎn)集進(jìn)行估計(jì).例如Hedau等提出的經(jīng)典方法[2],使用基于指數(shù)方式的投票策略得到直線段和消失點(diǎn)之間角距離微分的評(píng)分,并通過基于隨機(jī)一致性采樣(Random sample consensus,RANSAC)的搜索策略對(duì)所有的主消失點(diǎn)根據(jù)可靠性進(jìn)行排序.其中,候選的消失點(diǎn)為所有檢測(cè)得到的直線段兩兩相交得到的交點(diǎn),而消失點(diǎn)集則從上述交點(diǎn)中選取.基于指數(shù)方式的投票策略好處在于可以使得消失點(diǎn)的投票空間具有多峰的特性,從而有助于將最優(yōu)消失點(diǎn)與其他候選的消失點(diǎn)進(jìn)行有效區(qū)分.在本文中,長(zhǎng)度超過30個(gè)像素的直線段將被保留用于消失點(diǎn)的估計(jì).當(dāng)確定最優(yōu)的主消失點(diǎn)后,圖像中提取的每條直線段將根據(jù)朝向被分別分配給相應(yīng)的消失點(diǎn),從而構(gòu)成不同的直線段組.在圖2(b)中,歸屬于不同消失點(diǎn)的直線段被賦予不同的顏色,而投票值低于設(shè)定閾值的直線段則被賦予藍(lán)綠色.
基于立方體結(jié)構(gòu)表述的房間朝向信息對(duì)于其各個(gè)角的投影施加了嚴(yán)格的幾何約束,如圖3所示.在圖像平面中,最多可以看到房間結(jié)構(gòu)假設(shè)的5個(gè)平面,分別對(duì)應(yīng)于3個(gè)墻面、1個(gè)天花板和1個(gè)地板.房間結(jié)構(gòu)假設(shè)中處于正面視點(diǎn)的四個(gè)角被分別定義為A、B、C 和D,它們?cè)诙S圖像中對(duì)應(yīng)于a、b、c和d.三個(gè)相互正交的消失點(diǎn)分別為V P1、V P2和V P3,它們滿足以下三個(gè)條件:1)線段ab和cd與消失點(diǎn)V P1共線;2)線段ad和dc與消失點(diǎn)V P2共線;3)消失點(diǎn)V P3位于矩形abcd的內(nèi)部.
圖3 基于立方體描述的房間結(jié)構(gòu)假設(shè)Fig.3 The cubic based room hypothesis
為了生成候選的房間結(jié)構(gòu)假設(shè)集,選取距離圖像中心最遠(yuǎn)的兩個(gè)消失點(diǎn)V P1和V P2,并通過設(shè)置一定的采樣間隔從上述V P1和V P2朝著V P3分別生成一定數(shù)量的直線段對(duì).上述歸屬于V P1和V P2的直線段相交形成了房間結(jié)構(gòu)假設(shè)中處于正面視點(diǎn)的四個(gè)角a、b、c和d,而其余的可通過上述4個(gè)角到V P3的連線生成.當(dāng)房間結(jié)構(gòu)假設(shè)中可見的平面數(shù)目少于5個(gè)時(shí),房間結(jié)構(gòu)假設(shè)中的四個(gè)角將位于圖像外部.
如圖3所示,從V P1和V P1分別發(fā)射出10條射線以在圖像平面中生成候選的房間結(jié)構(gòu)假設(shè)集.圖4給出了部分候選的房間結(jié)構(gòu)假設(shè),每個(gè)房間假設(shè)由分別從V P1和V P2發(fā)射的兩條藍(lán)色直線段所構(gòu)成,進(jìn)而生成描述房間三維結(jié)構(gòu)的立方體所對(duì)應(yīng)的4個(gè)角和4條邊,而立方體剩余的邊則通過與V P3進(jìn)行連接得到.
圖4 候選的房間結(jié)構(gòu)假設(shè)集Fig.4 Candidate room hypothesis set
本文根據(jù)與訓(xùn)練集中人工標(biāo)注的房間三維結(jié)構(gòu)進(jìn)行對(duì)比,實(shí)現(xiàn)對(duì)房間結(jié)構(gòu)假設(shè)進(jìn)行排序.假設(shè)室內(nèi)訓(xùn)練圖像集由n幅圖像構(gòu)成,{x1,x2,···,xn}∈X,它們相應(yīng)的房間結(jié)構(gòu)假設(shè){y1,y2,···,yn}∈Y,目的是學(xué)習(xí)映射關(guān)系f:X,Y→R,使其能夠賦予每個(gè)候選的房間結(jié)構(gòu)假設(shè)相應(yīng)的置信度評(píng)分.在這里,每個(gè)房間結(jié)構(gòu)假設(shè)均被參數(shù)化為由五個(gè)平面構(gòu)成的空間結(jié)構(gòu)y={S1,S2,···,S5}.映射關(guān)系函數(shù)f需滿足:輸入圖像xi對(duì)應(yīng)的房間結(jié)構(gòu)假設(shè)yi與真實(shí)假設(shè)y越接近,f(xi,y)的值越高,反之f(xi,y)的值下降.那么,房間結(jié)構(gòu)假設(shè)的最優(yōu)估計(jì)y?可通過下式求解
式(1)是一個(gè)典型的結(jié)構(gòu)化回歸求解問題,其輸出為一個(gè)立方體結(jié)構(gòu)的房間結(jié)構(gòu)假設(shè).為了對(duì)其進(jìn)行求解,可采用文獻(xiàn)[20]方法中的結(jié)構(gòu)化學(xué)習(xí)框架,通過利用訓(xùn)練集對(duì)輸入空間中不同輸出之間的關(guān)系進(jìn)行建模,通過經(jīng)典的二次規(guī)劃算法進(jìn)行求解.其中,f(x,y)=wTF(x,y),可利用式(2)對(duì)權(quán)重w進(jìn)行學(xué)習(xí):
其中,yi為人工標(biāo)注的Ground truth房間結(jié)構(gòu)假設(shè),ξi為松弛變量,D(yi,y)=D1(yi,y)+D2(yi,y)+D3(yi,y)為描述不同房間結(jié)構(gòu)假設(shè)之間差異的代價(jià)函數(shù).懲罰了某一房間結(jié)構(gòu)假設(shè)中的某個(gè)平面Sj缺失而在另一房間結(jié)構(gòu)假設(shè)中出現(xiàn)的情況;D2(yi,y)度量了兩個(gè)房間結(jié)構(gòu)假設(shè)之間的平面中心cj的位置偏移;D3(yi,y)為兩個(gè)房間結(jié)構(gòu)假設(shè)之間各個(gè)平面之間的像素誤差之和,度量了房間結(jié)構(gòu)假設(shè)之間的重合度.其中A(·)為平面的面積,當(dāng)滿足A(Sij)>0,A(Sj)=0或者滿足A(Sij)=0,A(Sj)>0時(shí),δ(Sij,Sj)=1,否則δ(Sij,Sj)=0.
F(xi,y)為從房間結(jié)構(gòu)假設(shè)y中提取的特征向量,可通過與主消失點(diǎn)方向一致的直線段組進(jìn)行計(jì)算得到.在本文中,F(xi,y)由基于幾何的低層特征Fg和基于語義的高層特征Fs兩部分組成.對(duì)于每個(gè)平面Sj,基于幾何的直線段組非加權(quán)性特征fl定義如式(3)所示.其中,Lj為位于Sj中的直線段集,Rj為位于Sj中與兩個(gè)消失點(diǎn)V P1和V P2朝向一致的直線段集,|l|表示直線段l的長(zhǎng)度.最終,Fg={fl(S1),fl(S2),fl(S3),fl(S4),fl(S5)}.
當(dāng)房間結(jié)構(gòu)假設(shè)中的每個(gè)平面通過消失點(diǎn)V P1和V P2進(jìn)行參數(shù)化后,每個(gè)平面中的絕大多數(shù)直線段根據(jù)朝向?qū)w屬于上述兩類消失點(diǎn).然而,位于物體上的部分直線段并不滿足上述情況,例如圖2(b)中位于沙發(fā)的部分藍(lán)色直線段應(yīng)對(duì)應(yīng)于水平消失點(diǎn),但是其朝向卻顯然與水平方向并不一致.為此,本文同樣將直線段未落入物體區(qū)域中的置信度估計(jì)p(li)作為權(quán)重來計(jì)算直線段組,其可通過高層圖像語義推理得到.最終,基于語義的直線段組加權(quán)性特征fs定義如式(4)所示.其中,Fs={fs(S1),fs(S2),fs(S3),fs(S4),fs(S5)}.
在雜亂的房間里通常堆放著桌子、椅子、沙發(fā)等物體,它們的存在模糊了房間各個(gè)平面的邊界.而且,使用的某些用于確定房間結(jié)構(gòu)假設(shè)的特征往往會(huì)位于上述物體中,從而對(duì)房間結(jié)構(gòu)假設(shè)的準(zhǔn)確推理造成困難.如果能夠得到上述物體所在的準(zhǔn)確位置估計(jì),將有助于對(duì)先前預(yù)測(cè)得到的房間結(jié)構(gòu)假設(shè)進(jìn)行優(yōu)化.同樣,一個(gè)較為準(zhǔn)確的房間結(jié)構(gòu)假設(shè)同樣將對(duì)房間中各個(gè)平面和物體實(shí)現(xiàn)更為準(zhǔn)確的定位.
為了對(duì)物體的位置進(jìn)行估計(jì),本文采用兩種經(jīng)典算法生成高層圖像語義特征.1)場(chǎng)景的表面布局估計(jì)(Surface layout estimation,SLE)[9];2)基于全體前景和背景假設(shè)排序的物體識(shí)別模型(Object recognition model,ORM)[21].
在SLE中,對(duì)算法[9]進(jìn)行相應(yīng)的改進(jìn)以適用本文的應(yīng)用.將平面的類別分為地板(Floor)、左側(cè)墻面(Left wall)、中側(cè)墻面(Front wall)、右側(cè)墻面(Right wall)、天花板(Ceiling)和物體(Object)六大類.在提取房間結(jié)構(gòu)假設(shè)的特征時(shí),將分割塊中每種平面類別的面積百分比以及彼此之間的重合度作為主要特征進(jìn)行學(xué)習(xí),目的是提高沒有物體放置時(shí)不同房間平面之間的區(qū)分度.在ORM中,在多尺度分割的基礎(chǔ)上利用上述特征對(duì)六種平面類別進(jìn)行學(xué)習(xí),實(shí)現(xiàn)對(duì)房間中雜亂堆放物體的檢測(cè)和定位.圖5給出了通過挖掘不同高層圖像語義得到的物體位置估計(jì)結(jié)果.在圖5(a)中,不同的平面類別通過不同的顏色表示,紅色、藍(lán)色、黃色分別表示左側(cè)墻面、中間墻面、右側(cè)墻面,綠色和紫色分別表示地板和物體.在圖5(b)中,高亮度區(qū)域?yàn)槲矬w區(qū)域的定位結(jié)果.
圖5 基于不同高層圖像語義的物體位置估計(jì)Fig.5 Di ff erent high-level image semantic based object localization
對(duì)于基于語義的直線段組特征而言,將直線段上各個(gè)像素不屬于平面類別Object對(duì)應(yīng)的置信度作為p(li),對(duì)式(5)進(jìn)行計(jì)算.其中,p(li)通過SLE和ORM方法分別得到的置信度加權(quán)獲得.與文獻(xiàn)[2]不同,不通過遞歸的方式直接篩選出最優(yōu)的房間結(jié)構(gòu)假設(shè),而是賦予每一個(gè)候選的房間結(jié)構(gòu)假設(shè)相應(yīng)的置信度估計(jì),用于最優(yōu)場(chǎng)景配置假設(shè)的篩選.
本文將物體進(jìn)行基于立方體的參數(shù)化,從而較好地描述其在房間中占據(jù)的空間大小,并采用一種較為簡(jiǎn)單的方法生成物體結(jié)構(gòu)假設(shè).在已知三個(gè)相互正交的消失點(diǎn)V P1、V P2和V P3的基礎(chǔ)上,通過文獻(xiàn)[5]方法估計(jì)相機(jī)的內(nèi)參矩陣K 以及對(duì)應(yīng)于房間的旋轉(zhuǎn)矩陣R.
假設(shè)三維坐標(biāo)系的零點(diǎn)位于相機(jī)的光心,x軸、y軸和z軸的朝向分別與房間的寬度、高度以及深度方向一致.那么,坐標(biāo)系中的點(diǎn)以及與其圖像平面上對(duì)應(yīng)點(diǎn)之間的關(guān)系可通過如下投影關(guān)系描述.為了生成物體結(jié)構(gòu)假設(shè),假設(shè)相機(jī)高度hc為一個(gè)隨機(jī)值.在物體結(jié)構(gòu)假設(shè)中,每個(gè)位于地板上的角點(diǎn)需滿足+hc=0,其中n=(0,1,0)為地板平面的法線.利用上述約束可以確定物體結(jié)構(gòu)假設(shè)的參考角點(diǎn),其他的角點(diǎn)可根據(jù)物體的三維尺寸推算.上述角點(diǎn)在圖像上的投影可通過式(5)得到
這里通過對(duì)不同的相機(jī)高度和物體三維尺寸進(jìn)行采樣,生成候選的物體結(jié)構(gòu)假設(shè),其平面與垂直墻壁平行,底部與地板平面重合.對(duì)于相機(jī)高度而言,地板平面的大小范圍通過水平線以及連接兩個(gè)水平消失點(diǎn)的消失線界定,可利用上述約束限制生成的物體結(jié)構(gòu)假設(shè)數(shù)量.最終通過上述方法在每幅圖像中生成100個(gè)物體假設(shè),如圖6中不同顏色的立方體所示.
其中,w1和w2為歸一化權(quán)重,v()為ORM輸出的物體置信度.
圖6 候選物體結(jié)構(gòu)假設(shè)的生成Fig.6 Candidate object hypothesis generation
在獲得房間和物體結(jié)構(gòu)的初始假設(shè)后,本文對(duì)室內(nèi)場(chǎng)景的配置空間進(jìn)行搜索,選擇與基于圖像信息估計(jì)得到的局部場(chǎng)景幾何最為匹配且最滿足物理世界空域約束的配置.為此,采用了以下三種空域和語義相結(jié)合的場(chǎng)景配置約束條件,如圖7所示:1)空域排他性約束.假設(shè)物體是彼此無法重合的固體,那么不同物體占據(jù)的空間具有排他性,即兩個(gè)物體占據(jù)的空間不能相交;2)空域位置約束.每個(gè)物體的所有部分必須處于房間之內(nèi),不能位于墻壁之外;3)語義約束.房間假設(shè)和物體假設(shè)均需要滿足一定的置信度約束,例如基于式(2)得到的房間假設(shè)置信度f(xi,y)或基于式(5)得到的物體假設(shè)置信度scr(ˉc)低于設(shè)定的閾值時(shí),將該場(chǎng)景配置假設(shè)丟棄.
評(píng)價(jià)房間假設(shè)和物體假設(shè)的組合是否滿足以上三個(gè)場(chǎng)景配置約束是最關(guān)鍵的一個(gè)環(huán)節(jié),目的是丟棄部分不符合實(shí)際的場(chǎng)景配置.在單幅圖像中進(jìn)行場(chǎng)景的三維結(jié)構(gòu)推理困難的一個(gè)原因是無法獲取房間的尺度信息.為了測(cè)試“房間–物體”假設(shè)對(duì)以及“物體–物體”假設(shè)對(duì)的空域兼容性,假設(shè)所有物體均位于地板之上,其確定了房間和物體結(jié)構(gòu)假設(shè)的尺度模糊程度并允許對(duì)它們的三維空域位置進(jìn)行推理.
圖7 場(chǎng)景配置約束描述Fig.7 Scene con fi guration constraint
與房間結(jié)構(gòu)假設(shè)的置信度估計(jì)方式類似,通過如下最小化方式實(shí)現(xiàn)場(chǎng)景配置的最優(yōu)估計(jì)y?=argmaxyf(x,y,w).本文將評(píng)分函數(shù)定義為:.其中,g(x,y)為圖像x中場(chǎng)景配置y對(duì)應(yīng)的特征向量,l(y)用于對(duì)違反空域約束的房間和物體結(jié)構(gòu)假設(shè)進(jìn)行懲罰.這里同樣使用結(jié)構(gòu)化SVM技術(shù)來對(duì)權(quán)重向量w進(jìn)行學(xué)習(xí)
其中,yi為人工標(biāo)注的Ground truth場(chǎng)景配置,ξi為松弛變量.代價(jià)函數(shù)δ(yi,y)定義了整幅圖像中具有正確標(biāo)注的像素比例.例如,被標(biāo)注為左側(cè)墻壁的像素實(shí)際屬于正面墻壁或者被標(biāo)注為物體的像素實(shí)際屬于地板等情況均會(huì)被判斷為錯(cuò)誤標(biāo)注的像素.特征向量g(x,y)度量了特征信息對(duì)場(chǎng)景配置y中各個(gè)平面的匹配程度.這里首先通過SLE方法獲取地板、左側(cè)墻面、中間墻面、右側(cè)墻面、天花板和物體六種平面類別的標(biāo)注,接著分別統(tǒng)計(jì)正確描述各個(gè)平面屬性的像素比例,并用一個(gè)6維的特征向量表示g(x,y).式(7)中的懲罰項(xiàng)l(y)=度量了空域約束被違反的程度.l(yr,yo)度量了房間的墻壁和物體之間的空域重合度,懲罰了物體結(jié)構(gòu)假設(shè)位于房間結(jié)構(gòu)假設(shè)空間之外的配置,與位于房間之外的體積大小成正比.度量了兩個(gè)物體i和j的空域重合度,與兩者投影到地板上的重合體積大小成正比.
通過求解式(7)尋找最優(yōu)評(píng)分對(duì)應(yīng)的場(chǎng)景配置y?需要遍歷全部可能的場(chǎng)景配置n×2m,具有很高的計(jì)算復(fù)雜度.目前,組合優(yōu)化技術(shù)在基于計(jì)算機(jī)視覺的物體識(shí)別等領(lǐng)域已經(jīng)得到了廣泛應(yīng)用[22?24],能夠從大規(guī)模候選集中根據(jù)特定的需求實(shí)現(xiàn)高效采樣.本文采用經(jīng)典的光束搜索法(Beam search)[25]以避免對(duì)全部場(chǎng)景配置進(jìn)行評(píng)估.光束搜索法的具體流程如下:在搜索樹的第一層中,對(duì)僅具有一個(gè)房間結(jié)構(gòu)假設(shè)(無物體結(jié)構(gòu)假設(shè))的場(chǎng)景配置進(jìn)行評(píng)分.在剩余的層中,物體結(jié)構(gòu)假設(shè)作為子節(jié)點(diǎn)被加入到基于場(chǎng)景配置的父節(jié)點(diǎn)中并對(duì)其進(jìn)行評(píng)分.那么,具有最高評(píng)分的那個(gè)頂層節(jié)點(diǎn)將被加入到搜索樹中作為子節(jié)點(diǎn),其中dl即為第l層的光束寬度.本文建立具有l(wèi)=4層的搜索樹,每層的光束寬度為dl={50,5,2,1},光束搜索法將遍歷所有的層或者直到?jīng)]有與現(xiàn)有的場(chǎng)景配置相兼容的假設(shè)被加入為止.最后,搜索樹中具有最優(yōu)評(píng)分的節(jié)點(diǎn)即為求解得到的最優(yōu)場(chǎng)景配置.
本文從LabelMe圖像集[26]中挑選了308幅室內(nèi)圖像,其中204幅組成了訓(xùn)練集,并人工標(biāo)注了Ground truth立方體空域布局,以及基于多邊形邊界的地板、墻面和天花板、平面幾何描述和前景物體的位置等信息,剩余的104幅組成了測(cè)試集.
圖8通過定性的方式給出了不同室內(nèi)場(chǎng)景空域布局的評(píng)價(jià)結(jié)果.其中,各圖第1列上面為原始圖像,下面為通過圖像的幾何信息得到的直線段提取結(jié)果;第2列上面和下面分別為通過SLE以及ORM 得到的物體位置估計(jì);第3列上面為僅通過圖像幾何信息得到的具有最高置信度的初始房間結(jié)構(gòu)假設(shè),下面為本文提出的結(jié)合物體結(jié)構(gòu)假設(shè)信息推理得到的最終房間結(jié)構(gòu)假設(shè)結(jié)果,其中的黃色立方體為估計(jì)得到的物體結(jié)構(gòu)假設(shè).
從圖8可以看到,當(dāng)房間結(jié)構(gòu)假設(shè)僅通過空域幾何信息進(jìn)行估計(jì)時(shí),基于置信度排序得到的結(jié)果容易導(dǎo)致不同程度的估計(jì)誤差,例如,圖8(a)中沒有找到兩個(gè)相鄰墻面之間正確的垂直分割線;圖8(f)中由于床的存在使得兩個(gè)相鄰墻面底部的邊界線距離實(shí)際的地板有較大的距離;圖8(j)中同樣由于桌椅的遮擋使得一側(cè)墻面底部的邊界線錯(cuò)誤地定位在了桌椅與地板的交界線上.當(dāng)利用高層圖像語義對(duì)房間中雜亂堆放物體的位置進(jìn)行估計(jì)時(shí),可以看到兩種不同的高層圖像語義對(duì)于物體的定位具有各自的貢獻(xiàn),例如在圖8(e)中通過SLE得到的物體位置要比ORM得到結(jié)果更為準(zhǔn)確,后者錯(cuò)誤地將大片地板區(qū)域也判別為了物體,而在圖8(c)中當(dāng)背景相對(duì)簡(jiǎn)單時(shí)則是ORM取得了更為準(zhǔn)確的物體定位結(jié)果,而基于SLE得到的物體區(qū)域則錯(cuò)誤地包含了部分墻壁.通過將上述兩種高層圖像語義進(jìn)行合理結(jié)合后,不難發(fā)現(xiàn)本文算法估計(jì)得到的物體結(jié)構(gòu)假設(shè)通常能夠更為魯棒地描述房間中實(shí)際的物體擺放位置以及它們的真實(shí)尺寸,而上述物體結(jié)構(gòu)假設(shè)同樣對(duì)最終的房間結(jié)構(gòu)假設(shè)的選擇起到了進(jìn)一步的優(yōu)化作用,例如,圖8(a)、圖8(k)和圖8(m)等,在結(jié)合了物體位置和尺寸信息以后得到了更為接近實(shí)際描述的房間結(jié)構(gòu)假設(shè)估計(jì)結(jié)果.可見,基于高層圖像語義的物體先驗(yàn)和多元化空域約束對(duì)于房間結(jié)構(gòu)假設(shè)推理的改進(jìn)作用是顯著的.
為了對(duì)房間結(jié)構(gòu)假設(shè)的結(jié)果進(jìn)行定量評(píng)價(jià),將本文方法(A4)分別與三種經(jīng)典的室內(nèi)場(chǎng)景空域布局推理方法(Hedau等的方法(A1)[2]、Lee等的方法(A2)[3]和Schwing等的方法(A3)[18])進(jìn)行比較.表1利用文獻(xiàn)[2]中定義的像素誤差(Pixel error)和角誤差(Corner error)給出上述三種方法的定量評(píng)價(jià)結(jié)果.其中,像素誤差為立方體各個(gè)平面上與Ground truth標(biāo)注不同的像素百分比,角誤差為房間結(jié)構(gòu)假設(shè)中各角所在位置與Ground truth標(biāo)注之間的均方根(Root mean square,RMS)誤差.
從表1可以看到,本文方法在低層的圖像幾何信息基礎(chǔ)上,合理加權(quán)了多種高層圖像語義特征,取得了顯著的改進(jìn).其中,與A1方法相比,像素誤差和角誤差分別降低了4.3%和1.3%,與較新的方法A3相比具有更低的誤差,進(jìn)一步證明了本文方法的優(yōu)勢(shì).
圖8 室內(nèi)場(chǎng)景的空域布局推理結(jié)果Fig.8 Spatial layout estimation of indoor scenes
表1 房間結(jié)構(gòu)假設(shè)誤差Table 1 Room hypothesis error
圖9給出了上述三種房間結(jié)構(gòu)假設(shè)估計(jì)方法之間的定性比較.其中,各圖第1列為原始圖像,第2~5列分別為A1、A2、A3和A4方法得到的房間結(jié)構(gòu)假設(shè)結(jié)果對(duì)比.通過對(duì)比我們不難發(fā)現(xiàn),A2的結(jié)果最不穩(wěn)定,A3和A4的結(jié)果比A1更好一些.A3和A4相比,性能上較為相似,例如第4行、第8行和第12行場(chǎng)景對(duì)應(yīng)的結(jié)果.不過在更多具有較強(qiáng)物體遮擋或者空間結(jié)構(gòu)模糊的場(chǎng)景中,例如第2行、第7行、第9行和第10行,本文方法A4可以得到較為準(zhǔn)確的房間空域結(jié)構(gòu)描述,而A3方法勾勒的立方體與真實(shí)的房間空域結(jié)構(gòu)具有更大的偏差.
為了對(duì)本文應(yīng)用的兩種高層圖像語義在物體結(jié)構(gòu)假設(shè)推理中起到的作用進(jìn)行評(píng)價(jià),將SLE算法(B1)、ORM算法(B2)與本文提出的兩者線性加權(quán)的方法(B3)進(jìn)行比較.圖10給出了上述方法以像素誤差和物體識(shí)別率(Detection rate)為度量的定量評(píng)價(jià).從圖10中可以看到,在像素誤差方面,盡管B2比B1具有更高的像素誤差,但是通過合理的線性加權(quán),本文方法B3取得了最低的像素誤差,與B1和B2相比分別下降了4.1%和13.5%.在物體識(shí)別率方面,B3同樣取得了最高的識(shí)別精度,與B1和B2相比分別提高了6.8%和2.9%,進(jìn)一步驗(yàn)證了本文線性加權(quán)方式的合理性.
圖9 不同房間結(jié)構(gòu)假設(shè)估計(jì)方法的比較Fig.9 Comparisons of di ff erent room hypothesis approaches
圖10 不同高層圖像語義在物體結(jié)構(gòu)假設(shè)中的像素誤差和物體識(shí)別率Fig.10 The pixel error and object recognition rate of di ff erent high-level image semantics in object structure hypothesis
本文提出一種簡(jiǎn)單快速的方法以實(shí)現(xiàn)對(duì)雜亂堆放了各種物體的室內(nèi)場(chǎng)景的空域布局進(jìn)行推理.為了參數(shù)化地對(duì)房間和物體的三維體積進(jìn)行描述,提出在算法中加入空域排他性和空域位置等幾何約束,將多種高層圖像語義加入到算法框架中,改進(jìn)房間和物體的結(jié)構(gòu)假設(shè)估計(jì),最終通過基于組合優(yōu)化的結(jié)構(gòu)化學(xué)習(xí)策略實(shí)現(xiàn)快速的最優(yōu)場(chǎng)景配置假設(shè)篩選.實(shí)驗(yàn)證明,與現(xiàn)有的多種經(jīng)典方法相比,本文算法在雜亂的室內(nèi)場(chǎng)景中能夠獲得更為準(zhǔn)確的房間和物體空域結(jié)構(gòu)描述.
1 Coughlan J M,Yuille A L.Manhattan world:compass direction from a single image by Bayesian inference.In:Proceedings of the 7th IEEE International Conference on Computer Vision.Kerkyra,Greece:IEEE,1999.941?947
2 Hedau V,Hoiem D,Forsyth D.Recovering the spatial layout of cluttered rooms.In:Proceedings of the 12th IEEE International Conference on Computer Vision.Kyoto,Japan:IEEE,2009.1849?1856
3 Lee D C,Hebert M,Kanade T.Geometric reasoning for single image structure recovery.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,FL,USA:IEEE,2009.2136?2143
4 Koˇseck′a J,Zhang W.Video compass.In:Proceedings of the 7th European Conference on Computer Vision.Copenhagen,Denmark:Springer,2002.476?490
5 Rother C.A new approach to vanishing point detection in architectural environments.Image and Vision Computing,2002,20(9?10):647?655
6 Barinova O,Konushin V,Yakubenko A,Lee K,Lim H,Konushin A.Fast automatic single-view 3-D reconstruction of urban scenes.In:Proceedings of the 10th European Conference on Computer Vision.Marseille,France:Springer,2008.100?113
7 Yu S X,Zhang H,Malik J.Inferring spatial layout from a single image via depth-ordered grouping.In:Proceedings of the 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.Anchorage,AK,USA:IEEE,2008.1?7
8 Nabbe B,Hoiem D,Efros A A A,Hebert M.Opportunistic use of vision to push back the path-planning horizon.In:Proceedings of the 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems.Beijing,China:IEEE,2006.2388?2393
9 Hoiem D,Efros A A,Hebert M.Recovering surface layout from an image.International Journal of Computer Vision,2007,75(1):151?172
10 Micusik B,Wildenauer H,Kosecka J.Detection and matching of rectilinear structures.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,AK,USA,2008.1?7
11 Saxena A,Schulte J,Ng A Y.Depth estimation using monocular and stereo cues.In:Proceedings of the 20th International Joint Conference on Arti fi cial Intelligence.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,2007.2197?2203
12 Liu B Y,Gould S,Koller D.Single image depth estimation from predicted semantic labels.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.1253?1260
13 Liu M M,Salzmann M,He X M.Discrete-continuous depth estimation from a single image.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.716?723
14 Gupta A,Efros A A,Hebert M.Blocks world revisited:image understanding using qualitative geometry and mechanics.In:Proceedings of the 11th European Conference on Computer Vision.Heraklion,Crete,Greece:Springer,2010.482?496
15 Lee D C,Gupta A,Hebert M,Kanade T.Estimating spatial layout of rooms using volumetric reasoning about objects and surfaces.In:Proceedings of the 2010 Advances in Neural Information Processing Systems 23.Vancouver,British Columbia,Canada:Curran Associates,Inc.,2010.1288?1296
16 Hedau V,Hoiem D,Forsyth D.Thinking inside the box:using appearance models and context based on room geometry.In:Proceedings of the 11th European Conference on Computer Vision.Heraklion,Crete,Greece:Springer,2010.224?237
17 Wang H Y,Gould S,Koller D.Discriminative learning with latent variables for cluttered indoor scene understanding.In:Proceedings of the 11th European Conference on Computer Vision.Heraklion,Crete,Greece:Springer,2010.497?510
18 Schwing A G,Fidler S,Pollefeys M,Urtasun R.Box in the box:joint 3D layout and object reasoning from single images.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,VIC,Australia:IEEE,2013.353?360
19 Choi W,Chao Y W,Pantofaru C,Savarese S.Understanding indoor scenes using 3D geometric phrases.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.33?40
20 Tsochantaridis I,Joachims T,Hofmann T,Altun Y.Large margin methods for structured and interdependent output variables.The Journal of Machine Learning Research,2005,6:1453?1484
21 Li F X,Carreira J,Sminchisescu C.Object recognition as ranking holistic fi gure-ground hypotheses.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.1712?1719
22 Lampert C H,Blaschko M B,Hofmann T.Efficient subwindow search:a branch and bound framework for object localization.IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(12):2129?2142
23 Russakovsky O,Ng A Y.A Steiner tree approach to efficient object detection.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.1070?1077
24 Vijayanarasimhan S,Grauman K.Efficient region search for object detection.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA:IEEE,2011.1401?1408
25 Russell S,Norvig P.Arti fi cial Intelligence:A Modern Approach(3rd edition).New Jersey:Pearson,2009.
26 Russell B C,Torralba A,Murphy K P,Freeman W T.LabelMe:a database and web-based tool for image annotation.International Journal of Computer Vision,2008,77(1?3):157?173
姚拓中 寧波工程學(xué)院電信學(xué)院講師.2011年獲得浙江大學(xué)博士學(xué)位.主要研究方向?yàn)橛?jì)算機(jī)視覺,機(jī)器學(xué)習(xí).本文通信作者.E-mail:thomasyao@zju.edu.cn
(YAO Tuo-Zhong Lecturer at the SchoolofElectronic and Information Engineering,Ningbo University of Technology.He received his Ph.D.degree from Zhejiang University in 2011.His research interest covers computer vision and machine learning.Corresponding author of this paper.)
左文輝 浙江大學(xué)信息與電子工程學(xué)院博士研究生.2007年獲得浙江大學(xué)學(xué)士學(xué)位.主要研究方向?yàn)橛?jì)算機(jī)視覺,機(jī)器學(xué)習(xí).E-mail:wenhuizuo@126.com
(ZUO Wen-Hui Ph.D.candidate at the College of Information Science and Electronic Engineering,Zhejiang University.He received his bachelor degree from Zhejiang University in 2007.His research interest covers computer vision and machine learning.)
宋加濤 寧波工程學(xué)院電信學(xué)院教授.2003年獲得浙江大學(xué)博士學(xué)位.主要研究方向?yàn)閳D像處理,模式識(shí)別.
E-mail:sjt6612@163.com
(SONG Jia-Tao Professor at the SchoolofElectronic and Information Engineering,Ningbo University of Technology.He received his Ph.D.degree from Zhejiang University in 2003.His research interest covers image processing and pattern recognition.)
應(yīng)宏微 寧波工程學(xué)院電信學(xué)院講師.2004年獲得浙江工業(yè)大學(xué)碩士學(xué)位.主要研究方向?yàn)閳D像處理,視頻壓縮.
E-mail:yinghongwei@163.com
(YING Hong-Wei Lecturerat the School of Electronic and Information Engineering,Ningbo University of Technology.He received his master degree from Zhejiang University of Technology in 2004.His research interest covers image processing and video compressing.)
Estimating Spatial Layout of Cluttered Rooms by Using Object Prior and Spatial Constraints
YAO Tuo-Zhong1ZUO Wen-Hui2SONG Jia-Tao1YING Hong-Wei1
Estimating spatial layout of a structural indoor scene is one of the research hotspots in computer vision.However,most of the current solutions cannot work robustly in a cluttered room due to occlusion of di ff erent objects inside.In this paper,a new algorithm which integrates geometric and semantic relations between room and objects is proposed to recover the spatial layout of a cluttered room.This algorithm parametrically represents the 3D volume of both room and objects and uses multiple high-level image semantics to obtain object priors.Furthermore,several spatial constraints such as spatial exclusion and containment are used which simultaneously optimize spatial layout estimation of the room and provide signi fi cant information for object recognition and localization.One advantage of the algorithm is its low computational complexity,and experimental results also demonstrate that it can work more robustly in cluttered rooms than several classic algorithms.
Spatial layout estimation,object prior,spatial constraint,combinational optimization
January 21,2016;accepted July 28,2016
姚拓中,左文輝,宋加濤,應(yīng)宏微.結(jié)合物體先驗(yàn)和空域約束的室內(nèi)空域布局推理.自動(dòng)化學(xué)報(bào),2017,43(8):1402?1411
Yao Tuo-Zhong,Zuo Wen-Hui,Song Jia-Tao,Ying Hong-Wei.Estimating spatial layout of cluttered rooms by using object prior and spatial constraints.Acta Automatica Sinica,2017,43(8):1402?1411
2016-01-21 錄用日期2016-07-28
浙江省自然科學(xué)基金(LQ15F020004),浙江省公益類技術(shù)研究項(xiàng)目(2016C33255),寧波市自然科學(xué)基金(2015A610132,2013A610113)資助
Supported by Zhejiang Provincial Natural Science Foundation(LQ15F020004),Zhejiang Provincial Public Welfare Technology Research Project(2016C33255),and Ningbo Natural Science Foundation(2015A610132,2013A610113)
本文責(zé)任編委賈云得
Recommended by Associate Editor JIA Yun-De
1.寧波工程學(xué)院電信學(xué)院寧波 315016 2.浙江大學(xué)信息與電子工程學(xué)院杭州310027
1.School of Electronic and Information Engineering,Ningbo University of Technology,Ningbo 315016 2.College of Information Science and Electronic Engineering,Zhejiang University,Hangzhou 310027
DOI10.16383/j.aas.2017.c160043