劉天亮 馮希龍 顧雁秋 戴修斌 羅杰波
(1南京郵電大學江蘇省圖像處理與圖像通信重點實驗室, 南京 210003)(2羅徹斯特大學計算機科學系, 美國羅徹斯特 14627)
?
一種由粗至精的RGB-D室內場景語義分割方法
劉天亮1馮希龍1顧雁秋1戴修斌1羅杰波2
(1南京郵電大學江蘇省圖像處理與圖像通信重點實驗室, 南京 210003)(2羅徹斯特大學計算機科學系, 美國羅徹斯特 14627)
為了標注室內場景中可見物體,提出一種基于RGB-D數(shù)據(jù)由粗至精的室內場景語義分割方法.首先,利用分層顯著度導引的簡單線性迭代聚類過分割和魯棒多模態(tài)區(qū)域特征,構建面向語義類別的超像素區(qū)域池,基于隨機決策森林分類器判決各個超像素區(qū)域的語義類別,實現(xiàn)粗粒度區(qū)域級語義標簽推斷.然后,為了改善粗粒度級的語義標簽,利用幾何深度導引和內部反饋機制改進像素級稠密全連接條件隨機場模型,以求精細粒度像素級語義標注.最后,在粗、細粒度語義標注之間引入全局遞歸式反饋,漸進式迭代更新室內場景的語義類別標簽.2個公開的RGB-D室內場景數(shù)據(jù)集上的實驗結果表明,與其他方法相比,所提出的語義分割方法無論在主觀還是客觀評估上,均具有較好的效果.
RGB-D室內場景;語義分割;SLIC過分割;稠密CRFs;遞歸式反饋
場景理解一直都是圖像處理與計算視覺領域研究的熱點.給室內場景中每個像素稠密地提供一個預定義的語義類別標簽,能為移動機器導航、人機交互和虛擬現(xiàn)實等應用提供豐富的視覺感知線索.根據(jù)不同的標注基元量化級別,相應方法可大致分為區(qū)域級語義標注法和像素級語義標注法2類.這2類方法能分別標注粗、細粒度級別的語義標簽;前者標注效率較高且整體視覺效果較好,而后者標注層次化細節(jié)較高但標注效率較低.
文獻[1]基于高斯核線性組合成對項勢能的快速稠密全連通CRFs概率圖模型,提出了RGB圖像像素級語義標注推斷算法.由于深度傳感器具有強大捕獲場景結構能力,學者們傾向將場景幾何深度融入語義標注.文獻[2]構建核描述子特征實現(xiàn)區(qū)域級RGB-D場景標注.文獻[3]提出了解析RGB-D室內場景中區(qū)域級的主要平面和物體,并推斷物體支撐關系.文獻[4]采用一種反饋式前向神經網絡作為判別分類器,從RGB圖像、深度圖像以及經旋轉處理后的RGB圖像[5]中提取尺度不變特征轉換SIFT特征描述[6].而文獻[7]提出基于多尺度RGB圖像和深度圖像的卷積網絡實現(xiàn)RGB-D場景語義標注.文獻[8]給出了能快速獲取普通場景較高質量超像素區(qū)域的SLIC過分割方法,但該方法面對結構混亂、目標交疊且光照條件復雜的室內場景,其過分割效果欠佳.
針對上述方法難于選擇標注基元量化級別及未充分利用場景幾何深度等問題,本文設計了一種基于RGB-D數(shù)據(jù)和全局遞歸式反饋由粗至精的室內場景語義標注框架.與其他方法相比,所提出的語義分割方法無論在主觀上還是客觀評估上,均具有較好的效果.
本文提出的方案主要包括粗粒度區(qū)域級標簽推斷和細粒度像素級標簽求精2部分,如圖1所示;二者之間引入全局遞歸式反饋機制,能交替迭代更新不同粒度級別的語義標簽,有利于語義標簽的有機整合.粗粒度區(qū)域級標簽推斷由改進型區(qū)域過分割、區(qū)域特征提取和融合、超像素語義標簽池構建以及隨機決策森林分類預測組成;RGB-D訓練數(shù)據(jù)集輸入圖1中的左側訓練流程,而圖1中的右側測試流程可以查詢圖像和將對應深度圖像作為輸入;利用改進型區(qū)域過分割方法獲取超像素區(qū)域,有效提取輸入樣本集中魯棒區(qū)域特征,并構建超像素語義標簽池,基于隨機決策森林分類預測區(qū)域標簽;測試流程利用對已訓練的分類器測試輸入樣本.細粒度像素級標簽求精構建一種基于幾何深度信息和內部遞歸式反饋擴展的像素級稠密CRFs概率圖模型,優(yōu)化求精即可得到細粒度的標注.
圖1 室內場景語義分割流程圖
2.1顯著度導引改進SLIC過分割
針對目前快速SLIC過分割法[8]處理雜亂室內場景難以得到較高邊緣一致性的超像素問題,本文利用圖像分層顯著度導引簡單線性迭代聚類,得到較緊湊的超像素區(qū)域.受文獻[8-9]啟發(fā),本文在傳統(tǒng)SLIC過分割法[8]的5維(3維RGB通道和2維位置通道)聚類空間基礎上,引入額外3個多模態(tài)視覺感知通道(1維多尺度融合的圖像分層顯著度[9]、1維深度信息和1維語義標簽圖),將傳統(tǒng)SLIC過分割法擴展增至8維,任意特征聚類中心w和t之間相似性測度為
(1)
dcds=[(Lw-Lt)2+(aw-at)2+(bw-bt)2+
(2)
(3)
(4)
2.2多模態(tài)區(qū)域特征提取
為了實現(xiàn)粗粒度區(qū)域級語義標簽推斷,根據(jù)訓練或測試流程需要,對RGB-D訓練數(shù)據(jù)集或測試數(shù)據(jù)集中RGB圖像和對應深度圖D中即得的各個超像素區(qū)域,提取區(qū)域級魯棒多模態(tài)特征描述.首先,根據(jù)預設攝像機內部參數(shù)、深度圖D及點云庫[10]計算對齊于RGB圖像I各像素點的表面法向量n;接著,依次計算各個過分割超像素內的區(qū)域特征單元并歸一化;然后,將其串聯(lián)拼接成即得的超像素區(qū)域的多模態(tài)特征.其特征單元包括區(qū)域像素質心、色彩HSV分量均值與相應直方圖、彩色RGB圖像的梯度方向直方圖(histograms of oriented gradients, HOG)、基于深度圖像的HOG以及由深度圖像衍生得到場景的表面法線向量圖像的HOG等多模態(tài)視覺特征.
2.3超像素語義標簽池構建
利用RGB-D輸入數(shù)據(jù)合理構建超像素語義標簽池,以訓練或測試隨機決策森林分類器.對訓練數(shù)據(jù)的超像素集合中的各個超像素,根據(jù)RGB-D訓練數(shù)據(jù)集中包含的基準標簽信息和多模態(tài)特征向量,分別整合該所有超像素對應的各個條目,并采用映射準則將基準標注信息的類別標簽映射至訓練數(shù)據(jù)的超像素集,獲取該各個超像素分別對應的類別標簽,構成訓練數(shù)據(jù)的超像素集對應的語義標簽池.為保證正確映射至每個超像素的類別標簽具有唯一性,經基準標注圖像映射后,若某超像素區(qū)域包含多種既定的類別標簽,將該超像素中像素數(shù)目比例最大的類別標簽視為其判定該超像素的正確標簽.測試用超像素語義標簽池可以采用類似方法構建.
2.4隨機森林分類區(qū)域標簽
采用隨機決策森林[11]分類判別即得的超像素區(qū)域的語義標簽.隨機森林F由K個二進制決策樹Tk(k=1,2,…,K) 集成.每個決策樹節(jié)點n通過二值判決即得場景區(qū)域的多模態(tài)特征來分類相應實例.F決策樹訓練步驟如下:① 隨機多次自舉重采樣訓練集;② 采用深度優(yōu)先策略,將即得構建的多個訓練樣本集分別訓練隨機決策樹,每個節(jié)點n根據(jù)二值決策函數(shù)選擇合適的自舉重采樣的候選特征參數(shù)θ和閾值τ,以產生最大的信息增益,如此往復;③ 據(jù)此統(tǒng)計分類投票結果,以得票最多的語義分類作為F分類器的輸出.
根據(jù)已訓練的隨機森林F,對每個超像素區(qū)域r,從決策樹根節(jié)點遍歷每個決策樹Tk;根據(jù)二值決策準則,分叉每個樹節(jié)點,直至到達葉節(jié)點l;用概率p(c|n)關聯(lián)二值決策時所到達節(jié)點的類別標簽c,c∈C,C為所有語義標簽的集合,并平均所遍歷的各決策樹Tk,用以編碼類別標簽的經驗后驗概率;將F中最大后驗分類概率對應的語義類別視為相應場景區(qū)域所預測的標簽,即
(5)
3.1融合幾何深度的稠密CRFs概率圖模型
(6)
式中,Ψu(xi)為節(jié)點i對應像素ei出現(xiàn)類別xi的一元勢能,即
(7)
(8)
Ψp(xi,xj)=μ(xi,xj)K(fi,fj)
(9)
(10)
式中,xi和xj分別為節(jié)點i和j對應的可能類別標簽;μ(xi,xj)為波茨模型標簽兼容函數(shù),μ(xi, xj)=1, xi≠xj;K(fi,fj)為高斯核的線性組合,fi和fj分別為節(jié)點i和j的相應特征向量;pi和pj分別為相應的坐標位置向量;Ii和Ij分別為相應的RGB彩色向量;di和dj分別為相應的深度值;ni和nj分別為節(jié)點i和j相應的表面法線向量;wa和ws分別為高斯外觀核和平滑核的權值系數(shù);θα, θβ, θγ和θδ為控制鄰近兩像素點同屬于某一類的參數(shù);θχ為平滑核控制系數(shù),能控制標簽的孤立區(qū)域大小.
3.2兩層遞歸式標簽反饋機制
為了改善語義標注精度和穩(wěn)定性,細粒度像素級標注中先建立內部反饋機制;將細粒度語義標簽作為額外通道,反饋至粗粒度區(qū)域級語義標簽推斷,以改善SLIC過分割,實現(xiàn)在模型輸入/輸出之間全局遞歸式標簽反饋.首先,采用改進型概率圖模型求精粗粒度語義標注,以更新細粒度像素級標注;然后,根據(jù)1.1節(jié)得到的過分割區(qū)域,將相應區(qū)域中即得的細粒度級別標注中類別標簽反饋映射至其區(qū)域級語義標簽超像素集;最后,根據(jù)該超像素集中的類別標簽和過分割信息,更新區(qū)域結構粗粒度級別標注,將比較更新前后對應的超像素語義標簽是否一致作為迭代結束的判斷標準.鑒于僅通過一次求精步驟難以使所得標注達到最優(yōu),本文方法采用遞歸式策略保證在像素級語義標簽優(yōu)化時對粗標注的求精效果達到較高水平.
4.1主觀評估
采用NYU Depth V2[3]與SUN3D[12]室內場景RGB-D數(shù)據(jù)集評測實驗.NYU Depth V2數(shù)據(jù)集有1 449組RGB-D圖像對(795組訓練和654組測試)和相應的4種語義類別(Structure, Floor, Furniture和Props).SUN3D數(shù)據(jù)集有1 869組RGB-D圖像對(1 121組訓練和748組測試)和相應的15種語義類別(Bed, Cabinet, Wall, Ceiling, Floor, Sofa, Picture, Lamp, Curtain, TV, Door, Bathtub, Close stool, Washbasin和Props).圖2和圖3分別給出了本文方法在NYU Depth V2與SUN3D數(shù)據(jù)集上的實驗結果.
比較圖2(c)與(d)可知,細粒度像素級語義標簽求精提升粗粒度語義標注的效果較為顯著,目標邊緣更接近場景的真實邊緣;引入像素間豐富上下文能有效修正粗粒度語義標注結果中某些誤標的標簽.另外,圖2(d)視覺標注效果明顯優(yōu)于圖2(e),標簽圖邊緣更清晰且正確率更高.文獻[13]方法屬于傳統(tǒng)像素級標注方案,難以構建魯棒、辨識力強的像素級特征描述;而本文方法充分融合場景圖像中不同層次多模態(tài)信息,有利于得到正確率較高的像素級語義標簽.
圖3(d)、(e)與(c)相比,在視覺效果上均有較大提升,其原因是像素間引入稠密的上下文信息;而圖3(e)也明顯優(yōu)于圖3(d),原因在于引入了幾何深度信息與內部反饋機制.圖3(a)最左側圖中,因臺燈光源過強,使得RGB圖像中臺燈燈罩周邊區(qū)域被過度曝光,臺燈的輪廓和紋理信息失效;而傳統(tǒng)方法難以從圖3(c)中獲得臺燈的邊緣信息.而引入獨立于光照條件的場景深度,能為場景語義標簽上下文推斷,帶來更具魯棒性、判別力強的上下文約束.
(a) RGB圖像
(b) 基準標注圖像
(c) 本方法最終標注
(d) 本方法粗粒度語義標注
(e)文獻[13]方案的語義標注
4.2客觀評估
表1給出NYU Depth V2數(shù)據(jù)集的實驗結果,其評價指標有平均雅爾卡指數(shù)和像素標注準確率[3].平均雅爾卡指數(shù)為混淆矩陣中對角線(針對定義的語義類別,測試數(shù)據(jù)集中從屬于某語義類別的像素獲得正確語義類別標簽的概率)的均值;像素標注準確率表示測試數(shù)據(jù)集中每個像素經標注后獲得正確語義類別標簽的概率.由表1可得,相比于其他方法[2-3,13],本文方法在總體性能上有一定提升,特別是Structure和Furniture 兩種語義結構類別的標注.其原因是引入的有效深度信息能揭示場景中物體間的內在結構,能有效抑制噪聲且保護圖像細節(jié).與文獻[14]相比,本文方法整體性能上稍差,原因是本文方法不需要較多額外計算資源用于預先擬合場景的地心引力坐標系[14],并將其作為參考,因而使得Floor語義標注不夠理想.
表2給出了SUN3D數(shù)據(jù)集的本文方法結果,評價指標為每個語義類別的像素級語義標注準確
表1 NYU Depth V2數(shù)據(jù)集室內場景語義標注方法性能比較 %
注:“無”表示文獻[13]中無此數(shù)據(jù).
率.由表2可知,引入幾何深度信息和內部遞歸式反饋能提升像素級標注準確率.內部遞歸式反饋使得標注信息不斷迭代更新,最終標注結果趨于穩(wěn)定且準確率得到提升.結合主觀評估的圖2可知,將有效可靠的幾何深度信息引入改進概率圖模型上下文推理語義標簽時,能有效恢復被室內光照所隱藏的目標邊緣,優(yōu)化求精粗粒度標注.
(a) RGB圖像
(b) 基準標注圖像
(c) 粗粒度語義標注
(d) 未引入深度信息及內部遞歸式反饋的標注
(e) 最終標注
圖3 SUN3D數(shù)據(jù)集的本文標注方法結果
表2 SUN3D數(shù)據(jù)集本文方法標注語義準確率比較 %
注:Final表示包含深度信息及反饋機制結果;Initial表示不包含深度信息及反饋機制結果;1stPart表示粗粒度標注結果.
本文提出一種基于RGB-D圖像由粗至精的室內場景語義分割方法,包括粗粒度區(qū)域級語義標簽推斷與細粒度像素級語義標簽求精.基于改進型SLIC過分割圖像區(qū)域并提取其相應多模態(tài)區(qū)域特征,基于隨機決策森林分類判決構建的超像素語義類別標簽;利用場景幾何深度和內部反饋機制改進像素級稠密CRFs概率圖模型,引入全局遞歸式反饋漸進迭代更新室內場景的語義類別標簽.相比于其他方法,本文方法能得到視覺表現(xiàn)力較強、標注準確率較高的語義標注結果.
References)
[1]Krhenbühl P, Koltun V. Efficient inference in fully connected CRFs with gaussian edge potentials [C]//25thAnnualConferenceonNeuralInformationProcessingSystems. Granada, Span, 2011:109-117.
[2]Ren X, Bo L, Fox D. RGB-(D) scene labeling: Features and algorithms [C]//IEEEConferenceonComputerVisionandPatternRecognition. Providence, RI, USA, 2012:2759-2766.
[3]Silberman N, Hoiem D, Kohli P, et al. Indoor segmentation and support inference from RGBD images [C]//12thEuropeanConferenceonComputerVision. Firenze, Italy, 2012:746-760. DOI:10.1007/978-3-642-33715-4-54.
[4]Silberman N, Fergus R. Indoor scene segmentation using a structured light sensor [C]//IEEEInternationalConferenceonComputerVisionWorkshops. Barcelona, Spain, 2011:601-608.
[5]Stasse O, Dupitier S, Yokoi K. 3D object recognition using spin-images for a humanoid stereoscopic vision system [C]//IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems. Beijing, China, 2006:2955-2960. DOI:10.1109/iros.2006.282151.
[6]Lowe D G. Distinctive image features from scales-invariant keypoints [J].InternationalJournalofComputerVision, 2004, 60(2):91-110. DOI:10.1023/b:visi.0000029664.99615.94.
[7]Couprie C, Farabet C, Najman L, et al. Indoor semantic segmentation using depth information [C]//InternationalConferenceonLearningRepresentation. Scottsdale, AZ, USA, 2013:1-8.
[8]Achanta R, Shaji A, Smith K, et al. SLIC superpixels compared to state-of-the-art superpixel methods [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2012, 34(11):2274-2282. DOI:10.1109/tpami.2012.120.
[9]Yan Q, Xu L, Shi J, et al. Hierarchical saliency detection [C]//IEEEConferenceonComputerVisionandPatternRecognition. Portland, OR, USA, 2013:1155-1162.
[10]Rusu R B, Cousins S. 3D is here: Point cloud library [C]//ProceedingsIEEEInternationalConferenceonRoboticsandAutomation. Shanghai, China, 2011:1-4.
[11]Stückler J, Waldvogel B, Schulz H, et al. Dense real-time mapping of object-class semantics from RGB-D video [J].JournalofReal-TimeImageProcessing, 2013, 10(4):599-609. DOI:10.1007/s11554-013-0379-5.
[12]Xiao J X, Owens A, Torralba A. SUN3D: A database of big spaces reconstructed using SfM and object labels [C]//14thIEEEInternationalConferenceonComputerVision. Sydney, Australia, 2013:1625-1632. DOI:10.1109/iccv.2013.458.
[13]Waldvogel B. Accelerating random forests on CPUs and GPUs for object-class image segmentation [D]. Bonn, German: Bonn University, 2013.
[14]Gupta S, Arbelaez P, Malik J. Perceptual organization and recognition of indoor scenes from RGB-D images [C]//IEEEConferenceonComputerVisionandPatternRecognition. Portland, Oregon, 2013:564-571. DOI:10.1109/cvpr.2013.79.
Coarse-to-Fine semantic parsing method for RGB-D indoor scenes
Liu Tianliang1Feng Xilong1Gu Yanqiu1Dai Xiubin1Luo Jiebo2
(1Jiangsu Provincial Key Laboratory of Image Processing and Image Communication,Nanjing University of Posts and Telecommunications, Nanjing 210003, China)(2Department of Computer Science, University of Rochester, Rochester 14627, USA)
A coarse-to-fine semantic segmentation method based on RGB-D information was proposed to label the visually meaningful components in indoor scenes. First, to complete coarse-grained region-level semantic label inference, the superpixel region pools for the semantic categories were constructed using hierarchical saliency-guided simple linear iterative clustering(SLIC) segmentation and robust multi-modal regional features, and the semantic category of each superpixel region can be judged based on random decision forest classifer. Then, to adjust coarse-grained semantic tag, a depth-guided pixel-wise fully-connected conditional random field model with an internal recursive feedback was presented to refine fine-grained pixel-level semantic label. Finally, a progressive global recursive feedback mechanism between coarse-grained and fine-grained semantic labels was introduced to iteratively update semantic tags of the predefined superpixel region in the given scenes. Experimental results show that the presented method can achieve comparable performance on the subjective and objective evaluations compared with other state-of-the-art methods on two public RGB-D indoor scene datasets.
RGB-D indoor scene; semantic parsing; simple linear iterative clustering (SLIC) segmentation; dense conditional random fields (CRFs); recursive feedback
10.3969/j.issn.1001-0505.2016.04.002
2015-12-07.作者簡介: 劉天亮(1980—),男,博士,副教授,liutl@njupt.edu.cn.
國家自然科學基金資助項目(31200747,61001152,61071091,61071166,61172118)、江蘇省自然科學基金資助項目(BK2010523,BK2012437)、南京郵電大學校級科研基金資助項目(NY210069,NY214037)、國家留學基金資助項目、教育部互聯(lián)網應用創(chuàng)新開放平臺示范基地(氣象云平臺及應用)資助項目(KJRP1407).
10.3969/j.issn.1001-0505.2016.04.002.
TP391
A
1001-0505(2016)04-0681-07
引用本文: 劉天亮,馮希龍,顧雁秋,等.一種由粗至精的RGB-D室內場景語義分割方法[J].東南大學學報(自然科學版),2016,46(4):681-687.