沈振一, 孫韶媛, 趙海濤
(1. 東華大學(xué) a. 信息科學(xué)與技術(shù)學(xué)院; b. 數(shù)字化紡織服裝技術(shù)教育部工程研究中心, 上海 201620;2. 華東理工大學(xué) 信息科學(xué)與工程學(xué)院, 上海 200237)
基于PP-MRF模型的單目車載紅外圖像三維重建
沈振一1a, 1b, 孫韶媛1a, 1b, 趙海濤2
(1. 東華大學(xué) a. 信息科學(xué)與技術(shù)學(xué)院; b. 數(shù)字化紡織服裝技術(shù)教育部工程研究中心, 上海 201620;2. 華東理工大學(xué) 信息科學(xué)與工程學(xué)院, 上海 200237)
針對車載紅外圖像的特點(diǎn),提出了一種使用超像素分割和面板參數(shù)馬爾科夫隨機(jī)場(PP-MRF)相結(jié)合的單目車載紅外圖像三維重建方法.該方法首先通過超像素分割得到在紋理和亮度上相近的一系列小的區(qū)域,即超像素,然后訓(xùn)練PP-MRF模型,使它能對待測試圖像的各個(gè)超像素進(jìn)行面板參數(shù)的分析和深度估計(jì).通過實(shí)驗(yàn)證明了該方法能夠有效地對單目車載紅外圖像做出深度估計(jì)及三維重建.
圖像處理; 三維重建; 車載紅外圖像; 面板參數(shù)馬爾科夫隨機(jī)場(PP-MRF); 深度估計(jì)
隨著車載紅外輔助駕駛系統(tǒng)在民用領(lǐng)域的普及,車載紅外圖像處理的研究越來越被人們所關(guān)注,其中紅外圖像的深度估計(jì)已經(jīng)成為近年來的研究熱點(diǎn).車載紅外圖像三維重建的研究,建立在紅外圖像深度估計(jì)研究的基礎(chǔ)上,其作為車載紅外圖像研究的一個(gè)全新領(lǐng)域具有重大的意義.
近年來,雙目可見光的三維重建工作逐漸趨向成熟,其中以belief propagation算法[1]為基礎(chǔ)進(jìn)行三維重建,在目前的立體視覺領(lǐng)域中應(yīng)用非常廣泛.但是相對而言,單目圖像的三維重建工作發(fā)展較晚,其中最具代表性的是shape-from-shading[2]和shape-from-texture[3]兩類方法,但是這些算法在表面紋理與色彩變化不明顯時(shí),三維重建效果較差.文獻(xiàn)[4-6]提出的基于面板參數(shù)馬爾科夫隨機(jī)場模型(PP-MRF)的單目圖像三維重建在正確率、效果方面都比其他算法有明顯的提高.
在紅外圖像的深度估計(jì)方面,已有的基于主成分分析與BP神經(jīng)網(wǎng)絡(luò)的紅外深度估計(jì)算法[7]和基于支持向量機(jī)的紅外圖像深度估計(jì)算法[8],只是對像素點(diǎn)和周圍一定范圍的像素點(diǎn)之間進(jìn)行特征提取,沒有考慮到實(shí)際面板之間的構(gòu)成關(guān)系,所以無法對紅外圖像進(jìn)行正確的三維重建.
鑒于PP-MRF模型在可見光領(lǐng)域的三維重建的成功應(yīng)用,將此模型應(yīng)用于車載紅外圖像,并針對車載紅外圖像的特點(diǎn)做出改進(jìn),使其更加注重于對道路和天空等較大面板結(jié)構(gòu)特性的分析和把握,能夠更好地對車載紅外圖像進(jìn)行三維重建.本文針對車載紅外圖像三維重建,首先對紅外圖像進(jìn)行超像素分割和特征提取,并對基于PP-MRF模型的三維重建方法進(jìn)行改進(jìn),使它適用于車載紅外圖像的三維重建,再通過樣本集訓(xùn)練得到圖像模型參數(shù),最后對待測試的車載紅外圖像進(jìn)行面板結(jié)構(gòu)分析和三維重建.算法流程如圖1所示.
圖1 算法流程框圖Fig.1 The algorithm flow chart
1.1超像素分割
超像素是指具有相似紋理、顏色、亮度等特征的相鄰像素構(gòu)成的圖像塊.相比可見光圖像,紅外圖像缺少豐富的紋理和色彩信息,但是相對而言其包含著較為明顯的邊緣特征.基于這些特點(diǎn),超像素分割能夠在紅外圖像上分割出很多小面板類,并且較好地保持圖像邊界,分割速度較快,非常適合后續(xù)面板參數(shù)的估計(jì).
文獻(xiàn)[9]提出了基于圖論的超像素分割方法,文獻(xiàn)[10]提出了基于熵率的超像素分割方法.本文采用基于圖論的超像素分割以及最小生成樹的思想,目的是使同一區(qū)域內(nèi)的元素盡可能相似,不同區(qū)域的元素盡可能不相似.該算法把圖像中的每個(gè)像素點(diǎn)看作一個(gè)頂點(diǎn),頂點(diǎn)和頂點(diǎn)之間存在著一條邊e,每條邊上含有對應(yīng)的權(quán)值w(e),所有頂點(diǎn)的集合為V,將V分割成很多小區(qū)域C,這樣把區(qū)域C中的任意像素點(diǎn)E作為頂點(diǎn),每個(gè)區(qū)域都可以看作一個(gè)樹形結(jié)構(gòu).
對于子集C?V的內(nèi)部差異,就是該區(qū)域的最小生成樹(MST)上的最大權(quán)值.內(nèi)部差異計(jì)算如式(1)所示.
(1)
兩部分子集C1, C2?V之間的差異為連接這兩部分的最小權(quán)值邊.外部差異計(jì)算如式(2)所示.
(2)
如果C1和C2區(qū)域之間的外部差異大于C1和C2的任意一個(gè)內(nèi)部差異,則C1和C2為不同的部分,否則就認(rèn)定為同一個(gè)部分,判斷算法如式(3)所示.
(3)
1.2特征提取
對于每個(gè)超像素而言,需要計(jì)算一系列的特征值來捕捉每個(gè)超像素所蘊(yùn)含的視覺特征,同時(shí)需要對圖像閉合曲線邊界和折疊處進(jìn)行檢測.本文使用Law’s掩膜對圖像進(jìn)行多尺度的特征提取,其特征如圖2所示.
圖2 Law’s掩膜Fig.2 Law’s mask
圖2中前9個(gè)是Law’s特征掩膜,后6個(gè)是不同方向的邊緣檢測器,兩兩之間相隔30°.另外還需要統(tǒng)計(jì)超像素的形狀和位置特征.Law’s特征和超像素本身的形狀和位置特征相結(jié)合,構(gòu)成整個(gè)超像素的特征向量.
在超像素特征提取時(shí),使用Law’s掩膜的卷積輸出結(jié)果為Fn(x, y), n=1, 2, …, 15.定義每個(gè)超像素塊上的紋理能量如式(4)所示.
(4)
其中,當(dāng)k=2, 4時(shí)的Ei(n)分別代表了超像素紋理的能量和峰度特性,因此每個(gè)超像素有15×2=30個(gè)特征.采用Law’s掩膜對超像素在3個(gè)尺度上進(jìn)行卷積處理,并分別在每個(gè)尺度上進(jìn)行特征提取.在每個(gè)尺度上同時(shí)對周圍相鄰接的其他4個(gè)最大的超像素也進(jìn)行提取,這樣可以很好地包括超像素本身的特征以及和周圍超像素之間的關(guān)系.最后加上形狀和位置特征14個(gè).所以整個(gè)特征維數(shù)為15×2×3×(4+1)+14=464維.
由上述可知,提取的特征不僅包含了圖像的局部特征與全局特征,還包括了超像素之間的閉合曲線與折線的特征.
2.1面板參數(shù)α
圖3 面板參數(shù)α與di距離示意圖Fig.3 The illustration of plane parameter αand distance di
2.2PP-MRF模型
在建立模型時(shí),不僅需要考慮包含圖像的局部特征,同時(shí)需要兼顧面板之間的鄰接、共面、共線等關(guān)系.面板參數(shù)的定義如式(5)所示.
(5)
其中:αi和αj為超像素i和j的面板參數(shù);Xi={xi,si:si=1, 2, …,Si}為超像素中所有點(diǎn)的特征向量,Si為超像素i中包含的像素點(diǎn)個(gè)數(shù),xi, si為超像素i中的第si個(gè)像素的特征;Ri={Ri,si:si=1, 2, …,Si}和Rj={Rj,sj:sj=1, 2, …,Sj}為從攝像頭中心到超像素i和j上每一個(gè)像素點(diǎn)的單位向量的集合;vi從局部特征來描述面板參數(shù)的可信度;yij為2個(gè)超像素邊緣上所有點(diǎn)是閉合曲線邊界的概率;θ為需要整定的參數(shù),其參數(shù)值與面板所在的行數(shù)相關(guān).其中,f1(·)對面板參數(shù)α與像素的局部特征xi, si之間關(guān)系進(jìn)行建模,f2(·)主要在超像素i, j之間存在閉合曲線邊界的情況時(shí),由于閉合曲線的存在會(huì)對面板參數(shù)的值產(chǎn)生影響,此時(shí)需要對面板之間的關(guān)系進(jìn)行建模.f2(·)的定義如式(6)所示.
(6)
通過選用不同的函數(shù)h(·)和在不同超像素之間的像素對{si,sj}來分別對鄰接性、共面性和共線性這些重要的結(jié)構(gòu)關(guān)系進(jìn)行描述和捕捉.面板間的結(jié)構(gòu)關(guān)系如圖4所示.
(1) 鄰接性結(jié)構(gòu).在超像素i,j連接的邊界上分別選取si和sj,如圖4(a)所示,那么式(7)可以很好地對鄰接性給出概率模型.
hsi, sj(αi, αj, yij, Ri, Rj)=
(7)
(2) 共面性結(jié)構(gòu).在相鄰接的超像素上選取像素對s″i和s″j,如圖4(b)所示,如果相鄰接的超像素之間確實(shí)存在共面關(guān)系,那么在理論上面板參數(shù)αi與αj的值相等.共面性的關(guān)系函數(shù)如式(8)所示.
(8)
如果兩個(gè)超像素共面,那么在hs″i, s″j(·)=hs″i(·)hs″j(·)的條件下hs″i, s″j(·)的理論值為1.
(3) 共線性結(jié)構(gòu).超像素的共線性也是需要考慮的重要問題,如圖4(c)所示,如果在圖像平面上2個(gè)超像素共線,那么在實(shí)際的3D模型中,它們共線的概率就非常高.共線性關(guān)系函數(shù)如式(9)所示.
hsj(αi, αj, yij, Rj, sj)=
(9)
如果兩個(gè)面板共線的概率越大,那么在hsi, sj(·)=hsi(·)hsj(·)的條件下hsi, sj(·)的理論值越趨近1.可以利用項(xiàng)hsi, sj(·)找出圖像平面中2個(gè)超像素之間存在的所有長直線.
(a) 鄰接 (b) 共面 (c) 共線圖4 面板間的結(jié)構(gòu)關(guān)系Fig.4 The relationship between planes
3.1車載紅外圖像的PP-MRF模型三維重建改進(jìn)
(10)
水平線的概率如式(11)所示.
(11)
其中:k為斜率;u∈[0, 1]為比例系數(shù),其與長直線中心點(diǎn)所處的位置相關(guān).根據(jù)先驗(yàn)知識(shí),水平線出現(xiàn)在圖像整個(gè)高度的1/3~1/2處的概率較大.設(shè)共有N條長直線,則最終水平線l由式(12)確定,即最大概率所對應(yīng)的那條直線為水平線.
p(l)=max(p(li))i∈1, 2,…, N
(12)
擁有水平線的超像素面板若在上方即為天空,否則即為道路.在進(jìn)行車載紅外圖像三維重建時(shí),再結(jié)合相應(yīng)的深度信息,就可以確定道路和天空的相對位置和三維結(jié)構(gòu)特性.道路在結(jié)構(gòu)上近似于水平的展開,而天空的深度為無窮遠(yuǎn).
Sj=maxSt∈δ(i)
αi=αj
(13)
通過上述改進(jìn),增強(qiáng)了面板之間的相互依賴關(guān)系,便于在三維重建時(shí)更好地把握全局的三維效果,使得三維重建算法有更強(qiáng)的魯棒性,適應(yīng)于車載紅外圖像多變的道路場景.
3.2PP-MRF模型訓(xùn)練
由式(5)可知,θ為待學(xué)習(xí)參數(shù),由于在圖像的不同行上θ的含義是不一樣的,比如在行數(shù)比較低時(shí),參數(shù)θ所在行上的像素是道路的可能性比較大,在行數(shù)比較高時(shí)θ所在行上的像素是遠(yuǎn)處的天空和樹木的概率比較大,所以將θ細(xì)分為10種不同的參數(shù)值.θr∈464(r=1, 2, …, 10),每種參數(shù)分類都代表了圖像中對應(yīng)行的情況.
本文使用多條件學(xué)習(xí)(MCL)[11-12],把整個(gè)復(fù)雜的學(xué)習(xí)問題拆分成一系列的條件概率問題,簡化了學(xué)習(xí)的復(fù)雜性.將參數(shù)θ的估計(jì)轉(zhuǎn)為線性極小化的問題.所使用的訓(xùn)練圖像和對應(yīng)的深度圖像來自康奈爾大學(xué)計(jì)算機(jī)學(xué)院的官方網(wǎng)站, 400幅訓(xùn)練圖像的分辨率為2 272像素×1 704像素,對應(yīng)的深度圖像為55像素×305像素×4像素.第一維度是圖像的x軸坐標(biāo),第二維度是y軸坐標(biāo),第三維度是透視的深度,第四維度為真實(shí)的距離坐標(biāo),坐標(biāo)單位為m.
4.1算法步驟總結(jié)
本文的算法步驟總結(jié)如下:
(1) 獲取訓(xùn)練圖像和對應(yīng)的深度圖及攝像頭參數(shù);
(2) 對訓(xùn)練圖像進(jìn)行超像素分割;
(3) 從對應(yīng)的深度圖中計(jì)算相應(yīng)的面板參數(shù);
(4) 將超像素進(jìn)行特征提取,提取出一個(gè)464維的特征向量,使用對應(yīng)的特征向量和面板參數(shù)作為輸入?yún)?shù)進(jìn)行訓(xùn)練,整定PP-MRF的模型參數(shù)θ;
(5) 對于測試圖像,同樣進(jìn)行超像素分割,利用PP-MRF對超像素做面板參數(shù)估計(jì)與結(jié)構(gòu)分析.在結(jié)構(gòu)分析的基礎(chǔ)上尋找水平線,找出道路和天空對應(yīng)的超像素,確定道路平面和天空的相對位置;
(6) 對于較小超像素的面板參數(shù)做出修正.由面板參數(shù)計(jì)算每個(gè)面板上的像素深度值,最后再結(jié)合結(jié)構(gòu)信息進(jìn)行三維重建.
4.2超像素分割和圖像結(jié)構(gòu)的分析
根據(jù)上述基本原理,在對原圖像進(jìn)行超像素分割后,根據(jù)訓(xùn)練好的車載紅外PP-MRF模型,對面板的鄰接性、共線性、共面性結(jié)構(gòu)進(jìn)行分析,以及面板參數(shù)和對應(yīng)面板上每一像素點(diǎn)進(jìn)行深度估計(jì).根據(jù)以上分析結(jié)果對車載紅外圖像進(jìn)行三維重建.對分割后的每一部分超像素賦予一種隨機(jī)色彩,以便于觀察.紅外圖像的超像素分割效果及對比如圖5所示.
(a) 測試圖像
(b) 本文使用圖論的超像素分割
(c) 熵率的超像素分割圖5 超像素分割結(jié)果Fig.5 The result of superpixel segmentation
從圖5可以看出,基于熵率的超像素分割容易產(chǎn)生非常小的超像素區(qū)域.由于需要對超像素進(jìn)行面板參數(shù)分析,細(xì)小的超像素區(qū)域不利于面板參數(shù)的估計(jì).根據(jù)以上實(shí)驗(yàn)結(jié)果可知,基于圖論的超像素分割算法更加適用于車載紅外圖像的分割.
長直線一般意味著圖像含有較大的面板,把圖像中的長直線找到并且標(biāo)示出來,便于對圖像結(jié)構(gòu)的判斷.超像素中長直線標(biāo)示與水平線的確定結(jié)果如圖6所示.
(a) 長直線
(b) 水平線圖6 長直線及水平線標(biāo)示Fig.6 The long straight line and horizontal line
4.3面板的深度估計(jì)和三維重建
(a) 測試圖像
(b) 本文深度估計(jì)圖
(c) 理想情況的深度效果圖7 深度估計(jì)結(jié)果Fig.7 The results of depth estimation
本文算法和基于支持向量機(jī)(SVM)算法在車載紅外圖像深度估計(jì)上的結(jié)果比較如圖8所示.由圖8可知,本文所使用的基于PP-MRF模型的深度估計(jì)算法,在對大面板的深度估計(jì)上有很大的優(yōu)勢,面與面之間的深度值相對連續(xù),而SVM算法直接對像素和深度之間的關(guān)系進(jìn)行學(xué)習(xí),從而導(dǎo)致最后估計(jì)的深度值不連續(xù)而無法進(jìn)行三維重建,而且在道路和天空方面的深度估計(jì)結(jié)果上,相比較而言本文算法的結(jié)果更加正確.車載紅外圖像的三維重建效果如圖9所示.
(a) 測試圖像
(b) 本文算法
(c) SVM算法圖8 深度估計(jì)結(jié)果比較Fig.8 Comparison of depth estimation
(a) 測試圖像
(c) 三維重建視角2圖9 車載紅外圖像三維重建結(jié)果Fig.9 The three-dimensional reconstruction results of vehicular infrared images
本文借鑒可見光中的三維重建技術(shù),提出了一種基于超像素分割與PP-MRF模型相結(jié)合的車載紅外圖像三維重建技術(shù).利用超像素分割的過分割特性,將紅外圖像分成一系列的面板,然后再利用改進(jìn)的車載紅外PP-MRF模型估計(jì)每個(gè)面板的參數(shù)、深度信息和相應(yīng)的結(jié)構(gòu)特性.由于實(shí)驗(yàn)條件的限制,本文在使用多條件學(xué)習(xí)時(shí)所選用的訓(xùn)練樣本是由可見光圖像在YUV顏色空間里的Y通道的亮度值與對應(yīng)的深度圖所構(gòu)成,所以訓(xùn)練得到的PP-MRF模型在局部特征估計(jì)面板參數(shù)的準(zhǔn)確性會(huì)有所降低.實(shí)驗(yàn)結(jié)果表明,此方法在車載紅外圖像的三維重建方面能比較正確地對道路和天空等進(jìn)行重建,但是重建的精細(xì)度尚有待提高,后續(xù)將對車載紅外圖像的三維重建做進(jìn)一步的深入研究.
[1] KLAUS A, SORMANN M, KARNER K. Segment-based stereo matching using belief propagation and a self-adapting dissimilarity measure[C]//International Conference on Pattern Recognition. 2006:15-18.
[2] MLKI A, WATANABE M, WILES C. Geotensity: Combining motion and lighting for 3d surface reconstruction[J]. International Journal of Computer Vision, 2002,48(2): 75-90.
[3] PAYET N, TODOROVIC S. Scene shape from textures of objects[C] //The 24th IEEE Conference on Computer Vision and Pattern Recognition. 2011: 20-25.
[4] SAXENA A, SUN M, ANDREW Y N. Learning 3-D scene structure from a single still image[C]// IEEE 11th International Conference. 2007: 1-8.
[5] SAXENA A, SUN M, ANDREW Y N. Make 3D: Learning 3-D scene structure from a single still image[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(5): 820-840.
[6] SAXENA A, CHUNG S H, ANDREW Y N. Learning depth from single monocular images[C]//Neural Information Processing Systems. 2005: 1-8.
[7] 孫韶媛, 李琳娜, 趙海濤.采用KPCA和BP神經(jīng)網(wǎng)絡(luò)的單目車載紅外圖像深度估計(jì)[J].紅外與激光工程,2013, 42(9): 2348- 2352.
[8] 席林, 孫韶媛, 李琳娜, 等.基于SVM 模型的單目紅外圖像深度估計(jì)[J].激光與紅外, 2012, 42(11): 1311-1315.
[9] FELZENSZWALB P F, HUTTENLOCHER D P. Efficient graph-based image segmentation[J]. International Journal of Computer Vision,2004,59(2): 167-181.
[10] LIU M Y, TUZEL O, RAMALINGAM S, et al.Entropy rate superpixel segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recogniction 2011: 2097-2104.
[11] PAUL C, WANG X R, MCCALLUM A. Multi-conditional learning for joint probability models with latent variables[C]// In NIPS Workshop Advances Structured Learning Text and Speech Processing. 2006:192-201.
[12] MCCALLUM A, PAUL C, DRUCK G, et al. Multi-conditional learning: Generative/ discriminative training for clustering and classification[C]//National Conference on Artificial Intelligence.2006:433-439.
Three-Dimensional Reconstruction from Monocular Vehicular Infrared Images Based on PP-MRF Model
SHENZhen-yi1a,1b,SUNShao-yuan1a,1b,ZHAOHai-tao2
(a. College of Information Science and Technology; b. Engineering Research Center of Digitized Textile & Fashion Technology, Ministry of Education, 1. Donghua University, Shanghai 201620, China; 2. School of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China)
A three-dimensional reconstruction method of monocular vehicular infrared image, which combines super pixels segmentation and the plane parameter-Markov Random Field ( PP-MRF ) model, is proposed based on the characteristics of the vehicular infrared image. Firstly, the image is segmented into a series of small areas where the texture and brightness are similar, i.e. super-pixels. Then the PP-MRF model is trained, which can analyze the plane parameters and estimate the depth of each super-pixel of the testing image. The experimental results show that the proposed method can estimate the depth value of monocular vehicular infrared images and rebuild the 3D scene properly.
image processing; three-dimensional reconstruction; vehicular infrared image; plane parameter-Markov Random Field(PP-MRF); depth estimation
1671-0444(2015)03-0341-07
2014-11-26
國家自然科學(xué)基金資助項(xiàng)目(61072090,61205017,61375007)
沈振一(1990—),男,浙江嘉興人,碩士研究生,研究方向?yàn)榧t外圖像處理、機(jī)器學(xué)習(xí).E-mail: szy1900@qq.com
孫韶媛(聯(lián)系人),女,副教授,E-mail:shysun@dhu.edu.cn
TN 219
A