溫 靜,安國(guó)艷,梁宇棟
?
基于CNN特征提取和加權(quán)深度遷移的單目圖像深度估計(jì)
溫 靜,安國(guó)艷,梁宇棟
(山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006)
單目圖像的深度估計(jì)可以從相似圖像及其對(duì)應(yīng)的深度信息中獲得。然而,圖像匹配歧義和估計(jì)深度的不均勻性問題制約了這類算法的性能。為此,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征提取和加權(quán)深度遷移的單目圖像深度估計(jì)算法。首先提取CNN特征計(jì)算輸入圖像在數(shù)據(jù)集中的近鄰圖像;然后獲得各候選近鄰圖像和輸入圖像間的像素級(jí)稠密空間形變函數(shù);再將形變函數(shù)遷移至候選深度圖像集,同時(shí)引入基于SIFT的遷移權(quán)重SSW,并通過(guò)對(duì)加權(quán)遷移后的候選深度圖進(jìn)行優(yōu)化獲得最終的深度信息。實(shí)驗(yàn)結(jié)果表明,該方法顯著降低了估計(jì)深度圖的平均誤差,改善了深度估計(jì)的質(zhì)量。
單目深度估計(jì);卷積神經(jīng)網(wǎng)絡(luò)特征;加權(quán)深度遷移;深度優(yōu)化
單目圖像深度估計(jì)是計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)問題。然而,受到單個(gè)攝像頭的制約,想要通過(guò)空間立體幾何計(jì)算圖像中精確的深度信息是極其困難的。
現(xiàn)有的單目圖像深度估計(jì)算法大都是對(duì)1幅圖像上的所有像素點(diǎn)賦予一個(gè)相對(duì)深度關(guān)系,有基于線索、基于圖模型和基于采樣的深度估計(jì)方法?;诰€索的估計(jì)方法是利用各種單目深度線索進(jìn)行深度估計(jì),常用的深度線索包括:運(yùn)動(dòng)信息[1]、聚焦[2]、線性透視[3]、紋理、遮擋[4]、陰影[5]等。因?yàn)椴煌木€索只出現(xiàn)在特定的場(chǎng)景,且各線索與深度間的關(guān)系不是絕對(duì)的,所以存在場(chǎng)景適用性和深度估計(jì)失敗的問題?;趫D模型的估計(jì)方法[6]考慮到場(chǎng)景在不同深度處成像的陰影、紋理存在差異,以及彼此間的遮擋關(guān)系,采用圖模型來(lái)描述圖像特征和彼此間的相對(duì)位置關(guān)系,并通過(guò)監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練。該類算法的缺點(diǎn)是需要設(shè)計(jì)參數(shù)化的模型以及引入太多的場(chǎng)景假設(shè)。針對(duì)此問題,KONRAD等[7]提出基于采樣的估計(jì)方法,首先從RGBD (red green blue depth)數(shù)據(jù)庫(kù)中檢索出匹配的圖像,然后通過(guò)融合匹配圖像的深度得到測(cè)試圖像的深度。文獻(xiàn)[8]提出基于尺度不變特征變換(scale invariant feature transform, SIFT)流的深度遷移方法,在相似場(chǎng)景間通過(guò)SIFT流建立像素級(jí)稠密空間對(duì)應(yīng)關(guān)系,并將相似圖像對(duì)應(yīng)位置上的深度直接遷移到輸入圖像上。文獻(xiàn)[9-11]構(gòu)建能量方程對(duì)遷移后的深度進(jìn)行插值和平滑,進(jìn)一步改善了深度估計(jì)的質(zhì)量。但該方法沒有考慮同一對(duì)象深度的均勻性,使得同一目標(biāo)的深度關(guān)系不一致。此外,該類算法的核心步驟是從深度數(shù)據(jù)庫(kù)中進(jìn)行相似圖像的采樣,將直接影響最終深度融合的效果,目前其算法的采樣都是基于傳統(tǒng)的圖像全局特征之間的歐式距離,沒有考慮到輸入圖像中不同目標(biāo)的差異性和同一目標(biāo)的一致性。
本文在基于采樣的深度估計(jì)方法基礎(chǔ)上通過(guò)引入了卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)特征獲得更精確有效的相似圖像集,并利用基于SIFT的遷移權(quán)重(SIFT similar weight,SSW)改善深度遷移時(shí)的圖像深度均勻性問題。為此,本文提出了基于CNN特征提取和加權(quán)深度遷移的單目圖像深度估計(jì)算法。
基于CNN特征提取和加權(quán)深度遷移的單目圖像深度估計(jì)算法框架如圖1所示,主要分為KNN檢索、加權(quán)的SIFT流[8]深度遷移、深度圖融合和基于目標(biāo)函數(shù)的深度圖優(yōu)化4個(gè)模塊。對(duì)于一幅輸入圖像,①通過(guò)KNN檢索出對(duì)近鄰圖像和深度圖;②通過(guò)SIFT流計(jì)算輸入圖像和各近鄰圖像的形變函數(shù),將形變函數(shù)分別遷移到對(duì)應(yīng)的候選近鄰深度圖并加權(quán);③融合加權(quán)遷移后的候選深度圖作為輸入圖像的初始深度估計(jì);④建立目標(biāo)函數(shù)對(duì)加權(quán)遷移后的候選深度圖進(jìn)行優(yōu)化,便可得到最終的深度估計(jì)。
圖1 基于CNN特征提取和加權(quán)深度遷移的單目圖像深度估計(jì)算法框架
1.1.1 CNN特征提取
近年來(lái),基于深度模型的CNN[12]在計(jì)算機(jī)視覺領(lǐng)域取得了重要進(jìn)展,如物體識(shí)別和圖像分類等。從深度網(wǎng)絡(luò)模型提取的CNN特征在一定程度上可以彌補(bǔ)電子設(shè)備所捕獲的特征和視覺特征所感知到的語(yǔ)義信息之間的差異,如Gist[13]、HOG[14]、LBP[15]和SIFT[16]等特征,其用以表征豐富的語(yǔ)義信息。
本文提取CNN特征所采用的CNN模型如圖2所示,該網(wǎng)絡(luò)模型是一個(gè)在大量ImageNet數(shù)據(jù)集上訓(xùn)練得到的預(yù)訓(xùn)練模型,其包含13個(gè)卷積層和3個(gè)全連接層。卷積層和前2個(gè)全連接層使用RELU(rectified linear units)作為激勵(lì)函數(shù)。本文使用第2個(gè)全連接層的特征圖作為圖像的一種表示,因?yàn)樵撎卣骶哂休^好的性能。因此,對(duì)于給定圖像,首先將其放縮到224×224大小作為網(wǎng)絡(luò)的輸入;其次通過(guò)網(wǎng)絡(luò)逐層向前傳播;最后,從第2個(gè)全連接層提取得到的特征圖()大小為1×1×4096,將其編碼為1×4096大小的一維向量作為CNN的特征表示。
圖2 卷積神經(jīng)網(wǎng)絡(luò)模型
1.1.2 KNN檢索
對(duì)于1幅輸入圖像,首先采用1.1.1節(jié)中的方法提取其CNN特征,并計(jì)算其基于CNN特征余弦匹配在RGBD數(shù)據(jù)庫(kù)中的相似圖像集。假設(shè)為輸入圖像,為候選近鄰圖像,(·)為CNN特征,由式(1)計(jì)算輸入圖像和RGBD數(shù)據(jù)庫(kù)中每幅圖像的CNN特征的余弦距離;然后,對(duì)距離從大到小進(jìn)行排序;最后,將前個(gè)最大CNN余弦距離對(duì)應(yīng)的圖像作為的KNN (K-Nearest Neighbor),其對(duì)應(yīng)的深度作為的候選近鄰深度,即
利用SIFT流[8]建立圖像之間的稠密像素級(jí)形變函數(shù),將該形變函數(shù)遷移至候選近鄰深度圖像集,可作為輸入圖像估計(jì)的深度圖。然而,該方法是對(duì)某幅候選近鄰深度圖像的全局遷移,沒有考慮輸入圖像與候選近鄰圖像的空間關(guān)系局部差異性,使在同一目標(biāo)估計(jì)出的深度信息缺乏一致性。為此,本文提出基于SSW權(quán)重的深度遷移,用于抑制因匹配誤差造成的深度遷移誤差。
1.2.1 基于SIFT流的形變函數(shù)
通過(guò)計(jì)算候選近鄰圖像與輸入圖像之間的SIFT流[8],進(jìn)而構(gòu)建候選近鄰圖像到輸入圖像的形變函數(shù)F。
設(shè)為圖像中(,)處的像素,候選近鄰圖像到輸入圖像間的SIFT流為(),則形變函數(shù)F為候選圖像各像素疊加SIFT流的集合,即
1.2.2 遷移權(quán)重SSW
本文提取SIFT描述符計(jì)算輸入圖像和候選近鄰圖像的相似程度作為遷移權(quán)重,以區(qū)分各候選近鄰圖像對(duì)輸入圖像深度遷移的貢獻(xiàn)度??啥x該權(quán)重為基于SIFT的遷移權(quán)重SSW,并依據(jù)式(3)計(jì)算第幅候選近鄰圖像C到輸入圖像的遷移權(quán)重SSW,即
不同于將候選近鄰圖像對(duì)應(yīng)位置上的深度直接遷移到輸入圖像上,而是將深度乘以權(quán)重再進(jìn)行遷移。這樣,各候選近鄰圖像對(duì)深度遷移的貢獻(xiàn)不同,對(duì)其進(jìn)行加權(quán)后再進(jìn)行融合,可抑制因匹配誤差造成的深度遷移誤差。
1.2.3 基于SSW的深度遷移
本文將輸入圖像的候選近鄰深度圖進(jìn)行加權(quán)遷移后的各深度圖進(jìn)行融合,作為輸入圖像的初始深度估計(jì)?;诩僭O(shè)幅圖像與輸入圖像中的相似物體應(yīng)當(dāng)出現(xiàn)在同一位置上,例如道路一般出現(xiàn)在圖像的底部,本文采用相同位置上的深度值取中值的方式即中值濾波融合方法,即
本文將優(yōu)化后的最終深度圖表示為維的列矢量,其中為輸入圖像中的像素總數(shù)。本文構(gòu)建深度圖優(yōu)化目標(biāo)函數(shù)包括數(shù)據(jù)項(xiàng)E、空間平滑項(xiàng)E和先驗(yàn)項(xiàng)E3部分,即
數(shù)據(jù)項(xiàng)E為優(yōu)化后的深度圖與遷移后候選近鄰深度圖的關(guān)聯(lián)程度,其定義為
平滑項(xiàng)E為深度梯度延,方向上的平滑變化函數(shù),即
先驗(yàn)項(xiàng)E是為了防止深度像素匹配的過(guò)程中出現(xiàn)輸入圖像的某些像素點(diǎn),由于在近鄰圖像中匹配的像素點(diǎn)過(guò)少,從而無(wú)法進(jìn)行深度賦值的問題,采用式(11)增加一個(gè)基本的深度賦值,即
其中,p為所有候選近鄰深度圖的平均值。
式(6)需要一個(gè)無(wú)約束的、非線性的優(yōu)化,本文選用迭代重加權(quán)最小二乘法(iteratively reweighted least squares,IRLS)[17]對(duì)其最小化。IRLS是一種遞歸優(yōu)化算法,其用一個(gè)參數(shù)化的線性函數(shù)近似代替原始的目標(biāo)函數(shù),并通過(guò)加權(quán)最小二乘法求解。由于每次迭代的權(quán)值是不確定的,IRLS算法實(shí)際上是一種通過(guò)迭代獲取權(quán)值的方法。通過(guò)不斷迭代求解直到收斂,可以得到較精確的估計(jì)深度圖。
本文將式(5)的計(jì)算結(jié)果作為IRLS的迭代初值,對(duì)于每次迭代中最小二乘問題,使用預(yù)處理共軛梯度法(preconditioned conjugate gradient,PCG)[17]來(lái)進(jìn)行求解。對(duì)于1幅輸入圖像,通過(guò)KNN候選近鄰圖像的匹配、加權(quán)的SIFT流深度遷移、深度圖融合和基于目標(biāo)函數(shù)的深度圖優(yōu)化4個(gè)步驟的逐步求精,可以得到最終的深度估計(jì)。
為了驗(yàn)證本文算法的有效性,實(shí)驗(yàn)采用Make3D數(shù)據(jù)庫(kù)[18]和NYU Depth V2數(shù)據(jù)庫(kù)[19]。Make3D數(shù)據(jù)庫(kù)主要采集于室外場(chǎng)景,其包含400對(duì)“圖像+深度”訓(xùn)練數(shù)據(jù)和134對(duì)“圖像+深度”測(cè)試數(shù)據(jù),圖像和深度的分辨率均為1704×2272,其中深度通過(guò)激光測(cè)距儀獲得。NYU Depth V2數(shù)據(jù)庫(kù)主要通過(guò)Kinect采集于室內(nèi)場(chǎng)景,將其原始的1 449張圖像分為795對(duì)“圖像+深度”訓(xùn)練數(shù)據(jù)和654對(duì)“圖像+深度”測(cè)試數(shù)據(jù),圖像和深度的分辨率均為640×480。實(shí)驗(yàn)中IRLS迭代次數(shù)設(shè)置為10,候選近鄰總數(shù)設(shè)置為7。
實(shí)驗(yàn)1. 為驗(yàn)證CNN特征余弦距離匹配進(jìn)行KNN檢索的有效性,與文獻(xiàn)[10]算法中采用的Gist特征歐式距離匹配選取候選近鄰圖像的方法進(jìn)行對(duì)比。圖3和圖4為場(chǎng)景1和場(chǎng)景2分別基于Gist特征歐式匹配和CNN特征余弦匹配的KNN檢索結(jié)果,(a)為原圖,(b)~(h)為對(duì)應(yīng)場(chǎng)景基于KNN的檢索結(jié)果。從(b)到(h),與待檢索場(chǎng)景的相似度依次遞減。由圖可看出,通過(guò)提取CNN特征進(jìn)行相似圖像集匹配實(shí)驗(yàn)結(jié)果更符合人的語(yǔ)義信息,內(nèi)容相似的場(chǎng)景被成功檢索出來(lái)。
實(shí)驗(yàn)2.為驗(yàn)證CNN特征提取和加權(quán)深度遷移對(duì)深度估計(jì)的影響,將基于CNN特征提取的深度估計(jì)、本文算法與文獻(xiàn)[10]算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖5所示。
從圖5可以看出,CNN圖像匹配可較好地重構(gòu)出目標(biāo)場(chǎng)景中的對(duì)象,如圖5的第1行中,圖5(d)深度估計(jì)比圖5(c)更接近于真實(shí)深度;再如第2行中,圖5(c)深度估計(jì)錯(cuò)誤,而圖5(d)準(zhǔn)確地重構(gòu)出目標(biāo)對(duì)象。加權(quán)深度遷移更好地刻畫目標(biāo)圖像中同一對(duì)象的均勻性,如圖5的第3行中,圖5(d)背景中馬桶和洗漱臺(tái)的邊界不太明顯,而圖5(e)可較明顯區(qū)分出邊界信息,體現(xiàn)出了深度均勻性對(duì)深度估計(jì)的影響。
實(shí)驗(yàn)3. 為驗(yàn)證本文方法在不同單目圖像上的有效性,與文獻(xiàn)[10]算法進(jìn)行對(duì)比,圖6和圖7分別為Make3D數(shù)據(jù)庫(kù)和NYU Depth V2數(shù)據(jù)庫(kù)的部分實(shí)驗(yàn)結(jié)果。從圖中可以看出,通過(guò)本文方法估計(jì)的深度圖的整體輪廓與真實(shí)深度更接近,局部細(xì)節(jié)信息更準(zhǔn)確,更有利于進(jìn)行圖像的深度估計(jì)。
由圖6可知,在室外場(chǎng)景中,相對(duì)于文獻(xiàn)[10]算法,本文方法具有更加可信的深度估計(jì)結(jié)果,可以較好地保持原圖中目標(biāo)圖像的邊界,例如圖第1和第2行中的樹枝。同時(shí),本文方法可以較好地估計(jì)出場(chǎng)景的輪廓結(jié)構(gòu),例如圖第4行中的場(chǎng)景。此外,本文方法可以重構(gòu)出場(chǎng)景細(xì)微之處的深度信息,例如圖第3行中的右下角部分。
場(chǎng)景1 場(chǎng)景2 (a)(b)(c)(d)(e)(f)(g)(h)
場(chǎng)景1 場(chǎng)景2 (a)(b)(c)(d)(e)(f)(g)(h)
第1行 第2行 第3行 (a) 原圖(b) 真實(shí)深度(c) 文獻(xiàn)[10](d) CNN特征(e) 本文算法
第1行 第2行 第3行 第4行 (a) 原圖(b) 真實(shí)深度(c) 文獻(xiàn)[10](d) 本文算法
第1行 第2行 第3行 第4行 (a) 原圖(b) 真實(shí)深度(c) 文獻(xiàn)[10](d) 本文算法
由圖7可知,在室內(nèi)場(chǎng)景中,相對(duì)于文獻(xiàn)[10]算法,本文方法可以精細(xì)地重構(gòu)場(chǎng)景中的部分結(jié)構(gòu),例如圖7第1行中的電視和柜子、第2和4行中的餐桌以及第3行中的馬桶和洗漱臺(tái)。
實(shí)驗(yàn)4.表1和表2分別給出了本文算法和文獻(xiàn)[10]算法在Make3D數(shù)據(jù)庫(kù)和NYU Depth V2數(shù)據(jù)庫(kù)測(cè)試數(shù)據(jù)上的平均相對(duì)誤差RE、平均均方根誤差RMSE和平均對(duì)數(shù)誤差LE,其分別如式(12)~(14)所定義方法進(jìn)行計(jì)算,即
從表1和表2可看出,相比于文獻(xiàn)[10]算法,本文算法利用CNN特征提取明顯降低了估計(jì)深度圖的RE、RMSE和LE視覺效果方面也取得了較好的效果,如圖5(d)比(c)深度估計(jì)圖更加接近于真實(shí)深度,優(yōu)于文獻(xiàn)[10]算法基于Gist特征進(jìn)行KNN檢索最終估計(jì)的深度效果;其次,本文算法基于CNN特征提取和加權(quán)深度遷移在平均誤差方面相比于僅引入CNN特征匹配略有降低,但視覺效果上有明顯提升,如圖5(e)與(d)相比,加權(quán)深度遷移能刻畫出場(chǎng)景中同一對(duì)象的深度均勻性,較明顯區(qū)分出不同對(duì)象之間的邊界信息,使估計(jì)深度圖更接近于真實(shí)深度,又如圖6和圖7,本文算法明顯提升了深度估計(jì)效果。
表1 在Make3D數(shù)據(jù)庫(kù)上的比較結(jié)果
表2 在NYU Depth V2數(shù)據(jù)庫(kù)上的比較結(jié)果
本文通過(guò)引入CNN特征計(jì)算輸入圖像的相似圖像集,將相似圖像對(duì)輸入圖像的形變函數(shù)遷移至相似候選深度圖像并加權(quán),以獲取最終的深度估計(jì)。在實(shí)驗(yàn)結(jié)果分析中,無(wú)論是在定性的視覺對(duì)比,還是定量的性能對(duì)比,本文算法都獲得了較優(yōu)的結(jié)果,顯著降低了估計(jì)深度的平均誤差,改善了深度估計(jì)的質(zhì)量。
[1] ROBERTS R, SINHA S N, SZELISKI R, et al. Structure from motion for scenes with large duplicate structures [C]//The 24th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2011. New York: IEEE Press, 2011: 3137-3144.
[2] SUWAJANAKORN S, HERNANDEZ C, SEITZ S M. Depth from focus with your mobile phone [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 3497-3506.
[3] CHENG C C, LI C T, HUANG P S, et al. A block-based 2D-to-3D conversion system with bilateral filter [C]// 2009 Digest of Technical Papers International Conference on Consumer Electronics. New York: IEEE Press, 2009: 1-2.
[4] CHANG Y L, FANG C Y, DING L F, et al. Depth map generation for 2D-to-3D conversion by short-term motion assisted color segmentation [C]//2007 IEEE International Conference on Multimedia and Expo. New York: IEEE Press, 2007: 1958-1961.
[5] ZHANG R, TSAI P S, CRYER J E, et al. Shape-from-shading: A survey [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21(8): 690-706.
[6] SAXENA A, SUNG H. CHUNG A Y N. 3-D depth reconstruction from a single still image [J]. International Journal of Computer Vision, 2008, 76(1): 53-69.
[7] KONRAD J, WANG M, ISHWAR P. 2D-to-3D image conversion by learning depth from examples [C]//2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2012: 16-22.
[8] LIU C, YUEN J, TORRALBA A. SIFT flow: Dense correspondence across scenes and its applications [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 978-994.
[9] KARSCH K, LIU C, KANG S B. Depth extraction from video using non-parametric sampling [C]//The 12th European Conference on Computer Vision. Heidelberg: Springer, 2012: 775-788.
[10] KARSCH K, LIU C, KANG S B. Depth transfer: Depth extraction from video using non-parametric sampling [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(11): 2144-2158.
[11] 朱堯, 喻秋. 基于非參數(shù)采樣的單幅圖像深度估計(jì)[J]. 計(jì)算機(jī)應(yīng)用研究, 2017, 34(6): 1876-1880.
[12] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]//NIPS’12 Proceedings of the 25th International Conference on Neural Information Processing Systems. New York: IEEE Press, 2012: 1097-1105.
[13] OLIVA A, TORRALBA A. Modeling the shape of the scene: A holistic representation of the spatial envelope [J]. International Journal of Computer Vision, 2001, 42(3): 145-175.
[14] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPE’05). New York: IEEE Press, 2005: 886-893.
[15] OJALA T, PIETIK?INEN M, M?ENP?? T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.
[16] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[17] LIU C. Beyond pixels: Exploring new representations and applications for motion analysis [M]. Cambridge: Massachusetts Institute of Technology, 2009: 153-164.
[18] SAXENA A, SUN M, NG A Y. Make3D: Learning 3D scene structure from a single still image [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(5): 824-840.
[19] SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segmentation and support inference from rgbd images [C]//The 12th European Conference on Computer Vision. Heidelberg: Springer, 2012: 746-760.
Monocular Image Depth Estimation Based on CNN Features Extraction and Weighted Transfer Learning
WEN Jing, AN Guo-yan, LIANG Yu-dong
(School of Computer and Information Technology, Shanxi University, Taiyuan Shanxi 030006, China)
The depth estimation of monocular image can be obtained from the similar image and its depth information. However, the performance of such an algorithm is limited by image matching ambiguity and uneven depth mapping. This paper proposes a monocular depth estimation algorithm based on convolution neural network (CNN) features extraction and weighted transfer learning. Firstly, CNN features are extracted to collect the neighboring image gallery of the input image. Secondly, pixel-wise dense spatial wrapping functions calculated between the input image and all candidate images are transferred to the candidate depth maps. In addition, the authors have introduced the transferred weight SSW based on SIFT. The final depth image could be obtained by optimizing the integrated weighted transferred candidate depth maps. The experimental results demonstrate that the proposed method can significantly reduce the average error and improve the quality of the depth estimation.
monocular depth estimation;convolution neural network features; weighted depth transfer; depth optimization
TP 391
10.11996/JG.j.2095-302X.2019020248
A
2095-302X(2019)02-0248-08
2018-09-07;
2018-09-12
國(guó)家自然科學(xué)基金項(xiàng)目(61703252);山西省高等學(xué)校科技創(chuàng)新項(xiàng)目(2015108)
溫 靜(1982-),女,山西晉中人,副教授,博士,碩士生導(dǎo)師。主要研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺等。E-mail:wjing@sxu.edu.cn