馬 利,曹一銘,牛 斌
(遼寧大學(xué) 信息學(xué)院,沈陽110036)
單幅圖像的深度估計是計算機(jī)視覺中一個重要的問題.在語義分割、3D模型重構(gòu)、自動駕駛等方面都有著極其重要的應(yīng)用.在一般情況下,對于圖像深度信息的估計都是通過使用圖像內(nèi)部的紋理、邊緣等特征實現(xiàn)的.由于單幅二維圖像中缺少三維幾何信息,因此單幅圖像的深度估計存在其自身的復(fù)雜性.近年來,隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)被越來越多地應(yīng)用于圖像深度估計,并且取得了令人矚目的成果.現(xiàn)有的多數(shù)方法需要利用高分辨率真實圖像深度圖信息對神經(jīng)網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練,而獲取真實深度圖信息通常是十分困難的.盡管已有支持深度信息測量的傳感器應(yīng)用于獲取真實圖像深度圖信息,但是傳感器本身存在自身的誤差,并且測量精度易受到噪聲的影響.因此,最近出現(xiàn)了很多基于無監(jiān)督學(xué)習(xí)的單幅圖像深度估計方法,這些方法直接讓神經(jīng)網(wǎng)絡(luò)從圖像或者視頻中學(xué)習(xí)深度信息,而不再需要真實圖像深度圖信息進(jìn)行監(jiān)督.
Zhang等[1]提出應(yīng)用殘差稠密網(wǎng)絡(luò)進(jìn)行超分辨率重構(gòu),通過該網(wǎng)絡(luò)能夠從一系列低分辨率的圖像中更好地提取局部信息,進(jìn)而提高了高分辨率圖像的重構(gòu)質(zhì)量.受其啟示,為了更好地提取單幅圖像的邊緣等局部信息,從而提高深度信息估計的準(zhǔn)確度,本文提出了一種應(yīng)用殘差稠密網(wǎng)絡(luò)的單幅圖像深度估計網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型以編碼器—解碼器結(jié)構(gòu)為基礎(chǔ),并引入與DispNet[2]類似的從編碼器各模塊到解碼器各模塊的跳躍連接(Skip connection)[3],使前級的高分辨率信息可以得到充分利用;同時通過引入殘差稠密網(wǎng)絡(luò)模塊,充分利用各網(wǎng)絡(luò)層提取的特征信息,進(jìn)而提取出更精細(xì)的圖像局部特征,這使網(wǎng)絡(luò)輸出的深度圖表現(xiàn)出更細(xì)致的物體輪廓信息.除此之外,該網(wǎng)絡(luò)模型在訓(xùn)練的時候通過使用一系列立體圖像對實現(xiàn)神經(jīng)網(wǎng)絡(luò)的無監(jiān)督訓(xùn)練.在訓(xùn)練結(jié)束之后,將單幅圖像輸入到網(wǎng)絡(luò)中,得到相應(yīng)視差圖,再根據(jù)視差圖與深度圖的幾何關(guān)系便可以得到輸入圖像的深度估計.
圖像的深度估計對于從2D圖像中理解3D信息起著至關(guān)重要的作用.早期的圖像深度估計方法都是基于幾何特征或者手工特征.例如,Saxena等[4]使用多尺度的馬爾可夫隨機(jī)場來提取圖像的全局特征與局部特征,以此實現(xiàn)圖像深度估計.Liu等[5]將圖像建模為超像素,再通過離散-連續(xù)優(yōu)化的方式得到深度圖.但是,這種依靠幾何與手工特征所得到的深度圖,大多因為缺少細(xì)節(jié)信息而較為模糊,而細(xì)節(jié)信息對于計算機(jī)視覺的許多應(yīng)用都是十分必要的.
近年來,神經(jīng)網(wǎng)絡(luò)被應(yīng)用于圖像的深度估計,并取得了十分優(yōu)異的結(jié)果.越來越多的基于神經(jīng)網(wǎng)絡(luò)的深度估計方法被提出.Eigen等[6]最先提出應(yīng)用多尺度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像深度估計的方法,該方法使用不同尺度的網(wǎng)絡(luò)分別提取圖像的全局信息和局部信息,最后再將兩者進(jìn)行融合得到高分辨率的深度圖.Liu等[7]將卷積神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場融合以求取圖像的深度圖.Li等[8]使用雙流網(wǎng)絡(luò)分別提取深度信息和梯度信息最后將兩者進(jìn)行融合的方法來進(jìn)行深度估計.Laina等[9]通過將殘差網(wǎng)絡(luò)引入到全卷積網(wǎng)絡(luò)結(jié)構(gòu)來實現(xiàn)圖像的深度估計.與早期的方法相比,這些方法的結(jié)果有了明顯改善.但是這些方法都需要圖像的真實深度圖來訓(xùn)練網(wǎng)絡(luò),由于真實深度圖提取困難,從而增加了實現(xiàn)難度.
為了避免由于求取真實深度圖困難對深度估計的限制,近年來學(xué)者們提出了基于無監(jiān)督的深度估計方法.例如,Garg等[10]通過使用雙目立體圖像對實現(xiàn)無監(jiān)督的圖像深度估計.該方法通過用左視點圖像生成視差圖,再用視差圖與右視點圖像合成左視點圖像的預(yù)測圖像,通過最小化預(yù)測圖像與真實圖像之間的差距以實現(xiàn)網(wǎng)絡(luò)的訓(xùn)練,最終根據(jù)視差圖生成深度圖.而Godard等[11]在此基礎(chǔ)上進(jìn)行改進(jìn),提出左右圖像一致性的訓(xùn)練方式,同時引入了效果更好的損失函數(shù),進(jìn)一步改善了深度估計的結(jié)果.Zhou等[12]通過使用視頻圖像中相鄰時間點的圖像間的內(nèi)部約束實現(xiàn)無監(jiān)督的深度估計,而Zhan等[13]通過將與文獻(xiàn)[11]相似的方法應(yīng)用于視頻圖像來實現(xiàn)對于深度信息的提取.
受到Zhang等[1]提出的應(yīng)用于超分辨率的網(wǎng)絡(luò)模型的啟發(fā),并通過結(jié)合單幅圖像深度估計的具體情況,本文提出了應(yīng)用殘差稠密模塊的網(wǎng)絡(luò)模型.受到文獻(xiàn)[10,11,13]利用雙目攝像機(jī)對于同一場景同時拍攝所得到的立體圖像對來訓(xùn)練網(wǎng)絡(luò)的思想所啟發(fā),本文使用一系列立體圖像對來對殘差稠密網(wǎng)絡(luò)模型進(jìn)行無監(jiān)督訓(xùn)練,實現(xiàn)圖像的深度估計.本文所提出的網(wǎng)絡(luò)應(yīng)用于KITTI駕駛數(shù)據(jù)集[14],與現(xiàn)有的方法相比較,得到了更高的準(zhǔn)確率和更小的誤差值,而且本文所得到的深度圖具有更細(xì)致的物體邊緣信息.
本文通過引入殘差稠密模塊,提出了一種新的應(yīng)用于單幅圖像深度估計的神經(jīng)網(wǎng)絡(luò)模型,并通過使用一系列的立體圖像對來對網(wǎng)絡(luò)進(jìn)行無監(jiān)督訓(xùn)練.本章將對該方法的各個部分進(jìn)行詳細(xì)介紹.
神經(jīng)網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)能夠提取出的特征信息的級別也會變得越高,因此神經(jīng)網(wǎng)絡(luò)的層數(shù)是影響其效果的重要因素.但是隨著網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)同時會出現(xiàn)退化問題.為了解決神經(jīng)網(wǎng)絡(luò)的退化問題,He等[15]提出了殘差網(wǎng)絡(luò)基元,如圖1(a)所示.該基元通過使用恒等映射,將模塊的輸入直接引入到輸出的前級,以此解決了神經(jīng)網(wǎng)絡(luò)的退化問題,同時使得網(wǎng)絡(luò)的參數(shù)更容易訓(xùn)練.Tong等[16]提出了一種應(yīng)用于超分辨率的稠密網(wǎng)絡(luò)基元,其基本結(jié)構(gòu)如圖1(b)所示.該基元通過將每一層的輸入連接到其余各層的方式,充分利用了各網(wǎng)絡(luò)層提取的特征信息,但是這種方法存在訓(xùn)練困難的缺點.
圖1 殘差網(wǎng)絡(luò)基元和稠密網(wǎng)絡(luò)基元Fig.1 Residual network block and dense network block
本文所使用的殘差稠密基元RDB(Residual Dense Block)是將殘差網(wǎng)絡(luò)基元與稠密網(wǎng)絡(luò)基元相融合,在稠密網(wǎng)絡(luò)基元的基礎(chǔ)上添加殘差網(wǎng)絡(luò)基元的恒等映射,再經(jīng)過一些改進(jìn)而得到的,其具體結(jié)構(gòu)如圖2所示.
圖2 殘差稠密基元Fig.2 Residual dense block
本文使用的殘差稠密基元分為四個卷積層,其中第一層使用1×1的卷積核,第二層為3×3的卷積核,第三層為1×1的卷積核,第四層為1×1的卷積核,前三層的stride為1,第四層的stride通過輸入設(shè)置.四層之間使用稠密網(wǎng)絡(luò)進(jìn)行連接.同時,各個卷積層選用Elu(exponential linear units)[17]作為激活函數(shù),并在輸出之前,引入殘差基元的恒等映射,將前四級的輸出與基元輸入進(jìn)行融合,之后再經(jīng)過Elu函數(shù),得到最終的輸出.這里,通過融合殘差網(wǎng)絡(luò)基元與稠密網(wǎng)絡(luò)基元得到的殘差稠密基元,不僅可以避免神經(jīng)網(wǎng)絡(luò)的退化問題,而且還使各層網(wǎng)絡(luò)提取的特征得到了充分的利用,這使該網(wǎng)絡(luò)模塊表現(xiàn)出更好的局部特征提取特性,同時還解決了稠密網(wǎng)絡(luò)難以訓(xùn)練的問題.
將若干個殘差稠密基元首尾相接,便可以得到本文所使用的殘差稠密單元RDU(Residual Dense Unit),如圖3所示.其中的每一個RDB都與上文提到的結(jié)構(gòu)相同,但是前n-1個RDB的stride為1,第n個RDB的stride為2.
圖3 殘差稠密單元RDU的結(jié)構(gòu)Fig.3 Structure of residual dense unit
通過多級殘差稠密基元的融合,網(wǎng)絡(luò)模型可以提取出圖像中更高級別的信息,使各級模塊提取出的信息得到更充分地利用,并提取出更細(xì)致的圖像局部特征.
相較于監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)不需要經(jīng)過標(biāo)定的訓(xùn)練數(shù)據(jù)集,在深度估計問題中,這意味著不需要真實深度信息,極大地降低了對于數(shù)據(jù)集的要求.本文所使用的無監(jiān)督訓(xùn)練方法,只需要由雙目攝像機(jī)提供的一系列立體圖像對,以及攝像機(jī)的基準(zhǔn)距離和焦距便可以實現(xiàn)對于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練.本文對于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式與文獻(xiàn)[11]類似,其主要思想為:
Dp=b·f/disp
(1)
圖4 無監(jiān)督訓(xùn)練基本思想Fig.4 Idea of unsupervised
其中,Dp為神經(jīng)網(wǎng)絡(luò)輸入圖像的深度估計;b為左右兩個攝像頭之間的基準(zhǔn)距離;f為攝像頭的焦距;disp為相應(yīng)視差圖.
本文使用編碼器解碼器(encoder-decoder)結(jié)構(gòu),并在普通的編碼器解碼器結(jié)構(gòu)之上,添加了從編碼器模塊到對應(yīng)解碼器模塊的跳躍連接,使解碼器可以獲得更高分辨率的圖像信息.具體網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示.
圖5 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network structure
本文的神經(jīng)網(wǎng)絡(luò)可以分為三部分:
1)編碼器部分:這部分又分為兩個子部分:全局特征提取模塊(Conv1+Max Pool)和局部特征提取模塊(Residual Dense Module 1-4).全局特征提取模塊由一個7×7的卷積層和一個最大池化層組成,局部特征提取模塊由四個RDM(Residual Dense Module)組成,其中RDM是由n個RDU首尾相接所組成的模塊.編碼器首先使用全局特征提取模塊對整幅圖像信息進(jìn)行全局提取,再通過局部特征提取模塊對圖像的細(xì)節(jié)信息進(jìn)一步提取,以獲得更全面的圖像信息.
2)解碼器部分:這部分由6個解碼器子模塊DSM(Decoder Submodule)構(gòu)成,每個子模塊都包含一個上卷積層和一個卷積層,其中上卷積層的輸入為上一層的輸出,卷積層的輸入為相應(yīng)上卷積層的輸出與跳躍連接的合成.同時DSM4—DSM1會分別經(jīng)過上采樣輸出視差圖disp4-disp1.解碼器部分通過各個解碼器模塊將高層信息降維,同時恢復(fù)圖像信息的分辨率,最終獲得disp4—disp1四個不同分辨率的視差圖.
3)跳躍連接部分:分別從編碼器的各層輸出直接跳躍連接到解碼器的各對應(yīng)卷積層,具體的連接方式可參見圖5.該部分通過跳躍連接,直接將編碼器各模塊所得到的信息引入到解碼器各個模塊,使解碼器模塊可以得到更高分辨率的圖像信息,同時還可以使前級編碼器信息得到充分利用.
該網(wǎng)絡(luò)最終輸出了由不同分辨率的視差圖disp1-4構(gòu)成的視差金字塔,其中視差圖disp1-4都用于損失的計算,使用的損失函數(shù)在3.4節(jié)中詳細(xì)介紹.而在訓(xùn)練結(jié)束之后,使用disp1生成輸入圖像的深度圖.本文網(wǎng)絡(luò)模型的具體參數(shù)如表1所示.其中conv和iconv為普通卷積操作;Pool為最大池化;RDM代表殘差稠密模塊,其具體結(jié)構(gòu)如圖2、圖3所示;RDU×n表示連續(xù)的n個RDU首尾相連;DSM代表解碼器子模塊(Decoder Submodule);upconv為上卷積操作;upsample為上采樣操作.
本文方法所使用的損失函數(shù)Ltotal為disp1到disp4的總和,即:
Ltotal=Ldisp1+Ldisp2+Ldisp3+Ldisp4
(2)
而每一個Ldisp由三部分組成:
Ldisp=w1Lm+w2Ls+w3Lc
(3)
其中,Lm是匹配損失,Ls是平滑損失,Lc是一致性損失,w1,w2,w3分別為三者的權(quán)重,其具體的設(shè)置在4.1中說明.因為本文的網(wǎng)絡(luò)模型輸出左右雙視點圖像的預(yù)測圖像,之后再與原視點圖像進(jìn)行比較,所以會存在左右雙視點的損失,也就是說,三種損失都由左視點損失與右視點損失兩部分構(gòu)成,即:
(4)
下面分別給出三種損失的計算公式:
(5)
(6)
其中,N為像素總數(shù),α為權(quán)重系數(shù).SSIM反映圖像的結(jié)構(gòu)相似性,L1反映圖像的差異性,本文方法中對于結(jié)構(gòu)相似性的要求更高,因此將SSIM項的權(quán)值設(shè)置的較大.經(jīng)過試驗,在α為0.85時得到了較好的效果,因此本文最終將α設(shè)置為此值.
11月23日,國務(wù)院印發(fā)了《關(guān)于支持自由貿(mào)易試驗區(qū)深化改革創(chuàng)新若干措施的通知》(以下簡稱《若干措施》)?!度舾纱胧穱@自貿(mào)試驗區(qū)建設(shè)發(fā)展需要,在營造優(yōu)良投資環(huán)境、提升貿(mào)易便利化水平、推動金融創(chuàng)新服務(wù)實體經(jīng)濟(jì)、推進(jìn)人力資源領(lǐng)域先行先試等方面,加大改革授權(quán),加大開放力度,給予政策扶持,體現(xiàn)特色定位,提出了53項切口小、見效快的工作措施,著力打通有關(guān)工作的堵點、難點,推動自貿(mào)試驗區(qū)更好發(fā)揮示范引領(lǐng)作用。
平滑損失:該損失用于平滑視差圖displ,r的梯度,以減少深度圖的不連續(xù).具體計算方法如公式(7)、公式(8)所示.
表1 網(wǎng)絡(luò)模型具體參數(shù)
Table 1 Network model parameters
LayernameInputModelOutputsizeConv1Inputimage7×7,64,stride=2256×128×64Pool1Conv13×3,maxpool,stride=2128×64×64RDM1Pool1RDU×364×32×256RDM2RDM1RDU×432×16×512RDM3RDM2RDU×616×8×1024RDM4RDM3RDU×38×4×2048DSM6upconv6RDM43×3,512,stride=1iconv6RDM3+upconv63×3,512,stride=116×8×512DSM5upconv5iconv63×3,256,stride=1iconv5RDM2+upconv53×3,256,stride=132×16×256DSM4upconv4iconv53×3,128,stride=1iconv4RDM1+upconv43×3,128,stride=1disp4iconv43×3,2,stride=1udisp4disp4upsample64×32×12864×32×2128×64×2DSM3upconv3iconv43×3,64,stride=1iconv3Pool1+upconv3+udisp43×3,64,stride=1disp3iconv33×3,2,stride=1udisp3disp3upsample128×64×64128×64×2256×128×2DSM2upconv2iconv33×3,32,stride=1iconv2Conv1+upconv2+udisp33×3,32,stride=1disp2iconv23×3,2,stride=1udisp2disp2upsample256×128×32256×128×2512×256×2DSM1upconv1iconv23×3,16,stride=1iconv1upconv1+udisp23×3,16,stride=1disp1iconv13×3,2,stride=1512×256×16512×256×2?
(7)
(8)
一致性損失:該損失用于描述網(wǎng)絡(luò)輸出的左右兩幅視差圖之間的一致性,目的是減小左視差圖與右視差圖的對應(yīng)像素之間的差距.其計算方法如公式(9)、公式(10)所示.
(9)
(10)
總的來說,本文通過對基于殘差稠密模塊的編解碼器網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到輸入圖像的視差金字塔,再通過使用公式(1)計算出對應(yīng)的深度圖,即本文最終要得到的對于輸入單幅圖像的深度估計.需要說明的是,本文的方法只有在訓(xùn)練的時候,才需要使用左右雙視點圖像,而在訓(xùn)練結(jié)束后,只需要輸入單幅圖像即可得到最終的深度估計.
該部分將對本文的實驗進(jìn)行詳細(xì)地說明,并在KITTI數(shù)據(jù)集上與幾種具有代表性的圖像深度估計方法進(jìn)行比較,其中既包含Eigen等[6]、Liu等[7]的監(jiān)督學(xué)習(xí)方法,又包含了Godard等[11]和Zhan等[13]的無監(jiān)督學(xué)習(xí)方法,分別在誤差和準(zhǔn)確率以及視覺深度效果上驗證了本文方法的可行性.
本文的實驗平臺為:至強(qiáng)4核E3處理器、4片NVIDIA GTX 1080 顯卡、32G顯存的主機(jī).神經(jīng)網(wǎng)絡(luò)使用Tensorflow實現(xiàn),包含9267萬參數(shù),訓(xùn)練時間約為46小時,輸入圖像的大小為512×256.
表2 在Eigen Split集上的結(jié)果
Table 2 Results on the Eigen Split set
方 法是否監(jiān)督數(shù)據(jù)集AbsRelSqRelRMSERMSElogδ<1.25δ<1.252δ<1.253最大深度值:80mTrainsetmean否KITTI0.3614.8268.1020.3770.6380.8040.894Eigen等[6]Fine是KITTI0.2031.5486.3070.2820.7020.8900.958Liu等[7]是KITTI0.2011.5846.4710.2730.6800.8980.967Zhou等[12]否KITTI0.2081.7686.8560.2830.6780.8850.957Garg等[10]否KITTI0.1521.2265.8490.2460.7840.9210.967Godard等[11]否KITTI0.1481.3445.9270.2470.8030.9220.964Zhan等[13]否KITTI0.1351.1325.5850.2290.8200.9330.971Ours否KITTI0.1040.8434.7970.2030.8650.9440.974最大深度值:50mZhou等[12]否KITTI0.2011.3915.1810.2640.6960.9000.966Garg等[10]否KITTI0.1691.0805.1040.2730.7400.9040.962Godard等[11]否KITTI0.1400.9764.4710.2320.8180.9310.969Zhan等[13]否KITTI0.1280.8154.2040.2160.8350.9410.975Ours否KITTI0.0980.6223.6130.1910.8770.9500.977
本文實驗的訓(xùn)練和測試都基于廣泛使用的KITTI數(shù)據(jù)集.該數(shù)據(jù)集包含從61個場景中得到的42382對經(jīng)過修正的圖像,其原始的圖像分辨率為1242×375.本文所使用的分辨率為512×256的圖像由原始圖像處理得到.
Eigen Split:該數(shù)據(jù)集由Eigen等[6]提出.Eigen等從原始KITTI數(shù)據(jù)集的29個場景中選擇697幅圖像作為測試集.在余下的32個場景中的23488幅圖像中,選取22600幅圖像用于訓(xùn)練,其余的圖像用于評估.為了能夠與使用該數(shù)據(jù)集的大部分方法進(jìn)行比較,本文在該數(shù)據(jù)集上的測試使用文獻(xiàn)[6]提出的裁剪方法,同時使用輸入圖像的分辨率進(jìn)行評估.評估的指標(biāo)使用廣泛應(yīng)用的平均相對誤差A(yù)bs Rel、平方根相對誤差Sq Rel、線性均方根誤差RMSE、對數(shù)均方根誤差RMSElog及準(zhǔn)確率δ.其具體計算公式參見文獻(xiàn)[6].
在評估時,平均相對誤差A(yù)bs Rel、平方根相對誤差Sq Rel、線性均方根誤差RMSE、對數(shù)均方根誤差RMSElog的值越小表示結(jié)果越好,準(zhǔn)確率δ的值越大表示結(jié)果越好.本文與幾種有代表性的方法的實驗數(shù)據(jù)評估結(jié)果如表2所示,其中所有方法的訓(xùn)練集都是KITTI數(shù)據(jù)集,Eigen等[6]和Liu等[7]是有監(jiān)督的方法其余方法都是無監(jiān)督的.為了驗證不同景深情況下的算法性能,表中上半部分是各個方法在最大深度值設(shè)置為80米時所得到的數(shù)據(jù),下半部分是最大深度值設(shè)置為50米時所得到的數(shù)據(jù).對于在Eigen Split中比較有代表性的幾幅圖像的深度估計結(jié)果如圖6所示.
從表2可以看出,在與幾種代表性方法的比較中,本文的方法在不同景深情況下,無論是在誤差方面還是在準(zhǔn)確率方面都得到了較好的結(jié)果.在圖6中可以發(fā)現(xiàn),盡管Eigen等[6]和Liu等[7]是基于監(jiān)督學(xué)習(xí)的方法,但是他們的實驗結(jié)果只是給出了輸入圖像的大致深度圖,圖像中物體的深度估計是十分模糊的,而本文方法所得到的結(jié)果更為細(xì)致.與同為基于無監(jiān)督訓(xùn)練的Godard等[11]以及Zhan等[13]的結(jié)果相比較,盡管三種方法在所選取的幾幅圖像上對于各個物體的識別情況大致相同,但是本文所提出的方法給出了更為細(xì)致的物體邊緣信息.例如在圖6中,第一幅圖像中右下角的護(hù)欄、中間的樹木等,本文的實驗結(jié)果給出了比Godard等[11]以及Zhan等[13]的結(jié)果更為清晰的邊緣信息;第二幅測試圖像中對于位于中間的人的頭部、左側(cè)復(fù)雜背景的信號燈等部分,本文的實驗結(jié)果都給出了更為清晰的輪廓,而在Godard等[11]和Zhan等[13]的結(jié)果中,幾乎沒有體現(xiàn);第三幅圖像中對于右下角的電動車以及靠左上方的樹干及樹葉邊緣,本文也都給出了更為清晰的輪廓.
與Eigen等[6]以及Liu等[7]的方法相比較,本文的方法采用了更深層次的網(wǎng)絡(luò),可以提取出更高層次的圖像信息,后級網(wǎng)絡(luò),不僅使前級信息得到更充分的利用而且使后級網(wǎng)絡(luò)得到了更高分辨率的圖像信息.最終使本文的網(wǎng)絡(luò)既能更好地識別圖像中的物體信息又能顯示出更高的分辨率.
圖6 在Eigen Split上的實驗結(jié)果對比Fig.6 Comparison of experimental results on Eigen Split
與Godard等[11]以及Zhan等[13]的方法相比較,盡管三種方法都采用了相似的無監(jiān)督訓(xùn)練方式,但是本文引入的殘差稠密模塊,通過模塊內(nèi)部的多級信息的充分利用,更好地提取出圖像的局部特征信息,使本文的方法在深度估計中可以得到更細(xì)致的物體輪廓信息.
綜上所述,本文所提出的方法在誤差和準(zhǔn)確率方面表現(xiàn)出了較好的數(shù)據(jù)結(jié)果,而且可以得到更為細(xì)致的物體輪廓信息,提高了單幅圖像深度估計的質(zhì)量.
本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的單幅圖像深度估計方法.該方法以編碼器解碼器網(wǎng)絡(luò)模型為基礎(chǔ),并在編碼器部分引入連續(xù)的殘差稠密模塊,在解碼器部分引入來自編碼器模塊中的跳躍連接的方式改進(jìn)網(wǎng)絡(luò)模型.經(jīng)過這種改進(jìn),本文所提出的神經(jīng)網(wǎng)絡(luò)模型可以充分利用各級網(wǎng)絡(luò)所提取出的特征信息,使得網(wǎng)絡(luò)表現(xiàn)出了更為細(xì)致的局部信息提取特性.與此同時,本文通過使用一系列立體圖像對來訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方式,擺脫了對于真實圖像深度需求的限制,實現(xiàn)了網(wǎng)絡(luò)模型的無監(jiān)督學(xué)習(xí).通過在KITTI駕駛數(shù)據(jù)集上的驗證,本文所提出的方法相較于幾種有代表性的方法,在誤差和準(zhǔn)確率方面都得到了更為優(yōu)異的結(jié)果,在視覺上可以給出具有清晰物體邊緣的深度估計.但是,本文所提出的網(wǎng)絡(luò)增加了一定量的參數(shù),這導(dǎo)致網(wǎng)絡(luò)的訓(xùn)練時間有所增加.筆者未來將對該網(wǎng)絡(luò)的基本結(jié)構(gòu)以及訓(xùn)練方式上做進(jìn)一步的研究.