国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的立體影像視差估計(jì)方法綜述

2022-10-17 10:59王道累肖佳威李建康
關(guān)鍵詞:代價(jià)卷積像素

王道累,肖佳威,李建康,朱 瑞

上海電力大學(xué) 能源與機(jī)械工程學(xué)院,上海 200090

從RGB圖像中估算深度是計(jì)算機(jī)視覺(jué)、圖形和機(jī)器學(xué)習(xí)領(lǐng)域一直在探索的問(wèn)題之一[1],其關(guān)鍵在于找到空間像素對(duì)應(yīng)點(diǎn),然后通過(guò)三角剖分實(shí)現(xiàn)深度恢復(fù),通常稱為視差估計(jì)或立體匹配。視差是指左右圖像中同物體在水平位置的差異[2],即在左圖中位置(x,y)的物體與其相對(duì)的右圖中的位置(x-d,y)。當(dāng)物體的視差d已知時(shí),可用公式z=fB/d計(jì)算它的深度:其中f是相機(jī)的焦距,B是相機(jī)中心之間的距離。在給定相機(jī)在不同水平位置拍攝的兩幅圖像,將其校正后,可以計(jì)算出左側(cè)圖像中每個(gè)像素的差值[3]。雙目視差估計(jì)利用左右視圖之間的交叉參考的優(yōu)勢(shì),獲得場(chǎng)景中物體的深度信息,在幾何信息推斷方面表現(xiàn)出強(qiáng)的性能和魯棒性,廣泛應(yīng)用于自動(dòng)駕駛[4]、機(jī)器人定位[5]、醫(yī)療診斷[6]和三維場(chǎng)景重構(gòu)[7]等領(lǐng)域。典型的立體匹配算法包括四個(gè)步驟:匹配代價(jià)計(jì)算、代價(jià)聚合、視差優(yōu)化、視差后處理[8]。它們可以大致分為全局方法和局部方法,全局方法通常通過(guò)最小化包含數(shù)據(jù)和平滑項(xiàng)的全局目標(biāo)函數(shù)來(lái)解決優(yōu)化問(wèn)題[9],而局部方法只考慮鄰域信息[10]。

盡管傳統(tǒng)視差估計(jì)方法已取得巨大進(jìn)展,針對(duì)無(wú)紋理區(qū)域、重復(fù)圖案和薄結(jié)構(gòu)等問(wèn)題[11],仍難以解決。近年來(lái),深度學(xué)習(xí)發(fā)展迅速,表現(xiàn)出較強(qiáng)的圖像理解能力[12]。為了更好地估計(jì)立體圖像對(duì)中的視差,卷積神經(jīng)網(wǎng)絡(luò)被應(yīng)用在雙目視差估計(jì)中。深度學(xué)習(xí)模型可通過(guò)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)[13](convolutional neural networks,CNN)將匹配代價(jià)計(jì)算、代價(jià)聚合、視差優(yōu)化集合起來(lái),并取得完整且稠密的視差圖。

1 非端到端視差估計(jì)方法

非端到端的視差估計(jì)方法模仿了傳統(tǒng)視差估計(jì)方法,將其中的一部分或者多個(gè)部分通過(guò)CNN來(lái)代替。MC-CNN[14]最先提出使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)小圖像塊的相似性度量來(lái)計(jì)算匹配代價(jià),通過(guò)構(gòu)建一個(gè)包含相似和不相似補(bǔ)丁塊的二元分類數(shù)據(jù)集進(jìn)行訓(xùn)練,在當(dāng)時(shí)的KITTI數(shù)據(jù)集和Mddlebury數(shù)據(jù)集上優(yōu)于其他方法,有力地證明了CNN提取特征優(yōu)于手工提取特征。盡管具有良好的精度,但MC-CNN具有計(jì)算消耗較大、計(jì)算速度較慢的問(wèn)題。Shaked等[15]提出了一種新的多級(jí)加權(quán)殘差路徑高速網(wǎng)絡(luò)來(lái)計(jì)算匹配代價(jià),使用支持圖像塊多級(jí)比較的混合損失進(jìn)行訓(xùn)練。Chen等[16]通過(guò)深度嵌入模型來(lái)利用外觀數(shù)據(jù)來(lái)學(xué)習(xí)相應(yīng)圖像塊之間的視覺(jué)相似性關(guān)系,并將強(qiáng)度值顯示映射到嵌入特征空間以測(cè)量像素的不相似性。這些方法并不能直接得到良好的視差圖,通常需要初始代價(jià)通過(guò)非學(xué)習(xí)的后處理函數(shù)進(jìn)行優(yōu)化,包括交叉代價(jià)聚合[17]、亞像素增強(qiáng)[18]、左右一致性檢測(cè)和濾波等操作[19]。

傳統(tǒng)方法中除匹配代價(jià)以外的部分也可由神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算,SGM-Net[20]設(shè)計(jì)了一種使用半全局匹配預(yù)測(cè)高精度稠密視差圖的神經(jīng)網(wǎng)絡(luò)。它是一種基于學(xué)習(xí)懲罰估計(jì)的方法,將一個(gè)小的圖像塊及其位置輸入到帶有半全局匹配的網(wǎng)絡(luò)中,預(yù)測(cè)3D結(jié)構(gòu)對(duì)象的懲罰,引入一種新的損失函數(shù),能使用稀疏注釋的視差圖。因其半全局匹配懲罰代價(jià)標(biāo)簽獲取繁瑣,其訓(xùn)練耗時(shí)耗力。

視差后處理的過(guò)程也可以在神經(jīng)網(wǎng)絡(luò)中進(jìn)行,并取得良好的效果。Gidaris和Komodakis[21]通過(guò)訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò),將輸出標(biāo)簽和輸入圖像的初始估計(jì)作為輸入,預(yù)測(cè)標(biāo)簽的新的精確估計(jì)。它將標(biāo)簽改進(jìn)分為三個(gè)步驟:(1)檢測(cè)不正確的初始標(biāo)簽估計(jì);(2)用新標(biāo)簽替代不正確標(biāo)簽;(3)預(yù)測(cè)剩余標(biāo)簽來(lái)細(xì)化更新的標(biāo)簽。這一過(guò)程雖然能提升一定精度,但需要消耗巨大計(jì)算資源。

非端到端的視差估計(jì)方法相對(duì)于傳統(tǒng)方法精度方面有巨大提升,但是其需要消耗巨大的計(jì)算資源,預(yù)測(cè)一張圖片的時(shí)間較長(zhǎng)。而且視差估計(jì)過(guò)程中感受野有限,缺乏上下文信息,仍然無(wú)法避免視差后處理,正逐漸被端到端的視差估計(jì)方法所取代。

2 端到端視差估計(jì)方法

端到端的視差估計(jì)方法將視差估計(jì)的所有步驟集成到一個(gè)網(wǎng)絡(luò)中去,極大地提高了匹配精度和速度,被廣泛地應(yīng)用于機(jī)器人導(dǎo)航[22]、增強(qiáng)現(xiàn)實(shí)[23]和虛擬現(xiàn)實(shí)[24]。PSMNet(pyramid stereo matching network)[25]提出了一種端到端的金字塔視差估計(jì)網(wǎng)絡(luò),設(shè)計(jì)了一種空間金字塔池化模塊(spatial pyramid pooling,SPP)用于增加感受野,將不同規(guī)模和位置的上下文信息利用起來(lái),形成代價(jià)體;設(shè)計(jì)了堆疊沙漏3D卷積神經(jīng)網(wǎng)絡(luò)(stacked hourglass 3D CNN),結(jié)合中間監(jiān)督,并拓展代價(jià)體中區(qū)域上下文支持。為了減少人類在神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)上的精力,LEAStereo(hierarchical neural architecture search for deep stereo matching)[26]提出一種將人類特定任務(wù)知識(shí)整合到神經(jīng)架構(gòu)搜索(neural architecture search,NAS)框架中,從端到端分層NAS架構(gòu)來(lái)進(jìn)行深度立體匹配,利用體積立體匹配管道,允許網(wǎng)絡(luò)自動(dòng)選擇最優(yōu)結(jié)構(gòu)的特征網(wǎng)和匹配網(wǎng)。

雖然上述的網(wǎng)絡(luò)能夠很好地學(xué)習(xí)圖像的全局上下文信息,能夠?qū)D像對(duì)進(jìn)行高精度的雙目視差估計(jì),但是在訓(xùn)練和使用的過(guò)程中計(jì)算的參數(shù)量過(guò)大,需要占用巨大的GPU(graphics processing unit)資源[27]。在實(shí)際應(yīng)用過(guò)程中,人們更加傾向于使用更加輕量化的模型,在保持一定精度的基礎(chǔ)上取得良好的視差估計(jì)效果[28]。GA-Net(guided aggregation net)[29]提出了半全局聚合層(semi-global aggregation layer,SGA)和局部引導(dǎo)聚合層(local guided aggregation layer,LGA),盡可能少地使用3D卷積,計(jì)算成本和內(nèi)存占用得到極大減少。SGA層實(shí)現(xiàn)了半全局匹配(semi-global matching,SGM)的近似可微分,使匹配代價(jià)在全圖的不同方向聚合,而LGA層遵循傳統(tǒng)的代價(jià)濾波策略,被用來(lái)處理細(xì)結(jié)構(gòu)和邊緣對(duì)象。為了顯著加快當(dāng)前最先進(jìn)的視差估計(jì)算法的運(yùn)行速度,以實(shí)現(xiàn)實(shí)時(shí)推理,DeepPruner(learning efficient stereo matching via differentiable patchmatch)[30]設(shè)計(jì)了一個(gè)可微分的PatchMatch模塊,在不評(píng)估所有代價(jià)體的情況下去除大部分差異,得到稀疏表示的代價(jià)體,減少計(jì)算量和內(nèi)存。BGNet(bilateral grid learning networks)[31]設(shè)計(jì)了一種基于深度學(xué)習(xí)的雙邊網(wǎng)絡(luò)的新型保邊上采樣模塊,通過(guò)切片操作從低分辨率代價(jià)體中有效地獲得高分辨率代價(jià)體進(jìn)行視差估計(jì),許多現(xiàn)有的網(wǎng)絡(luò)都可以加入此模塊,并有相當(dāng)?shù)木龋鏕C-Net(geometry and context network)[32]、PSMNet[25]和GA-Net[29]等,并可以加速4~29倍。

端到端的視差估計(jì)方法在生成精確的幾何信息方面有廣泛的前景和魯棒性,使用大規(guī)模的數(shù)據(jù)集對(duì)深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,能夠使其在許多立體視覺(jué)任務(wù)中都表現(xiàn)出良好的性能,相比于傳統(tǒng)的視差估計(jì)方法取得了顯著的提升,成為現(xiàn)階段研究的熱點(diǎn)之一[33]。然而,端到端的視差估計(jì)方法訓(xùn)練過(guò)程緩慢,需要消耗巨大的計(jì)算資源,其使用的立體數(shù)據(jù)集需要包含高質(zhì)量的曲面法線和真實(shí)視差圖,高質(zhì)量數(shù)據(jù)集制作費(fèi)時(shí)費(fèi)力。

3 無(wú)監(jiān)督視差估計(jì)方法

高精度的數(shù)據(jù)集對(duì)網(wǎng)絡(luò)訓(xùn)練的好壞具有重要的作用,但是帶有真實(shí)視差圖的高精度數(shù)據(jù)集制作較為昂貴。一些不具有真實(shí)視差圖的數(shù)據(jù)集獲取較為簡(jiǎn)單,為此一些無(wú)監(jiān)督視差估計(jì)方法被提出[34]。無(wú)監(jiān)督的方法以無(wú)監(jiān)督的方式驅(qū)動(dòng)網(wǎng)絡(luò),依賴于最小光度扭曲誤差。近年來(lái),基于空間變換和視圖合成的無(wú)監(jiān)督學(xué)習(xí)方法被提出,并取得了不錯(cuò)的精度。

DeepStereo[35]提出一種新的深度學(xué)習(xí)架構(gòu),對(duì)大量位姿圖像集進(jìn)行訓(xùn)練,直接從像素中合成新的視圖。深度回歸網(wǎng)絡(luò)直接回歸到給定輸入圖像的像素顏色輸出,對(duì)傳統(tǒng)方法的故障模式也有用,能夠在寬基線分隔的視圖之間進(jìn)行插值。Deep3D[36]設(shè)計(jì)了一個(gè)深度神經(jīng)網(wǎng)絡(luò),通過(guò)最小像素級(jí)重建損失,將左視圖作為輸入,內(nèi)部估計(jì)一個(gè)軟概率視差圖,然后渲染出一個(gè)新的右圖像,直接從一個(gè)視圖預(yù)測(cè)另一個(gè)視圖。這些視圖合成網(wǎng)絡(luò)為無(wú)監(jiān)督視差估計(jì)提供了強(qiáng)大的支持。

圖像損失函數(shù)在無(wú)監(jiān)督的視差估計(jì)中也有使用,Garg等[37]提出了第一個(gè)利用圖像重建損失進(jìn)行單視圖深度預(yù)測(cè)的深度卷積神經(jīng)網(wǎng)絡(luò),通過(guò)類似于自動(dòng)編解碼器的方式訓(xùn)練網(wǎng)絡(luò)。為此,其使用預(yù)測(cè)的深度和已知的視點(diǎn)間位移顯式生成目標(biāo)圖像的反向扭曲,以重建源圖像,重建中的光度誤差是編碼器的重建損失。該網(wǎng)絡(luò)雖然與單視圖深度估計(jì)的最佳監(jiān)督學(xué)習(xí)方法相當(dāng),但是單個(gè)圖像整體尺度模糊,單目視差估計(jì)不僅在絕對(duì)意義上準(zhǔn)確,而且在細(xì)節(jié)恢復(fù)上效果也不好。

單獨(dú)解決圖像重建問(wèn)題會(huì)導(dǎo)致深度圖像質(zhì)量差,Godard等[38]提出一種新的訓(xùn)練損失方法,加強(qiáng)了左右圖像差異之間的一致性,其還充分利用了極線幾何優(yōu)勢(shì)。這一致性約束極大的提高了網(wǎng)絡(luò)性能,這項(xiàng)工作標(biāo)志基于最小化光度扭曲誤差的無(wú)監(jiān)督視差估計(jì)方法的成熟。Flow2Stereo[39]提出了一種無(wú)監(jiān)督模型,聯(lián)合學(xué)習(xí)光流和視差估計(jì),將視差估計(jì)當(dāng)做光流估計(jì)的特殊情況,利用立體視覺(jué)的三維幾何信息指導(dǎo)同一網(wǎng)絡(luò)來(lái)估計(jì)光流與視差。

無(wú)監(jiān)督的視差估計(jì)方法解決了缺乏真實(shí)視差圖難以對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練的問(wèn)題,僅使用一些較易拍攝的左右視圖就可對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,極大地減少了數(shù)據(jù)集制作的成本。但是,其在弱紋理區(qū)域,圖像重建損失函數(shù)無(wú)法得到良好的有監(jiān)督信號(hào),而且并沒(méi)有辦法得到視差圖的真實(shí)尺度,重建出來(lái)的效果一般,在實(shí)際應(yīng)用中受到一定限制。

4 視差估計(jì)網(wǎng)絡(luò)模型比較

在深度學(xué)習(xí)視差估計(jì)網(wǎng)絡(luò)實(shí)際應(yīng)用中,為了方便和易于使用,需要將視差估計(jì)的整個(gè)過(guò)程集合到同一網(wǎng)絡(luò)上進(jìn)行。而且對(duì)重建出來(lái)的圖像質(zhì)量要求也較高,使用端到端的視差估計(jì)方法是一種很好的選擇。本文選取5種深度學(xué)習(xí)視差估計(jì)方法,分別是PSMNet[25]、GA-Net[29]、LEAStereo[26]、DeepPruner[30]、BGNet[31],PSMNet和GANet是預(yù)測(cè)較慢,有不錯(cuò)精度的視差估計(jì)網(wǎng)絡(luò),Deep-Pruner、BGNet是能夠?qū)崟r(shí)預(yù)測(cè)的最新網(wǎng)絡(luò),而LEAStereo是神經(jīng)架構(gòu)搜索生成的網(wǎng)絡(luò),對(duì)這些網(wǎng)絡(luò)實(shí)驗(yàn)比較實(shí)時(shí)和非實(shí)時(shí)網(wǎng)絡(luò)之間的精度和參數(shù)量,以及神經(jīng)網(wǎng)絡(luò)搜索產(chǎn)生的網(wǎng)絡(luò)與人工設(shè)計(jì)的網(wǎng)絡(luò)之間的差異。其中PSMNet的創(chuàng)新性在于其設(shè)計(jì)空間金字塔池化模塊和堆疊沙漏3D卷積神經(jīng)網(wǎng)絡(luò),充分利用全局上下文信息;GA-Net利用引導(dǎo)代價(jià)聚合代替廣泛使用的3D卷積,降低計(jì)算成本并獲得更好的精度;LEAStereo將神經(jīng)架構(gòu)搜索運(yùn)用到視差估計(jì)任務(wù)中,允許網(wǎng)絡(luò)自動(dòng)選擇最優(yōu)結(jié)的特征網(wǎng)和匹配網(wǎng);DeepPruner開(kāi)發(fā)了一個(gè)可微分的PatchMatch模塊,逐步減少搜索空間,高效地計(jì)算高似然假設(shè)的成本量。BGNet設(shè)計(jì)了一種新的基于學(xué)習(xí)雙邊網(wǎng)格切片操作的邊緣保護(hù)代價(jià)體上采樣模塊,通過(guò)切片操作從低分辨率代價(jià)體中有效地獲得高分辨率代價(jià)體進(jìn)行視差估計(jì)。

4.1 PSMNet

PSMNet[25]是深度學(xué)習(xí)視差估計(jì)模型中最經(jīng)典的算法之一,后續(xù)很多算法將其作為參考。其創(chuàng)新點(diǎn)在于使用金字塔池化模塊和擴(kuò)張卷積用于增加感受野,將特征由像素級(jí)拓展到不同感受野尺度的區(qū)域級(jí),將全局和局部特征線索用于形成視差估計(jì)代價(jià)體。此外,還設(shè)計(jì)了一個(gè)堆疊沙漏3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)合中間監(jiān)督,以規(guī)范代價(jià)體,為提高上下文信息提取率,以自上而下/自下而上的方式對(duì)代價(jià)體多次處理。

PSMNet是一種端到端的視差估計(jì)網(wǎng)絡(luò),其模擬傳統(tǒng)的視差估計(jì)流程,將問(wèn)題分解為特征提取、特征代價(jià)體的構(gòu)建和稠密匹配這幾個(gè)階段,每個(gè)階段由可微塊組成,從而實(shí)現(xiàn)的端到端的訓(xùn)練。PSMNet模型由4個(gè)步驟組成:(1)通過(guò)一系列的2D卷積提取圖像的一元特征,并將輸出的特征圖輸入SPP模塊來(lái)收集上下文信息,然后將這些特征進(jìn)行融合,這些模塊本身之間權(quán)重都是共享的;(2)在每個(gè)視差級(jí)別上將左特征映射和它們對(duì)應(yīng)的右特征映射連接起來(lái),形成一個(gè)成本量,從而產(chǎn)生一個(gè)4D體積(H×W×D×F),其中H、W為圖像的高、寬,D為視差值,F(xiàn)為特征尺寸;(3)為了沿著視差維和空間維聚合特征信息,使用了堆疊沙漏(編碼器-解碼器)架構(gòu),由重復(fù)的自頂向下/自底向上處理和中間監(jiān)督組成,三個(gè)主要的沙漏網(wǎng)絡(luò)共同組成該結(jié)構(gòu),每一個(gè)都生成一個(gè)視差圖,總損失計(jì)算為三個(gè)損失的加權(quán)和;(4)通過(guò)雙線性插值將代價(jià)體上升到H×W×D,通過(guò)回歸來(lái)計(jì)算視差,使用softmax操作σ(·)從預(yù)測(cè)成本Cd中求得每個(gè)視差概率d,預(yù)測(cè)視差d?通過(guò)每個(gè)視差d按其概率加權(quán)的和計(jì)算。PSMNet網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示[25]。

圖1 PSMNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 Diagram of PSMNet network structure

4.2 GA-Net

GA-Net[29]的主要?jiǎng)?chuàng)新點(diǎn)是提出了SGA層和LGA層,更好地學(xué)習(xí)局部和全局代價(jià)之間的關(guān)系。相比于PSMNet使用了大量的3D卷積,通過(guò)這兩層結(jié)構(gòu)替換其中的3D卷積層,提升視差估計(jì)精度,減少立方計(jì)算和內(nèi)存復(fù)雜度。GA層的浮點(diǎn)運(yùn)算方面的計(jì)算復(fù)雜度小于一個(gè)3D卷積層1/100,僅使用兩層引導(dǎo)聚合塊的網(wǎng)絡(luò)遠(yuǎn)優(yōu)于19個(gè)3D卷積層的GCNet[32],可以通過(guò)GA層構(gòu)建實(shí)時(shí)的模型。

在新的神經(jīng)網(wǎng)絡(luò)層中,第一種是SGA,它是受SGM[40]的啟發(fā),是半全局匹配的可微近似。在SGM中有許多用戶定義的參數(shù)(P1、P2),這些參數(shù)的調(diào)優(yōu)并不簡(jiǎn)單[20]。而且其代價(jià)聚合和懲罰是固定的,這包括所有的像素、區(qū)域和圖像,對(duì)不同條件的適應(yīng)性較低。難最小值選擇還會(huì)導(dǎo)致在視差估計(jì)過(guò)程中產(chǎn)生大量的前向平行曲面。Zhang等[29]提出一種新的可反向傳播的半全局代價(jià)聚合步驟,如下式所示:

圖2 GA-Net網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2 Diagram of GA-Net network structure

第二種是LGA,它是受局部代價(jià)聚合(local matching cost matching)[41]的啟發(fā),遵循傳統(tǒng)的代價(jià)過(guò)濾策略來(lái)細(xì)化細(xì)結(jié)構(gòu)和邊緣對(duì)象。不同于傳統(tǒng)的代價(jià)濾波器,使用K×K的濾波器在代價(jià)體的K×K的局部區(qū)域Np,LGA用三個(gè)K×K的濾波器在每個(gè)像素位置p進(jìn)行濾波,產(chǎn)生視差分別為d、d-1、d+1。它表示如下:

其中,C(q,d)表示候選視差d在位置q的代價(jià)體;CA(p,d)表示候選視差d在位置p的代價(jià)體;w0、w1、w2為3個(gè)濾波器的權(quán)值矩陣。

GA-Net網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。首先將左右視圖輸入由不同層之間緊密相連的堆疊沙漏網(wǎng)絡(luò),特征提取塊由左視圖和右視圖共享,然后通過(guò)文獻(xiàn)[42]中的方法將提取出的左右圖像特征構(gòu)建成4D代價(jià)體,最后再使用幾個(gè)SGA層模塊進(jìn)行代價(jià)聚合,并在softmax層之前和之后使用LGA層進(jìn)行視差回歸,得到視差圖。圖中快速引導(dǎo)子網(wǎng)絡(luò)為綠色塊,其實(shí)現(xiàn)類似于文獻(xiàn)[43],它使用參考圖像作為輸入,聚合權(quán)重w作為輸出,對(duì)于4D代價(jià)體C,四個(gè)方向聚合的H×W×D×F(K=5)權(quán)重矩陣通過(guò)引導(dǎo)子網(wǎng)絡(luò)的輸出分割、重塑并歸一化求得,對(duì)應(yīng)切片d的不同視差的聚合具有相同的聚合權(quán)重。

4.3 LEAStereo

相較于PSMNet[25]和GA-Net[29]花費(fèi)大量的時(shí)間用于神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)上,為了減少人類在神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)方面的精力,通過(guò)使用NAS(neural architecture search),使網(wǎng)絡(luò)能夠在一組操作中進(jìn)行選擇(例如:具有不同過(guò)濾器大小的卷積),能夠找到一個(gè)更好地適應(yīng)當(dāng)前問(wèn)題的最佳架構(gòu)。由于人類設(shè)計(jì)的最先進(jìn)的深度立體匹配網(wǎng)絡(luò)規(guī)模已經(jīng)非常龐大,基于現(xiàn)有的計(jì)算資源,直接將NAS應(yīng)用到這樣的海量結(jié)構(gòu)是不可能的。LEAStereo[26]通過(guò)將特定任務(wù)的人類知識(shí)融入到NAS中,實(shí)現(xiàn)深度視差估計(jì),遵循深度視差估計(jì)的常規(guī)步驟,且可以聯(lián)合優(yōu)化整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。

與文獻(xiàn)[44-46]中的NAS算法只有單一的編碼器/編碼器-解碼器架構(gòu)不同,文中算法能夠搜索兩個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)、特征映射的大小、特征體積的大小和輸出視差的大小。與文獻(xiàn)[44]只搜索單元級(jí)結(jié)構(gòu)不同,允許網(wǎng)絡(luò)搜索單元級(jí)結(jié)構(gòu)和網(wǎng)絡(luò)級(jí)結(jié)構(gòu),綜上所述,將幾何知識(shí)與神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索相結(jié)合,實(shí)現(xiàn)一個(gè)端到端層次NAS深度視差估計(jì)框架。LEAStereo網(wǎng)絡(luò)總體架構(gòu)如圖3所示[26],主要部分組成:提取局部圖像特征的2D特征網(wǎng)、4D特征體、從連接的特征中計(jì)算和聚合匹配成本的3D匹配網(wǎng),以及將計(jì)算代價(jià)體投影到視差地圖的軟argmin層。NAS只對(duì)包含可訓(xùn)練參數(shù)的特征網(wǎng)和匹配網(wǎng)進(jìn)行搜索,LEAStereo網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 LEAStereo網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Diagram of LEAStereo network structure

為了在一個(gè)預(yù)定義的L層網(wǎng)格中找到一條最優(yōu)路徑,如圖4所示。將一個(gè)標(biāo)量與格子里的每個(gè)黑色箭頭關(guān)聯(lián)起來(lái)。其中用β來(lái)表示這個(gè)標(biāo)量的集合。在網(wǎng)絡(luò)搜索空間中,將最小空間分辨率設(shè)置為1/24,在此基礎(chǔ)上,設(shè)計(jì)一個(gè)降采樣率為{3,2,2,2}的四級(jí)格架,在特征網(wǎng)的開(kāi)始,有一個(gè)三層的“干”結(jié)構(gòu),它的第一層是一個(gè)3×3的卷積層,stride為3,其次是兩層3×3的卷積層,stride為1。其中選擇LF=6作為特征網(wǎng),選擇LM=12作為匹配網(wǎng)類似于尋找節(jié)點(diǎn)之間的最佳操作,通過(guò)使用一組搜索參數(shù)β在網(wǎng)格上搜索,以找到其中的路徑,使損失最小化。網(wǎng)格中每一層的每個(gè)單元都可以接收到同一層的前一個(gè)單元的輸入,也可以接收到下一層和上一層(如果有后兩層)的輸入。通過(guò)此算法找到的體系結(jié)構(gòu)如圖5所示。通過(guò)特征網(wǎng)絡(luò)手工添加了2個(gè)跳過(guò)連接,一個(gè)在節(jié)點(diǎn)2和節(jié)點(diǎn)5之間,另一個(gè)在節(jié)點(diǎn)5和節(jié)點(diǎn)9之間。

圖5 搜索架構(gòu)Fig.5 Searched architecture

4.4 DeepPruner

視差估計(jì)的搜索空間很大,而且相鄰像素通常具有相似的差異。為了解決這個(gè)問(wèn)題,Duggal等[30]開(kāi)發(fā)了一個(gè)可微分的PatchMatch模塊,在不評(píng)估所有代價(jià)體的情況下去除大部分差異,通過(guò)此代價(jià)體學(xué)習(xí)每個(gè)像素修剪范圍。然后再逐步減少搜索空間,有效地傳播這些信息,高效地計(jì)算高似然假設(shè)的代價(jià)體,減少所需計(jì)算的參數(shù)量和內(nèi)存。最后,為進(jìn)一步提升精度,使用圖像引導(dǎo)細(xì)化模塊。DeepPruner網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示[30]。

圖6 DeepPruner網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.6 Diagram of DeepPruner network structure

DeepPruner中的剪枝模塊很大程度上受到了文獻(xiàn)[47]的啟發(fā),首先循環(huán)展開(kāi)加入粒子PatchMatch操作的神經(jīng)網(wǎng)絡(luò)層,并求得預(yù)測(cè)視差置信范圍,進(jìn)而求得每個(gè)像素點(diǎn)處近似邊緣分布。解空間通過(guò)有效采樣和傳播修剪,顯著提高推理速度。DeepPruner主要由以下四個(gè)模塊組成:特征提取、通過(guò)可微的PatchMatch進(jìn)行剪枝、代價(jià)聚合、視差優(yōu)化和預(yù)測(cè)。

可微的PatchMatch將廣義PatchMatch展開(kāi)為一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò),算法迭代即為網(wǎng)絡(luò)展開(kāi)的過(guò)程。該結(jié)構(gòu)由粒子抽樣層、傳播層、評(píng)價(jià)層構(gòu)成。在粒子抽樣層中,在均勻分布的預(yù)測(cè)搜索空間中,每個(gè)像素i都會(huì)隨機(jī)生成k個(gè)視差值;在傳播層中,相鄰像素粒子以預(yù)定義的熱過(guò)濾器模式的卷積傳遞(見(jiàn)圖7),每個(gè)像素相鄰的4個(gè)像素點(diǎn)也會(huì)受粒子傳播。在評(píng)價(jià)層中,每個(gè)像素的左右特征內(nèi)積求得匹配分?jǐn)?shù),并且每個(gè)像素的最佳視差值會(huì)被帶入下一次迭代中。傳播層和評(píng)估層會(huì)進(jìn)行遍歷,這一過(guò)程是在架構(gòu)底部的粒子采樣層進(jìn)行的,如圖8所示。

圖7 一個(gè)熱濾波器組位于傳播層內(nèi)Fig.7 One hot filter banks within propagation layer

圖8 可微分的Patchmatch操作說(shuō)明Fig.8 Illustration of differentiable patch match operations

置信區(qū)間預(yù)測(cè)網(wǎng)絡(luò)解決了像素差異位于狹窄區(qū)域的問(wèn)題,調(diào)整每個(gè)像素的搜索空間。它由一個(gè)卷積編解碼結(jié)構(gòu)組成,輸入是可微分的PatchMatch、左圖像和根據(jù)稀疏視差估計(jì)而扭曲的右圖像,輸出是每個(gè)像素i的置信范圍Ri=[li,ui]。

4.5 BGNet

視差估計(jì)網(wǎng)絡(luò)的實(shí)時(shí)性和準(zhǔn)確性之間的平衡仍然是一個(gè)挑戰(zhàn),為了解決這個(gè)問(wèn)題,Xu等[31]提出了一種基于學(xué)習(xí)后的雙邊網(wǎng)絡(luò)切片操作的保邊體積上采樣模塊。經(jīng)典的視差估計(jì)網(wǎng)絡(luò)StereoNet[48]中從低分辨率聚集的4D代價(jià)體回歸的2D視差圖通過(guò)雙線性插值和分層細(xì)化進(jìn)行上采樣,速度較快,但是與PSM-Net[25]相比精度較低。相反,由于切片層是無(wú)參數(shù)的,BGNet使得可以在學(xué)習(xí)后的制導(dǎo)地圖的引導(dǎo)下,從一個(gè)低分辨率的代價(jià)體中高效率地獲得一個(gè)高分辨率的代價(jià)體,在高分辨率下回歸視差圖,保持高精度和高效率。BGNet網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示[31]。

圖9 BGNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.9 Diagram of BGNet network structure

BGNet是基于CUBG(cost volume upsampling in bilateral grid)模塊的基礎(chǔ)上設(shè)計(jì)出來(lái)的,其主要由四個(gè)模塊組成,即特征提取模塊、代價(jià)體聚合模塊、代價(jià)體上采樣模塊和殘余視差細(xì)化模塊。

CUBG模塊如圖10所示,低分辨率代價(jià)體CL和圖像特征圖為輸入,上采樣的高分辨率成本體積為輸出。CUBG模塊操作有雙邊網(wǎng)格創(chuàng)建和切片。

圖10 學(xué)習(xí)雙邊網(wǎng)絡(luò)代價(jià)體上采樣模塊Fig.10 Module of cost volume upsampling in learned bilateral grid(CUBG)

當(dāng)代價(jià)體作為雙邊網(wǎng)格時(shí),利用3×3的卷積將一個(gè)具有四個(gè)維度(包括寬度x、高度y、視差d和通道c)的低分辨率(例如:1/8)的聚合代價(jià)體CL轉(zhuǎn)化為雙邊網(wǎng)格B(x,y,d,g),其中寬度x,高度y,視差d,制導(dǎo)特征g。

通過(guò)雙邊網(wǎng)格,可以利用切片層生成3D高分辨率代價(jià)體CH(CH∈?W,H,D)。切片操作是在高分辨率的二維制導(dǎo)映射G的引導(dǎo)下,在四維雙邊網(wǎng)格中進(jìn)行線性插值。切片操作定義為:

其中,s∈(0,1)是網(wǎng)格尺寸w.r.t的寬高比值,即高分辨率代價(jià)體尺寸,sG∈(0,1)是網(wǎng)格(lgrid)的灰度值與制導(dǎo)圖lgrid的灰度值的比值。制導(dǎo)圖G由高分辨率的特征圖通過(guò)兩次1×1卷積生成。與文獻(xiàn)[49]中設(shè)計(jì)的原始網(wǎng)格不同,文中的雙邊網(wǎng)格是自動(dòng)從代價(jià)體中學(xué)習(xí)的。在實(shí)驗(yàn)中,網(wǎng)格大小通常設(shè)置為H/8×W/8×Dmax/8×32,W和H分別為圖像的寬度和高度,Dmax為最大視差值。

5 數(shù)據(jù)集及常用評(píng)價(jià)指標(biāo)

為了評(píng)估深度學(xué)習(xí)視差估計(jì)模型在不同數(shù)據(jù)集上的表現(xiàn),本文選取了三種不同的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn);KITTI2015是真實(shí)世界的街景數(shù)據(jù)集,Instereo2K是室內(nèi)場(chǎng)景大型標(biāo)簽數(shù)據(jù)集,Middlebury2014是靜態(tài)室內(nèi)場(chǎng)景的高分辨率立體數(shù)據(jù)集。

5.1 KITTI2015數(shù)據(jù)集

KITTI數(shù)據(jù)集是一個(gè)真實(shí)世界的街景數(shù)據(jù)集,由一輛行駛的汽車在中型城市、農(nóng)村地區(qū)和高速公路上采集得來(lái),記錄平臺(tái)配備2個(gè)高分辨率立體相機(jī)系統(tǒng),1個(gè)Velodyne HDL-64E激光掃描儀,最先進(jìn)的OXTS RT 3003的定位系統(tǒng),攝像機(jī)、激光掃描儀和定位系統(tǒng)經(jīng)過(guò)校準(zhǔn)和同步,可以提供準(zhǔn)確的真實(shí)視差[50]。KITTI2015數(shù)據(jù)集是利用KITTI原始數(shù)據(jù)集,創(chuàng)建的一個(gè)具有獨(dú)立移動(dòng)對(duì)象和逼真的真實(shí)視差的場(chǎng)景流數(shù)據(jù)集,共包含200張訓(xùn)練圖像和200張測(cè)試場(chǎng)景[51],分辨率為376×1 242像素。該數(shù)據(jù)集中的真實(shí)視差圖是由激光掃描儀得到的稀疏視差圖,本文的訓(xùn)練集為具有真值的160張圖片,測(cè)試集為其余的40張圖像。

5.2 Instereo2K數(shù)據(jù)集

Instereo2K數(shù)據(jù)集是一個(gè)室內(nèi)場(chǎng)景視差估計(jì)的大型真實(shí)數(shù)據(jù)集,該數(shù)據(jù)集采集平臺(tái)是一個(gè)結(jié)構(gòu)光系統(tǒng),由2臺(tái)分辨率為960×1 280像素的彩色攝像頭和1臺(tái)分辨率為768×1 024像素的投影儀組成,相機(jī)的CCD傳感器的像素大小為3.75 μm,每個(gè)相機(jī)的鏡頭焦距為8 mm[52]。該數(shù)據(jù)集包含2 050對(duì)RGB圖像及高度精確的視差圖,其中2 000對(duì)作為訓(xùn)練集,50對(duì)作為測(cè)試集,分辨率為860×1 280像素,涵蓋了不同的室內(nèi)場(chǎng)景,包括辦公室、教室、臥室、客廳和宿舍。與KITTI2015相比,Instereo2K數(shù)據(jù)集帶標(biāo)簽圖像數(shù)量增加了一個(gè)數(shù)量級(jí),在2 000對(duì)訓(xùn)練集中,本文1 600對(duì)圖像進(jìn)行網(wǎng)絡(luò)訓(xùn)練,其余的400張圖片進(jìn)行精度測(cè)試。

5.3 Middlebury2014數(shù)據(jù)集

Middlebury2014數(shù)據(jù)集是靜態(tài)室內(nèi)場(chǎng)景的高分辨率立體數(shù)據(jù)集[53],它是在實(shí)驗(yàn)室條件下拍攝而來(lái)的。它是一個(gè)結(jié)構(gòu)化的照明系統(tǒng)采集,該系統(tǒng)包括高效的二維亞像素對(duì)應(yīng)搜索、基于鏡頭畸變建模的攝影機(jī)和攝像機(jī)自標(biāo)定的技術(shù),結(jié)合來(lái)自多個(gè)投影儀的視差估計(jì),在大多數(shù)觀測(cè)表面上實(shí)現(xiàn)0.2像素的視差精度。該數(shù)據(jù)集包含了33個(gè)新的600萬(wàn)像素的數(shù)據(jù)集,其中23個(gè)數(shù)據(jù)集是包含真實(shí)視差圖的,可以用來(lái)訓(xùn)練和驗(yàn)證,10個(gè)數(shù)據(jù)集是不提供真實(shí)視差圖的,用于測(cè)試。每個(gè)數(shù)據(jù)集由多次曝光和多次環(huán)境光照下拍攝的輸入圖像組成,有或沒(méi)有鏡像球來(lái)捕捉照明條件,每個(gè)數(shù)據(jù)集提供“完美”和現(xiàn)實(shí)的“不完美”校正,并分別提供精確的1維和2維的浮點(diǎn)視差。本文取80%具有真值的圖像作為訓(xùn)練集,通過(guò)剩余的20%測(cè)試精度。

5.4 常用評(píng)價(jià)指標(biāo)

為了評(píng)估立體影像視差估計(jì)算法的性能或改變其某些參數(shù)的影響,需要使用規(guī)定的評(píng)價(jià)指標(biāo)來(lái)判斷估計(jì)出來(lái)的視差圖好壞。通常是通過(guò)計(jì)算一些地面真實(shí)數(shù)據(jù)的誤差統(tǒng)計(jì)來(lái)實(shí)現(xiàn)的。常用的評(píng)價(jià)指標(biāo)有以下三種:

(1)均方根誤差(RMS error),計(jì)算的視差圖dC(x,y)和地面真值圖dT(x,y)之間的均方根,即:

其中,N是像素總和。

(2)端點(diǎn)誤差(EPE),計(jì)算的視差圖dC(x,y)和地面真值圖dT(x,y)之間的平均值,即:

其中,N是像素總和。

(3)誤匹配像素百分比,計(jì)算的視差圖dC(x,y)和地面真值圖dT(x,y)相差大于δd的像素的比例,即:

其中,N是像素總和,δd可以取0.5、1.0、2.0、3.0、4.0。

對(duì)于KITTI2015基準(zhǔn)測(cè)試結(jié)果,遵循標(biāo)準(zhǔn)評(píng)估協(xié)議,綜合全圖像測(cè)試誤差,選用誤匹配像素百分比大于3個(gè)像素比例作為評(píng)價(jià)指標(biāo),即3像素誤差;鑒于與之前發(fā)表的一些研究的一致性,Instereo2K和Middlebury2014數(shù)據(jù)集選用2像素誤差作為評(píng)價(jià)指標(biāo)。

6 實(shí)驗(yàn)結(jié)果與分析

為了能夠?qū)ι疃葘W(xué)習(xí)的視差估計(jì)網(wǎng)絡(luò)在室內(nèi)場(chǎng)景圖像的性能和泛化性進(jìn)行全面的評(píng)估,本文設(shè)計(jì)了兩類實(shí)驗(yàn)。第一類實(shí)驗(yàn)將上述5種深度學(xué)習(xí)的視差估計(jì)網(wǎng)絡(luò)使用在KITTI2015數(shù)據(jù)集、Instereo2K數(shù)據(jù)集和Middlebury2014數(shù)據(jù)集上,測(cè)試其性能,并將它們和經(jīng)典的SGM方法進(jìn)行比較。第二類實(shí)驗(yàn)是為了測(cè)試深度學(xué)習(xí)視差估計(jì)模型的泛化性能,使用BGNet將三種數(shù)據(jù)集的預(yù)訓(xùn)練模型不加任何調(diào)整直接運(yùn)用到各數(shù)據(jù)集上,測(cè)試該網(wǎng)絡(luò)的魯棒性。

6.1 深度學(xué)習(xí)方法和傳統(tǒng)SGM方法的比較

5種深度學(xué)習(xí)視差估計(jì)網(wǎng)絡(luò)測(cè)試和訓(xùn)練利用深度學(xué)習(xí)平臺(tái)Pytorch進(jìn)行實(shí)現(xiàn),在Nvidia Tesla P100顯卡上進(jìn)行,顯存為16 GB。在訓(xùn)練之前,對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,將輸入的圖片進(jìn)行隨機(jī)裁剪,PSM-Net、DeepPruner、BGNet裁剪為256×512像素,GA-Net裁剪為240×576像素,LEAstereo裁剪為192×384像素。優(yōu)化器使用的是Adam(adaptive momentum)優(yōu)化器(b1=0.9,b2=0.999),最大視差值和批處理大小分別設(shè)置為192和4,學(xué)習(xí)率設(shè)置為0.001。在三種數(shù)據(jù)集上,深度學(xué)習(xí)視差估計(jì)網(wǎng)絡(luò)和SGM方法誤差占比見(jiàn)表1。

表1 深度學(xué)習(xí)網(wǎng)絡(luò)和SGM方法在實(shí)驗(yàn)中誤差占比Table 1 Percentage of deep learning networks and SGM method in experiment 單位:%

KITTI2015上能夠取得極佳的效果,在室內(nèi)圖像中也能表現(xiàn)出不錯(cuò)的效果。但由于深度學(xué)習(xí)模型對(duì)各個(gè)場(chǎng)景數(shù)據(jù)集學(xué)習(xí)能力不同,缺少在包含真實(shí)視差和表面法線數(shù)據(jù)集的訓(xùn)練,如:PSM-Net和GA-Net,相較于傳統(tǒng)的SGM算法,在室內(nèi)場(chǎng)景數(shù)據(jù)集中并沒(méi)有取得更優(yōu)的效果。視差估計(jì)網(wǎng)絡(luò)對(duì)幾何信息的提取能力,以及數(shù)據(jù)集中圖像的質(zhì)量和數(shù)量對(duì)深度學(xué)習(xí)視差估計(jì)模型的預(yù)測(cè)具有很重要的意義。通過(guò)像LEAStereo一樣充分利用左右視圖交叉參考的優(yōu)勢(shì),在表面法線等幾何信息中表現(xiàn)出強(qiáng)的性能,能夠更好地捕捉復(fù)雜場(chǎng)景的上下文信息,在室內(nèi)圖像的重建中能遠(yuǎn)超傳統(tǒng)的SGM算法。相比較而言,先進(jìn)的深度學(xué)習(xí)方法能夠減少具有挑戰(zhàn)性復(fù)雜場(chǎng)景的誤匹配現(xiàn)象,取得比傳統(tǒng)方法更好的效果。

為了更全面地評(píng)估深度學(xué)習(xí)視差估計(jì)網(wǎng)絡(luò)的性能,將KITTI數(shù)據(jù)集中的圖片分別進(jìn)行相應(yīng)裁剪,輸入各網(wǎng)絡(luò)中,分別輸出訓(xùn)練過(guò)程網(wǎng)絡(luò)參數(shù)總量和運(yùn)行時(shí)間,單位分別是MB和ms,它們都是網(wǎng)絡(luò)對(duì)一幅左右視圖進(jìn)行推理所得數(shù)值,結(jié)果如表2所示。隨著深度學(xué)習(xí)視差估計(jì)網(wǎng)絡(luò)的不斷發(fā)展,輕量級(jí)的模型能在保持良好的運(yùn)行時(shí)間和少的計(jì)算資源的條件下,取得更好的重建,對(duì)其運(yùn)用在室內(nèi)機(jī)器人定位、導(dǎo)航、交互提供良好基礎(chǔ)。

表2 深度學(xué)習(xí)視差估計(jì)網(wǎng)絡(luò)的參數(shù)量和運(yùn)行時(shí)間Table 2 Parameter numbers and running time of disparity estimation networks

為了比較深度學(xué)習(xí)模型和傳統(tǒng)SGM方法之間的差異,通過(guò)將KITTI2015和Middlebury2014視差結(jié)果進(jìn)行渲染,更加直觀地對(duì)比差異,如圖11所示。深度學(xué)習(xí)的方法所得到的視差圖更加完整,模糊的噪點(diǎn)更少。SGM方法會(huì)產(chǎn)生一些空洞區(qū)域,需要通過(guò)視差后處理消除,深度學(xué)習(xí)的方法只需將圖片輸入一個(gè)端到端的視差估計(jì)網(wǎng)絡(luò)中,直接得到視差圖,節(jié)約時(shí)間成本,且可以取得更好的效果。

圖11 不同深度學(xué)習(xí)模型的視差結(jié)果Fig.11 Disparity results of different deep learning models

6.2 泛化性能

泛化性能對(duì)于立體網(wǎng)絡(luò)來(lái)說(shuō)是非常重要的,具有良好的泛化性能對(duì)網(wǎng)絡(luò)的實(shí)際工程應(yīng)用具有重要的意義。遷移學(xué)習(xí)是將某個(gè)領(lǐng)域或任務(wù)上學(xué)習(xí)到的知識(shí)或模式應(yīng)用到不同但相關(guān)的領(lǐng)域或問(wèn)題中。為了驗(yàn)證BGNet在不同場(chǎng)景中的泛化效果,通過(guò)使用遷移學(xué)習(xí)的方法,將在一個(gè)數(shù)據(jù)集上訓(xùn)練所得的模型不經(jīng)過(guò)任何調(diào)整直接應(yīng)用于另一數(shù)據(jù)集上,通過(guò)在另外一個(gè)數(shù)據(jù)集上的精度結(jié)果,能夠反映出該網(wǎng)絡(luò)的泛化性能。表3是BGNet的預(yù)訓(xùn)練模型在各數(shù)據(jù)集上的測(cè)試結(jié)果。

表3 BGNet的預(yù)訓(xùn)練模型在各數(shù)據(jù)集上的測(cè)試結(jié)果Table 3 Test results of BGNet pretrained model on each dataset 單位:%

總體而言,深度學(xué)習(xí)的視差估計(jì)模型BGNet具有良好的泛化性能,在Middlebury2014和Instereo2K數(shù)據(jù)集上,使用KITTI2015數(shù)據(jù)集預(yù)訓(xùn)練的模型進(jìn)行測(cè)試,仍能取得不錯(cuò)的效果。而Middlebury2014預(yù)訓(xùn)練模型在Instereo2K數(shù)據(jù)集上能夠取得比KITTI2015更好的泛化性能,具有良好的魯棒性,這是由于KITTI2015數(shù)據(jù)集更多的包含的是室外場(chǎng)景的特征,對(duì)于室內(nèi)場(chǎng)景特征包含較少。由于Middlebury2014數(shù)據(jù)集可訓(xùn)練的數(shù)據(jù)量較少,Instereo2K數(shù)據(jù)集圖片質(zhì)量一般,其在KITTI2015數(shù)據(jù)集上表現(xiàn)較差,仍需增加數(shù)據(jù)集和圖像質(zhì)量。由此可以看出,在室內(nèi)場(chǎng)景立體匹配中,深度學(xué)習(xí)視差估計(jì)模型已有一定泛化性能,但在不經(jīng)任何微調(diào)的條件下,其效果并不優(yōu)于傳統(tǒng)SGM方法,其泛化性能仍然有待提升。

7 結(jié)語(yǔ)

本文對(duì)深度學(xué)習(xí)的視差估計(jì)方法進(jìn)行概述,并將其應(yīng)用在室內(nèi)圖像數(shù)據(jù)集中,針對(duì)多個(gè)不同的數(shù)據(jù)集,并與SGM方法進(jìn)行比較,并對(duì)其泛化性能進(jìn)行分析,所得結(jié)果表明,首先,在室內(nèi)圖像數(shù)據(jù)集的視差估計(jì)過(guò)程中,深度學(xué)習(xí)模型能夠取得很好的效果;其次,在深度學(xué)習(xí)模型中,以端到端的方式輸出視差圖,無(wú)需后處理,最新的深度學(xué)習(xí)方法具有比傳統(tǒng)SGM方法更好的效果;最后,深度學(xué)習(xí)的方法具有良好的泛化性能,將在經(jīng)典的KITTI2015數(shù)據(jù)集訓(xùn)練的模型,不加任何調(diào)整直接應(yīng)用在室內(nèi)圖像的數(shù)據(jù)集中能取得不錯(cuò)的效果,但和傳統(tǒng)方法相比效果一般,泛化性能有待提升。

現(xiàn)有研究面臨難題仍有:

(1)模型泛化性能有待提升,大多深度學(xué)習(xí)視差估計(jì)模型僅在訓(xùn)練的數(shù)據(jù)集上有良好的效果,用于其他不同的數(shù)據(jù)集,取得的效果一般。良好的泛化性能在實(shí)際應(yīng)用中具有重要作用。

(2)實(shí)時(shí)處理能力還較弱,現(xiàn)在所提出的視差估計(jì)網(wǎng)絡(luò)多使用3D和4D代價(jià)體,代價(jià)聚合時(shí)使用2D或3D卷積,計(jì)算量較大,計(jì)算消耗較大。開(kāi)發(fā)輕量級(jí)、計(jì)算量較小的網(wǎng)絡(luò)仍是所面臨的挑戰(zhàn)之一。

(3)無(wú)紋理、反射表面和遮擋區(qū)域等不適定區(qū)域,很難找到精確的對(duì)應(yīng)點(diǎn),將高級(jí)場(chǎng)景理解和低級(jí)特征學(xué)習(xí)相結(jié)合,更多地融合上下文信息,充分學(xué)習(xí)全局信息是解決途徑之一。

猜你喜歡
代價(jià)卷積像素
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)加速優(yōu)化方法
像素前線之“幻影”2000
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計(jì)數(shù)
“像素”仙人掌
幸災(zāi)樂(lè)禍的代價(jià)
幸災(zāi)樂(lè)禍的代價(jià)
代價(jià)
高像素不是全部