劉建國 馮云劍 紀郭 顏伏伍 朱仕卓
(武漢理工大學 現(xiàn)代汽車零部件技術(shù)湖北省重點實驗室∥汽車零部件技術(shù)湖北省協(xié)同創(chuàng)新中心∥湖北省新能源與智能網(wǎng)聯(lián)車工程技術(shù)研究中心,湖北 武漢 430070)
在許多高級視覺任務中(如無人駕駛[1]、機器人控制[2]和虛擬現(xiàn)實[3]等),獲取物體的距離信息是至關(guān)重要的。雙目測距方法因其成本低、精度高、布置簡單等優(yōu)勢,具有廣泛的應用前景。在雙目測距任務中,如何快速準確地獲得視差信息是亟待解決的關(guān)鍵問題。從一對雙目圖像中尋找到對應的匹配點來計算視差,進而根據(jù)相似三角形原理計算距離的過程就是立體匹配。在過去的幾十年,出現(xiàn)了許多優(yōu)秀的立體匹配算法,如半全局匹配SGM[4]等。傳統(tǒng)算法將立體匹配分解為匹配成本計算、成本聚合、視差值計算和視差優(yōu)化4個步驟[5],但傳統(tǒng)算法普遍存在計算速度慢、匹配精度低等問題,這極大地限制了立體匹配算法的應用。近幾年,卷積神經(jīng)網(wǎng)絡在眾多視覺任務中取得了引人注目的突破性進展,如目標檢測[6]、語義分割[7]等。許多關(guān)于深度學習在立體匹配領(lǐng)域中的應用的研究也在逐步展開,Zbontar等[8]提出的MC-CNN網(wǎng)絡首次將卷積神經(jīng)網(wǎng)絡應用于匹配成本計算,利用卷積從一對立體圖像中獲取更加抽象、更具魯棒性的特征,并計算出兩者之間的相似性作為匹配成本;隨后,Mayer等[9]提出了端到端訓練的立體匹配網(wǎng)絡DispNetC,將立體匹配的4個步驟整合在一個網(wǎng)絡中,該網(wǎng)絡能夠從一對立體圖像中直接計算得到對應的視差圖,這逐漸成為立體匹配算法的主流研究方向;為了滿足卷積神經(jīng)網(wǎng)絡訓練的需求,Mayer等還公開了一個帶有真實值的大規(guī)模合成數(shù)據(jù)集SceneFlow,這極大地方便了立體匹配網(wǎng)絡的研究和試驗。
Kendall等[10]提出的GCNet(Geometry and Context Network),則采用了一種新的計算視差的方法。首先,分別從左右圖像中提取特征圖,將不同視差下的特征圖級聯(lián)起來構(gòu)成了匹配代價卷(Matching Cost Volume),匹配代價卷明確地表達了圖像的幾何特征;然后對匹配代價卷進行3D卷積,3D卷積能夠從高度、寬度和視差3個維度提取特征表征,這對于學習環(huán)境信息和改善立體匹配效果是十分重要的,3D卷積同樣帶來了維度增加、運算量過大的問題,編碼解碼(EncodE-decode)結(jié)構(gòu)很好地解決了這個問題。除此之外,由于實際應用場景中,物體的尺寸是多種多樣的,如果將注意力集中在大的物體上(如地面、墻壁、天空等),則會忽視許多精細的細節(jié)信息;如果將注意力集中在小的物體上(如行人、柵欄、交通標志等),則在處理弱紋理表面,反光表面等需要全局環(huán)境信息的情況下,存在較大的困難。因此如何充分利用多尺度下的環(huán)境信息,是構(gòu)建立體匹配網(wǎng)絡時所要解決的關(guān)鍵問題。Chang等[11]提出了PSMNet(Pyrmaid Stereo Matching Network)網(wǎng)絡,在特征提取部分,采用深層的殘差神經(jīng)網(wǎng)絡(ResNet)[12]作為主干網(wǎng)絡,再利用SPP (Spatial Pyrmaid Pooling)空間金字塔結(jié)構(gòu)[13]獲取不同尺度感受野下的特征信息,將全局信息和局部信息結(jié)合起來構(gòu)成匹配代價卷。
與卷積神經(jīng)網(wǎng)絡在其他視覺任務中的發(fā)展過程相似,雖然立體匹配網(wǎng)絡的精度在不斷提高,但網(wǎng)絡的深度也在不斷增加,隨之而來的是網(wǎng)絡參數(shù)數(shù)量迅速增加、計算成本越來越高。He等[12]提出的帶有跳躍連接的殘差神經(jīng)網(wǎng)絡,其網(wǎng)絡層數(shù)超過了100層,網(wǎng)絡參數(shù)甚至超過千萬,這使得網(wǎng)絡需要多個高性能的GPU訓練上百個小時。為了提高計算速度,許多網(wǎng)絡不得不利用帶有步長的卷積或者池化操作來縮小圖像尺寸、降低圖像的分辨率,再通過反卷積或者雙邊上采樣來恢復圖像尺寸,這一過程無疑會丟失許多空間細節(jié)信息。在卷積神經(jīng)網(wǎng)絡中,低層級的神經(jīng)網(wǎng)絡能夠提取更直接的空間特征(如顏色、邊緣和角點等),而高層級的神經(jīng)網(wǎng)絡用于提取更加抽象的特征(如語義信息)。立體匹配作為一個低層級的視覺任務,更多的依賴于圖像的空間結(jié)構(gòu)、顏色等特征。因此,本研究提出一個問題,即在立體匹配任務中,如此深層次的網(wǎng)絡結(jié)構(gòu)是否是必要的。
基于上述的問題,本研究在PSMNet的基礎(chǔ)上,拋棄了深度卷積神經(jīng)網(wǎng)絡結(jié)構(gòu),試圖建立一個層級更少,但視野更加寬廣的網(wǎng)絡,以保留更加豐富的空間結(jié)構(gòu)信息。首先,利用3個卷積層從輸入圖像中提取特征圖;然后利用深色空間金字塔結(jié)構(gòu)(Atrous Spatial Pyramid Pooling,ASPP)[14]取代ResNet+SPP結(jié)構(gòu)的組合,以擴大感受野,獲得不同尺度下的空間信息,并通過一個特征融合模塊,將不同尺度的特征信息融合起來;通過級聯(lián)每個視差級別上的左特征圖和對應右特征圖,得到匹配代價卷,利用一個沙漏型的3D卷積網(wǎng)絡,聚合視差維度上的特征信息,尋找在不同視差條件下特征點之間的對應關(guān)系;最后采用回歸的方式得到視差圖。
文中提出一種具備淺層結(jié)構(gòu)和寬闊視野的立體匹配網(wǎng)絡SWNet,該網(wǎng)絡由3個部分構(gòu)成:特征提取、3D卷積和視差回歸。其網(wǎng)絡的結(jié)構(gòu)如圖1所示(圖中天藍色矩形表示2維的卷積運算;立方體則表示3維的卷積運算;虛線包圍的內(nèi)容為編碼解碼器),具體的網(wǎng)絡參數(shù)見表1(其中K表示卷積核尺寸,C表示輸出通道數(shù),S表示卷積步長,B表示空洞卷積擴張率,BN表示批規(guī)則化,ReLU表示使用激活函數(shù),H表示圖像的高度,W表示圖像寬度,D表示最大視差值,concat表示特征圖級聯(lián)操作,SElayer表示為每個特征圖分配權(quán)重,de表示反卷積層)。受篇幅限制,表中只展示了一個沙漏型結(jié)構(gòu)的參數(shù),其他沙漏型結(jié)構(gòu)與其相同。
與PSMNet[11]采用更深的殘差神經(jīng)網(wǎng)絡提取特征的方法不同,本研究采用了一種結(jié)構(gòu)更簡單但視野更寬廣的網(wǎng)絡結(jié)構(gòu)。首先,一對立體圖像分別經(jīng)過3個卷積核大小為3*3的卷積層,每一層都跟隨著批規(guī)則化層(Batch Normalization Layer)和ReLU激活函數(shù)層,其中只有第一個卷積層的步長為2,將圖像的尺寸縮小為原來的二分之一,其余的卷積層步長均是1,以保留更多的空間結(jié)構(gòu)信息。由上文可知,捕捉多尺度的空間信息是非常重要的,為此PSMNet采用了SPP模塊來聚合多尺度的空間信息。而文中所提出的網(wǎng)絡由于層數(shù)較少,所以感受野的尺寸受限,如果使用SPP模塊效果并不好(具體見后文實驗部分)。因此,受DeepLab v2[14]的啟發(fā),本研究采用了ASPP(Atrous Spatial Pyramid Pooling)結(jié)構(gòu)。
圖1 網(wǎng)絡結(jié)構(gòu)圖
表1SWNet網(wǎng)絡結(jié)構(gòu)參數(shù)表
Table1Network structure parameters of SWNet
表1(續(xù))
對于普通的卷積層,其感受野的大小與卷積核的尺寸直接相關(guān),通常卷積核的尺寸為3*3,如果需要獲得更大的感受野,可以選擇更大尺寸的卷積核(如7*7或9*9);另一種方法則是采用多個卷積層的級聯(lián),比如3個3*3的卷積層級聯(lián)起來,感受野的尺寸等效為7*7的卷積核。這兩種方法都會增加參數(shù)數(shù)目、增加計算成本,這與本研究的初衷背道而馳??斩淳矸e則能夠在不增加參數(shù)數(shù)目的條件下擴大感受野的范圍,甚至通過調(diào)整擴張率,可以獲得不同感受野尺寸的卷積層,其結(jié)構(gòu)如圖2所示,其數(shù)學原理如式(1)所示:
w[n][m]
(1)
式中:N表示卷積核的寬;M表示卷積核的高;參數(shù)r表示擴張率,對于普通的卷積層,r=1,即卷積核是一個密集的二維矩陣,如圖2(a)。
空洞卷積則可以選擇不同的擴張率,得到一個帶有空洞的卷積核,增加感受野的范圍,且參數(shù)數(shù)目不變,如圖2(b)。這種結(jié)構(gòu)的弊端也是顯而易見的,感受野是稀疏的,空洞部分會損失信息,為了解決這個問題,本研究引入了ASPP結(jié)構(gòu)。采用不同擴張率(如:4、8、12、16)的空洞卷積構(gòu)成4個平行的分支,特征圖分別經(jīng)過4個分支提取不同尺度的空間信息,4個分支之間可以互為補充,將輸出累加起來得到包含不同尺度信息的、擁有大范圍感受野的特征圖。
與直接將不同尺度的特征信息累加起來的處理方式不同,文中采用一個特征融合模塊將不同尺度的特征信息快速有效的融合起來。首先,將各個分支得到的特征圖級聯(lián)起來得到一個特征圖組,由于每個特征圖中所包含信息的重要性不同,因此受SENet[15]的啟發(fā),本研究為每個特征圖賦予一個特定的權(quán)重,權(quán)重的計算方法如圖3所示,特征圖組經(jīng)全局平均池化轉(zhuǎn)化為一維的特征向量,瓶頸結(jié)構(gòu)用于限制參數(shù)數(shù)量,再利用sigmoid函數(shù)獲得各個通道之間的權(quán)重,其中瓶頸結(jié)構(gòu)是由兩個1*1的卷積層和一個ReLU激活層構(gòu)成的,第一個卷積層將通道數(shù)壓縮至原來的四分之一,經(jīng)ReLU函數(shù)激活之后,再由第二個卷積層將通道數(shù)恢復,將權(quán)重系數(shù)與對應的特征圖相乘,即得到加權(quán)的特征圖組;然后將初始特征圖通過跳躍連接與加權(quán)的特征圖組級聯(lián)起來,經(jīng)過2個3*3的卷積層將通道數(shù)壓縮為32,得到最終的融合特征圖。
圖2 普通卷積與空洞卷積示意圖
使用兩個結(jié)構(gòu)相同且權(quán)值共享的特征提取網(wǎng)絡分別從輸入的左右圖像提取特征信息,以保證匹配點在對應通道上的特征值是相同的。
圖3 ASPP和特征融合模塊結(jié)構(gòu)圖
如GC- Net[10]一樣,本研究利用融合特征圖構(gòu)成了匹配代價卷,通過將左特征圖和每個視差下對應的右特征圖串聯(lián)起來,得到了一個4D的卷,包含高度、寬度、視差和特征4個維度。這種方法保留了特征維度,并將其融入到匹配代價卷中。相比于計算特征相關(guān)性或使用其他距離度量函數(shù),該方法能夠有效地提升立體匹配網(wǎng)絡的表現(xiàn)。
鑒于已獲得的匹配代價卷,需要學習一種模型來聚合并規(guī)則化其所包含的視差信息和環(huán)境特征信息。與GC- Net[10]和PSMNet[11]相同,本研究采用了3D卷積神經(jīng)網(wǎng)絡(3D CNN)的方式,其能夠從高度、寬度和視差3個維度上學習特征表示。利用編碼解碼結(jié)構(gòu)解決了3D CNN造成的運算量過大的問題,在編碼器部分利用2個步長為2的3D卷積對卷進行下采樣;在解碼器部分,對稱地使用2個步長為2的3D反卷積層恢復卷的尺寸。但該結(jié)構(gòu)不可避免地會造成空間信息的損失,因此參照ResNet的跳躍連接結(jié)構(gòu),將編碼器和解碼器對應尺寸的卷連接起來,如圖1所示。該方法能夠在反卷積恢復卷分辨率的過程中,補充丟失的細節(jié)信息和來自低層級卷的高頻信息。為了保證網(wǎng)絡能夠提取到足夠多的細節(jié)信息,將3個相同的編碼解碼器連接起來,并計算每個編碼解碼器輸出的損失,以實現(xiàn)對網(wǎng)絡的深度監(jiān)督。最后,由編碼解碼器得到的匹配代價卷,通過雙邊線性插值的方式恢復到原始尺寸,用于接下來的視差回歸計算。
采用Soft Argmin[10]操作以回歸的方式估計視差,該方法是完全可微分的并且能夠得到平滑的視差估計結(jié)果。首先,計算對于每一個像素點屬于每一個視差值的概率,匹配代價卷經(jīng)過3D CNN和上采樣處理,得到在所有視差下每個像素的匹配成本,成本越大則表示匹配的概率越低,因此取預測成本的負值,并通過Softmax操作進行正則化處理,得到每個像素屬于不同視差的概率;然后,以概率值作為權(quán)重,對視差進行加權(quán)求和,得到每個像素點處的視差值,如式(2)所示:
(2)
式中:d表示預測視差值;Cd表示在視差d下的匹配成本;σ(·)表示Softmax操作,其數(shù)學表達式為
(3)
式中,j=1,2,…,K。
由于平滑的L1損失函數(shù)具有較強的魯棒性和對異常值的低敏感性[16],本研究同樣采用其作為基礎(chǔ)損失函數(shù),如式(4)所示:
(4)
其中,
(5)
文中采用了一種深度監(jiān)督的訓練方式,不僅對網(wǎng)絡最終的輸出結(jié)果進行監(jiān)督,并且對網(wǎng)絡中間層級得到的結(jié)果進行監(jiān)督。具體來說,就是對每個編碼解碼結(jié)構(gòu)輸出的卷進行視差回歸,并計算損失值。最終的損失值是由每一個層級的損失值加權(quán)求和得到的,如式(6)所示:
(6)
式中:wi表示不同層級損失的權(quán)重;M表示受監(jiān)督的層級數(shù)。根據(jù)參考文獻[11]的實驗結(jié)果,文中取M=3,各層對應的權(quán)重參數(shù)分別為w1=0.5、w2=0.7、w3=1.0。
在這一節(jié)中,展示了本網(wǎng)絡在兩個數(shù)據(jù)集(SceneFlow[9]和KITTI2015[17])上的試驗和測試結(jié)果。首先,詳細地介紹了本網(wǎng)絡的實現(xiàn)細節(jié)以及訓練策略;其次,介紹了兩個數(shù)據(jù)集的相關(guān)信息;然后,對不同的網(wǎng)絡結(jié)構(gòu)進行消融實驗,以測試網(wǎng)絡結(jié)構(gòu)和參數(shù)設置對結(jié)果的影響;最后,展示了在KITTI2015排行榜上文中所提算法的結(jié)果與其他優(yōu)秀算法結(jié)果的比較。
在Ubuntu環(huán)境下,使用Pytorch深度學習架構(gòu),實現(xiàn)了本研究提出的立體匹配網(wǎng)絡SWNet。使用NVIDIA1080Ti GPU對模型進行端到端的訓練,批尺寸設置為3,使用Adam優(yōu)化器,優(yōu)化參數(shù)分別設置為β1=0.9、β2=0.99。對于所有數(shù)據(jù)集,訓練圖像的尺寸設置為512×256,所有圖像的RGB數(shù)值被歸一化至[-1,1]范圍內(nèi),最大視差值Dmax設置為192。對于SceneFlow數(shù)據(jù)集,以固定的學習率0.001訓練10個周期;對于KITTI2015數(shù)據(jù)集,本研究使用在SceneFlow數(shù)據(jù)集上預訓練得到的模型進行進一步的優(yōu)化訓練。優(yōu)化訓練共300個周期,其中,前200個周期,學習率為0.001,后100個周期,學習率調(diào)整為0.0001。
本研究使用了兩個公開的數(shù)據(jù)集進行網(wǎng)絡的訓練和測試。
SceneFlow:一個大規(guī)模的合成數(shù)據(jù)集,包含35454張訓練圖片和4370張測試圖片,圖片的尺寸為960×540,提供稠密的視差圖作為真實值。其中部分像素的視差值超過了本研究設置的最大視差值,在計算損失時這部分像素點將被忽略掉。
KITTI2015:一個在真實的街道場景下采集的立體數(shù)據(jù)集,包含200張訓練圖片和200張測試圖片,圖片的尺寸為1240×376,對于訓練集提供了由激光雷達采集得到的稀疏視差圖作為真實值。為了方便試驗,本研究隨機選擇訓練集中的40對立體圖像作為測試集,其余160對立體圖像作為訓練集。
在本節(jié)中,將對SWNet的每一個組成部分的作用進行細致的研究,并測試不同的參數(shù)配置對于結(jié)果的影響。在接下來的研究中,以與文中提出的網(wǎng)絡最為相似的PSMNet作為參考,在SceneFlow和KITTI2015測試集上評估文中提出的網(wǎng)絡。
對于SceneFlow數(shù)據(jù)集,本研究采用終點誤差(End- point Error,EPE)表示匹配的準確率,計算每個像素點的預測視差值與真實視差值之間的歐氏距離并取平均,誤差越大表示匹配準確率越低。終點誤差的計算方法如下所示:
(7)
對于KITTI2015數(shù)據(jù)集,本研究采用3像素誤差(3px-Error)表示匹配的準確率,3像素誤差是指預測視差值與真實視差值之間差值的絕對值超過3的像素點的數(shù)量占整幅圖像的比例。比例越高說明誤匹配點的數(shù)量越多,匹配準確率越低。3像素誤差的計算方法如下所示:
(8)
其中,
(9)
本研究首先對SPP結(jié)構(gòu)進行測試,并以此為參照,通過減少卷積步長,測試圖像尺寸對于匹配效果的影響;然后,對ASPP結(jié)構(gòu)以及特征融合模塊的作用進行實驗;最后,將本研究提出的具備淺層結(jié)構(gòu)和寬闊視野的網(wǎng)絡與基于殘差網(wǎng)絡的深度特征提取網(wǎng)絡進行對比。實驗結(jié)果如表2所示。
表2 不同網(wǎng)絡結(jié)構(gòu)的效果評估
注:“√”表示在特征提取網(wǎng)絡中增加了對應的模塊;“×2”表示圖像的尺寸相對于PSMNet放大了2倍。
由表1中的實驗結(jié)果可以發(fā)現(xiàn),SPP模塊在SceneFlow數(shù)據(jù)集上起到一定作用,但在KITTI 2015數(shù)據(jù)集上的表現(xiàn)并不好;增加圖像尺寸能夠有效提高匹配精度;ASPP結(jié)構(gòu)與特征融合模塊的引入,使得本研究設計的網(wǎng)絡在精度上超過了參考網(wǎng)絡PSMNet。
2.3.1 對SPP結(jié)構(gòu)的消融實驗
首先對SPP結(jié)構(gòu)進行了實驗。分別采用了平均值池化和最大值池化兩種方式,金字塔池化結(jié)構(gòu)中選擇的池化核的尺寸為[64×64,32×32,16×16,8× 8],其結(jié)果如表3所示。
表3 SPP結(jié)構(gòu)的實驗結(jié)果
結(jié)合表2和表3中的實驗結(jié)果可知,在SceneFlow數(shù)據(jù)集上,SPP結(jié)構(gòu)改善了視差估計的效果,應用平均值池化可以將終點誤差從1.23降低到1.15;應用最大值池化的效果更好,誤差由1.23降低到1.08。但在KITTI 2015數(shù)據(jù)集上,SPP反而使得結(jié)果有所惡化,研究認為這是由于KITTI 2015數(shù)據(jù)集中的場景更為復雜,而本研究設計的網(wǎng)絡層次較少,導致感受野范圍較小,直接使用SPP結(jié)構(gòu)會導致池化和上采樣的過程中損失較多的空間信息,使得網(wǎng)絡的表征效果變差。
2.3.2 對圖像尺寸的消融實驗
在PSMNet網(wǎng)絡中,由于采用了ResNet結(jié)構(gòu),網(wǎng)絡層級較深、參數(shù)較多,受到計算機內(nèi)存和計算能力的限制,必須利用卷積或池化降低輸入圖像的分辨率,以降低計算成本。由于文中使用的網(wǎng)絡層級更淺,允許對更大尺寸的圖像進行處理,因此在特征提取階段,僅使用一次步長為2的卷積操作,使輸入圖像的尺寸縮小至原來的1/2,而不是PSMNet中采用的縮小至原來的1/4的方式。由表1可知,雖然只是一個微小的改動,但無論是對SPP結(jié)構(gòu)還是ASPP結(jié)構(gòu),其效果都有明顯的改善,對于SPP結(jié)構(gòu),圖像尺寸相對于PSMNet放大2倍后,在數(shù)據(jù)集SceneFlow上的誤差由1.15降低為1.11、在數(shù)據(jù)集KITTI 2015上的誤差由2.09%降低為1.91%。
這說明維持圖像的原始分辨率對于保留圖像的空間信息至關(guān)重要,因此在解決立體匹配等需要空間結(jié)構(gòu)信息且輸出圖像與輸入圖像分辨率相同的任務時,更淺但更寬的網(wǎng)絡結(jié)構(gòu)更加適合。
2.3.3 對ASPP結(jié)構(gòu)的實驗
由于在ASPP結(jié)構(gòu)中,擴張率是需要人工確定的超參數(shù),為了實現(xiàn)最優(yōu)化,本研究對ASPP結(jié)構(gòu)中擴張率進行試驗,共設置了6組參數(shù),前3組參數(shù)以3為基數(shù),后3組參數(shù)以2為基數(shù),實驗結(jié)果如表4所示。需要注意的是,為了避免特征融合模塊對ASPP結(jié)構(gòu)的影響,在本實驗中,取消了特征融合模塊,而采用傳統(tǒng)的特征圖累加的方式。
表4 ASPP結(jié)構(gòu)的實驗結(jié)果
由表4可知,擴張率對于視差估計的準確率有一定影響。如果擴張率過小,則感受野的范圍較小,無法得到足夠的環(huán)境信息;如果擴張率過大,則感受野的范圍較大,容易丟失目標的細節(jié)信息;而且以2為基數(shù)的擴張率,其效果普遍優(yōu)于以3為基數(shù)的參數(shù)選擇方案。因此根據(jù)實驗結(jié)果,文中選擇擴張率的范圍是[4,8,12,16]。
2.3.4 對網(wǎng)絡深度的實驗
為了探究網(wǎng)絡結(jié)構(gòu)的深度與寬度對立體匹配效果的影響,本研究利用深度不同的ResNet結(jié)構(gòu)作為主干網(wǎng)絡進行了測試。實驗結(jié)果如表5所示。
由表5可知,隨著網(wǎng)絡深度增加,立體匹配的誤差逐漸下降,但參數(shù)數(shù)量也迅速的增加,運算時間也有明顯增長。從ResNet- 34到ResNet- 50,網(wǎng)絡深度增加16層,參數(shù)數(shù)量增加了6×105個,KITTI 2015的3像素誤差降低了12.4%;但從ResNet- 50到ResNet- 101,網(wǎng)絡深度增加51層,參數(shù)數(shù)量也增加了一倍,且運算時間增加了0.05 s,KITTI 2015的3像素誤差只下降了3%,由此可知,一味增加網(wǎng)絡深度的代價很高,受益卻有限。
表5 對網(wǎng)絡結(jié)構(gòu)深度的實驗結(jié)果
網(wǎng)絡參數(shù)數(shù)量與KITTI 2015的3像素誤差的對應關(guān)系圖4所示。由圖4可見,SWNet通過增加網(wǎng)絡的寬度,雖然網(wǎng)絡參數(shù)只有不到ResNet- 101的1/4,卻實現(xiàn)了超過ResNet- 101的效果。所以,通過增加網(wǎng)絡結(jié)構(gòu)的視野寬度,收益率會更高。
圖4 網(wǎng)絡參數(shù)數(shù)量與KITTI 2015的3像素誤差的對應關(guān)系
Fig.4 Relationship between the number of network parameters and KITTI 2015 threE-pixel error
將訓練好的網(wǎng)絡得到的結(jié)果上傳至KITTI評測網(wǎng)站,與其他優(yōu)秀的算法進行比較。表6中展示了KITTI 2015數(shù)據(jù)集上部分算法的表現(xiàn)。
由表6可知,本研究提出的網(wǎng)絡,與之前的網(wǎng)絡[9- 10,18- 20]相比在精度上有較大的提高,并且參數(shù)數(shù)量最少;與參考網(wǎng)絡PSMNet相比,整體的誤匹配率由2.32%下降至2.24%,且參數(shù)數(shù)量縮減了將近50%(從4.5×106個下降到2.3×106個),這為立體匹配網(wǎng)絡應用到移動端平臺(如Jetson TX2)提供了可能。運行時間方面,為保證數(shù)據(jù)的可信度,表6中的各項數(shù)據(jù)均來自于公開發(fā)表的論文,但運行時間這一指標與實驗設備的性能緊密相關(guān),在相同的試驗條件下PSMNet的運行時間為0.52 s,本研究提出的算法的計算時間為0.40 s,效率提高了約23%。
表6 KITTI 2015立體匹配排行榜
注:D1表示視差圖中誤匹配點所占的比例,bg表示背景區(qū)域,fg表示前景區(qū)域,all表示整個區(qū)域。
圖5展示了GC-Net、PSMNet和本研究提出的SWNet網(wǎng)絡生成的部分視差圖和KITTI測評網(wǎng)站給出的誤差圖(誤差圖中藍色的點表示正確匹配的點,黃色的點表示誤匹配點,黑色表示忽略的點)。圖中黑色的圓圈標記出了GC-Net和PSMNet匹配效果較差的部分,通常出現(xiàn)在鐵索、柵欄等包含細小結(jié)構(gòu)的位置,而本研究設計的網(wǎng)絡通過增加ASPP結(jié)構(gòu),改善了在這些病態(tài)區(qū)域的匹配精度。
(a)輸入左圖
(b)GC-Net視差圖
(c)PSMNet視差圖
(d)SWNet視差圖
(e)SWNet誤差圖
本研究提出了一種具備淺層結(jié)構(gòu)和寬廣視野的立體匹配網(wǎng)絡——SWNet。淺層結(jié)構(gòu)的特征提取網(wǎng)絡減少了對于圖像的壓縮,保留了更加完整的特征信息。利用ASPP和特征融合模塊有效地擴大了網(wǎng)絡的感受野范圍,并提取了不同尺度的特征信息,用于構(gòu)建四維的匹配代價卷。3D卷積神經(jīng)網(wǎng)絡進一步的規(guī)則化匹配代價卷,并利用帶有跳躍連接的編碼解碼器,聚合了上下文信息。最終采用回歸的方式得到視差圖。與其他立體匹配網(wǎng)絡相比,本研究提出的網(wǎng)絡,層數(shù)更少、參數(shù)更少、處理速度更快,并且匹配的準確率更高。但網(wǎng)絡仍然存在泛化能力有限,在重復紋理區(qū)域和弱紋理區(qū)域等病態(tài)區(qū)域匹配效果較差的問題。最近,無監(jiān)督網(wǎng)絡與多任務融合網(wǎng)絡發(fā)展迅速,無監(jiān)督網(wǎng)絡不再依賴大規(guī)模的帶有真實值的數(shù)據(jù)集,這使得網(wǎng)絡的訓練將更加容易,有助于提高網(wǎng)絡的泛化能力,而多任務融合網(wǎng)絡則是將其他視覺任務與立體匹配相結(jié)合,這有助于解決立體匹配在病態(tài)區(qū)域誤匹配率較高的問題,這將是我們下一步的研究目標。