摘 要: 為克服細(xì)節(jié)區(qū)域精細(xì)立體匹配問題,本文提出了基于引導(dǎo)優(yōu)化的立體匹配網(wǎng)絡(luò). 首先,構(gòu)建基于引導(dǎo)可變形卷積的引導(dǎo)優(yōu)化模塊,不同于可變形卷積,該模塊對額外輸入的引導(dǎo)特征進行偏移量和調(diào)制標(biāo)量學(xué)習(xí),增強可變形卷積的變形參數(shù)學(xué)習(xí)能力. 其次,設(shè)計基于引導(dǎo)優(yōu)化模塊的引導(dǎo)優(yōu)化立體匹配網(wǎng)絡(luò),該網(wǎng)絡(luò)提出了基于3D 代價聚合和2D 引導(dǎo)優(yōu)化聚合的三級串聯(lián)代價聚合模塊,逐步優(yōu)化細(xì)節(jié)區(qū)域的配準(zhǔn)精度. 實驗結(jié)果顯示,在SceneFlow、KITTI等標(biāo)準(zhǔn)數(shù)據(jù)集中,與先進算法相比,該算法可實現(xiàn)細(xì)節(jié)區(qū)域的高精度配準(zhǔn). 其中,引導(dǎo)優(yōu)化模塊適用性測試結(jié)果顯示,在KITTI2015 數(shù)據(jù)集中,增加引導(dǎo)優(yōu)化模塊后GwcNet、AANet 等先進算法的D1-noc、D1-all 值均產(chǎn)生20% 左右的提升.
關(guān)鍵詞: 立體匹配; 引導(dǎo)可變形卷積; 引導(dǎo)聚合; 多特征提?。?邊緣保持
中圖分類號: TP391. 41 文獻標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 043007
1 引言
立體匹配旨在對雙目相機捕獲的雙目圖像進行深度信息計算[1,2]. 它在低空遙感[3,4]、自主導(dǎo)航[5]、探測成像[6]等計算機視覺領(lǐng)域中起著至關(guān)重要的作用. 隨著MC-CNN 首次將卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)用于解決立體匹配問題[7],近年來,基于學(xué)習(xí)的立體匹配方法已經(jīng)取得了許多高質(zhì)量的研究成果,但針對細(xì)節(jié)區(qū)域的高精度立體匹配計算仍是挑戰(zhàn)性問題.
為了處理該問題,現(xiàn)有的立體匹配網(wǎng)絡(luò)通常從特征提取、代價體構(gòu)建、代價聚合、視差回歸及視差優(yōu)化等5 個步驟進行優(yōu)化[8]. 其中,代價聚合在提升算法精度上有著重要的作用. 近年來,面向立體匹配代價聚合的相關(guān)工作大致可以分為2 類:一類是2D 代價聚合;另一類是3D 代價聚合.
最初的基于學(xué)習(xí)的立體匹配架構(gòu)采用2D 聚合方式,其結(jié)構(gòu)簡單、快速高效,甚至在不考慮立體匹配中的幾何約束的情況下能夠回歸高精度視差[9]. 在網(wǎng)絡(luò)架構(gòu)方面,基于2D 卷積的代價聚合一般采用大型U 形編碼器-解碼器網(wǎng)絡(luò)來實現(xiàn)[10,11],將多層特征圖通過卷積壓縮到1 層得到視差圖.另一方面,它可將對回歸視差圖有幫助的特征層進行串聯(lián)用于輔助聚合,如EdgeStereo[12]將相關(guān)代價體、左圖像特征、邊緣特征串聯(lián)進行聚合,從而實現(xiàn)邊緣感知的立體匹配.
為了進一步提升匹配算法的精度,3D 卷積逐漸被應(yīng)用到代價聚合中. Kendall 等[13]首次提出了基于3D 卷積的立體匹配網(wǎng)絡(luò)GCNet,該結(jié)構(gòu)根據(jù)對極幾何原理構(gòu)建連結(jié)代價體,并使用3D 卷積來聚合. 此后大部分研究主要圍繞3D 卷積展開,Chang 等[14]提出了沙漏聚合網(wǎng)絡(luò),提高了匹配精度;Guo 等[15]對沙漏結(jié)構(gòu)進行優(yōu)化,進一步改進了沙漏結(jié)構(gòu)的性能. 3D 代價聚合通常在低分辨率下進行特征匹配與聚合,如PSMNet 采用原圖像1/4的寬高下進行,GANet[16]采用原圖像1/3 的寬高下進行,最終低分辨率代價體線性上采樣到全分辨率代價體從而回歸視差. 該策略對于提升算法的計算速度有出色的效果,同時也表現(xiàn)出優(yōu)于2D 立體匹配算法的精度,但隨著分辨率的降低,使得原始圖像中細(xì)節(jié)區(qū)域的特征損失、邊緣區(qū)域特征模糊等問題逐步顯現(xiàn),從而造成匹配視差圖細(xì)節(jié)、邊緣區(qū)域匹配誤差較大,如圖1 所示(a 為左輸入圖像;b 為a 的局部視圖;c 為算法ACVNet[17]對應(yīng)的b視圖的視差圖;d 為本文算法對應(yīng)的b 視圖的視差圖,e 為b 視圖的真實視差圖). 而基于全分辨率的3D 立體匹配算法,易產(chǎn)生極大的計算量和內(nèi)存消耗,因此一般不會被采用.
綜上,基于低分辨率的3D 卷積立體匹配算法可以有效回歸高精度視差圖,但是損失了細(xì)節(jié)信息;基于2D 卷積的立體匹配可以補充細(xì)節(jié)信息輔助聚合,并在全分辨率上進行聚合,但是精度不如3D 聚合. 基于此,首先,本文提出了融合3D 代價聚合與2D 引導(dǎo)優(yōu)化代價聚合的三級串聯(lián)的引導(dǎo)優(yōu)化代價聚合網(wǎng)絡(luò)架構(gòu)(guided refinement stereomatching network,GRNet)實現(xiàn)高精度、細(xì)節(jié)完整的立體匹配,通過3D 代價聚合來提高匹配精度,通過構(gòu)建2D 引導(dǎo)優(yōu)化代價聚合來恢復(fù)出細(xì)節(jié)信息. 其次,為了進一步解決細(xì)節(jié)區(qū)域匹配混亂、邊緣區(qū)域匹配誤差較大的問題,本文根據(jù)可變形卷積[18]思想提出引導(dǎo)可變形卷積(guided deformableconvolution,GDCN). 相對于傳統(tǒng)可變形卷積,GDCN 更適應(yīng)于局部細(xì)節(jié)區(qū)域代價聚合. 此外,2D 引導(dǎo)優(yōu)化代價聚合模塊可在全分辨率下引導(dǎo)代價體進行細(xì)化聚合,通過添加原始圖像等額外的輔助信息來引導(dǎo)恢復(fù)細(xì)節(jié)以及邊緣區(qū)域的代價值,且具有較低的成本開銷.
2 方法
2. 1 引導(dǎo)可變形卷積
可變形卷積通過對輸入特征進行偏移量和調(diào)制標(biāo)量的學(xué)習(xí),打破卷積結(jié)構(gòu)固定位置采樣的局限,可以有效適應(yīng)物體在尺度、姿態(tài)和局部形態(tài)等特征上的變化. 但是可變形卷積強調(diào)自適應(yīng)性學(xué)習(xí),對幾何變換的建模能力與傳統(tǒng)卷積相似,都依賴大量數(shù)據(jù)學(xué)習(xí)以及更深層的網(wǎng)絡(luò)結(jié)構(gòu). 為了進一步增強可變形卷積網(wǎng)絡(luò)對立體匹配任務(wù)的建模能力,本文提出具有引導(dǎo)先驗學(xué)習(xí)能力的可變形卷積結(jié)構(gòu)——引導(dǎo)可變形卷積(GDCN).
不同于可變形卷積的單輸入結(jié)構(gòu),本文增加了額外引導(dǎo)特征輸入通道,構(gòu)建雙通道輸入結(jié)構(gòu)( 如圖2 中“guide feature map”和“input featuremap”). 其中,引導(dǎo)特征和輸入特征的分辨率相同. 與可變形卷積通過對輸入特征直接進行偏移量和調(diào)制標(biāo)量學(xué)習(xí)不同,本文引導(dǎo)可變形卷積首先針對引導(dǎo)特征進行偏移量和調(diào)制標(biāo)量學(xué)習(xí);其次通過偏移量和調(diào)制標(biāo)量對輸入特征進行可變形卷積引導(dǎo)計算. 在引導(dǎo)可變形卷積中,引導(dǎo)特征加強了可變形卷積的偏移量和調(diào)制標(biāo)量的學(xué)習(xí)能力,可針對不同的學(xué)習(xí)目標(biāo)設(shè)置不同的引導(dǎo)特征靈活處理不同的視覺任務(wù).
對于引導(dǎo)可變形卷積結(jié)構(gòu),首先,對輸入的引導(dǎo)特征(如圖2 中“guide feature map”)進行卷積計算,學(xué)習(xí)偏移量和調(diào)制標(biāo)量,其卷積計算如式(1)所示.
其中,K 為卷積核采樣點數(shù)量,x ( p ) 表示卷積前p位置的特征值,y ( p ) 表示卷積后p 位置的特征值,pk 表示第k 個卷積采樣點的設(shè)定偏移量,ωk 表示第k 個卷積采樣點的權(quán)重.
偏移量和調(diào)制標(biāo)量通過式(1)對引導(dǎo)特征進行1 次卷積計算獲取,其輸出通道數(shù)為3N,N 為聚合采樣點的數(shù)量. 其中,前2N 通道為偏移量Δpn,其范圍為任意實數(shù);后N 通道進一步輸入sigmoid層得到調(diào)制標(biāo)量Δmn,其范圍為[0,1].
其次,將式(1)習(xí)得的偏移量和調(diào)制標(biāo)量應(yīng)用于輸入特征的卷積核引導(dǎo)可變形卷積進行卷積計算. 其中,偏移量Δpn 作用于卷積核采樣點的采樣位置,使其改變?yōu)椴蓸狱c位置不固定的卷積核,調(diào)制標(biāo)量Δmn 為采樣點額外的權(quán)重. 引導(dǎo)可變形卷積計算公式如式(2)所示.
其中,C ( p ) 表示聚合前p 位置的代價值,C? ( p ) 表示聚合后p 位置的代價值,pn 表示第n 個聚合采樣點的設(shè)定偏移量,ωn 表示第n 個聚合采樣點的權(quán)重.
2. 2 GRNet 網(wǎng)絡(luò)架構(gòu)
基于引導(dǎo)可變形卷積結(jié)構(gòu),本文提出基于引導(dǎo)優(yōu)化的立體匹配網(wǎng)絡(luò)GRNet,其總體網(wǎng)絡(luò)架構(gòu)如圖3 所示. 本文主要從多特征提取、代價體構(gòu)建、代價聚合和視差回歸等4 個方面對該網(wǎng)絡(luò)總體結(jié)構(gòu)進行闡述. 其中,代價聚合由3D 聚合和2D 引導(dǎo)優(yōu)化聚合三級串聯(lián)構(gòu)成,可以分為2 個步驟:首先,進行3D 代價聚合,提升整體精度;其次,分別進行基于顏色引導(dǎo)和基于誤差引導(dǎo)的兩級串聯(lián)2D引導(dǎo)優(yōu)化聚合,逐步細(xì)化局部細(xì)節(jié).
2. 2. 1 多特征提取
在特征提取步驟中,為了提高算法的效率,首先采用2 個步長為2 的卷積來減小分辨率得到原圖像1/4 的特征圖.
隨后,由于低擴張率的擴張卷積有著較小的感受野,可提取細(xì)節(jié)區(qū)域特征,較高的擴張率可提取大尺度特征. 因此,采用不同感受野的特征相結(jié)合的方式具有兼顧不同尺度區(qū)域匹配的優(yōu)勢,也可以避免單一尺度特征帶來的匹配誤差問題. 基于此,本文基于不同擴張率的擴張卷積架構(gòu)構(gòu)建多特征提取結(jié)構(gòu),如圖4 所示. 該結(jié)構(gòu)具有2 層分支:第1 層分支結(jié)構(gòu)為擴張率分別為1、2、3 的三分支結(jié)構(gòu)(如圖4 藍(lán)色分支層),第2 層分支結(jié)構(gòu)為擴張率分別為2、4 的二分支結(jié)構(gòu)( 如圖4 黃綠分支層).
2. 2. 2 代價體構(gòu)建
代價體反映左右視圖像素點間的匹配關(guān)系,本文構(gòu)建方法采用GwcNet[15]中組相關(guān)代價體,該方法可以避免在構(gòu)建單個代價體時的信息損失. 但不同于GwcNet 中的組相關(guān)體構(gòu)建,本文通過多特征提取結(jié)構(gòu)(如圖4 所示)捕獲的不同感受野的多組特征構(gòu)建多層組相關(guān)體,可以更好地反應(yīng)左右視圖像素點的匹配關(guān)系. 同時,本文保留了GwcNet 中連結(jié)代價體,其特征是通過對多層組特征進行串聯(lián)并應(yīng)用2 次卷積計算獲得.最終,本文的代價體由多層組相關(guān)代價體與連結(jié)代價體串聯(lián)組成.
其中,Vgwc 表示組相關(guān)代價體,Vconcat 表示連結(jié)代價體,Vcombine 表示最終代價體;Nc 為提取的特征層數(shù),Ng 為劃分的組數(shù), f gl ,f gr 為對左右匹配特征進行內(nèi)積計算,f ( x,y ) 表示( x,y ) 位置的特征值,g 表示組相關(guān)的序號,d 表示視差值,f 表示提取連接特征的特征通道數(shù).
最后,構(gòu)建得到( Ng + 2f )× D/4 × H/4 ×W/4 的代價體,其中,組相關(guān)代價體維度為Ng ×D/4 × H/4 × W/4,連結(jié)代價體維度為2f ×D/4 × H/4 × W/4,D 為最大視差搜索范圍,H 和W 為提取到的特征的高和寬.2. 2. 3 代價聚合 GRNet 代價聚由3D 代價聚合和2D 引導(dǎo)優(yōu)化代價聚合三級串聯(lián)構(gòu)成(如圖3 藍(lán)色虛線方框和橙色虛線方框):首先,3D 代價聚合提升整體精度;其次,2D 引導(dǎo)優(yōu)化代價聚合分別通過顏色引導(dǎo)、誤差引導(dǎo)兩步級聯(lián)優(yōu)化逐步細(xì)化計算精度.
在3D 代價聚合部分(如圖3 藍(lán)色虛線方框).本文采用與GwcNet[15]相似的處理方法,考慮到網(wǎng)絡(luò)的高效性,本文采用1 個預(yù)處理結(jié)構(gòu)和2 個沙漏結(jié)構(gòu),并分別在預(yù)處理結(jié)構(gòu)和2 個沙漏結(jié)構(gòu)后分別接1 個輸出單元,每個輸出單元得到1×D/4×H/4×W/4 的代價體. 注意:該代價體可以直接回歸視差圖作為中間監(jiān)督,使網(wǎng)絡(luò)在淺層學(xué)習(xí)到較為準(zhǔn)確的代價體,提高算法整體精度. 最后1 層輸出單元的代價體作為2D 代價聚合的輸入.
在2D 引導(dǎo)優(yōu)化代價聚合部分(如圖3 橙色虛線方框). 為了恢復(fù)出細(xì)節(jié)完整的全分辨率代價體,本文基于引導(dǎo)可變形卷積提出引導(dǎo)優(yōu)化聚合模塊,如圖5 所示. 該結(jié)構(gòu)可以在3D 代價聚合的基礎(chǔ)上,根據(jù)顏色、誤差引導(dǎo)先驗進行卷積核學(xué)習(xí),進而實現(xiàn)引導(dǎo)優(yōu)化聚合.
2D 引導(dǎo)優(yōu)化代價聚合模塊具體實施步驟為:首先,對低分辨率代價體進行線性插值使其還原到全分辨率代價體. 考慮到小的視差搜索范圍不僅可以回歸到精確的視差值,也可以減少計算量及內(nèi)存消耗,所以不在視差維度進行線性插值,插值得到D/4×H×W 的代價體作為粗略代價體.其次,通過引導(dǎo)優(yōu)化代價聚合模塊對粗略代價體進行兩步級聯(lián)引導(dǎo)代價體優(yōu)化. 兩步級聯(lián)2D 引導(dǎo)優(yōu)化代價聚合分別為:1)基于顏色引導(dǎo)的優(yōu)化聚合(如圖3 Color-based 2D aggregation 方框),它根據(jù)原圖像信息對代價體進行細(xì)節(jié)區(qū)域細(xì)化;2)基于誤差引導(dǎo)的優(yōu)化聚合(如圖3 Error-based 2D aggregation方框),構(gòu)建誤差圖進一步對誤差區(qū)域進行優(yōu)化.
對于基于顏色引導(dǎo)的優(yōu)化聚合,根據(jù)相同顏色區(qū)域代價值相似的假設(shè),本文將左視圖作為引導(dǎo)輸入特征圖. 根據(jù)引導(dǎo)輸入特征圖的引導(dǎo)先驗,引導(dǎo)可變形卷積對每個像素的顏色相近區(qū)域的采樣點進行聚合,從而實現(xiàn)平緩區(qū)域中顏色相近的區(qū)域有著相近的代價值,邊緣區(qū)域得到有效識別,細(xì)節(jié)區(qū)域不完整匹配得到恢復(fù). 在本次引導(dǎo)優(yōu)化模塊中,第1 層引導(dǎo)可變形卷積采用的擴張率為4,它可以在較大范圍內(nèi)尋找到顏色相近的采樣點進行聚合;第2 層引導(dǎo)可變形卷積采用的擴張率為2,它可以使得每個點在附近顏色相近的區(qū)域進行聚合,進一步優(yōu)化代價體.
對于基于誤差引導(dǎo)的優(yōu)化聚合,通過誤差圖引導(dǎo)先驗進行殘差代價體學(xué)習(xí). 首先,根據(jù)顏色引導(dǎo)聚合回歸得到的視差圖對原始右視圖進行warp計算獲得誤差圖. 隨后,將誤差圖、左視圖、第1 級引導(dǎo)優(yōu)化視差圖進行串聯(lián),并作為第2 級引導(dǎo)優(yōu)化聚合模塊的引導(dǎo)先驗特征,通過將誤差圖作為引導(dǎo)輸入可以有效針對匹配誤差較大的區(qū)域進行代價體的優(yōu)化聚合. 與顏色引導(dǎo)優(yōu)化計算過程相似,該優(yōu)化模塊兩次引導(dǎo)可變形卷積擴張率分別設(shè)置為4 和2. 該模塊通過學(xué)習(xí)殘差代價體的方式實現(xiàn)對匹配存在誤差的區(qū)域進行優(yōu)化.
2. 2. 4 視差回歸
本文采用soft argmin 回歸視差圖. 對3D 和2D 聚合后的代價體均進行線性插值還原到全分辨率全視差搜索范圍的代價體,進而回歸視差圖. 其計算模型如式(4)所示.
其中,d?為預(yù)測視差,Dmax 為最大視差,σ ( c ) 為softmax函數(shù),cd 為視差候選對象d 的代價值.
為了提高算法測試推理效率,本文在訓(xùn)練階段訓(xùn)練完整的網(wǎng)絡(luò),測試推理階段則不對3D 卷積中前2 個輸出單元進行計算. 將經(jīng)過兩級2D 引導(dǎo)優(yōu)化后的代價體作為最終精確代價體進行視差圖回歸.
2. 2. 5 損失函數(shù)
GRNet 網(wǎng)絡(luò)中最終的損失L通過式(5)進行計算.
其中,d gt 為真實視差圖,di 為3D 代價聚合輸出的視差圖,λi 為3D 代價聚合的權(quán)重,d refi 為2D 優(yōu)化聚合輸出的視差圖,ηi 為2D 代價聚合的權(quán)重.
3 實驗
3. 1 數(shù)據(jù)集與評估指標(biāo)
為了詳細(xì)說明本文算法的有效性,本文在多個立體匹配標(biāo)準(zhǔn)數(shù)據(jù)集上進行測試,分別為SceneFlow[9]、KITTI2012[19]、KITTI2015[20].
Scene Flow: Scene Flow 是合成立體匹配標(biāo)準(zhǔn)數(shù)據(jù)集,提供35 454 對訓(xùn)練圖像和4370 對測試圖像. 該數(shù)據(jù)集提供了密集的視差圖作為標(biāo)準(zhǔn)視差圖(Ground Truth).
KITTI 2012: KITTI 2012 包含194 對訓(xùn)練圖像和195 對測試圖像. 該數(shù)據(jù)集通過激光雷達獲得稀疏標(biāo)準(zhǔn)視差圖. 本文對194 對訓(xùn)練圖像進行劃分,采用隨機抽樣抽取34 對圖像對作為驗證集,剩余160 對圖像作為訓(xùn)練集.
KITTI 2015: KITTI 2015 包含200 對訓(xùn)練圖像和200 對測試圖像. 該數(shù)據(jù)集同樣通過激光雷達獲得稀疏標(biāo)準(zhǔn)視差圖. 本文對200 對訓(xùn)練圖像對進行劃分,隨機抽取20% 對圖像作為驗證集,剩余80% 對圖像對為訓(xùn)練集.
3. 2 實驗細(xì)節(jié)
本文基于Pytorch 環(huán)境,在單個NVIDIAA100 GPU 進行網(wǎng)絡(luò)訓(xùn)練. 對于此次實驗,本文采用Adam 優(yōu)化器,設(shè)置參數(shù)β1 = 0. 9,β2 = 0. 999,分別設(shè)置5 個預(yù)測視差圖的權(quán)重分別為λ0 = 0. 5,λ1 = 0. 7,λ 2 = 0. 8,η1 = 0. 8,η2 = 1. 0.
實驗在Scene Flow 數(shù)據(jù)集上進行預(yù)訓(xùn)練,迭代次數(shù)為50 次,初始學(xué)習(xí)率為0. 001,并且分別在迭代次數(shù)為20、32、40、44、47 次后將學(xué)習(xí)率降低1/2. 預(yù)訓(xùn)練的訓(xùn)練批次為12,測試批次為8. 經(jīng)過在Scene Flow 數(shù)據(jù)集上的訓(xùn)練得到預(yù)訓(xùn)練模型后,在KITTI 數(shù)據(jù)集上進行微調(diào),來對真實場景進行立體匹配.
3. 3 消融實驗
3. 3. 1 多特征提取模塊
為了驗證多特征提取模塊的有效性,本文以GwcNet[15]為基準(zhǔn),設(shè)置多特征提取模塊替換GwcNet 中的特征提取模塊的實驗,表示為GRNet-0,并分別設(shè)置了堆疊沙漏網(wǎng)絡(luò)結(jié)構(gòu)個數(shù)為×2 和×3 的實驗與GwcNet 進行對比,如表1 所示. 實驗結(jié)果顯示:在相同的實驗環(huán)境下,相較于GwcNet 中級聯(lián)的特征提取結(jié)構(gòu),本文多特征提取模塊在Scene Flow 數(shù)據(jù)集中EPE 誤差從0. 76 px 降低到0. 55 px;在KITTI2012、KITTI2015 驗證集中均提高20% 左右的精度;此外,采用2 層沙漏網(wǎng)絡(luò)的GRNet-0 在各項誤差指標(biāo)中均達到超過原始GwcNet 的效果. 通過數(shù)據(jù)對比分析,可以驗證通過對初始特征圖采用分支結(jié)構(gòu)的多特征提取結(jié)構(gòu)優(yōu)于GwcNet 中級聯(lián)特征提取結(jié)構(gòu). 驗證了通過多特征提取結(jié)構(gòu)可以提取更全面的匹配信息,對立體匹配整體的精度有著明顯的提升作用.
3. 3. 2 引導(dǎo)優(yōu)化模塊
為了驗證網(wǎng)絡(luò)結(jié)構(gòu)中兩次級聯(lián)2D 引導(dǎo)優(yōu)化模塊在配準(zhǔn)精度提升方面的有效性,本文分別設(shè)置去引導(dǎo)優(yōu)化聚合模塊的網(wǎng)絡(luò)GRNet-0,基于顏色的引導(dǎo)優(yōu)化網(wǎng)絡(luò)GRNet-c 以及基于顏色和誤差的網(wǎng)絡(luò)GRNet-ce(為了減少網(wǎng)絡(luò)可學(xué)習(xí)參數(shù),減少內(nèi)存消耗和提高算法效率,本文GRNet 采用2 層的沙漏結(jié)構(gòu),如表1 所示). 由實驗數(shù)據(jù)可知:1)GRNet 在沒有任何優(yōu)化的情況下(即GRNet-0)可以達到比GwcNet 更高的精度;2)在加入兩次級聯(lián)2D 引導(dǎo)優(yōu)化模塊后,Scene Flow驗證集中EPE 誤差可以達到0. 48;3)KITTI2012、KITTI2015 數(shù)據(jù)集中相對于GwcNet 精度均提高30% 左右. 圖6 展示了經(jīng)過兩次級聯(lián)優(yōu)化后的GRNet 的可視化對比結(jié)果,GwcNet 在細(xì)小邊緣區(qū)域均存在匹配模糊、不完整等問題,而GRNet 有效緩解了該類問題,實驗證明了GRNet 中的兩次級聯(lián)引導(dǎo)優(yōu)化聚合的有效性.
同時,本文評估了3 種不同的引導(dǎo)優(yōu)化聚合模塊構(gòu)建方式,如圖5 所示. 圖5a m1 結(jié)構(gòu)為不提取引導(dǎo)特征,直接對引導(dǎo)圖像進行1 次卷積作為輸入;圖5b m2 結(jié)構(gòu)為對引導(dǎo)圖像提取引導(dǎo)特征,其引導(dǎo)特征提取過程為添加卷積和殘塊堆疊;圖5cm3 結(jié)構(gòu)為對引導(dǎo)圖像提取引導(dǎo)特征,同時采用兩級引導(dǎo)可變形卷積,實驗結(jié)果如表2 所示. 由實驗數(shù)據(jù)可知,采用m3 結(jié)構(gòu)的引導(dǎo)優(yōu)化聚合結(jié)構(gòu)可以達到更好的效果,證明本文基于雙層引導(dǎo)可變形卷積的引導(dǎo)優(yōu)化聚合模塊(m3 結(jié)構(gòu))對提升算法精度的有效性.
3. 3. 3 引導(dǎo)可變形卷積
為了驗證引導(dǎo)可變形卷積對算法精度的提升作用,實驗分別用傳統(tǒng)卷積結(jié)構(gòu)和可變形卷積結(jié)構(gòu)(DCN-v2[21])來替換GRNet 中的引導(dǎo)可變形卷積,分別與無優(yōu)化結(jié)構(gòu)的實驗進行對比,如表3 所示. 實驗結(jié)果表明,相對于無優(yōu)化測試結(jié)果,基于可變形卷積結(jié)構(gòu)的優(yōu)化模塊僅可以產(chǎn)生微弱的精度提升;基于傳統(tǒng)卷積結(jié)構(gòu)的優(yōu)化模塊甚至?xí)档蛯嶒灳?;基于引?dǎo)可變形卷積的引導(dǎo)優(yōu)化模塊卻顯著提升了實驗精度(如EPE 誤差降低了21. 3%). 實驗驗證了引導(dǎo)可變形卷積在立體匹配任務(wù)中高性能的建模能力.
3. 3. 4 損失權(quán)重
對不同的輸出模塊的視差圖采用不同的損失權(quán)重對整體網(wǎng)絡(luò)精度有著一定影響,為了實現(xiàn)更高的匹配精度,本文設(shè)置了不同的權(quán)重系數(shù)在Scene Flow 數(shù)據(jù)集上進行對比試驗,如表4 所示. 實驗結(jié)果顯示:僅對最終的視差圖計算損失和對所有的視差圖采用同樣的損失權(quán)重都會網(wǎng)絡(luò)精度產(chǎn)生較大的影響,采用遞增式的損失權(quán)重會提升網(wǎng)絡(luò)精度. 在采用損失權(quán)重分別為0. 5、0. 7、0. 8、0. 8、1. 0 時,其EPE 誤差達到最小,誤差為0. 48 px.
3. 3. 5 引導(dǎo)優(yōu)化模塊的適用性
本文引導(dǎo)優(yōu)化模塊同樣可以應(yīng)用到目前先進的立體匹配網(wǎng)絡(luò)中,本節(jié)實驗將基于顏色的引導(dǎo)優(yōu)化聚合模塊添加到3 個先進的網(wǎng)絡(luò)中,即PSMNet[14]、GwcNet[15]和AANet[22]. 添加引導(dǎo)優(yōu)化模塊后的網(wǎng)絡(luò)分別表示為PSMNet-GR、GwcNet-GR 和AANet-GR,將原始網(wǎng)絡(luò)與使用引導(dǎo)優(yōu)化聚合模塊后的網(wǎng)絡(luò)性能進行比較測試,測試結(jié)果如表5 所示. 從實驗數(shù)據(jù)對比可知,相較于先進立體匹配網(wǎng)絡(luò),如PSMNet、GwcNet、AANet 等,融合本文引導(dǎo)優(yōu)化模塊后的網(wǎng)絡(luò)精度均得到明顯提升,其中PSMNet-GR 的EPE 誤差降低了46. 8%,GwcNet-GR 的EPE 誤差降低了34. 2%,AANet-GR 的EPE 誤差降低了20. 7%;在KITTI2015 數(shù)據(jù)測試數(shù)據(jù)集中測試指標(biāo)D1-noc 及D1-all 均產(chǎn)生20% 左右的精度提升.此外,本文對ACVNet 及ACVNet-GR 在Scene?Flow 數(shù)據(jù)集上的進行了定量對比驗證,其ACVNet-GR 的測試結(jié)果中EPE 誤差為0. 47 px,優(yōu)于ACVNet 文中實驗結(jié)果0. 48 px,驗證了本文引導(dǎo)優(yōu)化模塊的適用性.
3. 4 GRNet 性能表現(xiàn)
為了驗證GRNet 的細(xì)節(jié)區(qū)域的匹配效果,本文將GRNet 圖像測試結(jié)果與目前高精度網(wǎng)絡(luò)ACVNet[17]、邊緣保持網(wǎng)絡(luò)AANet[22]的測試結(jié)果進行定性對比. 如圖7 所示,第1 行展示了測試圖像全局效果對比,第2、3、4 行展示了全局視圖中A、B、C 位置局部細(xì)節(jié)視圖中細(xì)小葉片、自行車把手、像素級細(xì)小結(jié)構(gòu)等具有挑戰(zhàn)性的局部細(xì)節(jié)匹配效果. 實驗結(jié)果顯示:ACVNet 在邊緣區(qū)域誤差較大,難以實現(xiàn)細(xì)節(jié)區(qū)域的匹配;AANet 可以實現(xiàn)一定的邊緣保持效果,但在邊緣區(qū)域精度誤差較大,細(xì)節(jié)區(qū)域同樣難以實現(xiàn)匹配;GRNet 則可以在細(xì)節(jié)區(qū)域達到完整的邊緣保持效果,且細(xì)節(jié)區(qū)域清晰,實現(xiàn)像素級的匹配.
在定量對比上GRNet 也可以達到先進的匹配精度. 本文將GRNet 在Scene Flow 上的測試結(jié)果與近年來先進立體匹配算法進行對比,如表6 所示. 實驗數(shù)據(jù)顯示:GRNet 在Scene Flow 上的EPE 誤差可以達到0. 48,能夠取得與ACVNet 一致的精度;但由圖1 和圖7 中定性對比可知,GRNet 在細(xì)節(jié)區(qū)域、邊緣區(qū)域等具有挑戰(zhàn)性區(qū)域的匹配效果遠(yuǎn)優(yōu)于ACVNet 的效果. 此外,GRNet在可學(xué)習(xí)參數(shù)上比ACVNet 要少1. 54×107,證明了GRNet 高效的學(xué)習(xí)能力. 本節(jié)通過定性及定量的實驗對比分析,驗證了GRNet 可以實現(xiàn)高精度、高度邊緣保持、細(xì)節(jié)區(qū)域清晰的立體匹配.
3. 5 KITTI 基準(zhǔn)測試
為了驗證GRNet 在實際場景的匹配計算性能,我們將GRNet 的測試結(jié)果提交至KITTI2012、KITTI2015 標(biāo)準(zhǔn)數(shù)據(jù)集進行評測,表7 展示了GRNet 與目前先進的立體匹配網(wǎng)絡(luò)的定量對比數(shù)據(jù). 在KITTI2012 基準(zhǔn)測試中,實驗結(jié)果顯示GRNet 達到了先進的精度,其中在誤差指標(biāo)gt;4、gt;5 中均實現(xiàn)了比高精度立體匹配網(wǎng)絡(luò)ACVNet更好的結(jié)果. 在KITTI2015 基準(zhǔn)測試中,GRNet測試結(jié)果達到了優(yōu)于先進立體匹配算法Acf?Net[23]、CFNet[24]的精度,但與ACVNet 相比,GRNet 在各項數(shù)據(jù)上與之存在約0. 2% 的差距.主要原因是,受KITTI 數(shù)據(jù)集真實視差圖的稀疏性影響,本文預(yù)訓(xùn)練網(wǎng)絡(luò)在KITTI 數(shù)據(jù)集上進行微調(diào)時會損失部分邊緣保持效果,從而對精度產(chǎn)生影響.
相較于其他立體匹配網(wǎng)絡(luò),本文GRNet 也保持了較高的邊緣保持特性,圖8 展示了GRNet 在KITTI 測試數(shù)據(jù)集上的代表性的定性對比結(jié)果.實驗結(jié)果顯示:ACVNet 在細(xì)節(jié)區(qū)域中的細(xì)節(jié)區(qū)域匹配存在邊緣肥大的問題,AANet 則難以實現(xiàn)細(xì)節(jié)區(qū)域的匹配,而GRNet 實現(xiàn)了細(xì)節(jié)區(qū)域的匹配,最大限度的還原了細(xì)節(jié)區(qū)域的邊緣,證明了GRNet 在真實場景下的有效性.
4 討論
近年來,基于深度神經(jīng)網(wǎng)絡(luò)的算法被大量應(yīng)用于立體匹配研究,本節(jié)主要從特征提取、代價聚合及可變形卷積等方面的相關(guān)工作進行綜述.
特征提?。禾卣魈崛∈橇Ⅲw匹配過程的關(guān)鍵步驟之一. 目前,主流立體匹配算法通常采用卷積層和堆疊的殘差塊來提取特征. Chang 等[14]將金字塔池化應(yīng)用到特征提?。籆habra 等[25]提出了Vortex池化,進一步提升了實驗效果. 然而該類算法都采用了單一尺度的特征提取,難以處理不同區(qū)域的具體匹配情況. 為了提高匹配精度,大量網(wǎng)絡(luò)架構(gòu)進行了多尺度的特征提取改進,Xu 等[22]將金字塔特征應(yīng)用到特征提取,提取到3 個不同尺度的特征;Tankovich 等[26]同樣提取多尺度特征,實現(xiàn)了由粗到細(xì)的立體匹配;Shen 等[24]提取多尺度特征處理不同領(lǐng)域的立體匹配. 此外,擴張卷積[27]也具備類似多尺度特征提取的特性,且具備在不降低分辨率的同時擴大感受野的優(yōu)勢,已在很多視覺任務(wù)中發(fā)揮了較好的作用[28,29].
為了實現(xiàn)不同區(qū)域的高精度匹配計算,本文構(gòu)建多特征提取結(jié)構(gòu),采用不同擴張率的擴張卷積作為分支結(jié)構(gòu)進行特征提取. 該結(jié)構(gòu)的優(yōu)勢在于它可以保持同一尺度,提取不同感受野特征,兼顧圖像中不同尺寸區(qū)域的匹配,使得不同感受野的匹配結(jié)果進行互補,實現(xiàn)更全面的配準(zhǔn)計算.
代價聚合:基于2D 卷積的代價聚合通常有著高效的特性. Mayer 等[9]將相關(guān)層等作為代價聚合的輸入,通過編碼器-解碼器網(wǎng)絡(luò)直接回歸視差圖;Xu 等[22]提出了跨尺度的代價聚合和尺度內(nèi)代價聚合進行互補計算,實現(xiàn)了高效的匹配計算. 隨著3D 卷積被引入立體匹配,大量研究通過對低分辨率的4D 代價體進行聚合. Chang 等[14]提出了沙漏聚合網(wǎng)絡(luò),該結(jié)構(gòu)在提升立體匹配精度上有著出色的表現(xiàn),并被廣泛沿用到后續(xù)基于學(xué)習(xí)的高精度立體匹配算法中;Zhang 等[16]根據(jù)傳統(tǒng)半全局算法提出了半全局聚合層和局部引導(dǎo)聚合層,該聚合層可以取代3D 卷積進行聚合實現(xiàn)更高精度;Chabra 等[25]將擴張卷積引入到代價聚合過程,提升了聚合速度并實現(xiàn)了更高的匹配精度.
為實現(xiàn)局部細(xì)節(jié)區(qū)域完整的配準(zhǔn)計算,綜合3D 卷積立體匹配能夠有效回歸高精度視差圖和2D 卷積立體匹配可補充細(xì)節(jié)信息的優(yōu)勢,基于交叉代價聚合算法[30]中顏色相近的區(qū)域往往有著接近代價值的假設(shè),本文在GRNet 網(wǎng)絡(luò)架構(gòu)中,提出了基于3D 聚合和2D 引導(dǎo)優(yōu)化聚合模塊的三級串聯(lián)的引導(dǎo)優(yōu)化代價聚合. 首先,通過3D 聚合模塊獲得粗略的低分辨率代價體;其次,分別采用基于顏色引導(dǎo)和基于誤差引導(dǎo)的兩級2D 引導(dǎo)優(yōu)化聚合模塊對全分辨率的代價體進行像素級的細(xì)化,最終獲取高精度、細(xì)節(jié)完整的代價體.
可變形卷積(DCN):卷積神經(jīng)網(wǎng)絡(luò)在大量視覺任務(wù)中取得了巨大的成就,但是受限于卷積單元在固定位置對輸入特征圖進行采樣,缺乏處理幾何變換的內(nèi)部機制,對于在空間位置上編碼語義的深層卷積神經(jīng)網(wǎng)絡(luò)來說是不可取的. 基于此,為了提高卷積對幾何變換的建模能力,適應(yīng)物體在尺度、姿態(tài)、視點和局部形態(tài)等特征上的變化,可變形卷積提出在卷積的基礎(chǔ)上為卷積核學(xué)習(xí)偏移量,并添加調(diào)節(jié)機制[21]. 可變形卷積已在目標(biāo)檢測[31]和語義分割[32]任務(wù)中取得了顯著的效果. 近年來,可變形卷積逐步被引入立體匹配研究,Xu等[22]采用可變形卷積自適應(yīng)學(xué)習(xí)卷積核以實現(xiàn)自適應(yīng)聚合;Li 等[33]將可變形卷積引用到相關(guān)性計算中.
不同于傳統(tǒng)可變形卷積,本文提出基于引導(dǎo)先驗的可變形卷積,據(jù)我們所知,到目前為止基于引導(dǎo)先驗的可變形卷積架構(gòu)鮮有被應(yīng)用于立體匹配任務(wù). 該結(jié)構(gòu)通過引導(dǎo)先驗學(xué)習(xí)可變形卷積核,提升邊緣、細(xì)節(jié)區(qū)域的細(xì)粒度建模能力. 同時該結(jié)構(gòu)具有靈活的建模特性,根據(jù)引導(dǎo)層的不同可以應(yīng)用于多種視覺任務(wù).
5 小結(jié)
本文主要貢獻如下:1)本文首次將引導(dǎo)先驗融入立體匹配可變形卷積學(xué)習(xí)任務(wù),提出了引導(dǎo)可變形卷積,以增強可變形卷積的可變形參數(shù)學(xué)習(xí)能力;2)構(gòu)建了基于引導(dǎo)可變形卷積的引導(dǎo)優(yōu)化聚合模塊,將額外的輔助信息添加到代價聚合中,以引導(dǎo)代價體進行聚合計算;3)提出了融合3D聚合全局優(yōu)勢和2D 引導(dǎo)優(yōu)化聚合局部優(yōu)勢的三級串聯(lián)引導(dǎo)優(yōu)化代價聚合立體匹配網(wǎng)絡(luò),以實現(xiàn)細(xì)節(jié)區(qū)域高精度立體匹配. 此外,相較于現(xiàn)有先進算法,本文算法在KITTI2012[19]、KITTI2015[20]等標(biāo)準(zhǔn)數(shù)據(jù)集測試中都有著先進的表現(xiàn).
參考文獻:
[1] Li J, Liu Y G. High precision and fast disparity estimationvia parallel phase correlation hierarchicalframework [J]. J Real-Time Image Pr, 2020,18: 463.
[2] Li J, Liu Y G, Du S L, et al. Hierarchical and adaptivephase correlation for precise disparity estimationof UAV images [J]. IEEE T Geosci Remote, 2016,54: 7092.
[3] Wu P F, Liu Y G, Li J, et al. Fast and adaptive 3Dreconstruction with extensively high completeness[ J]. IEEE T Multimedia, 2017, 19: 266.
[4] Li J, Li Y X, Wu T S, et al. Fast, low-power andhigh-precision 3D reconstruction of UAV imagesbased on FPGA [J]. Journal of Beijing University ofAeronautics and Astronautics, 2021, 47: 486.[李杰, 李一軒, 吳天生, 等. 基于FPGA 無人機影像快速低功耗高精度三維重建[J]. 北京航空航天大學(xué)學(xué)報, 2021, 47: 486.]
[5] Patil V, Sakaridis C, Liniger A, et al. P3Depth:Monocular depth estimation with a piecewise planarityprior [C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. NewOrleans: IEEE, 2022: 1600.
[6] Xu Y, Zhu X, Shi J, et al. Depth completion fromsparse LiDAR data with depth-normal constraints[C]//Proceedings of the IEEE InternationalConference on Computer Vision. Seoul: IEEE,2019: 2811.
[7] Zbontar J, Lecun Y. Computing the stereo matchingcost with a convolutional neural network [C]//Proceedingsof the IEEE Conference on Computer Visionand Pattern Recognition. Boston: IEEE, 2015: 1592.
[8] Liang Z F, Feng Y L, Guo Y L, et al. Learning fordisparity estimation through feature constancy [C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. Salt Lake City:IEEE, 2018: 2811.
[9] Mayer N, Ilg E, Hausser P, et al. A large dataset totrain convolutional networks for disparity, opticalflow, and scene flow estimation [C]//Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition. Las Vegas: IEEE, 2016: 4040.
[10] Pang J H, Sun W X, Ren J S, et al. Cascade residuallearning: a two-stage convolutional neural networkfor stereo matching [C] //Proceedings of theIEEE International Conference on Computer Vision.Venice: IEEE, 2017: 887.
[11] Duggal S, Wang S, Ma W C,et al. DeepPruner:Learning efficient stereo matching via differentiablepatchmatch [C]//Proceedings of the IEEE internationalconference on computer vision. Seoul: IEEE,2019: 4384.
[12] Song X, Zhao X, Hu H W, et al. EdgeStereo: Acontext integrated residual pyramid network for stereomatching [C]//Proceedings of the EuropeanConference on Computer Vision. Munich: Springer,2018: 20.
[13] Kendall A, Martirosyan H, Dasgupta S, et al. Endto-end learning of geometry and context for deep stereoregression [C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition. Hawaii:IEEE, 2017: 66.
[14] Chang J R, Chen Y S. Pyramid stereo matching network[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. Salt LakeCity: IEEE, 2018: 5410.
[15] Guo X Y, Yang K, Yang W K, et al. Group-wisecorrelation stereo network [C]//Proceedings of theIEEE conference on computer vision and pattern recognition.Long Beach: IEEE, 2019: 3273.
[16] Zhang F H, Prisacariu V, Yang R G, et al. GANet:Guided aggregation net for end-to-end stereomatching [C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition. LongBeach: IEEE, 2019: 185.
[17] Xu G W, Cheng J D, Guo P, et al. Attention concatenationvolume for accurate and efficient stereomatching [C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition. New Orleans:IEEE, 2022: 12981.
[18] Dai J F, Qi H Z, Xiong Y W, et al. Deformable convolutionalnetworks [C]//Proceedings of the IEEEinternational conference on computer vision. Venice:IEEE, 2017: 764.
[19] Geiger A, Lenz P, Urtasun R. Are we ready for autonomousdriving? The kitti vision benchmarksuite [C]//Proceedings of the IEEE Conference oncomputer vision and pattern recognition. Providence:IEEE, 2012: 3354.
[20] Menze M, Heipke C, Geiger A. Joint 3d estimationof vehicles and scene flow [J]. ISPRS Annals of thePhotogrammetry Remote Sensing and Spatial InformationSciences, 2015, 2: 427.
[21] Zhu X Z, Hu H, Lin S, et al. Deformable convnetsv2: more deformable, better results [C]//Proceedingsof the IEEE conference on computer vision andpattern recognition. Long Beach: IEEE, 2019:9308.
[22] Xu H F, Zhang J Y. AANet: Adaptive aggregationnetwork for efficient stereo matching [C]//Proceedingsof the IEEE conference on computer vision andpattern recognition. Seattle: IEEE, 2020: 1959.
[23] Zhang Y M, Chen Y M, Bai X, et al. Adaptive unimodalcost volume filtering for deep stereo match?ing [C]//Proceedings of the AAAI conference on artificialintelligence. New York: AAAI, 2020: 12926.
[24] Shen Z L, Dai Y C, Rao Z B. CFNet: Cascade andfused cost volume for robust stereo matching [C]//Proceedings of the IEEE conference on computer visionand pattern recognition. Nashville: IEEE,2021: 13906.
[25] Chabra R, Straub J, Sweeney C, et al. Stereo?DRNet: Dilated residual stereonet [C]//Proceedingsof the IEEE conference on computer vision andpattern recognition. Long Beach: IEEE, 2019:11786.
[26] Tankovich V, Hane C, Zhang Y D, et al. HITNet:Hierarchical iterative tile refinement network for realtimestereo matching [C]//Proceedings of the IEEEconference on computer vision and pattern recognition.Nashville: IEEE, 2021: 14362.
[27] Yu F, Koltun V. Multi-scale context aggregation bydilated convolutions[ C]//Proceedings of the internationalConference on learning representations. PuertoRico: ICLR, 2016.
[28] Yu F, Koltun V, Funkhouser T. Dilated residual networks[C] //Proceedings of the IEEE conference oncomputer vision and pattern recognition. Hawaii:IEEE, 2017: 636.
[29] Chen L C, Papandreou G. DeepLab: Semantic imagesegmentation with deep convolutional nets,atrous convolution, and fully connected crfs [J].IEEE T Pattern Anal, 2018, 40: 834.
[30] Zhang K, Lu J B, Lafruit G. Cross-based local stereomatching using orthogonal integral images [J].IEEE T Circ Syst Vid, 2017, 19: 1073.
[31] Zhou L Q, Sun P, Li D, et al. A novel object detectionmethod in city aerial image based on deformableconvolutional networks [J]. IEEE Access, 2022,10: 31455.
[32] Yu B Q, Jiao L C, Liu X, et al. Entire deformableconvnets for semantic segmentation [J]. Knowl-Based Syst, 2022, 250: 1.
[33] Li J K, Wang P S, Xiong P F, et al. Practical stereomatching via cascaded recurrent network with adaptivecorrelation [C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition.New Orleans: IEEE, 2022: 16263.
(責(zé)任編輯: 白林含)
基金項目: 國家自然科學(xué)基金項目(61801279); 山西省基礎(chǔ)研究計劃自然科學(xué)研究項目(202203021211333); 山西省高等學(xué)校哲學(xué)社會科學(xué)研究項目(2021W058); 山西省基礎(chǔ)研究計劃青年科學(xué)研究項目(202103021223308); 西安碑林區(qū)應(yīng)用技術(shù)研發(fā)項目(GX2244)