李傳彪,畢遠(yuǎn)偉
基于跨域自適應(yīng)的立體匹配算法
李傳彪,畢遠(yuǎn)偉*
(煙臺(tái)大學(xué) 計(jì)算機(jī)與控制工程學(xué)院,山東 煙臺(tái) 264005)( ? 通信作者電子郵箱byw@ytu.edu.cn)
雖然卷積神經(jīng)網(wǎng)絡(luò)(CNN)在有監(jiān)督立體匹配任務(wù)中取得了較好的進(jìn)展,但多數(shù)CNN算法的跨域表現(xiàn)較差。針對(duì)跨數(shù)據(jù)域的立體匹配問題,提出一種基于CNN的使用遷移學(xué)習(xí)實(shí)現(xiàn)域自適應(yīng)立體匹配任務(wù)的跨域自適應(yīng)立體匹配(CASM-Net)算法。所提算法使用一個(gè)可供遷移的特征提取模塊提取豐富的廣域特征用于跨域立體匹配任務(wù);并且,設(shè)計(jì)一個(gè)自適應(yīng)代價(jià)優(yōu)化模塊,從而通過自適應(yīng)地利用不同感受野的相似度信息優(yōu)化代價(jià),進(jìn)而得到最優(yōu)的代價(jià)分布;此外,提出一個(gè)視差分?jǐn)?shù)預(yù)測(cè)模塊,以量化不同區(qū)域的立體匹配能力,并通過調(diào)整圖像的視差搜索范圍進(jìn)一步優(yōu)化視差結(jié)果。實(shí)驗(yàn)結(jié)果表明:在KITTI2012和KITTI2015數(shù)據(jù)集上,CASM-Net算法的2-PE-Noc、2-PE-All和3-PE-fg相較于PSMNet(Pyramid Stereo Matching Network)算法分別降低了6.1%、3.3%和19.3%;在Middlebury數(shù)據(jù)集上,在未經(jīng)重新訓(xùn)練的情況下,在和其他算法的對(duì)比中,CASM-Net算法在所有樣本上取得了最優(yōu)或次優(yōu)的2-PE結(jié)果??梢姡珻ASM-Net算法具有改善跨域立體匹配的作用。
有監(jiān)督立體匹配;卷積神經(jīng)網(wǎng)絡(luò);遷移學(xué)習(xí);跨域;視差分?jǐn)?shù)
立體匹配算法對(duì)于理解三維場(chǎng)景和重建至關(guān)重要,已經(jīng)廣泛應(yīng)用于無人機(jī)[1]、自動(dòng)駕駛[2]和虛擬現(xiàn)實(shí)[3]等領(lǐng)域。通常,立體匹配算法指計(jì)算兩幅經(jīng)過矯正的圖像中對(duì)應(yīng)像素的水平位移,即視差。一般情況下,傳統(tǒng)方法利用圖像的先驗(yàn)知識(shí)構(gòu)造一個(gè)立體匹配函數(shù),得到一個(gè)密集的視差圖[4]。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)因?yàn)榫哂袕?qiáng)大的特征表示能力,已經(jīng)被廣泛應(yīng)用于視覺任務(wù),如目標(biāo)檢測(cè)[5]、圖像分類[6]等。基于CNN的有監(jiān)督立體匹配算法顯著提高了立體匹配的性能,成為當(dāng)前主流的研究方向。基于CNN的有監(jiān)督立體匹配算法的主要流程包括:特征提取和代價(jià)構(gòu)建及優(yōu)化。基于CNN的立體匹配算法只有經(jīng)過大型數(shù)據(jù)集訓(xùn)練多輪次后才能得到良好的表現(xiàn),部分原因是小型數(shù)據(jù)集特征提取不夠充分,導(dǎo)致算法跨域效果差[7]。近期,研究者提出使用注意力機(jī)制獲取更廣泛的特征。張亞茹等[8]提出了一種多維注意力特征聚合立體匹配算法以提取豐富的全局特征信息,增加信息交互以自適應(yīng)地調(diào)整視差結(jié)果。Kendall等[9]最早提出通過殘差網(wǎng)絡(luò)(Residual Network, ResNet)結(jié)構(gòu)獲取圖像特征,并使用它們構(gòu)建代價(jià)立方體,并使用3D-CNN優(yōu)化代價(jià)分布。對(duì)于代價(jià)構(gòu)建與優(yōu)化階段,大部分算法使用單一尺度特征構(gòu)造代價(jià),但是不同數(shù)據(jù)集的圖像分辨率不同,使用單一尺度代價(jià)可能導(dǎo)致信息丟失,影響跨域精度。此外,構(gòu)造的代價(jià)立方體由于視差搜索范圍固定,很難自適應(yīng)地優(yōu)化代價(jià)分布,這也是大多數(shù)算法魯棒性差的原因。Rao等[10]提出了一個(gè)非局部上下文注意模塊,通過優(yōu)化上下文信息以自適應(yīng)地調(diào)整代價(jià)分布。以上工作充分顯示了特征提取和代價(jià)優(yōu)化對(duì)于立體匹配任務(wù)的重要性。
為了緩解上述問題的干擾,本文提出了一種融合跨域特征信息的跨域自適應(yīng)立體匹配(Cross-domain Adaptation Stereo Matching Network, CASM-Net)算法。首先,針對(duì)特征學(xué)習(xí)不充分的問題,使用遷移的特征提取模塊提取廣域特征,為跨域立體匹配任務(wù)提供豐富匹配線索;其次,提出域自適應(yīng)代價(jià)優(yōu)化模塊,使用組相關(guān)方法[11]構(gòu)造不同階段多尺度代價(jià),以逐階段更新的方式優(yōu)化匹配代價(jià),通過對(duì)匹配代價(jià)回歸得到視差結(jié)果;最后,提出視差分?jǐn)?shù)預(yù)測(cè)模塊,獲取的視差分?jǐn)?shù)可以調(diào)整視差范圍,進(jìn)一步更新視差結(jié)果,同時(shí)使用視差分?jǐn)?shù)量化不同區(qū)域的立體匹配能力。
本文提出了一個(gè)用于從一對(duì)矯正的圖像中獲取視差圖的跨域自適應(yīng)立體匹配(CASM-Net)算法,算法架構(gòu)如圖1所示。首先,輸入的立體圖像對(duì)經(jīng)過一個(gè)遷移ResNet算法(即特征提取模塊)獲取圖像不同尺度的廣域特征;同時(shí)使用一個(gè)U型結(jié)構(gòu)過濾廣域特征,減少冗余信息干擾。其次,將不同尺度的特征圖作為域自適應(yīng)代價(jià)構(gòu)建和聚合的輸入,每個(gè)階段經(jīng)過一個(gè)編解碼器結(jié)構(gòu)過濾噪聲,優(yōu)化多尺度代價(jià)。最后,通過回歸方法獲得視差圖,經(jīng)過逐階段更新視差結(jié)果,得到優(yōu)化后的視差圖。CASM-Net算法使用Smooth L1損失與平均絕對(duì)誤差(Mean Absolute Error, MAE)損失共同監(jiān)督算法訓(xùn)練。
圖1 CASM-Net算法的架構(gòu)
特征提取影響著算法的立體匹配表現(xiàn),本文選用了在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的模型抵抗域偏移。文獻(xiàn)[12]中提出了一種基于遷移學(xué)習(xí)的煤料立體匹配算法,但它應(yīng)用的模型只是在特定立體匹配數(shù)據(jù)集上預(yù)訓(xùn)練。與上述研究不同,本文希望從大規(guī)模廣域數(shù)據(jù)集中獲取更多有利于立體匹配任務(wù)的線索,從而優(yōu)化跨域立體匹配效果。在大規(guī)模數(shù)據(jù)集(如ImageNet數(shù)據(jù)集[13])上,算法能夠?qū)W習(xí)各種風(fēng)格的圖像,因此可以很好地執(zhí)行跨數(shù)據(jù)域任務(wù)。如圖1所示,CASM-Net算法使用了在ImageNet上預(yù)訓(xùn)練的ResNet算法作為特征提取模塊的骨干結(jié)構(gòu),并固定它的參數(shù),因此在訓(xùn)練階段,不更新它的參數(shù),以提高算法訓(xùn)練效率。預(yù)訓(xùn)練的ResNet算法可以從淺層特征中進(jìn)一步提取廣域特征信息,與分類任務(wù)相比,CASM-Net算法只使用ResNet算法第3次下采樣前的結(jié)構(gòu)獲取特征,最終可以得到原圖大小1/2、1/4和1/8的特征圖?;A(chǔ)結(jié)構(gòu)包含2D Conv(Convolution)層、BN(Batch Normalization)層、ReLU(Rectified Linear Unit)激活函數(shù)和最大值池化(Max-pooling)下采樣層。
此外,為了減少特征帶來的冗余信息,并為之后的匹配代價(jià)構(gòu)建提供更多的特定任務(wù)信息,CASM-Net算法使用一個(gè)U型結(jié)構(gòu)進(jìn)一步優(yōu)化廣域信息。該沙漏結(jié)構(gòu)作為特征提取模塊的一部分,隨著特征提取模塊進(jìn)行訓(xùn)練并優(yōu)化廣域特征信息。U型結(jié)構(gòu)雖然不使用大規(guī)模數(shù)據(jù)集訓(xùn)練,但是它仍具有域泛化的能力,原因在于它的輸入是廣域特征,同時(shí)U型結(jié)構(gòu)也可以降低網(wǎng)絡(luò)過擬合的風(fēng)險(xiǎn)。
通常只使用單一尺度的代價(jià)進(jìn)行回歸或分類會(huì)導(dǎo)致特征信息冗余或不足,可能在某一個(gè)域上過擬合,影響算法的魯棒性。張錫英等[14]結(jié)合密集連接模塊和空間金字塔池化模塊獲取多尺度特征,以構(gòu)造多尺度代價(jià);邱哲瀚等[15]使用稀疏卷積獲取并融合不同尺度的特征信息;唐家輝等[16]使用4種不同尺度的特征提取模塊提取多尺度特征。與上述研究相比,CASM-Net算法直接利用U型結(jié)構(gòu)輸出的多尺度特征信息作為多尺度代價(jià)構(gòu)造的輸入。
經(jīng)過優(yōu)化的多尺度特征信息通過組相關(guān)方法[11]構(gòu)造多個(gè)匹配代價(jià)。與組相關(guān)方法使用的單一尺度特征相比,不同尺度特征構(gòu)造的代價(jià)可以增加多尺度信息之間的交互。不同尺度代價(jià)分別經(jīng)過編解碼器進(jìn)一步過濾噪聲信息,低尺度代價(jià)上采樣后與高尺度代價(jià)融合,減少由于病態(tài)區(qū)域而導(dǎo)致的誤匹配。編解碼器主要包括3D卷積層和3D反卷積層,編解碼器的主要結(jié)構(gòu)如圖2所示。
圖2 編解碼器結(jié)構(gòu)
代價(jià)分布反映了候選像素對(duì)的匹配相似度,大多數(shù)情況下像素的代價(jià)分布為多峰分布,易導(dǎo)致高估計(jì)錯(cuò)誤率。為了緩解上述問題,在融合3個(gè)由低到高的匹配代價(jià)后,對(duì)匹配代價(jià)進(jìn)行視差分?jǐn)?shù)預(yù)測(cè),并將預(yù)測(cè)的分?jǐn)?shù)作為視差范圍預(yù)測(cè)的輸入,視差分?jǐn)?shù)的預(yù)測(cè)公式為:
通過調(diào)整視差搜索范圍和預(yù)測(cè)視差分?jǐn)?shù),優(yōu)化代價(jià)分布,增強(qiáng)算法對(duì)不同數(shù)據(jù)域的適應(yīng)能力。
1)Scene Flow[17]。大型合成數(shù)據(jù)集,圖像大小為960×540,包括訓(xùn)練、測(cè)試圖像對(duì)35 454、4 370張,提供視差真實(shí)值,最大視差為192。網(wǎng)絡(luò)訓(xùn)練10個(gè)周期需要約50 h,學(xué)習(xí)率設(shè)置為0.001。
2)KITTI[18]。包括KITTI2012和KITTI2015,是具有挑戰(zhàn)性和多樣性的道路場(chǎng)景數(shù)據(jù)集,圖像大小為1 236×376,僅提供稀疏視差圖作為訓(xùn)練的標(biāo)準(zhǔn)。CASM-Net算法在這兩個(gè)數(shù)據(jù)集上微調(diào)模型,網(wǎng)絡(luò)訓(xùn)練300個(gè)周期需要約48 h,在前200個(gè)周期學(xué)習(xí)率設(shè)置為0.001,后100個(gè)周期設(shè)置為0.000 1。
3)Middlebury[19]。小型室內(nèi)數(shù)據(jù)集,用于驗(yàn)證模型對(duì)真實(shí)場(chǎng)景的泛化能力,圖像分為F、H、Q這3個(gè)尺度,最大視差為256。實(shí)驗(yàn)使用1/2大小的數(shù)據(jù)在模型未經(jīng)重新訓(xùn)練的情況下進(jìn)行驗(yàn)證。
4)ETH3D[20]。小型室內(nèi)和室外場(chǎng)景的灰度數(shù)據(jù)集,包含27個(gè)訓(xùn)練圖像對(duì)和20個(gè)測(cè)試圖像對(duì),該數(shù)據(jù)集帶有稀疏的視差真實(shí)值,視差范圍為[0,64]。實(shí)驗(yàn)在模型未經(jīng)重新訓(xùn)練的情況下進(jìn)行驗(yàn)證。
對(duì)不同模塊進(jìn)行了消融研究,實(shí)驗(yàn)結(jié)果如表1所示。
1)特征提取。
分別使用原始ResNet算法和遷移ResNet算法進(jìn)行對(duì)比實(shí)驗(yàn)。由表1可知,相較于原始ResNet,遷移ResNet可以達(dá)到更優(yōu)的性能。在3個(gè)數(shù)據(jù)集上,使用遷移ResNet的3-PE均有所降低,其中,在KITTI數(shù)據(jù)集上,使用遷移ResNet的3-PE降低了15.2%。雖然遷移ResNet與原始ResNet的推理時(shí)間相同,但由于遷移的ResNet算法訓(xùn)練階段參數(shù)不需要更新,算法訓(xùn)練的效率得到了提高。使用遷移ResNet獲得的特征可視化結(jié)果如圖3所示,可以發(fā)現(xiàn),兩個(gè)樣本獲取的特征圖包含大量的紋理信息,并且不同特征對(duì)不同信息各有側(cè)重。如圖3第2列對(duì)輪廓邊緣的信息較敏感,圖3第3列對(duì)小物體的特征值較高。定量和定性結(jié)果都顯示使用遷移ResNet有很好的特征獲取能力,有利于立體匹配任務(wù)。
表1 在多個(gè)數(shù)據(jù)集上不同網(wǎng)絡(luò)設(shè)置的實(shí)驗(yàn)結(jié)果
2)代價(jià)優(yōu)化。
由表1可知,相較于單尺度代價(jià)優(yōu)化方法,CASM-Net算法的多尺度優(yōu)化方法在損失少量推理時(shí)間的前提下可以獲得更好的性能。具體地,在3個(gè)數(shù)據(jù)集上,相較于單尺度代價(jià)優(yōu)化模型,多尺度代價(jià)優(yōu)化模型的3-PE均有所降低,在KITTI數(shù)據(jù)集上效果最明顯,為34.0%。由定量結(jié)果可知,多尺度代價(jià)優(yōu)化模塊在損失少量推理時(shí)間的前提下,達(dá)到了更優(yōu)的性能。由于代價(jià)分布較為復(fù)雜,本文研究了不同階段代價(jià)優(yōu)化模塊,實(shí)驗(yàn)結(jié)果如圖4所示。由于輸入圖像包含無紋理區(qū)域、遮擋區(qū)域等病態(tài)區(qū)域,而不準(zhǔn)確的初始匹配代價(jià)通常會(huì)導(dǎo)致匹配錯(cuò)誤,獲得錯(cuò)誤視差結(jié)果。如圖4所示,當(dāng)使用單尺度代價(jià)優(yōu)化時(shí),4個(gè)樣本的代價(jià)概率分布呈多峰分布,不利于算法通過匹配代價(jià)獲得最優(yōu)的視差結(jié)果;當(dāng)使用多尺度代價(jià)優(yōu)化策略時(shí),代價(jià)概率分布趨向于單峰分布,且最優(yōu)代價(jià)值趨向于視差真實(shí)值。實(shí)驗(yàn)結(jié)果表明,多個(gè)階段的代價(jià)優(yōu)化策略可以優(yōu)化代價(jià)分布,從而獲取最優(yōu)視差值。
圖3 使用遷移ResNet算法預(yù)訓(xùn)練特征的可視化結(jié)果
圖4 不同尺度下代價(jià)預(yù)測(cè)策略的代價(jià)概率分布
3)視差分?jǐn)?shù)預(yù)測(cè)。
不同階段的代價(jià)由于尺度不一致,視差搜索范圍變化較大,而簡(jiǎn)單地對(duì)圖像上采樣可能導(dǎo)致錯(cuò)過真實(shí)視差。本文提出的視差分?jǐn)?shù)預(yù)測(cè)通過調(diào)整不同階段的視差搜索范圍,得到最優(yōu)視差。由表1可知,視差分?jǐn)?shù)預(yù)測(cè)有利于提升立體匹配性能,其中在KITTI數(shù)據(jù)集上3-PE降低了27.7%,在Middlebury和ETH3D數(shù)據(jù)集上誤差也有所降低。此外,本文還將預(yù)測(cè)的視差不確定性分?jǐn)?shù)圖,以及視差分?jǐn)?shù)預(yù)測(cè)前后的視差圖和誤差圖進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5所示,其中,誤差圖中的暖色區(qū)域表示誤差較大的區(qū)域。經(jīng)過視差分?jǐn)?shù)調(diào)整后,與初始視差圖相比,細(xì)化視差圖的視差邊緣更平滑,并且誤差圖中的暖色區(qū)域明顯下降,驗(yàn)證了視差分?jǐn)?shù)優(yōu)化視差的能力。由式(1)的計(jì)算過程可知,當(dāng)代價(jià)概率分布呈多峰分布時(shí)(如視差邊緣區(qū)域),由式(1)得到的視差分?jǐn)?shù)值較大;當(dāng)代價(jià)概率分布趨向于單峰分布時(shí),由式(1)得到的視差分?jǐn)?shù)值較小,呈多峰分布的代價(jià)曲線,有更大的概率得到錯(cuò)誤的匹配結(jié)果。這也就意味著誤差較大的匹配點(diǎn)視差分?jǐn)?shù)也越大,符合圖4中不同代價(jià)的抽樣結(jié)果。定量和定性實(shí)驗(yàn)結(jié)果顯示,視差分?jǐn)?shù)預(yù)測(cè)可以優(yōu)化視差結(jié)果,提升立體匹配性能。
4)損失函數(shù)。
由表1可知,相較于只使用Smooth L1損失函數(shù),搭配使用MAE損失函數(shù)后,算法性能在3個(gè)數(shù)據(jù)集上也有小幅提升。
圖5 不同階段視差圖和誤差圖的對(duì)比結(jié)果
綜上所述,算法各個(gè)模塊均能不同程度地優(yōu)化立體匹配性能,且不會(huì)消耗過多的時(shí)間。
為了驗(yàn)證算法的跨域泛化性能,本文選用了KITTI、Middlebury和ETH3D數(shù)據(jù)集作為測(cè)試集,Scene Flow數(shù)據(jù)集作為訓(xùn)練集對(duì)算法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)的對(duì)比算法如下。
1)半全局立體匹配(Semi-Global Matching, SGM)算法[21]。SGM算法是一種較成熟的傳統(tǒng)算法,跨域立體匹配表現(xiàn)較為穩(wěn)定。與SGM算法相比,CASM-Net算法引用了廣域特征信息,并設(shè)計(jì)了一個(gè)域自適應(yīng)的代價(jià)優(yōu)化模塊,實(shí)現(xiàn)跨域立體匹配任務(wù)。
2)PSMNet(Pyramid Stereo Matching Network)[22]。經(jīng)典的端到端立體匹配算法。與CASM-Net算法的多尺度代價(jià)優(yōu)化策略不同,它使用了一個(gè)級(jí)聯(lián)的沙漏模塊優(yōu)化單一尺度代價(jià)。
3)SegStereo算法[23]。該算法將分割數(shù)據(jù)集上訓(xùn)練的分割子網(wǎng)絡(luò)遷移到立體匹配任務(wù)中,改進(jìn)了視差邊緣的結(jié)果。與SegStereo算法相比,CASM-Net算法利用了ImageNet廣域數(shù)據(jù)集上預(yù)訓(xùn)練的模型并遷移到立體匹配任務(wù)中。
4)PBCP(Patch Based Confidence Prediction)算法[24]。該算法引入一個(gè)置信度預(yù)測(cè)網(wǎng)絡(luò)預(yù)測(cè)視差置信度,再將置信度與SGM傳統(tǒng)算法融合,利用預(yù)測(cè)的置信度調(diào)整SGM算法的懲罰項(xiàng)。
5)CRD-Fusion(Confidence guided Raw Disparity Fusion)[25]。提出一種針對(duì)遮擋區(qū)域的置信度預(yù)測(cè)方法,通過置信度的引導(dǎo),優(yōu)化遮擋區(qū)域立體匹配效果。與上述兩種算法相比,CASM-Net算法在成本優(yōu)化的中間階段預(yù)測(cè)視差分?jǐn)?shù),利用視差分?jǐn)?shù)端到端逐層更新的方式優(yōu)化代價(jià)分布。
6)iResNet[26]。iResNet是一個(gè)使用多尺度特征進(jìn)行視差優(yōu)化的立體匹配網(wǎng)絡(luò),與CASM-Net算法相同,使用多尺度特征構(gòu)造代價(jià)并優(yōu)化。
在兩個(gè)KITTI數(shù)據(jù)集上的測(cè)試結(jié)果如表2所示。與PSMNet相比,在KITTI2012數(shù)據(jù)集上,CASM-Net算法的2-PE-Noc、2-PE-All分別降低了6.1%、3.3%;在KITTI2015數(shù)據(jù)集上,3-PE-fg降低了19.3%。在KITTI2015數(shù)據(jù)集上,與SegStereo相比,CASM-Net算法的所有誤差指標(biāo)更優(yōu)。定性實(shí)驗(yàn)結(jié)果如圖6所示,對(duì)于一些病態(tài)區(qū)域,如無紋理區(qū)域和細(xì)薄結(jié)構(gòu)等,相較于SGM和PSMNet,CASM-Net算法可以產(chǎn)生更平滑且正確的視差圖;相較于SegStereo,CASM-Net算法在細(xì)薄結(jié)構(gòu)上取得了更好的視差結(jié)果(圖6中樣本一)。因此,CASM-Net算法可以很好地適應(yīng)KITTI室外數(shù)據(jù)域。
表2 在KITTI數(shù)據(jù)集上不同方法的實(shí)驗(yàn)結(jié)果
注:Noc(Non occluded)表示非遮擋區(qū)域;All表示所有區(qū)域;bg(background)表示背景區(qū)域;fg(foreground)表示前景區(qū)域;加粗?jǐn)?shù)據(jù)為該列最優(yōu)值,下劃線數(shù)據(jù)為該列次優(yōu)值。
圖6 在KITTI數(shù)據(jù)集上不同算法的定性結(jié)果
此外,本文選取了Middlebury訓(xùn)練集中的Adirondack等7個(gè)典型室內(nèi)樣本進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果如表3所示。在未經(jīng)重新訓(xùn)練的情況下,CASM-Net算法的2-PE在Teddy以外的樣本上取得了最優(yōu)或次優(yōu)結(jié)果,在樣本ArtL、Piano和Recycle上取得了最低的誤差;此外,在KITTI數(shù)據(jù)集上表現(xiàn)一般的SGM在Middlebury數(shù)據(jù)集上的表現(xiàn)良好。
表3 在Middlebury數(shù)據(jù)集上不同算法的2-PE結(jié)果 單位:%
Middlebury數(shù)據(jù)集上的定性實(shí)驗(yàn)結(jié)果如圖7所示,相較于SGM和PSMNet,CASM-Net算法對(duì)細(xì)薄結(jié)構(gòu)視差預(yù)測(cè)更準(zhǔn)確且視差邊緣較平滑。
圖7 在Middlebury數(shù)據(jù)集上不同算法的定性結(jié)果
圖8顯示了CASM-Net算法在ETH3D數(shù)據(jù)集上取得的定性實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn),ETH3D數(shù)據(jù)集包含室內(nèi)和室外場(chǎng)景且均為灰度圖像;對(duì)于大部分測(cè)試樣本,CASM-Net算法可以得到平滑且正確的視差圖,這進(jìn)一步說明算法對(duì)于不同數(shù)據(jù)域的立體匹配性能。
圖8 CASM-Net算法在ETH3D數(shù)據(jù)集上的定性結(jié)果
在KITTI、ETH3D和Middlebury數(shù)據(jù)集上的定量和定性實(shí)驗(yàn)結(jié)果顯示,CASM-Net算法具有一定的跨域能力。
本文提出了一種基于跨域自適應(yīng)的立體匹配算法CASM-Net。為了更好地獲取不同數(shù)據(jù)域的特征,CASM-Net使用了預(yù)訓(xùn)練的廣域模型作為特征提取模塊,獲取廣域特征信息用于立體匹配任務(wù);此外,為了減少因?yàn)閱我怀叨却鷥r(jià)造成的錯(cuò)誤匹配,本文提出多尺度代價(jià)優(yōu)化策略,進(jìn)一步優(yōu)化了代價(jià)分布,同時(shí)多尺度代價(jià)預(yù)測(cè)階段的視差分?jǐn)?shù)預(yù)測(cè)可以幫助算法處理更多的病態(tài)區(qū)域。實(shí)驗(yàn)結(jié)果表明,本文提出的立體匹配算法的各個(gè)模塊對(duì)提升匹配精度都有一定作用,并且在各個(gè)數(shù)據(jù)域的實(shí)驗(yàn)結(jié)果也充分驗(yàn)證了該算法具有一定的泛化能力。
未來將進(jìn)一步嘗試提升該算法的立體匹配性能,并在更多數(shù)據(jù)域進(jìn)行實(shí)驗(yàn)驗(yàn)證。此外,受一些遮擋區(qū)域的影響,即使經(jīng)過視差調(diào)整,最終也未獲得正確視差結(jié)果,如何進(jìn)一步優(yōu)化病態(tài)區(qū)域匹配效果,將在今后的工作中繼續(xù)開展。
[1] 周思達(dá),邱爽,唐嘉寧,等. 基于深度神經(jīng)網(wǎng)絡(luò)的無人機(jī)路徑?jīng)Q策的研究[J]. 計(jì)算機(jī)仿真, 2022, 39(6):449-452, 477.(ZHOU S D, QIU S, TANG J N, et al. Research on path decision of UAV based on deep neural network research[J]. Computer Simulation, 2022, 39(6):449-452, 477.)
[2] 陸慧敏,楊朔. 基于深度神經(jīng)網(wǎng)絡(luò)的自動(dòng)駕駛場(chǎng)景三維目標(biāo)檢測(cè)算法[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2022, 48(6):589-597.(LU H M, YANG S. Three-dimensional object detection algorithm based on deep neural networks for automatic driving[J]. Journal of Beijing University of Technology, 2022, 48(6):589-597.)
[3] 呂霽. 基于VR全景圖像處理的三維重構(gòu)算法研究[J]. 安陽(yáng)師范學(xué)院學(xué)報(bào), 2022(2):31-34.(LYU J. Research on 3D reconstruction algorithm based on VR panoramic image processing[J]. Journal of Anyang Normal University, 2022(2):31-34.)
[4] 黃松梅,畢遠(yuǎn)偉,許曉. 雙目立體匹配算法的研究與實(shí)現(xiàn)[J]. 魯東大學(xué)學(xué)報(bào)(自然科學(xué)版), 2018, 34(1):25-30.(HUANG S M, BI Y W, XU X. Research and implementation of binocular stereo matching algorithms[J]. Journal of Ludong University (Natural Science Edition), 2018, 34(1):25-30.)
[5] 王啟勝,王鳳隨,陳金剛,等. 融合自適應(yīng)注意力機(jī)制的Faster R-CNN目標(biāo)檢測(cè)算法[J]. 激光與光電子學(xué)進(jìn)展, 2022, 59(12): No.1215016.(WANG Q S, WANG F S, CHEN J G, et al. Faster R-CNN target-detection algorithm fused with adaptive attention mechanism[J]. Laser and Optoelectronics Progress, 2022, 59(12): No.1215016.)
[6] 張雪晴. 基于CNN的圖像分類[J]. 電子技術(shù)與軟件工程, 2022(7):182-185.(ZHANG X Q. CNN-based image classification[J]. Electronic Technology and Software Engineering, 2022(7):182-185.)
[7] ?BONTAR J, LeCUN Y. Computing the stereo matching cost with a convolutional neural network[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015:1592-1599.
[8] 張亞茹,孔雅婷,劉彬. 多維注意力特征聚合立體匹配算法[J]. 自動(dòng)化學(xué)報(bào), 2022, 48(7):1805-1815.(ZHANG Y R, KONG Y T, LIU B. Multi-dimensional attention feature aggregation stereo matching algorithm[J]. Acta Automatica Sinica, 2022, 48(7): 1805-1815.)
[9] KENDALL A, MARTIROSYAN H, DASGUPTA S, et al. End-to-end learning of geometry and context for deep stereo regression[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 66-75.
[10] RAO Z, HE M, DAI Y, et al. NLCA-Net: a non-local context attention network for stereo matching[J]. APSIPA Transactions on Signal and Information Processing, 2020, 9: No.E18.
[11] GUO X, YANG K, YANG W, et al. Group-wise correlation stereo network[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 3268-3277.
[12] 中國(guó)礦業(yè)大學(xué). 基于深度遷移學(xué)習(xí)的帶式輸送機(jī)煤流量雙目視覺測(cè)量方法:202011509023.7[P]. 2021-03-26.(China University of Mining and Technology. Binocular vision measurement method for coal flow of belt conveyor based on deep transfer learning: 202011509023.7[P]. 2021-03-26.)
[13] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[14] 張錫英,王厚博,邊繼龍. 多成本融合的立體匹配網(wǎng)絡(luò)[J]. 計(jì)算機(jī)工程, 2022, 48(2):186-193.(ZHANG X Y, WANG H B, BIAN J L. Stereo matching network with multi-cost fusion[J]. Computer Engineering, 2022, 48(2):186-193.)
[15] 邱哲瀚,李揚(yáng). 基于稀疏卷積的前景實(shí)時(shí)雙目深度估計(jì)算法[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(12):3680-3685.(QIU Z H, LI Y. Real-time binocular foreground depth estimation algorithm based on sparse convolution[J]. Journal of Computer Applications, 2021, 41(12):3680-3685.)
[16] 唐家輝,趙蕓,徐興. 一種改進(jìn)的多尺度引導(dǎo)聚合立體匹配網(wǎng)絡(luò)研究[J]. 浙江科技學(xué)院學(xué)報(bào), 2021, 33(5):378-385.(TANG J H, ZHAO Y, XU X. Research on an improved multi-scale guided aggregation stereo matching network[J]. Journal of Zhejiang University of Science and Technology, 2021, 33(5): 378-385.)
[17] MAYER N, ILG E, H?USSER P, et al. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 4040-4048.
[18] GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? the KITTI vision benchmark suite[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2012: 3354-3361.
[19] SCHARSTEIN D, HIRSCHMüLLER H, KITAJIMA Y, et al. High-resolution stereo datasets with subpixel-accurate ground truth[C]// Proceedings of the 2014 German Conference on Pattern Recognition, LNCS 8753. Cham: Springer, 2014: 31-42.
[20] SCH?PS T, SCH?NBERGER J L, GALLIANI S, et al. A multi-view stereo benchmark with high-resolution images and multi-camera videos[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 2538-2547.
[21] HIRSCHMüLLER H. Accurate and efficient stereo processing by semi-global matching and mutual information[C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition — Volume 2. Piscataway: IEEE, 2005: 807-814.
[22] CHANG J R, CHEN Y S. Pyramid stereo matching network[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 5410-5418.
[23] YANG G, ZHAO H, SHI J, et al. SegStereo: exploiting semantic information for disparity estimation[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 660-676.
[24] SEKI A, POLLEFEYS M. Patch based confidence prediction for dense disparity map[C]// Proceedings of the 2016 British Machine Vision Conference. Durham: BMVA Press, 2016: No.23.
[25] FAN X, JEON S, FIDAN B. Occlusion-aware self-supervised stereo matching with confidence guided raw disparity fusion[C]// Proceedings of the 19th Conference on Robots and Vision. Piscataway: IEEE, 2022:132-139.
[26] LIANG Z, FENG Y, GUO Y, et al. Learning for disparity estimation through feature constancy[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2811-2820.
Stereo matching algorithm based on cross-domain adaptation
LI Chuanbiao, BI Yuanwei*
(,,264005,)
Convolutional Neural Networks (CNNs) have made good progress in supervised stereo matching tasks, but most CNN algorithms are difficult to perform well in cross-domain situations. Aiming at the stereo matching problem of cross-domain data, a Cross-domain Adaptation Stereo Matching Network (CASM-Net) algorithm was proposed to achieve domain adaptive stereo matching tasks using transfer learning based on CNN. In the algorithm, a transferable feature extraction module was used to extract rich wide-domain features for stereo matching tasks. At the same time, an adaptive cost optimization module was designed to obtain the optimal cost distribution by making use of the similarity information on different receptive fields to optimize the cost. In addition, a disparity score prediction module was proposed to quantify the stereo matching ability of different regions, and the disparity results were further optimized by adjusting the disparity search range of the image. Experimental results show that on KITTI2012 and KITTI2015 datasets, compared with PSMNet (Pyramid Stereo Matching Network) algorithm, CASM-Net algorithm reduces 6.1%, 3.3% and 19.3% in 2-PE-Noc, 2-PE-All and 3-PE-fg, respectively; on Middlebury dataset, without re-training, CASM-Net algorithm achieves the optimal or suboptimal 2-PE results on all samples in the comparison with other algorithms. It can be seen that CASM-Net algorithm can improve cross-domain stereo matching.
supervised stereo matching; Convolutional Neural Network (CNN); transfer learning; cross-domain; disparity score
1001-9081(2023)10-3230-06
10.11772/j.issn.1001-9081.2022091398
2022?09?19;
2023?02?04;
李傳彪(1997—),男,山東濟(jì)南人,碩士研究生,主要研究方向:雙目立體匹配、三維重建; 畢遠(yuǎn)偉(1972—),男,山東威海人,副教授,碩士,主要研究方向:三維重建系統(tǒng)、軟件工程、數(shù)據(jù)庫(kù)技術(shù)、嵌入式技術(shù)。
TP391.41
A
2023?02?08。
LI Chuanbiao, born in 1997, M. S. candidate. His research interests include binocular stereo matching, three-dimensional reconstruction.
BI Yuanwei, born in 1972, M. S., associate professor. His research interests include three-dimensional reconstruction system, software engineering, database technology, embedded technology.