劉鵬 丁愛華 竇新宇
收稿日期:2023-07-31
基金項(xiàng)目:唐山市市級科技計(jì)劃項(xiàng)目(22130205H)
DOI:10.19850/j.cnki.2096-4706.2024.05.023
摘? 要:場景的深度估計(jì)在三維視覺領(lǐng)域有著廣泛的應(yīng)用。針對單目室內(nèi)場景深度估計(jì)精度低、細(xì)粒度信息預(yù)測能力差等問題,提出一種基于注意力機(jī)制和多級校正的單目深度估計(jì)網(wǎng)絡(luò)。該網(wǎng)絡(luò)首先采用混合自注意力Transformer和卷積神經(jīng)網(wǎng)絡(luò)的雙分支模塊提取彩色圖像的多分辨率特征,然后利用基于空間域注意力機(jī)制的模塊對提取的多分辨率特征進(jìn)行漸進(jìn)融合,最后通過多級校正的方式處理融合后的特征,并漸進(jìn)地估計(jì)出不同分辨率的深度圖像。實(shí)驗(yàn)結(jié)果表明,與同類方法相比,所提出的網(wǎng)絡(luò)可有效提高深度圖像細(xì)粒度信息的預(yù)測能力,網(wǎng)絡(luò)的多個(gè)評價(jià)指標(biāo)均有不同幅度的提升。
關(guān)鍵詞:單目深度估計(jì);Transformer;注意力機(jī)制;多級校正
中圖分類號:TP391? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2024)05-0106-05
Depth Estimation of Monocular Indoor Scenes Based on Attention Mechanism and Multi-level Correction
LIU Peng, DING Aihua, DOU Xinyu
(Intelligence and Information Engineering College, Tangshan University, Tangshan? 063000, China)
Abstract: The depth estimation of scenes has a wide range of applications in the field of 3D vision. A monocular depth estimation network based on Attention Mechanism and multi-level correction is proposed to address the issues of low accuracy and poor prediction ability of fine-grained information in monocular indoor scene depth estimation. The network first uses a dual branch module with a self attention Transformer and a convolutional neural network to extract multi-resolution features of color images. Then, a module based on spatial domain Attention Mechanism is used to gradually fuse the extracted multi-resolution features. Finally, the fused features are processed through multi-level correction, and depth images with different resolutions are gradually estimated. The experimental results show that compared with similar methods, the proposed network can effectively improve the predictive ability of fine-grained information in depth images, and multiple evaluation indicators of the network have been improved to varying degrees.
Keywords: monocular depth estimation; Transformer; Attention Mechanism; multi-level correction
0? 引? 言
單目深度估計(jì)以單目RGB圖像為輸入,估計(jì)出圖像描述的場景對象到拍攝相機(jī)的距離信息,即深度信息。獲取的深度信息在室內(nèi)場景的地圖導(dǎo)航、目標(biāo)檢測、三維重建等任務(wù)中有著廣泛的應(yīng)用。但單目深度估計(jì)缺少諸如運(yùn)動(dòng)、立體視覺關(guān)系等可靠的深度線索,本質(zhì)上是一個(gè)不適定問題,因此一直都是計(jì)算機(jī)視覺領(lǐng)域的難點(diǎn)課題。
目前主流的單目深度估計(jì)均采用基于深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)方法,借助深度學(xué)習(xí)模型強(qiáng)大的特征學(xué)習(xí)和特征表示能力,從大量RGB圖像到深度圖像的映射過程中提取深度線索。Eigen等[1]首次應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)完成單目深度估計(jì)任務(wù),此后,基于CNN的單目深度估計(jì)方法不斷呈現(xiàn)[2-11]。例如,Zheng等[2]通過自定義的特征多尺度上卷積操作將編碼器不同分辨率的層次化特征進(jìn)行有效整合,實(shí)現(xiàn)編碼器特征從粗到精處理的映射;Chen等[3]用一種自適應(yīng)密集特征聚合模塊融合多尺度特征,實(shí)現(xiàn)場景深度圖像結(jié)構(gòu)信息的有效推斷;Liu等[5]使用跳躍連接將CNN不同階段的相同分辨率特征進(jìn)行有效融合,以提高深度圖像的估計(jì)精度;Huynh等[7]引入非局部共平面性約束和非局部注意機(jī)制來提高深度圖像中平面結(jié)構(gòu)區(qū)域的估計(jì)效果。
鑒于Transformer模型優(yōu)秀的全局建模能力,研究人員開始將各種視覺Transformer模型應(yīng)用于單目深度估計(jì)任務(wù)[12-15]。例如,Bhat等[12]用一種基于Transformer模型的全局統(tǒng)計(jì)分析方法細(xì)化全卷積網(wǎng)絡(luò)模型的輸出,提高了深度圖像的整體估計(jì)效果。Ranftl等[13]提出一種通用的密集預(yù)測Transformer模型,在語義分割和單目深度估計(jì)方面均取得不錯(cuò)的效果。文獻(xiàn)[14,15]設(shè)計(jì)的單目深度估計(jì)網(wǎng)絡(luò),均采用了Transformer模型實(shí)現(xiàn)編碼器和CNN實(shí)現(xiàn)解碼器的設(shè)計(jì)架構(gòu)。
為了進(jìn)一步提高單目深度估計(jì)網(wǎng)絡(luò)的預(yù)測精度,本文對文獻(xiàn)[14,15]使用的Transformer編碼器-CNN解碼器基礎(chǔ)框架進(jìn)行優(yōu)化和改進(jìn),提出一種基于注意力機(jī)制和多級校正的單目深度估計(jì)網(wǎng)絡(luò)。網(wǎng)編碼器部分將Transformer模型和CNN有效結(jié)合,捕獲場景全局上下文信息的同時(shí),增強(qiáng)對細(xì)節(jié)特征的處理能力。解碼器部分采用金字塔結(jié)構(gòu)的特征處理方式,利用空間域注意力機(jī)制實(shí)現(xiàn)特征的漸進(jìn)融合,利用多級校正的方式逐步恢復(fù)深度圖像,以提高對深度圖像細(xì)粒度信息的預(yù)測精度。
1? 本文方法
1.1? 網(wǎng)絡(luò)整體結(jié)構(gòu)
本文提出的單目深度估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。對于輸入分辨率為H×W的RGB圖像,首先,利用與ResNet [16]相同的跨步卷積進(jìn)行淺層特征提取和特征分塊,產(chǎn)生維度為H/2×W/2×48的特征。然后,通過設(shè)計(jì)的雙分支Transformer模塊進(jìn)行進(jìn)一步的特征提取,同時(shí)通過Patch Merge操作進(jìn)行特征降維。經(jīng)過四步的特征提取和特征降維,有效提取出RGB圖像的多分辨率特征,對應(yīng)特征的維度分別為H/4×W/4×C、H/8×W/8×2C、H/16×W/16×4C、H/32×W/32×8C,其中的參數(shù)C設(shè)置為96。
圖1? 網(wǎng)絡(luò)整體結(jié)構(gòu)
接著,幾個(gè)設(shè)計(jì)的空間域注意力融合模塊和校正模塊均以自上而下的層次金字塔模式協(xié)同工作。空間域注意力融合模塊對上述四組特征進(jìn)行漸進(jìn)融合,校正模塊對融合后特征進(jìn)行校正的同時(shí),實(shí)現(xiàn)深度圖像的漸進(jìn)估計(jì)。估計(jì)出的深度圖像分辨率分別為H/8×W/8、H/4×W/4、H/2×W/2、H×W。
1.2? 子功能模塊結(jié)構(gòu)
對RGB圖像進(jìn)行多分辨率特征提取時(shí),本文設(shè)計(jì)了一種雙分支Transformer模塊,結(jié)構(gòu)如圖2所示??紤]到Transformer模型和CNN特征處理時(shí)的不同優(yōu)勢,該模塊采用了并行混合Transformer和CNN的設(shè)計(jì)方式,利用CNN提取局部細(xì)節(jié)信息,利用Transformer捕獲全局上下文信息。Transformer分支使用Swin-Transformer(S-T)[17]結(jié)構(gòu)。S-T通過滑動(dòng)窗口和分層表示的結(jié)構(gòu)設(shè)計(jì),進(jìn)一步提高了Transformer模型的計(jì)算效率。卷積分支使用殘差卷積結(jié)構(gòu),對應(yīng)的Bottleneck由具有相同信道大小的1×1卷積、3×3卷積和1×1卷積串聯(lián)組成。通過Concatenation和1×1卷積的組合實(shí)現(xiàn)兩個(gè)分支輸出特征的融合,以同時(shí)聚合全局和局部特征表示。
圖2? 雙分支Transformer模塊
對提取的多分辨率特征進(jìn)行漸進(jìn)融合時(shí),為了提高細(xì)粒度特征信息的處理能力,本文設(shè)計(jì)了一種空間域注意力融合模塊,結(jié)構(gòu)如圖3所示。首先,使用3×3卷積+ Patch Shuffle + 3×3卷積的操作實(shí)現(xiàn)低分辨率特征的上采樣。然后,通過Concatenation實(shí)現(xiàn)與高分辨率特征的合并,并對合并后特征通過1×1卷積+ ReLU激活函數(shù)和3×3卷積+ ReLU激活函數(shù)的兩步操作實(shí)現(xiàn)特征的提取。接著,通過3×3卷積和Sigmoid函數(shù)的組合產(chǎn)生兩個(gè)空間域二維注意力圖。最后,將這兩個(gè)注意力圖分別與高分辨率特征和上采樣后的低分辨率特征相乘,實(shí)現(xiàn)對特征的細(xì)化處理。
本文通過設(shè)計(jì)的校正模塊實(shí)現(xiàn)融合后特征到深度圖像的映射,這種映射關(guān)系的建立使得融合后特征的指向性更強(qiáng),從而達(dá)到校正特征的作用。同時(shí),深度圖像的漸進(jìn)預(yù)測也有利于對深度圖像細(xì)粒度信息的預(yù)測。校正模塊結(jié)構(gòu)如圖4所示,首先,當(dāng)前分辨率的校正模塊輸出特征與融合后特征進(jìn)行按元素求和。然后,經(jīng)過3×3卷積+ Patch Shuffle + 3×3卷積的組合實(shí)現(xiàn)特征的上采樣,得到下一分辨率的校正特征。最后,校正特征通過3×3卷積和Sigmoid函數(shù)的組合實(shí)現(xiàn)深度圖像的預(yù)測。本文將初始分辨率的校正特征設(shè)置為0。
圖3? 空間域注意力融合模塊
圖4? 校正模塊
1.3? 損失函數(shù)
損失函數(shù)的設(shè)計(jì)決定了網(wǎng)絡(luò)訓(xùn)練時(shí)的參數(shù)調(diào)整方式,對最終估計(jì)精度影響較大。為了平衡各項(xiàng)損失,本文選擇的損失函數(shù)包括深度損失Ldepth和法線損失Lnormal兩項(xiàng),即:
(1)
Ldepth選擇文獻(xiàn)[18]的尺度不變對數(shù)損失,逐點(diǎn)計(jì)算預(yù)測深度與真實(shí)深度的差值,計(jì)算方法如下:
(2)
其中, 和yi分別表示像素點(diǎn)i的真實(shí)深度值和估計(jì)深度值,n表示像素總數(shù)。
Lnormal為深度圖像轉(zhuǎn)換到三維空間后的法線損失。通過比較三維空間的表面法線損失,可更好地反映深度圖像的結(jié)構(gòu)預(yù)測差異,計(jì)算方法為:
(3)
其中, 和ni分別表示像素點(diǎn)i的真實(shí)表面法線值和估計(jì)表面法線值,表面法線的計(jì)算按照參考文獻(xiàn)[19]提供的方法。
2? 實(shí)驗(yàn)分析
2.1? 實(shí)驗(yàn)設(shè)置
本文選取室內(nèi)場景數(shù)據(jù)集NYU Depth V2 [20]進(jìn)行模型的訓(xùn)練和測試。
對于NYU Depth V2數(shù)據(jù)集,按照通用的分類方法,選擇249個(gè)場景,約5萬組圖像對模型進(jìn)行訓(xùn)練;選擇215個(gè)場景,654組圖像對模型進(jìn)行測試。深度圖像和RGB圖像均居中剪切成608×456像素,以去除深度值偏差較大的邊緣區(qū)域。訓(xùn)練數(shù)據(jù)集的增強(qiáng)操作參照文獻(xiàn)[18]中的通用做法。
網(wǎng)絡(luò)模型的搭建基于PyTorch深度學(xué)習(xí)開發(fā)框架。訓(xùn)練時(shí),使用Adam優(yōu)化器不斷調(diào)整網(wǎng)絡(luò)參數(shù),基本學(xué)習(xí)率設(shè)置為0.000 1,并且每5個(gè)周期將其降低10%,參數(shù)β1 = 0.9,β2 = 0.999,并使用0.000 1的衰減率。訓(xùn)練參數(shù)Batch設(shè)置為16,Epoch設(shè)置為30。
選擇單目深度估計(jì)任務(wù)常用的性能指標(biāo)進(jìn)行定量評價(jià),各評價(jià)指標(biāo)和對應(yīng)算式為:
1)均方根誤差(RMSE):
2)絕對相對差(Abs Rel):
3)均方對數(shù)誤差(Log10):
4)閾值內(nèi)準(zhǔn)確度δi,即相對誤差在1.25k以內(nèi)的像素比例,其中:
2.2? 與現(xiàn)有方法的對比
表1顯示了本文方法與幾種先進(jìn)的單目深度估計(jì)方法的性能指標(biāo)比較結(jié)果,其中,↑表示指標(biāo)的數(shù)值越大越好,↓表示指標(biāo)的數(shù)值越小越好。
從表1可以看出,本文方法的各項(xiàng)性能指標(biāo)均優(yōu)于其他方法。相比于AdaBins[12],誤差指標(biāo)Abs Rel降低了5.8%,精度指標(biāo)δ1提升了1.3%。表1也給出了模型參數(shù)和運(yùn)算速度FPS的對比結(jié)果,可以看出,本文所提出的網(wǎng)絡(luò)在深度估計(jì)效果、模型參數(shù)、運(yùn)算速度上實(shí)現(xiàn)了很好的平衡。
表1? NYU Depth V2數(shù)據(jù)集深度估計(jì)性能指標(biāo)對比
方法 誤差/%↓ 準(zhǔn)確度/%↑ FPS↑ 模型
參數(shù)↓
Abs Rel Log10 RMSE δ1 δ2 δ3
DORN[4] 11.5 5.1 50.9 82.8 96.5 99.2 — —
BTS[18] 11.0 4.7 39.2 88.5 97.8 99.4 24.5 47.0M
DAV[7] 10.8 — 41.2 88.2 98.0 99.6 — 25.0M
DPT[13] 11.0 4.5 35.7 90.4 98.8 99.6 24.3 123.0M
VNL[6] 10.8 4.8 41.6 87.5 97.6 99.4 53.6 90.4M
文獻(xiàn)[14] 10.5 4.4 35.8 90.5 98.5 99.6 62.0 45.0M
AdaBins[12] 10.3 4.4 36.4 90.3 98.4 99.7 19.9 78.0M
本文方法 9.7 4.1 35.1 91.5 99.2 99.7 44.3 68.2M
圖5展示了部分測試數(shù)據(jù)集深度估計(jì)的可視化結(jié)果。可以看出,本文方法對桌椅、家居的細(xì)節(jié)深度邊界的預(yù)測效果更好。從圖5第一行和第五行的深度估計(jì)結(jié)果也可以看出,本文方法預(yù)測的深度變化更加接近深度真值的變化。因此,定量和定性的對比結(jié)果表明,本文方法進(jìn)一步提高了單目深度估計(jì)的精度,對深度圖像細(xì)粒度信息的預(yù)測效果更佳。
圖5? NYU Depth V2數(shù)據(jù)集可視化結(jié)果對比
2.3? 消融實(shí)驗(yàn)
在數(shù)據(jù)集NYU Depth V2上進(jìn)行了一系列消融性實(shí)驗(yàn),以驗(yàn)證各子功能模塊設(shè)計(jì)的有效性,結(jié)果如表2所示。
為了驗(yàn)證設(shè)計(jì)的雙分支Transform模塊提取RGB圖像特征的有效性,用單分支S-T模塊進(jìn)行了替換。由表2的第一行和第四行可以看出,混合S-T和殘差卷積的雙分支Transform結(jié)構(gòu)的各項(xiàng)誤差性能指標(biāo)均優(yōu)于單分支S-T。
為了驗(yàn)證特征融合模塊設(shè)計(jì)的有效性,對低分辨率特征上采樣后,采用了典型的跳躍連接的融合方式進(jìn)行了替換,結(jié)果如表2的第二行所示。顯然,本文設(shè)計(jì)的空間域注意力模塊特征融合的效果優(yōu)于局部融合方式。
此外,對多級校正的效果進(jìn)行了分析。對比只在融合特征的最高分辨率處進(jìn)行一次校正并預(yù)測深度的方式(表2的第三行),多級校正的方式可以獲得更準(zhǔn)確的估計(jì)結(jié)果。
表2? 消融實(shí)驗(yàn)性能指標(biāo)對比
方法 誤差/%↓ 準(zhǔn)確度/%↑
Abs Rel Log10 RMSE δ1 δ2 δ3
單分支S-T 10.2 4.4 36.4 90.8 99.0 99.7
局部融合 10.5 4.6 35.8 90.6 98.9 99.6
一次校正 11.0 4.7 39.2 90.5 98.7 99.6
本文方法 09.7 4.1 35.1 91.5 99.2 99.7
3? 結(jié)? 論
本文提出了一種基于注意力機(jī)制和多級校正的單目深度估計(jì)網(wǎng)絡(luò)。網(wǎng)絡(luò)將自注意力S-T模型和殘差卷積有效結(jié)合,用于RGB圖像的特征提??;設(shè)計(jì)空間域注意力融合模塊,用于特征的漸進(jìn)融合;利用設(shè)計(jì)的校正模塊校正融合后特征,實(shí)現(xiàn)深度圖像的漸進(jìn)輸出。室內(nèi)場景公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相較于現(xiàn)有的單目深度估計(jì)方法,本文網(wǎng)絡(luò)能取得更好的估計(jì)效果。另外,本文也做了一系列對比試驗(yàn)驗(yàn)證網(wǎng)絡(luò)子模塊設(shè)計(jì)的有效性。下一步研究工作將考慮把本文的深度估計(jì)網(wǎng)絡(luò)應(yīng)用與室內(nèi)場景的單目視覺SLAM系統(tǒng)。
參考文獻(xiàn):
[1] EIGEN D,PUHRSCH C,F(xiàn)ERGUS R. Depth map prediction from a single image using a multi-scale deep network [C]//Proceedings of the 28th International Conference on Neural Information Processing Systems(NIPS).Montreal:MIT Press,2014:2,2366-2374.
[2] ZHANG Z Y,XU C,YANG J,et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation [J].Pattern Recognition,2018,83:430-442.
[3] CHEN X T,CHEN X J,ZHA Z J. Structure aware residual pyramid network for monocular depth estimation [C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence(IJCAI).Macao:AAAI Press,2019:694-700.
[4] FU H,GONG M M,WANG C H,et al. Deep Ordinal Regression Network for Monocular Depth Estimation [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:2002-2011.
[5] LIU J,LI Q,CAO R,et al. A contextual conditional random field network for monocular depth estimation [J/OL].Image and Vision Computing,2020,98:103922[2023-06-30].https://doi.org/10.1016/j.imavis.2020.103922.
[6] YIN W,LIU Y F,SHEN C H,et al. Enforcing Geometric Constraints of Virtual Normal for Depth Prediction [C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).Seoul:IEEE,2019:5683-5692.
[7] HUYNH L,NGUYEN-HA P,MATAS J,et al. Guiding Monocular Depth Estimation Using Depth-Attention Volume [C]//2020 Proceedings of the European Conference on Computer Vision(ECCV).Glasgow:Springer,Cham,2020:581-597.
[8] LIU P,ZHANG Z H,MENG Z Z,et al. Monocular depth estimation with joint attention feature distillation and wavelet-based loss function [J].Sensors,2021,21(1):54-75.
[9] WANG J R,ZHANG G,YU M,et al. Attention-Based Dense Decoding Network for Monocular Depth Estimation [J].IEEE Access,2020,8:85802-85812.
[10] RANFTL R,LASINGER K,HAFNER D,et al. Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-Shot Cross-Dataset Transfer [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(3):1623-1637.
[11] WANG Q L,WU B G,ZHU P F,et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:11531-11539.
[12] BHAT S F,ALHASHIM I,WONKA P. AdaBins: Depth Estimation Using Adaptive Bins [C]//2021 Proceedings of the IEEE/CVF International Conference on Computer Vision(CVPR).Nashville:IEEE,2021:4008-4017.
[13] RANFTL R,BOCHKOVSKIY A,KOLTUN V. Vision Transformers for Dense Prediction [C]//2021 Proceedings of the IEEE/CVF International Conference on Computer Vision(CVPR).Montreal:IEEE,2021:12159-12168.
[14] 吳冰源,王永雄. 面向全局特征Transformer架構(gòu)的單目深度估計(jì) [J/OL].控制工程,2023:1-7[2023-06-30].https://
doi.org/10.14107/j.cnki.kzgc.20220364.
[15] ZHANG C,XU K,MA Y X,et al. GFI-Net: Global Feature Interaction Network for Monocular Depth Estimation [J/OL].Entropy,2023,25(3):421[2023-06-30].https://doi.org/10.3390/e25030421.
[16] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770-778.
[17] LIU Z,LIN Y T,CAO Y,et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV).Montreal:IEEE,2021:9992-10002.
[18] LEE J H,HAN M K,KO D W,et al. From Big to Small: Multi-Scale Local Planar Guidance for Monocular Depth Estimation [J/OL].arXiv:1907.10326 [cs.CV].[2023-06-25].https://arxiv.org/abs/1907.10326v5.
[19] PATIL V,SAKARIDIS C,LINIGER A,et al. P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior [C]//2022 Proceedings of the IEEE/CVF International Conference on Computer Vision(CVPR).New Orleans:IEEE,2022:1600-1611.
[20] SLBERMAN N,HOIEM D,KOHLI D,et al. Indoor segmentation and support inference from RGBD images [C]//Proceedings of the 12th European conference on Computer Vision.Adobe:Springer-Verlag,2012:746-760.
作者簡介:劉鵬(1982—),男,漢族,遼寧沈陽人,講師,碩士,研究方向:深度學(xué)習(xí)、計(jì)算機(jī)視覺;丁愛華(1978—),女,漢族,江蘇南通人,教授,碩士,研究方向:機(jī)器視覺、深度學(xué)習(xí);竇新宇(1983—),男,漢族,河北唐山人,副教授,博士,研究方向:機(jī)器學(xué)習(xí)、圖像處理。