任瀚實(shí) 周志宇 孫樹森
摘 要: 在深度相機(jī)獲取的室內(nèi)場景深度圖中,部分像素點(diǎn)缺失深度信息;為補(bǔ)全深度信息,設(shè)計(jì)了端對端的場景深度圖補(bǔ)全網(wǎng)絡(luò),在此基礎(chǔ)上提出了一種基于通道注意力機(jī)制的室內(nèi)場景深度圖補(bǔ)全方法。該方法將場景彩色圖與缺失部分深度信息的場景深度圖作為場景深度圖補(bǔ)全網(wǎng)絡(luò)的輸入,首先提取場景彩色圖和深度圖的聯(lián)合特征,并根據(jù)通道注意力機(jī)制將提取到的聯(lián)合特征進(jìn)行解碼,得到初始預(yù)測深度圖;然后借助非局部區(qū)域上的傳播算法逐步優(yōu)化場景深度的預(yù)測信息,得到完整的場景深度圖;最后在Matterport3D等數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并將該方法與典型方法進(jìn)行比較分析。實(shí)驗(yàn)結(jié)果表明,該方法融合了場景彩色圖和深度圖特征信息,通過注意力機(jī)制提高了深度圖補(bǔ)全網(wǎng)絡(luò)的性能,有效補(bǔ)全了深度相機(jī)拍攝室內(nèi)場景時缺失的深度信息。
關(guān)鍵詞:深度圖;深度補(bǔ)全;深度學(xué)習(xí);注意力機(jī)制;室內(nèi)場景
中圖分類號:TP391.41;TP183
文獻(xiàn)標(biāo)志碼:A
文章編號:1673-3851 (2023) 05-0344-09
引文格式:任瀚實(shí),周志宇,孫樹森. 基于通道注意力機(jī)制的室內(nèi)場景深度圖補(bǔ)全[J]. 浙江理工大學(xué)學(xué)報(自然科學(xué)),2023,49(3):344-352.
Reference Format: REN? Hanshi,ZHOU? Zhiyu,SUN Shusen. Depth map completion for indoor scenes based on the channel attention mechanism[J]. Journal of Zhejiang Sci-Tech University,2023,49(3):344-352.
Depth map completion for indoor scenes based on the channel attention mechanism
REN Hanshia, ZHOU Zhiyua, SUN Shusenb
(a.School of Information Science and Technology; b.School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China)
Abstract: When the depth camera scans the indoor scene, the depth information of some pixels is missing. To solve this problem, we proposed a depth map completion method for indoor scenes based on a channel attention mechanism and an end-to-end scene depth map completion network. With the scene color map and incomplete scene depth map as input, the network first extracted the scene color map features and depth map features, and decoded the extracted combined features based on the channel attention mechanism to obtain the initially predicted depth map. Then the predicted scene depth information was gradually optimized with the help of non-local spatial propagation algorithm to finally obtain the complete scene depth map. Finally, the proposed method was compared with typical methods using datasets such as Matterport3D. Experimental results show that this method, integrating the feature information of the scene color map and the depth map, improves the performance of depth map completion network through the attention mechanism, and effectively complements the lack of depth information when shooting indoor scenes by depth camera.
Key words:depth image; depth completion; deep learning; attention mechanism; indoor scene
0 引 言
目前,場景深度圖在自動駕駛[1]、場景重建[2]以及增強(qiáng)現(xiàn)實(shí)[3]等領(lǐng)域有著廣泛應(yīng)用。雖然深度傳感器技術(shù)已經(jīng)有了很大發(fā)展,但Microsoft Kinect、Intel Real Sense、Google Tango等商品級RGB-D相機(jī),在拍攝場景過亮、物體表面過于光滑、相機(jī)與物體之間距離過遠(yuǎn)或過近等情況下采集到的深度圖像會缺失部分像素點(diǎn)的深度數(shù)據(jù)。深度數(shù)據(jù)缺失會對自動駕駛、三維重建、目標(biāo)檢測等計(jì)算機(jī)視覺任務(wù)造成不利影響,因此深度圖補(bǔ)全研究非常必要。
本文研究商品級相機(jī)拍攝的室內(nèi)場景RGB-D圖像深度數(shù)據(jù)補(bǔ)全的問題。深度圖補(bǔ)全任務(wù)可以歸結(jié)為一個密集標(biāo)記問題,因此針對密集標(biāo)記問題的方法也可以用于深度圖補(bǔ)全任務(wù)[4]。帶有跳躍連接的編碼器-解碼器結(jié)構(gòu)[4]已廣泛用于解決語義分割等密集標(biāo)記問題。例如,Senushkin等[4]提出了一種網(wǎng)絡(luò),該網(wǎng)絡(luò)由編碼器-解碼器和一個輕量級細(xì)化網(wǎng)絡(luò)組成,在Matterport3D數(shù)據(jù)集上取得了最佳效果。此外,解決深度圖補(bǔ)全任務(wù)的另一種思路是利用傳播算法,通過觀測到的深度數(shù)據(jù)補(bǔ)全深度圖。例如,Park等[5]提出了一種網(wǎng)絡(luò),采用傳播算法,利用非局部區(qū)域內(nèi)相關(guān)性較強(qiáng)的像素的深度數(shù)據(jù)來補(bǔ)全深度圖,有效避免了局部區(qū)域中無關(guān)像素的影響。
單目圖像的深度估計(jì)是計(jì)算機(jī)視覺領(lǐng)域中一個重要問題。早期的深度估計(jì)方法主要通過人工調(diào)整模型、表面和法線[6-7]、單目紋理圖或失焦特性[8]等實(shí)現(xiàn);最近的研究主要結(jié)合多尺度信息來預(yù)測像素級深度[9-10],這可以通過多種方式實(shí)現(xiàn),如融合網(wǎng)絡(luò)架構(gòu)中不同層對應(yīng)的特征映射再使用降維回歸。上述方法只適用于估計(jì)商品RGB-D相機(jī)所拍攝的深度圖,但不適用于商品級相機(jī)拍攝的室內(nèi)場景RGB-D圖像深度圖補(bǔ)全的問題。由于這些RGB-D圖像通常缺失部分深度信息,僅在原始深度上訓(xùn)練不能很好地補(bǔ)全缺失的深度圖,所以本文采用融合彩色圖和深度圖的方法來提升深度圖補(bǔ)全任務(wù)效果。
早期的深度圖補(bǔ)全任務(wù)一般通過基于壓縮感知或?yàn)V波器的方法實(shí)現(xiàn)。Uhrig等[11]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的深度圖補(bǔ)全方法,通過彩色圖像引導(dǎo)對基于卷積神經(jīng)網(wǎng)絡(luò)的深度圖補(bǔ)全方法進(jìn)行了改進(jìn)。Chen等[12]提出了一種基于連續(xù)卷積的2D-3D融合網(wǎng)絡(luò)結(jié)構(gòu)。Li等[13]采用多尺度級聯(lián)沙漏結(jié)構(gòu)進(jìn)行深度圖補(bǔ)全。鄭柏倫等[14]使用三分支的多尺度特征融合網(wǎng)絡(luò)融合彩色圖像特征和深度圖像特征,進(jìn)行深度圖補(bǔ)全。除了利用彩色圖像引導(dǎo),最近提出的一些方法還使用表面法線和物體邊界信息來輔助解決深度圖補(bǔ)全任務(wù)[15-16]。以上相關(guān)算法都屬于監(jiān)督學(xué)習(xí),此外處理深度圖補(bǔ)全任務(wù)也可以使用自監(jiān)督算法或無監(jiān)督算法[17-18]。上述大部分工作都是基于室外場景的稀疏深度的Lidar數(shù)據(jù),并在KITTI數(shù)據(jù)集上驗(yàn)證;另一部分工作針對的是Kinect傳感器獲取的半密集深度數(shù)據(jù)。最近,Zhang等[19]引入了用于室內(nèi)深度圖補(bǔ)全任務(wù)的大型RGB-D數(shù)據(jù)集Matterport3D,使用預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行法線估計(jì)以及邊界檢測,再對得到的法向量和邊界進(jìn)行全局優(yōu)化。雖然該方法在Matterport3D數(shù)據(jù)集上取得良好效果,但其網(wǎng)絡(luò)的復(fù)雜性限制了該方法的實(shí)際應(yīng)用。Huang等[20]提出的方法在Matterport3D數(shù)據(jù)集上首次超過原始結(jié)果。與Zhang等[19]的研究相似,他們提出的方法也涉及復(fù)雜的圖像預(yù)處理并通過多階段處理實(shí)現(xiàn);雖然它不依賴于預(yù)先訓(xùn)練的骨干網(wǎng)絡(luò),但使用了在外部數(shù)據(jù)上訓(xùn)練過的深度神經(jīng)網(wǎng)絡(luò)。Senushki等[4]提出的編解碼網(wǎng)絡(luò)訓(xùn)練的模型在Matterport3D數(shù)據(jù)集上表現(xiàn)最佳。該模型僅需要輸入室內(nèi)場景彩色圖和不完整的深度圖,而不需要法線信息和邊界等附加信息,通過編碼器進(jìn)行特征提取后即可利用輕量級的細(xì)化網(wǎng)絡(luò)完成深度圖補(bǔ)全任務(wù)。
直接進(jìn)行深度圖補(bǔ)全的算法已經(jīng)具有良好表現(xiàn);使用彩色圖引導(dǎo)稀疏深度圖進(jìn)行傳播,并通過稀疏的深度圖獲得深度信息預(yù)測,是另一種完成深度圖補(bǔ)全任務(wù)的有效途徑??臻g傳播算法從大規(guī)模數(shù)據(jù)中學(xué)習(xí)特定的親和力,可應(yīng)用于包括深度圖補(bǔ)全和語義分割在內(nèi)的計(jì)算機(jī)視覺任務(wù)。最初的空間傳播算法通過線性相關(guān)的傳播模型設(shè)計(jì),只針對某像素與其在某個方向上(上、下、左、右)鄰近的3個像素,沒有考慮與該像素相關(guān)的所有像素。Cheng等[21]提出的卷積空間傳播網(wǎng)絡(luò)(Convolutional spatial propagation network,CSPN)克服了這一局限。CSPN可以預(yù)測局部區(qū)域內(nèi)相鄰點(diǎn)的相關(guān)性,同時更新所有像素的局部上下文信息以提高效率。然而CSPN依賴于固定區(qū)域內(nèi)的相鄰像素之間的關(guān)系,這些固定區(qū)域內(nèi)的相鄰像素本身可能來自不同的物體。因此這樣的傳播方式會因不相關(guān)像素導(dǎo)致深度值混合,也限制了圖像中上下文相關(guān)信息(即非局部上下文信息)的應(yīng)用。最近,已有一些研究對非局部上下文信息的應(yīng)用進(jìn)行了探索[22-24]。Wang等[25]提出了一種帶有非局部塊的深度神經(jīng)網(wǎng)絡(luò);非局部塊由兩兩像素間的親和力計(jì)算模塊和特征處理模塊組成,通過將非局部塊嵌入已有的深度網(wǎng)絡(luò)進(jìn)行視頻分類和圖像識別任務(wù)。Park等[5]在此基礎(chǔ)上提出了一種非局部區(qū)域空間傳播網(wǎng)絡(luò)(Non-local spatial propagation network,NLSPN),進(jìn)一步優(yōu)化了深度圖補(bǔ)全網(wǎng)絡(luò)。NLSPN計(jì)算每個像素的非局部區(qū)域內(nèi)像素間的親和力,通過深度神經(jīng)網(wǎng)絡(luò)得到初始深度圖以及置信度圖;結(jié)合像素間的親和力關(guān)系和置信度,在預(yù)測的非局部區(qū)域中對初始預(yù)測深度圖進(jìn)行迭代傳播精化。該網(wǎng)絡(luò)有效避免了固定區(qū)域內(nèi)不相關(guān)像素在傳播過程中可能造成的混合深度問題,但在深度邊界處的混合深度問題仍未能完全解決。
針對深度相機(jī)獲取的室內(nèi)場景深度圖,為補(bǔ)全部分像素點(diǎn)缺失的深度信息,本文提出了一種深度圖補(bǔ)全方法,設(shè)計(jì)了一種基于通道注意力(Efficient channel attention,ECA)機(jī)制的融合彩色圖與深度圖特征的深度圖補(bǔ)全網(wǎng)絡(luò)。該補(bǔ)全網(wǎng)絡(luò)采用編解碼器結(jié)構(gòu),編碼器由多個卷積層和通道注意力機(jī)制模塊組成,對深度圖及其對應(yīng)的彩色圖進(jìn)行多尺度特征提取,在此基礎(chǔ)上通過傳播算法得到深度補(bǔ)全圖像。本文提出的深度圖補(bǔ)全網(wǎng)絡(luò)融合了彩色圖與深度圖的特征,并且不需要預(yù)先提取法線、邊界檢測等額外信息,降低了網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜性,在Matterport3D和NYUv2數(shù)據(jù)集上取得了較好效果。
1 方法設(shè)計(jì)
本文提出的深度圖補(bǔ)全方法可分為兩步:第一步,使用編解碼結(jié)構(gòu)獲得初始深度預(yù)測圖,通過編碼器學(xué)習(xí)室內(nèi)場景彩色圖中大量的特征信息,并與室內(nèi)場景深度圖的特征進(jìn)行融合,以獲取豐富圖像特征;通過解碼器使用多個反卷積操作實(shí)現(xiàn)初步補(bǔ)全。第二步,在非局部區(qū)域上使用傳播算法,細(xì)化上一步得到的深度預(yù)測圖。
1.1 深度圖補(bǔ)全網(wǎng)絡(luò)
本文提出的深度圖補(bǔ)全網(wǎng)絡(luò)采用端對端的卷積神經(jīng)網(wǎng)絡(luò),結(jié)合了通道注意力機(jī)制和空間傳播算法。采用通道注意力機(jī)制可以使深度神經(jīng)網(wǎng)絡(luò)更加關(guān)注關(guān)鍵信息。在提取特征圖時融合了彩色圖以及深度圖信息,能有效地獲得信息豐富的特征圖,加強(qiáng)彩色圖在補(bǔ)全分支上的引導(dǎo)作用。特征圖提取采用基于ResNet的深度卷積神經(jīng)網(wǎng)絡(luò),并加入了通道注意力機(jī)制模塊,以獲得不同大小的特征圖;在特征圖逐步變小的同時增加了特征圖的數(shù)量,保證了網(wǎng)絡(luò)結(jié)構(gòu)的有效性。
本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該絡(luò)采用編碼器-解碼器結(jié)構(gòu),包含兩部分:彩色圖-深度圖特征提取模塊和深度圖補(bǔ)全模塊。彩色圖-深度圖特征提取模塊通過多個卷積層和通道注意力機(jī)制模塊實(shí)現(xiàn)對彩色圖和深度圖融合特征提取,以獲取豐富的特征圖關(guān)鍵信息,從而為深度圖補(bǔ)全模塊作準(zhǔn)備。在深度圖和彩色圖特征提取階段,先對彩色圖和深度圖分別通過Conv1進(jìn)行一次卷積,將二者結(jié)果融合,再使用兩個通道注意力模塊。深度圖補(bǔ)全模塊采用4個反卷積層,然后分成3個分支,得到初始深度預(yù)測圖Dinit、親和矩陣W以及非局部區(qū)域NNLm,n。通過非局部區(qū)域傳播算法,最終得到深度預(yù)測圖Dfinal_pred,即:
其中:fNLSPN()表示初始深度預(yù)測圖Dinit和最終補(bǔ)全的深度圖像Dfinal_pred之間根據(jù)非局部區(qū)域NNLm,n和親和矩陣W傳播的映射函數(shù)。
通過彩色圖-深度圖特征提取模塊對深度圖和其對應(yīng)的彩色圖進(jìn)行特征提取。本文直接將未經(jīng)處理的深度圖和彩色圖作為網(wǎng)絡(luò)的輸入。先分別使用一個3×3的卷積層得到一個32通道的彩色圖特征圖Fc和一個16通道的深度圖特征圖Fd,將二者結(jié)合為一個48通道的特征圖F2,再經(jīng)過多個3×3的卷積層進(jìn)行多尺度提取,對其中第一步和最后一步得到的特征圖Fi,即F2、F4使用通道注意力模塊[26],即:
其中:Icolor表示場景彩色圖;Ddepth為場景深度圖;σ表示激活函數(shù)Relu;*表示卷積操作,W表示卷積的權(quán)重;b1、b2均為偏置向量;Fc和Fd分別為經(jīng)過1層卷積后得到的彩色特征圖和深度特征圖,fECA()表示通道注意力機(jī)制。其中,通道注意力機(jī)制模塊沒有過分增加模型的復(fù)雜度,但可以顯著提升補(bǔ)全效果。通道注意力機(jī)制的作用原理見1.2節(jié)。
在進(jìn)行深度圖補(bǔ)全時,使用4個卷積核為3×3,步長為2的反卷積層進(jìn)行解碼。分3個分支得到初始深度預(yù)測圖Dinit、親和矩陣W以及非局部區(qū)域NNLm,n,使用初始深度預(yù)測圖Dinit利用非局部區(qū)域傳播算法對相關(guān)區(qū)域NNLm,n中的像素點(diǎn)進(jìn)行傳播賦值,其中相關(guān)區(qū)域NNLm,n表示為:
傳播算法能使場景內(nèi)物體前景與背景有效分開,有利于深度圖像信息的補(bǔ)全。非局部區(qū)域傳播算法的實(shí)現(xiàn)過程見1.3節(jié)。
1.2 通道注意力機(jī)制模塊
為了獲得具有更多有效信息的深度特征圖,將彩色圖-深度圖特征提取模塊得到的多個特征圖輸入通道注意力機(jī)制模塊,對第一步提取特征得到的特征圖和最后一個卷積提取特征得到的特征圖輸入通道注意力機(jī)制模塊,深度圖像補(bǔ)全的效果可以得到顯著提升。通道注意力機(jī)制模塊示意圖如圖2所示。本文在編碼器融合彩色圖和深度圖之后,對其進(jìn)行多次卷積操作,獲得特征圖Fi,并對得到的特征圖Fi先使用全局平均池化層,再利用自適應(yīng)的卷積核為k的1維卷積,以捕捉各個通道之間的交互關(guān)系,最后得到Fi,ECA。通道注意力機(jī)制模塊可以在不做降維操作的情況下,以較小的參數(shù)量來提升卷積神經(jīng)網(wǎng)絡(luò)的性能。
通道注意力機(jī)制模塊的輸入為卷積模塊提取出的特征圖Fi,經(jīng)過操作得到包含更多有效信息的特征圖Fi,ECA。
本文使用矩陣Wk來學(xué)習(xí)通道注意力,
其中:w是可學(xué)習(xí)的參數(shù)。對于每個通道yi本文只計(jì)算它與其相鄰的k個通道之間的關(guān)系,yi的權(quán)重ωi表示為:
其中:Ωki表示與yi相鄰的一組通道,yji表示第j個與yi相鄰的通道。
以上權(quán)重計(jì)算方式可以通過1維卷積來實(shí)現(xiàn),即:
其中:Conv1Dk( )表示卷積核為k的1維卷積。使用1維卷積時,通道維度C與卷積核k之間存在一個線性映射關(guān)系,C=r×k-b;為了減小線性函數(shù)作為特征關(guān)系式所帶來的局限性,而且一般通道維度C通常為2的冪次方,因此本文將線性函數(shù)φ(k)=r×k-b擴(kuò)展為非線性函數(shù),即:
C=φ(k)=2(r×k-b)。
所以,根據(jù)給定的特征圖通道數(shù)C,k可以表示為:
其中:|x|odd表示最接近x的奇數(shù)。本文使用r=2、b=1時的通道注意力機(jī)制模塊;當(dāng)輸入的特征為F2時,此時自適應(yīng)的一維卷積核大小為3,如圖2所示。
1.3 非局部區(qū)域傳播算法
為了進(jìn)一步細(xì)化初步得到的補(bǔ)全深度圖,本文對初步獲得的深度圖使用非局部區(qū)域傳播算法進(jìn)行細(xì)化處理。傳播算法的原理是用具有相似性的相鄰觀測像素來估計(jì)其他深度值缺失的像素,并細(xì)化可信度較低區(qū)域的深度值??臻g傳播算法已經(jīng)被用于各種計(jì)算機(jī)視覺應(yīng)用中的關(guān)鍵模塊,在深度圖補(bǔ)全任務(wù)中優(yōu)勢更為明顯,比直接回歸算法更優(yōu)越[8,25]??臻g傳播算法和卷積空間傳播算法可以把可信度高的區(qū)域信息通過數(shù)據(jù)間的親和度依賴有效傳播到可信度較低的區(qū)域。但是這兩種算法會受到局部區(qū)域的限制,局部區(qū)域像素的深度分布不均,可能導(dǎo)致前景和背景的深度值混合。所以,本文采用非局部區(qū)域傳播算法[6]改善前背景處深度值混合的問題。
本文定義非局部區(qū)域如式(2)所示,其中:I和D分別為彩色圖像和深度圖像,fφ()表示非局部區(qū)域預(yù)測網(wǎng)絡(luò),p、q為實(shí)數(shù)(可以為分?jǐn)?shù))。在此區(qū)域中,使用親和力和置信度的聯(lián)合學(xué)習(xí),增強(qiáng)相關(guān)像素的影響,同時抑制不相關(guān)像素的影響。fφ()網(wǎng)絡(luò)采用可形變卷積[27]實(shí)現(xiàn)。
NLSPN模塊的輸入為初始預(yù)測圖Dinit、像素間的親和矩陣和原始深度圖的置信度圖。置信度圖含有原始深度圖中每個像素的置信度,每個像素的置信度取值范圍為[0,1]。本文將置信度和親和矩陣相結(jié)合,進(jìn)行歸一化得到親和矩陣W,即:
其中:ci,j表示在(i,j)處像素的置信度,取值范圍為[0,1];w^i,jm,n表示位于(i,j)處像素未經(jīng)歸一化的初始親和度;γ表示可學(xué)習(xí)的歸一化參數(shù),γmin和γmax是根據(jù)經(jīng)驗(yàn)設(shè)置的最小值和最大值;tanh函數(shù)的使用能夠減少歸一化過程中的偏差。
因此,最后輸出結(jié)果為:
Dfinal_pred=fNLSPNDinit,W,NNLm,n。
1.4 損失函數(shù)
總損失可以寫為:
其中:D(v)表示最終補(bǔ)全得到的深度圖中像素v處的深度值;Dgt(v)表示場景真實(shí)深度圖中像素v處深度值;Dinit(v)表示初始深度預(yù)測圖中像素v處深度值;V表示場景真實(shí)深度圖中有效像素;|V|表示有效像素的數(shù)量。
本文在總損失中加入了Lssim損失,以獲得更高質(zhì)量、結(jié)構(gòu)更完整深度圖補(bǔ)全圖。Lssim為結(jié)構(gòu)相似性(Structural similarity,SSIM)損失[21],根據(jù)結(jié)構(gòu)信息的退化程度來衡量補(bǔ)全質(zhì)量。Lssim越小,補(bǔ)全后深度圖的結(jié)構(gòu)與場景真實(shí)深度圖結(jié)構(gòu)越相似。
2 結(jié)果與討論
本文提出的深度圖補(bǔ)全網(wǎng)絡(luò)使用Pytorch框架搭建訓(xùn)練模型,GPU使用NVIDIA GeForce RTX 3060,內(nèi)存為12 GiB。訓(xùn)練數(shù)據(jù)集使用Matterport3D數(shù)據(jù)集[19]和NYUv2數(shù)據(jù)集。在Matterport3D數(shù)據(jù)集上只有極少方法能取得較優(yōu)的深度圖補(bǔ)全效果,NYUv2數(shù)據(jù)集是深度圖像補(bǔ)全任務(wù)的常用數(shù)據(jù)集。
Matterport3D數(shù)據(jù)集[19]由真實(shí)的傳感器數(shù)據(jù)以及從官方重構(gòu)網(wǎng)格獲取到的真實(shí)深度數(shù)據(jù)組成。本文的訓(xùn)練集使用其中一個子集,約2358張圖像,對圖像做預(yù)處理,將其縮小至320×240。本文訓(xùn)練模型時使用50個Epoch,使用另一子集約864張圖像作為測試集,并與典型算法進(jìn)行比較分析。NYUv2數(shù)據(jù)集由Kinect傳感器捕獲的464個室內(nèi)場景的彩色圖和深度圖像組成。對于訓(xùn)練數(shù)據(jù),本文使用了官方訓(xùn)練分割的一個約50 kib的圖像子集,每張圖像縮小到320×240,然后使用304×228中心裁剪。與文獻(xiàn)[5, 20]類似,本文從密集深度圖像中隨機(jī)采樣500個深度像素,并將其與對應(yīng)的彩色圖像聯(lián)合作為網(wǎng)絡(luò)輸入。訓(xùn)練模型時同樣使用50個Epoch,使用官方分割出的654張圖像測試集進(jìn)行評估和可視化比較。
2.1 評估指標(biāo)
本文的室內(nèi)場景補(bǔ)全任務(wù)的驗(yàn)證方式與文獻(xiàn)[4-5, 19-20]類似。本文采用均方根誤差、平均絕對誤差以及精確度對本文的網(wǎng)絡(luò)進(jìn)行評估,這些指標(biāo)在室內(nèi)場景深度圖補(bǔ)全任務(wù)的評估中被廣泛認(rèn)可。均方根誤差和平均絕對誤差直接測量絕對深度精度。均方根誤差對異常深度值更為敏感,所以均方根誤差通常被視作模型評估的主要指標(biāo)。另外,精確度δt表示相對誤差小于閾值t的預(yù)測像素所占的百分比。δt也可以被理解為深度圖補(bǔ)全任務(wù)的精度,精度越高說明最終預(yù)測的深度圖與場景真實(shí)深度值越接近,補(bǔ)全效果就越好。本文計(jì)算了t取1.25、1.252、1.253時的δt值。
均方根誤差ERMS的計(jì)算公式為:
平均絕對誤差EMA的計(jì)算公式為:
δt的計(jì)算公式為:
其中:t∈{1.25,1.252,1.253},v∈V。
2.2 實(shí)驗(yàn)結(jié)果對比分析
為了驗(yàn)證本文提出的深度圖像補(bǔ)全網(wǎng)絡(luò)的性能,選取Zhang等[19]、Huang等[20]、Senushkin等[4]、Park等[5]等4種較為典型的方法進(jìn)行實(shí)驗(yàn)對比。Zhang等[19]首次使用深度神經(jīng)網(wǎng)絡(luò)用于深度圖補(bǔ)全任務(wù),并制作了Matterport3D數(shù)據(jù)集。Huang等[20]在Zhang[19]基礎(chǔ)上在深度網(wǎng)絡(luò)中加入了自注意力機(jī)制,實(shí)現(xiàn)在Matterport3D數(shù)據(jù)集上更優(yōu)的補(bǔ)全深度圖。而Senushkin等[4]提出的方法訓(xùn)練出的DmLrn模型在Matterport3D數(shù)據(jù)集上取得最佳表現(xiàn),Park等[5]提出的方法則在NYUv2數(shù)據(jù)集上取得最佳表現(xiàn)。本文采用均方根誤差、平均絕對誤差以及精確度作為深度圖補(bǔ)全網(wǎng)絡(luò)性能指標(biāo),誤差越小、精度越高說明補(bǔ)全效果越好。
由表1和表2給出的深度圖補(bǔ)全誤差統(tǒng)計(jì)數(shù)據(jù)可知,DmLrn[4]和本文方法均能夠在不使用法線、物體邊緣預(yù)測的情況下取得了較優(yōu)結(jié)果。與Zhang等[19]、Huang等[20]、Senushkin等[4]方法相比,本文方法具有更好的補(bǔ)全結(jié)果。在Matterport3D數(shù)據(jù)集上,本文網(wǎng)絡(luò)均方根誤差為0.309,較該數(shù)據(jù)集上最優(yōu)模型DmLrn[4]相比降低了0.652,準(zhǔn)確度在閾值為1.25時精度提升11%,在閾值為1.252時精度提升6.9%,在閾值為1.253時精度提升2.5%;在NYUv2數(shù)據(jù)集上,本文提出的方法與該數(shù)據(jù)集上的最優(yōu)模型指標(biāo)上基本相同。本文方法在編碼器的特征提取階段加入了通道注意力機(jī)制模塊,在網(wǎng)絡(luò)訓(xùn)練過程中充分學(xué)到了場景的上下文信息,從而提升深度圖補(bǔ)全網(wǎng)絡(luò)的性能。本文方法在Matterport3D數(shù)據(jù)集上取得了更優(yōu)性能,表明本文方法在前、背景相差較大的大規(guī)模室內(nèi)場景深度圖補(bǔ)全方面有較大優(yōu)勢。
圖3為本文方法與Senushkin等[4]、Huang等[20]方法在Matterport3D數(shù)據(jù)集上的深度圖補(bǔ)全效果。從圖3可以看出,本文方法能在保證圖像結(jié)構(gòu)信息的基礎(chǔ)上達(dá)到更優(yōu)精度,DmLrn[4]在邊緣處明顯出現(xiàn)深度值混合的現(xiàn)象。本文的方法能夠很好地將前景和背景分開,使得補(bǔ)全后的物體邊緣更為清晰。圖4為本文方法與Park等[5]、Senushkin等[4]方法在NYUv2數(shù)據(jù)集上的深度圖補(bǔ)全效果。從圖4可以看出,本文方法物體邊緣以及總體補(bǔ)全效果均表現(xiàn)良好,補(bǔ)全后的深度圖像具有清晰的邊界。綜上所述,本文提出的深度圖補(bǔ)全網(wǎng)絡(luò)在不同數(shù)據(jù)集上均取得較好效果。
3 結(jié) 語
本文提出了一種基于注意力機(jī)制的場景深度圖補(bǔ)全的方法。在場景彩色圖像引導(dǎo)下,編碼器融合場景彩色圖和深度圖特征信息,在特征提取過程中使用注意力機(jī)制使網(wǎng)絡(luò)更加關(guān)注補(bǔ)全任務(wù)所需要的區(qū)域,在深度圖像補(bǔ)全任務(wù)中取得更高的準(zhǔn)確度。實(shí)驗(yàn)表明,該方法可以較好地補(bǔ)全室內(nèi)場景深度圖中的缺失信息。
為了進(jìn)一步改善深度圖像補(bǔ)全的質(zhì)量,后續(xù)研究可考慮將場景彩色圖中的幾何結(jié)構(gòu)信息融入場景深度圖補(bǔ)全網(wǎng)絡(luò),以提升補(bǔ)全后深度圖像的邊緣準(zhǔn)確度。
參考文獻(xiàn):
[1]Fu C, Mertz C, Dolan J M. LIDAR and monocular camera fusion: On-road depth completion for autonomous driving[C]//2019 IEEE Intelligent Transportation Systems Conference (ITSC). Auckland, New Zealand. IEEE, 2019: 273-278.
[2]梅峰,劉京,李淳秡,等.基于RGB-D深度相機(jī)的室內(nèi)場景重建[J].中國圖象圖形學(xué)報,2015,20(10):1366-1373.
[3]Ping J M, Thomas B H, Baumeister J, et al. Effects of shading model and opacity on depth perception in optical see-through augmented reality[J]. Journal of the Society for Information Display, 2020, 28(11): 892-904.
[4]Senushkin D, Romanov M, Belikov I, et al. Decoder modulation for indoor depth completion[C]//2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: ACM, 2021: 2181-2188.
[5]Park J, Joo K, Hu Z, et al. Non-local spatial propagation network for depth completion[C]//16th European Conference on Computer Vision-ECCV 2020. Glasgow, UK. Cham: Springer, 2020: 120-136.
[6]沙浩,劉越,王涌天, 等.基于二維圖像和三維幾何約束神經(jīng)網(wǎng)絡(luò)的單目室內(nèi)深度估計(jì)方法[J].光學(xué)學(xué)報,2022,42(19):47-57.
[7]江俊君,李震宇,劉賢明.基于深度學(xué)習(xí)的單目深度估計(jì)方法綜述[J].計(jì)算機(jī)學(xué)報,2022,45(6):1276-1307.
[8]周萌,黃章進(jìn).基于失焦模糊特性的焦點(diǎn)堆棧深度估計(jì)方法[J/OL].計(jì)算機(jī)應(yīng)用.(2023-02-17)[2023-03-03].http://kns.cnki.net/kcms/detail/51.1307.TP.20230217.1018.004.html.
[9]Xu D, Wang W, Tang H, et al. Structured attention guided convolutional neural fields for monocular depth estimation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018, Salt Lake City, UT, USA. IEEE, 2018: 3917-3925.
[10]白宇,梁曉玉,安勝彪.深度學(xué)習(xí)的2D-3D融合深度補(bǔ)全綜述[J/OL].計(jì)算機(jī)工程與應(yīng)用. (2023-03-01)[2023-03-03]. http://kns.cnki.net/kcms/detail/11.2127.TP.20230228.1040.006.html.
[11]Uhrig J, Schneider N, Schneider L, et al. Sparsity invariant CNNs[C]//2017 International Conference on 3D Vision (3DV). October 10-12, 2017, Qingdao, China. IEEE, 2018: 11-20.
[12]Chen Y, Yang B, Liang M, et al. Learning joint 2D-3D representations for depth completion[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South). IEEE, 2019: 10022-10031.
[13]Li A, Yuan Z J, Ling Y G, et al. A multi-scale guided cascade hourglass network for depth completion[C]//2020 IEEE Winter Conference on Applications of Computer Vision (WACV). March 1-5, 2020, Snowmass, CO, USA. IEEE, 2020: 32-40.
[14]鄭柏倫,冼楚華,張東九.融合RGB圖像特征的多尺度深度圖像補(bǔ)全方法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報, 2021, 33(9): 1407-1417.
[15]Qiu J X, Cui Z P, Zhang Y D, et al. DeepLiDAR: deep surface normal guided depth prediction for outdoor scene from sparse LiDAR data and single color image[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 15-20, 2019, Long Beach, CA, USA. IEEE, 2020: 3308-3317.
[16]Xu Y, Zhu X G, Shi J P, et al. Depth completion from sparse LiDAR data with depth-normal constraints[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South). IEEE, 2020: 2811-2820.
[17]Song Z B, Lu J F, Yao Y Z, et al. Self-supervised depth completion from direct visual-LiDAR odometry in autonomous driving[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(8): 11654-11665.
[18]Choi J, Jung D, Lee Y H, et al. SelfDeco: self-supervised monocular depth completion in challenging indoor environments[C]//2021 IEEE International Conference on Robotics and Automation (ICRA). Xi'an, China. IEEE, 2021: 467-474.
[19]Zhang Y, Funkhouser T. Deep depth completion of a single RGB-D image[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA. IEEE, 2018: 175-185.
[20]Huang Y K, Wu T H, Liu Y C, et al. Indoor depth completion with boundary consistency and self-attention[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). Seoul, Korea (South). IEEE, 2020: 1070-1078.
[21]Cheng X J, Wang P, Yang R G. Depth estimation via affinity learned with convolutional spatial propagation network[C]//15th European Conference on Computer Vision-ECCV 2020. Munich, Germany. Cham: Springer, 2018: 108-125.
[22]楊宇翔,曹旗,高明煜, 等.基于多階段多尺度彩色圖像引導(dǎo)的道路場景深度圖像補(bǔ)全[J].電子與信息學(xué)報,2022,44(11):3951-3959.
[23]盧宏濤,羅沐昆.基于深度學(xué)習(xí)的計(jì)算機(jī)視覺研究新進(jìn)展[J].數(shù)據(jù)采集與處理,2022,37(2): 247-278.
[24]Shim G, Park J, Kweon I S. Robust reference-based super-resolution with similarity-aware deformable convolution[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 13-19, 2020, Seattle, WA, USA. IEEE, 2020: 8422-8431.
[25]Wang X L, Girshick R, Gupta A, et al. Non-local neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA. IEEE, 2018: 7794-7803.
[26]Wang Q L, Wu B G, Zhu P F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 13-19, 2020, Seattle, WA, USA. IEEE, 2020: 11531-11539.
[27]Zhu X Z, Hu H, Lin S, et al. Deformable ConvNets V2: more deformable, better results[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 15-20, 2019, Long Beach, CA, USA. IEEE, 2020: 9300-9308.
(責(zé)任編輯:康 鋒)