林金花 姚禹 王瑩
在客觀物質(zhì)世界中,目標(biāo)實(shí)體的客觀存在形式通常取決于其所占用的三維空間位置.機(jī)器系統(tǒng)識別客觀實(shí)體的語義及其拓?fù)浯嬖谛孕枰珳?zhǔn)的神經(jīng)網(wǎng)絡(luò)模型.在機(jī)器視覺感知系統(tǒng)中,魯棒重建三維場景以及識別目標(biāo)語義至關(guān)重要,能夠?qū)崿F(xiàn)機(jī)器系統(tǒng)對目標(biāo)區(qū)域信息的有效捕捉與精準(zhǔn)定義,有效地識別出目標(biāo)場景形狀及其語義信息,語義識別與場景重建相互作用以確保機(jī)器視覺系統(tǒng)能夠魯棒識別并復(fù)原目標(biāo)場景.傳統(tǒng)方法一般分別完成這兩項(xiàng)工作,例如,二維識別方法一般僅對二維圖像進(jìn)行分類處理,不會(huì)重建目標(biāo)拓?fù)浣Y(jié)構(gòu)[1?2];相反,幾何重建方法僅復(fù)原三維結(jié)構(gòu)信息,而不識別目標(biāo)語義.針對這一問題,本文構(gòu)建了一種場景重建與語義識別相互結(jié)合的深度卷積神經(jīng)網(wǎng)絡(luò)模型,同時(shí)實(shí)現(xiàn)了對三維場景的重建與語義分類功能.
為了高效訓(xùn)練本文的模型,使用監(jiān)督式學(xué)習(xí)方法完成卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,進(jìn)而實(shí)現(xiàn)場景重建與語義識別功能.本文方法對深度數(shù)據(jù)進(jìn)行重新表示,使用截?cái)嗍綆Х柧嚯x函數(shù)(Truncated signed distance function,TSDF)編碼方式對目標(biāo)場景進(jìn)行三維體素重定義,每個(gè)體素包含:被占用體素與空閑體素兩種含義.如何從不完整的目標(biāo)場景中識別其語義以及不可見區(qū)域的語義標(biāo)注問題是本文需要解決的關(guān)鍵問題.
針對上述問題,本文構(gòu)造了一種上下文區(qū)域拓展網(wǎng)絡(luò),增加了接收區(qū)域場景的體素信息,使得目標(biāo)語義識別面更廣.另一方面,本文構(gòu)建了一種有效的用于深度學(xué)習(xí)的數(shù)據(jù)集,并對其完成了體素標(biāo)注.
在機(jī)器視覺系統(tǒng)中,魯棒完成三維場景的語義分割任務(wù)至關(guān)重要,常用任務(wù)包括機(jī)器人路徑規(guī)劃、人員協(xié)調(diào)輔助以及智能監(jiān)控等.近年來,為了滿足視覺系統(tǒng)需求,實(shí)現(xiàn)對目標(biāo)場景的語義分割任務(wù),深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)得到廣泛應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)大規(guī)模場景數(shù)據(jù),生成訓(xùn)練標(biāo)簽,進(jìn)而實(shí)現(xiàn)目標(biāo)場景理解任務(wù).然而,對于大多數(shù)的視覺處理任務(wù),真實(shí)場景數(shù)據(jù)是有限的,并且受深度感知技術(shù)和語義分類方法的限制,使得構(gòu)建高效的深度學(xué)習(xí)網(wǎng)絡(luò)并不容易.
深度神經(jīng)網(wǎng)絡(luò)被廣泛用于解決對象分類和目標(biāo)檢測問題[3?4].然而受數(shù)據(jù)規(guī)模、存儲(chǔ)介質(zhì)和計(jì)算能力的限制,深度神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度也隨之提高,限制了深度神經(jīng)網(wǎng)絡(luò)的適用范圍.這種限制主要出于兩個(gè)方面:1)隨著模型尺度的增大,網(wǎng)絡(luò)的復(fù)雜度也隨之增加,例如Googlenet 數(shù)據(jù)集的50 MB 模型,Resnet-101 的200 MB 模型,Alexnet 的250 MB 和VGG-net 的500 MB 模型;2)復(fù)雜神經(jīng)網(wǎng)絡(luò)通常需要超高性能的處理器的支持,即高配置的GPU 高速并行處理單元的支持,這使得研究人員致力于模型的壓縮,以減小神經(jīng)網(wǎng)絡(luò)的內(nèi)存和處理單元占用率[5?6].例如,Ren 等[7]對遮擋目標(biāo)場景魯棒地完成重建過程,將大權(quán)重矩陣分解為幾個(gè)可分離小矩陣來減少冗余,重建效果較好,但無法實(shí)現(xiàn)語義識別功能.對于神經(jīng)網(wǎng)絡(luò)的完全連接層,這種方法已被證明非常有效.科研工作者給出了多種基于連接限幅的語義重建方法,刪除了預(yù)訓(xùn)練和再訓(xùn)練模型的冗余連接.這些方法將模型參數(shù)的數(shù)量減少了一個(gè)數(shù)量級,而不會(huì)對分類精度造成重大影響,但三維重建精度會(huì)隨著降低[8?11].另一種語義重建策略是限制模型本身的架構(gòu).例如,去除完全連接的層,使用小尺寸的卷積濾波器等,目前較先進(jìn)的深層網(wǎng)絡(luò),如Nin、Googlenet 和Resnet 都采用這種架構(gòu).然而這種方法對重建場景的幾何拓?fù)浼?xì)節(jié)表示不佳影響了重建分辨率[12?13].Zheng 等[14]使用固定點(diǎn)表示來量化預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的權(quán)重,以加快網(wǎng)絡(luò)在CPU上的運(yùn)行時(shí)間,同時(shí)使用空間預(yù)測方法來推斷遮擋場景信息.Kim 等[15]提出了替代量化方法來減小模型尺寸,在保證最小精度損失的情況下,使用k級均值矢量量化實(shí)現(xiàn)了4~8 倍的重建精度,然而引起網(wǎng)絡(luò)訓(xùn)練時(shí)間的增加.Hane 等[16]和Blaha 等[17]使用綁定更新優(yōu)化策略來保證重建視覺的多樣性,以此加強(qiáng)網(wǎng)絡(luò)的重建精度.
針對上述問題,本文給出了一種適用于大尺度場景重建與語義識別的深度卷積神經(jīng)網(wǎng)絡(luò)模型,將目標(biāo)幾何信息與目標(biāo)上下文語義信息相結(jié)合,進(jìn)而完成對目標(biāo)場景的魯棒重建與識別.另外,本文建立了一種用于三維場景學(xué)習(xí)的數(shù)據(jù)集,可用于對RGB圖像的語義分割過程[18?21].
本文的深度卷積神經(jīng)網(wǎng)絡(luò)由多個(gè)層次的處理單元組成,關(guān)鍵核心是完成攝像機(jī)視錐體劃分范圍里的空間體素分配到一系列語義類別標(biāo)注,假設(shè)C{c0,···,cN+1},其中,N表示目標(biāo)場景包含的類別總數(shù),c0代表未被占用的體素.每個(gè)神經(jīng)單元的激勵(lì)函數(shù)如下:zg(wwwTx),其中,Rc×w×h為權(quán)重向量,Rc×w×h為輸入向量,g(·)為非線性函數(shù).本文卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了由這些單元構(gòu)成的多個(gè)層,并用張量Rc×w×h來表示權(quán)重.c,w和h分別用來定義濾波器通道的數(shù)量,寬度和高度.由于這種基本運(yùn)算在整個(gè)網(wǎng)絡(luò)中重復(fù),且神經(jīng)網(wǎng)絡(luò)通常由繁多的處理單位組成,式(1)的表示方式是決定整個(gè)網(wǎng)絡(luò)模型復(fù)雜程度的主要因素.網(wǎng)絡(luò)的復(fù)雜程度主要與兩個(gè)因素有關(guān):1)存儲(chǔ)權(quán)重www需要巨大的內(nèi)存開銷;2)大量的點(diǎn)積運(yùn)算wwwTx需要高成本的計(jì)算開銷.當(dāng)權(quán)重和點(diǎn)積運(yùn)算為浮點(diǎn)值時(shí),上述兩個(gè)方面的開銷會(huì)劇增,導(dǎo)致實(shí)際應(yīng)用能力差[22].因此本文所提的低精度卷積神經(jīng)網(wǎng)絡(luò)更適用于解決實(shí)際三維重建與語義分類問題.本文網(wǎng)絡(luò)的場景重建與語義識別過程如圖1 所示.下面分節(jié)闡述本文網(wǎng)絡(luò)模型的構(gòu)造與重建過程.
圖1 本文深度卷積神經(jīng)網(wǎng)絡(luò)的場景重建與語義分類過程Fig.1 3D reconstruction and semantic classification of our depth convolutional neural network
首先,對三維場景的語義分類原理進(jìn)行分析,構(gòu)建基于改進(jìn)的TSDF 編碼以及細(xì)粒度池化特性的深度卷積神經(jīng)網(wǎng)絡(luò)模型;其次,提出估計(jì)算法對三維語義感知特性參數(shù)進(jìn)行估計(jì),解決TSDF 編碼下具有細(xì)粒度池化層的深度卷積神經(jīng)網(wǎng)絡(luò)的模型優(yōu)化問題;最后,建立考慮改進(jìn)的TSDF 編碼下三維語義場景的語義分類性能評價(jià)體系,預(yù)測網(wǎng)絡(luò)對三維場景的語義分類性能,改善機(jī)器系統(tǒng)對三維場景的語義感知性能,為具有三維語義感知能力的機(jī)器視覺系統(tǒng)在軍用和民用上的應(yīng)用提供理論依據(jù).
本文對TSDF 進(jìn)行了改進(jìn),使之適應(yīng)于場景重建與語義分類的混合卷積神經(jīng)網(wǎng)絡(luò)模型.一般情況下,深度卷神經(jīng)網(wǎng)絡(luò)模型使用距離相機(jī)位置最近投影直線的方式來獲取場景關(guān)鍵點(diǎn).然而,該方法在節(jié)省重建投影視覺的同時(shí),卻以關(guān)鍵點(diǎn)捕獲精度為代價(jià),影響了對三維場景的最終重建精度以分類性能.為提高重建精度及語義分類性能,本來采用了一種隨機(jī)選取池化層內(nèi)部表面點(diǎn)的方式來提取關(guān)鍵點(diǎn),改善了TSDF 距離的計(jì)算時(shí)間,同時(shí)保證了重建與分類精度.分離池化后的特征區(qū)域本身具有細(xì)粒度空間幾何拓?fù)浣Y(jié)構(gòu)的特性,當(dāng)隨機(jī)采用發(fā)生時(shí),平均池化粒度值基本保持不變,因此確保了隨機(jī)采用的平均精準(zhǔn)度,以此構(gòu)建的TSDF 的精度也隨之增加.本文采用池化技術(shù)的體素編碼方式如圖2 所示.
圖2 常用的TSDF 編碼可視化結(jié)果Fig.2 Visualization of several encoding TSDF
三維場景語義分類問題是機(jī)器視覺領(lǐng)域的熱點(diǎn)研究問題.本文考慮結(jié)合TSDF 編碼與分類池化技術(shù)的三維場景重建與語義分類網(wǎng)絡(luò)模型如圖3 所示.下面分五個(gè)方面闡述本文深度卷積神經(jīng)網(wǎng)絡(luò)的場景復(fù)原與語義分類過程.
圖3 本文所提深度卷積神經(jīng)網(wǎng)絡(luò)模型Fig.3 Our depth convolutional neural network
1)本文構(gòu)建了一種以RGB-D 深度圖作為輸入的深度學(xué)習(xí)網(wǎng)絡(luò)框架.一個(gè)點(diǎn)云由一組三維點(diǎn)數(shù)據(jù)構(gòu)成,即{Pi|i1,···,n},每個(gè)三維點(diǎn)Pi由五維向量表示.對于對象分類任務(wù),輸入點(diǎn)云直接從目標(biāo)形狀采樣,或者從一個(gè)場景點(diǎn)云預(yù)分割得到.對于語義分割,輸入可以是用于部分區(qū)域分割的單個(gè)對象,或者用于對象區(qū)域分割的三維場景子體積.本文網(wǎng)絡(luò)將為n個(gè)點(diǎn)和m個(gè)語義子類別中的每一個(gè)輸出n × m個(gè)分?jǐn)?shù).圖4 給出了本文語義分類網(wǎng)絡(luò)架構(gòu).T1 和T2 是輸入點(diǎn)和特征的對稱轉(zhuǎn)換網(wǎng)絡(luò).FC是完全連接的層在每個(gè)點(diǎn)上操作.MLP是每個(gè)點(diǎn)上的多層感知器.vec是大小為16 的向量,指示輸入形狀的類別.本文網(wǎng)絡(luò)能夠預(yù)測體素?cái)?shù)量,如圖4 中的左下角曲線圖所示,這表明本文復(fù)原網(wǎng)絡(luò)能夠從本地鄰域獲取信息,對區(qū)域分割具有魯棒性.
圖4 本文語義分類的卷積流程Fig.4 Convolutional streamline of our semantic classification
2)本文語義復(fù)原網(wǎng)絡(luò)從訓(xùn)練LS-3DDS 合成數(shù)據(jù)集中,直接學(xué)習(xí)接收域信息來獲取條件概率矩陣,即在三維場景語義分類中,條件概率p(Ai|Cn)表示在語義類別Cn中出現(xiàn)的語義對象Ai的比率來計(jì)算概率分布
其中,Cn表示 LS-3DDS 數(shù)據(jù)集中屬于類別Cn的場景個(gè)數(shù),且i p(Ai|Cn)1.本文的三維場景語義類別個(gè)數(shù)N,對象個(gè)數(shù)為M,語義對象條件概率矩陣為N ×M階矩陣,即這里通過計(jì)數(shù)隨機(jī)事件的出現(xiàn)頻率來估計(jì)概率分布,需要大量的真實(shí)觀測數(shù)據(jù).使用本文構(gòu)建的LS-3DDS數(shù)據(jù)集訓(xùn)練語義神經(jīng)網(wǎng)絡(luò)模型,由于合成數(shù)據(jù)集規(guī)模較大且手動(dòng)標(biāo)記標(biāo)簽精準(zhǔn),使得計(jì)算得出的條件概率較準(zhǔn)確,保證了本文語義場景復(fù)原網(wǎng)絡(luò)的精準(zhǔn)度,如圖5 所示,接收區(qū)域的增大提高了本文網(wǎng)絡(luò)的上下文語義識別精準(zhǔn)度.
3)本文神經(jīng)網(wǎng)絡(luò)的池化器采用分段常值函數(shù),定義為
該池化器將量化間隔(ti,ti+1]內(nèi)的所有x,并將其映射為量化級別qiR,其中,i1,···,m,且t1?∞,tm+1+∞.這將泛化符號函數(shù),將其看作是1 位池化器.一個(gè)均勻池化器需要滿足以下條件:
其中,?是恒定量化步長.受精度降低的約束,量化級qi作為激勵(lì)x的重構(gòu)值.因?yàn)閷τ谌我鈞,該池化器足以存儲(chǔ)式(2)的量化索引i以恢復(fù)量化級別qi,所以非均勻池化器需要log2m比特的存儲(chǔ)空間來存放激勵(lì)x.然而,在算術(shù)運(yùn)算過程中,通常需要超過log2m比特來表示x,并使用qi代替索引i.對于均勻池化器,?是通用縮放因子,通常以log2m比特來存儲(chǔ)激勵(lì)x而不存索引.本文在卷積運(yùn)算中也同樣采用這種存儲(chǔ)策略.
圖5 本文攝像頭接收范圍直接影響網(wǎng)絡(luò)性能Fig.5 Our camera receiving range directly affects performance of network
4)設(shè)計(jì)最優(yōu)池化器以保證三維重建精度與語義分類準(zhǔn)確率,需要將池化器定義在均值誤差范圍內(nèi),即
其中,p(x)是x的概率密度函數(shù).因此,式(2)中點(diǎn)積的最優(yōu)池化器取決于它們的統(tǒng)計(jì)值.雖然式(4)的最優(yōu)解Q?(x)通常是不均勻的,但通過將式(3)的約束代入式(4),可以得到均勻解Q?(x).給定點(diǎn)積樣本,式(4)的最優(yōu)解可以通過勞埃德算法獲得.這是一個(gè)迭代算法.由于每個(gè)網(wǎng)絡(luò)單元必須設(shè)計(jì)不同的池化器,并且該池化器隨反向傳播迭代而改變,因此該過程的直接計(jì)算實(shí)現(xiàn)是較繁瑣且有難度的.
5)本文使用半波高斯池化器來實(shí)現(xiàn)反向近似操作,通過利用深層網(wǎng)絡(luò)激勵(lì)的統(tǒng)計(jì)結(jié)構(gòu)來的克服池化器隨反向傳播迭代而改變的問題.文獻(xiàn)[23?24]證明了點(diǎn)積近似具有接近高斯分布的對稱、非稀疏分布特性.考慮到ReLU 是半波整流器,本文使用半波高斯池化器(Half wave Gauss pool,HWGP)來實(shí)現(xiàn)反向近似操作,定義如下:
其中,qiR+,i1,···,m,tiR+,i1,···,m+1,t10,tm+1∞;qi和ti是高斯分布的最優(yōu)量化參數(shù).SGNN 保證了這些參數(shù)僅取決于點(diǎn)積分布的均值和方差.然而,因?yàn)檫@些參數(shù)在不同的單元之間變化,所以無法消除網(wǎng)絡(luò)上勞埃德算法的重復(fù)使用.
這個(gè)問題可以通過批量歸一化方法來緩解,這迫使網(wǎng)絡(luò)的每個(gè)層的響應(yīng)都具有零均值和單位方差.本文將這種歸一化操作應(yīng)用于點(diǎn)積運(yùn)算,結(jié)果如圖6所示.盡管點(diǎn)積分布不完全符合高斯分布,它們之間存在微小差異,但二者都接近高斯分布,且平均值和單位方差為零.因此,最佳量化參數(shù)和在神經(jīng)網(wǎng)絡(luò)的單元、層和反向傳播迭代過程中大致相同.因此,勞埃德算法在整個(gè)網(wǎng)絡(luò)上僅使用一次即可.實(shí)際上,由于所有分布都近似于零均值和單位方差的高斯分布,因此可以從該分布的樣本中設(shè)計(jì)池化器.本文從零均值和單位方差的標(biāo)準(zhǔn)高斯分布中抽取了106個(gè)樣本,并通過勞埃德算法獲得了最優(yōu)量化參數(shù).在點(diǎn)積批量歸一化之后,再將所得到的參數(shù)和用于參數(shù)化在所有層中使用的SGNN.
為測試本文卷積神經(jīng)網(wǎng)絡(luò)的重建精度與語義分類性能,本節(jié)采用攝像機(jī)捕獲的三維場景數(shù)據(jù)以及合成數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測試.
在使用真實(shí)場景數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),本文使用NYU 數(shù)據(jù)集訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型,該數(shù)據(jù)集由1 449 個(gè)RGB-D 深度圖.本文針對由Guo 等[25]提出的帶有幾何標(biāo)注的三維體積模型,捕獲了大量的三維真實(shí)場景數(shù)據(jù)信息.另外,同時(shí)采用了Sun等[26]的采樣策略捕獲了多種三維場景對象數(shù)據(jù).通常情況下,當(dāng)語義標(biāo)注信息與實(shí)際網(wǎng)絡(luò)拓?fù)湫畔⒉煌耆珜?yīng)時(shí),數(shù)據(jù)集中的深度信息與幾何信息也會(huì)出現(xiàn)不匹配的現(xiàn)象.針對這一問題,Silberman 等[3]等采用繪制RGB-D 圖的方式對目標(biāo)三維場景的三維物理位置信息進(jìn)行標(biāo)記.然而在標(biāo)記的過程中不可避免的影響原有三維拓?fù)浣Y(jié)構(gòu),使得三維重建場景的本地特性未能較好地保留.為此,本文結(jié)合了上述幾種重建數(shù)據(jù)集的構(gòu)造方式,對本文神經(jīng)網(wǎng)絡(luò)進(jìn)行測試.
圖6 帶有二進(jìn)制權(quán)值和量化激勵(lì)的網(wǎng)絡(luò)層點(diǎn)積分布圖.(a),(b),(c),(d)分別為下采樣層1、卷積層3、下采樣層6、卷積層7 的點(diǎn)積分布圖(具有不同的均值和標(biāo)準(zhǔn)偏差);(e),(f),(g),(h)分別為下采樣層1、卷積層3、下采樣層6、卷積層7 對應(yīng)的點(diǎn)積誤差分布曲線Fig.6 Dot product distribution of network with binary weights and quantitative activation.(a),(b),(c)and (d)are the point product distribution maps of the pooling layer 1,the convolution layer 3,the pooling layer 6 and the convolution layer 7,respectively,they share a different mean and standard deviation;(e),(f),(g)and (h)are the dot product error distribution curves corresponding to the pooling layer 1,the convolution layer 3,the pooling layer 6 and the convolution layer 7,respectively.
本文在表1 和表2 中展示了對神經(jīng)網(wǎng)絡(luò)性能的定量分析,同時(shí)在圖7 中給出了網(wǎng)絡(luò)的定性分析結(jié)果.在表1 中,將本文網(wǎng)絡(luò)模型與Lin 等[12]以及Gupta 等[8]和Wang 等[21]提出的網(wǎng)絡(luò)模型展開對比,為方便引用,文中下述段落將上述幾種網(wǎng)絡(luò)重命名為L 網(wǎng)、GW 網(wǎng).這兩種網(wǎng)絡(luò)模型采用深度輸入幀為神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),同時(shí)在目標(biāo)場景的體素級網(wǎng)絡(luò)上生成語義標(biāo)注.L 網(wǎng)采用包圍盒以及超平面近似的方式標(biāo)記全部體素網(wǎng)格.GW 網(wǎng)對場景進(jìn)行測試的同時(shí)搜索RGB-D 數(shù)據(jù)信息,進(jìn)而完成對全局場景的重建測試.以上兩種網(wǎng)絡(luò)能夠在較小的訓(xùn)練數(shù)據(jù)集上重構(gòu)精準(zhǔn)的三維場景幾何結(jié)構(gòu)模型,對應(yīng)關(guān)系的匹配方法較精準(zhǔn).與之不同,本文網(wǎng)絡(luò)采用單一深度圖作為輸入,同時(shí)結(jié)合分離池化技術(shù)對特征采用關(guān)鍵點(diǎn)進(jìn)行優(yōu)化處理,生成細(xì)節(jié)豐富的TSDF 編碼方法,另外無需附加網(wǎng)絡(luò)來協(xié)調(diào)測試過程,提高了重建性能.因此,本文深度卷積神經(jīng)網(wǎng)絡(luò)模型能夠生成更加精準(zhǔn)的重建模型,同時(shí)保證了語義分類精度.本文深度卷積神經(jīng)網(wǎng)絡(luò)的三維場景復(fù)原精度值為30.5%,GW 網(wǎng)的精度百分比為19.6%.由圖7 給出的重建對比圖可知,這兩種網(wǎng)絡(luò)模型同時(shí)將沙發(fā)對象語義標(biāo)記為床,然而,本文網(wǎng)絡(luò)模型能夠準(zhǔn)確識別目標(biāo)對象語義,并采用虛線方框來標(biāo)記,本文方法的語義標(biāo)記精準(zhǔn)度更高,同時(shí),本文網(wǎng)絡(luò)無需對目標(biāo)場景進(jìn)行預(yù)處理,三維場景復(fù)原與語義分類同時(shí)完成,在保證重建精度的同時(shí),節(jié)省了對三維目標(biāo)場景的重建時(shí)間已經(jīng)語義分類開銷.
表1 本文網(wǎng)絡(luò)與L、GW 網(wǎng)絡(luò)的復(fù)原與分類性能比較(%)Table 1 Comparison of three networks for performance of reconstruction and semantic classification (%)
表2 本文網(wǎng)與F 網(wǎng)、Z 網(wǎng)的重建性能對比數(shù)據(jù)(%)Table 2 Comparison of our network reconstruction performance with F and Z networks (%)
圖7 幾種復(fù)原網(wǎng)絡(luò)的可視化性能對比圖Fig.7 Visualization performance comparison for several completion neural networks
本文對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,進(jìn)而檢測三維體素的空間占用比率,首先將單個(gè)體素?cái)?shù)據(jù)進(jìn)行編碼,未被占用的體素用二進(jìn)制字符“0”來標(biāo)記,已經(jīng)被占用的體素項(xiàng)目用字符“1”來標(biāo)記.表2 給出了使用以上數(shù)據(jù)集訓(xùn)練完成的網(wǎng)絡(luò)模型的性能對比數(shù)據(jù).使用本文網(wǎng)絡(luò)對場景進(jìn)行重建復(fù)原,同時(shí)使用Silberman 等[3]和Zheng[14]等提出的網(wǎng)絡(luò)對場景重建復(fù)原,為方便引用,文中下述段落將上述幾種網(wǎng)絡(luò)重命名為F 網(wǎng)、Z 網(wǎng).這兩種方法采用RGB-D圖作為網(wǎng)絡(luò)的輸入,實(shí)現(xiàn)對三維場景的復(fù)原處理,然而二者皆不具有語義分類標(biāo)注功能.本文網(wǎng)絡(luò)針對上述兩種網(wǎng)絡(luò)完成了整合改進(jìn),將場景復(fù)原與語義分類融合到統(tǒng)一的深度卷積神經(jīng)網(wǎng)絡(luò)模型中.本文網(wǎng)絡(luò)首先在測試階段,采用200 張輸入深度圖,同時(shí)采用NYU 體系來平均本文網(wǎng)絡(luò)的重建與分類性能.F 網(wǎng)實(shí)現(xiàn)了對大規(guī)模場景的三維重建過程,并且重建的精度較高,然而,當(dāng)場景的目標(biāo)語義較復(fù)雜,遮擋現(xiàn)象嚴(yán)重時(shí),網(wǎng)絡(luò)的重建精度受到限制,三維場景的重建效果受到影響.例如,在圖7 中第4 行的椅子復(fù)原失敗(如圖中藍(lán)色圓圈所示).然而,使用本文網(wǎng)絡(luò)來重建目標(biāo)場景時(shí),由于結(jié)合了上下文語義評價(jià)體系,改善了語義重建的精準(zhǔn)度.從本組實(shí)驗(yàn)結(jié)果可以看出,本文的將重建與語義分類相結(jié)合的方法,在提高三維重建精度的同時(shí),避免了不必要的語義檢測失效問題.
本文訓(xùn)練了一種用于三維重建與語義分類的統(tǒng)一架構(gòu)深度卷積神經(jīng)網(wǎng)絡(luò)模型,本文對未被遮擋的場景表面幾何進(jìn)行具體的語義標(biāo)注,同時(shí)采用聯(lián)合策略對目標(biāo)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,并對比起重建結(jié)果.然而,當(dāng)本文網(wǎng)絡(luò)對未被遮擋的表面進(jìn)行測試是,采用三維場景重建結(jié)合語義分類來訓(xùn)練三維神經(jīng)卷積神經(jīng)網(wǎng)絡(luò)模型的效果由于僅使用幾何表面語義訓(xùn)練的網(wǎng)絡(luò)模型,實(shí)驗(yàn)結(jié)果表明帶有幾何標(biāo)注的三維場景重建精準(zhǔn)度為52.3%,然而,聯(lián)合兩種網(wǎng)絡(luò)得到的三維場景重建精準(zhǔn)度為55.3%.因此,本文提出的重建與語義分類相互結(jié)合的網(wǎng)絡(luò)模型,具有互相協(xié)作相互促進(jìn)的優(yōu)勢.
在圖8 中,本文網(wǎng)絡(luò)對未知區(qū)域的場景語義及幾何形狀進(jìn)行了預(yù)測.當(dāng)桌子場景周邊的目標(biāo)場景未出現(xiàn)在攝像頭捕獲范圍內(nèi)時(shí),使用本文網(wǎng)絡(luò)仍然能夠較精準(zhǔn)的預(yù)測出目標(biāo)場景的上下文語義信息,從預(yù)測結(jié)果可見,本文網(wǎng)絡(luò)的重建精度較好,語義分類預(yù)測出的對象標(biāo)注信息較準(zhǔn)確.例如,在圖8 中出現(xiàn)的第1 張深度圖中,該圖中的周邊對象均不可見,然而,即便信息被完全遮擋,依據(jù)本文的池化技術(shù)仍然能夠精準(zhǔn)的預(yù)測出上下文語義,擴(kuò)大了語義識別的目標(biāo)場景面積,本文網(wǎng)絡(luò)的重建性能從39.0% 提高到45.3%.
圖9 給出了不同體素編碼方式對復(fù)原網(wǎng)絡(luò)性能的影響.無增量卷積和帶增量卷積網(wǎng)格具有相同數(shù)量的參數(shù),而在帶增量卷積網(wǎng)絡(luò)結(jié)構(gòu)中,三個(gè)卷積層被增量卷積取代(如圖3 所示),將接收域從1.62 m增加到2.26 m (如圖5 所示).增加接收區(qū)域使網(wǎng)絡(luò)能夠獲得更豐富的上下文信息,并將網(wǎng)絡(luò)性能從38.0% 提高到44.3%.將帶有和不帶有聚合層的兩種網(wǎng)絡(luò)進(jìn)行性能比較,如圖9 所示,結(jié)果表明帶有聚合層的模型對場景復(fù)原和語義分類都產(chǎn)生較高的IoU 值,分別增漲3.1% 和2.1%.
圖8 本文網(wǎng)絡(luò)預(yù)測出的周圍對象Fig.8 Prediction of surrounding object by our network
圖9 中給出了采用不同體素編碼方式的網(wǎng)絡(luò)性能,即投影TSDF,標(biāo)準(zhǔn)TSDF 和翻轉(zhuǎn)TSDF (改進(jìn)后)三種編碼方式的比較.實(shí)驗(yàn)結(jié)果顯示,使用標(biāo)準(zhǔn)TSDF 可以消除攝像機(jī)視角的依賴性,并使得IoU值提高了2.4%;而使用翻轉(zhuǎn)TSDF 時(shí),梯度變化集中在表面上,IoU 值比標(biāo)準(zhǔn)TSDF 提高了10.1%,比投影TSDF 提高了12.5%.
本文提出了一種基于深度圖與分離池化技術(shù)的深度卷積神經(jīng)網(wǎng)絡(luò)模型,將深度圖作為輸入并使用分離池化方法提取深度特征,進(jìn)而完成對三維場景的幾何結(jié)構(gòu)重建及語義分類任務(wù).同時(shí),構(gòu)建了一種用于訓(xùn)練本文網(wǎng)絡(luò)模型的三維合成數(shù)據(jù)集,增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力.實(shí)驗(yàn)結(jié)果表明,本文網(wǎng)絡(luò)兼具復(fù)原與分類功能為一體,與單一形式的網(wǎng)絡(luò)模型相比,本文網(wǎng)絡(luò)的重建精度提高了2.1%.本文網(wǎng)絡(luò)采用分離池化技術(shù)及語義豐富的訓(xùn)練數(shù)據(jù)集,優(yōu)化了傳統(tǒng)單一類型網(wǎng)絡(luò)的性能,實(shí)現(xiàn)了對三維場景的魯棒重建與分類.
圖9 改進(jìn)的TSDF 編碼對語義場景復(fù)原性能的影響Fig.9 Effect of improved TSDF on semantic scene completion