路 強,張春元,陳 超,余 燁,YUAN Xiao-hui
?
基于體素特征重組網(wǎng)絡(luò)的三維物體識別
路 強1,2,張春元1,陳 超1,余 燁1,2,YUAN Xiao-hui3
(1. 合肥工業(yè)大學(xué)計算機與信息學(xué)院VCC研究室,安徽 合肥 230601; 2. 工業(yè)安全與應(yīng)急技術(shù)安徽省重點實驗室(合肥工業(yè)大學(xué)),安徽 合肥 230009; 3. 北德克薩斯大學(xué)計算機科學(xué)與工程學(xué)院,德克薩斯 丹頓 76201)
三維物體識別是計算機視覺領(lǐng)域近年來的研究熱點,其在自動駕駛、醫(yī)學(xué)影像處理等方面具有重要的應(yīng)用前景。針對三維物體的體素表達形式,特征重組卷積神經(jīng)網(wǎng)絡(luò)VFRN使用了直接連接同一單元中不相鄰的卷積層的短連接結(jié)構(gòu)。網(wǎng)絡(luò)通過獨特的特征重組方式,復(fù)用并融合多維特征,提高特征表達能力,以充分提取物體結(jié)構(gòu)特征。同時,網(wǎng)絡(luò)的短連接結(jié)構(gòu)有利于梯度信息的傳播,加之小卷積核和全局均值池化的使用,進一步提高了網(wǎng)絡(luò)的泛化能力,降低了網(wǎng)絡(luò)模型的參數(shù)量和訓(xùn)練難度。ModelNet數(shù)據(jù)集上的實驗表明,VFRN克服了體素數(shù)據(jù)分辨率低和紋理缺失的問題,使用較少的參數(shù)取得了優(yōu)于現(xiàn)有方法的識別準(zhǔn)確率。
物體識別;體素;卷積神經(jīng)網(wǎng)絡(luò);特征重組;短連接
三維數(shù)據(jù)采集設(shè)備的普及和建模工具的簡易化,使得三維模型的數(shù)量一直在快速增長。如何快速有效的識別這些三維形狀,成為了計算機視覺和圖形學(xué)領(lǐng)域,尤其是在醫(yī)學(xué)影像、自動駕駛及CAD等應(yīng)用場景下的一個重要問題。常見的三維物體描述方式,包括點云[1]、流形網(wǎng)格[2]、體素[3]和深度圖[4]等。點云和流形網(wǎng)格作為一種不規(guī)則的數(shù)據(jù)組織形式,難以利用高性能的學(xué)習(xí)方法進行處理。深度圖作為一種間接表現(xiàn)三維物體的形式,難以直觀展現(xiàn)物體的三維結(jié)構(gòu),同時也由于遮擋問題缺失了很多信息。而體素數(shù)據(jù)能夠完整地描述物體的空間占用情況,其以體素作為基本單位,數(shù)據(jù)組織形式規(guī)則,可以很好地適用現(xiàn)有的學(xué)習(xí)方法。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)被廣泛地應(yīng)用在分析和理解二維圖像的任務(wù)中,包括圖像分類[5]、物體檢測[6]、語義分割[7]等。其獨特的設(shè)計結(jié)構(gòu)可以很好地提取圖像的特征,在復(fù)雜的任務(wù)場景中具有良好的魯棒性,表現(xiàn)出相較于傳統(tǒng)方法的獨特優(yōu)勢。鑒于體素與圖像在數(shù)據(jù)組織形式上的相似性,使用CNN處理三維體素數(shù)據(jù)成為研究熱點。相較于二維圖像數(shù)據(jù),三維體素數(shù)據(jù)由于增加了一個維度,空間開銷更大,容易導(dǎo)致維度災(zāi)難(curse of dimensionality)[8],其限制了體素模型的分辨率。而且體素的表現(xiàn)方式拋棄了物體本身的紋理信息。低分辨率和紋理缺失是使用三維體素數(shù)據(jù)訓(xùn)練CNN必然要面對的問題,要求網(wǎng)絡(luò)能夠從有限的信息中,充分提取具有代表性的物體特征。
本文針對三維體素模型識別問題,設(shè)計并搭建了一個三維CNN VFRN(voxel features reorganization networks)。VFRN針對現(xiàn)有三維體素CNN難以充分學(xué)習(xí)物體結(jié)構(gòu)信息、參數(shù)量大、訓(xùn)練困難等問題,采用多維特征重組方法,融合復(fù)用多維特征提取物體特征,并通過大小為1的卷積核降維以減少網(wǎng)絡(luò)參數(shù)。VFRN使用短連接方式,減少參數(shù)量,縮短特征傳遞路徑,降低訓(xùn)練難度,并加入全局均值池化[9]的方法,進一步減少了網(wǎng)絡(luò)參數(shù)并降低了過擬合的風(fēng)險。
在二維圖像領(lǐng)域,CNN的應(yīng)用已經(jīng)較為成熟。2012年AlexNet[10]提出了ReLU和Dropout的概念,有效抑制了過擬合現(xiàn)象。之后,CNN的架構(gòu)逐步更新,如VGG Net[11],GoogLeNet[12],Res-Net[13]等。這些網(wǎng)絡(luò)在增加網(wǎng)絡(luò)深度的同時,使用了不同的方法提高網(wǎng)絡(luò)泛化能力,減小過擬合,如GoogLeNet中的Inception結(jié)構(gòu),ResNet中的殘差結(jié)構(gòu)等。文獻[14]提出了DenseNet,通過密集連接方式,復(fù)用了低維特征,在增加網(wǎng)絡(luò)深度的同時,保證了參數(shù)量的線性增長,取得了很好的效果。
目前,CNN是提取二維圖像特征最有效的方法之一。而三維形狀領(lǐng)域發(fā)展較晚,主要進展大多在近三年內(nèi)。最先使用三維數(shù)據(jù)進行深度學(xué)習(xí)實驗的,WU等[15]提出的3D ShapeNet。該網(wǎng)絡(luò)是一個5層卷積深度置信網(wǎng)絡(luò)(convolution depth confidence network,CDCN),輸入為303分辨率的體素數(shù)據(jù),完成識別三維物體的任務(wù)。為了進行實驗,該研究構(gòu)建了一個標(biāo)簽好的公開三維模型數(shù)據(jù)集ModelNet[15],此后,大量研究都在該數(shù)據(jù)集上進行了實驗。作為三維工作的開端,3D ShapeNet模型簡單,識別準(zhǔn)確率較低。鑒于CNN在圖像應(yīng)用上的優(yōu)良表現(xiàn)以及體素與圖像在數(shù)據(jù)組織形式上的相似性,文獻[16]提出了VoxNet[16],將基本的二維CNN架構(gòu)拓展到三維,該網(wǎng)絡(luò)輸入的是分辨率為323的體素,采用了三維卷積層和池化層,最后使用全連接層生成特征向量。雖然相較于3D ShapeNet,VoxNet識別效果有了較大的提升,證明了CNN同樣適合處理三維數(shù)據(jù),但該網(wǎng)絡(luò)僅僅使用了普通的卷積和池化操作,并沒有在分辨率限制和紋理缺失的前提下,更加充分的提取物體的三維結(jié)構(gòu)特征??紤]到二維CNN使用的許多新結(jié)構(gòu)能夠提高網(wǎng)絡(luò)表現(xiàn),BROCK等[17]提出了VRN,該網(wǎng)絡(luò)借鑒GoogLeNet中的Inception結(jié)構(gòu)和ResNet中的殘差結(jié)構(gòu),設(shè)計了針對三維數(shù)據(jù)的Voxception結(jié)構(gòu)和VRB結(jié)構(gòu),以替換傳統(tǒng)的卷積層和池化層。這兩種結(jié)構(gòu)增加了網(wǎng)絡(luò)的支路,并融合了多尺度特征。VRN通過對體素數(shù)據(jù)的增廣和預(yù)處理,以及多個網(wǎng)絡(luò)的聯(lián)合使用,大大提高了識別準(zhǔn)確率,但結(jié)構(gòu)的復(fù)雜和多網(wǎng)絡(luò)的聯(lián)合使用,造成整個模型參數(shù)量巨大,訓(xùn)練困難。文獻[18]構(gòu)建了3個不同的結(jié)構(gòu)網(wǎng)絡(luò),兩個基于體素的網(wǎng)絡(luò)和一個基于多視圖的網(wǎng)絡(luò),通過加權(quán)綜合3個網(wǎng)絡(luò)的特征向量構(gòu)成FusionNet,也獲得了較好的識別效果。但通過分析FusionNet各子網(wǎng)絡(luò)的效果發(fā)現(xiàn),兩個V-CNN網(wǎng)絡(luò)準(zhǔn)確率并不高,對于提升兩個網(wǎng)絡(luò)的準(zhǔn)確率的作用有限。而且同VRN一樣,多網(wǎng)絡(luò)的聯(lián)合使用在訓(xùn)練和部署方面開銷巨大,實時性較差。針對三維體素數(shù)據(jù)識別問題,SU等[19]在分析比較了基于體素的方法(3D ShapeNet)和基于多視圖的方法(MVCNN)后,提出了SubVolume和AniProbing兩種網(wǎng)絡(luò)結(jié)構(gòu)。文獻[20]認(rèn)為現(xiàn)有的三維卷積網(wǎng)絡(luò)未能充分挖掘三維形狀信息,所以在SubVolume網(wǎng)絡(luò)中引入了使用局部數(shù)據(jù)來預(yù)測整體的子任務(wù),減少過擬合的同時,也能更好地提取細(xì)節(jié)特征。AniProbing網(wǎng)絡(luò)則是另一種思路,使用長各向異性卷積核(long anisotropic kernels)來提取長距離特征。在網(wǎng)絡(luò)的具體實現(xiàn)上,長各向異性卷積核將三維體素數(shù)據(jù)處理成二維特征圖,之后使用NIN[9]進行識別,兩種網(wǎng)絡(luò)均取得了很好的效果。由于三維CNN相較二維增加了一個維度,網(wǎng)絡(luò)參數(shù)的數(shù)量也成倍增長,過多的參數(shù)量導(dǎo)致網(wǎng)絡(luò)模型具有很高的計算成本,難以應(yīng)用在實時領(lǐng)域。ZHI等[21]提出LightNet,使用單一模型,通過精簡網(wǎng)絡(luò)結(jié)構(gòu),大大減少了參數(shù)量,以滿足實時任務(wù)的需要,缺點是犧牲了識別的準(zhǔn)確率。
除體素數(shù)據(jù)以外,近年來也出現(xiàn)了一些使用點云和視圖進行三維物體識別的研究。點云方面,QI等[22]提出的PointNet和PointNet++[23],在點云數(shù)據(jù)上使用多層感知器學(xué)習(xí)一個描述點云的全局特征向量,用于識別等任務(wù)。但這兩種網(wǎng)絡(luò)受限于點云數(shù)據(jù)無序、不規(guī)則的特點,并沒有考慮到一個鄰域范圍內(nèi)的物體結(jié)構(gòu)特征信息。針對上述問題,LI 等[24]搭建了PointCNN,使用X-Conv操作對點云進行X變換,在變換后的特征上進行典型的卷積操作,一定程度上解決了將無序、不規(guī)則的數(shù)據(jù)形式映射成有序、規(guī)則形式的問題。然而LI等[24]也指出了網(wǎng)絡(luò)所學(xué)習(xí)到的X變換遠(yuǎn)不理想,無法保證變換結(jié)果與原始點云分布的等價性。視圖方面,SU等[19]提出的MVCNN將三維模型數(shù)據(jù)在多個視角下渲染成一組二維圖像,作為二維CNN的訓(xùn)練數(shù)據(jù)。網(wǎng)絡(luò)中間添加View Pooling層用于綜合多角度視圖信息,得到了很好的識別效果。相似地,馮元力等[25]將三維物體繪制成多角度球面全景深度圖,代替普通的多視角圖像,采用同樣的網(wǎng)絡(luò)結(jié)構(gòu)完成識別任務(wù)。但多視圖的方式不僅需要對三維數(shù)據(jù)進行二次處理,而且對于視圖的視角較為敏感。由于采用了圖像作為網(wǎng)絡(luò)輸入,三維圖形識別問題通過轉(zhuǎn)換簡化為了二維圖像識別問題。
此外,還有許多針對其他三維物體表現(xiàn)形式的研究。如O-CNN[26]使用八叉樹方式組織三維數(shù)據(jù)并進行卷積操作,F(xiàn)PNN[27]使用3D距離場描述三維數(shù)據(jù),3D-A-NET[28]使用三維深度形狀描述符,聯(lián)合訓(xùn)練CNN、RNN和敵對鑒別器。這些工作也給三維視覺領(lǐng)域的研究帶來了新思路,但相對的,在當(dāng)前環(huán)境下通用性不強。
綜上,本文重點研究使用CNN進行三維體素數(shù)據(jù)的識別任務(wù)。目前,三維體素數(shù)據(jù)存在分辨率低,紋理缺失等問題。簡單的卷積結(jié)構(gòu)難以充分捕捉物體的特征信息,需要增加卷積核數(shù)量和網(wǎng)絡(luò)深度來提取更多的高維特征,然而這會導(dǎo)致網(wǎng)絡(luò)參數(shù)過多,造成網(wǎng)絡(luò)訓(xùn)練困難并且容易過擬合。當(dāng)前針對三維體素的CNN,往往難以兼顧充分提取三維體素特征和控制參數(shù)數(shù)量避免過擬合這兩方面的問題。本文提出了一種新的三維CNN,用于提取三維體素數(shù)據(jù)結(jié)構(gòu)特征,該網(wǎng)絡(luò)在增加網(wǎng)絡(luò)深度的同時,控制了參數(shù)的數(shù)量,并融合多維度特征進行卷積操作,以充分提取三維結(jié)構(gòu)信息。此外,網(wǎng)絡(luò)的短連接結(jié)構(gòu)有利于梯度的反向傳播,加快了訓(xùn)練速度,相對較少的參數(shù)有效抑制了過擬合,在三維物體識別任務(wù)上取得了很好的效果。
針對三維體素識別問題,本文借鑒DenseNet的設(shè)計思想,提出一種全新的三維CNN VFRN。該網(wǎng)絡(luò)通過密集連接結(jié)構(gòu)綜合復(fù)用多維特征,網(wǎng)絡(luò)參數(shù)量隨深度增加線性增長,避免了參數(shù)過多導(dǎo)致顯存不夠的問題,也大大降低了訓(xùn)練難度。此外,網(wǎng)絡(luò)使用了殘差結(jié)構(gòu)[13],在不增加參數(shù)的前提下,進一步融合相鄰維度的特征。這兩種短連接的結(jié)構(gòu),有效避免了增加網(wǎng)絡(luò)深度時可能出現(xiàn)的梯度消失問題。網(wǎng)絡(luò)中對于特征通道的復(fù)用較多,考慮到卷積層對于每個特征通道的關(guān)注度會隨著層數(shù)的加深而有所變化,本文使用特征重標(biāo)定技術(shù)[29]對每個特征通道賦予一個權(quán)值,將加權(quán)處理后的特征通道輸入卷積層進行特征提取,降低冗余特征對卷積操作的影響。本文網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,包含兩個主要模塊,特征重組模塊(features reorganization module,F(xiàn)RM)和下采樣(downsample)模塊。
FRM是基于DenseNet的網(wǎng)絡(luò)結(jié)構(gòu),針對三維體素識別任務(wù)的需要所設(shè)計的三維網(wǎng)絡(luò)模塊,如圖2所示,每個FRM內(nèi)部的特征尺寸大小保持不變。FRM是一個多層結(jié)構(gòu),每層都包含一個連接層(Link)和一個卷積層(Conv),輸出與后面層直接相連。每層的輸入都由上層的輸入和輸出組成,可以表示為
圖2 FRM結(jié)構(gòu)
其中,()為一個非線性變換;為層的編號;x為第層中卷積層的輸入;(0)為0,0為空。這樣每一層與損失函數(shù)都有一條短路徑相連,在反向傳播過程中梯度信息能夠輕松地傳遞到每個卷積層,從而構(gòu)建更深的網(wǎng)絡(luò)以獲得更好的效果。此外,F(xiàn)RM的另一個特點是在同樣深度下,相比其他卷積結(jié)構(gòu),參數(shù)更少。因為FRM中超參數(shù)限定了第個FRM中每一個卷積層輸出的特征數(shù)量。并且卷積層的輸入先通過一個1×1×1的卷積操作降維,減少特征通道的數(shù)量,并融合多個通道的信息。FRM的特征復(fù)用方式,能夠充分提取目標(biāo)的結(jié)構(gòu)特征,并保證隨著深度增加,參數(shù)量線性增長。
2.1.1 連接層
連接層用于組合上層網(wǎng)絡(luò)的輸出和輸入,并賦予特征通道權(quán)值。連接層的設(shè)計結(jié)構(gòu)如圖2所示,其中表示連接層的序號,(x1)是前一層的輸出,input–1是前一層的輸入。本層輸入input分為(x1)和input1兩部分,首先通過1進行矩陣間對應(yīng)元素相加的操作。由于FRM的跨層連接結(jié)構(gòu),隨著的增大,input–1的特征通道數(shù)c–1會越來越大,即
但(x–1)的通道數(shù)量受超參數(shù)K的限制,固定為K。鑒于兩個輸入input–1和(x–1)的特征通道數(shù)不同,本文選擇在(x–1)與input–1中的最后K個通道間進行對應(yīng)元素求和操作,得到新的特征1。之后,(x–1)與融合后的特征1,由2完成通道維度的連接操作,即將(x–1)連接到1的最后,得到特征2。根據(jù)式(1),input–1最后K個通道實際上就是(x–2),求和操作實際上是在相鄰兩層的輸出上進行的,因此1實現(xiàn)了相鄰層間特征的融合。而2的通道連接操作,復(fù)用了前層的低維特征,保證本層能夠全局感知多維特征信息。1和2兩種連接結(jié)構(gòu),滿足了本文在網(wǎng)絡(luò)設(shè)計思路中,對于充分提取三維體素數(shù)據(jù)特征和融合多維度特征進行學(xué)習(xí)的要求。而且此結(jié)構(gòu)也能在參數(shù)量開銷較少的前提下,進一步提高網(wǎng)絡(luò)的泛化能力。
上層網(wǎng)絡(luò)的輸入和輸出組合而成的特征2,包含著多個維度的特征通道,為了保證卷積層盡可能的集中注意力在其更關(guān)心的通道上,本文對各通道進行了加權(quán)操作。如圖3所示,一個全局均值池化層將融合連接后的特征2,映射為一個維度等同于2通道數(shù)的向量。以該向量作為輸入,通過兩個全連接層來學(xué)習(xí)一個權(quán)重向量,中間添加Dropout層,Dropout率為0.5。第一個全連接層的神經(jīng)元數(shù)量設(shè)置為2通道數(shù)的1/8,第二個全連接層的神經(jīng)元數(shù)量與2的通道數(shù)相同。3使用學(xué)習(xí)到的權(quán)重向量來重標(biāo)定2的各個通道,即將每個特征通道乘以其對應(yīng)的權(quán)重,以此來增強卷積層感興趣的特征,抑制冗余特征,綜上,連接層的輸出x為
圖3 連接層結(jié)構(gòu)
之后,卷積層以x作為輸入,進行特征提取。
2.1.2 卷積層
輸入x經(jīng)過卷積層,得到輸出(x)。如圖4所示,卷積層由兩個卷積操作和兩個dropout操作構(gòu)成。1×1×1卷積作為一個通道數(shù)限制瓶頸,根據(jù)超參數(shù)K將通道數(shù)超過2K的輸入x降維到2K,避免隨著層數(shù)加深,參數(shù)量爆炸式增長,同時也能起到融合多通道特征的作用。三維卷積操作的參數(shù)量為
其中,np為參數(shù)量;ci為輸入的特征通道數(shù);co為輸出的特征通道數(shù);kernel_size為卷積核的大小。在相同的輸入、輸出通道下,卷積參數(shù)量正比于卷積核大小的三次方。本文網(wǎng)絡(luò)對于特征的復(fù)用重組,使得輸入的通道數(shù)隨著深度增加也在快速增長,所以先使用大小為1的卷積核降低通道數(shù),再使用大小為3的卷積核,可以有效減少參數(shù)量。3×3×3卷積用于提取鄰域結(jié)構(gòu)特征,輸出Ki個特征通道。考慮到特征的復(fù)用,本文并沒有使用更大的卷積核,因為文獻[11]中證明多個小卷積核連接使用,可以得到等同于大卷積核的效果。而且相較大卷積核,小卷積核能夠減小參數(shù)量和計算開銷。在兩個卷積之后,均使用了Dropout來保證網(wǎng)絡(luò)的泛化能力,避免過擬合。此外,卷積操作的步長均為1,以保持同一模塊內(nèi)特征的尺寸不變,便于連接層融合多維度特征。
下采樣模塊用于連接相鄰的FRM,由卷積和池化兩步操作完成。雖然池化操作并不需要額外的參數(shù),但考慮到輸入包含多個維度的特征通道,需要同卷積層一樣進行多通道特征的融合。同卷積層一樣,使用了1×1×1的卷積來融合多通道特征并降低輸入特征通道數(shù)到原先的一半。不同于通常的CNN中池化層的輸入是同一維度的不同特征,本文網(wǎng)絡(luò)中池化層的輸入融合了多個維度的不同特征,常用的最大池化操作不能較好地采樣出可以代表局部特征的信息,本文采用了平均池化操作來綜合鄰域信息進行下采樣。
本文網(wǎng)絡(luò)總體結(jié)構(gòu)如圖1所示,輸入為323分辨率的體素數(shù)據(jù)。網(wǎng)絡(luò)先對輸入進行步長為1,卷積核大小為5的卷積操作,和步長為2,窗口大小為3的最大池化操作。5×5×5的卷積輸出32個特征,配合最大重疊池化,初步提取目標(biāo)的基本結(jié)構(gòu)特征,并將體素尺寸從323降低到163。之后,4個FRM通過3個下采樣層連接,用于充分提取目標(biāo)特征。最后使用全局均值池化得到一個維度等同于目標(biāo)類別數(shù)量的特征向量,輸入Softmax層獲得識別結(jié)果。由于網(wǎng)絡(luò)特征通道數(shù)量一般遠(yuǎn)大于目標(biāo)類別數(shù)量,所以在最后一個FRM和全局均值池化之間,加入一個1×1×1的卷積操作,輸出數(shù)目等同于類別數(shù)量的特征。
網(wǎng)絡(luò)中每次卷積操作前都使用Batch Normalize[30]對輸入進行規(guī)范化處理,并采用ReLU激活函數(shù)完成特征映射。
相比于傳統(tǒng)面向三維體素的CNN,本文網(wǎng)絡(luò)不再嚴(yán)格按照從低維到高維的順序進行卷積操作,而是連接重組前層多維特征,通過卷積操作提取特征,多次復(fù)用低維特征,更充分地捕捉結(jié)構(gòu)特征。與二維卷積網(wǎng)絡(luò)結(jié)構(gòu)相似,高維的特征更加豐富,需要增加卷積核的數(shù)量來提取不同特征,所以FRM中的超參數(shù)K,隨著的增加而增大,使得網(wǎng)絡(luò)能夠捕捉到更多高維特征,得到更高的識別精度。
ModelNet是一個大型三維數(shù)據(jù)集,其中包括662類共127 915個三維模型。通常使用其中的兩個子集,ModelNet10和ModelNet40進行實驗。ModelNet10包含10類共4 899個三維模型,其中908個作為測試集,剩余3 991個作為訓(xùn)練集。ModelNet40包含40類共12 311個三維模型,其中2 468個作為測試集,剩余9 843個作為訓(xùn)練集。數(shù)據(jù)集部分模型如圖5上半部分所示。
本文將ModelNet數(shù)據(jù)集轉(zhuǎn)換為分辨率為323的二值體素數(shù)據(jù),部分轉(zhuǎn)換實例如圖5下半部分所示??梢钥闯?,在323的分辨率下,對于形狀特征較為突出的物體,如飛機、桌子等,體素轉(zhuǎn)換可以較好地還原物體的三維輪廓結(jié)構(gòu),而對于汽車這類結(jié)構(gòu)較為簡單的物體,體素轉(zhuǎn)換對于輪廓的還原較為模糊?;谏鲜銮闆r,且求網(wǎng)絡(luò)對于物體的細(xì)微特征的敏感程度要更高,要能夠充分提取具有代表性的物體特征。通常二值體素數(shù)據(jù)以1代表該位置的空間被物體占據(jù),0表示沒有占據(jù)。為鼓勵網(wǎng)絡(luò)更關(guān)注物體占據(jù)的部分,本文使用{0,5}二值數(shù)據(jù)代替{0,1}二值數(shù)據(jù)。實驗證明,加大非0值有利于提高識別準(zhǔn)確率[17]。此外,為進一步提高網(wǎng)絡(luò)的泛化能力,本文將體素數(shù)據(jù)在垂直方向上旋轉(zhuǎn)12個角度來增廣數(shù)據(jù)集,訓(xùn)練及測試時分別使用未增廣的單角度數(shù)據(jù)和增廣后的多角度數(shù)據(jù)進行實驗。
圖5 ModelNet部分模型(上)及體素轉(zhuǎn)換實例(下)
本文網(wǎng)絡(luò)模型使用Tensorflow 1.2實現(xiàn),cuda版本為8.0。硬件配置為Intel Core i7-7700K處理器和Nvidia GTX1080顯卡,搭配16 G內(nèi)存。
網(wǎng)絡(luò)的訓(xùn)練階段設(shè)置batch size為32,Dropout率為0.2,采用交叉熵?fù)p失函數(shù),優(yōu)化策略選用Adam算法。初始學(xué)習(xí)率設(shè)置為1e-4,每30次迭代降低為當(dāng)前學(xué)習(xí)率的20%,整個訓(xùn)練過程迭代90次,故學(xué)習(xí)率降低2次。
表1中展示了本文提出的VFRN與現(xiàn)有面向三維物體的深度學(xué)習(xí)方法在ModelNet40數(shù)據(jù)集上的相關(guān)性能指標(biāo)。可以看出,本文提出的VFRN在僅使用單角度數(shù)據(jù)的情況下,就達到了較高的識別準(zhǔn)確率,與使用多視圖的MVCNN和使用深度全景圖的全景識別網(wǎng)絡(luò)相比,仍有明顯優(yōu)勢,證明了VFRN能夠充分提取物體結(jié)構(gòu)特征,并且具有良好的泛化能力。相對于最早的3D ShapeNet,VFRN識別準(zhǔn)確率提高了18%,且參數(shù)量大大減少。VoxNet由基本的CNN結(jié)構(gòu)組成,參數(shù)較少,對于三維物體難以充分提取其特征,識別準(zhǔn)確率較低。識別準(zhǔn)確率較高的FusionNet,采用的是3個網(wǎng)絡(luò)組合的方式完成識別任務(wù),其中的多視圖子網(wǎng)絡(luò)使用了ImageNet進行預(yù)訓(xùn)練。多網(wǎng)絡(luò)組合導(dǎo)致整個模型參數(shù)量巨大,達到了118 M,而單網(wǎng)絡(luò)的VFRN相較FusionNet參數(shù)減少了90%,并且在識別結(jié)果上有明顯的提升。LightNet的參數(shù)量最少,但識別準(zhǔn)確率并不突出。文獻[20]中提出的SubVolume和AniProbing網(wǎng)絡(luò),采用了比較特殊的網(wǎng)絡(luò)結(jié)構(gòu),但在參數(shù)量和識別準(zhǔn)確率兩方面并沒有明顯優(yōu)勢。VFRN相比于使用點云數(shù)據(jù)的PointNet和PointNet++,在識別準(zhǔn)確率上也有明顯的提升。另與目前使用體素達到最好識別效果的VRN對比,VFRN的參數(shù)量減少了一半,并且在單網(wǎng)絡(luò)的前提下,另識別效果要比VRN略好。
表1 ModelNet上多種方法識別性能比較
VRN Ensemble訓(xùn)練了5個網(wǎng)絡(luò)進行識別任務(wù),然后依據(jù)這5個網(wǎng)絡(luò)的結(jié)果進行投票,按照少數(shù)服從多數(shù)的規(guī)則確定識別結(jié)果。多網(wǎng)絡(luò)投票的方式使得準(zhǔn)確率得到了顯著提升,因為初始狀態(tài)的隨機性,每個網(wǎng)絡(luò)的擬合結(jié)果并不完全相同,結(jié)合使用彌補了單個網(wǎng)絡(luò)識別效果的不足,但模型的參數(shù)量也成倍增長。由于策略的較大差異,VRN Ensemble和VFRN之間并不具有可比性。而且針對單一數(shù)據(jù)集訓(xùn)練的多網(wǎng)絡(luò)集合,很容易導(dǎo)致模型泛用性較差,文獻[17]也指出這一結(jié)果不具有普適性。
針對數(shù)據(jù)增廣方式,相比于VRN在垂直方向上24個角度的旋轉(zhuǎn),以及FusionNet等在垂直和水平方向上60個角度的旋轉(zhuǎn),本文僅做了垂直方向12個角度的旋轉(zhuǎn)。通常數(shù)據(jù)集的增廣可以帶來網(wǎng)絡(luò)泛化能力的提升,尤其是在網(wǎng)絡(luò)參數(shù)過多的情況下,增大數(shù)據(jù)集有助于抑制過擬合現(xiàn)象,從而提高網(wǎng)絡(luò)效果。表1中VFRN和VRN在多角度數(shù)據(jù)集上識別準(zhǔn)確率相較于單角度數(shù)據(jù)集的提升,也進一步說明了數(shù)據(jù)增廣對于網(wǎng)絡(luò)效果的正面作用。但考慮到更大的數(shù)據(jù)集容易造成訓(xùn)練困難,對于學(xué)習(xí)率等參數(shù)的調(diào)整也更為敏感,并且VFRN的目標(biāo)在于精簡參數(shù)以降低訓(xùn)練難度的同時提高網(wǎng)絡(luò)的性能,因此本文并沒有選擇更多角度旋轉(zhuǎn)的方式增廣數(shù)據(jù)集。得益于參數(shù)量的控制,相比VRN,本文在其規(guī)模一半大小的數(shù)據(jù)集上訓(xùn)練VFRN仍然得到了更好的識別準(zhǔn)確率。此外,圖6是VFRN在ModelNet40上進行測試的混淆矩陣和PR曲線,反映出VFRN網(wǎng)絡(luò)的穩(wěn)定性和可靠性,進一步佐證了VFRN在提取特征和抑制過擬合方面的優(yōu)勢。
圖6 混淆矩陣和PR曲線
表2為部分網(wǎng)絡(luò)在ModelNet40上的訓(xùn)練用時及硬件設(shè)備情況。由于網(wǎng)絡(luò)參數(shù)量過大,模型復(fù)雜,VRN的訓(xùn)練需要約6天,遠(yuǎn)遠(yuǎn)大于其他網(wǎng)絡(luò)模型。而VFRN在保證識別效果的情況下,訓(xùn)練時間僅需8 h左右,與參數(shù)較少的LightNet和VoxNet相近。說明VFRN的短連接結(jié)構(gòu),使得梯度能夠更好地傳遞到各層,有效加快了網(wǎng)絡(luò)的訓(xùn)練速度。
表2 4種方法訓(xùn)練參數(shù)對比
綜合上述分析,本文提出的VFRN能夠從體素數(shù)據(jù)中,充分提取三維物體的結(jié)構(gòu)特征,并表現(xiàn)出良好的泛化能力。VFRN較好地平衡了參數(shù)量和識別準(zhǔn)確率,獨特的網(wǎng)絡(luò)結(jié)構(gòu)降低了訓(xùn)練難度,與現(xiàn)有前沿方法相比具有明顯的優(yōu)勢。
針對計算機視覺領(lǐng)域中三維物體的識別任務(wù),本文設(shè)計實現(xiàn)了一個基于體素數(shù)據(jù)的三維CNN VFRN,以充分提取物體的結(jié)構(gòu)特征,提高目標(biāo)識別的準(zhǔn)確率。VFRN通過短連接結(jié)構(gòu),實現(xiàn)了多維特征的復(fù)用和重組,彌補了傳統(tǒng)三維體素CNN中特征利用率低的缺陷。同時特征復(fù)用的特性保證網(wǎng)絡(luò)中參數(shù)量隨深度增加線性增長,相比現(xiàn)有網(wǎng)絡(luò)參數(shù)更少,較好地解決了三維數(shù)據(jù)空間開銷過大的問題,一定程度上抑制了過擬合的問題。實驗結(jié)果表明,VFRN的識別準(zhǔn)確率高于其他方法,并且在識別效果和參數(shù)開銷兩方面達成了很好的平衡??紤]到多角度數(shù)據(jù)對于識別結(jié)果的提升,后續(xù)研究將針對網(wǎng)絡(luò)自適應(yīng)變換對齊體素數(shù)據(jù),在不添加額外訓(xùn)練數(shù)據(jù)的情況下進一步提升網(wǎng)絡(luò)效果來進行。
[1] 張愛武, 李文寧, 段乙好, 等. 結(jié)合點特征直方圖的點云分類方法[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2016, 28(5): 795-801.
[2] 徐敬華, 盛紅升, 張樹有, 等. 基于鄰接拓?fù)涞牧餍尉W(wǎng)格模型層切多連通域構(gòu)建方法[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2018, 30(1): 180-190.
[3] 吳曉軍, 劉偉軍, 王天然, 等. 改進的基于歐氏距離測度網(wǎng)格模型體素化算法[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2004, 16(4): 592-597.
[4] 范涵奇, 孔德星, 李晉宏, 等. 從含噪采樣重建稀疏表達的高分辨率深度圖[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2016, 28(2): 260-270.
[5] 呂剛, 郝平, 盛建榮. 一種改進的深度神經(jīng)網(wǎng)絡(luò)在小圖像分類中的應(yīng)用研究[J]. 計算機應(yīng)用與軟件, 2014, 31(4): 182-184, 213.
[6] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[7] 李琳輝, 錢波, 連靜, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的交通場景語義分割方法研究[J]. 通信學(xué)報, 2018, 39(4): 123-130.
[8] BELLMAN R E. Dynamic programming [M]. Princeton: Princeton University Press, 1957.
[9] LIN M, CHEN Q, YAN S. Network in network [EB/OL]. (2013-12-16). [2014-03-04]. http://arvix.org/abs/1312. 4400.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]//Proceedings of International Conference on Neural Information Processing Systems. New York: CAM Press, 2012: 1097-1105.
[11] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2014-09-04). [2015-04-10]. https://arxiv.org/abs/1409.1556.
[12] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Tokyo: IEEE Computer Society Press, 2015: 1-9.
[13] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2016: 770-778.
[14] HUANG G, LIU Z, WEINBERGER K Q, et al. Densely connected convolutional networks [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2017: 243.
[15] WU Z, SONG S, KHOSLA A, et al. 3D shapenets: A deep representation for volumetric shapes [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2015: 1912-1920.
[16] MATURANA D, SCHERER S. Voxnet: A 3D convolutional neural network for real-time object recognition [C]//Proceedings of the Intelligent Robots and Systems (IROS), 2015 IEEE/RSJ International Conference on. Los Alamitos: IEEE Computer Society Press, 2015: 922-928.
[17] BROCK A, LIM T, RITCHIE J M, et al. Generative and discriminative voxel modeling with convolutional neural networks [EB/OL]. (2016-08-15). [2016-08-16]. https://arxiv.org/abs/1608.04236.
[18] HEGDE V, ZADEH R. Fusionnet: 3D object classification using multiple data representations [EB/OL]. (2016-07-19). [2016-11-27]. https://arxiv.org/abs/1607. 05695.
[19] SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3D shape recognition [C]//Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 945-953.
[20] QI C R, SU H, NIESSNER M, et al. Volumetric and multi-view cnns for object classification on 3d data [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2016: 5648-5656.
[21] ZHI S F, LIU Y X, LI X, et al. Lightnet: A lightweight 3D convolutional neural network for real-time 3D object recognition [C]//Proceedings of Eurographics Workshop on 3D Object Retrieval. Goslar: Eurographics Association Press, 2017: 9-16.
[22] QI C R, SU H, MO K, et al. Pointnet: Deep learning on point sets for 3d classification and segmentation [J]. ProcEedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2017: 77-85.
[23] QI C R, YI L, SU H, et al. Pointnet++: Deep hierarchical feature learning on point sets in a metric space [C]//Proceedings of Advances in Neural Information Processing Systems. Heidelberg: Springer, 2017: 5105-5114.
[24] LI Y, BU R, SUN M, et al. PointCNN [EB/OL]. (2018-06-23). [2018-11-05]. https://arxiv.org/abs/1801. 07791.
[25] 馮元力, 夏夢, 季鵬磊, 等. 球面深度全景圖表示下的三維形狀識別[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2017, 29(9): 1689-1695.
[26] WANG P S, LIU Y, GUO Y X, et al. O-cnn: Octree-based convolutional neural networks for 3d shape analysis [J]. ACM Transactions on Graphics (TOG), 2017, 36(4): 72.
[27] LI Y Y, PIRK S, SU H, et al. Fpnn: Field probing neural networks for 3d data [C]//Proceedings of Advances in Neural Information Processing Systems. New York: Curran Associates Inc. 2016: 307-315.
[28] REN M, NIU L, FANG Y. 3D-A-Nets: 3D deep dense descriptor for volumetric shapes with adversarial networks [EB/OL]. (2017-11-28). [2017-11-28]. https://arxiv.org/abs/1711.10108.
[29] HU J, SHEN L, SUN G. Squeeze-and-excitation networks [EB/OL]. (2017-09-05). [2018-10-25]. https:// arxiv.org/abs/1709.01507.
[30] IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift [EB/OL]. (2015-02-11). [2015-03-02]. https://arxiv.org/abs/1502.03167.
3D Object Recognition Based on Voxel Features Reorganization Network
LU Qiang1,2, ZHANG Chun-yuan1, CHEN Chao1, YU Ye1,2, YUAN Xiao-hui3
(1. VCC Division, School of Computer and Information, Hefei University of Technology, Hefei Anhui 230601, China; 2. Anhui Province Key Laboratory of Industry Safety and Emergency Technology (Hefei University of Technology), Hefei Anhui 230009, China; 3. Department of Computer Science and Engineering, University of North Texas, Denton TX 76201, United States)
3D object recognition is a research focus in the field of computer vision and has significant application prospect in automatic driving, medical image processing, etc. Aiming at voxel expression form of 3D object, VFRN (voxel features reorganization network), using short connection structure, directly connects non-adjacent convolutional layers in the same unit. Through unique feature recombination, the network reuses and integrates multi-dimensional features to improve the feature expression ability to fully extract the structural features of objects. At the same time, the short connection structure of the network is conducive to the spread of gradient information. Additionally, employing small convolution kernel and global average pooling not only enhances generalization capacity of network, but also reduces the parameters in network models and the training difficulty. The experiment on ModelNet data set indicates that VFRN overcomes problems including low resolution ratio in voxel data and texture deletion, and achieves better recognition accuracy rate using less parameter.
object recognition; voxel; convolution neural network; feature reorganization; short connection
TP 391
10.11996/JG.j.2095-302X.2019020240
A
2095-302X(2019)02-0240-08
2018-09-03;
2018-09-12
安徽省自然科學(xué)基金項目(1708085MF158);國家自然科學(xué)基金項目(61602146);國家留學(xué)基金項目(201706695044);合肥工業(yè)大學(xué)智能制造技術(shù)研究院科技成果轉(zhuǎn)化及產(chǎn)業(yè)化重點項目(IMICZ2017010)
路 強(1978-),男,安徽合肥人,副教授,博士,碩士生導(dǎo)師。主要研究方向為信息可視化、可視分析。E-mail:luqiang@hfut.edu.cn