国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于RGB-D圖像的物體識別方法

2021-09-07 03:10王高平李林鵬王曉華景軍鋒張凱兵
西安工程大學(xué)學(xué)報 2021年4期
關(guān)鍵詞:視圖模態(tài)卷積

李 珣,王高平,李林鵬,王曉華,景軍鋒,張凱兵

(1.西安工程大學(xué) 電子信息學(xué)院,陜西 西安 710048;2.格羅寧根大學(xué) 伯努利實驗室,格羅寧根 荷蘭 9747 GA)

0 引 言

物體識別是機器視覺和機器人智能化研究的重要內(nèi)容,目的是通過學(xué)習(xí)和訓(xùn)練使機器能夠?qū)ν獠凯h(huán)境進行感知并獲得特征數(shù)據(jù)。經(jīng)過幾十年的研究,物體識別已經(jīng)在交通、醫(yī)療、軍事、機器人等諸多領(lǐng)域得到應(yīng)用[1-2]。但是,通過二維RGB (Red通道、Green通道、Blue通道)圖像進行物體識別的局限性逐漸顯露:RGB圖像成像過程的基礎(chǔ)是光學(xué)投影,將空間中三維存在的物體映射到二維平面的這一過程造成了信息損失不可避免。與此同時,單純使用RGB圖像容易受到復(fù)雜的光照和背景變化干擾,識別率的提升已經(jīng)呈現(xiàn)瓶頸。為了改善RGB圖像的二維表達弊端,近年來結(jié)合深度D (Depth通道)圖像的RGB-D物體識別方法研究成為提高物體識別準(zhǔn)確率的新途徑之一。

深度圖像包含了物體的空間幾何特征,具有光照不變性和顏色不變性,背景更容易分離等特點,可與RGB圖像所包含的顏色與紋理信息進行樣本數(shù)據(jù)的相互補充。2010年以來,采用新傳感技術(shù)的RGB-D相機,如:PrimeSense、PMD CamCube以及微軟的Kinect等,將同時采集高像素RGB圖像和深度圖像變?yōu)榭赡?,加速了RGB-D圖像識別技術(shù)的發(fā)展。2013年IJCV出版的專刊將RGB-D圖像在人臉識別、三維場景重建、姿態(tài)估計、物體識別等領(lǐng)域的理論研究和實際應(yīng)用成果進行了展示[3];2014年開始,國際頂級會議CVPR也因為RGB-D研究的廣泛性專門增設(shè)了RGB-D傳感器的專題研討會[4]。2014—2021年,國際頂級會議和重要期刊上發(fā)表了大量的關(guān)于RGB-D圖像的研究成果[5-7]。這些成果表明,融合RGB圖像和深度圖像后的物體識別效果獲得了提升。

本文基于RGB-D圖像的物體識別方法的最新研究進展,分別對公開的RGB-D對象數(shù)據(jù)集與場景數(shù)據(jù)集、先驗知識的特征構(gòu)建方法與特征學(xué)習(xí)方法以及不同融合策略特點等研究成果進行整理、歸納和分析,并對基于RGB-D的目標(biāo)識別優(yōu)化思路提出展望,希望能夠為該方向研究提供參考和借鑒。

1 開放數(shù)據(jù)集和資源

數(shù)據(jù)樣本的多寡對于基于圖像算法的研究工作非常重要。公開的RGB-D數(shù)據(jù)集不僅為研究人員節(jié)省大量的時間和資源,而且能為不同算法的優(yōu)劣比較提供平臺[8]。目前,已公開的常用RGB-D數(shù)據(jù)集有:RGB-D object dataset、2D3D、JHUIT-50、NYU depth等。

1) RGB-D object dataset[9]。2011年由華盛頓大學(xué)的LAI等公開的一個大規(guī)模、多視圖的數(shù)據(jù)集,是迄今為止使用最廣泛的RGB-D對象數(shù)據(jù)集,幾乎囊括了室內(nèi)常見的各種物體。其采集過程使用Kinect以640×480像素拍攝,包含51個類別共300個實例的室內(nèi)常見對象,共計25萬張PNG格式的RGB-D圖像以及對應(yīng)的3D點云(PCD)文件。此外該數(shù)據(jù)集還提供了8個不同場景組成的場景數(shù)據(jù)集以及RGB-D視頻序列。2014年作者對該數(shù)據(jù)集進行了擴展,增加了14個新場景,包括桌面、廚房和家具等對象。該數(shù)據(jù)集進一步促進了種類識別、3D場景標(biāo)記和物體姿態(tài)估計等應(yīng)用研究。

2) 2D3D 數(shù)據(jù)集[10]。2011年馬克斯·普朗克協(xié)會的BROWATZKI等提供了2D3D數(shù)據(jù)集,其采集過程是使用PMD CamCube 2.0傳感器在步進電機控制的轉(zhuǎn)盤上繞垂直軸360°旋轉(zhuǎn)拍攝,數(shù)據(jù)庫包含18個類別共154個家庭和辦公室環(huán)境常見對象,每個對象采集36組視圖,共包含154×36=5 544個RGB-D圖像。彩色視圖分辨率為1 388×1 038像素,深度圖像分辨率為204×204像素。2D3D數(shù)據(jù)集在RGB-D object dataset[9]上增加了額外的類別和實例,用于物體識別和分類。

3) JHUIT-50數(shù)據(jù)集[11]。該數(shù)據(jù)集在2016年由約翰霍普金斯大學(xué)的LI等人建立。使用PrimeSense Carmine 1.08傳感器固定視角順序采集RGB圖像和深度圖像,包含50個錘子、螺絲刀等車間工具的工業(yè)對象。所有的數(shù)據(jù)都是從雜亂的場景中分割出來,共包含14 698張RGB-D圖像。JHUIT-50數(shù)據(jù)集中樣本背景更加復(fù)雜,如圖1所示。這種前景與背景相似的物體識別在視覺層面上的辨識難度更大,對識別算法的要求更具有挑戰(zhàn)性。

圖 1 JHUIT-50數(shù)據(jù)集Fig.1 JHUIT-50 dataset

4) NYU depth V1[12]和NYU depth V2[13]數(shù)據(jù)集。紐約大學(xué)Silberman等人提供的用于場景目標(biāo)分割和分類的RGB-D數(shù)據(jù)集,擁有2個不同的版本。其中NYU Depth V1使用Kinect拍攝,包含7個類型的64種室內(nèi)場景,共有108 617個未標(biāo)記幀,2 347幅帶標(biāo)注的RGB-D圖像。NYU Depth V2包含來自3個城市的26種場景類型的464個新場景,407 024個未標(biāo)記幀以及1 449張帶標(biāo)注的RGB圖像和深度圖像,除原始深度圖像外,數(shù)據(jù)集還提供了預(yù)處理后的深度圖像。場景識別是典型的多分類問題,作為物體識別的擴展,更密集地記錄了場景中的所有對象信息,NYU Depth數(shù)據(jù)集經(jīng)常用來驗證RGB-D物體識別算法的普適性和算法在更復(fù)雜條件下的實用性,部分示例如圖2所示。

圖 2 NYU Depth V1數(shù)據(jù)集Fig.2 NYU Depth V1 data set

除上述常用的數(shù)據(jù)集外,還有一些其他的RGB-D對象數(shù)據(jù)集,如Willow數(shù)據(jù)集[14]、BigBIRD數(shù)據(jù)集[15]等。表1給出了常用數(shù)據(jù)集詳細的對比信息。此外,還有一些用于其他識別對象的RGB-D視覺數(shù)據(jù)集,如:3D人臉識別、人體姿態(tài)估計、手勢識別及三維建模等[8]。

表1 現(xiàn)有RGB-D對象數(shù)據(jù)集對比

2 RGB-D物體識別模型

物體識別研究分為實例識別和類別識別。實例(如:咖啡杯)代表獨特的對象,而類別(如:杯子)代表共享相似特征(例如:形狀或結(jié)構(gòu))。提高物體識別準(zhǔn)確率的關(guān)鍵在于提取的特征具有代表性、區(qū)別力。RGB圖像和深度圖像的結(jié)合,為物體識別提供了更多的物體特征。根據(jù)特征獲取手段的差異,將當(dāng)前的RGB-D圖像識別算法分為基于先驗知識的手工特征識別方法和基于特征學(xué)習(xí)的RGB-D物體識別方法等2類。

2.1 基于先驗知識的手工特征識別方法

早期的RGB-D圖像識別依靠先驗知識進行目標(biāo)特征的設(shè)定,包括尺度不變特征變換(SIFT)、加速穩(wěn)健特征(SURF)、方向梯度直方圖(HOG)等,通過手工設(shè)計多個特征描述符并矢量化組合在一起的方式,用于目標(biāo)特征匹配[16]。

由于RGB-D圖像記錄的是同一物體的不同視圖,數(shù)據(jù)之間具有明顯的特征差異,因此,通常需要為RGB圖像和深度圖像設(shè)計不同的特征描述子[17]。LAI等使用SIFT、文本直方圖(textons histograms)、顏色直方圖(color histograms)生成RGB圖像的顏色與紋理特征,將深度視圖中物體周圍邊界框的寬度、深度和高度作為形狀特征,使用旋轉(zhuǎn)圖像(spin images)生成固定長度特征向量,高斯核支持向量機(KSVM)作為分類器,該方法在華盛頓RGB-D數(shù)據(jù)集上的類別識別率為83.8%[9];BO等提出了一種核描述子的方法,將內(nèi)核描述符的思想擴展到深度圖和三維點云,使用5個深度核描述符將形狀、尺寸和深度邊緣特征等結(jié)合起來提高識別性能,在RGB-D數(shù)據(jù)集上的類別識別率和實例識別率分別為84.5%和86.2%。該方法克服了深度特征對獨立視角的依賴,但是等距離采樣影響局部特征的表達能力[18]。LAI等設(shè)計了一種稀疏距離度量(IDL)算法,對等距離采樣影響局部特征的表達能力問題進行改進,為所有的特定對象的所有視圖定義了一種距離度量,丟棄了冗余的數(shù)據(jù),保證了快速分類。在RGB-D數(shù)據(jù)集上的實驗結(jié)果顯示,實例識別率達到了91.3%,有效地提高了分類性能[19]。駱鍵等在BO的基礎(chǔ)上進行了改進,提出了核描述子編碼的識別方法,將對象點云圖等間隔劃分為若干個子區(qū)域,選取每個子區(qū)域中深度值最大的點作為參考點,滿足均勻采樣的同時降低特征維度,對比RGB-D數(shù)據(jù)集上的實驗結(jié)果,類別識別率提高了1.3%,實例識別率提高了6.5%[20]。BLUM等則采用卷積K均值描述符(CKM),通過無監(jiān)督的方法自動提取興趣點周圍的局部特征[21]。LIU等對RGB視圖和3D點云視圖提取多組特征,連接為一個10維向量組合,輸入線性SVM進行分類[22]。PAULK等從RGB顏色直方圖中提取了9個基于顏色的特征,從深度圖像的點云表示中提取幾何屬性和體素特征,分別對比了Adaboost、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN )、SVM等不同分類器對算法的性能影響,其中SVM在速度和精度上取得了最佳的平衡[23]。表2為基于先驗知識的手工特征識別RGB-D圖像的特征提取與分類匯總。

表2 RGB-D圖像的特征提取與分類方法

手工設(shè)計特征的方法主要依靠設(shè)計者的先驗知識,通常需要針對不同的條件進行手動調(diào)整,不容易擴展到不同的數(shù)據(jù)集或其他模式,普適性較差,而且手工設(shè)計特征的過程中,有用信息的完備性難以保證,只能捕獲對識別有用的線索子集,存在一定的局限性。

2.2 基于特征學(xué)習(xí)的RGB-D物體識別

RGB-D圖像的物體識別同樣也經(jīng)歷了從手工設(shè)計的描述符到基于語義描述特征集的特征學(xué)習(xí)發(fā)展過程[25]。相比特征學(xué)習(xí),手工特征的方法通常只適用于中小型數(shù)據(jù)庫,面對多源的海量數(shù)據(jù)時,端到端的特征學(xué)習(xí)體系結(jié)構(gòu)已經(jīng)超越了這種啟發(fā)式方法,基于特征學(xué)習(xí)的RGB-D物體識別方法能夠取得更好的識別性能,因此,也成為近年研究的主流方向。

2.2.1 深度圖像的編碼 以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)算法憑借其高效的特征表達能力和模型擬合效果,已經(jīng)在RGB圖像的物體識別領(lǐng)域取得了巨大的成功[26]。與RGB圖像識別相比,RGB-D圖像的多模態(tài)數(shù)據(jù)在使用深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程中還需要考慮其他因素,如噪聲和訓(xùn)練數(shù)據(jù)的不同[25]。由于深度學(xué)習(xí)的訓(xùn)練依賴于大量的樣本,不均衡樣本會造成模型泛化能力差并且容易發(fā)生過擬合[27]。當(dāng)前最大的RGB-D數(shù)據(jù)集[9],相比于ImageNet數(shù)據(jù)庫中上千萬張帶注釋的圖像,存在明顯的數(shù)據(jù)匱乏問題。

面對上述問題,傳統(tǒng)的解決方案是通過數(shù)據(jù)增強來擴充樣本空間,增加樣本的多樣性,如裁剪縮放增強[28]、樣本插值SMOTE[29]、Mixup[30]等。ZHOU等采用了一種與類無關(guān)的數(shù)據(jù)增強方法來擴展訓(xùn)練數(shù)據(jù)集,從不同的訓(xùn)練樣本中抽取N個大小為K×K像素的圖像塊,形成初始訓(xùn)練集X={x1,x2,…,xN},采樣區(qū)域位于像素值梯度變化較大的區(qū)域。具體轉(zhuǎn)換過程表示為T={t,s,r,c},其中t為采樣塊的垂直和水平平移,s為比例因子,r為采集該樣本時在工作臺上的旋轉(zhuǎn)角度,c為補丁塊從RGB顏色空間到HSV空間的轉(zhuǎn)換[31]。

數(shù)據(jù)增強的方式雖然起到了一定的效果,但是RGB-D數(shù)據(jù)集中的樣本大部分來自于同一物體的不同角度,包含許多高度相似性的圖像特征,簡單的數(shù)據(jù)增強并不能解決深層網(wǎng)絡(luò)訓(xùn)練的過擬合問題。因此,對深度圖像進行有效的編碼,將單通道深度圖像編碼為與RGB圖像兼容的三通道表示,利用遷移學(xué)習(xí)的方法微調(diào)CNN的參數(shù),利用學(xué)習(xí)到的濾波器進行訓(xùn)練,是解決數(shù)據(jù)匱乏的一個有效方法[32]。其中微調(diào)過程是為了對權(quán)重和偏置進行調(diào)整,以便最終的網(wǎng)絡(luò)更適合目標(biāo)數(shù)據(jù)集[33]。深度圖像特征編碼方法主要有以下幾種:

1) Surface Normals編碼。深度圖像的邊緣特征表現(xiàn)在:目標(biāo)與背景之間深度值存在明顯的梯度下降,表面輪廓信息比RGB圖像更加明顯,因此,BO等[34]借助這一特征通過計算表面法線對深度圖像進行編碼,使用遞歸中值濾波器重建缺失的深度值,計算深度圖像的每個像素值的表面法線,將得到的表面法線歸一化為單位向量,映射到0~255的整數(shù)范圍,每個維度分別對應(yīng)于R、G、B三通道。AAKERBERG等為進一步減小圖像噪聲影響,加入了雙邊濾波器對表面法線編碼進行改進,該編碼方法保留了更多邊緣特征和細節(jié)信息[35]。

2) HHA編碼。HHA編碼[36]最早用于RGB-D圖像檢測與分割,經(jīng)編碼后的圖像比原始深度圖像的三維表達能力更高,該編碼方法已經(jīng)擴展到其他的RGB-D視覺領(lǐng)域。HHA編碼通過計算深度圖像的水平視差、離地高度以及表面法線與重力方向的夾角,將深度圖像轉(zhuǎn)換為與RGB圖像兼容的三通道,所有通道被線性縮放到0~255的范圍之間。HHA編碼生成了與RGB圖像相匹配的特征結(jié)構(gòu),缺點是只注重各個通道的獨立成分,計算相對復(fù)雜。

3) Colorization編碼。受到灰度照片彩色化[37]的啟發(fā),SCHWARZ等提出了深度圖像彩色化的編碼方法。首先建立一個局部參考模型,對目標(biāo)進行前景與背景的分割,并使用遞歸中值濾波器填充缺失的深度值,根據(jù)渲染網(wǎng)格頂點到對象中心的距離,依次使用Green、Red、Blue、Yellow 4種顏色對深度值進行像素匹配,將深度圖像可視化編碼為彩色圖像。此外,作者還發(fā)現(xiàn)簡單的深度著色方法比更復(fù)雜的預(yù)處理技術(shù)更有利于深度圖像的特征描述[38]。

4) Colorjet編碼。EITEL等提出了另外一種簡單有效深度圖像彩色化編碼方法。首先將圖像的深度值歸一化到0~255之間,對于深度圖像中的每個像素點,根據(jù)距離的遠近依次被編碼為紅、綠、藍三通道,最高值映射到紅色通道,最低值映射到藍色通道來進行著色[32]。與之前的深度圖像編碼方法相比,Colorjet編碼利用了全部的RGB光譜,不依賴于復(fù)雜的公式計算就能夠獲得良好的識別準(zhǔn)確率。

5) (DE)2CO編碼。區(qū)別于其他設(shè)定特征的編碼方法,CARLUCCI等利用卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)如何將深度數(shù)據(jù)映射到三通道圖像,提出了一個端到端的,基于殘差學(xué)習(xí)的深度圖像編碼網(wǎng)絡(luò)結(jié)構(gòu),對于輸入分辨率為228×228的深度圖像,通過卷積和池化縮小到64×57×57分辨率。網(wǎng)絡(luò)共包含8個Residual Block,其中每個Residual Block包含2次卷積、對應(yīng)的批量歸一化層以及非線性Leaky Relu激活層,如圖3所示[39]。最后的Residual Block輸出3個特征卷積以形成三通道圖像輸出,通過反卷積(上采樣)層將圖像分辨率恢復(fù)到228×228。

圖 3 深度圖像的(DE)2CO編碼方法Fig.3 The (DE)2CO coding method for depth image

利用通道編碼方法,將圖像的深度單通道擴張為三通道,從而可以與圖像的RGB三通道進行更好的特征融合,再通過卷積提取深層特征。

2.2.2 基于特征學(xué)習(xí)的RGB-D物體識別 模型特征學(xué)習(xí)通過一定的規(guī)則對原始數(shù)據(jù)中的特征維度進行變換組合、抽象,是模型自動學(xué)習(xí)的過程[40]。BAI等將RGB圖像和深度圖像分為若干個子集,訓(xùn)練了2個稀疏編碼器分別從RGB圖像和深度圖像中提取特征,最后使用Softmax分類器進行分類。BO等提出了無監(jiān)督學(xué)習(xí)的分層匹配追蹤算法(HMP),使用正交匹配追蹤和空間金字塔池化來構(gòu)建多層特征,聯(lián)合RGB圖像和灰度圖像、深度圖像和深度表面法線,學(xué)習(xí)分層特征表示[34]。SUN等提出了一種主成分分析(PCA)和典型相關(guān)性分析(CCA)的網(wǎng)絡(luò)模型,構(gòu)建了2層的級聯(lián)濾波器。網(wǎng)絡(luò)第1層是使用主成分分析濾波器分別學(xué)習(xí)RGB圖像和深度圖像的特征,網(wǎng)絡(luò)第2層構(gòu)建典型相關(guān)性分析濾波器學(xué)習(xí)2種模態(tài)的融合信息[42]。殷云華等提出了一種CNN與極限學(xué)習(xí)機(ELM)的混合模型。首先通過1個卷積層和池化層提取RGB圖像和深度圖像的低階特征,在共享層合并2種模態(tài)的特征,然后自編碼極限學(xué)習(xí)獲取高層次的RGB-D特征[43]。該模型結(jié)合了CNN的底層特征平移不變性與ELM的高效性,在保持良好精度的同時提高了識別效率。SOCHER等提出了一種卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)神經(jīng)網(wǎng)絡(luò)相結(jié)合的深度學(xué)習(xí)模型(CNN-RNN),采用單層的CNN網(wǎng)絡(luò)分別從原始數(shù)據(jù)中學(xué)習(xí)RGB特征和深度特征,結(jié)合樹形的遞歸神經(jīng)網(wǎng)絡(luò)抽象出高層次特征,如圖4所示[44]。此外,作者還證明了隨機權(quán)重的RNN也可以生成高效的特征表示。

圖 4 卷積遞歸神經(jīng)網(wǎng)絡(luò)的RGB-D圖像識別模型Fig.4 RGB-D image recognition model based on convolutional recursive neural network

卷積層中濾波器大小為dp,對輸入尺寸為dI×dI的輸入圖像進行卷積后,得到維度為dI-dp+1的K個濾波器矩陣,池化層對大小為dl的區(qū)域均值池化,步長為s,輸出寬度和高度為r=(dI-dl)/s+l1的特征響應(yīng),RGB圖像和深度圖像的參數(shù)設(shè)置保持一致,每個CNN層的輸出為X,X為K×r×r的3D特征矩陣。

圖像的特征矩陣X∈RK×r×r為遞歸神經(jīng)網(wǎng)絡(luò)的輸入,定義多個相鄰列向量組成方形塊,合并為1個父向量表示為P∈RK,構(gòu)建固定樹遞歸神經(jīng)網(wǎng)絡(luò)。當(dāng)X∈RK×4×4時,構(gòu)建的3層樹結(jié)構(gòu)為X∈RK×4×4→X∈RK×2×2→X∈RK×1×1。如果方形塊的大小為K×b×b,則每個方形塊中包含b2個向量,此時父向量表示為

(1)

式中:參數(shù)矩陣W∈RK×b2×K;f為非線性函數(shù),忽略偏置項。每個RNN都會輸出1個K維向量,在網(wǎng)絡(luò)前向傳播之后,N+K維向量連接起來輸入Softmax分類器進行分類。該方法證明了卷積遞歸神經(jīng)網(wǎng)絡(luò)對于深度圖像特征提取的有效性,為提高RGB-D圖像識別準(zhǔn)確率提供了一種可借鑒的模型[41,45]。隨后,駱鍵等在其基礎(chǔ)上提出了多尺度卷積遞歸神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)模型,使用更多的模態(tài)特征來提高準(zhǔn)確率,將RGB圖像和深度圖像分別轉(zhuǎn)化為灰度圖像與3D表面法線圖,分別從RGB圖像、灰度圖像、深度圖像、3D表面法線圖中獲取更多模態(tài)的特征[46]。

隨著GPU運算能力的提升,更加復(fù)雜和性能優(yōu)越的網(wǎng)絡(luò)模型被提出,深度學(xué)習(xí)網(wǎng)絡(luò)在特征提取方面占據(jù)明顯的優(yōu)勢[47]。SCHWARZ等提出了遷移學(xué)習(xí)的RGB-D圖像識別方法,網(wǎng)絡(luò)模型如圖5所示[38]。文獻[48]在Caffe框架上使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型進行特征提取,網(wǎng)絡(luò)中最后2個全連接層(fc7和fc8)的特征排列起來后使用線性SVM進行分類,在華盛頓RGB-D數(shù)據(jù)集上類別識別準(zhǔn)確率達到89.4%,實例識別準(zhǔn)確率達到94.1%,顯著提高了RGB-D圖像的分類效果。

圖 5 RGB-D物體識別網(wǎng)絡(luò)模型Fig.5 RGB-D object recognition network model

繼SCHWARZ等[38]的工作后,許多深層卷積神經(jīng)網(wǎng)絡(luò)及其衍生網(wǎng)絡(luò)模型相繼被提出。EITEl等使用5個卷積層和3個全連接層的雙流卷積神經(jīng)網(wǎng)絡(luò)模型,微調(diào)了網(wǎng)絡(luò)參數(shù)對2種模態(tài)的數(shù)據(jù)進行訓(xùn)練,選擇全連接層(fc8)融合的方法生成RGB-D的融合特征,在遷移學(xué)習(xí)的RGB-D圖像識別方法的基礎(chǔ)上類別識別準(zhǔn)確率提高了1.9%[32]。AAKERBERG等的研究重點是深度圖像的編碼方案,改進了表面法線的編碼方式,并將網(wǎng)絡(luò)深度提升到了16層[35]。ZAKI等通過2個相同參數(shù)設(shè)置的CNN網(wǎng)絡(luò),每層卷積提取的RGB特征和深度特征合并為1個向量組,生成多樣化的特征組合[49]。RAHMAN等使用colorjet和surface 2種編碼方法表示深度圖像,區(qū)別是作者使用2種不同的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)多模態(tài)特征,更深層次的GoogLeNet訓(xùn)練RGB圖像,并分別微調(diào)CaffeNet網(wǎng)絡(luò)的參數(shù)來訓(xùn)練2種編碼圖像,并在網(wǎng)絡(luò)頂層融合3種特征進行分類[50]。上述幾種方法利用多個卷積層提取RGB圖像和深度圖像的語義特征進行分類,是一種簡單有效的識別方法。

ZAKI等[25]認為卷積層包含的特征對于某些類別同樣重要,創(chuàng)建卷積層提取的RGB特征和深度特征的超立方體金字塔,結(jié)合超立方體金字塔特征與全連接神經(jīng)元的激活層。對于每個卷積層l(i)={l(1),…,l(l)},節(jié)點處激活的特征映射表示為

(2)

式中:σ為RELU非線性激活函數(shù);w、h、c分別為濾波器k的大小;i和j為特征的維度;b為偏置項;每個卷積層中特征圖的數(shù)目為n(l)={64,256,256,256,256},共計1 088個特征圖。將RGB圖像、深度圖像、點云圖像分別轉(zhuǎn)換為超立方體金字塔表示,使用雙線性插值將所有卷積層中空間維度為i和j的特征圖分別子采樣:p(1)=m×m,p(2)=2m×2m,p(3)=0.5m×0.5m,在多尺度下獲得卷積層的獨立特征。每個超立方體金字塔表示為

(3)

為降低特征維度,對生成的特征進行空間金字塔全局最大池化,計算區(qū)域內(nèi)特征映射的最大分量。2組特征合并后使用極限學(xué)習(xí)機進行分類,該方法有效提高了識別結(jié)果,缺點是過多的數(shù)據(jù)融合容易帶來冗余信息。

2.3 多模態(tài)融合

基于深度學(xué)習(xí)的多模態(tài)任務(wù)一直都是人工智能領(lǐng)域的研究熱點,如:多模態(tài)醫(yī)學(xué)圖像融合[51]、情感分析[52]、人機交互[53]等。多模態(tài)任務(wù)旨在聯(lián)合不同類型的特征對多源數(shù)據(jù)進行綜合建模,實現(xiàn)跨模態(tài)數(shù)據(jù)之間的信息互補,共同完成1個任務(wù),如回歸預(yù)測或者分類判斷。但是不同模態(tài)之間的數(shù)據(jù)存在異構(gòu)性,其特征向量位于不同的向量子空間,數(shù)據(jù)從一種模式到另一種模式之間的映射關(guān)系具有不定性。因此,如何利用不同模態(tài)的互補性來表示、融合多模式數(shù)據(jù)一直都是多模態(tài)任務(wù)的核心[54]問題。RGB-D物體識別是典型的多模態(tài)任務(wù),即通過融合同一目標(biāo)的RGB視圖和深度視圖進行分類。依據(jù)融合策略的不同,RGB-D圖像的特征融合方法大致分為決策層的加權(quán)融合與特征層的早期融合2類。

1) 決策層的加權(quán)融合。決策層融合(Decision-level fusion)解決了RGB視圖與深度視圖數(shù)據(jù)之間的不一致性,對2種模態(tài)提取的特征分別訓(xùn)練分類器,融合分類器輸出的結(jié)果預(yù)測對象類別的標(biāo)簽[55]。決策層融合的一般形式如圖6所示。

圖 6 決策層融合Fig.6 Decision-level fusion

RAMIREZ等認為2種視圖的模態(tài)通常是不相關(guān)的,每種模態(tài)的代表性分類特征也是獨立的,使用決策層融合可以保留2種不同視圖特征的完整性[56]。CHENG 等使用CNN和費舍爾核的混合網(wǎng)絡(luò),訓(xùn)練2個線性SVM對2種視圖分別進行分類,分類結(jié)果的加權(quán)平均值作為最終的預(yù)測標(biāo)簽[57]。YIN等使用2個ELM分別計算RGB圖像和深度圖像的分類結(jié)果并進行加權(quán)融合[58]。ZENG等采用基于證據(jù)理論的決策融合方法對2種分類結(jié)果進行融合,證據(jù)理論的決策融合方法利用質(zhì)量函數(shù)考慮不同決策對不同類別的影響,能夠給出更準(zhǔn)確的識別結(jié)果[59]。QI等在研究ImVoteNet中,首先利用RGB圖像的豐富紋理和色彩信息預(yù)測物體的中心和類別,在物體的中心線上,再融合圖像的深度信息預(yù)測物體的長寬高和類別信息[60]。該方法既充分利用了RGB圖像和深度圖像信息,又減少了計算量。

2) 特征層的早期融合。區(qū)別于決策層融合,特征層融合(Feature-level fusion)是指在特征提取階段將2種模態(tài)的特征投影到共享語義子空間層,分類器對融合后的特征進行分類,特征層融合的一般形式如圖7所示。

圖 7 特征層融合Fig.7 Feature-level fusion

特征層融合的優(yōu)點是可以更好地捕捉不同模態(tài)之間的關(guān)系,最常用的特征層融合為全連接層融合[32,35, 38-39],其特點是通過2個深度學(xué)習(xí)網(wǎng)絡(luò)對RGB圖像和深度圖像進行卷積降采樣,在已有網(wǎng)絡(luò)層基礎(chǔ)上增加1個全連接層,合并2種模態(tài)的深層語義特征,經(jīng)分類器進行分類。在全連接層的融合方式中,普遍認為較深層次所包含的語義特征更具有代表性,從而可以擬合更加復(fù)雜的多模態(tài)數(shù)據(jù)[59]。QI等提出簡單的組合特征會產(chǎn)生不確定的表示,作者在卷積層和全連接層之間構(gòu)造了一個損失函數(shù),把2種單模態(tài)特征和融合特征連接起來進行分類[60]。WANG等針對不同的數(shù)據(jù)集或者不同的模型,提出最佳融合層往往是不定的,全連接層融合的前提是假設(shè)該層特征代表2種模態(tài)融合的最佳抽象表示[61]。作者對比了AlexNet上不同卷積層提取的特征的融合結(jié)果,發(fā)現(xiàn)第4層的激活值更適合作為融合特征進行分類。CAGLAYAN等將多個卷積層提取的特征進行合并學(xué)習(xí)二次特征,利用不同層的信息來產(chǎn)生更好的識別性能[45]。ZAKI等將超立方體金字塔特征與全連接神經(jīng)元的激活相結(jié)合,將RGB圖像、深度圖像和3D點云圖像3種特征進行融合[25]。

WANG等使用雙流卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)2個映射矩陣,將特征分解為關(guān)聯(lián)特征和個體特征2部分,在最后一個average-pooling層將原始特征映射到關(guān)聯(lián)特征空間和個體特征空間,確保融合部分和獨立特征的辨別能力和正交性。網(wǎng)絡(luò)的最后一層如圖8所示[61]。

圖 8 關(guān)聯(lián)特征與個體特征的融合Fig.8 The fusion of correlation characteristicsand individual characteristics

在圖8的最后一層網(wǎng)絡(luò)中,Vi和Qi分別表示將原始特征映射到關(guān)聯(lián)空間和個體空間,關(guān)聯(lián)特征和個體特征融合為一個新的特征向量,不同類別的特征向量被賦予不同的權(quán)重Ci,來判別最終的識別結(jié)果。

RGB-D圖像的2種融合方式各有其優(yōu)劣性,其對應(yīng)的算法模型見表3。

決策層融合的優(yōu)點是融合方式簡單,更好地消除相同類型對象之間的歧義。但過于注重獨立性可能會遺漏關(guān)鍵的跨模態(tài)交互,并迫使單模態(tài)決策脫離完整的多模態(tài)環(huán)境。特征層融合的方式相對復(fù)雜多變,可以更好地利用不同模態(tài)數(shù)據(jù)之間的聯(lián)系,解決各模態(tài)數(shù)據(jù)間的不一致性。從已有的研究來看,針對RGB-D圖像識別任務(wù),特征層融合的方式表現(xiàn)優(yōu)于決策層融合,原因是RGB特征和深度圖像的融合過程為模型決策提供了更完整的信息。多模態(tài)融合方式是一個開放性的問題,上述2種融合策略下的具體實現(xiàn)過程依然是可以探索研究的方向。

3 實驗對比與統(tǒng)計分析

近幾年來,基于深度學(xué)習(xí)的RGB-D物體識別方法已經(jīng)成為主流,表4~5分別給出了不同方法在華盛頓RGB-D object data set、2D3D數(shù)據(jù)集和JHUIT-50數(shù)據(jù)集上的實驗結(jié)果。

表4 不同方法在華盛頓RGB-D object data set等數(shù)據(jù)集的實驗結(jié)果對比

續(xù)表 4 不同方法在華盛頓RGB-D object data set等數(shù)據(jù)集的實驗結(jié)果對比

表5 不同方法在不同數(shù)據(jù)集的實驗結(jié)果對比

從表4~5可以看出,RGB-D圖像的識別結(jié)果明顯高于單獨模態(tài)的識別結(jié)果,因為同一目標(biāo)的RGB-D視圖包含了更多的信息,雖然RGB和深度是具有顯著差異的模態(tài),但是它們也有足夠的相似性(邊緣、梯度、形狀),在一定程度上具有潛在互補關(guān)系[39]。自特征學(xué)習(xí)方法成為RGB-D物體識別的主流算法以來,尤其是以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)算法的廣泛應(yīng)用,RGB-D圖像的識別準(zhǔn)確率有了質(zhì)的提升,在大規(guī)模的華盛頓RGB-D數(shù)據(jù)集上,深度學(xué)習(xí)的算法較傳統(tǒng)手工特征方法類別識別的準(zhǔn)確率提高了約11%。手工法的特征選擇可能會降低模型的預(yù)測能力,因為遺棄的特征中可能包含了有效的信息,舍棄的這部分信息一定程度上會降低模型的性能,但這也意味著計算復(fù)雜度和模型性能之間的取舍。深層卷積神經(jīng)網(wǎng)絡(luò)具有強大的學(xué)習(xí)能力,在對于不同模態(tài)特征的抽象變換過程中,CNN的局部激活特征會產(chǎn)生相同級別的語義信息,可擴展性及非線性表達能力更強,但同時依賴于硬件的解算能力,所需的訓(xùn)練時間普遍更長。因此,如何構(gòu)建出輕量級的深度學(xué)習(xí)模型來融合RGB圖像和深度圖像,在提高識別的準(zhǔn)確率同時降低其復(fù)雜度,是多模態(tài)RGB-D物體識別當(dāng)前需要解決的主要問題。

4 總結(jié)與展望

對同一物體獲得越多的信息,就能更加容易從不同維度找出不同物體的差異性,進而實現(xiàn)更準(zhǔn)確的目標(biāo)識別。RGB-D圖像提供了物體在現(xiàn)實環(huán)境中更完整的信息,更加接近人眼視覺,物體識別從單獨的RGB圖像到多模態(tài)RGB-D圖像的擴展,提升了真實世界三維目標(biāo)識別的準(zhǔn)確率?,F(xiàn)有RGB-D圖像識別的研究已經(jīng)取得了很多有價值的成果,識別的準(zhǔn)確率和魯棒性相較于單模態(tài)RGB圖像有了大幅度提高。但同時,RGB-D圖像的多模態(tài)識別研究還存在許多相關(guān)問題亟待解決。

1) RGB圖像和深度圖像是2種不同的數(shù)據(jù),除了底層視覺上具有一定的相似性外,模態(tài)的交互過程中特征描述和語義理解上存在較大差異。由于它們是隱式的,不容易被控制,因此如何跨越特征之間的異構(gòu)鴻溝和語義鴻溝是一個開放性的研究點。

2) 數(shù)據(jù)缺乏的問題是RGB-D物體識別以及其他多模態(tài)任務(wù)普遍面臨的問題,已有數(shù)據(jù)集中的對象普遍包含所選實例的不同角度,同一實例的高度相似性使得神經(jīng)網(wǎng)絡(luò)的過擬合尤為嚴(yán)重,這種數(shù)據(jù)缺乏的問題制約了RGB-D圖像的相關(guān)研究。因此,需要建立一個樣本豐富的大規(guī)模數(shù)據(jù)庫,但是由于多模態(tài)數(shù)據(jù)的獲取困難以及人工數(shù)據(jù)標(biāo)注的成本高,可以應(yīng)用一些半監(jiān)督、弱監(jiān)督、無監(jiān)督方法來研究。

3) 深度學(xué)習(xí)網(wǎng)絡(luò)能夠為機器提供強大的邏輯推理能力和復(fù)雜任務(wù)的抽象建模能力,適應(yīng)性更強,但RGB圖像和深度圖像的多模態(tài)深層架構(gòu)更加復(fù)雜,RGB圖像與深度圖像的融合會產(chǎn)生更多的參數(shù),需要大量的時間和計算資源以及性能較高的GPU。因此,如何降低模型的復(fù)雜度,設(shè)計出更優(yōu)的普適性輕量級模型是RGB-D物體識別從理論到實際應(yīng)用需要跨越的重要門檻。

4) 特征融合為協(xié)同RGB圖像和深度圖像2種模態(tài)提供了橋梁,多模態(tài)融合的方法研究將是重要的方向,不單單局限于RGB-D物體識別領(lǐng)域。多模態(tài)的融合過程中對每種數(shù)據(jù)的語義完整性要求較高,數(shù)據(jù)的不完整或者錯誤在融合的過程中會被放大。除了學(xué)習(xí)到的互補信息以外,如何避免多模態(tài)數(shù)據(jù)融合過程中的冗余信息也是一個待解決的問題。

5) 深度圖像具有光照不變、形態(tài)不變等獨有的優(yōu)點,融合深度圖像的多模態(tài)研究受到了越來越多的關(guān)注。但是長期以來深度圖像信息缺失和噪聲問題仍然沒有得到很好的解決。當(dāng)前的深度圖像編碼方法各有優(yōu)缺點,但是通常情況下都是根據(jù)不同的任務(wù)所設(shè)定的,需要探索更好的深度圖像編碼方法。

5 結(jié) 語

RGB-D數(shù)據(jù)提供了豐富的多模態(tài)信息來描述對象,使得機器與現(xiàn)實世界的交互方式朝著更智能化的方向發(fā)展。本文詳細地總結(jié)了近年來RGB-D物體識別領(lǐng)域的最新研究成果。首先介紹了公開可用的RGB-D對象數(shù)據(jù)集,對提出的相關(guān)研究方法進行了總結(jié)歸納,對深度圖像的編碼方式和多模態(tài)特征融合進行了詳細的分析和論述。認為特征層的早期融合可以利用不同視圖之間潛在的互補關(guān)系,識別率和魯棒性更好。特征學(xué)習(xí)的方法克服了傳統(tǒng)方法需要手工調(diào)整參數(shù)的缺陷,從原始數(shù)據(jù)中學(xué)習(xí)通用的特征表示,普適性更強,但同時需要消耗更長的訓(xùn)練時間,基于深度學(xué)習(xí)的RGB-D物體識別算法在模型復(fù)雜度和計算效率上有待進一步優(yōu)化。

猜你喜歡
視圖模態(tài)卷積
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測定
聯(lián)合仿真在某車型LGF/PP尾門模態(tài)仿真上的應(yīng)用
多模態(tài)超聲監(jiān)測DBD移植腎的臨床應(yīng)用
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
一種并行不對稱空洞卷積模塊①
跨模態(tài)通信理論及關(guān)鍵技術(shù)初探
Y—20重型運輸機多視圖
SA2型76毫米車載高炮多視圖
《投影與視圖》單元測試題
马鞍山市| 屏南县| 武强县| 金湖县| 崇明县| 成安县| 万山特区| 澄江县| 苏尼特左旗| 黄骅市| 改则县| 邳州市| 蕲春县| 当雄县| 土默特右旗| 西乡县| 门源| 左云县| 图片| 彰化县| 中西区| 昌图县| 特克斯县| 保亭| 古蔺县| 永康市| 疏勒县| 扶绥县| 龙井市| 花莲县| 老河口市| 修水县| 阿图什市| 韶山市| 珲春市| 西充县| 阜宁县| 淅川县| 来宾市| 沐川县| 扶绥县|