摘要:為提高目標(biāo)6D姿態(tài)追蹤網(wǎng)絡(luò)的收斂能力和追蹤精度,提出一種基于少量數(shù)據(jù)驅(qū)動(dòng)的目標(biāo)6D姿態(tài)追蹤復(fù)用預(yù)測(cè)網(wǎng)絡(luò)。以當(dāng)前時(shí)刻的彩色及深度(red green blue and depth,RGB-D)圖像和上一時(shí)刻的目標(biāo)渲染值作為輸入,通過2個(gè)獨(dú)立的特征編碼器提取特征矩陣,在特征編碼器中引入通道注意力機(jī)制模塊,保證有選擇性地調(diào)整通道信息的權(quán)重;構(gòu)建復(fù)用預(yù)測(cè)網(wǎng)絡(luò)模塊,將特征矩陣解耦得到旋轉(zhuǎn)矩陣,通過旋轉(zhuǎn)矩陣前向傳播與特征矩陣融合,將融合的結(jié)果再次解耦得到物體6D姿態(tài)的旋轉(zhuǎn)矩陣與平移矩陣,并采用李代數(shù)方法通過2個(gè)矩陣計(jì)算出目標(biāo)的6D姿態(tài)。實(shí)驗(yàn)結(jié)果表明:在使用少量數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)模型的情況下,與MaskFusion、“TEASER++”和se(3)-Tracknet等方法相比,所提方法能夠提高目標(biāo)6D姿態(tài)追蹤的準(zhǔn)確率。
關(guān)鍵詞:6D姿態(tài)追蹤;深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);數(shù)據(jù)驅(qū)動(dòng);注意力機(jī)制
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1008-0562(2024)02-0217-08
0 引言
追蹤與估計(jì)目標(biāo)的6D姿態(tài)是機(jī)器人抓取和增強(qiáng)現(xiàn)實(shí)應(yīng)用的基礎(chǔ),也是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。近年來,諸多學(xué)者采用深度學(xué)習(xí)的方法進(jìn)行目標(biāo)6D姿態(tài)追蹤。RUNZ等提出MaskFusion即時(shí)定位與地圖構(gòu)建(simultaneous localization andmapping,SLAM)系統(tǒng),通過語義場(chǎng)景來理解和追蹤多個(gè)目標(biāo),但該方法只能追蹤MS-COCO數(shù)據(jù)集中存在的目標(biāo),且不能追蹤小型幾何信息較少的3D模型。DENG等使用粒子濾波器估計(jì)剛體6D姿態(tài),通過細(xì)粒度的方式對(duì)旋轉(zhuǎn)空間進(jìn)行離散化,得到解耦后的3D旋轉(zhuǎn)和平移信息,提升了3D旋轉(zhuǎn)精度。WEN等提出一種數(shù)據(jù)驅(qū)動(dòng)的實(shí)時(shí)6D姿態(tài)追蹤優(yōu)化方法,即se(3)-Tracknet方法,通過2個(gè)獨(dú)立的特征提取器提取特征矩陣,在解耦過程中適當(dāng)?shù)胤纸馓卣骶仃嚋p少域偏移,并利用李代數(shù)有效地表達(dá)出三維方向,實(shí)現(xiàn)了剛體6D姿態(tài)的追蹤。該方法需要大量的數(shù)據(jù)集作支撐,當(dāng)數(shù)據(jù)集的數(shù)量不足時(shí),預(yù)測(cè)姿態(tài)與實(shí)際姿態(tài)會(huì)有較明顯的差異。CHEN等給出一種基于三維圖卷積的自動(dòng)編碼器,并使用該編碼器提取特征,通過解耦旋轉(zhuǎn)機(jī)制對(duì)旋轉(zhuǎn)信息進(jìn)行互補(bǔ),提出一種新的機(jī)制來擴(kuò)充數(shù)據(jù),以提高其泛化性。但由于存在特征提取機(jī)制和多個(gè)解耦器,運(yùn)行速度較慢,增加了模型運(yùn)行的時(shí)間成本。LIU等提出一種優(yōu)于經(jīng)典三角測(cè)量的立體目標(biāo)姿態(tài)優(yōu)化方法,該方法在作者提供的數(shù)據(jù)集上能夠保持較好的姿態(tài)追蹤結(jié)果,但缺少在其他數(shù)據(jù)上的泛化性。此外,LIU等還提出一種基于彩色(red green blue,RGB)圖像的6D目標(biāo)姿態(tài)估計(jì)方法,采用一種基于對(duì)應(yīng)點(diǎn)距離的方法,通過隨機(jī)樣本一致算法(random sample consensus,RANSAC)計(jì)算圓的交點(diǎn)來定位關(guān)鍵點(diǎn),該方法在部分剛體姿態(tài)估計(jì)指標(biāo)上未達(dá)到最佳。
采用深度學(xué)習(xí)進(jìn)行物體6D姿態(tài)追蹤時(shí),會(huì)受到訓(xùn)練數(shù)據(jù)數(shù)量的影響,難以獲得高質(zhì)量結(jié)果。例如在使用少量數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)時(shí),訓(xùn)練數(shù)據(jù)中包含的物體姿態(tài)信息較少,易導(dǎo)致網(wǎng)絡(luò)欠擬合,缺少泛化性。盡管可以通過數(shù)據(jù)增強(qiáng)的方法來提高訓(xùn)練數(shù)據(jù)的數(shù)量,避免過擬合,但目前依然沒有有效方法可以從根本上解決數(shù)據(jù)量少的問題。如果在數(shù)據(jù)集中提取的有效信息不足,也將導(dǎo)致解耦的旋轉(zhuǎn)矩陣與位移矩陣不準(zhǔn)確,影響后續(xù)數(shù)據(jù)處理。以深度學(xué)習(xí)為基礎(chǔ)的姿態(tài)估計(jì)方法需要大量訓(xùn)練數(shù)據(jù)作為支撐,才能取得較好的姿態(tài)估計(jì)結(jié)果。剛體姿態(tài)數(shù)據(jù)的收集與標(biāo)注需要耗費(fèi)大量人力成本,而少量數(shù)據(jù)又會(huì)降低網(wǎng)絡(luò)對(duì)目標(biāo)特征的捕獲能力,影響目標(biāo)6D姿態(tài)的追蹤性能。
本文從增強(qiáng)網(wǎng)絡(luò)時(shí)序信息處理能力和提高特征通道權(quán)重的角度出發(fā),以提高網(wǎng)絡(luò)對(duì)小數(shù)據(jù)量的信息捕獲能力為目標(biāo),給出一種面向目標(biāo)6D姿態(tài)追蹤的復(fù)用預(yù)測(cè)網(wǎng)絡(luò)?;赪EN等的研究,在se(3)-Tracknet的基礎(chǔ)上引入通道注意力機(jī)制,并參考循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)構(gòu)建復(fù)用預(yù)測(cè)模塊,提出一種能夠依賴少量訓(xùn)練數(shù)據(jù)進(jìn)行姿態(tài)估計(jì)的復(fù)用預(yù)測(cè)網(wǎng)絡(luò)(reusablepredictive network,RPN)。RPN參考卷積塊注意力機(jī)制(convolutional block attention module,CBAM)中的基礎(chǔ)模塊通道注意力機(jī)制,并將其與se(3)-Tracknet中的特征提取器融合,以更好地完成通道權(quán)重的分配,增加有效通道占比。在此基礎(chǔ)上,構(gòu)建復(fù)用預(yù)測(cè)模塊,將解耦后的旋轉(zhuǎn)矩陣進(jìn)行前向傳播,融合之后再次解耦,以強(qiáng)化特征信息,加強(qiáng)數(shù)據(jù)利用率,提高追蹤精度。
1 復(fù)用預(yù)測(cè)網(wǎng)絡(luò)
剛體姿態(tài)估計(jì)整體框架見圖1。將彩色及深度(red green blue and depth,RGB-D)圖像與目標(biāo)渲染值傳入復(fù)用預(yù)測(cè)網(wǎng)絡(luò)(RPN)中,通過包含通道注意力機(jī)制模塊(CAM)的2個(gè)獨(dú)立特征編碼器提取更為重要的特征信息,并通過復(fù)用預(yù)測(cè)模塊(RPM)處理,將特征矩陣解耦為旋轉(zhuǎn)矩陣與平移矩陣,并將旋轉(zhuǎn)矩陣向前傳播與特征矩陣融合,再次解耦出新的旋轉(zhuǎn)矩陣與平移矩陣,提高數(shù)據(jù)資源的利用率。采用文獻(xiàn)[3]和文獻(xiàn)[7]提出的李代數(shù)方法計(jì)算目標(biāo)的6D姿態(tài)。
圖1中Ot為f時(shí)刻的觀測(cè)值,Tt為f時(shí)刻的渲染值。將Ot和前一時(shí)刻的渲染值Tt-1共同輸入RPN網(wǎng)絡(luò)中,計(jì)算出物體在f時(shí)刻的相對(duì)變換姿態(tài)△ξt,通過當(dāng)前時(shí)刻的相對(duì)變換姿態(tài)△ξt與前一時(shí)刻的姿態(tài)ξt-1計(jì)算t時(shí)刻的姿態(tài)ξt,最后渲染出t時(shí)刻網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果Rt。
1.1 姿態(tài)追蹤框架
在給定RGB-D圖像序列及剛體初始姿態(tài)的條件下追蹤目標(biāo)姿態(tài)。計(jì)算目標(biāo)在t時(shí)刻的6D姿態(tài)需要具備以下條件:目標(biāo)物體的三維模型;目標(biāo)物體的初始姿態(tài);包含目標(biāo)物體的圖像序列。
令預(yù)定義的損失函數(shù)為p,則從圖像中提取特征間的差異為
式中:ψA(ξ)為經(jīng)過卷積、最大池化和CAM模塊處理后物體平均姿態(tài)的像素值;ψb(ξ)旬為經(jīng)過卷積、最大池化和2個(gè)殘差網(wǎng)絡(luò)(Resnet)模塊處理后物體姿態(tài)的像素值;ξ為物體渲染姿態(tài);ξ為同一批次中物體渲染姿態(tài)ξ的均值。
給定物體t時(shí)刻觀測(cè)值Ot以及ξt-1,存在許多△ξt表示前一時(shí)刻物體姿態(tài)到當(dāng)前時(shí)刻物體姿態(tài)的變化過程。根據(jù)△ξt計(jì)算出最佳相對(duì)變換△ξt+,其滿足前一時(shí)刻物體姿態(tài)到當(dāng)前時(shí)刻物體姿態(tài)的最圓滑、平穩(wěn)變化過程,Δξ*t為
式中,Φ(·)為目標(biāo)物體前一時(shí)刻姿態(tài)和相對(duì)變換姿態(tài)的像素值差異。
對(duì)目標(biāo)姿態(tài)ξ進(jìn)行泰勒展開,式(2)改寫為
式中,J為Φ(·)相對(duì)于ξ的雅各比矩陣。
使用損失函數(shù)對(duì)式(3)計(jì)算損失,相對(duì)變換姿態(tài)為
通過計(jì)算Ot與ξt-1的像素值差異,采用不斷迭代的方式求解出一組相對(duì)變換姿態(tài)△ξt,并計(jì)算出△ξ*t,根據(jù)△ξ*t得出當(dāng)前時(shí)刻的渲染姿態(tài)作為輸出。復(fù)用預(yù)測(cè)網(wǎng)絡(luò)見圖2。
通過訓(xùn)練RPN網(wǎng)絡(luò)可以獲得相對(duì)姿態(tài)變換,該變換用李代數(shù)表示為
式中:se(3)為特殊歐式群的李代數(shù);r與s為解耦后的旋轉(zhuǎn)與平移預(yù)測(cè)分支,采用式(6)的損失函數(shù)進(jìn)行訓(xùn)練。
式中:r、s分別為r、s的均值;λ1和λ2分別為旋轉(zhuǎn)和平移項(xiàng)的相關(guān)系數(shù)。在給定△ξ的前提下,通過計(jì)算獲得目標(biāo)在t時(shí)刻的姿態(tài)為
1.2 通道注意力機(jī)制
在特征編碼器ψA(·)處引入通道注意力機(jī)制,通道注意力機(jī)制模塊結(jié)構(gòu)見圖3,與僅采用殘差網(wǎng)絡(luò)相比,在經(jīng)過通道注意力機(jī)制模塊處理后,網(wǎng)絡(luò)可以獲得更為豐富的特征矩陣,具體實(shí)現(xiàn)方式為
式中:F為通過卷積與池化操作獲得的特征矩陣;σ(·)為Sigmoid激活函數(shù);M為MLP(multi-layerperception)共享網(wǎng)絡(luò);W0和W1為共享網(wǎng)絡(luò)中的參數(shù),W0∈RC/r×C,W1∈RC×C/r。Fcavg和Fcmax分別為對(duì)F進(jìn)行平均池化和最大池化操作獲得的矩陣,將Fcavg和Fcmax作為共享網(wǎng)絡(luò)MLP的輸入,以此獲得通道注意力Mc(F)。
通道注意力機(jī)制模塊在空間維度上對(duì)前一階段傳人的特征圖進(jìn)行壓縮,將特征圖分別經(jīng)過最大池化和平均池化操作,以簡(jiǎn)化網(wǎng)絡(luò)計(jì)算的復(fù)雜度,用于提取主要特征。將池化后的結(jié)果輸入到共享連接層,通過共享連接層的輸出進(jìn)行加和操作,經(jīng)Sigmoid激活函數(shù)得到相應(yīng)的特征圖。MLP可以實(shí)現(xiàn)維度轉(zhuǎn)換,將維度由C1維轉(zhuǎn)換為C2,C2中每個(gè)維度都整合了C1中的信息,采用MLP可以實(shí)現(xiàn)特征轉(zhuǎn)換和信息重組,因此不同維度關(guān)注信息的側(cè)重點(diǎn)不同。此外,由于Sigmoid函數(shù)可以對(duì)一些值進(jìn)行抑制與放大,因此MLP也可以實(shí)現(xiàn)特征提取操作。由上述原理可知,轉(zhuǎn)換后得到的特征圖可以關(guān)注到這張圖中的重要內(nèi)容。
1.3 復(fù)用預(yù)測(cè)模塊
在傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)(DNN) 或卷積神經(jīng)網(wǎng)絡(luò)(CNN) 中,輸入與輸出相對(duì)獨(dú)立,即網(wǎng)絡(luò)輸出結(jié)果只取決于當(dāng)前時(shí)刻的參數(shù)。本文提出的復(fù)用預(yù)測(cè)模塊輸出結(jié)果不僅與當(dāng)前時(shí)刻網(wǎng)絡(luò)參數(shù)有關(guān),還受到前一時(shí)刻的影響。該網(wǎng)絡(luò)模塊的輸出結(jié)果由當(dāng)前時(shí)刻網(wǎng)絡(luò)參數(shù)和前一時(shí)刻的輸出結(jié)果共同決定。
復(fù)用預(yù)測(cè)模塊見圖4。復(fù)用預(yù)測(cè)模塊輸入為特征編碼器(ψA與ψB)的輸出。I為經(jīng)過融合與卷積操作得到的特征矩陣,η為I經(jīng)解耦模塊處理后的旋轉(zhuǎn)矩陣,r為η經(jīng)反卷積處理后的矩陣,維度與J相同。γ為r與I融合后的矩陣,復(fù)用預(yù)測(cè)模塊輸出為特征信息矩陣。
前一階段中,RGB-D圖像和目標(biāo)姿態(tài)的渲染值分別通過2個(gè)特征編碼器ψA與ψB進(jìn)行處理,將其融合為具有特征信息的矩陣,再將該矩陣通過RPM中的解耦模塊求出帶有旋轉(zhuǎn)信息的旋轉(zhuǎn)矩陣η,解耦模塊由1個(gè)卷積層、1個(gè)BN層和1個(gè)激活層組成。
為使旋轉(zhuǎn)矩陣η與特征矩陣I進(jìn)行融合操作,首先對(duì)η進(jìn)行解耦一反卷積處理,矩陣解耦與維度擴(kuò)充見圖5。通過卷積從矩陣I中提取特征,見式(9)。
式中:Hi為輸入特征圖寬度;Ho為輸出特征圖寬度;P為填充數(shù);D為卷積核間距;K為卷積核大?。籗為卷積核步長(zhǎng)。
在提取特征時(shí),當(dāng)前層處理每個(gè)參數(shù)迭代更新,即網(wǎng)絡(luò)上一層的輸出經(jīng)當(dāng)前層網(wǎng)絡(luò)處理后,數(shù)據(jù)分布將發(fā)生變化,影響后續(xù)層的網(wǎng)絡(luò)學(xué)習(xí)。因此,采用批量歸一化的方法解決該問題,表示為
式中:y為批量歸一化的結(jié)果,使輸入數(shù)據(jù)服從相同分布;x為待歸一化的信息;Xmean和xvar分別為x的均值和方差;p為接近0的正極小值,取10-5,用于避免分母為0的情況。采用激活函數(shù)來提高網(wǎng)絡(luò)的非線性處理能力,Selu激活函數(shù)為
2 實(shí)驗(yàn)
2.1 實(shí)驗(yàn)設(shè)計(jì)
(1)數(shù)據(jù)集
訓(xùn)練網(wǎng)絡(luò)采用YCBlnEOAT數(shù)據(jù)集和YCB數(shù)據(jù)集,該數(shù)據(jù)集包含多樣化的機(jī)器人末端執(zhí)行器(真空抓取器、Robotiq 2F-85抓取器和Yale T42Hand等)和操作對(duì)象(Bleach、Cracker、Tomato等),共17組數(shù)據(jù),每組數(shù)據(jù)包括訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)和對(duì)象的CAD模型。實(shí)驗(yàn)數(shù)據(jù)圖像大小為640像素x480像素,分別抽取4 000、6 000、8 000、10000組數(shù)據(jù)進(jìn)行訓(xùn)練,800、1 200、1 600、2 000組數(shù)據(jù)進(jìn)行測(cè)試。
(2)評(píng)價(jià)指標(biāo)
平均距離差異指標(biāo)(average discrepancy ofdistance,ADD)是用于評(píng)價(jià)目標(biāo)6D姿態(tài)估計(jì)的指標(biāo),以確定目標(biāo)的估計(jì)姿態(tài)和真實(shí)姿態(tài)上對(duì)應(yīng)像素點(diǎn)間的平均距離。如果平均距離小于給定的閾值,則認(rèn)為所估計(jì)的6D姿態(tài)是正確的,設(shè)定最大誤差閾值為目標(biāo)物體直徑的10%。平均距離指標(biāo)為
2.2 實(shí)驗(yàn)環(huán)境與設(shè)置
實(shí)驗(yàn)框架采用Pytorch實(shí)現(xiàn),并在此框架下訓(xùn)練和測(cè)試所提出的網(wǎng)絡(luò)模型。操作系統(tǒng)為L(zhǎng)inux 18.04,顯卡選用NVIDIA 3060,顯存容量為12 GB。
訓(xùn)練采用Adam優(yōu)化器對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化。每經(jīng)過100個(gè)周期學(xué)習(xí)率衰減為原來的一半,共訓(xùn)練300個(gè)周期。設(shè)訓(xùn)練批量為100,初始學(xué)習(xí)率為0.001,動(dòng)量設(shè)為0.99,動(dòng)量衰減參數(shù)為1×10-6。采用YCBInEOAT數(shù)據(jù)集和YCB數(shù)據(jù)集訓(xùn)練權(quán)重初始化RPN網(wǎng)絡(luò)。
2.3 實(shí)驗(yàn)結(jié)果
(1)客觀評(píng)價(jià)結(jié)果
復(fù)用預(yù)測(cè)模塊中將旋轉(zhuǎn)矩陣與平移矩陣分別回傳,并與輸入矩陣I(見圖4)融合的實(shí)驗(yàn)結(jié)果見表1。由表1可見,在Bleach數(shù)據(jù)集中,平移矩陣與I融合的評(píng)估結(jié)果優(yōu)于無操作的評(píng)估結(jié)果,但從整體數(shù)據(jù)集來看,平移矩陣與I融合評(píng)價(jià)指標(biāo)提升較小。在Bleach、Cracker和Tomato數(shù)據(jù)集中,旋轉(zhuǎn)矩陣與I融合的效果均優(yōu)于平移矩陣與I融合的評(píng)估結(jié)果,EADD和EADD.S指標(biāo)在不同數(shù)據(jù)集平均得分中分別提升17.85%與26.46%。因此選擇將旋轉(zhuǎn)矩陣與特征矩陣I融合來構(gòu)建復(fù)用預(yù)測(cè)模塊。
表2為本文方法在小數(shù)據(jù)集上采用復(fù)用預(yù)測(cè)模塊與不采用復(fù)用預(yù)測(cè)模塊的實(shí)驗(yàn)結(jié)果對(duì)比。采用RPM比不采用RPM在EADD和EADD.S兩項(xiàng)評(píng)價(jià)指標(biāo)上分別提高9.46%和10.66%,表明復(fù)用預(yù)測(cè)模塊可以顯著提高預(yù)測(cè)目標(biāo)6D姿態(tài)的準(zhǔn)確率。
為檢驗(yàn)引入通道注意力機(jī)制模塊的效果,采用CAM與未使用CAM進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果見表3。引入CAM模塊后在不同數(shù)據(jù)集EADD平均值和EADD.S平均值分別提高4.63%和5.09%。在不同數(shù)據(jù)量的小數(shù)據(jù)集(Bleach)上預(yù)測(cè)RPN方法,與目前追蹤效果較好和追蹤效率較高的se(3)-TrackNet方法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表4??梢娫诓煌瑪?shù)據(jù)量訓(xùn)練的前提下,本文方法的EADD和EADD.S整體上優(yōu)于se(3)-TrackNet方法。雖然本文方法在4 000組數(shù)據(jù)量的EADD評(píng)價(jià)指標(biāo)稍低于se(3)-TrackNet方法,但是本文方法EADD平均值和EADD.S平均值比se(3)-TrackNet方法分別高出30.19%和19.20%,表明本文方法的目標(biāo)追蹤準(zhǔn)確率更高。
采用YCBlnEoat(小數(shù)據(jù)集)訓(xùn)練網(wǎng)絡(luò)時(shí),本文方法與其他方法的實(shí)驗(yàn)結(jié)果對(duì)比見表5。與目標(biāo)6D姿態(tài)估計(jì)方法MaskFusion、“TEASER++”及se(3)_TrackNet相比,本文方法的EADD和EADD-S指標(biāo)更優(yōu)。本文方法采用復(fù)用預(yù)測(cè)模塊處理時(shí)序信息,有效結(jié)合了上一時(shí)刻結(jié)果來強(qiáng)化特征信息.并且增大了有效通道權(quán)重,因此可以獲得更為準(zhǔn)確的目標(biāo)姿態(tài)。
(2)可視化結(jié)果
本文方法和se(3)-TrackNet方法在Cracker數(shù)據(jù)集上進(jìn)行6D姿態(tài)估計(jì)的結(jié)果見圖6。輸入圖像為機(jī)械手臂Yaskawa Motoman SDA10f拾取和移動(dòng)真實(shí)目標(biāo),每一列為一組對(duì)照姿態(tài)追蹤結(jié)果。由第一組姿態(tài)追蹤結(jié)果可見,本文方法與對(duì)比方法姿態(tài)追蹤結(jié)果大致相同。由第二組和第三組的姿態(tài)追蹤結(jié)果可見,本文方法的目標(biāo)姿態(tài)追蹤結(jié)果更接近目標(biāo)。由第四組姿態(tài)追蹤結(jié)果可見,本文方法的目標(biāo)姿態(tài)追蹤結(jié)果與物體真實(shí)姿態(tài)較好地吻合,而對(duì)比方法的目標(biāo)姿態(tài)追蹤結(jié)果偏差較大。由圖6中預(yù)測(cè)部分對(duì)比實(shí)驗(yàn)結(jié)果表明,在小數(shù)據(jù)集下采用復(fù)用預(yù)測(cè)網(wǎng)絡(luò)可以明顯提高目標(biāo)6D姿態(tài)追蹤的準(zhǔn)確率。
在YCBlnEOAT數(shù)據(jù)集的Bleach子數(shù)據(jù)集上進(jìn)行6D姿態(tài)估計(jì)的結(jié)果見圖7。每一列為一組對(duì)照姿態(tài)追蹤結(jié)果。本文方法保持了較好的追蹤結(jié)果,而se(3)-TrackNet方法在第三組中的結(jié)果已偏離目標(biāo)真實(shí)姿態(tài)。第四組中本文方法和對(duì)比方法均出現(xiàn)偏差,但本文方法獲得的追蹤結(jié)果更加接近目標(biāo)真實(shí)姿態(tài)。
2.4 消融實(shí)驗(yàn)
為驗(yàn)證本文方法的有效性,在復(fù)用預(yù)測(cè)網(wǎng)絡(luò)的基礎(chǔ)上,分別采用通道注意力機(jī)制模塊、復(fù)用預(yù)測(cè)模塊進(jìn)行實(shí)驗(yàn),消融結(jié)果見表6。與未采用CAM和RPM相比,僅采用CAM的EADD和EADD-S分別提高1.25%與4.64%;僅采用RPM的6D姿態(tài)追蹤結(jié)果更加準(zhǔn)確,EADD和EADD-S分別提高約20.72%、8.48%;采用CAM與RPM融合的復(fù)用預(yù)測(cè)網(wǎng)絡(luò)RPN,EADD和EADD-S分別提高約23.33%、9.01%,在進(jìn)行剛體姿態(tài)追蹤時(shí)可以獲得更高的準(zhǔn)確率。由實(shí)驗(yàn)結(jié)果可見,在本文給出的多種模塊共同作用下,RPN網(wǎng)絡(luò)模型可以在小數(shù)據(jù)集條件下更好地完成對(duì)視頻序列中物體的6D姿態(tài)追蹤任務(wù)。
3 結(jié)論
(1)提出一種面向剛體6D姿態(tài)實(shí)時(shí)追蹤的復(fù)用預(yù)測(cè)網(wǎng)絡(luò),通過構(gòu)建復(fù)用預(yù)測(cè)網(wǎng)絡(luò)模塊以增強(qiáng)網(wǎng)絡(luò)處理時(shí)序信息的能力,通過引入通道注意力機(jī)制模塊提高了特征信息中重要信息通道權(quán)重比例。
(2)實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法在小數(shù)據(jù)集上的有效性。由于本文方法需要進(jìn)行大量的矩陣解耦和融合操作,網(wǎng)絡(luò)整體訓(xùn)練時(shí)間有所增加。未來工作將側(cè)重于在減少網(wǎng)絡(luò)訓(xùn)練時(shí)間的同時(shí),從解耦和融合的角度保持目標(biāo)姿態(tài)估計(jì)的準(zhǔn)確性。
基金項(xiàng)目:遼寧省教育廳基本科研項(xiàng)目(LJKM220220677)