竇凱云,樊永生,王 濤
1.中北大學(xué)大數(shù)據(jù)學(xué)院,太原 030051 2.中北大學(xué)電氣與控制工程學(xué)院,太原 030051
近年來,人類太空活動(dòng)日漸頻繁,在軌航天器數(shù)量與日俱增。傳統(tǒng)航天器造價(jià)昂貴卻只能一次性使用,因而在軌服務(wù)出現(xiàn),為太空中的航天器提供部件維修、更換等服務(wù)[1]。通過目標(biāo)飛行器相對(duì)于服務(wù)飛行器的位姿估計(jì)推斷目標(biāo)的運(yùn)動(dòng)狀態(tài),是空間在軌服務(wù)的基礎(chǔ)和關(guān)鍵技術(shù)之一。位姿估計(jì)是估計(jì)相機(jī)坐標(biāo)系下目標(biāo)的位置和姿態(tài)。傳統(tǒng)的目標(biāo)位姿估計(jì)方法包括基于特征點(diǎn)的方法、基于模板的方法和基于點(diǎn)云的方法,整體是通過從圖像中提取特征后建立二維像素點(diǎn)與三維位置點(diǎn)的對(duì)應(yīng)關(guān)系來計(jì)算位姿[2]。基于特征的方法是通過提取圖像像素中的局部特征與三維模型上的特征進(jìn)行匹配,建立2D-3D對(duì)應(yīng)(典型的如PnP算法),從而得到位姿信息。它對(duì)于物體之間的遮擋有很好的處理效果,但需要豐富的紋理來計(jì)算局部特征?;谀0宓姆椒ㄊ峭ㄟ^模板匹配得到物體的位姿信息,對(duì)無紋理對(duì)象效果很好,但對(duì)光照和遮擋都很敏感?;邳c(diǎn)云的方法處理對(duì)象是點(diǎn)云數(shù)據(jù),通過求解3D-3D特征點(diǎn)的對(duì)應(yīng)關(guān)系來獲取位姿,對(duì)光照敏感,因此不適用于室外場(chǎng)景。
隨著近年來深度學(xué)習(xí)的發(fā)展,通過卷積神經(jīng)網(wǎng)絡(luò)[3]從圖像中學(xué)習(xí)目標(biāo)的位姿特征提高了目標(biāo)位姿估計(jì)的速度和準(zhǔn)確度[4]。Yu等[5]提出的PoseCNN網(wǎng)絡(luò)可以從RGB圖像中直接回歸得到6D相機(jī)姿態(tài),其將VGG網(wǎng)絡(luò)提取的圖像特征輸入到分割、平移、旋轉(zhuǎn)3個(gè)網(wǎng)絡(luò)分支。其中,分割分支得到每個(gè)像素的類別標(biāo)簽;平移分支通過投票機(jī)制估計(jì)位置信息;旋轉(zhuǎn)分支在RoI Pooling后通過全連接層回歸到四元數(shù)得到目標(biāo)的姿態(tài)信息。Do等[6]提出的Deep-6D pose框架同樣采取了直接回歸的方式,與PoseCNN不同,它的位置分支與姿態(tài)分支全部使用全連接層直接回歸的方式,并且創(chuàng)新性的采取了李代數(shù)表示旋轉(zhuǎn)信息。除了直接回歸以外,Rad等[7]提出的BB8將CNN網(wǎng)絡(luò)獲取的物體三維邊界的頂點(diǎn)投影到二維圖像中,通過PnP算法計(jì)算位姿。Pix2Pose[8]和PVnet[9]等方法同樣是獲取圖像的關(guān)鍵點(diǎn)后建立2D-3D映射關(guān)系,通過PnP方法得到6D位姿。
相比采用關(guān)鍵點(diǎn)進(jìn)行預(yù)測(cè),使用PnP算法計(jì)算位姿,直接回歸能夠以端對(duì)端的方式輸出位姿。本文與直接回歸的位姿估計(jì)方法如Deep-6D pose相比,引入Polarized Self-Attention注意力機(jī)制嵌入到殘差網(wǎng)絡(luò)ResNet-50[10]中,利用其獨(dú)特的極化濾波和HDR機(jī)制,對(duì)圖像中空間目標(biāo)的空間信息通過加權(quán)進(jìn)行了增強(qiáng),提高姿態(tài)估計(jì)的精準(zhǔn)度。同時(shí)借鑒PoseCNN的方法解耦位姿,用2個(gè)分支分別獲取圖像的位置和姿態(tài)信息,但不同于PoseCNN。PoseCNN使用2個(gè)分支用于姿態(tài)回歸,1個(gè)用于位置回歸。在姿態(tài)信息回歸分支上,對(duì)姿態(tài)信息進(jìn)行軟分配編碼,相比于直接回歸能有效減少姿態(tài)誤差。最后在URSO數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,實(shí)現(xiàn)了空間目標(biāo)的端對(duì)端位姿估計(jì)。
空間目標(biāo)的位姿估計(jì)包括位置估計(jì)和姿態(tài)估計(jì),本文采用端對(duì)端的回歸法從圖像數(shù)據(jù)中學(xué)習(xí)空間目標(biāo)的位姿映射關(guān)系以得到位姿數(shù)據(jù)。
對(duì)于給定的輸入圖像,姿態(tài)估計(jì)的任務(wù)是獲取目標(biāo)從物體坐標(biāo)系到相機(jī)坐標(biāo)系的變換,包括三維平移和三維旋轉(zhuǎn)。由于兩者有著不同的度量單位,分別為米和度,因此解耦為2個(gè)網(wǎng)絡(luò)分支分別計(jì)算。如圖1所示,整體網(wǎng)絡(luò)包括3個(gè)階段:
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖
1)主干網(wǎng)絡(luò)。用殘差網(wǎng)絡(luò)ResNet-50提取圖像的深層特征。由于空間目標(biāo)位姿估計(jì)需要深度學(xué)習(xí)網(wǎng)絡(luò)具備較強(qiáng)的空間位置提取能力,將Polarized Self-Attention注意力機(jī)制模塊嵌入殘差塊中,利用其獨(dú)特的極化濾波和HDR機(jī)制,對(duì)圖像中空間目標(biāo)的顯著特征信息通過加權(quán)進(jìn)行了增強(qiáng)。
2)嵌入網(wǎng)絡(luò)。將主干網(wǎng)絡(luò)輸出的二維特征圖輸入到可調(diào)節(jié)通道數(shù)的3×3卷積核進(jìn)行二維卷積,步長(zhǎng)為2,從而降低輸出維度,進(jìn)行降維卷積處理,最終將特征圖經(jīng)過拉平成一維數(shù)組,為后面全連接層的運(yùn)算極大地減少了參數(shù)量,從而降低了訓(xùn)練時(shí)間。
3)分支網(wǎng)絡(luò)。通過前兩階段生成的圖像特征通過2個(gè)分支分別輸出位置信息和姿態(tài)信息。其中,采取了兩層全連接層結(jié)構(gòu)以直接回歸方式輸出三維信息。第一個(gè)全連接層用于將拉平后的特征圖信息再進(jìn)行降維操作,壓縮至1024個(gè)維度,經(jīng)過ReLU激活函數(shù)后,再將該層輸出數(shù)據(jù)輸入到下一個(gè)全連接層,最終輸出為三維數(shù)據(jù),直接對(duì)應(yīng)所求的三維坐標(biāo)信息x,y和z。
姿態(tài)分支基于軟分配編碼實(shí)現(xiàn),輸出四元數(shù)的姿態(tài)信息[11]。其中的核心思想是將姿態(tài)四元數(shù)按照高斯分布模型進(jìn)行編碼,轉(zhuǎn)換為姿態(tài)離散空間中的概率質(zhì)量函數(shù)值,因此該分支結(jié)構(gòu)針對(duì)概率質(zhì)量函數(shù)進(jìn)行學(xué)習(xí)。最終可將網(wǎng)絡(luò)輸出的包含概率質(zhì)量函數(shù)的三維矩陣解碼,得到估計(jì)出的位姿四元數(shù)值。
在空間目標(biāo)的位姿估計(jì)中,空間位置提取能力對(duì)結(jié)果精準(zhǔn)度有很大影響。對(duì)于包含空間目標(biāo)的整張圖像,空間目標(biāo)只占其中有限的一部分,其余的是太空背景和地球背景,占據(jù)了不小的面積。在深度學(xué)習(xí)過程中,這些背景信息由于參與了卷積等計(jì)算,產(chǎn)生了冗余信息,對(duì)空間目標(biāo)的識(shí)別、定位和位姿估計(jì)均產(chǎn)生了干擾。因此,在深度學(xué)習(xí)過程中,針對(duì)性地提高空間信息的權(quán)重,降低不必要的干擾至關(guān)重要。為了實(shí)現(xiàn)空間目標(biāo)的精準(zhǔn)位姿估計(jì),減少背景信息的干擾,本文將PSA(Polarized Self-Attention)注意力機(jī)制模塊嵌入到殘差塊中以解決該問題。
Polarized Self-Attention[12]由南京理工大學(xué)和卡內(nèi)基梅隆大學(xué)于2021年聯(lián)合提出,是一種基于像素級(jí)回歸的雙注意力機(jī)制。它有2個(gè)特點(diǎn):
1)極化濾波:大多數(shù)的像素級(jí)回歸為了魯棒性和計(jì)算效率而輸出低分辨率的特征,高度非線性的物體邊緣部分會(huì)因此損失很多分辨率特征。而Proenca等[13]的研究表明,位姿估計(jì)對(duì)圖像分辨率的敏感度很高。PSA的極化濾波機(jī)制是使一個(gè)維度的特征完全折疊,其正交方向的維度保持高分辨率。如通道維度特征折疊,則空間維度特征保持高分辨率。因此,對(duì)于空間目標(biāo)的位姿估計(jì)的精準(zhǔn)度有一定的幫助。
2)High Dynamic Range(HDR):對(duì)注意力模塊中最小的特征張量進(jìn)行softmax歸一化以擴(kuò)寬注意力范圍,進(jìn)行信息增強(qiáng),然后使用sigmoid函數(shù)進(jìn)行投影映射。
PSA注意力模塊分為通道分支和空間分支,在計(jì)算完成后通過串聯(lián)進(jìn)行融合。
PSA注意力模塊中通道分支的權(quán)重計(jì)算公式為:
Ach(X)=FSG[Wz|θ1(Wv(X))×FSM(σ2(Wq(X)))]
(1)
其中:Ach(X)∈RC×q×1,FSM表示softmax函數(shù),FSG表示sigmoid函數(shù),W表示不同的卷積操作,σ表示不同的降維操作,×表示矩陣點(diǎn)積運(yùn)算。
通道分支先通過卷積操作Wv把通道數(shù)壓縮為一半,然后將其由二維特征圖降為一維,與壓縮全部通道的空間特征信息點(diǎn)積后,通過卷積Wz恢復(fù)通道數(shù),最后經(jīng)Sigmoid歸一化,把不同通道的權(quán)重加權(quán)到原來的特征上。另外,壓縮全部通道的空間信息還通過FSM函數(shù)進(jìn)行了一次信息增強(qiáng)。
空間分支的權(quán)重計(jì)算公式為:
Asp(X)=FSG[σ3(FSM(σ1(FGP(Wq(X))))×
σ2(Wv(X)))]
(2)
其中:Asp(X)∈R1×H×W,Wv和Wq為卷積操作,σ1和σ2為降維操作,σ3為升維操作,FSG、FSM、FGP分別為sigmoid函數(shù)、softmax函數(shù)和全局池化。
空間分支與通道分支不同之處有2點(diǎn):1)壓縮全部空間的通道信息,經(jīng)過了卷積、全局池化、降維和softmax函數(shù)回歸;2)點(diǎn)積后沒有再一次的卷積操作,而是直接通過σ3恢復(fù)維度。
可見,PSA同時(shí)在空間和通道維度上保持了高分辨率,并且利用softmax對(duì)瓶頸張量進(jìn)行了非線性激活。調(diào)整權(quán)重,即賦予重要特征信息更大權(quán)重,有助于增強(qiáng)圖像空間通道的顯著特征,更精準(zhǔn)地定位空間目標(biāo)在圖像中的位置。
因此,本節(jié)在主干網(wǎng)絡(luò)ResNet-50的殘差塊的BN層前加入PSA注意力機(jī)制模塊,使網(wǎng)絡(luò)更好地注意到圖像中空間目標(biāo)的空間信息,同時(shí)盡可能減少圖像復(fù)雜背景的干擾。
姿態(tài)信息進(jìn)行軟分配編碼[13]:首先為每個(gè)姿態(tài)角劃分24個(gè)區(qū)間,進(jìn)而可以得到13824個(gè)姿態(tài)信息離散點(diǎn),并可以近似地一一對(duì)應(yīng)空間中任意一個(gè)姿態(tài)旋轉(zhuǎn)矩陣,用集合Q={b1,…,bN}來表示。其中,bi為用四元數(shù)形式表示的第i個(gè)姿態(tài)。然后對(duì)每個(gè)姿態(tài)信息bi按照下式進(jìn)行軟分配編碼:
(3)
其中:K(x,y)為核函數(shù),利用歸一化的姿態(tài)軸角偏差表示2個(gè)四元數(shù)x和y之間的相對(duì)誤差為:
(4)
(5)
其中:方差σ2表示量化誤差;Δ/M表示量化步驟;Δ為平滑項(xiàng);M為三個(gè)姿態(tài)角各自劃分的區(qū)間數(shù)目。
對(duì)網(wǎng)絡(luò)輸出的概率質(zhì)量函數(shù)進(jìn)行解碼,即可得到估計(jì)的位姿四元數(shù)。網(wǎng)絡(luò)輸出的概率質(zhì)量函數(shù)可用集合{w1,…,wN}表示。然后估計(jì)出的四元數(shù)為:
(6)
其中:N為姿態(tài)離散空間的離散點(diǎn)數(shù)目。
另外,在回歸的過程中,使用如下的損失函數(shù)來保證四元數(shù)的歸一化:
(7)
如圖1中右下的姿態(tài)分支網(wǎng)絡(luò)結(jié)構(gòu)所示。同樣的,姿態(tài)分類分支與位置回歸分支的第1層結(jié)構(gòu)仍然大體相同,為全連接層,區(qū)別在于第2全連接層之后的部分。第2層所輸出的維度為M×M×M維的,經(jīng)過ReLU激活函數(shù)以及softmax分類,從而得到估計(jì)出的M×M×M維概率質(zhì)量函數(shù)矩陣,到此網(wǎng)絡(luò)完成訓(xùn)練部分。接下來是解碼該矩陣,進(jìn)而得到輸出的四元數(shù)姿態(tài)信息。
由于位置分支和姿態(tài)分支采取不同的回歸方法,因此采取不同的損失函數(shù)。
位置分支使用相對(duì)誤差形式而不是歐式距離。這是由于空間目標(biāo)數(shù)據(jù)集的z軸范圍是10 m到20 m,當(dāng)目標(biāo)的z軸距離偏大時(shí),導(dǎo)致歐式距離即估計(jì)位置與實(shí)際位置的幾何距離非常大,從而在小批量訓(xùn)練中加大了對(duì)遠(yuǎn)距離目標(biāo)圖像學(xué)習(xí)的位置損失函數(shù)的權(quán)重,最終使網(wǎng)絡(luò)對(duì)近距離目標(biāo)位置的估計(jì)能力下降。位置損失函數(shù)定義如下:
(8)
姿態(tài)信息的損失函數(shù)可由標(biāo)簽信息編碼后的正態(tài)分布離散函數(shù)值與輸出信息的概率質(zhì)量分布的交叉熵計(jì)算得到,交叉熵計(jì)算如下:
(9)
其中:x為離散空間中的一個(gè)四元數(shù),Q={x1,…,xM3}為在離散空間上的四元數(shù)集合,p(x)為網(wǎng)絡(luò)對(duì)x的概率質(zhì)量函數(shù)值,q(x)為由標(biāo)簽值編碼后的概率質(zhì)量函數(shù)對(duì)x的值。
用于空間目標(biāo)的識(shí)別、定位和位姿估計(jì)等的URSO數(shù)據(jù)集[13]基于虛幻引擎4(Unreal Engine 4)構(gòu)建,用于渲染繞地球運(yùn)行的航天器的高清圖像。USRO數(shù)據(jù)集是從近地球軌道高度在地球上隨機(jī)取5000個(gè)視點(diǎn),空間目標(biāo)隨機(jī)在攝像機(jī)觀察范圍10~20 m之間。其中,地球的自轉(zhuǎn)、相機(jī)方法和空間目標(biāo)的姿態(tài)都是隨機(jī)生成的。數(shù)據(jù)集分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,后兩者分別使用5000張圖像中的10%,圖像的分辨率大小為1280×960。圖2為部分展示。
圖2 URSO數(shù)據(jù)集(部分)
評(píng)價(jià)指標(biāo)是用來反映模型潛在的問題和評(píng)價(jià)模型性能優(yōu)劣的定量指標(biāo)。常規(guī)的是對(duì)各類物體位姿估計(jì),本文是對(duì)一類物體即空間目標(biāo)估計(jì),因此采用歐空局針對(duì)空間目標(biāo)提出的一套位姿估計(jì)評(píng)價(jià)方法[14],分別計(jì)算位置和姿態(tài)誤差。
位置誤差的計(jì)算公式如下:
(10)
姿態(tài)誤差的計(jì)算公式如下:
(11)
空間目標(biāo)圖像的位姿估計(jì)的總誤差即為位置誤差和姿態(tài)誤差的總和,所有空間目標(biāo)位姿估計(jì)的平均位姿誤差為總和除以圖像數(shù)量。
URSO數(shù)據(jù)集中包含復(fù)雜的太空背景和地球背景,有些航天器被淹沒在地球背景中。本文提出的空間目標(biāo)深度學(xué)習(xí)位姿估計(jì),即使在復(fù)雜的地球背景下仍能夠獲得魯棒的估計(jì)結(jié)果?;赨RSO數(shù)據(jù)集測(cè)試本文算法,數(shù)據(jù)訓(xùn)練180次,前100次學(xué)習(xí)率為0.001,后80次為0.0001。在相機(jī)坐標(biāo)系下,根據(jù)2.2節(jié)評(píng)價(jià)指標(biāo),測(cè)試集的位置誤差為0.85 m,姿態(tài)誤差為9.7°。如圖3和圖4所示,隨著迭代次數(shù)增加,位置和姿態(tài)誤差趨于穩(wěn)定。
圖3 位置迭代誤差圖
圖4 姿態(tài)迭代誤差圖
圖5給出了利用USRO數(shù)據(jù)集對(duì)本算法進(jìn)行測(cè)試的可視化結(jié)果。在空間目標(biāo)圖像中,為了進(jìn)行可視化,將姿態(tài)信息的四元轉(zhuǎn)換為方向余弦矩陣后,結(jié)合相機(jī)參數(shù)映射到空間目標(biāo)圖像中,紅、藍(lán)、綠三個(gè)箭頭分別表示航天器的俯仰角、滾轉(zhuǎn)角和偏航角,而三個(gè)箭頭的交匯處即為空間目標(biāo)的位置。
圖5 基于URSO數(shù)據(jù)集的測(cè)試結(jié)果
圖5中的空間目標(biāo)圖像在對(duì)小數(shù)點(diǎn)后3位四舍五入后,實(shí)際位置信息和姿態(tài)信息分別為[-0.601,3.455,17.287]和[0.147,0.408,0.452,0.779],而估計(jì)值分別為[-0.723,3.163,16.051]和[0.134,0.379,0.476,0.782],根據(jù)2.2提出的評(píng)價(jià)指標(biāo)計(jì)算誤差,位置信息的平均絕對(duì)誤差約為0.95 m,姿態(tài)信息的角度誤差約為4.53°。其中,圖5(a)為位置可視化圖,兩個(gè)斑點(diǎn)分別表示真實(shí)位置和預(yù)測(cè)位置。圖5(b)展示了姿態(tài)信息在歐拉角的極坐標(biāo)圖形式下的預(yù)測(cè)誤差,兩條虛線分別表示真實(shí)和預(yù)測(cè)角度信息。圖5(c)為姿態(tài)直觀可視化圖像。由此可見,本文所提算法具有一定的精準(zhǔn)度。
為了驗(yàn)證PSA注意力機(jī)制對(duì)于空間目標(biāo)圖像位姿估計(jì)精度提升的有效性,在URSO數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),如表1所示。分析表1結(jié)果,對(duì)比可見,引入Polarized Self-Attention注意力機(jī)制可使得圖像位姿估計(jì)位置誤差精度從1.1 m提升到0.85 m,姿態(tài)誤差精度從10.9°提升到9.7°,表明引入注意力機(jī)制可以增加算法對(duì)圖像中重要特征信息的篩選能力,通過權(quán)重提升有效增強(qiáng)了算法在空間上的特征表達(dá)能力,有效提升了模型的估計(jì)精度。
表1 消融實(shí)驗(yàn)結(jié)果
此外,為了充分評(píng)估本文設(shè)計(jì)的位姿估計(jì)算法,驗(yàn)證其對(duì)空間目標(biāo)位置和姿態(tài)估計(jì)的精準(zhǔn)度,本文與直接回歸的空間目標(biāo)位姿估計(jì)算法Deep-6DPose進(jìn)行了對(duì)比。從表2可以得出,誤差估計(jì)和姿態(tài)估計(jì)的精度均有提升。
表2 不同算法模型在URSO數(shù)據(jù)集上的對(duì)比
設(shè)計(jì)了一種基于深度卷積殘差網(wǎng)絡(luò)的方法用于空間目標(biāo)的位姿估計(jì),引入了Polarized Self-Attention注意力機(jī)制,實(shí)現(xiàn)了空間目標(biāo)圖像對(duì)空間信息的加權(quán),另外采取軟分配編碼取代姿態(tài)信息直接回歸,有效且有一定精準(zhǔn)度地實(shí)現(xiàn)了空間目標(biāo)端對(duì)端的位姿估計(jì)。