国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合多尺度特征的復(fù)雜手勢姿態(tài)估計網(wǎng)絡(luò)

2023-09-26 04:22:16賈迪李宇揚(yáng)安彤趙金源
中國圖象圖形學(xué)報 2023年9期
關(guān)鍵詞:關(guān)節(jié)點(diǎn)手勢手部

賈迪,李宇揚(yáng),安彤,趙金源

1.遼寧工程技術(shù)大學(xué)電子與信息工程學(xué)院,葫蘆島 125105;2.遼寧工程技術(shù)大學(xué)電氣與控制工程學(xué)院,葫蘆島 125105

0 引言

手勢估計(鮑文霞 等,2019;王銀 等,2021)的目標(biāo)是對圖像中人手的關(guān)鍵點(diǎn)進(jìn)行識別和定位,在虛擬現(xiàn)實(shí)(virtual reality,VR)和增強(qiáng)現(xiàn)實(shí)(augmented reality,AR)中有著廣泛應(yīng)用,是計算機(jī)視覺領(lǐng)域的一個重要研究課題。與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的方法在處理速度和預(yù)測精度上都有明顯優(yōu)勢,然而受攝影環(huán)境復(fù)雜與多樣性(手形、遮擋等)的影響,導(dǎo)致手勢估計的魯棒性不高。

多數(shù)方法依賴于深度相機(jī),如Tompson 等人(2014)首先利用深度神經(jīng)網(wǎng)絡(luò)估計每個手部關(guān)節(jié)的二維熱圖來定位手部關(guān)鍵點(diǎn),但熱圖僅提供了關(guān)節(jié)點(diǎn)二維信息,并沒有充分利用深度信息,而深度信息包含了空間中各點(diǎn)相對于相機(jī)的距離,這對三維手勢估計有重要作用。Chen 等人(2020b)先利用最初估計的手勢作為引導(dǎo)信息提取有效關(guān)節(jié)特征,再融合同一手指的關(guān)節(jié)特征形成手指特征;最后通過融合手指特征回歸出手勢。但相較于只連接中指和手掌的方法(Fan 等人,2021),采用多手指同時連接手掌的方法會造成一定精度的損失。Liu 等人(2020)對不同空間視角的二維平面進(jìn)行手勢估計,每個路徑從分解后不同的空間進(jìn)行潛在熱圖回歸,通過融合網(wǎng)絡(luò)獲得最終的預(yù)測結(jié)果。Zhang 等人(2021b)充分利用了手指相鄰關(guān)節(jié)間的信息估計深度坐標(biāo),利用二維手部關(guān)節(jié)估計和一部分手部關(guān)節(jié)的深度估計作為引導(dǎo)信息,借助引導(dǎo)信息可以估計相鄰關(guān)節(jié)的深度坐標(biāo),進(jìn)而得到所有手部關(guān)節(jié)的深度坐標(biāo)。

深度相機(jī)的使用常受限于應(yīng)用環(huán)境,因此一些學(xué)者采用直接從RGB 圖像上估計手部姿態(tài)。Zimmermann 和Brox(2017)提出一種深度神經(jīng)網(wǎng)絡(luò),從數(shù)據(jù)中學(xué)習(xí)相關(guān)潛在信息預(yù)測隱式手部關(guān)節(jié)。由于缺少真實(shí)圖像與不同姿態(tài)大規(guī)模數(shù)據(jù)集的標(biāo)注,降低了該模型識別手部姿態(tài)的準(zhǔn)確性。Simon 等人(2017)從多視圖圖像中估計二維手部姿態(tài),并將其擴(kuò)展到三維空間中,但不能通過單幅RGB 圖像(Mueller 等,2018)估計手部姿態(tài)。Cai 等人(2018)通過深度正則化器將RGB 圖像估計的手勢轉(zhuǎn)化為深度圖,再通過深度圖對手勢回歸進(jìn)行弱監(jiān)督,有效解決了獲取真實(shí)三維標(biāo)注的問題,但嚴(yán)重依賴RGB和深度圖像配對的準(zhǔn)確性。Panteleris 等人(2018)采用深度學(xué)習(xí)模型解決二維手部檢測和關(guān)節(jié)點(diǎn)定位問題,再使用生成模型擬合為非線性最小二乘優(yōu)化問題來獲得手部姿態(tài)。Iqbal 等人(2018)通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)架構(gòu)隱式重構(gòu)了深度圖和2.5D熱圖,并從中估計出三維手關(guān)鍵點(diǎn)坐標(biāo),但在深度圖像中存在嚴(yán)重自遮擋的情況,因此難以獲得準(zhǔn)確的結(jié)果。Spurr 等人(2018)采用RGB 圖像訓(xùn)練編碼器—解碼器對,以不同的輸入方式估計完整的三維手部姿態(tài),由于沒有充分利用手部結(jié)構(gòu),丟失了大量的手部結(jié)構(gòu)信息。Yang 和Yao(2019)通過解糾纏變分編碼器學(xué)習(xí)手部姿勢和手部圖像來實(shí)現(xiàn)圖像的合成和姿勢估計,但分解過程可能損失一些有助于生成有用數(shù)據(jù)的信息。Ge等人(2019)引入圖卷積網(wǎng)絡(luò)估計三維手部網(wǎng)格從而回歸手部姿態(tài),但是現(xiàn)有數(shù)據(jù)集中,真實(shí)三維手部網(wǎng)格難以獲得。Baek 等人(2020)采用神經(jīng)渲染器實(shí)現(xiàn)了從RGB 圖像中估計手勢姿態(tài),先估計二維關(guān)節(jié)點(diǎn)和三維網(wǎng)格模型參數(shù),再采用二維分割掩膜和基本骨架來擬合三維模型。Chen 等人(2020a)采用條件生成對抗網(wǎng)絡(luò)構(gòu)成深度映射重構(gòu)模塊,以此生成彩色圖像的偽真實(shí)深度圖像,并將配對后的彩色圖像和偽真實(shí)深度圖像作為手部姿態(tài)估計模塊的輸入,雖然避免了輸入真實(shí)深度圖像,但在偽真實(shí)深度圖像和真實(shí)深度圖像之間仍然存在差距,導(dǎo)致估計精度較低。Kong 等人(2020)利用旋轉(zhuǎn)網(wǎng)絡(luò)獲得旋轉(zhuǎn)角度,通過旋轉(zhuǎn)角度對圖像進(jìn)行旋轉(zhuǎn),同時進(jìn)行后期的手勢姿態(tài)估計,在有遮擋的情況下也能緩解手部關(guān)節(jié)點(diǎn)間的幾何不一致性。Moon 等人(2020)提出一個包含大尺度高分辨率的單手和交互手序列的數(shù)據(jù)集,并提出一種InterNet 模型通過單幅RGB 圖像估計手勢姿態(tài),但由于沒有考慮到手指邊緣的局部細(xì)節(jié)信息,因此在有遮擋手勢的情況下,結(jié)果準(zhǔn)確率較低。Chen 等人(2021)從RGB 圖像中獲取二維姿態(tài)、形狀和紋理等幾何信息,并利用二維和三維間的一致性,從有噪聲的幾何信息中獲取精確的手部重建模型。Zhang等人(2021a)先采用兩層沙漏網(wǎng)絡(luò)獲取圖像特征圖和21 個關(guān)節(jié)點(diǎn)熱圖,再通過Res2d模塊更新初始關(guān)節(jié)點(diǎn)位置,提高模型泛化能力,最后通過編碼解碼的方式從二維坐標(biāo)獲取三維坐標(biāo)。Ishii等人(2021)通過多個并行的圖卷積網(wǎng)絡(luò)估計不同方向的三維姿態(tài),再融合多個方向的姿態(tài)獲取估計的三維姿態(tài)。在現(xiàn)實(shí)場景中,只有小部分手勢是簡單的單手姿態(tài),大部分手勢都是復(fù)雜的交互手姿態(tài),降低了上述方法的實(shí)用性。

邊緣信息在手姿態(tài)估計中易被忽略,這類信息對于提取遮擋部分的手勢姿態(tài)更重要。此外,由于指尖較小,因此在指尖識別關(guān)節(jié)相對困難。為了解決該問題,提出一種多尺度特征融合網(wǎng)絡(luò)(multiscale feature fusion network,MS-FF),用于構(gòu)建包含豐富細(xì)節(jié)和全局信息的特征圖,以此提高手勢估計結(jié)果的魯棒性。本文主要貢獻(xiàn)如下:1)提出一種多尺度特征融合網(wǎng)絡(luò)模型,能夠更好地處理不易識別的關(guān)節(jié)點(diǎn)和解決遮擋場景中手勢識別不準(zhǔn)確的問題。2)不同特征通道包含不同的隱式信息,有些特征通道信息中包含了更多的關(guān)節(jié)點(diǎn)位置信息,而其他特征通道信息含有干擾信息。因此,本文設(shè)計了通道變換模塊,用于調(diào)整特征通道的比重,增強(qiáng)重要特征通道信息,弱化次要特征通道信息,以便全局回歸模塊和局部優(yōu)化模塊可以更好地利用特征圖的信息,從而加快收斂速度。3)指尖在圖像中為小區(qū)域,相對其他關(guān)節(jié)點(diǎn)更加難以識別。為了更好地識別指尖關(guān)節(jié)點(diǎn)的位置,本文通過構(gòu)建全局回歸模塊獲得包含豐富全局信息的高分辨率特征圖,這些信息可以幫助更精確定位這些關(guān)節(jié)點(diǎn)的位置。該模塊融合不同分辨率的特征圖,較好地利用了圖像邊緣細(xì)節(jié)與全局信息。4)全局回歸模塊可能無法準(zhǔn)確識別遮擋環(huán)境中的手勢姿態(tài)。本文采用局部優(yōu)化模塊從全局回歸模塊獲得的特征圖中挖掘潛在信息,再融合全局回歸模塊中所有層級的特征圖,對部分沒有回歸到正確位置的關(guān)節(jié)點(diǎn)進(jìn)行適當(dāng)修正,從而能更好地處理遮擋問題。

1 本文方法

1.1 網(wǎng)絡(luò)總體架構(gòu)

手勢圖像通常包含復(fù)雜的細(xì)節(jié)特征,手指間與關(guān)節(jié)間具有較強(qiáng)的關(guān)聯(lián)性,因此僅使用單一特征進(jìn)行手勢估計往往會忽視多樣化特征,導(dǎo)致難以準(zhǔn)確提取到更多的手勢信息。本文提出的多尺度特征融合網(wǎng)絡(luò)如圖1 所示,目的是通過單幅RGB 圖像進(jìn)行手勢估計。首先,通過ResNet50(50-layer residual network)模塊從RGB 圖像中提取不同分辨率下的特征圖。其次,將該特征圖輸入到通道變換模塊中,顯式地學(xué)習(xí)特征通道間的依賴關(guān)系,即增強(qiáng)相對重要的特征通道信息,弱化次要信息。由于不同分辨率的特征圖包含不同程度的特征信息,因此通過全局回歸模塊可以獲得包含更多的全局信息的高分辨率特征圖,并將結(jié)果分別輸入到局部優(yōu)化模塊中,提取特征圖更深層次的特征信息,獲得手部關(guān)節(jié)點(diǎn)的高斯熱圖(HQ),提高模型的空間泛化能力。該熱圖的維度為64 × 64像素,目的是從更大的空間上獲取關(guān)節(jié)點(diǎn)可能存在的位置,從而獲得更精確的關(guān)節(jié)點(diǎn)位置。最后,取出通道變換模塊處理的最小尺寸特征圖,獲得手勢類別(hQ)及腕關(guān)節(jié)間相對深度信息(zR→L),綜合上述結(jié)果共同估計手勢姿態(tài)。即

圖1 多尺度特征融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of multiscale feature fusion network

式中,To表示MS-FF 方法,In表示輸入的圖像信息。手勢估計的結(jié)果為

式中,Π和t-1分別表示相機(jī)逆投影和逆仿射變換。

1.2 通道變換模塊

特征圖中每個特征通道包含不同特征信息,對于能更好地表征關(guān)節(jié)點(diǎn)信息的特征通道應(yīng)賦予更高權(quán)重。為了更好地利用不同特征通道的特征信息,對特征圖通道之間的關(guān)系進(jìn)行顯式建模,學(xué)習(xí)每個特征通道的權(quán)重并進(jìn)行特征重標(biāo)定,依照權(quán)重大小增強(qiáng)有效特征通道信息,以此提高網(wǎng)絡(luò)模型對重要特征信息的敏感性,結(jié)構(gòu)設(shè)計如圖2所示。

圖2 通道變換模塊結(jié)構(gòu)Fig.2 Structure of channel conversion module

平均池化可以獲取空間聚合信息,最大池化可用于提取每個特征通道最敏感的信息。因此本文對每個特征通道的特征矩陣采用最大池化和平均池化相結(jié)合的方式獲得更加豐富的描述信息。首先,將初始特征圖u分別以平均池化和最大池化的方式獲得特征通道描述符,該信息通過全連接層學(xué)習(xí)特征通道間的依賴關(guān)系。然后,經(jīng)sigmoid 激活函數(shù)生成權(quán)重向量,以此表征每個特征通道的重要程度。最后,將權(quán)重向量與原特征圖相乘得到重新分配權(quán)重后的特征圖,該特征圖可以增強(qiáng)重要信息并弱化次要的信息。權(quán)重向量的計算過程為

式中,Ma表示對特征圖進(jìn)行最大池化操作,Av表示對特征圖進(jìn)行平均池化操作,Ml由兩個全連接層組成,用以獲取特征通道間的依賴關(guān)系,φ為sigmoid激活函數(shù),對特征圖的通道信息進(jìn)行重新標(biāo)定。具體為

1.3 全局回歸模塊

ResNet50 模塊會產(chǎn)生不同分辨率特征圖,其中高分辨率下的低層特征圖包含全局信息較少,但空間細(xì)節(jié)信息豐富;低分辨率的高層特征圖擁有豐富的全局信息,但空間細(xì)節(jié)信息較少。為充分利用不同維度的特征信息,將低分辨率特征圖與高分辨率特征圖通過縱向與橫向路徑結(jié)合。在縱向路徑上,將低分辨率的高層特征圖通過上采樣的方式構(gòu)造高分辨率特征圖,該特征圖具有豐富的全局信息,再將低層特征圖通過1 × 1 卷積處理,減少特征通道數(shù),以此獲得與之對應(yīng)縱向路徑下同維度的特征圖。橫向路徑融合上述兩個特征圖,得到所需的融合特征圖,結(jié)構(gòu)如圖3 所示。這種金字塔式結(jié)構(gòu)可以融合不同分辨率下的特征圖,以此包含更多的全局信息,使網(wǎng)絡(luò)學(xué)習(xí)到更加豐富的特征信息。

圖3 全局回歸模塊結(jié)構(gòu)Fig.3 Structure of global regression module

圖3 中,令ResNet50 模塊和通道變換模塊得到的特征圖Conv2—Conv5 表示為{C2,C3,C4,C5}。其中,C2與C3具有更大的空間分辨率,但包含的深層特征信息較少;C4和C5具有更多的深層特征信息,但空間分辨率較低。融合不同特征圖不僅能獲取豐富的手部特征信息,還能獲得像指尖部分和遮擋邊緣部分的細(xì)節(jié)信息。對不同維度的特征圖進(jìn)行降維操作,將特征圖的通道統(tǒng)一到同一維度下,以便融合它們的特征信息。具體為

式中,Vk為降維過程得到的特征圖,Uk為上采樣操作得到的特征圖,R1為卷積核大小為1 × 1的卷積操作,δ為ReLU(rectified liner unit)激活函數(shù),B為雙線性插值的上采樣操作。通過4 個周圍已知像素的坐標(biāo)點(diǎn)計算新圖像中對應(yīng)的點(diǎn)P,其計算式為

式(7)(8)是在x方向上進(jìn)行線性插值操作,式(9)是在y方向上進(jìn)行線性插值操作。e1和e2是Q11、Q12和Q12、Q22分別在x方向上進(jìn)行線性插值后得到的兩個點(diǎn)。Q11、Q12、Q21和Q22分別為原圖像中的4個 點(diǎn),其坐標(biāo)分別為(x1,y1)、(x1,y2)、(x2,y1) 和(x2,y2),P點(diǎn)是經(jīng)過上采樣操作得到的點(diǎn)。將Vk和Uk+1進(jìn)行加法操作,即可融合不同空間分辨率下的特征信息,即

1.4 局部優(yōu)化模塊

為減少全局回歸模塊產(chǎn)生的誤差,通過局部優(yōu)化模塊修正遮擋等條件下預(yù)測關(guān)節(jié)點(diǎn)位置不準(zhǔn)確的問題。該模塊在不同層次的特征圖上提取特征,并通過上采樣與拼接操作整合不同的層次信息。如圖4 所示,局部優(yōu)化模塊通過兩條路徑處理上述特征圖,其中一條路徑包含1 × 1 的卷積,另一條路徑分別由1 × 1、3 × 3 和1 × 1 的卷積組成。通過該路徑繼續(xù)提取全局信息,并采用通道變換模塊構(gòu)建特征通道間依賴關(guān)系,增強(qiáng)重要的信息并弱化次要信息,通過殘差連接解決網(wǎng)絡(luò)退化問題,提高網(wǎng)絡(luò)的表征能力,采用雙線性插值的上采樣操作獲得大分辨率特征圖。

圖4 局部優(yōu)化模塊結(jié)構(gòu)Fig.4 Structure of local optimization module

從全局回歸模塊中取出4 個不同分辨率的特征圖,通過局部優(yōu)化模塊獲得相同維度特征圖,過程為

式中,O為局部優(yōu)化模塊,B為上采樣操作。令m=2,4,8,16,則I1/4,I1/8,I1/16和I1/32分別表示在原始圖像1/4、1/8、1/16 和1/32 尺度下的特征圖。式(12)的計算結(jié)果表示上述4 個特征圖經(jīng)局部優(yōu)化模塊的處理次數(shù),得到的結(jié)果分別為和此時4個特征圖具有相同維度,再進(jìn)行拼接操作(Cas),過程為

通過1 × 1卷積得到關(guān)節(jié)點(diǎn)的2.5D高斯熱圖為

式中,R1表示卷積核大小為1 × 1的卷積操作。

2 實(shí) 驗(yàn)

2.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)采用的CPU 型號為Intel Core i9-10900,內(nèi)存32 GB,顯卡型號為NVIDIA 3090,操作系統(tǒng)為Ubuntu,開發(fā)框架選用PyTorch。

2.2 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)在RHD(rendered handpose dataset)和Inter-Hand2.6M 數(shù)據(jù)集中進(jìn)行。RHD 數(shù)據(jù)集包含不同視角和背景下合成的39 個手部動作,由41 258 幅訓(xùn)練圖像和2 728幅測試圖像構(gòu)成。InterHand2.6M 是一個大規(guī)模真實(shí)數(shù)據(jù)集,由單手和交互手序列的手部姿態(tài)構(gòu)成,采用人工和機(jī)器兩種標(biāo)注方式,將Inter-Hand2.6M 分為InterHand2.6M(H)、InterHand2.6M(M)和InterHand2.6M(H+M)。InterHand2.6M(H)包含528 482 幅訓(xùn)練圖像和121 573 幅測試圖像,InterHand2.6M(M)包含909 037 幅訓(xùn)練圖像和727 587 幅測試圖像,InterHand2.6M(H+M)包含1 361 062 幅訓(xùn)練圖像和849 160 幅測試圖像,測試集包含380 125幅驗(yàn)證圖像。

2.3 評價指標(biāo)

本文將手勢類別分為左手手勢、右手手勢以及交互手手勢。采用手勢類別準(zhǔn)確率(average precision of handedness estimation,APh)、根節(jié)點(diǎn)平均誤差(mean relative-root position error,MRRPE)和關(guān)節(jié)點(diǎn)平均誤差(mean per joint position error,MPJPE)3 種評估指標(biāo)評估手勢預(yù)測結(jié)果。具體為

式中,m為將手勢類別預(yù)測正確的圖像數(shù)量,n為所有手勢圖數(shù)量為真實(shí)右手相對左手的深度,表示預(yù)測的關(guān)節(jié)點(diǎn)位置,p表示真實(shí)關(guān)節(jié)點(diǎn)位置。

2.4 實(shí)驗(yàn)設(shè)置

將原始圖像尺寸裁剪為256 × 256 像素,并輸入到網(wǎng)絡(luò)中。批量大小設(shè)置為16,進(jìn)行20輪訓(xùn)練。初始學(xué)習(xí)率為0.000 1,在第15 和17 輪分別將學(xué)習(xí)率減少到之前的1/10,從而使網(wǎng)絡(luò)的輸出結(jié)果能夠盡可能接近最優(yōu)值。網(wǎng)絡(luò)的總體損失為

式中,Lrel表示右手相對左手深度的損失,Lpose表示手部關(guān)節(jié)點(diǎn)損失,Lh表示手勢類別損失。具體為

式(19)采用L1 損失判定右手相對左手深度的誤差。式(20)采用L2 損失函數(shù)計算手部關(guān)節(jié)點(diǎn)誤差,HQ*采用高斯公式計算關(guān)節(jié)點(diǎn)的真實(shí)高斯熱圖,Q∈(R,L)表示RGB圖像中包含哪只手。式(21)采用二元交叉熵?fù)p失函數(shù)計算手勢類別誤差,gQ代表左右手是否存在,hQ表示屬于相對應(yīng)手勢類別的概率值。

2.5 實(shí)驗(yàn)結(jié)果

圖5給出了PoseNet、InterNet和本文方法的手勢估計結(jié)果。由于手勢關(guān)節(jié)點(diǎn)大多比較靈活,且手勢交互時會存在遮擋情況,因此通過單幅RGB 圖像進(jìn)行手勢的估計較為復(fù)雜。由圖5(b)B 列和D 列可見,PoseNet 網(wǎng)絡(luò)無法準(zhǔn)確估計單手和交互手的姿態(tài)。采用InterNet和本文方法估計圖5A列的手部姿態(tài),由結(jié)果可見,預(yù)測單手姿態(tài)相比預(yù)測交互手姿態(tài)更為準(zhǔn)確。圖5(a)的A 列和B 列為手部姿態(tài)相對簡單的單手姿態(tài)圖,在采用InterNet 方法的預(yù)測結(jié)果(圖5(c)A 列)中,無名指的指尖關(guān)節(jié)點(diǎn)被預(yù)測在中指的位置上,采用本文方法(圖5(d)A 列)對該關(guān)節(jié)點(diǎn)的位置做出修正,更容易區(qū)分中指和無名指的姿態(tài)。在InterNet方法預(yù)測的結(jié)果(圖5(c)B 列)中,由于該手勢相對復(fù)雜,使得拇指和食指指尖關(guān)節(jié)點(diǎn)的預(yù)測位置“粘合”在一起,并且其余3 指的姿態(tài)也比較混亂,采用本文方法(圖5(d)B 列)能夠區(qū)別拇指和食指指尖位置并更清晰地識別手勢。圖5(a)的C 列和D列為存在手指自遮擋和雙手相互遮擋的手部姿態(tài),因而在估計手勢時比預(yù)測單手姿態(tài)更加困難。采用本文方法能夠在一定程度上解決InterNet方法識別不準(zhǔn)確的問題。在InterNet 方法估計的手勢(圖5(c)C 列)中,左手的姿態(tài)沒有被精確地預(yù)測出來,而且右手部分手指的關(guān)節(jié)點(diǎn)被預(yù)測在左手上;采用本文方法(圖5(d)C 列)能更好地估計左手的手勢,也能更好地區(qū)分不同手指的關(guān)節(jié)點(diǎn)位置。在采用InterNet 方法估計的手勢結(jié)果中(如圖5(c)D 列),手部關(guān)節(jié)點(diǎn)的預(yù)測位置較為混亂,采用本文方法(圖5(d)D 列)可以更好地區(qū)分出兩只手,并且能更準(zhǔn)確地獲得關(guān)節(jié)點(diǎn)位置。

圖5 不同方法在測試集的預(yù)測效果Fig.5 Prediction results of different methods in the test set((a)RGB images;(b)PoseNet(Zimmermann and Brox,2017);(c)InterNet(Moon et al.,2020);(d)MS-FF(ours))

在InterHand2.6M 數(shù)據(jù)集上,采用PoseNet、InterNet 和本文方法進(jìn)行實(shí)驗(yàn),得到的評估指標(biāo)如表1和表2所示。由表可見,與InterNet方法相比,本文方法在不同測試集上均取得更好的結(jié)果。選用InterHand2.6M(H+M)數(shù)據(jù)集作為訓(xùn)練集,與Inter-Net方法獲得的評估指標(biāo)相比,本文方法獲得的評估指標(biāo)中,根節(jié)點(diǎn)的平均誤差(MRRPE)、單手上關(guān)節(jié)點(diǎn)的平均誤差(MPJPE(S))和交互手上關(guān)節(jié)點(diǎn)的平均誤差(MPJPE(I))均取得了更低的誤差值,分別為30.92 mm、11.10 mm 和15.14 mm,相比InterNet 方法獲得的指標(biāo)降低了5.1%、8.3%和5.8%。模型的初始參數(shù)值是通過正態(tài)分布的方法隨機(jī)產(chǎn)生的,在每次迭代優(yōu)化后得到的參數(shù)也會略有不同,因而得到的APh值也有區(qū)別,但APh值并未大幅下降。

表1 不同方法在驗(yàn)證集(M)和測試集(H)數(shù)據(jù)集的測試結(jié)果Table 1 Results of different methods on Val(M)and Test(H)datasets

表2 不同方法在測試集(M)和測試集(H+M)數(shù)據(jù)集的測試結(jié)果Table 2 Results of different methods on Test(M)and Test(H+M)datasets

為了進(jìn)一步驗(yàn)證本文方法的性能,采用不同方法對單手和交互手圖像進(jìn)行測試,并將左右手關(guān)節(jié)點(diǎn)的平均值作為各關(guān)節(jié)點(diǎn)誤差,結(jié)果如圖6和圖7所示,其中,t,i,m,r,p分別表示拇指、食指、中指、無名指和小指,1,2,3,4對應(yīng)手指根部關(guān)節(jié)點(diǎn)到手指指尖關(guān)節(jié)點(diǎn)??梢钥闯?,相比預(yù)測靠近手掌的關(guān)節(jié)點(diǎn),預(yù)測靠近指尖的關(guān)節(jié)點(diǎn)更為困難,本文方法在不同手指關(guān)節(jié)點(diǎn)上的平均誤差率均低于其他對比方法。

圖6 不同測試集上單手關(guān)節(jié)點(diǎn)平均誤差Fig.6 The mean per joint position error of single hand on various testing set((a)test(H);(b)val(M);(c)test(M);(d)test(H+M))

圖7 不同測試集上交互手關(guān)節(jié)點(diǎn)平均誤差Fig.7 The mean per joint position error of interacting hand on various testing set((a)test(H);(b)val(M);(c)test(M);(d)test(H+M))

表3 是不同方法的參數(shù)比較??梢钥闯?,由于MS-FF 需要提取并融合多個分辨率特征圖的潛在信息,因而訓(xùn)練和測試時間都比其他方法要長。與其他方法相比,在提高識別精度的同時,具有模型參數(shù)少、計算復(fù)雜度低(表3 中Flops 數(shù)值較?。┑奶攸c(diǎn)。InterNet網(wǎng)絡(luò)采用ResNet50模塊,生成的特征圖維度為2 048,對其進(jìn)行反卷積操作會產(chǎn)生大量參數(shù),增加了計算復(fù)雜度。MS-FF 在全局回歸模塊中通過1 × 1 卷積,將4 個不同分辨率特征圖的維度降低至256,減少了后續(xù)網(wǎng)絡(luò)計算的相關(guān)參數(shù)和計算量。在局部優(yōu)化模塊中,MS-FF 采用1 × 1、3 × 3 的卷積操作提取圖像特征,采用雙線性插值操作獲得更大尺度下的特征圖,該操作同樣會減少模型的參數(shù)與計算量。由于MS-FF 從4 個不同分辨率下的特征圖提取全局和局部信息,構(gòu)建過程比InterNet網(wǎng)絡(luò)更為復(fù)雜,因此造成了碎片化(Ma 等人,2018)的特點(diǎn)。這種情況下,MS-FF 的串行化等待將增加時間開銷。此外,其內(nèi)核啟動與同步時間開銷也將增加,導(dǎo)致MS-FF 在時間開銷上高于InterNet 網(wǎng)絡(luò),因此MSFF 的運(yùn)行速率(28 幀/s)低于InterNet 的運(yùn)行速率(53幀/s)。

表3 不同方法的參數(shù)比較Table 3 Comparison of parameters of different methods

表4 給出了不同方法在RHD 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,GT H(ground truth handness)和GT S(ground truth scale)分別表示測試時需要使用真實(shí)的手部類別和尺寸,EPE(end point error)為關(guān)節(jié)點(diǎn)的平均誤差。Spurr等人(2018)、Yang 和Yao(2019)的實(shí)驗(yàn)需要額外輸入手部類別和尺寸,因而取得了較低的關(guān)節(jié)點(diǎn)誤差。由表4 可見,本文方法在測試時即使沒有真實(shí)的手部類別和尺寸,也可獲得較低的誤差值。

表4 不同方法在RHD數(shù)據(jù)集的測試結(jié)果Table 4 Results of different methods on RHD

2.6 消融實(shí)驗(yàn)

為分析本文方法中各模塊的有效性,對不同模塊在提高網(wǎng)絡(luò)性能方面進(jìn)行消融實(shí)驗(yàn)。在多尺度特征融合網(wǎng)絡(luò)中,采用分別去除通道變換模塊、全局回歸模塊和局部優(yōu)化模塊進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)選用32 000幅訓(xùn)練圖像和1 000幅測試圖像,批量大小設(shè)置為4,進(jìn)行20 輪訓(xùn)練,初始學(xué)習(xí)率為0.000 1,在第15 輪和第17 輪分別將學(xué)習(xí)率減少到之前的1/10,實(shí)驗(yàn)結(jié)果如表5 所示??梢钥闯?,去除全局回歸模塊的實(shí)驗(yàn)結(jié)果與整體模型的實(shí)驗(yàn)結(jié)果最為接近,證明該模塊雖然可以融合不同特征圖的空間細(xì)節(jié)信息和全局信息,但在手勢估計的過程中起到的作用相對有限。去除局部優(yōu)化模塊的實(shí)驗(yàn)結(jié)果與整體模型的實(shí)驗(yàn)結(jié)果相差最大,因此該模塊能充分利用特征圖并提取深層次特征信息,能夠在回歸手勢的方面起到較大作用,局部優(yōu)化模塊可以修正部分預(yù)測不準(zhǔn)確的關(guān)節(jié)點(diǎn)。通道變換模塊不僅需要處理由ResNet50 模塊得到的特征通道信息,而且在局部優(yōu)化模塊中優(yōu)化特征通道信息,因此也起到了較為重要的作用。該實(shí)驗(yàn)結(jié)果表明,在這3 個模塊的共同作用下,多尺度特征融合網(wǎng)絡(luò)的整體性能獲得最大值,證明了各個模塊的有效性。

表5 消融實(shí)驗(yàn):不同模塊在數(shù)據(jù)集上的效果Table 5 Ablation experiments:the effect of different modules on the dataset

3 結(jié)論

本文提出一種面向單目視覺手勢姿態(tài)估計的多尺度特征融合網(wǎng)絡(luò),可以從不同分辨率特征圖中提取不同層次信息,從而有效地處理遮擋邊緣和指尖部分的細(xì)節(jié),更準(zhǔn)確地估計手部姿態(tài)。1)該網(wǎng)絡(luò)采用通道變換模塊調(diào)整特征通道的比重,增強(qiáng)有用特征通道權(quán)重;2)通過全局回歸模塊融合不同分辨率特征圖,保證融合的特征圖既能包含圖像的邊緣細(xì)節(jié)特性,又能充分利用全局信息;3)通過局部優(yōu)化模塊修正部分未回歸到正確位置的關(guān)節(jié)點(diǎn);4)在Inter-Hand2.6M 和RHD 數(shù)據(jù)集上的實(shí)驗(yàn)表明,與其他方法相比,本文方法得到了更低的關(guān)節(jié)點(diǎn)誤差,能夠更好地對單手和交互手姿態(tài)進(jìn)行估計,可以在一定程度上避免手指遮擋帶來的誤差,取得了更高的準(zhǔn)確性與魯棒性。

但是,MS-FF 的運(yùn)行速率比InterNet 方法要慢,這是由于MS-FF 方法的構(gòu)建過程更加復(fù)雜,增加了串行等待和內(nèi)核啟動與同步時間開銷。在未來的工作中,將繼續(xù)優(yōu)化本文模型,在保證識別精度的同時,增加模型的運(yùn)行速率,實(shí)現(xiàn)更快的識別速度,為在現(xiàn)實(shí)場景中快速準(zhǔn)確識別手勢進(jìn)行鋪墊。

猜你喜歡
關(guān)節(jié)點(diǎn)手勢手部
手部皮膚軟組織缺損修復(fù)的皮瓣選擇
基于深度學(xué)習(xí)和視覺檢測的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動作識別
挑戰(zhàn)!神秘手勢
V字手勢的由來
搞好新形勢下軍營美術(shù)活動需把握的關(guān)節(jié)點(diǎn)
勝利的手勢
兩種皮瓣修復(fù)手部軟組織缺損的比較
發(fā)生于手部的硬下疳一例
復(fù)明膠囊疑致手部腫痛1例
蓝山县| 商河县| 汉沽区| 图们市| 延边| 思茅市| 长葛市| 合水县| 定州市| 东城区| 内江市| 天等县| 金湖县| 商洛市| 泰宁县| 托克逊县| 丹凤县| 霞浦县| 石渠县| 酉阳| 仙居县| 百色市| 隆德县| 哈巴河县| 泰安市| 平罗县| 文山县| 云龙县| 乌恰县| 克什克腾旗| 九寨沟县| 江达县| 儋州市| 城固县| 崇州市| 兖州市| 商河县| 于田县| 大名县| 乐安县| 五指山市|