国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于RGB-D圖像弱監(jiān)督學(xué)習(xí)的3D人體姿態(tài)估計(jì)*

2022-01-21 00:32申瓊鑫
傳感器與微系統(tǒng) 2022年1期
關(guān)鍵詞:關(guān)節(jié)點(diǎn)姿態(tài)關(guān)節(jié)

申瓊鑫, 楊 濤, 徐 勝

(福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350116)

0 引 言

人體姿態(tài)估計(jì)是對(duì)圖像或視頻數(shù)據(jù)中的人的關(guān)節(jié)點(diǎn)位置進(jìn)行檢測(cè)并還原的過(guò)程。根據(jù)估計(jì)結(jié)果的數(shù)據(jù)維度的不同分為2D人體姿態(tài)估計(jì)和3D人體姿態(tài)估計(jì)。目前,2D人體姿態(tài)估計(jì)技術(shù)獲得了較大進(jìn)展[1]。Toshev A等人[2]首次提出了人體關(guān)鍵點(diǎn)解決方案,使用級(jí)聯(lián)形式的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)完成更準(zhǔn)確的姿態(tài)估計(jì)?,F(xiàn)在大多數(shù)的3D人體姿態(tài)估計(jì)都是在2D姿態(tài)估計(jì)的基礎(chǔ)上完成的。Wang K等人[3]提出長(zhǎng)短期記憶( long short-term memory,LSTM)網(wǎng)絡(luò)架構(gòu),利用自頂向下的反饋機(jī)制,從而達(dá)到優(yōu)化關(guān)節(jié)點(diǎn)的目的。Bogo F等人[4]提出自監(jiān)督校正機(jī)制,其本質(zhì)是利用了同一個(gè)姿態(tài)的二維特征和三維特征的一致性。上述研究從不同的方向上去優(yōu)化關(guān)節(jié)點(diǎn)的位置,在效果上都取得了不同程度的提升,但基本上采用的的都是強(qiáng)監(jiān)督學(xué)習(xí)模型,其需要大量的帶標(biāo)簽的數(shù)據(jù)。

本文提出一種基于RGB-D圖像的弱監(jiān)督學(xué)習(xí)模型實(shí)現(xiàn)3D人體姿態(tài)估計(jì)的方法。采用一種端到端的弱監(jiān)督模型,解決數(shù)據(jù)標(biāo)簽不足的問(wèn)題,并在弱監(jiān)督模型中對(duì)生成的2D熱圖進(jìn)行積分回歸,克服基于熱圖估計(jì)的方法中所存在的缺陷,同時(shí)改善3D回歸網(wǎng)絡(luò)模塊,以實(shí)現(xiàn)減少網(wǎng)絡(luò)運(yùn)算量,降低訓(xùn)練時(shí)間的目的。

1 3D人體姿態(tài)估計(jì)的實(shí)現(xiàn)原理與方法

本文所使用的網(wǎng)絡(luò)整體實(shí)現(xiàn)具體框架如圖1所示。1)將深度圖像或者彩色圖像作為網(wǎng)絡(luò)輸入;2)圖像數(shù)據(jù)通過(guò)2D姿態(tài)估計(jì)模塊生成熱圖,即H2d;3)將熱圖進(jìn)行積分回歸,生成對(duì)應(yīng)的關(guān)節(jié)坐標(biāo)J2d;4)將關(guān)節(jié)點(diǎn)坐標(biāo)作為3D回歸模塊的輸入,回歸出3D關(guān)節(jié)坐標(biāo)H3d,最終實(shí)現(xiàn)3D人體姿態(tài)估計(jì)。

圖1 3D人體姿態(tài)估計(jì)弱監(jiān)督網(wǎng)絡(luò)模型

2D姿態(tài)估計(jì)網(wǎng)絡(luò)模塊采用了沙漏結(jié)構(gòu)作為該部分的主體網(wǎng)絡(luò)[5],通過(guò)重復(fù)自下而上,自上而下推理的機(jī)制,重新評(píng)估整個(gè)圖像的初始估計(jì)和特征。整個(gè)沙漏結(jié)構(gòu)不改變特征的尺度,只改變特征的深度,并且采用中繼監(jiān)督訓(xùn)練方式,因此,在堆疊網(wǎng)絡(luò)結(jié)構(gòu)時(shí)不會(huì)出現(xiàn)梯度爆炸的問(wèn)題。并在網(wǎng)絡(luò)中加入積分回歸操作[6],基于熱圖回歸的方式雖然表示方便且容易組合其它深層特征圖,但其存在著固有的缺陷,考慮到直接監(jiān)督坐標(biāo)的效果不如監(jiān)督熱圖,需要將兩者結(jié)合起來(lái)。因此,可以通過(guò)將熱圖轉(zhuǎn)換成關(guān)節(jié)點(diǎn)坐標(biāo),從而避免這些缺點(diǎn)。使用積分回歸的優(yōu)點(diǎn)在于積分函數(shù)是可微的,允許端到端訓(xùn)練并且輸出是連續(xù)的。對(duì)于3D回歸模塊所采用的結(jié)構(gòu)如圖2所示,其包含線(xiàn)性(linear)層、批歸一化(batch normalization,BN)、ReLU(rectified linear units)層、Dropout層,稱(chēng)之為Block[7]。用于得到最后的3D關(guān)節(jié)點(diǎn)坐標(biāo)。可以看到這部分網(wǎng)絡(luò)使用線(xiàn)性層進(jìn)行運(yùn)算,因此,能夠大幅減少網(wǎng)絡(luò)運(yùn)算復(fù)雜度,節(jié)約運(yùn)算成本,并且對(duì)于網(wǎng)絡(luò)超參數(shù)的訓(xùn)練也比較容易。根據(jù)實(shí)際情況可以選擇級(jí)聯(lián)多個(gè)Block作為回歸模塊。

圖2 3D回歸模塊單元示意

2 功能模塊設(shè)計(jì)

2.1 概 述

本文目標(biāo)是對(duì)于給定的彩色圖或者深度圖能夠估計(jì)出其對(duì)應(yīng)的3D人體姿勢(shì)J3d。本文提出的網(wǎng)絡(luò)框架包括2D姿態(tài)估計(jì)網(wǎng)絡(luò)和深度回歸模塊。

2.2 2D姿態(tài)估計(jì)模塊

本文采用沙漏結(jié)構(gòu)作為2D姿態(tài)估計(jì)模塊,用于預(yù)測(cè)人體各個(gè)關(guān)鍵點(diǎn)的位置。考慮到運(yùn)算的規(guī)模和速度,選擇使用2個(gè)沙漏結(jié)構(gòu)構(gòu)成輕量級(jí)的2D估計(jì)模塊。該網(wǎng)絡(luò)輸出的是一組包含J(J=16)個(gè)關(guān)節(jié)點(diǎn)的低分辨率熱圖。2D模塊的輸入是經(jīng)過(guò)預(yù)處理后的數(shù)據(jù),圖像分辨率為256×256,熱圖輸出的分辨率為64×64。訓(xùn)練2D模塊所使用的損失函數(shù)為

(1)

2.3 姿勢(shì)積分回歸

針對(duì)2D姿態(tài)檢測(cè)模塊輸出的熱圖進(jìn)行關(guān)節(jié)坐標(biāo)轉(zhuǎn)換,對(duì)于提升估計(jì)網(wǎng)絡(luò)模型的性能是很有必要的,因?yàn)闊釄D進(jìn)行轉(zhuǎn)換成關(guān)節(jié)坐標(biāo)之后,后續(xù)網(wǎng)絡(luò)不會(huì)再要求熱圖保持更高的分辨率,因此能夠大幅減少后續(xù)網(wǎng)絡(luò)的運(yùn)算復(fù)雜度。對(duì)2D熱圖進(jìn)行積分,關(guān)節(jié)被估計(jì)為熱圖中所有位置的積分,并根據(jù)概率加權(quán)求和做歸一化。由于積分是沒(méi)有參數(shù)的,因此在計(jì)算和存儲(chǔ)方面帶來(lái)的開(kāi)銷(xiāo)很小。轉(zhuǎn)換公式分別為

(2)

(3)

式中Jk為轉(zhuǎn)換后的關(guān)節(jié)點(diǎn),Hk為熱圖,k為正則化的熱圖,Ω為Hk的域。

2.4 三維回歸模塊

回歸模塊的主要任務(wù)獲取各個(gè)關(guān)節(jié)的深度信息。此模塊鑲嵌在2D姿態(tài)估計(jì)的后面,因此在進(jìn)行端到端的訓(xùn)練時(shí),會(huì)充分利用權(quán)重共享功能。并且可以通過(guò)實(shí)驗(yàn)確定構(gòu)成3D回歸網(wǎng)絡(luò)所需要的Block數(shù)目。3D回歸網(wǎng)絡(luò)訓(xùn)練的Loss函數(shù)為

(4)

式中xi為通過(guò)2D檢測(cè)器或照相機(jī)標(biāo)定的二維關(guān)節(jié)坐標(biāo),yi為預(yù)測(cè)的各關(guān)節(jié)的三維坐標(biāo),N為關(guān)節(jié)點(diǎn)數(shù)目。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文的實(shí)驗(yàn)數(shù)據(jù)集包括RGB數(shù)據(jù)集MPII[8]、Human 3.6M[9]和深度數(shù)據(jù)集ITOP[10]、K2HGD[11]。使用MPII中的2萬(wàn)張圖像進(jìn)行訓(xùn)練;使用Human 3.6M中的5萬(wàn)張圖像進(jìn)行訓(xùn)練,1 000張作為測(cè)試;ITOP包含3D關(guān)節(jié)標(biāo)簽的深度圖,但其數(shù)據(jù)量不充足且不準(zhǔn)確,因此將其糾錯(cuò)后作為測(cè)試樣本;使用K2HGD中的1萬(wàn)張圖作為訓(xùn)練樣本。由于深度圖和彩色圖包含的信息不一樣,不能直接進(jìn)行混合訓(xùn)練,因此將彩色圖數(shù)據(jù)進(jìn)行灰度處理,從而減少數(shù)據(jù)信息不同造成的干擾。

3.2 實(shí)驗(yàn)細(xì)節(jié)和評(píng)價(jià)標(biāo)準(zhǔn)

本文使用Human 3.6M和ITOP數(shù)據(jù)作為測(cè)試樣本,并將本文的方法與文獻(xiàn)[7]進(jìn)行對(duì)比實(shí)驗(yàn),比較其精度、參數(shù)量、訓(xùn)練時(shí)間三個(gè)指標(biāo)。本實(shí)驗(yàn)基于Torch平臺(tái),訓(xùn)練采用的學(xué)習(xí)率為0.001,batch-size的尺寸為16,分兩個(gè)階段進(jìn)行訓(xùn)練,第一階段僅使用2D標(biāo)簽數(shù)據(jù)訓(xùn)練2D網(wǎng)絡(luò),第二階段使用3D標(biāo)簽數(shù)據(jù)集訓(xùn)練整個(gè)網(wǎng)絡(luò)。實(shí)驗(yàn)使用NVIDIA GTX1060顯卡,64位Ubuntu系統(tǒng),Intel i5—7600CPU。使用平均精度(mean average precision,mAP)作為評(píng)價(jià)標(biāo)準(zhǔn),通過(guò)計(jì)算網(wǎng)絡(luò)預(yù)測(cè)得到的關(guān)節(jié)點(diǎn)坐標(biāo)與真實(shí)標(biāo)簽的人體關(guān)節(jié)點(diǎn)坐標(biāo)之間歐氏距離,當(dāng)距離小于設(shè)定的閾值即認(rèn)為估計(jì)正確。

3.3 實(shí)驗(yàn)結(jié)果與分析

為了更加科學(xué)地選擇3D回歸模塊所用的堆疊模塊Block的數(shù)目,對(duì)Block數(shù)目不同的模型分別在彩色圖像Human 3.6M和深度圖像ITOP上進(jìn)行實(shí)驗(yàn)測(cè)試,并與文獻(xiàn)[12]所提出的方法進(jìn)行對(duì)比試驗(yàn),分別將Human 3.6M和ITOP數(shù)據(jù)上的測(cè)試結(jié)果進(jìn)行可視化如圖3所示。

圖3 3D姿態(tài)估計(jì)可視化結(jié)果

表1給出了ITOP數(shù)據(jù)集上各關(guān)節(jié)的預(yù)測(cè)精度。在表2中給出其對(duì)應(yīng)的準(zhǔn)確率、訓(xùn)練時(shí)間、參數(shù)數(shù)量三個(gè)指標(biāo)。

表1 模型在閾值為10 mm時(shí)的各關(guān)節(jié)精度 %

表2 模型性能比較

根據(jù)表2的結(jié)果可以看出,使用4個(gè)Block堆疊模塊,其精確度確實(shí)增加了,但是其訓(xùn)練時(shí)間和參數(shù)量也增多了,考慮到網(wǎng)絡(luò)的輕量性,選擇2個(gè)Block堆疊模塊的模型作為3D回歸模塊。實(shí)驗(yàn)結(jié)果表明:加入積分回歸的思想,是有助于減少整個(gè)網(wǎng)絡(luò)模型的參數(shù)量和訓(xùn)練時(shí)間的,相比于文獻(xiàn)[12],本文方法參數(shù)量減少了20.9 %,訓(xùn)練時(shí)間減少了37.9 %,并且該模型同時(shí)適用于彩色圖像和深度圖像。但本文所提供的方法在精度上略有降低了,相比于文獻(xiàn)[7],在深度圖數(shù)據(jù)集上降低了約1.5 %,在彩色圖上降低了1.14 %,其中的原因可能在于兩個(gè)方面:1)網(wǎng)絡(luò)模型訓(xùn)練規(guī)模太小,從而導(dǎo)致精度的下降;2)彩色圖數(shù)據(jù)集的數(shù)量遠(yuǎn)大于深度圖數(shù)據(jù)集,因而在深度圖上損失了更多的精度。

4 結(jié) 論

本文提出了一種基于RGB-D數(shù)據(jù)的一種弱監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)模型實(shí)現(xiàn)3D人體姿態(tài)估計(jì)的方法。方法的核心思想首先在于將基于熱圖回歸的方式轉(zhuǎn)換為基于關(guān)節(jié)點(diǎn)的回歸;其次是將彩色數(shù)據(jù)與深度數(shù)據(jù)進(jìn)行關(guān)聯(lián),使得該網(wǎng)絡(luò)可以同時(shí)適用于彩色圖和深度圖。方法主要在降低訓(xùn)練時(shí)間和參數(shù)量?jī)蓚€(gè)方面做出了努力,并取得了一定的進(jìn)步,但也損失了一部分估計(jì)精度。因此,后續(xù)還需要在輕量級(jí)網(wǎng)絡(luò)的基礎(chǔ)上往提高精度方面繼續(xù)展開(kāi)研究。

猜你喜歡
關(guān)節(jié)點(diǎn)姿態(tài)關(guān)節(jié)
基于關(guān)節(jié)點(diǎn)數(shù)據(jù)關(guān)注RGB視頻的雙人交互行為識(shí)別
膝蓋經(jīng)常咔咔響,小心“關(guān)節(jié)鼠”
膝蓋有異響 警惕“關(guān)節(jié)鼠”
攀爬的姿態(tài)
基于人體行為模型的跌倒行為檢測(cè)方法①
關(guān)節(jié)才是關(guān)鍵
結(jié)構(gòu)化:向兒童思維更深處漫溯
另一種姿態(tài)
以文青的姿態(tài)回歸主流——對(duì)《后悔無(wú)期》的兩重解讀
閱讀是最美的姿態(tài)