基于卷積神經(jīng)網(wǎng)絡(luò)的RGB圖像人體姿態(tài)估計(jì)

2019-05-23 10:44:48侯珊珊尹揚(yáng)帆梁聰

電腦知識(shí)與技術(shù) 2019年8期

侯珊珊尹揚(yáng)帆梁聰

摘要：人體姿態(tài)估計(jì)是計(jì)算機(jī)中的一個(gè)重要而熱門(mén)的研究課題，該文使用卷積神經(jīng)網(wǎng)絡(luò)算法對(duì)RGB圖像進(jìn)行人體姿態(tài)估計(jì)的研究。基于改進(jìn)的殘差結(jié)構(gòu)，應(yīng)用層疊沙漏網(wǎng)絡(luò)對(duì)RGB圖像進(jìn)行精確的關(guān)節(jié)位置預(yù)測(cè)，通過(guò)二維的關(guān)節(jié)點(diǎn)信息估計(jì)人體姿態(tài)狀況。本文重點(diǎn)研究了利用RGB圖像恢復(fù)二維人體姿態(tài)的挑戰(zhàn)性設(shè)置，提出了一種在多個(gè)公共數(shù)據(jù)集上從RGB圖像中進(jìn)行二維人體姿態(tài)估計(jì)的有效方法。

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)；人體姿態(tài)估計(jì)；RGB圖像

中圖分類(lèi)號(hào)：TP393 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2019）08-0135-02

從圖像測(cè)量推斷人體姿態(tài)恢復(fù)是計(jì)算機(jī)視覺(jué)中的經(jīng)典任務(wù)。這種技術(shù)在各種任務(wù)中具有直接的應(yīng)用，例如動(dòng)作理解[1]、監(jiān)視、人機(jī)交互[2]和運(yùn)動(dòng)字幕等。然而，由于關(guān)節(jié)遮擋、背景雜亂、光照以及人體的動(dòng)態(tài)變化，人體姿態(tài)估計(jì)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。各種膚色和衣服也使得估計(jì)困難。近年來(lái)，利用卷積神經(jīng)網(wǎng)絡(luò)（CNN）[3-5]實(shí)現(xiàn)了人體姿態(tài)估計(jì)的最新性能?；赗GB圖像的人體姿態(tài)估計(jì)在CNN中取得了很大的成功。強(qiáng)大的表現(xiàn)力和解開(kāi)潛在變異因素的能力是CNN的特征，這些特征使得能夠自動(dòng)學(xué)習(xí)判別特征，并顯示出自動(dòng)學(xué)習(xí)特征的優(yōu)越性能[6]。

1 卷積神經(jīng)網(wǎng)絡(luò)的概述

在機(jī)器學(xué)習(xí)中，卷積神經(jīng)網(wǎng)絡(luò)是一種深度前饋人工神經(jīng)網(wǎng)絡(luò)，已成功地應(yīng)用于圖像識(shí)別。卷積神經(jīng)網(wǎng)絡(luò)模型由輸入層、卷積層、采樣層以及全連接層和輸出層構(gòu)成。通常狀況下會(huì)取若干交替設(shè)置的卷積層和池化層，每個(gè)卷積層連接一個(gè)池化層，每個(gè)池化層后也連接一個(gè)卷基層。卷積神經(jīng)網(wǎng)絡(luò)的輸入是局部連接的，通過(guò)局部輸入和相應(yīng)的連接權(quán)值求和加上偏置值得到該神經(jīng)元的輸入值，這是一個(gè)相當(dāng)于卷積的過(guò)程，卷積神經(jīng)網(wǎng)絡(luò)也是因此被命名的。

卷積神經(jīng)網(wǎng)絡(luò)的每一個(gè)卷積層都包含一定數(shù)量的特征面，與多重神經(jīng)網(wǎng)絡(luò)模型相比，卷積神經(jīng)網(wǎng)絡(luò)模型中通過(guò)卷積層的權(quán)值共享可以減少訓(xùn)練參數(shù)，降低了多層神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度，降低了出現(xiàn)過(guò)擬合的可能性，因此，能夠獲得一個(gè)擁有泛化能力的模型，同時(shí)可以通過(guò)池化操作大量減少運(yùn)算中神經(jīng)元的數(shù)量，網(wǎng)絡(luò)模型的魯棒性也得到了加強(qiáng)，能夠處理更為復(fù)雜的分類(lèi)問(wèn)題。此外，由于卷積神經(jīng)網(wǎng)絡(luò)模型比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型多了局部連接、權(quán)值共享以及降低模型復(fù)雜度的池化操作，使得網(wǎng)絡(luò)模型更容易訓(xùn)練，所以卷積神經(jīng)網(wǎng)絡(luò)擁有比傳統(tǒng)多層神經(jīng)網(wǎng)絡(luò)更加出色的性能，更適合于處理復(fù)雜問(wèn)題。

2 算法分析

2.1算法及過(guò)程分析

首先，利用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造坐標(biāo)預(yù)測(cè)的網(wǎng)絡(luò)框架[3]進(jìn)行特征提取，并為關(guān)節(jié)位置生成小的熱圖（heatmaps），然后從特征和小的熱圖中使用IK（反向動(dòng)力學(xué)）推斷出人體的姿態(tài)。

近年來(lái)，許多現(xiàn)有的2D關(guān)節(jié)點(diǎn)回歸技術(shù)，如DeepPose[3]、CPM[5]和HG-Stacked網(wǎng)絡(luò)等都能夠從彩色圖像中獲得一定的成功。CPM[5]和HG疊加網(wǎng)絡(luò)[6]是近年來(lái)在RGB圖像上進(jìn)行2D人體姿態(tài)估計(jì)的典型網(wǎng)絡(luò)。CPM是位姿機(jī)框架的一種改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)。該結(jié)構(gòu)利用快捷結(jié)構(gòu)和級(jí)聯(lián)回歸來(lái)學(xué)習(xí)長(zhǎng)距離空間相關(guān)性，并改進(jìn)二維聯(lián)合點(diǎn)預(yù)測(cè)。HG-Stacked網(wǎng)絡(luò)[6]設(shè)計(jì)的剩余模塊，并在通過(guò)每個(gè)沙漏之后生成預(yù)測(cè)，其中網(wǎng)絡(luò)有機(jī)會(huì)在本地和全局上下文中處理特征。我們使用分層、并行和多尺度殘差模塊，這種結(jié)構(gòu)類(lèi)似于其他姿態(tài)估計(jì)方法，該方法在多個(gè)迭代階段和中間監(jiān)督下表現(xiàn)出了較強(qiáng)的性能。

2.2實(shí)驗(yàn)過(guò)程及分析

我們假設(shè)卷積神經(jīng)網(wǎng)絡(luò)（CNN）是一個(gè)非線性函數(shù)，返回N2D個(gè)熱圖，其中N是關(guān)節(jié)的數(shù)目。在本文中，不使用大于3x3的濾波器，并且在我們的網(wǎng)絡(luò)中使用的模塊如圖1（b）所示。提出的分層并行多尺度結(jié)構(gòu)通過(guò)增加接收?qǐng)龃笮?，增?qiáng)了網(wǎng)絡(luò)捕獲信息的能力，提高了地標(biāo)定位預(yù)測(cè)的精度。

圖1：（a）原始瓶頸層，（b）提出的分層并行多尺度結(jié)構(gòu)：我們的塊增加了接收?qǐng)龃笮。倪M(jìn)了梯度流，在每個(gè)3x3卷積之前的BN層和Relu層。注意：一個(gè)層被描繪成一個(gè)矩形塊，包含：它的過(guò)濾器大小，輸入和輸出通道的數(shù)量；“C”表示連接和“+”一個(gè)元素式的和。

在256x256的完全輸入分辨率下操作需要大量的GPU存儲(chǔ)器，因此沙漏的最高分辨率（最終輸出分辨率）是64x64。整個(gè)網(wǎng)絡(luò)從7x7卷積層開(kāi)始，步長(zhǎng)為2，接著是剩余模塊和最大池循環(huán)，以便將分辨率從256降低到64。剩余模塊是HG-Stacked網(wǎng)絡(luò)的主要組成部分，HG-Stacked網(wǎng)絡(luò)是最新的用于地標(biāo)定位的體系結(jié)構(gòu)，它以完全卷積的方式預(yù)測(cè)一組熱圖。剩余模塊的設(shè)計(jì)是由于需要在每一個(gè)尺度上捕獲信息。我們模型的條件下的二維姿態(tài)給定的圖像作為結(jié)果。

實(shí)驗(yàn)對(duì)于人體姿態(tài)估計(jì)有各種各樣的基準(zhǔn)。在本文中，為了驗(yàn)證我們的方法，我們?cè)趦蓚€(gè)著名的公共姿態(tài)估計(jì)或動(dòng)作識(shí)別基準(zhǔn)上評(píng)估所提出的方法：MPII；Human3.6M。

2.3數(shù)據(jù)集集合

MPII數(shù)據(jù)集是一個(gè)大規(guī)模的野外人體姿態(tài)數(shù)據(jù)集，由大約25k張訓(xùn)練圖像和2957張驗(yàn)證圖像組成，帶有注釋?zhuān)┒嗳耸褂谩?0K注釋樣本。這些圖像是從網(wǎng)上采集的。我們使用25k訓(xùn)練圖像訓(xùn)練基于網(wǎng)絡(luò)的二維姿態(tài)估計(jì)模型，并用2957圖像驗(yàn)證精度。

Human3.6M數(shù)據(jù)集被用作二維姿態(tài)估計(jì)的測(cè)試集。這個(gè)數(shù)據(jù)集包含3.6百萬(wàn)RGB圖像。為了使數(shù)據(jù)更加精確，我們對(duì)同一位置的多次測(cè)量得到的物體的高度和寬度進(jìn)行平均。從該數(shù)據(jù)集的2874幅圖像驗(yàn)證我們的訓(xùn)練二維姿態(tài)回歸模型的準(zhǔn)確性。

2.4實(shí)現(xiàn)細(xì)節(jié)

在給定的輸入圖像中通常存在多個(gè)可見(jiàn)的人，但是沒(méi)有圖形模型或后處理步驟，圖像必須傳達(dá)網(wǎng)絡(luò)確定哪個(gè)人值得注釋的所有必要信息。我們通過(guò)訓(xùn)練網(wǎng)絡(luò)來(lái)專(zhuān)門(mén)對(duì)直接中心的人進(jìn)行注釋。對(duì)于每個(gè)樣本，尺度和中心注釋被用來(lái)裁剪圍繞目標(biāo)人的圖像。然后將所有輸入圖像調(diào)整為256x256像素。在測(cè)試階段，圖像在中心附近進(jìn)行裁剪，調(diào)整大小為256x256像素，作為網(wǎng)絡(luò)的輸入，并基于二維姿態(tài)估計(jì)模型預(yù)測(cè)地標(biāo)定位。然后利用預(yù)測(cè)來(lái)計(jì)算原始圖像的關(guān)節(jié)定位。

使用Trink7對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。沙漏組件是基于[6]中的公共代碼。并用提出的分層并行多尺度結(jié)構(gòu)代替原點(diǎn)殘差塊。為了快速訓(xùn)練，我們使用了一個(gè)淺層的堆積沙漏，即每一個(gè)沙漏有2個(gè)堆棧，2個(gè)剩余模塊[6 ]。網(wǎng)絡(luò)的最終預(yù)測(cè)是給定關(guān)節(jié)的熱映射的最大激活位置。

2.5二維姿態(tài)估計(jì)

（a）MPII結(jié)果（PCKh@ 0.5）（b）Human3.6M結(jié)果（PCKh@ 0.5）

我們使用標(biāo)準(zhǔn)度量PCKh@0.5來(lái)評(píng)估2D姿態(tài)估計(jì)的精度。其結(jié)果可以在圖2中看到，圖2顯示了隨著訓(xùn)練的進(jìn)展，驗(yàn)證圖像的平均準(zhǔn)確度，圖3分別顯示了MPII和Human3.6M測(cè)試圖像的平均準(zhǔn)確度。表明我們提出的網(wǎng)絡(luò)具有很強(qiáng)的學(xué)習(xí)能力，能夠得到較高的估計(jì)精度。

3 結(jié)論

介紹了一種基于RGB圖像的利用卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行人體姿態(tài)估計(jì)的方法。首先，我們提出了一種分層的并行多尺度殘差結(jié)構(gòu)，以提高二維姿態(tài)預(yù)測(cè)的精度。然后，根據(jù)獲得的2D關(guān)節(jié)位置，估計(jì)人體具體姿態(tài)。在不同的人體姿態(tài)數(shù)據(jù)集下的估計(jì)實(shí)驗(yàn)證明了本文的人體姿態(tài)估計(jì)方法具有很好的魯棒性，對(duì)基于RGB圖像的人體姿態(tài)估計(jì)能夠得到較好的效果

參考文獻(xiàn)：

[1] 朱煜，趙江坤，王逸寧，等.基于深度學(xué)習(xí)的人體行為識(shí)別算法綜述[J]. 自動(dòng)化學(xué)報(bào). 2016，42（6）：848?857.

[2] ShottonJ，Girshick R， Fitzgibbon A， et al. Efficient human pose estimation from single depthimages. In Proceedings of IEEE Transactions on Pattern Analysis and Machine Intelligence[M]. IEEE Computer Society Press， 2013：2821–2840.

[3] Toshev A， Szegedy C. DeepPose： Human pose estimation via deep neural networks. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[J]. IEEE Computer SocietyPress， 2014：1653-1660.

[4] Cao， Z.， Simon， T.， Wei， S. E.， et al. Realtime Multi- Person 2D Pose Estimation using Part Affinity Fields. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[M].IEEE Computer Society Press，2016：7291- 7299.

[5] Wei S E， Ramakrishna V， Kanade T， et al. Convolutional pose machines. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[M]. IEEE Computer Society Press. 2016：4724-4732.

[6] Alejandro， Newell.，kaiyu， Yang.， and Jia， Deng. Stacked Hourglass Networks for Human Pose Estimation[M].In ECCV. 2016：483-499.

【通聯(lián)編輯：代影】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于卷積神經(jīng)網(wǎng)絡(luò)的RGB圖像人體姿態(tài)估計(jì)