侯珊珊 尹揚(yáng)帆 梁聰
摘要:人體姿態(tài)估計(jì)是計(jì)算機(jī)中的一個(gè)重要而熱門(mén)的研究課題,該文使用卷積神經(jīng)網(wǎng)絡(luò)算法對(duì)RGB圖像進(jìn)行人體姿態(tài)估計(jì)的研究。基于改進(jìn)的殘差結(jié)構(gòu),應(yīng)用層疊沙漏網(wǎng)絡(luò)對(duì)RGB圖像進(jìn)行精確的關(guān)節(jié)位置預(yù)測(cè),通過(guò)二維的關(guān)節(jié)點(diǎn)信息估計(jì)人體姿態(tài)狀況。本文重點(diǎn)研究了利用RGB圖像恢復(fù)二維人體姿態(tài)的挑戰(zhàn)性設(shè)置,提出了一種在多個(gè)公共數(shù)據(jù)集上從RGB圖像中進(jìn)行二維人體姿態(tài)估計(jì)的有效方法。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);人體姿態(tài)估計(jì);RGB圖像
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)08-0135-02
從圖像測(cè)量推斷人體姿態(tài)恢復(fù)是計(jì)算機(jī)視覺(jué)中的經(jīng)典任務(wù)。這種技術(shù)在各種任務(wù)中具有直接的應(yīng)用,例如動(dòng)作理解[1]、監(jiān)視、人機(jī)交互[2]和運(yùn)動(dòng)字幕等。然而,由于關(guān)節(jié)遮擋、背景雜亂、光照以及人體的動(dòng)態(tài)變化,人體姿態(tài)估計(jì)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。各種膚色和衣服也使得估計(jì)困難。近年來(lái),利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)[3-5]實(shí)現(xiàn)了人體姿態(tài)估計(jì)的最新性能?;赗GB圖像的人體姿態(tài)估計(jì)在CNN中取得了很大的成功。強(qiáng)大的表現(xiàn)力和解開(kāi)潛在變異因素的能力是CNN的特征,這些特征使得能夠自動(dòng)學(xué)習(xí)判別特征,并顯示出自動(dòng)學(xué)習(xí)特征的優(yōu)越性能[6]。
1 卷積神經(jīng)網(wǎng)絡(luò)的概述
在機(jī)器學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)是一種深度前饋人工神經(jīng)網(wǎng)絡(luò),已成功地應(yīng)用于圖像識(shí)別。卷積神經(jīng)網(wǎng)絡(luò)模型由輸入層、卷積層、采樣層以及全連接層和輸出層構(gòu)成。通常狀況下會(huì)取若干交替設(shè)置的卷積層和池化層,每個(gè)卷積層連接一個(gè)池化層,每個(gè)池化層后也連接一個(gè)卷基層。卷積神經(jīng)網(wǎng)絡(luò)的輸入是局部連接的,通過(guò)局部輸入和相應(yīng)的連接權(quán)值求和加上偏置值得到該神經(jīng)元的輸入值,這是一個(gè)相當(dāng)于卷積的過(guò)程,卷積神經(jīng)網(wǎng)絡(luò)也是因此被命名的。
卷積神經(jīng)網(wǎng)絡(luò)的每一個(gè)卷積層都包含一定數(shù)量的特征面,與多重神經(jīng)網(wǎng)絡(luò)模型相比,卷積神經(jīng)網(wǎng)絡(luò)模型中通過(guò)卷積層的權(quán)值共享可以減少訓(xùn)練參數(shù),降低了多層神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度,降低了出現(xiàn)過(guò)擬合的可能性,因此,能夠獲得一個(gè)擁有泛化能力的模型,同時(shí)可以通過(guò)池化操作大量減少運(yùn)算中神經(jīng)元的數(shù)量,網(wǎng)絡(luò)模型的魯棒性也得到了加強(qiáng),能夠處理更為復(fù)雜的分類(lèi)問(wèn)題。此外,由于卷積神經(jīng)網(wǎng)絡(luò)模型比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型多了局部連接、權(quán)值共享以及降低模型復(fù)雜度的池化操作,使得網(wǎng)絡(luò)模型更容易訓(xùn)練,所以卷積神經(jīng)網(wǎng)絡(luò)擁有比傳統(tǒng)多層神經(jīng)網(wǎng)絡(luò)更加出色的性能,更適合于處理復(fù)雜問(wèn)題。
2 算法分析
2.1算法及過(guò)程分析
首先,利用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造坐標(biāo)預(yù)測(cè)的網(wǎng)絡(luò)框架[3]進(jìn)行特征提取,并為關(guān)節(jié)位置生成小的熱圖(heatmaps),然后從特征和小的熱圖中使用IK(反向動(dòng)力學(xué))推斷出人體的姿態(tài)。
近年來(lái),許多現(xiàn)有的2D關(guān)節(jié)點(diǎn)回歸技術(shù),如DeepPose[3]、CPM[5]和HG-Stacked網(wǎng)絡(luò)等都能夠從彩色圖像中獲得一定的成功。CPM[5]和HG疊加網(wǎng)絡(luò)[6]是近年來(lái)在RGB圖像上進(jìn)行2D人體姿態(tài)估計(jì)的典型網(wǎng)絡(luò)。CPM是位姿機(jī)框架的一種改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)。該結(jié)構(gòu)利用快捷結(jié)構(gòu)和級(jí)聯(lián)回歸來(lái)學(xué)習(xí)長(zhǎng)距離空間相關(guān)性,并改進(jìn)二維聯(lián)合點(diǎn)預(yù)測(cè)。HG-Stacked網(wǎng)絡(luò)[6]設(shè)計(jì)的剩余模塊,并在通過(guò)每個(gè)沙漏之后生成預(yù)測(cè),其中網(wǎng)絡(luò)有機(jī)會(huì)在本地和全局上下文中處理特征。我們使用分層、并行和多尺度殘差模塊,這種結(jié)構(gòu)類(lèi)似于其他姿態(tài)估計(jì)方法,該方法在多個(gè)迭代階段和中間監(jiān)督下表現(xiàn)出了較強(qiáng)的性能。
2.2實(shí)驗(yàn)過(guò)程及分析
我們假設(shè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一個(gè)非線性函數(shù),返回N2D個(gè)熱圖,其中N是關(guān)節(jié)的數(shù)目。在本文中,不使用大于3x3的濾波器,并且在我們的網(wǎng)絡(luò)中使用的模塊如圖1(b)所示。提出的分層并行多尺度結(jié)構(gòu)通過(guò)增加接收?qǐng)龃笮?,增?qiáng)了網(wǎng)絡(luò)捕獲信息的能力,提高了地標(biāo)定位預(yù)測(cè)的精度。
圖1:(a)原始瓶頸層,(b)提出的分層并行多尺度結(jié)構(gòu):我們的塊增加了接收?qǐng)龃笮。倪M(jìn)了梯度流,在每個(gè)3x3卷積之前的BN層和Relu層。注意:一個(gè)層被描繪成一個(gè)矩形塊,包含:它的過(guò)濾器大小,輸入和輸出通道的數(shù)量;“C”表示連接和“+”一個(gè)元素式的和。
在256x256的完全輸入分辨率下操作需要大量的GPU存儲(chǔ)器,因此沙漏的最高分辨率(最終輸出分辨率)是64x64。整個(gè)網(wǎng)絡(luò)從7x7卷積層開(kāi)始,步長(zhǎng)為2,接著是剩余模塊和最大池循環(huán),以便將分辨率從256降低到64。剩余模塊是HG-Stacked網(wǎng)絡(luò)的主要組成部分,HG-Stacked網(wǎng)絡(luò)是最新的用于地標(biāo)定位的體系結(jié)構(gòu),它以完全卷積的方式預(yù)測(cè)一組熱圖。剩余模塊的設(shè)計(jì)是由于需要在每一個(gè)尺度上捕獲信息。我們模型的條件下的二維姿態(tài)給定的圖像作為結(jié)果。
實(shí)驗(yàn)對(duì)于人體姿態(tài)估計(jì)有各種各樣的基準(zhǔn)。在本文中,為了驗(yàn)證我們的方法,我們?cè)趦蓚€(gè)著名的公共姿態(tài)估計(jì)或動(dòng)作識(shí)別基準(zhǔn)上評(píng)估所提出的方法:MPII;Human3.6M。
2.3數(shù)據(jù)集集合
MPII數(shù)據(jù)集是一個(gè)大規(guī)模的野外人體姿態(tài)數(shù)據(jù)集,由大約25k張訓(xùn)練圖像和2957張驗(yàn)證圖像組成,帶有注釋?zhuān)┒嗳耸褂谩?0K注釋樣本。這些圖像是從網(wǎng)上采集的。我們使用25k訓(xùn)練圖像訓(xùn)練基于網(wǎng)絡(luò)的二維姿態(tài)估計(jì)模型,并用2957圖像驗(yàn)證精度。
Human3.6M數(shù)據(jù)集被用作二維姿態(tài)估計(jì)的測(cè)試集。這個(gè)數(shù)據(jù)集包含3.6百萬(wàn)RGB圖像。為了使數(shù)據(jù)更加精確,我們對(duì)同一位置的多次測(cè)量得到的物體的高度和寬度進(jìn)行平均。從該數(shù)據(jù)集的2874幅圖像驗(yàn)證我們的訓(xùn)練二維姿態(tài)回歸模型的準(zhǔn)確性。
2.4實(shí)現(xiàn)細(xì)節(jié)
在給定的輸入圖像中通常存在多個(gè)可見(jiàn)的人,但是沒(méi)有圖形模型或后處理步驟,圖像必須傳達(dá)網(wǎng)絡(luò)確定哪個(gè)人值得注釋的所有必要信息。我們通過(guò)訓(xùn)練網(wǎng)絡(luò)來(lái)專(zhuān)門(mén)對(duì)直接中心的人進(jìn)行注釋。對(duì)于每個(gè)樣本,尺度和中心注釋被用來(lái)裁剪圍繞目標(biāo)人的圖像。然后將所有輸入圖像調(diào)整為256x256像素。在測(cè)試階段,圖像在中心附近進(jìn)行裁剪,調(diào)整大小為256x256像素,作為網(wǎng)絡(luò)的輸入,并基于二維姿態(tài)估計(jì)模型預(yù)測(cè)地標(biāo)定位。然后利用預(yù)測(cè)來(lái)計(jì)算原始圖像的關(guān)節(jié)定位。
使用Trink7對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。沙漏組件是基于[6]中的公共代碼。并用提出的分層并行多尺度結(jié)構(gòu)代替原點(diǎn)殘差塊。為了快速訓(xùn)練,我們使用了一個(gè)淺層的堆積沙漏,即每一個(gè)沙漏有2個(gè)堆棧,2個(gè)剩余模塊[6 ]。網(wǎng)絡(luò)的最終預(yù)測(cè)是給定關(guān)節(jié)的熱映射的最大激活位置。
2.5二維姿態(tài)估計(jì)
(a)MPII結(jié)果(PCKh@ 0.5)(b)Human3.6M結(jié)果(PCKh@ 0.5)
我們使用標(biāo)準(zhǔn)度量PCKh@0.5來(lái)評(píng)估2D姿態(tài)估計(jì)的精度。其結(jié)果可以在圖2中看到,圖2顯示了隨著訓(xùn)練的進(jìn)展,驗(yàn)證圖像的平均準(zhǔn)確度,圖3分別顯示了MPII和Human3.6M測(cè)試圖像的平均準(zhǔn)確度。表明我們提出的網(wǎng)絡(luò)具有很強(qiáng)的學(xué)習(xí)能力,能夠得到較高的估計(jì)精度。
3 結(jié)論
介紹了一種基于RGB圖像的利用卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行人體姿態(tài)估計(jì)的方法。首先,我們提出了一種分層的并行多尺度殘差結(jié)構(gòu),以提高二維姿態(tài)預(yù)測(cè)的精度。然后,根據(jù)獲得的2D關(guān)節(jié)位置,估計(jì)人體具體姿態(tài)。在不同的人體姿態(tài)數(shù)據(jù)集下的估計(jì)實(shí)驗(yàn)證明了本文的人體姿態(tài)估計(jì)方法具有很好的魯棒性,對(duì)基于RGB圖像的人體姿態(tài)估計(jì)能夠得到較好的效果
參考文獻(xiàn):
[1] 朱煜, 趙江坤, 王逸寧, 等.基于深度學(xué)習(xí)的人體行為識(shí)別算法綜述[J]. 自動(dòng)化學(xué)報(bào). 2016,42(6):848?857.
[2] ShottonJ,Girshick R, Fitzgibbon A, et al. Efficient human pose estimation from single depthimages. In Proceedings of IEEE Transactions on Pattern Analysis and Machine Intelligence[M]. IEEE Computer Society Press, 2013:2821–2840.
[3] Toshev A, Szegedy C. DeepPose: Human pose estimation via deep neural networks. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[J]. IEEE Computer SocietyPress, 2014:1653-1660.
[4] Cao, Z., Simon, T., Wei, S. E., et al. Realtime Multi- Person 2D Pose Estimation using Part Affinity Fields. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[M].IEEE Computer Society Press,2016:7291- 7299.
[5] Wei S E, Ramakrishna V, Kanade T, et al. Convolutional pose machines. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[M]. IEEE Computer Society Press. 2016:4724-4732.
[6] Alejandro, Newell.,kaiyu, Yang., and Jia, Deng. Stacked Hourglass Networks for Human Pose Estimation[M].In ECCV. 2016:483-499.
【通聯(lián)編輯:代影】