岳程宇 閆勝業(yè)
摘 ?要:在神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)流行的今天,2D人體姿態(tài)估計(jì)作為其他計(jì)算機(jī)視覺任務(wù)的研究基礎(chǔ),它的檢測(cè)精度和速度對(duì)后續(xù)其他檢測(cè)等任務(wù)有著重大的影響,并且引起了學(xué)者們的廣泛關(guān)注。文章針對(duì)該方向的研究?jī)?nèi)容進(jìn)行了綜述,闡述了研究意義和應(yīng)用,對(duì)數(shù)據(jù)庫和評(píng)價(jià)指標(biāo)進(jìn)行介紹,接著結(jié)合代表作分析研究了姿態(tài)估計(jì)的傳統(tǒng)方法、深度學(xué)習(xí)方法,最后總結(jié)討論現(xiàn)階段研究的問題和趨勢(shì)。
關(guān)鍵詞:計(jì)算機(jī)視覺;姿態(tài)估計(jì);人體關(guān)鍵點(diǎn)
中圖分類號(hào):TP391.41 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)12-0090-03
Abstract:Under the popularity of neural network and deep learning,2D pose estimation,the precision and speed of it has a great influence on the next task,and it has attracted wide attention of scholars. For this research details,this paper expounds the meanings and applications,introduces the databases and the evaluation indexes,then analyses the conventional methods and deep learning methods. Finally,it summarizes and discusses the current research problems and trend.
Keywords:computer vision;pose estimation;key points of human body
0 ?引 ?言
2D人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺研究中的一個(gè)重要分支,其研究結(jié)合了檢測(cè)、識(shí)別、跟蹤的相關(guān)方法。其主要目的是對(duì)人體骨骼的關(guān)鍵點(diǎn)進(jìn)行準(zhǔn)確快速定位識(shí)別,即給出一張RGB的圖像,定位圖中人體的關(guān)鍵點(diǎn)位置,并確定其隸屬的人體。
筆者在研究新型人體姿態(tài)估計(jì)網(wǎng)絡(luò)時(shí),發(fā)現(xiàn)更進(jìn)一步的研究需要對(duì)2D人體姿態(tài)估計(jì)的數(shù)據(jù)庫及其評(píng)價(jià)指標(biāo)、傳統(tǒng)方法和主流方法進(jìn)行綜合了解,并且要把握姿態(tài)估計(jì)現(xiàn)在的困難以及未來的發(fā)展。筆者通過查閱分析近些年來人體姿態(tài)估計(jì)的相關(guān)方法論文,從其研究的意義和應(yīng)用、數(shù)據(jù)庫及其評(píng)價(jià)指標(biāo)、2D人體姿態(tài)估計(jì)的傳統(tǒng)方法和深度學(xué)習(xí)方法、現(xiàn)階段的問題與發(fā)展趨勢(shì)這4個(gè)角度分析進(jìn)行了總結(jié)。
1 ?研究意義與應(yīng)用
2D人體姿態(tài)估計(jì)的研究是一些其他計(jì)算機(jī)視覺問題研究的基礎(chǔ)。它可以作為3D人體姿態(tài)估計(jì)研究的鋪墊,對(duì)于視頻動(dòng)作識(shí)別來說可以作為前處理的來源,在重識(shí)別、視頻追蹤問題上,2D姿態(tài)估計(jì)都可以作為靜態(tài)圖像,并為動(dòng)態(tài)處理提供有力的支持。
在現(xiàn)實(shí)應(yīng)用方面,人體姿態(tài)估計(jì)可以應(yīng)用于電影VR和AR技術(shù)、人體仿真模型的構(gòu)建、手機(jī)短視頻軟件的人體動(dòng)作特效等;在安全領(lǐng)域中可以作為駕駛輔助對(duì)行人進(jìn)行檢測(cè)和其未來動(dòng)作進(jìn)行識(shí)別、預(yù)測(cè);在特殊重大場(chǎng)合下對(duì)密集人群危險(xiǎn)動(dòng)作的視頻監(jiān)控等
2 ?數(shù)據(jù)庫及評(píng)價(jià)標(biāo)準(zhǔn)
2D姿態(tài)估計(jì)的數(shù)據(jù)庫主要有MS COCO、MPII、FLIC。目前主流研究姿態(tài)估計(jì)的數(shù)據(jù)庫是COCO和MPII這兩個(gè)數(shù)據(jù)庫。
COCO數(shù)據(jù)集[1]是微軟于2014年為用于進(jìn)行圖像分割檢測(cè),圖片上下文關(guān)系研究而出資標(biāo)注的。它是繼ImageNet競(jìng)賽后計(jì)算機(jī)視覺領(lǐng)域最受關(guān)注和權(quán)威的比賽之一。COCO數(shù)據(jù)集包含了有20萬張圖片和25萬個(gè)帶有17個(gè)人體骨骼關(guān)鍵點(diǎn)標(biāo)注實(shí)例。
COCO數(shù)據(jù)集的評(píng)價(jià)指標(biāo)為OKS,其中KS是一個(gè)關(guān)鍵點(diǎn)真值與預(yù)測(cè)值的相似度,如式(1),P表示的真值中的每個(gè)人的ID,pi表示的是某人關(guān)鍵點(diǎn)的ID,Vpi=0表示這個(gè)關(guān)鍵點(diǎn)沒有標(biāo)注,Vpi=1表示標(biāo)注了但是圖像中不可見,Vpi=2表示標(biāo)注了且圖像中可見, 表示的是這個(gè)人所占面積的大小的平方根,σi表示第i個(gè)骨骼的歸一化因子,dpi表示真值關(guān)鍵點(diǎn)與預(yù)測(cè)關(guān)鍵點(diǎn)之間的歐式距離,δ將關(guān)鍵點(diǎn)選出的函數(shù)。
MPII數(shù)據(jù)集是2014年發(fā)布的關(guān)于人體姿態(tài)估計(jì)的評(píng)估基準(zhǔn),它包括大約2.5萬張圖片,其中有超過4萬人的身體關(guān)鍵點(diǎn)有注釋,每個(gè)人體注釋了16個(gè)特征關(guān)鍵點(diǎn)。它的評(píng)價(jià)指標(biāo)為PCK@0.5,是檢測(cè)正確關(guān)鍵點(diǎn)的百分比,若預(yù)測(cè)關(guān)節(jié)與真實(shí)關(guān)節(jié)之間的距離在特定閾值內(nèi),則檢測(cè)到的關(guān)節(jié)被認(rèn)為是正確的,其閾值大小為頭骨長(zhǎng)度的50%。
3 ?2D人體姿態(tài)估計(jì)研究方法
3.1 ?傳統(tǒng)方法
人體姿態(tài)估計(jì)的傳統(tǒng)研究的主流方式有兩種。第一類是直接通過一個(gè)全局特征,把人體姿態(tài)估計(jì)問題當(dāng)成分類問題或回歸問題直接求解。
Randomized Trees for Human Pose Detection[2]中作者提出將人體姿態(tài)估計(jì)問題當(dāng)作分類任務(wù)來做,他們的姿態(tài)估計(jì)算法中使用了層次樹和隨機(jī)森林的方法,隨機(jī)樹和隨機(jī)森林可以快速且高效地處理多分類的問題且具有一定的魯棒性。在特征提取方法中,作者使用了當(dāng)時(shí)比較成功的HOG描述子進(jìn)行特征提取,如圖1所示。
第二類是基于一個(gè)圖形結(jié)構(gòu)模型,其思想是,將對(duì)象表示成一堆“部件”的集合,而部件的組合是可以發(fā)生形變的。一個(gè)部件表示目標(biāo)對(duì)象某部分圖形的模板。當(dāng)部件通過像素位置和方向進(jìn)行參數(shù)化后,其得到的結(jié)構(gòu)可以對(duì)與姿態(tài)估計(jì)非常相關(guān)的關(guān)鍵點(diǎn)進(jìn)行建模。
在Pictorial Structures Revisited:People Detection and Articulated Pose Estimation[5]中,作者提出了功能強(qiáng)大且簡(jiǎn)單的身體模型,可以精確有效地推斷身體部件的樹模型結(jié)構(gòu),同時(shí)研究了強(qiáng)大的關(guān)鍵點(diǎn)檢測(cè)器,適用于各種不同場(chǎng)景下對(duì)關(guān)鍵點(diǎn)的檢測(cè)。而且基于形狀上下文描述計(jì)算,使用了AdaBoost來訓(xùn)練分類器。
3.2 ?深度學(xué)習(xí)方法
在傳統(tǒng)方法中,特征的提取和圖結(jié)構(gòu)模型在姿態(tài)估計(jì)中都扮演了非常重要的角色。隨著神經(jīng)網(wǎng)絡(luò)的流行、深度學(xué)習(xí)的運(yùn)用,它將特征提取、分類和空間位置建模都直接在一個(gè)“黑盒”中進(jìn)行端到端的訓(xùn)練,這不僅方便研究人員設(shè)計(jì)與優(yōu)化,而且計(jì)算處理的數(shù)據(jù)越多,檢測(cè)的效果也越好。
2D人體姿態(tài)估計(jì)的深度學(xué)習(xí)方法大致可分為自上而下(Top-Down)和自底向上(Bottom-Up)這兩種。
3.2.1 ?Top-Down
這是一種自上而下的方法它是先通過目標(biāo)檢測(cè)算法檢測(cè)人體的邊界框,再對(duì)圖片進(jìn)行裁剪,將裁剪圖片進(jìn)行單人姿態(tài)估計(jì)。
DeepPose:Human Pose Estimation via Deep Neural Networks[3]是第一篇將深度學(xué)習(xí)應(yīng)用在人體姿態(tài)估計(jì)問題的文獻(xiàn)。它把姿態(tài)估計(jì)設(shè)計(jì)成一個(gè)關(guān)鍵點(diǎn)回歸問題,并用神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)。首先輸入圖像,用一個(gè)7層的卷積神經(jīng)網(wǎng)絡(luò)和使用L2損失對(duì)模型進(jìn)行回歸訓(xùn)練。它克服了之前只使用局部特征的缺陷,并使用了全局的特征網(wǎng)絡(luò),如圖2所示。
HRNet是2019年提出來的新的單人姿態(tài)估計(jì)研究的方法。HRNet是通過串聯(lián)多個(gè)由高分辨到低分辨的子網(wǎng)來建立的,每個(gè)子網(wǎng)構(gòu)成一個(gè)階段卷積序列且通過一個(gè)下采樣層將分辨率減半。網(wǎng)絡(luò)向右側(cè)方向,深度不斷加深;網(wǎng)絡(luò)向下方向,特征圖分辨率逐漸降低,高分辨率和低分辨率特征圖在中間有互相融合的過程,這樣提升了高分辨下的表示。
3.2.2 ?Bottom-Up
這是一種自下而上的方法,它是先檢測(cè)圖片中所有的關(guān)鍵點(diǎn),然后再對(duì)關(guān)鍵點(diǎn)通過匹配算法進(jìn)行人體匹配。
在DeepCut中,作者通過CNN提取關(guān)鍵點(diǎn)的候選區(qū)域,每一個(gè)候選區(qū)域?qū)?yīng)一個(gè)關(guān)鍵點(diǎn),所有關(guān)鍵點(diǎn)組成一個(gè)密集連接圖,關(guān)鍵點(diǎn)之間的關(guān)聯(lián)性作為圖節(jié)點(diǎn)的權(quán)重,將其作為一個(gè)優(yōu)化問題。我們可以通過歸類得到有多少個(gè)人,并且通過圖論節(jié)點(diǎn)的聚類,進(jìn)行非極大值抑制,將優(yōu)化問題表示為整數(shù)線性規(guī)劃求解。
在OpenPose[4]中作者將輸入圖片輸入到一個(gè)特征提取網(wǎng)絡(luò),提取特征圖后分別使用神經(jīng)網(wǎng)絡(luò)提取關(guān)鍵點(diǎn)置信圖和親和場(chǎng),結(jié)構(gòu)如圖3所示。置信圖和親和向量場(chǎng)已知后,將關(guān)鍵點(diǎn)作為圖的頂點(diǎn),將關(guān)鍵點(diǎn)之間的相關(guān)性PAF看為圖的邊權(quán),則將多人檢測(cè)問題轉(zhuǎn)化為二分圖匹配問題,并用匈牙利算法求得最優(yōu)匹配。關(guān)鍵點(diǎn)連線聚類問題可看成是各肢體之間獨(dú)立優(yōu)化配對(duì),解決了肢體涉及的兩類關(guān)鍵點(diǎn)的連線聚類后,最后依據(jù)關(guān)鍵點(diǎn)相同銜接組成整個(gè)姿態(tài)。
4 ?現(xiàn)階段人體姿態(tài)估計(jì)研究問題趨勢(shì)
在擁擠場(chǎng)景下人體關(guān)鍵點(diǎn)檢測(cè)是目前十分具有挑戰(zhàn)的任務(wù),我們需要研究更多在不同場(chǎng)景、不同著裝、不同姿態(tài)、不同尺度下人的標(biāo)注圖片。同時(shí),這對(duì)姿態(tài)估計(jì)的檢測(cè)速度和精度都提出了非常高的要求。
在檢測(cè)任務(wù)中,網(wǎng)絡(luò)大部分都是需要巨大參數(shù)量和計(jì)算量的大網(wǎng)絡(luò),在計(jì)算機(jī)上容易實(shí)現(xiàn),但是轉(zhuǎn)入到嵌入式,移動(dòng)端的網(wǎng)絡(luò)研究還是遠(yuǎn)遠(yuǎn)不夠的,現(xiàn)在學(xué)者們主要的關(guān)注點(diǎn)是在提高關(guān)鍵點(diǎn)的檢測(cè)精度,而在如何提高檢測(cè)效率這個(gè)問題還需要進(jìn)一步研究。
目前2D人體關(guān)鍵點(diǎn)的研究,有從2D人體姿態(tài)估計(jì)+匹配的方法推斷3D結(jié)構(gòu),研究3D人體姿態(tài)估計(jì)問題,并有向更高維發(fā)展的趨勢(shì)。
單一的圖像理解已經(jīng)穩(wěn)步推進(jìn),但視頻理解的進(jìn)展較為緩慢,在Mask R-CNN的預(yù)測(cè)基礎(chǔ)上,通過整合相鄰視頻幀的時(shí)間信息對(duì)CNN進(jìn)行擴(kuò)展預(yù)測(cè)視頻信息,將研究的重點(diǎn)從圖片向視頻的方向發(fā)展。
在檢測(cè)問題中要想提升性能,往往需要更多的資源和成本,所以要在保證精度不變的情況下提升網(wǎng)絡(luò)效率,構(gòu)建一個(gè)輕量級(jí)的網(wǎng)絡(luò)。我們可以采用知識(shí)蒸餾的原理,實(shí)現(xiàn)姿態(tài)估計(jì)快速和低成本部署。
5 ?結(jié) ?論
2D人體姿態(tài)估計(jì)從傳統(tǒng)方法進(jìn)入了深度學(xué)習(xí)的時(shí)代,未來新的網(wǎng)絡(luò)結(jié)構(gòu)也不會(huì)是解決估計(jì)問題的核心,應(yīng)通過數(shù)據(jù)處理、增強(qiáng),以及更多的機(jī)器學(xué)習(xí)和數(shù)學(xué)方面的知識(shí),來共同研究這個(gè)問題。從工程方面產(chǎn)品落地角度思考,要研究更輕量、方便的模型進(jìn)行應(yīng)用??傊?,2D人體姿態(tài)估計(jì)是當(dāng)下一個(gè)具有很高熱度的計(jì)算機(jī)視覺研究領(lǐng)域,擁有非常廣闊的研究前景。
參考文獻(xiàn):
[1] LIN T Y,MAIRE M,BELONGIE S,et al. Microsoft COCO:Common Objects in Context [C]// Conference proceedings ECCV 2014,Zurich,Switzerland:Springer,2014.
[2] ROGEZ G,RIHAN J,RAMALINGAM S,et al. Randomized trees for human pose detection [C]//2008 IEEE Conference on Computer Vision and Pattern Recognition,Anchorage,AK,USA:IEEE,2018.
[3] TOSHEV A,SZEGEDY C. DeepPose:Human Pose Estimation via Deep Neural Networks [J/OL]. arXiv:1312.4659 [cs.CV].(2014-08-20).https://arxiv.org/abs/1312.4659.
[4] CAO Z,SIMON T,WEI S E,et al. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [J/OL]. arXiv:1611.08050 [cs.CV].(2017-04-14). https://arxiv.org/abs/1611.08050.
作者簡(jiǎn)介:岳程宇(1996.01—),男,漢族,江蘇南京人,碩士在讀,研究方向:模式識(shí)別;閆勝業(yè)(1978.06—),男,漢族,河南新鄉(xiāng)人,教授,博士研究生,工學(xué)博士,研究方向:視頻與圖像處理。