国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)的二維人體姿態(tài)估計綜述

2021-12-17 00:56張靜靜寧媛章成學(xué)
智能計算機(jī)與應(yīng)用 2021年6期
關(guān)鍵詞:檢測器關(guān)鍵點姿態(tài)

張靜靜,寧媛,章成學(xué)

(貴州大學(xué) 電氣工程學(xué)院,貴陽 550025)

0 引言

人體姿態(tài)估計任務(wù)已經(jīng)研究了幾十年,目的是從給定的傳感器輸入獲取人體的姿態(tài),通常使用基于視覺的方法來獲得。近年來,隨著深度學(xué)習(xí)在圖像分類[1]、目標(biāo)檢測[2]、語義分割[3]等計算機(jī)任務(wù)上的良好表現(xiàn),姿態(tài)估計利用深度學(xué)習(xí)技術(shù)也取得了快速發(fā)展。主要的發(fā)展包括設(shè)計了良好且具有強大估計能力的網(wǎng)絡(luò),以及更豐富的數(shù)據(jù)集,用于訓(xùn)練網(wǎng)絡(luò)和更實際的人體模型。雖然已有一些關(guān)于姿態(tài)估計的評論,但是國內(nèi)仍然缺乏一份調(diào)查,來總結(jié)最近基于深度學(xué)習(xí)的二維人體姿態(tài)估計成果。

姿態(tài)估計作為計算機(jī)視覺基礎(chǔ)任務(wù)之一,是一個非常重要的研究領(lǐng)域,可以應(yīng)用于許多方面。如:動作識別、動作檢測[4]、電影與動畫、人體跟蹤[5]、虛擬現(xiàn)實、人機(jī)交互、視頻監(jiān)控、醫(yī)療輔助、自動駕駛、運動運動分析等等。

二維人體姿態(tài)估計具有一些獨具的特點和挑戰(zhàn)。二維人體姿態(tài)估計的挑戰(zhàn)主要集中在3 個方面:

(1)靈活的身體結(jié)構(gòu),表明復(fù)雜的相互依賴關(guān)節(jié)和高自由度的四肢,可能導(dǎo)致自咬合或罕見甚至復(fù)雜的姿態(tài)。

(2)不同的身體外觀,包括不同的衣服和附近人姿態(tài)的誤導(dǎo)。

(3)復(fù)雜的環(huán)境可能導(dǎo)致前景遮擋、附近人遮擋,各種視角以及攝像機(jī)視圖中的截斷。

本次調(diào)查廣泛總結(jié)了2014 年以來發(fā)表的基于深度學(xué)習(xí)的人體姿態(tài)估計方法的里程碑式研究成果。

1 單人姿態(tài)估計

基于深度學(xué)習(xí)的單人姿態(tài)估計方法的目標(biāo)是定位人體部分的關(guān)鍵點。典型的單人姿態(tài)估計模型框架分為2 種:一是直接從特征中回歸關(guān)鍵點,稱之為基于直接回歸的框架;二是先生成熱圖,并通過熱圖推斷關(guān)鍵點位置,稱之為基于熱圖的框架。

1.1 基于直接回歸框架

一些研究是基于直接回歸框架提出的,例如Toshev等人[4]提出了一種直接預(yù)測人體關(guān)鍵點的級聯(lián)DNN 回歸器。然而,如果沒有其它的過程,直接從特征圖學(xué)習(xí)映射關(guān)系是很困難的。Carreira等人[5]使用了自校正模型。通過反饋誤差預(yù)測,可以逐步改進(jìn)預(yù)測的關(guān)鍵點位置。Sun等人[6]提出了一種稱為“合成姿勢回歸”的結(jié)構(gòu)感知方法。與其它相關(guān)工作不同的是,該方法使用骨骼而不是關(guān)節(jié)重新參數(shù)化姿勢表示,骨骼之間的相互作用通過一個成分損失函數(shù)進(jìn)行編碼,這樣的做法更原始、更穩(wěn)定、并且更易于學(xué)習(xí)。Luvizon等人[7]提出Softargmax,將熱圖用一個完全可微的方式轉(zhuǎn)換成坐標(biāo),其端到端的方式可訓(xùn)練網(wǎng)絡(luò)采用基于關(guān)鍵點誤差距離的損失函數(shù)和基于上下文的結(jié)構(gòu),使其能夠獲得與最先進(jìn)的基于熱圖的框架相比較的結(jié)果。

1.2 基于熱圖框架

很多研究都采用了基于熱圖的框架,其中一些研究在提出的模型中利用了人類的先驗信息。例如,Chen等人[8]使用了由DCNN 學(xué)習(xí)的具有成對關(guān)系的圖形模型;Chen等人[9]通過采用條件生成對抗網(wǎng)絡(luò)(GANs)的訓(xùn)練策略來整合人體的先驗知識等等。基于熱圖的實例如圖1 所示。

圖1 基于熱圖的實例Fig.1 Example based on heatmap

網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計一直是基于深度學(xué)習(xí)方法的主題。卷積式位姿機(jī)(CPM)[10]對熱圖進(jìn)行多階段回歸,并使用中間監(jiān)督來避免消失梯度。Newell等[11]設(shè)計了一種稱為“堆疊沙漏”的新型網(wǎng)絡(luò)結(jié)構(gòu)。實踐證明重復(fù)自下而上、自上而下的中間監(jiān)督處理,是提高人體姿勢檢測性能的關(guān)鍵。Chu等人[12]建立了基于堆疊沙漏的基線模型,采用多上下文注意機(jī)制,使模型更加健壯和準(zhǔn)確。此外還通過耦合沙漏殘余單元來改進(jìn)堆積沙漏的結(jié)構(gòu)。Martinez等人[13]提出采用深度神經(jīng)網(wǎng)絡(luò)直接使用2D 關(guān)鍵點來預(yù)測3D 關(guān)鍵點。實驗結(jié)果表明,二維檢測是導(dǎo)致三維人體姿態(tài)估計誤差的主要原因之一。

1.3 關(guān)于兩種框架的討論

關(guān)節(jié)位置的直接回歸是高度非線性的,所以不僅在映射學(xué)習(xí)中存在困難,還不能應(yīng)用于多人情況(自底向上方法或一個檢測框包含多個人的情況)。但是,如果采用一些特殊的技術(shù)相結(jié)合,直接回歸會更可靠,因為當(dāng)應(yīng)用直接回歸時,最終結(jié)果可以在不處理熱圖的情況下,以端到端的方式獲得,不需要太多的更改而應(yīng)用到3D 場景。相比之下,基于熱圖的框架首先回歸熱圖。熱圖可以可視化,可以增強人類的理解和對更加復(fù)雜的情況進(jìn)行建模?;跓釄D的框架預(yù)測結(jié)果的精度依賴于熱圖的分辨率,這需要較高的內(nèi)存消耗[18]。因此,對于框架選擇問題沒有一個絕對的結(jié)論,每種框架都有其優(yōu)點和缺點。

2 二維多人姿態(tài)估計

與單人姿態(tài)估計不同,由于輸入圖像中沒有人數(shù)的提示,多人姿態(tài)估計需要同時處理檢測和定位任務(wù)。根據(jù)高層抽象還是低層像素開始計算方式的不同,人體姿態(tài)估計方法可以分為自上而下方法和自下而上方法。

自頂向下的方法通常使用人體檢測器,獲取輸入圖像中每個人的邊界框,然后直接利用現(xiàn)有的單人姿態(tài)估計方法來預(yù)測人的姿態(tài)。預(yù)測的姿勢精度很大程度上取決于對人的檢測精度。整個系統(tǒng)的運行時間與人員數(shù)量成比例。而自下而上的方法直接預(yù)測所有人的二維關(guān)節(jié),然后將其分組。復(fù)雜環(huán)境下關(guān)節(jié)點的正確分組是一項具有挑戰(zhàn)性的研究課題。

2.1 自頂向下方法

自頂向下姿態(tài)估計方法的2 個最重要的組成部分是:人體區(qū)域檢測和單人姿態(tài)估計。大部分研究集中在基于現(xiàn)有人體檢測方法上的人體部位估計。Iqbal等人[14]使用基于卷積姿態(tài)機(jī)的姿態(tài)估計器來生成初始姿態(tài),然后利用整數(shù)線性規(guī)劃(ILP)得到最終位姿。Fang等人[15]采用了空間轉(zhuǎn)換網(wǎng)絡(luò)(STN)、非最大抑制(NMS)和沙漏網(wǎng)絡(luò)(Hourglass network),以便存在不精確的人體邊界框時進(jìn)行姿態(tài)估計。Huang等人[16]設(shè)計了一個CFN 網(wǎng)絡(luò),以incep-v2 網(wǎng)絡(luò)為骨干網(wǎng)絡(luò)。該網(wǎng)絡(luò)采用多層次監(jiān)督,實現(xiàn)粗預(yù)測和精預(yù)測的學(xué)習(xí)。Xiao等人[17]在ResNet 最后一個卷積層后添加了幾個逆卷積層,從低分辨率的特征中生成熱圖。Chen等人[18]提出了一種級聯(lián)金字塔網(wǎng)絡(luò)(CPN),該網(wǎng)絡(luò)利用不同層次的多尺度特征映射,從局部和全局特征中獲取更多的推理,并對困難節(jié)點進(jìn)行在線硬關(guān)鍵點挖掘損失。

基于不同HPE 方法的相似位姿誤差分布,Moon等人[19]設(shè)計了PoseFix 網(wǎng),用來改善從任何方法估計的位姿。M.Wang等人[20]提出了一種新穎的自上而下的方法,可以解決視頻中多人人體姿勢估計和跟蹤的問題。與現(xiàn)有的自上而下的方法相比,該方法不受其人員檢測器性能的限制,并且可以預(yù)測未定位人員實例的姿勢。

若將現(xiàn)有的檢測網(wǎng)絡(luò)與單一的姿態(tài)估計網(wǎng)絡(luò)相結(jié)合,可以很容易地實現(xiàn)自頂向下的姿態(tài)估計方法。但是,這類方法的性能受到人體檢測結(jié)果的影響,運行速度往往也不是實時的。

2.1.1 人體檢測對姿態(tài)估計性能的影響

首先,自頂向下方法是進(jìn)行人體檢測。在人體姿態(tài)估計中,最常用的人體檢測器是基于Faster RCNN 結(jié)構(gòu),其是一種高性能檢測器。Faster R-CNN基于不同的基礎(chǔ)網(wǎng)絡(luò)和擴(kuò)展結(jié)構(gòu),具有許多變體,這些變體具有不同的準(zhǔn)確性、推斷時間和計算復(fù)雜度。通常,檢測結(jié)果越準(zhǔn)確,網(wǎng)絡(luò)越復(fù)雜,此時應(yīng)該考慮準(zhǔn)確性、內(nèi)存和時間之間的權(quán)衡。

大多數(shù)研究表明,用更好的人體探測器提高了人體姿態(tài)估計的精度,如圖2 所示。文獻(xiàn)[18]的結(jié)果表明,在檢測器性能較差的情況下,姿態(tài)估計器從較好的人體檢測器獲得了較大的增益。隨著人體檢測器平均精度的提高,人體姿態(tài)估計器的精度提高速度變慢。當(dāng)人體檢測器達(dá)更高精度時,姿態(tài)估計網(wǎng)絡(luò)的精度則無法再提高。換句話說,人體檢測器在性能一般時很重要,但在達(dá)到高性能時就不重要了。姿態(tài)估計器的增益隨著更高的人體檢測AP 而非常小,尤其是當(dāng)人體檢測器已經(jīng)足夠精確時。

圖2 行人檢測mAP 和關(guān)鍵點檢測mAP 間的關(guān)系Fig.2 Relationship of human detection mAP and keypoints mAP

2.1.2 NMS(非極大值抑制)

NMS 是一種常用的抑制冗余檢測的方法。該技術(shù)可應(yīng)用于自頂向下的人體姿態(tài)估計方法的2 個階段。對于人體檢測,有2 種NMS 方法:標(biāo)準(zhǔn)NMS和soft-NMS[21]。soft-NMS 在文獻(xiàn)[12]中性能更好,同時具有與標(biāo)準(zhǔn)NMS 相同的計算復(fù)雜度,這使得其成為一種改進(jìn)人體檢測的簡單方法。文獻(xiàn)[18]提出了一個基于OKS 的NMS,該方法考慮人類實例中關(guān)鍵點的相似性;文獻(xiàn)[15]中提出的參數(shù)化姿態(tài)NMS 是數(shù)據(jù)驅(qū)動的,這意味著所有的參數(shù)都是從數(shù)據(jù)中學(xué)來的,而不是手動設(shè)置的。該方法比文獻(xiàn)[22]中提出的方法快很多,但比文獻(xiàn)[18]中的NMS 方法復(fù)雜得多。

2.2 自底向上的方法

自底向上姿態(tài)估計方法主要由人體關(guān)節(jié)檢測和關(guān)節(jié)分組2 部分組成。Deepcut[23]使用了一種基于Fast R-CNN 的身體部位檢測器,首先檢測出所有的身體部位,然后將每個部位標(biāo)記為對應(yīng)的部位類別,用整數(shù)線性規(guī)劃,將這些部位組裝成一個完整的個體。DeeperCut[24]使用一種基于ResNet 的更強身體部件檢測器,用來探索候選關(guān)節(jié)對象之間幾何外觀約束的增量優(yōu)化策略,從而改進(jìn)了DeepCut。Cao等人[25]使用CPM 預(yù)測具有部分親和力場(PAF)的所有身體關(guān)節(jié)候選對象。提出的PAFs 可以編碼肢體的位置和方向,將估計的關(guān)節(jié)組裝成不同人的姿勢。Nie等人[26]提出了一種姿態(tài)分割網(wǎng)絡(luò)(PPN),對關(guān)節(jié)分割進(jìn)行聯(lián)合檢測和稠密回歸,通過關(guān)節(jié)劃分對關(guān)節(jié)構(gòu)型進(jìn)行局部推理。與OpenPose 類似,Kreiss等人[27]設(shè)計了一個PifPaf 網(wǎng)絡(luò),來預(yù)測部分強度場(PIF)和部分關(guān)聯(lián)場(PAF),來表示身體關(guān)節(jié)位置和身體關(guān)節(jié)關(guān)聯(lián)。由于PAF 的細(xì)粒度和Laplace 損失函數(shù)的使用,該算法在低分辨率圖像上運行良好。B.Cheng等人[28]利用高分辨率特征金字塔來學(xué)習(xí)尺度感知表示。該方法具有訓(xùn)練的多分辨率監(jiān)控與推理的多分辨率聚合,能夠更精確地解決多人姿態(tài)估計和定位關(guān)鍵點的尺度變化問題。

近年來,已有一些方法可以實現(xiàn)一次性預(yù)測。Newell等人[29]引入了一種單級深度網(wǎng)絡(luò)架構(gòu),可以同時進(jìn)行檢測和分組。該網(wǎng)絡(luò)可以生成每個關(guān)節(jié)的檢測熱圖,以及包含每個關(guān)節(jié)的分組標(biāo)簽的關(guān)聯(lián)嵌入圖。Papandreou等人[30]提出了一種用于姿態(tài)估計和實例分割的無檢測框多任務(wù)網(wǎng)絡(luò)。該網(wǎng)絡(luò)可以同步預(yù)測每個人所有關(guān)鍵點的關(guān)節(jié)熱圖和其之間的相對距離,并按照一種基于樹結(jié)構(gòu)運動圖的貪婪解碼過程進(jìn)行分組。Kocabas等人[31]提出,結(jié)合多任務(wù)模型和一種新的分配方法來處理人體關(guān)鍵點估計,完成檢測和語義分割任務(wù)。其主干網(wǎng)是ResNet和FPN 的結(jié)合,具有關(guān)鍵點和個人檢測子網(wǎng)的共享特性。A.Varamesh等人[32]設(shè)計了一個使用混合密度網(wǎng)絡(luò)進(jìn)行空間回歸的框架,實現(xiàn)了對象檢測和人體姿勢估計的框架。

目前自底向上方法的處理速度非???,有些方法可以實時運行。然而,復(fù)雜的背景和人體遮擋會對性能產(chǎn)生很大的影響。自頂向下的方法在幾乎所有標(biāo)準(zhǔn)數(shù)據(jù)集上都取得了最先進(jìn)的性能,但其處理速度也受到檢測人數(shù)的限制。

2.2.1 熱圖生成方法

目前,有3 種方法可用來生成熱圖:一是在每個關(guān)鍵點位置,通過二維高斯激活設(shè)置熱圖;二是將圓心為關(guān)鍵點,半徑為R(超參數(shù))的圓心內(nèi)所有位置的像素值設(shè)為1,其它位置設(shè)為0,當(dāng)采用這種熱圖時,通過預(yù)測位置偏置圖來更準(zhǔn)確地定位關(guān)鍵點;三是生成一個二進(jìn)制掩模。

2.2.2 關(guān)鍵點連接方法

在自下而上的方法中,關(guān)鍵點連接是一個重要的步驟。Deepcut[23]使用CNN 只是學(xué)習(xí)外觀特征,使用其它手工定義的幾何特征擬合logistic 模型進(jìn)行配對概率估計。然而,Deepercut[24]將人工計算的特征改為由深度神經(jīng)網(wǎng)絡(luò)生成的學(xué)習(xí)特征,大大提高了AP。2 種方法都對幾何特征采用logistic 模型來模擬成對關(guān)節(jié)的親和力。PAFs[25]和關(guān)聯(lián)嵌入[22]以深度學(xué)習(xí)的方式與熱圖同時學(xué)習(xí)。當(dāng)涉及到將關(guān)節(jié)分組到人體實例時,其更加直接。這2 種方法的性能比文獻(xiàn)[23]提到的更好。這是因為深度神經(jīng)網(wǎng)絡(luò)的容量更大,并且直接從數(shù)據(jù)中學(xué)習(xí),既可以捕捉局部特征,也可以捕捉全局背景。

3 數(shù)據(jù)集與評價指標(biāo)

3.1 數(shù)據(jù)集

早期的數(shù)據(jù)集中包含的圖片背景相對簡單,圖像數(shù)量太少,無法進(jìn)行訓(xùn)練,并不適合基于深度學(xué)習(xí)的方法。基于深度學(xué)習(xí)方法中常用的數(shù)據(jù)集包括MSCOCO、MPII、LSP、FLIC、PoseTrack 和 AI Challenger等。其中,LSP 數(shù)據(jù)集中的圖像來自體育活動場景,F(xiàn)LIC 數(shù)據(jù)集是從好萊塢電影中收集得到的。LSP 和FLIC 數(shù)據(jù)集相對較小,只包含特定類型的活動。最新的數(shù)據(jù)集,如MSCOCO 和 AI Challenger,在類別數(shù)量上則更豐富。

3.2 評價指標(biāo)

不同的數(shù)據(jù)集具有不同的特征(例如,不同范圍的人體尺寸、上身/全身)和不同的任務(wù)要求(單/多姿態(tài)估計),因此用于2D 人體姿態(tài)估計的評估指標(biāo)也有所不同。

(1)部位正確估計百分比(Percentage of Correct Parts,PCP):為早期姿態(tài)估計的評估指標(biāo),用于評估肢體的定位精度,若肢體的2 個端點在相應(yīng)真值端點的閾值內(nèi),則該肢體被正確定位;

(2)關(guān)節(jié)點正確定位百分比(Percentage of Correct Keypoints,PCK):評估人體關(guān)節(jié)點定位的準(zhǔn)確率,若候選關(guān)節(jié)點落在真實關(guān)節(jié)點的閾值像素內(nèi),則該候選關(guān)節(jié)點是正確的;

(3)關(guān)節(jié)點平均精度(Average Precision of Keypoints,APK):通過PCK 評估將預(yù)測的姿態(tài)分配給真值姿態(tài)后,由APK 得出每個關(guān)節(jié)點定位準(zhǔn)確的平均精度;

(4)對象關(guān)節(jié)點相似度(Object Keypoint Similarity,OKS):多人姿態(tài)估計評價指標(biāo),計算真值和所預(yù)測人體關(guān)節(jié)點的相似度。

4 結(jié)束語

在這篇綜述中,對基于深度學(xué)習(xí)的二維人體姿態(tài)估計方法進(jìn)行了總結(jié)和討論。盡管當(dāng)前的人體姿態(tài)估計方法已經(jīng)有了顯著的改進(jìn),但是為了更好的現(xiàn)實應(yīng)用,仍然可以被改進(jìn)。

關(guān)于算法速度問題:目前的算法速度仍然很慢,不能滿足實時預(yù)測的要求,因此必須進(jìn)一步探索加快檢測速度。雖已有一些研究網(wǎng)絡(luò)壓縮和網(wǎng)絡(luò)加速的工作,但其不是為人體姿態(tài)檢測而設(shè)計的,與分類任務(wù)和檢測任務(wù)相比,人體姿態(tài)檢測需要更高分辨率的輸出特征圖。加速方法應(yīng)進(jìn)一步研究。

關(guān)于數(shù)據(jù)集問題:目前的數(shù)據(jù)集非常大,但姿態(tài)分布不平衡,還沒有研究探索用不平衡數(shù)據(jù)集檢測罕見姿態(tài)的方法。可能的改進(jìn)包括做數(shù)據(jù)擴(kuò)充和設(shè)計一個特殊的訓(xùn)練程序。

關(guān)于數(shù)遮擋問題:遮擋和自遮擋仍然給人體姿態(tài)估計帶來挑戰(zhàn)。一些工作結(jié)合了人類先驗和數(shù)據(jù)驅(qū)動的方法來解決這個問題,但是其結(jié)果不夠健壯。

本文討論了2014 年以來發(fā)表的基于深度學(xué)習(xí)的人體姿態(tài)估計方法的里程碑式研究成果,總結(jié)了基于深度學(xué)習(xí)的人體姿態(tài)估計的數(shù)據(jù)集和度量。希望讀者能從調(diào)查分析中得到啟發(fā),解決上面提到的困難,夠促進(jìn)提升姿態(tài)估計速度、基于不平衡和未標(biāo)記數(shù)據(jù)的數(shù)據(jù)增強、解決遮擋問題等研究領(lǐng)域的進(jìn)步。

猜你喜歡
檢測器關(guān)鍵點姿態(tài)
論建筑工程管理關(guān)鍵點
水利水電工程施工質(zhì)量控制的關(guān)鍵點
筑夢家國的最美姿態(tài)
用于錄井專用氣相色譜儀的FID檢測器
利用定義法破解關(guān)鍵點
高效液相色譜法應(yīng)用中常見問題與處理
另一種姿態(tài)
機(jī)械能守恒定律應(yīng)用的關(guān)鍵點
閱讀是最美的姿態(tài)