国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)算法綜述①

2022-11-07 09:07馬雙雙曹少中楊樹(shù)林
關(guān)鍵詞:關(guān)鍵點(diǎn)姿態(tài)圖像

馬雙雙,王 佳,曹少中,楊樹(shù)林,趙 偉,張 寒

(北京印刷學(xué)院 信息工程學(xué)院,北京 102600)

人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)基礎(chǔ)問(wèn)題,解決這個(gè)問(wèn)題是圖像和視頻中識(shí)別人類行為的重要步驟,主要內(nèi)容是從圖像中識(shí)別身體的各個(gè)部分,并計(jì)算其方向和位置信息.人體姿態(tài)估計(jì)作為解決圖像和視頻中人體關(guān)鍵點(diǎn)(如頭部、肩部、肘部等)坐標(biāo)的重要技術(shù),其流行與發(fā)展得到了眾多學(xué)者的廣泛關(guān)注.深度學(xué)習(xí)與卷積網(wǎng)絡(luò)的不斷發(fā)展,人體姿態(tài)估計(jì)在動(dòng)作識(shí)別[1]、動(dòng)作捕捉[2]、姿態(tài)追蹤[3]、手勢(shì)識(shí)別[4]、圖像生成[5]、人機(jī)交互[6]等方面得到了廣泛應(yīng)用.

人體姿態(tài)估計(jì)算法發(fā)展至今可以分為傳統(tǒng)方法和深度學(xué)習(xí)的方法.傳統(tǒng)方法采用手工提取特征建立模型,一般是基于圖結(jié)構(gòu)(pictorial structures)模型[7]和基于形變部件模型[8],由于遮擋嚴(yán)重、光線條件差和拍攝角度不同,因此具有挑戰(zhàn)性.它們的準(zhǔn)確性受到限制,特別是在嚴(yán)重遮擋和復(fù)雜光照條件下.近幾年人工智能發(fā)展迅速,學(xué)者將目光專注于研究深度學(xué)習(xí)模型,比如深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[9]、生成對(duì)抗網(wǎng)絡(luò)(generative adversarial nets,GANs)[10]、遞歸神經(jīng)網(wǎng)絡(luò)等.在圖像分割、圖像分類、圖像融合、圖像識(shí)別等領(lǐng)域獲得了顯著成果.人體姿態(tài)估計(jì)采用深度學(xué)習(xí)的方法可以利用CNN 提取到更加準(zhǔn)確的特征,有利于獲取人體關(guān)節(jié)點(diǎn)之間的聯(lián)系.

二維人體姿態(tài)估計(jì)是在圖像中識(shí)別出人體關(guān)鍵點(diǎn),將關(guān)鍵點(diǎn)按順序連接形成人體骨骼圖.本文主要從單人目標(biāo)和多人目標(biāo)兩個(gè)方向?qū)ΧS姿態(tài)估計(jì)進(jìn)行梳理和分析,整理了相關(guān)數(shù)據(jù)集與評(píng)價(jià)指標(biāo),并對(duì)當(dāng)前所面臨的問(wèn)題和未來(lái)發(fā)展趨勢(shì)進(jìn)行了闡述.

1 傳統(tǒng)算法

傳統(tǒng)方法主要用于解決姿態(tài)估計(jì)問(wèn)題,大部分采用模板匹配的方法.基于Fischler 等人[7]提出的圖結(jié)構(gòu)模型,首先人體部件檢測(cè)器將人或物體表示為多個(gè)部件,并使用圖形模型確定部件之間的連通性.2005年Felzenszwalb 等人[11]提出了一個(gè)統(tǒng)計(jì)框架,用于表示可變形結(jié)構(gòu)中對(duì)象的視覺(jué)外觀,它允許對(duì)外觀進(jìn)行定性描述,并假設(shè)組件與樹(shù)形結(jié)構(gòu)一致.

文獻(xiàn)[12]提出圖結(jié)構(gòu)主要由表述人體部件的局部模型(part model)和表述空間關(guān)系的空間模型(spatial model)構(gòu)成.為改善局部模型表現(xiàn)能力差的缺點(diǎn),使用了表現(xiàn)力更強(qiáng)的圖像特征,例如HOG 特征[13]和SIFT特征[14].韓貴金等人[15]提出一種基于HOG 和顏色特征融合的外觀模型,用于圖像中人體上半身的姿態(tài)估計(jì).前景技術(shù)可以應(yīng)用到姿態(tài)估計(jì)中[16],也可以將判別能力更強(qiáng)的檢測(cè)器來(lái)提高姿態(tài)估計(jì)準(zhǔn)確性[17].人體姿態(tài)估計(jì)會(huì)存在肢體遮擋的問(wèn)題,為解決此類問(wèn)題非樹(shù)形結(jié)構(gòu)的空間模型被提出[18].傳統(tǒng)方法已擁有較高的效率,但無(wú)法提取圖像中的充分信息并加以利用,使得適用方法范圍受到限制,并且由于傳統(tǒng)方法依賴于專業(yè)的攝影設(shè)備,成本較高,無(wú)法使用所有的應(yīng)用場(chǎng)景.

2 基于深度學(xué)習(xí)的方法

在近幾年,受到以端到端為特征的圖像識(shí)別的影響,越來(lái)越多的研究人員引入深度學(xué)習(xí)的人體姿態(tài)估計(jì)模型,并不斷提高模型的性能.深度學(xué)習(xí)通過(guò)訓(xùn)練大量的樣本數(shù)據(jù),獲取更加高效準(zhǔn)確的特征.相較于傳統(tǒng)方法,深度學(xué)習(xí)的方法魯棒性更強(qiáng)、泛化能力更好.自2014年首次引入深度學(xué)習(xí)以來(lái),基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)已成為一個(gè)研究學(xué)者的主流研究領(lǐng)域.根據(jù)應(yīng)用場(chǎng)景可將二維人體姿態(tài)估計(jì)分為單人姿態(tài)估計(jì)和多人姿態(tài)估計(jì),二維人體姿態(tài)估計(jì)分類如圖1 所示.

圖1 二維人體姿態(tài)估計(jì)分類

2.1 單人姿態(tài)估計(jì)

單人姿態(tài)估計(jì)作為人體姿態(tài)估計(jì)的基礎(chǔ)尤為重要,圖像里只有單個(gè)待檢測(cè)目標(biāo),首先檢測(cè)出目標(biāo)的邊界框圖像,在檢測(cè)出目標(biāo)人體的所有關(guān)節(jié)點(diǎn).大多數(shù)單人姿態(tài)估計(jì)都使用有監(jiān)督的方法,可按照真值(ground truth)分為基于坐標(biāo)回歸與基于熱圖檢測(cè).

2.1.1 基于坐標(biāo)回歸

2014年Toshev 等人提出的DeepPose[19]首先將深度學(xué)習(xí)應(yīng)用在人體姿態(tài)估計(jì)領(lǐng)域,它將2D 人體姿態(tài)估計(jì)問(wèn)題由原本的圖像處理和模板匹配問(wèn)題轉(zhuǎn)化為卷積神經(jīng)網(wǎng)絡(luò)圖像特征提取和關(guān)鍵點(diǎn)坐標(biāo)回歸問(wèn)題,它將2D 人體姿態(tài)估計(jì)問(wèn)題由圖像處理和模板匹配問(wèn)題轉(zhuǎn)化為CNN 圖像特征提取和關(guān)鍵點(diǎn)坐標(biāo)回歸問(wèn)題,使用回歸準(zhǔn)則來(lái)估計(jì)被遮擋的人體關(guān)節(jié)點(diǎn).其思路是針對(duì)CNN 學(xué)習(xí)到的特征尺度固定、回歸性能差的問(wèn)題,在網(wǎng)絡(luò)得到粗分回歸的基礎(chǔ)上增加一個(gè)階段,將特征圖像傳入CNN 網(wǎng)絡(luò)學(xué)習(xí)高分辨率的特征,進(jìn)行較高精度的坐標(biāo)值回歸.具體DeepPose 流程圖如圖2 所示.

圖2 DeepPose 網(wǎng)絡(luò)結(jié)構(gòu)

Geng 等人[20]認(rèn)為回歸關(guān)鍵點(diǎn)坐標(biāo)的特征必須集中注意關(guān)鍵點(diǎn)周?chē)膮^(qū)域才能精確回歸出關(guān)鍵點(diǎn)坐標(biāo),提出了直接坐標(biāo)回歸方法解構(gòu)式關(guān)鍵點(diǎn)回歸(DEKR).使用自適應(yīng)的卷積激活關(guān)鍵點(diǎn)區(qū)域周?chē)南袼?利用這些激活的像素去學(xué)習(xí)新的特征,并利用多分支結(jié)構(gòu),每個(gè)分支都會(huì)針對(duì)某種關(guān)鍵點(diǎn)利用自適應(yīng)卷積學(xué)習(xí)關(guān)鍵點(diǎn)周?chē)南袼靥卣?回歸關(guān)鍵點(diǎn)的位置.

多階段回歸可更加精確地反映關(guān)鍵點(diǎn)坐標(biāo),改善多階段直接回歸方法.Carrira 等人[21]提出了自我修正模型,通過(guò)從輸入到輸出的聯(lián)合空間學(xué)習(xí)特征提取器,對(duì)聯(lián)合空間中豐富的結(jié)構(gòu)化信息進(jìn)行建模.文章引入了自頂向下的反饋機(jī)制,通過(guò)反饋錯(cuò)誤預(yù)測(cè)逐步改變初始解的自校正模型,此過(guò)程稱為迭代錯(cuò)誤反饋(IEF).基于坐標(biāo)回歸的方法,只減少了每個(gè)關(guān)節(jié)點(diǎn)位置的誤差,忽略了關(guān)節(jié)點(diǎn)之間的相關(guān)信息,相比于關(guān)節(jié)點(diǎn)骨骼信息更準(zhǔn)確.Sun 等人[22]提出了一種基于ResNet-50[23]的結(jié)構(gòu)感知回歸方法,它采用重新參數(shù)化的姿勢(shì)表示,使用骨骼進(jìn)行姿態(tài)表示,對(duì)姿勢(shì)進(jìn)行編碼.

總體而言,關(guān)節(jié)點(diǎn)坐標(biāo)的直接回歸是非線性的,在映射學(xué)習(xí)中存在困難,而且不能應(yīng)用于多人情況,缺乏魯棒性.相較于坐標(biāo)回歸,更多使用基于熱圖檢測(cè)的方法.

2.1.2 基于熱圖檢測(cè)

熱圖檢測(cè)的方法將人體各部位作為檢測(cè)目標(biāo),通過(guò)檢測(cè)關(guān)鍵點(diǎn)熱力圖(heatmap),獲得關(guān)鍵點(diǎn)的概率分布以及關(guān)鍵點(diǎn)的位置信息.

Tompson 等人[24]采用深度卷積網(wǎng)絡(luò)進(jìn)行姿態(tài)估計(jì),采用heatmap 的方式回歸關(guān)鍵點(diǎn),將重疊感受野和多分辨率輸入,利用人體關(guān)鍵點(diǎn)之間的空間信息,結(jié)合馬爾科夫隨機(jī)場(chǎng)的思想來(lái)優(yōu)化預(yù)測(cè)結(jié)果.該方法也為多人場(chǎng)景下的姿態(tài)估計(jì)中關(guān)鍵點(diǎn)聚類問(wèn)題提供思路.針對(duì)于定位的精度較低的問(wèn)題,Tompson 等人[25]在此基礎(chǔ)上做了相應(yīng)改進(jìn),使用兩個(gè)級(jí)聯(lián)網(wǎng)絡(luò)來(lái)回歸人體關(guān)鍵點(diǎn)的熱圖,并聯(lián)合訓(xùn)練這兩個(gè)網(wǎng)絡(luò),提升模型的泛化能力.

Isack 等人[26]提出高效輕量級(jí)模型RePose,將基于部件的結(jié)構(gòu)和幾何先驗(yàn)合并到分層預(yù)測(cè)框架,利用人體運(yùn)動(dòng)學(xué)約束,采用端到端的訓(xùn)練,根據(jù)先驗(yàn)知識(shí)進(jìn)行建模,傳播低分辨率特征以達(dá)到細(xì)化預(yù)測(cè)的姿勢(shì)信息的目的.

Artacho 等人[27]基于“瀑布式”的空間池架構(gòu),提出了統(tǒng)一的人體姿態(tài)估計(jì)框架UniPose,將空洞卷積的級(jí)聯(lián)方法和空洞空間金字塔模塊并行.該方法結(jié)合上下文分割和聯(lián)合定位來(lái)確定關(guān)鍵點(diǎn)位置和人體邊界框,以實(shí)現(xiàn)人體姿勢(shì)的高精度估計(jì).

基于坐標(biāo)回歸的方法獲取關(guān)鍵點(diǎn)信息更加直接,能夠獲取豐富的特征,但增加了復(fù)雜度,通用性低,精度低.基于熱圖檢測(cè)的方法相較于坐標(biāo)回歸的方法魯棒性更好,關(guān)節(jié)點(diǎn)之間的關(guān)聯(lián)更加清晰,但計(jì)算量較大,效率低,基于坐標(biāo)回歸與熱圖檢測(cè)的方法對(duì)比如表1 所示.

表1 單人姿態(tài)估計(jì)方法對(duì)比

2.2 多人姿態(tài)估計(jì)

與單人姿態(tài)估計(jì)不同,多人姿態(tài)估計(jì)需要檢測(cè)出圖像中的所有目標(biāo)人體,包含檢測(cè)和定位步驟.多人姿態(tài)估計(jì)根據(jù)檢測(cè)步驟分為自頂向下(top-down)和自底向上(bottom-up),top-down 的方法先檢測(cè)人體目標(biāo),在對(duì)人體進(jìn)行姿態(tài)估計(jì); bottom-up 的方法先檢測(cè)圖像中的所有關(guān)節(jié)點(diǎn),再將關(guān)節(jié)點(diǎn)進(jìn)行聚類組合成人體.同時(shí),多人圖像場(chǎng)景可能會(huì)存在遮擋問(wèn)題,如何精確預(yù)測(cè)出遮擋情況下的關(guān)節(jié)點(diǎn),補(bǔ)齊缺失關(guān)鍵點(diǎn)是多人姿態(tài)估計(jì)中的一個(gè)重要研究方向.

2.2.1 Top-down

基于自頂向下的方法首先采用目標(biāo)檢測(cè)算法獲取圖像中的多個(gè)人體,再對(duì)單個(gè)人體目標(biāo)進(jìn)行姿態(tài)估計(jì).Iqbal 等人[28]提出了一種多人姿態(tài)估計(jì)的方法,利用Faster R-CNN 進(jìn)行人體目標(biāo)檢測(cè),對(duì)檢測(cè)出的人體使用convolutional pose machines (CPM)網(wǎng)絡(luò)進(jìn)行姿態(tài)估計(jì).但是在對(duì)人體邊界框進(jìn)行姿態(tài)估計(jì)時(shí),并未考慮多人圖像中人體之間可能存在的遮擋情況,有可能會(huì)使得關(guān)鍵點(diǎn)信息缺失無(wú)法與人體相關(guān)聯(lián),從而導(dǎo)致姿態(tài)估計(jì)的誤差降低準(zhǔn)確度.Papandreou 等人[29]基于復(fù)雜場(chǎng)景下,沒(méi)有提供人體的真實(shí)位置或比例的情況下,提出了基于自頂向下簡(jiǎn)單有效的G-RMI 多人姿態(tài)估計(jì)方法.使用Faster R-CNN 進(jìn)行目標(biāo)檢測(cè),并估計(jì)目標(biāo)框中包含的關(guān)節(jié)點(diǎn).對(duì)于關(guān)節(jié)點(diǎn)的類型,使用全卷積ResNet 預(yù)測(cè)關(guān)節(jié)點(diǎn)的熱度圖和偏移量.引入熱圖-偏移的聚合方法來(lái)獲得準(zhǔn)確的關(guān)節(jié)點(diǎn).Mask R-CNN[30]首先檢測(cè)出目標(biāo)邊界框,通過(guò)特征圖進(jìn)行關(guān)節(jié)點(diǎn)檢測(cè).Mask R-CNN 的網(wǎng)絡(luò)結(jié)構(gòu)在Faster R-CNN 分類和回歸的基礎(chǔ)上增加了一個(gè)分支進(jìn)行圖像的語(yǔ)義分割,Dense-Pose 借用了Mask R-CNN 的架構(gòu).

AlphaPose 由Fang 等人[31]提出,此研究認(rèn)為雖然當(dāng)前最先進(jìn)的人體檢測(cè)已經(jīng)達(dá)到較好的效果,但人體目標(biāo)的定位和識(shí)別仍會(huì)產(chǎn)生誤差,提出了區(qū)域多人姿態(tài)估計(jì)(RMPE)框架,由空間變換網(wǎng)絡(luò)(SSTN)、參數(shù)姿態(tài)非最大抑制(NMS)和姿勢(shì)引導(dǎo)區(qū)域生成器(PGPG)組成.SSTN 主要作用是在不精準(zhǔn)的邊界框中提取出高質(zhì)量的人體區(qū)域,NMS 用來(lái)解決人體目標(biāo)被重復(fù)檢測(cè)的問(wèn)題,使用PGPG 來(lái)進(jìn)行數(shù)據(jù)增強(qiáng),根據(jù)檢測(cè)結(jié)果生成的訓(xùn)練樣本.AlphaPose 利用RMPE 框架對(duì)不準(zhǔn)確的人體目標(biāo)邊界框進(jìn)行準(zhǔn)確的姿態(tài)估計(jì),減少了因?yàn)槿梭w目標(biāo)檢測(cè)不準(zhǔn)確而導(dǎo)致的誤檢.文獻(xiàn)[32]提出一種用于人體姿態(tài)估計(jì)的無(wú)偏的數(shù)據(jù)處理方法(UDP),以減少訓(xùn)練和推理過(guò)程中的計(jì)算增量.

HRNet[33]在2019年被提出,主要是為保持高分辨率的特征圖信息,現(xiàn)有方法大多是從低分辨率特征中恢復(fù)高分辨率特征,HRNet 通過(guò)并行化多分辨率子網(wǎng)絡(luò)保持高分辨率特征,并通過(guò)多尺度融合來(lái)增強(qiáng)高分辨率特征.Zhang 等人[34]在HRNet 的基礎(chǔ)上提出了一種新型的注意力模塊,去規(guī)范化注意力(DNA)來(lái)解決傳統(tǒng)注意力模塊的特征衰減問(wèn)題.

總體而言,自頂向下的方法思路清晰,精度較高,在檢測(cè)人體邊界框時(shí)不會(huì)出現(xiàn)漏檢、誤檢; 但實(shí)時(shí)性較差,對(duì)于每次檢測(cè),都要運(yùn)行單人姿態(tài)估計(jì),檢測(cè)的人數(shù)越多,計(jì)算成本越高.雖然相較于先前的方法檢測(cè)精度得到了很大提升,但發(fā)生檢測(cè)錯(cuò)誤還是不可避免的,比如邊界框定位錯(cuò)誤,會(huì)阻礙自頂向下方法精度的提高.

2.2.2 Bottom-up

基于自底向上的方法步驟包含關(guān)節(jié)點(diǎn)檢測(cè)和聚類,首先檢測(cè)出圖像中的所有關(guān)節(jié)點(diǎn),通過(guò)相應(yīng)策略將關(guān)節(jié)點(diǎn)聚類成人體,實(shí)現(xiàn)姿態(tài)估計(jì).自底向上的方法擺脫了首先對(duì)個(gè)體進(jìn)行進(jìn)行檢測(cè)的前提.

Pishchulin 等人[35]提出了基于Fast R-CNN 檢測(cè)器的DeepCut,首先提取圖像中的所有關(guān)鍵點(diǎn),將關(guān)鍵點(diǎn)作為節(jié)點(diǎn)組成密集連接圖,將同一個(gè)體的關(guān)鍵點(diǎn)采用非極大值抑制聚類為完整個(gè)體.Insafutdinov 等人[36]改進(jìn)DeepCut 提出了基于ResNet 的DeeperCut.該算法采用ResNet 來(lái)獲取人體關(guān)節(jié)點(diǎn),提升檢測(cè)精度; 提出圖像條件成對(duì)項(xiàng)(ICPT)減少候選區(qū)域的關(guān)節(jié)點(diǎn),減少網(wǎng)絡(luò)的計(jì)算量.

DeeperCut 相比于DeepCut,精確度提升了,并且減少了運(yùn)行時(shí)間,從時(shí)間效率依舊無(wú)法達(dá)到實(shí)時(shí)檢測(cè).為了提高實(shí)時(shí)檢測(cè)效率,Cao 等人[37]提出了基于CPM的OpenPose 方法,OpenPose 的網(wǎng)絡(luò)模型如圖3 所示.

圖3 OpenPose 網(wǎng)絡(luò)架構(gòu)圖

該方法利用VGG-19[38]的前10 層為輸入圖像創(chuàng)建特征映射,網(wǎng)絡(luò)框架分為兩個(gè)并行分支,一個(gè)分支預(yù)測(cè)關(guān)節(jié)點(diǎn)的置信度; 另一分支預(yù)測(cè)部分親和域場(chǎng)(PAFs),PAF 表示部件之間的關(guān)聯(lián)程度; 利用匈牙利算法進(jìn)行最優(yōu)化匹配將同一個(gè)體的關(guān)節(jié)點(diǎn)進(jìn)行聚類,得到人體姿態(tài)信息.

Osokin[39]改進(jìn)OpenPose 提出了Lightweight OpenPose,使用MobileNet v1[40]代替VGG-19 進(jìn)行特征提取,通過(guò)權(quán)重共享來(lái)減少計(jì)算量,為解決感受野較小而造成的效果不佳采用空洞卷積優(yōu)化算法.Kreiss 等人[41]提出了與OpenPose 相似的PiPaf 網(wǎng)絡(luò),主要包含部分強(qiáng)度場(chǎng)(PIF)和部分關(guān)聯(lián)場(chǎng)(PAF),分別提升熱圖在高分辨率下的精度和確定關(guān)節(jié)點(diǎn)的連接,得到人體關(guān)節(jié)點(diǎn),與OpenPose 相比性能有明顯提升,該算法適用于低分辨率圖像.針對(duì)高分辨率網(wǎng)絡(luò),Cheng 等人[42]在高分辨率網(wǎng)絡(luò)HRNet 基礎(chǔ)上提出了更高分辨率網(wǎng)絡(luò)(HigherHRNet),提出了一種高分辨率特征金字塔,通過(guò)反卷積得到更高分辨率的特征來(lái)提高準(zhǔn)確度,使用多分辨率監(jiān)督讓不同層的特征能學(xué)習(xí)不同尺度的信息,解決多人姿態(tài)估計(jì)中的尺度變化.Luo 等人[43]為解決人體尺度的變化和人體關(guān)鍵點(diǎn)標(biāo)簽的模糊這兩大挑戰(zhàn),提出了尺度自適應(yīng)熱圖回歸(SAHR)方法和權(quán)重自適應(yīng)熱圖回歸(WAHR)方法共同作用以提高人體姿態(tài)估計(jì)的準(zhǔn)確性.Varamesh 等人[44]設(shè)計(jì)了一種使用混合密度網(wǎng)絡(luò)進(jìn)行空間回歸的框架,提高對(duì)象檢測(cè)和人體姿態(tài)估計(jì)的速度和精度.

目前已經(jīng)有方法可以實(shí)現(xiàn)預(yù)測(cè).Newell 等人[45]提出了關(guān)聯(lián)嵌入標(biāo)簽算法,應(yīng)用在監(jiān)督學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)中,可以同時(shí)檢測(cè)和分組.Papandreou 等人[46]提出了多任務(wù)網(wǎng)絡(luò)PersonLab,使用模型對(duì)多人圖像中的人體進(jìn)行關(guān)鍵點(diǎn)檢測(cè)和實(shí)例分割.

與自頂向下的方法相比,自底向上的方法受人數(shù)增加影響較小,處理速度較快.但復(fù)雜背景和人體遮擋情況會(huì)對(duì)性能產(chǎn)生較大影響.在復(fù)雜的背景和遮擋干擾情況下,缺失人體關(guān)節(jié)點(diǎn)在將關(guān)節(jié)點(diǎn)聚類到不同個(gè)體上時(shí)可能會(huì)出現(xiàn)誤判、匹配錯(cuò)誤等問(wèn)題,如何處理背景干擾和遮擋情況是將來(lái)研究的重點(diǎn)和難點(diǎn).多人姿態(tài)估計(jì)方法對(duì)比如表2 所示.

表2 多人姿態(tài)估計(jì)方法對(duì)比

3 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

3.1 數(shù)據(jù)集

目前主流的人體姿態(tài)估計(jì)數(shù)據(jù)集可分為單人數(shù)據(jù)集和多人數(shù)據(jù)集,單人數(shù)據(jù)集包含LSP[47]、FLIC[48],多人數(shù)據(jù)集包含多人數(shù)據(jù)集COCO[49]、MPII[50]、AI Challenger[51]、PoseTrack[52].表3 對(duì)各個(gè)數(shù)據(jù)集的樣本數(shù)目、類型、關(guān)節(jié)點(diǎn)數(shù)目以及來(lái)源場(chǎng)景進(jìn)行對(duì)比.

表3 人體姿態(tài)估計(jì)數(shù)據(jù)集

LSP 數(shù)據(jù)集是一個(gè)體育姿勢(shì)數(shù)據(jù)集,收錄的運(yùn)動(dòng)場(chǎng)景下的人體圖像,圖像中只包含一個(gè)人體,定義了14 個(gè)關(guān)節(jié)點(diǎn),樣本數(shù)大約2 000 張,圖像大部分與體育有關(guān),該數(shù)據(jù)集中人體姿勢(shì)較復(fù)雜.FLIC 數(shù)據(jù)集來(lái)源于好萊塢電影片段,人工對(duì)電影片段截圖的圖像進(jìn)行標(biāo)注,圖像中包含多人時(shí),只對(duì)一個(gè)人的關(guān)節(jié)點(diǎn)進(jìn)行標(biāo)注,此數(shù)據(jù)集不包含人體被遮擋或者清晰度過(guò)低的圖像.COCO 數(shù)據(jù)集由微軟構(gòu)建,來(lái)源于谷歌、Flicker 等下載的圖像,圖像分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,定義了17 個(gè)關(guān)節(jié)點(diǎn),包含20 萬(wàn)張圖像和25 萬(wàn)個(gè)被標(biāo)注的人體.MPII 數(shù)據(jù)集來(lái)源于YouTube 的日常生活場(chǎng)景,手動(dòng)檢測(cè)包含人的畫(huà)面.該數(shù)據(jù)集包含2.5 萬(wàn)張圖像,定義了16 個(gè)關(guān)節(jié)點(diǎn),標(biāo)注了4 萬(wàn)個(gè)人體目標(biāo).AI Challenger 數(shù)據(jù)集來(lái)源于網(wǎng)絡(luò)爬取的日常片段,包括訓(xùn)練集、驗(yàn)證集、測(cè)試集共30 萬(wàn)張圖像.

3.2 評(píng)價(jià)指標(biāo)

不同數(shù)據(jù)集因自身特點(diǎn)采用的評(píng)估指標(biāo)也不同.常用的二維人體姿態(tài)估計(jì)指標(biāo)主要有以下幾種:

(1)部位正確估計(jì)百分比(PCP): 關(guān)節(jié)點(diǎn)正確估計(jì)的比例,用于評(píng)估人體關(guān)節(jié)點(diǎn)的定位精度.

(2)目標(biāo)關(guān)節(jié)點(diǎn)相似度(OKS): 計(jì)算關(guān)節(jié)點(diǎn)位置距離,檢測(cè)關(guān)節(jié)點(diǎn)的相似度.OKS的計(jì)算方式為:

其中,i為標(biāo)注的關(guān)節(jié)點(diǎn)編號(hào);di2為檢測(cè)到的關(guān)節(jié)點(diǎn)位置與真實(shí)關(guān)節(jié)點(diǎn)位置的歐氏距離的平方;s2為檢測(cè)人體在圖像中面積;ki2為歸一化因子表示標(biāo)注關(guān)節(jié)點(diǎn)位移的標(biāo)準(zhǔn)差;vi為正整數(shù)是可見(jiàn)關(guān)節(jié)點(diǎn).

(3)平均精度AP(average precision): 每一個(gè)關(guān)節(jié)點(diǎn)在整個(gè)測(cè)試數(shù)據(jù)集上,檢測(cè)結(jié)果的平均準(zhǔn)確率:

其中,p為人體檢測(cè)框編號(hào).AP50、AP75為交并比(intersection over union)分別取值為0.5、0.75 時(shí)AP的值,APM、APL分別為中等目標(biāo)和大目標(biāo)的AP值.

(4)關(guān)節(jié)點(diǎn)正確定位百分比(PCK): 用于評(píng)估關(guān)節(jié)點(diǎn)定位的準(zhǔn)確度,檢測(cè)關(guān)節(jié)點(diǎn)在標(biāo)注關(guān)節(jié)點(diǎn)的閾值內(nèi),則該關(guān)節(jié)點(diǎn)為準(zhǔn)確的.

(5)關(guān)節(jié)點(diǎn)平均精度(APK): 將預(yù)測(cè)的人體姿態(tài)與真實(shí)姿態(tài)評(píng)估后,通過(guò)APK得出每個(gè)關(guān)節(jié)點(diǎn)定位準(zhǔn)確的平均精度.

表4 列出了多人姿態(tài)估計(jì)部分算法在COCO 數(shù)據(jù)集上AP的性能對(duì)比.

表4 多人姿態(tài)估計(jì)算法在COCO 數(shù)據(jù)集上的性能對(duì)比

4 發(fā)展趨勢(shì)及難點(diǎn)

深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,使得人體姿態(tài)估計(jì)領(lǐng)域不斷前進(jìn),在計(jì)算機(jī)視覺(jué)領(lǐng)域突出重要性和發(fā)展前景已被學(xué)者認(rèn)可,但依舊存在一些難點(diǎn)與挑戰(zhàn).

(1)提高檢測(cè)精度和效率,雖然有些算法已經(jīng)取得了較大的進(jìn)步,但是真正將人體姿態(tài)估計(jì)應(yīng)用在無(wú)人駕駛、監(jiān)控檢測(cè)等領(lǐng)域還需要更高檢測(cè)精度的算法,需要簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu),文獻(xiàn)[53]提出可采用輕量級(jí)的網(wǎng)絡(luò)優(yōu)化姿態(tài)估計(jì)算法,保證精度的同時(shí)提高效率.

(2)算法受復(fù)雜環(huán)境影響較大,在實(shí)際應(yīng)用中光照和遮擋情況容易對(duì)算法效率產(chǎn)生影響,重疊和遮擋的關(guān)節(jié)點(diǎn)會(huì)導(dǎo)致關(guān)節(jié)點(diǎn)的誤檢和漏檢.另一方面人體在不同視角會(huì)產(chǎn)生信息壓縮的情況,例如仰視或俯視條件會(huì)導(dǎo)致無(wú)法獲取到正確人體比例.因此如何解決遮擋問(wèn)題是重要研究方向,文獻(xiàn)[54]提出對(duì)于肢體遮擋修復(fù)算法的研究非常重要,文獻(xiàn)[55]提出研究姿態(tài)連續(xù)性信息,可以還原姿態(tài)失真.

(3)數(shù)據(jù)集分布不均勻,目前常用數(shù)據(jù)集足夠大,但分布不平衡,現(xiàn)有數(shù)據(jù)集無(wú)法對(duì)罕見(jiàn)姿態(tài)進(jìn)行檢測(cè),難以滿足人體姿態(tài)變化復(fù)雜與多樣性,例如存在遮擋情況、角度壓縮的數(shù)據(jù)集較少,豐富擴(kuò)充數(shù)據(jù)集樣本仍然是人體姿態(tài)估計(jì)研究的重點(diǎn).

5 總結(jié)

人體姿態(tài)估計(jì)由傳統(tǒng)方法發(fā)展至深度學(xué)習(xí)的方法,模型和算法性能不斷得到優(yōu)化和提升,人體姿態(tài)估計(jì)在電影動(dòng)畫(huà)、無(wú)人駕駛、虛擬現(xiàn)實(shí)和智能監(jiān)控等方面都取得了豐碩的研究成果.基于圖結(jié)構(gòu)的傳統(tǒng)方法可為后續(xù)的算法研究提供先驗(yàn)知識(shí),基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法必然是未來(lái)的發(fā)展方向.在當(dāng)前大量圖像數(shù)據(jù)的背景下,應(yīng)當(dāng)充分利用視頻數(shù)據(jù),將人體姿態(tài)估計(jì)應(yīng)用于更多領(lǐng)域.二維姿態(tài)估計(jì)作為計(jì)算機(jī)視覺(jué)眾多任務(wù)的基礎(chǔ),具有廣闊的研究前景.

猜你喜歡
關(guān)鍵點(diǎn)姿態(tài)圖像
論建筑工程管理關(guān)鍵點(diǎn)
水利水電工程施工質(zhì)量控制的關(guān)鍵點(diǎn)
A、B兩點(diǎn)漂流記
利用定義法破解關(guān)鍵點(diǎn)
綠建筑的商業(yè)姿態(tài)
get!五大潮流熱點(diǎn) 許你裙裝 浪漫姿態(tài)
機(jī)械能守恒定律應(yīng)用的關(guān)鍵點(diǎn)
名人語(yǔ)錄的極簡(jiǎn)圖像表達(dá)
一次函數(shù)圖像與性質(zhì)的重難點(diǎn)講析
趣味數(shù)獨(dú)等4則