国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)級(jí)聯(lián)金字塔網(wǎng)絡(luò)的人體骨架提取算法

2021-12-07 03:38:10黃友張娜包曉安
關(guān)鍵詞:特征融合注意力機(jī)制

黃友 張娜 包曉安

摘 要: 由于背景復(fù)雜和人體容易被遮擋等情況的發(fā)生,導(dǎo)致人體骨架關(guān)鍵點(diǎn)的定位精度不高。針對(duì)這一問(wèn)題,本文提出一種基于改進(jìn)級(jí)聯(lián)金字塔網(wǎng)絡(luò)的人體骨架提取算法。該算法將注意力模塊加入到級(jí)聯(lián)金字塔特征提取網(wǎng)絡(luò)的每一個(gè)殘差塊之后,根據(jù)特征圖的不同部分和不同特征圖的重要性程度分配不同的權(quán)重。同時(shí)將原來(lái)級(jí)聯(lián)金字塔網(wǎng)絡(luò)的2次上采樣操作改為一次,以減少上采樣過(guò)程中產(chǎn)生的冗余背景特征。實(shí)驗(yàn)結(jié)果表明:該算法可以較好地改善原CPN網(wǎng)絡(luò)在遮擋、背景復(fù)雜等情況下定位不精準(zhǔn)的問(wèn)題。

關(guān)鍵詞: 級(jí)聯(lián)金字塔網(wǎng)絡(luò); 注意力機(jī)制; 多層次特征提取; 特征融合; 困難關(guān)鍵點(diǎn)挖掘; 目標(biāo)關(guān)鍵點(diǎn)相似度

文章編號(hào): 2095-2163(2021)07-0054-06中圖分類號(hào):TP391.41文獻(xiàn)標(biāo)志碼: A

Human skeleton extraction algorithm based on improved cascaded pyramid network

HUANG You, ZHANG Na, BAO Xiao'an

(School of Informatics Science and Technology,? Zhejiang Sci-Tech University, Hangzhou 310018, China )

【Abstract】Due to the complex background and the easy occlusion of the human body, the positioning accuracy of the key points of the human skeleton is not high. Aiming at this problem, this paper proposes a human skeleton extraction algorithm based on an improved cascaded pyramid network. The algorithm adds the attention module to each residual block of the cascaded pyramid feature extraction network, and assigns different weights according to different parts of the feature map and the importance of different feature maps. At the same time, the two upsampling operations of the original cascaded pyramid network are changed to one to reduce the redundant background features generated in the upsampling process. Experimental results show that the algorithm can better improve the problem of inaccurate positioning in the original CPN network under occlusion and complex background conditions.

【Key words】cascaded pyramid network; attention mechanism; multi-level feature extraction; feature fusion; hard keypoints mining; object keypoint similarity

0 引 言

人體骨架提取(也被稱為人體骨架關(guān)鍵點(diǎn)檢測(cè))算法主要是檢測(cè)人體的鼻子、左右眼、左右耳、左右肩、左右手肘、左右手腕、左右臀、左右膝、左右腿等關(guān)鍵點(diǎn),使用這些關(guān)鍵點(diǎn)描述人體的骨架信息[1]。人體骨架關(guān)鍵點(diǎn)檢測(cè)算法被廣泛應(yīng)用在人機(jī)交互、智能視頻監(jiān)控、智能安防、行為識(shí)別、任務(wù)跟蹤和步態(tài)識(shí)別等領(lǐng)域[2]。

早期的基于人體骨架的行為識(shí)別方法主要是通過(guò)手工設(shè)計(jì)特征的方式來(lái)對(duì)行為進(jìn)行表征[3]。然而,這些手工特征只在一些特定的數(shù)據(jù)集上表現(xiàn)良好,可能無(wú)法遷移到其它數(shù)據(jù)集上,不具有普適性[4]。隨著深度學(xué)習(xí)的出現(xiàn),一些使用基于深度神經(jīng)網(wǎng)絡(luò)對(duì)人體骨架進(jìn)行行為識(shí)別的方法越來(lái)越受到人們的歡迎[5]。

基于深度學(xué)習(xí)的人體骨架關(guān)鍵點(diǎn)檢測(cè)算法主要有2個(gè)方向。一種是自上而下,一種是自下而上。自上而下的人體骨架關(guān)鍵點(diǎn)檢測(cè)算法主要包含2個(gè)部分:人體目標(biāo)檢測(cè)和單人人體骨架關(guān)鍵點(diǎn)檢測(cè)[6]。首先通過(guò)目標(biāo)檢測(cè)算法將人體目標(biāo)檢測(cè)出來(lái),然后在此基礎(chǔ)上對(duì)單個(gè)人做人體骨架關(guān)鍵點(diǎn)檢測(cè),其中代表性算法有G-RMI[7]、CFN[8]、RMPE[9]、Mask R-CNN[10]和 CPN[11]。目前,自上而下的人體骨架關(guān)鍵點(diǎn)檢測(cè)算法在MSCOCO數(shù)據(jù)集上最好的檢測(cè)精度是72.6%。自下而上的人體骨架關(guān)鍵點(diǎn)檢測(cè)算法也包含2個(gè)部分:關(guān)鍵點(diǎn)檢測(cè)和關(guān)鍵點(diǎn)聚類[12]。首先需要將圖片中所有的關(guān)鍵點(diǎn)都檢測(cè)出來(lái),然后根據(jù)關(guān)鍵點(diǎn)之間的關(guān)系對(duì)所有的關(guān)鍵點(diǎn)進(jìn)行聚類得到不同的個(gè)體,其中對(duì)關(guān)鍵點(diǎn)之間關(guān)系進(jìn)行建模的代表性算法有PAF[13]、Associative Embedding[14]、Part Segmentation[15]和Mid-Range offsets[16]。自下而上的人體骨架關(guān)鍵點(diǎn)檢測(cè)算法目前在MSCOCO數(shù)據(jù)集上最好的檢測(cè)精度是68.7%。

自上而下的人體骨架提取方法定位精度比自下而上的方法高,但是該方法比較依賴檢測(cè)到的人體目標(biāo)框。由于圖片中人體容易被遮擋和干擾[17],導(dǎo)致對(duì)人體關(guān)鍵點(diǎn)的定位精度不高。針對(duì)這一問(wèn)題,本文提出一種基于改進(jìn)級(jí)聯(lián)金字塔網(wǎng)絡(luò)的人體骨架提取算法。該算法將注意力模塊加入到級(jí)聯(lián)金字塔的特征提取網(wǎng)絡(luò)中,通過(guò)模型學(xué)習(xí)對(duì)不同的特征信息分配權(quán)重系數(shù)。以增強(qiáng)網(wǎng)絡(luò)對(duì)重要特征信息的關(guān)注同時(shí)減弱無(wú)用的復(fù)雜背景特征信息,進(jìn)而提高對(duì)遮擋的人體關(guān)鍵點(diǎn)的定位精度。同時(shí)將原級(jí)聯(lián)金字塔網(wǎng)絡(luò)的2次上采樣過(guò)程改為一次,以減少在上采樣過(guò)程中產(chǎn)生的背景特征。

1 相關(guān)研究

1.1 級(jí)聯(lián)金字塔網(wǎng)絡(luò)

級(jí)聯(lián)金字塔網(wǎng)絡(luò)(Cascaded Pyramid Network, CPN)網(wǎng)絡(luò)包括2個(gè)部分:粗略檢測(cè)關(guān)鍵點(diǎn)的GlobalNet網(wǎng)絡(luò)和微調(diào)RefineNet網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。GlobalNet網(wǎng)絡(luò)使用殘差網(wǎng)絡(luò)提取多尺度特征圖,通過(guò)特征金字塔網(wǎng)絡(luò)融合多尺度特征圖,實(shí)現(xiàn)對(duì)人體關(guān)鍵點(diǎn)的初步定位。RefineNet網(wǎng)絡(luò)以沙漏網(wǎng)絡(luò)為基礎(chǔ),對(duì)由GlobalNet網(wǎng)絡(luò)檢測(cè)的關(guān)鍵點(diǎn)中損失較大的關(guān)鍵點(diǎn)進(jìn)行修正,進(jìn)而實(shí)現(xiàn)對(duì)人體關(guān)鍵點(diǎn)的精確定位。

GlobalNet網(wǎng)絡(luò)采用ResNet50殘差網(wǎng)絡(luò)提取多層次的特征,再使用FPN對(duì)這些多尺度特征進(jìn)行融合,利用L2損失函數(shù)計(jì)算關(guān)鍵點(diǎn)定位損失。采用Resnet50的第3、7、13和16個(gè)Bottleneck塊的輸出作為多尺度特征圖,分別記為C_2, C_3, C_4和C_5。對(duì)每一層特征圖,利用一個(gè)3×3的卷積濾波層去生成一組熱力圖,每張熱力圖對(duì)應(yīng)一個(gè)關(guān)鍵點(diǎn),分別記為H_2,H_3,H_4和H_5。

這些特征圖中,淺層特征圖具有較高的空間分辨率,但是其中包含的語(yǔ)義信息較少,而深層特征圖具有較多的語(yǔ)義信息,但是空間分辨率較低。單一層的特征圖無(wú)法兼顧空間分辨率和較多的語(yǔ)義信息,故采用FPN網(wǎng)絡(luò)來(lái)對(duì)這些特征圖進(jìn)行融合,使得融合后的特征圖中既包含豐富的語(yǔ)義信息,同時(shí)也包含由于不斷降采樣而丟失的底層細(xì)節(jié)信息。FPN通過(guò)對(duì)底層特征進(jìn)行上采樣,再與上層特征進(jìn)行融合,實(shí)現(xiàn)淺層特征與深層特征之間的融合,實(shí)際上是淺層特征生成的熱力圖與深層特征生成的熱力圖之間的融合。利用L2損失函數(shù)計(jì)算這些生成的熱力圖與真實(shí)關(guān)鍵點(diǎn)坐標(biāo)生成的熱力圖之間的誤差,根據(jù)誤差對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

GlobalNet網(wǎng)絡(luò)對(duì)于一些簡(jiǎn)單的、可見(jiàn)的、容易檢測(cè)的關(guān)鍵點(diǎn)(比如眼睛)的定位精度較高,可是對(duì)于一些隱藏的關(guān)鍵點(diǎn)(比如臀部)的定位精度較低。對(duì)于這些難以檢測(cè)的關(guān)鍵點(diǎn)的定位通常需要利用更多的語(yǔ)義信息,單獨(dú)使用GlobalNet網(wǎng)絡(luò)無(wú)法直接識(shí)別這些“困難”關(guān)鍵點(diǎn)。

RefineNet網(wǎng)絡(luò)就是為了處理這些“困難”關(guān)鍵點(diǎn),RefineNet接收來(lái)自GlobalNet網(wǎng)絡(luò)提取的多層次特征,對(duì)于不同層的特征圖后加入不同數(shù)量的Bottleneck殘差模塊進(jìn)一步提取更深層的特征,再對(duì)這些特征圖進(jìn)行上采樣并通過(guò)concat層把這些信息拼接起來(lái)。這樣就綜合利用了FPN所有層的特征,可以獲取到更多的語(yǔ)義信息。

而隨著網(wǎng)絡(luò)訓(xùn)練的進(jìn)行,網(wǎng)絡(luò)會(huì)更傾向于關(guān)注可見(jiàn)的“簡(jiǎn)單”關(guān)鍵點(diǎn),但是其重要性不及“困難”關(guān)鍵點(diǎn)。因此,網(wǎng)絡(luò)需要在兩者的關(guān)注之間取得一個(gè)平衡。為此,RefineNet采用帶有在線困難關(guān)鍵點(diǎn)挖掘(Online Hard Keypoints Mining, OHKM)的L2函數(shù)作為計(jì)算關(guān)鍵點(diǎn)預(yù)測(cè)損失函數(shù),根據(jù)訓(xùn)練損失顯式地選擇“困難”關(guān)鍵點(diǎn),并且只對(duì)這些“困難”關(guān)鍵點(diǎn)反向傳播梯度進(jìn)行訓(xùn)練。

1.2 注意力機(jī)制

注意力機(jī)制(Convolutional Block Attention Module, CBAM)[18]是通過(guò)學(xué)習(xí)對(duì)圖像不同特征信息和不同特征層分配權(quán)重系數(shù),以便能夠強(qiáng)調(diào)對(duì)學(xué)習(xí)目標(biāo)有用的信息抑制無(wú)用的信息。注意力模塊一般可分為通道注意力模塊和空間注意力模塊兩部分,兩者的側(cè)重點(diǎn)不同。

通道注意力模塊是通過(guò)池化操作學(xué)習(xí)每個(gè)通道的重要性程度,將輸入特征圖分別經(jīng)過(guò)最大池化和平均池化,之后用多層感知機(jī)(Multilayer Perceptron, MLP)進(jìn)行學(xué)習(xí),將學(xué)習(xí)的結(jié)果疊加之后經(jīng)過(guò)sigmoid函數(shù)激活得到通道注意力(如圖2左半部分所示)??臻g注意力模塊是學(xué)習(xí)特征圖中不同位置對(duì)于學(xué)習(xí)目標(biāo)的重要性程度,將輸入特征圖經(jīng)過(guò)最大池化和平均池化后,將二者的輸出按照第一維度進(jìn)行拼接,再經(jīng)過(guò)一個(gè)3×3的卷積層,之后經(jīng)過(guò)sigmoid函數(shù)激活得到空間注意力(如圖2右半部分所示)。

2 本文設(shè)計(jì)

CPN網(wǎng)絡(luò)是一種自上而下的關(guān)鍵點(diǎn)定位算法,需要先檢測(cè)到人體目標(biāo)框再對(duì)人體目標(biāo)做單人骨架關(guān)鍵點(diǎn)定位。由于圖像背景復(fù)雜,會(huì)導(dǎo)致檢測(cè)到的[CM(22]人體存在遮擋和干擾等情況,進(jìn)而影響到被遮擋的

關(guān)鍵點(diǎn)的定位準(zhǔn)確度。同時(shí)在原CPN網(wǎng)絡(luò)中,采取了2次上采樣操作,而上采樣操作會(huì)帶來(lái)更多的背景特征。

針對(duì)檢測(cè)到的人體被遮擋問(wèn)題,本文提出了一種基于改進(jìn)CPN的人體骨架提取算法。該算法是將CBAM加入到CPN網(wǎng)絡(luò)中,其網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示。采用在ResNet50網(wǎng)絡(luò)的第3、7、13和16個(gè)Bottleneck塊的輸出之后分別加入CBAM模塊,CBAM可以在不改變網(wǎng)絡(luò)的整體架構(gòu)的基礎(chǔ)上作用于深淺不同的多層次特征圖上。通過(guò)不同的權(quán)重分配使網(wǎng)絡(luò)能夠著重學(xué)習(xí)有用的特征而抑制無(wú)用的特征,也即是加強(qiáng)對(duì)關(guān)鍵點(diǎn)的特征圖的關(guān)注而減少對(duì)復(fù)雜背景的關(guān)注。這樣可以較好地提高復(fù)雜背景下人體關(guān)鍵點(diǎn)的定位精度。

針對(duì)上采樣過(guò)程中產(chǎn)生的冗余背景特征問(wèn)題,本文采用將2次上采樣修改為一次。具體實(shí)現(xiàn)過(guò)程為對(duì)經(jīng)過(guò)CBAM處理之后的多層次特征圖進(jìn)行上采樣,其中特征圖由淺到深分別上采樣的倍數(shù)為1、2、4和8。

再對(duì)經(jīng)過(guò)上采樣之后的特征圖進(jìn)行融合,使得融合之后的特征圖中既包含豐富的語(yǔ)義信息,同時(shí)也包含由于不斷降采樣而丟失的底層細(xì)節(jié)信息。

3 實(shí)驗(yàn)結(jié)果及分析

本文實(shí)驗(yàn)所用的計(jì)算機(jī)配置如下:CPU為Intel(R) Xeon(R) Silver 4110 CPU @ 2.10 GHz;GPU為15 G NVIDIA Corporation TU104GL [Tesla T4]顯卡;主頻為4.00 GHz;系統(tǒng)為CentOS 7.7。采用Python3.6作為編程語(yǔ)言,深度學(xué)習(xí)框架選取Pytorch1.4.0。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

為評(píng)估本節(jié)所設(shè)計(jì)算法的性能,采用COCO數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證。COCO數(shù)據(jù)集對(duì)人體的17個(gè)骨架關(guān)鍵點(diǎn)進(jìn)行標(biāo)注,共計(jì)有58 945張圖片,有15 K個(gè)標(biāo)記的人物,有171 K個(gè)標(biāo)記的關(guān)鍵點(diǎn)。由于數(shù)據(jù)集中一部分圖像的質(zhì)量不高,采用圖像標(biāo)準(zhǔn)化、隨機(jī)調(diào)整亮度和對(duì)比度等操作對(duì)圖像進(jìn)行處理,改善圖像的視覺(jué)效果,使得圖像能夠更適合分析和處理的需求。

采用其中44 208張包含人體骨架關(guān)鍵點(diǎn)標(biāo)注信息的圖片作為實(shí)驗(yàn)訓(xùn)練集,其余的14 737張圖片作為實(shí)驗(yàn)測(cè)試集。同時(shí)選用在實(shí)際場(chǎng)景下采集的幾張圖片驗(yàn)證本文改進(jìn)算法的性能。

3.2 性能評(píng)價(jià)指標(biāo)

人體骨架關(guān)鍵點(diǎn)檢測(cè)算法的預(yù)測(cè)值無(wú)法與真實(shí)值一一對(duì)應(yīng),不能像分類問(wèn)題那樣采用一些常用指標(biāo)(如:精度、召回率等)進(jìn)行性能評(píng)價(jià)。因此,需要構(gòu)建一個(gè)合適的人體骨架關(guān)鍵點(diǎn)相似度的度量指標(biāo),以此來(lái)判斷某個(gè)關(guān)鍵點(diǎn)的預(yù)測(cè)是否正確,從而評(píng)價(jià)算法的優(yōu)劣。目前,最常用的就是OKS(Object Keypoint Similarity)指標(biāo),這個(gè)指標(biāo)啟發(fā)于目標(biāo)檢測(cè)中的IoU指標(biāo)。其計(jì)算公式如下:

其中,OKSp表示圖像中第p個(gè)人的相似度指標(biāo);p為人工標(biāo)注的真實(shí)人體的編號(hào);i為人體骨架關(guān)鍵點(diǎn)的編號(hào);dpi為第p個(gè)人的第i個(gè)關(guān)鍵點(diǎn)的預(yù)測(cè)位置與真實(shí)位置之間的歐氏距離;Sp為第p個(gè)人的尺度因子,定義為此人在人工標(biāo)注框中所占面積的平方根;σi是第i個(gè)骨架關(guān)鍵點(diǎn)的歸一化因子,是通過(guò)對(duì)已有的數(shù)據(jù)集中這個(gè)關(guān)鍵點(diǎn)的計(jì)算標(biāo)準(zhǔn)差得到的。該值越大,表示這個(gè)關(guān)鍵點(diǎn)越難標(biāo)注;值越小,表示這個(gè)關(guān)鍵點(diǎn)越容易標(biāo)注;vpi為第p個(gè)人的第i個(gè)關(guān)鍵點(diǎn)的狀態(tài); δ(vpi=1)為克羅內(nèi)克函數(shù),即只有被標(biāo)注為可見(jiàn)的人體骨架關(guān)鍵點(diǎn)(vpi=1)才計(jì)入評(píng)價(jià)指標(biāo),其計(jì)算公式如下:

由公式(2)可知,2個(gè)關(guān)鍵點(diǎn)之間的相似度取值在[0, 1]之間。選定一個(gè)閾值t后,通過(guò)將圖中第p個(gè)人的相似度值(即OKSp)與t作比較。如果當(dāng)前的OKSp大于t,那就說(shuō)明當(dāng)前這個(gè)人的骨架關(guān)鍵點(diǎn)成功檢測(cè)出來(lái)了,并且檢測(cè)對(duì)了。如果小于t,則說(shuō)明檢測(cè)失敗或者誤檢漏檢。再統(tǒng)計(jì)圖中所有人的OKS,計(jì)算其中大于t的比值。該比值是閾值為t時(shí)的人體骨架關(guān)鍵點(diǎn)檢測(cè)算法的平均精度(Average Precesion, AP),其計(jì)算公式如下:

最后再根據(jù)不同的閾值t,計(jì)算平均值,即為mAP(mean Average Precesion)。一般情況下閾值是在[0.5, 0.95]的范圍內(nèi)以0.05為步長(zhǎng)遞增選取,mAP計(jì)算公式為:

3.3 模型參數(shù)設(shè)置

本節(jié)設(shè)計(jì)算法設(shè)置網(wǎng)絡(luò)輸入圖像大小為256×192(寬×高),利用公開(kāi)數(shù)據(jù)集ImageNet的預(yù)訓(xùn)練參數(shù)進(jìn)行模型初始化,利用Adam優(yōu)化器優(yōu)化學(xué)習(xí)率,進(jìn)而調(diào)整網(wǎng)絡(luò)的參數(shù)。訓(xùn)練的批次大小為16,max_epoch為12。這里采用預(yù)熱(warm up)學(xué)習(xí)率策略,學(xué)習(xí)率在前500次迭代中線性增加至初始學(xué)習(xí)率0.001,之后在epoch7和epoch10的時(shí)候衰減為之前的1/3。

3.4 實(shí)驗(yàn)結(jié)果及分析

為了驗(yàn)證本文提出的改進(jìn)CPN網(wǎng)絡(luò)對(duì)人體骨架關(guān)鍵點(diǎn)的檢測(cè)精度優(yōu)于原CPN網(wǎng)絡(luò),使用COCO數(shù)據(jù)集進(jìn)行訓(xùn)練并做對(duì)比試驗(yàn)。采用平均準(zhǔn)確率mAP、閾值為0.5,0.75的平均準(zhǔn)確率AP@0.5和AP@0.75、中等尺度目標(biāo)的平均準(zhǔn)確率APM和大尺度目標(biāo)的平均準(zhǔn)確率APL作為對(duì)比指標(biāo),試驗(yàn)結(jié)果如圖4所示。從圖4中可以看出,本節(jié)提出的改進(jìn)的CPN網(wǎng)絡(luò)的mAP為73.2,相較于原CPN網(wǎng)絡(luò)提高了1.8。而且在其他閾值及不同尺度目標(biāo)情況下的AP也都有一定的提升。

為了進(jìn)一步分析在網(wǎng)絡(luò)的不同位置添加CBAM模塊對(duì)人體關(guān)鍵點(diǎn)檢測(cè)精度的影響,分別采用在ResNet50網(wǎng)絡(luò)的第3、7、13和16個(gè)Bottleneck塊的輸出之后加入CBAM模塊以及只在ResNet50網(wǎng)絡(luò)的16個(gè)Bottleneck塊的輸出之后加入CBAM模塊進(jìn)行對(duì)比試驗(yàn)。同樣地,采用平均準(zhǔn)確率mAP、閾值為0.5,0.75的平均準(zhǔn)確率AP@0.5和AP@0.75、中等尺度目標(biāo)的平均準(zhǔn)確率APM和大尺度目標(biāo)的平均準(zhǔn)確率APL作為對(duì)比指標(biāo),試驗(yàn)結(jié)果如圖5所示。從圖5中可以看出,采用在ResNet50網(wǎng)絡(luò)的第3、7、13和16個(gè)Bottleneck塊的輸出之后加入CBAM模塊的mAP為73.2,相較于只在ResNet50網(wǎng)絡(luò)的16個(gè)Bottleneck塊的輸出之后加入CBAM模塊提高了0.9,而且在其他閾值及不同尺度目標(biāo)情況下的AP也都有一定的提升。

同時(shí)為了驗(yàn)證本節(jié)提出的改進(jìn)CPN網(wǎng)絡(luò)對(duì)人體骨架關(guān)鍵點(diǎn)的檢測(cè)精度優(yōu)于當(dāng)前主要的關(guān)鍵點(diǎn)檢測(cè)方法,選取當(dāng)前主流的關(guān)鍵點(diǎn)檢測(cè)方法做對(duì)比試驗(yàn)。主要有CMU-Pose、Mask R-CNN、G-RMI和PersonLab,其中CMU-Pose和PersonLab是自底向上的方法,Mask R-CNN和G-RMI是自頂向下的方法。實(shí)驗(yàn)結(jié)果如圖6所示。從圖6中可以看出,本文提出的改進(jìn)CPN網(wǎng)絡(luò)對(duì)關(guān)鍵點(diǎn)的定位精度明顯優(yōu)于CMU-Pose和PersonLab,較同類方法Mask R-CNN和G-RMI也有一定的提高。

為了驗(yàn)證本文設(shè)計(jì)的算法在不同背景情況下的檢測(cè)效果,選取在影院復(fù)雜背景情況中的一張單人圖片和一張多人圖片分別在有無(wú)遮擋情況下做實(shí)驗(yàn)進(jìn)行檢測(cè)。對(duì)人體的17個(gè)不同的關(guān)鍵點(diǎn)用不同的顏色進(jìn)行標(biāo)記,并將有聯(lián)系的關(guān)鍵點(diǎn)用直線連接起來(lái)。檢測(cè)結(jié)果如圖7所示。從圖7中可以看出,不管是單人圖片、還是多人圖片的關(guān)鍵點(diǎn)檢測(cè)精度都很高。在遮擋情況下,也能很好地定位人體的關(guān)鍵點(diǎn)。

4 結(jié)束語(yǔ)

本文提出了一種基于改進(jìn)CPN的人體骨架關(guān)鍵點(diǎn)檢測(cè)算法,采用在ResNet50網(wǎng)絡(luò)的第3、7、13和16個(gè)Bottleneck塊的輸出之后加入CBAM模塊,以提高在遮擋和復(fù)雜背景情況下人體關(guān)鍵點(diǎn)的定位精度。研究中,為了減少在上采樣過(guò)程中產(chǎn)生的冗余背景特征,將原CPN的2次上采樣過(guò)程改為一次。通過(guò)實(shí)驗(yàn)可知,本文設(shè)計(jì)的算法的人體關(guān)鍵點(diǎn)定位精度比原CPN高,同時(shí)在遮擋情況下,也能對(duì)人體關(guān)鍵點(diǎn)進(jìn)行精確定位。由于在原CPN模型中加入了CBAM,會(huì)增加模型的參數(shù)量和計(jì)算量。后期的研究方向是在不影響模型定位精度的基礎(chǔ)上,減少模型的參數(shù)量,提高網(wǎng)絡(luò)的運(yùn)行速度。

參考文獻(xiàn)

[1]郭天曉, 胡慶銳, 李建偉, 等. 基于人體骨架特征編碼的健身動(dòng)作識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用,2021,41(5):1458-1464.

[2]田志強(qiáng), 鄧春華, 張俊雯. 基于骨骼時(shí)序散度特征的人體行為識(shí)別算法[J]. 計(jì)算機(jī)應(yīng)用,2021,41(5):1450-1457.

[3]蔡強(qiáng), 鄧毅彪, 李海生, 等. 基于深度學(xué)習(xí)的人體行為識(shí)別方法綜述[J]. 計(jì)算機(jī)科學(xué), 2020, 47(4): 85-93.

[4] 邊緣, 孔小瑩, 張莉, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的植物葉片樹(shù)種識(shí)別研究與實(shí)現(xiàn)[J]. 智能計(jì)算機(jī)與應(yīng)用, 2020, 10(10): 23-26.

[5]李揚(yáng)志, 袁家政, 劉宏哲. 基于時(shí)空注意力圖卷積網(wǎng)絡(luò)模型的人體骨架動(dòng)作識(shí)別算法[J]. 計(jì)算機(jī)應(yīng)用,2021,41(7):1915-1921.

[6]CAO Z, SIMON T, WEI S E, et al. Realtime multi-person 2d pose estimation using part affinity fields[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USA:IEEE,2017: 7291-7299.

[7]CHEN L C, HERMANS A, PAPANDREOU G, et al. Masklab: Instance segmentation by refining object detection with semantic and direction features[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA:IEEE, 2018: 4013-4022.

[8]LI Jiahao, LI Bin, XU Jizheng, et al. Fully connected network-based intra prediction for image coding[J]. IEEE Transactions on Image Processing, 2018, 27(7): 3236-3247.

[9]FANG Haoshu, XIE Shuqin, TAI Y W, et al. Rmpe: Regional multi-person pose estimation[C]//Proceedings of the IEEE International Conference on Computer Vision.Venice:IEEE, 2017: 2353-2362.

[10]HE K, GKIOXARI G, DOLLR P, et al. Mask r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice:IEEE,2017: 2961-2969.

[11]CHEN Yilun, WANG Zhicheng, PENG Yuxiang, et al. Cascaded pyramid network for multi-person pose estimation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT:IEEE, 2018: 7103-7112.

[12]SUN Ke, XIAO Bin, LIU Dong, et al. Deep high-resolution representation learning for human pose estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach, CA, USA:IEEE, 2019: 5693-5703.

[13]CAO Z, HIDALGO G, SIMON T, et al. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 43(1): 172-186.

[14]YU Zehao, ZHENG Jia, LIAN Dongze, et al. Single-image piece-wise planar 3d reconstruction via associative embedding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach, CA, USA:IEEE, 2019: 1029-1037.

[15]XIA Fangting, WANG Peng, CHEN Xianjie, et al. Joint multi-person pose estimation and semantic part segmentation[C]// Proceedings of the IEEE conference on computer vision and pattern recognition.? Honolulu, HI, USA:IEEE,2017: 6769-6778.

[16]PAPANDREOU G, ZHU T, CHEN L C, et al. Personlab: Person pose estimation and instance segmentation with a bottom-up, part-based, geometric embedding model[M]//FERRARI V, HEBERT M, SMINCHISESCU C, et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham:Springer,2018,11218:282-299.

[17]葉飛, 劉子龍. 基于改進(jìn)YOLOv3算法的行人檢測(cè)研究[J]. 電子科技, 2021, 34(1): 5-9,30.

[18]WOO S, PARK J, LEE J Y, et al. Cbam: Convolutional block attention module[M]//FERRARI V, HEBERT M, SMINCHISESCU C, ET AL. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham:Springer, 2018, 11211: 3-19.

基金項(xiàng)目: 國(guó)家自然科學(xué)基金(620705014;1); 浙江省自然科學(xué)基金青年基金(LQ20F050010); 浙江省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2020C03094)。

作者簡(jiǎn)介: 黃? 友(1995-),男,碩士研究生,主要研究方向:圖像處理、深度學(xué)習(xí); 張 娜(1977-),女,副教授,主要研究方向:智能信息處理;包曉安(1973-),男,教授,主要研究方向:軟件測(cè)試、智能信息處理。

通訊作者: 包曉安Email: baoxiaoan@zstu.edu.cn

收稿日期: 2021-03-24

猜你喜歡
特征融合注意力機(jī)制
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動(dòng)態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問(wèn)題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中的研究
軟件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
基于多特征融合的圖像匹配算法
人體行為特征融合與行為識(shí)別的分析
基于移動(dòng)端的樹(shù)木葉片識(shí)別方法的研究
科技資訊(2017年11期)2017-06-09 18:28:13
基于SIFT特征的港口內(nèi)艦船檢測(cè)方法
武清区| 中山市| 宾川县| 亚东县| 渝北区| 邹城市| 辉南县| 比如县| 武川县| 舞阳县| 巍山| 江阴市| 永兴县| 九寨沟县| 迭部县| 扎兰屯市| 安远县| 宁乡县| 肥城市| 岑溪市| 宜州市| 安阳市| 武汉市| 台州市| 赤峰市| 略阳县| 改则县| 江西省| 秦皇岛市| 兴隆县| 蓬溪县| 汤阴县| 尼玛县| 故城县| 邵武市| 松滋市| 昌都县| 丰宁| 华池县| 龙井市| 廊坊市|