国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進高分辨表征的人體姿態(tài)估計算法

2022-04-21 07:23:42宋玉琴曾賀東高師杰熊高強
計算機工程與設計 2022年4期
關鍵詞:高分辨率關鍵點尺度

宋玉琴,曾賀東,高師杰,熊高強

(西安工程大學 電子信息學院,陜西 西安 710600)

0 引 言

在計算機視覺中,人體姿態(tài)估計目的是確定圖像中人體的關鍵節(jié)點信息,并連接人體節(jié)點組成人體骨架[1-3]。人體姿態(tài)具有高自由度、關鍵點尺度變化、遮擋、背景噪聲的隨機干擾等特性,使得人體姿態(tài)估計的研究以及應用都面臨著諸多難題,難題主要有:

(1)難以有效地利用圖像中的有限參數信息進行建模;

(2)針對圖像背景復雜、人物數量、尺度變化等情況,關鍵點檢測網絡難以精確定位;

(3)高精度帶來的不利后果是人體姿態(tài)估計算法很難應用于實際[4,5]。

目前,深度神經網絡可以通過合理的結構設計或者嵌入特定功能的模塊來解決現(xiàn)有算法的缺陷,尤其是在定位和分類任務中較為明顯[6]。其中,Wei等[7]提出的卷積姿態(tài)機,通過順序卷積結構來表征圖像的空間、紋理、尺度等信息。Newell等[8]提出的堆疊沙漏網絡則是設計一種與反卷積結合的沙漏結構。Ning等[9]則是使用視覺特征對外部知識進行編碼的方法。Sun等[11,12]提出了高分辨并行子網架構,并行的不同分辨率子網之間一共進行8次特征融合。可以發(fā)現(xiàn)人體姿態(tài)估計算法越加趨向于利用深度神經網絡結合高分辨特征融合的處理方式。

為了解決關鍵點尺度變化導致的回歸熱圖和關鍵點定位不精確問題,本文提出了一種改進高分辨率表征的人體姿態(tài)估計方法。該方法包含雙分支的高低分辨率特征提取網絡、關鍵點標準化結構等功能。本文的主要工作如下:

(1)以高分辨網絡為模型框架,改進高分辨率表征網絡,初步地提取關鍵點位置特征信息;

(2)針對圖像中人物關鍵點尺度變化問題,在網絡末端設計了關鍵點標準化結構,提升檢測精度;

(3)通過實驗驗證,與多種算法對比,驗證本文提出算法的有效性。

1 高分辨率網絡方法

目前的經典網絡大部分采用很深的卷積網絡來優(yōu)化特征提取,雖然效果不錯,但是都有一個共同的弊端,就是在特征提取完成后需要把特征圖恢復到較大的特征尺度。因為在卷積的過程中圖像分辨率會逐步降低,得到包含更高階的特征信息,但也損失了圖像中的次要特征,這些對于精確定位關鍵點是無法利用的。因此,高分辨率網絡便是在卷積過程中增加并行子網絡,而且不同子網絡之間形成特征信息的交換通道進行特征融合,減少邊緣特征信息的損失。原始高分辨率網絡結構如圖1所示。每個新子網絡都從上一分支的1/2建立連接,并在前向傳播中把特征信息逐步添加到高分辨子網中,最后輸出全程保持的高分辨子網并以此來進行姿態(tài)估計。

圖1 原始高分辨網絡結構

該網絡細節(jié)之處是利用了不同階段的特征融合,取得的效果提升不是特別明顯,因為原始網絡的不同階段的特征圖信息只被利用了一次,特征融合效果不會特別明顯。原始網絡特征融合過程如圖2所示。

圖2 原始特征融合

2 改進網絡結構

2.1 高分辨率特征融合

本文網絡以高分辨率模型結構為基礎框架,針對原網絡中的3層子網絡做了裁剪,并多次利用原始特征圖信息以達到減輕網絡計算量同時保持較高的檢測精度。改進后的高分辨率表征網絡整體結構如圖3所示。網絡只包含兩個并行子網絡,共有4個不同的階段,并行子網絡對應的分辨率減半,對應的通道數增倍。第一個子網絡包含4個殘差塊單元,每個殘差塊單元主干是ResNet-50[13]。具體結構是由一個寬度為64的BottleNeck塊構成,接著是一個3×3的卷積把分辨率減小到原來的一半,每個交換塊包含4個殘差塊單元而且每個單元中包含了兩次3×3的卷積,最后是不同階段的特征融合,增加了階段間特征融合數量,減少了階段內特征融合數量。

圖3 改進高分辨率網絡結構

若網絡輸入為3通道的RGB圖像時,假設輸入層為x(0)=X,網絡共有L層,其中第l層的輸入特征和權重分別為x(l)和W(l),卷積函數為f(·),則每層網絡的前向傳遞函數表示為

(1)

最終的輸出特征圖可表示為

ys=U(ys-2)+U(ys-1)+f(Ss,Ws),s=4

(2)

其中,ys是第s階段的輸出特征,U(·)是插值上采樣。

相比于原始特征融合機制,多階段特征信息融讓每個子網絡的特征進行了兩次特征融合,最大限度地保留了特征信息,改進后比原網絡在特征信息的保留,細節(jié)信息的提取方面有較大的提升。改進后的特征信息融合如圖4所示。

圖4 改進后特征融合

改進網絡的實現(xiàn)過程如下:

(1)網絡對輸入圖像進行初步特征提取,然后如圖3與式(1)所示,分4個卷積階段建立兩個并行子網并輸出特征;

(2)分別取低分辨子網的輸出特征 {S1,S2,S3} 進行插值上采樣并壓縮通道數為64;

(3)將壓縮后的低分辨網絡輸出特征分別與高分辨網絡的對應階段及下階段的輸出進行特征融合;

(4)重復步驟(3),直到高分辨網絡輸出最終特征;

2.2 關鍵點尺度變換結構

為了得到精確的關鍵點的坐標,目前常用方法是以關鍵點為中心構建高斯區(qū)域的監(jiān)督學習方式得到關鍵點的預測坐標。為了抑制一些異常點,要先用預先構建好的高斯核對熱點圖進行平滑操作,然后選取其中的最大值點作為關鍵點的估計值,而其對應的坐標即為關鍵點坐標。雖然采用最大熱值的熱力圖來回歸人體關鍵點的坐標可以取得不錯的效果,可是該方法仍然存在缺陷。首先是高斯熱點圖的尺寸不能過小而且是輸入尺寸的1/n,本文是取1/4;再是熱值最大的關鍵點坐標和真值坐標存在誤差,熱點圖坐標映射回原始位置時不能完全對應,如果回歸效果很差,則還原過程的偏差就會更大。為了解決熱點圖轉換后的精度問題,本文提出一種關鍵點尺度轉換結構。該結構主要分為關鍵點坐標估計、變換參數計算以及空間變換3部分,轉換結構流程如圖5所示。首先直接根據初步提取的特征進行高斯平滑操增強初步熱點圖所提取的特征,接著對每個關鍵點進行尺度變換確定熱圖精確坐標,最后通過逆空間變換輸出原圖關鍵點坐標。

圖5 關鍵點尺度變換結構

具體轉換過程如下,由式(3)得到關鍵點算術平均值c

(3)

然后由式(4)得到該關鍵點的旋轉角度值θ

(4)

最后計算旋轉矩陣R

(5)

其中,pc為關鍵點的估計結果,c為肩部和臀部關鍵點的算術平均值,e為相關系數,pl-shoulder為肩部關鍵點估計值,pr-shoulder為肩部關鍵點實際值,pl-hip為臀部關鍵點估計值,pr-hip為臀部關鍵點實際值。

2.3 網絡損失函數

在高分辨率表征網絡階段,其輸出的熱圖損失函數采用均方誤差來優(yōu)化網絡模型,損失函數如式(6)所示

(6)

其中,n為圖像中人體總數,k為單人體關鍵點總數,Si為第i個關鍵點的真值,S′i為第i個關鍵點的預測值。

在尺度轉換階段,特征增強模塊的損失函數不同于初始特征提取階段的損失函數。主要原因是在高分辨率表征時將坐標和關鍵點熱圖值看作概率值,形成聯(lián)合概率分布來進行位置回歸,并且對坐標和關鍵點熱圖進行均勻化處理和歸一化處理,最后把得到的兩個矩陣進行F范數運算,輸出的是聯(lián)合概率的高斯分布。而均方誤差損失沒有歸一化處理關鍵點熱圖,直接采用會存在量化偏差。其次是KL散度常用于衡量兩個不同量的分布相似性而非對稱性,再加上網絡更易于學習對稱式高斯概率分布,所以原本的KL散度不適合,其改進表達JS散度值域為[0,1]且具有對稱性。因此,本文選擇JS散度表達,結合關鍵點尺度變換,損失函數如式(7)所示

L2=L′(ZRk)+L″(S′k)

(7)

其中,L′(ZRk)是關鍵點尺度變換的損失函數,ZRk是第k個關鍵點的坐標向量,L″(S′k)是尺度轉換階段的熱點圖損失函數且S′k是歸一化后的熱點圖真值。該散度的損失函數如式(8)所示

L″(S′k)=D(P‖Q)

(8)

其中,P是標簽值的高斯分布,Q是標簽值的預測聯(lián)合概率分布,D(·‖·)是JS離散度表達。該表達式如式(9)所示

(9)

其中,DKL(·‖·)是KL散度的相似度函數,分別如式(10)和式(11)所示

log(2S′n(i,j)/(S′n(i,j)+Zn(i,j)))

(10)

log(2S′n(i,j)/(S′n(i,j)+Zn(i,j)))

(11)

其中,h是特征圖的高,w是特征圖的寬。

結合式(6)和式(7)可知,網絡的整體損失函數如式(12)所示

L=L1+L2

(12)

3 實驗結果與分析

3.1 實驗數據集和評價指標

在實驗及結果對比中,本文采取不同的數據集的組合進行訓練、測試。在LSP和MPII數據集上本文采用關鍵點正確估計比例(percentage of correct keypoints,PCK),COCO數據集采用目標關鍵點相似度指標(object keypoints similarity,OKS)。其中,PCK評價指標是通過對圖像中檢測到的關鍵點,計算其與相應的精確點的歸一化距離,該距離小于初始閾值的比例即為當前關鍵點估計準確率。MPII數據集中統(tǒng)一以圖像中人體頭部尺度作為歸一化標準,即PCKh。當閾值選取為0時,歸一化誤差也就為0,理論上可行但實際是網絡幾乎很難做到完全正確檢測每個點;一般還是根據不同數據集、不等閾值得到不同的準確率來判斷預測的關鍵點是否定位合理。如果檢測關鍵點與標簽關鍵點的歐式距離在該閾值范圍內,則該檢測結果被認為是正確的。第k個人體關鍵點的PCKh的計算過程如式(13)所示

(13)

對于COCO數據集,AP代表的是關鍵點之間的平均關鍵點相似度,在不同AP閾值時,預測結果越接近原值則OKS越趨向于1,反之趨向0。OKS定義如式(14)所示

(14)

3.2 數據預處理和實驗環(huán)境

對于網絡的輸入樣本,MPII數據集訓練樣本統(tǒng)一處理為256×256,COCO數據集訓練樣本則為256×192的尺寸,樣本預處理均值M=[0.49,0.46,0.41]和標準差S=[0.23,0.22,0.23],關鍵點尺度轉換結構部分的高斯核大小從第一層到最后一層分別為7、9、11、13、15。數據擴展采用的方式有隨機縮放、隨機翻轉和隨機旋轉變換,通過對實驗數據的預處理可以有效地解決因為樣本尺寸不同、分布不均勻導致的預測準確率較低的問題[14]。本文實驗系統(tǒng)是基于Ubuntu18.04.5版本,Python版本為3.6,以開源框架Pytorch為平臺。初始化階中,訓練模型的學習率為0.001,衰減系數為0.1,分別在110、150迭代周期時衰減,且衰減為1e-4、1e-5。訓練優(yōu)化器是Adam,mini-batch設為12,總訓練epoch為170。

3.3 實驗結果分析

3.3.1 對比實驗結果分析

本文在LSP、MPII、COCO 數據集上進行實驗,分別比較 PCKh 和AP評價指標。不同方法的實驗結果在LSP數據集上的實驗結果見表1,其中閾值為PCKh=0.2。相比較于SHN[8]、DeeperCut[15]、LFP[16]、DenseNet[17]等方法,本文提出的高分辨特征提取網絡結構,在手腕、腳踝等關鍵點處的檢測精度要稍低于SHN和LFP模型,不過在檢測速度上要分別高出5倍、7倍。這是因為本文方法和SHN、LFP等方法一樣對多尺度的特征信息進行利用與融合,不同的是SHN和LFP都進行了多階段精度校準而本文利用子網間的信息融合來提升精度,在保證精度的同時也兼顧了網絡的速度。

表1 不同方法在LSP數據集上的精度對比(PCK@0.2)

在MPII測試集上測試模型得到的各部位檢測精度結果見表2。從表2中的結果分析可知,本文所提出的方法在肘部、手腕、臀部、膝蓋、腳踝等較難檢測部位的檢測精度達到了較高的準度。相比于DenseNet[17]、OpenPose[18]、Alphapose[19]、基線模型[20]、文獻[7]、DeeperCut[15]和ArtTrack[21],本文方法在7類關鍵點部位的檢測精度以及平均精度上都明顯高于前面所提到的方法,而且在手腕、膝蓋、腳踝等小尺度節(jié)點的預測精度上要分別高出文獻[7]精度的5.5%、5.4%、8.2%。能夠取得較好的檢測結果得益于本文所提出的關鍵點尺度變換結構,在初級特征圖上進行關鍵點尺度變換,這對于那些遮擋部位、小尺度部位的有用特征信息提取有極大提升,檢測效果有明顯進步。

表2 不同方法在MPII數據集上的精度對比(PCK@0.5)

最后采用COCO2017驗證集作為測試集,并對比各方法的精度見表3。當輸入256×192小尺寸的樣本時,本文方法相比輸入尺寸為320×256的Alphapose[19]和輸入尺寸為480×480的MultiPoseNet[23]的AP還提高了0.7%、3.4%,雖然提升不是特別明顯,但是由于本文的輸入尺度更小,圖像有用的特征信息就更少,這也驗證了本文所改進后的高分辨率表征網絡對于微小尺度關鍵點精準預測的有效性。究其原因是本文提出的關鍵點尺度變換結構對樣本中微小尺度的節(jié)點具有更高的敏感度,轉換后的識別效率很高,特別是對膝蓋、腳踝等的關鍵點更加有用、有效;相反對于頭部和肩部這類大尺度關鍵點的精度提升不大。對比其它方法,本文算法在各項精度上都要優(yōu)于前者,同時算法的運算量和參數量都遠小于其它算法,在滿足精度的同時也兼顧了實時性,有利于算法部署到邊緣設備中。算法模型浮點運算量(FLOPs)與精度關系如圖6所示。

表3 不同方法在COCO 2017驗證集上的精度對比

圖6 運算量與精度關系

3.3.2 消融實驗分析

實驗中考慮到所提出的方法會有不同的階段、不同階段的特征融合都會對實驗結果有影響,因此,消融實驗中本文做了4組對比實驗。首先除開輸入大小效果的實驗外,實驗所得到的所有結果均在輸入尺度為256×192大小的圖像中獲得。根據多重多尺度特征融合的特點以及融合效果,本文提出的4組實驗分別是:

(a)最終的特征融合,只在最后一個交換單元內融合,其余并行階段無特征融合。

(b)階段間特征融合,只在開辟新的子網絡階段時融合,子網絡階段內無特征融合。

(c)階段內特征融合,在跨階段和階段內都有特征融合,但階段內只有一重特征融合。

(d)多重階段內特征融合,在跨階段和階段內有特征融合,階段內特征包含雙重特征融合。經過測試4種不同的尺度融合結果見表4。

表4 不同特征融合的精度對比

3.3.3 可視化結果分析

如圖7所示是本文模型在COCO數據集下的人體后6個關鍵點的檢測示意圖。其中上圖為原始圖像樣本的關鍵點真實位置,而下圖為每個關鍵點的預測位置分布情況。圖中展示了不同尺度的關鍵點的信息,根據下圖的預測結果中可以看出,網絡對于較小尺度的關鍵點仍然有較大的感知能力,對于圖像中的各類不同關鍵點,都可以很好地檢測并還原其原始位置信息。除了尺度優(yōu)勢外,樣本中的遮擋問題也得到了一定提升,對比預測結果可以發(fā)現(xiàn)圖中右臀部和右手腕相互遮擋,但是網絡預測和原始標定卻幾乎一致。

圖7 關鍵點檢測實驗

圖8展示了本文方法的部分測試效果,圖中展現(xiàn)了對單人的姿態(tài)估計及整體多人的姿態(tài)估計。在圖中,即使存在部分遮擋、背景干擾、拍攝角度不同、光線陰影影響的情況下,網絡也可以較好檢測到關鍵點,達到預期的表現(xiàn)。

圖8 人體姿態(tài)測試結果

4 結束語

針對人體姿態(tài)估計中的小尺度關鍵點,為了有效提高人體姿態(tài)檢測模型性能,以高分辨率檢測框架為基礎構建新的高分辨率表征的網絡并提出了一種關鍵點尺度轉換結構。改進后的網絡能夠提取多階段的低級特征和高級特征并在子網絡內外進行多重融合特征信息,再結合網絡末端的尺度轉換結構有效地提高了關鍵點檢測精度。在不同的數據集上實驗結果表明,本文方法的檢測精度要優(yōu)于其它方法的,網絡模型參數量與浮點運算量較小,在小尺度級別的關鍵點檢測效果上有較大提升。網絡整體相比原網絡更加輕量化、增加階段內特征融合數量,但是由于去掉了更低級別分辨率的子網,部分特征信息會有丟失。如何保證網絡輕量化的同時,找尋新的方法來優(yōu)化網絡結構,彌補減少子網帶來的不利影響,進一步提升網絡的檢測性能和加速網絡推理速度是本文未來的工作重點。

猜你喜歡
高分辨率關鍵點尺度
聚焦金屬關鍵點
肉兔育肥抓好七個關鍵點
財產的五大尺度和五重應對
高分辨率合成孔徑雷達圖像解譯系統(tǒng)
雷達學報(2020年3期)2020-07-13 02:27:16
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
高分辨率對地觀測系統(tǒng)
太空探索(2015年8期)2015-07-18 11:04:44
基于Curvelet-Wavelet變換高分辨率遙感圖像降噪
醫(yī)聯(lián)體要把握三個關鍵點
9
高分辨率遙感相機CCD器件精密熱控制
高唐县| 株洲县| 尖扎县| 油尖旺区| 东丽区| 水富县| 资源县| 赣榆县| 敦煌市| 金坛市| 丽江市| 金平| 奉贤区| 陆良县| 镇坪县| 许昌县| 昭通市| 永寿县| 克拉玛依市| 醴陵市| 宁乡县| 南陵县| 合阳县| 富民县| 神农架林区| 马山县| 兰考县| 闵行区| 鄯善县| 于田县| 东安县| 保亭| 麻江县| 罗田县| 新民市| 许昌市| 威信县| 蒲城县| 上思县| 陆丰市| 盐边县|