国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識蒸餾的輕量級人體姿態(tài)估計網(wǎng)絡設計

2022-01-19 05:08:42繆寧杰董仲星鄭樹松王佳敏羅文東
機械設計與制造工程 2021年12期
關鍵詞:熱圖關節(jié)點分辨率

方 芹,繆寧杰,董仲星,鄭樹松,王佳敏, 羅文東,周 霖

(1.國網(wǎng)浙江省電力有限公司雙創(chuàng)中心,浙江 杭州 310051) (2.國網(wǎng)浙江省電力有限公司杭州供電公司,浙江 杭州 310009) (3.浙江光珀智能科技有限公司,浙江 杭州 311100) (4.杭州致成電子科技有限公司,浙江 杭州 310009) (5.北京大道合創(chuàng)科技有限責任公司,北京 100085)

一般來說,處理高度非線性的任務需要深層次的神經(jīng)網(wǎng)絡,因為深層次的網(wǎng)絡模型能夠擬合更為復雜的輸入與輸出之間的關系。密集預測獲益于各種深度卷積神經(jīng)網(wǎng)絡的快速發(fā)展[1-2],骨干網(wǎng)絡提取的特征越好,在后續(xù)密集預測時效果也越好。出于這個原因,許多學者通過不斷加深骨干網(wǎng)絡來獲取輸入圖片高層次特征,然而這會導致模型推理效率低下,需要數(shù)十個浮點運算來計算每幅圖像。另外,許多學者由于設備資源限制,無法訓練這種深層次網(wǎng)絡。

知識蒸餾的目的是研究不同神經(jīng)網(wǎng)絡之間的信息傳遞。Hinton等[3]首先提出了知識蒸餾的概念,通過訓練一個大型網(wǎng)絡(教師網(wǎng)絡)來幫助小型網(wǎng)絡(學生網(wǎng)絡)訓練。其基本原理是首先訓練一個深層次的大型神經(jīng)網(wǎng)絡,然后使用教師網(wǎng)絡的預測概率分布[3]、中間層的特征表示[4]或者網(wǎng)絡的結構信息[5],作為學生網(wǎng)絡的額外監(jiān)督,以輔助學生網(wǎng)絡完成自身的訓練過程。這一原理最近也被應用于大規(guī)模分布式模型的訓練過程[6-7],用于多層間或多個訓練狀態(tài)之間的知識傳遞。此外,知識蒸餾還被用來將容易訓練的大網(wǎng)絡提煉成更難訓練的小網(wǎng)絡[8]。

人體姿態(tài)估計是密集預測中的一項基本任務,其目的是在一幅圖像中定位人的所有關鍵點(如手腕、手肘等),應用領域十分廣泛,可應用于虛擬現(xiàn)實、人機交互、動作檢測和自動駕駛等[9-11]。目前的人體姿態(tài)估計網(wǎng)絡可以分為自頂向下和自下向上兩類。

自頂向下:自頂向下的姿態(tài)估計網(wǎng)絡分為兩個階段。首先用目標估計網(wǎng)絡檢測出圖片中的人,并用包圍盒把人框出來。然后對每個包圍盒里的人用姿態(tài)估計網(wǎng)絡估計出對應的姿態(tài)。文獻[12]提出了深度高分辨網(wǎng)絡HRNet,該網(wǎng)絡在整個訓練過程中保持特征圖的分辨率,并在姿態(tài)估計任務中得到了較好的結果。文獻[13]建議網(wǎng)絡同時預測關節(jié)點熱圖和每個關節(jié)點與標簽的偏差,然后利用偏差校正預測熱圖得到最終的預測結果。文獻[14]用堆疊的沙漏網(wǎng)絡與跳躍連接來提高整體性能。文獻[15]使用金字塔殘差模塊來獲取多尺度信息。文獻[16]提出了一個簡單的姿態(tài)估計網(wǎng)絡,使用轉(zhuǎn)置卷積來得到高分辨率熱圖。

自下而上:自下而上的網(wǎng)絡直接預測圖中的所有關節(jié)點,然后用算法將關節(jié)點組裝成不同的人。文獻[16]提出了兩個分支多階段的網(wǎng)絡,一個用于關節(jié)熱圖預測,一個用于組合關節(jié)點。文獻[17]使用空洞殘差網(wǎng)絡直接學習每個關節(jié)點的二維偏移向量來對關節(jié)點進行分組。文獻[18]使用一個局部強度場來定位關節(jié)點,使用一個部件關聯(lián)場來將身體的各個部件組合起來。文獻[19]在HRNet的基礎上提出了HigherHRNet,通過多分辨率監(jiān)督的方式訓練網(wǎng)絡,然后使用文獻[20]的網(wǎng)絡對檢測到的關節(jié)點進行分組。

盡管HRNet、HigherHRNet等網(wǎng)絡在姿態(tài)估計的任務中得到了較高的精度,但它們的參數(shù)量十分龐大,以至于訓練這些網(wǎng)絡需要消耗很大的計算資源。由于知識蒸餾可以把大型網(wǎng)絡的知識轉(zhuǎn)移到小型網(wǎng)絡中,并且不需要很多的計算資源,因此本文提出了一種基于知識蒸餾的輕量級人體姿態(tài)估計網(wǎng)絡,以HigherHRNet作為教師網(wǎng)絡來指導監(jiān)督網(wǎng)絡。

1 基于知識蒸餾的輕量級人體姿態(tài)估計分析

本文提出的基于知識蒸餾的輕量級人體姿態(tài)估計網(wǎng)絡框架如圖1所示,該框架主體由兩個HigherHRNet構成:一個預訓練好的HigherHRNet作為教師網(wǎng)絡;一個簡化版的HigherHRNet作為學生網(wǎng)絡,學習教師網(wǎng)絡中的結構知識和標簽信息。

圖1 基于知識蒸餾的輕量級人體姿態(tài)估計的網(wǎng)絡框架流圖

1.1 教師網(wǎng)絡

HigherHRNet是目前最先進的姿態(tài)估計網(wǎng)絡[21],該網(wǎng)絡具有訓練時多分辨率監(jiān)督、推理時多分辨率融合預測的特點,能夠較好地解決自下而上多人姿態(tài)估計中尺度變換的問題,并且能夠精確定位出關節(jié)點。

教師網(wǎng)絡的結構如圖1的上半部分所示。首先,輸入一張圖片,以數(shù)字1表示圖片完整的分辨率,經(jīng)過Stem,圖片的分辨率變?yōu)樵瓐D的1/4,Stem由兩個卷積塊和4個殘差卷積模塊構成。然后,以該分辨率的特征圖作為網(wǎng)絡的第一分支,從高分辨率到低分辨率,生成多個不同分辨率的分支(圖1中有3個分支),并將這些分支并行地連接起來。通過反復地進行多尺度融合,從并行的分辨率特征圖中可以學到知識,從而得到魯棒性強的、豐富的高分辨率。

在得到圖片的高分辨率表示之后(分辨率為1/4),HigherHRNet進行了第一階段的預測,得到預測熱圖和分組熱圖。然后,將預測結果和上一步的特征圖串聯(lián),通過1個轉(zhuǎn)置卷積模塊和多個殘差卷積塊得到第二個預測熱圖(分辨率為1/2)。最后,使用不同分辨率的關節(jié)熱圖標簽來監(jiān)督訓練網(wǎng)絡。

1.2 學生網(wǎng)絡

人體姿態(tài)估計網(wǎng)絡通常由多個具有相同結構的塊組成,如Hourglass和HigherHRNet。由于在整體結構中部署了大量重復的塊,因此現(xiàn)有的設計并不具有成本效益,從而導致了表達能力和計算成本之間的次優(yōu)權衡。例如:Hourglass由8個沙漏結構堆疊而成,每個階段結構都有9個殘差塊;HigherHRNet的每個分支由多個重復的殘差塊組成。

本文的學生網(wǎng)絡采用簡化版的教師網(wǎng)絡,即簡化版的HigherHRNet。學生網(wǎng)絡中的殘差卷積模塊只有教師網(wǎng)絡中的一半,因此訓練只需要較少的計算資源。

1.3 訓練細節(jié)

學生網(wǎng)絡使用Pytorch進行訓練,教師網(wǎng)絡使用官網(wǎng)提供的預訓練模型[22]。網(wǎng)絡使用ADAM優(yōu)化器,基礎學習率為0.001,并分別在200和260個訓練周期時降低學習率,一共訓練300個周期,批量大小為12。

在圖像推理階段,使用與文獻[19]一樣的網(wǎng)絡,通過多熱圖聯(lián)合預測的方式來預測人體的姿態(tài)。學生網(wǎng)絡預測了兩個階段的關節(jié)點熱圖,由于兩個階段預測熱圖的分辨率不一致,因此需要先對第一階段的熱圖進行采樣,然后把它與第二階段的預測熱圖融合得到最終的人體姿態(tài)預測結果。

1.4 聯(lián)合損失函數(shù)

假定網(wǎng)絡的輸入圖片為X,X∈3×H×W,其中H和W分別代表輸入圖片的高和寬。教師網(wǎng)絡和學生網(wǎng)絡經(jīng)過多分支多分辨率融合模塊后,分別得到第一階段的預測結果MT1和通道數(shù)34由前17張關節(jié)點熱圖和后17張分組熱圖組成。Loss1只使用教師網(wǎng)絡的預測關節(jié)熱圖作為學生網(wǎng)絡的額外監(jiān)督,所以定義Loss1為:

(1)

在得到學生網(wǎng)絡第一階段的預測結果MS1后,使用對應的關節(jié)標簽監(jiān)督預測結果MS1的前17張預測關節(jié)熱圖,因此定義Loss2為:

(2)

(3)

由此,學生網(wǎng)絡的最終聯(lián)合損失Loss定義為:

Loss=α·Loss1+β·Loss2+γ·Loss3+Lg

(4)

式中:α,β,γ分別為對應損失的權重,本文中α和γ設置為1/4,β設置為3/4;Lg為三元組損失,通常取1。

2 實驗分析

2.1 數(shù)據(jù)集

COCO數(shù)據(jù)集是在復雜的環(huán)境干擾下收集得到的,因此要求網(wǎng)絡能夠在復雜的條件下估計定位出圖片中所有人的關節(jié)點[23]。該數(shù)據(jù)集總共包含超過200 000張圖像,250 000個帶有17個關鍵點的人。該數(shù)據(jù)集被分為57 000個訓練集、5 000個驗證集和20 000個測試集。學生網(wǎng)絡在訓練集上進行訓練,并報告了在驗證集上的實驗結果。

2.2 評價指標

COCO關鍵點相似度(object keypoint similarity,OKS),與目標檢測中的IoU類似,OKS可以表示預測出來的關節(jié)點和標簽圖片中的關節(jié)點的重合程度,其值越接近1越好。

(5)

式中:exp()為指數(shù)函數(shù);n為關節(jié)點的序號,dn為標注關節(jié)點和預測關節(jié)點之間的歐氏距離;s為所占面積;kn為第n個關節(jié)點的歸一化因子,可通過對數(shù)據(jù)集進行標準差得到,反映了當前關節(jié)點對與整體的影響程度。

2.3 實驗結果

首先在COCO數(shù)據(jù)集上對知識蒸餾出來的學生網(wǎng)絡進行驗證,實驗結果見表1。表中:AP0.5為所有圖像中人物預測的關鍵點位置和真實位置的相似性在0.5以上的平均準確率,AP0.75為所有圖像中人物預測的關鍵點位置和真實位置的相似性在0.75以上的平均準確率,AP為AP0.5,AP0.55,AP0.6,AP0.65,AP0.7,AP0.75,AP0.8,AP0.85,AP0.9,AP0.95的平均準確率,APM表示像素面積在[32×32,96×96]的人物預測準確度,APL表示像素面積大于96×96的人物預測準確度。教師網(wǎng)絡是一個大型的網(wǎng)絡,所以它能夠達到較高的精度。未蒸餾的學生網(wǎng)絡是指直接使用標簽數(shù)據(jù)進行訓練,沒有額外使用教師網(wǎng)絡的預測特征圖監(jiān)督?;谡麴s的學生網(wǎng)絡即本文所設計的網(wǎng)絡,使用標簽和教師網(wǎng)絡預測的特征圖聯(lián)合監(jiān)督訓練學生網(wǎng)絡??梢钥吹剑谡麴s的網(wǎng)絡比未蒸餾的網(wǎng)絡提高了1.3%,這說明教師網(wǎng)絡的監(jiān)督是有作用的。值得注意的是,雖然學生網(wǎng)絡的精度比教師網(wǎng)絡低了許多,但本文的目的是訓練一個簡單姿態(tài)估計網(wǎng)絡,給訓練資源不足的學者提供一個有效的蒸餾訓練網(wǎng)絡,該網(wǎng)絡比直接訓練學生網(wǎng)絡具有更高的精度。另一方面,深層次的神經(jīng)網(wǎng)絡(教師網(wǎng)絡)能夠較好地處理姿態(tài)估計任務,而簡化的網(wǎng)絡(學生網(wǎng)絡)并不能達到教師網(wǎng)絡的精度。這也說明了姿態(tài)估計是一個高度非線性的任務,使用淺層網(wǎng)絡并不能準確地對人體姿態(tài)進行預測。

表1 COCO數(shù)據(jù)集上不同網(wǎng)絡精度比較

除了定量分析,本文還進行了定性分析,結果如圖2所示。從圖中可以看出,教師網(wǎng)絡預測的結果最好,未蒸餾的學生網(wǎng)絡最差。

圖2 預測結果可視化

圖3為教師網(wǎng)絡和學生網(wǎng)絡預測的關節(jié)點,第一列為原始圖片,第二至第十八列分別預測鼻子、左眼、右眼等。可以看到,深層次的教師網(wǎng)絡的預測結果接近標簽,而淺層次的學生網(wǎng)絡僅能預測圖片中一部分關節(jié)點。

圖3 預測熱圖可視化

網(wǎng)絡模型的參數(shù)量是一個十分重要的參數(shù),表2中報告了教師網(wǎng)絡和學生網(wǎng)絡的模型參數(shù)量(Params)和網(wǎng)絡需要計算的浮點運算數(shù)(giga floating-point operations per second, GFLOPs)。從表中可以看到,由于教師網(wǎng)絡是深層次網(wǎng)絡,所以它的模型參數(shù)量、浮點運算數(shù)和推理時間(Inference)都大于學生網(wǎng)絡。因此,本文能夠在計算資源不足的情況下訓練學生網(wǎng)絡。

表2 模型參數(shù)量、浮點運算數(shù)和推理時間

3 結束語

本文提出了一個基于知識蒸餾的輕量級姿態(tài)估計網(wǎng)絡,該網(wǎng)絡由標簽和教師網(wǎng)絡預測熱圖聯(lián)合監(jiān)督訓練得到。通過知識蒸餾的方式訓練的學生網(wǎng)絡能夠比直接訓練得到的學生網(wǎng)絡得到更高的人體姿態(tài)估計精度。此外,本文設計的學生網(wǎng)絡是一個較為簡單、常見的姿態(tài)估計網(wǎng)絡,能夠幫助學者在計算資源不足的情況下得到較好的姿態(tài)估計精度。研究結果表明,使用知識蒸餾得到的學生網(wǎng)絡能夠較為有效地估計出人體關節(jié)點。

猜你喜歡
熱圖關節(jié)點分辨率
基于深度學習和視覺檢測的地鐵違規(guī)行為預警系統(tǒng)研究與應用
關節(jié)點連接歷史圖與卷積神經(jīng)網(wǎng)絡結合的雙人交互動作識別
EM算法的參數(shù)分辨率
原生VS最大那些混淆視聽的“分辨率”概念
搞好新形勢下軍營美術活動需把握的關節(jié)點
基于深度特征學習的圖像超分辨率重建
自動化學報(2017年5期)2017-05-14 06:20:52
一種改進的基于邊緣加強超分辨率算法
熱圖
攝影之友(2016年12期)2017-02-27 14:13:20
熱圖
每月熱圖
攝影之友(2016年8期)2016-05-14 11:30:04
武乡县| 井陉县| 阳春市| 民和| 安新县| 平遥县| 隆安县| 石家庄市| 遂溪县| 福安市| 南雄市| 出国| 沾化县| 巩留县| 星子县| 章丘市| 炎陵县| 电白县| 泗洪县| 东明县| 普兰店市| 图木舒克市| 饶河县| 赣榆县| 宿州市| 阿尔山市| 英吉沙县| 合水县| 贞丰县| 昆山市| 冀州市| 灵川县| 甘德县| 三原县| 安新县| 大洼县| 安达市| 安溪县| 洞口县| 漳浦县| 如皋市|