摘要:針對(duì)實(shí)時(shí)人體姿態(tài)估計(jì)模型計(jì)算復(fù)雜度大、效率低的問題,文章以YOLOv8n-Pose模型為基準(zhǔn),提出了一種結(jié)合重參數(shù)化網(wǎng)絡(luò)和共享卷積的輕量化人體姿態(tài)估計(jì)算法。首先,引入MLCA注意力機(jī)制,改進(jìn)C2f模塊中的Bottleneck結(jié)構(gòu),提升骨干網(wǎng)絡(luò)對(duì)人體關(guān)鍵點(diǎn)的特征提取能力。其次,將原有的PANet特征融合網(wǎng)絡(luò)替換為重參數(shù)化網(wǎng)絡(luò)RepGFPN,實(shí)現(xiàn)更高效的多尺度特征融合。最后,設(shè)計(jì)了一種共享卷積的輕量化檢測(cè)頭,降低模型參數(shù)量,減少計(jì)算開銷。在COCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的模型計(jì)算復(fù)雜度(GFLOPS) 降低了10%,mAP@50精度提升了2.8%,模型參數(shù)量減少了20%。這些改進(jìn)為人體姿態(tài)估計(jì)任務(wù)的輕量化和高效部署提供了新思路。
關(guān)鍵詞:人體姿態(tài)估計(jì);輕量化;YOLOv8n-Pose;重參數(shù)化網(wǎng)絡(luò)RepGFPN;共享卷積
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)02-0019-04 開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :
0 引言
人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺中的重要任務(wù),廣泛應(yīng)用于行為分析、人機(jī)交互、智能監(jiān)控和虛擬現(xiàn)實(shí)等領(lǐng)域。
近年來,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN) 的姿態(tài)估計(jì)方法逐漸成為主流,主要分為基于熱圖的方法和回歸的方法。基于熱圖的方法雖然精度較高,但計(jì)算量大,難以在資源有限的設(shè)備上實(shí)現(xiàn)實(shí)時(shí)應(yīng)用?;诨貧w的方法直接從圖像中預(yù)測(cè)人體關(guān)鍵點(diǎn)的坐標(biāo),具有速度快、計(jì)算量小的優(yōu)勢(shì),但在復(fù)雜場(chǎng)景下(如多人或遮擋情況下) ,定位精度較低。Toshev等[1]提出了一種以AlexNet為骨干的級(jí)聯(lián)深度神經(jīng)網(wǎng)絡(luò)DeepPose,將姿態(tài)估計(jì)建模為基于深度神經(jīng)網(wǎng)絡(luò)的關(guān)鍵點(diǎn)回歸問題。Chen等[2]提出了級(jí)聯(lián)金字塔網(wǎng)絡(luò)(CPN) ,通過Global?Net和RefineNet雙階段結(jié)構(gòu)有效解決多人姿態(tài)估計(jì)中的遮擋和不可見關(guān)鍵點(diǎn)問題,并在COCO數(shù)據(jù)集上實(shí)現(xiàn)了顯著性能提升。在此基礎(chǔ)上,Li等[3]提出了多階段姿態(tài)網(wǎng)絡(luò)(MSPN) ,改進(jìn)了CPN的關(guān)鍵點(diǎn)回歸方式。MSPN采用多階段回歸策略,逐步細(xì)化關(guān)鍵點(diǎn)預(yù)測(cè),逐漸減少誤差;通過不同大小的高斯卷積核生成標(biāo)簽,靠近輸入端的卷積核較大,確保初步定位,卷積核隨階段減小,以提升定位精度,實(shí)現(xiàn)多階段細(xì)化和模型穩(wěn)定性,適用于多種復(fù)雜場(chǎng)景的姿態(tài)估計(jì)。
利用Transformers的特征提取能力,Mao等[4]提出的Poseur預(yù)測(cè)精度較高,能夠有效捕捉全局依賴性,克服了傳統(tǒng)方法中的量化誤差問題,但學(xué)習(xí)復(fù)雜度較高,泛化能力欠佳,且在跨域數(shù)據(jù)上表現(xiàn)不足,訓(xùn)練和推理成本較高。Sun等[5]提出的密集關(guān)鍵點(diǎn)回歸框架(DEKR) ,通過逐像素空間變換器和自適應(yīng)卷積激活關(guān)鍵點(diǎn)區(qū)域,以精確回歸關(guān)鍵點(diǎn)位置。該方法采用多分支結(jié)構(gòu),使每個(gè)分支專注于單個(gè)關(guān)鍵點(diǎn)回歸,從而提升空間精度。
隨著YOLOv8-Pose[6]系列模型的出現(xiàn),實(shí)時(shí)姿態(tài)估計(jì)取得了顯著進(jìn)展。然而,在處理遮擋、復(fù)雜姿態(tài)和多人體場(chǎng)景時(shí),YOLOv8-Pose在關(guān)鍵點(diǎn)定位上仍存在局限,特別是對(duì)被遮擋關(guān)鍵點(diǎn)的檢測(cè)不夠準(zhǔn)確。為解決上述問題,本文以YOLOv8n-Pose模型為基準(zhǔn),提出了一種結(jié)合重參數(shù)化網(wǎng)絡(luò)和共享卷積的輕量化人體姿態(tài)估計(jì)算法。主要貢獻(xiàn)如下:
1) 引入MLCA 注意力機(jī)制,改進(jìn)C2f 模塊中的Bottleneck結(jié)構(gòu),提升模型對(duì)關(guān)鍵點(diǎn)特征的提取能力。
2) 用RepGFPN替代原有的PANet特征融合網(wǎng)絡(luò),實(shí)現(xiàn)更高效的多尺度特征融合。
3) 設(shè)計(jì)了共享卷積的輕量化檢測(cè)頭Pose_LSCD,降低模型參數(shù)量和計(jì)算復(fù)雜度。
1 相關(guān)原理
YOLOv8-Pose是一種結(jié)合目標(biāo)檢測(cè)和關(guān)鍵點(diǎn)檢測(cè)的實(shí)時(shí)人體姿態(tài)估計(jì)模型。該模型基于YOLO系列目標(biāo)檢測(cè)架構(gòu),通過在檢測(cè)框的基礎(chǔ)上預(yù)測(cè)人體的關(guān)鍵點(diǎn)位置,實(shí)現(xiàn)多人姿態(tài)估計(jì)。整體結(jié)構(gòu)包括骨干網(wǎng)絡(luò)(Backbone) 、特征融合網(wǎng)絡(luò)(Neck) 和檢測(cè)頭(Head) 。輸入圖像經(jīng)過骨干網(wǎng)絡(luò)提取多尺度特征圖,隨后在特征融合網(wǎng)絡(luò)中進(jìn)行特征融合,最后通過檢測(cè)頭完成目標(biāo)分類、定位和關(guān)鍵點(diǎn)預(yù)測(cè)。
2 方法
2.1 C2f_MLCA 模塊
基于回歸的模型在復(fù)雜場(chǎng)景下的關(guān)鍵點(diǎn)定位精度較低,尤其在面對(duì)遮擋情況時(shí),難以準(zhǔn)確提取被遮擋的關(guān)鍵點(diǎn)。這是因?yàn)楣歉删W(wǎng)絡(luò)提取的有效關(guān)鍵點(diǎn)特征不足,影響了整體姿態(tài)的準(zhǔn)確識(shí)別。
如圖1(a) 、(b)所示,為提升模型對(duì)人體關(guān)鍵點(diǎn)的特征提取能力,本文引入MLCA[7]注意力機(jī)制,改進(jìn)C2f模塊中的Bottleneck結(jié)構(gòu)。MLCA通過融合局部和全局特征,增強(qiáng)了模型對(duì)重要空間特征的表達(dá)能力,提高了被遮擋關(guān)鍵點(diǎn)的識(shí)別準(zhǔn)確性。
如圖1(c)所示,MLCA模塊包含局部和全局兩個(gè)分支。局部分支通過局部平均池化(LAP) 捕獲細(xì)節(jié)特征權(quán)重,全局分支通過全局平均池化(GAP) 提取整體特征權(quán)重。兩者經(jīng)過一維卷積和展平處理后,融合生成混合局部通道注意力權(quán)重,增強(qiáng)了模型的特征表達(dá)能力。具體而言,局部分支通過局部平均池化捕捉細(xì)節(jié)特征權(quán)重,全局分支通過全局平均池化提取整體特征權(quán)重。兩個(gè)分支的輸出經(jīng)過Reshape層展平,并通過一維卷積層進(jìn)一步提取特征權(quán)重。隨后,局部特征權(quán)重與反池化后的全局特征權(quán)重經(jīng)過像素級(jí)相加,生成融合了局部和全局信息的注意力權(quán)重。最終,通過反池化操作獲得與輸入特征圖通道數(shù)相等的混合局部通道注意力權(quán)重。
通過引入MLCA注意力機(jī)制,模型在局部和全局空間上增強(qiáng)了對(duì)遮擋人體關(guān)鍵點(diǎn)的特征表達(dá)能力,并提高了隨機(jī)分布人體關(guān)鍵點(diǎn)的定位精度。
2.2 RepGFPN 特征融合網(wǎng)絡(luò)
傳統(tǒng)PANet的特征融合采用自上而下和自下而上結(jié)合的方式,其中自下而上的路徑增強(qiáng)主要關(guān)注低層特征的信息傳播,這種機(jī)制可以增強(qiáng)位置精確的低層特征,但由于高層語義特征在回傳時(shí)沒有得到充分關(guān)注,導(dǎo)致在融合過程中高層語義信息被弱化。
為增強(qiáng)模型在不同尺度下的特征融合效果,本文引入了RepGFPN[8]網(wǎng)絡(luò),替代了YOLOV8n-pose原有的PANet部分。RepGFPN是一種高效的特征融合網(wǎng)絡(luò),改進(jìn)自傳統(tǒng)FPN,重點(diǎn)在于提升模型效率的同時(shí)保持精度。通過引入重復(fù)分支和高效計(jì)算模塊,Rep?GFPN增強(qiáng)了特征融合能力,同時(shí)降低了計(jì)算負(fù)擔(dān)。它通過跨層特征融合,顯著提升了模型在不同尺度下的關(guān)鍵特征檢測(cè)能力,更好地捕捉細(xì)節(jié)和全局信息的相互關(guān)系,并減少了特征圖的計(jì)算開銷。
如圖2所示,RepGFPN網(wǎng)絡(luò)通過其高效特征融合設(shè)計(jì),實(shí)現(xiàn)了更為有效的多尺度特征整合。整體上,多個(gè)特征層通過拼接進(jìn)入RepGFPN的融合模塊進(jìn)行迭代處理。其次,在融合模塊(FusionBlock) 內(nèi)部利用雙分支卷積網(wǎng)絡(luò)對(duì)特征進(jìn)行提取和融合,有效結(jié)合了圖像的高層和低層語義信息。在模型訓(xùn)練過程中,RepConv模塊采用雙路卷積,而在推理時(shí)僅使用一路卷積,進(jìn)一步提升了推理效率。
2.3 Pose_LSCD 輕量化檢測(cè)頭
YOLOv8-Pose在檢測(cè)頭中使用了多個(gè)卷積層來提取特征和回歸關(guān)鍵點(diǎn)位置,同時(shí)每個(gè)分類和目標(biāo)回歸分支都有獨(dú)立的卷積操作。這種設(shè)計(jì)雖然能夠提升檢測(cè)精度,但顯著增加了檢測(cè)頭的參數(shù)量。
本研究設(shè)計(jì)了一種用于人體姿態(tài)檢測(cè)的輕量化檢測(cè)頭Pose_LSCD。該檢測(cè)頭通過卷積共享結(jié)構(gòu)的設(shè)計(jì)來減少模型參數(shù)量。在采用共享卷積結(jié)構(gòu)時(shí),由于標(biāo)準(zhǔn)卷積模塊中的批量歸一化(BN) 依賴于當(dāng)前批次的均值和方差,導(dǎo)致小批次的統(tǒng)計(jì)量不夠穩(wěn)定,容易受到噪聲的影響,因此引入分組歸一化(GN) [9]對(duì)卷積模塊進(jìn)行改進(jìn),從而提升目標(biāo)檢測(cè)的定位和分類效果。
如圖3所示,本研究設(shè)計(jì)的共享卷積模塊作用于特征輸入的分類和檢測(cè)分支,以實(shí)現(xiàn)輕量化檢測(cè)頭的參數(shù)優(yōu)化效果。整體上,來自融合網(wǎng)絡(luò)的每個(gè)特征首先經(jīng)過一個(gè)1×1的卷積模塊(ConvGN) ,然后分別進(jìn)入姿態(tài)估計(jì)(Pose) 的分支網(wǎng)絡(luò),并依次進(jìn)入共享卷積模塊,實(shí)現(xiàn)共享權(quán)重的結(jié)構(gòu)。在Pose分支中,每個(gè)特征依次經(jīng)過一個(gè)1×1和3×3的卷積,最后通過一個(gè)通道數(shù)等于關(guān)鍵點(diǎn)數(shù)量的卷積,得到人體姿態(tài)估計(jì)的關(guān)鍵點(diǎn)檢測(cè)坐標(biāo)。在共享卷積模塊中,輸入特征會(huì)經(jīng)過兩個(gè)3×3的共享卷積,分為兩路分別預(yù)測(cè)類別和檢測(cè)目標(biāo)位置。數(shù)學(xué)表達(dá)式如下:
yi = concat(share(xi ),POSEi (xi )) (1)
Y = [ y1 ,y1 ,...,yn ] (2)
其中,share 函數(shù)表示每個(gè)輸入的共享模塊,而POSE函數(shù)表示對(duì)每個(gè)輸入都有其對(duì)應(yīng)的人體姿態(tài)檢測(cè)輸出。最終,來自融合網(wǎng)絡(luò)的每個(gè)特征都只經(jīng)過同一個(gè)share模塊,隨后將得到的特征張量進(jìn)行拼接,并自適應(yīng)調(diào)整網(wǎng)絡(luò)參數(shù)。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)與環(huán)境
實(shí)驗(yàn)采用COCO2017人體關(guān)鍵點(diǎn)數(shù)據(jù)集,包含標(biāo)注了17個(gè)關(guān)鍵點(diǎn)的圖像數(shù)據(jù),覆蓋多人、遮擋、動(dòng)作多樣等復(fù)雜場(chǎng)景。訓(xùn)練集包含56 599張圖片,驗(yàn)證集包含5 000張圖片。
實(shí)驗(yàn)硬件環(huán)境包括NVIDIA RTX 4090 GPU(24GB 顯存) 、Intel Core i9-12900K處理器和32GB內(nèi)存,利用GPU的并行計(jì)算加速模型訓(xùn)練與推理。軟件環(huán)境為Ubuntu 20.04操作系統(tǒng),Python 3.8用于算法實(shí)現(xiàn),深度學(xué)習(xí)框架為PyTorch 1.8,CUDA版本為11.2以支持GPU計(jì)算。
實(shí)驗(yàn)設(shè)置的參數(shù)為:初始學(xué)習(xí)率(learning rate) 為0.01,批處理大小(batch size) 為16,迭代輪數(shù)(epochs) 為300,輸入圖像分辨率為640×640,以確保不同模型之間具有可比性。
3.2 評(píng)價(jià)指標(biāo)
對(duì)于COCO2017 數(shù)據(jù)集,本文采用OKS(ObjectKeypoint Similarity,關(guān)節(jié)點(diǎn)相似度) 作為模型性能評(píng)價(jià)的度量方法。計(jì)算公式為:
如公式(3) 所示,i 表示關(guān)鍵點(diǎn)的類型,di表示檢測(cè)出的關(guān)鍵點(diǎn)與其真實(shí)標(biāo)簽之間的歐氏距離,s 表示目標(biāo)的尺度,vi為真實(shí)關(guān)鍵點(diǎn)的可見性標(biāo)志,δ 函數(shù)確保只有被標(biāo)注的關(guān)鍵點(diǎn)才會(huì)納入計(jì)算,ki是控制衰減的每個(gè)關(guān)鍵點(diǎn)的常數(shù)。
如公式(4) 和(5) 所示,P和R分別表示精確度(Pre?cision) 與召回率(Recall) 。其中,TP為正樣本中預(yù)測(cè)為真的數(shù)量,F(xiàn)P為負(fù)樣本中預(yù)測(cè)為真的數(shù)量,F(xiàn)N為負(fù)樣本中預(yù)測(cè)為假的數(shù)量。
如公式(6) 所示,本研究采用mAP(mean AveragePrecision) 作為評(píng)估模型在不同閾值下的平均精度的指標(biāo),用于整體性能評(píng)估。mAP@50表示OKS閾值為0.5時(shí)的平均精度,mAP@50-95為OKS閾值從0.5到0.95的平均精度,其中,M是目標(biāo)的總數(shù)量。
3.3 測(cè)試與分析
為了全面評(píng)估模型的輕量化和檢測(cè)性能,本文使用了參數(shù)量(Params) 、GFLOPS(每秒十億次浮點(diǎn)數(shù)運(yùn)算) 以及平均精度(mAP@50、mAP@50-95) 進(jìn)行分析。參數(shù)量用于衡量模型的輕量化程度,較少的參數(shù)量表示模型更加精簡,適合在資源有限的設(shè)備上運(yùn)行。GFLOPS是評(píng)估模型計(jì)算復(fù)雜度的重要標(biāo)準(zhǔn),表示模型每秒執(zhí)行的浮點(diǎn)運(yùn)算次數(shù)。
3.3.1 消融實(shí)驗(yàn)
為探討本文提出的不同模塊對(duì)模型性能的影響,筆者進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),逐步修改模型中的各個(gè)模塊,評(píng)估其對(duì)模型在mAP@50、mAP@50-95、GFLOPS以及模型參數(shù)量方面的貢獻(xiàn)。
如表1 所示,引入C2f_MLCA 模塊后,參數(shù)量從3.3M增加至3.6M,GFLOPS增加了0.5,模型的mAP@50提升了1.9%,證明了MLCA注意力機(jī)制在關(guān)鍵點(diǎn)特征增強(qiáng)方面的有效性。進(jìn)一步引入RepGFPN 后,mAP@50再次提升,同時(shí)GFLOPS有所降低,實(shí)驗(yàn)證明RepGFPN在提升模型精度的同時(shí)優(yōu)化了計(jì)算效率。此外,加入設(shè)計(jì)的Pose_LSCD 檢測(cè)頭后,參數(shù)量從4.4M降至2.7M,同時(shí)保持了檢測(cè)精度。
通過逐步添加各改進(jìn)模塊,觀察到模塊間的協(xié)同作用,例如C2f_MLCA與RepGFPN的結(jié)合能夠在提升特征提取能力的同時(shí)優(yōu)化多尺度特征的融合,從而進(jìn)一步提升整體模型性能。綜合分析顯示,消融實(shí)驗(yàn)驗(yàn)證了各模塊的有效性,同時(shí)展示了其在實(shí)際應(yīng)用中的潛在價(jià)值。
3.3.2 對(duì)比試驗(yàn)
為了進(jìn)一步評(píng)估本文提出的改進(jìn)模型在姿態(tài)估計(jì)任務(wù)中的表現(xiàn),基于COCO數(shù)據(jù)集,選取多個(gè)主流姿態(tài)估計(jì)模型與改進(jìn)模型進(jìn)行了對(duì)比實(shí)驗(yàn),如表2 所示。
從表2可以看出,本文提出的改進(jìn)模型在減少參數(shù)量的同時(shí),性能依然超越了YOLOv8n-Pose原始模型和OpenPose等主流模型。雖然本文模型在mAP@50 指標(biāo)上為82.9,略低于HigherHRNet 和YOLOv5-Pose,但其參數(shù)量僅為2.70M,GFLOPS為7.30,顯示出更高的效率,適合部署在資源有限的場(chǎng)景中。此外,本文模型相比其他模型,特別是在計(jì)算資源需求上具有明顯優(yōu)勢(shì),這表明其在實(shí)際應(yīng)用中的可行性和靈活性。
4 結(jié)論
本文針對(duì)實(shí)時(shí)人體姿態(tài)估計(jì)模型中存在的計(jì)算復(fù)雜度高和效率低的問題,提出了一種基于重參數(shù)化網(wǎng)絡(luò)和共享卷積的輕量化人體姿態(tài)估計(jì)算法。通過引入多級(jí)通道注意力(MLCA) 機(jī)制對(duì)C2f特征提取模塊進(jìn)行改進(jìn),顯著增強(qiáng)了對(duì)人體關(guān)鍵點(diǎn)特征信息的提取能力。此外,采用RepGFPN特征融合網(wǎng)絡(luò)提升了特征融合的效率,最終設(shè)計(jì)了Pose_LSCD輕量化檢測(cè)頭,從而有效減少了模型的參數(shù)量和計(jì)算復(fù)雜度。實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法的有效性,為嵌入式和邊緣設(shè)備的應(yīng)用提供了可靠的解決方案。
綜上所述,本文提出的方法為實(shí)際應(yīng)用中的嵌入式和邊緣設(shè)備部署提供了有力支持,并為后續(xù)研究奠定了基礎(chǔ)。未來的工作將集中于進(jìn)一步優(yōu)化模型結(jié)構(gòu),以提升其在復(fù)雜場(chǎng)景下的泛化能力,同時(shí)探索更高效的實(shí)際應(yīng)用部署方案。
參考文獻(xiàn):
[1] TOSHEV A,SZEGEDY C.DeepPose:human pose estimation viadeep neural networks[C]//2014 IEEE Conference on ComputerVision and Pattern Recognition.June 23-28,2014,Columbus,OH,USA.IEEE,2014:1653-1660.
[2] CHEN Y L,WANG Z C,PENG Y X,et al.Cascaded pyramid net?work for multi-person pose estimation[C]//2018 IEEE/CVFConference on Computer Vision and Pattern Recognition.June18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7103-7112.
[3] LI W B,WANG Z C,YIN B Y,et al.Rethinking on multi-stagenetworks for human pose estimation[EB/OL].2019:1901.00148.https://arxiv.org/abs/1901.00148v4.
[4] MAO W A,GE Y T,SHEN C H,et al.Poseur:direct human poseregression with transformers[M]//Computer Vision – ECCV2022.Cham:Springer Nature Switzerland,2022:72-88.
[5] GENG Z G,SUN K,XIAO B,et al.Bottom-up human pose esti?mation via disentangled keypoint regression[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 20-25, 2021. Nashville, TN, USA. IEEE, 2021:14676-14686.
[6] WANG H T,YANG G H,HAO X Y,et al.Automotive gear defectdetection method based on Yolov8 algorithm[C]//2023 AsiaSymposium on Image Processing (ASIP).June 15-17,2023,Tian?jin,China.IEEE,2023:19-23.
[7] WAN D H,LU R S,SHEN S Y,et al.Mixed local channel atten?tion for object detection[J].Engineering Applications of Artifi?cial Intelligence,2023(123):106442.
[8] XU X Z,JIANG Y Q,CHEN W H,et al.DAMO-YOLO:a reporton real-time object detection design[EB/OL]. 2022: 2211.15444. https://arxiv.org/abs/2211.15444v4.
[9] TIAN Z,SHEN C H,CHEN H,et al.FCOS:fully convolutionalone-stage object detection[EB/OL]. 2019: 1904.01355. https://arxiv.org/abs/1904.01355v5.
[10] NEWELL A,YANG K Y,DENG J.Stacked hourglass networksfor human pose estimation[M]//Computer Vision – ECCV2016.Cham:Springer International Publishing,2016:483-499.
[11] MAJI D,NAGORI S,MATHEW M,et al.YOLO-pose:enhanc?ing YOLO for multi person pose estimation using object key?point similarity loss[C]//2022 IEEE/CVF Conference on Com?puter Vision and Pattern Recognition Workshops (CVPRW).June 19-20,2022,New Orleans,LA,USA.IEEE,2022:2636-2645.
[12] CAO Z,HIDALGO G,SIMON T,et al.OpenPose:realtime multiperson2D pose estimation using part affinity fields[EB/OL].2018:1812.08008. https://arxiv.org/abs/1812.08008v2.
[13] CHENG B W,XIAO B,WANG J D,et al.HigherHRNet:scaleawarerepresentation learning for bottom-up human pose esti?mation[C]//2020 IEEE/CVF Conference on Computer Visionand Pattern Recognition (CVPR). June 13-19, 2020, Seattle,WA,USA.IEEE,2020:5385-5394.
【通聯(lián)編輯:唐一東】