王 偉,王倉(cāng)龍,裴 哲,劉沫萌
(西安工程大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安710048)
人體姿態(tài)估計(jì)旨在根據(jù)圖像預(yù)測(cè)每個(gè)人的關(guān)鍵點(diǎn)位置。實(shí)際應(yīng)用十分廣泛,包括動(dòng)作識(shí)別[1]、行人重識(shí)別[2]及人機(jī)交互[3]等。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在人體姿態(tài)估計(jì)領(lǐng)域所表現(xiàn)出的性能遠(yuǎn)高于其他傳統(tǒng)方法,例如概率圖模型[4]或圖結(jié)構(gòu)模型[5],并且近年來(lái)的研究表明,基于熱圖引導(dǎo)來(lái)預(yù)測(cè)關(guān)鍵點(diǎn)的方法[6-8],預(yù)測(cè)的精度遠(yuǎn)優(yōu)于直接對(duì)關(guān)鍵點(diǎn)位置的預(yù)測(cè)[9-10],而獲得關(guān)鍵點(diǎn)位置后,更重要的是如何將關(guān)鍵點(diǎn)連接為人體姿態(tài)數(shù)據(jù)。
目前人體姿態(tài)估計(jì)方法主要分為:自上而下(Top-down)和自下而上(Bottom-up)。Top-down首先檢測(cè)人體,使用前置的目標(biāo)檢測(cè)網(wǎng)絡(luò)標(biāo)識(shí)出畫(huà)面中人體的邊界框(bounding-box,b-box)[11],該方法將多人人體姿態(tài)估計(jì)問(wèn)題轉(zhuǎn)化為單人人體姿態(tài)估計(jì)[12-15]。文獻(xiàn)[16-17]提出的HRNet通過(guò)多分辨率融合以及保持高分辨率的方法極大的提高了關(guān)鍵點(diǎn)的預(yù)測(cè)精度。由于Top-down在目標(biāo)檢測(cè)階段就消除了大部分背景,因此很少有背景噪點(diǎn)或者其他人體的關(guān)鍵點(diǎn),簡(jiǎn)化了關(guān)鍵點(diǎn)熱圖估計(jì),但是在人體目標(biāo)檢測(cè)階段會(huì)消耗大量的計(jì)算成本,并且不是端到端的算法。
與之相反,Bottom-up首先預(yù)測(cè)圖像中所有人體關(guān)鍵點(diǎn)位置,然后將關(guān)鍵點(diǎn)鏈接為不同的人體實(shí)例。代表性工作有:DeepCut方法和DeeperCut方法開(kāi)創(chuàng)性地將關(guān)鍵點(diǎn)關(guān)聯(lián)問(wèn)題表示為整數(shù)線性規(guī)劃問(wèn)題[18-19],可以有效求解,但處理時(shí)間長(zhǎng)達(dá)數(shù)小時(shí)。而Openpose方法基本可以做到實(shí)時(shí)檢測(cè),其中的PAF組件用來(lái)預(yù)測(cè)人體部件,連接可能屬于同一人體的關(guān)鍵點(diǎn)[20],并且PifPaf方法對(duì)該方法進(jìn)一步拓展,提高了連接的準(zhǔn)確度[11]。Associative embedding方法將每個(gè)關(guān)鍵點(diǎn)映射一個(gè)識(shí)別對(duì)象所屬組的“標(biāo)簽”,標(biāo)簽將每個(gè)預(yù)測(cè)的關(guān)鍵點(diǎn)與同一組中的其他關(guān)鍵點(diǎn)直接關(guān)聯(lián),從而得到預(yù)測(cè)的人體姿態(tài)[21]。PersonLab方法采用短距偏移提高關(guān)鍵點(diǎn)預(yù)測(cè)的精度,再通過(guò)貪婪解碼和霍夫投票方法的分組,將預(yù)測(cè)的關(guān)鍵點(diǎn)聯(lián)合為一個(gè)姿態(tài)估計(jì)實(shí)例[22]。Bottom-up普遍比Top-down算法復(fù)雜度低、速度更快,并且這是端到端的算法,本文所使用的方法屬于此類。此外熱圖回歸廣泛應(yīng)用于語(yǔ)義標(biāo)注的關(guān)鍵點(diǎn)定位,例如:人臉[23]、手部[24]、人體[25]或者日常物品[26]的關(guān)鍵點(diǎn),目前高斯核覆蓋所有的關(guān)鍵點(diǎn)使用固定標(biāo)準(zhǔn)差,然而在Bottom-up方法中,圖像中的人體尺度普遍存在多樣性,若可根據(jù)不同人體尺度調(diào)整每個(gè)關(guān)鍵點(diǎn)的標(biāo)準(zhǔn)差,可以取得更好的回歸效果。
基于此,本文提出了一種基于熱圖引導(dǎo)的人體姿態(tài)估計(jì)方法,其中主要?jiǎng)?chuàng)新點(diǎn):①將預(yù)測(cè)的關(guān)鍵點(diǎn)熱圖和特征表示相結(jié)合,使用熱圖引導(dǎo)像素級(jí)關(guān)鍵點(diǎn)回歸,從而獲取更高的回歸質(zhì)量;②其中在熱圖回歸階段,受Focal loss方法的啟發(fā)[27],提出一種尺度自適應(yīng)熱圖估計(jì),用來(lái)自適應(yīng)學(xué)習(xí)處理局部特征的尺度多樣性;③在關(guān)鍵點(diǎn)分組之后,提出一種基于姿態(tài)結(jié)構(gòu)和關(guān)鍵點(diǎn)熱值評(píng)分網(wǎng)絡(luò),預(yù)測(cè)每個(gè)估計(jì)的姿勢(shì)與真實(shí)姿態(tài)數(shù)據(jù)擬合的程度,用來(lái)提高姿態(tài)的預(yù)測(cè)精度;④考慮到熱圖的背景噪點(diǎn)問(wèn)題,重新設(shè)計(jì)了相關(guān)的熱圖估計(jì)損失函數(shù),從而進(jìn)一步提高熱圖估計(jì)質(zhì)量。
基于當(dāng)前的研究,與主流的Bottom-up方法相同,先檢測(cè)關(guān)鍵點(diǎn)再給關(guān)鍵點(diǎn)分組。在獲取到一張圖片之后,多人人體姿態(tài)識(shí)別估計(jì)旨在預(yù)測(cè)出圖像中的一組人體姿態(tài)實(shí)例:{P1,P2,…,Pn,…,PN},共N個(gè)人體實(shí)例,Pn為第n個(gè)人體實(shí)例,其中每個(gè)人體姿態(tài)Pn={pn1,pn2,…,pnk,…,pnK}由K個(gè)關(guān)鍵點(diǎn)組成,方法框架如圖1所示。
圖1 基于HGC的人體姿態(tài)估計(jì)方法框架Fig.1 The framework of human posture estimation based on heatmap-guided connection
在獲取到圖像之后,首先通過(guò)主干網(wǎng)絡(luò)提取出圖像的特征圖,神經(jīng)網(wǎng)絡(luò)所提出的特征圖無(wú)法直接讀取圖像中的語(yǔ)義信息,因此使用關(guān)鍵點(diǎn)識(shí)別頭提取特征圖中的關(guān)鍵點(diǎn)熱圖信息,其中關(guān)鍵性的技術(shù)為尺度自適應(yīng)熱圖估計(jì)和遮罩損失。然后在熱圖的監(jiān)督下,再使用像素級(jí)關(guān)鍵點(diǎn)回歸頭提取出特征圖中,圖像里各個(gè)實(shí)例的中心點(diǎn),以及中心點(diǎn)到各個(gè)關(guān)鍵點(diǎn)的偏移,此處的偏移到真實(shí)關(guān)鍵點(diǎn)的誤差較大,僅作為后續(xù)關(guān)鍵點(diǎn)分組的依據(jù)。
對(duì)于同一個(gè)人體實(shí)例,HGC方法用分組依據(jù)以及關(guān)鍵點(diǎn)熱圖,預(yù)測(cè)出多個(gè)人體姿態(tài)數(shù)據(jù),將其作為姿態(tài)推薦,然后通過(guò)學(xué)習(xí)出的姿態(tài)評(píng)分網(wǎng)絡(luò)對(duì)姿態(tài)推薦進(jìn)行評(píng)估,最終在姿態(tài)推薦中選取得分最高,也就是最擬合真實(shí)姿態(tài)的人體姿態(tài)數(shù)據(jù),作為最終預(yù)測(cè)結(jié)果。
輸入圖像首先通過(guò)主干網(wǎng)絡(luò)(如HRNet-W32)生成特征圖F,通過(guò)F得到關(guān)鍵點(diǎn)熱圖及像素級(jí)關(guān)鍵點(diǎn)回歸,其中關(guān)鍵點(diǎn)熱圖H={h1,h2,…,hk,…,hK}由K個(gè)局部熱圖組成,其中hk為第k類關(guān)鍵點(diǎn)的單類熱圖,每次只識(shí)別一類關(guān)鍵點(diǎn),通過(guò)多次識(shí)別之后,將識(shí)別結(jié)果匯總重合就得到一張檢測(cè)關(guān)鍵點(diǎn)熱圖H。
像素級(jí)關(guān)鍵點(diǎn)回歸由2部分組成:中心熱圖C和關(guān)鍵點(diǎn)偏移圖O。C的每個(gè)點(diǎn)是當(dāng)前人體n整體中心點(diǎn)的置信度。O中包含2K個(gè)子圖,顯示為關(guān)鍵點(diǎn)k到姿態(tài)中心c的偏移量o。
1.1.1 熱圖引導(dǎo)的像素級(jí)關(guān)鍵點(diǎn)回歸 得到特征圖F之后,通過(guò)關(guān)鍵點(diǎn)識(shí)別頭處理后生成關(guān)鍵點(diǎn)熱圖H。在以往對(duì)關(guān)鍵點(diǎn)偏移的研究中[28-29],預(yù)測(cè)中心熱圖C和關(guān)鍵點(diǎn)偏移圖O僅使用主干網(wǎng)絡(luò)生成的特征圖F,設(shè)計(jì)了一種新的像素級(jí)關(guān)鍵點(diǎn)回歸頭,將上一步生成的關(guān)鍵點(diǎn)熱圖H用來(lái)引導(dǎo)中心熱圖C和偏移圖O的生成。
HGC方法的優(yōu)勢(shì)是通過(guò)關(guān)鍵點(diǎn)熱圖的引導(dǎo),將像素級(jí)關(guān)鍵點(diǎn)回歸中關(guān)鍵點(diǎn)偏移圖的誤差,從一個(gè)人體實(shí)例整體的尺度,降低到了一個(gè)關(guān)鍵點(diǎn)熱圖局部的尺度,對(duì)偏移圖精度的提升顯著。
(1)
(2)
式中:‖·‖2為L(zhǎng)2-范數(shù);M為對(duì)應(yīng)著K個(gè)關(guān)鍵點(diǎn)遮罩上的權(quán)值。
1.1.3 尺度自適應(yīng)熱圖估計(jì) 在以往的研究中,對(duì)所有的關(guān)鍵點(diǎn)構(gòu)造熱圖時(shí),高斯核函數(shù)一般會(huì)用固定的標(biāo)準(zhǔn)差σ0,用來(lái)生成真實(shí)熱圖Hσ0。然而不同尺度的關(guān)鍵點(diǎn)也應(yīng)該具有不同尺度的語(yǔ)義信息,因此文中希望將高斯核函數(shù)設(shè)置為具有異化的標(biāo)準(zhǔn)差,以在不同尺度關(guān)鍵點(diǎn)的情況下去覆蓋其中尺度的語(yǔ)義信息,然而對(duì)數(shù)據(jù)集上不同尺度的關(guān)鍵點(diǎn)手動(dòng)標(biāo)注尺度信息是幾乎不可能的,因此希望模型可以自適應(yīng)調(diào)整σ以應(yīng)對(duì)不同尺度的關(guān)鍵點(diǎn)。
(3)
(4)
Hσ0·d就是尺度自適應(yīng)的熱圖估計(jì),通過(guò)對(duì)原始熱圖進(jìn)行元素乘積操作獲得,實(shí)現(xiàn)難度較低。對(duì)于縮放因子大于1的關(guān)鍵點(diǎn),自適應(yīng)標(biāo)準(zhǔn)差將大于σ0,該高斯核函數(shù)覆蓋的區(qū)域也將變大,否則將變小。因此,在某種程度上,尺度因子也反映了相應(yīng)人體實(shí)例的尺度。
此外,在訓(xùn)練尺度預(yù)測(cè)網(wǎng)絡(luò)時(shí),同樣需要考慮背景噪點(diǎn)的影響,所以同樣對(duì)損失函數(shù)進(jìn)行遮罩操作,則尺度自適應(yīng)損失函數(shù)Ls為
(5)
最終得到總熱圖損失函數(shù)LH為
LH=Lm+λ1Ls
(6)
式中:λ1為尺度自適應(yīng)熱圖的權(quán)重,在訓(xùn)練中,λ1=1。
尺度自適應(yīng)熱圖與固定標(biāo)準(zhǔn)差熱圖的對(duì)比如圖2所示。
在圖2(a)中,預(yù)測(cè)人體實(shí)例的右肩點(diǎn)時(shí),高斯核函數(shù)使用的標(biāo)準(zhǔn)差是固定的,即便是圖像中人體實(shí)例尺度相差較大,所回歸出的關(guān)鍵點(diǎn)熱圖是固定的,而在圖2(b)中,人體實(shí)例由于距離的不同導(dǎo)致其在尺度上也存在較大的差別,在回歸左肩關(guān)鍵點(diǎn)的熱圖時(shí),根據(jù)尺度自適應(yīng)調(diào)整高斯核函數(shù)的標(biāo)準(zhǔn)差,顯然尺度較小的人體實(shí)例熱圖精度得到了提升,因此提高整體的關(guān)鍵點(diǎn)回歸精度。
(a) 固定標(biāo)準(zhǔn)差
1.1.4 像素級(jí)回歸損失 在像素級(jí)關(guān)鍵點(diǎn)回歸損失LP中采用歸一化的平滑L1損失:
(7)
(8)
將像素級(jí)關(guān)鍵點(diǎn)回歸損失和熱圖損失匯總后,得到最終損失函數(shù)為
L=LH+λ2LP
(9)
式中:λ2為像素級(jí)回歸損失權(quán)重,考慮到像素級(jí)關(guān)鍵點(diǎn)回歸僅作為后期的分組提示,因此令λ2=0.01。
1.2.1 分組 輸入所需要預(yù)測(cè)人體姿態(tài)圖像,首先計(jì)算關(guān)鍵點(diǎn)熱圖H,以及像素級(jí)關(guān)鍵點(diǎn)回歸結(jié)果(C,O)。然后使用非最大抑制找到一組30個(gè)關(guān)鍵點(diǎn)推薦集S={S1,S2,…,Sk,…,SK},其中每個(gè)Sk由關(guān)鍵點(diǎn)熱圖H中選取的第k個(gè)關(guān)鍵點(diǎn)的推薦組組成,同時(shí)刪除其中熱值太小(小于0.01)的點(diǎn)。同樣,HGC方法也通過(guò)非極大抑制在中心熱圖C中篩選出像素級(jí)關(guān)鍵點(diǎn)回歸的結(jié)果,從而得到M組(M=30)回歸結(jié)果:{G1,G2,…,Gm,…,GM},其中每個(gè)Gm含有K個(gè)關(guān)鍵點(diǎn)。
COCO數(shù)據(jù)集是微軟發(fā)布的大型圖像數(shù)據(jù)集[31],專為對(duì)象檢測(cè)、分割、人體關(guān)鍵點(diǎn)檢測(cè)、語(yǔ)義分割和字幕生成而設(shè)計(jì),本文研究基于COCO數(shù)據(jù)集中目標(biāo)關(guān)鍵點(diǎn)集進(jìn)行訓(xùn)練和測(cè)試。COCO數(shù)據(jù)集包含超過(guò)2×105幅圖像和2.5×105個(gè)帶有17個(gè)關(guān)鍵點(diǎn)的人體實(shí)例。本文在COCO Train2017數(shù)據(jù)集上訓(xùn)練模型,包括5.7×104個(gè)圖像和1.5×105個(gè)人體實(shí)例。Val2017集包含5 000幅圖,test-dev2017集則包含2×104幅圖像,并在Val2017和test-dev2017上進(jìn)行評(píng)估。
在Ubuntu 18.04上使用Python 3.6開(kāi)發(fā),基于Tensorflow平臺(tái)實(shí)現(xiàn),使用1個(gè)NVIDIA GPU。
標(biāo)準(zhǔn)的評(píng)估指標(biāo)是基于圖像關(guān)鍵點(diǎn)的相似性O(shè)KS評(píng)分,核心指標(biāo)是關(guān)鍵點(diǎn)的預(yù)測(cè)精度和召回率,設(shè)關(guān)鍵點(diǎn)相似評(píng)分為KOS,其公式為
(10)
式中:di為檢測(cè)到的關(guān)鍵點(diǎn)和相應(yīng)的關(guān)鍵點(diǎn)真值之間的歐式距離;vi為真實(shí)值的可見(jiàn)性;s為物體的尺寸;ki為每個(gè)關(guān)鍵點(diǎn)控制衰減的常量。
評(píng)價(jià)指標(biāo)主要為標(biāo)準(zhǔn)平均精度(average precision,AP)和平均召回率(average recall,AR)。本文主要采用以下指標(biāo),AP (KOS=0.50,0.55,…,0.90,0.95的平均精度),AP50(KOS=0.50的精度),AP75(KOS=0.75的精度),APM表示中等尺度目標(biāo)的精度,APL表示大尺度目標(biāo)的精度,AR(KOS=0.50,0.55,…,0.90,0.95的平均召回率)。
在文獻(xiàn)[21]的實(shí)驗(yàn)中,使用隨機(jī)旋轉(zhuǎn)平移等的優(yōu)化方法,使AP從0.566提高到了0.628,增加了多尺度測(cè)試后AP更是提高到了0.655,故數(shù)據(jù)增強(qiáng)遵循文獻(xiàn)[21]中的方法,包括隨機(jī)旋轉(zhuǎn)([-30°,30°]),隨機(jī)縮放([0.75,1.5]),隨機(jī)平移([-40,40]),將圖像裁切到512×512(對(duì)于HRNet-W32)和640×640(對(duì)于HRNet-W48和HrHRNet-W48),同時(shí)設(shè)置隨機(jī)翻轉(zhuǎn)。
訓(xùn)練時(shí)使用Adam優(yōu)化器[32],基礎(chǔ)學(xué)習(xí)率設(shè)置為10-3,隨后在90次和120次的時(shí)候?qū)W(xué)習(xí)率設(shè)置為10-4和10-5,總共訓(xùn)練140次。
2.4.1 Val2017結(jié)果 表1展示了HGC方法與其他比較具有代表性方法的參數(shù)值和計(jì)算復(fù)雜度,使用HRNet-W32等作為主干網(wǎng)絡(luò),其中復(fù)雜度計(jì)算單位為每秒109次的浮點(diǎn)運(yùn)算數(shù)(giga floating-point operations per second,GFLOPs)。
表1 參數(shù)量、復(fù)雜度對(duì)比Tab.1 Comparison of parameters and complexity
從表1中可以看出,HGC的參數(shù)量和復(fù)雜度都保持在低水平,在主干網(wǎng)絡(luò)為HRNet-W32時(shí),與目前最先進(jìn)的算法HrHRNet[33]的相比,參數(shù)量為其51%,復(fù)雜度僅有42%,即便是在主干網(wǎng)絡(luò)為HrHRNet-W48時(shí),參數(shù)量和復(fù)雜度也保持在與HrHRNet[33]相似的水平,但在表2中相對(duì)的準(zhǔn)確度有了顯著提升。
本文HGC方法與其他方法的AP/AR指標(biāo)比較如表2所示,其中缺失值使用“—”填充。
表2 在COCO Val2017上的實(shí)驗(yàn)對(duì)比Tab.2 Comparison on the COCO Val2017 dataset
從表2可以看出,單尺度測(cè)試中,HGC方法在主干網(wǎng)絡(luò)為HRNet-W32時(shí),AP達(dá)到了67.8,與HGC復(fù)雜度相近的方法對(duì)比,如CenterNet-DLA方法和低分辨率PersonLab方法,AP提高了8.9。而對(duì)于模型參數(shù)量遠(yuǎn)大于HGC(主干網(wǎng)絡(luò)HRNet-W32)的方法,如CenterNet-HG方法,依舊提高了3.8。在HGC方法中,更高分辨率的圖像輸入、更高的模型參數(shù)和更高的分辨率特征有助于獲取更好的表現(xiàn),當(dāng)主干網(wǎng)絡(luò)為HRNet-W48,并且將輸入尺寸提高到640×640, AP達(dá)到了70.1,比主干網(wǎng)絡(luò)HRNet-W32高出2.3。與其他表現(xiàn)優(yōu)秀的方法相比,如CenterNet-HG方法,高出6.1,比高分辨率PersonLab方法高出3.6,并且與PifPaf方法相比,在復(fù)雜度指標(biāo)GFLOPs僅為其一半不到的情況下,AP值高出了2.7。另外訓(xùn)練了在高分辨率輸入下(主干網(wǎng)絡(luò)HrHRNet-W48)的模型,比主干網(wǎng)絡(luò)HRNet-W48提高了1.2。同樣,實(shí)驗(yàn)驗(yàn)證了HGC方法在多尺度測(cè)試中的表現(xiàn),與單尺度測(cè)試相比,AP在HRNet-W32中提高了2.9,HRNet-W48提高了2.4,在HrHRNet-W48中提高了1.6了,此外姿態(tài)估計(jì)效果如圖3所示。
圖3 HGC方法人體姿態(tài)估計(jì)定性結(jié)果Fig.3 Qualitative results of human pose estimation by HGC mthod
圖3中的圖像選自Val2017,用HGC預(yù)測(cè)其姿態(tài),其中涵蓋了黑白、彩色、單人、多人、多尺度和遮擋等多種在現(xiàn)實(shí)中具有代表性的常見(jiàn)情況。可以看出HGC方法在實(shí)際應(yīng)用中表現(xiàn)出了良好的魯棒性和準(zhǔn)確性,可以準(zhǔn)確地分辨出不同人體實(shí)例的關(guān)鍵點(diǎn),并且關(guān)鍵點(diǎn)的位置基本符合先驗(yàn)的常識(shí)。
2.4.2 test-dev2017結(jié)果 在test-dev2017數(shù)據(jù)集AP/AR指標(biāo)對(duì)比如表3所示,缺失值使用“-”填充。
表3 在COCO test-dev 2017上的實(shí)驗(yàn)對(duì)比Tab.3 Comparison on the COCO test-dev 2017 dataset
從表3可以看出,單尺度測(cè)試中,在主干網(wǎng)絡(luò)HRNet-W32中AP達(dá)到了66.6,顯著優(yōu)于復(fù)雜度類似的方法。在主干網(wǎng)絡(luò)HrHRNet-W48中達(dá)到了最優(yōu)AP,為70.2,比Personlab方法高出3.7,比PifPaf方法高出3.5,并且比HrHRNet方法高出1.8分。在多尺度測(cè)試中,即便是主干網(wǎng)絡(luò)HRNet-W32的AP也高達(dá)69.4,優(yōu)于Personlab方法的大分辨率模型,在主干網(wǎng)絡(luò)HrHRNet-W48中達(dá)到了最高AP,為71.8,比AE方法高出6.3,比PersonLab放啊高出3.1,比HrHRNet方法高出1.3。
2.4.3 消融學(xué)習(xí) 本文研究了各個(gè)組件對(duì)于HGC的影響:①熱圖引導(dǎo)像素級(jí)關(guān)鍵點(diǎn)回歸;②遮罩損失;③熱圖尺度自適應(yīng);④姿態(tài)推薦評(píng)分網(wǎng)絡(luò)。本文選取了3個(gè)指標(biāo)分析以上組件對(duì)整體的影響:像素級(jí)關(guān)鍵點(diǎn)回歸質(zhì)量、熱圖估計(jì)質(zhì)量以及最終的姿態(tài)估計(jì)質(zhì)量。像素級(jí)關(guān)鍵點(diǎn)回歸質(zhì)量是直接使用回歸結(jié)果并對(duì)其AP分?jǐn)?shù)進(jìn)行評(píng)估所得。熱圖估計(jì)質(zhì)量通過(guò)以真實(shí)姿態(tài)作為分組依據(jù),對(duì)熱圖所檢測(cè)到的關(guān)鍵點(diǎn)分組所得姿態(tài)評(píng)估,即用真實(shí)姿態(tài)替換回歸姿勢(shì),最終質(zhì)量是HGC方法整體的質(zhì)量。消融學(xué)習(xí)結(jié)果列于表4,表中標(biāo)注為“使用”則表示為使用了該組件的評(píng)估結(jié)果,“-”為未使用。
表4 消融學(xué)習(xí)Tab.4 Ablation study
表4中,熱圖引導(dǎo)確實(shí)促進(jìn)了像素級(jí)關(guān)鍵點(diǎn)回歸的精度,回歸質(zhì)量提高了0.9,并且使最終質(zhì)量提高了0.4;遮罩損失對(duì)熱圖質(zhì)量的提升顯著,高達(dá)0.9;熱圖尺度自適應(yīng)對(duì)熱圖質(zhì)量也提高了0.6,并且對(duì)最終質(zhì)量也提升了1.0;姿態(tài)推薦評(píng)分網(wǎng)絡(luò)通過(guò)對(duì)預(yù)測(cè)出的姿態(tài)推薦進(jìn)行評(píng)分排序,選出最優(yōu)的姿態(tài)估計(jì),最終估計(jì)質(zhì)量因此也獲得了0.6的增益。
1) 本文給出一種基于熱圖引導(dǎo)像素級(jí)關(guān)鍵點(diǎn)回歸。
2) 用遮罩損失對(duì)熱圖損失加權(quán),提高了熱圖估計(jì)的精度。
3) 進(jìn)一步提出的尺度自適應(yīng)熱圖估計(jì)可以很好地處理圖像中人體的尺度上的多樣性。
4) 得出一個(gè)評(píng)分網(wǎng)絡(luò)來(lái)促進(jìn)在姿態(tài)推薦中選取更加貼近圖像中真實(shí)的姿態(tài)。