林依林,林珊玲,林志賢,3*
(1. 福州大學 物理與信息工程學院,福建 福州 350116;2. 中國福建光電信息科學與技術創(chuàng)新實驗室,福建 福州 350116;3. 福州大學 先進制造學院,福建 泉州 362200)
姿態(tài)估計是計算機視覺中的熱門研究領域,是對人體姿態(tài)的位置估計。姿態(tài)估計一般可以分為單人姿態(tài)估計(如Open Pose[1])、多人姿態(tài)估計(如AlphaPose[2])、人體姿態(tài)跟蹤、三維人體姿態(tài)估計。在姿態(tài)估計的研究中,基于手部的姿態(tài)估計研究備受青睞。在人所有的姿態(tài)中,手勢占據(jù)了90%,是最主要的人機交互姿態(tài)。未來的生活場景朝著越來越智能化的方向發(fā)展,智能家居、自動駕駛、智慧醫(yī)療及第一視角沉浸式交互等應用場景,都離不開手勢交互的身影。
近年來,隨著深度學習的發(fā)展,針對手部的三維姿態(tài)估計研究突飛猛進。Cai 等人[3]提出了一種弱監(jiān)督網(wǎng)絡,使用深度正則化器,將從彩色圖像估計的三維手勢轉換成深度圖,將三維坐標估計損失轉化為深度圖損失,有效地解決了三維關鍵點標記獲取困難這一問題。Ge 等人[4]將手部表面網(wǎng)格估計加入到網(wǎng)絡中,將彩色圖像估計的二維手部的熱度圖通過圖形卷積網(wǎng)絡估計手表面網(wǎng)格,再通過手表面網(wǎng)格回歸三維手勢。該方法識別精度較高,但是手表面網(wǎng)格真實標記缺乏,制作合成數(shù)據(jù)也較為困難,數(shù)據(jù)獲取代價較大。對于RGB 圖像的三維手部姿態(tài)估計任務,手部獨有的嚴重的自遮擋性和自相似性以及復雜的背景處理,在缺少深度信息的任務里并不容易。無約束的自然場景往往包含復雜的背景和多變的光照條件,要準確地從第一視角RGB 圖像中檢測出指尖的位置依然是一個具有挑戰(zhàn)性的問題。 本文在Minimal-Hand[5]的基礎上結合圖卷積神經(jīng)網(wǎng)絡[6]來解決這種天然的遮擋問題,通過級聯(lián)的卷積網(wǎng)絡從粗到細優(yōu)化關鍵點位置從而解決不自然的骨架估計。
在姿態(tài)估計中,常見的手部模型有21 關鍵點、16 關鍵點、36 關鍵點。本文采用Open Pose[1]提出的標準手部21 關鍵點模型。其中編號為0的關鍵點是手腕,其余每根手指分別有4 個關鍵點:指關節(jié)、近端指關節(jié)、遠端指關節(jié)、指尖。本文所有對二維和三維的關鍵點估計都是建立在該手部模型之上。
用深度學習的方法進行手部姿態(tài)估計,一般是分階段進行的。本文提出的網(wǎng)絡框架按照處理目的分為4 個部分:手部的識別、手部二維關鍵點的檢測、手部三維關鍵點的檢測、手部三維關鍵點的精細化調整。
手部的識別采用輕量級網(wǎng)絡回歸手部邊框(Bounding Box)作為后續(xù)主體網(wǎng)絡的預處理操作,使得后續(xù)關鍵點的定位更加準確,同時處理后圖片像素的減少也使得后續(xù)計算量減小。手部二維和三維關鍵點的檢測通過搭建卷積神經(jīng)網(wǎng)絡提取圖像特征,依據(jù)區(qū)域或者特征的重要程度對權重進行調配,引導級聯(lián)特征提取模塊獲取更加豐富的基礎提取特征,監(jiān)督網(wǎng)絡主動輸出越來越精確的熱度置信圖。手部三維關鍵點的精細化調整是將三維關鍵點粗結果基于圖卷積神經(jīng)網(wǎng)絡算法進行優(yōu)化后處理,擬合出更加精確的手部三維關鍵點坐標。
常見的手部預處理方法分為基于數(shù)字圖像處理方法和基于深度學習方法兩大類。前者一般采取分割算法得到手部掩模定位手部區(qū)域,例如將RGB 圖像轉化為灰度圖像再轉換成二值圖像并選取二值圖像的前景部分作為手勢提取區(qū)域[7]。
本文采取基于深度學習方法的手部預處理網(wǎng)絡,如圖1 所示。在進入主體網(wǎng)絡流程前,先采用基于YOLOv3[8]的預處理網(wǎng)絡用于將輸入圖片中的手部和混雜的背景剝離。YOLIOv3 相比其他深度學習檢測網(wǎng)絡的優(yōu)勢在于引入Darknet-53 作為骨干網(wǎng)絡,采用K-means 聚類法[5]回歸出9 種大小不同的先驗框,并且根據(jù)金字塔特征圖思想,小尺寸的先驗框用于耦合大尺寸的特征圖,大尺寸的先驗框用于耦合小尺寸的特征圖,可以很好地整合不同尺度的感受野的特征,識別輸入圖片中不同占比的手部。我們將自然場景下的圖片輸入預處理網(wǎng)絡,通過調整Darknet-53 網(wǎng)絡內卷積核大小可以控制輸出的特征圖大小,因此對任意尺寸的輸入數(shù)據(jù)經(jīng)過這個預處理網(wǎng)絡都可以輸出固定256×256×3 尺寸的、剝離背景單獨手部的手部邊框圖片傳輸給接下來的網(wǎng)絡。
圖1 網(wǎng)絡流程圖Fig.1 Network flow chart
如圖1 所示,二維特征提取模塊使用經(jīng)典的ResNet50[9]網(wǎng) 絡,輸 入256×256×3 的RGB 圖 像輸出32×32×256 的二維特征圖。相比于直接回歸關節(jié)點坐標,基于熱度圖的方法具有漸變連續(xù)可微分的特點,可以提高坐標估計的精細程度[10],因此我們在二維和三維檢測模塊融合多特征熱度圖。
二維檢測模塊是一個兩層的全連接卷積層。輸入32×32×256 的二維特征圖,輸出二維熱度圖(Heat Maps)。二維熱度圖包含21 個手部關鍵點的關節(jié)預測置信圖,通過二維高斯函數(shù)編碼每個像素點被每個關鍵點覆蓋的置信度,其公式如式(1)所示:
其中l(wèi)代表第l個關鍵點,σ為函數(shù)的寬度參數(shù),(x,y)代表該點像素坐標,(u,v)是中心點坐標,即該關鍵點二維真值(Ground truth)坐標。
三維檢測模塊從多熱度圖和特征圖回歸三維手部姿態(tài)。如圖1 所示,將二維特征圖和二維熱度圖(2D Heat Maps)進行層級串聯(lián),得到二維聯(lián)合特征圖,對二維聯(lián)合特征圖進行卷積操作,得到三維偏移熱度圖(3D Delta Maps)。三維偏移熱度圖是子節(jié)點相對于根節(jié)點的三維方向向量,可以很好地反應父子節(jié)點之間的位置關系,將三維偏移熱度圖作為中間熱度圖為三維檢測模塊預測結果添加運動學約束,使網(wǎng)絡架構嵌入類似手部結構的物理限制。將二維聯(lián)合特征圖和三維偏移熱度圖進行層級串聯(lián)和卷積層操作,分別從XYZ坐標軸表示的圖中選擇置信度最大的點所對應的值為坐標軸的數(shù)值,對XYZ軸都執(zhí)行以上操作,將得到的值保存為三維坐標點[11],就 得 到 了 三 維 位 置 熱 度 圖(3D Location Maps)。三維位置熱度圖和二維熱度圖一樣,反映了每個像素被每個手部關鍵點的三維坐標覆蓋的預測置信度。特征提取網(wǎng)絡具體級聯(lián)結構如圖2 所示,為了能更好地預測三維位置偏移量,我們先預測一個二維熱度圖,將其作為三維熱度圖的一個條件來提升對三維位置預測的準確性。之后我們再將二維熱度圖和三維偏移圖作為共同條件和特征結合在一起去預測最后的三維位置,通過這樣多層級聯(lián)的條件來得到更加準確魯棒的位置信息。
圖2 級聯(lián)特征提取網(wǎng)絡結構Fig.2 Cascade feature extraction network structure
對于手部骨架而言,它本身是一個天然的圖結構。因此我們很自然地想到基于圖卷積神經(jīng)網(wǎng)絡(Graph Convolutional Network,GCN)方法來獲取它內部的隱式關系[12]。GCN 的計算過程與信號處理過程相同,先將卷積核和圖數(shù)據(jù)通過傅里葉變換轉換到頻域空間,再對頻域空間的系數(shù)進行數(shù)值運算,最后進行逆傅里葉變換得到卷積后的結果。
利用上述模塊生成熱圖后,采用積分回歸方法[13]將熱圖表示轉化為坐標表示,作為GCN 特征增加網(wǎng)絡的初始輸入姿態(tài)。對熱度圖的初始化姿態(tài)進行softed-argmax 操作,將熱圖傳播到Softmax 層中,該層將熱度圖像素值標準化為似然值(0~1)之后,再對似然圖層進行積分運算求和操作,從而估算關節(jié)位置:
其中,J?k i表示第k個關節(jié)的位置估計,A表示似然區(qū)域,Hk(p)表示p點上的似然值。因此,每個熱圖矩陣都包含生成初始姿勢的信息。
熱圖模塊和坐標轉換相互耦合,使得GCN特征增強網(wǎng)絡可以獲得更準確的初始化姿態(tài),有助于在進行校正之前獲得更精確的局部上下文理解。此外,由于尺寸的限制,基于熱圖的表示在一定程度上導致了關鍵點的量化誤差,轉化為坐標后可以解決這個問題。
由于手部姿態(tài)估計涉及的節(jié)點數(shù)量較多,我們使用切比雪夫多項式進行逼近。當有n個節(jié)點時,得到GCN 層與層之間傳播公式如式(3)所示:
其中,D?=D+I,A?=A+I,I是單位矩陣,A是代表各個節(jié)點之間位置關系的n×n維的鄰接矩陣(Adjacency matrix),D?是A?的度矩陣(Degree matrix)。X是輸入層的特征,Z是輸出層的特征,X∈Rn*m,m是特征向量的維度,W是網(wǎng)絡需要學習的權重,W∈Rm*d,d是輸出向量的維度。
考慮到特征圖之間感受野的由粗到細,我們在模塊中設計了一種從粗到精的學習過程,用于增強局部特征學習,糾正部分遮擋的手部關鍵點的坐標。由于基于坐標的模塊缺少圖像的上下文信息,我們?yōu)槊總€關節(jié)位置挖掘了相關的圖像特征,并融合到模塊中。如圖1 所示,通過雙線性插值采點,將從圖像特征中挖掘出的初始關鍵點坐標(x,y)上的節(jié)點特征輸入到漸進圖卷積層中來改善姿態(tài)估計結果。漸進GCN 特征增強模塊網(wǎng)絡結構如圖3 所示,對抽取的每個圖卷積的節(jié)點特征,我們用3 個密集連接的GCN 模塊來抽取特征,并通過層級1、2 的預測在每個層級中進行監(jiān)督,在最后一層輸出預測的三維手部關鍵點坐標。該機制建立了漸進的GCN 架構,并通過逐步融合多尺度圖像特征來優(yōu)化關鍵點輸出。
圖3 漸進GCN 特征增強網(wǎng)絡結構Fig.3 Progressive GCN feature enhancement network structure
整體網(wǎng)絡是基于端到端的學習,通過多任務學習的策略使得網(wǎng)絡結果更好地收斂。損失函數(shù)的定義如式(4)所示:
其中Ω為目標點集,對于我們的手部重建的目標關鍵點其個數(shù)為21 個;j表示的是第j層圖卷積網(wǎng)絡的輸出結果。通過這種多層級的三維骨架估計監(jiān)督可以讓網(wǎng)絡表現(xiàn)出更好的結果。M是一維度的向量表示關鍵點掩模,如果關鍵點存在標注數(shù)據(jù),M[i]=1,否則為0。
對于手部的骨架姿態(tài)估計而言,其本質是一個回歸問題,回歸問題的指標很難通過上述二分類的指標來進行度量。為了驗證模型的優(yōu)越性,這里使用3D 平均準確性(Percentage of Correct Keypoint,PCK)和2D 的關節(jié)點相識性(Object keypoint similarity,OKS)進行評價。3D PCK 的計算公式如式(6)所示:
本文在以下5 個數(shù)據(jù)集上展開模型的訓練和測試,多維度驗證我們設計的人體手部姿態(tài)估計器的性能。
CMU Hand Keypoints Detection Dataset[14]是由卡內基梅隆大學發(fā)布的手部骨架估計的數(shù) 據(jù) 集。Rendered Handpose Dataset(RHD)[15]是由弗萊堡大學在2017 發(fā)布的手部姿態(tài)渲染數(shù)據(jù) 集。Dexter+Object[16]是2016 年 由 德 國 的 馬 普所發(fā)布的手部重建和手部對象跟蹤的數(shù)據(jù)集。Ego Dexter datasets[17]是 由MPI 于2017 年 發(fā) 布 于ICCV2017 的 數(shù) 據(jù) 集。GANeratedDataset[18]是 由MPI 在CVPR2018 年推出的數(shù)據(jù)集,該數(shù)據(jù)集主要是由GAN 生產(chǎn)的合成數(shù)據(jù)集。
實驗所用數(shù)據(jù)的分布如表1 所示,記錄了數(shù)據(jù)集所含有的標注及被本次實驗用作訓練集和測試集的數(shù)據(jù)量。此外,原始的Dexter[16]數(shù)據(jù)集有1 912 訓練集和846 驗證集,但是考慮到更加充分的驗證算法,我們將1 912 個訓練集也作為本次實驗的測試集。
表1 實驗所用數(shù)據(jù)分布Tab.1 Distribution of data used in the experiment
實驗過程中的數(shù)值曲線如圖4 所示,其中圖4(a)是訓練過程中的損失曲線,lossH 是二維熱度圖損失值,lossD 是三維偏移熱度圖的損失值,lossL 是在經(jīng)過漸進GCN 模塊后的三維關鍵點損失值。從圖4(a)可以看出,輸出的粗結果在經(jīng)過多熱度圖耦合的三維關鍵點檢測器和漸進的GCN 模塊的精細化調整后可以收斂出更低的損失值。圖4(b)、(c)、(d)分別表示在RHD[15]、DO[16]、ED[17]測試集下每個訓練周期下的AUC 值。
圖4 網(wǎng)絡訓練時的損失函數(shù)曲線和在驗證集下的AUC 精度曲線Fig.4 Loss function curves during network training and AUC accuracy curves under the validation set
本次實驗主要和Xiong Zhang 等人提出的Mesh2HAND[19]、Donglai Xiang 等人提出的Mon-Cap[20]、Adnane Boukhayma 等 人 提 出 的3D pose in the wild[21]以 及Y X Zhou 等 人 提 出 的Minimalhand[5]進行對比。
定量的實驗結果與上述4 種方法比較對照如表2 所示,其中20 mm 和30 mm 分別指當閾值取相應值時的PCK 值,AUC 是當閾值取20~50 mm時的PCK 曲線面積值。由表2 可見,我們所改進的方法在3D 骨架回歸任務上的結果在各個數(shù)據(jù)集上的AUC 曲線都優(yōu)于其他方法。具體來說,我們所提出的方法相較于Minimal-hand[5]在DO 數(shù)據(jù)集上AUC 大約高了0.8%,在ED[17]數(shù)據(jù)集上比Minimal-hand[5]AUC 大約高了0.7%。對于RHD[15]數(shù)據(jù)集,我們所設計的方法比Mesh2 Hand[19]AUC 高了大約3%。就單純的PCK 值而言,我們所提出的方法更加接近于真實值,在閾值設為20 mm 處,我們提出的方法在DO[16]數(shù)據(jù)集上比最好的方法高了0.9%,在RHD[15]數(shù)據(jù)集上比最好的方法高了0.8%。雖然在ED[17]數(shù)據(jù)集上略低于最好的方法,但是在閾值30 mm 處,我們提出的方法遠高于最好的方法(相較于Minimalhand[5]高了大約3.7%)。
表2 本文方法與其他方法實驗結果對比Tab.2 Comparison of experimental results between this method and other methods
本次實驗的操作系統(tǒng)為Ubantu18.04,CPU核為i5-6500,GPU 的配置為GTX-2080 11 GB。在圖像分辨率為256×256 的情況下,對算法處理時間和所需功耗進行分析。如表3 所示,算法所需的推理時間為52 ms,算法所需的每秒浮點計算量(FLOPs)為9.3×108次。結合算法對照實驗分析可知,我們提出的算法在處理時間上和模型復雜度上處于較優(yōu)水平,不僅推理時間和計算量近 似 于Minimal-hand[5],而 且 姿 態(tài) 估 計 精 度 在 多個數(shù)據(jù)集上都超過了Minimal-hand[5]的效果。
表3 推理速度與浮點計算量比較Tab.3 Comparison of the time of inference and FLOPs
該結果表明在不影響算法速度的情況下,我們提出的算法在效率上得到了較大的提升,識別推理的幀率(Frames Per Second,F(xiàn)PS)達到了19.23,因此該算法可以使用在視頻流的實時手部骨架檢測中。與此同時,較小的計算量滿足了對模型低功耗、輕量化的需求。
我們選擇在上述定量分析中4 個對照方法中精度指標表現(xiàn)最好的Minimal-hand[5]作為定性分析對象。定性的可視化結果如圖5所示(在RHD[15]測試集上的檢測結果)。從圖中高亮部分的細節(jié)可以看出,本文算法在測試集上的結果明顯優(yōu)于Minimal-hand[5]算法。在引入漸進GCN 模塊后,手部骨架耦合了圖結構的約束,使得其在一些自遮擋比較嚴重的場景下,也能夠檢測出合理的結果。
圖5 可視化實驗結果對比Fig.5 Comparison of visualization experimental results
在自然場景下,涉及手物交互時骨架回歸結果如圖6 所示。由于人手在抓取物體過程中出現(xiàn)了大面積的遮擋,導致骨架回歸結果在尺度的還原上有些許偏差。除了部分關鍵點遮擋因素外,我們分析誤差的產(chǎn)生還有以下原因:由于當前手部3D 訓練數(shù)據(jù)集真實數(shù)據(jù)不足,因此參與實驗的訓練數(shù)據(jù)大多是CG 合成的虛擬3D數(shù)據(jù)集,或者是通過實驗室設備所收集的特定場景下標定好的真實數(shù)據(jù)集,并且單目RGB 相機在投影時失去了深度信息。因此將該算法用于自然場景下時,存在著較大的狀態(tài)空間誤差(Domain Gap),從而導致了些許計算誤差。此外,最終輸出的3D 坐標的回歸在一定程度上依賴于初始化的3D 坐標位置,在初始坐標位置偏差較大時,會導致系統(tǒng)估計的姿態(tài)坐標產(chǎn)生回歸誤差。
圖6 自然場景下的可視化結果Fig.6 Visualization results in the wild
盡管如此,本文模型在精度指標上和大致的形體姿態(tài)上還是表現(xiàn)得足夠精準,總體上算法可以在自然場景下給出合理的估計結果,這體現(xiàn)了我們算法整體的魯棒性。
本文所提出的三維手部姿態(tài)估計算法通過結合人體關節(jié)結構之間的基本約束信息以及級聯(lián)神經(jīng)網(wǎng)絡和漸進圖卷積神經(jīng)網(wǎng)絡挖掘出的特征圖中包含的被遮擋關鍵點的相關數(shù)據(jù),能夠精確地調整被遮擋關鍵點的位置,對于人體手部骨架的檢測有較高的正確率。我們在3 個公開數(shù)據(jù)集上驗證了網(wǎng)絡性能,與現(xiàn)有的4 種算法進行實驗比對,本文算法在30 mm 閾值下的PCK 精度表現(xiàn)非常出色,最低精度達到95.4%,高出次優(yōu)算法3.7%精度值。并且在3 個測試集上的AUC 曲線指標均達到最高,平均AUC 精度達到92.9%。經(jīng)過與其他方法的定量、定性類比,可以看出本文算法在三維關鍵點預測精度上比現(xiàn)有的方法有明顯提高,并且可視化實驗結果表明,本文算法在圖像細節(jié)的捕捉上也具有優(yōu)勢。此外,本文方法推理的幀率達到了19.23,可以滿足實時視頻流檢測的需求。模型所需FOLPs 為9.3×108次,復雜度較低,滿足對模型輕量化的要求。綜上,本文基于多任務學習的方法提出了一種端到端的訓練方式,加速了網(wǎng)絡的收斂,減少了特征的過擬合,使得網(wǎng)絡在三維手部姿態(tài)估計任務上準確性和魯棒性相比于現(xiàn)有技術有較為顯著的改進。