軌跡特征融合雙流模型的動態(tài)手勢識別

2020-12-25 06:07陳姚節(jié)郭同歡

計算機技術與發(fā)展 2020年12期

林玲，陳姚節(jié),3，徐新，郭同歡

(1.武漢科技大學計算機科學與技術學院，湖北武漢 430070；2.智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室，湖北武漢 430070；3.冶金工業(yè)過程國家級虛擬仿真實驗教學中心，湖北武漢 430070)

0 引言

手勢識別作為一種重要的交互方式，由于更自然，直觀和易于學習的特點，在虛擬仿真、手語識別等領域得到了大量應用。基于視覺的手勢識別主要分為三個階段：手勢分割、特征提取和識別。

手勢分割作為手勢識別的基礎，對后續(xù)手勢識別工作有著至關重要的影響。傳統(tǒng)手勢分割利用膚色、輪廓從彩色圖像視頻中分割出手勢，如Bao等[1]提出的利用膚色檢測與背景差分的方法，Rahmat等[2]結合人手膚色與光照的實時手勢分割，Dawod等[3]采用自由形式膚色模型進行的手勢分割。以上方法進行的手勢分割效果較好但易受光照、復雜背景的影響，影響后續(xù)的手勢識別工作。

手勢特征的提取是手勢識別更為重要的階段。Asaari等[4]根據(jù)提取的手形特征與紋理特征進行手勢識別，由于復雜背景的影響準確率不高，劉富等[5]借助手形輪廓與幾何特征提高了手勢識別的魯棒性，但要求手勢手指分開，不具有普遍性。

現(xiàn)有的手勢識別大多借助模式分類方法對手勢進行識別，如Panwar[6]利用形狀參數(shù)的位編碼序列進行手勢分類的方法、楊學文等[7]利用手勢主方向和類Hausdorff距離模板匹配的手勢識別方法等具有一定局限性，魯棒性較低。近年來動作識別方法的迅速發(fā)展和許多大型數(shù)據(jù)集的引入，使得利用深度神經網(wǎng)絡對動態(tài)手勢進行有效識別成為可能。Molchanov等[8]引入了一種將歸一化深度和圖像梯度值結合起來的3D-CNN的動態(tài)手勢識別方法。而后Molchanov等[9]又提出了一種3D-CNN，融合來自多個傳感器的數(shù)據(jù)流進行識別。3D-CNN模型在視頻處理問題上相比于2D-CNN更加有效，但是也會存在時間維度上的運動信息的丟失問題。

因此，該文利用Kinect深度信息修復后的深度圖進行手勢精確分割，并由此提取出動態(tài)手勢的運動軌跡特征，構建一種通過自適應權值分配將動態(tài)手勢的軌跡識別與手勢時空信息識別結合的雙流網(wǎng)絡模型，利用該模型中的兩種網(wǎng)絡對動態(tài)手勢的不同特征的識別優(yōu)勢提高動態(tài)手勢識別率，并采用SKIG數(shù)據(jù)集測試模型識別性能。

1 動態(tài)手勢特征提取

實驗發(fā)現(xiàn)，當手部位置變化較大時就可以通過運動信息來識別，那么這些動態(tài)手勢的識別就可以轉換為對其空間運動軌跡的識別；而當手部位置變化較小時，其軌跡不能明顯區(qū)分出各個動態(tài)手勢，此時就需要利用動態(tài)手勢的手形特征的變化進行動態(tài)手勢的識別。因此在進行手勢識別前，需要對動態(tài)手勢進行手勢分割和軌跡的提取。

1.1 深度圖修復

由于Kinect傳感器獲取的深度圖像中存在大量噪聲以及深度信息缺失導致的空洞，而動態(tài)手勢的識別又依賴于手掌在運動過程中的手部形態(tài)與精確位置。因此為避免在進行手勢分割時，因深度圖中的噪聲、空洞引起的分割誤差進而導致后續(xù)的識別誤差，筆者首先做了文獻[10]中的工作，對采集的深度圖像進行初步修復。利用待修復像素點周圍時空域的深度數(shù)據(jù)，對深度圖中存在的噪聲以及空洞點進行修復，保證后續(xù)分割工作中能得到完整的手部形態(tài)和精確的空間位置。

1.2 手勢分割

手勢分割的目的是將手部區(qū)域從復雜背景中分離出來。在基于計算機視覺的手勢識別技術中，復雜背景下的手勢分割非常困難。特別是在單目視覺情況下，這主要是由于背景各種各樣，環(huán)境因素也不可預見。

修復后的深度圖像中手部輪廓完整、沒有明顯的噪聲干擾，因此可以利用深度圖中手掌部分的灰度值與深度圖中其他位置的灰度值的差異來提取手部感興趣區(qū)域輸入網(wǎng)絡進行訓練，提高動態(tài)手勢識別準確性。正常情況下，當人位于Kinect設備的可視區(qū)域內做手勢時，手掌部分與Kinect相距最近，灰度值與圖像中其他部分也會有較大差異，如圖1(a)所示。由此可以借助手勢的深度圖像，計算生成灰度直方圖，如圖1(b)所示?；叶葓D中橫坐標表示灰度級，縱坐標表示各個灰度值的像素在圖像中出現(xiàn)的次數(shù)。

圖1 深度圖像灰度直方圖示例

通過觀察灰度直方圖分析發(fā)現(xiàn)，灰度直方圖中第一個波峰對應灰度值即手掌部分對應灰度值。為準確把手掌區(qū)域和手臂、手腕部分區(qū)分開，將在第一個波峰灰度值左右波動3以內的像素點保留，其他像素點像素置為255。由此就得到了分割后的手勢圖，如圖2所示。

1.3 軌跡提取

利用1.1節(jié)分割得到的手勢圖，計算圖中手部質心坐標來代表手在圖像坐標系下的坐標。計算采集的手部質心坐標序列中橫坐標的最大值xmax、最小值xmin和縱坐標的最大值ymax、最小值ymin，給定一個標志flag和由實驗得到的質心坐標波動閾值P=20：

當xmax-xmin

圖2 分割后的手勢圖

當xmax-xmin≥P或ymax-ymin≥P時，flag=true，可以用軌跡對動態(tài)手勢進行識別。此時，為保證軌跡特征具有平移和比例不變性，將手勢的運動軌跡，即質心坐標的變化軌跡，整體平移到圖像中心位置，并生成動態(tài)手勢軌跡圖。具體過程如下：

(1)計算手勢軌跡所占區(qū)域的中心位置坐標(x0,y0)。計算公式如下：

(1)

(2)由于網(wǎng)絡的輸入設置為150×150大小的圖片，故計算x0、y0與75的差值得到對應的軌跡坐標平移距離，即可將軌跡整體平移至圖像中心位置。

(3)繪制軌跡序列散點圖，擬合軌跡曲線，生成動態(tài)手勢軌跡圖。

采集8幀深度圖像代表揮手手勢一次來回擺動，經分割后的手勢圖如圖3所示。

圖3 代表揮手手勢一次來回擺動的8幀手勢圖

由整個揮手手勢的手勢圖序列中的手部質心坐標生成軌跡圖的過程如圖4所示。

圖4 揮手手勢軌跡圖生成

2 融合軌跡識別的雙流模型

CNN是一種前饋神經網(wǎng)絡[11]，基本結構包括特征提取層和特征映射層。在圖像以及視頻處理方面，CNN有明顯的優(yōu)勢。相比于靜態(tài)手勢，動態(tài)手勢還包含了時間維度上的運動信息，因此必須采用3D-CNN同時學習手勢視頻流中的空間特征與時間特征。而一個動態(tài)手勢從開始到完成的持續(xù)時間大約為2～3秒，3D-CNN并不能將動態(tài)手勢視頻中的每一幀都輸入網(wǎng)絡進行學習，只能選取一定數(shù)量的圖像幀代表該動態(tài)手勢。因此，為防止選取不當導致關鍵幀信息丟失產生的分類錯誤，且鑒于CNN在提取靜態(tài)空間結構的優(yōu)勢，該文采用3D-CNN對動態(tài)手勢進行時空信息識別，并采用2D-ResNet融合手勢軌跡信息識別，構建自適應權值分配的雙流網(wǎng)絡模型，實現(xiàn)動態(tài)手勢的識別。網(wǎng)絡模型結構如圖5所示。

圖5 融合軌跡識別的雙流模型結構

2.1 時空信息識別

多模態(tài)識別系統(tǒng)使用多個數(shù)據(jù)流進行訓練，并在測試期間對多模態(tài)觀測結果進行分類，單模態(tài)識別系統(tǒng)僅使用一個模態(tài)數(shù)據(jù)進行訓練和測試[12]。該文采用了第三種類型，使用一個3D-CNN模型接收來自多種模態(tài)的數(shù)據(jù)并融合學習，即利用多模態(tài)數(shù)據(jù)提高單個網(wǎng)絡的測試性能。在動態(tài)手勢識別系統(tǒng)中可用的模式流通常是空間上和時間上對齊的。例如，運動采集設備采集的深度圖像和RGB圖像以及光流通常是對齊的，即使數(shù)據(jù)以不同的模態(tài)出現(xiàn)，但它們代表的語義內容是相同的。

該文引用文獻[13]的3DCNN模型框架，構建雙卷積池化網(wǎng)絡。該網(wǎng)絡利用兩個連續(xù)的卷積層保留并傳遞每個動態(tài)手勢的特征信息，但3D卷積層又是3D-CNN中高時空復雜性的主要來源，因此在3D卷積核上設置L2正則，以避免在神經網(wǎng)絡深度有限的前提下，因卷積層密集提取產生過擬合情況。兩次卷積操作后添加池化層操作，在保持特征不變性的條件下有效減少參數(shù)數(shù)量。在每層卷積之后，設置標準化層實現(xiàn)數(shù)據(jù)歸一化操作。在3D卷積之后設計激活函數(shù)，激活函數(shù)產生非線性操作，進一步增加神經網(wǎng)絡的復雜性。由此，利用Kinect同時獲取彩色數(shù)據(jù)與深度數(shù)據(jù)生成圖像，對齊裁剪后再對深度圖進行手勢分割，將分割后的手勢圖序列與彩色圖序列都作為3D-CNN的輸入數(shù)據(jù)對網(wǎng)絡進行訓練，保證網(wǎng)絡獲得更高識別精度的同時不會帶來參數(shù)增加的影響。將待識別的手勢序列輸入訓練好的該網(wǎng)絡即可得到手勢的時空信息識別結果。

2.2 軌跡識別

由于CNN模型結構會對網(wǎng)絡的特征表達能力產生影響，近年來，用于圖像識別的深度網(wǎng)絡如AlexNet、GoogLeNet[14]、VGGNet[15]、ResNet[16]等被相繼提出。卷積核更小化、網(wǎng)絡層更深化成為卷積網(wǎng)絡結構的一大發(fā)展趨勢，這種發(fā)展趨勢使得圖像的識別精度更高，模型的計算效率更快。在所有深度網(wǎng)絡模型中，殘差網(wǎng)絡(ResNet)因獨特的殘差結構，極大地加速了神經網(wǎng)絡的訓練，模型的準確率有比較大的提升，推廣性也非常好，從而得到了廣泛的應用。它通過直接將輸入信息繞道傳到輸出，保護信息的完整性，整個網(wǎng)絡只需要學習輸入、輸出差別的那一部分，簡化學習目標和難度，一定程度上解決了信息損耗、丟失和梯度消失、梯度爆炸等問題。

引入跳躍連接將目標函數(shù)F(x)+x的擬合轉變?yōu)闅埐詈瘮?shù)F(x)的擬合，將輸入與擬合殘差疊加代表網(wǎng)絡輸出，增強了網(wǎng)絡信息流通，降低了數(shù)據(jù)信息的冗余度。由此，通過訓練經典的ResNet50網(wǎng)絡對動態(tài)手勢的軌跡圖進行識別就得到了該手勢軌跡識別的結果。

2.3 融合策略

在經過上述工作后，已經得到了兩種網(wǎng)絡的最優(yōu)識別結果，但由于ResNet網(wǎng)絡只能對產生軌跡的動態(tài)手勢識別分類，對沒有軌跡變化只存在手形變化的動態(tài)手勢無法識別；而3D-CNN雖然可能丟失動態(tài)手勢時間上的運動信息，但對某些動態(tài)手勢仍能通過其時空信息進行有效識別。因此這里不宜采用求平均后取概率最大手勢的方法得到雙流網(wǎng)絡的最終識別結果，應根據(jù)每個手勢樣本的具體情況估計出網(wǎng)絡識別結果的置信度，依據(jù)該置信度計算權值，因此該文提出一種自適應權值分配策略為其分配權值，再由經典的加權平均模型得到識別的最終結果R。計算公式如式2所示，其中w為給網(wǎng)絡賦予的權值，f為各個網(wǎng)絡的輸出。

R=wsfs+wefe

(2)

3 雙流網(wǎng)絡的自適應權值分配

首先根據(jù)1.2中的flag值確定當前動態(tài)手勢是否產生軌跡：(1)當flag=false時，無法通過軌跡直接將動態(tài)手勢分類，設置ResNet網(wǎng)絡權值為0，3D-CNN的識別結果即為雙流網(wǎng)絡的最終結果；(2)當flag=true時，即兩種網(wǎng)絡都能對動態(tài)手勢進行有效識別，此時根據(jù)網(wǎng)絡識別結果的置信度為其分配權值，方法如下。

一類動態(tài)手勢可以用一組特征的組合來代表，每種特征又單獨形成特征空間，而不同類別的手勢又可能出現(xiàn)相同特征，因此形成了特征重疊的區(qū)域。當一個手勢樣本被網(wǎng)絡識別后，識別結果中各個類別的概率相差不大時，認為該手勢樣本處于特征重疊區(qū)域；而當識別結果中概率相差較大、較為分散時，認為該手勢樣本屬于非特征重疊區(qū)域。這樣，就將樣本空間分成了特征重疊區(qū)域和非特征重疊區(qū)域兩部分。

(3)

(4)

由高斯參數(shù)估計手勢樣本屬于每種手勢類別的后驗概率pj(j=1,2,…,J)，將它們組成向量P={pj|j=1,2,…,J}，其中J為手勢類別數(shù)。這樣，就生成了由后驗概率估計值組成的J維歐氏空間。對每一個特征向量P，都有一個歐氏空間中的點與其對應。當P越接近P1/J={(p1,p2,…,pJ)|pj=1/J,?j}時，手勢樣本位于特征重疊區(qū)域的可能性越大，對應識別網(wǎng)絡的權值越?。籔越遠離P1/J時，例如當某一pj接近于1，而其他概率接近0時，手勢樣本位于特征重疊區(qū)域的可能性越小，對應識別網(wǎng)絡的權值越大。對各個網(wǎng)絡識別結果都利用上述方法計算P與P1/J的歐氏距離dn，融合時就可以根據(jù)dn給網(wǎng)絡分配不同的權值，而后加權融合即可得到雙流網(wǎng)絡的識別結果。權值計算公式如下：

wn=dn(P,P1/J)

(5)

4 實驗及結果分析

4.1 數(shù)據(jù)集

由于加入了ResNet網(wǎng)絡對動態(tài)手勢軌跡進行識別，并且將分割后的手勢深度圖處理后與彩色圖兩種模態(tài)的數(shù)據(jù)同時訓練3D卷積網(wǎng)絡，因此該文采用Sheffield Kinect Gesture (SKIG) Dataset[17]RGB-D手勢數(shù)據(jù)集中的10種動態(tài)手勢類型，利用Kinect 2同步獲得彩色數(shù)據(jù)與深度數(shù)據(jù)，重新制作數(shù)據(jù)集。數(shù)據(jù)采集由6人完成，每人每種手勢執(zhí)行10次，每種模態(tài)各600個動態(tài)手勢視頻，并按照8∶1∶1的比例將數(shù)據(jù)集隨機劃分為訓練集、驗證集、測試集。對除測試集外的深度視頻，按照1.1的手勢分割方法將手掌部分分割出來，然后平均選取8幀圖像代表該動態(tài)手勢。再按照1.2中所提方法從分割后的手勢圖序列中計算質心坐標得到軌跡序列并生成軌跡圖。數(shù)據(jù)集樣例如圖6所示。

圖6 數(shù)據(jù)集樣例

4.2 數(shù)據(jù)擴充與訓練

為防止網(wǎng)絡在訓練過程中出現(xiàn)過擬合現(xiàn)象，有必要對數(shù)據(jù)集進行數(shù)據(jù)擴充。分別對ResNet網(wǎng)絡和3D-CNN的輸入數(shù)據(jù)進行擴充。對3D-CNN的輸入數(shù)據(jù)采用以下兩種數(shù)據(jù)擴充策略：(1)在同一個手勢視頻的完整幀序列中，選用不同的幀作為采集的第一幀，平均采集8幀圖像代表該手勢；(2)將代表一個手勢的8幀圖像進行相同方向相同角度的旋轉。以上兩種方法擴充后共2 160個手勢。對ResNet網(wǎng)絡的輸入數(shù)據(jù)即動態(tài)手勢軌跡圖進行一定比例的放大與縮小，最終動態(tài)手勢軌跡圖包含1 080張。實驗結果表明，利用數(shù)據(jù)擴充后的數(shù)據(jù)集對網(wǎng)絡模型進行訓練，增強了網(wǎng)絡的泛化能力，提高了網(wǎng)絡的識別率。

該文基于Keras深度學習開發(fā)框架，利用GPU并行加速對兩個網(wǎng)絡單獨進行訓練。數(shù)據(jù)集中80%作為訓練集，剩余的20%作為驗證集，并且將訓練集隨機打亂。在ResNet網(wǎng)絡中，網(wǎng)絡的輸入為根據(jù)動態(tài)手勢運動軌跡生成的大小為150×150×3的圖像，調整大小至224×224×3。在3D-CNN中，將采集的代表一個手勢的8幀150×150的圖像序列作為輸入數(shù)據(jù)，網(wǎng)絡每次迭代分批次處理大小為32，并采用Adam方法對網(wǎng)絡進行優(yōu)化。訓練周期設為128，每迭代5個批次就對測試集進行一次測試，待網(wǎng)絡訓練至最優(yōu)時，將2個網(wǎng)絡的識別結果，在決策級以加權融合的方式判定所屬的動態(tài)手勢類別。

4.3 實驗結果分析

實驗計算機配置為Intel Core i5，內存32 GB RAM，環(huán)境配置Windows10+python3.6.8+Tensor-flow1.8.0+CUDA9.0，訓練使用顯卡NVIDIA GeForce GTX 980Ti，并采用Kinect 2.0設備采集手勢數(shù)據(jù)。實驗分為兩部分：

(1)用測試集中60組動態(tài)手勢單獨測試訓練好的兩個網(wǎng)絡的識別效果。其中，ResNet網(wǎng)絡對除Come here、Turn around、Pat以外的7種動態(tài)手勢識別進行測試，結果如表1所示；3D-CNN對數(shù)據(jù)集中的10種動態(tài)手勢識別結果如表2所示。

表1 ResNet網(wǎng)絡識別結果

表2 3D-CNN識別結果

由表1可以看出，Resnet50因其強大的學習能力使得在文中自制的軌跡圖像數(shù)據(jù)集上的平均識別率達到了97.38%。其中，當Right-left手勢執(zhí)行不規(guī)范時，軌跡與Wave手勢有一定的相似性，正確率略微低于其他手勢。同時，3D-CNN對數(shù)據(jù)集中10種動態(tài)手勢的平均識別率也達到了96.67%。其中，Circle、Triangle兩種手勢因手型一致，在只提取8幀代表該動態(tài)手勢的情況下存在誤識別，故正確率低于其他手勢。

(2)對由兩種網(wǎng)絡構成的雙流網(wǎng)絡模型進行測試，并將文中方法與近幾年相關方法在SKIG數(shù)據(jù)集上的識別準確率與平均消耗時間進行對比，如表3所示。

表3 不同方法在SKIG上的準確率對比

由表3可以看出，文中方法不僅在SKIG數(shù)據(jù)集上的識別率達到99.52%，相比于現(xiàn)有識別率最高的方法提升了0.45%，也能較快地識別出動態(tài)手勢。

5 結束語

為避免由于單個3D卷積網(wǎng)絡特征提取不充分而導致的誤分類，且鑒于CNN在提取靜態(tài)空間結構的優(yōu)勢，引入ResNet網(wǎng)絡從合成的軌跡圖像中提取動態(tài)手勢運動信息，與二模態(tài)訓練的3D卷積網(wǎng)絡構成一種更加復雜的雙流網(wǎng)絡結構來提高動態(tài)手勢識別的準確性與魯棒性。實驗結果表明，與現(xiàn)有的在SKIG數(shù)據(jù)集上的方法相比，該方法的識別率更高、魯棒性更強。雖然提出的雙流網(wǎng)絡提升了一定的識別率，但識別速度仍需要進一步提高。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡