張 振,張師榕,趙轉哲*,劉永明,闞延鵬,涂志健
(1. 安徽工程大學機械工程學院 安徽 蕪湖 241000;2. 蕪湖賽寶機器人產業(yè)技術研究院有限公司 安徽 蕪湖 241000)
人體動作識別技術作為人工智能及計算機視覺領域的一個重要研究方向,成為國內外研究人員相繼探討的熱點話題,目前已成功應用于人機交互、視頻監(jiān)控、體育訓練和康復醫(yī)療等諸多領域[1-4]。
近年來,深度學習因其出色的解決問題的能力而備受關注[5-6]。研究人員將深度學習應用到人體動作識別領域,在人體動作識別的研究方法和建模算法方面取得了切實有效的進步。如文獻[7]提出了一種新的跌倒識別方法,該方法基于OpenPose 深度卷積網絡獲取人體傾斜姿態(tài)動態(tài)特征,根據支持向量機完成跌倒行為二分類,以人體下降姿態(tài)動態(tài)特征的閾值判斷排除混淆性較大的非跌倒行為,在人體動作數據集上取得了較高的準確率。文獻[8]針對人體動作識別精度不高的問題,在克服光照影響方面,對人體關節(jié)數據進行預處理;為了解決動作特征描述的問題,對人體動作數據進行針對性編碼。文獻[9]結合離散余弦變換(discrete cosine transform, DCT)和主成分分析法(principal component analysis, PCA),利用改進優(yōu)化后的支持向量機對5 組不同類型的人體小樣本動作數據進行識別。文獻[10]在深度神經網絡(deep neural neork, DNN)的基礎上,利用VGG19 提取DNN 特征,根據水平和垂直梯度以及垂直方向信息計算特征,利用參數選擇最佳特征進行識別。文獻[11]在信道狀態(tài)信息(channel state information, CSI)的基礎上進行延展,基于室內wifi 信號提出了一種包含離線和在線兩個階段的 CSI-HC 人體動作識別方案。文獻[12]提出了一種新的雙層條件隨機場(DL-CRFs)的人體動作識別模型,并在兩個RGB-D 視頻序列數據集上對其有效性進行驗證。文獻[13]基于視覺數據集開發(fā)了羽毛球動作自動識別系統(tǒng),利用AlexNet 網絡模型在fc8 層提取訓練數據集特征,得到了82.00%的識別精度。
上述文獻提出的人體動作識別方法雖然取得了較好的成效并應用于多個場景,但多是針對視頻和圖像進行處理,亦或是采用光學式動作捕捉系統(tǒng),運動過程中易受到強光、遮擋等環(huán)境影響,導致數據缺失,將其應用于人體動作識別領域仍然具有一定的局限性[14-16]。與此同時,可穿戴式慣性傳感器體積逐漸變小,重量逐漸減輕,測量精度逐漸提高,相較于光學式動作捕捉系統(tǒng),其價格也相對較低[17-19]。因此,將慣性動作捕捉系統(tǒng)應用于人體動作識別領域,具有較高的研究價值。
為此,本文綜合卷積神經網絡(convolutional neural network, CNN)在特征提取和數據分類領域優(yōu)異表現[20-21]以及隱馬爾可夫模型(hidden Markov model, HMM)在時間建模和動態(tài)分類領域精準有效[22-23]的特點,提出了一種混合卷積神經網絡?隱馬爾可夫模型(CNN-HMM)的深度學習方法,結合可穿戴式慣性動作捕捉系統(tǒng)Perception Neuron 2.0(PN2.0)對人體動作進行識別。通過3 組人體動作識別實驗對本文方法進行了驗證。
圖1 混合CNN-HMM 結構圖
該混合CNN-HMM 人體動作識別方法分為訓練階段和測試階段兩部分,其目的是在訓練數據集上建立模型以及在測試數據集上評估性能,從而得到一個具有泛化能力的人體動作識別算法模型。
為了學習如何從輸入中預測輸出,在訓練階段,使用帶有標注的訓練數據集尋找最優(yōu)參數,建立最優(yōu)訓練模型并預測輸出,其流程如圖2 所示,具體步驟如下。
圖2 混合CNN-HMM 訓練階段
1) 數據預處理:在預處理過程中先對訓練數據集進行數據清洗,隨后將其按照一定比例縮放在特定區(qū)域,根據實驗動作將訓練數據集分割為連續(xù)的數據段(稱為窗口)。
2 )訓練CNN:選擇CNN 作為基線分類算法,將分割后的數據段帶入混合CNN-HMM 算法中進行訓練。
3) 生成HMM 概率:為了確保時間序列的平滑性,將CNN 分類結果與HMM 相結合,并在此步驟中生成HMM 的初始概率和轉移概率。
為了評估模型性能的好壞以及測試最終的泛化能力,在系統(tǒng)的測試階段,將從未使用過的測試數據集應用于訓練階段建立的預測模型,從而完成動作序列的預測,其流程如圖3 所示,具體步驟如下。
圖3 混合CNN-HMM 測試階段
1) 數據預處理:實驗數據被分割為數據段,稱為數據窗口,這些數據標記為測試數據。
2) CNN 分類:利用CNN 模型對預處理后的數據進行分類,輸出總和為1 的后驗概率分布,即每個動作模式對應的概率。
3) 使用HMM 重新分類:為了充分利用實驗中的時間信息,將步驟2)中CNN 輸出的后驗概率分布結果嵌入HMM 的觀測概率矩陣,使用Viterbi算法對其重新分類,從而得到最佳的動作序列。
4) 性能評估:根據不同的評價指標測試算法性能。
為了驗證所提方法的可行性,本文制定了一種包含抬腿(實驗Ⅰ)、深蹲(實驗Ⅱ)和仰臥臀橋(實驗Ⅲ)這3 種常見的人體康復訓練動作識別方案。在每組實驗中,分別建立一個包含6 種不同動作姿態(tài)的動作模型庫,通過諾亦騰公司自主研發(fā)的可穿戴式慣性動作捕捉系統(tǒng)PN2.0 收集實驗數據,使用預處理后的數據集訓練模型,最后對算法性能做出評價分析。圖4 為獲取實驗數據的可穿戴式慣性動作捕捉系統(tǒng),分別通過USB 接口和HUB 連接計算機以及發(fā)送由感知神經元節(jié)點生成的實驗數據。在每組實驗中,實驗人員將6 種不同動作分別重復50 次,共收集135 000 幀的訓練數據,同時,使用攝像機記錄整個實驗過程。
圖4 可穿戴式慣性動作捕捉系統(tǒng)Perception Neuron2.0
在每組實驗中,6 種不同動作模型分別記為PAT0、PAT1、PAT2、PAT3、PAT4 和PAT5,其中,PAT0 為標準動作模型,PAT1~PAT5 為非標準動作模型。每個動作模型的詳細設置情況如表1所示,其對應的具體動作如圖5 所示。
表1 每組實驗中動作模式的設定
圖5 動作模型庫的建立
實驗中,通過感知神經元產生并由HUB 實時輸出Calc 類型數據,該類型包括全局坐標系中的位移、速度、加速度以及陀螺儀數據。其數據類型分別為,位置坐標、P-x、P-y、P-z;速度坐標:Vx、V-y、V-z;加速度坐標:A-x、A-y、A-z;陀螺儀坐標:G-x、G-y、G-z。
圖6 表示實驗Ⅰ在標準動作模式(PAT0)下一個感知神經元生成的部分時間序列數據樣本示意圖。
圖6 標準動作的時間序列數據樣本
為了進一步提高動作識別效果,消除訓練數據集中的異常值及噪音,先對實驗數據進行清洗,再根據Z-score 方法對其標準化:
式中,X為數據流中單個特征值;μ為X的平均值;σ 為X的標準差。
實驗數據的分割大小取決于實驗人員一次運動產生的數據集規(guī)模的大小,圖7 展示了一個滑動窗口沿著輸入數據將其分割為若干相同大小的數據段的過程,從而將輸入數據劃分為若干帶有標簽的運動模式。在每組實驗中,一次運動大約需要3~4 s,PN2.0 設備以120 fps 的速度向計算機實時輸出數據,因此將滑動窗口大小設為450。
圖7 將輸入數據分割為固定大小的數據段
混合CNN-HMM 方法共分為CNN 分類和HMM預測兩個部分。在CNN 分類部分,將預處理后的實驗數據集輸入在包含卷積層、池化層等結構的CNN 框架中訓練。為了有效避免過擬合現象,使用Dropout 方法隨機刪除神經元,另外在CNN 最后增加Softmax 函數,將CNN 的輸出表示為總和為1 的后驗概率,以便CNN 和HMM 混合方法模型的建立。表2 列出了Adam 算法下本文CNN的具體參數設置。
表2 CNN 結構參數
在HMM 預測部分,將HMM 表示為λ={π,A,
表3 HMM 的轉移概率矩陣A %
采用準確率(Accuracy)、靈敏度(Sensitivity)和特異性(Specificity)3 種評價指標驗證算法性能,計算公式分別為:式中,TP、FP、FN 和TN 分別表示真陽性、假陽性、假陰性和真陰性。在本研究中,TP 表示一個特定模式在數據集中被正確識別的數量;FP 表示在數據集中將其他模式識別為該特定模式的數量;FN 表示在數據集中將該特定模式錯誤識別為其他模式的數量;TN 表示在數據集中將其他模式正確識別的數量。表4 為單一CNN 方法和混合CNNHMM 方法在3 種評價指標上的計算結果。
表4 單一CNN 與混合CNN-HMM 方法性能對比 %
由表4 可以看出,單一CNN 和混合CNNHMM 兩種方法在3 種評價指標上均取得了較好的實驗結果,這表明兩種方法均可成功運用到人體動作識別領域。另外,從表4 中不難看出,在3 組人體動作識別實驗中,相較于單一CNN 方法,使用混合CNN-HMM 方法在多個評價指標上均有不同程度地提高,證明了本文方法的優(yōu)越性。
圖8 和圖9 分別為使用單一CNN 和混合CNNHMM 兩種方法在3 組實驗中產生的混淆矩陣,其中,矩陣的行表示真實動作序列,列表示算法識別得到的動作序列。由混淆矩陣可以得出,使用單一CNN 方法在3 組實驗中對6 種動作分別成功識別271 次、277 次和273 次,其識別準確率分別為90.33%、92.33%和91.00%;使用混合CNN-HMM方法在3 組實驗中對6 種動作分別成功識別288次、293 次和292 次,其識別準確率分別為96.00%、97.67%和97.33%,相較于單一CNN 方法,其平均識別準確率提高了5.78%。特別地,實驗Ⅰ中,對于PAT1,CNN 成功識別37 次,混合CNNHMM 成功識別40 次,與實際序列差距較大,造成這種現象的原因可能是數據集間差異較小,算法難以將其正確識別。
圖8 單一CNN 方法性能混淆矩陣
圖9 混合CNN-HMM 方法性能混淆矩陣
為了更加直觀地觀察輸入動作序列的分布情況以及兩種方法對于3 組動作識別實驗的結果差異,圖10 展示了3 組實驗中實際輸入動作序列與使用單一CNN 和混合CNN-HMM 兩種方法識別得到的動作序列對比圖。由圖10 可以看出,相較于單一CNN 方法,使用混合CNN-HMM 方法在3 組實驗中的識別結果與實際輸入的動作序列差距均更為微小,識別精度更高,從另一個角度驗證了本文方法在人體動作識別方案中的可行性及優(yōu)越性。
圖10 輸入序列與使用單一CNN、混合CNN-HMM 方法識別結果對比
本文提出了一種混合卷積神經網絡?隱馬爾可夫模型(CNN-HMM)的深度學習方法,并成功應用于人體動作識別領域。實驗結果表明了本文方法能以較高準確率將6 種不同動作姿態(tài)區(qū)分開,相較于單一CNN 方法,平均識別準確率提高了5.78%。本文方法為深度學習與人體動作識別領域提供了新的研究思路,也為康復運動與體育訓練領域提供了新的研究參考。但在實驗過程中,感知神經元可能會遇到磁干擾現象,因此本實驗應當在開闊無輻射的場地中進行。在今后的研究中,將考慮設計人機交互界面從而得到更佳的體驗效果,同時也可嘗試將其應用于其他相關領域。