彭金柱, 董夢超, 楊 揚
(鄭州大學(xué) 電氣工程學(xué)院,河南 鄭州 450001)
近年來,隨著人機交互技術(shù)的快速發(fā)展,利用各類傳感器進行手勢識別從而控制機器完成指定任務(wù)已經(jīng)變得非常普遍[1]。手勢動作交流具有較高的靈活性且生動形象,當(dāng)將其應(yīng)用于人機交互中時,對可識別手勢動作的種類和手勢動作信息的精準(zhǔn)獲取提出了更高的要求。
從手勢信息獲取方式來看,手勢識別主要分為2種:通過人體手勢視覺圖像信息實現(xiàn)手勢識別和獲取人體手勢肌電信號(EMG)進行手勢識別[2]。Saha 等[3]通過Kinect視覺傳感器采集人體手勢圖像信息,利用隱馬爾可夫模型(HMM)識別手勢,但該方法存在難以調(diào)參的問題,對識別時間和效率有一定影響。任彧等[4]提取方向梯度直方圖(HOG)特征作為手勢圖像的特征描述符,基于支持向量機(SVM)多分類算法完成對手勢識別模型的訓(xùn)練,消除了光照不均和手勢角度旋轉(zhuǎn)對手勢識別的影響。但該方法要求背景簡單,且只對有限的9類手勢進行識別。Naik等[5]通過采集到的手臂EMG信號,提取信號的分維數(shù)特征,用SVM等方法進行手部運動模式的分類,識別正確率較高。張啟忠等[6]提出了球均值Lyapunov指數(shù)計算的方法提取EMG信號特征,利用SVM作為分類器完成4類手勢的分類,準(zhǔn)確率達到96%。Lahiani等[7]開發(fā)了一種基于HOG和局部二值模式(LBP)特征的靜態(tài)手勢識別系統(tǒng),對10種手勢的識別正確率達到了92%。但是,受限于當(dāng)前常用特征的區(qū)分能力,目前已有的大多數(shù)手勢識別算法只能在手勢類別數(shù)量較少時獲得不錯的性能。當(dāng)需要處理的手勢種類增多時,不同手勢的類間距離迅速變小,使得這些方法的識別正確率難以保證。
針對上述問題,本文提出一種基于視覺和EMG信息融合的手勢識別方法,主要分為3個部分:對單一視覺HOG特征和單一肌電信號時域特征的提?。粚?種單一特征進行特征融合,得到融合特征;以融合后特征作為SVM多分類器的輸入訓(xùn)練手勢識別模型。該方法利用融合特征代替單一特征,從視覺和肌電2個角度完成對手勢信息的特征描述,所需數(shù)據(jù)量遠小于同等識別效果的單一HOG特征,在手勢種類多達36種的情況下識別正確率達到96%。
HOG最早由Dalal于2005年提出,具有幾何不變矩的特性,多用于行人檢測中,并取得了較好的效果[8]。HOG依據(jù)一幅圖像的形狀、外觀等特征能夠被梯度或邊緣的方向密度分布很好地描述的原理,來適應(yīng)光照變化和目標(biāo)旋轉(zhuǎn)。
視覺HOG特征提取過程:首先利用Kinect視覺傳感器獲取手勢圖像并對其進行圖像中值濾波、顏色空間轉(zhuǎn)換等預(yù)處理操作;然后基于YCbCr顏色空間的橢圓模型完成對手勢區(qū)域的分割;最后對圖像進行灰度化操作,計算并提取手勢HOG特征。HOG特征提取過程如圖1所示。
圖1 HOG特征提取流程Figure 1 Flow chart of HOG feature extraction
1.1.1 手勢分割
手勢分割是把人的手勢區(qū)域從完整的圖像中分割出來,減少背景帶來的訓(xùn)練識別過程的計算量冗余。
橢圓模型是一種在YCbCr顏色空間下的手勢分割模型。研究表明:把人體手勢膚色像素投影到CbCr子空間上,其投影近似在一個橢圓范圍內(nèi)[9]。通過計算圖像中像素點的投影位置是否在橢圓范圍內(nèi),判定當(dāng)前像素點是否是人體手勢像素點[10]。橢圓模型的表達式為:
(1)
(2)
式中:Cx=109.38;Cy=152.02;θ=2.53 rad;eCx=1.60;eCy=2.41;a=25.39;b=14.03。
橢圓模型具有計算速度快和檢測準(zhǔn)確率高等特點,所以本文選用橢圓模型完成對手勢的分割。圖2為基于YCbCr顏色空間的橢圓模型手勢分割效果。
圖2 橢圓模型手勢分割效果Figure 2 Ellipse model gesture segmentation renderings
1.1.2 HOG特征計算
與其他圖像幾何特征不同,HOG特征將圖像細分為多個小的細胞單元(cell),然后計算所有細胞單元中各像素點的梯度或邊緣的方向直方圖。為提高性能,將若干個細胞單元組成一個區(qū)間(block),圖像變?yōu)橛扇舾蓚€區(qū)間組成的連通圖,然后在這些區(qū)間內(nèi)對各細胞單元的梯度進行歸一化,取得最終的梯度方向向量。
圖像的梯度方向向量數(shù)由圖像大小、cell大小、每個cell所取梯度維數(shù)等因素決定。計算式為:
(3)
式中:Bn=(Bs-Bt),Bt表示block移動步長,Bs表示block大小;Cs表示cell大?。籆d表示cell維數(shù);w與h分別表示圖像寬與高。
EMG的時域特征提取過程:首先利用Myo臂環(huán)獲取手勢動作信號并進行去噪等預(yù)處理操作;其次,對預(yù)處理后的肌電信號進行有效活動段檢測;最后完成對EMG的時域特征提取。EMG信號的時域特征提取過程如圖3所示。
圖3 EMG時域特征提取流程Figure 3 Flow chart of EMG time domain feature extraction
1.2.1 有效活動段檢測
使用4階巴特沃斯帶通濾波器對EMG進行濾波處理[11],然后,對手勢動作的肌電信號進行活動段檢測,找到手勢動作的有效起止點,從而能快速完成手勢動作的特征提取,且能夠提高特征提取的準(zhǔn)確度。
移動平均法可以在一定程度上減輕隨機波對時間序列信號整體走勢的影響,因此,選用移動平均法進行有效活動段檢測。對獲取到的時間序列信號設(shè)定一定寬度的時間窗和滑動步長,按順序疊加平均,計算此時間窗內(nèi)的采樣數(shù)據(jù)點,進而獲得一個新的時間序列信號[12]。對手勢肌電信號進行有效活動段檢測時,分別對8通道肌電信號數(shù)據(jù)進行移動平均處理,具體操作步驟如下。
(1)定義每個通道表面肌電信號Sk(t),k=1,2,…,8。對各通道表面肌電信號Sk(t)進行平方處理,從而獲得EMG瞬時能量的時間序列E(t):
(4)
(2)在采樣頻率為1 000時,設(shè)定窗口大小W=64,在滑動步長為16時,對EMG能量時間序列E(t)進行滑動平均計算,進而獲得滑動平均后的時間序列EM(t):
(5)
通過觀察,設(shè)置合適的閾值,比較EM(t)和閾值的大小,從而確定手勢動作肌電信號有效活動段的起止點。具體方法是:將時間序列EM(t)大于閾值且之后的2個連續(xù)點數(shù)據(jù)值都大于閾值的點確認(rèn)為有效活動段的起始點;將時間序列EM(t)小于閾值且之后的2個連續(xù)點數(shù)據(jù)值小于閾值的點確認(rèn)為有效活動段的結(jié)束點。
1.2.2 時域特征提取
特征提取的目的是利用手勢攜帶的特定信息將不同手勢動作區(qū)別開來,這對后續(xù)不同手勢肌電信號的分類有至關(guān)重要的作用。目前,肌電信號特征提取在信號分類方面具有較好的效果,其方法包括:時域分析方法、頻域分析方法、時頻域分析方法及非線性動力學(xué)方法。從國內(nèi)外學(xué)者的研究來看,相較于其他分析方法,時域分析方法在表征手勢特征方面效果更好,且計算簡單、獲取迅速、實時性高。
由于EMG屬于生理信號,是一種隨機性較大、不易重復(fù)的生物電信號,所以一種特征參數(shù)并不能實現(xiàn)肌電信號的全面描述。本文選用時域統(tǒng)計學(xué)特征來作為不同手勢的分類標(biāo)準(zhǔn),5個時域統(tǒng)計學(xué)特征如下:均方根值(RMS)、波形長度(WL)、平均絕對值(MAV)、過零點數(shù)(ZC)、斜率變化數(shù)(SSC)。5個時域統(tǒng)計學(xué)特征的數(shù)學(xué)定義如表1所示。
表1 時域特征的定義Table 1 Definition of time domain feature
相比其他技術(shù),多傳感器信息融合技術(shù)最大的優(yōu)勢在于能夠獲得其他單一傳感器不能得到的被感知物體的完善的基本特性,并且多傳感器信息融合技術(shù)在信息融合后具有較強的可靠性、時效性、魯棒性[13]。同一被感知物體在不同背景下,表現(xiàn)出來的特征信息其實都不相同,但是對于多傳感器信息融合來說,一般都是在同一個級別下完成的。根據(jù)被感知物體信息抽象程度,將多傳感器信息融合分為像素級數(shù)據(jù)融合、特征級數(shù)據(jù)融合和決策級數(shù)據(jù)融合[14]。
選擇特征級數(shù)據(jù)融合作為多傳感器信息融合的融合結(jié)構(gòu),串行特征融合是直接將來自2類傳感器的特征向量進行首尾相接,從而獲得包含不同特征類型的高維特征向量。假設(shè)樣本空間為Ω且A、B對應(yīng)不同的特征空間類型,任意選擇一個樣本ζ∈Ω,其所對應(yīng)的2類特征向量分別是α∈A,β∈B,那么ζ的串行融合特征向量φ定義為:
φ=αβ。
(6)
提高特征向量有效數(shù)據(jù)維數(shù)是對當(dāng)前樣本更細致的特征描述,可以增加不同樣本之間的可區(qū)分性。提高單一特征向量的有效數(shù)據(jù)維數(shù)從而細致刻畫不同樣本在當(dāng)前特征下的差異,是一種提高識別正確率的方法[15]。但是該方法在數(shù)據(jù)量上的增加,會給計算量帶來量級上的增大,甚至帶來維數(shù)災(zāi)難問題;其次,有效數(shù)據(jù)維數(shù)提高存在瓶頸期,當(dāng)數(shù)據(jù)維數(shù)高到一定量級時,再持續(xù)增加特征向量維數(shù),對結(jié)果提升不明顯。
融合特征向量有效數(shù)據(jù)維數(shù)的提高是基于增加樣本特征描述的類別,通過不同特征下樣本差異性的累加來提高其可區(qū)分性??紤]到2種特征融合占比的均衡性,為了更直觀地展現(xiàn)融合特征給正確率帶來的提升,本文融合特征向量γ(184維)由HOG特征向量α(144維)和EMG時域特征向量β(40維)串行融合而成。相比于對單一特征細致描述產(chǎn)生的數(shù)據(jù)量,融合特征數(shù)據(jù)量增加較少且給樣本之間加入另一特征下的差異描述,性價比更高,且多特征的提升空間更大,能有效解決瓶頸期問題。
SVM通過建立一個分類超平面作為決策面,使不同類之間的隔離邊緣最大化,從而實現(xiàn)分類。基礎(chǔ)的SVM僅針對二分類問題,不能滿足實際問題中多分類問題的需要。為將SVM良好的分類性能運用到多分類問題,專家提出一對多[16]、一對一[17]、基于有向無環(huán)圖[18]以及基于決策樹[19]等方法構(gòu)建組合式SVM多分類器。本文采用基于一對一方式實現(xiàn)的組合式SVM多分類器解決手勢識別問題。
對于一個具有N(N≥2)個類別的分類問題,此方法共構(gòu)建N(N-1)/2個SVM分類器,每個分類器實現(xiàn)對2個類別的分類,使得N個類別中任意2類都有其相對應(yīng)的分類器。假定N=3,對應(yīng)的3分類組合式SVM分類器結(jié)構(gòu)如圖4所示。
圖4 3分類SVM結(jié)構(gòu)Figure 4 3 classification SVM structure chart
每個分類器對輸入樣本進行非此即彼的分類判定,采用投票策略對輸入樣本進行最終識別,即票數(shù)最多的一類為輸入樣本所屬類別。當(dāng)出現(xiàn)多個類別票數(shù)相同的情況時,由算法判定類別序號最小的類別為輸入樣本最終所屬類別。
基于一對一方式實現(xiàn)的組合式SVM多分類器中每個SVM面對的都是2個類別的分類問題,易于訓(xùn)練,充分發(fā)揮了SVM解決二分類問題的優(yōu)勢。本文使用的SVM分類器的類型是C-SVC。選用徑向基核函數(shù)(RBF)作為核函數(shù),其具有較寬的收斂性,易于調(diào)參,可以在一定程度上消除高維空間中的復(fù)雜內(nèi)積運算。通過網(wǎng)格搜索法對懲罰系數(shù)以及核參數(shù)進行尋優(yōu)。
本文以圖像HOG特征與肌電信號時域特征組成的融合特征作為手勢的特征描述符,基于SVM多分類算法實現(xiàn)對36種手勢(包含10個數(shù)字和26個英文字母)的識別。由于識別手勢種類的多樣性以及多特征融合的方法在當(dāng)下沒有合適的公開數(shù)據(jù)集供研究使用,所以采用自制的手勢數(shù)據(jù)集完成相關(guān)研究工作。
自制手勢數(shù)據(jù)集共由10位實驗者提供組成,其中男女人數(shù)比例為1∶1。36種手勢與所代表含義的對應(yīng)關(guān)系如圖5所示,每人每種手勢采集3張圖片以及相對應(yīng)的3組手勢肌電信號,即每種手勢共分別得到30組有效數(shù)據(jù)。
圖5 手勢對應(yīng)關(guān)系Figure 5 Gesture corresponding chart
本文實驗硬件平臺配置:Inter i5-4460處理器,8 G內(nèi)存(1 600 MHz)。SVM多分類算法在MATLAB 2020b平臺基于Libsvm功能包實現(xiàn)。
使用十折交叉驗證評價算法的分類性能,并記錄每個類別手勢的識別正確率,總體正確率為每個類別的正確率之和與總類別數(shù)的比值。采用融合特征的36種手勢識別的正確率如表2所示。
相同實驗條件下,分別對單獨HOG特征(144維)、單獨EMG時域特征以及基于SLMF(score-level multifeature fusion)方式[20]的特征融合(144維HOG特征與EMG時域特征的融合)進行36種手勢的識別實驗,并將得到的手勢識別正確率與本文提出的特征融合做對比,對比情況如圖6所示。該方法的實驗結(jié)果在圖6、8和表3中由HOG144+EMG(S)表示。
表2 特征融合識別正確率Table 2 Feature fusion recognition accuracy
圖6 特征融合前后分類識別正確率比較Figure 6 Comparison of classification accuracy before and after feature fusion
本文在基于SLMF方式的特征融合實驗中,自制數(shù)據(jù)集的60%作為訓(xùn)練集,40%作為測試集;由訓(xùn)練集樣本訓(xùn)練不同特征類型對應(yīng)的模型,記錄樣本識別分?jǐn)?shù)并計算不同特征類型對應(yīng)的權(quán)重;測試得到測試集樣本的識別分?jǐn)?shù),結(jié)合不同特征對應(yīng)的權(quán)重,完成特征融合過程。
對比上述實驗結(jié)果發(fā)現(xiàn),本文提出的特征融合的手勢識別方法在36種手勢識別正確率方面明顯高于單一特征,其中33種手勢識別正確率在90%以上,更有14種達到了100%。特征融合對視覺上相似手勢0、m、n、s、t的識別正確率有24%~53%不等的提升,表明EMG時域特征的融合增加了相似手勢之間的差異性;對EMG時域特征識別正確率較差的手勢c、e、h、y等有良好的識別效果,正確率都在90%以上,其中c、e、y等的正確率提高到了100%。
與串行融合特征相似,基于SLMF方式的手勢識別正確率總體上高于融合前單一特征。由圖6可以看出,該方法雖然部分字符識別的正確率較高,但是有11種手勢的正確率下降明顯,如手勢1的正確率比融合前單一EMG時域特征識別方法下降了40%,手勢b的正確率下降了16%。其原因是,當(dāng)分類類別過多以及類別之間差異性不大時,分類器無法對正確的類別做出堅定的選擇,使得正確類別與相似類別的評判分?jǐn)?shù)相近。以SLMF為代表基于權(quán)重系數(shù)的決策級特征融合無法有效處理上述情況,甚至?xí)驗闄?quán)重而提高相似類別的評判分?jǐn)?shù),使其大于正確類別,導(dǎo)致融合后正確率的降低。
串行融合方式的特征融合則會提供更多的特征,增加相似樣本之間的差異性,促使分類器做出正確的選擇。串行融合特征下唯有手勢q的正確率相對于單一特征下降了7%,正確率降到90%,特征的融合對極個別手勢的差異性帶來一定損失。
特征融合后與特征融合前的總體正確率對比如表3所示。本文串行融合特征總體識別率相對于單一HOG特征提高了33%,相對于EMG時域特征提高了16%。相對于SLMF融合方式提高了9%?;诖腥诤戏绞剑诤咸卣鞯氖謩葑R別方法對手勢識別正確率有明顯提升。
表3 總體正確率對比Table 3 Comparison of overall accuracy
為驗證串行融合特征的高效性,提高手勢圖像信息單一HOG特征的有效維數(shù)到576維和2 304維,與串行融合特征進行對比實驗,不同種類手勢的識別正確率和總體正確率如圖7、表3所示。
圖7 與高維HOG特征的分類識別正確率比較Figure 7 Comparison of classification accuracy with high-dimensional HOG features
對比上述實驗結(jié)果可知,隨著HOG特征數(shù)據(jù)維數(shù)的增加,識別正確率雖然也在提高,但是提高幅度越來越小。相較于576維的HOG特征,串行融合特征向量只有184維,分類別手勢識別正確率普遍有提高,總體正確率比其要高了12%。直至HOG特征向量達到2 304維,此時HOG特征的數(shù)據(jù)量是串行融合特征的12倍,其總體正確率仍比特征融合低4%。
在各類別手勢中隨機選取10組樣本數(shù)據(jù),共計360組樣本數(shù)據(jù),分別放入6種不同特征類型對應(yīng)的模型中,記錄不同特征類型下360組樣本數(shù)據(jù)計算識別過程所需時間,每組樣本數(shù)據(jù)的平均計算耗時如圖8所示。
圖8 計算耗時比較Figure 8 Comparison of calculation time
圖8實驗結(jié)果中,本文串行融合特征下對每個樣本的平均識別時間是0.274 ms,融合前144維單一HOG特征是0.272 ms,2 304維HOG特征是2.709 ms,基于SLMF方式的特征融合的平均耗時是0.607 ms。結(jié)合圖8計算耗時與表3中總體正確率,有以下分析:①本文串行融合方法的計算耗時與融合前144維單一HOG特征相近,總體正確率卻由63%提升至96%;②提升單一HOG特征至2 304維,單一HOG特征比串行融合特征總體正確率低4%,計算耗時是本文串行融合特征的將近10倍;③以基于SLMF方式為代表的決策級特征融合由算法特性決定,需要多個模型參與識別,其計算耗時是多個模型計算識別時間的總和,故該算法雖然與本文串行融合特征維數(shù)相同,但計算耗時是本文方法的2倍多。相對于本文串行融合特征96%的總體正確率,該方法為87%,比本文方法低9%。
本文提出一種融合視覺HOG特征和肌電信號時域特征進行手勢識別的方法,實驗結(jié)果表明:在識別手勢種類多達36種的情況下,特征融合后的識別正確率明顯高于融合前單一特征。與高維HOG特征對比表明,特征融合能夠以較少的特征數(shù)據(jù)量完成對手勢信息更完善的描述,減少計算量,有效提高正確率。