任曉文,郭一娜,劉其嘉,李健宇
(太原科技大學 電子與信息工程學院,太原 030024)
手勢識別技術一般可以分為手勢區(qū)域檢測和手勢識別兩個環(huán)節(jié)。但由于不同人的手勢不盡相同,并且同一手勢可以表示多種意義,因此基于視覺的手勢識別成為一項難度較大,涉及領域較廣的研究內(nèi)容[1][2]。最近幾年眾多研究者對手勢識別提出了不同的識別思想。2006年Double[3]利用手勢的形狀和紋理特征進行手勢識別,達到較好的識別效果,識別率達到90%以上;周航在2008年提出利用統(tǒng)計分類思想,采用支持向量機進行分類,從而達到手勢識別的目的,取得了較好的識別效果[4];2012年Yi Li[5]從Kinect獲取深度圖像并進行人手定位,根據(jù)檢測手部輪廓和凹凸點來檢測指尖點進而識別幾種常見的靜態(tài)手勢,但該方法在做手勢識別時對實驗者有較高的要求;2016年張立志等人[6]將手勢的局部特征和全局特征結合,采用“隱馬爾科夫模型(Hidden Markov model, HMM)”方法來識別靜態(tài)手勢,但是對于部分差異較小的手勢組,識別率并不高;還有就是在2013年,楊磊等人提出基于膚色的手勢檢測方法[7][8],該類方法的出發(fā)點是皮膚的色彩信息分布在一定的空間范圍內(nèi),但該方法容易受光照、種族、人體其他部位以及相似顏色背景等多種因素的影響。
總體來說,對于各種環(huán)境下的手勢,僅僅依靠某一獨立的特征進行手勢識別往往并不能夠滿足手勢識別的要求。本文首先從卷積神經(jīng)網(wǎng)絡的模型構建入手,結合手勢識別的算法過程及實驗結果進行分析進行研究,通過卷積神經(jīng)網(wǎng)絡中的參數(shù),觀察不同參數(shù)對網(wǎng)絡的均方誤差和測試準確度的影響。
目前通過神經(jīng)網(wǎng)絡[9]在解決眾多問題中均有運用。其主要的思路如圖1所示:
圖1 神經(jīng)網(wǎng)絡解決問題思路
Fig.1 Neural network to solve the problem
中間的三個組成部分,預處理,特征提取,特征選取,總結起來即為特征表達[10]。良好的特征表達,對于算法最后結果的正確度起到了相當樞紐性的作用。而卷積神經(jīng)網(wǎng)絡是該問題的良好解決方法。卷積神經(jīng)網(wǎng)絡思想的基本結構如圖2所示。
圖2 卷積神經(jīng)網(wǎng)絡基本結構
Fig.2 The basic structure of convolution neural network
在規(guī)范的卷積神經(jīng)網(wǎng)絡中,均有卷積層和下采樣層,架構由多層通用網(wǎng)絡最終組成,為全連接的一維網(wǎng)絡[11]。二維的特征映射變化成全連接的一維網(wǎng)絡輸入。在一維的網(wǎng)絡中,二維特征映射要作為輸入,直接使用顯然是不行的。一維的輸入由二維特征轉化得到,是經(jīng)常所使用的方法[12]。
通常,卷積層之間穿插子采樣層的作用是:降低計算時間成本并建立進一步的空間配置不變性。同時,為了保持特異性,因此需要一個小的子采樣因子。多個輸入映射卷積值可以組成一個輸出映射(Xj)[13]。有:
這里Mj表示輸入映射集合的其中一個選擇,常見的輸入映射選擇包括全對和全三重,在每一個輸出映射的基礎上都會被給予一個另外的偏置b.然而針對具體的輸出映射,輸入映射將會受到與其他有別的卷積核的卷積[14]。即如果輸出映射j和輸出映射k都是由輸入映射i卷積求和得來的,那么對應兩個不同輸出映射的卷積核是不同的。
假設采樣層L+1均會在每個卷積層L存在。依照反向傳播算法,求得當前層L每個神經(jīng)元節(jié)點的靈敏度之后,才可以更新每個神經(jīng)元的權值。為了求該靈敏度就需要首先對下一層神經(jīng)節(jié)點的靈敏度進行求和,然后乘以兩層之間連接對應的權值w.最終乘上當前層L神經(jīng)節(jié)點的輸入u的激活函數(shù)f的導數(shù)值,進而通過反向傳播來計算權重的梯度,并且很多相互連接的權值都是共享的,所以,針對確定的權值,要求對全部與該權值存在關聯(lián)的連接進行梯度計算,而后將這些所得梯度求和。
利用卷積神經(jīng)網(wǎng)絡進行手勢識別中,采用270幅28*28像素的灰度值圖片數(shù)據(jù)作為輸入訓練CNN網(wǎng)絡,如圖3所示為個別樣本。
圖3 樣本實例
Fig.3 Sample instance
輸入數(shù)據(jù)之后,需要首先對其數(shù)據(jù)進行預處理,即歸一化,并且采用雙精度浮點型數(shù)據(jù)以提高精度[15]。
在對CNN進行訓練之前,首先對CNN的結構進行定義。在本模型中采用兩個卷積層,兩個子抽樣層的結構。第一卷積層采用6種濾波器,每種濾波器采用5*5的尺寸。第一子采樣層采用2*2的尺寸。第二卷積層使用12種濾波器,每種濾波器采用5*5的尺寸。第二子采樣層與第一子采樣層相同。
而后對該訓練過程中的激活函數(shù),步長以及迭代次數(shù)等參數(shù)進行賦值。注意迭代次數(shù),訓練的步數(shù)必須為整數(shù),即步長必須是樣本數(shù)的約數(shù)。步長太大,不利于特征的提?。环粗?,訓練的速度會很慢。迭代次數(shù)太少,訓練出的網(wǎng)絡準確度太差;迭代次數(shù)太多,時間成本太大。
接下來繼續(xù)對CNN進行初始化, 對CNN的每一層進行如圖4所示的處理:
圖4 CNN的初始化過程
Fig.4 CNN’s initialization process
完成初始化過程之后,便可以開始利用樣本對CNN進行訓練。保存樣本總數(shù),對樣本的順序進行打亂。取出步長數(shù)量打亂順序后的樣本和對應的標簽[16],在每個訓練批次中,在當前所得網(wǎng)絡權值和網(wǎng)絡輸入下計算網(wǎng)絡的輸出,即使用當前神經(jīng)網(wǎng)絡對輸入向量進行預測。如圖5所示。
然后通過對應的樣本標簽用反向傳播算法訓練得到神經(jīng)網(wǎng)絡,在訓練過程中,采用累積的方式計算累積誤差,從而對網(wǎng)絡的訓練效果做出評估。就此完成對CNN的訓練。
圖5 當前神經(jīng)網(wǎng)絡對輸入向量進行預測過程
Fig.5 The prediction of current neural network to the input vector
CNN測試的過程如圖6所示:
圖6 CNN測試過程
Fig.6 CNN testing process
以上過程即為CNN樣本測試流程。在良好訓練網(wǎng)絡的情況下,輸出結果較為理想的。
在270個訓練樣本中,另采集了90個隨機樣本作為測試數(shù)據(jù),9種分類的情況下,3000次迭代,步長選擇為18,輸出的結果如圖7所示:
圖7 CNN的均方誤差
Fig.7 CNN′s mean square error
從圖中可以明顯看出CNN的均方誤差隨迭代次數(shù)的變化曲線。當增加迭代次數(shù),均方誤差逐漸減小,在達到30 000次之后,均方誤差基本不變。
其測試結果如圖表1.其中表格中的手勢1、2、3……9各代表的手勢,如圖3所示。
表1 測試結果列表
Tab.1 Test results list
手勢測試個數(shù)識別個數(shù)錯誤識別正確率/%手勢1109190手勢210100100手勢3109190手勢4109190手勢5109190手勢610100100手勢710100100手勢810100100手勢9108280總計9084693.33
最后得到準確度93.33%.
在CNN中迭代的次數(shù)與步長是眾多參數(shù)中很重要的兩個。下面就這兩個參數(shù)對準確度的影響進行探討,如圖8所示:
圖8 步長與迭代次數(shù)對準確度的影響
Fig.8 The Influence of steps and iterations on accuracy
本文在270個樣本中分別采用了15,18,27和45四種步長,每種步長100,300,400,500,700,1 000,2 000和3 000次迭代,準確度如上圖所示。在每種步長下,隨著迭代次數(shù)的增加,準確度普遍會有所上升,但也有特殊情況。比如當步長為45時,300次迭代的準確度要比400次的高。并且步長的選擇非最小或最大為最佳。步長過大,網(wǎng)絡對手勢的特征提取不夠,準確度稍差;步長過小,計算量增大,時間成本過高。
本文主要提出一種利用卷積神經(jīng)網(wǎng)絡完成手勢識別的方法,重點討論了迭代次數(shù)和步長對網(wǎng)絡訓練的均方誤差和測試準確度的影響。特征提取階段依據(jù)步長的選擇提取不同手勢的多種特征,步長的選擇會直接影響到提取手勢特征的準確度;手勢識別時,少量的訓練識別率比較低,但進行適量的訓練識別率會有很大的提高,實驗最終手勢識別率為93.33%.在后續(xù)的研究中,將在本算法的基礎上繼續(xù)對各種手勢進行研究,快速準確的完成手勢識別。