国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)的手勢識別

2018-07-25 12:05楊紅玲宣士斌莫愿斌
計算機技術(shù)與發(fā)展 2018年7期
關(guān)鍵詞:識別率決策樹骨架

楊紅玲,宣士斌,莫愿斌

(廣西民族大學 信息科學與工程學院,廣西 南寧 530006)

0 引 言

近年來隨著科學技術(shù)的高速發(fā)展,人機交互的方式得到了很大改變,各種新型的人機交互方式不斷出現(xiàn),鼠標鍵盤的交互方式變?yōu)橛|摸屏與語音,交互形式變得多樣化、人性化。而更為高效的交互形式是讓機器能夠理解人的肢體語言,在各類肢體語言中手勢最為常見,可將它作為一種簡單、自由的人機交互手段。

基于手勢進行人機交互時,一個很重要的過程是對手勢進行識別。手勢識別時,首先提取手勢的特征,然后對所提取的特征根據(jù)有效的識別方法進行手勢識別。常見的手勢識別方式有很多,例如基于神經(jīng)網(wǎng)絡(luò)的識別方法具有較強的識別分類能力,但是如果采用的神經(jīng)網(wǎng)絡(luò)層數(shù)較淺,很容易出現(xiàn)過擬合現(xiàn)象[1-2];基于幾何特征的識別方法通過提取手勢結(jié)構(gòu)、邊緣、輪廓等特征進行手勢識別,具有良好的穩(wěn)定性,但是不能在提升樣本量的同時提升識別率[3-5];基于隱馬爾可夫模型的識別方法雖然具有描述手勢時空變化的能力,但識別速度卻不盡如人意[6]。隨著機器學習和深度學習在計算機視覺的迅速發(fā)展,基于機器學習和深度學習的方法得到了更多的關(guān)注。其中基于深度卷積神經(jīng)網(wǎng)絡(luò)具有局部連接、權(quán)值共享、深度層次化結(jié)果、自動特征提取等特點,給手勢識別[7-8]帶來了新的思路。

因此針對手勢變化的復(fù)雜性,通過對比支持向量機、決策樹、隨機森林和鄰近算法在手勢識別中的特點和存在的問題,提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的手勢識別方法。該方法提取手勢的骨架與邊緣相融合的特征圖,將特征圖作為深度卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過學習獲取分類手勢時的分類模型,實現(xiàn)手勢識別。

1 基于機器學習的手勢識別

利用計算機代替人學習提高自身的處理問題的能力就是機器學習。隨著計算機技術(shù)的高速發(fā)展,使用機器學習的領(lǐng)域逐漸擴大,基于機器學習的方法已經(jīng)在語音、圖像、文本、金融等領(lǐng)域取得了突破性進展。

文中通過對比常見的有監(jiān)督學習算法,從中選擇最優(yōu)的學習算法進行手勢識別。算法的輸入為采集得到的原始手勢圖像,將原始圖像通過濾波、去除噪聲等預(yù)處理后進行骨架與邊緣特征提取,獲取這兩種特征相融合的特征圖,然后將融合后的特征作為輸入,訓(xùn)練支持向量機、決策樹、隨機森林和卷積神經(jīng)網(wǎng)絡(luò)的手勢識別模型,通過對比選取最優(yōu)的分類模型作為輸出來判斷手勢所代表的含義。具體算法流程如圖1所示。

圖1 手勢識別算法流程

1.1 特征提取

由于手勢變化的復(fù)雜性,人們在進行手勢識別時更加關(guān)注手勢本身所代表的含義,而原始的手勢圖像中包含很多不必要的細節(jié)信息,從而增加了識別難度。為了增加手勢識別的準確率,減少計算的復(fù)雜度,將手勢的骨架特征與邊緣特征相融合作為手勢識別的輸入,以減少不必要的細節(jié)信息對手勢識別的干擾。

骨架作為手勢的一種表示形式,能夠保持手勢體的幾何、形狀、拓撲信息,能夠有效地描述手勢。因此,骨架能夠很好地描述手勢所代表的物理含義,可以將手勢骨架信息作為一類手勢識別的特征描述,手勢骨架提取結(jié)果如圖2(b)所示。

雖然單一的手勢骨架特征能夠很好地解釋手勢所代表的含義,但是在提取不準確或者一定的條件下,骨架特征信息會有一定的缺失。對此,進一步利用形態(tài)學算子提取手勢二值圖像的邊緣,獲取具有更好解釋效果的手勢邊緣圖像,然后將其手勢骨架圖像相結(jié)合作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,獲取更好的識別效果,融合結(jié)果如圖2(d)所示。

圖2 多特征融合效果圖

1.2 手勢識別

1.2.1 基于支持向量機的手勢識別

支持向量機是建立在VC維理論和結(jié)構(gòu)風險最小原理基礎(chǔ)上的機器學習算法,能夠很好地解決非線性以及高維度識別的問題。由于手勢本身的復(fù)雜性,因此可以考慮將其引入到手勢識別,將融合后的特征圖像轉(zhuǎn)化為支持向量機訓(xùn)練時所需要的一維特征向量并作為輸入,訓(xùn)練獲取分類模型,進行手勢識別。

1.2.2 基于決策樹的手勢識別

決策樹學習是以實例樣本為基礎(chǔ)的歸納學習算法,可以從一組無次序、無規(guī)則的事例樣本中推理出決策樹所表示形式的分類器和預(yù)測模型,從而實現(xiàn)對未知數(shù)據(jù)樣本的分類或預(yù)測。文中采用ID3學習算法生成決策樹并進行剪枝,通過手勢融合特征圖像樣本訓(xùn)練生成決策樹模型進行手勢預(yù)測。在利用決策樹生成算法對手勢進行識別時,由于獨特的樹形結(jié)構(gòu)在預(yù)測時能減少識別時間,并且能夠直接體現(xiàn)數(shù)據(jù)的特點,因此具有一定的可信度,但是對于圖像數(shù)據(jù)來說,高維度的數(shù)據(jù)訓(xùn)練存在分類識別精度的問題。

1.2.3 基于隨機森林的手勢識別

在機器學習中,隨機森林是一個包含多個決策樹的分類器,其輸出的類別由個別樹輸出的類別的眾數(shù)而定。隨機森林學習算法中每棵樹的訓(xùn)練過程與決策樹類似,只是無需對決策樹進行剪枝。并且數(shù)據(jù)樣本和特征選擇是一個隨機過程,每棵樹的具體構(gòu)造如下:

(1)用N表示訓(xùn)練樣本的個數(shù),M表示圖像轉(zhuǎn)化為一維數(shù)據(jù)結(jié)構(gòu)作為訓(xùn)練的特征;

(2)從N個訓(xùn)練樣本中采用又放回的抽樣方式,取樣N次,形成一組訓(xùn)練集;

(3)對抽取的樣本,隨機選擇m個特征(m?M),計算其最佳的分割方式,訓(xùn)練生成一棵決策樹;

(4)選取20個數(shù)據(jù)集進行訓(xùn)練,每棵樹都會完整地成長而不會剪枝。

利用隨機森林算法對手勢進行識別時,由于結(jié)果需要根據(jù)多棵樹輸出的眾數(shù)而定,因此相對決策樹分類來說,精確度會有一定的提升,但是由于多棵樹的預(yù)測,時間將會增加。

1.2.4 基于卷積神經(jīng)網(wǎng)絡(luò)的手勢識別

隨著深度學習的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在語音識別[9]、手寫字體識別[10]、車牌識別[11]、人臉識別[12]等領(lǐng)域得到了廣泛的應(yīng)用,其高效的識別精度和速度對手勢識別也具有一定的促進作用。因此可以采用基于深度學習的方法來進行手勢識別。

卷積神經(jīng)網(wǎng)絡(luò)(CNN)具有三個最基本的特征[13]:局部連接、權(quán)值共享和下采樣。通過局部連接和權(quán)值共享減少訓(xùn)練參數(shù),通過下采樣提升模型的魯棒性,減少訓(xùn)練參數(shù)。因此根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的特征,其一般包含兩個特殊的網(wǎng)絡(luò)神經(jīng)元層:卷積層和下采樣層。由于文中的分類任務(wù)較為簡單,因此基于AlexNet的網(wǎng)絡(luò)結(jié)構(gòu)進行精簡,具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 手勢識別的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

該結(jié)構(gòu)共有6層,Input Layer為輸入層,具體為64×64的手勢特征融合圖像,Layer1-Layer3為卷積層,Layer4-Layer5為全連接層,Layer6 Output為輸出層,輸出層神經(jīng)元有3個,分別代表手勢類別:石頭、剪刀、布。卷積核和各偏置等參數(shù)的初始值均隨機產(chǎn)生,輸入樣本后通過前向傳播和反向傳播算法對網(wǎng)絡(luò)進行訓(xùn)練來更新參數(shù)。

卷積濾波實質(zhì)就是用卷積核在圖像矩陣中滑動遍歷,卷積核與圖像上相對位置的元素作乘積,將所得結(jié)果相加得到一個結(jié)果值,最后通過激活函數(shù)獲得卷積結(jié)果。當卷積核滑動遍歷整張圖像,結(jié)束特征提取,獲取一個新的圖像特征矩陣(feature map)。同時卷積核滑動的步幅也和最后獲取的特征矩陣存在以下關(guān)系:

(1)

f(x)=max(0,x)

(2)

W2=(W1-F+2P)/S+1

(3)

H2=(H1-F+2P)/S+1

(4)

式1為卷積計算,式2為激活函數(shù),式3和式4為卷積變化。其中,xi,j為圖像的第i行第j列元素,wm,n為卷積核中第m行第n列權(quán)重,wb為卷積核的偏置項;f為激活函數(shù),即relu函數(shù);W2為卷積后feature map的寬度,W1為卷積前圖像的寬度,F(xiàn)為filter的寬度,P為Zero Padding數(shù)量,Zero Padding是指在原始圖像周圍補幾圈0,如果值是1,那么就補1圈0,S為步幅;H2為卷積后Feature Map的高度,H1為卷積前圖像的寬度。

卷積濾波后再通過下采樣圖像特征矩陣進行降維,減少計算量,同時避免特征過多導(dǎo)致出現(xiàn)過擬合,增強網(wǎng)絡(luò)結(jié)構(gòu)對位移的魯棒性。具體的卷積和下采樣計算如下所示:

(5)

其中,ai,j為卷積后的第i行第j列元素;P為下采樣函數(shù),一般為MaxPoling或MeanPoling,文中采用MaxPoling。

2 實驗結(jié)果及分析

2.1 實驗結(jié)果

對提出的方法在兩個數(shù)據(jù)庫上進行驗證,第一個數(shù)據(jù)庫是在室內(nèi)場景采集的手勢圖像數(shù)據(jù)庫,通過普通的攝像頭拍攝不同環(huán)境、不同旋轉(zhuǎn)角度下的3種類別的手勢圖像各100張,用于算法性能的測試;第二個數(shù)據(jù)庫采用Thomas Moeslund’s Gesture Recognition Database。同時在兩個數(shù)據(jù)庫中對文中所涉及的手勢識別模型進行驗證,結(jié)果如表1所示。

表1 識別性能的比較(1)

可以看出,平均消耗時間上雖然隨機森林(RF)和決策樹(DT)比基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的消耗時間過短,這是因為其獨特的樹形結(jié)構(gòu)在分類過程中會減少算法的時間復(fù)雜度,但是在平均識別率上,CNN卻有著天然的優(yōu)勢,而且其消耗時間也在可接受范圍之內(nèi);而SVM無論在消耗時間還是速度上都遜色于CNN,因此采用深度卷積神經(jīng)網(wǎng)絡(luò)進行手勢識別可行。

為了更好地驗證卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練次數(shù)對手勢識別率和誤差的影響,從拍攝的各類手勢圖像中選取2 000個訓(xùn)練樣本和100個測試樣本進行實驗,不同的訓(xùn)練次數(shù)與手勢識別率和誤差的關(guān)系如圖4所示。

圖4 訓(xùn)練次數(shù)與手勢識別率和誤差的關(guān)系

可以看出,訓(xùn)練次數(shù)較少時,手勢的識別率較低,網(wǎng)絡(luò)需要訓(xùn)練較多的次數(shù)才可以達到較好的識別效果。因為在訓(xùn)練次數(shù)較低時,由于手勢的復(fù)雜性,并不能提取出具有高效分類的網(wǎng)絡(luò)參數(shù),使得訓(xùn)練誤差仍然很高,當訓(xùn)練進行到一定程度時,網(wǎng)絡(luò)參數(shù)不會發(fā)生太大變化,誤差趨于穩(wěn)定,網(wǎng)絡(luò)識別率的提高趨于穩(wěn)定。

2.2 實驗對比分析

為進一步驗證文中算法的性能,與國內(nèi)其他學者提出的算法進行比較,表2顯示了手勢樣本在不同方法下的識別率和時間消耗對比。

表2 識別性能的比較(2)

通過對比發(fā)現(xiàn),文中算法獲取的識別率相對較高的原因在于將手勢圖像的骨架和邊緣的融合特征圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,能夠描述手勢所代表的物理含義,從而獲得更好的識別效果。而且網(wǎng)絡(luò)結(jié)構(gòu)更為簡單,從一定程度上減少了識別的消耗時間,從而實現(xiàn)快速準確的手勢識別。

3 結(jié)束語

針對手勢的復(fù)雜性,通過融合手勢的邊緣與骨架特征作為識別算法的輸入,提出基于卷積神經(jīng)網(wǎng)絡(luò)的手勢識別方法。實驗結(jié)果表明,基于卷積神經(jīng)網(wǎng)絡(luò)的手勢識別具有較高的準確率,并且識別速度也在可接受范圍之內(nèi)。下一步將通過改進網(wǎng)絡(luò)結(jié)構(gòu)進一步提高手勢識別的速度,實現(xiàn)復(fù)雜環(huán)境下動態(tài)的手勢識別。

猜你喜歡
識別率決策樹骨架
淺談管狀骨架噴涂方法
信息時代基于決策樹對大學生情緒的分類
骨架密度對炭/炭多孔骨架壓力浸滲銅的影響
簡述一種基于C4.5的隨機決策樹集成分類算法設(shè)計
周博士考察拾零(六十六)日光溫室前屋面開機具作業(yè)門處骨架的處理方法
檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用分析
決策樹學習的剪枝方法
基于PCA與MLP感知器的人臉圖像辨識技術(shù)
科技文檔中數(shù)學表達式的結(jié)構(gòu)分析與識別
人工智能現(xiàn)狀和發(fā)展