宋京 段惠斌
摘 要:為了解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(CNN)由于手勢背景復(fù)雜和手勢姿態(tài)多樣性而導(dǎo)致準(zhǔn)確率不高的問題,提出一種改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)方法對手勢進(jìn)行分類識別。首先對手勢圖像做基于膚色閾值的手勢分割處理,然后用Dropout優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)對手勢圖像特征進(jìn)行提取和分類識別。在不同環(huán)境下對手勢識別并與傳統(tǒng)方法進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)表明,改進(jìn)CNN識別準(zhǔn)確率為96.92%,傳統(tǒng)CNN識別準(zhǔn)確率為93.58%,證明改進(jìn)CNN識別準(zhǔn)確率較傳統(tǒng)CNN有一定提高。
關(guān)鍵詞:改進(jìn)卷積神經(jīng)網(wǎng)絡(luò);手勢識別;準(zhǔn)確率;圖像處理;過擬合;Dropout
中圖分類號:TP39文獻(xiàn)標(biāo)識碼:A文章編號:2095-1302(2020)07-00-02
0 引 言
隨著人工智能技術(shù)的飛速發(fā)展,其在人機(jī)交互[1]領(lǐng)域的應(yīng)用也越來越廣泛,手勢識別[2]正是其中之一。實(shí)現(xiàn)手勢識別的核心是對手勢特征的提取[3]。傳統(tǒng)的識別算法中多是由人工設(shè)計(jì)提取特征,然后再用分類器分類識別,例如HMM-SVM[4],Kinect特征匹配法[5]等。這項(xiàng)工作繁瑣、費(fèi)時(shí),而且還會因?yàn)樘崛√卣髡`差導(dǎo)致識別率降低。近年來,深度學(xué)習(xí)在識別領(lǐng)域有很大進(jìn)展,謝崢桂[6]在對手勢識別的研究中首先對手勢圖像進(jìn)行手勢分割預(yù)處理,然后再用傳統(tǒng)CNN進(jìn)行特征提取和識別。張起浩等[7]在做手勢識別研究中利用Leap Motion結(jié)合CNN進(jìn)行識別,首先利用Leap Motion獲取手勢圖像并進(jìn)行灰度處理,然后用CNN算法對圖像進(jìn)行特征提取及分類。然而考慮到手勢的復(fù)雜性、多樣性特點(diǎn),傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)已不能滿足對其魯棒性的識別[8]。隨著卷積神經(jīng)網(wǎng)絡(luò)的深入學(xué)習(xí),很容易出現(xiàn)過擬合問題,大大降低了識別準(zhǔn)確率。為此,本文提出的方法是在識別之前對手勢圖像進(jìn)行手勢分割處理,并在傳統(tǒng)卷進(jìn)神經(jīng)網(wǎng)絡(luò)中加入Dropout層。通過增加網(wǎng)絡(luò)連接的隨機(jī)性和稀疏性來提高泛化能力,解決因?yàn)檫^擬合而造成的識別率低的問題。
1 手勢圖像數(shù)據(jù)集制作及預(yù)處理
本文手勢數(shù)據(jù)集的制作利用python中的OpenCV調(diào)用攝像頭采集錄制不同手勢,然后將不同手勢定義相應(yīng)的標(biāo)簽生成主文件。為滿足手勢訓(xùn)練集的降噪要求,在采集過程中對手勢圖像做基于膚色閾值的二值化預(yù)處理。處理過程主要分為如下三步:
(1)選用YCrCb作為手部膚色的顏色空間;
(2)在空間下建立手部膚色的高斯模型;
(3)對模型做二值化處理,二值化處理過程圖像如圖1所示。
2 卷積神經(jīng)網(wǎng)絡(luò)及改進(jìn)
2.1 傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)雛形于1998年由Yann Lecun提出[9]。與人工神經(jīng)網(wǎng)絡(luò)不同,這是一種深度神經(jīng)網(wǎng)絡(luò)。它擁有很多網(wǎng)絡(luò)層數(shù),主要分為卷積層、池化層和全連接層。卷積層中前一層輸入更高層次特征到下一層并形成特征圖,池化層可以對特征圖進(jìn)行降維以減少不必要的數(shù)據(jù)。全連接層總結(jié)歸納池化層輸入的特征信息,通過分類器進(jìn)行分類識別。卷積神經(jīng)網(wǎng)絡(luò)的一個優(yōu)點(diǎn)在于權(quán)值共享,使得網(wǎng)絡(luò)復(fù)雜度和訓(xùn)練時(shí)的運(yùn)算復(fù)雜度大大降低,因此被廣泛應(yīng)用于圖像識別領(lǐng)域。本文應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)對手勢進(jìn)行識別,大大減小了傳統(tǒng)人工提取特征的難度,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
在卷積層中,卷積核用于提取圖像中的特征信息。不同的卷積核先與上一層得到的特征圖作卷積運(yùn)算,然后加上偏置值得到輸出,最后通過合適的激活函數(shù)推出卷積結(jié)果,即輸出特征圖。卷積運(yùn)算如下所示:
式中:ylj為當(dāng)前卷積層的第j個特征圖;f()表示激活函數(shù),為降低網(wǎng)絡(luò)復(fù)雜度,本文使用ReLU()型激活函數(shù);Mj為全部的輸入特征圖;wi, j為i與j間的卷積核;blj表示偏置。
2.2 Dropout優(yōu)化
隨著卷積神經(jīng)網(wǎng)絡(luò)對圖像特征學(xué)習(xí)的深入,其網(wǎng)絡(luò)架構(gòu)層數(shù)變得越來越多。隨著卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)不斷增加,網(wǎng)絡(luò)訓(xùn)練復(fù)雜度也隨之上升。在數(shù)據(jù)集少的條件下還會導(dǎo)致網(wǎng)絡(luò)模型泛化能力下降,識別率降低。為此,本文在傳統(tǒng)模型的最大池化層后加入Dropout層,在模型訓(xùn)練時(shí)會增加網(wǎng)絡(luò)神經(jīng)連接的不確定性,使網(wǎng)絡(luò)變得更稀疏,以此來提高模型的泛化能力,解決過擬合問題。加入Dropout[10]后的全連接層對比如圖3所示,它通過隨機(jī)刪掉網(wǎng)絡(luò)中p=0.5(0
2.3 改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)
為提高手勢識別準(zhǔn)確率,本文設(shè)計(jì)的適用于手勢識別分類的改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4所示。
3 實(shí)驗(yàn)與結(jié)果分析
本文實(shí)驗(yàn)數(shù)據(jù)集包括6種表示不同數(shù)字1,2,3,4,5,6的手勢圖片,如圖5所示,每個數(shù)字400張,共計(jì)
2 400張。圖片大小統(tǒng)一為32 cm×32 cm,按比例選取其中的80%作為訓(xùn)練樣本,20%為測試樣本。分別訓(xùn)練和測試改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型和傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型,并對其準(zhǔn)確率做對比實(shí)驗(yàn)。兩模型測試準(zhǔn)確率與迭代步數(shù)的曲線如圖6所示。
從圖6中可以看出,準(zhǔn)確率在迭代步數(shù)達(dá)到50時(shí)趨于飽和,改進(jìn)CNN模型準(zhǔn)確率為96.92%,CNN模型準(zhǔn)確率為93.58%。即改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型在零件識別方面的準(zhǔn)確率更高。
4 結(jié) 語
本文設(shè)計(jì)了一種改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型,分別對6種手勢進(jìn)行識別。首先,在訓(xùn)練模型之前對手勢圖像數(shù)據(jù)做增強(qiáng)處理,使模型訓(xùn)練更加充分。然后,運(yùn)用Dropout優(yōu)化傳統(tǒng)模型,對圖像進(jìn)行特征提取,多次訓(xùn)練得到高性能模型。最后,用測試樣本圖片對改進(jìn)模型進(jìn)行測試,并與傳統(tǒng)模型作對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型平均識別準(zhǔn)確率為96.92%,傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型為93.58%,改進(jìn)模型準(zhǔn)確率比傳統(tǒng)模型識別率提高了3.34%。
參考文獻(xiàn)
[1]范向民,范俊君,田豐,等.人機(jī)交互與人工智能:從交替浮沉到協(xié)同共進(jìn)[J].中國科學(xué):信息科學(xué), 2019, 49(3):361-366.
[2]宋一凡,張鵬,劉立波.基于視覺手勢識別的人機(jī)交互系統(tǒng)[J].計(jì)算機(jī)學(xué),2019,46(S2):570-574.
[3]劉小建,張?jiān)?基于多特征提取和SVM分類的手勢識別[J].計(jì)算機(jī)工程與設(shè)計(jì),2017,38(4):953-958.
[4] ROSSI M,BENATTI S,F(xiàn)ARELLA E,et al. Hybrid EMG classifier based on HMM and SVM for hand gesture recognition in prosthetics [C]// IEEE International Conference on Industrial Technology. IEEE,2015.
[5]田元,王學(xué)璠,王志鋒,等.基于Kinect的實(shí)時(shí)手勢識別方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2018,39(6):1721-1726.
[6]謝錚桂.基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)的手勢識別的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(3):192-195.
[7]張起浩,蔣少國,蔣青山,等.基于Leap Motion和卷積神經(jīng)網(wǎng)絡(luò)的手勢識別[J].物聯(lián)網(wǎng)技術(shù),2019,9(10):47-49.
[8]楊紅玲,宣士斌,莫愿斌.基于卷積神經(jīng)網(wǎng)絡(luò)的手勢識別[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018,28(7):11-14.
[9]周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2017,40(6):1229-1251.
[10]任曉霞.基于Dropout深度卷積神經(jīng)網(wǎng)絡(luò)的ST段波形分類算法[J].傳感技術(shù)學(xué)報(bào),2018,31(8):1217-1222.