顏 超,穆平安
(上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
根據(jù)我國(guó)第七次人口普查報(bào)告可知,全中國(guó)聾啞人數(shù)量已經(jīng)達(dá)到2 000 多萬(wàn)人。聾啞人由于聽(tīng)力受損、發(fā)聲不完全等原因,與外界交流非常不便,只能借助于手勢(shì)與其他人進(jìn)行溝通交流。但遺憾的是,大多數(shù)普通人并不理解手勢(shì),這一客觀事實(shí)也導(dǎo)致聾啞人群體很難通過(guò)手語(yǔ)和其他人進(jìn)行交流。由于手勢(shì)識(shí)別的復(fù)雜性和綜合性[1],國(guó)內(nèi)外對(duì)手勢(shì)識(shí)別的研究相比于人臉識(shí)別等能夠直接應(yīng)用的研究是少之又少,若可以高效地將手勢(shì)識(shí)別出來(lái)并轉(zhuǎn)換為文字,則可以幫助聾啞人進(jìn)行更好的溝通。因此,促進(jìn)手勢(shì)識(shí)別的提升和發(fā)展是一項(xiàng)非常有意義的工作[2]。
實(shí)際應(yīng)用中,手勢(shì)圖像中通常有人體膚色或復(fù)雜背景[3](如圖1 所示,第一張為簡(jiǎn)單背景,第二張和第三張為復(fù)雜背景),這會(huì)給手勢(shì)識(shí)別帶來(lái)很大挑戰(zhàn)。
Fig.1 Simple background and complex background圖1 簡(jiǎn)單背景和復(fù)雜背景
手勢(shì)主要分為靜態(tài)手勢(shì)和動(dòng)態(tài)手勢(shì),靜態(tài)手勢(shì)指在固定時(shí)間內(nèi)保持靜止的手勢(shì),而動(dòng)態(tài)手勢(shì)是由一個(gè)個(gè)靜態(tài)手勢(shì)組合而成。本文主要研究靜態(tài)手勢(shì),為下一步識(shí)別動(dòng)態(tài)手勢(shì)奠定基礎(chǔ)。當(dāng)前,靜態(tài)手勢(shì)識(shí)別有傳統(tǒng)和基于深度學(xué)習(xí)的方法,對(duì)于傳統(tǒng)的手勢(shì)識(shí)別方法已有較多研究。Wang 等[4]提出使用Kinect 傳感器的基于手勢(shì)的人機(jī)交互解決方案,他們通過(guò)計(jì)算手指移動(dòng)器的距離進(jìn)行手勢(shì)識(shí)別,并在兩個(gè)現(xiàn)實(shí)應(yīng)用中展示了其實(shí)用性。Dai 等[5]提出一種基于隱馬爾科夫模型的連續(xù)詞匯手勢(shì)識(shí)別方法,可以有效地提高圖像分割精度,并達(dá)到了92.22%的準(zhǔn)確率。Na 等[6]提出一種基于數(shù)據(jù)手套讀取手勢(shì)數(shù)據(jù)的方法,但是因?yàn)槠浔憬菪圆睢⒊杀靖?、維護(hù)較困難和硬件方面的約束,不利于大部分學(xué)者研究;Pugeault 等[7]提出一種多類隨機(jī)森林分類器,通過(guò)4 個(gè)層次的Gabor濾波器提取特征,識(shí)別美國(guó)手語(yǔ)字母表中的24 個(gè)靜態(tài)符號(hào)。Karami 等[8]提出一種多層感知器,利用離散小波變換(DTW)導(dǎo)出的特征識(shí)別波斯手語(yǔ)(PSL)中的字母和數(shù)字,識(shí)別率達(dá)94.06%。Pisharady 等[9]利用高和低水平圖像特征的組合來(lái)檢測(cè)手,并將注意力集中在手區(qū)域上。使用貝葉斯推理生成顯著性映射,然后使用基于形狀和紋理的手區(qū)域特征和SVM分類器對(duì)手勢(shì)進(jìn)行識(shí)別處理,在數(shù)據(jù)集上進(jìn)行測(cè)試,得到了94.36%的準(zhǔn)確率。
最近一些學(xué)者提出的深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的手勢(shì)識(shí)別方法在識(shí)別率和識(shí)別速度上有了更好的提升,它避免了從圖像中導(dǎo)出復(fù)雜的特征描述。Mohanty 等[10]提出一個(gè)深度學(xué)習(xí)框架以識(shí)別手勢(shì),對(duì)3 個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練預(yù)測(cè)并獲得了89.1%的識(shí)別準(zhǔn)確率。包兆華等[11]通過(guò)膚色提取出手的輪廓信息的二值圖像,然后利用改進(jìn)的LeNet-5 模型在自己制作的數(shù)據(jù)集上達(dá)到了較高的識(shí)別率;Ameen 等[12]利用CNN 提出一種美國(guó)手語(yǔ)字母的識(shí)別模型,他們利用兩個(gè)平行的中樞神經(jīng)系統(tǒng)從手勢(shì)顏色和深度圖像中提取的特征,在美國(guó)手勢(shì)數(shù)據(jù)集上實(shí)現(xiàn)了80.34%的識(shí)別準(zhǔn)確率。Suri 等[13]采用一種遷移學(xué)習(xí)模型的方法,更進(jìn)一步地縮短了模型訓(xùn)練所浪費(fèi)的時(shí)間,在數(shù)據(jù)集上的手勢(shì)識(shí)別準(zhǔn)確率為95%;Adithya 等[14]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的手勢(shì)識(shí)別方法,該模型可以在復(fù)雜背景和不同照明條件下識(shí)別靜態(tài)手勢(shì),他們提出的模型已經(jīng)在兩個(gè)公開(kāi)的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了測(cè)試,并且取得94.7%的識(shí)別精度。
針對(duì)現(xiàn)有算法未能克服在復(fù)雜環(huán)境下識(shí)別準(zhǔn)確率低等問(wèn)題,本文提出一種基于YCbCr 顏色空間和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的靜態(tài)手勢(shì)識(shí)別算法。實(shí)驗(yàn)結(jié)果表明,該算法適用于復(fù)雜的環(huán)境且識(shí)別效果較好。
系統(tǒng)整體框架如圖2 所示,首先對(duì)數(shù)據(jù)集圖片進(jìn)行手部區(qū)域提取、降維、灰度化和數(shù)據(jù)增強(qiáng)預(yù)處理,然后使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)預(yù)處理后的圖片進(jìn)行訓(xùn)練分類,最后得到識(shí)別結(jié)果。
Fig.2 System framework圖2 系統(tǒng)框架
第一個(gè)數(shù)據(jù)集選自新加坡國(guó)立大學(xué)的公開(kāi)數(shù)據(jù)集NUSII[15],這些手勢(shì)是在新加坡國(guó)立大學(xué)及其周?chē)臄z,背景是復(fù)雜的自然背景,手的形狀和大小各不相同。這些姿勢(shì)由40名不同種族、不同復(fù)雜背景的受試者完成。受試者包括年齡范圍為22-56歲的男性和女性。要求受試者展示10個(gè)手勢(shì),每個(gè)姿勢(shì)5次。這是一個(gè)10 類手勢(shì)數(shù)據(jù)集,分別對(duì)應(yīng)著A-J的10個(gè)英文字母,圖像大小為160×120。每一個(gè)種手勢(shì)圖像有200張,總計(jì)2 000張圖像。其10個(gè)不同手勢(shì)圖片如圖3所示。
Fig.3 Sample image of NUS-II dataset(Part A-J)圖3 NUS-II數(shù)據(jù)集的樣本圖像(A-J部分)
第二個(gè)Marcel 數(shù)據(jù)集選自擁有復(fù)雜背景的室內(nèi),相對(duì)于第一個(gè)數(shù)據(jù)集較為簡(jiǎn)單。該數(shù)據(jù)集共有6 種不同的手勢(shì),一共有5 494張圖片。其樣本圖片如圖4所示。
Fig.4 Sample images from the Marcel dataset圖4 Marcel數(shù)據(jù)集中的樣本圖片
圖像預(yù)處理的主要目的是加快模型訓(xùn)練速度,增加訓(xùn)練數(shù)據(jù)量,從而提高模型識(shí)別效率和泛化能力。預(yù)處理部分包括手部區(qū)域提取、圖像降維、和旋轉(zhuǎn)等操作。其具體步驟如下:
第一步,利用YCbCr 顏色空間方法對(duì)數(shù)據(jù)集中的手勢(shì)圖像進(jìn)行手勢(shì)膚色區(qū)域提取。YCbCr 顏色空間方法是先將皮膚信息映射到Y(jié)CbCr 空間,然后通過(guò)判斷像素點(diǎn)是否在橢圓分布內(nèi)來(lái)劃分手部區(qū)域,這樣便有效地去除了復(fù)雜背景。提取后的手部區(qū)域如圖5所示。
Fig.5 Comparison of the original image with the extracted hand image圖5 原圖與手部提取圖對(duì)比
第二步,將提取后的圖像轉(zhuǎn)換為灰度圖像,如圖6所示。
第三步,將所有數(shù)據(jù)集的手勢(shì)圖像從原始大小160×120像素降維到64×64像素,如圖7所示。
Fig.6 Gray scale(160×120)圖6 灰度圖(160×120)
Fig.7 Dimension reduction diagram(64×64)圖7 降維圖(64×64)
第四步,對(duì)圖片進(jìn)行增強(qiáng)處理,將所有圖片進(jìn)行水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)(見(jiàn)圖8)和左右30°、60°和90°旋轉(zhuǎn)操作(見(jiàn)圖9)。
Fig.8 Horizontal flip and vertical flip(64×64)圖8 水平翻轉(zhuǎn)和垂直翻轉(zhuǎn)圖(64×64)
經(jīng)過(guò)圖像預(yù)處理,數(shù)據(jù)集擴(kuò)增到原來(lái)的8 倍,每種手勢(shì)包括1 600張,一共得到16 000張手勢(shì)圖片。
Fig.9 Rotation by 30,60 and 90 degrees(64×64)圖9 旋轉(zhuǎn)30°、60°和90°圖(64×64)
卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)是一種具有深層結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)[16]。CNN 主要是基于卷積運(yùn)算,卷積運(yùn)算特別適合圖像處理。在圖像處理過(guò)程中,卷積神經(jīng)網(wǎng)絡(luò)方法與傳統(tǒng)圖像特征提取方法不同,CNN 通過(guò)使用多層卷積操作提取圖像的卷積特征圖,通過(guò)不斷地迭代訓(xùn)練CNN,就可以獲取較好的圖像特征,極大提高了圖像特征提取準(zhǔn)確度。這是卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)所在,因此CNN 在圖像處理領(lǐng)域應(yīng)用廣泛。CNN 網(wǎng)絡(luò)主要由卷積層、池化層、全連接層、激活函數(shù)和Softmax 分類器等構(gòu)成。
(1)卷積層。卷積層(Convolution Layer)是卷積神經(jīng)網(wǎng)絡(luò)的核心部分,其卷積運(yùn)算過(guò)程是通過(guò)一個(gè)卷積核以滑動(dòng)窗口的形式對(duì)特征圖像加權(quán)求和,也即完成了一次濾波過(guò)程,濾波器為卷積核。卷積主要用來(lái)提取圖片中的復(fù)雜特征。一般前幾個(gè)卷積層用來(lái)提取基礎(chǔ)簡(jiǎn)單的特征,后幾層則從簡(jiǎn)單特征中用來(lái)提取更繁雜的特征。
(2)池化層。池化層(Pooling Layer)一般應(yīng)用于卷積層之后,雖然卷積層也可以一定程度地減少參數(shù)數(shù)量,但是特征維度如果只是通過(guò)卷積層進(jìn)行運(yùn)算則有效率非常低。池化層是起到簡(jiǎn)化卷積層輸出參數(shù)信息的作用,同時(shí)還可以保持圖像原始信息不發(fā)生改變。池化層其實(shí)是另外一種形式的降采樣,即在給定區(qū)域內(nèi),通過(guò)相應(yīng)策略選取特定值作為輸出,該輸出值代表整個(gè)區(qū)域一定的特征,這樣就達(dá)到了降維效果。例如,最大池化(Max Pooling)選擇該圖像相鄰區(qū)域內(nèi)的最大值作為該區(qū)域池化后的值,平均池化(Average Pooling)是相計(jì)算該圖像相鄰矩形區(qū)域內(nèi)的平均值作為該區(qū)域池化后的值。實(shí)際上,池化的作用就是對(duì)卷積層輸出的圖片信息進(jìn)行某種方式的凝縮。
(3)激活函數(shù)。激活函數(shù)(Activation Function)是為了解決輸入樣本非線性可分問(wèn)題,通常在卷積計(jì)算后增加一個(gè)激活函數(shù),這在很大程度上提高了網(wǎng)絡(luò)的非線性表達(dá)能力。在實(shí)際應(yīng)用中,最常用的激活函數(shù)主要有Sigmoid、tanh、RELU 等,本文模型中的卷積層后接的激活函數(shù)都是RELU[17]。RELU 函數(shù)公式如式(1)所示。
可以看出,如果輸入為負(fù)值或0 時(shí),則輸出為零;如果輸入為正值,則輸出保持不變。它可以對(duì)輸入信號(hào)進(jìn)行過(guò)濾,保留部分滿足條件的信號(hào),而且可以有效克服梯度消失問(wèn)題。
(4)批量歸一化(BN)。將批量歸一化加入每個(gè)ReLU層之后,主要為了防止訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)在學(xué)習(xí)數(shù)據(jù)分布時(shí),避免因分布不一致而導(dǎo)致網(wǎng)絡(luò)泛化能力下降。它可以將一個(gè)批量里的輸入數(shù)據(jù)進(jìn)行歸一化然后輸出。如果將批量歸一化層放置在網(wǎng)絡(luò)各層之間,就可以不斷地對(duì)中間輸出進(jìn)行調(diào)整,從而保證整個(gè)網(wǎng)絡(luò)中間輸出的數(shù)值穩(wěn)定性。同時(shí),減少梯度對(duì)參數(shù)或其初始值尺度的依賴性。因此,可以使用較大的學(xué)習(xí)速率對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而加速網(wǎng)絡(luò)收斂。
(5)全連接層。全連接層(Fully Connected Layer)是卷積層的一種,在整個(gè)網(wǎng)絡(luò)中起到分類器的作用。它把從卷積層和池化層得到的卷積特征中代表圖像局部特征的數(shù)值組合起來(lái),然后將每一個(gè)特征圖轉(zhuǎn)換為一維數(shù)組,再將所有特征圖的一維數(shù)組拼接成一個(gè)特征向量,作為手勢(shì)圖像的完整表示,最后輸入全連接層。全連接層一般位于卷積層和池化層后面,主要作用是整合圖像特征并實(shí)現(xiàn)分類。
(6)Softmax。Softmax 分類器將上一層全連接層的輸出轉(zhuǎn)換成一個(gè)概率向量,該向量中的值代表當(dāng)前樣本屬于每一個(gè)類的概率[18],其表達(dá)式如式(2)所示。
其中,N表示分類的類別數(shù),a表示全連接層的輸出向量,aj表示向量a中的第j個(gè)值。
本文提出的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖10 所示,CNN 的輸入圖像是尺寸大小為64×64 的灰度圖像。該網(wǎng)絡(luò)由12個(gè)卷積層和4 個(gè)池化層組成。每個(gè)卷積層都應(yīng)用了ReLu激活函數(shù)并利用BN 進(jìn)行了數(shù)據(jù)標(biāo)準(zhǔn)化處理。在前兩個(gè)卷積層使用了64 個(gè)卷積濾波器,在接下來(lái)的卷積層中分別擴(kuò)展到128、256、512 個(gè)濾波器,以便于提取圖像中更深的特征。在所有卷積層中實(shí)現(xiàn)了一個(gè)內(nèi)核大小為3×3 和步長(zhǎng)為1 的濾波器。在各種池化函數(shù)中,最大池化層以其速度快、收斂性好等優(yōu)點(diǎn)優(yōu)于其他池化函數(shù),因此本文在每個(gè)卷積層之后加入最大池化層以減少參數(shù)量。采用大小為2×2 的不重疊采樣進(jìn)行池化,經(jīng)池化層處理后,手勢(shì)特征圖的分辨率將縮減一半。全連接層中共有256 個(gè)神經(jīng)元,在全連接層中也應(yīng)用了ReLu 激活功能。最后輸出層由Softmax 進(jìn)行處理,用于對(duì)輸出的不同手勢(shì)特征進(jìn)行分類,將最終分類結(jié)果輸出到一列向量中從而輸出手勢(shì)圖像的分類結(jié)果。
(1)在構(gòu)建CNN 網(wǎng)絡(luò)模型時(shí),由于神經(jīng)網(wǎng)絡(luò)模型具有大批量的參數(shù)和較深的層次,從而導(dǎo)致訓(xùn)練的網(wǎng)絡(luò)模型易形成過(guò)擬合。因此,利用Dropout 方法避免模型產(chǎn)生過(guò)擬合現(xiàn)象,在訓(xùn)練過(guò)程中隨機(jī)按照比例將部分神經(jīng)元權(quán)重設(shè)置歸零,即輸入不與隱藏層的權(quán)重進(jìn)行相關(guān)運(yùn)算[19]。使得模型不會(huì)完全依賴于全連接層中的某個(gè)權(quán)重,縮減了參數(shù)量,有效避免了過(guò)擬合現(xiàn)象的發(fā)生。
(2)在分類不同手勢(shì)時(shí),采用交叉熵?fù)p失函數(shù)衡量模型預(yù)測(cè)結(jié)果和真實(shí)值之間的誤差。其離散的函數(shù)表達(dá)式如式(3)所示。
其中,N表示批處理塊的大小,p、q表示一批樣本中第i個(gè)樣本的真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽。
(3)模型優(yōu)化器選擇Adam 優(yōu)化器,利用它對(duì)整個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。Adam 算法是梯度下降算法的一種變形,相比于普通的梯度下降算法,該算法可以通過(guò)考慮梯度的一階矩估計(jì)和二階矩估計(jì)自動(dòng)調(diào)整每個(gè)參數(shù)學(xué)習(xí)率,同時(shí)具有AdaGrad 和RMSProp 兩種優(yōu)化算法的優(yōu)點(diǎn),是深度學(xué)習(xí)領(lǐng)域比較流行的優(yōu)化算法。
如圖11所示,通過(guò)對(duì)比其他常用的優(yōu)化器算法后,Adam 優(yōu)化器訓(xùn)練出來(lái)的模型擬合效果最好,梯度下降曲線的波動(dòng)最為平穩(wěn)。綜合以上因素,選用Adam 作為模型的優(yōu)化器。
Fig.11 Effect of optimizer on model performance圖11 優(yōu)化器對(duì)模型性能的影響
(4)為進(jìn)一步提高模型識(shí)別準(zhǔn)確率,本實(shí)驗(yàn)采用的學(xué)習(xí)率為0.000 1。通過(guò)多次遍歷數(shù)據(jù)集的方式增強(qiáng)模型擬合能力,并且在每次遍歷訓(xùn)練集過(guò)程中隨機(jī)打亂訓(xùn)練集的排序以提高模型魯棒性。
為了客觀地進(jìn)行算法性能對(duì)比,手勢(shì)識(shí)別實(shí)驗(yàn)環(huán)境和配置如表1所示。
本實(shí)驗(yàn)使用未經(jīng)過(guò)預(yù)處理的數(shù)據(jù)集與經(jīng)過(guò)手部區(qū)域提取和預(yù)處理后的數(shù)據(jù)集作對(duì)比實(shí)驗(yàn),結(jié)果如表2所示。
(1)使用未經(jīng)過(guò)預(yù)處理的數(shù)據(jù)集用于CNN 訓(xùn)練。NUS數(shù)據(jù)集樣本照片為2 000 張,其中每一種靜態(tài)手勢(shì)照片為200 張。按照8∶2 的比例將圖像分別用于訓(xùn)練和測(cè)試。該模型迭代運(yùn)行了100 次,計(jì)算得出隨著訓(xùn)練數(shù)據(jù)迭代次數(shù)的增加,其準(zhǔn)確率達(dá)到95.65%。
Table 1 Experimental environment and configuration表1 實(shí)驗(yàn)環(huán)境與配置
Table 2 Comparison of experimental results表2 實(shí)驗(yàn)結(jié)果對(duì)比
(2)使用經(jīng)過(guò)手部區(qū)域提取和預(yù)處理后的數(shù)據(jù)集用于CNN 訓(xùn)練。在預(yù)處理期間,首先利用YCbCr 顏色空間對(duì)數(shù)據(jù)集的手部區(qū)域進(jìn)行提取,然后利用降維、灰度化和數(shù)據(jù)增強(qiáng)等預(yù)處理,經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后一共得到16 000 張手勢(shì)圖片。按照同樣的方式進(jìn)行訓(xùn)練和測(cè)試,模型迭代運(yùn)行了100 次,保存模型每次迭代的準(zhǔn)確率和損失值。由表2 可以看出,經(jīng)過(guò)預(yù)處理后,手勢(shì)的識(shí)別準(zhǔn)確率相對(duì)于預(yù)處理前提高2.65%。經(jīng)過(guò)預(yù)處理后的手勢(shì)圖像有效去除了復(fù)雜背景,并達(dá)到了較好的手勢(shì)識(shí)別準(zhǔn)確率。預(yù)處理后網(wǎng)絡(luò)模型的準(zhǔn)確率和損失函數(shù)如圖12所示。
Fig.12 Accuracy and loss function of the model after preprocessing圖12 預(yù)處理后模型的準(zhǔn)確率和損失函數(shù)
可以看出,隨迭代次數(shù)的增加,訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率在訓(xùn)練過(guò)程中不斷提高,并達(dá)到穩(wěn)定狀態(tài),損失值持續(xù)下降后也趨于平穩(wěn)。兩條線基本接近重合,說(shuō)明網(wǎng)絡(luò)模型能夠很好地對(duì)數(shù)據(jù)集進(jìn)行擬合,本文提出的預(yù)處理方法也有效避免了訓(xùn)練過(guò)程中過(guò)擬合現(xiàn)象的發(fā)生。
經(jīng)過(guò)相同NUS-II 數(shù)據(jù)集訓(xùn)練后,本文算法與其他文獻(xiàn)提出算法的比較如表3 所示??梢钥闯?,傳統(tǒng)手勢(shì)識(shí)別方法識(shí)別準(zhǔn)確率遠(yuǎn)不如基于神經(jīng)網(wǎng)絡(luò)的方法。該算法在YCbCr 顏色空間和卷積神經(jīng)網(wǎng)絡(luò)模型上有效識(shí)別出了手勢(shì)特征,識(shí)別準(zhǔn)確率為98.32%,相比于文獻(xiàn)[14]中單獨(dú)使用卷積神經(jīng)網(wǎng)絡(luò)的方法準(zhǔn)確率提升3.62%,該算法達(dá)到了更優(yōu)的識(shí)別效果。
為了驗(yàn)證該算法在復(fù)雜環(huán)境下的有效性,經(jīng)過(guò)同樣預(yù)處理方法訓(xùn)練后,本文算法和其他算法在Marcel 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率比較如表4 所示。可以看出,在該數(shù)據(jù)集上達(dá)到98.96%的準(zhǔn)確率。相比于文獻(xiàn)[22]中卷積神經(jīng)網(wǎng)絡(luò)結(jié)合SVM 的方法提升0.96%的準(zhǔn)確率。
Table 4 Test results of different algorithms on Marcel data sets表4 在Marcel數(shù)據(jù)集上不同算法的測(cè)試結(jié)果
本文提出的算法使用YCbCr 顏色空間對(duì)手勢(shì)進(jìn)行提取,有效去除了復(fù)雜背景,在很大程度上提升了卷積神經(jīng)網(wǎng)絡(luò)效率。經(jīng)過(guò)兩個(gè)數(shù)據(jù)集的驗(yàn)證可以看出,該算法在各種復(fù)雜背景下都可以很好地對(duì)手勢(shì)進(jìn)行識(shí)別。
針對(duì)現(xiàn)有手勢(shì)識(shí)別方法在復(fù)雜環(huán)境下識(shí)別率低的問(wèn)題,本文提出了一種基于Ycbcr 顏色空間和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的手勢(shì)識(shí)別算法。實(shí)驗(yàn)表明,對(duì)復(fù)雜背景下的NUS-II 數(shù)據(jù)集和Marcel 數(shù)據(jù)集進(jìn)行識(shí)別,可以有效去除復(fù)雜背景,準(zhǔn)確率得到很大提升,可以很好地在復(fù)雜環(huán)境下對(duì)靜態(tài)手勢(shì)進(jìn)行識(shí)別。本實(shí)驗(yàn)只是對(duì)數(shù)據(jù)集中的靜態(tài)英文字母進(jìn)行識(shí)別,在實(shí)際應(yīng)用中還有許多局限性,未來(lái)需作出如下改進(jìn):①由于該算法只是對(duì)靜態(tài)手勢(shì)進(jìn)行識(shí)別,在接下來(lái)的研究中,會(huì)重點(diǎn)研究動(dòng)態(tài)的手語(yǔ)動(dòng)作,以達(dá)到手勢(shì)實(shí)時(shí)識(shí)別效果;②由于中國(guó)手語(yǔ)的復(fù)雜性,目前國(guó)內(nèi)學(xué)者對(duì)中國(guó)手語(yǔ)的識(shí)別研究較少,在下一步會(huì)考慮對(duì)中國(guó)手語(yǔ)進(jìn)行識(shí)別,以此造福更多的中國(guó)聾啞人。