復(fù)雜背景下的靜態(tài)手勢(shì)識(shí)別研究

2022-08-25 09:57穆平安

軟件導(dǎo)刊 2022年8期

顏超，穆平安

（上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院，上海 200093）

0 引言

根據(jù)我國(guó)第七次人口普查報(bào)告可知，全中國(guó)聾啞人數(shù)量已經(jīng)達(dá)到2 000 多萬(wàn)人。聾啞人由于聽(tīng)力受損、發(fā)聲不完全等原因，與外界交流非常不便，只能借助于手勢(shì)與其他人進(jìn)行溝通交流。但遺憾的是，大多數(shù)普通人并不理解手勢(shì)，這一客觀事實(shí)也導(dǎo)致聾啞人群體很難通過(guò)手語(yǔ)和其他人進(jìn)行交流。由于手勢(shì)識(shí)別的復(fù)雜性和綜合性［1］，國(guó)內(nèi)外對(duì)手勢(shì)識(shí)別的研究相比于人臉識(shí)別等能夠直接應(yīng)用的研究是少之又少，若可以高效地將手勢(shì)識(shí)別出來(lái)并轉(zhuǎn)換為文字，則可以幫助聾啞人進(jìn)行更好的溝通。因此，促進(jìn)手勢(shì)識(shí)別的提升和發(fā)展是一項(xiàng)非常有意義的工作［2］。

實(shí)際應(yīng)用中，手勢(shì)圖像中通常有人體膚色或復(fù)雜背景［3］（如圖1 所示，第一張為簡(jiǎn)單背景，第二張和第三張為復(fù)雜背景），這會(huì)給手勢(shì)識(shí)別帶來(lái)很大挑戰(zhàn)。

Fig.1 Simple background and complex background圖1 簡(jiǎn)單背景和復(fù)雜背景

手勢(shì)主要分為靜態(tài)手勢(shì)和動(dòng)態(tài)手勢(shì)，靜態(tài)手勢(shì)指在固定時(shí)間內(nèi)保持靜止的手勢(shì)，而動(dòng)態(tài)手勢(shì)是由一個(gè)個(gè)靜態(tài)手勢(shì)組合而成。本文主要研究靜態(tài)手勢(shì)，為下一步識(shí)別動(dòng)態(tài)手勢(shì)奠定基礎(chǔ)。當(dāng)前，靜態(tài)手勢(shì)識(shí)別有傳統(tǒng)和基于深度學(xué)習(xí)的方法，對(duì)于傳統(tǒng)的手勢(shì)識(shí)別方法已有較多研究。Wang 等［4］提出使用Kinect 傳感器的基于手勢(shì)的人機(jī)交互解決方案，他們通過(guò)計(jì)算手指移動(dòng)器的距離進(jìn)行手勢(shì)識(shí)別，并在兩個(gè)現(xiàn)實(shí)應(yīng)用中展示了其實(shí)用性。Dai 等［5］提出一種基于隱馬爾科夫模型的連續(xù)詞匯手勢(shì)識(shí)別方法，可以有效地提高圖像分割精度，并達(dá)到了92.22%的準(zhǔn)確率。Na 等［6］提出一種基于數(shù)據(jù)手套讀取手勢(shì)數(shù)據(jù)的方法，但是因?yàn)槠浔憬菪圆睢⒊杀靖?、維護(hù)較困難和硬件方面的約束，不利于大部分學(xué)者研究；Pugeault 等［7］提出一種多類隨機(jī)森林分類器，通過(guò)4 個(gè)層次的Gabor濾波器提取特征，識(shí)別美國(guó)手語(yǔ)字母表中的24 個(gè)靜態(tài)符號(hào)。Karami 等［8］提出一種多層感知器，利用離散小波變換（DTW）導(dǎo)出的特征識(shí)別波斯手語(yǔ)（PSL）中的字母和數(shù)字，識(shí)別率達(dá)94.06%。Pisharady 等［9］利用高和低水平圖像特征的組合來(lái)檢測(cè)手，并將注意力集中在手區(qū)域上。使用貝葉斯推理生成顯著性映射，然后使用基于形狀和紋理的手區(qū)域特征和SVM分類器對(duì)手勢(shì)進(jìn)行識(shí)別處理，在數(shù)據(jù)集上進(jìn)行測(cè)試，得到了94.36%的準(zhǔn)確率。

最近一些學(xué)者提出的深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)（CNN）的手勢(shì)識(shí)別方法在識(shí)別率和識(shí)別速度上有了更好的提升，它避免了從圖像中導(dǎo)出復(fù)雜的特征描述。Mohanty 等［10］提出一個(gè)深度學(xué)習(xí)框架以識(shí)別手勢(shì)，對(duì)3 個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練預(yù)測(cè)并獲得了89.1%的識(shí)別準(zhǔn)確率。包兆華等［11］通過(guò)膚色提取出手的輪廓信息的二值圖像，然后利用改進(jìn)的LeNet-5 模型在自己制作的數(shù)據(jù)集上達(dá)到了較高的識(shí)別率；Ameen 等［12］利用CNN 提出一種美國(guó)手語(yǔ)字母的識(shí)別模型，他們利用兩個(gè)平行的中樞神經(jīng)系統(tǒng)從手勢(shì)顏色和深度圖像中提取的特征，在美國(guó)手勢(shì)數(shù)據(jù)集上實(shí)現(xiàn)了80.34%的識(shí)別準(zhǔn)確率。Suri 等［13］采用一種遷移學(xué)習(xí)模型的方法，更進(jìn)一步地縮短了模型訓(xùn)練所浪費(fèi)的時(shí)間，在數(shù)據(jù)集上的手勢(shì)識(shí)別準(zhǔn)確率為95%；Adithya 等［14］提出一種基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的手勢(shì)識(shí)別方法，該模型可以在復(fù)雜背景和不同照明條件下識(shí)別靜態(tài)手勢(shì)，他們提出的模型已經(jīng)在兩個(gè)公開(kāi)的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了測(cè)試，并且取得94.7%的識(shí)別精度。

針對(duì)現(xiàn)有算法未能克服在復(fù)雜環(huán)境下識(shí)別準(zhǔn)確率低等問(wèn)題，本文提出一種基于YCbCr 顏色空間和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的靜態(tài)手勢(shì)識(shí)別算法。實(shí)驗(yàn)結(jié)果表明，該算法適用于復(fù)雜的環(huán)境且識(shí)別效果較好。

1 系統(tǒng)框架

系統(tǒng)整體框架如圖2 所示，首先對(duì)數(shù)據(jù)集圖片進(jìn)行手部區(qū)域提取、降維、灰度化和數(shù)據(jù)增強(qiáng)預(yù)處理，然后使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)預(yù)處理后的圖片進(jìn)行訓(xùn)練分類，最后得到識(shí)別結(jié)果。

Fig.2 System framework圖2 系統(tǒng)框架

2 圖像預(yù)處理

2.1 數(shù)據(jù)集選取

第一個(gè)數(shù)據(jù)集選自新加坡國(guó)立大學(xué)的公開(kāi)數(shù)據(jù)集NUSII［15］，這些手勢(shì)是在新加坡國(guó)立大學(xué)及其周?chē)臄z，背景是復(fù)雜的自然背景，手的形狀和大小各不相同。這些姿勢(shì)由40名不同種族、不同復(fù)雜背景的受試者完成。受試者包括年齡范圍為22-56歲的男性和女性。要求受試者展示10個(gè)手勢(shì)，每個(gè)姿勢(shì)5次。這是一個(gè)10 類手勢(shì)數(shù)據(jù)集，分別對(duì)應(yīng)著A-J的10個(gè)英文字母，圖像大小為160×120。每一個(gè)種手勢(shì)圖像有200張，總計(jì)2 000張圖像。其10個(gè)不同手勢(shì)圖片如圖3所示。

Fig.3 Sample image of NUS-II dataset（Part A-J）圖3 NUS-II數(shù)據(jù)集的樣本圖像（A-J部分）

第二個(gè)Marcel 數(shù)據(jù)集選自擁有復(fù)雜背景的室內(nèi)，相對(duì)于第一個(gè)數(shù)據(jù)集較為簡(jiǎn)單。該數(shù)據(jù)集共有6 種不同的手勢(shì)，一共有5 494張圖片。其樣本圖片如圖4所示。

Fig.4 Sample images from the Marcel dataset圖4 Marcel數(shù)據(jù)集中的樣本圖片

2.2 圖像預(yù)處理

圖像預(yù)處理的主要目的是加快模型訓(xùn)練速度，增加訓(xùn)練數(shù)據(jù)量，從而提高模型識(shí)別效率和泛化能力。預(yù)處理部分包括手部區(qū)域提取、圖像降維、和旋轉(zhuǎn)等操作。其具體步驟如下：

第一步，利用YCbCr 顏色空間方法對(duì)數(shù)據(jù)集中的手勢(shì)圖像進(jìn)行手勢(shì)膚色區(qū)域提取。YCbCr 顏色空間方法是先將皮膚信息映射到Y(jié)CbCr 空間，然后通過(guò)判斷像素點(diǎn)是否在橢圓分布內(nèi)來(lái)劃分手部區(qū)域，這樣便有效地去除了復(fù)雜背景。提取后的手部區(qū)域如圖5所示。

Fig.5 Comparison of the original image with the extracted hand image圖5 原圖與手部提取圖對(duì)比

第二步，將提取后的圖像轉(zhuǎn)換為灰度圖像，如圖6所示。

第三步，將所有數(shù)據(jù)集的手勢(shì)圖像從原始大小160×120像素降維到64×64像素，如圖7所示。

Fig.6 Gray scale（160×120）圖6 灰度圖（160×120）

Fig.7 Dimension reduction diagram（64×64）圖7 降維圖（64×64）

第四步，對(duì)圖片進(jìn)行增強(qiáng)處理，將所有圖片進(jìn)行水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)（見(jiàn)圖8）和左右30°、60°和90°旋轉(zhuǎn)操作（見(jiàn)圖9）。

Fig.8 Horizontal flip and vertical flip（64×64）圖8 水平翻轉(zhuǎn)和垂直翻轉(zhuǎn)圖（64×64）

經(jīng)過(guò)圖像預(yù)處理，數(shù)據(jù)集擴(kuò)增到原來(lái)的8 倍，每種手勢(shì)包括1 600張，一共得到16 000張手勢(shì)圖片。

3 網(wǎng)絡(luò)模型

3.1 CNN基本理論

Fig.9 Rotation by 30，60 and 90 degrees（64×64）圖9 旋轉(zhuǎn)30°、60°和90°圖（64×64）

卷積神經(jīng)網(wǎng)絡(luò)（Convolution Neural Network，CNN）是一種具有深層結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)［16］。CNN 主要是基于卷積運(yùn)算，卷積運(yùn)算特別適合圖像處理。在圖像處理過(guò)程中，卷積神經(jīng)網(wǎng)絡(luò)方法與傳統(tǒng)圖像特征提取方法不同，CNN 通過(guò)使用多層卷積操作提取圖像的卷積特征圖，通過(guò)不斷地迭代訓(xùn)練CNN，就可以獲取較好的圖像特征，極大提高了圖像特征提取準(zhǔn)確度。這是卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)所在，因此CNN 在圖像處理領(lǐng)域應(yīng)用廣泛。CNN 網(wǎng)絡(luò)主要由卷積層、池化層、全連接層、激活函數(shù)和Softmax 分類器等構(gòu)成。

（1）卷積層。卷積層（Convolution Layer）是卷積神經(jīng)網(wǎng)絡(luò)的核心部分，其卷積運(yùn)算過(guò)程是通過(guò)一個(gè)卷積核以滑動(dòng)窗口的形式對(duì)特征圖像加權(quán)求和，也即完成了一次濾波過(guò)程，濾波器為卷積核。卷積主要用來(lái)提取圖片中的復(fù)雜特征。一般前幾個(gè)卷積層用來(lái)提取基礎(chǔ)簡(jiǎn)單的特征，后幾層則從簡(jiǎn)單特征中用來(lái)提取更繁雜的特征。

（2）池化層。池化層（Pooling Layer）一般應(yīng)用于卷積層之后，雖然卷積層也可以一定程度地減少參數(shù)數(shù)量，但是特征維度如果只是通過(guò)卷積層進(jìn)行運(yùn)算則有效率非常低。池化層是起到簡(jiǎn)化卷積層輸出參數(shù)信息的作用，同時(shí)還可以保持圖像原始信息不發(fā)生改變。池化層其實(shí)是另外一種形式的降采樣，即在給定區(qū)域內(nèi)，通過(guò)相應(yīng)策略選取特定值作為輸出，該輸出值代表整個(gè)區(qū)域一定的特征，這樣就達(dá)到了降維效果。例如，最大池化（Max Pooling）選擇該圖像相鄰區(qū)域內(nèi)的最大值作為該區(qū)域池化后的值，平均池化（Average Pooling）是相計(jì)算該圖像相鄰矩形區(qū)域內(nèi)的平均值作為該區(qū)域池化后的值。實(shí)際上，池化的作用就是對(duì)卷積層輸出的圖片信息進(jìn)行某種方式的凝縮。

（3）激活函數(shù)。激活函數(shù)（Activation Function）是為了解決輸入樣本非線性可分問(wèn)題，通常在卷積計(jì)算后增加一個(gè)激活函數(shù)，這在很大程度上提高了網(wǎng)絡(luò)的非線性表達(dá)能力。在實(shí)際應(yīng)用中，最常用的激活函數(shù)主要有Sigmoid、tanh、RELU 等，本文模型中的卷積層后接的激活函數(shù)都是RELU［17］。RELU 函數(shù)公式如式（1）所示。

可以看出，如果輸入為負(fù)值或0 時(shí)，則輸出為零；如果輸入為正值，則輸出保持不變。它可以對(duì)輸入信號(hào)進(jìn)行過(guò)濾，保留部分滿足條件的信號(hào)，而且可以有效克服梯度消失問(wèn)題。

（4）批量歸一化（BN）。將批量歸一化加入每個(gè)ReLU層之后，主要為了防止訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)在學(xué)習(xí)數(shù)據(jù)分布時(shí)，避免因分布不一致而導(dǎo)致網(wǎng)絡(luò)泛化能力下降。它可以將一個(gè)批量里的輸入數(shù)據(jù)進(jìn)行歸一化然后輸出。如果將批量歸一化層放置在網(wǎng)絡(luò)各層之間，就可以不斷地對(duì)中間輸出進(jìn)行調(diào)整，從而保證整個(gè)網(wǎng)絡(luò)中間輸出的數(shù)值穩(wěn)定性。同時(shí)，減少梯度對(duì)參數(shù)或其初始值尺度的依賴性。因此，可以使用較大的學(xué)習(xí)速率對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，從而加速網(wǎng)絡(luò)收斂。

（5）全連接層。全連接層（Fully Connected Layer）是卷積層的一種，在整個(gè)網(wǎng)絡(luò)中起到分類器的作用。它把從卷積層和池化層得到的卷積特征中代表圖像局部特征的數(shù)值組合起來(lái)，然后將每一個(gè)特征圖轉(zhuǎn)換為一維數(shù)組，再將所有特征圖的一維數(shù)組拼接成一個(gè)特征向量，作為手勢(shì)圖像的完整表示，最后輸入全連接層。全連接層一般位于卷積層和池化層后面，主要作用是整合圖像特征并實(shí)現(xiàn)分類。

（6）Softmax。Softmax 分類器將上一層全連接層的輸出轉(zhuǎn)換成一個(gè)概率向量，該向量中的值代表當(dāng)前樣本屬于每一個(gè)類的概率［18］，其表達(dá)式如式（2）所示。

其中，N表示分類的類別數(shù)，a表示全連接層的輸出向量，aj表示向量a中的第j個(gè)值。

3.2 提出的卷積網(wǎng)絡(luò)模型

本文提出的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖10 所示，CNN 的輸入圖像是尺寸大小為64×64 的灰度圖像。該網(wǎng)絡(luò)由12個(gè)卷積層和4 個(gè)池化層組成。每個(gè)卷積層都應(yīng)用了ReLu激活函數(shù)并利用BN 進(jìn)行了數(shù)據(jù)標(biāo)準(zhǔn)化處理。在前兩個(gè)卷積層使用了64 個(gè)卷積濾波器，在接下來(lái)的卷積層中分別擴(kuò)展到128、256、512 個(gè)濾波器，以便于提取圖像中更深的特征。在所有卷積層中實(shí)現(xiàn)了一個(gè)內(nèi)核大小為3×3 和步長(zhǎng)為1 的濾波器。在各種池化函數(shù)中，最大池化層以其速度快、收斂性好等優(yōu)點(diǎn)優(yōu)于其他池化函數(shù)，因此本文在每個(gè)卷積層之后加入最大池化層以減少參數(shù)量。采用大小為2×2 的不重疊采樣進(jìn)行池化，經(jīng)池化層處理后，手勢(shì)特征圖的分辨率將縮減一半。全連接層中共有256 個(gè)神經(jīng)元，在全連接層中也應(yīng)用了ReLu 激活功能。最后輸出層由Softmax 進(jìn)行處理，用于對(duì)輸出的不同手勢(shì)特征進(jìn)行分類，將最終分類結(jié)果輸出到一列向量中從而輸出手勢(shì)圖像的分類結(jié)果。

3.3 優(yōu)化模型訓(xùn)練策略

（1）在構(gòu)建CNN 網(wǎng)絡(luò)模型時(shí)，由于神經(jīng)網(wǎng)絡(luò)模型具有大批量的參數(shù)和較深的層次，從而導(dǎo)致訓(xùn)練的網(wǎng)絡(luò)模型易形成過(guò)擬合。因此，利用Dropout 方法避免模型產(chǎn)生過(guò)擬合現(xiàn)象，在訓(xùn)練過(guò)程中隨機(jī)按照比例將部分神經(jīng)元權(quán)重設(shè)置歸零，即輸入不與隱藏層的權(quán)重進(jìn)行相關(guān)運(yùn)算［19］。使得模型不會(huì)完全依賴于全連接層中的某個(gè)權(quán)重，縮減了參數(shù)量，有效避免了過(guò)擬合現(xiàn)象的發(fā)生。

（2）在分類不同手勢(shì)時(shí)，采用交叉熵?fù)p失函數(shù)衡量模型預(yù)測(cè)結(jié)果和真實(shí)值之間的誤差。其離散的函數(shù)表達(dá)式如式（3）所示。

其中，N表示批處理塊的大小，p、q表示一批樣本中第i個(gè)樣本的真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽。

（3）模型優(yōu)化器選擇Adam 優(yōu)化器，利用它對(duì)整個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。Adam 算法是梯度下降算法的一種變形，相比于普通的梯度下降算法，該算法可以通過(guò)考慮梯度的一階矩估計(jì)和二階矩估計(jì)自動(dòng)調(diào)整每個(gè)參數(shù)學(xué)習(xí)率，同時(shí)具有AdaGrad 和RMSProp 兩種優(yōu)化算法的優(yōu)點(diǎn)，是深度學(xué)習(xí)領(lǐng)域比較流行的優(yōu)化算法。

如圖11所示，通過(guò)對(duì)比其他常用的優(yōu)化器算法后，Adam 優(yōu)化器訓(xùn)練出來(lái)的模型擬合效果最好，梯度下降曲線的波動(dòng)最為平穩(wěn)。綜合以上因素，選用Adam 作為模型的優(yōu)化器。

Fig.11 Effect of optimizer on model performance圖11 優(yōu)化器對(duì)模型性能的影響

（4）為進(jìn)一步提高模型識(shí)別準(zhǔn)確率，本實(shí)驗(yàn)采用的學(xué)習(xí)率為0.000 1。通過(guò)多次遍歷數(shù)據(jù)集的方式增強(qiáng)模型擬合能力，并且在每次遍歷訓(xùn)練集過(guò)程中隨機(jī)打亂訓(xùn)練集的排序以提高模型魯棒性。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)環(huán)境與配置

為了客觀地進(jìn)行算法性能對(duì)比，手勢(shì)識(shí)別實(shí)驗(yàn)環(huán)境和配置如表1所示。

4.2 在NUS數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分析

本實(shí)驗(yàn)使用未經(jīng)過(guò)預(yù)處理的數(shù)據(jù)集與經(jīng)過(guò)手部區(qū)域提取和預(yù)處理后的數(shù)據(jù)集作對(duì)比實(shí)驗(yàn)，結(jié)果如表2所示。

（1）使用未經(jīng)過(guò)預(yù)處理的數(shù)據(jù)集用于CNN 訓(xùn)練。NUS數(shù)據(jù)集樣本照片為2 000 張，其中每一種靜態(tài)手勢(shì)照片為200 張。按照8∶2 的比例將圖像分別用于訓(xùn)練和測(cè)試。該模型迭代運(yùn)行了100 次，計(jì)算得出隨著訓(xùn)練數(shù)據(jù)迭代次數(shù)的增加，其準(zhǔn)確率達(dá)到95.65%。

Table 1 Experimental environment and configuration表1 實(shí)驗(yàn)環(huán)境與配置

Table 2 Comparison of experimental results表2 實(shí)驗(yàn)結(jié)果對(duì)比

（2）使用經(jīng)過(guò)手部區(qū)域提取和預(yù)處理后的數(shù)據(jù)集用于CNN 訓(xùn)練。在預(yù)處理期間，首先利用YCbCr 顏色空間對(duì)數(shù)據(jù)集的手部區(qū)域進(jìn)行提取，然后利用降維、灰度化和數(shù)據(jù)增強(qiáng)等預(yù)處理，經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后一共得到16 000 張手勢(shì)圖片。按照同樣的方式進(jìn)行訓(xùn)練和測(cè)試，模型迭代運(yùn)行了100 次，保存模型每次迭代的準(zhǔn)確率和損失值。由表2 可以看出，經(jīng)過(guò)預(yù)處理后，手勢(shì)的識(shí)別準(zhǔn)確率相對(duì)于預(yù)處理前提高2.65%。經(jīng)過(guò)預(yù)處理后的手勢(shì)圖像有效去除了復(fù)雜背景，并達(dá)到了較好的手勢(shì)識(shí)別準(zhǔn)確率。預(yù)處理后網(wǎng)絡(luò)模型的準(zhǔn)確率和損失函數(shù)如圖12所示。

Fig.12 Accuracy and loss function of the model after preprocessing圖12 預(yù)處理后模型的準(zhǔn)確率和損失函數(shù)

可以看出，隨迭代次數(shù)的增加，訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率在訓(xùn)練過(guò)程中不斷提高，并達(dá)到穩(wěn)定狀態(tài)，損失值持續(xù)下降后也趨于平穩(wěn)。兩條線基本接近重合，說(shuō)明網(wǎng)絡(luò)模型能夠很好地對(duì)數(shù)據(jù)集進(jìn)行擬合，本文提出的預(yù)處理方法也有效避免了訓(xùn)練過(guò)程中過(guò)擬合現(xiàn)象的發(fā)生。

經(jīng)過(guò)相同NUS-II 數(shù)據(jù)集訓(xùn)練后，本文算法與其他文獻(xiàn)提出算法的比較如表3 所示?？梢钥闯?，傳統(tǒng)手勢(shì)識(shí)別方法識(shí)別準(zhǔn)確率遠(yuǎn)不如基于神經(jīng)網(wǎng)絡(luò)的方法。該算法在YCbCr 顏色空間和卷積神經(jīng)網(wǎng)絡(luò)模型上有效識(shí)別出了手勢(shì)特征，識(shí)別準(zhǔn)確率為98.32%，相比于文獻(xiàn)［14］中單獨(dú)使用卷積神經(jīng)網(wǎng)絡(luò)的方法準(zhǔn)確率提升3.62%，該算法達(dá)到了更優(yōu)的識(shí)別效果。

4.3 在Marcel數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證該算法在復(fù)雜環(huán)境下的有效性，經(jīng)過(guò)同樣預(yù)處理方法訓(xùn)練后，本文算法和其他算法在Marcel 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率比較如表4 所示。可以看出，在該數(shù)據(jù)集上達(dá)到98.96%的準(zhǔn)確率。相比于文獻(xiàn)［22］中卷積神經(jīng)網(wǎng)絡(luò)結(jié)合SVM 的方法提升0.96%的準(zhǔn)確率。

Table 4 Test results of different algorithms on Marcel data sets表4 在Marcel數(shù)據(jù)集上不同算法的測(cè)試結(jié)果

本文提出的算法使用YCbCr 顏色空間對(duì)手勢(shì)進(jìn)行提取，有效去除了復(fù)雜背景，在很大程度上提升了卷積神經(jīng)網(wǎng)絡(luò)效率。經(jīng)過(guò)兩個(gè)數(shù)據(jù)集的驗(yàn)證可以看出，該算法在各種復(fù)雜背景下都可以很好地對(duì)手勢(shì)進(jìn)行識(shí)別。

5 結(jié)語(yǔ)

針對(duì)現(xiàn)有手勢(shì)識(shí)別方法在復(fù)雜環(huán)境下識(shí)別率低的問(wèn)題，本文提出了一種基于Ycbcr 顏色空間和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的手勢(shì)識(shí)別算法。實(shí)驗(yàn)表明，對(duì)復(fù)雜背景下的NUS-II 數(shù)據(jù)集和Marcel 數(shù)據(jù)集進(jìn)行識(shí)別，可以有效去除復(fù)雜背景，準(zhǔn)確率得到很大提升，可以很好地在復(fù)雜環(huán)境下對(duì)靜態(tài)手勢(shì)進(jìn)行識(shí)別。本實(shí)驗(yàn)只是對(duì)數(shù)據(jù)集中的靜態(tài)英文字母進(jìn)行識(shí)別，在實(shí)際應(yīng)用中還有許多局限性，未來(lái)需作出如下改進(jìn)：①由于該算法只是對(duì)靜態(tài)手勢(shì)進(jìn)行識(shí)別，在接下來(lái)的研究中，會(huì)重點(diǎn)研究動(dòng)態(tài)的手語(yǔ)動(dòng)作，以達(dá)到手勢(shì)實(shí)時(shí)識(shí)別效果；②由于中國(guó)手語(yǔ)的復(fù)雜性，目前國(guó)內(nèi)學(xué)者對(duì)中國(guó)手語(yǔ)的識(shí)別研究較少，在下一步會(huì)考慮對(duì)中國(guó)手語(yǔ)進(jìn)行識(shí)別，以此造福更多的中國(guó)聾啞人。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡