周梓豪,田秋紅
(浙江理工大學(xué)信息學(xué)院,浙江杭州 310018)
人類通過手掌和手指的不同姿勢組合形成的具有特定含義的表達方式稱為手勢。手勢識別是人機交互領(lǐng)域的研究熱點,相關(guān)技術(shù)廣泛應(yīng)用于智能家居、自動駕駛、醫(yī)療保健和虛擬現(xiàn)實等領(lǐng)域,給人們的生活帶來極大便利,應(yīng)用價值不言而喻。手勢作為人與人之間日常交流的重要方式,更是聾啞人交流的最主要方式,蘊含著豐富的信息。如果手勢識別技術(shù)更加完善,現(xiàn)實生活中應(yīng)用更加廣泛,聾啞人便能更加輕松舒適地融入社會。因此,手勢識別技術(shù)研究具有重要的現(xiàn)實意義。
傳統(tǒng)手勢識別方法主要分為兩類:一類是基于硬件設(shè)備的方法,例如Kim 等[1]使用由3 軸加速度計、磁力計和陀螺儀組成的手套采集到的數(shù)據(jù)進行三維建模并輸出到顯示器,對1~9 之間的數(shù)字識別準確率可達99%以上,但數(shù)據(jù)手套操作復(fù)雜、價格昂貴,普及性較差;另一類是基于機器視覺的方法,例如Tian 等[2]設(shè)計了一種基于圖像處理的靜態(tài)單反系統(tǒng)分割方法,并將其與形態(tài)重建相結(jié)合,可從復(fù)雜背景中分割手勢圖像;李文生等[3]提出一種高效的基于HSV 顏色空間的多目標檢測跟蹤方法,可準確進行動態(tài)多點手勢識別。然而機器視覺方法普遍存在的問題是提取到的特征容易受到背景因素干擾,且處理速度較慢。
以上兩類方法需要人工設(shè)計手勢提取算法,可能會產(chǎn)生主觀性和局部性等問題。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)能夠自動提取手勢的輪廓、膚色、紋理等深度特征,并且具有檢測速度快、抗干擾能力強和識別準確率高等優(yōu)點,因此在手勢識別領(lǐng)域逐漸成為主流。許多學(xué)者通過重新設(shè)計主干網(wǎng)絡(luò),融合多尺度特征和殘差連接等方法對經(jīng)典CNN 進行改進,在提高識別準確率方面取得較多進展。例如,余圣新等[4]使用深度可分離卷積改進Inception 網(wǎng)絡(luò),并結(jié)合殘差網(wǎng)絡(luò)以防止梯度彌散,在MNIST 手寫數(shù)字數(shù)據(jù)集上達到99.45%的識別準確率;周鵬等[5]基于語譜圖對DenseNet 卷積網(wǎng)絡(luò)進行改進,識別準確率明顯提高;王龍等[6]結(jié)合膚色模型和CNN 對不同背景下的手勢圖像進行識別,取得了較高的識別準確率和較好的實時性;熊才華等[7]基于ResNet50 殘差網(wǎng)絡(luò)對Fast R-CNN 網(wǎng)絡(luò)進行改進,并融合實例批處理標準化方法以適應(yīng)不同的識別環(huán)境,對手勢的識別效果和魯棒性均有所改善;陳影柔等[8]提出一種基于多特征加權(quán)融合的靜態(tài)手勢識別方法,對手勢圖像數(shù)據(jù)集的識別準確率達到99%以上;包嘉欣等[9]通過橢圓分割、最大連通域和質(zhì)心定位的方式提取出類膚色背景中的手勢,并通過改進VGG 網(wǎng)絡(luò)減少模型參數(shù)量,有效提高了手勢圖像的識別率;官巍等[10]將Fast R-CNN 替換為ResNet50,利用區(qū)域建議網(wǎng)絡(luò)生成的候選框和特征圖進行興趣區(qū)操作,修改激活函數(shù)并進行參數(shù)調(diào)節(jié),對手勢的識別率高達97.57%;馮家文等[11]提出雙通道CNN 模型,對兩個相互獨立通道輸入的手勢圖像進行特征提取,融合不同尺度的特征,增強了模型的泛化性。以上改進CNN 網(wǎng)絡(luò)取得了較高的識別準確率,但仍存在參數(shù)量巨大的問題。事實上,大部分CNN 難以兼顧識別準確率與參數(shù)量之間的平衡,龐大的網(wǎng)絡(luò)結(jié)構(gòu)和巨大的參數(shù)量滿足不了其在資源受限的嵌入式和移動端環(huán)境中進行實時檢測的要求。
針對CNN 存在的問題,參考林景棟等[12]提出的CNN結(jié)構(gòu)優(yōu)化技術(shù),從平衡識別準確率和模型大小的角度出發(fā),提出一種基于改進Xception 網(wǎng)絡(luò)的手勢識別方法。改進部分如下:使用密集連接代替殘差連接,對深度可分離卷積模塊進行密集連接,壓縮網(wǎng)絡(luò)深度,從而更加有效地利用模型參數(shù),有效提高識別準確率;融合SE 模塊,增強模型對重要特征的敏感度,同時抑制次要特征的作用;融合特征金字塔結(jié)構(gòu),通過對特征張量中不同感受野的使用對手勢圖像進行分類,進一步提高識別準確率。
Xception 網(wǎng)絡(luò)[13]是在InceptionV3 網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合MobileNet 和ResNet 提出的CNN,該網(wǎng)絡(luò)使用深度可分離卷積將特征張量中的空間相關(guān)性與跨通道相關(guān)性完全解耦,相較于Inception 能更充分地發(fā)揮網(wǎng)絡(luò)參數(shù)的作用。Xception 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,其具有36 個卷積層,分別為1 個降采樣卷積層、1 個常規(guī)卷積層和34 個深度可分離卷積層;共分成14 個模塊,最大通道數(shù)達到2 048 個,使得Xception 網(wǎng)絡(luò)結(jié)構(gòu)較深,參數(shù)計算量大,模型占用內(nèi)存較大,不適合部署在移動端和嵌入式設(shè)備中進行實時檢測。同時,Xception 網(wǎng)絡(luò)缺少多尺度特征的融合,在特征提取過程中可能會由于感受野單一而造成特征損失。
現(xiàn)有經(jīng)典網(wǎng)絡(luò)一般通過增加網(wǎng)絡(luò)層數(shù)提升識別準確率。Xception 網(wǎng)絡(luò)包含36 個卷積層,雖然深度可分離卷積模塊的計算量相較于常規(guī)卷積模塊已經(jīng)縮小,但模型大小和計算參數(shù)量仍然較大,無法滿足在移動端上進行實時檢測的要求。因此,本文利用DenseNet 密集連接網(wǎng)絡(luò)[14]的思想,對深度可分離卷積模塊進行密集連接,通過將當前模塊的輸出特征張量作為其所有后續(xù)模塊的輸入,使各層之間直接相連,最大程度確保最大化層際的信息流動,從而形成密集深度可分離卷積模塊。該模塊是改進Xception網(wǎng)絡(luò)的基本模塊,結(jié)構(gòu)示意見圖2。密集深度可分離卷積模塊的輸出可表示為:
Fig.1 Xception network structure圖1 Xception網(wǎng)絡(luò)結(jié)構(gòu)
式(1)和圖2 中的X0均代表輸入密集深度可分離卷積模塊的特征張量,XL代表第L個深度可分離卷積模塊的輸出,DSCM(*)代表深度可分離卷積模塊,⊕代表通道疊加操作。如圖2 所示,第L個深度可分離卷積模塊的輸出由模塊內(nèi)位于其前繼的所有特征張量通道疊加后再經(jīng)深度可分離卷積模塊解耦得到。
改進Xception 網(wǎng)絡(luò)使用的密集深度可分離卷積模塊有2 種,一種由3 個深度可分離卷積模塊密集連接組成,另一種由2 個深度可分離卷積模塊密集連接組成。密集連接結(jié)構(gòu)可使特征得到再利用,同時通過適當增加層內(nèi)通道數(shù)可更加充分地發(fā)揮網(wǎng)絡(luò)參數(shù)的作用,在保證網(wǎng)絡(luò)提取到更多手勢信息的同時有效減小模型深度,以抑制過擬合現(xiàn)象。
2.3.1 降采樣卷積模塊和常規(guī)卷積模塊
原始手勢圖像需歸一化為224 × 224 × 3 大小的RGB圖像,再進行標準化。將原始手勢圖像從0~255 之間的整數(shù)映射為0~1 之間的浮點數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入,首先將其輸入至降采樣卷積模塊,然后輸入常規(guī)卷積模塊中進行特征圖像處理。這兩種卷積模塊結(jié)構(gòu)相同,均由卷積層、批量歸一化層和RELU 激活層依次連接組成,可表示為:
式中,z代表輸入模塊的特征張量,代表卷積核個數(shù)為n、步長為i×i的常規(guī)卷積函數(shù),BN(*)代表批量歸一化操作,RELU(*)代表RELU 激活函數(shù)。
Fig.2 Dense depthwise separable convolution module structure圖2 密集深度可分離卷積模塊結(jié)構(gòu)
在改進網(wǎng)絡(luò)中,兩種卷積模塊的卷積核尺寸均為3 ×3,但卷積操作步長以及卷積核個數(shù)不同。步長為2 × 2 的卷積操作能夠代替池化層進行降采樣處理,增加模型的感受野。輸出通道數(shù)為32 的縮小尺寸的特征張量,然后使用步長為1 × 1 的常規(guī)卷積整合空間特征和跨通道特征,并使用64個卷積核擴大通道數(shù)量,初步提取淺層特征。
2.3.2 深度可分離卷積模塊
淺層特征張量通過一系列由深度可分離卷積模塊組成的模塊進行空間相關(guān)性與跨通道相關(guān)性之間映射的完全解耦。深度可分離卷積模塊由RELU 激活層、深度可分離卷積層和批量歸一化層組成。本文網(wǎng)絡(luò)使用如圖3 所示的2 種深度可分離卷積模塊,二者的差異在于RELU 激活層的位置,密集深度可分離卷積模塊由(a)類深度可分離卷積模塊組成,靠近網(wǎng)絡(luò)輸出的為(b)類深度可分離卷積模塊,RELU 激活層放在最后有助于圖像分類。
Fig.3 Depthwise separable convolution module structure圖3 深度可分離卷積模塊結(jié)構(gòu)
本文網(wǎng)絡(luò)使用的均為步長為1 × 1,卷積核尺寸為3 ×3 的深度可分離卷積層。與常規(guī)卷積相比,逐一對通道進行卷積操作能降低計算冗余度。例如使用K個尺寸為3 ×3 的卷積核對1 個尺寸為W×H×C的特征張量進行卷積操作,然后輸出尺寸為W×H×K的特征張量。如果使用常規(guī)卷積進行操作,則參數(shù)量為C×K× 3 × 3;而使用深度可分離卷積進行操作,點卷積的參數(shù)量為C×K,深度卷積的參數(shù)量為K× 3 × 3,總計算量為K×(C+9),當K和C較大時,計算參數(shù)量能大大減少。
注意力機制的合理使用對于提高CNN 的性能具有重要作用。SE 模塊是注意力機制的一種,其思路簡單、易于實現(xiàn),同時很容易被嵌入到當前主流網(wǎng)絡(luò)模型中[15]。SE模塊可分為3 個部分,分別為壓縮模塊fsq、激勵模塊fex和重標定模塊fscale,3個模塊可分別由以下公式表示:
式中,GAP(*)代表全局平均池化函數(shù),x代表壓縮模塊獲得的全局描述,W(*)代表全連接函數(shù),δ(*)代表RELU激活函數(shù),σ(*)代表Sigmoid 激活函數(shù),d代表激勵模塊獲得的各通道權(quán)重。
改進網(wǎng)絡(luò)中SE 模塊的融合位置與結(jié)構(gòu)如圖4 所示。融合位置位于模塊間的局部最大池化層之前,輸入尺寸為H×W×C的特征張量,經(jīng)過全局平均池化層得到每個通道的全局描述,尺寸為1 × 1 ×C。通過兩個全連接層建模通道間的相關(guān)性,首先對通道進行降維,數(shù)量減少至輸入的1/16,通過RELU 函數(shù)進行非線性激活;然后通過全連接層升維,恢復(fù)到原來的通道數(shù)量,使用Sigmoid 激活函數(shù)返回對應(yīng)于每個通道0~1 之間的權(quán)重值;最后通過逐像素相乘操作將權(quán)重值加權(quán)至每個通道上。
Fig.4 SE module fusion position and structure圖4 SE模塊融合位置與結(jié)構(gòu)
Fig.5 Improved Xception network structure圖5 改進Xception網(wǎng)絡(luò)結(jié)構(gòu)
Xception 網(wǎng)絡(luò)結(jié)構(gòu)較深,多次進行深度可分離卷積以及殘差連接導(dǎo)致其計算參數(shù)量巨大,難以應(yīng)用到移動端上進行實時監(jiān)測;且Xception 網(wǎng)絡(luò)缺乏融合多尺度特征,可能受限于單一感受野而損失提取特征,導(dǎo)致準確率無法繼續(xù)提高。本文針對這些問題,對圖1 所示的Xception 網(wǎng)絡(luò)結(jié)構(gòu)進行改進,改進后的網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。改進的地方如下:①將圖1 所有的殘差連接替換為密集連接,實現(xiàn)像殘差連接一樣的跳躍連接,能在密集壓縮網(wǎng)絡(luò)深度的同時提高識別準確率,可以減少深度可分離卷積模塊數(shù)量與通道數(shù),因此改進網(wǎng)絡(luò)適當調(diào)節(jié)了卷積通道數(shù)量并消除了圖1 結(jié)構(gòu)中的中間部分;②將Xception 網(wǎng)絡(luò)結(jié)構(gòu)中部分由2個深度可分離卷積模塊組成的模塊替換為由3 個深度可分離卷積模塊組成的模塊,這是由于在密集連接中增加深度可分離卷積模塊數(shù)量有助于產(chǎn)生更多直接信息流動,有利于提高識別準確率;③如圖5 所示,將SE 模塊融入網(wǎng)絡(luò)結(jié)構(gòu)中,在局部最大池化操作之前對特征張量進行特征重標定,提高網(wǎng)絡(luò)對重要特征的敏感程度;④如圖5 所示,在接近網(wǎng)絡(luò)的輸出部分對特征金字塔結(jié)構(gòu)進行融合,通過逐點卷積層將第2 個SE 模塊和局部最大池化層的輸出通道數(shù)提升至728,作為第一融合特征張量;通過上采樣層將第4 個密集深度可分離卷積模塊的輸出特征張量尺寸修改為28 × 28 × 728,作為第二融合特征張量。兩個融合特征張量經(jīng)過逐像素相加操作,獲取到融合淺層、深層空間信息以及特征語義信息的特征張量用于圖像分類。改進Xcep?tion 網(wǎng)絡(luò)的配置見表1。
Table 1 Improved Xception network configuration表1 改進Xception網(wǎng)絡(luò)配置
本實驗采用NUS-Ⅱ(National University of Singapore)開源手勢數(shù)據(jù)集[16-17],共有2 750 張RGB 圖像,包含10 類手勢,分別代表字母A~J,每個類別有275 幅圖像,由40 名不同種族22~56 歲的男性和女性在多種復(fù)雜背景下拍攝完成,且背景存在類膚色因素的干擾,數(shù)據(jù)集示例如圖6所示。將該數(shù)據(jù)集按照7∶2∶1 的比例隨機劃分為訓(xùn)練集、測試集和驗證集,并使用隨機旋轉(zhuǎn)、平移等實時數(shù)據(jù)增強方式避免過擬合。
模型訓(xùn)練環(huán)境為13GB 內(nèi)存,NVIDIA Tesla P100 PCIE 16GB 顯卡,初始學(xué)習率設(shè)置為0.001,最大迭代周期(Ep?och)設(shè)置為40,批處理大小(Batch Size)設(shè)置為16,并通過回調(diào)函數(shù)在訓(xùn)練過程中對學(xué)習率進行優(yōu)化,以便更加快速地獲得最優(yōu)模型?;卣{(diào)函數(shù)監(jiān)測的值為驗證集準確率,當3 個迭代周期結(jié)束而驗證集準確率沒有提升時,則將學(xué)習率縮小為原來的一半。
Fig.6 NUS-Ⅱdataset example圖6 NUS-Ⅱ數(shù)據(jù)集示例
3.2.1 不同模塊性能比較
為了驗證改進Xception 網(wǎng)絡(luò)各個模塊的性能,在改進網(wǎng)絡(luò)的基礎(chǔ)上,對密集深度可分離卷積模塊、SE 模塊和特征金字塔結(jié)構(gòu)進行消融比較實驗,結(jié)果見表2。可以看出,當融合所有模塊時,相較于Xception 網(wǎng)絡(luò),計算參數(shù)量大幅度減少,識別準確率提升了1.09%,參數(shù)量減少了4/5。同時,對于每一個單獨模塊的改進均使準確率有0.54%~0.72%的提升,且參數(shù)量大幅度減少。
Table 2 Ablation comparison experiment result表2 消融比較實驗結(jié)果
3.2.2 網(wǎng)絡(luò)訓(xùn)練優(yōu)化器比較
神經(jīng)網(wǎng)絡(luò)中的優(yōu)化器可通過適當方法修改權(quán)重和學(xué)習率以達到最小化損失的目的,優(yōu)化器的選擇需要考慮準確率與訓(xùn)練時間之間的平衡。本實驗分別在Adam、RM?Sprop 和Nadam 優(yōu)化器下訓(xùn)練改進Xception 網(wǎng)絡(luò),比較這3種優(yōu)化器下網(wǎng)絡(luò)的驗證集準確率曲線變化情況,結(jié)果如圖7 所示??梢钥闯?,使用Nadam 優(yōu)化器進行網(wǎng)絡(luò)訓(xùn)練的收斂速度最快,且波動程度最?。籖MSprop 優(yōu)化器訓(xùn)練前期波動比Nadam 大,訓(xùn)練后期逐漸趨于穩(wěn)定,準確率甚至超過Nadam;Adam 優(yōu)化器訓(xùn)練前期收斂速度較慢,訓(xùn)練后期仍然存在少許波動。使用Adam、RMSprop 和Nadam 優(yōu)化器訓(xùn)練的網(wǎng)絡(luò)在驗證集上的準確率分別為99.45%、99.7%和99.64%,為兼顧訓(xùn)練時間與準確率的平衡,最終選擇Nadam 作為改進Xception 網(wǎng)絡(luò)的訓(xùn)練優(yōu)化器。
Fig.7 Comparison of validation set accuracy curves of different opti?mizers圖7 不同優(yōu)化器驗證集準確率曲線比較
3.2.3 改進網(wǎng)絡(luò)與其他網(wǎng)絡(luò)比較
為了驗證本文網(wǎng)絡(luò)的可行性,在NUS-Ⅱ手勢數(shù)據(jù)集上將其與原始Xception、ResNet50[18]、InceptionV3[19]和In?ceptionResNetV2[20]等經(jīng)典CNN,以及MobileNet[21]和DenseNet121[22]等輕量級CNN 進行比較,綜合考慮網(wǎng)絡(luò)的訓(xùn)練時間、模型大小、模型參數(shù)量和測試集準確率評價其性能,結(jié)果見表3。
Table 3 Performance comparison results of different networks表3 不同網(wǎng)絡(luò)性能比較
可以看出,ResNet50 的訓(xùn)練時間比本文網(wǎng)絡(luò)減少了224s,但在模型大小、模型參數(shù)量和識別準確率方面,本文網(wǎng)絡(luò)均遠優(yōu)于ResNet50。由于ResNet50 存在許多卷積層和殘差連接,其模型大小和參數(shù)量均較大,而本文網(wǎng)絡(luò)使用密集深度可分離卷積模塊作為基本模塊,模型大小僅為54.19MB,約為ResNet50 的1/5,參數(shù)量亦約為ResNet50 的1/5,但識別準確率比ResNet50 提高了2.73%。InceptionV3使用多尺度卷積、非對稱卷積等代替常規(guī)卷積,能夠在減少計算量的同時提升識別準確率,但InceptionV3 屬于非常深的卷積網(wǎng)絡(luò),其訓(xùn)練時間在所有網(wǎng)絡(luò)中最長,本文網(wǎng)絡(luò)在各方面都表現(xiàn)出比InceptionV3 更好的性能。Inception?ResNetV2 綜合了Inception 的多尺度卷積模塊以及ResNet的殘差連接兩部分優(yōu)點,獲得了很高的識別準確率,與本文網(wǎng)絡(luò)一樣達到99.64%,但訓(xùn)練時間較長,網(wǎng)絡(luò)深度十分大,模型大小達到673.27MB,參數(shù)量較多。DenseNet121 使用多個密集塊稠密連接,比傳統(tǒng)的級聯(lián)連接效率更高,同時在瓶頸層和過渡層中壓縮通道數(shù),使得網(wǎng)絡(luò)參數(shù)規(guī)模減小,但其在使用常規(guī)卷積的同時提取了空間和跨通道相關(guān)特征,比使用深度可分離卷積增加了計算參數(shù)冗余,且網(wǎng)絡(luò)中缺乏不同尺度特征張量的融合,使識別準確率受到限制。因此,DenseNet121 的訓(xùn)練時間雖略短于本文網(wǎng)絡(luò),但綜合模型大小、模型參數(shù)量和識別準確率來看,其性能遜于本文網(wǎng)絡(luò)。MobileNet 同樣使用了深度可分離卷積,結(jié)構(gòu)簡單,具有良好的實時性,其訓(xùn)練時間、模型大小和模型參數(shù)量在所有模型中均達到最優(yōu)水平,但該網(wǎng)絡(luò)的識別準確率僅為90.36%,在一些高精度分類任務(wù)中可能達不到要求。
部分網(wǎng)絡(luò)在訓(xùn)練過程中的驗證集準確率曲線如圖8所示??梢钥闯觯疚木W(wǎng)絡(luò)雖然存在密集連接,導(dǎo)致訓(xùn)練時間略微增加,但收斂速度較快,可以利用提前停止的方法在網(wǎng)絡(luò)已經(jīng)收斂時獲得模型,抵消一部分影響。本文網(wǎng)絡(luò)約在12 個Epochs 后驗證集準確率曲線趨于穩(wěn)定;Incep?tionResNetV2 收斂速度也較快,約在14 個Epochs 后準確率曲線達到收斂狀態(tài);其他網(wǎng)絡(luò)則在15~30 個Epochs 后曲線才趨于穩(wěn)定。
Fig.8 Comparison of accuracy curves of validation sets of some net?works圖8 部分網(wǎng)絡(luò)驗證集準確率曲線比較
本文網(wǎng)絡(luò)在識別準確率和收斂速度上與Inception?ResNetV2 網(wǎng)絡(luò)相當,為了更加充分地比較兩個網(wǎng)絡(luò)的優(yōu)缺點,以在NUS-Ⅱ手勢數(shù)據(jù)集上的訓(xùn)練和測試結(jié)果為依據(jù),單獨列出訓(xùn)練時間、模型大小、每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)和收斂速度等進行比較分析,結(jié)果見表4。綜合多方面因素可知,本文網(wǎng)絡(luò)性能優(yōu)于Inception?ResNetV2網(wǎng)絡(luò)。
Table 4 Detailed comparison between InceptionResNetV2 network and the proposed network表4 本文網(wǎng)絡(luò)與InceptionResNetV2網(wǎng)絡(luò)詳細比較
為了充分驗證本文網(wǎng)絡(luò)的泛化能力和魯棒性,選擇Xception、InceptionV3、MobileNet、ZFNet[23]作為對照網(wǎng)絡(luò),使用開源的Sign Language for Numbers 手勢數(shù)據(jù)集[20]進行驗證實驗。該數(shù)據(jù)集共有11 種不同分類,其中包括10 種手勢類別,代表數(shù)字0 到9;1 種非手勢類別,代表非數(shù)字手勢圖像。每種類別各有1 500 張灰色圖像,共有16 500 張灰色圖像,按照7∶2∶1 的比例隨機分為訓(xùn)練集、測試集和驗證集。數(shù)據(jù)集示例見圖9,比較實驗結(jié)果見表5。由于Sign Language for Numbers 手勢數(shù)據(jù)集中的背景比NUS-Ⅱ數(shù)據(jù)集簡單,類膚色背景因素干擾也較少,本文網(wǎng)絡(luò)識別準確率最高。
Fig.9 Sign Language for Numbers dataset example圖9 Sign Language for Numbers 數(shù)據(jù)集示例
Table 5 Results of the recognition accuracy of different networks on Sign Language for Numbers dataset表5 不同網(wǎng)絡(luò)對Sign Language for Numbers 數(shù)據(jù)集識別準確率比較
本文提出一種基于改進Xception 網(wǎng)絡(luò)的手勢識別方法,通過深度可分離卷積模塊的密集連接,在減少計算參數(shù)量的同時更加充分利用模型參數(shù);通過SE 模塊建模通道之間的相關(guān)性,重標定各個通道的重要性;融合特征金字塔結(jié)構(gòu),輸出同時包含淺層和深層語義的特征張量用于分類;使用數(shù)據(jù)實時增強、動態(tài)學(xué)習率更新等方法優(yōu)化網(wǎng)絡(luò)訓(xùn)練。實驗結(jié)果表明,本文網(wǎng)絡(luò)能夠適應(yīng)多種復(fù)雜背景因素干擾下的手勢識別任務(wù),在參數(shù)量較少的同時達到良好的識別準確率,兼顧了訓(xùn)練時間、模型大小、模型參數(shù)量和識別準確率之間的平衡。由于本文網(wǎng)絡(luò)是對Xception網(wǎng)絡(luò)進行改進的小型網(wǎng)絡(luò),后續(xù)將在保證準確率的同時通過模型剪枝等方法對其進行壓縮,以提高訓(xùn)練和檢測速度,并嘗試將其應(yīng)用于移動端進行手勢識別。