張璐,陶然,彭志飛,丁金洋
(東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201600)
近年來,隨著計(jì)算機(jī)視覺應(yīng)用技術(shù)的快速發(fā)展,國內(nèi)外的研究人員對人臉、表情、姿態(tài)、手勢等人機(jī)交互方面進(jìn)行了大量的研究[1]。較于其它交互方式,手勢具有更加直接、靈活、自然的特點(diǎn),因此手勢識(shí)別引起了研究者的極大關(guān)注[2]。由于當(dāng)下部分中小學(xué)生握筆手勢不規(guī)范,導(dǎo)致坐姿不標(biāo)準(zhǔn)、眼睛近視以及手指關(guān)節(jié)增生,對其身心健康造成了不良的影響[3]。
手勢分為靜態(tài)手勢以及動(dòng)態(tài)手勢識(shí)別兩種類型,本文僅對靜態(tài)手勢識(shí)別進(jìn)行研究,其關(guān)鍵技術(shù)分為手勢分割、手勢識(shí)別兩部分。薛俊韜[4]等人利用人體膚色的聚類特性,在YCbCr 空間構(gòu)建皮膚顏色分布模型,對手勢進(jìn)行分割,此顏色空間受光照等變化影響較小,膚色的聚類效果好,因此本文手勢分割算法基于此顏色空間。謝崢桂等人[5]首先對手勢圖像進(jìn)行手勢分割預(yù)處理,接著對處理后的圖像利用CNN 模型進(jìn)行特征提取和識(shí)別。文獻(xiàn)[6]基于卷積神經(jīng)網(wǎng)絡(luò)開發(fā)了OpenPose 模型,實(shí)現(xiàn)了人體關(guān)鍵點(diǎn)檢測以及骨架圖的繪制。Mazhar等人[7]基于OpenPose 模型構(gòu)建了手勢實(shí)時(shí)檢測人機(jī)交互系統(tǒng)。隨著深度學(xué)習(xí)的不斷發(fā)展,研究者們提出了多模態(tài)輸入的方法。文獻(xiàn)[8]中提出,將骨骼關(guān)節(jié)信息、深度圖像和RGB 圖像同時(shí)輸入至隱馬爾可夫模型的半監(jiān)督分層動(dòng)態(tài)框架,進(jìn)行手勢分割和識(shí)別。
綜上所述,本研究受到多模態(tài)的啟發(fā),提出基于改進(jìn)AlexNet 的雙模態(tài)握筆手勢識(shí)別方法,將握筆手勢分割圖像與骨架圖像同時(shí)輸入至增加了批標(biāo)準(zhǔn)化、注意力機(jī)制以及修改了卷積核大小的改進(jìn)AlexNet 中,進(jìn)行手勢分割和識(shí)別。
手勢分割[9]旨在將圖像中手勢區(qū)域和背景區(qū)域分離,從而將手勢從圖片中提取出來。目前,基于視覺的手勢分割方法主要有基于膚色的手勢分割方法、基于運(yùn)動(dòng)的手勢分割方法、基于輪廓的手勢分割方法等。由于手勢圖像是RGB 形式,光照變化會(huì)對膚色分割產(chǎn)生影響,不適合進(jìn)行膚色分割。而YCbCr 色彩空間膚色聚類效果好,可將RGB 圖像中的皮膚信息映射到Y(jié)CbCr 空間,通過判斷某點(diǎn)在YCbCr 空間的坐標(biāo)(Cb,Cr)是否在橢圓內(nèi),將膚色區(qū)域與背景部分區(qū)分開。
由于手勢分割后的圖像包含噪聲等,因此利用圖像增強(qiáng)技術(shù)改善圖像的視覺效果,突出圖像中計(jì)算機(jī)感興趣的部分。圖像增強(qiáng)[10]是利用數(shù)學(xué)形態(tài)學(xué)對圖像進(jìn)行處理,其中包括圖像腐蝕、膨脹、開運(yùn)算和閉運(yùn)算等。對圖像先腐蝕后膨脹的操作稱為開運(yùn)算,具有分離細(xì)小物體的作用。本文使用開運(yùn)算對握筆手勢分割圖像進(jìn)行圖像增強(qiáng),使其進(jìn)一步優(yōu)化。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[11]是由YannLeCun 于1988 年提出的一種深度前饋神經(jīng)網(wǎng)絡(luò),主要由卷積層、池化層和全連接層組成。AlexNet 是CNN 模型的歷史突破點(diǎn),之后的網(wǎng)絡(luò)模型都基于此進(jìn)行改進(jìn)。
AlexNet[12]是卷積神經(jīng)網(wǎng)絡(luò)最具代表性的模型之一,且在2012 舉行的ImageNet 大規(guī)模視覺識(shí)別挑戰(zhàn)比賽中獲勝。AlexNet 網(wǎng)絡(luò)由5 個(gè)卷積層、3 個(gè)全連接層組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 AlexNet network structure diagram
AlexNet 相比其它網(wǎng)絡(luò)具有的優(yōu)勢是:使用了ReLu激勵(lì)函數(shù)、Dropout、數(shù)據(jù)增強(qiáng)、最大池化以及局部響應(yīng)歸一化(Local Response Normalization,LRN)技術(shù)。
ReLu函數(shù)作為AlexNet 中的激活函數(shù),有效地防止訓(xùn)練圖像識(shí)別模型時(shí)出現(xiàn)過擬合問題;Dropout能夠使神經(jīng)元在訓(xùn)練過程中以一定的概率停止,避免了網(wǎng)絡(luò)模型的過擬合;最大池化解決了平均池化的模糊化問題,豐富了手勢圖像特征;數(shù)據(jù)增強(qiáng)通過截取手勢圖像方式,實(shí)現(xiàn)了圖像數(shù)據(jù)量的增加,從而防止過擬合問題的出現(xiàn),提升網(wǎng)絡(luò)的泛化能力;LRN則對當(dāng)前層的輸出結(jié)果做平滑處理,增強(qiáng)了網(wǎng)絡(luò)模型的泛化能力。
針對單模態(tài)卷積神經(jīng)網(wǎng)絡(luò)特征提取不充分的問題,本文提出了一種基于改進(jìn)AlexNet 的雙模態(tài)握筆手勢識(shí)別方法。即將握筆手勢分割圖像與骨架圖像輸入至改進(jìn)的AlexNet 中進(jìn)行特征提取、特征融合,最后利用Softmax 層對9 類握筆手勢進(jìn)行分類。
為了能夠更好地解決握筆手勢識(shí)別問題,本文對AlexNet 進(jìn)行了改進(jìn)。改進(jìn)的AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
圖2 改進(jìn)的AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Improved AlexNet network structure diagram
如圖2 所示,本文在卷積層之后添加批量歸一化(Batch Normalization,BN)與注意力機(jī)制。BN 層用來解決訓(xùn)練過程中識(shí)別率出現(xiàn)波動(dòng)大的問題,注意力機(jī)制則用來加強(qiáng)包含握筆手勢信息的特征圖,添加的注意力機(jī)制的結(jié)構(gòu)如圖3 所示。其次,修改了卷積核大小。為了適應(yīng)1 000種圖像的多分類問題,原AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)第一個(gè)卷積核的大小為11×11,而本文改進(jìn)的AlexNet 是用于9 種握筆手勢識(shí)別,因此將AlexNet 的第一層卷積核大小改為3×3,不僅能夠更好地獲取握筆手勢圖像特征分布,而且可以減少參數(shù)訓(xùn)練。本文將AlexNet 使用的隨機(jī)梯度下降法替換為自適應(yīng)時(shí)刻估計(jì)算法,以自適應(yīng)調(diào)整學(xué)習(xí)率,減少調(diào)參量。本文在有無LRN 層的模型上進(jìn)行測試,結(jié)果并無區(qū)別,因此刪除了LRN 層。
如圖3 所示,SE 模塊作用在通道尺度,給不同的通道特征進(jìn)行加權(quán)操作。對于輸入的C × H × W的特征圖,根據(jù)全局平均池化處理得到C個(gè)標(biāo)量,然后將輸出的結(jié)果通過2 個(gè)全連接層以及激勵(lì)函數(shù)得到權(quán)重。通過在每個(gè)通道的維度上學(xué)習(xí)、更新不同的權(quán)重,最終得到計(jì)算注意力的矩陣以加強(qiáng)重要特征。
圖3 SE 模塊結(jié)構(gòu)圖Fig.3 Structure of SE Module
由于單模態(tài)輸入提取特征不豐富,本文提出了雙模態(tài)輸入的方法,即對握筆手勢圖像進(jìn)行手勢分割以及骨架提取的2 種處理方式,獲取握筆手勢分割圖像與握筆手勢骨架圖像。其中骨架提取是在原圖上進(jìn)行的。
在對改進(jìn)AlexNet 網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練之前,先對握筆手勢分割圖像以及骨架圖像進(jìn)行數(shù)據(jù)增強(qiáng)處理,包括:旋轉(zhuǎn)、縮放、平移和尺度變換等;接著對數(shù)據(jù)集進(jìn)行尺度歸一化,得到224×224 的圖像;最后對處理后的圖像,利用改進(jìn)的AlexNet 網(wǎng)絡(luò)進(jìn)行特征提取、特征融合和手勢識(shí)別。雙模態(tài)握筆手勢識(shí)別框架圖如圖4 所示。
圖4 雙模態(tài)握筆手勢識(shí)別框架Fig.4 Bimodal pen-h(huán)olding gesture recognition frame diagram
先將雙模態(tài)握筆手勢圖像分別輸入至改進(jìn)AlexNet 網(wǎng)絡(luò)進(jìn)行特征提取、特征拼接后,進(jìn)行全連接操作,利用Softmax 層進(jìn)行分類,最后得到握筆手勢識(shí)別結(jié)果。
本文在對文獻(xiàn)資料[3]的研究基礎(chǔ)上,將握筆手勢分為9 種類型,其中包括:標(biāo)準(zhǔn)型、錯(cuò)位型、橫搭型、埋頭型、扭曲型、扭轉(zhuǎn)型、拳頭型、睡覺型和直線型。9 種握筆手勢的部分?jǐn)?shù)據(jù)集如圖5 所示。
圖5 9 種握筆手勢部分?jǐn)?shù)據(jù)集展示Fig.5 Data set display of nine pen-h(huán)olding gesture
由于握筆手勢沒有數(shù)據(jù)集,因此本文嚴(yán)格按照各種類型的標(biāo)準(zhǔn)在不同的角度、背景下自建數(shù)據(jù)集。每種手勢有900 張,共計(jì)8 100 張。訓(xùn)練集、測試集與驗(yàn)證集以6:2:2 的比例進(jìn)行劃分。接著對握筆手勢圖像進(jìn)行分割、骨架提取2 種處理方式,獲取2 種不同模式的圖像,即雙模態(tài)圖像,雙模態(tài)握筆手勢數(shù)據(jù)集的制作過程如圖6 所示。由于數(shù)據(jù)集數(shù)量的限制,本文對雙模態(tài)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理。其中包括:旋轉(zhuǎn)、縮放變換、平移變換和尺度變換等,使得握筆手勢數(shù)據(jù)集更加豐富、有效。
圖6 雙模態(tài)數(shù)據(jù)集制作流程Fig.6 Production process of bimodal data set
首先對握筆手勢圖像利用顏色空間轉(zhuǎn)換、橢圓膚色模型分割、開運(yùn)算去噪技術(shù)進(jìn)行握筆手勢分割,得到握筆手勢分割圖像;同時(shí)利用OpenPose 手部模型進(jìn)行骨架提取,得到握筆手勢骨架圖像;最后綜合得到雙模態(tài)握筆手勢數(shù)據(jù)集。
為了評估本算法的優(yōu)越性,本文對網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整后,進(jìn)行了3 組對比實(shí)驗(yàn)。網(wǎng)絡(luò)參數(shù)首先在改進(jìn)AlexNet 網(wǎng)絡(luò)的基礎(chǔ)上對參數(shù)進(jìn)行設(shè)置。首先對比了batch 的大小對網(wǎng)絡(luò)訓(xùn)練的結(jié)果,通過設(shè)置batch為16、32、64,得到3 種識(shí)別率的變化,對3 種識(shí)別率進(jìn)行分析。在batch為64 的情況下,識(shí)別率高、收斂速度快且波動(dòng)?。唤又鴮Ρ攘说螖?shù)為100 和150 的情況,結(jié)果表明,迭代次數(shù)為150時(shí),識(shí)別率更加穩(wěn)定;最后對比了Dropout 系數(shù)為0.5 和0.8 的情況,選擇了0.5 進(jìn)行實(shí)驗(yàn),此時(shí)識(shí)別率波動(dòng)小,收斂速度較快。在此基礎(chǔ)上,本文設(shè)置了3 組對比實(shí)驗(yàn)。
3.2.1 第一組實(shí)驗(yàn)
在改進(jìn)的AlexNet 中進(jìn)行。在其它參數(shù)不變的情況下,對只添加BN 層與只添加SE 模塊進(jìn)行對比,結(jié)果如圖7、圖8 所示。
由圖7、圖8 的識(shí)別率結(jié)果可見,只添加BN 層的識(shí)別率波動(dòng)小,但是識(shí)別率較低;添加了注意力機(jī)制的識(shí)別率雖然相對于只添加BN 層的識(shí)別率高,但識(shí)別率變化起伏波動(dòng)大。
圖7 只添加BN 層的識(shí)別率Fig.7 Add only recognition rate of BN layer
圖8 只添加SE 模塊的識(shí)別率Fig.8 Add only recognition rate of SE
3.2.2 第二組實(shí)驗(yàn)
將握筆手勢分割圖像、握筆手勢骨架圖像和雙模態(tài)圖像輸入至改進(jìn)AlexNet 網(wǎng)絡(luò),對識(shí)別效果進(jìn)行比較如圖9 所示。同時(shí),還比較了不同迭代次數(shù)下的識(shí)別準(zhǔn)確率。
通過圖9 可以發(fā)現(xiàn),握筆手勢分割圖像的識(shí)別率比骨架圖像、以及雙輸入圖像的識(shí)別率低。由于采用握筆手勢分割圖像進(jìn)行識(shí)別時(shí),手勢遮擋使得手指的分割結(jié)果不明顯;骨架圖像盡管因?yàn)椴糠终趽鯇?dǎo)致提取不完整,但是因?yàn)橥活愋偷墓羌軋D像提取都有一些缺失,且有原圖特征補(bǔ)充,因此骨架圖像的識(shí)別率比分割圖像的識(shí)別率高;而雙模態(tài)圖像綜合了握筆手勢分割圖像、骨架圖像以及原始圖像的特征,使得其識(shí)別率高于握筆手勢分割圖像、骨架圖像。
圖9 不同迭代次數(shù)下握筆手勢分割圖、骨架圖以及雙模態(tài)圖像的識(shí)別率Fig.9 Recognition rates of pen-h(huán)olding gesture segmentation image,skeleton image and bimodal images with different iteration times
3.2.3 第三組實(shí)驗(yàn)
比較了本文模型與AlexNet 模型以及文獻(xiàn)[13]中提出的改進(jìn)AlexNet 模型的識(shí)別精度,用于驗(yàn)證本文改進(jìn)的AlexNet 模型在特征提取能力上和識(shí)別準(zhǔn)確率上的提高,實(shí)驗(yàn)結(jié)果如圖10 所示。
圖10 不同迭代次數(shù)下雙模態(tài)圖像輸入至3 種網(wǎng)絡(luò)的識(shí)別率Fig.10 Recognition rate of bimodal images input to three networks with different iteration times
由圖10 可知,3 種模型的對比,發(fā)現(xiàn)本文模型的識(shí)別率高于AlexNet 以及文獻(xiàn)[13]中改進(jìn)的AlexNet 模型。由于AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)第一個(gè)卷積層是11×11、無注意力機(jī)制,使得提取的特征不夠豐富有效,且卷積層之后沒有添加BN 層,使得識(shí)別率波動(dòng)大;文獻(xiàn)[13]中雖然提出了添加BN 層以及調(diào)參的方法,但是沒有添加注意力機(jī)制,使得握筆手勢圖像的重要特征沒有被關(guān)注。
基于改進(jìn)AlexNet 的雙模態(tài)握筆手勢識(shí)別的準(zhǔn)確率,相比單模態(tài)以及其它網(wǎng)絡(luò)結(jié)構(gòu)有明顯提升。同時(shí),不同迭代次數(shù)產(chǎn)生的識(shí)別效果也有所差別。針對本實(shí)驗(yàn)所采用的雙模態(tài)握筆手勢數(shù)據(jù)集及其預(yù)處理操作,迭代次數(shù)為150 的時(shí)候所獲得的識(shí)別效果最好。該實(shí)驗(yàn)結(jié)果表明,本文提出的模型通過對雙模態(tài)握筆手勢數(shù)據(jù)集進(jìn)行特征提取,能夠獲得相比于單模態(tài)數(shù)據(jù)集更加豐富的特征信息,融合這些特征對握筆手勢圖像進(jìn)行分類,能夠有效提高卷積神經(jīng)網(wǎng)絡(luò)的靜態(tài)握筆手勢識(shí)別準(zhǔn)確率。
近年來,關(guān)于握筆手勢的理論研究很多,但是相關(guān)人工智能方面的實(shí)踐卻很少。且當(dāng)下部分中小學(xué)生握筆手勢不標(biāo)準(zhǔn),導(dǎo)致坐姿不健康的同時(shí)致使眼睛近視、頸椎彎曲以及手指關(guān)節(jié)增生等問題,對其未來身心健康的發(fā)展造成不良的影響。本文初步研究了握筆手勢的識(shí)別,受到多模態(tài)的啟發(fā),提出了一種AlexNet 優(yōu)化與雙模態(tài)的握筆手勢識(shí)別方法,同時(shí)自建了握筆手勢數(shù)據(jù)集,實(shí)現(xiàn)了9 種握筆手勢識(shí)別。未來將進(jìn)一步擴(kuò)充握筆手勢數(shù)據(jù)集的同時(shí)研究動(dòng)態(tài)的握筆手勢識(shí)別。