基于改進(jìn)AlexNet 的雙模態(tài)握筆手勢識(shí)別

2021-12-17 00:56張璐陶然彭志飛丁金洋

智能計(jì)算機(jī)與應(yīng)用 2021年6期

張璐，陶然，彭志飛，丁金洋

（東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，上海 201600）

0 引言

近年來，隨著計(jì)算機(jī)視覺應(yīng)用技術(shù)的快速發(fā)展，國內(nèi)外的研究人員對人臉、表情、姿態(tài)、手勢等人機(jī)交互方面進(jìn)行了大量的研究［1］。較于其它交互方式，手勢具有更加直接、靈活、自然的特點(diǎn)，因此手勢識(shí)別引起了研究者的極大關(guān)注［2］。由于當(dāng)下部分中小學(xué)生握筆手勢不規(guī)范，導(dǎo)致坐姿不標(biāo)準(zhǔn)、眼睛近視以及手指關(guān)節(jié)增生，對其身心健康造成了不良的影響［3］。

手勢分為靜態(tài)手勢以及動(dòng)態(tài)手勢識(shí)別兩種類型，本文僅對靜態(tài)手勢識(shí)別進(jìn)行研究，其關(guān)鍵技術(shù)分為手勢分割、手勢識(shí)別兩部分。薛俊韜［4］等人利用人體膚色的聚類特性，在YCbCr 空間構(gòu)建皮膚顏色分布模型，對手勢進(jìn)行分割，此顏色空間受光照等變化影響較小，膚色的聚類效果好，因此本文手勢分割算法基于此顏色空間。謝崢桂等人［5］首先對手勢圖像進(jìn)行手勢分割預(yù)處理，接著對處理后的圖像利用CNN 模型進(jìn)行特征提取和識(shí)別。文獻(xiàn)［6］基于卷積神經(jīng)網(wǎng)絡(luò)開發(fā)了OpenPose 模型，實(shí)現(xiàn)了人體關(guān)鍵點(diǎn)檢測以及骨架圖的繪制。Mazhar等人［7］基于OpenPose 模型構(gòu)建了手勢實(shí)時(shí)檢測人機(jī)交互系統(tǒng)。隨著深度學(xué)習(xí)的不斷發(fā)展，研究者們提出了多模態(tài)輸入的方法。文獻(xiàn)［8］中提出，將骨骼關(guān)節(jié)信息、深度圖像和RGB 圖像同時(shí)輸入至隱馬爾可夫模型的半監(jiān)督分層動(dòng)態(tài)框架，進(jìn)行手勢分割和識(shí)別。

綜上所述，本研究受到多模態(tài)的啟發(fā)，提出基于改進(jìn)AlexNet 的雙模態(tài)握筆手勢識(shí)別方法，將握筆手勢分割圖像與骨架圖像同時(shí)輸入至增加了批標(biāo)準(zhǔn)化、注意力機(jī)制以及修改了卷積核大小的改進(jìn)AlexNet 中，進(jìn)行手勢分割和識(shí)別。

1 相關(guān)工作

1.1 手勢分割

手勢分割［9］旨在將圖像中手勢區(qū)域和背景區(qū)域分離，從而將手勢從圖片中提取出來。目前，基于視覺的手勢分割方法主要有基于膚色的手勢分割方法、基于運(yùn)動(dòng)的手勢分割方法、基于輪廓的手勢分割方法等。由于手勢圖像是RGB 形式，光照變化會(huì)對膚色分割產(chǎn)生影響，不適合進(jìn)行膚色分割。而YCbCr 色彩空間膚色聚類效果好，可將RGB 圖像中的皮膚信息映射到Y(jié)CbCr 空間，通過判斷某點(diǎn)在YCbCr 空間的坐標(biāo)（Cb，Cr）是否在橢圓內(nèi)，將膚色區(qū)域與背景部分區(qū)分開。

由于手勢分割后的圖像包含噪聲等，因此利用圖像增強(qiáng)技術(shù)改善圖像的視覺效果，突出圖像中計(jì)算機(jī)感興趣的部分。圖像增強(qiáng)［10］是利用數(shù)學(xué)形態(tài)學(xué)對圖像進(jìn)行處理，其中包括圖像腐蝕、膨脹、開運(yùn)算和閉運(yùn)算等。對圖像先腐蝕后膨脹的操作稱為開運(yùn)算，具有分離細(xì)小物體的作用。本文使用開運(yùn)算對握筆手勢分割圖像進(jìn)行圖像增強(qiáng)，使其進(jìn)一步優(yōu)化。

1.2 AlexNet 簡介

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）［11］是由YannLeCun 于1988 年提出的一種深度前饋神經(jīng)網(wǎng)絡(luò)，主要由卷積層、池化層和全連接層組成。AlexNet 是CNN 模型的歷史突破點(diǎn)，之后的網(wǎng)絡(luò)模型都基于此進(jìn)行改進(jìn)。

AlexNet［12］是卷積神經(jīng)網(wǎng)絡(luò)最具代表性的模型之一，且在2012 舉行的ImageNet 大規(guī)模視覺識(shí)別挑戰(zhàn)比賽中獲勝。AlexNet 網(wǎng)絡(luò)由5 個(gè)卷積層、3 個(gè)全連接層組成，其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

圖1 AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 AlexNet network structure diagram

AlexNet 相比其它網(wǎng)絡(luò)具有的優(yōu)勢是：使用了ReLu激勵(lì)函數(shù)、Dropout、數(shù)據(jù)增強(qiáng)、最大池化以及局部響應(yīng)歸一化（Local Response Normalization，LRN）技術(shù)。

ReLu函數(shù)作為AlexNet 中的激活函數(shù)，有效地防止訓(xùn)練圖像識(shí)別模型時(shí)出現(xiàn)過擬合問題；Dropout能夠使神經(jīng)元在訓(xùn)練過程中以一定的概率停止，避免了網(wǎng)絡(luò)模型的過擬合；最大池化解決了平均池化的模糊化問題，豐富了手勢圖像特征；數(shù)據(jù)增強(qiáng)通過截取手勢圖像方式，實(shí)現(xiàn)了圖像數(shù)據(jù)量的增加，從而防止過擬合問題的出現(xiàn)，提升網(wǎng)絡(luò)的泛化能力；LRN則對當(dāng)前層的輸出結(jié)果做平滑處理，增強(qiáng)了網(wǎng)絡(luò)模型的泛化能力。

2 改進(jìn)的AlexNet 雙模態(tài)握筆手勢識(shí)別方法

針對單模態(tài)卷積神經(jīng)網(wǎng)絡(luò)特征提取不充分的問題，本文提出了一種基于改進(jìn)AlexNet 的雙模態(tài)握筆手勢識(shí)別方法。即將握筆手勢分割圖像與骨架圖像輸入至改進(jìn)的AlexNet 中進(jìn)行特征提取、特征融合，最后利用Softmax 層對9 類握筆手勢進(jìn)行分類。

2.1 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

為了能夠更好地解決握筆手勢識(shí)別問題，本文對AlexNet 進(jìn)行了改進(jìn)。改進(jìn)的AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。

圖2 改進(jìn)的AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Improved AlexNet network structure diagram

如圖2 所示，本文在卷積層之后添加批量歸一化（Batch Normalization，BN）與注意力機(jī)制。BN 層用來解決訓(xùn)練過程中識(shí)別率出現(xiàn)波動(dòng)大的問題，注意力機(jī)制則用來加強(qiáng)包含握筆手勢信息的特征圖，添加的注意力機(jī)制的結(jié)構(gòu)如圖3 所示。其次，修改了卷積核大小。為了適應(yīng)1 000種圖像的多分類問題，原AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)第一個(gè)卷積核的大小為11×11，而本文改進(jìn)的AlexNet 是用于9 種握筆手勢識(shí)別，因此將AlexNet 的第一層卷積核大小改為3×3，不僅能夠更好地獲取握筆手勢圖像特征分布，而且可以減少參數(shù)訓(xùn)練。本文將AlexNet 使用的隨機(jī)梯度下降法替換為自適應(yīng)時(shí)刻估計(jì)算法，以自適應(yīng)調(diào)整學(xué)習(xí)率，減少調(diào)參量。本文在有無LRN 層的模型上進(jìn)行測試，結(jié)果并無區(qū)別，因此刪除了LRN 層。

如圖3 所示，SE 模塊作用在通道尺度，給不同的通道特征進(jìn)行加權(quán)操作。對于輸入的C × H × W的特征圖，根據(jù)全局平均池化處理得到C個(gè)標(biāo)量，然后將輸出的結(jié)果通過2 個(gè)全連接層以及激勵(lì)函數(shù)得到權(quán)重。通過在每個(gè)通道的維度上學(xué)習(xí)、更新不同的權(quán)重，最終得到計(jì)算注意力的矩陣以加強(qiáng)重要特征。

圖3 SE 模塊結(jié)構(gòu)圖Fig.3 Structure of SE Module

2.2 基于改進(jìn)AlexNet 的雙模態(tài)握筆手勢識(shí)別

由于單模態(tài)輸入提取特征不豐富，本文提出了雙模態(tài)輸入的方法，即對握筆手勢圖像進(jìn)行手勢分割以及骨架提取的2 種處理方式，獲取握筆手勢分割圖像與握筆手勢骨架圖像。其中骨架提取是在原圖上進(jìn)行的。

在對改進(jìn)AlexNet 網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練之前，先對握筆手勢分割圖像以及骨架圖像進(jìn)行數(shù)據(jù)增強(qiáng)處理，包括：旋轉(zhuǎn)、縮放、平移和尺度變換等；接著對數(shù)據(jù)集進(jìn)行尺度歸一化，得到224×224 的圖像；最后對處理后的圖像，利用改進(jìn)的AlexNet 網(wǎng)絡(luò)進(jìn)行特征提取、特征融合和手勢識(shí)別。雙模態(tài)握筆手勢識(shí)別框架圖如圖4 所示。

圖4 雙模態(tài)握筆手勢識(shí)別框架Fig.4 Bimodal pen－h(huán)olding gesture recognition frame diagram

先將雙模態(tài)握筆手勢圖像分別輸入至改進(jìn)AlexNet 網(wǎng)絡(luò)進(jìn)行特征提取、特征拼接后，進(jìn)行全連接操作，利用Softmax 層進(jìn)行分類，最后得到握筆手勢識(shí)別結(jié)果。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 雙模態(tài)握筆手勢數(shù)據(jù)集的建立

本文在對文獻(xiàn)資料［3］的研究基礎(chǔ)上，將握筆手勢分為9 種類型，其中包括：標(biāo)準(zhǔn)型、錯(cuò)位型、橫搭型、埋頭型、扭曲型、扭轉(zhuǎn)型、拳頭型、睡覺型和直線型。9 種握筆手勢的部分?jǐn)?shù)據(jù)集如圖5 所示。

圖5 9 種握筆手勢部分?jǐn)?shù)據(jù)集展示Fig.5 Data set display of nine pen－h(huán)olding gesture

由于握筆手勢沒有數(shù)據(jù)集，因此本文嚴(yán)格按照各種類型的標(biāo)準(zhǔn)在不同的角度、背景下自建數(shù)據(jù)集。每種手勢有900 張，共計(jì)8 100 張。訓(xùn)練集、測試集與驗(yàn)證集以6：2：2 的比例進(jìn)行劃分。接著對握筆手勢圖像進(jìn)行分割、骨架提取2 種處理方式，獲取2 種不同模式的圖像，即雙模態(tài)圖像，雙模態(tài)握筆手勢數(shù)據(jù)集的制作過程如圖6 所示。由于數(shù)據(jù)集數(shù)量的限制，本文對雙模態(tài)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理。其中包括：旋轉(zhuǎn)、縮放變換、平移變換和尺度變換等，使得握筆手勢數(shù)據(jù)集更加豐富、有效。

圖6 雙模態(tài)數(shù)據(jù)集制作流程Fig.6 Production process of bimodal data set

首先對握筆手勢圖像利用顏色空間轉(zhuǎn)換、橢圓膚色模型分割、開運(yùn)算去噪技術(shù)進(jìn)行握筆手勢分割，得到握筆手勢分割圖像；同時(shí)利用OpenPose 手部模型進(jìn)行骨架提取，得到握筆手勢骨架圖像；最后綜合得到雙模態(tài)握筆手勢數(shù)據(jù)集。

3.2 實(shí)驗(yàn)與對比

為了評估本算法的優(yōu)越性，本文對網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整后，進(jìn)行了3 組對比實(shí)驗(yàn)。網(wǎng)絡(luò)參數(shù)首先在改進(jìn)AlexNet 網(wǎng)絡(luò)的基礎(chǔ)上對參數(shù)進(jìn)行設(shè)置。首先對比了batch 的大小對網(wǎng)絡(luò)訓(xùn)練的結(jié)果，通過設(shè)置batch為16、32、64，得到3 種識(shí)別率的變化，對3 種識(shí)別率進(jìn)行分析。在batch為64 的情況下，識(shí)別率高、收斂速度快且波動(dòng)?。唤又鴮Ρ攘说螖?shù)為100 和150 的情況，結(jié)果表明，迭代次數(shù)為150時(shí)，識(shí)別率更加穩(wěn)定；最后對比了Dropout 系數(shù)為0.5 和0.8 的情況，選擇了0.5 進(jìn)行實(shí)驗(yàn)，此時(shí)識(shí)別率波動(dòng)小，收斂速度較快。在此基礎(chǔ)上，本文設(shè)置了3 組對比實(shí)驗(yàn)。

3.2.1 第一組實(shí)驗(yàn)

在改進(jìn)的AlexNet 中進(jìn)行。在其它參數(shù)不變的情況下，對只添加BN 層與只添加SE 模塊進(jìn)行對比，結(jié)果如圖7、圖8 所示。

由圖7、圖8 的識(shí)別率結(jié)果可見，只添加BN 層的識(shí)別率波動(dòng)小，但是識(shí)別率較低；添加了注意力機(jī)制的識(shí)別率雖然相對于只添加BN 層的識(shí)別率高，但識(shí)別率變化起伏波動(dòng)大。

圖7 只添加BN 層的識(shí)別率Fig.7 Add only recognition rate of BN layer

圖8 只添加SE 模塊的識(shí)別率Fig.8 Add only recognition rate of SE

3.2.2 第二組實(shí)驗(yàn)

將握筆手勢分割圖像、握筆手勢骨架圖像和雙模態(tài)圖像輸入至改進(jìn)AlexNet 網(wǎng)絡(luò)，對識(shí)別效果進(jìn)行比較如圖9 所示。同時(shí)，還比較了不同迭代次數(shù)下的識(shí)別準(zhǔn)確率。

通過圖9 可以發(fā)現(xiàn)，握筆手勢分割圖像的識(shí)別率比骨架圖像、以及雙輸入圖像的識(shí)別率低。由于采用握筆手勢分割圖像進(jìn)行識(shí)別時(shí)，手勢遮擋使得手指的分割結(jié)果不明顯；骨架圖像盡管因?yàn)椴糠终趽鯇?dǎo)致提取不完整，但是因?yàn)橥活愋偷墓羌軋D像提取都有一些缺失，且有原圖特征補(bǔ)充，因此骨架圖像的識(shí)別率比分割圖像的識(shí)別率高；而雙模態(tài)圖像綜合了握筆手勢分割圖像、骨架圖像以及原始圖像的特征，使得其識(shí)別率高于握筆手勢分割圖像、骨架圖像。

圖9 不同迭代次數(shù)下握筆手勢分割圖、骨架圖以及雙模態(tài)圖像的識(shí)別率Fig.9 Recognition rates of pen－h(huán)olding gesture segmentation image，skeleton image and bimodal images with different iteration times

3.2.3 第三組實(shí)驗(yàn)

比較了本文模型與AlexNet 模型以及文獻(xiàn)［13］中提出的改進(jìn)AlexNet 模型的識(shí)別精度，用于驗(yàn)證本文改進(jìn)的AlexNet 模型在特征提取能力上和識(shí)別準(zhǔn)確率上的提高，實(shí)驗(yàn)結(jié)果如圖10 所示。

圖10 不同迭代次數(shù)下雙模態(tài)圖像輸入至3 種網(wǎng)絡(luò)的識(shí)別率Fig.10 Recognition rate of bimodal images input to three networks with different iteration times

由圖10 可知，3 種模型的對比，發(fā)現(xiàn)本文模型的識(shí)別率高于AlexNet 以及文獻(xiàn)［13］中改進(jìn)的AlexNet 模型。由于AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)第一個(gè)卷積層是11×11、無注意力機(jī)制，使得提取的特征不夠豐富有效，且卷積層之后沒有添加BN 層，使得識(shí)別率波動(dòng)大；文獻(xiàn)［13］中雖然提出了添加BN 層以及調(diào)參的方法，但是沒有添加注意力機(jī)制，使得握筆手勢圖像的重要特征沒有被關(guān)注。

基于改進(jìn)AlexNet 的雙模態(tài)握筆手勢識(shí)別的準(zhǔn)確率，相比單模態(tài)以及其它網(wǎng)絡(luò)結(jié)構(gòu)有明顯提升。同時(shí)，不同迭代次數(shù)產(chǎn)生的識(shí)別效果也有所差別。針對本實(shí)驗(yàn)所采用的雙模態(tài)握筆手勢數(shù)據(jù)集及其預(yù)處理操作，迭代次數(shù)為150 的時(shí)候所獲得的識(shí)別效果最好。該實(shí)驗(yàn)結(jié)果表明，本文提出的模型通過對雙模態(tài)握筆手勢數(shù)據(jù)集進(jìn)行特征提取，能夠獲得相比于單模態(tài)數(shù)據(jù)集更加豐富的特征信息，融合這些特征對握筆手勢圖像進(jìn)行分類，能夠有效提高卷積神經(jīng)網(wǎng)絡(luò)的靜態(tài)握筆手勢識(shí)別準(zhǔn)確率。

4 結(jié)束語

近年來，關(guān)于握筆手勢的理論研究很多，但是相關(guān)人工智能方面的實(shí)踐卻很少。且當(dāng)下部分中小學(xué)生握筆手勢不標(biāo)準(zhǔn)，導(dǎo)致坐姿不健康的同時(shí)致使眼睛近視、頸椎彎曲以及手指關(guān)節(jié)增生等問題，對其未來身心健康的發(fā)展造成不良的影響。本文初步研究了握筆手勢的識(shí)別，受到多模態(tài)的啟發(fā)，提出了一種AlexNet 優(yōu)化與雙模態(tài)的握筆手勢識(shí)別方法，同時(shí)自建了握筆手勢數(shù)據(jù)集，實(shí)現(xiàn)了9 種握筆手勢識(shí)別。未來將進(jìn)一步擴(kuò)充握筆手勢數(shù)據(jù)集的同時(shí)研究動(dòng)態(tài)的握筆手勢識(shí)別。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡