国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多尺度卷積神經(jīng)網(wǎng)絡(luò)模型的手勢(shì)圖像識(shí)別

2019-04-28 12:24:23袁榮尚羅曉曙
現(xiàn)代電子技術(shù) 2019年24期
關(guān)鍵詞:手勢(shì)識(shí)別卷積神經(jīng)網(wǎng)絡(luò)特征提取

袁榮尚 羅曉曙

摘要:為了解決目前利用CNN算法進(jìn)行手勢(shì)識(shí)別的精度不高的問題,提出一種新的算法。首先對(duì)識(shí)別的手勢(shì)圖片進(jìn)行二值化處理,濾除手勢(shì)的背景,凸顯手勢(shì)在圖像中的權(quán)重,背景對(duì)手勢(shì)識(shí)別影響降低。其次,在經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet的基礎(chǔ)上,提出一種多尺度卷積核的改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型。改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型采取兩種卷積核進(jìn)行手勢(shì)特征提取,利用多尺度卷積核和雙通道進(jìn)行特征融合,然后利用在不同角度,不同旋轉(zhuǎn)下拍攝的手勢(shì)圖像數(shù)據(jù)集對(duì)改選模型進(jìn)行實(shí)驗(yàn)驗(yàn)證。研究結(jié)果表明,提出的算法模型在不同的角度和不同的旋轉(zhuǎn)情況下對(duì)手勢(shì)圖像具有較高的識(shí)別率,算法的魯棒性、識(shí)別率方面有了明顯的提高。

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);卷積核;深度學(xué)習(xí);特征提取;手勢(shì)識(shí)別;二值化

中圖分類號(hào):TN915-34;TP391.4

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1004-373X(2019)24-0150-04

0 引言

近年來手勢(shì)識(shí)別成為一個(gè)重要的研究方向。目前,傳統(tǒng)的靜態(tài)手勢(shì)識(shí)別算法關(guān)鍵在于對(duì)手勢(shì)特征的提取,現(xiàn)在研究手勢(shì)的主要方法有模板匹配,楊麗等人提取的手勢(shì)分割,呂蕾等人提出數(shù)據(jù)手套方法,提高了手勢(shì)識(shí)別的識(shí)別率,但是手勢(shì)類別增加情況下識(shí)別率降低[1-3]。但是上述算法識(shí)別較為復(fù)雜,人工定義特征需要大量的經(jīng)驗(yàn),而且計(jì)算難度較大,借助外在硬件設(shè)備,操作難度較大。微軟開發(fā)的kinect可以提取手勢(shì)的深度信息,進(jìn)而進(jìn)行識(shí)別。在研究者的努力下手勢(shì)識(shí)別算法不斷突破,深度學(xué)習(xí)的出現(xiàn)在手勢(shì)識(shí)別領(lǐng)域有了一個(gè)突破性的進(jìn)展。其中卷積神經(jīng)網(wǎng)絡(luò)模型在圖像識(shí)別上具有較大的優(yōu)勢(shì),把整張圖片作為輸入,不需要人工定義的選擇特征,采用卷積核進(jìn)行局部特征提取,在全連接層將局部的特征進(jìn)行融合,及有監(jiān)督的訓(xùn)練,從而使手勢(shì)識(shí)別變得更加簡(jiǎn)單。缺點(diǎn)是,相對(duì)于傳統(tǒng)的算法,卷積神經(jīng)網(wǎng)絡(luò)需要更多的手勢(shì)數(shù)據(jù)集,采集大量手勢(shì)數(shù)據(jù)集的難度比較大。針對(duì)現(xiàn)有手勢(shì)數(shù)據(jù)集數(shù)量較少的問題,所以采用的數(shù)據(jù)集是自己在不同的光照環(huán)境,不同的傾斜程度下拍攝的,數(shù)據(jù)集數(shù)量為29 321張。

1 圖像的二值化原理和卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與原理

圖像的二值化[4]就是將圖像處理成有明顯的黑白效果,通過選取適當(dāng)?shù)拈撝?,獲取可以代表圖像整體特征的二值化圖像,當(dāng)圖像上的像素點(diǎn)大于設(shè)定閾值時(shí)判定屬于有效物體,否則就是無效。使整個(gè)圖片變得簡(jiǎn)單明了,但是可以代表圖像整體特征。采用最大類間方差法,其閾值確定標(biāo)準(zhǔn)公式如下:

卷積神經(jīng)網(wǎng)絡(luò)[5]是從BP神經(jīng)網(wǎng)絡(luò)發(fā)展而來,卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層、池化層、全連接層組成,具體功能描述如下:

卷積層是卷積神經(jīng)網(wǎng)絡(luò)的重要組成部分,卷積層利用卷積核對(duì)圖像進(jìn)行特征提取,采取局部連接的方式,將圖像特征分步提取,其參數(shù)共享機(jī)制大大減少了整個(gè)模型的參數(shù)量,使整個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型的計(jì)算量減少。卷積的公式可以表示為:

池化層[6]的池化的方式主要有平均池化和最大池化,它提取特征圖中比較重要的特征,降低特征圖像的維度,同時(shí)使輸出對(duì)位移和形變的敏感度降低,可以有效地防止過擬合。全連接層是將卷積神經(jīng)網(wǎng)絡(luò)的局部特征進(jìn)行融合,圖像的局部特征關(guān)聯(lián)比較密切,而距離較遠(yuǎn)的關(guān)聯(lián)程度較低。卷積神經(jīng)網(wǎng)絡(luò)模型先感知局部特征,然后通過全連接層將局部的特征進(jìn)行融合[7],全連接層公式為:

2 改進(jìn)的AlexNet卷積神經(jīng)網(wǎng)絡(luò)模型

在卷積神經(jīng)網(wǎng)絡(luò)模型中,第一層卷積會(huì)對(duì)輸入的圖像進(jìn)行特征提取,所以第一層卷積在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中的地位非常的重要。如果第一層的卷積對(duì)圖像的特征提取不夠充分,則整個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型沒有充分的特征輸入,不利于整個(gè)模型對(duì)圖像特征的深度提取和融合。

卷積核的大小在卷積神經(jīng)網(wǎng)絡(luò)模型提取圖像特征和對(duì)特征進(jìn)行融合時(shí)起到了非常重要的作用。卷積核太小對(duì)圖像特征的提取能力降低,卷積核太大提取圖像特征時(shí)會(huì)忽略細(xì)小的特征。所以在后續(xù)的卷積層中卷積核采取不同尺寸,AlexNet模型共有5個(gè)卷積層,采取單通道的方式進(jìn)行特征融合,本改進(jìn)模型采取雙通道,每一層的卷積核為5*5和3*3,并且每個(gè)卷積層在卷積后進(jìn)行級(jí)聯(lián),將級(jí)聯(lián)后的特征圖作為下一層卷積的輸入,為下層的卷積層提供更加豐富的特征信息,表1給出了改進(jìn)前后模型的詳細(xì)信息。

3 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證所提算法在手勢(shì)識(shí)別應(yīng)用上的效果,本文首先建立了手勢(shì)圖像數(shù)據(jù)集,然后用該數(shù)據(jù)集進(jìn)行手勢(shì)識(shí)別實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)條件是:Ubuntu16.04操作系統(tǒng),caffe框架,CPU為i7-6700K,GPU為NVIDIA-GTX 1070。solver文件設(shè)置:初始學(xué)習(xí)率設(shè)置為0.001,momentum設(shè)置為0.9,weight_decay設(shè)置為0.004,gamma設(shè)置為0.1,stepvalue設(shè)置為24 000,最大迭代次數(shù)設(shè)置為30 000。測(cè)試時(shí)batch_size設(shè)置為50,dropout_ratio設(shè)置為0.5。在訓(xùn)練時(shí)學(xué)習(xí)率的策略設(shè)置為multistep。

本文建立的數(shù)據(jù)集有21 606張訓(xùn)練圖片,7 715張測(cè)試圖片,共分為10類,每一類手勢(shì)訓(xùn)練圖片大約2 000張,測(cè)試圖片大約700張,手勢(shì)代表10種含義。圖片大小為227x227,對(duì)手勢(shì)圖像進(jìn)行自適應(yīng)的二值化處理,圖1是10種手勢(shì)的原始圖像,圖2是對(duì)原始圖像的二值化處理。

為了驗(yàn)證本算法在手勢(shì)識(shí)別上的應(yīng)用效果,本文設(shè)計(jì)了3組實(shí)驗(yàn),比較結(jié)果如表2~表4所示。

從表2可以看出,手勢(shì)圖像二值化后AlexNet模型的識(shí)別率有了明顯的提升;從表3可以看出,改進(jìn)的AlexNet模型可以提取更多的圖像特征。對(duì)圖像進(jìn)行二值化處理以后,避免了背景對(duì)手勢(shì)的干擾。改進(jìn)的網(wǎng)絡(luò)可以更加精細(xì)地提取手勢(shì)特征,從而避免對(duì)背景特征的提取,充分發(fā)揮改進(jìn)模型的網(wǎng)絡(luò)優(yōu)勢(shì)。因?yàn)閷?duì)手勢(shì)圖片進(jìn)行了處理,所以改進(jìn)模型有了更加準(zhǔn)確的手勢(shì)信息獲取,圖像信息能進(jìn)行更多層次的融合,所以在手勢(shì)數(shù)據(jù)集上具有更高的識(shí)別率,識(shí)別率提高約10.5%。

由表4列出的實(shí)驗(yàn)結(jié)果可知,本文提出的改進(jìn)算法的識(shí)別率達(dá)到96.64%,比其他算法識(shí)別率要高,且本文算法具有較強(qiáng)的魯棒性,當(dāng)手勢(shì)的旋轉(zhuǎn)角度不同,光照情況不同時(shí),對(duì)算法性能沒有影響。手勢(shì)圖像的識(shí)別時(shí)間有一定的差距。

4 結(jié)語

本文算法首先對(duì)圖片進(jìn)行預(yù)處理,然后利用提出的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行手勢(shì)識(shí)別。該模型采取兩個(gè)尺度的卷積核對(duì)圖像進(jìn)行特征提取,使模型的特征輸入更加豐富,采取兩個(gè)尺度的卷積核進(jìn)行特征融合,并且采取級(jí)聯(lián)的方式,為下一層的卷積提供更加豐富的信息。通過實(shí)驗(yàn)驗(yàn)證,改進(jìn)型的模型具有較高的手勢(shì)識(shí)別率;所提算法的識(shí)別時(shí)間相比于其他算法要長(zhǎng),是犧牲部分識(shí)別時(shí)間來換取識(shí)別率的上升,但是應(yīng)用于實(shí)際生活中的手勢(shì)識(shí)別還是可以達(dá)到要求的。

注:本文通訊作者為羅曉曙。

參考文獻(xiàn)

[1]楊麗,胡桂明,黃東芳,等,結(jié)合膚色分割和ELM算法的靜態(tài)手勢(shì)識(shí)別[J].廣西大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(2):444-450.

YANG Li. HU Guiming, HUANG Dongfang, et al.Static ges-ture recognition combined with skin color segmentation andELM algorithm [J]. Journal of Guangxi University (Natural sci-ence edition), 2015(2): 444-450.

[2]呂蕾,張金玲,朱英杰,等,一種基于數(shù)據(jù)手套的靜態(tài)手勢(shì)識(shí)別方法[J]計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2015( 12):2410-2418.

LU Lei. ZHANG Jinling, ZHU Yingjie, et al.A static gesturerecognition method based on data glove [J]. Journal of computeraided design and graphics, 2015(12): 2410-2418.

[3]鄧瑞,周玲玲,應(yīng)忍冬.基于Kinect深度信息的手勢(shì)提取與識(shí)別研究[J],計(jì)算機(jī)應(yīng)用研究,2013,30(4):1263-1265.

DENG Rui, ZHOU Lingling, YING Rendong. Gesture extrac-tion and recognition based on Kinect depth information [J].Computer applied research. 2013, 30(4): 1263-1265.

[4]張東波,陳治強(qiáng),易良玲,等.圖像微觀結(jié)構(gòu)的二值化表示與目標(biāo)識(shí)別應(yīng)用[J]電子與信息學(xué)報(bào),2018,40(3):633-640.

ZHANG Dongbo, CHEN Zhiqiang, YI Liangling, et al.Bina-rization representation of image microstructure and the applica-tion of object recognition [J]. Journal of electronics and informa-tion, 2018, 40(3) : 633-640.

[5] HUANG W. LENG J, DENG Z. CSF images fast recognitionmodel based on improved convolutional neural networks [Cl//International Conference on Automation, Mechanical Controland Computational Engineering. Ji'nan : [s.n.]: 2015 : 37-42.

[6] ZHANG Y Y, ZHAO D. SUN J D. et al. Adaptive convolution-al neural network and its application in face recognition [J].Neural processing letters . 2016. 43 ( 2) : 389-399.

[7] LU F, WU F, HU P. et al. Automatic 3D liver location andsegmentation via convolutional neural network and graph cut[J]. International journal of computer assisted radiology and sur-gery , 2017 . 12( 2) : 171-182.

[8] WANG Z, OATES T. Encoding time series as images for visualinspection and classification using tiled convolutional neuralnetworks [C]// Proceeding of 29th AAAI Conference on Artifi-cial Intelligence. Austin : AAAI. 2015: 1471-1475.

[9] VARKONYI K A R. TUSOR B. Human-computer interactionfor smart environment application using fuzzy hand posture andgesture models [Jl IEEE transactions on instrumentation andmeasurement . 201 l , 60( 5 ) : 1505-1514.

[10] YUN L, PENG Z. An aution hand gesture recognition systembased on vio-jones method and SVMs [C]// Proceedings of In-ternational Workshop on Computer Science and Engineering.Piscataway: IEEE. 2009: 72-76.

[11] QING C, GEORGANAS N D. PETRIU E M. Real-time vision-based hand gesture recognition using haar-like features[C]//Proceedings of IEEE International Conference on Instrumenta-tion and Measurement Technology. Piscataway : IEEE, 2007 :1-6.

[12] SATO Y. SATIO M. KOIKE H. Real-time input of 3D poseand gestures of a user' s hand and its applications for HCI[Cl// Proceedings of Virtual Reality Annual Internationl SVm-poisium. Piscataway : IEEE, 2001 : 79-86.

作者簡(jiǎn)介:袁榮尚(1993-),男,山東棗莊人,碩士,研究領(lǐng)域?yàn)閳D像處理、深度學(xué)習(xí)。

羅曉曙(1961-),男,湖北孝感人,博士,教授,研究領(lǐng)域?yàn)閳D像處理、深度學(xué)習(xí)。

猜你喜歡
手勢(shì)識(shí)別卷積神經(jīng)網(wǎng)絡(luò)特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
基于手勢(shì)識(shí)別的工業(yè)機(jī)器人操作控制方法
基于紅外的非接觸式手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)
基于嵌入式的智能手表設(shè)計(jì)
復(fù)雜背景下的手勢(shì)識(shí)別方法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識(shí)別的算法的研究
峨山| 汉源县| 景泰县| 望奎县| 洪泽县| 宣武区| 册亨县| 灌云县| 承德县| 水城县| 宁安市| 香格里拉县| 钦州市| 栾城县| 东阳市| 临桂县| 玛曲县| 岢岚县| 永定县| 清远市| 珠海市| 高雄县| 玛曲县| 贞丰县| 广丰县| 砀山县| 张北县| 峨眉山市| 宜川县| 新野县| 阿拉善左旗| 深州市| 湖北省| 通河县| 枣庄市| 荣昌县| 平谷区| 灵璧县| 安化县| 永修县| 宜丰县|