国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究

2018-02-01 00:33解駿陳瑋
軟件導(dǎo)刊 2018年1期
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)人臉識(shí)別

解駿+陳瑋

摘要:傳統(tǒng)的人臉識(shí)別多采用淺層結(jié)構(gòu)提取人臉特征,這類方法提取人臉圖像能力有限,效果相對(duì)較差。針對(duì)上述缺陷,提出基于卷積神經(jīng)網(wǎng)絡(luò)的高效識(shí)別人臉?lè)椒?。該方法所設(shè)計(jì)的模型,結(jié)合了VGGNet模型的層次結(jié)構(gòu)優(yōu)勢(shì)并融合跨層次結(jié)構(gòu)的上采樣特征,大大提高了人臉識(shí)別的準(zhǔn)確性及識(shí)別精度。該模型在Caffe下訓(xùn)練出樣本集后在MATLAB上得到了驗(yàn)證。

關(guān)鍵詞:人臉識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);Ubuntu Caffe;MATLAB

DOIDOI:10.11907/rjdk.172221

中圖分類號(hào):TP301

文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)001002503

Abstract:Traditional face recognition uses shallow structure to extract facial features.This method has limited ability to extract face images, and the effect is relatively poor.With the development of cognitive science and brain science, an efficient face recognition method based on convolutional neural network is proposed.The proposed model combines the hierarchical structure of VGGNet model and combines the sampled features across hierarchical structures,after the model is trained under Caffe, the result is verified on MATLAB.This method greatly improves the accuracy of face recognition and improves the recognition accuracy.

Key Words:face recognition; convolutional neural network; Ubuntu Caffe; MATLAB

0引言

卷積神經(jīng)網(wǎng)絡(luò)是近年發(fā)展起來(lái)的一種高效識(shí)別方法。20世紀(jì)60年代,Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時(shí),發(fā)現(xiàn)其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,繼而提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡(jiǎn)稱CNN)?,F(xiàn)在,CNN已成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)之一,特別是在模式分類領(lǐng)域,由于該網(wǎng)絡(luò)避免了圖像前期復(fù)雜的預(yù)處理,可直接輸入原始圖像,因而得到了廣泛的應(yīng)用[1]。K.Fukushima在1980年首次提出了新識(shí)別機(jī)制,隨后很多科研工作者對(duì)該網(wǎng)絡(luò)進(jìn)行了改進(jìn)[23]。

1神經(jīng)網(wǎng)絡(luò)

1.1淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)

淺層網(wǎng)絡(luò)通常也叫做傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)來(lái)源于嘗試尋找生物系統(tǒng)信息處理的數(shù)字表示(McCulloch and Pitts,1943;Widrow and Hoff,1960;Rosenblatt,1962;Rumelhart et al.,1986)。這個(gè)模型被廣泛使用,許多模型過(guò)分夸張地宣稱其具有生物的可信性[4]。然而,從模式識(shí)別的應(yīng)用角度來(lái)說(shuō),模仿生物的真實(shí)性會(huì)帶來(lái)相當(dāng)多的限制。因此,應(yīng)著重研究作為統(tǒng)計(jì)模式識(shí)別的高效神經(jīng)網(wǎng)絡(luò),即多層感知器[5]。

1.2卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一個(gè)多層神經(jīng)網(wǎng)絡(luò),但不同于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),每一層上都會(huì)有許多的二維平面,并且這些二維平面都含有獨(dú)立的神經(jīng)元,大致結(jié)構(gòu)如圖1所示[6]。

圖1給定一副輸入圖像,C1層就是卷積神經(jīng)網(wǎng)絡(luò)中非常特殊的卷積層??梢钥吹捷斎雸D像經(jīng)過(guò)C1層得到了3張?zhí)卣饔成鋱D,這是因?yàn)樵贑1層上人為設(shè)定了3個(gè)不同的卷積核,每一張?zhí)卣饔成鋱D都對(duì)應(yīng)于卷積核中的權(quán)重[79]。S2層是卷積神經(jīng)網(wǎng)中常見(jiàn)的下采樣層,它通過(guò)一個(gè)固定窗口對(duì)特征圖像進(jìn)行聚合統(tǒng)計(jì),實(shí)現(xiàn)特征圖像分辨率的下采樣。同理,C3層獲取更抽象的特征圖,S4層繼續(xù)下采樣降低學(xué)習(xí)難度。最終網(wǎng)絡(luò)的最后一層或幾層設(shè)計(jì)成全連接層,目的是為了提取更少、更好的特征將其提供給分類器[1011]。

在卷積神經(jīng)網(wǎng)絡(luò)中,圖1的C層作為特征提取層,該層上輸出的每一個(gè)神經(jīng)元與上一層中的局部相連,其值就是上一層中的特征映射值。這樣的局部特征只要提取出來(lái),它相對(duì)于其它特征的空間位置關(guān)系也會(huì)確定下來(lái)。S層是特征值下采樣層,對(duì)C層輸出的特征映射圖中的特征值進(jìn)行聚合統(tǒng)計(jì)[78]。在卷積神經(jīng)網(wǎng)絡(luò)中C層和S層的共同作用下,輸入圖像的特征映射結(jié)果具有位移不變性。

由于一個(gè)映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù),降低了網(wǎng)絡(luò)參數(shù)選擇的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)中的每一個(gè)特征提取層(C層)都緊跟一個(gè)用來(lái)求局部平均與二次提取的計(jì)算層(S層),這種特有的兩次特征提取結(jié)構(gòu),使網(wǎng)絡(luò)在識(shí)別時(shí)對(duì)輸入樣本有較高的畸變?nèi)萑棠芰1213]。

2深度學(xué)習(xí)框架—Caffe

Caffe支持命令行、python和MATLAB接口,核心語(yǔ)言是C++,它是一種操作簡(jiǎn)單、執(zhí)行效率高的深度學(xué)習(xí)框架,可在CPU和GPU之間無(wú)縫切換,其創(chuàng)始人是賈楊清。Caffe問(wèn)世至今,由于它在使用上簡(jiǎn)潔方便,執(zhí)行上效率高效,實(shí)現(xiàn)上有著清晰的分層網(wǎng)絡(luò)定義,具有較強(qiáng)的可讀性、可移植性和結(jié)構(gòu)化等特點(diǎn),使其在深度學(xué)習(xí)領(lǐng)域廣受青睞。

2.1Caffe特點(diǎn)endprint

(1)模塊化。模塊化設(shè)計(jì)可達(dá)到對(duì)網(wǎng)絡(luò)層、損失函數(shù)以及數(shù)據(jù)格式進(jìn)行獨(dú)立擴(kuò)展。

(2)表示和實(shí)現(xiàn)分離。一般利用Protocol Buffer語(yǔ)言將Caffe的模型定義寫(xiě)進(jìn)配置文件,采用任意有向無(wú)環(huán)圖進(jìn)行構(gòu)思。Caffe支持網(wǎng)絡(luò)架構(gòu),可依據(jù)網(wǎng)絡(luò)需要自動(dòng)調(diào)節(jié)程序或系統(tǒng)所占內(nèi)存。通過(guò)調(diào)用某個(gè)函數(shù),實(shí)現(xiàn)CPU和GPU的切換。

(3)測(cè)試覆蓋。在Caffe中,任意一個(gè)單一的模塊都有一個(gè)相對(duì)應(yīng)的測(cè)試。

(4)Caffe同時(shí)提供Python和MATLAB接口。本實(shí)驗(yàn)最后需要在Caffe提供MATLAB接口,然后在MATLAB上實(shí)現(xiàn)驗(yàn)證結(jié)果。

(5)預(yù)訓(xùn)練參考模型。對(duì)于視覺(jué)項(xiàng)目,Caffe有針對(duì)性地提供了一系列參考模型,這些模型僅用于非商業(yè)或?qū)W術(shù)領(lǐng)域,它們的License不是BSD。

2.2Caffe架構(gòu)

(1)數(shù)據(jù)存儲(chǔ)。Caffe通過(guò)“Blobs”方式存儲(chǔ)數(shù)據(jù),即利用四維數(shù)組方式存儲(chǔ)與傳遞數(shù)據(jù)。采用Blobs方式會(huì)有一個(gè)統(tǒng)一的內(nèi)存接口,專門(mén)用來(lái)操作批量圖像(以及其它數(shù)據(jù))或更新參數(shù)。而Models則以Google Protocol Buffers的方式在磁盤(pán)中存儲(chǔ),若有大型數(shù)據(jù)則存儲(chǔ)在LevelDB數(shù)據(jù)庫(kù)中[13]。

(2)網(wǎng)絡(luò)層。Caffe層以一個(gè)或多個(gè)Blobs輸入,隨即計(jì)算出一個(gè)或多個(gè)Blobs輸出。網(wǎng)絡(luò)是一個(gè)整體的操作,而層有兩個(gè)主要職責(zé):①前向傳播,需要輸入并產(chǎn)生輸出;②反向傳播,獲得梯度并將它作為輸出,再以參數(shù)和輸入計(jì)算出梯度。Caffe提供了一套完整的層類模型,這些層類模型既簡(jiǎn)單也實(shí)用。

(3)網(wǎng)絡(luò)運(yùn)行方式。Caffe保存全部的有向無(wú)環(huán)層圖,以保證訓(xùn)練樣本準(zhǔn)確無(wú)誤地進(jìn)行前向傳播及反向傳播。Caffe作為一個(gè)終端到終端的機(jī)器學(xué)習(xí)系統(tǒng),起始于數(shù)據(jù)層,終止于loss層。借助某個(gè)單一開(kāi)關(guān),使其網(wǎng)絡(luò)在CPU與GPU上有效運(yùn)行。此外在CPU或GPU上,層于層之間結(jié)果相同。

(4)訓(xùn)練網(wǎng)絡(luò)。Caffe在執(zhí)行一個(gè)訓(xùn)練時(shí),憑借的是高效、精確的隨機(jī)梯度下降算法。在Caffe模型中,微調(diào)作為一個(gè)標(biāo)準(zhǔn)的方法,適用于已存在的模型或新的架構(gòu)及數(shù)據(jù)。當(dāng)執(zhí)行新任務(wù)時(shí),Caffe即微調(diào)舊的模型權(quán)重,再依據(jù)開(kāi)發(fā)人員需求,將新的權(quán)重參數(shù)初始化,最終達(dá)到縮短訓(xùn)練時(shí)間、提高模型精度的要求。

3實(shí)驗(yàn)環(huán)境和結(jié)果分析

3.1實(shí)驗(yàn)?zāi)康?/p>

本實(shí)驗(yàn)在Caffe上調(diào)用改進(jìn)的VGGNet網(wǎng)絡(luò)模型訓(xùn)練樣本集,然后在MATLAB上輸入一個(gè)樣本照片,通過(guò)MatCaffe接口在MATLAB上調(diào)用Caffe訓(xùn)練好的樣本集,從而識(shí)別輸入樣本對(duì)應(yīng)樣本集中的哪個(gè)人、相似度多少。

圖2為VGGNet網(wǎng)絡(luò)結(jié)構(gòu)模型,在fc1和fc2后加入了dropout算法,通過(guò)一定的概率屏蔽部分神經(jīng)元,從而防止隨著網(wǎng)絡(luò)深度的增加出現(xiàn)過(guò)擬合問(wèn)題。同時(shí)通過(guò)修改每個(gè)神經(jīng)元的非線性激活函數(shù),為relu加快網(wǎng)絡(luò)的訓(xùn)練時(shí)間。通過(guò)加入改進(jìn)后的算法得到了更好的訓(xùn)練曲線,減少了大量的訓(xùn)練時(shí)間。

3.2實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

本文在Ubuntu64位系統(tǒng)下調(diào)用Caffe框架和MATLAB實(shí)驗(yàn),樣本圖片基于AR人臉庫(kù)數(shù)據(jù),加上實(shí)際人臉采樣數(shù)據(jù),通過(guò)MATLAB把所有圖片轉(zhuǎn)換成大小為224×224的jpg格式文件,部分如圖3所示。

3.3結(jié)果分析

在Caffe框架上通過(guò)改進(jìn)的VGGNet模型,將訓(xùn)練樣本完成為二進(jìn)制文件存儲(chǔ),如圖4所示,從左到右依次為訓(xùn)練迭代第40次和訓(xùn)練完成輸出結(jié)果的二進(jìn)制文件以及文件內(nèi)容。

在MATLAB上調(diào)用訓(xùn)練好的模型輸入圖片,識(shí)別對(duì)應(yīng)的模型里訓(xùn)練好的人名,并給出相似度,如圖5所示。

基于卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練準(zhǔn)確率大大高于傳統(tǒng)人臉識(shí)別算法,而且受光照等外部條件影響較小,本文提出的改進(jìn)的VGGNet網(wǎng)絡(luò)訓(xùn)練出來(lái)的結(jié)果效率高達(dá)98%以上,而且訓(xùn)練速度也較快。

4結(jié)語(yǔ)

本文基于深度學(xué)習(xí)的基礎(chǔ)框架(卷積神經(jīng)網(wǎng)絡(luò)),對(duì)當(dāng)前機(jī)器視覺(jué)在目標(biāo)識(shí)別上出現(xiàn)的問(wèn)題進(jìn)行了研究。根據(jù)自然場(chǎng)景復(fù)雜多變的情況,設(shè)計(jì)了一個(gè)適合于這種高度變化的數(shù)據(jù)集上的一種深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),并利用其監(jiān)督學(xué)習(xí)的特點(diǎn)完成了模型的訓(xùn)練過(guò)程。

本文的網(wǎng)絡(luò)結(jié)構(gòu)還有許多可以改進(jìn)和優(yōu)化的地方。隨著21世紀(jì)人工智能在機(jī)器視覺(jué)上的發(fā)展,深度學(xué)習(xí)將在目標(biāo)識(shí)別的技術(shù)層面得到跨越,會(huì)出現(xiàn)更多的機(jī)器視覺(jué)產(chǎn)品。

參考文獻(xiàn):

[1]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[J]. Computer Science,2014(2):580587.

[2]HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,37(9):19041916.

[3]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for largescale image recognition[J]. Computer Science,2014(5):241256.

[4]SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,79(10):13371342.endprint

[5]REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, realtime object detection[J]. Computer Science,2016(3):422430.

[6]LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[EB/OL]. http://www.cnblogs.com/zhangyd/p/6596913.html,2015.

[7]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems,2012,25(2):2029.

[8]REN S, HE K, GIRSHICK R, et al. Faster RCNN: towards realtime object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2016(6):110.

[9]UIJLINGS J R R, SANDE K E A V D. Selective search for object recognition[J]. International Journal of Computer Vision,2013,104(2):154171.

[10]CARREIRA J, RUI C, BATISTA J, et al. Semantic segmentation with secondorder pooling[J]. Lecture Notes in Computer Science,2012,7578(1):430443.

[11]DAN C C, GIUSTI A, GAMBARDELLA L M, et al. Deep neural networks segment neuronal membranes in electron microscopy Images[J]. Advances in Neural Information Processing Systems,2012(25):28522860.

[12]DAI J, HE K, SUN J. Convolutional feature masking for joint object and stuff segmentation[EB/OL]. http://www.taodocs.com/p41599543.html,2014.

[13]盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理,2016,31(1):117.

(責(zé)任編輯:杜能鋼)endprint

猜你喜歡
卷積神經(jīng)網(wǎng)絡(luò)人臉識(shí)別
人臉識(shí)別 等
揭開(kāi)人臉識(shí)別的神秘面紗
基于(2D)2PCA-LBP 的人臉識(shí)別方法的研究
人臉識(shí)別在高校安全防范中的應(yīng)用
基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
基于類獨(dú)立核稀疏表示的魯棒人臉識(shí)別
基于K-L變換和平均近鄰法的人臉識(shí)別
通河县| 锡林浩特市| 岳西县| 磐安县| 乌恰县| 东港市| 正宁县| 富阳市| 鹿邑县| 花垣县| 区。| 海兴县| 偏关县| 扎鲁特旗| 西林县| 淮阳县| 盘锦市| 如东县| 龙江县| 台南市| 凤冈县| 芦溪县| 西宁市| 安化县| 唐山市| 嘉鱼县| 临城县| 寻乌县| 静海县| 肇州县| 绥江县| 芜湖县| 梁山县| 延长县| 吉隆县| 双桥区| 红原县| 巴东县| 浦城县| 绥芬河市| 宁晋县|