薛艷杰 鄧燕妮
摘 要:由于傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò)用于人臉識(shí)別時(shí),往往結(jié)構(gòu)層數(shù)多,參數(shù)量大,訓(xùn)練難度高。本文在經(jīng)典網(wǎng)絡(luò)LeNet-5的基礎(chǔ)上提出一種新的卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行人臉識(shí)別。首先,結(jié)構(gòu)上包含兩個(gè)子卷積網(wǎng)絡(luò),實(shí)現(xiàn)多卷積的功效;然后,對(duì)于提取人臉特征的卷積層和池化層采取融合,以減少網(wǎng)絡(luò)參數(shù)及訓(xùn)練時(shí)間;采用兩個(gè)全連接層,第一個(gè)全連接層與前面完成特征提取的每個(gè)單層連接來(lái)實(shí)現(xiàn)對(duì)多尺度特征的采集;最后的分類(lèi)層采用Softmax分類(lèi)器。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)結(jié)構(gòu)模型相比,識(shí)別率有所提高,其訓(xùn)練速度提升了,驗(yàn)證了新網(wǎng)絡(luò)模型人臉識(shí)別方法的有效性。
關(guān)鍵詞:人臉識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);多子卷積網(wǎng)絡(luò);卷積池化層融合;多尺度特征采集
近年來(lái),人臉識(shí)別技術(shù)進(jìn)展迅猛,在身份識(shí)別認(rèn)證、金融支付、視頻監(jiān)控等領(lǐng)域都有良好的效果。這些傳統(tǒng)的人臉識(shí)別算法通常是人工來(lái)提取特征,因而識(shí)別率普遍不高。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在圖像處理、語(yǔ)音識(shí)別方面擁有其獨(dú)特的優(yōu)勢(shì),包括局部感受野、權(quán)值共享、空間池化。有鑒于此,本文在網(wǎng)絡(luò)LeNet-5的基礎(chǔ)上改進(jìn),提出了一種具有雙子卷積神經(jīng)網(wǎng)絡(luò)的的六層卷積神經(jīng)網(wǎng)絡(luò)模型。
1 卷積神經(jīng)網(wǎng)絡(luò)的原理
神經(jīng)認(rèn)知機(jī)是由日本學(xué)者Fukushima基于Hubel&Wiesel感受野概念提出的第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。[1]卷積神經(jīng)網(wǎng)絡(luò)的特有優(yōu)點(diǎn)主要有三個(gè):局部感受野、權(quán)值共享、空間池化。現(xiàn)在的深度CNN是將深度學(xué)習(xí)概念應(yīng)用到神經(jīng)網(wǎng)絡(luò),由多個(gè)單層CNN堆疊而成的多層網(wǎng)絡(luò)結(jié)構(gòu),然后級(jí)聯(lián)到全連接層,最終輸出。
1.1 卷積層
卷積層主要工作是通過(guò)卷積操作來(lái)對(duì)輸入圖像提取特征,卷積核的作用相當(dāng)于濾波器,計(jì)算圖像的每一個(gè)像素以及其領(lǐng)域像素和濾波器矩陣對(duì)應(yīng)元素的乘積和,得到的結(jié)果即為輸出。若卷積層為第l層,則其卷積公式如下:
2 卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)
雖然LeNet-5網(wǎng)絡(luò)在手寫(xiě)字符Mnist數(shù)據(jù)集上的識(shí)別率很高,但LeNet-5不能得到很好的人臉識(shí)別率。本文在LeNet-5基礎(chǔ)上做出改進(jìn)。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)共6層,特征提取層由兩個(gè)并行獨(dú)立的子卷積神經(jīng)網(wǎng)絡(luò)組成。網(wǎng)絡(luò)第一層為輸入層,輸入26×26大小圖片。第二層包含兩個(gè)獨(dú)立的卷積層C1、C2,卷積核數(shù)目均為40個(gè);卷積層C1卷積核大小為3×3,這樣C1大小為12×12×40;卷積層C2卷積核大小為7×7,這樣C2大小為10×10×40。第三層包含兩個(gè)獨(dú)立的卷積層C3、C4,卷積核數(shù)目均為65個(gè);卷積層C3卷積核大小為3×3,這樣C3大小為5×5×65;卷積層C4卷積核大小為3×3,這樣C4大小為4×4×65。四個(gè)卷積層的步長(zhǎng)均為2。第四層為F1全連接層,該層設(shè)計(jì)有300個(gè)神經(jīng)元,F(xiàn)1的輸入來(lái)自C1、C2、C3、C4,對(duì)(5)式做出改進(jìn)得到F1層的公式如下:
第五層是F2全連接層,神經(jīng)元數(shù)目根據(jù)人臉?lè)N類(lèi)具體情況而定,F(xiàn)2與F1采用全連接,該層公式如式(5)所示。則公式(6)中的x′為該層的輸出。第六層是輸出層,由softmax函數(shù)判斷分類(lèi)。
3 實(shí)驗(yàn)及結(jié)果分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集和預(yù)處理
為了驗(yàn)證本文算法的有效性,采用AR人臉庫(kù)作為實(shí)驗(yàn)數(shù)據(jù)集。AR數(shù)據(jù)庫(kù)是Purdue大學(xué)建立,含126個(gè)人共2600張面部圖片。這些人臉圖像有正常、光照、表情變化、姿態(tài)變化、遮擋等多種情況。每張圖片的像素大小為120×165。實(shí)驗(yàn)前,先對(duì)圖像數(shù)據(jù)集進(jìn)行預(yù)處理,圖像歸一化成大小為26×26,灰度值為[0,1]。然后從中隨機(jī)抽取100人,每人20張,共2000張圖像組成新的數(shù)據(jù)集。每人隨機(jī)抽取的15張圖片組成訓(xùn)練集,即1500張圖像用于網(wǎng)絡(luò)訓(xùn)練,剩下的每人5張,共計(jì)500張圖像作為測(cè)試集用于性能驗(yàn)證。由于總?cè)藬?shù)為100人,則F2層神經(jīng)元數(shù)目設(shè)置為100。學(xué)習(xí)率置為0.02,動(dòng)量置為0.9。
3.2 實(shí)驗(yàn)驗(yàn)證網(wǎng)絡(luò)模型
上下兩個(gè)子卷積神經(jīng)網(wǎng)絡(luò)分別稱(chēng)為CNN1、CNN2,由于兩者平行獨(dú)立,這里先對(duì)CNN1進(jìn)行實(shí)驗(yàn)來(lái)獲得其最佳網(wǎng)絡(luò)參數(shù)。
首先驗(yàn)證通過(guò)改變卷積核窗口滑動(dòng)步長(zhǎng)來(lái)取代池化層的有效性,作以下四種設(shè)置:(1)步長(zhǎng)為1,無(wú)池化;(2)步長(zhǎng)為1,有池化;(3)步長(zhǎng)為2,無(wú)池化;(4)步長(zhǎng)為3,無(wú)池化。對(duì)四種情況下的網(wǎng)絡(luò)模型分別作3次實(shí)驗(yàn),最后取平均值。識(shí)別結(jié)果:CNN1-(1)識(shí)別率為98.21%,訓(xùn)練時(shí)間為110.8s,CNN1-(2)識(shí)別率為97.13%,訓(xùn)練時(shí)間為41.4s,CNN1-(3)識(shí)別率為9785%,訓(xùn)練時(shí)間為30.5s,CNN1-(4)識(shí)別率為97.07%,訓(xùn)練時(shí)間為18.7s??偨Y(jié)得出,CNN1-(3)是最佳選擇。同時(shí)驗(yàn)證了增大卷積核步長(zhǎng)來(lái)代替池化層的方法是有效的。
本文提出的網(wǎng)絡(luò)模型各層參數(shù),如下表所示。
接下來(lái)驗(yàn)證擁有兩個(gè)子卷積神經(jīng)網(wǎng)絡(luò)的模型方法的識(shí)別率是否高于普通單個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型的識(shí)別率。對(duì)CNN1、CNN2及本文方法在數(shù)據(jù)集上分別作3次實(shí)驗(yàn),結(jié)果取平均值。實(shí)驗(yàn)結(jié)果:本文方法測(cè)試集正確識(shí)別率為95.73%,CNN1為93.81%,CNN2為91.57%。
3.3 實(shí)驗(yàn)分析
由上表可知,CNN1的卷積核比CNN2的小,每張圖像卷機(jī)操作的次數(shù)相對(duì)增加,得到較多特征信息,則識(shí)別率比CNN2較高。兩者并行組成的本文算法的識(shí)別性能最好,驗(yàn)證了多個(gè)子卷積神經(jīng)網(wǎng)絡(luò)提取多局域特征的有效性。
由上圖可知,CNN1雖然比LeNet-5少一個(gè)卷積層,但因?yàn)槠洳捎昧硕喑叨忍卣鞑杉姆椒?,即全連接層分別與每一個(gè)特征提取層全連接,融合不同尺度大小的特征圖,所以CNN1的識(shí)別率比LeNet-5高,驗(yàn)證了該方法的有效性。本文方法、CNN1、LeNet-5、PCA在訓(xùn)練迭代到5000次時(shí)識(shí)別率依次為9573%、93.81%、90.15%、87.64%,本文方法得到了最佳識(shí)別率。
4 結(jié)語(yǔ)
本文針對(duì)人臉識(shí)別過(guò)程中受到非約束條件影響,基于已有的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)LeNet-5設(shè)計(jì)了一個(gè)六層并行雙子卷積神經(jīng)網(wǎng)絡(luò)。通過(guò)多組實(shí)驗(yàn)對(duì)比,驗(yàn)證了文中各方向改進(jìn)方法的有效性。后續(xù)工作可以從增加子卷積神經(jīng)網(wǎng)絡(luò)的數(shù)量以及縮小各層神經(jīng)元數(shù)目有效范圍得到精準(zhǔn)數(shù)目等方面著手,來(lái)進(jìn)一步提高網(wǎng)絡(luò)模型的識(shí)別率。
參考文獻(xiàn):
[1]吳堯,邱衛(wèi)根.基于改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2017,38(08).