周官皓 孫海洋
摘 要:近些年來(lái),深度學(xué)習(xí)逐漸走入大眾視野,并在譬如語(yǔ)音識(shí)別、人臉檢測(cè)等方面發(fā)揮著舉足輕重的作用。本文利用深度學(xué)習(xí)的優(yōu)勢(shì),根據(jù)學(xué)術(shù)界的發(fā)展,使用Tensorflow在LeNet-5的基礎(chǔ)上,創(chuàng)新地將2個(gè)卷積層的卷積核數(shù)目增長(zhǎng)到15與20個(gè),并且增加了批歸一化與Dropout兩種模型處理手段,減少過(guò)擬合的出現(xiàn),提升模型泛化程度。實(shí)驗(yàn)結(jié)果從測(cè)試準(zhǔn)確率來(lái)分析,結(jié)果表明增加了批歸一化與Dropout的效果最好,單一地增加二者之一對(duì)精度損失微乎其微;驗(yàn)證了改進(jìn)后的LeNet-5模型對(duì)校園內(nèi)單一年齡段的人臉識(shí)別有著良好的效果。
關(guān)鍵詞: 卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);人臉識(shí)別
【Abstract】 In recent years, deep learning has entered the public's vision and played a pivotal role in fields like speech recognition and face detection, etc. This paper takes advantage of deep learning, using Tensorflow, on the basis of the LeNet-5 model, according to the development of academia and innovatively increases the number of convolution kernels of two convolutional layers to 15 and 20. Moreover, the two methods of batch normalization and Dropout are added to reduce the occurrence of over-fitting and improve the generalization of the model. The experimental results are analyzed from the test accuracy. The results show that the addition of batch normalization and Dropout is the best. Simply increasing one of them has little precision loss. The results verify that the improved LeNet-5 model has a good effect on face recognition in a single age group on campus.
【Key words】 ?CNN; deep learning; face recognition
0 引 言
自2006年卷積神經(jīng)網(wǎng)絡(luò)模型架構(gòu)[1]的提出與2012年卷積神經(jīng)網(wǎng)絡(luò)在ImageNet大賽上憑其出色表現(xiàn)而獲學(xué)界贊許后,深度學(xué)習(xí)[2]便受到了全世界機(jī)器學(xué)習(xí)方向?qū)W者的密切關(guān)注。2016年AlphaGo擊敗人類圍棋大師李世石之后,深度學(xué)習(xí)再次引發(fā)熱潮,直到今天,深度學(xué)習(xí)已逐漸發(fā)展演變?yōu)橐粋€(gè)相對(duì)獨(dú)立的方向。深度學(xué)習(xí)隸屬于人工神經(jīng)網(wǎng)絡(luò)體系,相對(duì)于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)更類似人腦,其網(wǎng)絡(luò)結(jié)構(gòu)與分析判別具體事物的流程也更接近于人類分析的過(guò)程。目前,深度學(xué)習(xí)已然衍生出運(yùn)用于不同方向的網(wǎng)絡(luò)架構(gòu),本文主要分析并使用CNN[3]。典型的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)有AlexNet[4]、ZFNet[5]、VGGNet[6]、GoogLeNet[7]和 ResNet[8]等。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)結(jié)合局部感受野、池化和下采樣等方法來(lái)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),一定程度上保證位移不變性,對(duì)于無(wú)約束條件下的特征提取,其算法也有較強(qiáng)的魯棒性。卷積神經(jīng)網(wǎng)絡(luò)擁有的權(quán)值共享特點(diǎn)這一方面,也類似于深度學(xué)習(xí)所有的類似于生物神經(jīng)網(wǎng)絡(luò)的重要特點(diǎn)。
1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
本文模型搭建的基礎(chǔ)LeNet-5[9]網(wǎng)絡(luò)是一個(gè)用于手寫(xiě)數(shù)字識(shí)別的7層CNN網(wǎng)絡(luò),其模型設(shè)計(jì)如圖1所示。雖然結(jié)構(gòu)與此后的其它網(wǎng)絡(luò)相比規(guī)模較小,但是包含了深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)的基本模塊。
LeNet-5每層都包含可訓(xùn)練參數(shù),且每層都有多個(gè)特征圖,每個(gè)特征圖通過(guò)一種卷積核提取輸入的一種特征,每個(gè)特征圖有多個(gè)神經(jīng)元。下面即以LeNet-5為示例來(lái)闡釋說(shuō)明卷積神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)。
2 數(shù)據(jù)采樣及預(yù)處理
研究可知,人臉識(shí)別中,至關(guān)重要的一環(huán)就是數(shù)據(jù)采樣和預(yù)處理。為此,研究收集了來(lái)自地區(qū)各個(gè)高校、共計(jì)100位同學(xué)的各10張照片,總計(jì)1 000張??紤]到拍攝背景、人占比與攝像機(jī)器等因素之間的差異,文中對(duì)于數(shù)據(jù)的采樣與預(yù)處理,將做研究分述如下。
(1) 使這100位同學(xué)拍攝時(shí)的實(shí)時(shí)背景為白色系。
(2)使用相同品牌型號(hào)的手機(jī)進(jìn)行攝像,拍攝分辨率為4 K,無(wú)多余設(shè)置。
(3) 統(tǒng)一截取面部。多余的拍攝到的身體部位或背景丟棄,上下只保留自脖頸至頭頂,左右從左耳至右耳輪廓最外側(cè)。
(4) 壓縮圖片像素大小為100×100。
(5)對(duì)每張初步處理過(guò)的圖片做像素歸一化,使像素范圍在[0,255]之間。
由此,即可得到研究數(shù)據(jù)示例如圖2所示。
3 實(shí)驗(yàn)
3.1 LeNet-5預(yù)測(cè)表現(xiàn)
本文模型的構(gòu)造基于LeNet-5網(wǎng)絡(luò),LeNet-5網(wǎng)絡(luò)在本數(shù)據(jù)集上的表現(xiàn)如圖3所示。
曲線圖及最終結(jié)果顯示,LeNet-5模型在本數(shù)據(jù)集上的預(yù)測(cè)準(zhǔn)確率為0.841。初步估計(jì)準(zhǔn)確率較低的原因則在于LeNet-5的參數(shù)設(shè)置是建立在MNIST數(shù)據(jù)集樣本之上,而手寫(xiě)數(shù)字?jǐn)?shù)據(jù)無(wú)論從圖片像素、還是特征復(fù)雜度來(lái)說(shuō),都遠(yuǎn)遠(yuǎn)低于人臉數(shù)據(jù)。