黃帥鳳 湯麗娟 梁龍兵
摘 要:給出了一種基于LeNet-5改進(jìn)的人臉識別方法,以其能適用于資源及計算能力有限的嵌入式系統(tǒng)。把典型卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的結(jié)構(gòu),設(shè)計為由兩個卷積采樣層、一個全連接隱藏層和一個分類輸出層,降低了網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度。而且減少了卷積核的個數(shù)、改進(jìn)了池化方式以及分類輸出方式,降低了計算復(fù)雜度。實驗證明,在保證訓(xùn)練和測試精度的同時,該方法提高了在嵌入式平臺上進(jìn)行單人臉識別的速度。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);人臉識別;LeNet-5;嵌入式系統(tǒng)
中圖分類號: TP391 ? ? ?文獻(xiàn)標(biāo)識碼:A
Abstract:A face recognition method based on LeNet-5 is presented, which can be applied to embedded systems with limited resources and computing power. We designed the structure of the typical convolutional neural network LeNet-5 to consist of two convolution sampling layers, a fully connected hidden layer, and a classified output layer, which reduces the complexity of the network structure. Moreover, we have reduced the number of convolution kernels, improved the pooling method, and classified output methods, which reduces the computational complexity.Experiments show that while ensuring the accuracy of training and testing, this method improves the speed of single face recognition on embedded platforms.
Key words:convolutional neural network; face recognition; LeNet-5; embedded system
隨著人臉識別技術(shù)的快速發(fā)展,人臉識別技術(shù)基于自身的安全性和便利性被廣泛應(yīng)用于嵌入式系統(tǒng)中,并已經(jīng)取得了一系列卓有成效的成果[1-2]。目前常用于嵌入式平臺的人臉識別算法大致有兩類:
一類是基于人臉幾何特征的提取。此類方法的基本思想是提取面部圖像局部的特征或者是全局特征,以及人臉特征區(qū)域的整體幾何分布、相對距離和比例來形成特征向量,如卷積神經(jīng)網(wǎng)絡(luò)、Eigenface等。顧思思[3]等對基于OpenCV(Eigenface)的嵌入式人臉識別技術(shù)進(jìn)行了研究,實現(xiàn)了一種實用性、經(jīng)濟性較高的嵌入式人臉識別系統(tǒng),但是其識別準(zhǔn)確率較低。郭吉政[4]采用了卷積神經(jīng)網(wǎng)絡(luò)的人臉識別方法,但其在嵌入式設(shè)備上應(yīng)用了較高性能的GPU加速并行計算,并不能普及應(yīng)用到一般的嵌入式系統(tǒng)上。
另一類是基于表象的方法。此類方法的基本思想是通過降維來減少人臉的數(shù)據(jù)量,例如通過支持向量機(SVM)等。劉爽[5]采用SVM的方法進(jìn)行分類識別,但由于人臉特征計算量較大,計算耗
時較長,同樣不適宜在計算能力和資源有限的嵌入式平臺上進(jìn)行使用。
卷積神經(jīng)網(wǎng)絡(luò)是一種基于人臉幾何特征提取的人臉識別方法[6-7],并適用于嵌入式設(shè)備。其優(yōu)點是可以通過卷積逐層提取特征,并對輸入的人臉圖像進(jìn)行降維,從而減少人臉數(shù)據(jù)量。卷積神經(jīng)網(wǎng)絡(luò)降低了對訓(xùn)練樣本的要求,并且在一定的條件下,訓(xùn)練特征精度隨著訓(xùn)練樣本的增加、網(wǎng)絡(luò)層數(shù)的增多而提高。目前卷積神經(jīng)網(wǎng)絡(luò)已成為人臉識別領(lǐng)域的研究熱點,但是由于嵌入式系統(tǒng)本身的特點,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到嵌入式系統(tǒng)的人臉識別中仍存在識別速率慢、識別率低等問題。
1 典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)LeNet-5
LeNet-5是一種典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示[8-9]。它是卷積神經(jīng)網(wǎng)絡(luò)中最有代表性的網(wǎng)絡(luò)結(jié)構(gòu)之一,其精度已達(dá)到商業(yè)規(guī)模。典型的LeNet-5分為輸入、卷積層1、采樣層2、卷積層3、采樣層4、卷積層5、完全連接層和輸出。卷積層的作用是感知人臉的局部特征,然后綜合人臉的局部特征,得到人臉的所有信息,從而減少輸入圖像的冗余信息。采樣層的是對提取到的人臉特征進(jìn)行降維,壓縮人臉特征數(shù)據(jù)和其他參數(shù)數(shù)據(jù),以此來達(dá)到減少特征數(shù)據(jù)量和數(shù)據(jù)過度擬合的問題。完全連接層的目的是獲得更高質(zhì)量的面部圖像特征信息。但是由于典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)LeNet-5的計算和結(jié)構(gòu)的復(fù)雜性,使得在嵌入式設(shè)備上并不能實現(xiàn)實時的人臉識別,識別速率較慢。因此,我們對LeNet-5卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行改進(jìn),使其在嵌入式平臺上具有較好的識別率以及較高的識別速率,以滿足嵌入式系統(tǒng)下對人臉識別速度的需求。
2 改進(jìn)的LeNet-5卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
所提出的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分為兩個卷積采樣層(Convpoollayer)、一個完全連接隱藏層(Fully_Hiddenlayer)和一個分類輸出層(Classified_output_layer),如圖2所示。
2.1 卷積采樣層
卷積采樣層分別由卷積層和采樣層組成。卷積層通過權(quán)值共享、特征局部相連接的方法來獲取輸入圖像的特征信息。局部相連意味著每個神經(jīng)元連接到上一層的輸入圖像的局部感受野。權(quán)值共享是指使用一個特征提取器提取一個人臉的局部特征。采用權(quán)值共享與局部連接方法的優(yōu)點在于可以減少人臉特征數(shù)據(jù)和網(wǎng)絡(luò)訓(xùn)練參數(shù),以此來降低計算復(fù)雜度。
典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)LeNet-5的卷積層C1使用6個卷積核,卷積層C3使用16個卷積核卷,但經(jīng)試驗驗證,(具體結(jié)果見本文中實驗結(jié)果部分)并非卷積核越多,訓(xùn)練精度就越高。在改進(jìn)的LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)中第一次卷積使用6個卷積核,第二次卷積使用10個卷積核。卷積核的大小為5×5,它們依次與輸入層中相同大小的區(qū)域內(nèi)積再加上一個偏置bx以獲得卷積層。采樣層是根據(jù)圖像局部相關(guān)對特征圖像進(jìn)行采樣。典型的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5架構(gòu)中采樣層使用的是平均采樣(Average pooling),即取卷積層不重疊的相鄰2×2鄰域特征值的平均值,加偏置,再經(jīng)過sigmoid激活函數(shù)得到采樣層。本文使用的方法是最大采樣(Max_pooling),它取卷積層不重疊的相鄰2×2領(lǐng)域特征值的最大值,提取關(guān)鍵特征得到采樣層。這樣做的優(yōu)點在于可以減少數(shù)據(jù)處理量、節(jié)約計算力,并且最大采樣比平均采樣更能減小卷積參數(shù)誤差造成估計均值的偏移,避免了平均采樣的模糊化效果。卷積采樣過程如圖3所示。
2.2 完全連接隱藏層
完全連接隱藏層即為改進(jìn)的LeNet-5結(jié)構(gòu)的第五層,作用在于更完整的提取人臉特征,增強網(wǎng)絡(luò)結(jié)構(gòu)的映射能力。使用多層感知器中隱藏層的連接方式,它與S4是全連接,并且過程如圖4所示。
從圖8中我們可以看出第二次卷積核個數(shù)為10個時,訓(xùn)練集精度最高,并且當(dāng)卷積核過多時,反而會造成訓(xùn)練精度的降低。因為當(dāng)數(shù)據(jù)集中訓(xùn)練的特征樣本規(guī)模和學(xué)習(xí)訓(xùn)練的參數(shù)較少時,則無法滿足更多的卷積核的學(xué)習(xí)要求。
卷積采樣特征提取可視化過程如下:獲取實驗室人臉庫樣本進(jìn)行特征提取,第一次卷積平均采樣后提取的人臉特征按1:1融合后特征圖如圖9(a)所示,第一次卷積最大采樣后提取的人臉特征按1:1融合后特征圖如圖9(b)所示。第二次卷積平均采樣提取的特征并按1:1融合后特征圖如圖10(a)所示,第二次卷積最大采樣提取的特征并按1:1融合后特征圖如圖10(b)所示。顯然最大采樣可更好的避免圖像模糊化問題。第一次卷積采樣提取紋理、細(xì)節(jié)特征,第二次卷積采樣提取鼻子眼睛嘴巴特征,但第一次卷積采樣包含更多特征,也具備提取關(guān)鍵特征能力。
在不同數(shù)量人臉數(shù)據(jù)庫下,簡化的LeNet-5訓(xùn)練精度均略優(yōu)于原網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練精度。實驗結(jié)果如表1所示。
由表1可知,改進(jìn)的LeNet-5結(jié)構(gòu)比原結(jié)構(gòu)更有優(yōu)勢,隨著數(shù)據(jù)量的增加,改進(jìn)的LeNet-5結(jié)構(gòu)的訓(xùn)練精度也隨之提高。
在人臉數(shù)據(jù)庫同約為1000張/每人的情況下,訓(xùn)練集與測試集采用交叉驗證的方法隨機分配。改進(jìn)的LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)雖然測試集精度比原網(wǎng)絡(luò)結(jié)構(gòu)低了1.29%,但是識別速度是原網(wǎng)絡(luò)結(jié)構(gòu)的7倍有余。同時為了進(jìn)一步驗證本文算法的性能,將其與較為常用的特征臉(EigenFace)算法進(jìn)行比較。實驗結(jié)果如表2所示。
從表2可以看出改進(jìn)的LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)在嵌入式設(shè)備上的訓(xùn)練集精度達(dá)到98.80%,測試集精度達(dá)到90.64%,有較好的識別效果,且識別速度可以達(dá)到50ms,在資源和計算能力有限的嵌入式平臺(樹莓派)上幾乎達(dá)到實時識別的效果。與此同時,我們可以看到雖然Eigenface算法在樹莓派上的識別速度較快,但是其識別率相對較低,因此并無優(yōu)勢。
為了進(jìn)一步驗證本文改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)LeNet-5的性能,使得實驗結(jié)果更具說服力,我們再分別選取國外典型的人臉數(shù)據(jù)庫YALE人臉庫B[11]和ORL人臉庫[12]中任意6位志愿者的人臉圖像,并對圖像進(jìn)行鏡像及旋轉(zhuǎn)的批量擴展后約2400張圖像進(jìn)行實驗。YALE人臉庫B的采集嚴(yán)格控制姿態(tài)和光照變化,部分人臉圖像如圖11所示。ORL人臉庫是有劍橋大學(xué)AT&T實驗室創(chuàng)建,圖像包含了人物姿態(tài)、表情和面部裝飾物的變化,部分人臉圖像如圖12所示。實驗結(jié)果如表3所示。
從表3可以看出本文所改進(jìn)的方法在YALE人臉庫B上訓(xùn)練精度達(dá)89.46%,在ORL人臉庫上訓(xùn)練精度達(dá)95.28%,較之原方法均有一定的提高。因此本文改進(jìn)的人臉識別方法在嵌入式設(shè)備上取得較好的實驗效果,具有較好的通用性。
4 結(jié) 論
在LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上提出了改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并在嵌入式平臺上實現(xiàn)了具有實時性、識別率較好的人臉識別。該方法可以廣泛地應(yīng)用于各類可靠性高、成本低廉、可移植性強的嵌入式人臉識別應(yīng)用系統(tǒng)中(如門禁系統(tǒng)、小規(guī)??记诘刃⌒蜕矸葑R別系統(tǒng)),該方法具有較了的普遍性和廣泛的應(yīng)用前景。
參考文獻(xiàn)
[1]王映輝. 人臉識別:原理、方法與技術(shù)[M].北京:科學(xué)出版社, 2010.
[2]祝秀萍, 吳學(xué)毅, 劉文峰. 人臉識別綜述與展望[J]. 計算機與信息技術(shù), 2008(4):53-56.
[3]顧思思, 胡麗霞. 基于OpenCV的嵌入式人臉識別門禁系統(tǒng)設(shè)計[J]. 電腦與電信, 2015(4):33-35.
[4]郭吉政. 免疫卷積神經(jīng)網(wǎng)絡(luò)并行優(yōu)化及其嵌入式系統(tǒng)應(yīng)用[D].上海:東華大學(xué), 2015.
[5]劉爽. 嵌入式人臉識別系統(tǒng)的設(shè)計與實現(xiàn)[J]. 微電子學(xué)與計算機, 2012, 29(3):174-177.
[6]KARPATHY A, TODERICI G, SHETTY S, et al. Large-scale video classification with convolutional neural networks[C]// Computer Vision & Pattern Recognition. 2014:1725-1732.
[7]周飛燕, 金林鵬, 董軍. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計算機學(xué)報, 2017(6):1229-1251.
[8]LECUNY L,BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[9]楚天玥. 基于LeNet-5模型和門卷積神經(jīng)網(wǎng)絡(luò)的信用評分模型實證研究[D]. 深圳大學(xué), 2017.
[10]MEMBREY P, HOWS D.Learn raspberry Pi with Linux[M]. Paul Manning, 2014.
[11]TRUONG L B, CHOI S, JEONG G M, et al. An improvement in feature feedback using R-LDA with application to Yale database[M]. Convergence and Hybrid Information Technology, 2011.
[12]GUOGuo-dong. Face recognition by support vector machines[J]. Proceedings of IEEE Int. Conf. on Automatic Face & Gesture Recognition, 2000, 15(7):196-201.