仝曉春 周玲
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);人臉識(shí)別;應(yīng)用研究
1 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究
1.1 人臉識(shí)別技術(shù)研究進(jìn)展
人臉是一個(gè)重要的實(shí)體,在我們的日常社會(huì)互動(dòng)中扮演著至關(guān)重要的角色,就像傳達(dá)個(gè)人身份一樣。人臉識(shí)別是一種生物識(shí)別技術(shù),它用數(shù)學(xué)方法提取面部特征,然后將這些特征存儲(chǔ)為人臉指紋,以識(shí)別個(gè)人。隨著安全意識(shí)的提高,人們對(duì)公共和人身安全的需求不斷增加,快速識(shí)別個(gè)人身份和信息安全已成為迫切需要解決的關(guān)鍵社會(huì)問題。因此,各種生物識(shí)別技術(shù)已經(jīng)逐漸被研究。其中,人臉識(shí)別技術(shù)因其方便、快速和非侵入性等優(yōu)點(diǎn)而備受關(guān)注。人臉識(shí)別被稱為面部識(shí)別和肖像識(shí)別,作為一種生物識(shí)別技術(shù),受到了各行各業(yè)的充分關(guān)注。由于其非強(qiáng)制性、非接觸性和并發(fā)性等特點(diǎn),它已成為一種炙手可熱的生物特征識(shí)別技術(shù),在計(jì)算機(jī)信息安全、金融支付和視頻監(jiān)控等領(lǐng)域具有廣泛的應(yīng)用價(jià)值,是機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域的一個(gè)熱點(diǎn)。
1.2 卷積神經(jīng)網(wǎng)絡(luò)研究進(jìn)展
人臉識(shí)別需要大量的計(jì)算和處理能力,需要與輸入圖像的編碼比較大量的數(shù)據(jù)庫(kù)。利用廉價(jià)的寬帶和快速的互聯(lián)網(wǎng)速度,人臉識(shí)別器的計(jì)算數(shù)據(jù)被傳輸?shù)竭吘壴O(shè)備以獲得更快的結(jié)果。由于深度學(xué)習(xí)算法所需的高計(jì)算能力的可用性,識(shí)別任務(wù)的準(zhǔn)確性顯著提高。為了獲得更好的結(jié)果,常利用卷積神經(jīng)網(wǎng)絡(luò)相關(guān)的算法。這是一種深度學(xué)習(xí)方法,也是計(jì)算機(jī)視覺領(lǐng)域的最新技術(shù)。相較其他神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)是當(dāng)前深度神經(jīng)網(wǎng)絡(luò)發(fā)展的主力軍,其比人類更準(zhǔn)確地識(shí)別圖像。卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其響應(yīng)于相關(guān)圖像部分周圍的像素,且卷積神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)大型圖像處理。LeCun等人[1]已經(jīng)證明,神經(jīng)網(wǎng)絡(luò)可以具有強(qiáng)大的圖像分類能力。神經(jīng)網(wǎng)絡(luò)主要由三種類型的層組成:卷積層、池化層和完全連接層。卷積層和池化層是最重要的層。卷積層用于通過用多個(gè)濾波器卷積圖像區(qū)域來提取特征。由于其層數(shù)增加,卷積神經(jīng)網(wǎng)絡(luò)可以更準(zhǔn)確地解析其輸入圖像的特征。池化層減小了卷積輸出映射的大小。如果這兩層管理得當(dāng),卷積神經(jīng)網(wǎng)絡(luò)中的參數(shù)數(shù)量和計(jì)算復(fù)雜性可以最小化。這種類型的算法通過端到端自主學(xué)習(xí)減少了特征提取過程中復(fù)雜干擾的影響。它還開發(fā)了更健壯的特征表示,并在沒有壓力的情況下處理高維數(shù)據(jù)和大規(guī)模訓(xùn)練樣本。Chan等人[2]將卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用于遙感場(chǎng)景分類。驗(yàn)證模型與識(shí)別模型相結(jié)合,學(xué)習(xí)判別特征表示,并在卷積神經(jīng)網(wǎng)絡(luò)特征中添加正則化項(xiàng)。實(shí)驗(yàn)證明,該方法在遙感場(chǎng)景分類方面優(yōu)于現(xiàn)有方法。Borghi等人[3]指出,深度圖像應(yīng)作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。當(dāng)沒有完全或部分外部光源時(shí),應(yīng)進(jìn)行駕駛員面部驗(yàn)證。這樣,可以有效解決光線不足或沒有光線的人臉識(shí)別問題。Koch等人[4]提出了卷積神經(jīng)網(wǎng)絡(luò)(SNN) 在單點(diǎn)圖像識(shí)別中的應(yīng)用,這解決了在每個(gè)類別中擁有更多類別和更少樣本的困難。同時(shí),卷積網(wǎng)絡(luò)具有很好的泛化能力。
1.3 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別的重要性
人臉識(shí)別是一個(gè)具有挑戰(zhàn)性的問題,在計(jì)算機(jī)視覺領(lǐng)域已經(jīng)研究了幾十年。姿勢(shì)、照明、表情等方面的巨大人類變化將挑戰(zhàn)任何最先進(jìn)的人臉識(shí)別算法。最近基于卷積神經(jīng)網(wǎng)絡(luò)的方法主要集中于探索基于3D 模型的人臉對(duì)齊、更大的數(shù)據(jù)集或新的度量學(xué)習(xí)算法對(duì)人臉識(shí)別性能的影響。作為一種經(jīng)典的人臉識(shí)別算法,主成分分析通過矩陣變換和計(jì)算有效地提高復(fù)雜性。然而,當(dāng)存在環(huán)境問題時(shí),例如遮擋,主成分分析無法獲得數(shù)據(jù)的真實(shí)子空間結(jié)構(gòu),這將大大降低識(shí)別精度。支持向量機(jī)采用非線性核函數(shù)來解決非線性問題,具有很強(qiáng)的泛化能力和處理高維數(shù)據(jù)的能力。然而,算法的計(jì)算復(fù)雜性隨著圖像數(shù)量的增加而增加。因此,它不適合具有大規(guī)模訓(xùn)練樣本的應(yīng)用?;诰矸e神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別過程如圖1所示。Bukov?iková 等人[5]使用了一個(gè)簡(jiǎn)單的多層感知器分類器來代替原始的成本函數(shù),并獲得了良好的人臉識(shí)別效果。需要指出的是,在實(shí)際應(yīng)用中,要識(shí)別的對(duì)象通常是在無約束條件下的人臉圖像,不可避免地會(huì)受到干擾,例如照明、表情、姿勢(shì)和遮擋,這使得人臉識(shí)別更加困難。為了對(duì)外部環(huán)境干擾具有更好的魯棒性,提高數(shù)據(jù)集的處理速度,解決由于數(shù)據(jù)集較少而導(dǎo)致的過度擬合等問題。此后,Shen[6]使用ROI-KNN卷積神經(jīng)網(wǎng)絡(luò)對(duì)面部表情分類領(lǐng)域的應(yīng)用進(jìn)行了比較評(píng)估,并提出了一種新的面部表情分類深度學(xué)習(xí)訓(xùn)練改進(jìn)方案。Ahmed 等人[7]使用卷積神經(jīng)網(wǎng)絡(luò)和通過組合各種數(shù)據(jù)集的數(shù)據(jù)增強(qiáng)來執(zhí)行面部情緒識(shí)別方法。在信息時(shí)代,信息保護(hù)尤為重要,我國(guó)高度重視公共安全,新技術(shù)和新產(chǎn)品的安全保護(hù)應(yīng)用需求強(qiáng)烈。人臉識(shí)別技術(shù)利用個(gè)體面部特征的差異來實(shí)現(xiàn)人類身份特征識(shí)別。人臉是生物學(xué)中最直接的表現(xiàn)和最獨(dú)特的生物特征,這使得人臉識(shí)別技術(shù)具有獨(dú)特的識(shí)別優(yōu)勢(shì)?;谶@一優(yōu)勢(shì),人臉識(shí)別在許多領(lǐng)域的應(yīng)用中顯示出巨大的潛力,因此,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到人臉識(shí)別中非常重要。
2 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別管理系統(tǒng)設(shè)計(jì)構(gòu)建
本文基于軟件工程理論對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別管理系統(tǒng)進(jìn)行了設(shè)計(jì)?;诰矸e神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別管理系統(tǒng)設(shè)計(jì)主要是設(shè)置目標(biāo),然后使其來執(zhí)行系統(tǒng)的相應(yīng)需求,并通過分解目標(biāo)來劃分不同的功能。根據(jù)基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別管理系統(tǒng)需要實(shí)現(xiàn)的目標(biāo),即使用人臉信息進(jìn)行身份認(rèn)證,該系統(tǒng)可分為圖2所示的功能架構(gòu)。基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別管理系統(tǒng)的功能模塊分為前端和后端,具體如圖2所示?;诰矸e神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別管理系統(tǒng)使用客戶機(jī)服務(wù)器(C/S) 體系結(jié)構(gòu)進(jìn)行部署。
3 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別系統(tǒng)的算法設(shè)計(jì)
要想完成上述人臉認(rèn)證模塊的設(shè)計(jì),應(yīng)采用相應(yīng)的人臉識(shí)別算法,即基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別算法。在卷積神經(jīng)網(wǎng)絡(luò)中,有著卷積層、池化層、激活函數(shù)層和分類層等四種不同的級(jí)別。其中,卷積層和池化層是計(jì)算密集型的,而激活函數(shù)層是參數(shù)密集型的,通過對(duì)圖像進(jìn)行濾波來生成卷積層的神經(jīng)元或特征圖。與大多數(shù)神經(jīng)網(wǎng)絡(luò)一樣,它們包含多個(gè)濾波層,每個(gè)層對(duì)輸入矩陣應(yīng)用仿射變換。在卷積神經(jīng)網(wǎng)絡(luò)的情況下,仿射變換可以實(shí)現(xiàn)為離散卷積,而不是完全通用的矩陣乘法。這使得卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算效率更高,允許他們縮放到大型圖像。池化層通常使用最大或平均函數(shù)來縮小規(guī)模。池化(子采樣)層對(duì)圖像中的小擾動(dòng)是不變的,這使得它對(duì)照明、姿勢(shì)或表情挑戰(zhàn)是不變的。輸入層P-1是視網(wǎng)膜,m層具有大小為3的感受野。因此,視網(wǎng)膜中的3個(gè)相鄰神經(jīng)元將與P層中的1個(gè)神經(jīng)元聯(lián)網(wǎng)。類似地,m層中的三個(gè)相鄰神經(jīng)元會(huì)與P+1層中的一個(gè)神經(jīng)元聯(lián)網(wǎng),如圖3所示。
4 結(jié)束語
因?yàn)槊娌渴且粋€(gè)非常復(fù)雜和重要的生物特征,它包含了很多信息,例如性別、年齡和表情。智能人臉識(shí)別系統(tǒng)可以基于客戶的性別和年齡的大數(shù)據(jù),以便賣家準(zhǔn)確、清晰地了解購(gòu)買該產(chǎn)品的客戶群體。人臉識(shí)別技術(shù)因其易用性、全面性、舒適性和其他良好的功能而吸引了很多人的關(guān)注。經(jīng)過多年對(duì)人臉識(shí)別技術(shù)的研究,它已經(jīng)取得了一個(gè)又一個(gè)的突破。特別是在深度學(xué)習(xí)算法發(fā)展之后,信息量大大增加?;诰矸e神經(jīng)網(wǎng)絡(luò)技術(shù)的人臉識(shí)別可以使用大量的圖像進(jìn)行訓(xùn)練,獲得良好的識(shí)別效果。經(jīng)過多年的研究和發(fā)展,人臉識(shí)別技術(shù)已經(jīng)取得了穩(wěn)步的進(jìn)展,基于大量的人臉圖像訓(xùn)練,人臉識(shí)別在光線、姿勢(shì)、環(huán)境因素等方面的問題都得到了較好的解決,因此人臉識(shí)別在實(shí)踐中的效果也得到了很大的提高。