梁淑芬,劉銀華,李立琛
(五邑大學(xué) 信息工程學(xué)院,廣東 江門 529000)
人臉識(shí)別作為非入侵式的生物特征識(shí)別方法,在國(guó)防安全、視頻監(jiān)控、人機(jī)交互等方面具有廣泛的應(yīng)用。傳統(tǒng)人臉識(shí)別算法在受某種或某幾種特定因素影響的限制條件下能夠獲得較好的效果,但在非限制條件下識(shí)別性能急劇下降。目前,非限制條件下人臉識(shí)別研究可分為2類:基于3-D模型[1,2]和 2-D模型[3~7]的人臉識(shí)別方法。其中,后者是研究的熱點(diǎn)。基于3-D模型的人臉識(shí)別方法,對(duì)克服環(huán)境因素中姿態(tài)和光照影響非常有效。但3-D模型法計(jì)算復(fù)雜,擬合時(shí)間較長(zhǎng),不易達(dá)到實(shí)時(shí)性要求。2-D模型法主要將人臉圖像中具有判別性的相對(duì)不變特征表達(dá)出來(lái)。Wolf 等[3]對(duì) LBP(local binary pattern )描述子進(jìn)行優(yōu)化,并將其與 Gabor小波結(jié)合,試圖獲得非限制條件下人臉圖像特征的最佳表示,但該算法特征提取過(guò)程有過(guò)多主動(dòng)因素介入。Marsico 等[4]提出 FACE (face analysis for commer-cial entities)算法進(jìn)行非限制條件下人臉識(shí)別,該算法主要通過(guò)對(duì)非限制條件下的姿態(tài)和光照進(jìn)行歸一化,從而得到非限制條件下的準(zhǔn)確識(shí)別。在LFW(labeled faces in the wild)庫(kù)上識(shí)別率達(dá)到61%,但其識(shí)別性能過(guò)度依賴于對(duì)眼角、嘴巴、鼻尖等 13個(gè)標(biāo)注點(diǎn)的準(zhǔn)確定位?,F(xiàn)存算法所提取的人臉圖像特征判別性不強(qiáng),且特征的表達(dá)方式過(guò)度依賴于人工選擇,但實(shí)際應(yīng)用中研究者往往不知道如何準(zhǔn)確選擇和表達(dá)。
最近,深度學(xué)習(xí)越來(lái)越受學(xué)者關(guān)注。深度學(xué)習(xí)模擬大腦組的深度組織結(jié)構(gòu),通過(guò)組合低層特征形成更抽象、更有效的高層表示[8]。其中,深度信念網(wǎng)絡(luò)(DBN,deep belief network)[9]是一種典型的深度學(xué)習(xí)方法,由Hinton在2006年首次提出,可稱為第三代神經(jīng)網(wǎng)絡(luò)[10]。它通過(guò)自下而上自動(dòng)學(xué)習(xí)不同層次的抽象特征,最終獲得特征的非線性描述,表達(dá)了一種不依賴于人工選擇的特征自動(dòng)提取過(guò)程。DBN已成功應(yīng)用于手寫數(shù)字識(shí)別[9]、動(dòng)態(tài)人體檢測(cè)[11]等諸多領(lǐng)域。但是,DBN忽略了圖像局部結(jié)構(gòu),難以學(xué)習(xí)到人臉圖像的局部特征[12];同時(shí),以像素級(jí)的人臉特征作為DBN的輸入,網(wǎng)絡(luò)會(huì)因光照等因素影響而學(xué)習(xí)到不利的特征表達(dá)。LBP算子[13]是由Ojala等提出的一種有效紋理描述子,能夠刻畫出人臉圖像的亮點(diǎn)、暗點(diǎn)、邊緣等局部微模式及其分布情況,且計(jì)算簡(jiǎn)單、運(yùn)算速度快,具有光照和旋轉(zhuǎn)不變性。LBP算子在動(dòng)態(tài)紋理識(shí)別[14]、表情分析[14]、人臉識(shí)別[15]等方面得到廣泛應(yīng)用。以LBP紋理特征作為DBN的輸入,可有效避免深度學(xué)習(xí)中遇到的難題。二者相結(jié)合,能為人臉識(shí)別提供更科學(xué)的理論基礎(chǔ),而將其用于非限制條件人臉識(shí)別目前國(guó)內(nèi)外報(bào)道不多。
本文通過(guò) LBP提取非限制條件下人臉圖像的紋理特征并利用 DBN進(jìn)一步自動(dòng)學(xué)習(xí)更抽象、更有效的人臉特征,并在DBN頂層自動(dòng)進(jìn)行人臉分類。LBP所提取的人臉圖像的局部紋理特征對(duì)光照和微小平移具有較強(qiáng)的頑健性,將其作為DBN輸入特征更有助于網(wǎng)絡(luò)對(duì)圖像特征分布的理解,進(jìn)一步減少網(wǎng)絡(luò)學(xué)習(xí)到不利的特征描述;同時(shí),通過(guò)DBN對(duì)輸入數(shù)據(jù)進(jìn)行深度學(xué)習(xí)和自動(dòng)特征提取,并在網(wǎng)絡(luò)最頂層實(shí)現(xiàn)特征識(shí)別,有效避免了過(guò)多主動(dòng)因素的干預(yù)。在LFW 人臉庫(kù)上實(shí)驗(yàn)表明,與傳統(tǒng)算法 PCA、SVM、LBP等相比,本文算法所提取的具有結(jié)構(gòu)性和層次性的特征判別性更強(qiáng),能夠更有效地表征非限制條件下人臉圖像的特征信息,并對(duì)其進(jìn)行更準(zhǔn)確的預(yù)測(cè)。同時(shí),在Yale庫(kù)和Yale-B庫(kù)上也獲得較高識(shí)別率,表明基于LBP紋理特征的DBN能夠提取限制條件下人臉圖像中更加有效的特征。
一幅二維人臉圖像 fM×N(x,y)的紋理特征可以通過(guò)圖像中的每一個(gè)像素點(diǎn)與其鄰域像素比較而得到,編碼方法為
由于LBP紋理特征具有灰度平移不變性、旋轉(zhuǎn)不變性、計(jì)算簡(jiǎn)單等優(yōu)點(diǎn),它已經(jīng)成功應(yīng)用于紋理分類、人臉識(shí)別、圖像分析、背景建模等領(lǐng)域,并呈現(xiàn)出優(yōu)越的性能。
DBN是Hinton在2006年提出的一種概率生成模型,如圖1所示,其基本模型是受限玻爾茲曼機(jī)(RBM,restricted boltzman machines)。對(duì)于一個(gè)具有l(wèi)層隱藏單元的DBN來(lái)說(shuō),其可視單元與隱藏單元之間的聯(lián)合分布可表示為
其中,v=h(0),v為DBN可視單元,h(k)(k=1,2,…,l)為第k層隱藏單元,而第k層和第k+1層的隱藏單元滿足
圖1 DBN結(jié)構(gòu)模型
DBN是一種典型的深度學(xué)習(xí)網(wǎng)絡(luò),它的原型類似于人的大腦組織結(jié)構(gòu),能夠由簡(jiǎn)單到復(fù)雜、由低級(jí)到高級(jí)地提取輸入數(shù)據(jù)的特征,在頂層單元應(yīng)用SoftMax回歸對(duì)特征分類,從而得到輸入數(shù)據(jù)的類標(biāo)值,最終得到輸入數(shù)據(jù)與類標(biāo)值的非線性映射。借助 DBN這種算法,計(jì)算機(jī)可以不依賴人工選擇自動(dòng)學(xué)習(xí)輸入數(shù)據(jù)的抽象特征。在信息爆炸的時(shí)代,這無(wú)疑在數(shù)據(jù)處理領(lǐng)域能夠節(jié)約大量的人力,并能自動(dòng)挖掘出隱藏在已知數(shù)據(jù)中的豐富信息。
以像素級(jí)人臉特征作為DBN的輸入,它能學(xué)習(xí)到人臉圖像中隱含的抽象特征,但由于輸入特征是向量形式,無(wú)法學(xué)習(xí)到人臉圖像的局部結(jié)構(gòu)性特征。將LBP和DBN相結(jié)合可以使深度網(wǎng)絡(luò)有效捕獲人臉圖像的局部信息,此時(shí)的深度網(wǎng)絡(luò)聯(lián)合分布為
其中,H為L(zhǎng)BP紋理特征, h(1),h(2)…h(huán)(l)是深度網(wǎng)絡(luò)對(duì)輸入特征H學(xué)習(xí)到的不同層次的高級(jí)特征,因而其優(yōu)劣性關(guān)系到深度網(wǎng)絡(luò)學(xué)習(xí)的有效性。若H為傳統(tǒng)LBP紋理特征,即其維度為2P,而LBP對(duì)應(yīng)的二進(jìn)制數(shù)大多數(shù)最多包含2次“0→1”或“0←1”跳變,而大于2次跳變的二進(jìn)制數(shù)很少,此時(shí)H較為稀疏,且維度很高,使深度網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中計(jì)算量很大,實(shí)時(shí)性降低。若H為均勻 LBP紋理特征,其特征維度僅有 P(P-1)+ 3,可起到降維的作用,并且還能減少高頻噪聲帶來(lái)的不利影響。
當(dāng)人臉圖像受均勻光照和微小旋轉(zhuǎn)影響時(shí),由于 LBP紋理特征H對(duì)其具有極強(qiáng)的頑健性,因而由 DBN學(xué)習(xí)到的抽象特征仍然具有不變性。深度網(wǎng)絡(luò)能夠通過(guò)對(duì)H中的暗點(diǎn)、亮點(diǎn)、邊緣等微模式以及它們分布情況的學(xué)習(xí),得到更具有結(jié)構(gòu)性和層次性的抽象特征。將LBP紋理特征作為DBN的輸入,可以強(qiáng)化深度網(wǎng)絡(luò)的學(xué)習(xí)能力。
DBN對(duì)輸入LBP紋理特征學(xué)習(xí)的準(zhǔn)確度取決于網(wǎng)絡(luò)訓(xùn)練的優(yōu)劣,若 DBN參數(shù)沒有達(dá)到全局最優(yōu),該網(wǎng)絡(luò)用于人臉圖像分類無(wú)法達(dá)到淺層網(wǎng)絡(luò)的分類性能[16]。訓(xùn)練 DBN過(guò)程如下:1)對(duì)第一層RBM,以LBP紋理特征為輸入,對(duì)RBM進(jìn)行無(wú)監(jiān)督訓(xùn)練,獲得該層最優(yōu)的參數(shù);2)高層RBM以低一層RBM輸出數(shù)據(jù)為輸入,對(duì)RBM進(jìn)行無(wú)監(jiān)督訓(xùn)練,獲得RBM網(wǎng)絡(luò)最優(yōu)的參數(shù)值;3)最后利用全局訓(xùn)練的方法對(duì)訓(xùn)練好的各層參數(shù)微調(diào),使得DBN收斂到全局最優(yōu)。該訓(xùn)練方法繞過(guò)了全局訓(xùn)練的復(fù)雜性,通過(guò)快速散度(CD,contrastive dibergence)[17]訓(xùn)練 RBM 獲得 DBN各層的最優(yōu)參數(shù),降低了學(xué)習(xí)目標(biāo)過(guò)擬合的風(fēng)險(xiǎn),使得網(wǎng)絡(luò)具有更好的數(shù)據(jù)預(yù)測(cè)能力。
本文通過(guò)LBP和DBN研究非限制條件下人臉識(shí)別,如圖2所示。本文算法具體步驟如下。
1)用雙線性內(nèi)插法將測(cè)試樣本和訓(xùn)練樣本降維至32×32,并進(jìn)行直方圖均衡化等歸一化預(yù)處理。
2)對(duì)訓(xùn)練樣本和測(cè)試樣本進(jìn)行分塊并提取每個(gè)子塊的 LBP紋理特征,將每個(gè)子塊的特征連接起來(lái)形成樣本的LBP紋理特征。本文LBP紋理特征提取時(shí)樣本分塊為4×5,半徑R為1,像素?cái)?shù)P為8。此時(shí)所提取的LBP紋理特征和像素級(jí)特征維數(shù)相當(dāng)。
3)將訓(xùn)練樣本的LBP紋理特征作為DBN可視層輸入,對(duì)深度網(wǎng)絡(luò)進(jìn)行逐層訓(xùn)練,以獲取最優(yōu)網(wǎng)絡(luò)參數(shù)。文中DBN層數(shù)選為2層:第1層學(xué)習(xí)率為0.002,迭代次數(shù)為40;第2層為0.003,迭代次數(shù)為40。
4)當(dāng)深度網(wǎng)絡(luò)訓(xùn)練完后,將測(cè)試樣本的 LBP紋理特征作為DBN可視層輸入,利用優(yōu)化后的網(wǎng)絡(luò)由下向上多層次地學(xué)習(xí)和提取測(cè)試樣本的抽象特征,在網(wǎng)絡(luò)最頂層進(jìn)行SoftMax回歸分類,獲得測(cè)試樣本的類標(biāo)值,并計(jì)算正確識(shí)別率。
圖2 人臉識(shí)別
為了驗(yàn)證本文算法在非限制條件下的有效性,選用 LFW 人臉庫(kù)進(jìn)行人臉識(shí)別實(shí)驗(yàn),同時(shí),為進(jìn)一步評(píng)估算法的性能,在限制條件下的人臉庫(kù)Yale和Yale-B上進(jìn)行仿真實(shí)驗(yàn)。實(shí)驗(yàn)前,所有的人臉圖像經(jīng)過(guò)眼睛定位、校準(zhǔn)、剪切,最后歸一化到32×32。實(shí)驗(yàn)硬件配置為:2.20 GHz的 Intel(R)Core(TM)2 Duo CPU,2.00 GB內(nèi)存。
LFW中的人臉圖像是用標(biāo)準(zhǔn)人臉檢測(cè)器Viola-Jones從Internet上收集到的,包含5749人共13233幅圖像。其中,1680人的圖像數(shù)目大于或等于兩幅,另外 4069人只有一幅圖像。圖像分辨率為250×250,人臉圖像以彩色為主,包含少量灰度圖像。LFW主要用于非限制條件下的人臉識(shí)別,該庫(kù)能充分表現(xiàn)真實(shí)條件下人臉圖像的變化,如姿態(tài)、光照、遮擋、表情、背景、種族、性別等的變化。本文選取圖像數(shù)目大于或等于 20幅的人作為實(shí)驗(yàn)對(duì)象,其中,包括62個(gè)人共3023幅圖像。每人隨機(jī)選取5幅圖像作為訓(xùn)練樣本,剩下為測(cè)試樣本。
1)隱藏單元數(shù)不同時(shí)算法性能
DBN對(duì)輸入數(shù)據(jù)分類的準(zhǔn)確性取決于對(duì)其自下向上、多層次學(xué)習(xí)的有效性。Hinton[9]指出,為保證貪婪學(xué)習(xí)算法提高網(wǎng)絡(luò)的性能,DBN各層隱藏單元的個(gè)數(shù)應(yīng)保持一致,本文實(shí)驗(yàn)中,各層隱藏單元數(shù)相同。非限制條件下人臉圖像特征復(fù)雜,且含有較多噪聲,為提取人臉圖像的有效特征,首先討論不同隱藏單元數(shù)情況下本文算法性能。實(shí)驗(yàn)結(jié)果如表1所示。其中,訓(xùn)練時(shí)間是無(wú)監(jiān)督預(yù)訓(xùn)和有監(jiān)督訓(xùn)練的時(shí)間之和,分類時(shí)間指測(cè)試樣本分類時(shí)間,總時(shí)間指訓(xùn)練時(shí)間和測(cè)試時(shí)間之和。值得注意的是,在進(jìn)行傳統(tǒng)LBP紋理特征作為DBN輸入的實(shí)驗(yàn)中,當(dāng)隱層單元數(shù)達(dá)到4000時(shí),由于特征維數(shù)巨大,其對(duì)內(nèi)存要求超出了本文的硬件能力范圍,因而主要考慮隱藏單元數(shù)在1000到3000的情況。
從表1可知,隨著隱藏單元數(shù)的增加,深度網(wǎng)絡(luò)能夠更好地表達(dá)人臉圖像特征,但是網(wǎng)絡(luò)的訓(xùn)練時(shí)間和分類時(shí)間也隨之增加,計(jì)算量逐漸增大,因而對(duì)硬件要求也隨之提高。同時(shí),由表1可知,當(dāng)隱藏單元數(shù)相同時(shí),基于均勻LBP紋理特征的深度學(xué)習(xí)方法識(shí)別率均高于基于像素級(jí)特征和傳統(tǒng)LBP紋理特征的深度學(xué)習(xí)方法,基于傳統(tǒng)LBP紋理特征的深度網(wǎng)絡(luò)分類能力同基于像素級(jí)的深度網(wǎng)絡(luò)相當(dāng)。均勻LBP在降低特征維數(shù)的同時(shí),還能減少高頻噪聲帶來(lái)的不利影響,對(duì)光照和微小旋轉(zhuǎn)具有極強(qiáng)的頑健性,它沒有因?yàn)樘卣鞯牟煌暾詫?dǎo)致深度網(wǎng)絡(luò)學(xué)習(xí)能力下降,性能反而得到一定的提升。因此,均勻LBP紋理特征相對(duì)于傳統(tǒng)LBP紋理特征和像素級(jí)圖像,當(dāng)作為DBN輸入時(shí)在降低維度情況下能更好地代表人臉圖像信息,更有利于深度網(wǎng)絡(luò)學(xué)習(xí)。
表1 不同隱藏單元數(shù)的正確識(shí)別率及時(shí)間消耗
2)樣本數(shù)不同時(shí)算法性能
在人臉識(shí)別中,訓(xùn)練樣本主要為整個(gè)識(shí)別過(guò)程提供原型,訓(xùn)練樣本數(shù)越多則能夠提取的差異性特征越多,對(duì)測(cè)試階段的預(yù)測(cè)越有利。表2為深度網(wǎng)絡(luò)隱藏單元為5000,不同訓(xùn)練樣本數(shù)時(shí),本文算法與傳統(tǒng)算法的比較結(jié)果。從表2可知,傳統(tǒng)算法PCA、SVM、LBP在樣本比較少時(shí),提取的類別特征代表性并不強(qiáng)。當(dāng)訓(xùn)練樣本數(shù)增加時(shí),提取類別特征較為豐富,算法識(shí)別率劇增,可見傳統(tǒng)算法在非限制條件下頑健性較差。深度學(xué)習(xí)經(jīng)過(guò)非監(jiān)督預(yù)訓(xùn)練,為網(wǎng)絡(luò)參數(shù)提供良好的優(yōu)化起點(diǎn)后只需要少量有標(biāo)注訓(xùn)練樣本進(jìn)行監(jiān)督訓(xùn)練,就能獲得較好的識(shí)別效果。訓(xùn)練樣本數(shù)的增加對(duì) DBN和LBP+DBN影響不是很大,表明深度學(xué)習(xí)算法在非限制條件下穩(wěn)定性更好,對(duì)各種因素的綜合影響具有更強(qiáng)的頑健性,同時(shí),由表 2進(jìn)一步說(shuō)明基于LBP紋理特征的深度學(xué)習(xí)算法較基于像素級(jí)深度學(xué)習(xí)算法的識(shí)別率更好。
表2 不同訓(xùn)練樣本數(shù)的正確識(shí)別率
3)LFW庫(kù)不同類別時(shí)算法性能
為探討本文算法在非限制條件人臉識(shí)別的有效性和普適性,以文獻(xiàn)[4]為參考基準(zhǔn),另外選取LFW 庫(kù)中人臉圖像數(shù)目大于或等于 8幅的最前面50個(gè)人共417幅人臉圖像作為實(shí)驗(yàn)對(duì)象,每人隨機(jī)選取5幅圖像作為訓(xùn)練樣本,其余為測(cè)試樣本。深度網(wǎng)絡(luò)隱藏單元數(shù)與表2相同,實(shí)驗(yàn)結(jié)果如表3所示。由表3可知,不同算法分類時(shí),本文算法識(shí)別率最高,達(dá)到85.16%,說(shuō)明本文算法具有較好的識(shí)別能力。文獻(xiàn)[4]在LFW取得61%的識(shí)別率,但其算法的識(shí)別效果依賴于特征提取過(guò)程中人臉特征點(diǎn)的準(zhǔn)確定位,且當(dāng)樣本數(shù)目龐大時(shí),人工介入非常繁瑣。比較表2和表3可知,當(dāng)測(cè)試樣本復(fù)雜多變時(shí),PCA、SVM、LBP識(shí)別率波動(dòng)較大,而本文算法能夠保持較穩(wěn)定的識(shí)別率,從而更進(jìn)一步表明本文算法在非限制條件下頑健性更強(qiáng)。
表3 不同類別時(shí)不同算法的正確識(shí)別率
通過(guò)在LFW人臉庫(kù)上實(shí)驗(yàn)結(jié)果可知,基于LBP紋理特征的 DBN分類精度高于輸入特征為像素級(jí)的情況。將LBP紋理特征作為網(wǎng)絡(luò)的輸入,有助于網(wǎng)絡(luò)減少對(duì)冗余信息的聯(lián)想記憶,學(xué)習(xí)到人臉圖像中局部性的特征,從而實(shí)現(xiàn)對(duì)非限制條件下人臉圖像的準(zhǔn)確識(shí)別。
Yale人臉庫(kù)有15個(gè)人,每人11幅圖像,共165幅圖像,圖像灰度級(jí)為256,分辨率為243×320。每個(gè)人有6種不同的表情,3種不同的光照,并且圖像有戴眼鏡和不戴眼鏡的區(qū)別。在實(shí)驗(yàn)中,每人隨機(jī)選取5幅圖像作為訓(xùn)練樣本,剩下的作為測(cè)試樣本。表4為深度網(wǎng)絡(luò)隱藏單元數(shù)不同時(shí)的正確識(shí)別結(jié)果,從表4可知,當(dāng)隱藏單元較少時(shí),同樣深度網(wǎng)絡(luò)不能準(zhǔn)確學(xué)習(xí)到限制條件下人臉圖像的類別信息,隨著隱藏單元數(shù)的增加,網(wǎng)絡(luò)學(xué)習(xí)到的特征越來(lái)越充分,隱藏單元數(shù)為5000時(shí),網(wǎng)絡(luò)學(xué)習(xí)到的人臉圖像特征判別性較強(qiáng)。從表5可知,本文算法在Yale人臉庫(kù)上識(shí)別率最高達(dá)到98.89%,較PCA、SVM、LBP、DBN分別提高了18.89%、4.45%、5.89%、2.22%,說(shuō)明算法在限制條件下具有較好的識(shí)別能力。
表4 Yale庫(kù)上不同隱藏單元時(shí)正確識(shí)別率
表5 Yale庫(kù)上不同算法時(shí)正確識(shí)別率
Yale-B人臉庫(kù)有10個(gè)人,每人有64幅光照不同的圖像,圖像分辨率為192×168、灰度級(jí)256。在實(shí)際應(yīng)用中,對(duì)方位角大于90°,垂直角大于90°的人臉圖像研究的價(jià)值不高,舍棄這部分圖像。剩余的人臉圖像分成3部分:子集1受光照影響很小,光源的方位角小于10°,垂直角小于10°,每人7幅人臉圖像;子集2與子集1光照條件相近,光源方位角小于20°、垂直角小于20°,每人共12幅人臉圖像;子集3與子集1光照條件差異很大,每人共30幅人臉圖像。子集1設(shè)為訓(xùn)練集,子集2和子集3設(shè)為測(cè)試集。
上述實(shí)驗(yàn)驗(yàn)證了本文算法對(duì)非限制條件下和限制條件下綜合因素的有效性,但其中什么因素對(duì)算法影響較大還需要研究,本節(jié)實(shí)驗(yàn)首先討論本文算法受光照影響時(shí)性能。表6為深度網(wǎng)絡(luò)隱藏單元數(shù)為1000~5000時(shí)Yale-B人臉庫(kù)上的識(shí)別率。由表6可知,本文算法對(duì)于光照變化具有較強(qiáng)的頑健性。
表6 Yale-B庫(kù)上不同隱藏單元時(shí)正確識(shí)別率
同時(shí),由表7可知,本文算法與PCA、SVM、MSR(muitiscale retinex)、SQI(self-quotient image)、LBP、DBN等算法在光照變化不大的子集2識(shí)別率相當(dāng),但光照變得復(fù)雜時(shí),如在子集3上實(shí)驗(yàn)結(jié)果可知,本文算法能夠保持比較穩(wěn)定的識(shí)別率,而傳統(tǒng)算法識(shí)別率急劇下降,進(jìn)一步說(shuō)明本文算法對(duì)光照的頑健性較強(qiáng)。
由以上實(shí)驗(yàn)結(jié)果可知,基于 LBP紋理特征的深度學(xué)習(xí)網(wǎng)絡(luò)能夠?qū)W習(xí)到更加有效的人臉圖像的類別特征。由于深度網(wǎng)絡(luò)模擬了人的大腦組織結(jié)構(gòu),隱藏單元類似于腦細(xì)胞,因此隱藏單元數(shù)越多,深度網(wǎng)絡(luò)提取的特征判別性越強(qiáng)。比較表2和表5可知,本文算法在限制條件下的正確識(shí)別能力遠(yuǎn)遠(yuǎn)高于非限制條件下,非限制條件的人臉圖像比限制條件下的人臉圖像需要更多的隱藏單元來(lái)模擬其特征分布情況。
表7 Yale-B庫(kù)上不同算法時(shí)正確識(shí)別率
本文提出LBP和DBN相結(jié)合的非限制條件下人臉識(shí)別,在LFW人臉庫(kù)上的實(shí)驗(yàn)結(jié)果表明,本文算法能夠自下而上自動(dòng)提取非限制條件下人臉圖像的有效特征。將LBP與DBN相結(jié)合,克服了DBN不能學(xué)習(xí)到人臉圖像局部結(jié)構(gòu)特征的缺點(diǎn),使得 DBN學(xué)習(xí)到的抽象特征受光照、微小平移等的影響較小。本文算法在受姿態(tài)、光照、表情、遮擋等綜合因素影響的非限制條件下具有較好的識(shí)別效果,同時(shí)在受多種因素影響的Yale庫(kù)和光照因素影響的Yale-B庫(kù)上取得較高的識(shí)別率。
文中采用均勻LBP紋理特征作為DBN學(xué)習(xí)的初始特征,均勻LBP紋理特征只包含了58種常見的紋理模式,而將198不常見的模式只整合為一種模式,這198種模式包含的信息量較少,并沒有造成 DBN學(xué)習(xí)到的特征性能下降,反而有所提升,均勻LBP特征相對(duì)傳統(tǒng)LBP特征性能更優(yōu)。
[1]MEDIONI G,CHOI J,KUO C H,et al. Identifying noncooperative subjects at a distance using face images and inferred three dimensional face models[J]. IEEE Trans Syst,Man,Cybern A,Syst,Humans,2009,39(1):12-24.
[2]BLANZ V,VETTER T. Face recognition based on fitting a 3D morphable model[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence,2003,25(9): 1063-1074.
[3]LIOR W,TAL H,YANIV T. Effective uncon-strained face recognition by combining multiple descriptors and learned background statistics[J].IEEE Pattern Analysis and Machine Intelligence,2011,33(10): 1978-1990.
[4]MARSICO M D E,NAPPI M,RICCO D. Robust face recognition for uncontrolled pose and illumination changes[J]. IEEE Transactions on Systems,Man and Cybernetic,2012,43(1): 149-163.
[5]JAVIER R,RODRIGO V,MAURICIO C. Recognition of faces in unconstrained environments: a comparative study[J]. Journal on Advances in Signal Processing. 2009,12(4): 44-69.
[6]WOLF L,HASSNER T,TAIGMAN Y. Descriptor based methods in the wild[A]. Faces in Real-life Images Workshop in ECCV[C].2008.1-14
[7]ZHAO D,LIN Z,XIAO R,et al. Linear laplacian discrimination for feature extraction[A]. Proc IEEE Conference on Computer Vision and Pattern Recognition[C]. 2009.1-7.
[8]BENGIO Y,DELALLEAU O. On the expressive power of deep architectures[A]. Proc of 14th International Conference on Discovery Science[C]. Berlin: Springer-Verlag,2011.18-36.
[9]HINTON G E,OSINDERO S,THE Y-W. A fast learning algorithm for deep belief nets[J]. Neural Computation,2006,18(7): 1527-1554.
[10]COTTRELL G W. New life for neural networks[J]. Science,2006,313(5786):454-455.
[11]TALOR G W,HINTON G E,ROWEIS S T. Modeling human motion using binary latent variables[A]. Advances in Neural Information Processing Systems[C]. 2007. 1345-1352
[12]ITAMAR A,DEREKC R,THOMAS P K. Deep machine learning—a new frontier[J]. Artificial Intelligence Research IEEE Computa-tional Intelligence Magazine,2010,5(4): 13-18
[13]OJALA T,PIETIKAINEN M,MAENPAA T. Multiresolution grayscale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7): 971-987.
[14]ZHAO Z,PIETIKAINEN M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. IEEE Trans PAMI,2007,27(6):915-928.
[15]LEI Z,LIAO S. Face recognition by exploring information jointly in space,scale and orientation [J]. IEEE Trans on Image Processing,2011,20(1):247-256.
[16]BENGIO Y. Learning deep architectures for AI [J]. Foundations and Trends in Machine Learning,2009,2(1): 1-127.
[17]HINTON G E. Training products of experts by minimizing contrastive divergence[J]. Neural Computation,2002,14(8): 1771-1800.