桂 榮,沈榮鑫,詹 泳
(華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東廣州510631)
隨著多媒體技術(shù)的發(fā)展,數(shù)字圖像處理在科學(xué)研究、國(guó)防、工業(yè)生產(chǎn)以及現(xiàn)代化管理決策等各行業(yè)都得到了越來(lái)越多的應(yīng)用.以人臉識(shí)別為代表的面部感知計(jì)算從20世紀(jì)80年代末開始逐漸成為熱門的研究方向.
在日常生活中,識(shí)別一個(gè)人最常用的方法是根據(jù)其臉部形象[1].由于諸多復(fù)雜因素的影響,致使人臉識(shí)別性能受到很大限制.目前根據(jù)人臉表征方式的不同,通常將人臉正面自動(dòng)模式識(shí)別技術(shù)分為三大類:基于幾何特征的識(shí)別方法、基于代數(shù)特征的識(shí)別方法和基于連接機(jī)制的識(shí)別方法.
幾何特征方法[2]首先將人臉用一個(gè)幾何特征向量表示,繼而用模式識(shí)別中層次聚類的思想設(shè)計(jì)分類器達(dá)到識(shí)別目的.近年來(lái),學(xué)術(shù)界相繼提出了各種優(yōu)秀的特征提取算法,如LI等[3]提出的基于熱核的局部二值模式(Heat Kernel Based Local Binary Pattern,HKLBP)人臉表征法,YIN 等[4]提出的基于聯(lián)合預(yù)測(cè)模型的人臉識(shí)別算法,XIE等[5]提出的局部融合模式識(shí)別算法,并以多種傳統(tǒng)算法為例進(jìn)行了融合仿真,LI等[6]提出的一種基于聯(lián)合局部保護(hù)映射機(jī)制的人臉識(shí)別算法,并通過仿真數(shù)據(jù)與多種傳統(tǒng)算法進(jìn)行了性能對(duì)比.
基于代數(shù)特征的人臉識(shí)別算法的原理是利用統(tǒng)計(jì)特征提取,形成子空間進(jìn)行模式識(shí)別.SIROVICH等[7]首先將K-L變換用于人臉圖像的最優(yōu)表示;隨后,TURK等[8]提出了基于主分量分析(Principal Component Analysis,PCA)的特征臉(Eigenfaces)方法,為人臉識(shí)別中子空間分析方法(Subspace Analysis)這一經(jīng)典研究方向開辟了道路,但其不足之處在于:由主分量張成的子空間雖然從最小誤差重建意義上是最優(yōu)的,但是與分類并沒有直接的聯(lián)系.該方法對(duì)背景及光照等因素較為敏感.很多學(xué)者針對(duì)這一問題開展了研究,如 JORSTAD等[9]提出的基于密度對(duì)比的人臉識(shí)別算法,TAN等[10]提出的低光線條件下的局部特征增強(qiáng)算法,楊占棟等[11]提出的基于半動(dòng)態(tài)外觀模型(Semi-active Appearance Model,SAAM)的人臉識(shí)別算法等,這些研究均在一定程度上改善了該類算法的技術(shù).
基于連接機(jī)制的人臉識(shí)別算法將人臉直接用灰度圖表征,利用了神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性擬合能力.這種方法的優(yōu)勢(shì)在于保存了人臉圖像中的材質(zhì)信息及細(xì)微的形狀信息,同時(shí)避免了較為復(fù)雜的特征提取工作[12].該類算法由于原始灰度圖像數(shù)據(jù)量十分龐大,因此神經(jīng)元數(shù)目通常很多,訓(xùn)練時(shí)間很長(zhǎng).另外,神經(jīng)網(wǎng)絡(luò)雖然有較強(qiáng)的非線性擬合能力,但當(dāng)樣本數(shù)大量增加時(shí),其性能可能會(huì)嚴(yán)重下降.
本文以O(shè)RL(Olivetti Research Laboratory)數(shù)據(jù)庫(kù)為背景,開展了基于模糊神經(jīng)推理的人臉識(shí)別算法研究.其中,將整幅人臉圖像輸入系統(tǒng),符合格氏塔心理學(xué)中對(duì)人類識(shí)別能力的解釋,如果離線訓(xùn)練樣本豐富,在線階段就可以削弱人臉角度等細(xì)節(jié)對(duì)識(shí)別結(jié)果的影響.人臉特征采用基于子圖分割的SVD特征提取算法,文中針對(duì)不同子圖分割方式對(duì)系統(tǒng)的性能影響進(jìn)行了詳盡的實(shí)驗(yàn)分析.仿真結(jié)果給出了基于模糊神經(jīng)推理算法的實(shí)驗(yàn)結(jié)果以及算法性能分析,并與一系列人臉識(shí)別算法進(jìn)行了比較.實(shí)驗(yàn)結(jié)果表明,本文提出的人臉識(shí)別算法具有良好的識(shí)別性能及魯棒性.
本文選擇目前使用最廣泛的英國(guó)劍橋大學(xué)AT&T實(shí)驗(yàn)室創(chuàng)建的ORL人臉數(shù)據(jù)庫(kù)來(lái)設(shè)計(jì)實(shí)驗(yàn).圖1是ORL人臉數(shù)據(jù)庫(kù)中的一組人臉圖像.
圖1 ORL人臉數(shù)據(jù)庫(kù)的一組圖例Figure 1 A group of sample images from ORL
由于該人臉數(shù)據(jù)庫(kù)種類覆蓋面廣,且個(gè)體表情、配飾豐富,因此是人臉識(shí)別研究的首選數(shù)據(jù)庫(kù).ORL人臉數(shù)據(jù)庫(kù)包括從1992年4月~1994年4月拍攝的一系列人臉圖像,由40個(gè)人的400幅灰度圖像組成,圖像尺寸為92×112像素,圖像背景為黑色.由于人臉是塑性可變形體,表情的變化、有無(wú)戴眼鏡、不同的姿態(tài)都使拍攝的人臉看起來(lái)有所不同,為了反映這些變化,每一個(gè)人拍攝10幅圖像,其中人臉臉部表情和細(xì)節(jié)均有變化.
對(duì)于模糊模型來(lái)說模型結(jié)構(gòu)的確定主要包括2個(gè)方面:一是輸入變量的選擇.這包括物理輸入量和狀態(tài)變量的選擇.可以依據(jù)專家知識(shí)、對(duì)過程特性的理解和模型的用途來(lái)考慮如何選擇合適的輸入變量.然后參考某種準(zhǔn)則,使用自動(dòng)數(shù)據(jù)驅(qū)動(dòng)選擇程序來(lái)比較不同結(jié)構(gòu)的性能,選擇較好的模型結(jié)構(gòu);二是隸屬函數(shù)的確定、形式及規(guī)則數(shù)量的選擇.這2種結(jié)構(gòu)參數(shù)是相互關(guān)聯(lián)的,它們決定了模型的復(fù)雜程度及對(duì)輸入空間的劃分方式.
在模糊系統(tǒng)的設(shè)計(jì)過程中,規(guī)則數(shù)目的確定非常重要.規(guī)則數(shù)量過多會(huì)令模糊系統(tǒng)變得過于復(fù)雜;規(guī)則過少會(huì)令模糊系統(tǒng)的作用削弱,導(dǎo)致難以達(dá)到足夠的擬合能力.對(duì)于每一個(gè)模糊子空間,系統(tǒng)的局部模型可用一個(gè)線性方程表達(dá),而系統(tǒng)的總輸出則為各局部線性模型輸出的加權(quán)和.對(duì)于一階“Takagi Sugeno”模型,模糊規(guī)則數(shù)設(shè)為2,那么具體規(guī)則集如式(1)所示.
圖2是本文基于子圖分割和模糊神經(jīng)推理算法的人臉識(shí)別系統(tǒng)流程圖.主要步驟包括人臉圖像的載入、人臉圖像的子圖分割、人臉圖像的特征提取、模糊神經(jīng)推理系統(tǒng)的訓(xùn)練和人臉圖像的識(shí)別.
模糊神經(jīng)推理系統(tǒng)模型可表現(xiàn)為一個(gè)多層前饋網(wǎng)絡(luò),同一層節(jié)點(diǎn)具有相同類型的輸出函數(shù),不同層節(jié)點(diǎn)具有不同的輸出函數(shù).模糊神經(jīng)推理系統(tǒng)拓?fù)浣Y(jié)構(gòu)如圖3所示,每維坐標(biāo)方向上生成的模糊子系統(tǒng)為一階單輸出的Takagi-Sugeno模型.其輸入為子圖分割特征向量,模糊規(guī)則數(shù)設(shè)為P,輸出為一組
圖2 基于模糊神經(jīng)推理的人臉識(shí)別系統(tǒng)流程圖Figure 2 The flow chart of fuzzy neural inference based face recognition system
圖3 模糊神經(jīng)推理系統(tǒng)的基本拓?fù)浣Y(jié)構(gòu)示意圖Figure 3 Topological structure of fuzzy neural inference system
第1層:輸入層,該層由N個(gè)節(jié)點(diǎn)構(gòu)成,模糊神經(jīng)元僅起到傳遞作用,即:
第2層:該層節(jié)點(diǎn)的作用是對(duì)輸入信號(hào)進(jìn)行模糊化,該層共由T個(gè)節(jié)點(diǎn)組成,A是與該節(jié)點(diǎn)有關(guān)的語(yǔ)言變量.也就是說,O2i是輸入信號(hào)樣本的對(duì)應(yīng)模糊集隸屬度,它確定了給定輸入信號(hào)樣本滿足A的程度,實(shí)現(xiàn)了模糊化,A的隸屬函數(shù)可以是任何合適的參數(shù)化隸屬函數(shù),這里使用高斯函數(shù):
其中,高斯函數(shù)的參數(shù)(mi,σi)由系統(tǒng)訓(xùn)練過程得到.由于該層隸屬度參數(shù)為非線性,且位于模糊規(guī)則的“如果”部分,所以該層的參數(shù)又稱為前件參數(shù).
第3層:實(shí)現(xiàn)模糊推理系統(tǒng)前件部分的模糊合成運(yùn)算,也就是各個(gè)輸入值的模糊“乘”運(yùn)算,即:
第4層:實(shí)現(xiàn)模糊推理系統(tǒng)后件部分的模糊蘊(yùn)含運(yùn)算,節(jié)點(diǎn)的傳遞函數(shù)為線性函數(shù),表示模糊推理系統(tǒng)后件部分的線性模型.其輸出如下式所示.
其中(qi,1,qi,2,…,qi,N-1,qi,N,qi,N+1)是第 i個(gè)節(jié)點(diǎn)的輸出語(yǔ)言變量參數(shù)集,即規(guī)則后件參數(shù),由系統(tǒng)訓(xùn)練過程得到.
第5層:解模糊層,計(jì)算模糊神經(jīng)推理系統(tǒng)的總輸出:
此種模糊多層前饋網(wǎng)絡(luò)不但在輸入輸出端口與具體的模糊系統(tǒng)等效,而且網(wǎng)絡(luò)內(nèi)部與模糊系統(tǒng)的模糊化、模糊推理、解模糊相對(duì)應(yīng),可以用模糊系統(tǒng)的有關(guān)概念來(lái)解釋,因而這種網(wǎng)絡(luò)內(nèi)部是透明的.模糊系統(tǒng)的模糊規(guī)則及隸屬函數(shù)參數(shù)的修改,在模糊多層前饋網(wǎng)絡(luò)中轉(zhuǎn)變?yōu)榫植抗?jié)點(diǎn)或權(quán)值的確定和調(diào)整.
本文中模糊神經(jīng)推理系統(tǒng)的訓(xùn)練采用BP算法,該算法建立在梯度下降算法的基礎(chǔ)上,即權(quán)值的修正量取誤差函數(shù)E(W)對(duì)W的負(fù)梯度.在一個(gè)L層的模糊神經(jīng)網(wǎng)絡(luò)系統(tǒng)中,設(shè)第k層上有nk個(gè)節(jié)點(diǎn),且訓(xùn)練樣本集中有P組輸入、輸出數(shù)據(jù),定義第p(1≤p≤P)組數(shù)據(jù)對(duì)應(yīng)的目標(biāo)函數(shù)為均方根誤差:
輸出節(jié)點(diǎn)(L,i)的誤差變化率為:
對(duì)內(nèi)部節(jié)點(diǎn)(k,i)(1≤k≤L-1),其誤差變化率可以根據(jù)鏈?zhǔn)椒▌t由下式推導(dǎo)出:
設(shè)α是ANFIS網(wǎng)絡(luò)的一個(gè)待調(diào)整的參數(shù),則
其中S代表輸出依賴α的節(jié)點(diǎn)集,總誤差E對(duì)α的偏導(dǎo)數(shù)為:
為了盡快地減小目標(biāo)誤差,沿著目標(biāo)誤差函數(shù)斜率下降的方向調(diào)整 α,即 Δα=-η?E/?α,η 稱為學(xué)習(xí)速率,可以根據(jù)目標(biāo)誤差減小的情況進(jìn)行調(diào)整.
采用ORL數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn).該人臉庫(kù)共包括40人,每人10副圖像,共計(jì)400副圖像.系統(tǒng)可選參數(shù)包括子圖分割數(shù)量、模糊語(yǔ)言變量數(shù)及模糊規(guī)則數(shù)及結(jié)構(gòu).其中,子圖分割數(shù)量直接影響圖像特征的豐富程度.理論上來(lái)說,子圖分割數(shù)量越大,圖像特征量越多,特征越豐富,但同時(shí)會(huì)導(dǎo)致模糊神經(jīng)推理系統(tǒng)的輸入量維數(shù)增多,從而使得系統(tǒng)過于復(fù)雜,訓(xùn)練時(shí)間急劇上升.
圖4 基于二維子圖分割的示意圖Figure 4 Face image base on two dimension sub-image dividing
表1 基于二維子圖分割的系統(tǒng)正確識(shí)別率Table 1 The performance of sub-image division based face recognition system
為了深入分析子圖分割方式對(duì)人臉識(shí)別系統(tǒng)的性能影響,本文研究了不同二維子圖分割方式的系統(tǒng)性能,如圖4所示.二維子圖分割的系統(tǒng)性能參數(shù)如表1所示.實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)子圖分割數(shù)目過大時(shí),導(dǎo)致神經(jīng)網(wǎng)絡(luò)輸入維數(shù)過多,系統(tǒng)過于復(fù)雜,以至于實(shí)驗(yàn)機(jī)內(nèi)存溢出.其中,實(shí)驗(yàn)機(jī)所能承受的神經(jīng)網(wǎng)絡(luò)輸入最大維數(shù)為32.此外,由于模糊神經(jīng)推理系統(tǒng)復(fù)雜度極高,輸入達(dá)到20維時(shí),訓(xùn)練耗時(shí)已達(dá)到10 h為單位.綜合以上客觀原因,本文中二維子圖分割數(shù)目上限分析至25.
將表1的實(shí)驗(yàn)結(jié)果進(jìn)行三次樣條插值得到系統(tǒng)性能圖(圖5).其中,X軸及Y軸非整數(shù)部分值為擬合結(jié)果,并無(wú)實(shí)際意義.總的來(lái)說,在本文所取子圖分割范圍內(nèi),系統(tǒng)性能一直隨子圖分割數(shù)目增多而提高,在極限處趨于收斂.三維曲面在X=5,Y=5處達(dá)到峰值85.5%,該子圖分割方式如圖4(b)所示.該子圖分割很好地保留了諸如眼睛、耳朵、鼻梁、鼻尖以及下顎等諸多局部特征的局部完整性,系統(tǒng)性能達(dá)到最佳.
圖5 二維子圖分割的系統(tǒng)性能擬合圖Figure 5 Fitting chartof sub-image division based face recognition system
對(duì)比實(shí)驗(yàn)采用“特征臉”算法,在同等實(shí)驗(yàn)條件下.將訓(xùn)練集圖像向量通過K-L變換進(jìn)行降維,保留k個(gè)特征值最大的特征向量組成低維線性向量空間,即特征子空間.將測(cè)試集的人臉圖像向特征子空間進(jìn)行投影,并求得投影結(jié)果與每個(gè)訓(xùn)練集投影結(jié)果的歐氏距離.若此距離小于閾值,則認(rèn)為人臉匹配成功.
以X=5,Y=5進(jìn)行子圖分割,實(shí)驗(yàn)結(jié)果正確識(shí)別人臉圖像共計(jì)171副,平均正確識(shí)別率85.5%.在同一實(shí)驗(yàn)背景下,經(jīng)典“特征臉”算法的正確識(shí)別人臉圖像為156副,平均正確識(shí)別率為78%.基于模糊神經(jīng)推理算法與經(jīng)典“特征臉”算法的性能曲線對(duì)比如圖6所示.對(duì)第14及第17組樣本,“特征臉”算法正確識(shí)別率為0%,而模糊神經(jīng)推理算法有了一定的改善,識(shí)別率分別為60%及20%.模糊神經(jīng)推理算法正確識(shí)別率低于“特征臉”算法的樣本只有第3、第5以及第40組,共計(jì)3組,可以認(rèn)為模糊神經(jīng)推理算法的正確識(shí)別率較好.
圖6 ANFIS與Eigenface算法的性能曲線對(duì)比Figure 6 The comparison on performance curve between the ANFISand Eigenface
如表2所示,二者的系統(tǒng)測(cè)試耗時(shí)相對(duì)近似,200張人臉圖片的測(cè)試時(shí)間分別為3.58 s和8.46 s,平均每張圖片測(cè)試時(shí)間分別為0.02 s和0.04 s.考慮到系統(tǒng)訓(xùn)練過程在離線階段完成,實(shí)際工程應(yīng)用中主要涉及的性能指標(biāo)是在線測(cè)試耗時(shí),因此模糊神經(jīng)推理算法離線訓(xùn)練階段耗時(shí)比較大的問題對(duì)實(shí)際系統(tǒng)使用影響不大.
表2 2種人臉識(shí)別算法的在線階段系統(tǒng)耗時(shí)對(duì)比表Table 2 The online time consuming of two face recognition algorithm /s
將實(shí)驗(yàn)條件改為:取ORL人臉庫(kù)每組前5副圖像用于訓(xùn)練,所有的400幅圖像作為測(cè)試集,以X=5,Y=5進(jìn)行子圖分割,實(shí)驗(yàn)結(jié)果正確識(shí)別人臉圖像共計(jì)371副,識(shí)別率為92.8%.與同等實(shí)驗(yàn)條件下特征臉?biāo)惴?Eigenface)、局部二值模式算法(LBP)、基于熱核的局部二值模式算法(HKLBP)、基于半動(dòng)態(tài)外觀模型的人臉識(shí)別算法(SAAM)進(jìn)行結(jié)果比較[3,10],如表3 所示.本文算法的識(shí)別率稍優(yōu)于 LBP的 92.3% 與 SAAM 的 90.6%,低 于 HKLBP 的99.5%.本文算法效果與最新研究成果仍存在一定差距,但是本文的算法作為一種新的人臉識(shí)別技術(shù)方案,在改進(jìn)系統(tǒng)第二層中的隸屬函數(shù)和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法等方面有進(jìn)一步改進(jìn)的可能性.
表3 本文算法與其他一些算法的識(shí)別精度對(duì)比Table 3 The accuracy comparison of several face recognition algorithms %
觀察本實(shí)驗(yàn)采用的ORL人臉庫(kù)可知,其中同一個(gè)人的面部圖像包含了各種細(xì)節(jié)差別,例如笑與不笑、眼睛的睜閉、是否佩戴眼鏡、表情姿態(tài)、拍攝角度等.因此本文的識(shí)別算法對(duì)表情差異、圖像拍攝角度等方面具有一定的容錯(cuò)性.
實(shí)驗(yàn)結(jié)果驗(yàn)證了本文的理論分析,即模糊邏輯算法區(qū)別于布爾邏輯之處在于其不確定性,其將輸入離散為多維隸屬度,并在輸出時(shí)按加權(quán)和判決的思想十分符合人腦的整個(gè)人臉識(shí)別過程.此外,神經(jīng)網(wǎng)絡(luò)與模糊邏輯具有很好的技術(shù)互補(bǔ)性.因此,基于模糊神經(jīng)推理算法的人臉識(shí)別系統(tǒng),具有較好的技術(shù)優(yōu)勢(shì).
近年來(lái),人臉識(shí)別逐漸成為模式識(shí)別領(lǐng)域中的研究熱點(diǎn)之一,同時(shí)也是一項(xiàng)具有應(yīng)用前景的技術(shù).本文提出了一種基于模糊神經(jīng)推理算法的人臉識(shí)別系統(tǒng),通過對(duì)ORL人臉數(shù)據(jù)庫(kù)中的400副人臉圖像進(jìn)行實(shí)驗(yàn),論證了基于模糊神經(jīng)推理算法的人臉識(shí)別系統(tǒng)的有效性和實(shí)用性.
[1]鄧志才,麥瑞玲,伍成柏.計(jì)算機(jī)與個(gè)人識(shí)別技術(shù)[J].華南師范大學(xué)學(xué)報(bào):自然科學(xué)版,1997(2):25-31.
[2]GOLDSTEIN A J,HANNON L D,LESK A B.Identification of human faces[J].Proceeding of the IEEE,1971,59(5):748-760.
[3]LIX,HU W M,ZHANG Z F.Heat kernel based local binary pattern for face representation[J].IEEE Signal Processing Letters,2010,17(3):308-311.
[4]YIN Q,TANG X OU,SUN J.An associate-predict model for face recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2011:497-504.
[5]XIE S F,SHAN SG,CHEN X L,et al.Fusing local patterns of gabormagnitude and phase for face recognition[J].IEEE Trans on Image Processing,2010,19(5):1349-1361.
[6]LIB,CHANGH,SHAN SG,etal.Low-resolution face recognition via coupled locality preserving mappings[J].IEEE Signal Processing Letters,2009,16(11):20-23.
[7]SIROVICH L,KIRBY M.Low-dimensional procedure for the characterization of human faces[J].Journal of the Optical Society of America A,1987,4(3):519-524.
[8]TURK M,PENTLAND A.Eigenfaces for recognition[J].Cognitive Neuroscience,1991,3(1):71-86.
[9]JORSTAD A,JACOBS D,TROUVE A.A deformation and lighting insenstive metric for face recognition based on dense correspondences[C]∥IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2011:2353-2360.
[10]TAN X,TRIGGSB.Enhanced local texture feature sets for face recognition under difficult lighting conditions[J].Lecture Notes in Computer Science,2007,19(6):1635-1650.
[11]楊占棟,解梅.基于半動(dòng)態(tài)外觀模型的人臉識(shí)別[J].計(jì)算機(jī)工程,2011,37(24):150-151.
[12]LAWRENCE S,GILES C L,TSOI A C,et al.Face recognition:a convolutional neural network approach[J].IEEE Transactionson Neural Networks,1997,8(1):98-113.