基于模糊神經(jīng)推理的人臉識(shí)別算法研究

2012-08-16 08:26沈榮鑫

華南師范大學(xué)學(xué)報(bào)（自然科學(xué)版） 2012年4期

桂榮，沈榮鑫，詹泳

(華南師范大學(xué)計(jì)算機(jī)學(xué)院，廣東廣州510631)

1 課題背景

隨著多媒體技術(shù)的發(fā)展，數(shù)字圖像處理在科學(xué)研究、國(guó)防、工業(yè)生產(chǎn)以及現(xiàn)代化管理決策等各行業(yè)都得到了越來(lái)越多的應(yīng)用．以人臉識(shí)別為代表的面部感知計(jì)算從20世紀(jì)80年代末開始逐漸成為熱門的研究方向．

在日常生活中，識(shí)別一個(gè)人最常用的方法是根據(jù)其臉部形象［1］．由于諸多復(fù)雜因素的影響，致使人臉識(shí)別性能受到很大限制．目前根據(jù)人臉表征方式的不同，通常將人臉正面自動(dòng)模式識(shí)別技術(shù)分為三大類:基于幾何特征的識(shí)別方法、基于代數(shù)特征的識(shí)別方法和基于連接機(jī)制的識(shí)別方法．

幾何特征方法［2］首先將人臉用一個(gè)幾何特征向量表示，繼而用模式識(shí)別中層次聚類的思想設(shè)計(jì)分類器達(dá)到識(shí)別目的．近年來(lái)，學(xué)術(shù)界相繼提出了各種優(yōu)秀的特征提取算法，如LI等［3］提出的基于熱核的局部二值模式(Heat Kernel Based Local Binary Pattern，HKLBP)人臉表征法，YIN 等［4］提出的基于聯(lián)合預(yù)測(cè)模型的人臉識(shí)別算法，XIE等［5］提出的局部融合模式識(shí)別算法，并以多種傳統(tǒng)算法為例進(jìn)行了融合仿真，LI等［6］提出的一種基于聯(lián)合局部保護(hù)映射機(jī)制的人臉識(shí)別算法，并通過仿真數(shù)據(jù)與多種傳統(tǒng)算法進(jìn)行了性能對(duì)比．

基于代數(shù)特征的人臉識(shí)別算法的原理是利用統(tǒng)計(jì)特征提取，形成子空間進(jìn)行模式識(shí)別．SIROVICH等［7］首先將K-L變換用于人臉圖像的最優(yōu)表示;隨后，TURK等［8］提出了基于主分量分析(Principal Component Analysis，PCA)的特征臉(Eigenfaces)方法，為人臉識(shí)別中子空間分析方法(Subspace Analysis)這一經(jīng)典研究方向開辟了道路，但其不足之處在于:由主分量張成的子空間雖然從最小誤差重建意義上是最優(yōu)的，但是與分類并沒有直接的聯(lián)系．該方法對(duì)背景及光照等因素較為敏感．很多學(xué)者針對(duì)這一問題開展了研究，如 JORSTAD等［9］提出的基于密度對(duì)比的人臉識(shí)別算法，TAN等［10］提出的低光線條件下的局部特征增強(qiáng)算法，楊占棟等［11］提出的基于半動(dòng)態(tài)外觀模型(Semi-active Appearance Model，SAAM)的人臉識(shí)別算法等，這些研究均在一定程度上改善了該類算法的技術(shù)．

基于連接機(jī)制的人臉識(shí)別算法將人臉直接用灰度圖表征，利用了神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性擬合能力．這種方法的優(yōu)勢(shì)在于保存了人臉圖像中的材質(zhì)信息及細(xì)微的形狀信息，同時(shí)避免了較為復(fù)雜的特征提取工作［12］．該類算法由于原始灰度圖像數(shù)據(jù)量十分龐大，因此神經(jīng)元數(shù)目通常很多，訓(xùn)練時(shí)間很長(zhǎng)．另外，神經(jīng)網(wǎng)絡(luò)雖然有較強(qiáng)的非線性擬合能力，但當(dāng)樣本數(shù)大量增加時(shí)，其性能可能會(huì)嚴(yán)重下降．

本文以O(shè)RL(Olivetti Research Laboratory)數(shù)據(jù)庫(kù)為背景，開展了基于模糊神經(jīng)推理的人臉識(shí)別算法研究．其中，將整幅人臉圖像輸入系統(tǒng)，符合格氏塔心理學(xué)中對(duì)人類識(shí)別能力的解釋，如果離線訓(xùn)練樣本豐富，在線階段就可以削弱人臉角度等細(xì)節(jié)對(duì)識(shí)別結(jié)果的影響．人臉特征采用基于子圖分割的SVD特征提取算法，文中針對(duì)不同子圖分割方式對(duì)系統(tǒng)的性能影響進(jìn)行了詳盡的實(shí)驗(yàn)分析．仿真結(jié)果給出了基于模糊神經(jīng)推理算法的實(shí)驗(yàn)結(jié)果以及算法性能分析，并與一系列人臉識(shí)別算法進(jìn)行了比較．實(shí)驗(yàn)結(jié)果表明，本文提出的人臉識(shí)別算法具有良好的識(shí)別性能及魯棒性．

2 人臉數(shù)據(jù)庫(kù)的建立

本文選擇目前使用最廣泛的英國(guó)劍橋大學(xué)AT＆T實(shí)驗(yàn)室創(chuàng)建的ORL人臉數(shù)據(jù)庫(kù)來(lái)設(shè)計(jì)實(shí)驗(yàn)．圖1是ORL人臉數(shù)據(jù)庫(kù)中的一組人臉圖像．

圖1 ORL人臉數(shù)據(jù)庫(kù)的一組圖例Figure 1 A group of sample images from ORL

由于該人臉數(shù)據(jù)庫(kù)種類覆蓋面廣，且個(gè)體表情、配飾豐富，因此是人臉識(shí)別研究的首選數(shù)據(jù)庫(kù)．ORL人臉數(shù)據(jù)庫(kù)包括從1992年4月～1994年4月拍攝的一系列人臉圖像，由40個(gè)人的400幅灰度圖像組成，圖像尺寸為92×112像素，圖像背景為黑色．由于人臉是塑性可變形體，表情的變化、有無(wú)戴眼鏡、不同的姿態(tài)都使拍攝的人臉看起來(lái)有所不同，為了反映這些變化，每一個(gè)人拍攝10幅圖像，其中人臉臉部表情和細(xì)節(jié)均有變化．

3 模糊神經(jīng)推理算法的系統(tǒng)建模

對(duì)于模糊模型來(lái)說模型結(jié)構(gòu)的確定主要包括2個(gè)方面:一是輸入變量的選擇．這包括物理輸入量和狀態(tài)變量的選擇．可以依據(jù)專家知識(shí)、對(duì)過程特性的理解和模型的用途來(lái)考慮如何選擇合適的輸入變量．然后參考某種準(zhǔn)則，使用自動(dòng)數(shù)據(jù)驅(qū)動(dòng)選擇程序來(lái)比較不同結(jié)構(gòu)的性能，選擇較好的模型結(jié)構(gòu);二是隸屬函數(shù)的確定、形式及規(guī)則數(shù)量的選擇．這2種結(jié)構(gòu)參數(shù)是相互關(guān)聯(lián)的，它們決定了模型的復(fù)雜程度及對(duì)輸入空間的劃分方式．

在模糊系統(tǒng)的設(shè)計(jì)過程中，規(guī)則數(shù)目的確定非常重要．規(guī)則數(shù)量過多會(huì)令模糊系統(tǒng)變得過于復(fù)雜;規(guī)則過少會(huì)令模糊系統(tǒng)的作用削弱，導(dǎo)致難以達(dá)到足夠的擬合能力．對(duì)于每一個(gè)模糊子空間，系統(tǒng)的局部模型可用一個(gè)線性方程表達(dá)，而系統(tǒng)的總輸出則為各局部線性模型輸出的加權(quán)和．對(duì)于一階“Takagi Sugeno”模型，模糊規(guī)則數(shù)設(shè)為2，那么具體規(guī)則集如式(1)所示．

圖2是本文基于子圖分割和模糊神經(jīng)推理算法的人臉識(shí)別系統(tǒng)流程圖．主要步驟包括人臉圖像的載入、人臉圖像的子圖分割、人臉圖像的特征提取、模糊神經(jīng)推理系統(tǒng)的訓(xùn)練和人臉圖像的識(shí)別．

模糊神經(jīng)推理系統(tǒng)模型可表現(xiàn)為一個(gè)多層前饋網(wǎng)絡(luò)，同一層節(jié)點(diǎn)具有相同類型的輸出函數(shù)，不同層節(jié)點(diǎn)具有不同的輸出函數(shù)．模糊神經(jīng)推理系統(tǒng)拓?fù)浣Y(jié)構(gòu)如圖3所示，每維坐標(biāo)方向上生成的模糊子系統(tǒng)為一階單輸出的Takagi-Sugeno模型．其輸入為子圖分割特征向量，模糊規(guī)則數(shù)設(shè)為P，輸出為一組

圖2 基于模糊神經(jīng)推理的人臉識(shí)別系統(tǒng)流程圖Figure 2 The flow chart of fuzzy neural inference based face recognition system

圖3 模糊神經(jīng)推理系統(tǒng)的基本拓?fù)浣Y(jié)構(gòu)示意圖Figure 3 Topological structure of fuzzy neural inference system

第1層:輸入層，該層由N個(gè)節(jié)點(diǎn)構(gòu)成，模糊神經(jīng)元僅起到傳遞作用，即:

第2層:該層節(jié)點(diǎn)的作用是對(duì)輸入信號(hào)進(jìn)行模糊化，該層共由T個(gè)節(jié)點(diǎn)組成，A是與該節(jié)點(diǎn)有關(guān)的語(yǔ)言變量．也就是說，O2i是輸入信號(hào)樣本的對(duì)應(yīng)模糊集隸屬度，它確定了給定輸入信號(hào)樣本滿足A的程度，實(shí)現(xiàn)了模糊化，A的隸屬函數(shù)可以是任何合適的參數(shù)化隸屬函數(shù)，這里使用高斯函數(shù):

其中，高斯函數(shù)的參數(shù)(mi，σi)由系統(tǒng)訓(xùn)練過程得到．由于該層隸屬度參數(shù)為非線性，且位于模糊規(guī)則的“如果”部分，所以該層的參數(shù)又稱為前件參數(shù)．

第3層:實(shí)現(xiàn)模糊推理系統(tǒng)前件部分的模糊合成運(yùn)算，也就是各個(gè)輸入值的模糊“乘”運(yùn)算，即:

第4層:實(shí)現(xiàn)模糊推理系統(tǒng)后件部分的模糊蘊(yùn)含運(yùn)算，節(jié)點(diǎn)的傳遞函數(shù)為線性函數(shù)，表示模糊推理系統(tǒng)后件部分的線性模型．其輸出如下式所示．

其中(qi，1，qi，2，…，qi，N-1，qi，N，qi，N+1)是第 i個(gè)節(jié)點(diǎn)的輸出語(yǔ)言變量參數(shù)集，即規(guī)則后件參數(shù)，由系統(tǒng)訓(xùn)練過程得到．

第5層:解模糊層，計(jì)算模糊神經(jīng)推理系統(tǒng)的總輸出:

此種模糊多層前饋網(wǎng)絡(luò)不但在輸入輸出端口與具體的模糊系統(tǒng)等效，而且網(wǎng)絡(luò)內(nèi)部與模糊系統(tǒng)的模糊化、模糊推理、解模糊相對(duì)應(yīng)，可以用模糊系統(tǒng)的有關(guān)概念來(lái)解釋，因而這種網(wǎng)絡(luò)內(nèi)部是透明的．模糊系統(tǒng)的模糊規(guī)則及隸屬函數(shù)參數(shù)的修改，在模糊多層前饋網(wǎng)絡(luò)中轉(zhuǎn)變?yōu)榫植抗?jié)點(diǎn)或權(quán)值的確定和調(diào)整．

本文中模糊神經(jīng)推理系統(tǒng)的訓(xùn)練采用BP算法，該算法建立在梯度下降算法的基礎(chǔ)上，即權(quán)值的修正量取誤差函數(shù)E(W)對(duì)W的負(fù)梯度．在一個(gè)L層的模糊神經(jīng)網(wǎng)絡(luò)系統(tǒng)中，設(shè)第k層上有nk個(gè)節(jié)點(diǎn)，且訓(xùn)練樣本集中有P組輸入、輸出數(shù)據(jù)，定義第p(1≤p≤P)組數(shù)據(jù)對(duì)應(yīng)的目標(biāo)函數(shù)為均方根誤差:

輸出節(jié)點(diǎn)(L，i)的誤差變化率為:

對(duì)內(nèi)部節(jié)點(diǎn)(k，i)(1≤k≤L-1)，其誤差變化率可以根據(jù)鏈?zhǔn)椒▌t由下式推導(dǎo)出:

設(shè)α是ANFIS網(wǎng)絡(luò)的一個(gè)待調(diào)整的參數(shù)，則

其中S代表輸出依賴α的節(jié)點(diǎn)集，總誤差E對(duì)α的偏導(dǎo)數(shù)為:

為了盡快地減小目標(biāo)誤差，沿著目標(biāo)誤差函數(shù)斜率下降的方向調(diào)整 α，即 Δα=-η?E/?α，η 稱為學(xué)習(xí)速率，可以根據(jù)目標(biāo)誤差減小的情況進(jìn)行調(diào)整．

4 算法仿真與性能分析

采用ORL數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)．該人臉庫(kù)共包括40人，每人10副圖像，共計(jì)400副圖像．系統(tǒng)可選參數(shù)包括子圖分割數(shù)量、模糊語(yǔ)言變量數(shù)及模糊規(guī)則數(shù)及結(jié)構(gòu)．其中，子圖分割數(shù)量直接影響圖像特征的豐富程度．理論上來(lái)說，子圖分割數(shù)量越大，圖像特征量越多，特征越豐富，但同時(shí)會(huì)導(dǎo)致模糊神經(jīng)推理系統(tǒng)的輸入量維數(shù)增多，從而使得系統(tǒng)過于復(fù)雜，訓(xùn)練時(shí)間急劇上升．

圖4 基于二維子圖分割的示意圖Figure 4 Face image base on two dimension sub-image dividing

表1 基于二維子圖分割的系統(tǒng)正確識(shí)別率Table 1 The performance of sub-image division based face recognition system

為了深入分析子圖分割方式對(duì)人臉識(shí)別系統(tǒng)的性能影響，本文研究了不同二維子圖分割方式的系統(tǒng)性能，如圖4所示．二維子圖分割的系統(tǒng)性能參數(shù)如表1所示．實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)子圖分割數(shù)目過大時(shí)，導(dǎo)致神經(jīng)網(wǎng)絡(luò)輸入維數(shù)過多，系統(tǒng)過于復(fù)雜，以至于實(shí)驗(yàn)機(jī)內(nèi)存溢出．其中，實(shí)驗(yàn)機(jī)所能承受的神經(jīng)網(wǎng)絡(luò)輸入最大維數(shù)為32．此外，由于模糊神經(jīng)推理系統(tǒng)復(fù)雜度極高，輸入達(dá)到20維時(shí)，訓(xùn)練耗時(shí)已達(dá)到10 h為單位．綜合以上客觀原因，本文中二維子圖分割數(shù)目上限分析至25．

將表1的實(shí)驗(yàn)結(jié)果進(jìn)行三次樣條插值得到系統(tǒng)性能圖(圖5)．其中，X軸及Y軸非整數(shù)部分值為擬合結(jié)果，并無(wú)實(shí)際意義．總的來(lái)說，在本文所取子圖分割范圍內(nèi)，系統(tǒng)性能一直隨子圖分割數(shù)目增多而提高，在極限處趨于收斂．三維曲面在X=5，Y=5處達(dá)到峰值85．5%，該子圖分割方式如圖4(b)所示．該子圖分割很好地保留了諸如眼睛、耳朵、鼻梁、鼻尖以及下顎等諸多局部特征的局部完整性，系統(tǒng)性能達(dá)到最佳．

圖5 二維子圖分割的系統(tǒng)性能擬合圖Figure 5 Fitting chartof sub-image division based face recognition system

對(duì)比實(shí)驗(yàn)采用“特征臉”算法，在同等實(shí)驗(yàn)條件下．將訓(xùn)練集圖像向量通過K-L變換進(jìn)行降維，保留k個(gè)特征值最大的特征向量組成低維線性向量空間，即特征子空間．將測(cè)試集的人臉圖像向特征子空間進(jìn)行投影，并求得投影結(jié)果與每個(gè)訓(xùn)練集投影結(jié)果的歐氏距離．若此距離小于閾值，則認(rèn)為人臉匹配成功．

以X=5，Y=5進(jìn)行子圖分割，實(shí)驗(yàn)結(jié)果正確識(shí)別人臉圖像共計(jì)171副，平均正確識(shí)別率85．5%．在同一實(shí)驗(yàn)背景下，經(jīng)典“特征臉”算法的正確識(shí)別人臉圖像為156副，平均正確識(shí)別率為78%．基于模糊神經(jīng)推理算法與經(jīng)典“特征臉”算法的性能曲線對(duì)比如圖6所示．對(duì)第14及第17組樣本，“特征臉”算法正確識(shí)別率為0%，而模糊神經(jīng)推理算法有了一定的改善，識(shí)別率分別為60%及20%．模糊神經(jīng)推理算法正確識(shí)別率低于“特征臉”算法的樣本只有第3、第5以及第40組，共計(jì)3組，可以認(rèn)為模糊神經(jīng)推理算法的正確識(shí)別率較好．

圖6 ANFIS與Eigenface算法的性能曲線對(duì)比Figure 6 The comparison on performance curve between the ANFISand Eigenface

如表2所示，二者的系統(tǒng)測(cè)試耗時(shí)相對(duì)近似，200張人臉圖片的測(cè)試時(shí)間分別為3．58 s和8．46 s，平均每張圖片測(cè)試時(shí)間分別為0．02 s和0．04 s．考慮到系統(tǒng)訓(xùn)練過程在離線階段完成，實(shí)際工程應(yīng)用中主要涉及的性能指標(biāo)是在線測(cè)試耗時(shí)，因此模糊神經(jīng)推理算法離線訓(xùn)練階段耗時(shí)比較大的問題對(duì)實(shí)際系統(tǒng)使用影響不大．

表2 2種人臉識(shí)別算法的在線階段系統(tǒng)耗時(shí)對(duì)比表Table 2 The online time consuming of two face recognition algorithm /s

將實(shí)驗(yàn)條件改為:取ORL人臉庫(kù)每組前5副圖像用于訓(xùn)練，所有的400幅圖像作為測(cè)試集，以X=5，Y=5進(jìn)行子圖分割，實(shí)驗(yàn)結(jié)果正確識(shí)別人臉圖像共計(jì)371副，識(shí)別率為92．8%．與同等實(shí)驗(yàn)條件下特征臉?biāo)惴?Eigenface)、局部二值模式算法(LBP)、基于熱核的局部二值模式算法(HKLBP)、基于半動(dòng)態(tài)外觀模型的人臉識(shí)別算法(SAAM)進(jìn)行結(jié)果比較［3，10］，如表3 所示．本文算法的識(shí)別率稍優(yōu)于 LBP的 92．3% 與 SAAM 的 90．6%，低于 HKLBP 的99．5%．本文算法效果與最新研究成果仍存在一定差距，但是本文的算法作為一種新的人臉識(shí)別技術(shù)方案，在改進(jìn)系統(tǒng)第二層中的隸屬函數(shù)和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法等方面有進(jìn)一步改進(jìn)的可能性．

表3 本文算法與其他一些算法的識(shí)別精度對(duì)比Table 3 The accuracy comparison of several face recognition algorithms %

觀察本實(shí)驗(yàn)采用的ORL人臉庫(kù)可知，其中同一個(gè)人的面部圖像包含了各種細(xì)節(jié)差別，例如笑與不笑、眼睛的睜閉、是否佩戴眼鏡、表情姿態(tài)、拍攝角度等．因此本文的識(shí)別算法對(duì)表情差異、圖像拍攝角度等方面具有一定的容錯(cuò)性．

實(shí)驗(yàn)結(jié)果驗(yàn)證了本文的理論分析，即模糊邏輯算法區(qū)別于布爾邏輯之處在于其不確定性，其將輸入離散為多維隸屬度，并在輸出時(shí)按加權(quán)和判決的思想十分符合人腦的整個(gè)人臉識(shí)別過程．此外，神經(jīng)網(wǎng)絡(luò)與模糊邏輯具有很好的技術(shù)互補(bǔ)性．因此，基于模糊神經(jīng)推理算法的人臉識(shí)別系統(tǒng)，具有較好的技術(shù)優(yōu)勢(shì)．

5 結(jié)論

近年來(lái)，人臉識(shí)別逐漸成為模式識(shí)別領(lǐng)域中的研究熱點(diǎn)之一，同時(shí)也是一項(xiàng)具有應(yīng)用前景的技術(shù)．本文提出了一種基于模糊神經(jīng)推理算法的人臉識(shí)別系統(tǒng)，通過對(duì)ORL人臉數(shù)據(jù)庫(kù)中的400副人臉圖像進(jìn)行實(shí)驗(yàn)，論證了基于模糊神經(jīng)推理算法的人臉識(shí)別系統(tǒng)的有效性和實(shí)用性．

［1］鄧志才，麥瑞玲，伍成柏．計(jì)算機(jī)與個(gè)人識(shí)別技術(shù)［J］．華南師范大學(xué)學(xué)報(bào):自然科學(xué)版，1997(2):25-31．

［2］GOLDSTEIN A J，HANNON L D，LESK A B．Identification of human faces［J］．Proceeding of the IEEE，1971，59(5):748-760．

［3］LIX，HU W M，ZHANG Z F．Heat kernel based local binary pattern for face representation［J］．IEEE Signal Processing Letters，2010，17(3):308-311．

［4］YIN Q，TANG X OU，SUN J．An associate-predict model for face recognition［C］∥IEEE Conference on Computer Vision and Pattern Recognition，2011:497-504．

［5］XIE S F，SHAN SG，CHEN X L，et al．Fusing local patterns of gabormagnitude and phase for face recognition［J］．IEEE Trans on Image Processing，2010，19(5):1349-1361．

［6］LIB，CHANGH，SHAN SG，etal．Low-resolution face recognition via coupled locality preserving mappings［J］．IEEE Signal Processing Letters，2009，16(11):20-23．

［7］SIROVICH L，KIRBY M．Low-dimensional procedure for the characterization of human faces［J］．Journal of the Optical Society of America A，1987，4(3):519-524．

［8］TURK M，PENTLAND A．Eigenfaces for recognition［J］．Cognitive Neuroscience，1991，3(1):71-86．

［9］JORSTAD A，JACOBS D，TROUVE A．A deformation and lighting insenstive metric for face recognition based on dense correspondences［C］∥IEEE Conference on Computer Vision and Pattern Recognition(CVPR)，2011:2353-2360．

［10］TAN X，TRIGGSB．Enhanced local texture feature sets for face recognition under difficult lighting conditions［J］．Lecture Notes in Computer Science，2007，19(6):1635-1650．

［11］楊占棟，解梅．基于半動(dòng)態(tài)外觀模型的人臉識(shí)別［J］．計(jì)算機(jī)工程，2011，37(24):150-151．