王永茂,趙 珊
(1.河南理工大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,河南焦作454003;2.北京科技大學(xué)自動化學(xué)院,北京100083)
人臉識別由于其在身份識別、檢索、安全監(jiān)控等方面的應(yīng)用前景,已成為模式識別和人工智能領(lǐng)域的一個研究熱點.近年來,基于表觀的人臉識別方法,尤其是子空間方法,得到了迅速的發(fā)展,眾多學(xué)者提出了許多識別方法,如主元成分分析(Principle Component Analysis,簡稱PCA)[1]和線性判別分析(Linear Discriminant Analysis,簡稱LDA)[2].應(yīng)用PCA方法和LDA方法的一個前提是樣本服從多元正態(tài)分布,有研究表明,人臉圖像很可能位于一個低維的非線性流形上[3],不一定服從正態(tài)分布,在這種情況下,PCA和LDA方法可能失效.近年來,局部保形投影(Locality Preserving Projection,簡稱LPP)[4]被應(yīng)用到人臉識別中,與PCA及LDA相比,LPP在投影時能夠保持樣本的局部結(jié)構(gòu),將人臉圖像投影到一個反映其本質(zhì)的流形結(jié)構(gòu)上,其性能與LDA相當(dāng),遠(yuǎn)優(yōu)于PCA[5].然而,由于訓(xùn)練樣本個數(shù)有限,樣本維數(shù)往往遠(yuǎn)大于樣本的個數(shù),標(biāo)準(zhǔn)的LPP算法通常陷入小樣本問題,因此在應(yīng)用LPP之前往往利用PCA對樣本進(jìn)行降維,這樣就會丟失一些有用的鑒別信息,同時,執(zhí)行PCA計算復(fù)雜度較高.
離散余弦變換(DCT)是信號處理過程中常見的一種時域頻域變換,廣泛應(yīng)用于語音及圖像數(shù)據(jù)壓縮領(lǐng)域[6].DCT的數(shù)據(jù)壓縮能力與PCA相當(dāng),并具有快速算法,可以大大降低計算復(fù)雜度.為此文獻(xiàn)[7]提出了一種DCT與LPP相結(jié)合的人臉識別方法,利用DCT代替PCA進(jìn)行降維,然后在低維空間中利用LPP進(jìn)行特征抽取.在基于DCT的人臉識別方法中,DCT系數(shù)的數(shù)量與所取得的識別率并不成正比,因此如何選擇最有效的DCT系數(shù)作為識別特征是這類算法的關(guān)鍵問題,現(xiàn)有的基于DCT的人臉識別[7-9]方法都是按正方形或“Z”字形順序選擇低頻DCT系數(shù)作為特征進(jìn)行人臉識別.為了更好反映數(shù)據(jù)的流形結(jié)構(gòu),本文以局部保持能力判據(jù)作為DCT系數(shù)選擇的依據(jù),對DCT與LPP相結(jié)合的人臉識別方法進(jìn)行改進(jìn).
LPP是特征提取的最有效的方法之一,是非線性子空間學(xué)習(xí)算法拉普拉斯映射(Laplacian Eigenmap,簡稱LE)的線性近似算法.在識別問題中,兩個樣本的歐式距離越小,其相似度越高,那么同屬一個類別的可能性就越大,因此LPP的目標(biāo)是尋找一個轉(zhuǎn)換矩陣V將高維空間RD中的數(shù)據(jù)集X={x1,x2,…,xn}映射為低維空間Rd(d?D)中的數(shù)據(jù)集Y={y1,y2,…,yn},即yi=VTxi,i=1,2,…,n,使得在RD空間內(nèi)互為近鄰的兩點經(jīng)V映射后在Rd空間中仍互為近鄰,LPP的目標(biāo)公式為
其中,W=[Wij]為權(quán)值矩陣,Wij的取值為
其中,σ為經(jīng)驗值,Nk(xj)表示樣本xj的k近鄰集合,W的定義體現(xiàn)了樣本的局部信息,即與xi和xj是否為近鄰點有關(guān).
根據(jù)文獻(xiàn)[3]的推導(dǎo),最小化式(1)可以通過求解式(3)對應(yīng)的廣義特征值問題得到,
其中,D為對角矩陣,其對角元素為W的行(或列)元素之和,即矩陣,L=D-W.v為V的列向量.假定v1,v2,…,vd為式(3)最小的d個特征值對應(yīng)的特征向量,則最優(yōu)的轉(zhuǎn)換矩陣Vopt為
LPP得到的線性映射為
對于一幅M×N的圖像I (x,y)矩陣,其離散余弦變換定義為:
其中,C(u,v)為矩陣I(x,y)的DCT系數(shù).u=0,1,…,M-1,v=0,1,…,N-1,a(u),a(v)分別定義為
經(jīng)過DCT變換后,圖像的二維DCT系數(shù)構(gòu)成一個與原圖像大小相同的矩陣.人臉圖像及其DCT系數(shù)分布情況如圖1所示.
從圖1(b)的DCT系數(shù)分布情況可以看出,矩陣左上角的數(shù)值較大,代表了圖像信息的低頻分量,是人臉圖像信息的主體部分;而右下角數(shù)值較小,代表了圖像信息的高頻分量,主要反映人臉圖像的細(xì)節(jié)部分.因為人眼對圖像信息的低頻分量具有較高的視覺靈敏度,可以按照圖2(a)所示的選取矩陣左上角n×n正方形子塊內(nèi)的低頻DCT系數(shù)或按圖2(b)所示的“Z”字形順序選擇低頻的DCT系數(shù),從而達(dá)到壓縮圖像的目的.
圖1 人臉圖像及DCT系數(shù)Fig.1 Face image and DCT coefficient
圖2 DCT系數(shù)選擇方法Fig.2 DCT coefficient selection method
正方形與“Z”字形特征選擇方法基本上是選擇低頻DCT系數(shù)作為識別特征,這些特征并不能很好反映樣本流形結(jié)構(gòu),本文采用拉普拉斯值(Laplacian Score,簡稱LS)作為局部保持能力判據(jù)選擇能更好刻畫樣本流形結(jié)構(gòu)的DCT系數(shù).
LS用于評價特征的局部保持能力,在本質(zhì)上與LPP相似[10,11].令fri為第i個樣本xi的第r個特征,i=1,2,…,n,LS計算過程如下:
1)構(gòu)造一個有n個頂點的近鄰圖G,第i個頂點對應(yīng)樣本xi.如果樣本xi與樣本xj互為近鄰點,那么xi與xj之間有一條邊相連;
2)如果xi與xj相連,則邊的權(quán)值由兩個樣本點的相似度確定,即Wij=exp(-‖xi-xj‖2/2σ2),其中σ為經(jīng)驗值,否則Wij=0,權(quán)值矩陣W體現(xiàn)了樣本的局部信息;
3)對于第r個特征fr=[fr1,fr2,…,frn]T,其LS值定義為
其中,Var(fr)為第r個特征的方差,經(jīng)過簡單變形,式(9)變?yōu)?/p>
最近鄰是分類器是最簡單的一種分類器,對于測試樣本,計算其到各訓(xùn)練樣本的距離,測試樣本所屬類別為與測試樣本距離最近的訓(xùn)練樣本所屬的類別.
圖3 基于DCT和局部保持投影的人臉識別流程Fig.3 Procedure of facerecognition base on the DCT and LPP
為了挑選出更有效的特征,引入特征選擇算法,根據(jù)局部保持能力判據(jù)確定哪些DCT系數(shù)作為識別特征.本文提出的基于DCT和局部保持投影的人臉識別方法如圖3所示,包括兩個階段:訓(xùn)練階段和識別階段.
在訓(xùn)練階段,首先對訓(xùn)練集中每一幅人臉圖像進(jìn)行離散余弦變換,得到DCT系數(shù);然后分別在不同頻率的DCT系數(shù)上計算其LS值作為局部保持能力判據(jù),按LS值從小到大進(jìn)行排序;將LS值較小的DCT系數(shù)作為人臉的特征執(zhí)行LPP算法,得到最佳變換矩陣和訓(xùn)練樣本的識別特征.
在識別階段,對于一幅待識別的人臉圖像,首先對圖像進(jìn)行離散余弦變換,求出其DCT系數(shù);然后按訓(xùn)練過程中選定的順序選取DCT系數(shù),并將所選定的DCT系數(shù)向訓(xùn)練過程中確定的最佳變換矩陣投影,獲得識別特征.最后利用最近鄰分類器對人臉圖像進(jìn)行分類,即待識別人臉圖像所屬類別為與待識別人臉圖像的識別特征距離最近的訓(xùn)練人臉圖像所屬的類別.
為了驗證所提出算法的性能,本節(jié)設(shè)計兩類實驗,實驗1比較不同特征選擇方法的識別效果.實驗2比較本文提出的方法與其它人臉識別方法的識別性能.實驗在ORL人臉庫上進(jìn)行,該人臉庫是由英國劍橋大學(xué)建立,共有40個人,每人10張圖像,共有400張人臉圖像,圖像的面部表情和面部細(xì)節(jié)有著不同程度的變化,人臉姿勢也有相當(dāng)?shù)某潭茸兓?,比較充分的反映了同一人不同人臉圖像的變化和差異.實驗使用的人臉圖像經(jīng)剪切后大小均為64×64,然后將兩個人臉庫中的每個圖像進(jìn)行標(biāo)準(zhǔn)化.圖4是ORL人臉庫的部分人臉圖像.
圖4 ORL人臉庫Fig.4 ORL face database
從每類人臉圖像中隨機(jī)選取5幅圖像作為訓(xùn)練人臉集,其余的圖像作為測試人臉集.先對樣本進(jìn)行離散余弦變換,然后分別按照正方形、“Z”字形、局部保持能力判據(jù)等3種方式對DCT系數(shù)進(jìn)行選擇,接著在對選定的DCT系數(shù)執(zhí)行局部保持投影,提取人臉特征,采用最近鄰分類器完成最后的分類任務(wù),每組實驗都重復(fù)10次,取平均值作為最終的識別結(jié)果,實驗結(jié)果如圖5所示.
從圖5可以看出,基于正方形的DCT選擇方法,在使用81個DCT系數(shù)時,達(dá)到了該方法最高識別率95.85%;基于“Z”字形的DCT選擇方法,同樣也是在使用81個DCT系數(shù)時,達(dá)到了該方法的最高識別率95.95%;而本文采用的基于局部保持能力判據(jù)的DCT系數(shù)選擇方法,在使用49個DCT系數(shù)時,就達(dá)到了最高識別率97.05%.所以從最高識別率看,按局部保持能力判據(jù)選取DCT系數(shù)的方法取得了最高識別率,而且使用的DCT系數(shù)最少.從整體來看,基于正方形與“Z”字形的DCT選擇方法的識別效果相當(dāng),而效果最好的是本文提出的基于局部保持能力判據(jù)的DCT系數(shù)選擇方法,在大多數(shù)情況下,識別率均高于其他兩種方法.
圖5 不同DCT系數(shù)選擇方法的識別率比較Fig.5 Recognition accuracy comparison of different DCT coefficient selection method
由于本文提出的方法在全部DCT范圍內(nèi)利用局部保持能力判據(jù)選擇能夠更好反映訓(xùn)練人臉集流形結(jié)構(gòu)的DCT系數(shù),因此識別性能得到了提高.
本節(jié)在ORL人臉庫上對比本文提出的算法與PCA、PCA+LPP、DCT、DCT+LPP等算法的識別性能及執(zhí)行時間,其中在PCA方法中,利用PCA得到的子空間直接進(jìn)行分類;在PCA+LPP方法中,首先利用PCA對圖像進(jìn)行降維,然后在得到的PCA子空間內(nèi)執(zhí)行LPP方法提取識別特征;在DCT方法中,將DCT系數(shù)矩陣中左上角正方形內(nèi)的低頻系數(shù)直接應(yīng)用分類;在DCT+LPP方法中,按照“Z”字形順序選擇低頻的DCT系數(shù),然后對于選定的DCT系數(shù)執(zhí)行LPP方法提取識別特征.
在實驗中,從每類人臉圖像中隨機(jī)選取5張圖像作為訓(xùn)練集,剩下的作為測試集,重復(fù)進(jìn)行10次,共獲得10對不同的訓(xùn)練集和測試集,取10次實驗的平均值作為最終的識別率,識別結(jié)果如表1所示.
表1 ORL人臉數(shù)據(jù)庫上的識別率比較Tab.1 Recognition accuracy comparison on ORL face database
在表1中,從最高識別率看,利用DCT對圖像進(jìn)行降維略好于利用PCA對圖像進(jìn)行降維,DCT方法的最高識別率比PCA高1.25%,DCT+LPP的最高識別率高PCA+LPP方法1.3%,本文提出的方法取得了最高的識別率,比DCT+LPP高1.4%.
本文研究了基于離散余弦變換和局部保持投影的人臉識別方法.為了更好地反映樣本的流形結(jié)構(gòu),將拉普拉斯值作為局部保持能力判據(jù)對DCT系數(shù)進(jìn)行選擇,進(jìn)而在選定的DCT系數(shù)上執(zhí)行局部保持投影,實驗驗證了提出方法的有效性.
[1] Turk M,Pentland A.Eigenfaces for recognition[J].Journal of Cognitive Neuroscience,1991,3(1):72-86.
[2] Martinez A M,Kak A C.PCA versus LDA[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2001,23(2):228-233.
[3] Belkin M,Niyogi P.Laplacian eigenmaps for dimensionality reduction and data representation[J].Neural Computation,2003,15(6):1373-1396.
[4] He X F,Yan S C,Hu Y X.Face recognition using Laplacianfaces[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2005,27(3):328-340.
[5] Bajwa U I,Taj I A,Bhatti Z E.A comprehensive comparative performance analysis of Laplacianfaces and Eigenfaces for facerecognition[J].Imaging Science Journal,2011,59(1):32-40.
[6] Hafeld Z M,Levine M D.Face recognition using the discrete cosine transforms[J].International Journal of Computer Vision,2001,43(3):167-188.
[7] Zheng Z L,Zhao J M.Locality preserving projection in orthogonal domain[C]//Proceedings of Congress on Images and Signal.Sanya:IEEE press,2008:613-617.
[8] Samir A,Chahir Y.Face recognition using PCA and DCT[C]//Proceedings of International Conference on MEMS NANO and Smart System.Dubai:IEEE press,2009:15-19.
[9] Chen W L,Er M J,Wu S Q.PCA and LDA in DCT[J].Pattern Recognition Letters,2005,26(15):2474-2482.
[10] He X F,Deng C,Niyogi P.Laplacian score for feature selection[C]//Proceedings of Advances in Neural Information Processing System.Vancouver:Neural information processing system foundation,2005:507-514.
[11] Huang H,F(xiàn)eng H L,Peng C Y.Complete local fisher discriminant analysis with laplacian score ranking for face recognition[J].Neurocomputing,2012,89(7):64-77.