王永茂,王玉琨,趙珊
河南理工大學計算機科學與技術學院,河南焦作 454000
◎博士論壇◎
基于DCT域內(nèi)拉普拉斯值排序的人臉識別方法
王永茂,王玉琨,趙珊
河南理工大學計算機科學與技術學院,河南焦作 454000
基于DCT域內(nèi)的人臉識別方法的關鍵是如何選擇有效的DCT系數(shù),提出了一種基于DCT域內(nèi)拉普拉斯值排序的人臉識別方法。首先將圖像劃分為若干個大小相同的子塊,對每一個子塊進行DCT變換,得到分塊DCT系數(shù),然后利用拉普拉斯值作為局部保持能力判據(jù)選擇那些能夠很好保持樣本流形結(jié)構(gòu)的分塊DCT系數(shù),最后對選定的DCT系數(shù)執(zhí)行LPP算法提取識別特征,在ORL和Yale人臉數(shù)據(jù)庫上的實驗結(jié)果證明了該方法的有效性。
人臉識別;分塊離散余弦變換;局部保持投影;拉普拉斯值
在人臉識別等應用領域中經(jīng)常遭遇“高維數(shù)據(jù)”,需要進行有效的降維,子空間特征提取方法是一種有效的降維手段。主元成分分析(Principle Component Analysis,PCA)[1]和線性判別分析(Linear Discrim iant Analysis,LDA)[2]是兩種典型的線性子空間特征提取方法,但不能很好提取數(shù)據(jù)的非線性特征,有研究表明,人臉圖像很可能位于一個低維的非線性流形上[3]。近年來,基于流形的子空間特征提取方法局部保形投影(Locality Preserving Projection,LPP)[4]被廣泛應用到人臉識別中,與PCA及LDA相比,LPP在投影時能夠保持樣本的局部結(jié)構(gòu),將人臉圖像投影到一個反映其本質(zhì)的流形結(jié)構(gòu)上,其性能與LDA相當,遠優(yōu)于PCA[5]。然而,由于訓練樣本個數(shù)有限,樣本維數(shù)往往遠大于樣本的個數(shù),標準的LPP算法通常陷入小樣本問題,因此在應用LPP之前往往利用PCA對樣本進行降維,這樣實際上僅僅利用主元空間內(nèi)的信息而丟失了其零空間內(nèi)的大量信息,為此Feng等人提出了直接局部保形投影算法(Direct LPP,DLPP)[6]。LPP與DLPP本質(zhì)上是非監(jiān)督算法,為了充分利用樣本的鑒別信息,一些基于LPP的監(jiān)督算法相繼提出,Yu等人結(jié)合Fisher準則提出了鑒別保局投影算法[7],Zhu等人提出正交鑒別保局投影算法[8],Cai等人在圖嵌入框架的基礎上提出了局部敏感鑒別分析算法[9]。
離散余弦變換(DCT)是信號處理過程中常見的一種時域頻域變換,廣泛應用于語音及圖像數(shù)據(jù)壓縮領域[10]。DCT的數(shù)據(jù)壓縮能力與PCA相當,并具有快速算法,可以大大降低計算復雜度,基于此,一些基于DCT域內(nèi)的人臉識別方法應運而生[11-13]。基于DCT域內(nèi)的人臉識別方法的關鍵是如何選擇有效的DCT系數(shù)?,F(xiàn)有的方法都是按矩形或“Z”字形順序選擇低頻DCT系數(shù)作為特征進行人臉識別。本文從有效特征選擇的角度出發(fā),提出了一種基于DCT域內(nèi)拉普拉斯值排序的人臉識別方法,以拉普拉斯值作為局部保持能力判據(jù)選擇那些能夠更好反映樣本流形結(jié)構(gòu)的分塊DCT系數(shù),然后在選定的分塊DCT域內(nèi)執(zhí)行LPP算法提取人臉特征。
LPP是特征提取的最有效的方法之一,其基本思想為:在識別問題中,兩個樣本的歐式距離越小,其相似度越高,那么同屬一個類別的可能性就越大,因此LPP的目標是尋找一個轉(zhuǎn)換矩陣V將高維空間RD中的數(shù)據(jù)集X={x1,x2,…,xN}映射為低維空間Rd(d?D)中的數(shù)據(jù)集Y={y1,y2,…,yn},即yi=VTxi,i=1,2,…,N,使得在RD空間內(nèi)互為近鄰的兩點經(jīng)V映射后在Rd空間中仍互為近鄰,LPP的目標公式為:
其中,W=[Wij]為權值矩陣,Wij的取值為:
其中,σ為經(jīng)驗值,Nk(xj)表示樣本xj的k近鄰集合,W的定義體現(xiàn)了樣本的局部信息,即與xi和xj是否為近鄰點有關。
最小化式(1)可以通過求解廣義特征值問題得到:
其中,D為對角矩陣,其對角元素為W的行(或列)元素之和,即D=;L為Laplacian矩陣,L=D-W。v為V的列向量。假定v1,v2,…,vd為式(3)最小的d個特征值對應的特征向量,則最優(yōu)的轉(zhuǎn)換矩陣Vopt為:
LPP得到的線性映射為:
首先討論一維的情況,對于一個N維向量x,DCT定義為:
DCT可以寫成向量形式,即y=CTx,矩陣C∈RN×N的元素cn,k定義為:
容易證明C為正交矩陣,即有CT=C-1。
下面討論二維的情況,對于一個M×N的二維矩陣X的DCT結(jié)果可以通過在行方向和列方向上進行DCT變換得到,即:
其中CM∈RM×M和CN∈RN×N分別為行方向和列方向上的正交變換矩陣。
二維矩陣X的DCT變換結(jié)果為一個與X大小相同的矩陣,稱為矩陣X的DCT系數(shù)矩陣,圖1為一幅人臉圖像及其DCT系數(shù)矩陣。
圖1(b)的DCT系數(shù)矩陣很好地體現(xiàn)了其“能量集中”這一特性,即DCT系數(shù)矩陣的左上角的數(shù)值較大,說明人臉圖像主體信息主要集中在DCT系數(shù)的低頻部分。
圖1 人臉圖像及DCT系數(shù)
在應用LPP算法之前,需要將M×N圖像矩陣轉(zhuǎn)換為MN維向量,式(8)可以轉(zhuǎn)換為如式(9)所示的向量形式:
其中?=[x0,0,…,xM-1,N-1]和?=[y0,0,…,yM-1,N-1]為MN維向量,G為MN×MN正交變換矩陣,其值為:
此外,向量?中元素的序列對應于變換矩陣G的列順序,因此中元素序列的改變不會改變變換矩陣G的正交性。
對于JPEG壓縮標準,首先將圖像劃分為若干個大小為8×8的子塊,然后再對各個子塊分別執(zhí)行DCT變換。同樣,對于一個大小pn×qn的圖像若劃分為p×q個大小為n×n的子塊,則其分塊DCT變換可以表示為:
其中Gij為對每一個子塊進行DCT變換時對應的變換矩陣,可知Gij為正交矩陣,即有=,所以有:
可知式(12)對應的塊對角變換矩陣同樣也為正交矩陣,所以分塊DCT系數(shù)可以直接應用LPP算法。
對圖像進行分塊DCT變換得到的分塊DCT系數(shù)同樣也是二維的,在應用LPP時,樣本的特征采用一維向量的形式表示,因此需要將分塊DCT系數(shù)按照一定的次序轉(zhuǎn)換為一維向量形式,通常有兩種方式:如圖2所示的矩形方式(矩形內(nèi)的DCT系數(shù)按行或列順序排列,本圖中為按行排列)和如圖3的“Z”字形方式。
圖2 DCT系數(shù)選擇方法(矩形)
圖3 DCT系數(shù)選擇方法(“Z”字形)
從有效特征選擇的角度出發(fā)提出采用拉普拉斯值(Laplacian Score,LS)作為局部保持能力判據(jù)選擇能更好刻畫樣本流形結(jié)構(gòu)的DCT系數(shù)。
LS用于評價特征的局部保持能力,本質(zhì)上與LPP相似[14-15]。令fri為第i個樣本xi的第r個特征,i=1,2,…,N,LS計算過程如下:
(1)構(gòu)造近鄰圖G:如果樣本xi與樣本xj互為近鄰點,那么xi與xj之間有一條邊相連。
(3)對于第r個特征fr=[fr1,fr2,…,frN]T,其LS值定義為:
其中,Var(fr)為第r個特征的方差,經(jīng)過簡單變形,式(13)變?yōu)椋?/p>
根據(jù)式(13)中LS的定義,一個好的特征,應該使得∑ij(fri-frj)Wij最小化,Var(fr)最大化,LS值趨向取較小的值?!苅j(fri-frj)Wij最小化表明該特征具有較強局部信息保持能力,即互為近鄰點的兩個樣本點在該特征上差別最?。籚ar(fr)最大化表明該特征具有較強樣本表示能力。因此可以將LS作為局部保持能力判據(jù),其值越小,表明該特征刻畫樣本流形結(jié)構(gòu)的能力越強。同樣在執(zhí)行LPP算法之前,將分塊DCT變換得到的分塊DCT系數(shù)按照LS值從小到大的順序轉(zhuǎn)換為一維向量形式,如圖4所示。
圖4 基于LS的DCT系數(shù)選擇
本文提出基于DCT域內(nèi)拉普拉斯值排序的人臉識別方法(DCT/LS+LPP)的流程如圖5所示,包括兩個階段:訓練階段和識別階段。
圖5 DCT/LS+LPP的圖像識別框圖
在訓練階段,首先對訓練集中每一幅圖像劃分若干個大小為n×n的子塊,然后對各個子塊進行DCT變換,得到分塊DCT系數(shù),對于每一個分塊DCT系數(shù),在不同頻率的DCT系數(shù)上計算其LS值作為局部保持能力判據(jù),按LS值從小到大進行排序,最后將每一個分塊DCT系數(shù)中LS值較小的DCT系數(shù)組合成一個一維向量作為圖像的特征執(zhí)行LPP算法,得到最優(yōu)投影矩陣和訓練樣本的識別特征。
在識別階段,對于一幅測試的圖像,同樣首先將其劃分為若干個大小為n×n的子塊,然后對每一個子塊進行DCT變換,求出其分塊DCT系數(shù),然后在每一個子塊內(nèi)依據(jù)訓練階段中的次序選擇DCT系數(shù),并將每一個子塊所選取的DCT系數(shù)組成的一維向量在訓練階段獲得的最優(yōu)投影矩陣的投影結(jié)果作為圖像的識別特征,最后利用歐式距離作為相似度度量的最近鄰分類器完成對測試圖像的分類。
為了驗證算法的有效性,本章在ORL和Yale人臉庫上進行實驗:(1)比較不同的DCT系數(shù)選擇方法的識別性能;(2)比較PCA+LPP,DLPP和DCT+LPP識別性能。
6.1 ORL人臉數(shù)據(jù)庫的實驗
ORL人臉庫是由英國劍橋大學建立,共有40個人,每人10張圖像,共有400張人臉圖像,圖像的面部表情和面部細節(jié)有著不同程度的變化,人臉姿勢也有相當?shù)某潭茸兓?,比較充分反映了同一人不同人臉圖像的變化和差異。圖6是ORL人臉庫的部分樣本,實驗使用的人臉圖像經(jīng)剪切后大小均為32×32,然后將兩個人臉庫中的每個圖像進行標準化。
圖6 ORL人臉數(shù)據(jù)庫中的部分人臉圖像
實驗1首先比較不同的DCT選擇方法的識別性能。隨機選取每一個人的5幅圖像組成訓練樣本集,剩余的圖像組成測試樣本集,首先將訓練樣本集中每一幅圖像劃分為8×8子塊,這樣每一幅圖像可以得到16幅子塊,然后對每一幅子塊進行DCT變換,每一幅子塊對應64個DCT系數(shù)。分別使用三種方法對DCT系數(shù)進行選擇:一種是如圖2所示的選取子圖像的DCT系數(shù)中低頻部分的一個矩形子塊,一種是如圖3所示的按照“Z”字形順序選取DCT系數(shù),另一種就是本文提出的根據(jù)LS值從小到大順序進行選擇,在計算LS值時,近鄰點個數(shù)k=4(訓練樣本集中每一個人的人臉圖像個數(shù)-1),圖7為每一幅子圖像從上到下從左到右對應的分塊DCT系數(shù)的LS值。
從圖7可以看出,從低頻DCT系數(shù)到高頻DCT系數(shù),其對應的LS值的變化并不是單調(diào)遞增的,而呈現(xiàn)出一種“震蕩式”變化趨勢,也就是說低頻的DCT系數(shù)的局部保持能力不一定低于高頻的DCT系數(shù),因此采用“矩形”或“Z”字形對DCT系數(shù)進行選擇,并不能將具有較強局部保持能力的DCT系數(shù)選擇出來。這里根據(jù)DCT系數(shù)的LS值按照從小到大的順序進行選擇。
在選定DCT系數(shù)后,利用基于歐式距離進行相似度度量的最近鄰分類器進行分類,上述過程重復10次,將平均識別率作為最終的識別結(jié)果,表1為在不同的DCT選擇方法下平均識別率隨DCT系數(shù)個數(shù)的變化情況(表中標出為每一個子圖像選取的DCT系數(shù)對應的個數(shù))。
表1 不同的DCT選擇方法的識別率比較(%)
從表1可以看出,對于基于矩形的DCT選擇方法,在每一個子圖像內(nèi)選取9個DCT系數(shù)時,達到了該方法最高識別率88.7%;對于基于“Z”字形的DCT選擇方法,同樣也是在每一個子塊內(nèi)選取9個DCT系數(shù)時,達到了該方法的最高識別率88.65%;采用本文提出的基于LS值的DCT系數(shù)選擇方法,在每個子圖像內(nèi)選取4個DCT系數(shù)時,就達到了最高識別率89.6%。所以從最高識別率看,本文提出的基于LS的DCT系數(shù)選擇方法在使用最少的DCT系數(shù)的情況下得到了最高的識別率。從整體來看,基于矩形與“Z”字形的DCT選擇方法的識別效果相當,而效果最好的是本文提出的基于LS的DCT系數(shù)選擇方法,其性能在大部分情況下均優(yōu)于另外兩種特征選擇方法。
實驗2比較PCA+LPP,DLPP,DCT/Z+LPP(利用Z字形進行DCT系數(shù)選擇),DCT/LS+LPP。實驗中,每人分別隨機選取5幅圖像組成訓練樣本集,其余圖像組成測試樣本集,采用最近鄰分類器進行分類,重復進行10次,取平均值作為最終的識別結(jié)果。在PCA+LPP方法中,PCA階段保持99%的主元能量,在DCT/Z+LPP和DCT/LS+LPP方法中,DCT系數(shù)的個數(shù)為實驗1中最高識別率對應的DCT系數(shù)個數(shù),分別為9和4。表2為LPP在PCA和DCT正交變換域內(nèi)的平均識別率及其對應的維數(shù)。
圖7 子圖像的DCT系數(shù)對應的LS值
表2 LPP在PCA和DCT正交變換域內(nèi)的平均最高識別率
從表2可以看出:(1)在DCT變換域內(nèi)執(zhí)行LPP算法的最高識別率高于在PCA變換域內(nèi)執(zhí)行LPP算法以及DLPP算法。(2)不管是按照“Z”字形順序選擇DCT系數(shù)還是基于LS值進行DCT系數(shù)選擇,對選定的DCT系數(shù)執(zhí)行LPP算法其識別率均高于直接在DCT變換域內(nèi)進行識別(結(jié)果如表1所示)。
6.2 Yale人臉數(shù)據(jù)庫的實驗
Yale人臉庫由美國耶魯大學建立,包含15個人,每人11張圖像,共有165張人臉圖像,主要包括光照條件的變化,表情的變化及有無眼睛修飾等。圖8是Yale人臉庫的部分樣本,實驗使用的人臉圖像經(jīng)剪切后大小均為32×32,然后將兩個人臉庫中的每個圖像進行標準化。
圖8 Yale數(shù)據(jù)庫中的部分人臉圖像
在實驗中,從每類人臉圖像中隨機選取l(l=3,4,5)張圖像組成訓練樣本集,剩余的圖像組成測試樣本集,重復進行10次,得到10組不同的訓練樣本集和測試樣本集。分別采用PCA+LPP,DCT/Z+LPP和DCT/LS+ LPP等算法進行特征提取,對于PCA+LPP算法,在PCA階段保持99%的主元能量,對于DCT/Z+LPP和DCT/ LS+LPP,在計算LS值以及執(zhí)行LPP算法時,近鄰點個數(shù)k=l-1,最后利用歐式距離進行相似度度量的最近鄰分類器對測試圖像進行分類。表3為Yale人臉庫的10組不同的人臉圖像劃分上得到的平均最高識別率以及對應的DCT系數(shù)個數(shù)和目標維數(shù)。
從表3可以看出:從平均最高識別率看,在不同的訓練集下,DCT/Z+LPP和DCT/LS+LPP的性能始終優(yōu)于PCA+LPP與DLPP,另一方面,由于本文提出的算法利用基于LS值的局部保持能力判據(jù)選擇有效的DCT系數(shù),因此DCT/LS+LPP在使用較少的DCT系數(shù)的情況下得到了比DCT/Z+LPP更高的識別率。
表3 Yale人臉庫上的識別性能對比
本文提出了一種DCT域內(nèi)拉普拉斯值排序的人臉識別方法,利用拉普拉斯值特征選擇算法作為局部保持能力判據(jù)在DCT域內(nèi)對分塊DCT系數(shù)進行選擇,進而在選定的DCT系數(shù)上執(zhí)行局部保持投影,實驗驗證了提出方法的有效性。
[1]Turk M,Pentland A.Eigenfaces for recognition[J].Journal of Cognitive Neuroscience,1991,3(1):72-86.
[2]Martinez A M,Kak A C.PCA versus LDA[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2001,23(2):228-233.
[3]Belkin M,Niyogi P.Laplacian eigenmaps for dimensionality reduction and data representation[J].Neural Computation,2003,15(6):1373-1396.
[4]He XF,Yan SC,Hu YX,et al.Face recognition using Laplacianfaces[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2005,27(3):328-340.
[5]Bajwa U I,Taj I A,Bhatti Z E.A comprehensive comparative performance analysis of Lap lacianfaces and Eigenfaces for face recognition[J].Imaging Science Journal,2011,59(1):32-40.
[6]Feng G Y,Hu D W,Zhou Z T.A direct locality preserving projections(DLPP)algorithm for image recognition[J]. Neural Processing Letters,2008,27(3):247-255.
[7]Yu W W,Teng X L,Liu C Q.Face recognition using discriminant locality preserving projections[J].Image and Vision Computing,2006,24(3):239-248.
[8]Zhu L,Zhu S A.Face recognition based on orthogonal discriminant locality preserving projections[J].Neurocomputing,2007,70(7):1543-1546.
[9]Cai D,He X F,Zhou K,et al.Locality sensitive discriminant analysis[C]//International Joint Conference on Artificial Intelligence,Hyderabad,India,2007:708-713.
[10]Ziad M,Martin D.Face recognition using the discrete cosine transforms[J].International Journal of Computer Vision,2001,43(3):167-188.
[11]Zheng Z L,Zhao J M.Locality preserving projection in orthogonal domain[C]//Congress on Images and Signal processing,Sanya,Hainan,China,2008:613-617.
[12]胡永剛,吳翊,王洪志,等.高維數(shù)據(jù)降維的DCT變換[J].計算機工程與應用,2006,42(32):21-30.
[13]Chen Weilong,Er Meng Joo,Wu Shiqian.PCA and LDA in DCT[J].Pattern Recognition Letters,2005,26(15):2474-2482.
[14]He XF,Cai D,Niyogi P.Lap lacian score for feature selection[C]//Advances in Neural Information Processing System,Vancouver,British Columbia,Canada,2005:507-514.
[15]Huang H,F(xiàn)eng HL,Peng CY.Com plete local fisher discriminant analysis with laplacian score ranking for face recognition[J].Neurocomputing,2012,89(7):64-77.
WANG Yongmao,WANG Yukun,ZHAO Shan
School of Computer Science and Technology,Henan Polytechnic University,Jiaozuo,Henan 454000,China
The key of face recognition in DCT domain is how to select effective DCT coefficient.For this purpose,a method for face recognition in DCT domain with Laplacian Score ranking is proposed.Firstly,the image is divided into several blocks with the same size.For each block,DCT is used to obtain block DCT coefficient.Then effective block DCT coefficient is selected according to locality preserving power criterion with Laplacian Score.Ultimately,LPP is performed on the selected block DCT coefficients to extract recognition features.The experiments on ORL and Yale face database shows that the improved method is effective.
face recognition;block DCT;locality preserving projection;Laplacian score
A
TP391.4
10.3778/j.issn.1002-8331.1312-0271
WANG Yongmao,WANG Yukun,ZHAO Shan.Face recognition in DCT domain with Lap acian score ranking. Computer Engineering and Applications,2014,50(16):1-6.
河南省教育廳科學技術研究重點項目(No.12B520021)。
王永茂(1976—),男,博士,副教授,研究領域為圖像處理及模式識別;王玉琨(1960—),男,教授,研究方向為計算機圖形學;趙珊(1975—),女,博士,副教授,研究方向為圖像處理與模式識別。E-mail:w ym yjs2000@hpu.edu.cn
2013-12-19
2014-02-18
1002-8331(2014)16-0001-06
CNKI網(wǎng)絡優(yōu)先出版:2014-02-26,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1312-0271.htm l