黃 蓓
(東南大學信息科學與工程學院, 南京 210096)
由于人臉屬于三維非剛性體對象,因此其圖像易受到多種因素的影響,如人臉的相似性、姿態(tài)的多樣性和光照影響等.傳統(tǒng)子空間分析方法[1-8]以所有樣本的最優(yōu)重構為目的,主要衡量不同樣本間存在的分類誤差,但只能發(fā)現(xiàn)全局的歐式結構.當數(shù)據(jù)呈現(xiàn)高度非線性時,只能描述統(tǒng)計意義下的數(shù)據(jù)分布.為此,Seung等[9]從神經(jīng)生理學角度研究了流形學習問題,提出了感知和視覺記憶以流形的形式存在,并從認知學的角度指出圖像數(shù)據(jù)是高維空間中的流形.等距映射(isometric map)[10]和局部線性嵌入(locally linear embedding)[11]2種流形學習算法實現(xiàn)了從高維數(shù)據(jù)中恢復低維流形結構.而局部保持投影算法(locality preserving projections)[12]將線性映射引入到拉普拉斯特征映射中,實現(xiàn)了線性化投影.此外,提高人臉識別精度還可以通過分類訓練的方式實現(xiàn)[13].
LDE算法[14]不僅利用樣本數(shù)據(jù)間近鄰關系來保持局部性,還引入了類別標記信息,其目的是保持其類內緊湊性的同時,增加類間可分性.但該算法同樣面臨高維小樣本問題和致密矩陣的分解問題,需要消耗很大的時間和空間,而譜回歸算法能夠很好地解決這些問題,因此,本文以LDE算法為基礎,提出了相應的修正算法.
LDE算法的目標函數(shù)為
X(D-W)XTa=λX(DP-WP)XTa
(1)
定理1設y是Ly=λBy的特征值λ對應的特征向量,若y=XTa,則a是XLXTa=λXBXTa的廣義特征值λ對應的特征向量.
為了使得y=XTa有解,使用正則化最小二乘法對a添加L2范數(shù)懲罰項求取近似解:
(2)
式(2)的最優(yōu)解為:a*=(XTX+μI)-1XTy.其中μ為控制收縮的參數(shù),選擇合適的μ值能減小偏差,達到最佳效果.
當μ>0時,a*不能滿足線性方程y=XTa,且a不是XLXTa=λXBXTa的特征向量.
定理2若y=XTa是Ly=λBy的特征向量,且y在X的行向量張成的空間,當μ趨于0時,投影向量a是XLXTa=λXBXTa的特征向量.
推論1若y是(D-W)y=λ(DP-WP)y的特征向量,且y=XTa,則a是X(D-W)XTa=λX(DP-WP)XTa對應的特征向量.
證明
X(D-W)XTa=X(D-W)y=
Xλ(DP-WP)y=λX(DP-WP)y=
λX(DP-WP)XTa
式中,y即為高維數(shù)據(jù)X的低維嵌入.為了得到投影向量a,對方程y=XTa進行分析,并最終采用嶺回歸方法求解,可得
a*=(XTX+μI)-1XTy
(3)
當μ>0時,式(3)正則解不能滿足線性方程y=XTa.
推論2若y=XTa是(D-W)y=λ(DP-WP)y的特征向量,且y在X的行向量張成的空間,當μ趨于0時,投影向量a是X(D-W)XTa=λX(DP-WP)XTa的特征向量.
證明假設rank(X)=r,對X進行奇異值分解,即
X=UΛVT
(4)
式中,Λ=diag(σ1,σ2,…,σr),U∈Rn×r,V∈Rm×r,UTU=VTV=I.y存在于X的行向量張成的空間中,則y也存在于V的列向量張成的空間中.因此,y可以被V的列向量的線性組合所代替.另外,因為V是線性獨立的,因此這種組合方式是唯一的.假設組合系數(shù)是b1,b2,…,br,b={b1,b2,…,br}T,則
Vb=y?VTVb=VTy?b=VTy?VVTy=y
(5)
(6)
聯(lián)合式(4),可得
XTa=VΛUTa=VVΛUTUΛ-1VTy=VVTy=y
(7)
所以,a為X(D-W)XTa=λX(DP-WP)XTa的特征向量.
傳統(tǒng)的流形學習求解方法是先得到投影向量a,再通過投影向量獲得測試數(shù)據(jù)集X.但該方法是先計算訓練樣本的特征向量y,然后再通過回歸方法計算投影向量a,最后得到測試數(shù)據(jù)集X.基于上述分析,SR-LDE算法不需要進行n×n維的致密矩陣的特征分解,其特征分解的矩陣為m×m維.在人臉圖像中,人臉特征的維數(shù)n通常遠遠大于人臉樣本數(shù)m,即m?n,從而有效地降低了算法的復雜性.
SR-LDE算法雖然解決了高維小樣本應用中矩陣奇異的問題,避免了致密矩陣的分解,但該算法通過求解廣義特征值而得到的投影矩陣是非正交的,不利于特征的提取,不能夠準確估計高維樣本集的內在維數(shù),從而削弱了對測試樣本的泛化能力,影響了算法的識別率.為此,本文將求得的低維投影向量進行Gram-Schmidt正交化計算,則不但能夠實現(xiàn)正交化約束,且計算簡單,易于實現(xiàn).
假設y={y1,y2,…,yd}是降維后特征值λ={λ1,λ2,…,λd}對應的特征向量,且λ1<λ2<…<λd,d為降維后低維子空間的維數(shù),則SR-LDE算法中求得的投影矩陣為A=[a1,a2,…,ad].
令b1=a1,設k-1個正交基向量分別為b1,b2,b3,…,bk-1,則第k個向量可根據(jù)下式計算:
(8)
盡管B是正交矩陣,但不是單位正交化的標準正交基.因此,要添加約束使其滿足BBT=I,則H是主對角元的模均為1的上三角矩陣.
因為原投影矩陣的函數(shù)為
(9)
SR-OLDE的正交變換矩陣B=AH,計算JSR-LDE(B)可得
(10)
由上述推導過程可看出,經(jīng)過施密特正交化操作后,不會改變算法中優(yōu)化問題的解.B=[b1,b2,…,bd]即為所求的標準正交投影矩陣.
為了驗證本文提出的SR-OLDE算法在人臉識別系統(tǒng)中能夠取得良好的效果,采用ORL人臉庫進行實驗.實驗環(huán)境為Pentium Dual-Core CPU E5400,主頻2.70 GHz,2GB內存.設μ=0.01.下面通過比較SR-OLDE算法和PCA,LDA,LPP,LDE,SR-LDE算法的實驗效果,來展現(xiàn)SR-OLDE的性能.
ORL人臉庫由劍橋大學AT&T實驗室創(chuàng)建,包括40個人,每人10幅,共400幅面部圖像,其中有些人臉圖像是在不同時期拍攝的.ORL人臉庫中每個人的不同圖像均具有不同的表情和面部細節(jié),如笑或不笑,戴或不戴眼鏡,眼睛睜開或閉著.所有圖像均是大致正面圖像(部分側轉旋轉角度不超過20°),人臉尺度變化不超過10%,每幅圖像的分辨率為92×112像素.在本實驗中,所有圖像的大小均被歸一化至64×64像素.
實驗時,隨機選取每個人的G(G=2,3,4,5)幅圖像作為訓練集,其余10-G個樣本作為測試集,為了消除隨機因素的影響,對每個選定的G,其隨機選擇過程都重復10次,且每次實驗相互獨立,實驗的最終結果是這10次實驗所取的平均值.針對不同訓練樣本數(shù),各種算法的最優(yōu)實驗結果如表1所示.由于在不同訓練樣本數(shù)和測試樣本數(shù)時算法識別率和維數(shù)之間的關系是類似的,因此本文選擇G2/P8(G2/P8表示訓練樣本數(shù)為2,測試樣本數(shù)為8)繪制維數(shù)和識別率之間的關系圖,如圖1所示.
表1 不同訓練樣本時的各算法人臉識別率 %
圖1 不同算法的識別率與維數(shù)間的關系
由以上實驗結果分析可知,無論是傳統(tǒng)的子空間降維算法,還是流形學習算法,隨著測試樣本數(shù)量的增加,各種算法的識別率都提高了,而流形學習算法較傳統(tǒng)降維方法取得了更好的識別效果.本文SR-OLDE算法的實驗效果最好,因為它使用譜回歸算法求解,在解決小樣本問題的同時避免了致密矩陣的分解,另外,又采用Gram-Schmidt正交方法實現(xiàn)了投影矩陣的正交化,從而提高了識別率.
傳統(tǒng)的圖嵌入算法在處理大規(guī)模高維數(shù)據(jù)集時,通常由于計算復雜度較高,不宜直接應用,而譜回歸算法的提出可以避免致密矩陣的分解,有效地解決了大規(guī)模高維數(shù)據(jù)集的廣義特征值問題,從而縮短了計算時間.ORL人臉庫不同訓練樣本數(shù)所需的訓練時間如表2所示.其中,SR-OLDE算法訓練所需時間比SR-LDE所需時間長,這是因為進行正交化計算需要一定的計算時間.
表2 不同訓練樣本數(shù)所需訓練時間 s
在人臉識別過程中,由于流形學習算法比傳統(tǒng)的子空間降維算法具有更好的識別效果,因此本文選擇LDE算法作為研究對象.為改善LDE算法的高維小樣本泛化能力弱和致密矩陣分解計算量大等問題,首先通過引入譜回歸算法,提出了SR-LDE算法.然后,考慮到投影向量若非正交,則不利于特征提取和準確估計高維數(shù)據(jù)集的內在維數(shù),從而削弱了測試樣本的泛化能力,影響識別率,因此,將Gram-Schmidt正交化方法引入到SR-LDE算法中,提出了SR-OLDE算法.最后,將改進的算法在ORL人臉庫中進行測試.實驗結果證明,SR-OLDE算法在識別率和計算速度方面都取得了比較好的效果.
)
[1] Wiskott L, Fellous J, Kruger N, et al. Face recognition by elastic bunch graph matching[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 1997,19(7): 775-779.
[2] Kumar P P, Vadakkepat P, Loh A P. Graph matching based hand posture recognition using neuro-biologically inspired features[C]//11thInternationalConferenceonControlAutomationRoboticsandVision. Singapore, 2010:1151-1156.
[3] Kshirsagar V P, Baviskar M R, Gaikwad M E. Face recognition using Eigenfaces[C]//3rdInternationalConferenceonComputerResearchandDevelopment. Shanghai, China, 2011:302-306.
[4] Huang S M, Yang J F. Subface hidden Markov models coupled with a universal occlusion model for partially occluded face recognition[J].IETBiometrics, 2012,1(3):149-159.
[5] Du S, Shehata M, Badawy W. A novel algorithm for illumination invariant DCT-based face recognition[C]//25thIEEECanadianConferenceonElectricalandComputerEngineering. Montreal, QC, Canada, 2012:1-4.
[6] Maria D M, Michele N, Daniel R, et al. Robust face recognition for uncontrolled pose and illumination changes[J].IEEETransactionsonSystems,Man,andCybernetics:Systems, 2013,43(1):149-163.
[7] He Y, Jin B, Yang S. Improving BP neural network for the recognition of face direction[C]//InternationalSymposiumonComputerScienceandSociety. Kota Kinabalu, Malaysia, 2011:79-82.
[8] Jing X Y, Sun J, Yao Y F, et al. Supervised and unsupervised face recognition method based on 3CCA[C]//InternationalConferenceonAutomaticControlandArtificialIntelligence. Xiamen, China, 2012:2009-2012.
[9] Seung H S, Lee D D. The manifold ways of perception[J].Science, 2000,290(5500): 2268-2269.
[10] Tenenbaum J B, de Silva V, Langford J C. A global geometric framework for nonlinear dimensionality reduction[J].Science, 2000,290(5500): 2319-2323.
[11] Roweis S T, Saul L K. Nonlinear dimensionality reduction by locally linear embedding[J].Science, 2000,290(5500):2323-2326.
[12] He X F, Yan S C, Hu Y X, et al. Face recognition using Laplacianfaces[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2005,27(3):328-340.
[13] Brenda F K, Mark J B, Joshua C K, et al. Face recognition performance: role of demographic information[J].IEEETransactionsonInformationForensicsandSecurity, 2012,7(6):1789-1801.
[14] Chen H T,Chang H W, Liu T L.Local discriminant embedding and its variants[C]//IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition. San Diego, CA, USA, 2005: 846-853.