張 勇, 黨蘭學(xué)
(河南大學(xué) 圖像處理與模式識(shí)別研究所,河南 開封 475004)
線性判別分析特征提取稀疏表示人臉識(shí)別方法
張勇, 黨蘭學(xué)*
(河南大學(xué) 圖像處理與模式識(shí)別研究所,河南 開封 475004)
摘要:針對(duì)稀疏表示分類(SRC)算法采取隨機(jī)臉法提取的數(shù)據(jù)特征判別力較弱問題,提出一種線性判別分析特征提取稀疏表示人臉識(shí)別方法.該方法首先采用線性判別分析算法求解最優(yōu)判別投影子空間,然后把訓(xùn)練樣本投影到該子空間以提取相應(yīng)的數(shù)據(jù)特征,并用訓(xùn)練樣本的數(shù)據(jù)特征做字典來表示測(cè)試樣本數(shù)據(jù)特征.更進(jìn)一步來說就是,通過提取出測(cè)試樣本稀疏特征的向量,和測(cè)試樣本的數(shù)據(jù)特征進(jìn)行比對(duì)找出其聯(lián)系和差別并表示出比對(duì)后的殘差.最后根據(jù)構(gòu)造的殘差找出樣本的類別來實(shí)現(xiàn)其識(shí)別目的.通過在Extend Yale B和CMU PIE人臉數(shù)據(jù)庫上一系列的測(cè)試,證明該方法具有很好的識(shí)別效果.
關(guān)鍵詞:LDA;稀疏表示;特征提??;人臉識(shí)別
0引言
稀疏表示是在給定的字典里可以用少數(shù)的原子讓一個(gè)信號(hào)表示為線性組合.目前國內(nèi)外學(xué)者對(duì)稀疏表示給予了很大的關(guān)注.一系列的研究也表明,人類視覺系統(tǒng)的原理和稀疏表示模型有很大程度上的一致性[1].因此稀疏表示在圖像去噪[2]、圖像恢復(fù)[3-4]、圖像理解[5]等方面的應(yīng)用很多.2009年稀疏表示被John Wright等人應(yīng)用到了人臉識(shí)別領(lǐng)域,然后提出基于稀疏表示分類器(SRC)的人臉識(shí)別方法[6].該方法在人臉識(shí)別領(lǐng)域取得了較好的識(shí)別效果.然而,SRC采取隨機(jī)臉法提取的訓(xùn)練樣本數(shù)據(jù)特征判別力較弱,從而降低了SRC的性能[7].
為了解決這一問題,筆者提出一種基于線性判別分析(LDA)特征提取的稀疏表示分類人臉識(shí)別方法.由于LDA可以尋找一組將高維樣本投影到低維空間的最佳的判別投影向量,并能使投影后的樣本類內(nèi)離散度最小,類間離散度最大[8-9].因此,樣本數(shù)據(jù)投影到該向量空間后,可以使其數(shù)據(jù)特征的判別力更強(qiáng),進(jìn)而提高SRC的識(shí)別性能.
1線性判別分析和稀疏表示分類器概述
1.1線性判別分析概述
現(xiàn)在假設(shè)訓(xùn)練樣本的種類為k個(gè),然后再假設(shè)每個(gè)訓(xùn)練樣本的像素點(diǎn)為y,用dij∈d×1表示第i類第j個(gè)訓(xùn)練樣本圖像,用Di=[di1,di2,…,dini]∈d×ni表示第i類訓(xùn)練樣本,則訓(xùn)練樣本全部可表示為D=[D1,D2,…,Dk]∈d×n,其中ni.那么訓(xùn)練樣本的不同類之間距離Sb和同一類之間的類內(nèi)距離Sw可以定義為
(1)
(2)
LDA尋找一個(gè)最佳判別投影向量,使投影后的樣本類內(nèi)離散度最小,類間離散度最大.其目標(biāo)函數(shù)為
(3)
求解特征值問題
SbW=SwWΛ,
(4)
可得最優(yōu)投影矩陣W.
由于Sb和Sw為對(duì)稱半正定陣,如果Sw是非奇異,則對(duì)(Sw)-1Sb進(jìn)行特征值分解,從而得到式(4)對(duì)應(yīng)的特征向量和特征值.求解線性判別分析投影矩陣的算法如算法1所示.
算法1求解LDA投影矩陣W算法.
①輸入:訓(xùn)練樣本矩陣D∈d×n;
②由式(1)和(2)計(jì)算出類間離散度矩陣Sb和類內(nèi)離散度矩陣Sw;
③通過式(4)求出其特征以及它所對(duì)應(yīng)的特征向量;
④求出投影矩陣W即前d個(gè)特征值所對(duì)應(yīng)的特征向量.
1.2稀疏表示分類
假設(shè)訓(xùn)練樣本共有k類,第i類(i=1,2,…,k)訓(xùn)練樣本矩陣為Di=[di1,di2,…,dini]∈d×ni,同時(shí),第i類訓(xùn)練樣本的個(gè)數(shù)為ni.那么全部的訓(xùn)練樣本則可用來D=[D1,D2,…,Dk]∈d×n表示,n為所有訓(xùn)練樣本的總數(shù),即n=∑ini.用訓(xùn)練樣本矩陣D看做一個(gè)大集合,則測(cè)試樣本y可以用集合中的原子表示為線性組合即y=Dx.同時(shí),與測(cè)試樣本同類的可以完全線性表示測(cè)試樣本y.也就是說,只要訓(xùn)練樣本的量足夠大,y在集合D中的表示很明顯就是稀疏的.與此同時(shí),如果y的稀疏表示系數(shù)向量x越是稀疏,那么對(duì)測(cè)試樣本的分類或者區(qū)分會(huì)越明顯.
同時(shí)若想求解y=Dx的最稀疏解可以通過l1范數(shù)最優(yōu)化問題求解,即
(5)
到目前為止,眾多學(xué)者提出了許多關(guān)于l1范數(shù)最優(yōu)化問題的算法.最被常用的算法的有GPSR[10]、Homotopy[11]、FIST[12]、和l1_ls[13]等.
(6)
基于重建誤差,SRC給出分類規(guī)則如下:
label(y)=argminiri(y),
(7)
式中:label(y)表示測(cè)試樣本y的類別標(biāo)簽.稀疏表示分類算法具體步驟如算法2所示.
算法2:稀疏表示分類算法
2.對(duì)訓(xùn)練樣本D采用隨機(jī)臉法特征提取,并進(jìn)行歸一化;
3.求解l1最優(yōu)化問題
4.計(jì)算類關(guān)聯(lián)重建誤差
5.輸出:測(cè)試樣本y的類別標(biāo)簽:
label(y)=argminiri(y).
2基于線性判別分析特征提取的稀疏表示分類算法
雖然SRC算法采取隨機(jī)臉法提取樣本數(shù)據(jù)特征能夠取得較好的識(shí)別效果,然而本研究發(fā)現(xiàn),在SRC算法字典設(shè)計(jì)的過程中,采用LDA進(jìn)行特征提取可以使樣本數(shù)據(jù)特征的判別力更強(qiáng),從而提高SRC的性能.
假設(shè)D=[D1,D2,…,Dk]∈d×n為訓(xùn)練樣本集,其中Di=[di1,di2,…,dini]∈d×ni為第i類訓(xùn)練樣本構(gòu)成的矩陣,dij表示第i類第j個(gè)訓(xùn)練樣本.首先用LDA 算法求取投影矩陣W,然后采用該投影矩陣對(duì)訓(xùn)練樣本進(jìn)行特征提取,得到相對(duì)應(yīng)的數(shù)據(jù)特征矩陣
Dp=WTD.
(8)
與原始數(shù)據(jù)D相比,數(shù)據(jù)Dp的類內(nèi)間距變得更小,而類間距離變得相對(duì)更大.同樣,給定任一測(cè)試樣本y,用投影矩陣W可提取其數(shù)據(jù)特征yp=WTy.用Dp作字典稀疏表示測(cè)試樣本數(shù)據(jù)特征yp,其目標(biāo)函數(shù)為
(9)
(10)
基于重建誤差,給出分類規(guī)則
label(y)=argminiri(yp),
(11)
式中:label(y)表示測(cè)試樣本y的類別標(biāo)簽.基于LDA特征提取的SRC算法如算法3所示.
算法3:基于LDA特征提取的SRC算法
②采用LDA算法求取投影矩陣W;
③采用投影矩陣W對(duì)訓(xùn)練樣本和測(cè)試樣本進(jìn)行特征提取
Dp=WTD,yp=WTy;
④把Dp作為字典最稀疏表示yp
⑤計(jì)算yp類關(guān)聯(lián)重建誤差
⑥輸出:測(cè)試樣本y的類別標(biāo)簽
label(y)=argminiri(yp).
3人臉識(shí)別實(shí)驗(yàn)
為了驗(yàn)證本方法的有效性,筆者在Extend Yale B和CMU PIE兩個(gè)人臉數(shù)據(jù)庫上,分別采用隨機(jī)臉法特征提取SRC(隨機(jī)臉+SRC)、PCA特征提取SRC(PCA+SRC)和LDA特征提取SRC(LDA+SRC)進(jìn)行人臉識(shí)別實(shí)驗(yàn).實(shí)驗(yàn)時(shí),筆者隨機(jī)從每人的所有人臉圖像中抽取k幅圖像構(gòu)成訓(xùn)練樣本集,剩余圖像構(gòu)成測(cè)試樣本集.為了得到更為精確的實(shí)驗(yàn)效果,對(duì)每個(gè)訓(xùn)練樣本數(shù)k都同樣進(jìn)行5次獨(dú)立實(shí)驗(yàn),最終結(jié)果為5次實(shí)驗(yàn)的平均值.需要說明的是,在本文里的3種方法都采用l1_ls方法求解l1范數(shù)的最優(yōu)化問題.
3.1Extend Yale B數(shù)據(jù)庫上實(shí)驗(yàn)效果
在YaleB數(shù)據(jù)庫[14]中共有38個(gè)人的2 414張圖像.同時(shí),每張圖像的灰度級(jí)為256,其中分辨率為243×320.這個(gè)數(shù)據(jù)庫中的人臉圖像因?yàn)楸砬?、光照、以及拍攝角度的不同存在很多不同變化.我們?cè)趯?shí)驗(yàn)前,會(huì)對(duì)YaleB 數(shù)據(jù)庫中的圖像進(jìn)行以眼睛為中心點(diǎn)的剪切和對(duì)齊處理,并將其大小縮放為32×32像素.
在YaleB數(shù)據(jù)庫上,測(cè)試樣本為從圖庫中隨機(jī)抽出的,分別為8張、12張和16張,其余的為訓(xùn)練樣本.在圖1給出了3種SRC算法在YaleB數(shù)據(jù)庫上隨特征維數(shù)變化的識(shí)別率曲線比較.同時(shí)表1給出了3種SRC算法在YaleB數(shù)據(jù)庫上的最高識(shí)別率還有其對(duì)應(yīng)特征維數(shù)的比較.
從圖1可以看出,LDA+SRC方法的識(shí)別率曲線總是高于其他兩種方法,這說明在Extended Yale B數(shù)據(jù)庫上,不同抽樣情況下和維度下,LDA+SRC總優(yōu)于其他兩種方法.同時(shí),從表1可以看出,LDA+SRC方法的最高識(shí)別率在不同抽樣情況下總是高于其他兩種方法.
注:括號(hào)中的數(shù)字代表該識(shí)別率所對(duì)應(yīng)的特征維數(shù).
3.2CMU PIE數(shù)據(jù)庫上的實(shí)驗(yàn)效果
在CMU PIE數(shù)據(jù)庫[15]中有68個(gè)人的13種姿態(tài),43種光照變化和4種表情的共41 368張圖像.而我們的人臉識(shí)別實(shí)驗(yàn)選擇的是在姿態(tài)C27子集上進(jìn)行.CMP PIE C27子集中有68個(gè)人的3 329張圖像同時(shí)每人大約49張圖像.在實(shí)驗(yàn)前將圖像以眼睛為中心縮放為64×64像素.
在CMU PIE C27子集上,構(gòu)造3個(gè)訓(xùn)練樣本,即從每個(gè)人的圖像中抽取8張、10張和12張,與此同時(shí)剩下的則為測(cè)試樣本用來進(jìn)行人臉識(shí)別的實(shí)驗(yàn).圖2給出了3種SRC算法在CMU PIE C27子集上隨特征維數(shù)變化的識(shí)別率曲線的比較.表2給出了3種SRC算法在CMU PIE C27子集上的最高識(shí)別率還有其相對(duì)應(yīng)特征維數(shù)的比較.
從圖2可以看出,LDA+SRC方法的識(shí)別率曲線仍然高于其他兩種方法,這說明在CMU PIE數(shù)據(jù)庫上,不同抽樣情況下和維度下,LDA+SRC總優(yōu)于其他兩種方法.另外,從表2可以看出,LDA+SRC方法的最高識(shí)別率在不同抽樣情況下
同樣高于其他兩種方法.
注:括號(hào)中的數(shù)字代表該識(shí)別率所對(duì)應(yīng)的特征維數(shù).
4結(jié)論
提出一種基于線性判別分析特征提取稀疏表示人臉識(shí)別方法.首先采用線性判別分析特征方法提取人臉圖像中的判別特征,然后采用稀疏表示分類進(jìn)行人臉識(shí)別.與隨機(jī)臉+SRC和PCA+SRC相比,筆者提出的人臉識(shí)別方法具有更高的識(shí)別率,究其原因在于:①線性判別分析方法提取的樣本數(shù)據(jù)特征類內(nèi)距離最小,類間距離最大,即提取的樣本數(shù)據(jù)特征判別力更強(qiáng); ②采用訓(xùn)練樣本的線性判別分析數(shù)據(jù)特征作字典能更好地表示測(cè)試樣本數(shù)據(jù)特征,從而使得SRC的識(shí)別性能更佳.在YaleB和CMU PIE人臉數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明,筆者提出的人臉識(shí)別方法是有效的.
參考文獻(xiàn):
[1]VINJE W E, GALLANT J L. Sparse coding and decorrelation in primary visual cortex during natural vision [J]. Science, 2000, 287(5456): 1273-1276.
[2]ELAD M, AHARON M. Image denoising via sparse and redundant representations over learned dictionaries [J]. IEEE Trans. Image Processing, 2006, 15(12): 3369-3745.
[3]MAIRAL J, ELAD M, SAPIRO G. Sparse representation for color image restoration [J].IEEE Trans. Image Processing, 2008, 17(1): 53-69.
[4]MAIRAL J, BACH F, PONCE J, et al. Nonlocal sparse models for image restoration [C]//Proc. ICCV, 2009: 2272-2279.
[5]WANG C, YAN S, ZHANG L, et al. Multi-Label Sparse coding for automatic image annotation [C]//Proc. IEEE Conf. CVPR, 2009: 1643-1650.
[6]WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation [J]. IEEE Trans. Pattern Anal. Mach. Intel., 2009, 31(2):210-227.
[7]杜海順,張旭東,金勇,等.基于Gabor低秩恢復(fù)稀疏表示分類的人臉識(shí)別方法[J]. 電子學(xué)報(bào), 2014, 42(12): 2386-2393.
[8]TURK M A, PENTLAND A P. Face recognition using eigenfaces[J]. Computer Vision and Pattern Recognition, 1991,3(1):71-86.
[9]左哲民,張阿妞,李芬蘭.基于優(yōu)化的LDA算法人臉識(shí)別研究[J].電子與信息學(xué)報(bào),2007,29(9):2047-2049.
[10]FIGUEIREDO M, NOWAK R, WRIGHT S. Gradient projection for sparse reconstruction: Application to compressed sensing and other inverse problems [J]. IEEE Journal of Selected Topics in Signal Processing, 2007, 1(4):586-597.
[11]MALIOUTOY D, CETIn M, WILLSKY. Homotopy continuation for sparse signal representation[C]//Proc. ICASSP, 2005.
[12]BECK A, TEBOULLE M. A fast iterative shrinkage-thresholding algorithm for linear in-verse problems[J]. SIAM Journal on Imaging Sciences, 2009(2) :183-202.
[13]KIM S J, KOH K, LUSTIG M, et al. A method for large-scale l1-regularized least squares [J]. IEEE Journal on Selected Topics in Signal Processing,2007,1 (4):606-617.
[14]GEORGHIADES A S, BELHUMEUR N, KRIEGMAN D J, et al. From few to many: illumination cone models for face recognition under variable lighting and pose [J]. IEEE Trans. Pattern Anal. Mach. Intelligence, 2001, 23(6):643-660.
[15]SIM T, BAKER S, BSAT M. The CMU pose, illumination, and expression database [J]. IEEE Trans. Pattern Anal. Mach. Intell., 2003, 25(12):1615-1618.
Sparse Representation-based Face Recognition Method by LDA Feature Extraction
ZHANG Yong, DANG Lan-xue*
(Institute of Image Processing and Pattern Recognition, Henan University, Kaifeng 475004,China)
Abstract:To solve the problem that the features extracted by randomfaces method have weak discriminative ability in sparse representation-based classification (SRC), a sparse representation-based face recognition method by linear discriminant analysis (LDA) feature extraction was proposed. Firstly, LDA is used to solve the optimal discriminative projective subspace, and then the training samples are projected onto the subspace to extract the features of the training samples. Using the features of the trainings samples as the dictionary, the features of the test sample can be sparsely represent as linear combination of the atoms of the dictionary. Furthermore, using the sparse coefficients associated with the special class, this method approximates the features of the test sample and calculates the reconstruction error between the features of the test sample with its approximation associated with the special class. Based on the reconstruction error associated with special class, the test sample can be classified accurately. Experimental results on Extend Yale B and CMU PIE face databases show that face recognition method proposed in this paper has a good performance.
Key words:LDA; sparse representation; feature extraction; face recognition
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
doi:10.3969/j.issn.1671-6833.2015.02.021
文章編號(hào):1671-6833(2015)02-0094-05
作者簡介:張勇(1979-),男,河南大學(xué)工程師,碩士,研究領(lǐng)域?yàn)閳D像處理與模式識(shí)別,E-mail:henuzy@126.com.通信作者:黨蘭學(xué)(1980-),男,河南大學(xué)講師,博士,研究方向?yàn)橹悄芩惴ㄔO(shè)計(jì)及應(yīng)用,E-mail:danglx@foxmail.com.
基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61374134)
收稿日期:2014-12-10;
修訂日期:2015-02-01