袁永順
(江蘇科技大學(xué)計(jì)算機(jī)學(xué)院,江蘇鎮(zhèn)江212003)
隨著數(shù)學(xué)的發(fā)展,線性表達(dá)學(xué)習(xí)方法受到了關(guān)注并取得了一定的成果。協(xié)同表達(dá)作為其中的一種策略,已經(jīng)成功的應(yīng)用于多個(gè)領(lǐng)域,顯示出了稀疏表達(dá)學(xué)習(xí)在實(shí)際應(yīng)用的巨大潛力和優(yōu)勢(shì)。
協(xié)同表達(dá)的基本思想是用所有類別的所有訓(xùn)練樣本對(duì)測(cè)試樣本進(jìn)行線性表達(dá)。通過(guò)評(píng)估每一類訓(xùn)練樣本對(duì)測(cè)試樣本的表達(dá)能力,將測(cè)試樣本劃分到表達(dá)能力最強(qiáng)即貢獻(xiàn)值最大的那一類中。盡管協(xié)同表達(dá)可以有效的挖掘出樣本集的協(xié)同特性,它卻沒(méi)法處理由于光照、表情和姿態(tài)所導(dǎo)致的同一類樣本圖像間的巨大差異。為了解決這個(gè)問(wèn)題,Rodriguez和Sapiro[1]研究了稀疏表達(dá)框架下的鑒別字典并且對(duì)圖像編碼后進(jìn)行分類。Thiagarajan[2]針對(duì)有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)提出了多核稀疏表達(dá),與此同時(shí),Yang[3]利用gabor occlusion dictionary來(lái)解決人臉遮擋問(wèn)題,目的在于減少計(jì)算量。另外,Yang[4]還將特征的相似性和區(qū)別性引入到協(xié)同表達(dá)中,提出了一種更通用的模型。Liu[5]通過(guò)評(píng)估測(cè)試樣本的重建誤差來(lái)提高協(xié)同表達(dá)的準(zhǔn)確率。最近徐勇在[6-10]中提出了一系列簡(jiǎn)單但有效的模型來(lái)獲得較好的識(shí)別效果。
通過(guò)上面的研究,我們自然的得出一個(gè)結(jié)論:傳統(tǒng)的表達(dá)學(xué)習(xí)方法通過(guò)對(duì)訓(xùn)練字典的稀疏學(xué)習(xí)可以獲得有鑒別性的信息。然而,如果這些算法沒(méi)有得到不同類別各自的屬性信息的話,可能是因?yàn)槿哂嗪筒淮_定度,導(dǎo)致測(cè)試樣本沒(méi)法被分類器精確的分類。
盡管在表達(dá)學(xué)習(xí)分類模型上的研究較多,然而利用LBP特征挑選有競(jìng)爭(zhēng)力的樣本然后結(jié)合淘汰的策略,卻沒(méi)有引起太多的關(guān)注。為此,我們提出了LBP特征和表達(dá)學(xué)習(xí)相結(jié)合進(jìn)行人臉識(shí)別的一種新的協(xié)同表達(dá)方法。它可以被視作一種評(píng)估方法,將表達(dá)學(xué)習(xí)模型和評(píng)估方法的優(yōu)點(diǎn)結(jié)合起來(lái)。這篇論文的貢獻(xiàn)體現(xiàn)在4個(gè)方面,首先,我們獲取所有訓(xùn)練樣本的分塊后LBP特征;接著我們利用LBP特征和歐式距離來(lái)獲得與測(cè)試樣本最相近的訓(xùn)練樣本,即優(yōu)質(zhì)樣本;然后我們利用這些獲得的更有競(jìng)爭(zhēng)力的樣本來(lái)對(duì)測(cè)試樣本進(jìn)行線性表達(dá)。最后我們回歸到分塊,用一種塊與塊比較然后綜合判斷的方式來(lái)給出最終的分類結(jié)果。和傳統(tǒng)的表達(dá)分類方法相比,該方法采用LBP特征來(lái)獲得所有類別中更具競(jìng)爭(zhēng)力的訓(xùn)練樣本,據(jù)此來(lái)減少表達(dá)學(xué)習(xí)中的誤差。在優(yōu)化樣本中,這可以視作一種有意義的淘汰策略。
局部二值模式(LBP)[11]算子是統(tǒng)計(jì)特征的一種,其特點(diǎn)是快速簡(jiǎn)單,并且提取的特征魯棒性很強(qiáng)。LBP算子首先應(yīng)用在紋理提取方面,后來(lái)它的應(yīng)用擴(kuò)展到了諸多領(lǐng)域。
2004[12]第一次將局部二值模型應(yīng)用于人臉識(shí)別,取得了較好的效果。但是原始的LBP算子面臨一個(gè)問(wèn)題:作為局部特征提取算子,其不包含全局信息,這限制其在人臉識(shí)別領(lǐng)域的進(jìn)一步應(yīng)用。為了解決這個(gè)難題,眾多學(xué)者進(jìn)行了研究。論文[13]采取的是分塊策略:即根據(jù)先驗(yàn)知識(shí),對(duì)人臉區(qū)域進(jìn)行劃分。根據(jù)區(qū)域的不同配以不同的權(quán)值,其中有效特征密集的雙目和嘴部的區(qū)域權(quán)重最大,其余區(qū)域權(quán)重較小。然后將小塊的特征直方圖進(jìn)行特征融合,最后分類,大大提高了人臉的識(shí)別率。
二值模式的數(shù)量與LBP算子的采樣點(diǎn)個(gè)數(shù)P存在指數(shù)關(guān)系,模式總數(shù)為2p。如果采樣點(diǎn)個(gè)數(shù)為8,則模式總數(shù)為28;如果采樣點(diǎn)個(gè)數(shù)為32,則模式總數(shù)為232。由此可見(jiàn),LBP模式較多,如果全部使用,則信息將產(chǎn)生冗余,并不利于分類。而且計(jì)算量過(guò)大,難以在實(shí)際中應(yīng)用。通常的做法是利用直方圖工具來(lái)統(tǒng)計(jì)各類模式出現(xiàn)的次數(shù)。大量的研究表明,代表圖像基本屬性的模式出現(xiàn)的十分頻繁,有時(shí)候高達(dá)90%以上。將這類模式統(tǒng)一稱為統(tǒng)一模式[14]。公式定義如下
該模式的特點(diǎn)是在一串二值編碼中,0到1的變化最多有兩個(gè)。例如11111111有零個(gè)碼元變化;00111111有一個(gè)碼元變化;00011100、11110001有兩個(gè)碼元變化。采樣點(diǎn)為P、半徑為R的統(tǒng)一模式可以用表示。對(duì)于P=8,R=1,原始的LBP有256種模式,而只有59種統(tǒng)一模式,運(yùn)算量大大降低。
根據(jù)上文的討論可知,在利用LBP算子提取人臉特征時(shí),首先將人臉圖像劃分為u×v區(qū)域,其中u和v都是恰當(dāng)?shù)恼麛?shù)。經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)u=v=5,即劃分為25塊時(shí),分類效果最好。
每一個(gè)小區(qū)域利用LBP統(tǒng)一模式進(jìn)行特征提取。
i=1,2,…,25,Pi代表第i個(gè)小區(qū)域的LBP特征。
然后將這些小區(qū)域的LBP直方圖串聯(lián)起來(lái),得到特征融合后的LBP特征。
這樣一個(gè)人臉樣本就唯一對(duì)應(yīng)一個(gè)LBP向量P(1475*1)。據(jù)此我們就可以利用LBP特征進(jìn)行樣本優(yōu)化。
m是訓(xùn)練樣本的總數(shù),pj(j=1,2,…,m)代表每一個(gè)訓(xùn)練樣本xj(j=1,2,…,m)所對(duì)應(yīng)的LBP特征向量。P代表的是測(cè)試樣本的LBP特征向量。這樣,在測(cè)試樣本和每一個(gè)訓(xùn)練樣本之間我們就產(chǎn)生了m個(gè)度量。然后我們對(duì)這些得到的m個(gè)度量進(jìn)行降序排列,得到
根據(jù)公式(5),借助于歐式距離我們選擇最優(yōu)的L個(gè)度量來(lái)優(yōu)化訓(xùn)練樣本。所以這些與測(cè)試樣本聯(lián)系更緊密,更具競(jìng)爭(zhēng)力的樣本最終被挑選了出來(lái)。然后我們利用這些具有更好表達(dá)能力的訓(xùn)練樣本重建測(cè)試樣本來(lái)進(jìn)行更有效的分類。
下一步就是根據(jù)所提出的L-CRC算法,用上文得到的L個(gè)最近鄰的訓(xùn)練樣本來(lái)線性表示測(cè)試樣本。假設(shè)以下等式是成立的
β=[β1,…,βL]T,如果X′是非奇異矩陣,可以解出β=X′-1y,否則,β=(X′TX′+μI)-1X′Ty,μ是很小的正常數(shù),I是單位矩陣。
由于測(cè)試樣本的最優(yōu)訓(xùn)練樣本有可能是來(lái)自于不同的類別,在表達(dá)測(cè)試樣本中我們會(huì)計(jì)算來(lái)自于同一類別的最優(yōu)訓(xùn)練樣本貢獻(xiàn)值的和,然后將測(cè)試樣本劃分到具有最大貢獻(xiàn)值的那一類中。更具體地說(shuō),如果來(lái)自于第K類樣本的最優(yōu)樣本為ξs…ξt,則在表達(dá)測(cè)試樣本中,它們的貢獻(xiàn)值可以表示為
所以yk和y的偏差可以表示為
在本章節(jié)中,我們將討論所提出算法的特性和原理。算法的基本思想是利用訓(xùn)練樣本集中具有最優(yōu)表達(dá)能力的子集對(duì)測(cè)試樣本進(jìn)行線性表達(dá)。目的是找到對(duì)測(cè)試樣本更好的表達(dá),來(lái)達(dá)到更好的分類效果。根據(jù)特征提取的相關(guān)理論,來(lái)自同一類的樣本應(yīng)該具有相似的特征。這啟示我們利用LBP直方圖來(lái)直觀的反映樣本的特征。在本方法中,我們利用LBP算子來(lái)提取樣本的特征,目的是對(duì)訓(xùn)練樣本進(jìn)行淘汰。首先,我們對(duì)樣本進(jìn)行分塊。根據(jù)我們的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),當(dāng)樣本分成5*5的區(qū)域時(shí),能夠達(dá)到最好的效果。然后用統(tǒng)一模式直方圖提取每一個(gè)人臉區(qū)域塊的特征。這樣我們就得到了25個(gè)59*1的向量。每一個(gè)向量代表對(duì)應(yīng)小區(qū)域的LBP特征。然后將這25個(gè)向量串聯(lián)起來(lái),就得到了一個(gè)1475*1的向量。該向量表示整個(gè)圖像的LBP特征。這樣,對(duì)圖像樣本的討論自然就轉(zhuǎn)換到了對(duì)其LBP特征的討論。一般來(lái)說(shuō),兩個(gè)樣本間的距離越小,兩者的相似度越大。在前面的章節(jié)中,我們已經(jīng)討論了利用LBP特性來(lái)分析樣本之間相似性程度的可行性。在這個(gè)階段,我們會(huì)更多的闡述我們是如何利用LBP特征直方圖來(lái)優(yōu)化訓(xùn)練樣本的。具體來(lái)說(shuō),每個(gè)圖像的LBP特征直方圖可以看作一個(gè)一維的向量。所以評(píng)估兩幅圖像的相似程度可以很容易的轉(zhuǎn)換成評(píng)估他們對(duì)用的LBP特征直方圖,也即對(duì)兩個(gè)一維向量進(jìn)行評(píng)估。和其他的距離度量方式相比,基于LBP特征直方圖的評(píng)估在時(shí)間消耗和空間復(fù)雜度方面獲得了較好的平衡。有兩方面的原因,首先,對(duì)于一個(gè)1475維的一維向量,其復(fù)雜在容忍的范圍內(nèi)。另一方面,在特征提取方面,我們做了兩個(gè)工作,一是分塊,二是特征融合。這就使的該1475*1的向量最大程度的保留了原始的信息,所以在利用該特性進(jìn)行訓(xùn)練樣本優(yōu)化時(shí),能夠極大的減少信息的損失。
分別在ORL和FERET人臉庫(kù)進(jìn)行了對(duì)比實(shí)驗(yàn)。選取的方法有主成份分析(PCA)、局部二值模式(LBP)、協(xié)同表達(dá)分類(CRC)。實(shí)驗(yàn)結(jié)果呈現(xiàn)在圖1和表1中。
文中提出了一種利用LBP特征并結(jié)合綜合判定的新的表達(dá)學(xué)習(xí)方法。所提出的方法目的在于利用擁有最佳表達(dá)貢獻(xiàn)值的更具競(jìng)爭(zhēng)力的樣本來(lái)對(duì)測(cè)試樣本進(jìn)行線性表達(dá)。通過(guò)LBP算子的特征提取,所有訓(xùn)練樣本的重要特征信息被提取然后評(píng)估。緊接著我們可以配合著歐式距離度量來(lái)獲得與測(cè)試樣本最近接近的樣本,從而獲得良好的分類效果。我們相信我們優(yōu)異的分類性能可以激發(fā)在特征提取、協(xié)同表達(dá)和綜合判斷方面更多更有意義的探索,找到更好表達(dá)學(xué)習(xí)分類的解決方案。
圖1 不同方法在ORL上的識(shí)別效果
表1 FERET人臉庫(kù)上不同樣本、不同方法的識(shí)別率
[1]Rodriguez F,Sapiro G.Sparse representations for image classification:Learning discriminative and reconstructive nonparametric dictionaries[R].Minnesota Univ Minneapolis,2008.
[2]Thiagarajan J J,Ramamurthy K N,Spanias A.Multiple kernel sparse representations for supervised and unsupervised learning[J].IEEE Transactions on Image Processing,2014,23(7):2905-2915.
[3]Yang M,Zhang L.Gabor feature based sparse representation for face recognition with gabor occlusion dictionary[M].Computer Vision ECCV 2010.Springer Berlin Heidelberg,2010.
[4]Yang M,Zhang L,Zhang D,et al.Relaxed collaborative representation for pattern classification[C]//Computer Vision and Pattern Recognition(CVPR),2012 IEEE Conference on.IEEE,2012:2224-2231.
[5]Liu Z,Pu J,HuangT,etal.A novel classification method for palmprint recognition based on reconstruction error and normalized distance[J].Applied Intelligence,2013,39(2):307-314.
[6]Xu Y,Zhang D,Yang J,et al.A two-phase test sample sparse representation method for use with face recognition[J].Circuits and Systems for Video Technology,IEEE Transactions on,2011,21(9):1255-1262.
[7]Xu Y,ZuoW,F(xiàn)anZ.Supervised sparse representation method with a heuristic strategy and face recognition experiments[J].Neurocomputing,2012(79):125-131.
[8]Xu Y,F(xiàn)ang X,Li X,et al.Data uncertainty in face recognition[J]. IEEE transactions on cybernetics,2014,44(10):1950-1961.
[9]Xu Y,LiX,Yang J,etal.Integrating conventional and inverse representation for face recognition[J].IEEE Transactions on Cybernetics,2014,44(10):1738-1746.
[10]Xu Y,Zhang B,Zhong Z.Multiple representations and sparse representation for image classification[J].Pattern Recognition Letters,2015(68):9-14.
[11]Ojala T,Pietik?inen M,Harwood D. A comparative study oftexture measures with classification based on featured distributions[J].Pattern recognition,1996,29(1):51-59.
[12]Ahonen T,Hadid A,Pietik?inen M.Face recognition with local binary patterns[C]//European conference on computer vision.Springer Berlin Heidelberg,2004:469-481.
[13]Ahonen T,Hadid A,Pietikainen M.Face description with local binary patterns:Application to face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(12):2037-2041.
[14]Ojala T,Pietikainen M,Maenpaa T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[15]Zhang L,Yang M,Zhang D,et al.Collaborative representation based classification for face recognition[R].2012.
[16]Yang M,Zhang L,Yang J,et al.Regularized robustcoding for face recognition[J].Image Processing,IEEE Transactions on,2013,22(5):1753-1766.