改進(jìn)的基于殘差加權(quán)的稀疏表示人臉識(shí)別

2012-01-04 05:12高志榮熊承義笪邦友

中南民族大學(xué)學(xué)報(bào)（自然科學(xué)版） 2012年3期

高志榮，熊承義，笪邦友

(1 中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院，武漢 430074 ；2 中南民族大學(xué) 電子信息工程學(xué)院，智能無線通信湖北省重點(diǎn)實(shí)驗(yàn)室，武漢 430074)

魯棒性自動(dòng)人臉識(shí)別是幾十年來計(jì)算機(jī)視覺領(lǐng)域關(guān)注的熱點(diǎn)問題.近年來，基于信號(hào)稀疏性先驗(yàn)基礎(chǔ)上提出的壓縮感知[1]理論，為人臉識(shí)別新技術(shù)研究提供了重要理論基礎(chǔ)，基于壓縮感知理論的人臉識(shí)別研究得到了國(guó)內(nèi)外研究者們的廣泛關(guān)注，并已成為該領(lǐng)域的重要研究熱點(diǎn).Wright等人[2]首先提出了基于稀疏表示分類器(SRC)的人臉識(shí)別框架，實(shí)驗(yàn)結(jié)果展現(xiàn)了稀疏表示分類在實(shí)現(xiàn)魯棒性人臉識(shí)別中具有良好的潛能.此后，國(guó)內(nèi)外許多學(xué)者在此基礎(chǔ)上展開了大量的研究工作，以進(jìn)一步提升其性能.比如，Patel[3]提出了一種對(duì)圖像合法性進(jìn)行判別的方法，通過比較每個(gè)類殘差均方值的倒數(shù)，完成對(duì)測(cè)試圖像是否為合法人臉圖像的判定；Qiao等人[4]給出了一種線性降維的SPP(Sparsity Preserving Projections)方法，通過訓(xùn)練得到的投影矩陣實(shí)現(xiàn)直接將未訓(xùn)練樣本投影到低維空間以降低計(jì)算復(fù)雜度；Yang等人[5]提出了基于稀疏表示分類器的MFL方法，通過對(duì)字典的良好學(xué)習(xí)，可降低字典規(guī)模，提高識(shí)別能力；文獻(xiàn)[6，7]給出了一種基于場(chǎng)景和目標(biāo)分類的方法，首先從訓(xùn)練樣本中提取若干局部特征，然后依據(jù)這些局部特征在稀疏約束下求解一組超完備字典，再對(duì)所有樣本的局部特征進(jìn)行編碼、匯總和分類.

為了解決光照、姿態(tài)、表情以及遮擋等因素對(duì)人臉圖像的影響，文獻(xiàn)[8]提出了一種基于線性回歸的人臉識(shí)別方法，可一定程度減輕上述因素的影響，具有較快識(shí)別速度，但識(shí)別效果仍有待提高.Wagner[9]提出了一種新的稀疏表示算法，通過采集不同光照條件下的大量訓(xùn)練樣本，可部分解決不同光照條件下人臉識(shí)別中存在的問題，但操作難度較高.

為了進(jìn)一步有效提升傳統(tǒng)稀疏表示人臉識(shí)別系統(tǒng)的識(shí)別率和可靠性，在分析人臉圖像稀疏表示系數(shù)分類能力的基礎(chǔ)上，本文提出了一種基于殘差加權(quán)的稀疏表示人臉識(shí)別新方法.該方法通過對(duì)類殘差圖像關(guān)于所屬各類稀疏表示系數(shù)的范數(shù)進(jìn)行歸一化加權(quán)，有效提升了原始基于類殘差判決的識(shí)別能力.仿真實(shí)驗(yàn)結(jié)果表明，改進(jìn)的基于殘差加權(quán)的稀疏表示分類(WR_SRC)能夠有效提高系統(tǒng)的識(shí)別性能.

1 稀疏表示人臉識(shí)別

稀疏表示是壓縮感知中的關(guān)鍵理論，數(shù)據(jù)的稀疏表示，可以從本質(zhì)上降低數(shù)據(jù)處理的成本，提高壓縮效率.目前，稀疏表示已經(jīng)被有效地用于人臉識(shí)別算法中.與傳統(tǒng)算法相比，稀疏表示人臉識(shí)別算法具有識(shí)別率高、魯棒性強(qiáng)的特點(diǎn).

稀疏表示的本質(zhì)就是稀疏正規(guī)化約束下的信號(hào)分解.其基本模型表明自然信號(hào)能夠被表示成預(yù)先定義的原子信號(hào)的線性組合，而且這些組合系數(shù)是稀疏的，即大部分系數(shù)是0，或接近于0.

在基于稀疏表示的人臉識(shí)別技術(shù)中，考慮由k個(gè)不同類組成的人臉圖像訓(xùn)練集，每幅圖像大小為w×h，按列排列成向量v∈Rm(m=w×h).來自第i類的ni個(gè)訓(xùn)練樣本組成了一個(gè)矩陣Ai=[vi,1,vi,2,…,vi,ni]∈Rm×ni,則該類的任一測(cè)試樣本y∈Rm都將近似地存在于由Ai的列所張成的線性子空間中：

y=ai,1vi,1+ai,2vi,2+…+ai,nivi,ni,

ai,j∈R,j=1,2,…，ni為組合系數(shù).

(1)

由于測(cè)試樣本所屬類無法事先預(yù)知，因此針對(duì)整個(gè)訓(xùn)練樣本集重新定義一個(gè)矩陣A，它被看成是訓(xùn)練集中k個(gè)類的串聯(lián)：A=[A1,A2,…，Ak]=[v1,1,v1,2,…，vk,nk]，則測(cè)試樣本y可以表示為整個(gè)訓(xùn)練樣本集的線性組合：

y=Ax0∈Rm.

(2)

這里，x0=[0,…，αi,1,αi,2,…，αi,ni,0,…，0]T∈Rn是系數(shù)向量，x0的非零項(xiàng)應(yīng)該與訓(xùn)練集中的第i類對(duì)應(yīng).此時(shí)，問題轉(zhuǎn)化成求解線性方程組y=Ax.

一般情況下，該方程組是欠定的，其解并不唯一，但可通過下列最優(yōu)化問題來解決：

(3)

但求解‖x‖0通常是NP難的，很難在多項(xiàng)式時(shí)間內(nèi)完成.最近關(guān)于稀疏表示和壓縮感知的理論表明，若x0的解足夠稀疏，那么求l0范數(shù)的問題可用最小l1范數(shù)來代替，即：

(4)

由于噪聲或訓(xùn)練樣本不充分等原因，上述優(yōu)化問題中的線性約束并不總是成立，實(shí)際的模型可修改為：y=Ax0+z，其中z∈Rm代表噪聲，且滿足‖z‖2<ε.

同時(shí)，求解稀疏解x0仍可以通過解下述l1范數(shù)問題實(shí)現(xiàn)：

y‖2≤ε.

(5)

綜上所述，經(jīng)典稀疏表示識(shí)別算法的流程可描述如下.

算法1 基于稀疏表示的分類器(SRC)：

1) 輸入：包含有k個(gè)類、n個(gè)樣本的訓(xùn)練樣本集A=[A1,A2,…，Ak]∈Rm×n；一個(gè)測(cè)試樣本y∈Rm，以及可選的容錯(cuò)項(xiàng)ε>0.

2) 歸一化列矩陣A使之具有單位l2范數(shù).

3) 求解最小l1范數(shù)：

或者求解：

5) 輸出結(jié)果：identity(y)=arg miniri(y).

2 基于殘差加權(quán)的稀疏表示人臉識(shí)別

2.1 稀疏系數(shù)特性分析

算法1(SRC)已經(jīng)在眾多實(shí)例中被證明是行之有效的，識(shí)別率通常在90%左右.但對(duì)于測(cè)試圖像是否合法等問題，算法1(SRC)并未涉及.對(duì)輸入測(cè)試圖像進(jìn)行合法性的判別，也是人臉識(shí)別技術(shù)中所要解決的一個(gè)至關(guān)重要的問題[3]，本文首先對(duì)該問題進(jìn)行討論.

圖1 輸入非人臉圖像的l2范數(shù)的降序

圖2 輸入人臉圖像的l2范數(shù)的降序

從圖1、圖2可以看出，當(dāng)輸入為非人臉圖像時(shí)，所有類系數(shù)向量l2的范數(shù)差別并不明顯，尤其是最大的幾個(gè)值非常接近；而當(dāng)輸入為人臉圖像時(shí)，則出現(xiàn)其中一個(gè)系數(shù)向量的l2范數(shù)明顯大于其他類的情況.經(jīng)過進(jìn)一步追蹤發(fā)現(xiàn)，這個(gè)最大的類恰是輸入圖像所屬的類.這個(gè)結(jié)果正符合人臉識(shí)別的需求；另外，上述人臉圖像的輸入是隨機(jī)選擇的，具有普適性，基于此，本文提出采用下列規(guī)則(L2 norm discrimination,L2ND)來進(jìn)行人臉圖像合法性的判別：

給定測(cè)試樣本y，對(duì)訓(xùn)練樣本集中的所有類，計(jì)算第i類系數(shù)向量的l2范數(shù)：

(6)

針對(duì)每個(gè)測(cè)試圖像，對(duì)上述值進(jìn)行逆序排序：

(7)

結(jié)果表明，上述排序結(jié)果與測(cè)試樣本所屬類順序一致.第一個(gè)類的值最大，對(duì)應(yīng)測(cè)試樣本所屬類的概率也最大.同時(shí)，將第一個(gè)類與第二個(gè)類的比值作為算法識(shí)別率可靠性的測(cè)量標(biāo)準(zhǔn)：

(8)

并設(shè)定一個(gè)門限值判斷輸入測(cè)試樣本，滿足不等式時(shí)為合法的人臉圖像：φy≥τ；否則為非法的人臉圖像.

由于式(7)為逆序排列，一個(gè)較大的門限值意味著第一類圖像的對(duì)應(yīng)值遠(yuǎn)遠(yuǎn)大于后面各類，從而該類在表達(dá)測(cè)試樣本時(shí)具有最大的能量，被判定為測(cè)試圖像所屬類是合理的.

為了驗(yàn)證上述判別規(guī)則式(6)～(8)的工作原理，我們隨機(jī)選擇不同類進(jìn)行了同樣的模擬實(shí)驗(yàn)，用式(8)進(jìn)行定量分析，并與文獻(xiàn)[3]的判別式進(jìn)行了對(duì)比，其結(jié)果如圖3所示.

圖3 文獻(xiàn)[3]與本文算法的結(jié)果比較

從圖3可以看出，對(duì)于人臉圖像和非人臉圖像的判別，在測(cè)試樣本相同的情況下，用式(8)進(jìn)行計(jì)算，殘差的φy比l2范數(shù)的φy要小得多，也就是最小殘差和次小殘差的比值遠(yuǎn)小于最大l2范數(shù)和次小l2范數(shù)的比值，這表明，用最小殘差作為識(shí)別標(biāo)準(zhǔn)時(shí)，其結(jié)果沒有最大l2范數(shù)所得的結(jié)果精確和有效，因而類系數(shù)向量的l2范數(shù)在人臉識(shí)別中具有十分重要的意義.

另一方面，無論是文獻(xiàn)[3]所采用的殘差判別式，還是本文所采用的L2ND判別式，其結(jié)果都具有相同的走勢(shì).若將二者集中起來考慮，則類間差別更加突出，優(yōu)勢(shì)更加明顯，從而識(shí)別會(huì)更加有效.這就是本文提出的基于殘差加權(quán)的稀疏表示人臉識(shí)別新方法(WR_SRC)，通過用類系數(shù)向量的l2范數(shù)對(duì)殘差進(jìn)行歸一化加權(quán)，可以突顯測(cè)試圖像所屬類的特征，因此更加容易將所屬類與其他類加以區(qū)別，從而有效提高算法的識(shí)別率.

2.2 基于殘差加權(quán)的稀疏表示分類算法(WR_SRC)

對(duì)于給定的測(cè)試樣本與訓(xùn)練樣本，先求解最小l1范數(shù)，由于噪聲的影響，可能得到多個(gè)滿足條件的類系數(shù)向量.針對(duì)這些不同類再求解其類系數(shù)向量的l2范數(shù)以及殘差，最后用類系數(shù)向量的l2范數(shù)對(duì)類殘差進(jìn)行歸一化加權(quán)，并輸出識(shí)別結(jié)果.其具體描述如下.

算法2 (WR_SRC)：

1) 輸入：包含有k個(gè)類、n個(gè)樣本的訓(xùn)練樣本集A=[A1,A2,…，Ak]∈Rm×n；一個(gè)測(cè)試樣本y∈Rm，以及可選的容錯(cuò)項(xiàng)ε>0.

2) 歸一化列矩陣A使之具有l(wèi)2范數(shù).

3) 求解最小l1范數(shù)：

或者包含噪聲的情況：

5) 對(duì)步驟4的結(jié)果進(jìn)行逆序排序.

6) 對(duì)步驟5的結(jié)果，計(jì)算第一項(xiàng)與第二項(xiàng)的比值φy，并與事先設(shè)定的門限τ進(jìn)行比較，若φy≥τ，則繼續(xù)步驟7；否則，輸出為非人臉圖像的結(jié)論.

8) 輸出識(shí)別結(jié)果：

identity(y)=arg maxiwri(y).

通過對(duì)算法1(SRC)和算法2(WR_SRC)比較，可以發(fā)現(xiàn)，算法的改進(jìn)就在于識(shí)別中考慮了類系數(shù)向量的最大l2范數(shù)，利用該值作為因子對(duì)殘差歸一化加權(quán)，從而降低具有極高相似度的圖像之間的相互影響，提高人臉圖像識(shí)別率.類系數(shù)向量的最大l2范數(shù)表示了系數(shù)向量在線性組合后所具有的能量，其值越大，與測(cè)試圖像越接近，作為分類判別是合理的.

3 仿真與實(shí)驗(yàn)結(jié)果

為了驗(yàn)證算法2(WR_SRC)的有效性，我們進(jìn)行了模擬實(shí)驗(yàn)，并與算法1(SRC)進(jìn)行了比較.選擇了Windows7.0以及Matlab7.10作為模擬實(shí)驗(yàn)平臺(tái)，并以AR人臉庫(kù)為實(shí)驗(yàn)對(duì)象.AR人臉庫(kù)由兩個(gè)階段組成，包含100不同類，每個(gè)類14個(gè)樣本(大小60×43)，分別代表不同表情和光照變化，如圖4所示.本文采用第一階段的7個(gè)圖像作訓(xùn)練樣本，第二階段的7個(gè)圖像為測(cè)試樣本.

圖4 AR數(shù)據(jù)庫(kù)樣本列舉

測(cè)試1：完全人臉圖像識(shí)別.

對(duì)AR庫(kù)中的700幅不同訓(xùn)練樣本圖像，首先提取Eigenface特征，再選擇特征維數(shù)為30、50、80、100、150、200、250、300時(shí)，比較原始SRC算法與WR_SRC算法的識(shí)別率，實(shí)驗(yàn)結(jié)果如圖5所示.

圖5 SRC算法與WR_SRC算法識(shí)別率比較

從圖5中可以看出，當(dāng)特征點(diǎn)個(gè)數(shù)取為較小時(shí)，兩種算法識(shí)別率都較低，也比較接近，因?yàn)橛?xùn)練樣本集中圖像具有相似性，較少的特征點(diǎn)不足以將不同類精確區(qū)分；但當(dāng)特征點(diǎn)個(gè)數(shù)取值較大時(shí)，算法2(WR_SRC)較算法1(SRC)的識(shí)別率具更明顯的提高，尤其是在特征點(diǎn)超過50后，效果尤其明顯，識(shí)別率已達(dá)80%以上，證明了算法的有效性.

測(cè)試2：部分人臉圖像識(shí)別.

在一些特殊應(yīng)用場(chǎng)合，比如商場(chǎng)或超市的攝像頭只獲取了部分人臉圖像，要求完成識(shí)別，這就是部分人臉圖像的識(shí)別問題.模擬實(shí)驗(yàn)中，我們選擇AR庫(kù)中的人臉圖像部分特征(大小)，對(duì)算法的識(shí)別效果進(jìn)行測(cè)試，可能的部分人臉圖像如圖6(a)、(b)所示.

圖6 部分人臉特征

計(jì)算算法1(SRC)和算法2(WR_SRC)的部分人臉特征的識(shí)別率，其結(jié)果分別如圖7(a)、(b)所示.

圖7 基于部分人臉特征識(shí)別率測(cè)試

從圖7中可以看出，與完全人臉特征類似，部分人臉特征的識(shí)別率也是隨著特征點(diǎn)個(gè)數(shù)的增加而增加的；同時(shí)，在特征只有完全人臉圖像一半的情況下，仍可以在特征點(diǎn)個(gè)數(shù)為80時(shí)，達(dá)到80%以上的識(shí)別率；此外，無論是眼睛還是鼻子作為部分人臉特征時(shí)，WR_SRC算法的識(shí)別率比原始SRC算法效果更好.

4 結(jié)語

以上探討了基于稀疏表示的類系數(shù)特征對(duì)人臉識(shí)別性能的影響.本文提出的基于類系數(shù)加權(quán)殘差的稀疏表示識(shí)別算法比傳統(tǒng)的稀疏表示識(shí)別算法具有較好的性能改進(jìn).前者不僅能實(shí)現(xiàn)有效識(shí)別輸入測(cè)試樣本的合法性，還能針對(duì)完全人臉圖像及部分人臉圖像有效提高識(shí)別率，對(duì)測(cè)試圖像部分特征有效的情況下尤其具有實(shí)用價(jià)值，實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的有效性.

[1]Candes E J,Wakin M B.An introduction to compressive sampling [J].IEEE Signal Processing Magazine,2008,25(2):21-30.

[2]Wright J,Yang A,Ganesh A.Robust face recognition via sparse representation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.

[3]Patel V M,Wu T,Biswas S .Dictionary-based face recognition under variable lighting and pose[J].IEEE Transactions on Information Forensics and Security,2012,7(3):954-965.

[4]Qiao L S,Chen S C,Tan X Y.Sparsity preserving projections with applications to face recognition [J].Pattern Recognition,2010,43(1):331-341.

[5]Yang M，Zhang L,Yang J.Metaface learning for sparse representation based face[C]//IEEE.IEEE ICIP.Hong Kong:IEEE,2010:1601-1604.

[6]Yang J C,Yu K,Gong Y.Linear spatial pyramid matching using sparse coding for image classification[C]//IEEE.IEEE CVPR.USA:IEEE,2009:1794-1801.

[7]Gao S I,Tsang I W,Liang T.Local features are not lonely-Laplacian sparse coding for image classification[C]//IEEE.IEEE CVPR.USA:IEEE,2010:3555-3561.

[8]Nasseem I,Togneri R,Bennamoun M.Linear regression for face recognition [J].IEEE Trans on Pattern Analysis and Machine Intelligence,2010,32(11):2106-2112.

[9]Wagner A,Wright J,Ganesh A.Towards a practical face recognition system: robust registration and illumination by sparse representation[C]//IEEE.IEEE CVPR.USA:IEEE,2009:597-604.