高志榮,熊承義,笪邦友
(1 中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074 ;2 中南民族大學(xué) 電子信息工程學(xué)院,智能無線通信湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430074)
魯棒性自動(dòng)人臉識(shí)別是幾十年來計(jì)算機(jī)視覺領(lǐng)域關(guān)注的熱點(diǎn)問題.近年來,基于信號(hào)稀疏性先驗(yàn)基礎(chǔ)上提出的壓縮感知[1]理論,為人臉識(shí)別新技術(shù)研究提供了重要理論基礎(chǔ),基于壓縮感知理論的人臉識(shí)別研究得到了國(guó)內(nèi)外研究者們的廣泛關(guān)注,并已成為該領(lǐng)域的重要研究熱點(diǎn).Wright等人[2]首先提出了基于稀疏表示分類器(SRC)的人臉識(shí)別框架,實(shí)驗(yàn)結(jié)果展現(xiàn)了稀疏表示分類在實(shí)現(xiàn)魯棒性人臉識(shí)別中具有良好的潛能.此后,國(guó)內(nèi)外許多學(xué)者在此基礎(chǔ)上展開了大量的研究工作,以進(jìn)一步提升其性能.比如,Patel[3]提出了一種對(duì)圖像合法性進(jìn)行判別的方法,通過比較每個(gè)類殘差均方值的倒數(shù),完成對(duì)測(cè)試圖像是否為合法人臉圖像的判定;Qiao等人[4]給出了一種線性降維的SPP(Sparsity Preserving Projections)方法,通過訓(xùn)練得到的投影矩陣實(shí)現(xiàn)直接將未訓(xùn)練樣本投影到低維空間以降低計(jì)算復(fù)雜度;Yang等人[5]提出了基于稀疏表示分類器的MFL方法,通過對(duì)字典的良好學(xué)習(xí),可降低字典規(guī)模,提高識(shí)別能力;文獻(xiàn)[6,7]給出了一種基于場(chǎng)景和目標(biāo)分類的方法,首先從訓(xùn)練樣本中提取若干局部特征,然后依據(jù)這些局部特征在稀疏約束下求解一組超完備字典,再對(duì)所有樣本的局部特征進(jìn)行編碼、匯總和分類.
為了解決光照、姿態(tài)、表情以及遮擋等因素對(duì)人臉圖像的影響,文獻(xiàn)[8]提出了一種基于線性回歸的人臉識(shí)別方法,可一定程度減輕上述因素的影響,具有較快識(shí)別速度,但識(shí)別效果仍有待提高.Wagner[9]提出了一種新的稀疏表示算法,通過采集不同光照條件下的大量訓(xùn)練樣本,可部分解決不同光照條件下人臉識(shí)別中存在的問題,但操作難度較高.
為了進(jìn)一步有效提升傳統(tǒng)稀疏表示人臉識(shí)別系統(tǒng)的識(shí)別率和可靠性,在分析人臉圖像稀疏表示系數(shù)分類能力的基礎(chǔ)上,本文提出了一種基于殘差加權(quán)的稀疏表示人臉識(shí)別新方法.該方法通過對(duì)類殘差圖像關(guān)于所屬各類稀疏表示系數(shù)的范數(shù)進(jìn)行歸一化加權(quán),有效提升了原始基于類殘差判決的識(shí)別能力.仿真實(shí)驗(yàn)結(jié)果表明,改進(jìn)的基于殘差加權(quán)的稀疏表示分類(WR_SRC)能夠有效提高系統(tǒng)的識(shí)別性能.
稀疏表示是壓縮感知中的關(guān)鍵理論,數(shù)據(jù)的稀疏表示,可以從本質(zhì)上降低數(shù)據(jù)處理的成本,提高壓縮效率.目前,稀疏表示已經(jīng)被有效地用于人臉識(shí)別算法中.與傳統(tǒng)算法相比,稀疏表示人臉識(shí)別算法具有識(shí)別率高、魯棒性強(qiáng)的特點(diǎn).
稀疏表示的本質(zhì)就是稀疏正規(guī)化約束下的信號(hào)分解.其基本模型表明自然信號(hào)能夠被表示成預(yù)先定義的原子信號(hào)的線性組合,而且這些組合系數(shù)是稀疏的,即大部分系數(shù)是0,或接近于0.
在基于稀疏表示的人臉識(shí)別技術(shù)中,考慮由k個(gè)不同類組成的人臉圖像訓(xùn)練集,每幅圖像大小為w×h,按列排列成向量v∈Rm(m=w×h).來自第i類的ni個(gè)訓(xùn)練樣本組成了一個(gè)矩陣Ai=[vi,1,vi,2,…,vi,ni]∈Rm×ni,則該類的任一測(cè)試樣本y∈Rm都將近似地存在于由Ai的列所張成的線性子空間中:
y=ai,1vi,1+ai,2vi,2+…+ai,nivi,ni,
ai,j∈R,j=1,2,…,ni為組合系數(shù).
(1)
由于測(cè)試樣本所屬類無法事先預(yù)知,因此針對(duì)整個(gè)訓(xùn)練樣本集重新定義一個(gè)矩陣A,它被看成是訓(xùn)練集中k個(gè)類的串聯(lián):A=[A1,A2,…,Ak]=[v1,1,v1,2,…,vk,nk],則測(cè)試樣本y可以表示為整個(gè)訓(xùn)練樣本集的線性組合:
y=Ax0∈Rm.
(2)
這里,x0=[0,…,αi,1,αi,2,…,αi,ni,0,…,0]T∈Rn是系數(shù)向量,x0的非零項(xiàng)應(yīng)該與訓(xùn)練集中的第i類對(duì)應(yīng).此時(shí),問題轉(zhuǎn)化成求解線性方程組y=Ax.
一般情況下,該方程組是欠定的,其解并不唯一,但可通過下列最優(yōu)化問題來解決:
(3)
但求解‖x‖0通常是NP難的,很難在多項(xiàng)式時(shí)間內(nèi)完成.最近關(guān)于稀疏表示和壓縮感知的理論表明,若x0的解足夠稀疏,那么求l0范數(shù)的問題可用最小l1范數(shù)來代替,即:
(4)
由于噪聲或訓(xùn)練樣本不充分等原因,上述優(yōu)化問題中的線性約束并不總是成立,實(shí)際的模型可修改為:y=Ax0+z,其中z∈Rm代表噪聲,且滿足‖z‖2<ε.
同時(shí),求解稀疏解x0仍可以通過解下述l1范數(shù)問題實(shí)現(xiàn):
y‖2≤ε.
(5)
綜上所述,經(jīng)典稀疏表示識(shí)別算法的流程可描述如下.
算法1 基于稀疏表示的分類器(SRC):
1) 輸入:包含有k個(gè)類、n個(gè)樣本的訓(xùn)練樣本集A=[A1,A2,…,Ak]∈Rm×n;一個(gè)測(cè)試樣本y∈Rm,以及可選的容錯(cuò)項(xiàng)ε>0.
2) 歸一化列矩陣A使之具有單位l2范數(shù).
3) 求解最小l1范數(shù):
或者求解:
5) 輸出結(jié)果:identity(y)=arg miniri(y).
算法1(SRC)已經(jīng)在眾多實(shí)例中被證明是行之有效的,識(shí)別率通常在90%左右.但對(duì)于測(cè)試圖像是否合法等問題,算法1(SRC)并未涉及.對(duì)輸入測(cè)試圖像進(jìn)行合法性的判別,也是人臉識(shí)別技術(shù)中所要解決的一個(gè)至關(guān)重要的問題[3],本文首先對(duì)該問題進(jìn)行討論.
圖1 輸入非人臉圖像的l2范數(shù)的降序
圖2 輸入人臉圖像的l2范數(shù)的降序
從圖1、圖2可以看出,當(dāng)輸入為非人臉圖像時(shí),所有類系數(shù)向量l2的范數(shù)差別并不明顯,尤其是最大的幾個(gè)值非常接近;而當(dāng)輸入為人臉圖像時(shí),則出現(xiàn)其中一個(gè)系數(shù)向量的l2范數(shù)明顯大于其他類的情況.經(jīng)過進(jìn)一步追蹤發(fā)現(xiàn),這個(gè)最大的類恰是輸入圖像所屬的類.這個(gè)結(jié)果正符合人臉識(shí)別的需求;另外,上述人臉圖像的輸入是隨機(jī)選擇的,具有普適性,基于此,本文提出采用下列規(guī)則(L2 norm discrimination,L2ND)來進(jìn)行人臉圖像合法性的判別:
給定測(cè)試樣本y,對(duì)訓(xùn)練樣本集中的所有類,計(jì)算第i類系數(shù)向量的l2范數(shù):
(6)
針對(duì)每個(gè)測(cè)試圖像,對(duì)上述值進(jìn)行逆序排序:
(7)
結(jié)果表明,上述排序結(jié)果與測(cè)試樣本所屬類順序一致.第一個(gè)類的值最大,對(duì)應(yīng)測(cè)試樣本所屬類的概率也最大.同時(shí),將第一個(gè)類與第二個(gè)類的比值作為算法識(shí)別率可靠性的測(cè)量標(biāo)準(zhǔn):
(8)
并設(shè)定一個(gè)門限值判斷輸入測(cè)試樣本,滿足不等式時(shí)為合法的人臉圖像:φy≥τ;否則為非法的人臉圖像.
由于式(7)為逆序排列,一個(gè)較大的門限值意味著第一類圖像的對(duì)應(yīng)值遠(yuǎn)遠(yuǎn)大于后面各類,從而該類在表達(dá)測(cè)試樣本時(shí)具有最大的能量,被判定為測(cè)試圖像所屬類是合理的.
為了驗(yàn)證上述判別規(guī)則式(6)~(8)的工作原理,我們隨機(jī)選擇不同類進(jìn)行了同樣的模擬實(shí)驗(yàn),用式(8)進(jìn)行定量分析,并與文獻(xiàn)[3]的判別式進(jìn)行了對(duì)比,其結(jié)果如圖3所示.
圖3 文獻(xiàn)[3]與本文算法的結(jié)果比較
從圖3可以看出,對(duì)于人臉圖像和非人臉圖像的判別,在測(cè)試樣本相同的情況下,用式(8)進(jìn)行計(jì)算,殘差的φy比l2范數(shù)的φy要小得多,也就是最小殘差和次小殘差的比值遠(yuǎn)小于最大l2范數(shù)和次小l2范數(shù)的比值,這表明,用最小殘差作為識(shí)別標(biāo)準(zhǔn)時(shí),其結(jié)果沒有最大l2范數(shù)所得的結(jié)果精確和有效,因而類系數(shù)向量的l2范數(shù)在人臉識(shí)別中具有十分重要的意義.
另一方面,無論是文獻(xiàn)[3]所采用的殘差判別式,還是本文所采用的L2ND判別式,其結(jié)果都具有相同的走勢(shì).若將二者集中起來考慮,則類間差別更加突出,優(yōu)勢(shì)更加明顯,從而識(shí)別會(huì)更加有效.這就是本文提出的基于殘差加權(quán)的稀疏表示人臉識(shí)別新方法(WR_SRC),通過用類系數(shù)向量的l2范數(shù)對(duì)殘差進(jìn)行歸一化加權(quán),可以突顯測(cè)試圖像所屬類的特征,因此更加容易將所屬類與其他類加以區(qū)別,從而有效提高算法的識(shí)別率.
對(duì)于給定的測(cè)試樣本與訓(xùn)練樣本,先求解最小l1范數(shù),由于噪聲的影響,可能得到多個(gè)滿足條件的類系數(shù)向量.針對(duì)這些不同類再求解其類系數(shù)向量的l2范數(shù)以及殘差,最后用類系數(shù)向量的l2范數(shù)對(duì)類殘差進(jìn)行歸一化加權(quán),并輸出識(shí)別結(jié)果.其具體描述如下.
算法2 (WR_SRC):
1) 輸入:包含有k個(gè)類、n個(gè)樣本的訓(xùn)練樣本集A=[A1,A2,…,Ak]∈Rm×n;一個(gè)測(cè)試樣本y∈Rm,以及可選的容錯(cuò)項(xiàng)ε>0.
2) 歸一化列矩陣A使之具有l(wèi)2范數(shù).
3) 求解最小l1范數(shù):
或者包含噪聲的情況:
5) 對(duì)步驟4的結(jié)果進(jìn)行逆序排序.
6) 對(duì)步驟5的結(jié)果,計(jì)算第一項(xiàng)與第二項(xiàng)的比值φy,并與事先設(shè)定的門限τ進(jìn)行比較,若φy≥τ,則繼續(xù)步驟7;否則,輸出為非人臉圖像的結(jié)論.
8) 輸出識(shí)別結(jié)果:
identity(y)=arg maxiwri(y).
通過對(duì)算法1(SRC)和算法2(WR_SRC)比較,可以發(fā)現(xiàn),算法的改進(jìn)就在于識(shí)別中考慮了類系數(shù)向量的最大l2范數(shù),利用該值作為因子對(duì)殘差歸一化加權(quán),從而降低具有極高相似度的圖像之間的相互影響,提高人臉圖像識(shí)別率.類系數(shù)向量的最大l2范數(shù)表示了系數(shù)向量在線性組合后所具有的能量,其值越大,與測(cè)試圖像越接近,作為分類判別是合理的.
為了驗(yàn)證算法2(WR_SRC)的有效性,我們進(jìn)行了模擬實(shí)驗(yàn),并與算法1(SRC)進(jìn)行了比較.選擇了Windows7.0以及Matlab7.10作為模擬實(shí)驗(yàn)平臺(tái),并以AR人臉庫(kù)為實(shí)驗(yàn)對(duì)象.AR人臉庫(kù)由兩個(gè)階段組成,包含100不同類,每個(gè)類14個(gè)樣本(大小60×43),分別代表不同表情和光照變化,如圖4所示.本文采用第一階段的7個(gè)圖像作訓(xùn)練樣本,第二階段的7個(gè)圖像為測(cè)試樣本.
圖4 AR數(shù)據(jù)庫(kù)樣本列舉
測(cè)試1: 完全人臉圖像識(shí)別.
對(duì)AR庫(kù)中的700幅不同訓(xùn)練樣本圖像,首先提取Eigenface特征,再選擇特征維數(shù)為30、50、80、100、150、200、250、300時(shí),比較原始SRC算法與WR_SRC算法的識(shí)別率,實(shí)驗(yàn)結(jié)果如圖5所示.
圖5 SRC算法與WR_SRC算法識(shí)別率比較
從圖5中可以看出,當(dāng)特征點(diǎn)個(gè)數(shù)取為較小時(shí),兩種算法識(shí)別率都較低,也比較接近,因?yàn)橛?xùn)練樣本集中圖像具有相似性,較少的特征點(diǎn)不足以將不同類精確區(qū)分;但當(dāng)特征點(diǎn)個(gè)數(shù)取值較大時(shí),算法2(WR_SRC)較算法1(SRC)的識(shí)別率具更明顯的提高,尤其是在特征點(diǎn)超過50后,效果尤其明顯,識(shí)別率已達(dá)80%以上,證明了算法的有效性.
測(cè)試2: 部分人臉圖像識(shí)別.
在一些特殊應(yīng)用場(chǎng)合,比如商場(chǎng)或超市的攝像頭只獲取了部分人臉圖像,要求完成識(shí)別,這就是部分人臉圖像的識(shí)別問題.模擬實(shí)驗(yàn)中,我們選擇AR庫(kù)中的人臉圖像部分特征(大小),對(duì)算法的識(shí)別效果進(jìn)行測(cè)試,可能的部分人臉圖像如圖6(a)、(b)所示.
圖6 部分人臉特征
計(jì)算算法1(SRC)和算法2(WR_SRC)的部分人臉特征的識(shí)別率,其結(jié)果分別如圖7(a)、(b)所示.
圖7 基于部分人臉特征識(shí)別率測(cè)試
從圖7中可以看出,與完全人臉特征類似,部分人臉特征的識(shí)別率也是隨著特征點(diǎn)個(gè)數(shù)的增加而增加的;同時(shí),在特征只有完全人臉圖像一半的情況下,仍可以在特征點(diǎn)個(gè)數(shù)為80時(shí),達(dá)到80%以上的識(shí)別率;此外,無論是眼睛還是鼻子作為部分人臉特征時(shí),WR_SRC算法的識(shí)別率比原始SRC算法效果更好.
以上探討了基于稀疏表示的類系數(shù)特征對(duì)人臉識(shí)別性能的影響.本文提出的基于類系數(shù)加權(quán)殘差的稀疏表示識(shí)別算法比傳統(tǒng)的稀疏表示識(shí)別算法具有較好的性能改進(jìn).前者不僅能實(shí)現(xiàn)有效識(shí)別輸入測(cè)試樣本的合法性,還能針對(duì)完全人臉圖像及部分人臉圖像有效提高識(shí)別率,對(duì)測(cè)試圖像部分特征有效的情況下尤其具有實(shí)用價(jià)值,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的有效性.
[1]Candes E J,Wakin M B.An introduction to compressive sampling [J].IEEE Signal Processing Magazine,2008,25(2):21-30.
[2]Wright J,Yang A,Ganesh A.Robust face recognition via sparse representation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[3]Patel V M,Wu T,Biswas S .Dictionary-based face recognition under variable lighting and pose[J].IEEE Transactions on Information Forensics and Security,2012,7(3):954-965.
[4]Qiao L S,Chen S C,Tan X Y.Sparsity preserving projections with applications to face recognition [J].Pattern Recognition,2010,43(1):331-341.
[5]Yang M,Zhang L,Yang J.Metaface learning for sparse representation based face[C]//IEEE.IEEE ICIP.Hong Kong:IEEE,2010:1601-1604.
[6]Yang J C,Yu K,Gong Y.Linear spatial pyramid matching using sparse coding for image classification[C]//IEEE.IEEE CVPR.USA:IEEE,2009:1794-1801.
[7]Gao S I,Tsang I W,Liang T.Local features are not lonely-Laplacian sparse coding for image classification[C]//IEEE.IEEE CVPR.USA:IEEE,2010:3555-3561.
[8]Nasseem I,Togneri R,Bennamoun M.Linear regression for face recognition [J].IEEE Trans on Pattern Analysis and Machine Intelligence,2010,32(11):2106-2112.
[9]Wagner A,Wright J,Ganesh A.Towards a practical face recognition system: robust registration and illumination by sparse representation[C]//IEEE.IEEE CVPR.USA:IEEE,2009:597-604.