趙淑歡 萬(wàn)品哲 郭昌隆
摘 要:?jiǎn)螛颖救四樧R(shí)別的關(guān)鍵在于充分挖掘單樣本判別性信息,采用深度稀疏自編碼網(wǎng)絡(luò)與空頻域多LBP特征融合進(jìn)行特征提取。首先利用部分樣本訓(xùn)練深度稀疏自編碼網(wǎng)絡(luò),利用訓(xùn)練好的網(wǎng)絡(luò)分別提取訓(xùn)練及測(cè)試集的特征;其次,利用二維離散小波變換將時(shí)域樣本變換到頻域,實(shí)現(xiàn)樣本擴(kuò)展,增加單樣本信息并分別提取各域上的多LBP特征;最后利用協(xié)同表示對(duì)深度自編碼網(wǎng)絡(luò)及多LBP特征進(jìn)行分類識(shí)別,融合識(shí)別結(jié)果獲取最終分類結(jié)果。在AR及PIE數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明,該融合算法能提高樣本判別性信息的提取,提高單樣本人臉識(shí)別性能。
關(guān)鍵詞:稀疏自編碼;單樣本人臉識(shí)別;空-頻特征;多特征融合;二維離散小波變換;數(shù)據(jù)庫(kù)
中圖分類號(hào):TP181文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-1302(2019)11-00-05
0 引 言
人臉識(shí)別是計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域重要的研究課題,在生活中應(yīng)用廣泛,如視頻監(jiān)控[1]、門禁[2]、行人再識(shí)別[3]、視覺追蹤[4]等。盡管目前已有的人臉識(shí)別算法在特定環(huán)境下性能較好,但在實(shí)際測(cè)試中人臉可能含有多重面部變化,例如光照、陰影、姿勢(shì)、表情、遮擋、不對(duì)齊等[5],因此人臉識(shí)別仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
在許多實(shí)際應(yīng)用場(chǎng)合中,每人僅有一個(gè)訓(xùn)練樣本,例如ID卡認(rèn)證、航空港監(jiān)測(cè)等,導(dǎo)致在單樣本識(shí)別中很難根據(jù)訓(xùn)練樣本預(yù)測(cè)測(cè)試樣本中可能出現(xiàn)的類內(nèi)變化信息,因此單樣本人臉識(shí)別仍是人臉識(shí)別中的難點(diǎn)。而傳統(tǒng)的判別性子空間學(xué)習(xí)算法,例如線性判別分析(Linear Discriminant Analysis,LDA)[6]、基于Fisher的算法[7-8]在此種情況下會(huì)失效?;诒硎镜姆诸愃惴ㄈ缦∈璞硎荆⊿parse Representation-based Classifier,SRC)[9]和協(xié)同表示(Collaborative Representation-based Classifier,CRC)[10]要求每類用多個(gè)訓(xùn)練樣本來有效表示測(cè)試樣本,因此其在單樣本識(shí)別中性能也會(huì)大幅下降。
為處理單樣本人臉識(shí)別,研究人員提出多種算法,這些算法大致可以分為兩類[11],即全局算法和局部算法。全局算法[12-13]用整張人臉圖像作為輸入,其主要思想是擴(kuò)大訓(xùn)練樣本數(shù)以捕捉類內(nèi)信息。文獻(xiàn)[14]中有兩個(gè)方向,分別為虛擬樣本生成和通用學(xué)習(xí)。虛擬樣本生成利用真實(shí)訓(xùn)練樣本合成虛擬樣本,例如SPCA[15]和SVD-LDA[16]基于奇異值分解(Singular Value Decomposition,SVD)生成虛擬樣本。這些算法的主要缺點(diǎn)是虛擬樣本往往與訓(xùn)練樣本高度相關(guān),因此很難作為獨(dú)立的樣本進(jìn)行特征提取[14]。
與基于虛擬樣本算法不同,泛型學(xué)習(xí)方法通常會(huì)引入一個(gè)輔助泛型集,由不感興趣的人員來補(bǔ)充原始的SSPP(Single Sample per Person,SSPP)圖庫(kù)集。Wang等人[17]假設(shè)不同的人之間共享相似的類內(nèi)變化,據(jù)此利用泛型集估計(jì)類內(nèi)散度?;诒硎镜乃惴ò〝U(kuò)展的SRC(ESRC)[12]、疊加SRC(SSRC)[18]、稀疏變化字典學(xué)習(xí)(SVDL)[13]、協(xié)同概率標(biāo)簽(CPL)[19]等。盡管這些算法可以在一定程度上提高單樣本人臉識(shí)別算法的性能,但其性能仍嚴(yán)重依賴于巧妙的選取泛型集,理想的泛型集通常包括兩個(gè)特點(diǎn):需與訓(xùn)練樣本有相似的拍攝場(chǎng)景;需包含足夠的面部變化來預(yù)測(cè)測(cè)試樣本中未知的變化。然而實(shí)際中很難收集到足夠多的滿足上述條件的泛型集。
局部算法利用局部面部特征識(shí)別測(cè)試樣本。通常生成局部特征的方法是將一張人臉樣本分割成一些重疊或不重疊的圖像塊,因此該類型的局部算法通常被稱作基于塊的方法[20]。該類方法中每個(gè)被劃分的塊都被看作是這個(gè)人的獨(dú)立樣本,基于該假設(shè),研究人員將傳統(tǒng)的子空間學(xué)習(xí)和基于表示的分類算法(例如PCA,LDA,SRC,CRC)進(jìn)行擴(kuò)展得到對(duì)應(yīng)基于塊的算法,例如塊PCA[21],塊LDA[22],塊SRC(PSRC)[9]和塊CRC(PCRC)[20],整合每個(gè)塊的識(shí)別結(jié)果,得到最終的單樣本人臉識(shí)別結(jié)果。Lu等人[14]提出一種判別性多流行學(xué)習(xí)算法(DMMA),將人臉識(shí)別轉(zhuǎn)換成域到域的匹配問題?;谶@一工作,Yan等人[23]通過整合多個(gè)局部特征提出多特征多流形學(xué)習(xí)方法來提升人臉識(shí)別性能。Zhang等人[21]通過加入另一個(gè)基于稀疏圖的Fisher準(zhǔn)則修正了DMMA算法,并為被劃分出來的塊學(xué)習(xí)一個(gè)判別性子空間。
最近,有研究人員嘗試將泛型學(xué)習(xí)整合到基于塊的方法中用于單樣本人臉識(shí)別。例如,Zhu等人[24]從泛型集中提取塊變化字典,然后將其與訓(xùn)練塊字典串聯(lián)來度量每個(gè)測(cè)試塊的表示殘差。這類算法與現(xiàn)有的基于塊的表示方法相比可在單樣本人臉識(shí)別中獲得更好的性能,但理想的泛型集的獲取仍是實(shí)際應(yīng)用中的難題。
本文將樣本投影到頻域空間以實(shí)現(xiàn)樣本的擴(kuò)充,同時(shí)采用通用訓(xùn)練集采集部分類內(nèi)變化信息,減小類內(nèi)變化導(dǎo)致的單樣本識(shí)別率下降現(xiàn)象,最后將空頻域的識(shí)別結(jié)果進(jìn)行融合獲得最終的識(shí)別結(jié)果并在數(shù)據(jù)集上驗(yàn)證。
1 相關(guān)工作
1.1 深度稀疏自編碼網(wǎng)絡(luò)
SSAE是一種無(wú)監(jiān)督特征學(xué)習(xí)算法,該算法采用層級(jí)訓(xùn)練方案構(gòu)造深度網(wǎng)絡(luò),每一層包含兩個(gè)部分,即編碼器和解碼器。編碼器為一個(gè)函數(shù),可將輸入向量x映射到隱藏層表示a,即。解碼器將隱藏層表示映射成一個(gè)重構(gòu)向量y,即。其中W(1)和W(2)分別表示輸入到隱藏層及隱藏層到輸入的權(quán)重;b(1)和b(2)分別表示隱藏層單元和輸出層單元的基;f(·)表示隱藏層單元的激活值,一般選用sigmoid函數(shù);g(·)表示輸出單元的激活值,一般設(shè)置為g(x)=x。對(duì)SSAE每層訓(xùn)練即最小化該層損失函數(shù)J:
式中:x(i)表示第i個(gè)訓(xùn)練樣本,同時(shí)也是期望輸出;y(i)表示對(duì)應(yīng)預(yù)測(cè)輸出;m表示訓(xùn)練樣本的個(gè)數(shù);h表示隱藏層單元的個(gè)數(shù)。相對(duì)熵懲罰項(xiàng)是為了增強(qiáng)隱藏層的稀疏度,參數(shù)表示第j個(gè)隱藏單元在訓(xùn)練集上的平均激活度,而ρ表示稀疏度參數(shù),其值接近0,采用反向傳播算法進(jìn)行訓(xùn)練。
建立并訓(xùn)練SSAE后,隱藏層單元的激活度可作為下一層的輸入。逐層訓(xùn)練SSAE的每一層,一旦SSAE的每一層都訓(xùn)練好,則編碼器參數(shù)W和b可用于構(gòu)建網(wǎng)絡(luò)。
1.2 Huffman-LBP
為實(shí)現(xiàn)關(guān)于灰度任何單調(diào)變換的不變性,LBP僅考慮對(duì)比度值的符號(hào)[26],而LBP的這種屬性有時(shí)會(huì)導(dǎo)致意想不到的混亂,致使兩組不同的圖像紋理進(jìn)行LBP編碼后得到相同的結(jié)果?;舴蚵幋a通常用于無(wú)損數(shù)據(jù)壓縮[27],然而很少有研究人員將霍夫曼編碼應(yīng)用于特征提取。為了解決LBP紋理信息丟失的問題,文獻(xiàn)[25]首先采用霍夫曼編碼對(duì)對(duì)比度值進(jìn)行加權(quán),以補(bǔ)充豐富的紋理信息,這種新方法被稱為Huffman-LBP。
霍夫曼編碼使用可變長(zhǎng)度碼字實(shí)現(xiàn)對(duì)源碼元的編碼,根據(jù)頻率確定編碼。頻率較大的符號(hào)將用較少的位表示,即在霍夫曼樹中,接近根節(jié)點(diǎn)的葉節(jié)點(diǎn)頻率較小;遠(yuǎn)離根節(jié)點(diǎn)的葉節(jié)點(diǎn)頻率較大。此外,每個(gè)葉節(jié)點(diǎn)霍夫曼碼的長(zhǎng)度與葉節(jié)點(diǎn)和根節(jié)點(diǎn)之間的距離一致?;舴蚵鼧?,以gt-gc(t=0, 1, ..., p-1)的絕對(duì)值作為每個(gè)葉節(jié)點(diǎn)的頻率,得到相應(yīng)的霍夫曼碼,根據(jù)代碼長(zhǎng)度,度量對(duì)比度值的權(quán)重。
圖1所示為Huffman-LBP計(jì)算過程,從Huffman-LBP編碼過程中可知Huffman-LBP包含正值和負(fù)值,它們表示對(duì)比度值的符號(hào)信息。且霍夫曼編碼可以測(cè)量周圍像素之間相對(duì)精確的重量關(guān)系。使用新穎的編碼規(guī)則后,對(duì)比度值的符號(hào)不再是唯一的編碼對(duì)象,對(duì)比度值的大小也將在編碼過程中發(fā)揮作用。從圖1可以看出,通過補(bǔ)充對(duì)比度值的權(quán)重信息可以提高LBP的辨別能力。雖然兩組不同的圖像紋理具有相同的二進(jìn)制編碼(s+和s-),但使用Huffman-LBP編碼后它們會(huì)得到不同的特征值。
此外,一些LBP的改進(jìn)算法可通過在編碼過程中補(bǔ)充對(duì)比度值的評(píng)估來實(shí)現(xiàn)更好的性能識(shí)別,但必須考慮參數(shù)優(yōu)化設(shè)置問題,例如選擇LTP閾值和設(shè)置LMLCP層數(shù)將嚴(yán)重影響最終的識(shí)別結(jié)果,而霍夫曼編碼將自動(dòng)評(píng)估對(duì)比度值的權(quán)重,其優(yōu)勢(shì)在于其非交互性屬性,這意味著它可以靈活工作。Huffman-LBP直方圖可以通過累加像素的Huffman-LBP值來獲得,然后將其用作模式特征來分類人臉圖像。
1.3 本文算法
本文提出一種融合深度SAE及空頻域的多LBP特征算法(SAE_MLBP)以解決單樣本人臉識(shí)別問題,算法流程如圖2所示。
設(shè)通用樣本集為,其中l(wèi)為通用樣本集中樣本的個(gè)數(shù);訓(xùn)練樣本集為,其中c為訓(xùn)練樣本集中樣本個(gè)數(shù),即類別數(shù)。
首先,利用通用訓(xùn)練集訓(xùn)練一個(gè)包含3個(gè)隱藏層的SAE網(wǎng)絡(luò),然后利用訓(xùn)練出來的SAE網(wǎng)絡(luò)提取訓(xùn)練樣本和測(cè)試樣本SAE特征,設(shè)樣本Ti通過SAE網(wǎng)絡(luò)提取的特征為x1i,將所有樣本的SAE特征組合起來構(gòu)成自編碼特征字典,記為字典1,對(duì)應(yīng)的測(cè)試樣本特征為y1。
然后,將訓(xùn)練和測(cè)試樣本映射到頻域并分別提取空間域和頻域的多LBP特征,構(gòu)造對(duì)應(yīng)的特征字典和,即字典2和字典3,同時(shí)計(jì)算測(cè)試樣本多LBP特征y2和y3。
其次,利用CRC計(jì)算測(cè)試樣本在對(duì)應(yīng)字典下的表示系數(shù),并計(jì)算每一類識(shí)別得分,類表示系數(shù)高則表明測(cè)試樣本歸為該類的概率較大,因此每種情況下的類分?jǐn)?shù)計(jì)算如下:
最后,將各字典下各類的識(shí)別得分求和,得出最終得分值,并將測(cè)試樣本歸類為分值最高的類。
2 實(shí)驗(yàn)
2.1 AR數(shù)據(jù)庫(kù)
為驗(yàn)證算法性能,在數(shù)據(jù)集AR上進(jìn)行測(cè)試,并與時(shí)域LBP算法(SLBP_CRC)、頻域LBP(FLBP_CRC)算法作對(duì)比。
首先在AR數(shù)據(jù)庫(kù)上測(cè)試各算法的性能,選擇前1~30人的每人13張圖像作為通用訓(xùn)練集,其余90人從V1~V7中選擇一張圖像作為訓(xùn)練樣本。測(cè)試分為如下3種情況:
(1)無(wú)遮擋情況下每人選取前7張照片中除訓(xùn)練樣本外的其余6張作為測(cè)試樣本,即測(cè)試樣本數(shù)量為90×6=540;
(2)每人選取3張墨鏡遮擋圖像作為測(cè)試樣本,即測(cè)試樣本數(shù)量為90×3=270;
(3)每人選取三張圍巾遮擋圖像作為測(cè)試樣本,即測(cè)試樣本數(shù)量為90×3=270。
每組實(shí)驗(yàn)分別選取不同的樣本作為訓(xùn)練樣本,運(yùn)行7次,計(jì)算平均結(jié)果作為最終的測(cè)試結(jié)果,見表1所列。
從表1的結(jié)果可以看出,與ESRC算法及SAE特征相比,本文算法聯(lián)合空頻域并融合深度自編碼網(wǎng)絡(luò)提取的特征可有效提高算法的識(shí)別率。圖3記錄了不同訓(xùn)練樣本下本文算法的識(shí)別率,可以看出,當(dāng)訓(xùn)練樣本為每類的V3時(shí),識(shí)別率均下降,而將每類的V5作為訓(xùn)練樣本時(shí),識(shí)別率較高。觀察V3,V5樣本可以發(fā)現(xiàn),與其他樣本相比V3樣本中眼睛張開程度較小,V5則更接近自然狀態(tài)下的樣本。V2和V4也含有表情變化但大部分表情信息體現(xiàn)在嘴部變化,由此可知眼睛在人臉識(shí)別中包含重要的判別性信息??谡终趽醯淖R(shí)別率明顯低于墨鏡遮擋的識(shí)別率,說明遮擋比例過大時(shí)人臉判別性信息丟失較為嚴(yán)重。
與ESRC算法相比發(fā)現(xiàn)本文在墨鏡遮擋識(shí)別情況下可有效提高算法的識(shí)別率,說明本文算法能夠有效提取眼部之外的信息。而其他兩種情況下,相比于ESRC算法,本文算法的識(shí)別率亦有大幅提高。AR數(shù)據(jù)庫(kù)上不同訓(xùn)練樣本下本文算法的識(shí)別率如圖4所示。
為進(jìn)一步分析本文算法與ESRC算法性能,本文將兩種算法的運(yùn)行時(shí)間進(jìn)行比較,發(fā)現(xiàn)本文算法的運(yùn)行時(shí)間遠(yuǎn)低于ESRC算法的運(yùn)行時(shí)間。因SAE網(wǎng)絡(luò)可利用通用訓(xùn)練樣本集提前訓(xùn)練好,因此本文不考慮SAE網(wǎng)絡(luò)的訓(xùn)練時(shí)間。不同訓(xùn)練樣本下,本文算法與ESRC算法運(yùn)行時(shí)間如圖5所示。
2.2 PIE數(shù)據(jù)庫(kù)
PIE數(shù)據(jù)庫(kù)包含68個(gè)人5種視角下的人臉圖片,每個(gè)視角下的圖像還包含光照及表情變化,姿勢(shì)1共包含49張圖像,姿勢(shì)2共包含24張圖像,姿勢(shì)3共包含24張圖像,姿勢(shì)4共包含49張圖像,姿勢(shì)5共包含24張圖像。部分PIE實(shí)例如圖6所示,可見該數(shù)據(jù)庫(kù)進(jìn)行人臉識(shí)別測(cè)試面臨的主要挑戰(zhàn)是姿勢(shì)變換,其次為光照及表情變化。
[14] LU J,TAN Y P,WANG G. Discriminative multimanifold analysis for face recognition from a single training sample per person [J]. IEEE transactions on pattern analysis and machine intelligence,2013,35(1):39-51.
[15] ZHANG D,CHEN S,ZHOU Z H. A new face recognition method based on SVD perturbation for single example image per person [J]. Applied mathematics and computation,2005,163(2):895-907.
[16] GAO Q X,ZHANG L,ZHANG D. Face recognition using FLDA with single training image per person [J]. Applied mathematics and computation,2008,205(2):726-734.
[17] WANG J,PLATANIOTIS K N,LU J,et al. Venetsanopoulos,On solving the face recognition problem with one training sample per subject [J]. Pattern recognition,2006,39(9):1746-1762.
[18] DENG W,HU J,GUO J. In defense of sparsity based face recognition [C]// Proceedings of CVPR,2013:399-406.
[19] JI H K,SUN Q S,JI Z X,et al. Collaborative probabilistic labels for face recognition from single sample per person [J]. Pattern recognition,2017,62:125-134.
[20] ZHANG P,YOU X,OU W,et al. Sparse discriminative multi-manifold embedding for one-sample face identification [J]. Pattern recognition,2016,52:249-259.
[21] GOTTUMUKKAL R,ASARI V K. An improved face recognition technique based on modular PCA approach [J]. Pattern recognition letters,2004,25(4):429-436.
[22] CHEN S,LIU J,ZHOU Z H. Making FLDA applicable to face recognition with one sample per person [J]. Pattern recognition,2004,37(7):1553-1555.
[23] YAN H,LU J,ZHOU X,et al. Multi-feature multi-manifold learning for single-sample face recognition [J]. Neurocomputing,2014,143:134-143.
[24] ZHU P,YANG M,ZHANG L,et al. Local generic representation for face recognition with single sample per person [C]// Proceedings of ACCV,2014:34-50.
[25] L F ZHOU ,Y W DU,W S LI,et al. Pose-robust face recognition with Huffman-LBP enhanced by divide-and-rule strategy [J]. Pattern recognition,2018,78:43-55.
[26] AHONEN T,HADID A,PIETIK?INEN M. Face description with local binary patterns:application to face recognition [J]. IEEE trans. pattern anal. mach. Intel,2006,28(12):2037-2041.
[27] KAVOUSIANOS X,KALLIGEROS E,NIKOLOS D. Optimal selective Huffman coding for test-data compression [J]. IEEE trans. comput.,2007,56(8):1146-1152.