張芳艷 王新 許新征
摘 要:提出使用結(jié)構(gòu)化遮擋編碼(SOC)結(jié)合極限學(xué)習(xí)機(jī)(ELM)的算法來處理人臉識(shí)別中的遮擋問題。首先,使用SOC去除圖像上的遮擋物,將遮擋物體與人臉分離開;同時(shí),通過局部性約束字典(LCD)來估計(jì)遮擋物的位置,建立遮擋字典和人臉字典。然后,將建立好的人臉字典矩陣進(jìn)行歸一化處理,并利用ELM對(duì)歸一化的數(shù)據(jù)進(jìn)行分類識(shí)別。最后,在AR人臉庫上進(jìn)行的仿真實(shí)驗(yàn)結(jié)果表明,所提方法對(duì)不同遮擋物和不同區(qū)域遮擋的圖像具有較好的識(shí)別率和魯棒性。
關(guān)鍵詞:人臉識(shí)別;遮擋;結(jié)構(gòu)化遮擋編碼;局部性約束字典;極限學(xué)習(xí)機(jī)
中圖分類號(hào):TP193
文獻(xiàn)標(biāo)志碼:A
AbstractAn algorithm combining Structured Occlusion Coding (SOC) with Extreme Learning Machine (ELM) was proposed to deal with the occlusion problem in face recognition. Firstly, the SOC was used to remove the occlusion from the image and separate the oclusion from the human face. At the same time, the position of the occlusion was estimated by the Local Constraint Dictionary (LCD), and an occlusion dictionary and a face dictionary were established. Then, the established face dictionary matrix was normalized, and the ELM was used to classify and identify the normalized data. Finally, the simulation results on the AR face database show that the proposed method has higher recognition rate and stronger robustness for different types of occlusions and images with different regions occluded.Key words:face recognition; occlusion; Structured Occlusion Coding (SOC); local constraint dictionary; Extreme Learning Machine (ELM)
0 引言
近年來,人臉識(shí)別技術(shù)在理論進(jìn)展和實(shí)際應(yīng)用中取得了很大的突破,已成為模式識(shí)別領(lǐng)域的前沿研究方向。但遮擋人臉圖像的識(shí)別問題在人臉處理過程中會(huì)經(jīng)常出現(xiàn),例如口罩、發(fā)型、墨鏡和帽子遮擋是十分常見的。如圖1所示(圖例選自occluded CASIA-WebFace dataset),這些遮擋對(duì)人臉的正確識(shí)別具有極大的干擾。而低秩表示[1]可以快速解決遮擋問題,它運(yùn)用了一種新型的迭代方法有效地提高了識(shí)別率和大面積圖像遮擋識(shí)別的魯棒性。文獻(xiàn)[2]提出了結(jié)構(gòu)性遮擋編碼和稀疏表示(Sparse Representation-based Classifier, SRC)[3]相結(jié)合的方法,巧妙地利用結(jié)構(gòu)化稀疏編碼處理圖像的遮擋問題。此外,長(zhǎng)短期記憶網(wǎng)絡(luò)自編碼器[4]也常用來解決面部遮擋問題,較好地提高了圖像降噪的魯棒性。但遮擋問題還是沒有得到完全解決。
在人臉識(shí)別領(lǐng)域中,有遮擋的人臉識(shí)別問題引起了學(xué)術(shù)界的廣泛關(guān)注。遮擋處理方法一般分為視頻中的遮擋處理和圖像中的遮擋處理方法。通常采用物體跟蹤方法處理動(dòng)態(tài)視頻中的遮擋問題,例如:文獻(xiàn)[5]提出了一種基于視頻監(jiān)控的跟蹤方法,自動(dòng)檢測(cè)并處理遮擋物;文獻(xiàn)[6]提出了一種新的物體跟蹤技術(shù),它可以跟蹤人們的動(dòng)態(tài)行為動(dòng)作,即使在較大的遮擋下也保持像素跟蹤分配,由于其魯棒性,已被用于室內(nèi)人們行為監(jiān)督的不同實(shí)驗(yàn)。圖像中的遮擋處理方法大致可分為五類:低秩表示法、圖像修復(fù)法、模糊分析、魯棒主成分分析法和結(jié)構(gòu)性遮擋編碼法。文獻(xiàn)[7-8]提出使用健壯低秩表示方法來解決帶遮擋的人臉識(shí)別問題,該方法主要結(jié)合了健壯性表示和誤差的低級(jí)估計(jì)。目前,文獻(xiàn)[9]提出了多尺度的分形編碼及重構(gòu)的圖像修復(fù)方法,對(duì)紋理圖像和有較大孔洞的圖像效果較好。文獻(xiàn)[10]提出一種基于模糊主分量分析方法對(duì)遮擋區(qū)域進(jìn)行檢測(cè)并恢復(fù)人臉區(qū)域,但是,模糊主分量分析法的計(jì)算量較大,對(duì)大區(qū)域的遮擋處理效果不理想。
低秩魯棒主成分分析[11]是一種主流的遮擋人臉特征提取方法,同時(shí)有用結(jié)構(gòu)性遮擋編碼結(jié)合稀疏表示分類[12-13]處理遮擋得到較好的效果。文獻(xiàn)[14]提出了一種新的非負(fù)稀疏表示方法,用于大規(guī)模數(shù)據(jù)庫的魯棒人臉識(shí)別;但是該算法計(jì)算量較大,結(jié)構(gòu)比較復(fù)雜。文獻(xiàn)[15]提出的遮擋字典方法對(duì)人臉識(shí)別的作用越來越重要,能夠有效地處理各種遮擋物,可區(qū)分非遮擋和遮擋區(qū)域的特征,并分別在字典的相應(yīng)部分進(jìn)行編碼。
文獻(xiàn)[16]將遮擋字典連接到原始字典來執(zhí)行遮擋編碼,通過尋找稀疏字典的方法,使得遮擋圖像成功地分解為面部圖像和遮擋圖像兩部分。遮擋人臉識(shí)別問題[17]是人臉識(shí)別技術(shù)邁向?qū)嵱玫淖顬殛P(guān)鍵的一步。如果要構(gòu)建一個(gè)完善的人臉識(shí)別系統(tǒng)就必須要解決遮擋問題。比如很常見的帽子、圍巾和太陽鏡等遮擋物。有時(shí),大面積的遮擋會(huì)嚴(yán)重破壞原始圖像的有關(guān)信息,導(dǎo)致圖像識(shí)別產(chǎn)生很大的偏差。文獻(xiàn)[18]提出了稀疏誤差和圖解模型的方法不斷迭代遮擋像素,最終顯示遮擋面具,利用馬爾可夫隨機(jī)場(chǎng)模型將空間連續(xù)性轉(zhuǎn)化為對(duì)訓(xùn)練圖像的稀疏表示的計(jì)算,從而準(zhǔn)確地找到遮擋區(qū)域。因此,如何把有遮擋的人臉圖像分離成人臉圖像和遮擋圖像,就具有重要的研究意義。
本文以遮擋人臉識(shí)別問題為出發(fā)點(diǎn),以解決實(shí)際場(chǎng)景中的遮擋人臉識(shí)別問題為目標(biāo),提出了基于結(jié)構(gòu)性遮擋編碼(Structured Occlusion Coding,SOC)的遮擋人臉圖像識(shí)別方法,并利用極限學(xué)習(xí)機(jī)(Extreme Learning Machine, ELM)對(duì)分離后的人臉進(jìn)行分類和識(shí)別,即用結(jié)構(gòu)化遮擋編碼和極限學(xué)習(xí)機(jī)(SOC-ELM)來處理局部遮擋問題。
在該方法中,面部圖像和遮擋圖像可以分別由字典的相應(yīng)部分表示,可以在復(fù)雜場(chǎng)景中實(shí)現(xiàn)更有效的分類效果。
1 理論基礎(chǔ)
1.1 局部性約束字典學(xué)習(xí)方法
局部性約束字典學(xué)習(xí)(Local Constraint Dictionary, LCD)[19],即在給定字典DH的情況下, xi可由該字典中各原子dj的線性組合近似表示,即xi=∑Kj=1cjidj,則點(diǎn)xi在d維空間的嵌入yi=g(xi)可以由dj在低維空間中的嵌入g(di)近線性表示,即:xj=∑Kj=1cjig(dj), 根據(jù)l2距離,為使上述兩個(gè)線性表示的誤差最小,關(guān)于DH和C=[c1,c2,…,cN],需要同時(shí)最小化如下兩式:
1.2 結(jié)構(gòu)化遮擋編碼
一張人臉圖像y被一個(gè)遮擋物v遮擋后的形式為u=y+v,違反了低維線性照明模型,導(dǎo)致SOC分類錯(cuò)誤。真實(shí)場(chǎng)景中的遮擋類別是可預(yù)測(cè)的,可以提前收集。受到文獻(xiàn)[2]啟發(fā)本文算法組成一個(gè)遮擋物體的子字典?可以看出,構(gòu)造出良好的字典能夠有效地處理各種遮擋,在實(shí)際場(chǎng)景中具有高度魯棒性。有遮擋的識(shí)別問題的公式如下:
當(dāng)數(shù)據(jù)逐漸增多時(shí),解決問題(1)是不可行的,即使有遮擋,也可以把最小殘差分配給樣本u, 組成了遮擋字典和干凈的人臉字典,得到的兩個(gè)字典對(duì)后續(xù)的去遮擋工作有相當(dāng)大的作用,這樣便把遮擋物和人臉分離,將分離后的人臉和原始人臉相比,像素值并沒有減小,組成的人臉字典更有利于后續(xù)的分類,本文在后續(xù)的實(shí)驗(yàn)中展示了識(shí)別結(jié)果。
1.3 極限學(xué)習(xí)機(jī)
極限學(xué)習(xí)機(jī)(ELM)[20]是一種新型的快速的單隱層神經(jīng)網(wǎng)絡(luò)[21]學(xué)習(xí)算法,可以隨機(jī)初始化輸入權(quán)重和偏置并得到相應(yīng)的輸出權(quán)重。該算法的特點(diǎn)是在網(wǎng)絡(luò)參數(shù)的確定過程中,ELM原理如圖3所示。如果一個(gè)具有L個(gè)隱層神經(jīng)元的單隱層神經(jīng)網(wǎng)絡(luò)可以零誤差逼近這N個(gè)互異的數(shù)據(jù)樣本。也就是說,存在ai、bi和βi(i=1,2,…,L),使
2.1 SOC-ELM模型結(jié)構(gòu)
訓(xùn)練階段不需在每個(gè)子字典上進(jìn)行詳盡的計(jì)算,就可以很容易地獲得被遮擋的圖像的身份并找出最好的遮擋估計(jì)。因文獻(xiàn)[18]中被遮擋的標(biāo)簽是事先給出的,通過標(biāo)簽的關(guān)聯(lián)就可以很容易地估計(jì)遮擋子字典。然而,在實(shí)際情況中,大多數(shù)遮擋圖像的標(biāo)簽是未知的,則文獻(xiàn)[18]算法就不可取。而本文算法對(duì)有標(biāo)簽和無標(biāo)簽圖像都適用。SOC-ELM模型結(jié)構(gòu)如圖4所示。
在該算法中,將圖像域視為一個(gè)圖,誤差e的支持向量被表示為z∈{0,1}m,zi=0表示無遮擋,zi=1表示有遮擋,圖像經(jīng)過SOC時(shí),時(shí)間復(fù)雜度為O(mn),用ELM對(duì)歸一化的圖像數(shù)據(jù)做分類時(shí),時(shí)間復(fù)雜度為O(n3),則此算法的時(shí)間復(fù)雜度為O(mn+n3)。
3 實(shí)驗(yàn)
實(shí)驗(yàn)在AR人臉數(shù)據(jù)集和CelebA數(shù)據(jù)集上進(jìn)行。通過與SOC-SVM和SOC-SOFTMAX進(jìn)行對(duì)比和分析,采用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和結(jié)構(gòu)相似性指數(shù)(Structural SIMilarity index, SSIM)兩個(gè)常用評(píng)價(jià)指標(biāo)來驗(yàn)證所提模型的有效性。
3.1 實(shí)驗(yàn)數(shù)據(jù)集
AR數(shù)據(jù)庫被廣泛用來做遮擋的處理,它包括126個(gè)人的4000多幅正面圖像。該數(shù)據(jù)庫中的圖像包括較多的面部表情變化和遮擋,例如光照變化、表情變化,墨鏡和圍巾遮擋,典型示例如圖5所示。
CelebA是香港中文大學(xué)的公開數(shù)據(jù),包含202599張10177個(gè)名人身份的圖像,所有這些圖像都有很好的標(biāo)記,是一個(gè)非常完整的面部相關(guān)訓(xùn)練數(shù)據(jù)集。圖片大小為(178,218,3),添加了相應(yīng)的遮擋,來模擬真實(shí)的遮擋情況。
在AR數(shù)據(jù)庫中選擇了50個(gè)男人和50個(gè)女人的圖像(其中每個(gè)人有26張圖片,14張普通圖片和6張戴圍巾的圖片),每張圖片大小為83×60。為每個(gè)人物選擇7張沒有任何偽裝的圖片,隨機(jī)構(gòu)造原始字典并用于測(cè)試。在戴墨鏡和圍巾的圖片中,隨機(jī)挑選10個(gè)人,共60張圖片來獲得遮擋模型,其他的則用于測(cè)試。最后,以識(shí)別率來評(píng)價(jià)算法的有效性,并與SOC-SOFTMAX和SOC-SVM模型進(jìn)行對(duì)比。在CelebA數(shù)據(jù)庫上,本文選擇了有代表性的3000張隨機(jī)遮擋的圖片,將這些圖片放入三種模型進(jìn)行實(shí)驗(yàn)。
3.2 實(shí)驗(yàn)結(jié)果分析
在AR人臉庫中,采用540張遮擋圖片作為訓(xùn)練人臉庫。用稀疏遮擋編碼分離其中戴墨鏡和戴圍巾的人臉。對(duì)分離后的人臉進(jìn)行歸一化,輸入到三個(gè)不同的分類器中進(jìn)行分類識(shí)別。首先測(cè)試了結(jié)構(gòu)化遮擋編碼(SOC),學(xué)習(xí)了60張墨鏡圖片的遮擋字典,并和原始圖片共同組成訓(xùn)練集,剩余的540張戴墨鏡的圖片用于測(cè)試。將去遮擋的圖像集歸一化處理,利用SVM、SOFTMAX和ELM分類器進(jìn)行識(shí)別,得到的結(jié)果如圖7~9所示。
此外,比較了9種不同迭代次數(shù)的識(shí)別準(zhǔn)確率,SOC-ELM的識(shí)別效果是最好的。從表1~2的實(shí)驗(yàn)結(jié)果還可以看出,算法的最佳迭代次數(shù)為50000。采用本文算法,使得分離人臉和遮擋物后識(shí)別人臉準(zhǔn)確率得到有效的提高。另外,相對(duì)于文獻(xiàn)[2]提出的SOC-SRC來說,本文方法大幅降低了計(jì)算時(shí)間,只有15~41s;同時(shí),可以看出在相同的迭代次數(shù)下,SOC-ELM表現(xiàn)出的效果明顯好于其他兩種算法。因而可以得出本文算法具有較好的穩(wěn)定性和實(shí)時(shí)性。
[8] OROUGHI H, SHAKERI M, RAY N, et al. Face recognition using multi-modal low-rank dictionary learning[C]// Proceedings of the 2017 IEEE International Conference on Image Processing. Piscataway: IEEE, 2017: 1081-1086.
[9] 唐嫻,黃軍偉.低秩魯棒性主成分分析的遮擋人臉識(shí)別[J].南京理工大學(xué)學(xué)報(bào),2017,41(4):460-465.(TANG W, HUANG J W. Occlusion face recognition based on low rank robust principal component analysis[J]. Journal of Nanjing University of Science and Technology, 2017, 41(4): 460-465.)
[10] 李晉江, 張彩明, 范輝, 等. 基于分形的圖像修復(fù)算法[J].電子學(xué)報(bào),2010,38(10):2430-2435.(LI J J, ZHANG C M, FAN H, et al. Fractal-based image restoration algorithm[J].Acta Electronica Sinica, 2010, 38(10): 2430-2435.)
[11] DING Z M, SUH S, HAN J, et al. Discriminative low-rank metric learning for face recognition[C]// Proceedings of the 2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Piscataway: IEEE, 2015: 1-6.
[12] DING X, LIU X, XU L. An optimization method of extreme learning machine for regression[C]// Proceedings of the 31st Annual ACM Symposium on Applied Computing. New York: ACM, 2016: 891-893.
[13] YANG M, ZHANG L, SHIU S, et al. Gabor feature based robust representation and classification for face recognition with Gabor occlusion dictionary[J]. Pattern Recognition, 2014, 46(7): 1559-1572.
[14] HE R, ZHENG W, HU B, et al. Two-stage nonnegative sparse representation for large-scale face recognition[J]. IEEE Transactions on Neural Networks and Learning Systems,2013, 24(1): 35-46.
[15] 朱明旱,李樹濤,葉華.稀疏表示分類中遮擋字典構(gòu)造方法的改進(jìn)[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)報(bào),2014,26(11):2064-2078.(ZHU M H, LI S T, YE H. Improvement of the construction method of occlusion dictionary in sparse representation classification[J].Journal of Computer-Aided Design & Computer Graphics, 2014, 26(11): 2064-2078.)
[16] SING Y, CHENG Y. Noise-resistant network: a deep-learning method for face recognition under noise[J]. EURASIP Journal on Image and Video Processing, 2017, 2017: Article number 43.
[17] ZHOU Y, BARNER K. Locality constrained dictionary learning for nonlinear dimensionality reduction[J]. IEEE Signal Processing Letters, 2013, 20(4): 335-338.
[18] ZHOU Z, WAGNER A, MOBAHI H, et al. Face recognition with contiguous occlusion using Markov random fields[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway: IEEE, 2009: 1050-1057.
[19] 劉麗娜,馬世偉,溫加睿.基于局部約束字典學(xué)習(xí)的數(shù)據(jù)降維和重構(gòu)方法[J].儀表儀器學(xué)報(bào), 2016, 37(1):99-108.(LIU L N, MA S W, WEN J R. Data dimension reduction and reconstruction method based on local constraint dictionary learning[J]. Journal of Instrument and Instrument, 2016, 37(1):99-108.)
[20] SASTRAWAHA S, HORATA P. Ensemble extreme learning machine for multi-instance learning[J]// Proceedings of the 9th International Conference on Machine Learning and Computing. New York: ACM, 2017: 56-60.
[21] 彭雙. 神經(jīng)網(wǎng)絡(luò)隱層節(jié)點(diǎn)的稀疏化[D]. 大連:大連理工大學(xué),2017:1-48.(PENG S. Sparseization of hidden nodes in neural networks [D]. Dalian: Dalian University of Technology, 2017:1-48.)
[22] PATHAK D, DONAHUE P, DARRELL T, et al. Context encoders: feature learning by inpainting[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2536-2544.
[23] YEH R, CHEN C, LIMT Y, et al. Semantic image inpainting with perceptual and contextual losses[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6882-6890.