曾青松(廣州番禺職業(yè)技術(shù)學(xué)院信息工程學(xué)院,廣州 511483)
基于群正則化相似性度量的人臉識別方法
曾青松
(廣州番禺職業(yè)技術(shù)學(xué)院信息工程學(xué)院,廣州511483)
安全監(jiān)控應(yīng)用中,受光照、陰影和運動模糊等影響,通過人臉檢測算子檢測到的圖像可能包含不完整的人像信息,嚴重影響到識別的精度。提出一種人臉選擇算法,從給定的候選人像集合中選擇一個高質(zhì)量人像的子集,然后應(yīng)用基于集合的人像識別算法進行識別,有效地提高識別的精度。在公開的人臉識別數(shù)據(jù)庫Honda/UCSD和ChokePoint的實驗結(jié)果顯示,使用子集選擇的算法能明顯提高現(xiàn)有基于集合的人像識別算法的精度。
人臉識別;局部二值模式;集合匹配;子集選擇
廣東省自然科學(xué)基金(No.2015A030313807)
傳統(tǒng)的人臉識別方法主要基于少量高質(zhì)量的正面人臉圖像,隨著技術(shù)的發(fā)展,我們可以方便地獲取大量的人臉樣本。最近研究人員逐漸從基于單一圖像方法向多圖像的研究轉(zhuǎn)變,已經(jīng)取得初步的研究成果。在非限制條件下,如監(jiān)控環(huán)境、光照、姿態(tài)、表情等變化嚴重,這些變化導(dǎo)致不同實例的特征差異可能比不同身份的個體之間的特征差異更大,嚴重影響到識別結(jié)果?;诙鄨D像的方法,可以利通多張圖像提供的特征信息來消除因為某一特定因素變化而導(dǎo)致的差異。多圖像的方法能夠提供比傳統(tǒng)單一圖像的方法更多的鑒別信息,因此基于集合的方法可以有效地提升人臉識別的精確度。
高質(zhì)量的人臉圖像更有助于識別人的身份,尤其是正面的人臉圖像,但是在監(jiān)控環(huán)境中,攝像機獲取到視頻中人臉圖像不一定是連續(xù)的,并且質(zhì)量一般都不是非常理想,因此需要從這些視頻幀中挑選適合識別的圖像以提高識別的精度。
在基于圖像集合的人臉識別系統(tǒng)中,為解決光照、姿態(tài)、陰影等變化導(dǎo)致的識別率下降,通??梢园涯切┎畹膱D像作為異常的圖像排除在外[1],或者對圖像進行質(zhì)量評估,考慮對比度、尺度、信噪比等,把這些因子綜合融合成一個質(zhì)量分數(shù),根據(jù)這個評分,選擇一個子集[2]。但是,如何量化一張圖像的對比度、尺度、信噪比等因子對圖像質(zhì)量的影響,很難有一個統(tǒng)一的標準。
本文提出了一種圖像子集選擇方法,該方法利用一個預(yù)先選擇、特征良好的參考集合對查詢集合中的每一張圖像進行質(zhì)量評估,得到基于查詢命中概率的積分用于度量查詢集合中圖像的質(zhì)量。通過計算查詢集合中的每一張圖片與參考集合的距離得到查詢集合中每一張圖像的查詢命中概率。通過該概率來度量查詢集合中每一張圖像的質(zhì)量。在得到圖像子集之后,進一步提出一種對現(xiàn)有集合匹配方法正則化的技術(shù),通過正則化操作,最小化因為光照、姿態(tài)、表情等變化導(dǎo)致的人臉特征的不穩(wěn)定性。
一般來說,一個基于集合的人臉匹配系統(tǒng)包含人臉檢測與跟蹤、特征提取和分類器設(shè)計幾個模塊組成。首先,當被匹配人臉從視頻圖像中提取之后,通過幾何變換與查詢集中的人臉對齊,然后,通過重采樣人臉圖像被投影到一個子空間中,在這個子空間中與查詢集中的所有圖像進行比較,最后根據(jù)與最近鄰的距離來判斷是否匹配。
檢測到人臉之后,我們應(yīng)用特征提取算子獲取人臉圖像的特征值;然后獲得圖像的統(tǒng)計信息,利用這些統(tǒng)計信息,對獲取到的圖像集進行篩選,去除噪聲圖像的影響;最后定義一種基于參考集模型的相似性度量算法,采用最近鄰算法進行分類。
1.1特征選擇
在身份驗證系統(tǒng)中,LBP(Local Binary Pattern,LBP)[3]特征是表達和分析人臉表情非常有用的工具?;诰植坎罘肿兓姆较蚰J骄幋a(Local Derivative Pattern,LDP)[4]擴展了LBP,第n階LDP編碼了第n-1階的局部方向變化,它比只使用1階局部模式的LBP能抓住更多的細節(jié)。本文測試了基于密度網(wǎng)格模型的MBLBP(Multi-Block Local Binary Pattern,MBLBP)[5]和MBLDP(Multi-Block Local Derivative Pattern,MBLDP)[4]兩種特征。
1.2圖像子集選擇
對在各種物理條件(例如,變化的姿態(tài)、光照等)下得到的圖像集合,可以用低維的特征子集來逼近。人臉匹配的關(guān)鍵技術(shù)可以理解為尋找能夠匹配查詢圖像的最佳低維模型。樣本與模型直方圖的不相似性可以看做一次檢驗的擬合優(yōu)度[6],這可以通過非參數(shù)統(tǒng)計檢驗來度量。本文使用直方圖模型來描述人臉圖像特征,并使用Chi-square距離[7]來度量樣本與群之間的相似性。點x到參考集合Z中的某個樣本z之間的距離d(x,z,Z)定義為:
其中Z^=kNN(z,Z)表示樣本z在集合Z中的k近鄰子集。公式(1)定義的距離度量刻畫了兩個及兩個以上樣本以及兩個分類變量的關(guān)聯(lián)性,刻畫了多分類變量數(shù)據(jù)的擬合情況。如果僅僅采用最近鄰導(dǎo)致結(jié)果集中的幀的數(shù)量小于預(yù)定義的大小,我們繼續(xù)考慮第2近鄰,…,第k近鄰,…,直到圖像集合的大小達到預(yù)先設(shè)定的值[8]。
對于一般的人臉識別系統(tǒng)來說,高質(zhì)量的正面人臉圖像有助于提高系統(tǒng)的識別率。給定一張從攝像機中截取的畫面,通過人臉檢測算子檢測到的人臉圖像x,如何評估它有多像一張正臉,或者說這張人臉圖像的質(zhì)量如何?本文提出一個子集選擇模型[9],這個模型利用一個預(yù)先選擇的稱為背景約束集的參考集合[8],該集合包含多種條件下獲取的經(jīng)過選擇的具有正臉特征的人臉圖像構(gòu)成。通過計算這個參考集合中的每一張圖片與測試圖片集合之間的距離,來計算查詢集合被背景圖像查詢擊中的次數(shù)來度量該查詢集合中圖像的質(zhì)量。
給定測試集合X=[x1,x2,…,xm]和參考集合Z=[z1,z2,…,zn]。如果xi落在zj的X-集合k近鄰中,即xi∈knn(X,zj),我們稱元素xi被背景zj查詢命中。為得到最具有正臉特征的M張最好的圖像,提出一種簡單但是魯棒有效的方法:首先計算參考集合中每一張圖像在查詢集合中的K近鄰集合(查詢命中),然后將所有的被背景查詢命中的元素集中并計數(shù)統(tǒng)計,這樣得到一個被參考集合查詢擊中的次數(shù)統(tǒng)計,按照這個數(shù)據(jù)從大到小排序,得到一個候選子集。因為不是每一張圖像都會被參考集合查詢命中,因此一般來說該集合不會包含全部的圖像。最后,選取排在最前的M張圖像就是作為最終的子集。
決定兩張圖像x和y是表示同一個人還是兩個不同的人,簡單的,我們可以計算這兩張圖像之間的L1距離d(x,y)=‖x-y‖1,然后與一個經(jīng)驗閾值比較來作出決策。然而固定的閾值不能適應(yīng)于每一個人,為進一步的提高魯棒性,我們可以對這個距離進行正則化操作。群正則化[10]和群選擇[11]最初用于說話人身份驗證被提出來。最近,這個方法被用于人臉驗證[12],它使用查詢圖像和圖像集之間的匹配積分來自適應(yīng)調(diào)節(jié)最終的得分,提高多變化的圖像應(yīng)用中的魯棒性。
公式中的z是參考人臉集合A的圖像,這個集合通過人工選定的方法構(gòu)建一個全部都是人臉的圖像構(gòu)成,在使用過程中不斷的更新。這里假設(shè)參考集合A不會包含測試人的人臉圖像實例[13]。原始的正則化積分沒有充分利用標簽信息,因此它可以用于那些收集無標簽數(shù)據(jù)比較容易而收集有標簽信息非常困難的應(yīng)用場景。然而,當我們可以利用有標簽的信息時候,卻不能從這些標簽信息中受益。
考慮使用這些有標簽的信息[14],將集合A劃分為多個子集,Ai?A,i=1,2,…,n,j。每一個子集中的樣本具有相同的標簽信息,這個標簽信息可以是按照身份、光照、姿態(tài)變化等來劃分的。然后積分被重復(fù)計算多次,每一次只使用一個子集。定義的兩個圖像集合之間的距離為:
其中,距離set_dist(X,Y)可以是任何一個基于集合的距離函數(shù),如子空間之間的距離(Mutual Subspace Methods,MSM)[15],仿射子空間方法 (Affine Hull based Image Set Distance,AHISD)[16]。set_dist(X,Ai)與setdist (Y,Ai)估計在平均意義上兩個集合X,Y與參考集合Ai有多遠。如果外界條件的變化導(dǎo)致兩個集合之間的距離增加,那么它們到參考集合的距離也會跟著增加,目標函數(shù)試圖找到受外界環(huán)境影響最小的參考集合Ai。
本節(jié)我們討論在 HondaUCSD視頻數(shù)據(jù)庫和ChokePoint視頻數(shù)據(jù)庫上進行基于集合的人臉識別實驗,實驗環(huán)境:Intel Xeon E7-4807雙1.87GHz CPU(2× 6核)、64GB內(nèi)存、Windows Server 2008、64位MATLAB 2013a。
3.1數(shù)據(jù)集
Honda/UCSD數(shù)據(jù)集是用于做人臉識別和跟蹤的基準數(shù)據(jù)集,共包含19個人共59段視頻[17]。每個視頻包含人的不同姿態(tài)、表情變化,所有視頻均在室內(nèi)錄制,視頻的清晰度和光照條件都比較好,每個視頻包含300-500幀,并且被分割成多個視頻片段。本文使用P. Viola[18]靜態(tài)人臉檢測方法,逐幀檢測出人臉區(qū)域,每幀只包含一個人,從圖2給出了檢測結(jié)果可以看出檢測的人臉圖像的頭接近正面人像。
ChokePoint數(shù)據(jù)集主要為研究基于視頻的人臉匹配識別任務(wù)開發(fā)的數(shù)據(jù)庫[9]。該數(shù)據(jù)集包含入口1錄制的25個人的視頻和入口2錄制的29個人的視頻,錄制的時候進入入口和離開入口的動作分別錄制。每一個入口錄制的時候有3臺攝像機在不同的角度同時錄制,每個動作重復(fù)4次得到4個不同的視頻序列。
圖1 Honda/UCSD數(shù)據(jù)庫人臉示意圖
3.2比較的方法和設(shè)置
實驗中所有的視頻分成3組 (G0,G1與 G2),其中G0用于構(gòu)建參考集合,G1與G2分別用于訓(xùn)練和測試,實驗使用最近鄰分類器,并報告10次實驗的平均結(jié)果。使用Voila&Jones[18]人臉檢測算子檢測視頻中的人臉圖像,然后所有圖像轉(zhuǎn)換為灰度圖并被歸一到像素大小。
在Honda/UCSD數(shù)據(jù)集上,選擇16個人的視頻用于構(gòu)建訓(xùn)練集合(G1)和測試集合(G2),并使用剩余的18個人的視頻構(gòu)建參考集合(G0),這個集合在計算相似度積分的時候同時也當作參考集合。在ChokePoint數(shù)據(jù)庫上,所有的視頻被劃分為2組,分別用于訓(xùn)練和測試(G1和G2),并使用Honda/UCSD數(shù)據(jù)庫上構(gòu)建的參考集合G0,這個實驗中我們只選擇了入口1的進入和離開的視頻作為測試。
互子空間方法 (Mutual Subspace Method,MSM)[15]中,首先使用PCA保留95%的數(shù)據(jù)能量得到子空間的基,并使用最大的相關(guān)作為相似性。對于Multi-Block Local Binary Pattern和 Multi-Block Local Derivative Pattern,尺度參數(shù)設(shè)置為2,補丁的大小設(shè)置為16;計算LBP時,映射表大小選擇59個入口。在仿射子空間方法[16],我們使用其線性版本,參數(shù)C設(shè)置為0.98。
3.3實驗結(jié)果與分析
實驗測試了人臉識別問題在ChokePoint和Honda/ UCSD數(shù)據(jù)庫上的分類識別率和標準差。由于Honda/ UCSD數(shù)據(jù)庫大部分對象只有2段視頻因此只報告了識別率。根據(jù)本文提出的子集選擇算法,對每一段視頻選擇10張質(zhì)量最好的圖像作為最終的子集進行識別,同時與采用從原始視頻序列中隨機選擇10張圖像進行比較。
實驗對比結(jié)果在表1列出。橫向看表1,我們發(fā)現(xiàn),采用本章提出的子集選擇算法選擇子集比采用隨機算法選擇子集識別率要高10-20%,這也說明了本文提出的子集選擇算法能夠獲得更具鑒別能力的圖像子集。同時發(fā)現(xiàn),采用子集選擇算法得到的子集的識別實驗的標準差小于隨機實驗,這也說明了本文提出的選擇算法是穩(wěn)定的。
表1 人臉識別正確率(標準差)
本文設(shè)計了一個子集選擇算法并應(yīng)用于人臉識別問題,提高人臉識別的精度。這個算法基于一個大的參考集合,目前該算法工作良好,能夠自動從圖像集合中選擇一組高質(zhì)量的圖像子集,在公開的數(shù)據(jù)庫上的實驗結(jié)果表明,該方法可以用于自動構(gòu)建大規(guī)模的人臉數(shù)據(jù)庫,或者監(jiān)控環(huán)境下的人臉識別。目前的研究,我們通過手工選擇的方法構(gòu)建初始的參考集合,接下來,將從如何增量方式構(gòu)建參考集合,從一個初始集合中如何動態(tài)的更新參考集合,提高參考集合的鑒別能力,并在構(gòu)建大規(guī)模人臉數(shù)據(jù)庫的應(yīng)用角度做進一步的研究。
[1]Shan C.Face Recognition and Retrieval in Video[J].Video Search and Mining,Springer,2010∶235-260.doi∶10.1007/978-3-642-
12900-19.
[2]Nasrollahi K,Moeslund T B.Face Quality Assessment System in Video Sequences[J].Biometrics and Identity Management,Springer,2008∶10-18.doi∶10.1007/978-3-540-89991-42.
[3]Ojala T,Pietik?inen M,Harwood D.A Comparative Study of Texture Measures with Cassification Based on Featured Distributions[J]. Pattern Recognition,1996,29(1)∶51-59.doi∶10.1016/0031-3203(95)00067-4.
[4]Zhang B,Gao Y,Zhao S,et al.Local Derivative Pattern Versus Local Binary Pattern∶Face Recognition with High-Order Local Pattern Descriptor[J].IEEE Transactions on Image Processing,IEEE,2010,19(2)∶533-544.
[5]Liao S,Zhu X,Lei Z,et al.Learning Multi-scale Block Local Binary Patterns for Face Recognition[G].Advances in Biometrics,International Conference.Seoul,Korea∶Springer,2007,4642∶828-837.
[6]Guo Z,Zhang L,Zhang D,et al.Hierarchical Multiscale LBP for Face and Palmprint Recognition[C].Proceedings of the International Conference on Image Processing.Hong Kong,China∶IEEE,2010∶4521-4524.doi∶10.1109/ICIP.2010.5653119.
[7]Jin R,Wang S,Zhou Z.Learning a Distance Metric from Multi-Instance Multi-Label Data[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.2009∶896–902.doi∶10.1109/CVPRW.2009.5206684.
[8]Wolf L,Hassner T,Maoz I.Face Recognition in Unconstrained Videos with Matched Background Similarity[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs,CO,USA∶IEEE,2011∶529-534.doi∶10.1109/CVPR. 2011.5995566.
[9]Wong Y,Chen S,Mau S,et al.Patch-Based Probabilistic Image Quality Assessment for Face Selection and Improved Video-Based face Recognition[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshop.Colorado Springs,CO,USA∶IEEE,2011∶74-81.
[10]Finan R A,Sapeluk A T,Damper R I.Impostor Cohort Selection for Score Normalisation in Speaker Verification[J].Pattern Recognition Letters,1997,18(9)∶881-888.
[11]Zigel Y,Cohen A.On Cohort Selection for Speaker Verification[C].Eighth European Conference on Speech Communication andTechnology.Geneva,Switzerland∶ISCA,2003∶2977-2980.
[12]Sanderson C,Lovell B C.Multi-Region Probabilistic Histograms for Robust and Scalable Identity Inference[C].Advances in Biomet rics,Third International Conference,ICB 2009.Alghero,Italy∶Springer,2009.
[13]Wu Z,Ke Q,Sun J,et al.Scalable Face Image Retrieval with Identity-Based Quantization and Multi-Reference Re-ranking[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA∶IEEE,2010∶3469–3476.doi∶10.1109/CVPR.2010.5539976.
[14]Taigman Y,Wolf L,Hassner T.Multiple One-Shots for Utilizing Class Label Information[C].Proceedings of the British Machine Vision Conference.London,UK∶British Machine Vision Association,2009∶1-12.
[15]Yamaguchi O,F(xiàn)ukui K,Maeda K.Face Recognition Using Temporal Image Sequence[C].3rd International Conference on Face& Gesture Recognition.Nara,Japan∶IEEE Computer Society,1998∶318-323.
[16]Cevikalp H,Triggs B,Triggs W.Face Recognition Based on Image Sets[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA∶IEEE Computer Society,2010,365(2)∶2567-2573.doi∶10.1109/CVPR. 2010.5539965.
[17]Lee K-C,Ho J,Yang M-H,et al.Visual Tracking and Recognition Using Probabilistic Appearance Manifolds[J].Computer Vision and Image Understanding,Elsevier,2005,99(3)∶303-331.
[18]Viola P,Jones M J.Robust Real-Time Face Detection[J].International Journal of Computer Vision,Springer,2004,57(2)∶137-154.
Face Recognition;Local Binary Pattern;Image Set Matching;Subset Selection
Face Recognition Based on Cohort Normalization Similarity
ZENG Qing-song
(School of Information and Technology,Guangzhou Panyu Polytechnic,Guangzhou 511483)
In surveillance applications,face images captured with different illumination,shadowing,and motion blur over the sequence,the snapshot may contain non-face or incomplete face component.Addresses the problem of face recognition with an image set-based approach. The proposed method is more robust.It doesn't need an alignment of the face.It automatically selects high-quality images for face recognition during testing and training.Experimental results on the shared video database Honda/UCSD and ChokePoint show that the proposed framework method has been promising potential for use in the image set-based automatic face recognition applications.
1007-1423(2016)20-0054-05
10.3969/j.issn.1007-1423.2016.20.011
曾青松(1976-),男,湖南邵東人,副教授,博士,研究方向為模式識別與數(shù)據(jù)挖掘
2016-04-27
2016-07-10