胡 曉,廖啟欣,彭紹湖
(廣州大學(xué)機(jī)械與電氣工程學(xué)院,廣東廣州 510006)
單訓(xùn)練樣本視頻監(jiān)控俯視人臉識(shí)別研究
胡 曉,廖啟欣,彭紹湖
(廣州大學(xué)機(jī)械與電氣工程學(xué)院,廣東廣州 510006)
近年來視頻監(jiān)控已普遍應(yīng)用于各行各業(yè),因此基于監(jiān)控視頻人臉識(shí)別也成為了智能監(jiān)控系統(tǒng)中重要的研究領(lǐng)域.然而,由于監(jiān)控視頻人臉通常是非正面人臉,傳統(tǒng)性能優(yōu)良算法應(yīng)用于視頻人臉識(shí)別時(shí),其性能也明顯降低.同時(shí),單張訓(xùn)練人臉問題在監(jiān)控視頻人臉檢測(cè)和識(shí)別是一個(gè)普遍問題.因此為了能有效地提高單訓(xùn)練多姿態(tài)人臉識(shí)別的正確識(shí)別率,文章提出了一種基于三維建模技術(shù)的人臉識(shí)別算法.該算法先由一張二維高清正面人臉生成一個(gè)三維人臉模型,然后再進(jìn)一步在該三維人臉空間里產(chǎn)生多種姿態(tài)的人臉模型,并由此獲得多張相應(yīng)姿態(tài)下的二維虛擬人臉,最后利用原始正面樣本和所得到的虛擬人臉來構(gòu)筑訓(xùn)練人臉庫.該算法用SCface視頻監(jiān)控人臉庫中加以驗(yàn)證,與傳統(tǒng)的PCA和LDA算法相比,該算法對(duì)監(jiān)控視頻人臉的識(shí)別率提高了13%.由此表明,文章介紹的算法是一種有效的人臉識(shí)別算法,能有效地提高對(duì)俯視人臉的識(shí)別率.
三維建模;單訓(xùn)練樣本;視頻監(jiān)控;PCA;LDA
視頻監(jiān)控作為安全防范系統(tǒng)的重要組成部分,已被廣泛應(yīng)用于區(qū)域防盜、公安偵破、日常監(jiān)控等領(lǐng)域當(dāng)中.隨著對(duì)安保需求的不斷提高,具備能在對(duì)象不知情的情況下進(jìn)行人臉識(shí)別的智能視頻監(jiān)控將是未來的發(fā)展趨勢(shì).然而,視頻監(jiān)控環(huán)境條件復(fù)雜,通常帶有圖像分辨率低、光照變化、姿態(tài)不可控等條件影響,這使得視頻監(jiān)控人臉識(shí)別變得困難.對(duì)于多姿態(tài)問題,因?yàn)橐曨l監(jiān)控?cái)z像頭一般被固定在距離地面2~3 m的位置,當(dāng)人距離攝像頭垂直距離較遠(yuǎn)時(shí),人臉較小,但當(dāng)距離近時(shí),卻是俯視的角度,攝像頭所捕捉到的人臉圖像也不再是正面人臉.針對(duì)這個(gè)問題,WANG等[1]提出了一種基于ASM構(gòu)建的算法實(shí)現(xiàn)姿態(tài)不變性,HASAN等[2]則利用了不同顏色通道的概率分布函數(shù)算法實(shí)現(xiàn)多姿態(tài)下的人臉識(shí)別.
除此之外,由于實(shí)際應(yīng)用中通常每一個(gè)人只有一張采集于公安居民戶口系統(tǒng)的高分辨率訓(xùn)練圖像,因此已經(jīng)相當(dāng)完善的多組訓(xùn)練人臉識(shí)別算法并不適用,所以如何解決單一訓(xùn)練樣本的難題就成了人臉識(shí)別的一個(gè)關(guān)鍵.在此之前,HU等提出了一種不同角度水平旋轉(zhuǎn)的單一樣本變多樣本的方法[3].XU等提出了基于對(duì)稱人臉的鏡像算法來獲得多個(gè)樣本[4].這些算法對(duì)正面測(cè)試人臉有良好的性能,然而在視頻監(jiān)控中,由于監(jiān)控?cái)z像頭通常安裝在高處,以至于在測(cè)試人臉中存在許多俯視人臉,其結(jié)果導(dǎo)致上述算法性能降低.
為此,本文利用3D建模技術(shù)從單張高清正面人臉構(gòu)建虛擬的俯視人臉用來訓(xùn)練分類器,以提高視頻人臉識(shí)別系統(tǒng)對(duì)俯視人臉的魯棒性.
攝像頭采集圖像時(shí),現(xiàn)實(shí)的三維空間中任意一個(gè)曲面都會(huì)最終投影到與之相對(duì)應(yīng)的二維圖像里,對(duì)于平行曲面上的無數(shù)點(diǎn)都將會(huì)重疊映射在二維圖像的同一個(gè)位置點(diǎn),從而構(gòu)成一組畫面.實(shí)際上通過攝像頭將三維空間投影到二維圖像是一種多對(duì)一的映射關(guān)系[5].因此,在攝像頭定標(biāo)后由已知三維點(diǎn)可以求得二維圖像中唯一的對(duì)應(yīng)點(diǎn).但與此相反,已知二維圖像中的一個(gè)點(diǎn)要得到其三維空間中對(duì)應(yīng)點(diǎn)的位置就成了一對(duì)多的關(guān)系,這時(shí)就必須還要知道三維空間點(diǎn)間的一個(gè)曲面關(guān)系才可以確定其唯一的對(duì)應(yīng)點(diǎn).
三維技術(shù)構(gòu)建虛擬訓(xùn)練樣本算法是由一張已知的二維正面人臉圖像通過三維構(gòu)建的方法,將二維圖像變換到三維空間中,從而形成三維人臉模型,然后在此基礎(chǔ)上產(chǎn)生不同姿態(tài)下的人臉模型,從而獲得與之相對(duì)應(yīng)的不同姿態(tài)二維人臉圖像.3D建模算法和流程見圖1.本文采用名為FaceGen Modeller的3D建模軟件(http://facegen. com/products.htm)實(shí)現(xiàn)由2D人臉建模成3D人臉.其關(guān)鍵步驟分為3步:①特征點(diǎn)標(biāo)注、3D人臉模型的選擇和紋理粘貼.當(dāng)輸入一張2D人臉時(shí),通過手工方式標(biāo)注11個(gè)特征點(diǎn),它們是兩只眼睛中心、鼻翼兩邊、耳朵的垂直中心與臉頰的交接處各1點(diǎn)、2個(gè)嘴角處、脖子(位于脖子和臉頰連接點(diǎn))和下巴(臉部最下面的邊緣點(diǎn));②從3D人臉模型庫中選擇一個(gè)與該對(duì)象在年齡、性別等屬性上相符的3D人臉網(wǎng)格模型;③將2D紋理特征依據(jù)11個(gè)特征點(diǎn)的坐標(biāo)關(guān)系粘貼到3D人臉模型上形成3D人臉,最終得到對(duì)應(yīng)的二維虛擬人臉圖像,見圖2.
圖1 三維技術(shù)構(gòu)建虛擬訓(xùn)練樣本算法Fig.1 Algorithm to create more virtual training sample
圖2 圖像預(yù)處理Fig.2 Example image after pre-processing
本文使用SCface視頻監(jiān)控人臉數(shù)據(jù)庫圖像進(jìn)行實(shí)驗(yàn)[6].該數(shù)據(jù)庫中,一共有130個(gè)人,人距離視頻監(jiān)控?cái)z像頭的垂直距離有3種,它們分別是4.2 m、2.6 m和1.0 m,而5個(gè)視頻監(jiān)控?cái)z像頭距離地面的高度均為2.25 m.本次實(shí)驗(yàn)是基于4G內(nèi)存的32位Win7操作系統(tǒng)配AMD Phenom(tm)II X4 965 3.4GHz處理器的平臺(tái)上,用MATLAB 2010b完成的.
2.1 圖像預(yù)處理
為了減少攝像時(shí)訓(xùn)練和測(cè)試人臉雙眼不一致造成的影響,所有圖像都經(jīng)過旋轉(zhuǎn)歸一化處理.首先,將彩色圖像轉(zhuǎn)換為灰度圖像.然后以雙眼坐標(biāo)為基準(zhǔn)線進(jìn)行旋轉(zhuǎn)整個(gè)人臉圖像,使得雙眼在同一條水平線上,見圖2(a).隨后采用雙橢圓模板構(gòu)建的人臉圖像分割框?qū)φ掌械娜四樳M(jìn)行分割,見圖2(b).接下來,將分割出來的人臉經(jīng)過縮放大小為64×64圖像,控制雙眼距離為32個(gè)像素,而且規(guī)定左眼坐標(biāo)為(16,16)和右眼坐標(biāo)為(16,48).最后為了減少光照差異性帶來的影響,將圖像經(jīng)過直方圖均衡化處理,并將像素值歸一化到[0,255]范圍之內(nèi).預(yù)處理后的圖像見圖2(c).
2.2 實(shí)驗(yàn)方案
本實(shí)驗(yàn)采用了SCface視頻監(jiān)控人臉數(shù)據(jù)庫中的高清正面人臉作為單一訓(xùn)練樣本,利用每人一張的高清正面人臉圖像,對(duì)130個(gè)人的人臉進(jìn)行了三維技術(shù)建模,然后由模型獲得3張不同姿態(tài)的人臉圖像和原始正面樣本結(jié)合作為訓(xùn)練集,見圖3.圖3(a)表示每個(gè)人用來訓(xùn)練的人臉只有1張高清人臉.圖3(b)表示每個(gè)人用來訓(xùn)練的人臉由1張高清人臉和1張俯視低角度虛擬人臉組成.圖3(c)表示每個(gè)人用來訓(xùn)練的人臉由1張高清人臉和2張俯視低角度虛擬人臉組成.
同時(shí),使用數(shù)據(jù)庫中3種距離的5個(gè)視頻監(jiān)控頭采集到的人臉圖像作為測(cè)試集,見圖4.所有圖像經(jīng)過預(yù)處理后分別使用PCA和LDA方法進(jìn)行識(shí)別.
2.3 實(shí)驗(yàn)結(jié)果
圖3 訓(xùn)練人臉圖像Fig.3 Example of gallery set
實(shí)驗(yàn)結(jié)果見圖5,①3種情況下(分別是1張訓(xùn)練樣本、2張訓(xùn)練樣本和3張訓(xùn)練樣本)本文所提出的基于虛擬俯視人臉的PCA算法獲得的結(jié)果比文獻(xiàn)[6]中使用PCA得到的結(jié)果都要高,提高了13%;②LDA比PCA所得到的識(shí)別效果好;③隨著虛擬訓(xùn)練樣本圖像數(shù)目的增加,正確識(shí)別率也隨之升高.另一方面,監(jiān)控人與攝像頭之間距離2.60 m的情況下比其他兩種距離都獲得更好的識(shí)別結(jié)果,分析其原由存在2個(gè)方面:①在該距離監(jiān)控下的人臉在監(jiān)控?cái)z像頭的成像俯視角度不大,接近于正面人臉,為此獲得正面信息較多;②該距離相對(duì)于4.2 m,成像的空間分辨率較高.
圖4 測(cè)試人臉圖像[6]Fig.4 Example of probe set[6]
圖5 實(shí)驗(yàn)結(jié)果的正確識(shí)別率Fig.5 The experimental results of correct recognition rate
在人臉識(shí)別領(lǐng)域,很多傳統(tǒng)的人臉識(shí)別算法在多訓(xùn)練樣本下能夠獲得高性能,然而單張訓(xùn)練樣本在視頻監(jiān)控領(lǐng)域是一種常見現(xiàn)象[7].盡管采用3D建模技術(shù)將2D人臉建模成3D人臉,然后獲取不同姿態(tài)的人臉以增加訓(xùn)練樣本的數(shù)目,然而這種技術(shù)目前僅局限用在高清人臉識(shí)別研究中,在視頻監(jiān)控人臉識(shí)別研究中尚未發(fā)現(xiàn)有應(yīng)用,尤其是針對(duì)俯視人臉[8-10].為此,本文介紹了一種利用三維建模技術(shù)來構(gòu)造多虛擬俯視訓(xùn)練樣本的算法.從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn):這種算法能夠提高視頻人臉識(shí)別中俯視人臉的識(shí)別率,本文實(shí)驗(yàn)有13%的提高,是一種解決視頻監(jiān)控人臉識(shí)別中單訓(xùn)練樣本的有效方法.
參考文獻(xiàn):
[1] WANG Y,WU L F,TU L,et al.A face recognition method robust to pose variation[C]∥9th Internation Conference on Signal Proceeding,2008:1600-1603.
[2] HASAN D,ANBARJAFARI G.Pose invariant face recognition using probability distribution functions in different color channels[J].Sign Proc Lett IEEE,2008,25:537-540.
[3] HU X,YU W X,YA0J.Multi-oriented 2DPCA for face recognition with one training face image per person[J].J Comput Inform Syst,2010,6(5):1563-1570.
[4] XU Y,LI X L,YANG J,et al.Integrate the original face image and its mirror image for face recognition[J].Neurocomputing,2014,131:191-199.
[5] ZHANG Z.A fexible new technique for camera calibration[J].IEEE Transact Patt Anal Mach Intell,2000,22(11):1330-1334.
[6] MISLAV GRGIC,KRESIMIR D,SONJA G.SCface-surveillance cameras face database[J].Multimed Tools Appl,2011,51:863-879.
[7] HU X,PENG S H,YAN J Y,et al.Fast face detection based on skin color segmentation using single chrominance Cr[C]∥The 2014 7th International Congress on Image and Signal Processing,2014:789-794.
[8] HU X,YU W X,YA0J.Face recognition using binary structure-based feature selection[J].J Appl Sci,2010,28(3):271-275.
[9] MODEL V B,THOMAS V.Face recognition based on fitting a 3D morphable[J].IEEE Transact Patt Anal Mach Intell,2003,9(25):1063-1074.
[10]ALI M,HOSSEIN M,KARIM F.Real-time pose-invariant face recognition by triplet pose sparse matrix from only a single image[C]∥International Conference on Pattern Recognition(ICPR),2014:465-470.
Video surveillance face recognition by single training sample
HU Xiao,LIA0Qi-xin,PENG Shao-hu
(School of Mechanical Electrical Engineering,Guangzhou University,Guangzhou 510006,China)
Video surveillance has more and more been applied in recent years for security,video-based face recognition therefore became an important task in intelligence monitoring system.However,among these captured video faces there are many non-frontal faces.As a result the art of state algorithms would become worse. On the other hand,only one training sample could usually be got.In order to effectively improve the correct recognition rate of multi-pose face recognition with single frontal training sample,this paper proposed a face recognition algorithm based on 3D modelling.In the proposed algorithm,firstly a 2D frontal face with high-resolution was taken to build a 3D face model,and then several virtual faces with different poses were produced from the 3D face model.At last,both the original frontal face image and virtual face images were put into gallery set. The algorithm was evaluated on SCface database using traditional PCA and LDA methods.The result showed that the proposed approach could effectively improve recognition rate of looking-down faces.
3D modeling;single training sample;video surveillance;PCA;LDA
TP 391.41
A
【責(zé)任編輯:陳 鋼】
1671-4229(2015)05-0067-04
2015-06-17;
2015-09-06
廣東省自然科學(xué)基金資助項(xiàng)目(S2013010013511);廣州市科技計(jì)劃資助項(xiàng)目(2014J4100127)
胡 曉(1969-),男,教授,博士.E-mail:huxiao@gzhu.edu.cn