李曉峰,游志勝
(四川大學計算機學院,成都 610065)
當前基于2D人臉識別方法主要能克服小姿態(tài)偏轉(zhuǎn)情況.但頭部的剛性旋轉(zhuǎn)角度過大會伴隨自遮擋效應(yīng),使得人臉大量細節(jié)特征信息丟失.姿態(tài)的變化也會導致面部紋理位置發(fā)生非線性變化,使得部分語義信息丟失.此外,姿態(tài)變化通常還會與其他干擾因素同時發(fā)生,如非均勻光照等,從而造成識別率極大降低.克服大姿態(tài)人臉識別面臨的挑戰(zhàn),已成為無約束場景下人臉識別技術(shù)研究的主要方向.
為了解決大姿態(tài)條件下人臉識別率低的問題,相關(guān)研究學者已經(jīng)提出了一系列解決方法,依據(jù)數(shù)據(jù)類別主要分為三大類:(1)基于二維可見光人臉的識別方法[1-6];(2)基于三維人臉的識別方法[7-9];(3)基于三維人臉對二維人臉的識別方法[10-12].二維可見光人臉圖像對姿態(tài)、光照[13, 14]等因素較為敏感,當人臉姿態(tài)超過一定范圍、圖像高曝光以及低光照場景,識別準確性會大幅下降.當前基于2D人臉識別的大姿態(tài)解決方案主要分為兩種,一種是通過姿態(tài)人臉生成正面人臉,之后對正面人臉進行特征提取和識別;另一種則是基于不變表征的學習方法.Zhang等[15]提出的解耦表征學習方法通過對比兩張圖片,剔除姿態(tài)、光照等與識別無關(guān)的因素,提取出具有姿態(tài)魯棒性的人臉特征.趙瀾濤等[16]提出基于雙路卷積神經(jīng)網(wǎng)絡(luò)的算法,通過將人臉投影到高維特征空間達到分離姿態(tài)信息的效果,從而對姿態(tài)人臉進行識別.Luan等[17]引入了生成對抗網(wǎng)絡(luò)到解耦表征學習框架中,通過生成器生成姿態(tài)人臉,通過判別器分類姿態(tài)人臉,從而提取出具有姿態(tài)魯棒性的人臉特征.鑒于三維人臉模型對姿態(tài)、光照等因素相對不敏感,能夠更加客觀地反應(yīng)人臉的幾何結(jié)構(gòu)信息,因此具備更強的身份判別能力,在識別準確率和魯棒性等方面都優(yōu)于二維人臉識別,使得三維人臉識別相對二維人臉識別占據(jù)很大優(yōu)勢.但僅靠三維人臉識別依然存在采集環(huán)境設(shè)備成本高、要求用戶配合程度高、數(shù)據(jù)處理算法復(fù)雜等多方面問題,相對于二維人臉識別面臨更多的應(yīng)用限制.相比而言,本文提出的方法僅僅利用3D人臉豐富的姿態(tài)信息,基于現(xiàn)有的深度人臉特征提取方法來提升大姿態(tài)人臉識別準確率,這可以很好地利用現(xiàn)有二維人臉識別的基礎(chǔ),降低三維人臉識別應(yīng)用的門檻,還可以充分利用三維人臉的全臉信息.
針對上述問題,本文提出一種基于3D-2D映射的大姿態(tài)人臉識別算法框架.該框架試圖挖掘三維人臉的豐富姿態(tài)信息來擴充訓練數(shù)據(jù),進而構(gòu)建特定姿態(tài)特征提取模型.因此提出方法主要優(yōu)勢如下:(1)利用三維人臉信息來輔助2D人臉模型訓練;(2)簡化模型設(shè)計的同時,不增加額外的訓練負擔,避免直接三維人臉特征提取的復(fù)雜工作.
本文提出的基于3D-2D映射的大姿態(tài)人臉識別算法框架如圖1所示.
圖1 基于3D-2D映射的大姿態(tài)人臉識別算法流程示意圖
圖1中的框架主要分為兩個階段:訓練階段和測試階段(模型推理階段).在訓練階段,該方法首先構(gòu)建多姿態(tài)人臉訓練數(shù)據(jù)庫.具體步驟是首先獲取三維人臉數(shù)據(jù),然后將三維人臉數(shù)據(jù)進行左右偏轉(zhuǎn)角、俯仰角等不同角度投影,得到不同姿態(tài)的二維人臉數(shù)據(jù)集.為建立魯棒性的姿態(tài)特征提取模型,需對獲取的豐富姿態(tài)進行姿態(tài)分類和分組,針對不同姿態(tài)數(shù)據(jù)集分別訓練得到相應(yīng)姿態(tài)人臉特征提取模型,最終得到多姿態(tài)人臉特征提取模型集合.在測試階段,輸入二維人臉圖像通過姿態(tài)估計算法得到姿態(tài)信息,利用姿態(tài)信息在多姿態(tài)人臉特征提取模型集合中進行相應(yīng)姿態(tài)模型選擇,用于將注冊的三維人臉模型按照姿態(tài)信息進行投影的二維紋理圖像和輸入圖像進行人臉特征提取,進而做特征比對和識別.
本文首先將三維人臉模型按照角度投影到二維圖像空間,之后基于二維多姿態(tài)人臉紋理識別模型進行人臉識別.因此,3D-2D人臉姿態(tài)數(shù)據(jù)生成是本文提出框架的重要組成部分.考慮到RGB圖像更符合視覺習慣且三維人臉模型投影到二維空間存在信息丟失的問題,本文采用多角度投影方法,將三維人臉模型按角度依次投影為多張不同視角的RGB圖像,分別是俯仰角(pitch),左右偏轉(zhuǎn)角(yaw).左右偏轉(zhuǎn)角范圍為[-90°,+90°]、俯仰角范圍為[-60°,+60°].
圖2 三維人臉坐標系
(1)
其中
(2)
(3)
(4)
(5)
像素點(ai,hi)的紋理值即:
img(ai,hi,1)=Ri,img(ai,hi,2)=Gi,
img(ai,hi,3)=Bi
(6)
(7)
則:
(8)
基于3D-2D人臉姿態(tài)數(shù)據(jù)生成結(jié)果如圖3所示.
圖3 基于3D-2D人臉姿態(tài)數(shù)據(jù)生成結(jié)果示例
通過基于3D-2D映射的多姿態(tài)人臉數(shù)據(jù)生成算法得到不同姿態(tài)的數(shù)據(jù)集,考慮到實際場景下人臉姿態(tài)分布等信息,將偏轉(zhuǎn)角劃分為以下7個區(qū)間:[-90°,-75°],[-75°,-60°],[-60°,-30°],[-30°,+30°],[+30°,+60°],[+60°,+75°],[+75°,+90°].俯仰角按照投影間隔為20°劃分為6個區(qū)間.因此,投影所得人臉數(shù)據(jù)共分42種姿態(tài)數(shù)據(jù)集.
本文采用輕量級模型LightCNN-9[18]進行人臉特征提取,該模型通過拓展maxout激活函數(shù),實現(xiàn)對噪聲的過濾和有用信號的保留,從而獲取更好的特征圖MFM(Max-Feature-Map).如圖4所示為本文采用的MFM2/1原理示意圖.與maxout激活函數(shù)不同的是,MFM使用足夠的隱藏神經(jīng)元來近似凸函數(shù),僅抑制少量神經(jīng)元使CNN模型變得輕小和健壯.MFM在CNN中起到類似生物中局部特征選擇的角色,在不同位置挑選不同濾波器學到最優(yōu)特征.雖然MFM層的梯度是稀疏的,但是伴有MFM的CNN可以獲得更緊湊的表征.MFM通過激活前面卷積層的特征圖最大值獲取更多富有競爭力的節(jié)點,所以MFM可以實現(xiàn)特征選擇并加速生成稀疏連接.
圖4 MFM 2/1通過競爭關(guān)系抑制神經(jīng)元原理圖
本文采用ArcFace[9,20]基礎(chǔ)上改進對特征向量歸一化和加性角度間隔,提高類間可分性,同時加強類內(nèi)緊度和類間差異.如式(9)所示,xi表示第i個樣本對應(yīng)的特征向量,屬于第yi類.Wj是權(quán)重矩陣W的第j列.輸入圖像的批量大小為N.θj是權(quán)重Wj和特征xi之間的角度,s為特征尺度,m為附加的角邊距懲罰項.
(9)
其中:
通過不同姿態(tài)數(shù)據(jù)集進行相應(yīng)的姿態(tài)人臉特征提取模型訓練,最終得到7個姿態(tài)人臉特征提取模型集合供后續(xù)人臉識別過程中的人臉特征提取選擇.
考慮到為了得到魯棒性的姿態(tài)人臉特征提取模型,本文劃分了不同的姿態(tài)范圍分別針對特定姿態(tài)進行模型訓練.考慮在實際模型部署過程中,同時用所有訓練好的模型進行特征提取和比對極度耗時,而且我們也很難利用已有的3D人臉信息.為此,本文構(gòu)建了一個基于姿態(tài)估計的大姿態(tài)人臉識別測試框架.該框架主要分為三部分:(1)待測試圖像姿態(tài)估計及模型選擇和特征提取;(2)3D注冊人臉模型特定姿態(tài)投影及模型選擇和特征提取;(3)人臉姿態(tài)特征比對及識別.
基于以上三個步驟,本文提出的大姿態(tài)人臉比對算法框架相對于常規(guī)的2D人臉特征比對框架而言,在不增加額外計算復(fù)雜的前提下,顯著提升人臉姿態(tài)識別的準確性,同時又極大利用了現(xiàn)有的三維人臉圖像信息.
考慮到本文提出的算法框架主要依賴于3D人臉數(shù)據(jù),而當前開源人臉識別數(shù)據(jù)集很難滿足實際的訓練要求.本文在訓練過程中構(gòu)建了一個混合3D-2D人臉識別數(shù)據(jù)庫Hybrid 3D+2D(Face Recognition DataSet,HFRD).在測試過程中為了分別評估本文提出的人臉識別算法框架的泛化性和有效性,本文分別在實驗室場景下和無約束自然場景下驗證所提算法框架的性能.進一步,本文分別構(gòu)建了約束場景下的人臉識別基準集(Constrained Face Recognition Ground-Truth DataSet,CFRGT)和無約束條件下的人臉識別基準集(Unconstrained Face Recognition Ground-Truth DataSet,UCFRGT).
(1)HFRD數(shù)據(jù)庫:該數(shù)據(jù)庫首先融合了1000個個體的高精度三維人臉數(shù)據(jù)以及對應(yīng)的多姿態(tài)二維人臉圖像,并按角度進行姿態(tài)類別分組.考慮到1000個訓練數(shù)據(jù)量嚴重不足,數(shù)據(jù)庫又融入了如300W-LP[21]和Multi-pie[22]等公開人臉數(shù)據(jù)集,并對這些公開人臉數(shù)據(jù)集的人臉姿態(tài)進行人工篩選、標記和分組.通過融合不同數(shù)據(jù)庫樣本圖像,同時采取數(shù)據(jù)增強來擴充人臉樣本數(shù)據(jù),最終達到共計1萬人的約50萬二維人臉紋理圖像訓練樣本.樣本如圖5所示.
圖5 HFRD數(shù)據(jù)樣本示例
(2)CFRGT數(shù)據(jù)庫:該數(shù)據(jù)庫在實驗室環(huán)境下采集,包含388個個體的高精度三維人臉數(shù)據(jù)信息和對應(yīng)的多角度二維人臉姿態(tài)圖像.其中,三維人臉圖像采用川大智勝公司的精度為0.1 mm的高精度三維人臉全臉照相機獲取,二維人臉姿態(tài)圖像采用相機弧度拍攝,收集人臉pitch和yaw角度方向人臉姿態(tài)信息,其中Pitch∈[-60°,+60°],yaw∈[-90°,+90°].該數(shù)據(jù)用于評估一定約束條件下的基于3D-2D映射的大姿態(tài)人臉識別算法的性能.數(shù)據(jù)樣本如圖6所示.
圖6 CFRGT數(shù)據(jù)樣本示例:(a)三維紋理投影圖像;(b)二維姿態(tài)圖像
(3)UCFRGT:該數(shù)據(jù)采集了107個個體的高精度三維人臉圖像信息和非約束條件下的二維人臉姿態(tài)圖像.其中,高精度三維人臉圖像采用川大智勝公司的高精度三維人臉全臉照相機獲取,無約束二維人臉圖像采集使用監(jiān)控攝像頭獲取,在動態(tài)監(jiān)控場景下隨機獲取每個注冊人臉的130張二維人臉姿態(tài)圖像.該數(shù)據(jù)用于評估非約束條件下的基于3D-2D映射的大姿態(tài)人臉識別算法的性能.數(shù)據(jù)樣本如圖7所示.
圖7 UCFRGT數(shù)據(jù)樣本示例:(a)三維紋理投影圖像;(b)實際場景抓拍圖像
針對本文提出的3D-2D人臉識別框架,區(qū)別于常規(guī)的人臉識別算法評估基準,本文采用了新的評估指標來衡量算法性能,即排序提升率、TOP-1和TOP-5命中率.其定義如下:
(1)排序提升率= 結(jié)果排前率-結(jié)果靠后率;
(2)結(jié)果排前率=結(jié)果排前總數(shù)/測試樣本總數(shù))*100%;
(3)結(jié)果靠后率=(結(jié)果靠后總數(shù)/測試樣本總數(shù))*100%.
采用排序提升率指標主要用來反映三維方法是否對結(jié)果排序產(chǎn)生了較大的影響,是否有改善整體的趨勢.該方法能夠有效地反映引入三維信息對人臉識別結(jié)果的改善程度.TOP-1和TOP-5命中率指標定義如下:
(1)TOP-1:輸入一張query圖像,該人在Rank1出現(xiàn),則視為命中;
(2)TOP-1命中率:命中總數(shù)/query總數(shù);
(3)TOP-5:輸入一張query進去,該人在Rank5或之前出現(xiàn),視為命中;
(4)TOP-5命中率:命中總數(shù)/query總數(shù).
為進一步比較提出方法的綜合性能,本文采用了人臉姿態(tài)魯棒性表征的識別方法作為對比方法.為方便后續(xù)介紹,本章提出的基于3D-2D映射的大姿態(tài)人臉識別(3D-2D Face Pose Robust Recognition,3D-2D_FPRR)作為基準算法,考慮到對比方法僅采用了2D人臉圖像來進行訓練,用2D_FPRR指代對比方法.
為進一步衡量算法對于不同姿態(tài)識別性能,本文對測試集進行了劃分.考慮人臉姿態(tài)yaw方向的變化對人臉影響最大,本文針對yaw方向姿態(tài)變化進行劃分為[-90°,-75°],[-75°,-60°],[-60°,-30°],[-30°,+30°],[+30°,+60°],[+60°,+75°],[+75°,+90°]等7個區(qū)間測試集合,并針對這些測試結(jié)果進行實驗的評估.即圖1中N=7.
此外,本章為了衡量提出方法能夠應(yīng)用于大姿態(tài)人臉識別構(gòu)建了4個測試數(shù)據(jù)庫,分別是基礎(chǔ)三維測試庫、三維測試庫、基礎(chǔ)二維測試庫和二維測試庫.本文還構(gòu)建了一個查詢數(shù)據(jù)庫用于動態(tài)識別場景應(yīng)用下對識別方法的測試.每個數(shù)據(jù)庫詳細信息如表1所示.
表1 算法測試數(shù)據(jù)集
3.4.1 CFRGT數(shù)據(jù)集 表2給出了提出方法的整體測試比對結(jié)果.實驗結(jié)果表明,通過引入高精度三維人臉信息可以明顯提升算法性能指標.在3D-2D_FPRR算法的前提下,基礎(chǔ)三維測試庫比基礎(chǔ)二維測試庫的TOP-1命中率提升5.68%,TOP-5命中率提升2.5%,三維測試庫相對于二維測試庫的TOP-1命中率提升10.08%,TOP-5命中率提升5.15%.在2D_FPRR算法的前提下,基礎(chǔ)三維測試庫比基礎(chǔ)二維測試庫的TOP-1命中率提升9.67%,TOP-5命中率提升3.2%,三維測試庫相對于二維測試庫的TOP-1命中率提升14.03%,TOP-5命中率提升11.25%.本節(jié)進一步計算了提出方法的三維排前率、三維靠后率和排序提升率,具體結(jié)果見表3.
表2 CFRGT數(shù)據(jù)庫方法評估結(jié)果
表3 CFRGT數(shù)據(jù)庫方法性能比較
基于CFRGT數(shù)據(jù)集對不同姿態(tài)人臉正確識別率進行統(tǒng)計和分析的結(jié)果如表4所示.實驗結(jié)果表明,本文提出的算法框架可以在不同姿態(tài)人臉數(shù)據(jù)的識別率上有不同程度提升.對于[-90°,-75°],[-75°,-60°],[+60°,+75°],[+75°,+90°]等大姿態(tài)情況下人臉識別率提升明顯,最高達23%.相對于僅僅依賴跨姿態(tài)人臉特征魯棒性提取方法,三維人臉對二維人臉的識別方法不僅引入三維人臉信息輔助特定姿態(tài)特征提取,同時也將多模型特征提取方法集成到人臉識別框架中,為解決大姿態(tài)人臉識別問題提供了一個有效的解決方案.
表4 CFRGT數(shù)據(jù)集人臉姿態(tài)角度與人臉正識率統(tǒng)計
3.4.2 UCFRGT數(shù)據(jù) 針對無約束條件下的人臉識別,其姿態(tài)變化相對于實驗室環(huán)境下采集的人臉姿態(tài)樣本,其場景變化更為豐富.對于基于姿態(tài)魯棒性特征提取方法來說,特征學習更為困難.表5給出了在該數(shù)據(jù)庫上的識別方法的測試結(jié)果.
表5 UCFRGT數(shù)據(jù)庫方法評估結(jié)果
實驗結(jié)果表明,在3D-2D_FPRR算法的前提下,基礎(chǔ)三維測試庫比基礎(chǔ)二維測試庫的TOP-1命中率提升9.67%,TOP-5命中率提升3.2%,三維測試庫相對于二維測試庫的TOP-1命中率提升32.03%,TOP-5命中率提升27.25%.在2D_FPRR算法的前提下,基礎(chǔ)三維測試庫比基礎(chǔ)二維測試庫的TOP-1命中率提升3.7%,TOP-5命中率提升2.22%,三維測試庫相對于二維測試庫的TOP-1命中率提升20.21%,TOP-5命中率提升24.56%.表6同樣展示了提出方法的三維靠后率、三維排前率和排序提升率.表7進一步給出了提出的方法在各個yaw姿態(tài)角度下的人臉識別正確率結(jié)果.基于3D人臉的跨姿態(tài)人臉識別方法的性能正確識別率明顯提升,識別率最高提升22%.
表6 UCFRGT數(shù)據(jù)庫方法性能比較
表7 UCFRGT數(shù)據(jù)集上人臉正識率與姿態(tài)角度統(tǒng)計
本文提出的基于3D-2D映射的大姿態(tài)人臉識別算法框架,利用三維人臉圖像信息來輔助完成二維大姿態(tài)人臉識別,為大姿態(tài)人臉識別難題提供了新的解決方案.首先,我們基于注冊的3D人臉圖像利用3D-2D映射的姿態(tài)數(shù)據(jù)生成算法達到數(shù)據(jù)擴充的目標;然后,針對不同姿態(tài)訓練對應(yīng)姿態(tài)的人臉特征提取模型得到模型集合并集成到大姿態(tài)人臉識別框架.實驗結(jié)果表明,本文提出的算法框架可以避開直接三維人臉特征提取的復(fù)雜工作,同時又充分利用了三維人臉圖像的姿態(tài)信息.在大姿態(tài)場景下,相比僅采用了二維人臉圖像的人臉識別算法的人臉正識率提升20%以上,可以很好地解決無約束真實場景下的大姿態(tài)人臉識別.