胡藍(lán)青,闞美娜,山世光,陳熙霖
1.中國科學(xué)院計(jì)算技術(shù)研究所,北京 100190;2.中國科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049
人臉識(shí)別技術(shù)在各領(lǐng)域的廣泛應(yīng)用,為人們的生活帶來了巨大便利。隨著技術(shù)的發(fā)展,人臉識(shí)別的性能得到了極大提升,非極端姿態(tài)的人臉識(shí)別已經(jīng)取得了良好效果,但是大姿態(tài)下的人臉識(shí)別仍然面臨很大挑戰(zhàn)。這是由于人臉在大姿態(tài)下會(huì)發(fā)生很強(qiáng)的非平面內(nèi)形變,影響對(duì)人臉身份的判別。主流的針對(duì)大姿態(tài)人臉識(shí)別問題的方法分為兩大類:第1類方法直接在原圖上提取姿態(tài)魯棒特征,第2類方法先將人臉進(jìn)行正面化之后再提取特征。第1類方法用于極端姿態(tài)人臉識(shí)別時(shí),可以提取的特征非常有限,人臉識(shí)別性能明顯降低。第2類方法先將人臉正面化再進(jìn)行公共特征提取,即人臉正面化方法,可以提取出更多有效的判別特征。正面化方法分為2D生成方法和利用3D模型變換方法。2D生成方法通過一個(gè)網(wǎng)絡(luò)直接回歸出正面人臉圖像,3D方法則是將人臉圖像建模為3D模型,通過該模型算出原圖與正面人臉的像素坐標(biāo)對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)正面化。2D生成方法比基于3D模型的方法更加靈活,生成的人臉也更加自然。然而3D方法得到的正面化人臉圖像能夠保留更多的人臉身份信息。
結(jié)合2D生成和3D模型變換兩種正面化方法的優(yōu)點(diǎn),本文提出了一種基于由粗到細(xì)形變場學(xué)習(xí)的人臉正面化方法(coarse-to-fine morphing field network,CFMF-Net),如圖1所示。CFMF-Net通過學(xué)習(xí)形變場將任意人臉圖像I正面化為圖像Iest。該網(wǎng)絡(luò)首先通過Fs提取人臉關(guān)鍵點(diǎn)特征S,并將S輸入Fc以得到粗粒度形變場C。之后將C和Fg學(xué)到的細(xì)節(jié)特征G拼接在一起,輸入Fd以得到細(xì)粒度形變場D。形變模塊T將形變場D作用于輸入圖像I得到Iest。CFMF-Net通過拉近Iest與真實(shí)的正臉圖像Igt的距離來進(jìn)行優(yōu)化。其中形變場的值由下方的熱力圖表示,紅色表示該像素點(diǎn)上的形變場向左,藍(lán)色表示該像素點(diǎn)上的形變場向右,顏色明度越高則移動(dòng)距離越大。此處形變場指正面人臉與輸入人臉的像素點(diǎn)的位置對(duì)應(yīng)關(guān)系,即非正面人臉圖像的像素可以根據(jù)形變場進(jìn)行重組得到對(duì)應(yīng)的正面人臉圖像。CFMF-Net通過一個(gè)深度網(wǎng)絡(luò)以由粗到細(xì)的優(yōu)化策略學(xué)習(xí)形變場,對(duì)輸入人臉進(jìn)行正面化。
圖1 基于由粗到細(xì)形變場學(xué)習(xí)的方法CFMF-Net流程圖Fig.1 Overview of our CFMF-Net
本文采用的以形變場進(jìn)行正面化的方式與利用3D人臉模型進(jìn)行人臉正面化的方法類似,都能夠通過像素點(diǎn)的移動(dòng)來變換圖像,保證正面化人臉圖像中的像素點(diǎn)全部來源于原始圖像。并且本文方法與2D回歸方法類似,都是通過網(wǎng)絡(luò)自動(dòng)學(xué)習(xí),而不是人為設(shè)計(jì)的規(guī)則。因此該方法兼具了2D正面化方法的靈活性與3D正面化方法的保真性。
目標(biāo)形變場來自高維空間,這給網(wǎng)絡(luò)的優(yōu)化帶來了不小的難度。因此本文借鑒分步漸進(jìn)的優(yōu)化思路,提出了由粗到細(xì)的形變場學(xué)習(xí)框架,以獲得更加準(zhǔn)確魯棒的形變場。然而在學(xué)習(xí)粗粒度形變信息時(shí),模型只留意了人臉的主要形變,會(huì)導(dǎo)致細(xì)節(jié)信息的丟失,因而增加了一個(gè)細(xì)節(jié)補(bǔ)充分支網(wǎng)絡(luò),以進(jìn)一步保證預(yù)測出的形變場的準(zhǔn)確性。
本文的主要貢獻(xiàn)在于:1)采用2D回歸的方式以類3D的行為對(duì)人臉進(jìn)行正面化,結(jié)合了2D正面化方法的靈活性與3D正面化方法的保真性;2)由粗到細(xì)的學(xué)習(xí)方式提升了模型的易學(xué)習(xí)性。
大姿態(tài)人臉識(shí)別方法分為直接在原圖上提取姿態(tài)魯棒特征和先將人臉正面化再提取特征兩類。
直接提取姿態(tài)魯棒特征的方法主要是將不同姿態(tài)的人臉圖像都映射到一個(gè)公共的特征空間中。典型相關(guān)分析(Li等,2009)是直接提取姿態(tài)魯棒特征早期的經(jīng)典方法,通過最大化兩組不同姿態(tài)的圖像的特征相關(guān)性,將不同姿態(tài)的特征映射到統(tǒng)一的空間中。然而該方法只保證了提取到的是不同姿態(tài)圖像的公共特征,忽略了特征的判別能力。Sharma和Jacobs(2011)改進(jìn)了典型相關(guān)分析,通過偏最小二乘法最小化同一個(gè)人所有姿態(tài)的圖像的特征距離,得到的特征不僅是姿態(tài)魯棒的,且具有較好的判別能力。Zhang等人(2013)給訓(xùn)練集中同一人所有姿態(tài)的圖像設(shè)定同一張隨機(jī)的人臉作為映射目標(biāo),以得到姿態(tài)魯棒的具有良好判別能力的特征。多視角判別網(wǎng)絡(luò)(Kan等,2016)針對(duì)不同姿態(tài)的圖像采用不同的特征映射,將多姿態(tài)的圖像映射到公共特征空間中,得到了更準(zhǔn)確的公共判別特征。深度網(wǎng)絡(luò)的提出與發(fā)展進(jìn)一步賦予了模型更強(qiáng)大的特征學(xué)習(xí)能力。基于深度學(xué)習(xí)的特征解耦方法(Peng等,2017)首先利用深度網(wǎng)絡(luò)提取出更準(zhǔn)確的人臉表示,之后通過特征解耦與交叉重組得到姿態(tài)魯棒特征。
這些直接提取姿態(tài)魯棒特征的方法對(duì)非極端姿態(tài)的人臉識(shí)別已經(jīng)有了不錯(cuò)的效果,但對(duì)極端姿態(tài)的人臉識(shí)別卻效果有限。因?yàn)閷?duì)這些姿態(tài)差異巨大的人臉圖像直接提取公共特征會(huì)丟失很多對(duì)識(shí)別有用的信息。因此研究者提出了先將人臉轉(zhuǎn)正,再進(jìn)行人臉識(shí)別的人臉正面化方法,這些方法又分為2D正面化方法和3D模型正面化方法。圖2展示了幾種經(jīng)典方法在MultiPIE數(shù)據(jù)集上的正面化結(jié)果。
2D人臉正面化方法直接通過一個(gè)編碼器網(wǎng)絡(luò)將不同姿態(tài)的人臉圖像映射為正面姿態(tài)的圖像。經(jīng)典的方法(Zhu等,2013;Kan等,2014)是用漸進(jìn)式學(xué)習(xí)的方式對(duì)側(cè)面人臉進(jìn)行逐步的姿態(tài)調(diào)整,以映射到正面人臉。隨著生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)(Goodfellow等,2014)的提出,很多方法借助GAN強(qiáng)大的分布擬合能力生成各種姿態(tài)的人臉,包括正臉。相比于通過回歸生成人臉的方法,基于GAN的方法生成的人臉圖像更加逼真。在Luan等人(2017)方法中,由特征提取器得到的身份特征和指定的姿態(tài)信息一起輸入GAN中,以生成多姿態(tài)的人臉圖像。Yin等人(2017)提出了另一個(gè)更精細(xì)的基于GAN的方法,給予GAN更多的信息,即3D可變形模型的系數(shù),得到保留了更多原始信息的正面人臉圖像。Huang等人(2017)同時(shí)兼顧整張人臉和人臉局部圖像塊的逼真程度,使生成的人臉圖像保留了更多的細(xì)節(jié)。Zhang等人(2019)認(rèn)為更大姿態(tài)的人臉更難以識(shí)別與正面化,因此在通過GAN正面化人臉的訓(xùn)練過程中對(duì)難樣本采用更大的訓(xùn)練權(quán)重。Rong 等人(2020)通過特征級(jí)和圖像級(jí)兩種GAN判別器,加強(qiáng)GAN正面化人臉的效果。Luan等人(2020)在GAN判別器中加入自注意力機(jī)制保持人臉圖像的幾何結(jié)構(gòu),令人臉正面化更加真實(shí)。
3D人臉正面化方法通過建立人臉圖像的3D模型將人臉映射到正面姿態(tài)。相比于2D方法,3D人臉正面化方法能保留更多的人臉結(jié)構(gòu)信息。早期的經(jīng)典方法,3D通用彈性模型(Prabhu等,2011)和基于視角的主動(dòng)外觀模型(Asthana等,2011)等直接利用3D模型進(jìn)行人臉姿態(tài)變換。這些方法通過將2D圖像映射到3D坐標(biāo)上,再投影到任意的角度,以生成相應(yīng)姿態(tài)的人臉。更直接的方法是計(jì)算側(cè)面人臉圖像到其正面人臉圖像的像素點(diǎn)的位置對(duì)應(yīng)關(guān)系,即形變場,再用該形變場進(jìn)行圖像變換。Li等人(2012)用從訓(xùn)練集得到的正面化形變場的線性組合來正面化測試集人臉圖像。而這些3D方法都不能處理姿態(tài)變化引起的自遮擋,如圖2(b)所示。Ding等人(2015)在3D模型變換的基礎(chǔ)上,利用人臉的對(duì)稱性填補(bǔ)遮擋部分,但生成的人臉依然存在嚴(yán)重的失真,如圖2(c)所示。Hu等人(2017)提出了一種利用全連接網(wǎng)絡(luò)自動(dòng)回歸正面化形變場的方法,生成了更逼真并保留更多原始信息的正面人臉。Cao等人(2018)提出一種結(jié)合了3D模型和GAN的方法,首先通過形變場得到一個(gè)初始的正臉圖像,再通過GAN進(jìn)行圖像調(diào)整,最終得到足夠逼真且身份保持的正面人臉。
圖2 3種經(jīng)典方法在MultiPIE數(shù)據(jù)集上的正面化結(jié)果Fig.2 Visualization results of three methods ((a) Kan et al.(2014);(b) Li et al.(2012);(c) Ding et al.(2015))
綜上所述,人臉正面化方法相比于直接提取姿態(tài)魯棒特征的方法能夠提取出更有效的公共判別特征。正面化方法中,2D方法比3D方法更加靈活,生成的人臉也更加自然。3D方法得到的正面化人臉圖像能夠保留更多的人臉身份信息。
如圖1所示,本文提出的CFMF-Net主要由可學(xué)習(xí)形變場網(wǎng)絡(luò)F和用形變場進(jìn)行正面化的模塊T兩部分組成。網(wǎng)絡(luò)F的輸入為原始人臉圖像I,其輸出為正面化I的形變場D。T的輸入為原始圖像I和形變場D,其輸出為正面化后的圖像Iest。
可學(xué)習(xí)形變場網(wǎng)絡(luò)F通過漸進(jìn)式的方式學(xué)習(xí)形變場,即先學(xué)習(xí)粗粒度形變場以捕捉人臉結(jié)構(gòu)的主要形變,在此基礎(chǔ)上再學(xué)習(xí)細(xì)粒度形變場來精修細(xì)節(jié)上的形變。因此,網(wǎng)絡(luò)F主要包含粗粒度形變場網(wǎng)絡(luò)Fc和細(xì)粒度形變場網(wǎng)絡(luò)Fd兩部分。具體來講,F(xiàn)c首先學(xué)習(xí)人臉關(guān)鍵點(diǎn),再解碼出粗粒度形變場。Fd進(jìn)一步完善粗粒度形變場,得到與原圖同分辨率的細(xì)粒度形變場,其輸入包含F(xiàn)c的輸出與一個(gè)分支網(wǎng)絡(luò)Fg從原圖學(xué)到的補(bǔ)充細(xì)節(jié)兩部分。
CFMF-Net通過學(xué)習(xí)到的形變場對(duì)圖像進(jìn)行變換,因而其輸出圖像的像素值都是來自于原圖,保留了更多的身份信息,減少了額外噪聲的引入。相比于2D方法通過回歸像素值生成正臉圖像,本文方法通過學(xué)習(xí)形變場進(jìn)行正面化,從而限制了正面化圖像中的像素均來自于原圖,更好地保持了原始信息。相比于3D方法基于3D模型規(guī)則計(jì)算形變場,本文方法得到的形變場是基于學(xué)習(xí)得到的,從而能夠得到更逼真的正面化結(jié)果。
(1)
式中,W為整個(gè)模型的可學(xué)習(xí)參數(shù)。
(2)
2.1.1 形變場學(xué)習(xí)網(wǎng)絡(luò)
(3)
粗粒度形變場網(wǎng)絡(luò)Fc和細(xì)粒度形變場Fd是CFMF-Net的兩個(gè)重要組成部分。
Sk=Fs(Ik)
(4)
Ck=Fc(Sk)
(5)
式中,F(xiàn)s和Fc是兩個(gè)連接在一起的卷積網(wǎng)絡(luò),其參數(shù)分別為Ws和Wc。Sk∈R68×2為68個(gè)稀疏人臉關(guān)鍵點(diǎn)的位置表示,作為人臉結(jié)構(gòu)魯棒特征表示用來指導(dǎo)粗粒度形變場的學(xué)習(xí),而學(xué)得的形變場Ck將作為學(xué)習(xí)大小為h×w的細(xì)粒度形變場的中間表示,為細(xì)粒度形變場學(xué)習(xí)打下良好基礎(chǔ)。
Ck建模了輸入到輸出人臉圖像的主要形變,但Ck忽略了細(xì)節(jié)的變化,因此還需要進(jìn)一步細(xì)化。在CFMF-Net中,分支網(wǎng)絡(luò)Fg用來提取原始圖像Ik的細(xì)節(jié)特征Gk=Fg(Ik),其中Fg的參數(shù)為Wg。之后,將Ck與Gk拼接在一起,輸入到細(xì)粒度形變場網(wǎng)絡(luò)Fd中,得到與原圖分辨率大小相同的細(xì)粒度形變場Dk∈Rh×w。即
Dk=Fd([Ck,Gk])
(6)
式中,F(xiàn)d為反卷積網(wǎng)絡(luò),可以對(duì)粗粒度形變場進(jìn)行上采樣,其參數(shù)為Wd。
2.1.2 形變模塊
(7)
(8)
(9)
2.1.3 整體訓(xùn)練目標(biāo)
(10)
為了加快CFMF-Net的收斂,首先預(yù)訓(xùn)練CFMF-Net每個(gè)模塊,得到一個(gè)較好的初始化參數(shù),再以式(10)為目標(biāo)進(jìn)行端到端的訓(xùn)練。
2.2.1 預(yù)訓(xùn)練
如前所述,粗粒度形變場學(xué)習(xí)中的Fs用來學(xué)習(xí)人臉關(guān)鍵點(diǎn)位置Sk。此處用人臉關(guān)鍵點(diǎn)對(duì)Fs進(jìn)行優(yōu)化(若無標(biāo)定的關(guān)鍵點(diǎn)可省略該步)。即
(11)
圖3 人臉關(guān)鍵點(diǎn)示例Fig.3 Exemplars of facial landmarks
(12)
圖4 CFMF-Net預(yù)訓(xùn)練時(shí)粗略估計(jì)過程Fig.4 The estimating process of during pretraining
(13)
2.2.2 端到端調(diào)優(yōu)
在預(yù)訓(xùn)練的基礎(chǔ)上,CFMF-Net以式(10)為目標(biāo)對(duì)網(wǎng)絡(luò)進(jìn)行端到端的優(yōu)化。
(14)
(15)
(16)
整個(gè)CFMF-Net網(wǎng)絡(luò)參數(shù){Wd,Wg,Wc,Ws}通過梯度下降進(jìn)行優(yōu)化,對(duì)應(yīng)每個(gè)模塊的梯度為
(17)
為驗(yàn)證本文方法對(duì)大姿態(tài)人臉識(shí)別問題的有效性,在4個(gè)代表性大姿態(tài)人臉識(shí)別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),包括通用人臉識(shí)別數(shù)據(jù)集LFW(labeled faces in the wild)、包含更多更極端姿態(tài)變化的數(shù)據(jù)集MultiPIE(multi pose,illumination,expressions)、CFP(celebrities in frontal-profile in the wild)和IJB-A(intelligence advanced research projects activity janus benchmark-A)。
在MultiPIE數(shù)據(jù)集(Sim等,2003)上進(jìn)行可控場景下的大姿態(tài)人臉識(shí)別實(shí)驗(yàn),在300 W-LP(Zhu等,2015)、Webface(Yi等,2014)、LFW(Huang和Learned-Miller,2014)、CFP(Sengupta等,2016)和IJB-A(Klare等,2015)上進(jìn)行非可控場景下的大姿態(tài)人臉識(shí)別實(shí)驗(yàn)。在所有實(shí)驗(yàn)中,首先通過CFMF-Net進(jìn)行人臉正面化,之后通過一個(gè)人臉識(shí)別網(wǎng)絡(luò)進(jìn)行人臉識(shí)別。其中,300 W-LP為CFMF-Net網(wǎng)絡(luò)的訓(xùn)練集,Webface為人臉識(shí)別訓(xùn)練集,LFW、CFP和IJB-A為人臉識(shí)別測試集。訓(xùn)練集和測試集的設(shè)置情況如表1所示。實(shí)驗(yàn)時(shí),通過裁剪縮放,所有的人臉圖像調(diào)整至128×128像素,像素值歸一化至[-1,1],圖像坐標(biāo)值歸一化到[0,1],形變場歸一到[-1,1]。圖5展示了不同實(shí)驗(yàn)的CFMF-Net網(wǎng)絡(luò)結(jié)果。接下來具體介紹實(shí)驗(yàn)中的數(shù)據(jù)集。
圖5 CFMF-Net網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Architecture of CFMF-Net
表1 訓(xùn)練集和測試集的設(shè)置說明Table 1 Overview of training and testing datasets
MultiPIE數(shù)據(jù)集(Sim等,2003)是最常用的可控場景下的大姿態(tài)人臉識(shí)別數(shù)據(jù)集,包含337個(gè)人在不同姿態(tài)、光照和表情下的照片。實(shí)驗(yàn)采用與大姿態(tài)人臉識(shí)別的代表性工作(Cao等,2018)相同的實(shí)驗(yàn)設(shè)置,即取前200個(gè)人的所有圖像進(jìn)行人臉正面化和識(shí)別的訓(xùn)練,剩下137個(gè)人的所有圖像進(jìn)行測試。在測試階段,采用這137個(gè)人的正面姿態(tài)、光照和中性表情的照片作為注冊(cè)集(gallery),剩下72 000張照片作為查詢集(probe)。與大多數(shù)對(duì)比方法相同,在MultiPIE的實(shí)驗(yàn)中,本方法采用LightCNN-29(Wu等,2018)作為識(shí)別網(wǎng)絡(luò)。
LFW(Huang和Learned-Miller,2014)和CFP(Sengupta等,2016)是兩個(gè)經(jīng)典的非可控場景下的人臉識(shí)別數(shù)據(jù)集,通常用來測試人臉識(shí)別方法的性能。LFW包含13 233幅采集自網(wǎng)絡(luò)的人臉圖像,其中通常用于人臉識(shí)別測試的部分為3 000對(duì)來自于同一人的圖像與3 000對(duì)來自于不同人的圖像。CFP包含來自500人的7 000幅圖像,其中每個(gè)人都有10幅準(zhǔn)正面(小于10°)圖像和4幅大姿態(tài)(大于10°)的圖像。本文實(shí)驗(yàn)中,LFW和CFP用來進(jìn)行人臉驗(yàn)證實(shí)驗(yàn)。在LFW上的測試指標(biāo)為人臉驗(yàn)證準(zhǔn)確率ACC(accuracy)與ROC(receiver operating characteristic curve)曲線下的面積AUC(area under the curve)。在CFP上的測試包含正臉—正臉圖像對(duì)(frontal-frontal,F(xiàn)F)和正臉—側(cè)臉圖像對(duì)(frontal-profile,F(xiàn)P)兩部分,其測試指標(biāo)為人臉驗(yàn)證準(zhǔn)確率ACC。同樣,在LFW和CFP實(shí)驗(yàn)中,本文方法用LightCNN-29(Wu等,2018)作為識(shí)別網(wǎng)絡(luò)。
IJB-A(Klare等,2015)是更大的不可控場景下的人臉識(shí)別數(shù)據(jù)集,主要用來測試大姿態(tài)人臉識(shí)別方法的性能。IJB-A包含很多極端姿態(tài)和光照條件下的人臉圖像,相比于前面介紹的測試數(shù)據(jù)集,更具有挑戰(zhàn)性。IJB-A包含來自500人的5 396幅網(wǎng)絡(luò)圖像和20 412幅截取自網(wǎng)絡(luò)視頻的圖像。其測試協(xié)議為10折交叉驗(yàn)證,每次劃分出333人的圖像作為訓(xùn)練集,剩余167人的圖像作為測試集,最終的準(zhǔn)確率為10次實(shí)驗(yàn)的平均準(zhǔn)確率。在多數(shù)方法中,首先在一個(gè)更大數(shù)據(jù)集(如Webface)上訓(xùn)練一個(gè)識(shí)別模型,再用IJB-A的小訓(xùn)練集進(jìn)行微調(diào)(Klare等,2015)。相比于之前介紹的數(shù)據(jù)集,IJB-A上的測試不再是單一圖像的對(duì)比,而是圖像集合之間的對(duì)比。測試包含人臉驗(yàn)證和人臉識(shí)別兩部分。人臉驗(yàn)證的指標(biāo)為在某個(gè)指定錯(cuò)誤接受率(false accept rate,F(xiàn)AR)下的正確接受率(true accept rate,TAR)。人臉識(shí)別通常為閉集測試,指標(biāo)為第1名準(zhǔn)確率和前5名準(zhǔn)確率。在之前的方法中,IJB-A上的測試沒有統(tǒng)一的訓(xùn)練集和訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu),為了與之前的方法公平比較,本文方法采用了兩個(gè)不同的人臉識(shí)別網(wǎng)絡(luò),分別為Fast AlexNet和LightCNN-29(Wu等,2018)。其中,F(xiàn)ast AlexNet是對(duì)AlexNet進(jìn)行優(yōu)化后得到的模型,與大多數(shù)已有方法的模型能力相當(dāng),但收斂速度更快,具體結(jié)構(gòu)如表2所示。
表2 Fast AlexNet網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Architecture of Fast AlexNet
Webface(Yi等,2014)是一個(gè)通用人臉識(shí)別訓(xùn)練集,包含來自10 575個(gè)人的494 414幅圖像。實(shí)驗(yàn)中,使用Webface訓(xùn)練非可控條件下的人臉識(shí)別模型。
在MultiPIE、LFW和CFP數(shù)據(jù)集上,本文提出的CFMF-Net與多種方法進(jìn)行實(shí)驗(yàn)對(duì)比,包括多任務(wù)學(xué)習(xí)方法(Yin和Liu,2018)以及與本文方法同為圖像生成類的基于GAN的方法(Luan等,2017;Yin等,2017;Zhao等,2018a,b;Cao等,2018)。其中Luan等人(2017)的方法是一種直接基于GAN的2D人臉正面化方法。Yin等人(2017)在DR-GAN的基礎(chǔ)上進(jìn)一步抽取了3DMM(3D morphable model)的系數(shù)作為特征,更好地保持了人臉結(jié)構(gòu)信息。Cao等人(2018)首先將形變場作用于原圖得到正面化人臉,再以此為中間結(jié)果做進(jìn)一步調(diào)整。
在IJB-A數(shù)據(jù)集上,本文方法與不同類型的方法進(jìn)行了對(duì)比,包括特征解耦方法(Crosswhite等,2017;Yang等,2017;Zhao等,2017)、人臉增廣方法(Zhu等,2016;Masi等,2017;Chang等,2017)和人臉正面化方法(Luan等,2017;Yin等,2017;Zhao等,2018a;Cao等,2018)。
值得一提的是,2019年以后出現(xiàn)的方法多為通用人臉識(shí)別方法,極少針對(duì)大姿態(tài)人臉識(shí)別這一特定問題專門研究,本文與ArcFace(Deng 等,2019)采用ResNetSE50網(wǎng)絡(luò)結(jié)構(gòu)(網(wǎng)絡(luò)能力與本文網(wǎng)絡(luò)差不多)的版本(https://github.com/TreB1eN/ InsightFace_Pytorch)進(jìn)行比較。
表3 不同方法在MultiPIE數(shù)據(jù)集上的識(shí)別率Table 3 Face recognition accuracy of different methods on MultiPIE dataset /%
在LFW和CFP上的實(shí)驗(yàn)結(jié)果如表4和表5所示。可以看出,本文方法在正面人臉居多的測試中與當(dāng)前最好方法的性能相當(dāng),包括采用更大訓(xùn)練集的Deng 等人(2019)方法。從表4可以看到,在LFW數(shù)據(jù)集上,本文方法得到了保持原始信息的正面化人臉。從如表5可以看到,本文方法在正臉—側(cè)臉的識(shí)別上取得了更好性能,表明本文方法的正面化對(duì)側(cè)面人臉識(shí)別起到了重要作用。
表5 不同方法在CFP數(shù)據(jù)集上的人臉驗(yàn)證準(zhǔn)確率ACCTable 5 Face verification accuracy of different methods on CFP dataset /%
在IJB-A數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表6所示。在人臉正面化類方法中,本文方法與當(dāng)前最好的方法效果相當(dāng)。表6中,本文方法CFMF-Net1是以最大化真實(shí)正面人臉與生成正面人臉的相似度為目標(biāo),學(xué)習(xí)原圖與正面化圖像的形變場,通過重組原圖像素點(diǎn)得到正面化的圖像,保證生成圖像的所有像素都來自原圖。Masi等人(2017)、Luan等人(2017)和Yin等人(2017)的方法與CFMF-Net1具有相似的訓(xùn)練集和識(shí)別網(wǎng)絡(luò),將它們單獨(dú)對(duì)比??梢钥吹?,CFMF-Net1取得了更好的識(shí)別效果。因?yàn)镸asi等人(2017)提出的是基于3D模型規(guī)則進(jìn)行正面化的方法,生成的正面人臉不夠逼真,Luan等人(2017)和Yin等人(2017)提出的2D回歸生成方法沒有充分保留原圖中的有效信息。而CFMF-Net1結(jié)合了3D和2D方法的優(yōu)勢,既保持了原始身份信息,又保證了生成圖像足夠逼真。CFMF-Net1在LFW和IJB-A數(shù)據(jù)集上的正面化結(jié)果示例分別如圖6和圖7所示。本文方法CFMF-Net2是僅通過簡單的形變場回歸來正面化人臉,與結(jié)合了GAN與密集形變場的方法(Zhao等,2018a;Cao 等,2018)相比,得到了與這些復(fù)雜方法持平的效果。
圖6 CFMF-Net1在LFW上的正面化結(jié)果示例Fig.6 Exemplars of frontalization results on LFW of CFMF-Net1((a)original input images;(b)x-axis morphing field;(c)frontalized results)
圖7 CFMF-Net1在IJB-A上的正面化結(jié)果示例Fig.7 Exemplars of frontalization results on IJB-A of CFMF-Net1((a)original input images;(b)x-axis morphing field;(c)frontalized results)
值得一提的是,當(dāng)前數(shù)據(jù)集的人臉圖像主要的變化在yaw方向,即本文中的x方向。一種自然的想法是能否通過加強(qiáng)x方向形變場的訓(xùn)練權(quán)重來提升性能。然而實(shí)際上這種做法對(duì)性能幾乎沒有影響,因?yàn)镃FMF-Net可以自動(dòng)學(xué)習(xí)到形變場的主要變化在x方向。此外,給x方向形變場更多訓(xùn)練權(quán)重可能對(duì)可擴(kuò)展性有影響,因?yàn)楝F(xiàn)實(shí)中的人臉圖像還會(huì)存在其他方向上的姿態(tài)變化。
為了分析CFMF-Net每個(gè)模塊對(duì)人臉正面化和識(shí)別的影響,進(jìn)行了一系列消融實(shí)驗(yàn)。在300 W-LP數(shù)據(jù)集上消融實(shí)驗(yàn)的可視化結(jié)果如圖8所示??梢钥吹剑ㄟ^TPS可以得到一個(gè)基本的人臉正面化結(jié)果(圖8(b))。直接利用粗粒度形變場得到的人臉正面化圖像,由于自遮擋問題,依然存在一定程度的失真(圖8(c))。而借助細(xì)粒度形變場,可以得到逼真的正面化人臉圖像(圖8(d))。這驗(yàn)證了CFMF-Net各部分對(duì)正面化的作用。
圖8 CFMF-Net在300 W-LP上消融實(shí)驗(yàn)的結(jié)果Fig.8 Ablation study of frontalization on 300 W-LP((a) original input images;(b) results of TPS;(c) results of CFMF-Net w/o Fg,Fd;(d) results of CFMF-Net)
從識(shí)別結(jié)果的角度來看,CFMF-Net的每一部分對(duì)人臉識(shí)別的準(zhǔn)確率都具有重要作用。CFMF-Net在IJB-A數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果如表7所示??梢钥闯觯啾扔诓贿M(jìn)行人臉正面化直接用Fast Alex-Net進(jìn)行人臉識(shí)別,使用粗粒度形變場進(jìn)行正面化,能在一定程度上提升人臉識(shí)別的準(zhǔn)確率。而使用細(xì)粒度形變場進(jìn)行人臉正面化,能進(jìn)一步提升識(shí)別的準(zhǔn)確率。
表7 CFMF-Net在IJB-A上的消融實(shí)驗(yàn)Table 7 Ablation study of CFMF-Net on IJB-A /%
為了進(jìn)一步驗(yàn)證CFMF-Net對(duì)大姿態(tài)人臉的效果,將IJB-A測試集按姿態(tài)大小分為3組,即[0°,±30°)、[±30°,±60°)和[±60°,±90°)(詳見https://github.com/whobefore/MF-Net/tree/master/Data/IJBA)。測試協(xié)議與IJB-A人臉識(shí)別測試相同,但每組再細(xì)分為3組不同姿態(tài)的實(shí)驗(yàn),即[0°,±30°)的子集作為gallery,[0°,±30°)、[±30°,±60°)、[±60°,±90°)作為probe分別進(jìn)行人臉識(shí)別測試。在每組數(shù)據(jù)上,首先用CFMF-Net進(jìn)行人臉正面化,再用Fast AlexNet進(jìn)行人臉識(shí)別,以測試識(shí)別準(zhǔn)確率,并將其與直接使用Fast AlexNet進(jìn)行識(shí)別的準(zhǔn)確率相比較,結(jié)果如表8所示??梢钥闯觯疚姆椒ㄏ啾韧ㄓ萌四樧R(shí)別方法(Deng等,2019),在能力相當(dāng)?shù)木W(wǎng)絡(luò)結(jié)構(gòu)下取得了更好結(jié)果,說明現(xiàn)在仍存在對(duì)姿態(tài)特殊處理的必要。另外,在大姿態(tài)[±60°,±90°)的測試集上,正面化后圖像的識(shí)別率得到顯著提升,進(jìn)一步驗(yàn)證了本文方法對(duì)大姿態(tài)人臉識(shí)別的有效性。
表8 IJB-A上不同姿態(tài)子集的TOP-1識(shí)別率Table 8 Top-1 recognition accuracy in our self-defined pose-subdivision test protocol on IJB-A
針對(duì)大姿態(tài)人臉識(shí)別問題,本文提出了一種基于由粗到細(xì)形變場回歸的人臉正面化的方法CFMF-Net。在實(shí)驗(yàn)結(jié)果中,尤其是大姿態(tài)的人臉識(shí)別實(shí)驗(yàn)中,本文方法表現(xiàn)出了比相關(guān)方法更好或持平的效果,表明該方法可以有效結(jié)合2D和3D人臉正面化方法的優(yōu)點(diǎn),既充分保留了原始圖像中的信息,又保證了生成的正面圖像足夠逼真。與通用人臉識(shí)別方法的對(duì)比結(jié)果表明,盡管可以通過數(shù)據(jù)集的豐富和損失函數(shù)的設(shè)計(jì)顯著提升直接進(jìn)行人臉識(shí)別方法的性能,但目前對(duì)人臉姿態(tài)的處理仍然存在其必要性。然而在本文方法中,雖然通過由粗到細(xì)的學(xué)習(xí)方式提升了密集形變場回歸的魯棒性,但這樣的算法仍然有很高的自由度,壓縮形變場的冗余信息是一種更好的解決方式。在未來的工作中,一方面希望對(duì)密集形變場進(jìn)行結(jié)構(gòu)可保持的稀疏化,另一方面希望能夠進(jìn)一步設(shè)計(jì)出識(shí)別性能驅(qū)動(dòng)的自動(dòng)人臉或人臉特征對(duì)齊方法,發(fā)掘出最佳人臉對(duì)齊角度,并應(yīng)用到更復(fù)雜場景的人臉識(shí)別中。