面向大姿態(tài)人臉識(shí)別的正面化形變場學(xué)習(xí)

2022-07-15 01:05胡藍(lán)青闞美娜山世光陳熙霖

中國圖象圖形學(xué)報(bào) 2022年7期

胡藍(lán)青，闞美娜，山世光，陳熙霖

1.中國科學(xué)院計(jì)算技術(shù)研究所，北京 100190；2.中國科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，北京 100049

0 引言

人臉識(shí)別技術(shù)在各領(lǐng)域的廣泛應(yīng)用，為人們的生活帶來了巨大便利。隨著技術(shù)的發(fā)展，人臉識(shí)別的性能得到了極大提升，非極端姿態(tài)的人臉識(shí)別已經(jīng)取得了良好效果，但是大姿態(tài)下的人臉識(shí)別仍然面臨很大挑戰(zhàn)。這是由于人臉在大姿態(tài)下會(huì)發(fā)生很強(qiáng)的非平面內(nèi)形變，影響對(duì)人臉身份的判別。主流的針對(duì)大姿態(tài)人臉識(shí)別問題的方法分為兩大類:第1類方法直接在原圖上提取姿態(tài)魯棒特征，第2類方法先將人臉進(jìn)行正面化之后再提取特征。第1類方法用于極端姿態(tài)人臉識(shí)別時(shí)，可以提取的特征非常有限，人臉識(shí)別性能明顯降低。第2類方法先將人臉正面化再進(jìn)行公共特征提取，即人臉正面化方法，可以提取出更多有效的判別特征。正面化方法分為2D生成方法和利用3D模型變換方法。2D生成方法通過一個(gè)網(wǎng)絡(luò)直接回歸出正面人臉圖像，3D方法則是將人臉圖像建模為3D模型，通過該模型算出原圖與正面人臉的像素坐標(biāo)對(duì)應(yīng)關(guān)系，從而實(shí)現(xiàn)正面化。2D生成方法比基于3D模型的方法更加靈活，生成的人臉也更加自然。然而3D方法得到的正面化人臉圖像能夠保留更多的人臉身份信息。

結(jié)合2D生成和3D模型變換兩種正面化方法的優(yōu)點(diǎn)，本文提出了一種基于由粗到細(xì)形變場學(xué)習(xí)的人臉正面化方法(coarse-to-fine morphing field network，CFMF-Net)，如圖1所示。CFMF-Net通過學(xué)習(xí)形變場將任意人臉圖像I正面化為圖像Iest。該網(wǎng)絡(luò)首先通過Fs提取人臉關(guān)鍵點(diǎn)特征S，并將S輸入Fc以得到粗粒度形變場C。之后將C和Fg學(xué)到的細(xì)節(jié)特征G拼接在一起，輸入Fd以得到細(xì)粒度形變場D。形變模塊T將形變場D作用于輸入圖像I得到Iest。CFMF-Net通過拉近Iest與真實(shí)的正臉圖像Igt的距離來進(jìn)行優(yōu)化。其中形變場的值由下方的熱力圖表示，紅色表示該像素點(diǎn)上的形變場向左，藍(lán)色表示該像素點(diǎn)上的形變場向右，顏色明度越高則移動(dòng)距離越大。此處形變場指正面人臉與輸入人臉的像素點(diǎn)的位置對(duì)應(yīng)關(guān)系，即非正面人臉圖像的像素可以根據(jù)形變場進(jìn)行重組得到對(duì)應(yīng)的正面人臉圖像。CFMF-Net通過一個(gè)深度網(wǎng)絡(luò)以由粗到細(xì)的優(yōu)化策略學(xué)習(xí)形變場，對(duì)輸入人臉進(jìn)行正面化。

圖1 基于由粗到細(xì)形變場學(xué)習(xí)的方法CFMF-Net流程圖Fig.1 Overview of our CFMF-Net

本文采用的以形變場進(jìn)行正面化的方式與利用3D人臉模型進(jìn)行人臉正面化的方法類似，都能夠通過像素點(diǎn)的移動(dòng)來變換圖像，保證正面化人臉圖像中的像素點(diǎn)全部來源于原始圖像。并且本文方法與2D回歸方法類似，都是通過網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)，而不是人為設(shè)計(jì)的規(guī)則。因此該方法兼具了2D正面化方法的靈活性與3D正面化方法的保真性。

目標(biāo)形變場來自高維空間，這給網(wǎng)絡(luò)的優(yōu)化帶來了不小的難度。因此本文借鑒分步漸進(jìn)的優(yōu)化思路，提出了由粗到細(xì)的形變場學(xué)習(xí)框架，以獲得更加準(zhǔn)確魯棒的形變場。然而在學(xué)習(xí)粗粒度形變信息時(shí)，模型只留意了人臉的主要形變，會(huì)導(dǎo)致細(xì)節(jié)信息的丟失，因而增加了一個(gè)細(xì)節(jié)補(bǔ)充分支網(wǎng)絡(luò)，以進(jìn)一步保證預(yù)測出的形變場的準(zhǔn)確性。

本文的主要貢獻(xiàn)在于：1)采用2D回歸的方式以類3D的行為對(duì)人臉進(jìn)行正面化，結(jié)合了2D正面化方法的靈活性與3D正面化方法的保真性；2)由粗到細(xì)的學(xué)習(xí)方式提升了模型的易學(xué)習(xí)性。

1 相關(guān)工作

大姿態(tài)人臉識(shí)別方法分為直接在原圖上提取姿態(tài)魯棒特征和先將人臉正面化再提取特征兩類。

直接提取姿態(tài)魯棒特征的方法主要是將不同姿態(tài)的人臉圖像都映射到一個(gè)公共的特征空間中。典型相關(guān)分析(Li等，2009)是直接提取姿態(tài)魯棒特征早期的經(jīng)典方法，通過最大化兩組不同姿態(tài)的圖像的特征相關(guān)性，將不同姿態(tài)的特征映射到統(tǒng)一的空間中。然而該方法只保證了提取到的是不同姿態(tài)圖像的公共特征，忽略了特征的判別能力。Sharma和Jacobs(2011)改進(jìn)了典型相關(guān)分析，通過偏最小二乘法最小化同一個(gè)人所有姿態(tài)的圖像的特征距離，得到的特征不僅是姿態(tài)魯棒的，且具有較好的判別能力。Zhang等人(2013)給訓(xùn)練集中同一人所有姿態(tài)的圖像設(shè)定同一張隨機(jī)的人臉作為映射目標(biāo)，以得到姿態(tài)魯棒的具有良好判別能力的特征。多視角判別網(wǎng)絡(luò)(Kan等，2016)針對(duì)不同姿態(tài)的圖像采用不同的特征映射，將多姿態(tài)的圖像映射到公共特征空間中，得到了更準(zhǔn)確的公共判別特征。深度網(wǎng)絡(luò)的提出與發(fā)展進(jìn)一步賦予了模型更強(qiáng)大的特征學(xué)習(xí)能力。基于深度學(xué)習(xí)的特征解耦方法(Peng等，2017)首先利用深度網(wǎng)絡(luò)提取出更準(zhǔn)確的人臉表示，之后通過特征解耦與交叉重組得到姿態(tài)魯棒特征。

這些直接提取姿態(tài)魯棒特征的方法對(duì)非極端姿態(tài)的人臉識(shí)別已經(jīng)有了不錯(cuò)的效果，但對(duì)極端姿態(tài)的人臉識(shí)別卻效果有限。因?yàn)閷?duì)這些姿態(tài)差異巨大的人臉圖像直接提取公共特征會(huì)丟失很多對(duì)識(shí)別有用的信息。因此研究者提出了先將人臉轉(zhuǎn)正，再進(jìn)行人臉識(shí)別的人臉正面化方法，這些方法又分為2D正面化方法和3D模型正面化方法。圖2展示了幾種經(jīng)典方法在MultiPIE數(shù)據(jù)集上的正面化結(jié)果。

2D人臉正面化方法直接通過一個(gè)編碼器網(wǎng)絡(luò)將不同姿態(tài)的人臉圖像映射為正面姿態(tài)的圖像。經(jīng)典的方法(Zhu等，2013；Kan等，2014)是用漸進(jìn)式學(xué)習(xí)的方式對(duì)側(cè)面人臉進(jìn)行逐步的姿態(tài)調(diào)整，以映射到正面人臉。隨著生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network，GAN)(Goodfellow等，2014)的提出，很多方法借助GAN強(qiáng)大的分布擬合能力生成各種姿態(tài)的人臉，包括正臉。相比于通過回歸生成人臉的方法，基于GAN的方法生成的人臉圖像更加逼真。在Luan等人(2017)方法中，由特征提取器得到的身份特征和指定的姿態(tài)信息一起輸入GAN中，以生成多姿態(tài)的人臉圖像。Yin等人(2017)提出了另一個(gè)更精細(xì)的基于GAN的方法，給予GAN更多的信息，即3D可變形模型的系數(shù)，得到保留了更多原始信息的正面人臉圖像。Huang等人(2017)同時(shí)兼顧整張人臉和人臉局部圖像塊的逼真程度，使生成的人臉圖像保留了更多的細(xì)節(jié)。Zhang等人(2019)認(rèn)為更大姿態(tài)的人臉更難以識(shí)別與正面化，因此在通過GAN正面化人臉的訓(xùn)練過程中對(duì)難樣本采用更大的訓(xùn)練權(quán)重。Rong 等人(2020)通過特征級(jí)和圖像級(jí)兩種GAN判別器，加強(qiáng)GAN正面化人臉的效果。Luan等人(2020)在GAN判別器中加入自注意力機(jī)制保持人臉圖像的幾何結(jié)構(gòu)，令人臉正面化更加真實(shí)。

3D人臉正面化方法通過建立人臉圖像的3D模型將人臉映射到正面姿態(tài)。相比于2D方法，3D人臉正面化方法能保留更多的人臉結(jié)構(gòu)信息。早期的經(jīng)典方法，3D通用彈性模型(Prabhu等，2011)和基于視角的主動(dòng)外觀模型(Asthana等，2011)等直接利用3D模型進(jìn)行人臉姿態(tài)變換。這些方法通過將2D圖像映射到3D坐標(biāo)上，再投影到任意的角度，以生成相應(yīng)姿態(tài)的人臉。更直接的方法是計(jì)算側(cè)面人臉圖像到其正面人臉圖像的像素點(diǎn)的位置對(duì)應(yīng)關(guān)系，即形變場，再用該形變場進(jìn)行圖像變換。Li等人(2012)用從訓(xùn)練集得到的正面化形變場的線性組合來正面化測試集人臉圖像。而這些3D方法都不能處理姿態(tài)變化引起的自遮擋，如圖2(b)所示。Ding等人(2015)在3D模型變換的基礎(chǔ)上，利用人臉的對(duì)稱性填補(bǔ)遮擋部分，但生成的人臉依然存在嚴(yán)重的失真，如圖2(c)所示。Hu等人(2017)提出了一種利用全連接網(wǎng)絡(luò)自動(dòng)回歸正面化形變場的方法，生成了更逼真并保留更多原始信息的正面人臉。Cao等人(2018)提出一種結(jié)合了3D模型和GAN的方法，首先通過形變場得到一個(gè)初始的正臉圖像，再通過GAN進(jìn)行圖像調(diào)整，最終得到足夠逼真且身份保持的正面人臉。

圖2 3種經(jīng)典方法在MultiPIE數(shù)據(jù)集上的正面化結(jié)果Fig.2 Visualization results of three methods ((a) Kan et al.(2014)；(b) Li et al.(2012)；(c) Ding et al.(2015))

綜上所述，人臉正面化方法相比于直接提取姿態(tài)魯棒特征的方法能夠提取出更有效的公共判別特征。正面化方法中，2D方法比3D方法更加靈活，生成的人臉也更加自然。3D方法得到的正面化人臉圖像能夠保留更多的人臉身份信息。

2 本文方法

如圖1所示，本文提出的CFMF-Net主要由可學(xué)習(xí)形變場網(wǎng)絡(luò)F和用形變場進(jìn)行正面化的模塊T兩部分組成。網(wǎng)絡(luò)F的輸入為原始人臉圖像I，其輸出為正面化I的形變場D。T的輸入為原始圖像I和形變場D，其輸出為正面化后的圖像Iest。

可學(xué)習(xí)形變場網(wǎng)絡(luò)F通過漸進(jìn)式的方式學(xué)習(xí)形變場，即先學(xué)習(xí)粗粒度形變場以捕捉人臉結(jié)構(gòu)的主要形變，在此基礎(chǔ)上再學(xué)習(xí)細(xì)粒度形變場來精修細(xì)節(jié)上的形變。因此，網(wǎng)絡(luò)F主要包含粗粒度形變場網(wǎng)絡(luò)Fc和細(xì)粒度形變場網(wǎng)絡(luò)Fd兩部分。具體來講，F(xiàn)c首先學(xué)習(xí)人臉關(guān)鍵點(diǎn)，再解碼出粗粒度形變場。Fd進(jìn)一步完善粗粒度形變場，得到與原圖同分辨率的細(xì)粒度形變場，其輸入包含F(xiàn)c的輸出與一個(gè)分支網(wǎng)絡(luò)Fg從原圖學(xué)到的補(bǔ)充細(xì)節(jié)兩部分。

CFMF-Net通過學(xué)習(xí)到的形變場對(duì)圖像進(jìn)行變換，因而其輸出圖像的像素值都是來自于原圖，保留了更多的身份信息，減少了額外噪聲的引入。相比于2D方法通過回歸像素值生成正臉圖像，本文方法通過學(xué)習(xí)形變場進(jìn)行正面化，從而限制了正面化圖像中的像素均來自于原圖，更好地保持了原始信息。相比于3D方法基于3D模型規(guī)則計(jì)算形變場，本文方法得到的形變場是基于學(xué)習(xí)得到的，從而能夠得到更逼真的正面化結(jié)果。

2.1 形式化

(1)

式中，W為整個(gè)模型的可學(xué)習(xí)參數(shù)。

(2)

2.1.1 形變場學(xué)習(xí)網(wǎng)絡(luò)

(3)

粗粒度形變場網(wǎng)絡(luò)Fc和細(xì)粒度形變場Fd是CFMF-Net的兩個(gè)重要組成部分。

Sk=Fs(Ik)

(4)

Ck=Fc(Sk)

(5)

式中，F(xiàn)s和Fc是兩個(gè)連接在一起的卷積網(wǎng)絡(luò)，其參數(shù)分別為Ws和Wc。Sk∈R68×2為68個(gè)稀疏人臉關(guān)鍵點(diǎn)的位置表示，作為人臉結(jié)構(gòu)魯棒特征表示用來指導(dǎo)粗粒度形變場的學(xué)習(xí)，而學(xué)得的形變場Ck將作為學(xué)習(xí)大小為h×w的細(xì)粒度形變場的中間表示，為細(xì)粒度形變場學(xué)習(xí)打下良好基礎(chǔ)。

Ck建模了輸入到輸出人臉圖像的主要形變，但Ck忽略了細(xì)節(jié)的變化，因此還需要進(jìn)一步細(xì)化。在CFMF-Net中，分支網(wǎng)絡(luò)Fg用來提取原始圖像Ik的細(xì)節(jié)特征Gk=Fg(Ik)，其中Fg的參數(shù)為Wg。之后，將Ck與Gk拼接在一起，輸入到細(xì)粒度形變場網(wǎng)絡(luò)Fd中，得到與原圖分辨率大小相同的細(xì)粒度形變場Dk∈Rh×w。即

Dk=Fd([Ck,Gk])

(6)

式中，F(xiàn)d為反卷積網(wǎng)絡(luò)，可以對(duì)粗粒度形變場進(jìn)行上采樣，其參數(shù)為Wd。

2.1.2 形變模塊

(7)

(8)

(9)

2.1.3 整體訓(xùn)練目標(biāo)

(10)

2.2 優(yōu)化過程

為了加快CFMF-Net的收斂，首先預(yù)訓(xùn)練CFMF-Net每個(gè)模塊，得到一個(gè)較好的初始化參數(shù)，再以式(10)為目標(biāo)進(jìn)行端到端的訓(xùn)練。

2.2.1 預(yù)訓(xùn)練

如前所述，粗粒度形變場學(xué)習(xí)中的Fs用來學(xué)習(xí)人臉關(guān)鍵點(diǎn)位置Sk。此處用人臉關(guān)鍵點(diǎn)對(duì)Fs進(jìn)行優(yōu)化(若無標(biāo)定的關(guān)鍵點(diǎn)可省略該步)。即

(11)

圖3 人臉關(guān)鍵點(diǎn)示例Fig.3 Exemplars of facial landmarks

(12)

圖4 CFMF-Net預(yù)訓(xùn)練時(shí)粗略估計(jì)過程Fig.4 The estimating process of during pretraining

(13)

2.2.2 端到端調(diào)優(yōu)

在預(yù)訓(xùn)練的基礎(chǔ)上，CFMF-Net以式(10)為目標(biāo)對(duì)網(wǎng)絡(luò)進(jìn)行端到端的優(yōu)化。

(14)

(15)

(16)

整個(gè)CFMF-Net網(wǎng)絡(luò)參數(shù){Wd,Wg,Wc,Ws}通過梯度下降進(jìn)行優(yōu)化，對(duì)應(yīng)每個(gè)模塊的梯度為

(17)

3 實(shí) 驗(yàn)

為驗(yàn)證本文方法對(duì)大姿態(tài)人臉識(shí)別問題的有效性，在4個(gè)代表性大姿態(tài)人臉識(shí)別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，包括通用人臉識(shí)別數(shù)據(jù)集LFW(labeled faces in the wild)、包含更多更極端姿態(tài)變化的數(shù)據(jù)集MultiPIE(multi pose,illumination,expressions)、CFP(celebrities in frontal-profile in the wild)和IJB-A(intelligence advanced research projects activity janus benchmark-A)。

3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

在MultiPIE數(shù)據(jù)集(Sim等，2003)上進(jìn)行可控場景下的大姿態(tài)人臉識(shí)別實(shí)驗(yàn)，在300 W-LP(Zhu等，2015)、Webface(Yi等，2014)、LFW(Huang和Learned-Miller，2014)、CFP(Sengupta等，2016)和IJB-A(Klare等，2015)上進(jìn)行非可控場景下的大姿態(tài)人臉識(shí)別實(shí)驗(yàn)。在所有實(shí)驗(yàn)中，首先通過CFMF-Net進(jìn)行人臉正面化，之后通過一個(gè)人臉識(shí)別網(wǎng)絡(luò)進(jìn)行人臉識(shí)別。其中，300 W-LP為CFMF-Net網(wǎng)絡(luò)的訓(xùn)練集，Webface為人臉識(shí)別訓(xùn)練集，LFW、CFP和IJB-A為人臉識(shí)別測試集。訓(xùn)練集和測試集的設(shè)置情況如表1所示。實(shí)驗(yàn)時(shí)，通過裁剪縮放，所有的人臉圖像調(diào)整至128×128像素，像素值歸一化至[-1,1]，圖像坐標(biāo)值歸一化到[0,1]，形變場歸一到[-1,1]。圖5展示了不同實(shí)驗(yàn)的CFMF-Net網(wǎng)絡(luò)結(jié)果。接下來具體介紹實(shí)驗(yàn)中的數(shù)據(jù)集。

圖5 CFMF-Net網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Architecture of CFMF-Net

表1 訓(xùn)練集和測試集的設(shè)置說明Table 1 Overview of training and testing datasets

MultiPIE數(shù)據(jù)集(Sim等，2003)是最常用的可控場景下的大姿態(tài)人臉識(shí)別數(shù)據(jù)集，包含337個(gè)人在不同姿態(tài)、光照和表情下的照片。實(shí)驗(yàn)采用與大姿態(tài)人臉識(shí)別的代表性工作(Cao等，2018)相同的實(shí)驗(yàn)設(shè)置，即取前200個(gè)人的所有圖像進(jìn)行人臉正面化和識(shí)別的訓(xùn)練，剩下137個(gè)人的所有圖像進(jìn)行測試。在測試階段，采用這137個(gè)人的正面姿態(tài)、光照和中性表情的照片作為注冊(cè)集(gallery)，剩下72 000張照片作為查詢集(probe)。與大多數(shù)對(duì)比方法相同，在MultiPIE的實(shí)驗(yàn)中，本方法采用LightCNN-29(Wu等，2018)作為識(shí)別網(wǎng)絡(luò)。

LFW(Huang和Learned-Miller，2014)和CFP(Sengupta等，2016)是兩個(gè)經(jīng)典的非可控場景下的人臉識(shí)別數(shù)據(jù)集，通常用來測試人臉識(shí)別方法的性能。LFW包含13 233幅采集自網(wǎng)絡(luò)的人臉圖像，其中通常用于人臉識(shí)別測試的部分為3 000對(duì)來自于同一人的圖像與3 000對(duì)來自于不同人的圖像。CFP包含來自500人的7 000幅圖像，其中每個(gè)人都有10幅準(zhǔn)正面(小于10°)圖像和4幅大姿態(tài)(大于10°)的圖像。本文實(shí)驗(yàn)中，LFW和CFP用來進(jìn)行人臉驗(yàn)證實(shí)驗(yàn)。在LFW上的測試指標(biāo)為人臉驗(yàn)證準(zhǔn)確率ACC(accuracy)與ROC(receiver operating characteristic curve)曲線下的面積AUC(area under the curve)。在CFP上的測試包含正臉—正臉圖像對(duì)(frontal-frontal，F(xiàn)F)和正臉—側(cè)臉圖像對(duì)(frontal-profile，F(xiàn)P)兩部分，其測試指標(biāo)為人臉驗(yàn)證準(zhǔn)確率ACC。同樣，在LFW和CFP實(shí)驗(yàn)中，本文方法用LightCNN-29(Wu等，2018)作為識(shí)別網(wǎng)絡(luò)。

IJB-A(Klare等，2015)是更大的不可控場景下的人臉識(shí)別數(shù)據(jù)集，主要用來測試大姿態(tài)人臉識(shí)別方法的性能。IJB-A包含很多極端姿態(tài)和光照條件下的人臉圖像，相比于前面介紹的測試數(shù)據(jù)集，更具有挑戰(zhàn)性。IJB-A包含來自500人的5 396幅網(wǎng)絡(luò)圖像和20 412幅截取自網(wǎng)絡(luò)視頻的圖像。其測試協(xié)議為10折交叉驗(yàn)證，每次劃分出333人的圖像作為訓(xùn)練集，剩余167人的圖像作為測試集，最終的準(zhǔn)確率為10次實(shí)驗(yàn)的平均準(zhǔn)確率。在多數(shù)方法中，首先在一個(gè)更大數(shù)據(jù)集(如Webface)上訓(xùn)練一個(gè)識(shí)別模型，再用IJB-A的小訓(xùn)練集進(jìn)行微調(diào)(Klare等，2015)。相比于之前介紹的數(shù)據(jù)集，IJB-A上的測試不再是單一圖像的對(duì)比，而是圖像集合之間的對(duì)比。測試包含人臉驗(yàn)證和人臉識(shí)別兩部分。人臉驗(yàn)證的指標(biāo)為在某個(gè)指定錯(cuò)誤接受率(false accept rate，F(xiàn)AR)下的正確接受率(true accept rate，TAR)。人臉識(shí)別通常為閉集測試，指標(biāo)為第1名準(zhǔn)確率和前5名準(zhǔn)確率。在之前的方法中，IJB-A上的測試沒有統(tǒng)一的訓(xùn)練集和訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)，為了與之前的方法公平比較，本文方法采用了兩個(gè)不同的人臉識(shí)別網(wǎng)絡(luò)，分別為Fast AlexNet和LightCNN-29(Wu等，2018)。其中，F(xiàn)ast AlexNet是對(duì)AlexNet進(jìn)行優(yōu)化后得到的模型，與大多數(shù)已有方法的模型能力相當(dāng)，但收斂速度更快，具體結(jié)構(gòu)如表2所示。

表2 Fast AlexNet網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Architecture of Fast AlexNet

Webface(Yi等，2014)是一個(gè)通用人臉識(shí)別訓(xùn)練集，包含來自10 575個(gè)人的494 414幅圖像。實(shí)驗(yàn)中，使用Webface訓(xùn)練非可控條件下的人臉識(shí)別模型。

3.2 實(shí)驗(yàn)結(jié)果

在MultiPIE、LFW和CFP數(shù)據(jù)集上，本文提出的CFMF-Net與多種方法進(jìn)行實(shí)驗(yàn)對(duì)比，包括多任務(wù)學(xué)習(xí)方法(Yin和Liu，2018)以及與本文方法同為圖像生成類的基于GAN的方法(Luan等，2017；Yin等，2017；Zhao等，2018a,b；Cao等，2018)。其中Luan等人(2017)的方法是一種直接基于GAN的2D人臉正面化方法。Yin等人(2017)在DR-GAN的基礎(chǔ)上進(jìn)一步抽取了3DMM(3D morphable model)的系數(shù)作為特征，更好地保持了人臉結(jié)構(gòu)信息。Cao等人(2018)首先將形變場作用于原圖得到正面化人臉，再以此為中間結(jié)果做進(jìn)一步調(diào)整。

在IJB-A數(shù)據(jù)集上，本文方法與不同類型的方法進(jìn)行了對(duì)比，包括特征解耦方法(Crosswhite等，2017；Yang等，2017；Zhao等，2017)、人臉增廣方法(Zhu等，2016；Masi等，2017；Chang等，2017)和人臉正面化方法(Luan等，2017；Yin等，2017；Zhao等，2018a；Cao等，2018)。

值得一提的是，2019年以后出現(xiàn)的方法多為通用人臉識(shí)別方法，極少針對(duì)大姿態(tài)人臉識(shí)別這一特定問題專門研究，本文與ArcFace(Deng 等，2019)采用ResNetSE50網(wǎng)絡(luò)結(jié)構(gòu)(網(wǎng)絡(luò)能力與本文網(wǎng)絡(luò)差不多)的版本(https://github.com/TreB1eN/ InsightFace_Pytorch)進(jìn)行比較。

表3 不同方法在MultiPIE數(shù)據(jù)集上的識(shí)別率Table 3 Face recognition accuracy of different methods on MultiPIE dataset /%

在LFW和CFP上的實(shí)驗(yàn)結(jié)果如表4和表5所示。可以看出，本文方法在正面人臉居多的測試中與當(dāng)前最好方法的性能相當(dāng)，包括采用更大訓(xùn)練集的Deng 等人(2019)方法。從表4可以看到，在LFW數(shù)據(jù)集上，本文方法得到了保持原始信息的正面化人臉。從如表5可以看到，本文方法在正臉—側(cè)臉的識(shí)別上取得了更好性能，表明本文方法的正面化對(duì)側(cè)面人臉識(shí)別起到了重要作用。

表5 不同方法在CFP數(shù)據(jù)集上的人臉驗(yàn)證準(zhǔn)確率ACCTable 5 Face verification accuracy of different methods on CFP dataset /%

在IJB-A數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表6所示。在人臉正面化類方法中，本文方法與當(dāng)前最好的方法效果相當(dāng)。表6中，本文方法CFMF-Net1是以最大化真實(shí)正面人臉與生成正面人臉的相似度為目標(biāo)，學(xué)習(xí)原圖與正面化圖像的形變場，通過重組原圖像素點(diǎn)得到正面化的圖像，保證生成圖像的所有像素都來自原圖。Masi等人(2017)、Luan等人(2017)和Yin等人(2017)的方法與CFMF-Net1具有相似的訓(xùn)練集和識(shí)別網(wǎng)絡(luò)，將它們單獨(dú)對(duì)比?？梢钥吹?，CFMF-Net1取得了更好的識(shí)別效果。因?yàn)镸asi等人(2017)提出的是基于3D模型規(guī)則進(jìn)行正面化的方法,生成的正面人臉不夠逼真，Luan等人(2017)和Yin等人(2017)提出的2D回歸生成方法沒有充分保留原圖中的有效信息。而CFMF-Net1結(jié)合了3D和2D方法的優(yōu)勢，既保持了原始身份信息，又保證了生成圖像足夠逼真。CFMF-Net1在LFW和IJB-A數(shù)據(jù)集上的正面化結(jié)果示例分別如圖6和圖7所示。本文方法CFMF-Net2是僅通過簡單的形變場回歸來正面化人臉，與結(jié)合了GAN與密集形變場的方法(Zhao等，2018a；Cao 等，2018)相比，得到了與這些復(fù)雜方法持平的效果。

圖6 CFMF-Net1在LFW上的正面化結(jié)果示例Fig.6 Exemplars of frontalization results on LFW of CFMF-Net1((a)original input images；(b)x-axis morphing field；(c)frontalized results)

圖7 CFMF-Net1在IJB-A上的正面化結(jié)果示例Fig.7 Exemplars of frontalization results on IJB-A of CFMF-Net1((a)original input images；(b)x-axis morphing field；(c)frontalized results)

值得一提的是，當(dāng)前數(shù)據(jù)集的人臉圖像主要的變化在yaw方向，即本文中的x方向。一種自然的想法是能否通過加強(qiáng)x方向形變場的訓(xùn)練權(quán)重來提升性能。然而實(shí)際上這種做法對(duì)性能幾乎沒有影響，因?yàn)镃FMF-Net可以自動(dòng)學(xué)習(xí)到形變場的主要變化在x方向。此外，給x方向形變場更多訓(xùn)練權(quán)重可能對(duì)可擴(kuò)展性有影響，因?yàn)楝F(xiàn)實(shí)中的人臉圖像還會(huì)存在其他方向上的姿態(tài)變化。

3.3 消融實(shí)驗(yàn)

為了分析CFMF-Net每個(gè)模塊對(duì)人臉正面化和識(shí)別的影響，進(jìn)行了一系列消融實(shí)驗(yàn)。在300 W-LP數(shù)據(jù)集上消融實(shí)驗(yàn)的可視化結(jié)果如圖8所示?？梢钥吹剑ㄟ^TPS可以得到一個(gè)基本的人臉正面化結(jié)果(圖8(b))。直接利用粗粒度形變場得到的人臉正面化圖像，由于自遮擋問題，依然存在一定程度的失真(圖8(c))。而借助細(xì)粒度形變場，可以得到逼真的正面化人臉圖像(圖8(d))。這驗(yàn)證了CFMF-Net各部分對(duì)正面化的作用。

圖8 CFMF-Net在300 W-LP上消融實(shí)驗(yàn)的結(jié)果Fig.8 Ablation study of frontalization on 300 W-LP((a) original input images;(b) results of TPS;(c) results of CFMF-Net w/o Fg,Fd;(d) results of CFMF-Net)

從識(shí)別結(jié)果的角度來看，CFMF-Net的每一部分對(duì)人臉識(shí)別的準(zhǔn)確率都具有重要作用。CFMF-Net在IJB-A數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果如表7所示?？梢钥闯觯啾扔诓贿M(jìn)行人臉正面化直接用Fast Alex-Net進(jìn)行人臉識(shí)別，使用粗粒度形變場進(jìn)行正面化,能在一定程度上提升人臉識(shí)別的準(zhǔn)確率。而使用細(xì)粒度形變場進(jìn)行人臉正面化，能進(jìn)一步提升識(shí)別的準(zhǔn)確率。

表7 CFMF-Net在IJB-A上的消融實(shí)驗(yàn)Table 7 Ablation study of CFMF-Net on IJB-A /%

為了進(jìn)一步驗(yàn)證CFMF-Net對(duì)大姿態(tài)人臉的效果，將IJB-A測試集按姿態(tài)大小分為3組，即[0°，±30°)、[±30°，±60°)和[±60°，±90°)(詳見https://github.com/whobefore/MF-Net/tree/master/Data/IJBA)。測試協(xié)議與IJB-A人臉識(shí)別測試相同，但每組再細(xì)分為3組不同姿態(tài)的實(shí)驗(yàn)，即[0°，±30°)的子集作為gallery，[0°，±30°)、[±30°，±60°)、[±60°，±90°)作為probe分別進(jìn)行人臉識(shí)別測試。在每組數(shù)據(jù)上，首先用CFMF-Net進(jìn)行人臉正面化，再用Fast AlexNet進(jìn)行人臉識(shí)別，以測試識(shí)別準(zhǔn)確率，并將其與直接使用Fast AlexNet進(jìn)行識(shí)別的準(zhǔn)確率相比較，結(jié)果如表8所示?？梢钥闯觯疚姆椒ㄏ啾韧ㄓ萌四樧R(shí)別方法(Deng等，2019)，在能力相當(dāng)?shù)木W(wǎng)絡(luò)結(jié)構(gòu)下取得了更好結(jié)果，說明現(xiàn)在仍存在對(duì)姿態(tài)特殊處理的必要。另外，在大姿態(tài)[±60°，±90°)的測試集上，正面化后圖像的識(shí)別率得到顯著提升，進(jìn)一步驗(yàn)證了本文方法對(duì)大姿態(tài)人臉識(shí)別的有效性。

表8 IJB-A上不同姿態(tài)子集的TOP-1識(shí)別率Table 8 Top-1 recognition accuracy in our self-defined pose-subdivision test protocol on IJB-A

4 結(jié) 論

針對(duì)大姿態(tài)人臉識(shí)別問題，本文提出了一種基于由粗到細(xì)形變場回歸的人臉正面化的方法CFMF-Net。在實(shí)驗(yàn)結(jié)果中，尤其是大姿態(tài)的人臉識(shí)別實(shí)驗(yàn)中，本文方法表現(xiàn)出了比相關(guān)方法更好或持平的效果，表明該方法可以有效結(jié)合2D和3D人臉正面化方法的優(yōu)點(diǎn)，既充分保留了原始圖像中的信息，又保證了生成的正面圖像足夠逼真。與通用人臉識(shí)別方法的對(duì)比結(jié)果表明，盡管可以通過數(shù)據(jù)集的豐富和損失函數(shù)的設(shè)計(jì)顯著提升直接進(jìn)行人臉識(shí)別方法的性能，但目前對(duì)人臉姿態(tài)的處理仍然存在其必要性。然而在本文方法中，雖然通過由粗到細(xì)的學(xué)習(xí)方式提升了密集形變場回歸的魯棒性，但這樣的算法仍然有很高的自由度，壓縮形變場的冗余信息是一種更好的解決方式。在未來的工作中，一方面希望對(duì)密集形變場進(jìn)行結(jié)構(gòu)可保持的稀疏化，另一方面希望能夠進(jìn)一步設(shè)計(jì)出識(shí)別性能驅(qū)動(dòng)的自動(dòng)人臉或人臉特征對(duì)齊方法，發(fā)掘出最佳人臉對(duì)齊角度，并應(yīng)用到更復(fù)雜場景的人臉識(shí)別中。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡