張珂,于婷婷,石超君*,婁文碩,劉陽(yáng)
1.華北電力大學(xué)電子與通信工程系,保定 071003;2.華北電力大學(xué)河北省電力物聯(lián)網(wǎng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,保定 071003
人臉年齡合成致力于在不改變特定人臉圖像身份特征的基礎(chǔ)上模擬人臉過(guò)去或未來(lái)的變化。隨著科技不斷進(jìn)步,人臉年齡合成技術(shù)逐步應(yīng)用于人臉識(shí)別(Zhang 等,2021)、電影特效(Pumarola 等,2018)和公共安全(封順和高勝極,2022)等領(lǐng)域,具有廣泛的應(yīng)用場(chǎng)景。然而人臉?biāo)ダ线M(jìn)程不僅受年齡影響,還受外界環(huán)境因素干擾,具有較大個(gè)體差異(張珂等,2019)。此外,受年齡樣本數(shù)據(jù)收集困難等問(wèn)題制約,人臉年齡合成任務(wù)富有挑戰(zhàn)性。
近年來(lái),基于深度學(xué)習(xí)模型的人臉年齡合成方法逐步取代傳統(tǒng)基于物理模型和原型的方法(Fu等,2010),取得顯著效果。其中基于生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)的人臉年齡合成方法作為主流方法(Li等,2018;Liu 等,2019a),在合成高質(zhì)量、年齡轉(zhuǎn)換準(zhǔn)確且自然的人臉圖像上取得優(yōu)異的成果。
國(guó)內(nèi)外研究人員已開(kāi)展豐富的人臉年齡合成模型研究。Yang 等人(2018)提出將生成對(duì)抗網(wǎng)絡(luò)(GAN)應(yīng)用于人臉年齡合成任務(wù),可在規(guī)定年齡范圍內(nèi)實(shí)現(xiàn)年齡轉(zhuǎn)換。為增強(qiáng)圖像的身份一致性,Tang 等人(2018)提出了身份保存模塊,旨在保證經(jīng)過(guò)年齡合成后的人臉圖像與輸入人臉具有相同身份特征,但該模型的輸出圖像與原始輸入相比,丟失了部分細(xì)節(jié)信息。針對(duì)以上問(wèn)題,Li 等人(2021)將簡(jiǎn)單年齡估計(jì)器嵌入到常規(guī)編碼器—解碼器架構(gòu),通過(guò)與生成器聯(lián)合訓(xùn)練年齡估計(jì)器來(lái)為面部年齡合成任務(wù)推導(dǎo)出個(gè)性化年齡嵌入。Zhu 等人(2020)引入了全局和局部注意力機(jī)制以替代像素?fù)p失,有效減少了圖像模糊的問(wèn)題,保留了背景信息和人臉身份信息。為進(jìn)一步限制對(duì)年齡無(wú)關(guān)區(qū)域的修改,Alaluf等人(2021)提出了一種基于StyleGAN 的年齡轉(zhuǎn)換方法(style-based age manipulation,SAM),該方法的生成器編碼結(jié)構(gòu)基于經(jīng)過(guò)預(yù)訓(xùn)練的StyleGAN,將真實(shí)人臉圖像映射到潛空間中。SAM將連續(xù)的老化過(guò)程作為輸入年齡和期望年齡之間的回歸任務(wù),學(xué)習(xí)解耦的非線性路徑,為生成的圖像提供細(xì)粒度的控制。
上述方法在年齡合成任務(wù)中取得了一定效果,但仍存在一些共性問(wèn)題。目前人臉年齡合成模型過(guò)多關(guān)注人臉紋理信息,但是人臉年齡特征不是單一特征,而是多尺度特征的集合,年齡改變進(jìn)程在人臉上表現(xiàn)為輪廓、發(fā)色和紋理等多尺度特征的協(xié)同變化。由于卷積層感受野范圍受限,卷積層難以捕獲圖像中長(zhǎng)距離像素間的依賴(lài)性,對(duì)圖像多尺度特征提取不充分。而隨著卷積層堆疊,模型網(wǎng)絡(luò)深度增加,有效信息淹沒(méi)在冗余信息中,制約了網(wǎng)絡(luò)對(duì)人臉年齡顯著區(qū)域的編輯能力。
為解決以上問(wèn)題,本文有效提取了人臉圖像多尺度特征,并針對(duì)人臉年齡合成任務(wù)中關(guān)鍵特征篩選和對(duì)人物身份保持問(wèn)題進(jìn)行了更進(jìn)一步的探究。本文貢獻(xiàn)如下:1)提出了并行三通道空洞卷積殘差塊,采用3 種不同膨脹系數(shù)的空洞卷積核提取和融合不同尺度的人臉特征,讓身份和細(xì)節(jié)特征更豐富,其中空洞卷積間共享參數(shù)。2)設(shè)計(jì)了通道—位置注意力機(jī)制,對(duì)人臉特征的長(zhǎng)度、寬度和深度3 個(gè)維度,分別進(jìn)行了顯著性計(jì)算,增加了模型感知力,解決了特征冗余問(wèn)題。3)在FFHQ(Flickr-faces-highquality)數(shù)據(jù)集上驗(yàn)證了本文提出的PDA-GAN(GAN composed of the parallel dilated convolution and channel-coordinate attention mechanism)具有優(yōu)良的身份保持能力和年齡生成準(zhǔn)確性。
本文提出了基于并行三通道空洞卷積殘差塊(parallel three-channel dilated convolution residual block,PTDCRB)和通道—位置注意力機(jī)制(channelcoordinate attention mechanism,CCAM)的人臉年齡圖像合成模型,結(jié)構(gòu)如圖1 所示。該方法引入了PTDCRB,在不增加參數(shù)計(jì)算量的同時(shí)可獲得更大的感受野。同時(shí),PTDCRB的3個(gè)不同膨脹系數(shù)的支路也融合了不同尺度人臉特征,彌補(bǔ)了單一卷積核感受野受限問(wèn)題,提升了特征尺度上的多樣性和總量上的豐富度,為人臉圖像合成提供了豐富信息。此外,本文提出CCAM,使模型能夠?qū)W習(xí)圖像通道和空間位置的顯著性特征——對(duì)人臉特征的長(zhǎng)度、寬度和深度3 個(gè)維度,分別進(jìn)行了顯著性計(jì)算,增強(qiáng)了網(wǎng)絡(luò)對(duì)整體面部圖像以及面部紋理的分析能力。結(jié)合在FFHQ 數(shù)據(jù)集上預(yù)訓(xùn)練的生成器解碼器,構(gòu)建了一個(gè)端到端的人臉年齡圖像合成模型。
圖1 PDA-GAN結(jié)構(gòu)圖Fig.1 Network structure diagram of PDA-GAN
傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)如AlexNet、GoogLeNet 通過(guò)堆疊卷積層和池化層的方式構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),提取圖像深層特征。然而隨著網(wǎng)絡(luò)加深,這種堆疊結(jié)構(gòu)會(huì)不可逆地丟失人臉特征,且單一、尺度受限的卷積核難以對(duì)圖像多尺度特征信息進(jìn)行提取。而人臉年齡信息是由微觀到宏觀的多尺度特征組成,要求網(wǎng)絡(luò)具有相應(yīng)特征提取能力。
本文引入PTDCRB 用于提取圖像多尺度信息,以解決目前存在的問(wèn)題,結(jié)構(gòu)如圖2所示。
圖2 并行三通道空洞卷積殘差塊Fig.2 Parallel three-channel dilated convolution residual block
每個(gè)PTDCRB 由并行的3 個(gè)空洞卷積通道構(gòu)成,并行實(shí)現(xiàn)同時(shí)對(duì)特征進(jìn)行提取。不同支路上的空洞卷積設(shè)置了不同的膨脹系數(shù),分別為1,2,3,該參數(shù)的含義是指卷積核處理數(shù)據(jù)的間隔距離??斩淳矸e通過(guò)在普通卷積核上按一定間距填0 構(gòu)建新的卷積方式,示意圖如圖3所示。
圖3 空洞卷積Fig.3 Dilated convolution((a)rrate=1;(b)rrate=2;(c)rrate=3)
當(dāng)膨脹系數(shù)等于1 時(shí),即為普通卷積。膨脹系數(shù)大于1 時(shí),在卷積核大小不變的情況下,空洞卷積不需要學(xué)習(xí)更多參數(shù)就能獲得更大的感受野,以捕獲更大尺度特征,且不會(huì)造成信息損失。圖3(a)是普通卷積(即膨脹系數(shù)rrate=1 的空洞卷積),感受野為3 × 3;圖3(b)采用膨脹系數(shù)rrate=2 的空洞卷積,感受野為5 × 5;圖3(c)代表的空洞卷積膨脹系數(shù)為rrate=3,感受野為7 × 7。感受野計(jì)算式為
式中,k代表卷積核大小,rrate代表空洞卷積的膨脹系數(shù),V代表感受野的大小。初始3 × 3 卷積核經(jīng)過(guò)擴(kuò)張后感受野為[3 × 3,5 × 5,7 × 7],在同一特征上采用多個(gè)膨脹系數(shù)的卷積核進(jìn)行特征提取能獲得不同尺度信息分量,有利于增強(qiáng)特征豐富度和對(duì)圖像多尺度特征提取的準(zhǔn)確性。最后再將3 個(gè)空洞卷積分支合并,對(duì)提取后的特征進(jìn)行通道拼接和降維,防止信息冗余。
PTDCRB 每個(gè)分支共享權(quán)值,削弱網(wǎng)絡(luò)參數(shù)量。將膨脹系數(shù)不同的空洞卷積提取不同尺寸的特征,并經(jīng)過(guò)相同的特征提取網(wǎng)絡(luò)來(lái)進(jìn)行一致性變換。這樣做的目的是在不增加參數(shù)計(jì)算量的同時(shí)獲得更大的自適應(yīng)感受野,而不同尺度的特征信息在同一層經(jīng)過(guò)統(tǒng)一變化,有利于增強(qiáng)對(duì)圖像多尺度特征豐富度,進(jìn)而促進(jìn)身份和圖像細(xì)節(jié)信息保留。
PTDCRB 中每個(gè)支路第1 層采用1 × 1 的卷積層,第2 層為膨脹系數(shù)不同的空洞卷積,第3 層使用1 × 1的卷積層進(jìn)行降維,提高計(jì)算效率。
引入PTDCRB 提取圖像特征的優(yōu)勢(shì)在于,一方面在不增加計(jì)算量和不增加信息損失的同時(shí)保持空間分辨率,也減少了過(guò)擬合問(wèn)題;另一方面通過(guò)膨脹系數(shù)擴(kuò)大感受野,可以同時(shí)在不同感受野的分支上學(xué)習(xí)所有尺度特征,捕獲了多尺度的上下文信息,隨著樣本數(shù)量增加,保留了全局語(yǔ)義層次更高的特征。對(duì)于人臉年齡合成任務(wù)來(lái)說(shuō),獲得更大的感受野提取到的多尺度信息意味著能更好地捕獲到整體的面部全局信息。
注意力機(jī)制已廣泛應(yīng)用于各種計(jì)算機(jī)視覺(jué)任務(wù)中,例如圖像分類(lèi)、圖像分割和圖像合成,使網(wǎng)絡(luò)學(xué)會(huì)關(guān)注重要特征而忽略不相關(guān)特征。近期的研究證明注意力機(jī)制對(duì)于提升模型性能有顯著的效果。通過(guò)訓(xùn)練,注意力機(jī)制聚焦于重點(diǎn)目標(biāo)區(qū)域,削弱不重要區(qū)域的信息。
本文提出的CCAM 如圖4 所示。CCAM 分為兩部分,即通道注意力(channel attention)機(jī)制和位置注意力(coordinate attention)機(jī)制。首先對(duì)特征向量的通道維度進(jìn)行顯著度篩選,保留特征中更有意義的通道信息,學(xué)習(xí)不同通道的重要性以解決特征冗余問(wèn)題。再將位置信息嵌入到通道注意后的特征向量中,受直角坐標(biāo)系定位的思想啟發(fā),分別沿長(zhǎng)和寬兩個(gè)正交方向進(jìn)行注意力運(yùn)算,將水平和垂直方向的注意力機(jī)制融合,方便捕獲特征在不同位置的依賴(lài)關(guān)系。
圖4 通道—位置注意力機(jī)制Fig.4 Channel-coordinate attention residual module
通道注意力的輸入特征Fin通過(guò)全局平均池化和全局最大池化分別進(jìn)行下采樣聚合整個(gè)通道信息,兩個(gè)池化操作將每個(gè)通道的全局信息壓縮成兩個(gè)C× 1 × 1 的標(biāo)量作為空間特征統(tǒng)計(jì),并進(jìn)行級(jí)聯(lián)拼接得到Fcat,具體為
將提取到的特征級(jí)聯(lián)拼接后,經(jīng)過(guò)1 × 1卷積運(yùn)算后輸入到sigmoid 激活函數(shù)中進(jìn)行非線性變換,得到尺度為C× 1 × 1 的通道注意力掩膜Maskc,具體為
式中,掩膜上對(duì)應(yīng)位置的激活度代表了該通道的顯著系數(shù)。得到的通道注意特征圖Fc是通過(guò)輸入特征向量與激活后的通道注意力掩膜相乘獲得的,計(jì)算過(guò)程為
通道注意力中的池化層幫助模型捕捉全局信息,構(gòu)建通道之間的相互依賴(lài)性,增強(qiáng)模型對(duì)信息通道的敏感性。特征向量經(jīng)過(guò)通道注意力機(jī)制加強(qiáng)后,再送入到位置注意力機(jī)制中對(duì)位置顯著性和長(zhǎng)程依賴(lài)關(guān)系學(xué)習(xí)能力進(jìn)行加強(qiáng)。
位置注意力機(jī)制保留對(duì)捕捉圖像結(jié)構(gòu)和產(chǎn)生空間選擇性注意力圖至關(guān)重要的方向信息,通過(guò)融入水平和垂直方向的注意力向量捕獲了特征的位置依賴(lài)關(guān)系,有利于定位和識(shí)別顯著的區(qū)域,更有效地捕捉了空間位置信息。
為了促使注意力機(jī)制能夠關(guān)注具有精確位置信息的空間特征向量,經(jīng)過(guò)兩個(gè)全局池化操作被分解為兩個(gè)一維的特征向量。具體地,輸入特征X的維度為H×W×C,采用2 個(gè)水平方向的池化核(H,1)和垂直方向的池化核(1,W),沿著輸入特征圖每個(gè)通道的水平方向和垂直方向分別進(jìn)行池化操作,從而獲得包含輸入特征圖的x、y軸方向相關(guān)位置信息的特征向量。
水平方向特征計(jì)算為
垂直方向特征計(jì)算為
式中,W和H分別為特征圖的寬和高。通過(guò)兩種變換可以沿著兩個(gè)空間方向聚合特征,生成位置感知的特征。接著將zh和zw特征級(jí)聯(lián)后,通過(guò)1 × 1卷積F獲得位置注意力圖f,其過(guò)程為
式中,F(xiàn)為1 × 1 卷積,cat為級(jí)聯(lián)操作。隨后對(duì)特征圖f進(jìn)行空間維度拆分并轉(zhuǎn)置,結(jié)合1 × 1卷積,生成一對(duì)方向感知和位置敏感的注意力圖gh和gw,經(jīng)過(guò)1 × 1 卷積統(tǒng)一通道數(shù),利用sigmoid 函數(shù)獲得注意力的權(quán)重?cái)?shù)據(jù),具體為
最后對(duì)gh和gw展開(kāi)用于注意力權(quán)重,得到注意力機(jī)制的輸出坐標(biāo)圖為Y,計(jì)算為
CCAM 是一種利用通道信息和位置信息綜合信息的注意力機(jī)制。網(wǎng)絡(luò)加入CCAM 后,提供了額外的信息來(lái)增強(qiáng)注意力區(qū)域的視覺(jué)效果,提高對(duì)通道信息和位置信息的獲取能力,降低下采樣操作帶來(lái)的影響,而不會(huì)造成信息丟失。注意力機(jī)制捕獲位置信息和通道信息的內(nèi)部相關(guān)性,提高網(wǎng)絡(luò)對(duì)信息的敏感性。CCAM 通過(guò)突出重要信息和抑制不重要信息來(lái)增強(qiáng)特征的表達(dá),強(qiáng)制網(wǎng)絡(luò)直接學(xué)習(xí)特征圖長(zhǎng)、寬、深3 個(gè)維度上的殘差。注意力機(jī)制中最關(guān)鍵的是能自適應(yīng)地調(diào)整人臉特征和目標(biāo)年齡集成的有效區(qū)域,使其參與人臉各個(gè)部位合成。
本文的編碼器整體使用如下幾個(gè)損失函數(shù)加權(quán)組合進(jìn)行訓(xùn)練。損失函數(shù)表達(dá)式為
式中,L2,LLPIPS,Lid,Lage,Ladv分別是像素?fù)p失、感知損失、身份損失、年齡損失和對(duì)抗損失,λ(·)是定義損失權(quán)重的常數(shù),分別為λl2=1,λlpips=0.8,λid=0.1和λage=4。
1.3.1 對(duì)抗損失
為了生成更加真實(shí)的年齡合成圖像,遵循生成對(duì)抗網(wǎng)絡(luò)(GAN)的訓(xùn)練過(guò)程,將對(duì)抗損失同時(shí)應(yīng)用到生成器G和判別器D,對(duì)抗損失計(jì)算為
1.3.2 身份損失
由于訓(xùn)練生成器時(shí)采用年齡標(biāo)簽進(jìn)行約束,而非配對(duì)的真實(shí)圖像監(jiān)督,需要依靠身份約束保證輸出圖像中的人臉與輸入圖像身份一致。由于身份保持是年齡合成過(guò)程建模的一個(gè)關(guān)鍵挑戰(zhàn),本文采用多種身份損失對(duì)生成圖像身份保留進(jìn)行聯(lián)合約束,以增強(qiáng)網(wǎng)絡(luò)的身份保留能力。
常見(jiàn)的重建損失有來(lái)自像素級(jí)和特征級(jí)的兩種約束。首先對(duì)生成圖像進(jìn)行逐像素的身份約束,計(jì)算合成圖像和源圖像之間的余弦相似性,縮小源圖像x和其合成圖像PDA(x,t)之間的差異,迫使生成器合成與輸入圖像的身份一致的圖像。身份損失定義為
式中,R代表預(yù)訓(xùn)練的ArcFace(Deng 等人,2019)網(wǎng)絡(luò)代表余弦相似度。其次,本文使用L2損失來(lái)學(xué)習(xí)生成和相似性,給定輸入圖像x和目標(biāo)年齡t,L2損失函數(shù)為
式中,PDA代表本文模型。輸入源圖像x與目標(biāo)年齡t,PDA模型目的是將源圖像x轉(zhuǎn)換為期望目標(biāo)年齡t下的合成圖像PDA(x,t)。
但僅采用像素級(jí)損失將導(dǎo)致重建結(jié)果模糊,且無(wú)法獲得抽象特征的相似性,因此使用LLPIP(SZhang等,2018)損失來(lái)學(xué)習(xí)感知相似性,LLPIPS損失函數(shù)為
式中,F(xiàn)代表AlexNet特征提取器。
1.3.3 年齡損失
為了使經(jīng)過(guò)年齡合成網(wǎng)絡(luò)后的圖像年齡與目標(biāo)年齡相符,本文使用年齡損失,計(jì)算式為
式中,P表示預(yù)先訓(xùn)練的年齡預(yù)測(cè)網(wǎng)絡(luò)(Rothe 等,2018),用于估計(jì)目標(biāo)圖像年齡。給定目標(biāo)年齡t,計(jì)算合成圖像年齡與目標(biāo)年齡t的L2損失,年齡損失的引入可以提升年齡合成的準(zhǔn)確性。
本文以基于風(fēng)格的年齡變換模型(SAM)(Alaluf等,2021)衍生模型為Baseline,其采用深度殘差網(wǎng)絡(luò)(residual network-50,ResNet-50 )為生成器編碼器主干網(wǎng)絡(luò)。訓(xùn)練集采用FFHQ,包含來(lái)自Flickr 網(wǎng)站70 000 幅分辨率為1 024 × 1 024 像素的高清人臉圖像,涉及年齡、種族和光照等不同屬性。本文所有評(píng)估均在CelebA HQ(large-scale celebfaces attributes dataset-high quality)(Karras 等,2018)測(cè)試數(shù)據(jù)集上進(jìn)行。CelebA-HQ 數(shù)據(jù)集包含30 000 幅高清圖像,隨機(jī)選擇2 000 幅高分辨率人臉圖像作為測(cè)試集。測(cè)試集中圖像年齡分布如圖5所示。
圖5 CelebA-HQ測(cè)試集年齡分布Fig.5 CelebA-HQ test dataset age distribution
實(shí)驗(yàn)環(huán)境中涉及到的模型均在圖像工作站中完成,工作站搭載雙通道Intel(R)Xeon(R)CPU E5-2620 v4 @ 2.10 GHz,以及雙通道NVIDIA Geforce RTX 3090 24 GB,代碼在pytorch 1.11.0 環(huán)境下運(yùn)行,支撐其的是CUDA 11.4、cuDNN8.0。本文模型訓(xùn)練階段迭代輪次均為500 k,初始學(xué)習(xí)率設(shè)置為0.001,采用ranger優(yōu)化器。
將本文方法與當(dāng)前最新公開(kāi)代碼的主流人臉年齡合成網(wǎng)絡(luò)年齡壽命轉(zhuǎn)換合成模型(lifespan age transformation synthesis,LIFE)(Or-El 等,2020)、高分辨率人臉年齡編輯模型(high resolution face age editing,HRFAE)(Yao 等,2021)和SAM(Alaluf 等,2021)進(jìn)行比較,通過(guò)定性和定量對(duì)比實(shí)驗(yàn)以驗(yàn)證本文方法的有效性。
本文中LIFE、HRFAE 和SAM 的結(jié)果均來(lái)自原作者提供的官方實(shí)現(xiàn)模型。由于以上3 個(gè)模型生成目標(biāo)年齡(組)不同,對(duì)比樣本組數(shù)也有差異,本文遵循以上3個(gè)模型的實(shí)驗(yàn)設(shè)置,分別進(jìn)行比較。
PDA-GAN 模型與HRFAE 的定性實(shí)驗(yàn)結(jié)果展示如圖6 所示。由圖6 可見(jiàn),PDA-GAN 具有較好的身份辨識(shí)度,且各年齡組的生成樣本有較好的連續(xù)性。有清晰的老化特征,人臉隨年齡變化較為自然。人臉隨年齡變化過(guò)程包含著復(fù)雜的內(nèi)部機(jī)理,反映在圖像上是多尺度特征的變化集合。雖然HRFAE 能夠生成高分辨率圖像,但其聚焦于局部特征,在不同年齡之間產(chǎn)生紋理細(xì)微變化,如皮膚和眼周紋理,但其缺乏對(duì)宏觀特征的學(xué)習(xí)。相比之下,本文采用了PTDCRB,融合了多尺度人臉特征信息,能建模從微觀到宏觀的人臉老化特征,能夠更好地對(duì)頭部形狀(如下顎線)和紋理細(xì)節(jié)的變化進(jìn)行建模。
圖6 PDA-GAN和HRFAE對(duì)比示意圖Fig.6 PDA-GAN and HRFAE comparison diagram
SAM 合成圖像有較為自然的紋理,但也存在和HRFAE 一樣的問(wèn)題,即不同年齡組之間變化較不顯著,且對(duì)細(xì)節(jié)和背景信息保留做的不夠充分。PDAGAN 在生成更多紋理細(xì)節(jié)的同時(shí)保留了更多與年齡無(wú)關(guān)的圖像細(xì)節(jié)(如嘴型和瞳孔顏色)。引入CCAM 的網(wǎng)絡(luò)具有更強(qiáng)的篩選能力和結(jié)構(gòu)約束性,能夠更加清晰地區(qū)分與年齡相關(guān)的空間區(qū)域,此外,對(duì)通道注意力計(jì)算也使得與年齡相關(guān)的通道信息更加顯著,增強(qiáng)模型感知力。
如圖7 所示,LIFE 在幼年年齡組上有較好的表現(xiàn),這得益于其在原有數(shù)據(jù)集基礎(chǔ)上,增加了幼年數(shù)據(jù)樣本。模型能夠成功捕獲幼年時(shí)期的頭部形狀變化規(guī)律,但在后續(xù)的年齡組上效果遜色于PDAGAN。從圖7 中可以看出,LIFE 過(guò)濾掉人物背景信息,只保留了核心區(qū)域。
圖7 PDA-GAN和SAM對(duì)比示意圖Fig.7 PDA-GAN and SAM comparison diagram
然而,背景分割會(huì)帶來(lái)嚴(yán)重的圖像割裂和偽影,如圖8中樣本1所示。此外,如樣本3和樣本4所示,PDA-GAN 能針對(duì)年齡自適應(yīng)地去掉不恰當(dāng)?shù)膶傩裕ㄈ绾殻?,而LIFE 則無(wú)法做到,這也進(jìn)一步證明PDA-GAN年齡合成的真實(shí)度。
圖8 PDA-GAN和LIFE對(duì)比示意圖Fig.8 PDA-GAN and LIFE comparison diagram
近年來(lái),人臉年齡合成方面的一些杰出工作(Liu 等,2019b;Yao 等,2021;吳柳瑋等,2020;Alaluf 等,2021;Li 等,2021;Jeon 等,2021)均采用曠視科技Face++人工智能開(kāi)發(fā)平臺(tái)作為年齡合成準(zhǔn)確度的客觀評(píng)價(jià)標(biāo)準(zhǔn)。為方便比較,本文也采用曠視科技Face++人工智能開(kāi)發(fā)平臺(tái)(Face++Application Programming Interface,F(xiàn)ace++API)作為評(píng)價(jià)指標(biāo)。為了從定量指標(biāo)上進(jìn)一步驗(yàn)證PDA-GAN相較于當(dāng)前主流模型LIFE、HRFAE 以及SAM 方法的優(yōu)越性,本節(jié)分別從年齡準(zhǔn)確性和身份一致性?xún)蓚€(gè)維度進(jìn)行定量實(shí)驗(yàn),進(jìn)而評(píng)價(jià)模型合成圖像的質(zhì)量。
2.3.1 年齡準(zhǔn)確率
為了評(píng)估年齡圖像合成精度,本文采用Face++人臉年齡估計(jì)API對(duì)生成人臉年齡合成圖像進(jìn)行評(píng)估。用年齡估計(jì)API 對(duì)合成圖像進(jìn)行年齡判定,并計(jì)算均值,其中合成圖像預(yù)測(cè)年齡和目標(biāo)標(biāo)簽之間差異越小,表明年齡合成效果越準(zhǔn)確??紤]到模型適用年齡生成范圍不同,且鑒于數(shù)據(jù)集中年齡小于5 歲或大于70 歲的樣本量過(guò)少,與其余年齡段的樣本量相差較大,因此選擇PDA-GAN、LIFE 和SAM 的生成年齡范圍為5~70 歲,每間隔5 歲產(chǎn)生一個(gè)分組;而HRFAE 生成范圍為20~70 歲,每間隔5 歲產(chǎn)生一個(gè)分組。合成圖像經(jīng)過(guò)Face++年齡分類(lèi)API得到預(yù)測(cè)年齡值,并將其與生成標(biāo)簽值進(jìn)行比較,最終得到預(yù)測(cè)結(jié)果。上述4 個(gè)模型在各目標(biāo)年齡標(biāo)簽下合成圖像預(yù)測(cè)年齡分布以及和目標(biāo)值之間的差值如表1所示。
表1 LIFE、HRFAE、SAM和PDA-GAN在測(cè)試集上合成圖像的預(yù)測(cè)年齡分布Table 1 Predicted age distribution of synthetic images on the test set by LIFE,HRFAE,SAM and PDA-GAN
鑒于HRFAE 模型生成年齡范圍為20~70 歲,為了客觀公平,同時(shí)選取4 個(gè)模型在2 000 幅測(cè)試集圖像上分別生成的20~70 歲年齡段的11 組圖像。計(jì)算每幅圖像的預(yù)測(cè)年齡與目標(biāo)年齡差值平均值,結(jié)果如表2 所示,PDA-GAN 在合成的年齡圖像的準(zhǔn)確度上表現(xiàn)最佳,平均預(yù)測(cè)差值達(dá)到4.09。
表2 不同模型預(yù)測(cè)年齡分布與目標(biāo)年齡的平均差異Table 2 Different models predict age distribution and mean difference from target age
圖9 展示了上述4 個(gè)模型的年齡預(yù)測(cè)誤差隨著年齡的變化趨勢(shì)。PDA-GAN 在各分段上均優(yōu)于HRFAE 和SAM 模型,而LIFE 模型在幼年、青年段(5~15 歲)上優(yōu)于以上3 個(gè)模型,但是其在后續(xù)年齡上的生成年齡準(zhǔn)確度并不佳,尤其是在老年圖像中年齡誤差高達(dá)16.9。這是由于LIFE 增加了幼年圖像樣本數(shù),增強(qiáng)了模型合成幼年、青年圖像的準(zhǔn)確度。然而這并不能從根本上提升年齡合成精確度,其在增加年輕樣本數(shù)量的時(shí)候,不可避免地會(huì)造成樣本偏差,制約其生成其他年齡的能力。
圖9 不同模型預(yù)測(cè)年齡準(zhǔn)確性對(duì)比Fig.9 Comparison of the accuracy of different models for predicting age
2.3.2 身份一致性
為了客觀、有效地驗(yàn)證人臉相似性,人臉驗(yàn)證實(shí)驗(yàn)同樣在曠視科技Face++人工智能開(kāi)發(fā)平臺(tái)提供的API上進(jìn)行人臉比對(duì)。置信度即代表兩個(gè)樣本為同一身份的概率,數(shù)值范圍從0%~100%,數(shù)值越高代表兩個(gè)樣本身份越相似。本文將判定閾值設(shè)置為76.5%(He 等,2019),驗(yàn)證置信度高低表明模型身份信息保存能力好壞,即合成圖像和其對(duì)應(yīng)原始圖像是同一個(gè)人的準(zhǔn)確性高低。
本文采用深度學(xué)習(xí)方法,而非人工方法作為評(píng)判樣本身份驗(yàn)證置信度標(biāo)準(zhǔn)。深度學(xué)習(xí)方法能夠批量驗(yàn)證大量數(shù)據(jù),且具有客觀公平的衡量標(biāo)準(zhǔn)。在對(duì)比實(shí)驗(yàn)中,PDA-GAN、LIFE 和SAM 的生成年齡范圍為5~70歲,每隔5歲產(chǎn)生一個(gè)分組;而HRFAE生成范圍為20~70歲,每隔5歲產(chǎn)生一個(gè)分組。
表3和圖10給出了從原始年齡到目標(biāo)年齡的年齡合成圖像的平均身份置信度分?jǐn)?shù)。以驗(yàn)證各個(gè)模型在不同年齡的身份保留能力。
表3 LIFE、SAM、HRFAE和PDA-GAN在測(cè)試集上合成圖像身份置信度Table 3 LIFE,SAM,HRFAE,and PDA-GAN synthesize image identity confidence on the test set
圖10 不同模型身份置信度對(duì)比Fig.10 Comparison of identity confidence of different models
從表3 中可以看出,PDA-GAN 的平均身份置信度相較于對(duì)照組的3 個(gè)主流模型要高,SAM 和HRFAE次之,LIFE模型置信度最差。結(jié)合圖5和圖10可知,在原數(shù)據(jù)集集中分布的年齡組附近,各模型生成圖像身份驗(yàn)證置信度較高,而遠(yuǎn)離分布中心的生成樣本身份驗(yàn)證置信度則較低。合成圖像置信度曲線趨勢(shì)也符合原數(shù)據(jù)集分布特點(diǎn)。本文及對(duì)照的3個(gè)模型中,LIFE的身份驗(yàn)證置信度受年齡組影響最大,其次是本文模型和SAM,HRFAE則最為平穩(wěn)。
LIFE模型的身份保留能力明顯低于另外3個(gè)模型,其主要原因是LIFE 模型用分割算法裁剪了背景部分,但是分割方法容易將人臉區(qū)域誤裁,進(jìn)而導(dǎo)致人臉殘缺和偽影;此外缺失背景信息導(dǎo)致原圖像和生成圖像差異擴(kuò)大。綜合以上原因,最終導(dǎo)致圖像的置信度低。HRFAE 模型雖然平穩(wěn),但是其身份保持能力并不高,尤其是在20~50 歲年齡段中身份合成置信度并不優(yōu)秀。HRFAE 具有穩(wěn)定的身份保持能力,代價(jià)是較差的年齡合成精度。
PDA-GAN 采用PTDCRB 提取了人臉圖像中的多尺度特征,豐富了人臉多尺度細(xì)節(jié)信息,增加了圖像真實(shí)度。而SAM 和HRFAE 模型專(zhuān)注于面部紋理產(chǎn)生,但忽略了其他年齡特征,如宏觀面部輪廓和微觀發(fā)色信息。此外,PDA-GAN 引入CCAM 幫助模型篩選出顯著特征,使身份、年齡等與圖像質(zhì)量相關(guān)的特征能夠獲得高激活度,避免了信息冗余。兩個(gè)模塊之間協(xié)作,提高了各尺度特征豐富度,也提高了網(wǎng)絡(luò)感知和篩選能力,同時(shí)促進(jìn)了模型身份保留能力和年齡合成準(zhǔn)確度。此外,本文采用包括L2、Lid和LLPIPS共3個(gè)身份相關(guān)的損失函數(shù),促進(jìn)了身份保留能力。
2.3.3 年齡無(wú)關(guān)屬性保留度
人臉圖像不僅包含年齡,還有其他與年齡無(wú)關(guān)的屬性,如性別和面部情緒等。通過(guò)考察人臉年齡變化后的圖像和原始圖像的面部情緒和性別保留率,能夠體現(xiàn)出模型對(duì)屬性的甄別能力,只操控年齡相關(guān)屬性,同時(shí)充分地保留其他屬性。
選取的人臉面部情緒包括:驚喜、害怕、厭惡、高興、傷心、生氣和平靜共7 類(lèi),涵蓋了日常情緒變化,此外還選取了性別屬性用于評(píng)價(jià)模型對(duì)無(wú)關(guān)屬性的保留率。實(shí)驗(yàn)中選取年齡2~50 歲,共1 751 幅人臉圖像,生成目標(biāo)年齡為70 歲的老化圖像,并對(duì)比其年齡老化前后面部情緒和性別的保留情況。Face++人臉情緒API 能夠客觀地驗(yàn)證人臉情緒保留率,本文將置信度閾值設(shè)置為76.5%(He 等,2019),置信度數(shù)值越高代表兩個(gè)樣本屬性保留越精準(zhǔn)。本文還比較了性別保留率,將修改后的圖像與原始輸入圖像的性別屬性進(jìn)行比較。表4 給出了不同模型年齡無(wú)關(guān)屬性的保留度。實(shí)驗(yàn)結(jié)果表明,本文模型在改變年齡屬性時(shí)能夠更好地保留與年齡無(wú)關(guān)的屬性,有區(qū)分臉部細(xì)粒度屬性的能力。
表4 不同模型年齡無(wú)關(guān)屬性保留度Table 4 Different models age independent attribute retention
為證明PDA-GAN 各個(gè)模塊的有效性,全面分析模型各個(gè)組成成分,即PTDCRB 和CCAM 的貢獻(xiàn),本文在Celeba-HQ 數(shù)據(jù)集2 000 幅測(cè)試圖像上分別設(shè)計(jì)了不同模塊的對(duì)比消融實(shí)驗(yàn)。
2.4.1 PTDCRB引入位置分析
為了驗(yàn)證在不同位置嵌入空洞卷積對(duì)于特征提取效果的影響,本文在SAM(Alaluf 等,2021)基礎(chǔ)上進(jìn)行修改,設(shè)計(jì)了使用ResNet-50作為生成器編碼器的主干網(wǎng)絡(luò),于不同位置嵌入PTDCRB 的改進(jìn)網(wǎng)絡(luò),對(duì)人臉身份驗(yàn)證置信度進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如圖11 所示,PTDCRB 在不同層的引入均對(duì)模型有不同程度的貢獻(xiàn)。其中PTDCRB-4 比PTDCRBi(i∈[1,3])表現(xiàn)更差,可能原因是,在深層特征圖中,人臉圖像信息已經(jīng)高度抽象,此時(shí)應(yīng)用大尺度卷積核也難以提取到更多有效信息。而在較淺的卷積層中加入PTDCRB,能夠同時(shí)捕獲淺層和深層的融合信息,因此能更好地促進(jìn)模型的身份保留能力。在實(shí)驗(yàn)中PTDCRB-3 的平均身份驗(yàn)證置信度最佳。因此,其他實(shí)驗(yàn)中將第3 殘差塊組替換為提出的PTDCRB組,構(gòu)成并行三通道空洞卷積殘差網(wǎng)絡(luò)。
圖11 不同位置引入PTDCRB的身份置信度對(duì)比Fig.11 Identity confidence comparison of PTDCRB introduced in different locations
2.4.2 PTDCRB膨脹系數(shù)分析
本文選取4 組膨脹系數(shù)組訓(xùn)練網(wǎng)絡(luò),分別為[1,2,3],[1,2,4],[1,3,5] 和[ 3,4,5]。對(duì)測(cè)試集圖像進(jìn)行身份置信度和預(yù)測(cè)年齡分布的實(shí)驗(yàn),選取其中10、30、50、70 這4組作為展示。從表5和表6中可以看出,與其他膨脹系數(shù)組相比,本文選?。?1,2,3] 作為膨脹系數(shù)的模型身份置信度和預(yù)測(cè)年齡分布最優(yōu)。因此,該實(shí)驗(yàn)表明設(shè)置適當(dāng)?shù)呐蛎浵禂?shù)對(duì)于空洞卷積網(wǎng)絡(luò)保持合理的精度水平至關(guān)重要。
表5 PTDCRB不同膨脹系數(shù)合成圖像身份置信度Table 5 PTDCRB identity confidence of composite images with different dilation rate /%
表6 PTDCRB不同膨脹系數(shù)合成圖像預(yù)測(cè)年齡分布Table 6 PTDCRB synthetic images with different dilation rate predict age distribution /%
2.4.3 不同注意力機(jī)制對(duì)比分析
為驗(yàn)證本文通道—位置注意力機(jī)制的有效性,分別測(cè)試了標(biāo)準(zhǔn)生成器結(jié)構(gòu)和引入通道—位置注意力機(jī)制的生成器結(jié)構(gòu)的網(wǎng)絡(luò)在年齡合成準(zhǔn)確度和身份驗(yàn)證置信度上的表現(xiàn)。從表7 和表8可以看出,在加入通道—位置注意力機(jī)制后,最終的身份驗(yàn)證置信度和生成年齡準(zhǔn)確度都得到了一定提升,能有效提升身份保留能力和年齡合成能力。
表7 CCAM消融實(shí)驗(yàn)身份驗(yàn)證置信度Table 7 CCAM ablation experiment verification confidence
表8 CCAM消融實(shí)驗(yàn)預(yù)測(cè)年齡分布Table 8 CCAM ablation experiments predict age distribution
為進(jìn)一步驗(yàn)證CCAM 的有效性,以及不同注意力機(jī)制對(duì)模型的影響,將本文模型中的CCAM 移除,替換為主流的擠壓激勵(lì)(squeeze-and-excitation,SE)、位置注意力模塊、卷積塊注意力模塊(convolutional block attention module,CBAM)作為對(duì)照組與PDA-GAN 進(jìn)行性能測(cè)試比對(duì),并測(cè)試其身份置信度屬性以驗(yàn)證其信息篩選能力。從圖12 可知,采用CCAM 注意力機(jī)制的PDA-GAN 具有最高的身份保留能力,平均身份驗(yàn)證置信度達(dá)到96.9%,高于其他注意力機(jī)制的對(duì)照模型。采用位置、通道結(jié)合的混合注意力機(jī)制CCAM、CA 和CBAM 的表現(xiàn)要優(yōu)于只采用單一注意力機(jī)制的SE,用恰當(dāng)?shù)姆绞阶尪喾N注意力機(jī)制協(xié)同工作能有效促進(jìn)模型對(duì)特征的篩選能力和感知能力。
圖12 不同注意力機(jī)制消融實(shí)驗(yàn)身份置信度對(duì)比Fig.12 Comparison of identity confidence in ablation experiments with different attention mechanisms
本文針對(duì)人臉年齡合成任務(wù)中生成圖像偽影嚴(yán)重和人臉特征保留效果不佳的問(wèn)題,提出了一種基于并行三通道空洞卷積殘差塊和通道—位置注意力機(jī)制的人臉年齡合成網(wǎng)絡(luò)。由于現(xiàn)有模型聚焦于合成人臉紋理以模擬年齡合成進(jìn)程,忽略對(duì)多尺度特征的提取,因此,本文提出了共享權(quán)值的并行三通道空洞卷積殘差塊,捕獲各尺度特征信息,增強(qiáng)模型細(xì)節(jié)特征豐富度。此外,為了增強(qiáng)模型對(duì)敏感特征的表達(dá)能力,本文提出通道—位置注意力機(jī)制,可同時(shí)學(xué)習(xí)通道和空間維度的特征顯著性。最后,在并行三通道空洞卷積殘差塊和通道—位置注意力機(jī)制的共同作用下,模型的人臉身份保留能力和年齡合成精度都得到了提升,解決了生成圖像偽影問(wèn)題。實(shí)驗(yàn)結(jié)果表明,本文方法在人臉年齡合成任務(wù)上的表現(xiàn)優(yōu)于對(duì)比方法,能夠合成具有較高真實(shí)度和準(zhǔn)確性的自然逼真的目標(biāo)年齡人臉圖像。
本文方法在合成兒童人臉圖像時(shí)仍然存在不足。兒童的面部輪廓以及五官的比例與成人有較大差別,并且數(shù)據(jù)集中的人臉樣本主要集中在青壯年群體。而幼年圖像樣本少,導(dǎo)致與不同年齡組的樣本數(shù)量存在偏差,缺乏訓(xùn)練樣本的年齡組難以取得好的表現(xiàn)。受制于以上因素,本模型在幼年的年齡組中表現(xiàn)并不出色。為此,在今后的研究中需要進(jìn)一步改進(jìn)模型,提升模型對(duì)小樣本數(shù)據(jù)的學(xué)習(xí)能力,提升模型在各年齡組的表現(xiàn)。此外,當(dāng)下硬件的算力已經(jīng)有了長(zhǎng)足的進(jìn)步,作為科學(xué)研究付出一定的算力為代價(jià)是有意義的。但當(dāng)模型落地應(yīng)用時(shí),如何在進(jìn)一步簡(jiǎn)化模型復(fù)雜度的同時(shí)提升效率,也是今后重要的研究方向。