郭迎春,王靜潔,劉 依,夏偉毅,張吉俊,李學(xué)博,王天瑞
(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津300400)
最近,“AI換臉”頻頻登上熱搜,其主要技術(shù)就是表情合成,這是計(jì)算機(jī)圖形學(xué)角色動(dòng)畫領(lǐng)域的關(guān)鍵技術(shù)之一。表情合成是一個(gè)經(jīng)典的圖形學(xué)問題,目的是在一個(gè)特定的目標(biāo)人像上合成具有特定表情的人臉圖像。隨著科技的發(fā)展,如果將“AI換臉”技術(shù)應(yīng)用在影視劇制作領(lǐng)域,可以大大減輕剪輯人員的工作量[1]。表情合成涉及計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、圖像處理、人機(jī)交互和面部解剖學(xué)等多個(gè)領(lǐng)域,可以應(yīng)用在數(shù)字娛樂領(lǐng)域、人機(jī)交互、仿生代理及數(shù)據(jù)擴(kuò)充等諸多領(lǐng)域[2]。因此,如何魯棒地合成自然逼真的人臉表情成為一個(gè)富有挑戰(zhàn)性的熱點(diǎn)研究課題[3]。
人臉表情合成圖像應(yīng)當(dāng)具有3個(gè)特點(diǎn):(1)完成表情遷移的任務(wù),即合成指定的目標(biāo)表情,改變?cè)磮D像中的人臉表情;(2)保留源人物的身份信息,即改變?cè)慈宋锉砬榈耐瑫r(shí),不能改變?cè)慈宋锏纳矸萏卣?;?)合成圖像應(yīng)當(dāng)具有合理、自然、逼真的面部細(xì)節(jié),不應(yīng)存在大量偽影或圖像偽造痕跡。目前已提出的人臉表情合成方法大致可分為兩大類:基于計(jì)算機(jī)圖形學(xué)技術(shù)的傳統(tǒng)方法和基于深度學(xué)習(xí)的表情合成方法?;谟?jì)算機(jī)圖形學(xué)技術(shù)的傳統(tǒng)方法主要研究目標(biāo)合成圖像與真實(shí)輸入圖像的人臉紋理之間的對(duì)應(yīng)關(guān)系。早期方法[4-8]通過3D人臉紋理模型、特征對(duì)應(yīng)或光流圖等信息來扭曲人臉圖像,或利用人臉補(bǔ)丁合成目標(biāo)圖像等。常用方法有表情映射[9]、圖像變形[10]、圖像檢索[11-12]和統(tǒng)計(jì)學(xué)模型等。這些傳統(tǒng)方法可以合成逼真的高分辨率的人臉圖像。
近年來深度學(xué)習(xí)在很多領(lǐng)域都取得了突破性進(jìn)展,亦為表情合成提供了一個(gè)全新的思路。在表情合成領(lǐng)域中,基于深度學(xué)習(xí)的方法首先利用卷積神經(jīng)網(wǎng)絡(luò)提取人臉特征,將圖像從高維空間映射到低維的特征空間中,然后向網(wǎng)絡(luò)中添加目標(biāo)表情信息或更改原來的表情特征,再利用深度神經(jīng)網(wǎng)絡(luò)合成具有目標(biāo)表情的人臉圖像映射回高維空間。其中,目標(biāo)表情信息屬于高級(jí)語義信息,因此深度方法可以通過高級(jí)語義來控制圖像的合成。
在表情合成方法的研究歷程中,自1972年P(guān)arke[13]用計(jì)算機(jī)合成人臉圖像之后的40多年內(nèi),基于計(jì)算機(jī)圖形學(xué)技術(shù)的傳統(tǒng)方法在這一領(lǐng)域占據(jù)主導(dǎo)地位。傳統(tǒng)方法雖然可以合成清晰的人臉圖像,但很難合成從未見過的人臉或人臉區(qū)域,如口內(nèi)牙齒區(qū)域或皮膚皺紋,且傳統(tǒng)方法更依賴于人工精心設(shè)計(jì)的復(fù)雜模型,每個(gè)模型都是針對(duì)具體任務(wù)設(shè)計(jì)的,泛化能力及魯棒性較差。與之相比,深度方法是數(shù)據(jù)驅(qū)動(dòng)的、基于大量訓(xùn)練樣本的特征學(xué)習(xí),所提取的抽象特征魯棒性更強(qiáng),泛化能力更好。但深度方法目前存在的問題是很難對(duì)圖像的合成進(jìn)行細(xì)粒度控制,且合成的表情圖像缺乏人臉細(xì)節(jié)的表達(dá),如皺紋或由于凹陷產(chǎn)生的陰影現(xiàn)象等。隨著深度學(xué)習(xí)的發(fā)展,2014年Goodfellow等[14]提出了生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial network,GAN)。GAN作為一種近年來生成效果較好的模型,在合成逼真圖像方面具有顯著優(yōu)勢(shì)。同時(shí),表情合成領(lǐng)域也涌現(xiàn)出大量的GAN變體等研究方法,基于GAN的表情合成方法目前已成為本領(lǐng)域的主流方法。
本文綜述了人臉特征信息的分類、基于深度學(xué)習(xí)的人臉表情生成的3大模型以及主要的損失函數(shù);著重介紹現(xiàn)有的人臉表情生成數(shù)據(jù)庫;總結(jié)了表情生成的實(shí)驗(yàn)評(píng)估方法以及現(xiàn)有研究的評(píng)價(jià)方法;對(duì)表情生成方法存在的問題進(jìn)行了分析討論,并對(duì)未來的研究方向和發(fā)展趨勢(shì)做出了展望。
在表情合成領(lǐng)域,包含人臉特征的標(biāo)簽信息對(duì)表情合成的質(zhì)量和效果至關(guān)重要。尤其在深度學(xué)習(xí)方法中,標(biāo)簽作為監(jiān)督信號(hào)輸入,引導(dǎo)網(wǎng)絡(luò)的訓(xùn)練過程,其作用不容忽視。一般最常見的標(biāo)簽是表情類別標(biāo)簽。為了使標(biāo)簽包含更多的人臉信息,研究人員使用人臉幾何特征作為標(biāo)簽。這些幾何特征標(biāo)簽有動(dòng)作單元(Action unit,AU)、人臉關(guān)鍵點(diǎn)和人臉輪廓圖等。
表情類別標(biāo)簽是最基本的情緒標(biāo)簽,也是表情數(shù)據(jù)庫中最常見的一種標(biāo)簽。一般將人的基本表情分為8類,分別是:快樂、悲傷、驚訝、憤怒、蔑視、厭惡、恐懼和中性。表情類別標(biāo)簽的獲取,可以從數(shù)據(jù)庫中直接獲得;隨著表情識(shí)別技術(shù)的發(fā)展,研究人員提出了很多可靠的表情識(shí)別算法,可以通過這些算法來獲得表情類別標(biāo)簽。傳統(tǒng)的表情識(shí)別算法首先通過主成分分析、獨(dú)立分量分析、Gabor小波、局部二值模式(Local binary pattern,LBP)算子和光流等方法進(jìn)行表情特征提取,然后使用K最近鄰(K-nearest neighbor,KNN)、隱馬爾可夫模型(Hidden Markov model,HMM)、貝葉斯分類算法和支持向量機(jī)(Support vector machines,SVM)等傳統(tǒng)機(jī)器學(xué)習(xí)算法,根據(jù)提取到的特征將輸入圖片分為某種基本表情類別。隨著深度學(xué)習(xí)的發(fā)展,很多方法應(yīng)用在表情識(shí)別領(lǐng)域,端到端地輸出表情類別。在卷積神經(jīng)網(wǎng)絡(luò)中,研究人員一般在網(wǎng)絡(luò)的末端使用softmax分類器或SVM等傳統(tǒng)分類算法來預(yù)測(cè)輸入圖片的表情類別。隨著表情識(shí)別算法發(fā)展得越來越成熟,很多平臺(tái)向用戶提供了識(shí)別應(yīng)用程序接口(Application programming interface,API),這些算法首先檢測(cè)出圖片中的人臉區(qū)域,然后針對(duì)臉部的表情返回識(shí)別結(jié)果。
面部動(dòng)作編碼系統(tǒng)(Facial action coding system,F(xiàn)ACS)是描述面部表情較為全面、客觀的系統(tǒng)之一,近年來在情感計(jì)算和計(jì)算機(jī)視覺領(lǐng)域受到越來越多的關(guān)注。表情是臉部肌肉聯(lián)合和協(xié)調(diào)作用的結(jié)果[15],不能被劃分為離散的或少數(shù)的類別。1978年,心理學(xué)家Ekman和Friesen開發(fā)了FACS系統(tǒng),以AU來描述表情狀態(tài)[16]。FACS系統(tǒng)描繪了臉部肌肉動(dòng)作和表情之間的對(duì)應(yīng)關(guān)系。根據(jù)人臉的解剖學(xué)特點(diǎn),Ekman等[16]將人臉劃分為若干個(gè)既相互獨(dú)立又相互聯(lián)系的AU,每個(gè)AU有6個(gè)強(qiáng)度,并分析了這些AU的運(yùn)動(dòng)特征及其所控制的主要區(qū)域及與之相關(guān)的表情。FACS中共有44個(gè)AU,直接與特定面部肌肉收縮有關(guān)的AU有30個(gè),雖然AU的數(shù)量相對(duì)較少,但已經(jīng)觀察到有超過7 000種不同的AU組合。如圖1所示,AU1代表抬起眉毛內(nèi)角,AU2代表抬起眉毛外角,AU6代表臉頰提升和眼輪匝肌外圈收緊,AU9代表皺鼻肌,AU25、AU26、AU27代表嘴巴張開的程度等[17]。不同的AU組合可以表現(xiàn)不同的表情,如圖2所示,AU9+AU25可表現(xiàn)為“憤怒”,AU9+AU16+AU25表現(xiàn)為“非常憤怒”,AU6+AU12表現(xiàn)為“微笑”,AU25代表張開嘴巴,因此AU6+AU12+AU25展示為“露著牙齒的笑”。
圖1 動(dòng)作單元示例Fig.1 Example diagrams of AUs
圖2 動(dòng)作單元組合示例Fig.2 Example diagrams of combination of AUs
Liu等[18]將12個(gè)AU的6個(gè)強(qiáng)度線性縮放到[-1,1],每個(gè)AU有相應(yīng)的強(qiáng)度值,形成一個(gè)12維的向量以表示目標(biāo)表情。通過將此向量標(biāo)簽輸入到模型中,指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練方向,生成帶有目標(biāo)表情的人臉圖像。
人臉關(guān)鍵點(diǎn)檢測(cè)是人臉相關(guān)任務(wù)中一個(gè)關(guān)鍵步驟,如表情識(shí)別、人臉識(shí)別、表情合成和人臉驗(yàn)證等,借助它可以提取豐富的人臉特征信息和表情信息[19]。人臉關(guān)鍵點(diǎn)檢測(cè)是對(duì)給定的人臉圖像定位出人臉區(qū)域的關(guān)鍵位置,包括眉毛、眼睛、鼻子、嘴巴和臉部輪廓等,是表情合成任務(wù)中的基礎(chǔ)環(huán)節(jié),因此產(chǎn)生了很多檢測(cè)方法[20-24],如何獲取高精度人臉關(guān)鍵點(diǎn),一直以來都是計(jì)算機(jī)視覺、模式識(shí)別和圖像處理等領(lǐng)域的熱點(diǎn)研究問題。
在標(biāo)注關(guān)鍵點(diǎn)過程中,關(guān)鍵點(diǎn)數(shù)量的選擇尤為重要。如果關(guān)鍵點(diǎn)數(shù)量過少,會(huì)導(dǎo)致人臉表情數(shù)據(jù)信息丟失過多,從而影響最終的人臉表情合成效果;相反,過多的關(guān)鍵點(diǎn)會(huì)導(dǎo)致標(biāo)定難度增大,而且容易產(chǎn)生誤差較大的離群點(diǎn),同時(shí)也可能產(chǎn)生冗余信息,影響人臉表情合成的效果。目前多數(shù)表情合成方法采取68個(gè)關(guān)鍵點(diǎn)進(jìn)行研究。圖3為使用Dlib機(jī)器學(xué)習(xí)庫對(duì)人臉圖像標(biāo)注面部關(guān)鍵點(diǎn)的示例,圖中選擇使用68個(gè)關(guān)鍵點(diǎn),以白色圓點(diǎn)表示。68個(gè)關(guān)鍵點(diǎn)可包含大部分的人臉特征信息,提取的關(guān)鍵點(diǎn)包括了眉毛的形狀、眼睛的輪廓、鼻子邊框線、嘴巴的上下嘴唇的位置以及人臉的外輪廓等信息。
圖3 人臉關(guān)鍵點(diǎn)示例Fig.3 Example diagrams of facial landmarks
人臉關(guān)鍵點(diǎn)信息是衡量表情表達(dá)的一項(xiàng)重要指標(biāo),因此研究人員用人臉關(guān)鍵點(diǎn)來指導(dǎo)監(jiān)督表情合成的過程。Song等[25]提出的G2-GAN(Geometry-guided generative adversarial network)網(wǎng)絡(luò)中,將目標(biāo)表情的人臉關(guān)鍵點(diǎn)熱圖和中性圖像一起輸入網(wǎng)絡(luò)中,合成帶有目標(biāo)表情的人臉圖像。G2-GAN中有2個(gè)生成器來執(zhí)行相反的任務(wù),表情合成和表情移除。在表情合成過程中,人臉關(guān)鍵點(diǎn)起到引導(dǎo)控制圖像的合成的作用;在表情移除過程中,人臉關(guān)鍵點(diǎn)表示對(duì)輸入圖像的解釋說明。Qiao等[26]提出的GCGAN(Geometry-contrastive generative adversarial network)網(wǎng)絡(luò)中,將目標(biāo)表情關(guān)鍵點(diǎn)圖像和輸入人臉圖像使用編碼器壓縮為特征向量,然后將這兩個(gè)特征向量級(jí)聯(lián),輸入到解碼器中生成帶有目標(biāo)表情的人臉圖像。
在使用人臉幾何信息指導(dǎo)表情合成過程中,除了人臉關(guān)鍵點(diǎn)信息,還可以將人臉關(guān)鍵點(diǎn)改進(jìn)為人臉輪廓特征圖來指導(dǎo)圖像的合成。在標(biāo)定人臉關(guān)鍵點(diǎn)后,將人臉關(guān)鍵點(diǎn)用線段連接,得到人臉輪廓特征圖如圖4所示。
圖4 人臉輪廓圖示例Fig.4 Facial contour sketches
文獻(xiàn)[27]將面試者的圖像編碼為特征圖,與面試官的目標(biāo)表情輪廓圖融合輸入到網(wǎng)絡(luò)中,生成面試官的目標(biāo)表情圖像。文獻(xiàn)[28]將局部缺損的輸入圖像和相應(yīng)的局部輪廓圖等信息一起輸入模型中,生成補(bǔ)全的完整原始圖像。文獻(xiàn)[27-31]表明,人臉關(guān)鍵點(diǎn)或人臉輪廓圖等這些幾何標(biāo)簽可以對(duì)表情的合成起到一定的引導(dǎo)作用。①http://vasc.ri.cmu.edu/idb/html/face/facial_expression/.https://doi.org/doi:10.18129/B9.bioc.FGNet.②https://mmifacedb.eu/.③http://www.kasrl.org/jaffe.html.④https://www.kaggle.com/deadskull7/fer2013.⑤http://www.multipie.org/.⑥http://mohammadmahoor.com/disfa/.⑦h(yuǎn)ttps://doi.org/10.1016/j.imavis.2014.06.002.⑧https://doi.org/10.1109/CVPR.2016.600.⑨https://www.pnas.org/content/111/15/E1454.full.⑩http://www.imm.dtu.dk/pubdb/edoc/imm3160.pdf.??http://www.f-zhou.com/fa_code.html.?https://ibug.doc.ic.ac.uk/resources/300-W/.?https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/.?http://blog.dlib.net/.?https://www.faceplusplus.com.cn/.?https://docs.opencv.org/master/d2/d42/tutorial_face_landmark_detection_in_an_image.html.
表1 總結(jié)了人臉特征信息的獲取方法。一般地,研究人員可選取相應(yīng)的人臉數(shù)據(jù)庫直接獲得人臉特征信息,如表情類別、AU、人臉關(guān)鍵點(diǎn)坐標(biāo)等。其次,研究人員可采用成熟的相關(guān)識(shí)別算法或檢測(cè)算法來得到人臉特征信息,如手工特征方法或預(yù)訓(xùn)練的深度模型等。
表1 人臉特征信息獲取方式Table 1 Methods of extracting facial features
在圖像合成領(lǐng)域,3大深度生成模型為自編碼器(AutoEncoder,AE)、GAN及GAN變體。這3種深度模型同樣在表情合成領(lǐng)域占據(jù)壟斷地位。早期的深度方法使用AE的編解碼結(jié)構(gòu)來生成人臉,通過編碼器和解碼器來實(shí)現(xiàn)特征提取及生成圖像等操作。由于AE算法的固有缺點(diǎn),其偏向于生成模糊的圖像,這限制了自編碼器的發(fā)展。而后GAN網(wǎng)絡(luò)的出現(xiàn)可以幫助合成清晰的圖像,因此在圖像合成領(lǐng)域涌現(xiàn)了大量的GAN變體等研究方法。
自編碼器包含編碼器和解碼器兩部分,典型結(jié)構(gòu)如圖5所示。輸入原圖像,首先利用編碼器將輸入圖像壓縮為一個(gè)特征向量;然后通過解碼器將特征向量重構(gòu)回圖像。學(xué)習(xí)過程中不斷地最小化輸出數(shù)據(jù)與輸入數(shù)據(jù)之間的差異,從而達(dá)到圖像重構(gòu)的目的。
圖5 自編碼器的一般結(jié)構(gòu)Fig.5 General structure of AE
Zhou等[53]提出的條件差分對(duì)抗自編碼器(Conditional difference adversarial autoencoder,CDAAE)是利用自編碼器合成人臉表情的一個(gè)典型模型。該模型輸入一幅帶有任意表情的人臉圖像,經(jīng)編碼器編碼為一個(gè)100維的特征向量,然后將此向量與目標(biāo)表情標(biāo)簽向量級(jí)聯(lián)輸入到解碼器中,生成帶有目標(biāo)表情的人臉圖像。Zhou等采用U-Net[54]的跳躍連接結(jié)構(gòu)來保留人臉身份信息,并保證圖像的合成質(zhì)量。Zhou等還測(cè)試了在不同的網(wǎng)絡(luò)層級(jí)間使用跳躍連接,可以不同程度地保留目標(biāo)圖像底層的紋理信息,并且使用自編碼器結(jié)構(gòu)合成圖像后,采用對(duì)抗的思想加入2個(gè)判別器結(jié)構(gòu)以保證合成的圖像更為逼真。
GAN和自編碼器的結(jié)構(gòu)相似,都采用編解碼器作為圖像生成器。不同的是,GAN使用對(duì)抗博弈的思想對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過引入一個(gè)判別器,形成生成器與判別器對(duì)抗的局面。判別器的目的是對(duì)輸入的圖像做出正確的真假預(yù)測(cè),而生成器的目的是使生成圖像足夠逼真到騙過判別器,二者之間的有效對(duì)抗將激勵(lì)生成器合成更優(yōu)質(zhì)量的圖像[55]。
2.2.1生成對(duì)抗網(wǎng)絡(luò)
GAN是一種通過博弈學(xué)習(xí)方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練的模型,如圖6所示,通過使用生成器(Generator)和判別器(Discriminator)進(jìn)行相互博弈學(xué)習(xí),共同提高網(wǎng)絡(luò)各自的能力,使生成器能夠模擬輸入數(shù)據(jù)樣本的分布,合成越來越真實(shí)的圖像,直到判別器不能將生成器合成的樣本和真實(shí)樣本區(qū)分開來。
圖6 生成對(duì)抗網(wǎng)絡(luò)Fig.6 Generative adversarial network
生成對(duì)抗網(wǎng)絡(luò)中,生成器主要用于學(xué)習(xí)真實(shí)圖像的分布,然后使用學(xué)習(xí)到的分布合成相似分布的數(shù)據(jù),并讓自身合成的數(shù)據(jù)更加真實(shí),降低判別器的識(shí)別效果。而判別器的任務(wù)是判斷當(dāng)前圖像是真實(shí)數(shù)據(jù)還是由生成器合成而來的數(shù)據(jù)。在整個(gè)流程中,生成器需要努力讓合成圖像更加真實(shí),而判別器需要盡力去找出每一個(gè)合成的圖像,這就是判別器和生成器的博弈學(xué)習(xí)。隨著學(xué)習(xí)的深入,最終兩個(gè)網(wǎng)絡(luò)將達(dá)到一個(gè)納什均衡:生成器能夠合成十分接近真實(shí)數(shù)據(jù)分布的假數(shù)據(jù),而判別器對(duì)于給定數(shù)據(jù)預(yù)測(cè)其真假的能力將達(dá)到最低,即正確預(yù)測(cè)當(dāng)前數(shù)據(jù)的概率為0.5。據(jù)此,優(yōu)化的目標(biāo)函數(shù)定義為
式中:E代表數(shù)學(xué)期望;D(x)代表判別器D判別樣本x屬于真實(shí)分布的概率。
2.2.2 條件生成對(duì)抗網(wǎng)絡(luò)
由于原始的GAN網(wǎng)絡(luò)僅能夠在無監(jiān)督的條件使用隨機(jī)噪聲作為輸入進(jìn)行相關(guān)數(shù)據(jù)的合成,對(duì)于合成數(shù)據(jù)來說,其輸出是隨機(jī)、無法預(yù)測(cè)的。例如在人臉圖像的相關(guān)合成中,無法對(duì)合成圖像的相關(guān)參數(shù)進(jìn)行控制,只能輸出符合網(wǎng)絡(luò)訓(xùn)練所使用的原始數(shù)據(jù)集分布的圖像。因此,使用GAN進(jìn)行有目的地合成圖像或者數(shù)據(jù)成為當(dāng)前研究的熱點(diǎn)。條件生成對(duì)抗網(wǎng)絡(luò)(Conditional GAN,CGAN)是一種條件式的生成對(duì)抗網(wǎng)絡(luò),通過給原始的生成對(duì)抗網(wǎng)絡(luò)施加一個(gè)限制條件,能夠合成有針對(duì)性、符合響應(yīng)條件的圖像或其他數(shù)據(jù)。
相對(duì)于原始的GAN,CGAN在網(wǎng)絡(luò)的生成器中加入了約束條件y,使得生成器能夠在約束條件y的限制下進(jìn)行相應(yīng)數(shù)據(jù)的合成,因此生成器合成的數(shù)據(jù)不再是隨機(jī)的,而是變成了含有約束信息y的合成數(shù)據(jù)。CGAN的優(yōu)化函數(shù)問題轉(zhuǎn)化為
式中:G(z|y)代表基于約束條件y的合成圖像;D(x|y)代表樣本x屬于真實(shí)分布的概率。
現(xiàn)有的表情合成研究工作中使用了不同的條件信息,如表情類別標(biāo)簽[56]、人臉幾何信息[57]、人臉關(guān)鍵點(diǎn)[58]、AU標(biāo)簽和人臉輪廓圖像[59]等,在進(jìn)行圖像合成時(shí)通過這些條件信息來指導(dǎo)圖像的合成?;跅l件生成對(duì)抗網(wǎng)絡(luò)的GAN變體有很多,例如,Liu等[18]提出了一個(gè)基于3D人臉AU的條件對(duì)抗合成模型,將目標(biāo)AU標(biāo)簽ytarget作為條件輔助信息輸入到合成模型,合成指定身份信息的目標(biāo)表情參數(shù)xexptarget。人臉幾何信息可以客觀地反映人物的表情信息及面部基礎(chǔ)信息,因此一些學(xué)者將人臉幾何信 息 輸 入CGAN中 作 為 條 件 信 息 來 指 導(dǎo) 表 情 的 合 成[25,60-63]。Huang等[27]提 出 了 一 個(gè)DyadGAN網(wǎng)絡(luò),在面試官和面試者兩個(gè)人的互動(dòng)場(chǎng)景中,將面試者的表情輪廓特征圖作為條件信息來輔助合成面試官的表情圖像,試圖模擬互動(dòng)場(chǎng)景中一個(gè)人的表情對(duì)另一個(gè)人的表情響應(yīng)的關(guān)系和影響。文獻(xiàn)[26]提出的GC-GAN中,首先利用對(duì)比學(xué)習(xí)方法來學(xué)習(xí)目標(biāo)表情的關(guān)鍵點(diǎn)特征圖,從而削弱了不同臉型不對(duì)齊問題的影響;然后將關(guān)鍵點(diǎn)特征圖作為條件信息,與輸入圖像的特征向量串聯(lián),經(jīng)解碼器合成帶有目標(biāo)表情的圖像。文獻(xiàn)[64]將目標(biāo)表情標(biāo)簽作為條件信息,與輸入圖像一起作為輸入,引導(dǎo)圖像的合成。Ma等[62]提出了一種基于姿態(tài)的生成網(wǎng)絡(luò)(Pose guided person generation network,PG2),可以合成任意姿態(tài)下的圖像。目標(biāo)姿態(tài)由一組18個(gè)關(guān)節(jié)位置定義,編碼為熱圖,將目標(biāo)姿態(tài)的熱圖作為條件輔助信息,與PG2中的輸入圖像串聯(lián)輸入到網(wǎng)絡(luò)中。此外,又采用了兩階段合成方法來提高合成圖像的質(zhì)量。
2.2.3 生成對(duì)抗網(wǎng)絡(luò)變體
本節(jié)總結(jié)了基于GAN的表情合成算法的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),如圖7所示,可分為3種情況。首先,網(wǎng)絡(luò)的輸入為條件信息和源圖像,條件信息的種類如第1節(jié)提到的人臉特征信息,圖7中條件信息示例分別為目標(biāo)表情參考圖、人臉輪廓圖、人臉關(guān)鍵點(diǎn)和目標(biāo)表情類別向量,研究時(shí)選擇其一作為網(wǎng)絡(luò)的條件信息即可。圖7(a)將條件信息和源圖像一起輸入編-解碼結(jié)構(gòu)的生成器G中,輸出生成圖像;再將生成圖像輸入到判別器D中,判別圖像的真假。圖7(b)在生成器中設(shè)置兩個(gè)編碼器,分別提取條件信息中的目標(biāo)表情特征和源圖像的人物身份特征;然后將目標(biāo)表情特征與身份特征級(jí)聯(lián),輸入解碼器中輸出生成圖像。圖7(c)首先利用編碼器提取源圖像的身份特征,再與條件信息特征向量級(jí)聯(lián),解碼輸出生成圖像。GAN算法的改進(jìn)主要是對(duì)生成器或判別器的設(shè)計(jì)進(jìn)行創(chuàng)新,代表性算法總結(jié)如下。
圖7 基于GAN的表情合成算法基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Basic networks of expression synthesis algorithm based on GAN
(1)StarGAN
Choi等[64]提出了一個(gè)星型網(wǎng)絡(luò)框架StarGAN,與最初的GAN相比,StarGAN包括2個(gè)參數(shù)共享的生成器,形成CycleGAN[65]的環(huán)形式,并在網(wǎng)絡(luò)中加入掩碼向量,用來學(xué)習(xí)多個(gè)數(shù)據(jù)集之間的多域圖像轉(zhuǎn)換。該方法使StarGAN能夠控制所有可用的域標(biāo)簽完成跨數(shù)據(jù)集的訓(xùn)練。而現(xiàn)有的基于GAN的模型若要實(shí)現(xiàn)在k個(gè)不同的域上進(jìn)行屬性的遷移,需要構(gòu)建k×(k-1)個(gè)生成器,并且還不能跨數(shù)據(jù)集訓(xùn)練。StarGAN算法可以用一個(gè)生成器來學(xué)習(xí)多個(gè)域之間的圖像轉(zhuǎn)換。該算法輸入源為人臉圖像和目標(biāo)表情標(biāo)簽,經(jīng)生成器合成圖像;再將合成的圖像串聯(lián)源人臉圖像的表情標(biāo)簽作為輸入,經(jīng)生成器重構(gòu)出源圖像。這兩次合成過程成為一個(gè)環(huán)結(jié)構(gòu),計(jì)算源圖像和重構(gòu)的源圖像之間的誤差,作為損失函數(shù)的一部分來控制網(wǎng)絡(luò)的合成效果。
(2)G2-GAN
Song等[25]提出了一種幾何引導(dǎo)的生成對(duì)抗網(wǎng)絡(luò)G2-GAN,該網(wǎng)絡(luò)包括兩個(gè)GAN結(jié)構(gòu),形成環(huán)的結(jié)構(gòu)。與StarGAN不同的是,StarGAN中的兩個(gè)生成器是參數(shù)共享的同一個(gè)生成器,而在G2-GAN中,兩個(gè)GAN結(jié)構(gòu)是不同的,二者需要完成兩個(gè)相反的任務(wù):表情合成和表情移除。兩個(gè)網(wǎng)絡(luò)在中性表情和任意表情之間形成映射循環(huán)。G2-GAN將人臉關(guān)鍵點(diǎn)作為條件,指導(dǎo)合成具有特定表情、特定身份的人臉表情。訓(xùn)練G2-GAN時(shí)和StarGAN的環(huán)結(jié)構(gòu)類似,輸入的中性人臉經(jīng)第1個(gè)GAN合成帶有表情的人臉圖像;再將合成的表情圖像輸入第2個(gè)GAN重構(gòu)出中性人臉圖像。計(jì)算源中性人臉圖像與重構(gòu)出的人臉圖像的差異,作為重構(gòu)損失來提升合成圖像的效果。
(3)FaceID-GAN
Shen等[66]提出了一個(gè)三元GAN網(wǎng)絡(luò)FaceID-GAN。原始的GAN是生成器與判別器之間的二元對(duì)抗,F(xiàn)aceID-GAN與原始的GAN不同,通過將人臉身份分類器P作為網(wǎng)絡(luò)結(jié)構(gòu)的第3個(gè)參與者,人臉身份分類器P和判別器D協(xié)同對(duì)抗生成器G,使得G合成質(zhì)量較高,并保留人臉的身份信息的圖像。FaceID-GAN不是簡(jiǎn)單地將身份分類器作為一個(gè)附加的鑒別器,而是通過滿足輸入數(shù)據(jù)信息對(duì)稱性來構(gòu)造FaceID-GAN,從而保證真實(shí)圖像和合成圖像投影到相同的特征空間,減小了網(wǎng)絡(luò)的訓(xùn)練難度。
(4)Warp-Guided GAN
Geng等[67]提出了一種利用單幅照片合成實(shí)時(shí)人臉動(dòng)畫的Warp-Guided GAN框架。該框架包含2個(gè)具有不同任務(wù)的GAN:第1個(gè)GAN用來精細(xì)化人臉圖像細(xì)節(jié);第2個(gè)GAN用來合成口內(nèi)牙齒區(qū)域。該方法只需要1幅人像圖像和1組從驅(qū)動(dòng)源(如照片或視頻序列)派生出來的人臉關(guān)鍵點(diǎn)就可以合成具有豐富人臉細(xì)節(jié)的動(dòng)畫圖像。該方法的核心是一個(gè)基于圖像變形的合成模型,該模型分為3個(gè)階段。給定1幅人像和1個(gè)驅(qū)動(dòng)源(照片或視頻),首先用追蹤特征標(biāo)記點(diǎn)對(duì)圖像進(jìn)行圖像變形。然后裁剪出變形后的圖像的人臉區(qū)域,計(jì)算出關(guān)鍵點(diǎn)的位移圖,將變形后的人臉區(qū)域和關(guān)鍵點(diǎn)位移圖輸入精細(xì)化生成對(duì)抗網(wǎng)絡(luò)WGGAN,合成逼真的面部細(xì)節(jié),如皺紋、陰影等。精細(xì)化后的人臉輸入另一個(gè)生成對(duì)抗網(wǎng)絡(luò)HRH-GAN,合成適合目標(biāo)表情的內(nèi)口區(qū)域。最后將精細(xì)化的人臉無縫集成到扭曲的圖像中,合成動(dòng)畫效果。
(5)Cascade expression focal GAN(Cascade EF-GAN)
Wu等[68]提出了一種AU標(biāo)簽引導(dǎo)的Cascade EF-GAN網(wǎng)絡(luò)。該網(wǎng)絡(luò)由4部分組成:1個(gè)全局生成器和3個(gè)局部生成器,分別為眼部生成器、鼻子生成器及嘴部生成器。將目標(biāo)表情的AU向量分別與輸入原圖、眼部圖像、鼻部圖像和嘴部圖像串聯(lián),構(gòu)成4個(gè)子網(wǎng)絡(luò)的輸入。經(jīng)過4個(gè)子生成器,分別生成帶有目標(biāo)表情的全人臉圖像、眼部圖像、鼻部圖像和嘴部圖像。然后將生成的3部分局部圖像拼接成不完整的人臉圖像,再與生成的全人臉圖像級(jí)聯(lián),解碼生成最終的目標(biāo)表情人臉圖像。該方法設(shè)計(jì)了一種級(jí)聯(lián)的漸進(jìn)生成策略,將一個(gè)變化大的表情分割為幾個(gè)小的級(jí)聯(lián)變換,這樣在處理較大表情變換時(shí),有助于抑制偽影,產(chǎn)生更真實(shí)的生成效果。
損失函數(shù)是深度學(xué)習(xí)中最基礎(chǔ)也最為關(guān)鍵的一部分。通過最小化損失函數(shù),使模型達(dá)到收斂狀態(tài),減小模型預(yù)測(cè)值的誤差。使用不同的損失函數(shù),對(duì)模型的影響很大。在表情合成研究中,損失函數(shù)有對(duì)抗損失、像素?fù)p失、感知損失、循環(huán)一致性損失和三元組損失等,可根據(jù)模型情況選擇或設(shè)計(jì)不同的損失函數(shù)來訓(xùn)練模型。
2.3.1 對(duì)抗損失
在基于GAN的表情合成模型中,對(duì)抗損失是必不可少的。GAN通過對(duì)抗損失使生成器和判別器相互對(duì)抗博弈,不斷優(yōu)化網(wǎng)絡(luò)。原始對(duì)抗損失如式(1)所示。GAN的訓(xùn)練極其困難且不穩(wěn)定,很難平衡生成器與判別器的訓(xùn)練程度。式(1)使用Sigmoid交叉熵?fù)p失函數(shù),容易造成梯度消失問題,使生成器的訓(xùn)練不充分。
基于此,Mao等[69]提出最小二乘GAN(Least squares GAN,LSGAN)中對(duì)GAN的損失函數(shù)進(jìn)行改進(jìn),如式(3~4)所示,采用最小二乘損失函數(shù)代替Sigmoid交叉熵,緩解梯度消失問題。
式中:常數(shù)a、b分別表示真實(shí)分布和生成分布的標(biāo)注值;常數(shù)c表示在生成器優(yōu)化時(shí)生成圖像被判定為真實(shí)圖像的標(biāo)注值。
LSGAN在判別器的輸出層中去掉sigmoid激活函數(shù),且在損失函數(shù)中去掉log函數(shù),使用最小二乘損失函數(shù)。這樣使D不僅判別真假,同時(shí)懲罰離群的樣本點(diǎn),使生成樣本不斷向真實(shí)分布靠近。
Arjovsky等[70]為了解決GAN訓(xùn)練不穩(wěn)定及生成器與判別器很難訓(xùn)練平衡的問題,提出WGAN(Wasserstein GAN)網(wǎng)絡(luò),同樣對(duì)損失函數(shù)進(jìn)行改進(jìn),使用Wassertein距離來衡量合成圖像與真實(shí)圖像分布之間的距離,具體公式如下
式中:Pg代表生成分布;Pr代表真實(shí)分布;fw代表滿足Lipshitz連續(xù)條件的判別器。
LSGAN和WGAN改進(jìn)后的損失函數(shù)提高了GAN的性能。此外,還有一些方法采用改進(jìn)的DCGAN[71]、WGAN-GP[72]和BEGAN[73]損失函數(shù)使模型擁有更快的收斂速度,解決模式崩潰問題,或提升樣本的生成質(zhì)量。
2.3.2 像素?fù)p失
像素?fù)p失計(jì)算合成圖像與目標(biāo)圖像的像素間損失。一般地,采用L-P范數(shù)||·||p計(jì)算兩者差值,表達(dá)式為
式中t代表目標(biāo)圖像。
2.3.3 感知損失
在計(jì)算2幅圖像的像素?fù)p失時(shí),若移動(dòng)了某個(gè)像素點(diǎn),或相同的圖像使用不同的分辨率時(shí),會(huì)得到一個(gè)很大的像素?fù)p失,這是不合理的。因此,研究人員提出使用預(yù)訓(xùn)練模型分別提取合成圖像和真實(shí)圖像的特征向量,計(jì)算二者的特征向量的差值得到感知損失。一些經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練 模 型 被 用 來 提 取 特 征,如VGGNet、ResNet、InceptionNet和AlexNet等,具體公式為
式中:xr代表真實(shí)圖像;VGG(·)代表預(yù)訓(xùn)練的VGG網(wǎng)絡(luò),可替換為其他網(wǎng)絡(luò)結(jié)構(gòu),公式也可設(shè)計(jì)為如圖8所示的計(jì)算多層感知損失的形式。
圖8 多層感知損失計(jì)算方法Fig.8 Calculation method of multilayer perceived loss
2.3.4 循環(huán)一致性損失
受CycleGAN[65]的啟發(fā),研究人員將循環(huán)一致性損失應(yīng)用于人臉合成領(lǐng)域。在表情轉(zhuǎn)換的過程中,應(yīng)保證人臉的身份信息不發(fā)生變化,循環(huán)一致性損失可以強(qiáng)制網(wǎng)絡(luò)在改變表情的同時(shí)保留人臉的身份信息。循環(huán)一致性損失的計(jì)算過程如圖9所示,具體計(jì)算公式如下
圖9 循環(huán)一致性損失的計(jì)算Fig.9 Calculation of the cycle consistency loss
式中:c0代表源圖像x對(duì)應(yīng)的表情條件;c1代表目標(biāo)表情條件;G(x|c)代表基于表情條件c生成的合成圖像。
2.3.5 身份保留損失
在表情合成過程中,需設(shè)置身份保留損失來保證身份信息的不丟失。如式(10)所示,一般采用預(yù)訓(xùn)練的人臉識(shí)別模型提取合成圖像與輸入圖像的身份特征,并計(jì)算二者的差值。
式中Θ為預(yù)訓(xùn)練的人臉識(shí)別模型。
2.3.6 三元組損失
為了提升合成圖像的質(zhì)量,三元組損失被提出來訓(xùn)練網(wǎng)絡(luò),使網(wǎng)絡(luò)有更好的性能。文獻(xiàn)[74]認(rèn)為網(wǎng)絡(luò)完成從輸入域到輸出域的轉(zhuǎn)換后,不能使輸出圖像擁有和輸入圖像相同的分布。因此,設(shè)計(jì)了兩種方式生成目標(biāo)圖像,直接生成和漸進(jìn)生成,如圖10所示。在漸進(jìn)生成的方法中,首先將輸入人臉正面化,將生成的正面化圖像作為中間過渡圖像,之后使用生成的過渡圖像作為網(wǎng)絡(luò)的輸入,生成目標(biāo)表情圖像。然后計(jì)算兩種方式的生成圖像之間的差異,作為三元組損失。這個(gè)過程使生成圖像作為網(wǎng)絡(luò)的輸入,保證了輸入域與輸出域的分布一致性。
圖10 文獻(xiàn)[74]提出的三元組損失Fig.10 Triple loss proposed in Ref.[74]
表2 總結(jié)了9種深度學(xué)習(xí)方法的性能和所用的數(shù)據(jù)庫,并簡(jiǎn)單描述了算法特點(diǎn)和損失函數(shù)的設(shè)置情況。表2中“客觀評(píng)價(jià)指標(biāo)”字段中的下標(biāo)“1”和“2”與“數(shù)據(jù)庫”字段中的下標(biāo)“1”和“2”相對(duì)應(yīng),表示在該數(shù)據(jù)庫上的實(shí)驗(yàn)精度。算法應(yīng)用時(shí),根據(jù)自身算法的設(shè)計(jì)選擇合適的損失函數(shù)或設(shè)計(jì)新的有效損失函數(shù),同時(shí)根據(jù)本算法需要何種人臉標(biāo)簽、是否需要成對(duì)數(shù)據(jù)集、需要單幅圖像或視頻序列等選擇合適的數(shù)據(jù)集進(jìn)行訓(xùn)練。在表情合成領(lǐng)域,關(guān)于模型的評(píng)價(jià)標(biāo)準(zhǔn)尚不統(tǒng)一,因此很難判斷哪個(gè)算法是最好的。除了對(duì)生成圖像進(jìn)行主觀的視覺效果評(píng)價(jià)外,研究人員通常在人臉識(shí)別率、表情識(shí)別率和圖像生成質(zhì)量這3個(gè)方面對(duì)模型進(jìn)行客觀評(píng)估,評(píng)估方法在后文闡述。
表2 人臉表情合成領(lǐng)域代表性算法對(duì)比總結(jié)Table 2 Comparison of the state?of?the?art facial expression synthesis algorithms
深度學(xué)習(xí)中數(shù)據(jù)集必不可少。在選擇數(shù)據(jù)集前,需要了解數(shù)據(jù)集的數(shù)據(jù)分布情況,判斷其是否與使用算法相匹配。本節(jié)總結(jié)了常用人臉數(shù)據(jù)集及其特征如下。
(1)CelebA數(shù)據(jù)集
CelebA是一個(gè)大型人臉屬性數(shù)據(jù)集[81],包含10 177位名人的202 599幅圖像,每幅圖像帶有人臉的5個(gè)關(guān)鍵點(diǎn)坐標(biāo)信息和40個(gè)人臉屬性的標(biāo)簽信息,例如是否帶眼鏡、有無劉海、是否戴帽子、是否卷發(fā)以及是否微笑等屬性。數(shù)據(jù)集中的人臉圖像有較大的姿勢(shì)變化和雜亂的背景。CelebA具有多樣性、數(shù)量多和注釋豐富等特點(diǎn),可以用作計(jì)算機(jī)視覺任務(wù)的訓(xùn)練集或測(cè)試集,如人臉屬性識(shí)別、人臉檢測(cè)、人臉關(guān)鍵點(diǎn)檢測(cè)、人臉編輯和人臉合成等。
(2)Cohn-Kanade數(shù)據(jù)集
Cohn-Kanade數(shù)據(jù)集目前有CK和CK+兩個(gè)版本,主要用于人臉圖像分析與人臉合成的研究。
CK包含了97個(gè)志愿者的486個(gè)表情視頻序列,這些志愿者被要求進(jìn)行23個(gè)表情的展示,表情包括單個(gè)AU的運(yùn)動(dòng)或多個(gè)AU組合的面部肌肉的運(yùn)動(dòng)。每個(gè)視頻序列都從中性表情開始,表情的表現(xiàn)力逐漸增大,一直達(dá)到表情程度的峰值結(jié)束。其中,中性表情是指人臉面無表情的狀態(tài)。每個(gè)序列的峰值表情經(jīng)FACS編碼,得到各自的表情標(biāo)簽。
CK+[82]是CK基礎(chǔ)上的擴(kuò)展,是一個(gè)具有代表性的人臉表情數(shù)據(jù)集。CK+中志愿者量增加到123位,表情序列數(shù)增加到593個(gè)。與CK相同,593個(gè)視頻序列中,每個(gè)序列的峰值表情都帶有FACS編碼的AU標(biāo)簽,其中327個(gè)序列同時(shí)帶有表情標(biāo)簽,如快樂、悲傷、驚訝和憤怒等。
(3)Oulu-CASIA數(shù)據(jù)集
Oulu-CASIA數(shù)據(jù)集采用2個(gè)成像系統(tǒng)NIR(Near infrared)和VIS(Visible light),在3種不同光照條件下分別拍攝了80名志愿者的6種典型表情的視頻。3種光照方式為正常的室內(nèi)照明、弱照明(只有電腦顯示屏的光)和暗照明(所有燈都關(guān)掉)。6種表情為快樂、悲傷、驚訝、憤怒、恐懼和厭惡。該數(shù)據(jù)庫可用于研究光照變化對(duì)人臉表情、表情識(shí)別或人臉識(shí)別的影響。
(4)DISFA數(shù)據(jù)集
DISFA數(shù)據(jù)集[83]包含了27個(gè)不同種族的年輕人的臉部視頻,這些視頻是在志愿者觀看視頻片段時(shí)拍攝的,目的是捕捉志愿者自發(fā)的情緒表達(dá)。根據(jù)FACS,視頻幀對(duì)應(yīng)12種AU,分別為AU1、AU2、AU4、AU5、AU6、AU9、AU12、AU15、AU17、AU20、AU25和AU26。其中,每個(gè)AU的強(qiáng)度范圍為0~5,每個(gè)視頻幀中的AU強(qiáng)度值都是由專家手工標(biāo)注。此外,此數(shù)據(jù)集還包括每幅圖像的66個(gè)人臉關(guān)鍵點(diǎn)。
(5)RaFD數(shù)據(jù)集
RaFD數(shù)據(jù)集[84]是Radboud大學(xué)Nijmegen行為科學(xué)研究所整理的一個(gè)高質(zhì)量的人臉數(shù)據(jù)集。此數(shù)據(jù)集中共包含49個(gè)模特,其中20名白人男性成年人,19名白人女性成年人,4個(gè)白人男孩,6個(gè)白人女孩。數(shù)據(jù)集中共有8 040幅圖像,包含8種表情,即快樂、悲傷、驚訝、憤怒、恐懼、厭惡、蔑視和中立。每一個(gè)表情包含3個(gè)不同的注視方向,且使用5個(gè)相機(jī)從不同的角度同時(shí)拍攝。
(6)PIE數(shù)據(jù)集
PIE數(shù)據(jù)集[85]發(fā)布于2002年,包含68位志愿者的41 368幅圖像,每個(gè)人有13種姿態(tài),43種光照條件和4種表情。其中,姿態(tài)和光照變化也是在嚴(yán)格控制的條件下采集的,它在推動(dòng)多姿勢(shì)和多光照的人臉識(shí)別研究方面具有非常大的影響力,不過仍然存在模式單一多樣性較差的問題。為了解決這些問題,卡內(nèi)基梅隆大學(xué)的研究人員在2010年建立了Multi-PIE數(shù)據(jù)集[86]。此數(shù)據(jù)集包含337位志愿者,在15個(gè)視角、19個(gè)光照條件和不同的表情下記錄,約75萬幅圖像。這些圖像在頭部姿勢(shì)、光照和面部表情方面有很大的變化。此外,還獲得了高分辨率的正面圖像。
(7)RAF-DB數(shù)據(jù)集
RAF-DB數(shù)據(jù)集[87]是一個(gè)大型的人臉表情數(shù)據(jù)集,共包含29 672幅真實(shí)世界中的圖像。此數(shù)據(jù)集中的圖像在志愿者的年齡、性別、種族、頭部姿勢(shì)、光照條件、遮擋狀況(如眼鏡、面部毛發(fā)等)以及后處理操作(如濾鏡等特殊效果)等方面有很大的變化。此外,該數(shù)據(jù)集有豐富的注釋,圖像中有7種基本表情和12種復(fù)合表情,并且每幅圖帶有5個(gè)精確的人臉關(guān)鍵點(diǎn)、年齡范圍和性別標(biāo)注。
表3 為以上各數(shù)據(jù)集的對(duì)比表格,包括各數(shù)據(jù)集的樣本量、采集情況、標(biāo)簽信息以及志愿者的表情是否擺拍等信息,研究人員可根據(jù)模型需求選擇合適的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。有關(guān)人臉的數(shù)據(jù)集還有很多,例如:人臉檢測(cè)方向的數(shù)據(jù)集有AFW、FDDB、WIDER Face和MALF等;人臉關(guān)鍵點(diǎn)檢測(cè)方向的數(shù)據(jù)集有XM2VTS、LFPW、Helen、IBUG、AFLW、300W、MTFL、MAFL和WFLW等;人臉識(shí)別方向的數(shù)據(jù)集有FERET、Yale、CAS-PEAL、LFW、Pubfig、MSRA-CFW、FaceScrub、UMDFaces、MegaFace、MS-Celeb-1M、VGG Face、IMDB-Face、YouTube Faces和IARPA Janus等;有關(guān)人臉年齡與性別的數(shù)據(jù)集有FGNet、CACD2000、Adience、IMDB-wiki和MORPH等;有關(guān)人臉姿態(tài)的數(shù)據(jù)集有BIWI、Bosphorus、HPD、BIWI kinect、FaceWarehouse、TMU、UPNA和300W-LP等。
表3 人臉數(shù)據(jù)集對(duì)比總結(jié)Table 3 Comparison of facial expression datasets
表情遷移的目的是生成帶有指定表情的目標(biāo)人臉逼真圖像,有3個(gè)基本要求:保留人臉的身份信息、指定人臉做出目標(biāo)表情及圖像質(zhì)量逼真自然,表情遷移的效果可以對(duì)這3點(diǎn)進(jìn)行評(píng)估。身份信息的保留采用人臉識(shí)別率來評(píng)估;目標(biāo)表情的表現(xiàn)力可以采用表情識(shí)別率和AU激活程度來評(píng)估;圖像質(zhì)量可以采用結(jié)構(gòu)相似性指數(shù)來評(píng)估。
人臉識(shí)別是基于人的臉部特征信息識(shí)別出該人臉的身份信息。將表情遷移生成的人臉圖像進(jìn)行身份信息的識(shí)別,可以有效地評(píng)估生成圖像對(duì)身份信息的保留效果。人臉識(shí)別算法主要包括人臉檢測(cè)、特征提取、人臉特征比較和輸出識(shí)別結(jié)果4個(gè)步驟[88]。首先,人臉檢測(cè)通過對(duì)采集到的包含人臉的圖像進(jìn)行人臉區(qū)域的獲取,即在圖像中準(zhǔn)確描述人臉的區(qū)域和位置、大小等信息。然后,對(duì)人臉進(jìn)行特征提取,再進(jìn)行人臉的特征比較。人臉特征比較是對(duì)提取到的人臉特征進(jìn)行特征距離的對(duì)比,即對(duì)獲取到的人臉特征進(jìn)行分類,得到特征的分類結(jié)果。首先設(shè)定一個(gè)特征距離閾值,特征距離超過閾值將認(rèn)為是同一個(gè)人的不同面部圖像,據(jù)此獲取到識(shí)別結(jié)果,并進(jìn)行識(shí)別率的計(jì)算。在特征距離的計(jì)算中,通常使用歐式距離、馬爾可夫距離以及卡方距離等,相關(guān)的分類器有SVM、神經(jīng)網(wǎng)絡(luò)(Nerual network,NN)以及HMM等[89]。
在人臉識(shí)別率的計(jì)算中,假設(shè)數(shù)據(jù)集中共有N個(gè)人的n幅人臉圖像,其中,第i個(gè)人有Mi幅人臉圖像,即
則對(duì)于人臉識(shí)別系統(tǒng)Π,其識(shí)別率為
式中I(i,j)為第i個(gè)人的第j幅圖像。
若要判斷生成圖像的表情表現(xiàn)力,可利用一個(gè)表情識(shí)別模型來判斷生成的圖像,若圖像能被正確分類到目標(biāo)表情類別中,即可說明生成圖像的表情表現(xiàn)力。
表情識(shí)別系統(tǒng)主要有4個(gè)基本部分組成:表情圖像獲取、表情圖像預(yù)處理、表情特征提取以及表情分類識(shí)別。在StarGAN中[64],Choi等采用ResNet-18在RaFD數(shù)據(jù)集上訓(xùn)練了一個(gè)人臉表情分類器,達(dá)到了99.55%的準(zhǔn)確率。然后使用訓(xùn)練好的分類器來評(píng)估實(shí)驗(yàn)結(jié)果,讓分類器來判斷生成圖像的表情類別,并計(jì)算出最終的分類誤差,作為實(shí)驗(yàn)的客觀評(píng)價(jià)。誤差越小,說明StarGAN生成的圖像的表情越真實(shí),表情表現(xiàn)力越好,越容易被表情分類器正確分類。
表情AU是Parke定義的用于度量視頻中人臉表情變化時(shí)臉部不同位置形變的一種方法。AU能夠提供一整套描述人臉動(dòng)作的參數(shù),通過對(duì)人臉中不同區(qū)域響應(yīng)的描述,能夠使用簡(jiǎn)單的組合產(chǎn)生數(shù)量巨大的人臉表情。另外,由于AU定義了人臉中的大部分區(qū)域,可以作為人臉識(shí)別中用于歸一化的方式。
AU在表情合成中的作用主要是對(duì)表情視頻的真實(shí)性進(jìn)行驗(yàn)證,可以使用合成視頻同原始驅(qū)動(dòng)表情進(jìn)行表情AU區(qū)域的激活對(duì)比。對(duì)于原始的表情視頻來說,計(jì)算合成視頻的對(duì)應(yīng)AU激活區(qū)域以及對(duì)應(yīng)區(qū)域的激活值,就能夠得到表情特征的保留程度,從而得到當(dāng)前視頻合成框架的表情保留效果。
大多數(shù)方法是通過對(duì)人臉進(jìn)行分塊,然后對(duì)不同的分塊進(jìn)行歸一化并計(jì)算AU的激活程度,但是存在分塊區(qū)域不準(zhǔn)確而導(dǎo)致AU識(shí)別失敗的問題。由于神經(jīng)網(wǎng)絡(luò)對(duì)圖像的遮擋以及光照等具有較強(qiáng)的魯棒性,通過深度學(xué)習(xí)技術(shù)能夠提取到精確的AU,因此人臉AU的識(shí)別準(zhǔn)確率獲得了巨大提升。例如,深度區(qū)域和多標(biāo)簽學(xué)習(xí)的面部活動(dòng)單元檢測(cè)(Deep region and multi-label learning,DRML)[17]是一個(gè)基于深度學(xué)習(xí)的面部動(dòng)作單元提取框架,它基于深度學(xué)習(xí)技術(shù)對(duì)基于區(qū)域的面部AU進(jìn)一步劃分,提取不同區(qū)域的深度特征,然后組合形成不同的特征矩陣,對(duì)其進(jìn)行多標(biāo)簽分類,從而獲得精確的面部AU位置和其對(duì)應(yīng)的激活值大小。
文獻(xiàn)[18]采用AU估計(jì)器可以將模型生成的表情參數(shù)準(zhǔn)確歸類,這些AU估計(jì)器是由真實(shí)圖像中提取出的表情參數(shù)訓(xùn)練而來。AU估計(jì)器為支持向量回歸(Support vector regression,SVR)和有序支持向量回歸(Ordinal support vector regression,OSVR)。估計(jì)器將表情參數(shù)作為輸入特征,可以估計(jì)出具有6個(gè)強(qiáng)度級(jí)別的AU強(qiáng)度。
峰值信噪比(Peak signal to noise ratio,PSNR)是一種最普遍和使用最廣泛的全參考圖像客觀評(píng)價(jià)指標(biāo),是基于誤差敏感的圖像質(zhì)量評(píng)價(jià)。在評(píng)估人臉生成方法時(shí),PSNR通過計(jì)算生成圖像和真實(shí)值之間的像素誤差來評(píng)估算法性能,數(shù)值越大表示失真越小,表達(dá)式為
式中:MSE(Mean square error)表示生成圖像Y和真實(shí)圖像X的均方誤差;H、W分別為圖像的高度和寬度;b為每像素的比特?cái)?shù),一般取8,即像素灰階數(shù)為256。
結(jié)構(gòu)相似性(Structure similarity,SSIM)也是一種全參考的圖像質(zhì)量評(píng)價(jià)指標(biāo),由3個(gè)部分組成,分別是亮度、圖像照明度和圖像的對(duì)比度。這3個(gè)部分的乘積組成了兩幅圖像的結(jié)構(gòu)相似性指標(biāo)數(shù)值[90]。在SSIM中使用圖像的均值作為亮度的估計(jì),使用圖像的標(biāo)準(zhǔn)差作為對(duì)比度的估計(jì),并且使用圖像的協(xié)方差作為結(jié)構(gòu)相似程度的估計(jì)。但是將SSIM用于評(píng)估生成的人臉圖像時(shí),如果生成的圖像和真實(shí)圖像的色調(diào)有差異,SSIM得到的相似度得分會(huì)低于真實(shí)水平。
為了度量GAN生成圖像的質(zhì)量,文獻(xiàn)[25-26,91]均采用SSIM和PSNR兩個(gè)評(píng)價(jià)指標(biāo)作為定量評(píng)價(jià)標(biāo)準(zhǔn),客觀地評(píng)價(jià)模型的性能。
第4節(jié)總結(jié)了一些表情合成領(lǐng)域的公知客觀評(píng)價(jià)指標(biāo),但在實(shí)際研究工作中,研究人員為了更加全面、多角度地評(píng)價(jià)模型性能,提出了一些不同的客觀評(píng)價(jià)方法。所以,目前在表情合成領(lǐng)域中沒有統(tǒng)一的指標(biāo)來評(píng)估算法的好壞。即使采用相同的指標(biāo)來評(píng)價(jià)各自的模型,若計(jì)算方法或提取特征的深度模型不同,也會(huì)導(dǎo)致結(jié)果不可比較。本節(jié)對(duì)現(xiàn)有文獻(xiàn)中的評(píng)價(jià)方法進(jìn)行總結(jié)。
一些研究使用訓(xùn)練好的人臉識(shí)別模型分別提取生成圖像和原圖像的身份特征,計(jì)算二者的相似度,驗(yàn)證是否為同一身份,以此評(píng)估模型的身份信息保留能力。文獻(xiàn)[92]采用ResNet-18作為人臉識(shí)別模型,在CelebA和LFW數(shù)據(jù)集上進(jìn)行人臉驗(yàn)證,人臉識(shí)別率越高,說明生成人臉的身份信息保留的越好。在FaceID-GAN中,Shen等[66]在MS-Celeb-1M數(shù)據(jù)集上訓(xùn)練了一個(gè)人臉識(shí)別模型,來計(jì)算輸入人臉圖像的身份特征和輸出人臉圖像的身份特征之間的相似性得分。在G2-GAN中,Song等[25]利用VGG-FACE和Light CNN兩個(gè)人臉識(shí)別模型驗(yàn)證提出方法的有效性。
IS(Inception score)指標(biāo)用來綜合衡量GAN生成圖像的質(zhì)量和多樣性兩個(gè)指標(biāo)。在GAN中,希望條件概率P(yB|x)可以被高度預(yù)測(cè),其中x表示給定的圖像,yB表示圖像中的主要內(nèi)容,即標(biāo)簽??梢员桓叨阮A(yù)測(cè)即希望能容易判別出圖像中的主要內(nèi)容。一般用熵值來描述隨機(jī)性:如果一個(gè)隨機(jī)變量是高度可預(yù)測(cè)的,就有較低的熵;如果是高度不可預(yù)測(cè)的,則有較高的熵。使用Inception網(wǎng)絡(luò)對(duì)生成的圖像進(jìn)行分類,然后預(yù)測(cè)P(yB|x),用該概率來反應(yīng)圖像的質(zhì)量,概率值越高,說明Inception網(wǎng)絡(luò)越有把握將圖像正確分類,即圖像的質(zhì)量越高。
圖像邊緣概率計(jì)算方法為
式中:z為隨機(jī)噪聲;G(z)為隨機(jī)噪聲z通過生成器得到的生成圖像。
如果生成圖像的多樣性很好,那么預(yù)測(cè)標(biāo)簽yB的分布則有很高的熵,從而導(dǎo)致準(zhǔn)確預(yù)測(cè)yB的結(jié)果更難。為了綜合兩個(gè)指標(biāo),通過使用KL-divergence計(jì)算IS的值為
式中DKL為KL-divergence的計(jì)算公式。
IS在一定程度上可以反映生成圖像的質(zhì)量以及多樣性。但由于IS的計(jì)算過程中只考慮了生成樣本,沒有考慮真實(shí)數(shù)據(jù),無法反映真實(shí)數(shù)據(jù)與樣本之間的距離,因此存在一些問題。比如,數(shù)值受樣本選取的干擾較大、不適合在內(nèi)部差異較大的數(shù)據(jù)集上使用、無法區(qū)分過擬合等。
5.3.1 弗雷歇距離
Xiao等使用弗雷歇距離來驗(yàn)證生成圖像的質(zhì)量[80]。弗雷歇距離得分(Fréchet inception distance score,F(xiàn)ID)由Heusel等[93]于2017年提出并使用,是評(píng)估生成圖像質(zhì)量的度量標(biāo)準(zhǔn),專門用于評(píng)估生成對(duì)抗網(wǎng)絡(luò)的性能。FID從原始圖像的計(jì)算機(jī)視覺特征的統(tǒng)計(jì)方面來衡量?jī)山M圖像的相似度,計(jì)算方法如式(18)所示。首先利用Inception網(wǎng)絡(luò)來提取特征,然后使用高斯模型對(duì)特征空間進(jìn)行建模,最后求解兩個(gè)特征之間的距離。較低的FID意味著圖像有較高的質(zhì)量和多樣性。
式中:Tr代表矩陣的跡;μr代表真實(shí)圖像深度特征的均值;μg代表生成圖像深度特征的均值;Σr代表真實(shí)圖像深度特征的協(xié)方差矩陣;Σg代表生成圖像深度特征的協(xié)方差矩陣。
相比較于IS,F(xiàn)ID對(duì)噪聲有更好的魯棒性。但是,F(xiàn)ID基于特征提取,即依賴于某些特征的出現(xiàn)或者不出現(xiàn),無法描述這些特征的空間關(guān)系。例如,用GAN去生成人臉,如果嘴巴長(zhǎng)在眼睛上面,F(xiàn)ID可能也會(huì)認(rèn)為它是一幅效果較好的人臉圖像。
5.3.2 余弦相似度
文獻(xiàn)[94]通過計(jì)算真實(shí)圖像特征與生成圖像特征的余弦相似度來衡量源特征的殘留程度。首先,由訓(xùn)練好的ResNet-18模型提取出源圖像和生成圖像的特征;然后,計(jì)算出兩個(gè)特征之間的平均余弦相似度。相似度越小,說明源特征去除得越徹底。余弦相似度表示式為
式中:φ代表預(yù)訓(xùn)練的ResNet-18模型;φ(x)代表樣本x對(duì)應(yīng)的深度特征。
5.3.3 余弦距離
在FaceID-GAN中,Shen等[66]在LFW數(shù)據(jù)集上驗(yàn)證了提出模型的身份信息保留能力。該方法利用模型中的身份信息提取器提取出真實(shí)圖像和生成圖像的身份信息特征,然后計(jì)算出真實(shí)圖像的身份信息特征與生成圖像的身份信息特征的余弦距離,以此作為人臉驗(yàn)證的度量標(biāo)準(zhǔn)。
式中:Y代表生成圖像;Ψ代表身份信息提取器,Ψ(·)代表樣本對(duì)應(yīng)的身份特征。
5.3.4歐氏距離
DyadGAN中,Huang等[27]驗(yàn)證了在兩個(gè)人互動(dòng)時(shí),一個(gè)人的表情對(duì)另一個(gè)人表情的關(guān)系和影響。Huang等創(chuàng)建了2個(gè)集合:第1個(gè)集合是由真實(shí)圖像的特征構(gòu)成;第2個(gè)集合是由生成圖像的特征構(gòu)成。其中,真實(shí)圖像的特征和生成圖像的特征由Emotient Facet SDK模型提取得到。然后計(jì)算2個(gè)集合中特征之間的歐氏距離,以此來測(cè)量真實(shí)圖像與生成圖像之間的差異,并采用統(tǒng)計(jì)學(xué)中的顯著性檢驗(yàn)來判別兩個(gè)集合是否有顯著差異。
Huang等在第2個(gè)實(shí)驗(yàn)中創(chuàng)建了另外的2個(gè)集合,不同于第1次實(shí)驗(yàn),集合A是根據(jù)被面試者的8種表情生成的面試官的圖像,集合B是被面試者的8種表情的真實(shí)圖像。然后,分別計(jì)算集合A中的生成圖像特征與集合B中8種表情圖像特征的歐式距離。結(jié)果表明,只有當(dāng)A中生成圖像的源根據(jù)圖像(被面試者圖像)與B中圖像的表情同屬一類時(shí),兩組特征之間的平均歐式距離最小,即驗(yàn)證了兩人在互動(dòng)時(shí)表情具有相似性。歐氏距離表達(dá)式為
式中:X、Y分別代表真實(shí)圖像和生成圖像的特征圖;n代表特征圖的元素個(gè)數(shù);xi、yi分別代表真實(shí)圖像特征圖和生成圖像特征圖的第i個(gè)元素。
為了定量評(píng)估,Choi等[64]使用Amazon Mechanical Turk(AMT)平臺(tái)進(jìn)行用戶調(diào)查來評(píng)估合成圖像的質(zhì)量。給定4幅合成圖像,分別是由4種不同的方法生成,志愿者被要求根據(jù)合成圖像的真實(shí)感、屬性遷移的效果和源圖像人臉的身份信息保留效果這3點(diǎn)來選擇4幅圖像中最佳的生成圖像。Zhou等[53]創(chuàng)建了一個(gè)在線調(diào)查,共征集了112位志愿者從3幅由3種不同方法生成的、隨機(jī)排序的圖像中選出最符合數(shù)據(jù)集真實(shí)圖像的圖像。
文獻(xiàn)[95]分別提取出生成圖像和輸入圖像的身份特征向量,然后計(jì)算兩個(gè)向量的平均內(nèi)容距離(Average content distance,ACD)來評(píng)價(jià)身份信息的保留程度。在FaceID-GAN中,Shen等[66]在IJB-A數(shù)據(jù)集上提出了一種驗(yàn)證生成圖像質(zhì)量的方法。該方法首先用判別器D判斷生成圖像為真的概率,得到生成圖像的重構(gòu)誤差,將重構(gòu)誤差的倒數(shù)定義為置信度,也可在某種程度上描述生成圖像的質(zhì)量。文獻(xiàn)[96]使用MS(Mode score)和FID作為評(píng)價(jià)指標(biāo)來定量地評(píng)估生成人臉與游戲風(fēng)格參考人物之間的相似度。
雖然GAN的出現(xiàn)有力地推進(jìn)了圖像合成任務(wù)的研究,越來越多的GAN變體用于表情合成,但仍存在幾個(gè)問題需要考慮:
(1)如何設(shè)計(jì)基于GAN的網(wǎng)絡(luò)框架。隨著GAN變體的增多,研究人員對(duì)GAN的生成器與判別器進(jìn)行了改進(jìn)。例如,Bao等[97]在生成器中設(shè)計(jì)了2個(gè)編碼器;Shen等[66]設(shè)計(jì)了一個(gè)分類器與判別器共同對(duì)抗生成器;Zhang等[75]在編碼器與解碼器之間放置了若干層殘差塊等。同時(shí),研究人員也在探討如何將GAN與注意力機(jī)制和跳躍連接等模塊相融合。因此,如何對(duì)GAN內(nèi)部結(jié)構(gòu)進(jìn)行改進(jìn)以生成更佳效果的人臉圖像是需進(jìn)一步研究的方向之一。
(2)是否需要成對(duì)的數(shù)據(jù)集訓(xùn)練模型。在進(jìn)行表情合成時(shí),若算法為有監(jiān)督的訓(xùn)練,需要計(jì)算驅(qū)動(dòng)人臉的中性圖像與表情圖像之間的差值作為損失函數(shù)來引導(dǎo)目標(biāo)表情人臉的合成。因此,需要成對(duì)的數(shù)據(jù)集來訓(xùn)練模型。而對(duì)于一些無監(jiān)督算法,可采用判別器或分類器,對(duì)生成圖像和目標(biāo)圖像進(jìn)行分類預(yù)測(cè),并計(jì)算二者的類別差值作為損失函數(shù),則不需要成對(duì)數(shù)據(jù)集。
(3)如何提升人臉表情合成的圖像質(zhì)量。根據(jù)目前最新的研究結(jié)果來看,人臉表情合成圖像的質(zhì)量還有上升空間。研究人員可在圖像的清晰度和人臉的細(xì)節(jié)生成方面繼續(xù)提升合成圖像的質(zhì)量。人臉細(xì)節(jié)對(duì)于合成圖像真實(shí)性的表達(dá)至關(guān)重要,不應(yīng)伴隨有奇怪的牙齒、不規(guī)則的皮膚紋理及雜亂的頭發(fā)等細(xì)節(jié)問題。如何合成精細(xì)的人臉細(xì)節(jié)、減少不合理的偽影以保留源人臉的個(gè)性特征,仍是需要研究的方向。
(4)如何個(gè)性化地合成人臉表情。文獻(xiàn)[98]提出的模型可以合成合理自然的表情,但是合成的表情是非個(gè)性化的,合成的表情和目標(biāo)人臉的真實(shí)值之間有一定的差異。因此,個(gè)性化地合成人臉表情是未來的一個(gè)研究方向。
(5)如何設(shè)計(jì)更輕量級(jí)的模型。深度學(xué)習(xí)方法是高度數(shù)據(jù)依賴型的算法,它的性能通常隨著數(shù)據(jù)量的增加而不斷增強(qiáng),而大量的數(shù)據(jù)需要在昂貴的GPU上進(jìn)行訓(xùn)練。因此,如何設(shè)計(jì)更輕量級(jí)的模型簡(jiǎn)便快捷地合成人臉表情,降低成本,也是需要進(jìn)一步研究的方向。