馬志萍
(北方工業(yè)大學(xué) 信息學(xué)院,北京 100041)
人臉表情的分析、識(shí)別、生成等一直是各個(gè)領(lǐng)域廣泛研究的內(nèi)容,并同時(shí)應(yīng)用在影視動(dòng)畫、游戲娛樂、學(xué)術(shù)研究等領(lǐng)域。在如今很多影視劇中使用了AI 換臉技術(shù)或手機(jī)APP 的出入小區(qū)門口的人臉識(shí)別技術(shù)。
自神經(jīng)網(wǎng)絡(luò)發(fā)展以來(lái),生成對(duì)抗網(wǎng)絡(luò)是繼殘差網(wǎng)絡(luò)之后,成為研究人員關(guān)注的新熱點(diǎn),其優(yōu)秀的生成能力被廣泛應(yīng)用在各個(gè)領(lǐng)域之中。其中,利用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行人臉表情生成的研究也一直是研究的焦點(diǎn)并具有重要的意義。例如,基于課堂教學(xué)環(huán)境下的學(xué)生學(xué)習(xí)興趣智能化分析研究目前處于初級(jí)階段。在研究學(xué)生在教學(xué)環(huán)境中的學(xué)習(xí)興趣的理論模型中采集信息時(shí),缺乏很多表情信息,可利用表情生成補(bǔ)充缺少的信息。
深度學(xué)習(xí)能夠真正發(fā)揮其潛力,正是因?yàn)橐延写罅康臄?shù)據(jù)可以使用,而神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的機(jī)器學(xué)習(xí)算法的不同之處就在于前者獲得的數(shù)據(jù)越多,其性能表現(xiàn)越好;后者則會(huì)在到達(dá)一定水平時(shí),數(shù)據(jù)的增加不會(huì)對(duì)其性能進(jìn)行提高。越來(lái)越多的研究發(fā)現(xiàn),雖然生成對(duì)抗網(wǎng)絡(luò)在大數(shù)據(jù)集上具有強(qiáng)大的生成能力,但在有限的數(shù)據(jù)集上生成效果會(huì)下降。
為了提高生成對(duì)抗網(wǎng)絡(luò)在有限樣本生成的效果,研究人員提出了遷移學(xué)習(xí)的方法,利用大數(shù)據(jù)集對(duì)源網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將其訓(xùn)練權(quán)重遷移至目標(biāo)網(wǎng)絡(luò),用來(lái)訓(xùn)練小數(shù)據(jù)集。一般情況下,兩個(gè)數(shù)據(jù)集的特征具有一定相關(guān)性。經(jīng)過遷移后的神經(jīng)網(wǎng)絡(luò),性能確實(shí)有一定的提高,但仍會(huì)出現(xiàn)過擬合等問題。分析可知,簡(jiǎn)單的遷移學(xué)習(xí)不能完全解決小樣本生成問題。對(duì)此,本文在遷移后的每一層加入了AdaFM 模塊,并使用兩層Style Block 替換了生成器的后4層,幫助神經(jīng)網(wǎng)絡(luò)能夠更好地提取針對(duì)目標(biāo)任務(wù)的特定特征,以此提高生成效果。
本文主要實(shí)現(xiàn)人臉表情的生成,因此使用CelebA 人臉數(shù)據(jù)集進(jìn)行源網(wǎng)絡(luò)的預(yù)訓(xùn)練。CelebA 數(shù)據(jù)集共有2020,599張人臉照片,包含10000 名不同身份的人,該數(shù)據(jù)集是由香港中文大學(xué)收集整理,并公開提供各界學(xué)者使用,該數(shù)據(jù)集被廣泛使用于深度學(xué)習(xí)中的視覺訓(xùn)練任務(wù)。
人臉表情數(shù)據(jù)集使用的是Radboud 大學(xué)Nijmegen 行為科學(xué)研究所整理的RaFD 人臉表情數(shù)據(jù)集。該數(shù)據(jù)集共8040 張圖片,包含67 個(gè)模特。實(shí)驗(yàn)室主要采集了8 個(gè)最有代表性的表情,即憤怒、厭惡、恐懼、快樂、悲傷、驚奇、蔑視和中立。
在這部分,將詳細(xì)介紹本研究中使用的遷移學(xué)習(xí)方法以及改進(jìn)后的生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)。
本文采用的生成對(duì)抗網(wǎng)絡(luò)是Gaussian-Poisson GAN(GP-GAN),它是Mescheder 等人在2018 年提出的第一個(gè)基于生成對(duì)抗網(wǎng)絡(luò)的圖像融合網(wǎng)絡(luò)。為了提高圖像融合的精度,GP-GAN 將傳統(tǒng)的梯度方法和GAN 結(jié)合在一起,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
在神經(jīng)網(wǎng)絡(luò)中,因?yàn)檩^低層的卷積層獲取的是更普遍適用的信息(稱作通用部分),高層的卷積層提取的是特定于任務(wù)/數(shù)據(jù)的信息(稱作特定部分),所以遷移過程中,選擇直接遷移生成器的前四層和判別器的前二層(G4D2),并保持權(quán)重凍結(jié);使用預(yù)訓(xùn)練模型的權(quán)重對(duì)目標(biāo)網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化,然后使用有限的目標(biāo)數(shù)據(jù)訓(xùn)練其余卷積層。
表1 國(guó)內(nèi)外常用人臉表情數(shù)據(jù)庫(kù)總結(jié)Table 1 The summar of common facial expression database at home and abroad
圖1 GP-GAN結(jié)構(gòu)示意圖Fig.1 Schematic diagram of GP-GAN structure
圖2 替換后的特定部分結(jié)構(gòu)Fig.2 Structure of specific part after replacement
3.2.1 調(diào)整特定部分
即使是對(duì)G4D2 進(jìn)行遷移之后,特定部分包含的參數(shù)仍然很多,但是訓(xùn)練樣本有限。受到StyleGAN 的啟發(fā),采用基于樣式的生成器結(jié)構(gòu)(style block)替換特定部分,其結(jié)構(gòu)如圖2 所示。
替換后的特定部分的網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,參數(shù)量減小,計(jì)算成本低。Style Block 沒有采用傳統(tǒng)的生成器使用隨機(jī)輸入作為初始輸入,而是用一個(gè)可學(xué)習(xí)的W 作為輸入,減少了特征糾纏并且能夠在無(wú)監(jiān)督的情況下分離特征。它支持新的屬性組合生成新的樣本,擴(kuò)大了生成的多樣性。
3.2.2 調(diào)整通用部分
為了使目標(biāo)數(shù)據(jù)集更好地適應(yīng)遷移的通用部分(即遷移后的G4 部分),引入了AdaFM 模塊,其核心計(jì)算公式如下:
其中,i ∈{1,2,…,Cout},J ∈{1,2,…,Cin}被用來(lái)與輸入特征圖進(jìn)行卷積以輸出特征圖。它的優(yōu)點(diǎn)是使遷移后的卷積層更好地適應(yīng)到目標(biāo)域中。其結(jié)構(gòu)如圖3所示。
經(jīng)過以上改進(jìn)后,最終的生成器結(jié)構(gòu)圖如圖4 所示。
圖3 AdaFM結(jié)構(gòu)Fig.3 AdaFM Structure
圖4 改進(jìn)后的GP-GANFig.4 Improved GP-GAN
在本次實(shí)驗(yàn)中,為了評(píng)估生成性能,采用了Fréchet Inception Distance(FID)作為實(shí)驗(yàn)結(jié)果的衡量指標(biāo)。
FID 的公式如下:
FID 是計(jì)算了真實(shí)圖片和生成圖片在特征層面的距離,F(xiàn)ID 數(shù)值越小代表生成效果越好,公式(2)中:
μr——真實(shí)圖片的特征均值。
μg——生成圖片的特征均值。
∑r——真實(shí)圖片的特征協(xié)方差矩陣。
∑g——生成圖片的特征協(xié)方差矩陣。
遷移前和遷移后的生成結(jié)果圖如圖5 所示。
遷移前和遷移后的FID 數(shù)值結(jié)果見表2。
圖5 表情生成結(jié)果Fig.5 Expression generation results
表2 FID分?jǐn)?shù)(迭代500次)Table 2 FID scores (500 iterations)
由FID 值可看出,在相同的迭代次數(shù)下,經(jīng)過遷移后的網(wǎng)絡(luò)生成的圖片更加接近真實(shí)圖片且性能提升了近50%;由生成結(jié)果圖也可看出,遷移后的網(wǎng)絡(luò)生成的人臉五官更加完整且表情更加明顯。
實(shí)驗(yàn)結(jié)果顯示引入帶有監(jiān)督機(jī)制的特征圖約束的方法,對(duì)傳統(tǒng)的遷移學(xué)習(xí)有一定效果的提升。從生成結(jié)果可以看出,即使是在有限樣本的情況下,生成對(duì)抗網(wǎng)絡(luò)也能生成效果較好的圖片,證明了本文方法的合理性與有效性。