基于 StarGAN的人臉表情數(shù)據(jù)增強(qiáng)研究

2024-01-24 14:36王俊杰賈東立

電腦知識(shí)與技術(shù) 2023年34期

王俊杰賈東立

摘要：StarGAN網(wǎng)絡(luò)在生成人臉表情圖片時(shí)存在局部細(xì)節(jié)模糊、重疊、整體質(zhì)量不佳等問題，針對(duì)上述問題，對(duì)基礎(chǔ)StarGAN網(wǎng)絡(luò)提出了以下3項(xiàng)改進(jìn)：對(duì)生成器加入CBAM注意力模塊；改變生成器的網(wǎng)絡(luò)結(jié)構(gòu)為Attention U-Net網(wǎng)絡(luò)；對(duì)原來的損失函數(shù)加入上下文損失函數(shù)。對(duì)于實(shí)驗(yàn)結(jié)果使用定性和定量的評(píng)價(jià)標(biāo)準(zhǔn)，通過與其他模型的FID圖像評(píng)價(jià)指標(biāo)數(shù)值比較，文章提出的方法生成的圖片在圖像整體質(zhì)量和局部細(xì)節(jié)都有顯著的效果。

關(guān)鍵詞：計(jì)算機(jī)視覺; 表情生成; 數(shù)據(jù)增強(qiáng); StarGAN; 注意力機(jī)制

中圖分類號(hào)：TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2023）34-0009-04

開放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

0 引言

人臉表情往往比語言可以傳達(dá)更準(zhǔn)確真實(shí)的信息，對(duì)于人臉表情的研究最早可以追溯到20世紀(jì)60年代，Ekman等[1]科學(xué)家將觀察人臉表情運(yùn)用到心理學(xué)領(lǐng)域，他們建立了基本的7種表情分類，為后繼的研究奠定了基礎(chǔ)。當(dāng)下利用深度學(xué)習(xí)方法進(jìn)行人臉表情識(shí)別研究的工作開展已經(jīng)很充分了，眾所周知，深度學(xué)習(xí)的訓(xùn)練需要大規(guī)模的數(shù)據(jù)集支持。而目前人臉識(shí)別領(lǐng)域經(jīng)典的數(shù)據(jù)集如：JAFFE、FER2013、RAF-DB等數(shù)據(jù)量規(guī)模小，各表情類間數(shù)據(jù)量不均衡都在制約著深度神經(jīng)網(wǎng)絡(luò)的表情識(shí)別能力。為了最大限度地發(fā)掘深度神經(jīng)網(wǎng)絡(luò)的能力，本文提出了一種基于StarGAN的人臉表情圖像生成網(wǎng)絡(luò)，對(duì)經(jīng)典的人臉表情數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)，提高網(wǎng)絡(luò)對(duì)表情識(shí)別的準(zhǔn)確率。

StarGAN網(wǎng)絡(luò)是針對(duì)多域圖像轉(zhuǎn)換問題而提出的，它解決了CycleGAN單一域轉(zhuǎn)換的局限性，提高了效率，節(jié)省了計(jì)算資源。使用StarGAN網(wǎng)絡(luò)生成的人臉表情存在局部細(xì)節(jié)模糊、重疊等問題，對(duì)于人臉識(shí)別的準(zhǔn)確率造成很大的影響。因此，針對(duì)這一問題，本文對(duì)生成器加入CBAM注意力模塊，對(duì)于表情識(shí)別影響較大的局部，例如：嘴角、眼睛和鼻子等給予高權(quán)重。由于原始圖像和生成圖像在空間位置上不一定對(duì)齊，這就會(huì)對(duì)損失函數(shù)的值造成影響，從而影響生成的效果。為了解決這個(gè)問題，本文使用上下文損失函數(shù)來規(guī)避空間位置不對(duì)齊的影響，通過提取圖像的高維特征，計(jì)算不同圖像間的高維特征的余弦距離來判別2種圖片的損失距離。Attention U-Net網(wǎng)絡(luò)引入了門控單元，可以使得網(wǎng)絡(luò)集中在對(duì)表情變化影響巨大的區(qū)域。

1 模型方法

1.1 實(shí)驗(yàn)內(nèi)容

本實(shí)驗(yàn)主要包括2部分：人臉表情生成、表情識(shí)別。人臉表情生成用改進(jìn)的StarGAN算法對(duì)原始的數(shù)據(jù)集進(jìn)行擴(kuò)增，得到新的規(guī)模較大的數(shù)據(jù)集來為訓(xùn)練表情分類網(wǎng)絡(luò)做準(zhǔn)備。表情識(shí)別使用VGG-16網(wǎng)絡(luò)進(jìn)行表情分類，通過對(duì)比原數(shù)據(jù)集訓(xùn)練的分類網(wǎng)絡(luò)和擴(kuò)增后的數(shù)據(jù)集訓(xùn)練的分類網(wǎng)絡(luò)的表情識(shí)別準(zhǔn)確率，可以進(jìn)一步說明表情生成工作的價(jià)值和必要性。

1.2 CBAM注意力模塊

CBAM（Convolutional Block Attention Module）是一種用于增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)性能的注意力模塊。CBAM模塊[2]會(huì)將得到的特征圖按照空間和通道兩個(gè)維度計(jì)算注意力圖，從而提高圖像分類、目標(biāo)檢測(cè)和其他計(jì)算機(jī)視覺任務(wù)的性能。

CBAM模塊下有兩個(gè)子模塊：空間注意力模塊、通道注意力模塊。通道注意力模塊在空間維度上壓縮輸入特征圖，得到一個(gè)1×1×C的特征圖，自適應(yīng)地學(xué)習(xí)各通道的重要程度，計(jì)算每個(gè)通道的重要性權(quán)重，反饋給特征圖的通道信息?？臻g注意力模塊將前一模塊輸出的特征圖作為輸入，在通道維度上進(jìn)行壓縮，得到一個(gè)H×W×1的特征圖，得到空間層面的注意力權(quán)重信息。CBAM模塊是輕量級(jí)的注意力模塊，可以很方便地集成到各神經(jīng)網(wǎng)絡(luò)中，取得很好的效果，提高模型的泛化能力。如圖1所示，展示了CBAM模塊的計(jì)算流程。

1.3 損失函數(shù)

原始StarGAN網(wǎng)絡(luò)的損失函數(shù)[3]包括對(duì)抗損失、域分類損失、重建損失見（1）～（3）：

[Lrcls=Ex，c[-logDcls（c∣x）]]? ? ? ? ? （1）

[Lfcls=Ex，c[-logDcls（c∣G（x，c））]]? ? ? （2）

[Lrec=Ex，c，c[||x-G（G（x，c），c）||1]]? ? ? ?（3）

生成器和鑒別器的總損失函數(shù)如下所示：

[LD=-Ladv+λclsLrcls]? ? ? ? ?（4）

[LG=Ladv+λclsLfcls+λrecLrec]? ? ? （5）

為了解決原始圖像和生成圖像在空間上不完全對(duì)齊的問題，提出了上下文損失函數(shù)，通過比較圖像的高維特征，更好地度量了圖像之間的相關(guān)性。上下文損失函數(shù)公式為：

[LCX（x，y，l）=-log（CX（Φl（x），Φl（y）））]? ? ? （6）

其中，[Φl（x），Φl（y）]是原圖像和生成圖像使用VGG19網(wǎng)絡(luò)提取的特征圖。

改進(jìn)后的生成器和鑒別器的總損失函數(shù)為：

[LD=-Ladv+λclsLrcls]? ? ?（7）

[LG=Ladv+λclsLfcls+λrecL′rec+λcxLcX（x，y，l）]? ? （8）

其中， [λcls]、[λrec]、[λcx]均為超參數(shù)，它們的值都設(shè)為1。

1.4 Attention U-Net網(wǎng)絡(luò)

Attention U-Net網(wǎng)絡(luò)[4]是U-Net網(wǎng)絡(luò)的一個(gè)改進(jìn)方案，在計(jì)算機(jī)視覺和醫(yī)學(xué)圖像分割領(lǐng)域有很大的作用，它引入了Attention gate單元來關(guān)注圖像的重要區(qū)域。Attention U-Net網(wǎng)絡(luò)中的編解碼架構(gòu)和Skip Connection可以對(duì)圖像的不同層次特征圖進(jìn)行整合和重現(xiàn)，最大限度地提取圖像的深層特征。Attention U-Net網(wǎng)絡(luò)先由編碼器結(jié)構(gòu)進(jìn)行下采樣，獲得圖像壓縮后的特征；然后進(jìn)入中間特征層，進(jìn)一步提取圖像的高級(jí)特征；解碼器負(fù)責(zé)將從中間特征層提取出的特征圖進(jìn)行重構(gòu)，重建與原圖像大小相同的新圖像。Attention U-Net網(wǎng)絡(luò)中的注意力機(jī)制可以關(guān)注圖像中最重要的局部區(qū)域，例如嘴角、眼睛、鼻子這些對(duì)于表情識(shí)別具有關(guān)鍵影響的局部區(qū)域，可以提取到最重要的特征。Skip Connection的輸出和網(wǎng)絡(luò)上一級(jí)的特征圖都輸入Attention Gate單元計(jì)算，篩選出圖像最重要的特征區(qū)域。Attention Gate單元結(jié)構(gòu)如圖2所示。

Attention U-Net網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖3所示。

2 數(shù)據(jù)集的選取與數(shù)據(jù)增強(qiáng)

本實(shí)驗(yàn)使用的數(shù)據(jù)集為RAF-DB數(shù)據(jù)集和KDEF數(shù)據(jù)集。RAF-DB[5]為自然環(huán)境下采集的人臉表情數(shù)據(jù)集。該數(shù)據(jù)集的總規(guī)模超過30 000張，包括基本表情分類子集和復(fù)合表情分類子集。本次使用包含7種表情分類的基本表情分類子集：驚訝、恐懼、厭惡、快樂、悲傷、憤怒以及中立表情。基本表情集的訓(xùn)練集總量超過10 000張，測(cè)試集3 000張。雖然數(shù)據(jù)集規(guī)模較為合理，但是不同表情類別間數(shù)量相差懸殊，例如：快樂類表情圖片數(shù)量是恐懼類表情數(shù)量的十幾倍。因此，使用生成網(wǎng)絡(luò)對(duì)數(shù)據(jù)量小的表情類進(jìn)行數(shù)據(jù)增強(qiáng)，增強(qiáng)后RAF-DB數(shù)據(jù)集訓(xùn)練集共有41 796張圖片（對(duì)圖片數(shù)量小于5 957的表情類進(jìn)行人臉表情生成，每類表情選取5 957張）。

KDEF數(shù)據(jù)集的發(fā)布時(shí)間早在1988年，最初的應(yīng)用范圍為心理精神方面，后來隨著表情識(shí)別課題的提出，逐漸成為該領(lǐng)域內(nèi)比較重要的一個(gè)數(shù)據(jù)集。KDEF數(shù)據(jù)集總量不到5 000張，是一個(gè)比較小的數(shù)據(jù)集，但是采集的環(huán)境內(nèi)光線柔和、細(xì)節(jié)清晰度高、被試者服裝統(tǒng)一，避免了耳飾、妝容的影響，具有很高的研究?jī)r(jià)值。通過生成網(wǎng)絡(luò)對(duì)KDEF數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)，數(shù)據(jù)集規(guī)模變?yōu)樵瓉淼?倍。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)在操作系統(tǒng) Win11 下完成，CPU 為Intel（R） Core（TM） i7-12700H/GPU： RTX 3070 Ti，內(nèi) 存為 16G。開發(fā) 環(huán) 境為 Python3.8、PyTorch1.9.0等。

3.2 實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)選用了Pix2Pix、StarGAN以及本文提出的網(wǎng)絡(luò)進(jìn)行人臉表情生成，3種方法生成的RAF-DB數(shù)據(jù)集人臉表情效果對(duì)比如圖4所示：

3種方法生成的KDEF數(shù)據(jù)集人臉表情效果對(duì)比如圖5所示：

FID值[6]是經(jīng)典的衡量生成圖像質(zhì)量的指標(biāo)，可以衡量圖像生成的多樣性和質(zhì)量。FID值越低，說明圖片生成的質(zhì)量越高且富有多樣性。為了從定量的角度評(píng)斷本文提出方法的優(yōu)越性，采用FID指標(biāo)對(duì)3種方法進(jìn)行比較。FID通過比較生成圖像和原始圖像的分布相似性來評(píng)估模型的生成效果，使用在ImageNet數(shù)據(jù)集預(yù)訓(xùn)練好的Inception V3網(wǎng)絡(luò)作為特征提取器，將圖片提取到高緯度的特征表示，計(jì)算特征向量的均值向量和協(xié)方差矩陣。FID的表示如公式（9）：

[FID（X，Y）=||μX-μY||22+Tr（ΣX+ΣY-2ΣXΣY）] （9）

3種模型在RAF-DB數(shù)據(jù)集上生成表情圖片計(jì)算的FID值如表1所示：

3種模型在KDEF數(shù)據(jù)集上生成表情圖片計(jì)算的FID值如表2所示。

通過數(shù)據(jù)增強(qiáng)，得到了規(guī)模擴(kuò)大數(shù)倍的RAF-DB數(shù)據(jù)集和KDEF數(shù)據(jù)集，使用VGG-16網(wǎng)絡(luò)作為表情識(shí)別的分類網(wǎng)絡(luò)，用數(shù)據(jù)集的訓(xùn)練集訓(xùn)練分類網(wǎng)絡(luò)VGG-16，使用測(cè)試集評(píng)估表情識(shí)別的性能。3種模型的RAF-DB數(shù)據(jù)集表情識(shí)別準(zhǔn)確率如表3所示。

3種模型的KDEF數(shù)據(jù)集表情識(shí)別準(zhǔn)確率如表4所示：

3.3 實(shí)驗(yàn)結(jié)果分析

通過各種方法在RAF-DB數(shù)據(jù)集和KDEF數(shù)據(jù)集上生成的人臉表情圖片對(duì)比，可以觀察到本文方法生成的人臉圖片的整體質(zhì)量較高，局部的重疊、模糊情況發(fā)生較少。通過觀察表1和表2可知，本文方法在RAF-DB和KDEF數(shù)據(jù)集上生成的表情圖片均取得了最小的FID值，說明本文方法生成的人臉表情具有高質(zhì)量和高多樣性。通過觀察表3和表4，可以得出本文方法在兩個(gè)數(shù)據(jù)集上均取得了最高的表情識(shí)別率。綜上，本文方法生成的人臉表情圖像優(yōu)于StarGAN和Pix2Pix方法，對(duì)于解決人臉表情數(shù)據(jù)增強(qiáng)工作具有一定的意義。

4 結(jié)論

針對(duì)人臉表情數(shù)據(jù)增強(qiáng)問題，傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法，如旋轉(zhuǎn)、裁剪、縮放等在處理復(fù)雜的人臉表情變化時(shí)有很多的局限性：有限的變換空間，信息丟失、模型泛化能力受限。因此，提出了生成對(duì)抗網(wǎng)絡(luò)來生成表情圖像，從而擴(kuò)增數(shù)據(jù)集的規(guī)模。但是使用生成對(duì)抗網(wǎng)絡(luò)生成的圖像，往往會(huì)出現(xiàn)整體質(zhì)量低、局部細(xì)節(jié)模糊、重疊等問題。因此，提出了本文的方法，通過實(shí)驗(yàn)的結(jié)果證明，本文方法對(duì)于解決這一問題有一定的可行性。本文方法生成的人臉表情圖片雖然有了一定的進(jìn)步，但是和真實(shí)的人臉圖像還有不小的差距，部分細(xì)節(jié)還是不真實(shí)，希望通過后續(xù)的學(xué)習(xí)，提出更好的模型，更好地學(xué)習(xí)人臉圖像的特征。

參考文獻(xiàn)：

[1] EKMAN P，F(xiàn)REISEN W V，ANCOLI S.Facial signs of emotional experience[J].Journal of Personality and Social Psychology，1980，39（6）：1125-1134.

[2] SHENG W S，YU X F，LIN J Y，et al.Faster RCNN target detection algorithm integrating CBAM and FPN[J].Comput Syst Sci Eng，2023，47：1549-1569.

[3] CHOI Y，CHOI M，KIM M，et al.StarGAN：unified generative adversarial networks for multi-domain image-to-image translation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City，UT，USA.IEEE，2018：8789-8797.

[4] TREBING K，STA?CZYK T，MEHRKANOON S.SmaAt-UNet：precipitation nowcasting using a small attention-UNet architecture[J].Pattern Recognition Letters，2021，145：178-186.

[5] WANG K，PENG X J，YANG J F，et al.Region attention networks for pose and occlusion robust facial expression recognition[J].IEEE Transactions on Image Processing：a Publication of the IEEE Signal Processing Society，2020（29）：4057-4069.

[6] OBUKHOV A，KRASNYANSKIY M.Quality assessment method for GAN based on modified metrics inception score and Fréchet inception distance[C]//SILHAVY R，SILHAVY P，PROKOPOVA Z.Proceedings of the Computational Methods in Systems and Software.Cham：Springer，2020：102-114.

【通聯(lián)編輯：唐一東】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于 StarGAN的人臉表情數(shù)據(jù)增強(qiáng)研究