王俊杰 賈東立
摘要:StarGAN網(wǎng)絡(luò)在生成人臉表情圖片時(shí)存在局部細(xì)節(jié)模糊、重疊、整體質(zhì)量不佳等問題,針對(duì)上述問題,對(duì)基礎(chǔ)StarGAN網(wǎng)絡(luò)提出了以下3項(xiàng)改進(jìn):對(duì)生成器加入CBAM注意力模塊;改變生成器的網(wǎng)絡(luò)結(jié)構(gòu)為Attention U-Net網(wǎng)絡(luò);對(duì)原來的損失函數(shù)加入上下文損失函數(shù)。對(duì)于實(shí)驗(yàn)結(jié)果使用定性和定量的評(píng)價(jià)標(biāo)準(zhǔn),通過與其他模型的FID圖像評(píng)價(jià)指標(biāo)數(shù)值比較,文章提出的方法生成的圖片在圖像整體質(zhì)量和局部細(xì)節(jié)都有顯著的效果。
關(guān)鍵詞: 計(jì)算機(jī)視覺; 表情生成; 數(shù)據(jù)增強(qiáng); StarGAN; 注意力機(jī)制
中圖分類號(hào):TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)34-0009-04
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :
0 引言
人臉表情往往比語言可以傳達(dá)更準(zhǔn)確真實(shí)的信息,對(duì)于人臉表情的研究最早可以追溯到20世紀(jì)60年代,Ekman等[1]科學(xué)家將觀察人臉表情運(yùn)用到心理學(xué)領(lǐng)域,他們建立了基本的7種表情分類,為后繼的研究奠定了基礎(chǔ)。當(dāng)下利用深度學(xué)習(xí)方法進(jìn)行人臉表情識(shí)別研究的工作開展已經(jīng)很充分了,眾所周知,深度學(xué)習(xí)的訓(xùn)練需要大規(guī)模的數(shù)據(jù)集支持。而目前人臉識(shí)別領(lǐng)域經(jīng)典的數(shù)據(jù)集如:JAFFE、FER2013、RAF-DB等數(shù)據(jù)量規(guī)模小,各表情類間數(shù)據(jù)量不均衡都在制約著深度神經(jīng)網(wǎng)絡(luò)的表情識(shí)別能力。為了最大限度地發(fā)掘深度神經(jīng)網(wǎng)絡(luò)的能力,本文提出了一種基于StarGAN的人臉表情圖像生成網(wǎng)絡(luò),對(duì)經(jīng)典的人臉表情數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),提高網(wǎng)絡(luò)對(duì)表情識(shí)別的準(zhǔn)確率。
StarGAN網(wǎng)絡(luò)是針對(duì)多域圖像轉(zhuǎn)換問題而提出的,它解決了CycleGAN單一域轉(zhuǎn)換的局限性,提高了效率,節(jié)省了計(jì)算資源。使用StarGAN網(wǎng)絡(luò)生成的人臉表情存在局部細(xì)節(jié)模糊、重疊等問題,對(duì)于人臉識(shí)別的準(zhǔn)確率造成很大的影響。因此,針對(duì)這一問題,本文對(duì)生成器加入CBAM注意力模塊,對(duì)于表情識(shí)別影響較大的局部,例如:嘴角、眼睛和鼻子等給予高權(quán)重。由于原始圖像和生成圖像在空間位置上不一定對(duì)齊,這就會(huì)對(duì)損失函數(shù)的值造成影響,從而影響生成的效果。為了解決這個(gè)問題,本文使用上下文損失函數(shù)來規(guī)避空間位置不對(duì)齊的影響,通過提取圖像的高維特征,計(jì)算不同圖像間的高維特征的余弦距離來判別2種圖片的損失距離。Attention U-Net網(wǎng)絡(luò)引入了門控單元,可以使得網(wǎng)絡(luò)集中在對(duì)表情變化影響巨大的區(qū)域。
1 模型方法
1.1 實(shí)驗(yàn)內(nèi)容
本實(shí)驗(yàn)主要包括2部分:人臉表情生成、表情識(shí)別。人臉表情生成用改進(jìn)的StarGAN算法對(duì)原始的數(shù)據(jù)集進(jìn)行擴(kuò)增,得到新的規(guī)模較大的數(shù)據(jù)集來為訓(xùn)練表情分類網(wǎng)絡(luò)做準(zhǔn)備。表情識(shí)別使用VGG-16網(wǎng)絡(luò)進(jìn)行表情分類,通過對(duì)比原數(shù)據(jù)集訓(xùn)練的分類網(wǎng)絡(luò)和擴(kuò)增后的數(shù)據(jù)集訓(xùn)練的分類網(wǎng)絡(luò)的表情識(shí)別準(zhǔn)確率,可以進(jìn)一步說明表情生成工作的價(jià)值和必要性。
1.2 CBAM注意力模塊
CBAM(Convolutional Block Attention Module) 是一種用于增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)性能的注意力模塊。CBAM模塊[2]會(huì)將得到的特征圖按照空間和通道兩個(gè)維度計(jì)算注意力圖,從而提高圖像分類、目標(biāo)檢測(cè)和其他計(jì)算機(jī)視覺任務(wù)的性能。
CBAM模塊下有兩個(gè)子模塊:空間注意力模塊、通道注意力模塊。通道注意力模塊在空間維度上壓縮輸入特征圖,得到一個(gè)1×1×C的特征圖,自適應(yīng)地學(xué)習(xí)各通道的重要程度,計(jì)算每個(gè)通道的重要性權(quán)重,反饋給特征圖的通道信息??臻g注意力模塊將前一模塊輸出的特征圖作為輸入,在通道維度上進(jìn)行壓縮,得到一個(gè)H×W×1的特征圖,得到空間層面的注意力權(quán)重信息。CBAM模塊是輕量級(jí)的注意力模塊,可以很方便地集成到各神經(jīng)網(wǎng)絡(luò)中,取得很好的效果,提高模型的泛化能力。如圖1所示,展示了CBAM模塊的計(jì)算流程。
1.3 損失函數(shù)
原始StarGAN網(wǎng)絡(luò)的損失函數(shù)[3]包括對(duì)抗損失、域分類損失、重建損失見(1) ~(3) :
[Lrcls=Ex,c[-logDcls(c∣x)]]? ? ? ? ? (1)
[Lfcls=Ex,c[-logDcls(c∣G(x,c))]]? ? ? (2)
[Lrec=Ex,c,c[||x-G(G(x,c),c)||1]]? ? ? ?(3)
生成器和鑒別器的總損失函數(shù)如下所示:
[LD=-Ladv+λclsLrcls]? ? ? ? ?(4)
[LG=Ladv+λclsLfcls+λrecLrec]? ? ? (5)
為了解決原始圖像和生成圖像在空間上不完全對(duì)齊的問題,提出了上下文損失函數(shù),通過比較圖像的高維特征,更好地度量了圖像之間的相關(guān)性。上下文損失函數(shù)公式為:
[LCX(x,y,l)=-log(CX(Φl(x),Φl(y)))]? ? ? (6)
其中,[Φl(x),Φl(y)]是原圖像和生成圖像使用VGG19網(wǎng)絡(luò)提取的特征圖。
改進(jìn)后的生成器和鑒別器的總損失函數(shù)為:
[LD=-Ladv+λclsLrcls]? ? ?(7)
[LG=Ladv+λclsLfcls+λrecL′rec+λcxLcX(x,y,l)]? ? (8)
其中, [λcls]、[λrec]、[λcx]均為超參數(shù),它們的值都設(shè)為1。
1.4 Attention U-Net網(wǎng)絡(luò)
Attention U-Net網(wǎng)絡(luò)[4]是U-Net網(wǎng)絡(luò)的一個(gè)改進(jìn)方案,在計(jì)算機(jī)視覺和醫(yī)學(xué)圖像分割領(lǐng)域有很大的作用,它引入了Attention gate單元來關(guān)注圖像的重要區(qū)域。Attention U-Net網(wǎng)絡(luò)中的編解碼架構(gòu)和Skip Connection可以對(duì)圖像的不同層次特征圖進(jìn)行整合和重現(xiàn),最大限度地提取圖像的深層特征。Attention U-Net網(wǎng)絡(luò)先由編碼器結(jié)構(gòu)進(jìn)行下采樣,獲得圖像壓縮后的特征;然后進(jìn)入中間特征層,進(jìn)一步提取圖像的高級(jí)特征;解碼器負(fù)責(zé)將從中間特征層提取出的特征圖進(jìn)行重構(gòu),重建與原圖像大小相同的新圖像。Attention U-Net網(wǎng)絡(luò)中的注意力機(jī)制可以關(guān)注圖像中最重要的局部區(qū)域,例如嘴角、眼睛、鼻子這些對(duì)于表情識(shí)別具有關(guān)鍵影響的局部區(qū)域,可以提取到最重要的特征。Skip Connection的輸出和網(wǎng)絡(luò)上一級(jí)的特征圖都輸入Attention Gate單元計(jì)算,篩選出圖像最重要的特征區(qū)域。Attention Gate單元結(jié)構(gòu)如圖2所示。
Attention U-Net網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖3所示。
2 數(shù)據(jù)集的選取與數(shù)據(jù)增強(qiáng)
本實(shí)驗(yàn)使用的數(shù)據(jù)集為RAF-DB數(shù)據(jù)集和KDEF數(shù)據(jù)集。RAF-DB[5]為自然環(huán)境下采集的人臉表情數(shù)據(jù)集。該數(shù)據(jù)集的總規(guī)模超過30 000張,包括基本表情分類子集和復(fù)合表情分類子集。本次使用包含7種表情分類的基本表情分類子集:驚訝、恐懼、厭惡、快樂、悲傷、憤怒以及中立表情。基本表情集的訓(xùn)練集總量超過10 000張,測(cè)試集3 000張。雖然數(shù)據(jù)集規(guī)模較為合理,但是不同表情類別間數(shù)量相差懸殊,例如:快樂類表情圖片數(shù)量是恐懼類表情數(shù)量的十幾倍。因此,使用生成網(wǎng)絡(luò)對(duì)數(shù)據(jù)量小的表情類進(jìn)行數(shù)據(jù)增強(qiáng),增強(qiáng)后RAF-DB數(shù)據(jù)集訓(xùn)練集共有41 796張圖片(對(duì)圖片數(shù)量小于5 957的表情類進(jìn)行人臉表情生成,每類表情選取5 957張)。
KDEF數(shù)據(jù)集的發(fā)布時(shí)間早在1988年,最初的應(yīng)用范圍為心理精神方面,后來隨著表情識(shí)別課題的提出,逐漸成為該領(lǐng)域內(nèi)比較重要的一個(gè)數(shù)據(jù)集。KDEF數(shù)據(jù)集總量不到5 000張,是一個(gè)比較小的數(shù)據(jù)集,但是采集的環(huán)境內(nèi)光線柔和、細(xì)節(jié)清晰度高、被試者服裝統(tǒng)一,避免了耳飾、妝容的影響,具有很高的研究?jī)r(jià)值。通過生成網(wǎng)絡(luò)對(duì)KDEF數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),數(shù)據(jù)集規(guī)模變?yōu)樵瓉淼?倍。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)環(huán)境
本實(shí)驗(yàn)在操作系統(tǒng) Win11 下完成,CPU 為Intel(R) Core(TM) i7-12700H/GPU: RTX 3070 Ti, 內(nèi) 存 為 16G。開 發(fā) 環(huán) 境 為 Python3.8、PyTorch1.9.0等。
3.2 實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)選用了Pix2Pix、StarGAN以及本文提出的網(wǎng)絡(luò)進(jìn)行人臉表情生成,3種方法生成的RAF-DB數(shù)據(jù)集人臉表情效果對(duì)比如圖4所示:
3種方法生成的KDEF數(shù)據(jù)集人臉表情效果對(duì)比如圖5所示:
FID值[6]是經(jīng)典的衡量生成圖像質(zhì)量的指標(biāo),可以衡量圖像生成的多樣性和質(zhì)量。FID值越低,說明圖片生成的質(zhì)量越高且富有多樣性。為了從定量的角度評(píng)斷本文提出方法的優(yōu)越性,采用FID指標(biāo)對(duì)3種方法進(jìn)行比較。FID通過比較生成圖像和原始圖像的分布相似性來評(píng)估模型的生成效果,使用在ImageNet數(shù)據(jù)集預(yù)訓(xùn)練好的Inception V3網(wǎng)絡(luò)作為特征提取器,將圖片提取到高緯度的特征表示,計(jì)算特征向量的均值向量和協(xié)方差矩陣。FID的表示如公式(9) :
[FID(X,Y)=||μX-μY||22+Tr(ΣX+ΣY-2ΣXΣY)] (9)
3種模型在RAF-DB數(shù)據(jù)集上生成表情圖片計(jì)算的FID值如表1所示:
3種模型在KDEF數(shù)據(jù)集上生成表情圖片計(jì)算的FID值如表2所示。
通過數(shù)據(jù)增強(qiáng),得到了規(guī)模擴(kuò)大數(shù)倍的RAF-DB數(shù)據(jù)集和KDEF數(shù)據(jù)集,使用VGG-16網(wǎng)絡(luò)作為表情識(shí)別的分類網(wǎng)絡(luò),用數(shù)據(jù)集的訓(xùn)練集訓(xùn)練分類網(wǎng)絡(luò)VGG-16,使用測(cè)試集評(píng)估表情識(shí)別的性能。3種模型的RAF-DB數(shù)據(jù)集表情識(shí)別準(zhǔn)確率如表3所示。
3種模型的KDEF數(shù)據(jù)集表情識(shí)別準(zhǔn)確率如表4所示:
3.3 實(shí)驗(yàn)結(jié)果分析
通過各種方法在RAF-DB數(shù)據(jù)集和KDEF數(shù)據(jù)集上生成的人臉表情圖片對(duì)比,可以觀察到本文方法生成的人臉圖片的整體質(zhì)量較高,局部的重疊、模糊情況發(fā)生較少。通過觀察表1和表2可知,本文方法在RAF-DB和KDEF數(shù)據(jù)集上生成的表情圖片均取得了最小的FID值,說明本文方法生成的人臉表情具有高質(zhì)量和高多樣性。通過觀察表3和表4,可以得出本文方法在兩個(gè)數(shù)據(jù)集上均取得了最高的表情識(shí)別率。綜上,本文方法生成的人臉表情圖像優(yōu)于StarGAN和Pix2Pix方法,對(duì)于解決人臉表情數(shù)據(jù)增強(qiáng)工作具有一定的意義。
4 結(jié)論
針對(duì)人臉表情數(shù)據(jù)增強(qiáng)問題,傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法,如旋轉(zhuǎn)、裁剪、縮放等在處理復(fù)雜的人臉表情變化時(shí)有很多的局限性:有限的變換空間,信息丟失、模型泛化能力受限。因此,提出了生成對(duì)抗網(wǎng)絡(luò)來生成表情圖像,從而擴(kuò)增數(shù)據(jù)集的規(guī)模。但是使用生成對(duì)抗網(wǎng)絡(luò)生成的圖像,往往會(huì)出現(xiàn)整體質(zhì)量低、局部細(xì)節(jié)模糊、重疊等問題。因此,提出了本文的方法,通過實(shí)驗(yàn)的結(jié)果證明,本文方法對(duì)于解決這一問題有一定的可行性。本文方法生成的人臉表情圖片雖然有了一定的進(jìn)步,但是和真實(shí)的人臉圖像還有不小的差距,部分細(xì)節(jié)還是不真實(shí),希望通過后續(xù)的學(xué)習(xí),提出更好的模型,更好地學(xué)習(xí)人臉圖像的特征。
參考文獻(xiàn):
[1] EKMAN P,F(xiàn)REISEN W V,ANCOLI S.Facial signs of emotional experience[J].Journal of Personality and Social Psychology,1980,39(6):1125-1134.
[2] SHENG W S,YU X F,LIN J Y,et al.Faster RCNN target detection algorithm integrating CBAM and FPN[J].Comput Syst Sci Eng,2023,47:1549-1569.
[3] CHOI Y,CHOI M,KIM M,et al.StarGAN:unified generative adversarial networks for multi-domain image-to-image translation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT,USA.IEEE,2018:8789-8797.
[4] TREBING K,STA?CZYK T,MEHRKANOON S.SmaAt-UNet:precipitation nowcasting using a small attention-UNet architecture[J].Pattern Recognition Letters,2021,145:178-186.
[5] WANG K,PENG X J,YANG J F,et al.Region attention networks for pose and occlusion robust facial expression recognition[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2020(29):4057-4069.
[6] OBUKHOV A,KRASNYANSKIY M.Quality assessment method for GAN based on modified metrics inception score and Fréchet inception distance[C]//SILHAVY R,SILHAVY P,PROKOPOVA Z.Proceedings of the Computational Methods in Systems and Software.Cham:Springer,2020:102-114.
【通聯(lián)編輯:唐一東】