陳 斌, 朱晉寧, 東一舟
(南京師范大學(xué) 信息化建設(shè)管理處,江蘇 南京 210046)
表情是人類情感對(duì)外表現(xiàn)的重要途徑之一。由于表情之中蘊(yùn)含著豐富的信息,這些信息是人類內(nèi)心世界的折射,所以使得計(jì)算機(jī)可以識(shí)別表情,從而探知人類的心理狀態(tài),使其達(dá)到更好的人機(jī)交互效果和服務(wù)目標(biāo)[1]。美國著名心理學(xué)家保羅·艾克曼研究了人的不同精神狀態(tài)與表情的關(guān)聯(lián)關(guān)系,發(fā)現(xiàn)了基本情感表達(dá)要素的7種表情分類:驚訝、悲傷、憤怒、恐懼、快樂、厭惡及輕蔑[2]。隨著計(jì)算機(jī)圖像處理技術(shù)的蓬勃發(fā)展,以及其在人臉識(shí)別領(lǐng)域的推進(jìn),人臉表情識(shí)別研究逐漸成為一個(gè)重要方向。
目前計(jì)算機(jī)表情識(shí)別的主要方法涵蓋3個(gè)方向:整體識(shí)別法與局部識(shí)別法、形變提取法與運(yùn)動(dòng)提取法、幾何特征法與容貌特征法[3]。計(jì)算機(jī)識(shí)別表情的過程主要分3個(gè)步驟:圖像預(yù)處理,表情特征提取,表情識(shí)別(分類)[4]。計(jì)算機(jī)識(shí)別的表情特征主要以3種形式表示:灰度特征、運(yùn)動(dòng)特征和頻率特征[5]。表情識(shí)別主要分模型設(shè)計(jì)與訓(xùn)練過程及模型應(yīng)用與決策過程[6]。在模型設(shè)計(jì)與訓(xùn)練階段,主要有以下模型設(shè)計(jì)方法:線性分類器、神經(jīng)網(wǎng)絡(luò)分類器、支持向量機(jī)、隱形馬爾可夫模型、人臉物理模型建模、模型圖像編碼等分類模型[7-9]。針對(duì)設(shè)計(jì)的模型在人臉表情數(shù)據(jù)集上通常進(jìn)行有監(jiān)督的機(jī)器學(xué)習(xí)訓(xùn)練,從而得到最優(yōu)參數(shù)歸一化模型的目標(biāo)結(jié)果[10]。目前較為公認(rèn)的人臉表情數(shù)據(jù)集有:Extended Cohn-Kanada(CK+),Kaggle-Facial Expression Recognition 2013(FER2013),Japanese Female Facial Expression(JAFFE)等[11-13]。訓(xùn)練完畢的模型結(jié)果將用于應(yīng)用與決策過程進(jìn)行表情識(shí)別。近年來,在表情識(shí)別領(lǐng)域以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為基礎(chǔ)的分類模型研究得到重視[14]。Su等人通過多角度卷積神經(jīng)網(wǎng)絡(luò)(Multi-view Convolutional Neural Network,MvCNN)[15]進(jìn)行多種姿態(tài)下的物體識(shí)別,獲得較好效果,但訓(xùn)練所需條件苛刻,實(shí)踐性差;Kaya等人將圖像深層特征與HOG及局部Gabor二元模式的人工提取特征結(jié)合使用,以提高性能[16],但識(shí)別準(zhǔn)確率受到影響;Gu等人對(duì)分塊圖進(jìn)行Gabor變換,并通過徑向網(wǎng)絡(luò)對(duì)其進(jìn)行聯(lián)合編碼,進(jìn)而通過多分類器級(jí)聯(lián)實(shí)現(xiàn)全局分類[17]。這類方法由于融合高維特征,識(shí)別實(shí)時(shí)性受到約束;Soyel等人在卷積過程中引入了加權(quán)投票法[18],Liu等人基于Dempster-Shafer證據(jù)理論引入了最優(yōu)支持度算法實(shí)現(xiàn)了多區(qū)域決策級(jí)融合[19],但二者的特征提取方法通常均需人工干預(yù),而人工特征提取質(zhì)量造成了表情特征損失的不確定性,直接影響了模型分類質(zhì)量的魯棒性。Pathak提出基于語義的深度卷積神經(jīng)網(wǎng)絡(luò),通過學(xué)習(xí)圖像特征,生成圖像缺失部分的預(yù)測(cè)圖,最終實(shí)現(xiàn)缺失圖像的修復(fù)[20]。
針對(duì)上述問題,本文提出了基于殘差整流增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別方法。在深度學(xué)習(xí)結(jié)構(gòu)中,CNN在圖像分類問題中得到了廣泛的應(yīng)用[21]。近幾年來,CNN在目標(biāo)分割、識(shí)別與檢測(cè)等領(lǐng)域表現(xiàn)尤為出色[22]。以CNN為原型,在訓(xùn)練模型的過程中,引入殘差網(wǎng)絡(luò)(Residual Net,ResNets)的思想[23],修正CNN測(cè)試集效果與訓(xùn)練集效果之間,也即實(shí)際觀察值與擬合值之間的差。通過內(nèi)嵌于卷積層中的激勵(lì)函數(shù)(Activation Function)對(duì)殘差塊(Residual Block)的線性整流(Rectified Linear)操作,協(xié)助表達(dá)復(fù)雜特征,并降低由于神經(jīng)網(wǎng)絡(luò)層數(shù)堆疊后在訓(xùn)練集上學(xué)習(xí)效果受到的影響。同時(shí)通過數(shù)據(jù)增強(qiáng)的方法抑制深度神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練過程中過快的擬合,提升其在給定識(shí)別任務(wù)上的泛化性能,進(jìn)而提高模型學(xué)習(xí)效果的魯棒性。在表情識(shí)別領(lǐng)域,算法的結(jié)果精準(zhǔn)與性能穩(wěn)定是重要指標(biāo)。本文致力于結(jié)合CNN模型的優(yōu)點(diǎn),內(nèi)嵌殘差整流及數(shù)據(jù)增強(qiáng),在網(wǎng)絡(luò)層數(shù)恒等且復(fù)雜性不變的前提下提升模型分類的準(zhǔn)確性與魯棒性。
圖1是基于殘差整流增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別模型構(gòu)架。卷積神經(jīng)網(wǎng)絡(luò)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的代表算法之一[24-25]。卷積神經(jīng)網(wǎng)絡(luò)主要包括輸入層、隱含層和輸出層,隱含層主要由卷積層和池化層構(gòu)成。通過嵌入各層網(wǎng)絡(luò)的短連接(Shortcut Connection)組成的殘差塊在卷積過程中的不斷帶入以抑制訓(xùn)練的退化,以及線性整流函數(shù)防止梯度彌散并保持稀疏激活性作用,反復(fù)在訓(xùn)練過程中校準(zhǔn)直到模型生成,過程中融入了數(shù)據(jù)增強(qiáng)手段進(jìn)行訓(xùn)練條件的優(yōu)化,較好地增加了模型分類效果的準(zhǔn)確性,同時(shí)增強(qiáng)了模型的魯棒性。
圖1 基于殘差整流增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別模型構(gòu)架
CNN將數(shù)據(jù)特征的提取、模型的訓(xùn)練,以及分類等操作作為一個(gè)端到端的整體識(shí)別過程來看待[26],對(duì)于大規(guī)模數(shù)據(jù)集上的應(yīng)用取得了良好的效果,但對(duì)類似于人臉表情識(shí)別的小規(guī)模數(shù)據(jù)集,其分類過程中容易出現(xiàn)過擬合現(xiàn)象,從而導(dǎo)致識(shí)別效果和穩(wěn)定性都不理想[27]。圖2給出了卷積神經(jīng)網(wǎng)絡(luò)對(duì)表情圖像處理的基本過程。網(wǎng)絡(luò)深度的增加理論上可以提升分類的精度,但隨著網(wǎng)絡(luò)深度(層數(shù))的不斷增加,訓(xùn)練過程越發(fā)低效,參數(shù)調(diào)優(yōu)越發(fā)困難,模型訓(xùn)練衰退情況也越發(fā)嚴(yán)重。研究發(fā)現(xiàn)殘差中蘊(yùn)含著模型基本關(guān)系之間的重要信息[28],通過回溯觀測(cè)值的誤差,對(duì)模型參數(shù)進(jìn)行修正,可以達(dá)到理想的抑制訓(xùn)練退化的目的。激活函數(shù)通過線性整流的方式將嵌入層的殘差修正,并將激活信息傳入下一層網(wǎng)絡(luò)。該處理方法本質(zhì)上就是將激活函數(shù)的非線性因素融入CNN,補(bǔ)齊模型的線性表達(dá)能力,將激活整流后的殘差特征保留傳遞至下一層映射。
圖2 卷積神經(jīng)網(wǎng)絡(luò)圖像處理基本過程
模型訓(xùn)練過程分為前向計(jì)算階段及方向傳播階段。在兩個(gè)過程交疊往復(fù)中,持續(xù)對(duì)權(quán)值參數(shù)保持更新,并將殘差激活后迭代進(jìn)各層各訓(xùn)練階段,進(jìn)而使得損失函數(shù)結(jié)果達(dá)到最小。
殘差塊與激活整流作用過程如圖3所示,x表示輸入,F(xiàn)(x)表示殘差塊在前一層激活函數(shù)整流之前的輸入,公式(1)
圖3 殘差塊與激活整流作用過程Fig.3 Residual block and activation rectification process
F(x)=W2σ(W1x)
,
(1)
式中,W1和W2分別表示上一層和下一層的權(quán)重,σ表示ReLU激活函數(shù),殘差整流后的輸出結(jié)果為σ(F(x)+x)。卷積層計(jì)算方式為:
Convi=F(x*ki+bi)
,
(2)
式中,Conv結(jié)果為第i次卷積與輸入圖像卷積計(jì)算后得到的特征圖,F(xiàn)為激活整流函數(shù)ReLU,ki為第i個(gè)卷積核,bi為其對(duì)應(yīng)偏置量。池化層的計(jì)算方式為:
Pi=F(αipooling(Convi)+bi)
,
(3)
式中,Pi為池化層中第i個(gè)圖像的輸出,αi和bi為第i個(gè)圖像的偏置值,pooling()為池化函數(shù)。合并層的計(jì)算方式為:
,
(4)
式中,m(i)為第i個(gè)池化層的特征圖,F(xiàn)是池化層特征圖的和值。全連接層的計(jì)算方式為:
Fl=F(w×u+b)
,
(5)
式中,u為特征值,w為權(quán)值,b為偏置量,F(xiàn)為激活函數(shù)。
人臉表情數(shù)據(jù)集數(shù)據(jù)樣本數(shù)量不足已經(jīng)成為共性問題[29],已存在的樣本也有著相似度高的問題,各類表情分類樣本分布不均衡容易導(dǎo)致不同表情的分類效果差別較大[30]。數(shù)據(jù)增強(qiáng)是目前較好地解決表情樣本量不足及分布不均衡問題的方式。圖像生成方式在表情識(shí)別領(lǐng)域較常用的為生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)及其改進(jìn)方法。但究其根本,生成方法的基本思路均為二人零和博弈,即二人的利益之和為零,一方的所得必然為另一方的所失[31]。它是一種無監(jiān)督概率學(xué)習(xí)方法,能夠?qū)?shù)據(jù)的真實(shí)分布進(jìn)行學(xué)習(xí)并產(chǎn)生與之相關(guān)的新數(shù)據(jù)集。其模型網(wǎng)絡(luò)由生成模型G和判別模型D構(gòu)成,生成模型用來探尋訓(xùn)練數(shù)據(jù)的分布情況,判別模型本質(zhì)上是一個(gè)二分類,用來判斷輸入的數(shù)據(jù)是來源于真實(shí)的數(shù)據(jù)還是生成的數(shù)據(jù)。生成模型與判別模型之間的關(guān)系可以按式(6)表示為:
,
(6)
式中,x為真實(shí)數(shù)據(jù),服從分布pd(x),z為隨機(jī)噪聲,服從高斯分布pz(z)。但傳統(tǒng)GAN方式存在訓(xùn)練過程不穩(wěn)定,生成樣本多樣性差等問題,導(dǎo)致生成的圖像不可控,通常的處理方式是給生成網(wǎng)絡(luò)添加生成約束條件。添加了條件約束的GAN本質(zhì)上是對(duì)GAN的一種有條件擴(kuò)展,其中最具代表性的是帶循環(huán)約束的生成對(duì)抗網(wǎng)絡(luò),也是本文選擇使用的表情數(shù)據(jù)集增強(qiáng)方式。
LossGAN(Gu,Dv,U,V)=Fv~Pd(v)[logDv(v)]+Fu~Pd(u)[log(1-Dv(Gu(u)))]
,
(7)
式(7)用于表示源域樣本集容量U與目標(biāo)域樣本集容量V之間的映射關(guān)系所對(duì)應(yīng)的由判別模型Dv進(jìn)行優(yōu)化所帶來的損失代價(jià)計(jì)算數(shù)值。
LossGAN(Gv,Du,V,U)=Fu~Pd(u)[logDu(u)]+Fv~Pd(v)[log(1-Du(Gv(u)))]
,
(8)
式(8)表示目標(biāo)域樣本集容量V與源域樣本集容量U的映射關(guān)系所需由判別模型Du進(jìn)行優(yōu)化的損失。理想情況下對(duì)抗損失優(yōu)化的結(jié)果將近似接近目標(biāo)域的分布,使得反轉(zhuǎn)后的分布接近源域的分布,然而實(shí)際情況下生成模型通常只能學(xué)習(xí)到目標(biāo)域的部分分布,導(dǎo)致優(yōu)化結(jié)果不能達(dá)到預(yù)期的目標(biāo)。然而循環(huán)一致性損失的添加可以較好地解決該問題。循環(huán)一致性損失函數(shù)的定義如式(9)所示:
LossCycle=Fu~Pd(u)[‖Gv(Gu(u))-u‖]+Fv~Pd(v)[‖Gu(Gv(v))-v‖]
,
(9)
式中,‖…‖是L1的正則化范式,用于計(jì)算兩個(gè)分布之間的間距差值??偟膿p失函數(shù)的計(jì)算方式可定義為:
Loss(Gu,Gv,Du,Dv)=LossGAN(Gu,Dv,U,V)+LossGAN(Gv,Du,V,U)+σLossCycle
,
(10)
式中,σ為超參數(shù),用于協(xié)調(diào)對(duì)抗損失與循環(huán)一致性損失函數(shù)的權(quán)重。
本文基于殘差整流增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別模型主要分為輸入人臉圖像預(yù)處理(包含數(shù)據(jù)增強(qiáng))、表情識(shí)別模型構(gòu)建(包括模型訓(xùn)練和測(cè)試),以及表情識(shí)別模型的決策,模型整體構(gòu)架如圖1所示。首先,對(duì)輸入的人臉圖像進(jìn)行人臉配準(zhǔn)和歸一化處理,同時(shí)通過數(shù)據(jù)增強(qiáng)手段對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行補(bǔ)充,并對(duì)訓(xùn)練集和測(cè)試集進(jìn)行劃分;進(jìn)而對(duì)表情信息含量豐富的眼眉區(qū)域、唇口區(qū)域的關(guān)鍵特征進(jìn)行提取,過濾低表情信息熵的鼻、臉頰、頭發(fā)等區(qū)域,通過不斷卷積迭代及特征圖生成和池化后,最終產(chǎn)出訓(xùn)練模型結(jié)果;在最終的模型決策階段,將待決策圖片信息提取送入模型進(jìn)行判斷,尋找最優(yōu)解,獲得待測(cè)對(duì)象表情分類的判定結(jié)果,完成表情識(shí)別過程。
本文的網(wǎng)絡(luò)結(jié)構(gòu)以VGG16為基礎(chǔ),卷積網(wǎng)絡(luò)共12個(gè)卷積層,卷積核大小在整個(gè)過程中保持3×3不變,最終的輸出特征圖尺寸為7×7,由于每一步都攜帶殘差信息并伴有線性整流操作,測(cè)算出每一步感受比未殘差整流處理的情況提升了3倍,這對(duì)整個(gè)卷積過程最終結(jié)果有很大的向好影響。本文分別在基礎(chǔ)表情數(shù)據(jù)集JAFFE和FER2013基礎(chǔ)上進(jìn)行圖像生成增強(qiáng),訓(xùn)練數(shù)據(jù)W包含了n個(gè)訓(xùn)練樣本w,劃分為7類表情數(shù)據(jù):驚訝(Surprised)、悲傷(Sad)、憤怒(Angry)、恐懼(Scared)、快樂(Happy)、厭惡(Disgust)和平靜(Neutral),經(jīng)過SoftMax分類器進(jìn)行歸一化處理,處理過程表示如下:
,
(11)
式中,w代表訓(xùn)練樣本,n代表樣本數(shù)量,e代表樣本概率。樣本模型預(yù)測(cè)分布h與真實(shí)樣本分布k之間的差異關(guān)系可以按照式(12)表示:
,
(12)
式中,tensor為輸出特征圖張量,此處定義其值為7。在卷積的整個(gè)過程中,由于真實(shí)分布的k值表情信息熵始終保持穩(wěn)定,所以只需要考慮如何對(duì)共享表情信息熵的數(shù)值進(jìn)行計(jì)算,方式如下:
,
(13)
.
(14)
同時(shí),對(duì)于損失的計(jì)算以及各樣本分類均衡處理需要添加不同的權(quán)值,以降低樣本數(shù)量的差異化所帶來的分類效果的差異化,權(quán)值賦予方式定義如下:
,
(15)
式中,v為權(quán)值數(shù)據(jù)。訓(xùn)練樣本類別不均衡是造成不同類別預(yù)測(cè)結(jié)果不對(duì)稱的最常見原因之一。本文中在訓(xùn)練時(shí)為避免正負(fù)樣本比例失調(diào),一方面通過數(shù)據(jù)增強(qiáng)補(bǔ)差,另一方面通過增加和調(diào)節(jié)權(quán)值偏置量(超參數(shù))來改善訓(xùn)練穩(wěn)固性,增強(qiáng)抗干擾性,提升魯棒性。權(quán)值偏置量作用過程可以表示為:
AWB=σi[-(1-k(wi))]λ×AW
,
(16)
式中,λ表示表情交叉信息熵,σ表示調(diào)節(jié)權(quán)值偏置量。
本文通過基于殘差整流增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人臉表情檢測(cè)與識(shí)別,通過迭代殘差塊帶入卷積抑制了退化作用,并通過線性整流函數(shù)激活殘差效果,通過生成高質(zhì)量候選區(qū)域,優(yōu)化面部表情分類過程。為避免數(shù)據(jù)集密度不足導(dǎo)致的訓(xùn)練過程過擬合情況,輔助數(shù)據(jù)增強(qiáng)手段對(duì)訓(xùn)練過程進(jìn)行微調(diào),以獲得較優(yōu)的效果增益。
本實(shí)驗(yàn)所使用的硬件環(huán)境為:Intel(R) Core(TM) i5-6200U CPU @ 2.30GHz處理器,16GB內(nèi)存(RAM),NVIDIA GeForce GTX 1070Ti GPU加速。支撐軟件及開發(fā)軟件環(huán)境為:Anaconda 4.7.5(內(nèi)嵌Python 3.7),PyCharm 2019.3.3(Professional Edition),CNN所采用的基礎(chǔ)框架為TensorFlow 2.0.0。
為了證明基于殘差整流增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別方法的有效性,本文分別引入業(yè)界具有代表性的JAFFE數(shù)據(jù)集和FER2013數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評(píng)估,文中列出了JAFFE數(shù)據(jù)集的示例圖及生成圖示例(如圖4及圖5所示),F(xiàn)ER2013數(shù)據(jù)集情況類似。JAFFE數(shù)據(jù)集使用日本ATR(Advanced Telecommunication Research Institute International)專門用于表情識(shí)別研究的基本表情數(shù)據(jù)庫。該數(shù)據(jù)庫中包含了213幅(每幅圖像的分辨率:256×256)日本女性的臉相,每幅圖像都有原始的表情定義。表情庫中共有10個(gè)人。JAFFE數(shù)據(jù)庫均為正面臉相,且把原始圖像進(jìn)行重新調(diào)整和修剪,使得眼睛在數(shù)據(jù)庫圖像中的位置大致相同,臉部尺寸基本一致,光照均為正面光源,但光照強(qiáng)度有差異。由于此表情數(shù)據(jù)庫完全開放,且表情標(biāo)定非常標(biāo)準(zhǔn),所以現(xiàn)在大多數(shù)研究表情識(shí)別的文章中都使用它來訓(xùn)練與測(cè)試。FER2013的表情數(shù)據(jù)來源于ICML(International Conference on Machine Learning)2013年的挑戰(zhàn)賽。FER2013是自然環(huán)境下的人臉表情數(shù)據(jù)庫,樣本總數(shù)為35 887幅,所有圖像來自于互聯(lián)網(wǎng)。由于樣本差異性較大,部分人臉有遮擋和旋轉(zhuǎn)等情況,因此在該數(shù)據(jù)庫上進(jìn)行表情識(shí)別具有一定挑戰(zhàn)性。FER2013數(shù)據(jù)集圖像大小為48×48,由于生成對(duì)抗網(wǎng)絡(luò)輸出圖像大小為128×128,在使用生成樣本時(shí),本文統(tǒng)一將圖像樣本歸一化處理成48×48。兩個(gè)數(shù)據(jù)集都包括憤怒(Angry)、中性(Neutral)、厭惡(Disgust)、恐懼(Scared)、快樂(Happy)、悲傷(Sad)和驚訝(Surprised)7種分類表情數(shù)據(jù)。
圖4 JAFFE數(shù)據(jù)集7類表情圖像示例
本實(shí)驗(yàn)基于受控場(chǎng)景下近距離實(shí)時(shí)攝像頭或上傳照片的表情分析,相對(duì)非受控場(chǎng)景下具備較好排他干擾因素條件。該環(huán)境特點(diǎn)是連續(xù)(待測(cè)對(duì)象大致位置確定)、光線陰影變化來源單一(正常情況下人員位置固定,正對(duì)攝像頭或有小幅偏轉(zhuǎn),并且一般光照情況均較好,光照影響情況突變性較小)、遮擋引起表情變化情況簡單(主要為低頭、側(cè)臉、托腮等小范圍動(dòng)作),混合干擾情況少(除了小幅動(dòng)作影響,幾乎沒有其他遮擋和光線陰影變化因素)。通過使用已增強(qiáng)數(shù)據(jù)后的數(shù)據(jù)集對(duì)模型進(jìn)行了102輪的訓(xùn)練,并經(jīng)過近半年時(shí)間的算法改進(jìn),在基于JAFFE數(shù)據(jù)集的訓(xùn)練分類效果上,最終最高正確率已收斂至91.7%。所有訓(xùn)練完成耗時(shí)達(dá)3 017 min,在訓(xùn)練過程中,以參數(shù)零為均值,滿足高斯分布的權(quán)重值標(biāo)準(zhǔn)差參數(shù)0.1為條件,按照偏置量參數(shù)零作為初始化值,每次選擇8張圖像代入訓(xùn)練過程。為了減少測(cè)試集與訓(xùn)練集數(shù)據(jù)劃分偶然性帶來的影響,實(shí)驗(yàn)中進(jìn)行了3次隨機(jī)抽樣,對(duì)3次實(shí)驗(yàn)結(jié)果進(jìn)行了平均值計(jì)算處理。
從實(shí)驗(yàn)結(jié)果來看,7類表情中分類準(zhǔn)確率最高的是中性(Neutral,最高達(dá)到91.7%,平均值接近80%),分類準(zhǔn)確率最低的是厭惡(Disgust,最高達(dá)到57.6%,平均值接近22%)。該差異主要由兩方面原因造成:(1)中性表情的訓(xùn)練集樣本最為豐富,中性表情的特征性較為明確,與其他表情的交叉特征信息少;(2)厭惡表情的訓(xùn)練集樣本最少,厭惡表情的特征并不十分明確,與其他表情例如憤怒(Angry)、恐懼(Fear)、悲傷(Sad)的特征重疊性較強(qiáng)。面部表情信息主要通過眉眼區(qū)域或唇口區(qū)域的動(dòng)作形態(tài)變化及紋理特征變化進(jìn)行傳遞,如果面部器官動(dòng)作特征或紋理指征不明確,則易引起識(shí)別結(jié)果不明確,從而造成分類錯(cuò)誤的可能性增大,誤識(shí)率增高,最終導(dǎo)致識(shí)別準(zhǔn)確率降低。圖6是本文對(duì)應(yīng)的表情分析實(shí)驗(yàn)系統(tǒng)示例圖,展示了本實(shí)驗(yàn)系統(tǒng)對(duì)7種表情圖像(動(dòng)態(tài)實(shí)時(shí)攝像或靜態(tài)圖片輸入)的分析結(jié)果,對(duì)單張靜態(tài)照片或動(dòng)態(tài)實(shí)時(shí)攝像單幀的平均計(jì)算耗時(shí)均在0.04 s左右。本實(shí)驗(yàn)系統(tǒng)同時(shí)展現(xiàn)了同源表情識(shí)別的歸一化概率分布,從中可以得出不同表情特征的獨(dú)立排他性和重疊相關(guān)性。
圖6 表情分析實(shí)驗(yàn)系統(tǒng)結(jié)果示例
針對(duì)增強(qiáng)后的FER2013數(shù)據(jù)集,本實(shí)驗(yàn)?zāi)P徒?jīng)過了38 961個(gè)樣本的訓(xùn)練,其中用于測(cè)試集的為4 012張,訓(xùn)練中采用300 epoch為一組的單網(wǎng)格模式,針對(duì)JAFFE數(shù)據(jù)集,由于增強(qiáng)后還是屬于樣本量偏少類型,所以為了避免過擬合,訓(xùn)練中采用8 epoch為一組的單網(wǎng)格模式,并且使用了交叉驗(yàn)證的方式。對(duì)于這兩個(gè)增強(qiáng)數(shù)據(jù)集的不同訓(xùn)練模型結(jié)果的應(yīng)用情況,從實(shí)驗(yàn)分析數(shù)據(jù)來看,在JAFFE增強(qiáng)數(shù)據(jù)集上訓(xùn)練的模型結(jié)果的表情分類準(zhǔn)確率高于在FER2013增強(qiáng)數(shù)據(jù)集上訓(xùn)練的模型結(jié)果。在JAFFE增強(qiáng)數(shù)據(jù)集上的識(shí)別分類準(zhǔn)確率最高達(dá)到了91.7%,而在FER2013增強(qiáng)數(shù)據(jù)集上的識(shí)別分類準(zhǔn)確率最高只能達(dá)到68.2%。造成兩種情況下模型識(shí)別率差別的最主要因素,在于FER2013數(shù)據(jù)集的圖片來源于互聯(lián)網(wǎng)隨機(jī)獲取的多元數(shù)據(jù),相較于JAFEE實(shí)驗(yàn)室特定情況下(10名日本女性)約束型數(shù)據(jù)集而言,雖然樣本數(shù)量占優(yōu),但樣本質(zhì)量缺乏規(guī)約性。然而,從識(shí)別率的魯棒性角度而言,F(xiàn)ER2013較JAFFE樣本集的測(cè)試結(jié)果更優(yōu),這與樣本量存在著直接的關(guān)系。圖7和圖8分別給出了基于JAFFE增強(qiáng)數(shù)據(jù)集以及FER2013增強(qiáng)數(shù)據(jù)集上訓(xùn)練的模型結(jié)果應(yīng)用在實(shí)驗(yàn)系統(tǒng)中的表情分類識(shí)別率的混淆矩陣。
圖7 基于JAFFE增強(qiáng)表情數(shù)據(jù)集訓(xùn)練模型平均識(shí)別率
圖8 基于FER2013增強(qiáng)表情數(shù)據(jù)集訓(xùn)練模型平均識(shí)別率
本文使用了基于殘差整流增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別算法對(duì)人臉表情進(jìn)行分類識(shí)別,該工作基于對(duì)現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)的殘差補(bǔ)齊和激勵(lì)整流同時(shí)輔以數(shù)據(jù)增強(qiáng)手段。實(shí)驗(yàn)結(jié)果表明,該方法可以有效對(duì)受控情況下的人臉圖像輸入進(jìn)行表情分類,最高準(zhǔn)確率達(dá)到了91.7%,在同訓(xùn)練集基礎(chǔ)上,較其他識(shí)別算法效果更優(yōu)。本文提及了該算法以及實(shí)驗(yàn)均在受控情況下進(jìn)行,僅適用于特定受控環(huán)境下的表情識(shí)別,而針對(duì)開放性非受控場(chǎng)景的密集型群體或人流表情的識(shí)別效果不佳,并未在本文中給出具體實(shí)驗(yàn)數(shù)據(jù),這也是下一步需要改進(jìn)和研究的方向。