王海濤,孫新領(lǐng),王佳輝,特列吾別克·哈哈爾曼
(1.河南工學(xué)院 工程技術(shù)教育中心,河南 新鄉(xiāng) 453003;2.河南工學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 新鄉(xiāng) 453003;3.哈密職業(yè)技術(shù)學(xué)院,新疆 哈密 839000)
面部表情是人類內(nèi)心情感的外在表現(xiàn),在物理上表現(xiàn)為臉部肌肉的不同形態(tài),根據(jù)不同的形態(tài)可以把人類的面部表情分為憤怒、蔑視、厭惡、恐懼、高興、悲傷、驚喜等不同類別[1]。面部表情識(shí)別作為人機(jī)交互和非語言交際的有效方式之一,在情感感知領(lǐng)域有著廣泛的應(yīng)用前景。比如,安全駕駛中的駕駛?cè)藸顟B(tài)分析、犯罪嫌疑人心理活動(dòng)分析、學(xué)生課堂狀態(tài)分析以及教師課堂授課狀態(tài)分析等。
近年來,深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域展現(xiàn)出強(qiáng)大的性能,而卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的代表算法之一,能夠從圖像中提取有效的特征信息,被越來越多的研究者應(yīng)用于面部表情識(shí)別[2]。但卷積神經(jīng)網(wǎng)絡(luò)關(guān)注的是圖像的全局特征,而面部表情往往通過臉部局部肌肉的變化來反映,因此使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行面部表情關(guān)鍵區(qū)域特征的提取還不是十分理想。注意力機(jī)制是視覺注意力的一種形式,它使卷積神經(jīng)網(wǎng)絡(luò)可以選擇性地處理視野內(nèi)某個(gè)區(qū)域的視覺信息[3]。但注意力機(jī)制是一階的,只能挖掘簡單和粗糙的信息,無法捕獲關(guān)鍵區(qū)域的相互影響以及由各種視點(diǎn)或姿態(tài)引起的面部表情之間的細(xì)微差異??簼嵉热颂岢隽嘶谟蜻m應(yīng)卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別方法(MMD)[4],該方法引入軟注意力機(jī)制解決特征的重標(biāo)定問題,同時(shí)利用預(yù)適應(yīng)方法最大程度減少領(lǐng)域差異性來解決缺少訓(xùn)練數(shù)據(jù)的問題。王倩露等人提取了一種結(jié)構(gòu)化特征融合的面部表情識(shí)別方法(SFF)[5],特征提取采用結(jié)構(gòu)化融合的方法,目的是將局部形狀特征與局部紋理特征有效結(jié)合,提取到更多、更詳細(xì)的表情特征信息。褚晶輝等人提出了一種基于通道和空間注意力(CSACNN)的11層卷積神經(jīng)網(wǎng)絡(luò)[6],通過通道和空間注意力模型對(duì)特征圖元素進(jìn)行加強(qiáng)或抑制。
基于上述研究,本文提出了一種殘差神經(jīng)網(wǎng)絡(luò)(Residual Neural Network, ResNet)與高階注意力模型(High-Order Attention, HOA)結(jié)合的面部表情的識(shí)別方法:
(1)通過HOA機(jī)制對(duì)CNN提取的特征進(jìn)行建模,以便捕獲更多不同關(guān)鍵區(qū)域之間相互影響的復(fù)雜信息和圖像之間的細(xì)微差異。
(2)應(yīng)用殘差學(xué)習(xí)單元使注意力模型獲得特征圖的梯度流,在保證模型容量的前提下有效緩解過擬合問題。
面部表情識(shí)別的關(guān)鍵是尋找表情變化突出的表情特征區(qū)域[7]。注意力機(jī)制是被廣泛認(rèn)為有助于解決這類問題的方法,而一階注意力模型主要包含空間和通道注意力,提取到的特征信息比較粗糙,不夠豐富,因此通過構(gòu)造高階表征的注意力模型可以捕獲面部表情中特征間的細(xì)微差別和面部關(guān)鍵區(qū)域之間的相互影響。
在卷積神經(jīng)網(wǎng)絡(luò)中,通常使用注意力機(jī)制來調(diào)整網(wǎng)絡(luò)的權(quán)重,用以突出顯示圖像的關(guān)鍵區(qū)域,并抑制噪聲部分。具體來說,將卷積神經(jīng)網(wǎng)絡(luò)的輸出張量記為X,則有X∈RC×H×W,其中C表示輸入圖像的通道數(shù),H表示輸入圖像的高度,W表示輸入圖像的寬度。注意力機(jī)制在卷積神經(jīng)網(wǎng)絡(luò)中的作用是對(duì)卷積輸出進(jìn)行降維處理,因此可以將這個(gè)過程描述為[8]:
Y=A(X)·X
(1)
式中,A(X)表示注意力模塊的輸出,·表示矩陣的哈達(dá)瑪積。
基于式(1),A(X)可以有不同的表現(xiàn)形式。例如:如果A(X)=rep[M]|C,M∈RH×W,則公式(1)表示為空間注意力模型,rep[M]|C是指沿通道尺寸將該空間掩模M擴(kuò)充C倍;如果A(X)=rep[V]|H·W,C∈RC,則公式(1)表示為通道注意力模型,rep[V]|H·W是指將這個(gè)特征向量沿著高和寬的方向分別擴(kuò)充H倍和W倍。圖1為一階注意力機(jī)制模型結(jié)構(gòu)圖[7]。
圖1 一階注意力機(jī)制模型結(jié)構(gòu)圖
盡管這個(gè)注意力機(jī)制可以突出關(guān)鍵區(qū)域的特征,但卻不能反映各個(gè)關(guān)鍵區(qū)域之間的相互影響和高階關(guān)系,因此,本文提出了高階注意力模型。
考慮到HOA內(nèi)部變量的交互和建立模型的復(fù)雜性,首先在x的高階統(tǒng)計(jì)量上定義一個(gè)線性多項(xiàng)式預(yù)測(cè)器,公式如下所示[9]:
(2)
式中,x∈RC,〈,〉表示兩個(gè)相同大小尺寸張量的內(nèi)積,R表示階數(shù),?rx表示x的r階向量積,wr表示要學(xué)習(xí)的權(quán)重。進(jìn)一步分解,wf可以近似表示為:
(3)
(4)
(5)
(6)
當(dāng)r>1時(shí),合并公式(6)的兩項(xiàng),可以得到:
(7)
在公式(7)中,a(x)是能夠建模并使用局部描述符x的高階統(tǒng)計(jì)量,因此可以通過在公式(7)上使用Sigmoid激活函數(shù)來獲得高階向量非線性映射,即:
A(X)=sigmoid(a(x))
(8)
此外,為了進(jìn)一步改善高階注意力機(jī)制的性能,引入ReLU激活函數(shù)[9],即:
(9)
共享不同位置空間A(X)的權(quán)重值,則有:A(X)={A(x(1,1)),…A(x(H,w))},結(jié)合公式 (1)Y=A(X)·X即為得到的HOA模型。圖2為高階注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)圖[7]。
此外,通過殘差神經(jīng)網(wǎng)絡(luò)融合高階注意力機(jī)制來獲得更豐富的特征和更好的梯度流,在保證模型容量的前提下有效緩解過擬合問題[10]。圖3為ResNet結(jié)合HOA網(wǎng)絡(luò)結(jié)構(gòu)圖。
圖2 HOA高階注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)圖
圖3 ResNet結(jié)合HOA網(wǎng)絡(luò)結(jié)構(gòu)圖
為了驗(yàn)證所述方法的有效性,本文在兩個(gè)表情數(shù)據(jù)集(CK+和Fer2013)上進(jìn)行了實(shí)驗(yàn)。
CK+數(shù)據(jù)集是發(fā)布于2010年的開源數(shù)據(jù)集[11],采集了123個(gè)人的表情視頻,共計(jì)593個(gè)圖像序列。參與者年齡在18到50歲之間,其中69%是女性;81%是歐美人,13%是非裔美國人,6%來自其他群體。每個(gè)序列從中性表情開始,到表情峰值結(jié)束,每個(gè)序列包含八個(gè)表情,即中性、憤怒、蔑視、厭惡、恐懼、高興、悲傷、驚訝。本實(shí)驗(yàn)經(jīng)過選擇處理,形成10720張圖片的樣本數(shù)據(jù),并按照8:2的比例劃分樣本為訓(xùn)練集和測(cè)試集。
Fer2013數(shù)據(jù)集發(fā)布于2013年[12],該數(shù)據(jù)集包含共26190張48*48灰度圖,圖片的分辨率比較低,共7種表情,分別為中性、憤怒、厭惡、恐懼、傷心、開心、驚訝。
實(shí)驗(yàn)在Ubuntu 18.04系統(tǒng)環(huán)境下進(jìn)行,基于PyTorch深度學(xué)習(xí)框架構(gòu)建的高階注意力機(jī)制面部表情識(shí)別模型。在所有實(shí)驗(yàn)中,將所有批大小設(shè)置為32,并使用一個(gè)1080Ti GPU。模型采用ResNet50作為骨干網(wǎng)絡(luò),將ResNet的第一層卷積層原始輸入通道為3修改輸入通道為1,即可處理灰度圖像。在訓(xùn)練時(shí),采用動(dòng)量因子為0.9的SGD優(yōu)化器,在訓(xùn)練開始時(shí),將學(xué)習(xí)率設(shè)置為0.01,設(shè)置訓(xùn)練的循環(huán)次數(shù)為200次,每50次循環(huán)將學(xué)習(xí)率降為原來的十分之一。
為增加訓(xùn)練集的多樣性,對(duì)數(shù)據(jù)集使用數(shù)據(jù)擴(kuò)充手段,對(duì)圖像進(jìn)行翻轉(zhuǎn)、旋轉(zhuǎn)等操作,以擴(kuò)大訓(xùn)練樣本的數(shù)量,增加訓(xùn)練樣本的多樣性。首先將所有面部區(qū)域圖像水平翻轉(zhuǎn)得到水平翻轉(zhuǎn)圖像。然后,每個(gè)圖像分別旋轉(zhuǎn)-15°、-12°、-9°、-6°、-3°、3°、6°、9°、12°、1°,得到旋轉(zhuǎn)圖像之后對(duì)旋轉(zhuǎn)圖像進(jìn)行水平翻轉(zhuǎn)得到旋轉(zhuǎn)圖像的水平翻轉(zhuǎn)圖像,最終得到22倍于原數(shù)據(jù)的實(shí)驗(yàn)數(shù)據(jù)集:原始圖像1倍、水平翻轉(zhuǎn)圖像1倍、旋轉(zhuǎn)圖像10倍、旋轉(zhuǎn)圖像的水平翻轉(zhuǎn)圖像10倍[5]。實(shí)驗(yàn)只對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)充。
模型訓(xùn)練好后,在測(cè)試集上對(duì)模型的準(zhǔn)確率進(jìn)行評(píng)價(jià)。表1和表2是在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。N、A、C、D、F、H、Sa和Su分別表示中性、憤怒、蔑視、厭惡、恐懼、快樂、悲傷和驚訝八種基本表情。
表1 CK+數(shù)據(jù)集表情識(shí)別準(zhǔn)確率(%)
CK+數(shù)據(jù)集中,該方法對(duì)驚訝、厭惡的識(shí)別率分別為98.7%和98.0%,對(duì)恐懼、蔑視和快樂的識(shí)別率分別為96.5%和97.0%,識(shí)別率較低。識(shí)別率的中位數(shù)為97.5%,總體識(shí)別率為97.5%。
表2 Fer2013數(shù)據(jù)集表情識(shí)別準(zhǔn)確率(%)
Fer2013數(shù)據(jù)集中,該方法對(duì)憤怒的識(shí)別率為96.1%,對(duì)厭惡的識(shí)別率為95.5%,對(duì)中性和快樂的識(shí)別率分別為94.5%和94.4%,而對(duì)悲傷、驚訝和恐懼的識(shí)別率較低,分別在93.1%、93.7%和93.7%。識(shí)別率的中位數(shù)為94.4%,總體識(shí)別率為94.4%。
表3和表4顯示了提出的方法和其他方法在CK+數(shù)據(jù)集和Fer2013數(shù)據(jù)集中獲得識(shí)別率的比較。
從表3和表4中的數(shù)據(jù)可以看出,與其他方法相比,殘差神經(jīng)網(wǎng)絡(luò)融合HOA模塊獲得了更高的識(shí)別率,從而提高了識(shí)別精度。
表3 CK+數(shù)據(jù)集中不同算法識(shí)別率比較
表4 Fer2013數(shù)據(jù)集中不同算法識(shí)別率比較
本文基于ResNet和HOA模型提出了一種新的面部表情識(shí)別方法。利用復(fù)雜的高階統(tǒng)計(jì)信息,對(duì)殘差網(wǎng)絡(luò)提取的特征進(jìn)行建模,提高表情識(shí)別的準(zhǔn)確率;利用HOA機(jī)制對(duì)CNN提取的特征進(jìn)行建模,以便捕獲更多不同關(guān)鍵區(qū)域之間相互影響的復(fù)雜信息和圖像之間的細(xì)微差異;通過對(duì)ResNet模型進(jìn)行改造,使其適用于灰度圖像。在Fer2013數(shù)據(jù)庫和CK+數(shù)據(jù)庫測(cè)試集上的實(shí)驗(yàn)表明,表情識(shí)別率分別達(dá)到94.40%和97.50%。對(duì)比實(shí)驗(yàn)驗(yàn)證了該方法的有效性。下一步可以在表情識(shí)別中面部細(xì)微差別的捕捉、面部關(guān)鍵區(qū)域之間的相互作用的計(jì)算方面進(jìn)行研究,從而進(jìn)一步提高表情識(shí)別精度。
(責(zé)任編輯王 磊)