趙宣棟 陳曦
摘? 要: 近年來(lái)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在機(jī)器視覺(jué)方面已取得了很大進(jìn)展,表情識(shí)別已然成為其中的熱門領(lǐng)域。表情識(shí)別的應(yīng)用使得計(jì)算機(jī)可以更好的理解人類情緒,具有較高的研究?jī)r(jià)值和應(yīng)用前景。本文歸納了表情識(shí)別領(lǐng)域常用公開數(shù)據(jù)集;介紹了表情識(shí)別的基本流程與常見(jiàn)方法,以及不同卷積神經(jīng)網(wǎng)絡(luò)在表情識(shí)別方面的方法研究與分析;針對(duì)表情識(shí)別領(lǐng)域現(xiàn)存問(wèn)題和未來(lái)發(fā)展進(jìn)行了分析總結(jié)。
關(guān)鍵詞: 表情識(shí)別; 卷積神經(jīng)網(wǎng)絡(luò); 機(jī)器學(xué)習(xí); 深度學(xué)習(xí)
中圖分類號(hào):TP391.41? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ?文章編號(hào):1006-8228(2022)04-01-04
Research of convolutional neural network in expression recognition
Zhao Xuandong Chen Xi
(1. School of Computer Science and Information Engineering, University of Harbin Normal University, Harbin, Heilongjiang 150000, China;
2. Zhengzhou University of light industry, College of computer and communication engineering)
Abstract: In recent years, machine learning and deep learning have made great progress in machine vision, and expression recognition has become a hot field. The application of expression recognition makes computer better understand human emotion, which has high research value and application prospect. In this paper, the common public data sets in the field of expression recognition are summarized; the basic process and common methods of expression recognition, as well as the research and analysis of facial expression recognition based on different convolutional neural networks are introduced; the existing problems and future development in the field of expression recognition are analyzed and summarized.
Key words: facial expression recognition; convolutional neural network; machine learning; deep learning
0 引言
19世紀(jì),達(dá)爾文[1]第一次提出對(duì)表情進(jìn)行研究,直到現(xiàn)在對(duì)表情的研究仍在繼續(xù)。1969年,Ekman等[2]人通過(guò)深刻的研究將人的表情詳細(xì)劃分,建立了面部動(dòng)作編碼系統(tǒng),這一系統(tǒng)對(duì)之后的研究影響深遠(yuǎn)。在Ekman的面部動(dòng)作編碼系統(tǒng)基礎(chǔ)上,很多學(xué)者通過(guò)將人臉劃分為多個(gè)動(dòng)作單元,再組合一個(gè)或多個(gè)動(dòng)作單元,來(lái)描述人的面部動(dòng)作,進(jìn)而對(duì)人臉面部細(xì)微表情進(jìn)行檢測(cè)。目前,表情識(shí)別不僅廣泛地使用在司法、臨床、治安等領(lǐng)域,也引起了社會(huì)媒體和科學(xué)界[3]的廣泛關(guān)注。
1 基于卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別研究與進(jìn)展
1.1 表情數(shù)據(jù)集
人的表情并非單一的,所以收集數(shù)據(jù)集時(shí)很難保證每個(gè)表情都具有單一性,加之收集時(shí)受外界條件影響較大,而非專業(yè)人員又難以準(zhǔn)確鑒別,因此專業(yè)性的表情數(shù)據(jù)集數(shù)量較少[4],詳細(xì)數(shù)據(jù)集情況如表1所示。
1.2 基于LeNet-5模型的表情識(shí)別
20世紀(jì)末,LeCun研究團(tuán)隊(duì)開發(fā)了第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型--LeNet-5模型[5]。該模型適合用于字符識(shí)別,如果想要使用LeNet-5模型對(duì)表情來(lái)識(shí)別,需要對(duì)嘴巴、眼睛以及其他面部皺紋的細(xì)微變化分別進(jìn)行識(shí)別,因此需要大量的特征圖像。同時(shí),由于其網(wǎng)絡(luò)結(jié)構(gòu)過(guò)于復(fù)雜,且對(duì)硬件配置要求過(guò)高,導(dǎo)致訓(xùn)練時(shí)間過(guò)長(zhǎng),所以其實(shí)用性,性價(jià)比較低。因此,在實(shí)驗(yàn)中一般使用改進(jìn)后的LeNet-5模型,增加C1和S1層的特征圖數(shù)量,降低C3和S4層的特征圖數(shù)量,僅保留一個(gè)全連接層。
改進(jìn)的LeNet-5的優(yōu)點(diǎn)是可用于實(shí)際自然場(chǎng)景下和非證明的表情識(shí)別,其正確率和有效率遠(yuǎn)遠(yuǎn)高于LeNet-5模型,并且隨著訓(xùn)練次數(shù)的不斷增加,每批樣本的損失函數(shù)會(huì)逐漸下降,最終逐漸趨于平緩。當(dāng)訓(xùn)練達(dá)到38000次左右時(shí),損失函數(shù)的變化就會(huì)小于0.001。但是,由于需要更多特征圖來(lái)檢測(cè)面部表情的細(xì)微變化,因此,需要更長(zhǎng)時(shí)間來(lái)計(jì)算卷積,所以改進(jìn)后的LeNet-5訓(xùn)練時(shí)間會(huì)相對(duì)較長(zhǎng)。
1.3 基于AlexNet模型的表情識(shí)別
相比于LeNet-5網(wǎng)絡(luò),AlexNet網(wǎng)絡(luò)有很大的改進(jìn),主要體現(xiàn)在GPU訓(xùn)練,通過(guò)將網(wǎng)絡(luò)擴(kuò)展在兩個(gè)GPU上進(jìn)行訓(xùn)練,加速網(wǎng)絡(luò)訓(xùn)練速度和加深網(wǎng)絡(luò)的層數(shù),且將原LeNet-5網(wǎng)絡(luò)的7層擴(kuò)展到11層。加深網(wǎng)絡(luò)的深度可以增進(jìn)訓(xùn)練速度,但是同樣也暴露出Sigmoid激活函數(shù)存在的問(wèn)題。據(jù)研究數(shù)據(jù)顯示,當(dāng)網(wǎng)絡(luò)深度隨著需求增加時(shí),Sigmoid激活函數(shù)出現(xiàn)明顯的梯度彌散。為解決這一問(wèn)題,AlexNet網(wǎng)絡(luò)選擇放棄Sigmoid激活函數(shù),改用Relu激活函數(shù)。除此之外,AlexNet網(wǎng)絡(luò)新加了LRN層[6],從而促進(jìn)了大的響應(yīng)神經(jīng)元,抑制了反饋小的神經(jīng)元,同時(shí)提高了模型的泛化能力。此外,該模型也利用大量的ImageNet和Dropout機(jī)制來(lái)減少過(guò)擬合情況。7342C20B-B95E-461D-9C3C-9DD9AA43235D
1.4 基于VGGNet模型的表情識(shí)別
VGGNet[7]是由Google Deep Mind團(tuán)隊(duì)和牛津大學(xué)合作完成的,可以說(shuō)是 AlexNet的高配加深版。與AlexNet模型相比,VGGNet通過(guò)不斷增加網(wǎng)絡(luò)層數(shù),發(fā)現(xiàn)了神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)深度對(duì)模型性能產(chǎn)生的直接影響。VGGNet的卷積核采用小而多的形式,使用了三個(gè)3×3的卷積核,而不是一個(gè)大的卷積核。這樣做的好處是既增大了網(wǎng)絡(luò)的深度,也沒(méi)有加大運(yùn)算量。在相同的感受野下,可得到更為精密高效的計(jì)算結(jié)果。此外,VGGNet具有較強(qiáng)的場(chǎng)景遷移性,在任何場(chǎng)景與環(huán)境上都具有較強(qiáng)的泛化能力。
VGGNet與同時(shí)推出的GoogleNet都是在AlexNet網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上改進(jìn)而得到,它們共同的特點(diǎn)就是“深度”[8]。GoogleNet模型的突出點(diǎn)在于模型結(jié)構(gòu),而VGGNet更注重網(wǎng)絡(luò)深度。與GoogleNet相比,VGGNet使用三個(gè)3×3的卷積核,使原始圖像的感受野達(dá)到一個(gè)7×7的卷積核的效果,但是與一個(gè)7×7的卷積核相比,圖像經(jīng)過(guò)3次激活函數(shù)的非線性變換具有更好的表達(dá)性,也能夠相對(duì)減少參數(shù)量,這也是VGGNet遠(yuǎn)超其他網(wǎng)絡(luò)泛化能力的根本原因。在實(shí)驗(yàn)中,將進(jìn)行VGG-16網(wǎng)絡(luò)在Softmax損失+中心性損失+人臉驗(yàn)證損失和三元組損失兩種不同訓(xùn)練下的性能統(tǒng)計(jì)。在兩種損失信號(hào)都能達(dá)到99.2%的情況下,用VGG-16進(jìn)行表情識(shí)別時(shí),同樣以RAF-DB和CK+作為數(shù)據(jù)集,其正確率可以分別達(dá)到67.06%和91.10%。
1.5 基于GoogleNet模型的表情識(shí)別
GoogLeNet相對(duì)于其他卷積神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),是較為新的卷積神經(jīng)網(wǎng)絡(luò)算法。首次提出是在ILSVRC14比賽上,GoogLeNet是一個(gè)深達(dá)22層的深層網(wǎng)絡(luò)[9]。GoogLeNet的研究核心是如何優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的局部稀疏結(jié)構(gòu),使其盡可能的接近實(shí)際密集內(nèi)容。
在GoogLeNet中,每個(gè)模塊的輸入都是在上一個(gè)分支在獲得一個(gè)特征映射后,將這些相同比例的特征映射拼接在一起,再傳遞給該模塊。為避免模塊的對(duì)齊問(wèn)題,Inception結(jié)構(gòu)采用了不同尺度的嵌套低維濾波器,可以保留多個(gè)感受野的局部相關(guān)信息。在這種情況下研究發(fā)現(xiàn),使用5*5的卷積核仍然會(huì)給程序帶來(lái)巨大的計(jì)算量。為解決這個(gè)問(wèn)題,GoogLeNet選擇了與VGGNet完全不同的方法,通過(guò)在每個(gè)分支上加一個(gè)1×1的卷積核,來(lái)有效的減少參數(shù)數(shù)量。
與AlexNet和VGG不同的是,Inception V1用全局平均池化層代替全連接層,這一改進(jìn)將參數(shù)的數(shù)量減少到前所未有的少量,但研究人員可以添加全連接層來(lái)微調(diào)和再訓(xùn)練,以便在其他模式識(shí)別場(chǎng)景中使用;其次,為了解決網(wǎng)絡(luò)深度過(guò)深造成的梯度消失現(xiàn)象,Inception V1額外增加了兩個(gè)分類器層,反向傳播使用多個(gè)損失信號(hào)進(jìn)行參數(shù)梯度計(jì)算;最后Inception V3基于NIN思想的精髓,設(shè)計(jì)了一個(gè)精細(xì)的Inception模塊,以提高網(wǎng)絡(luò)參數(shù)的利用率。
在實(shí)驗(yàn)時(shí)我們使用CK+數(shù)據(jù)集進(jìn)行擴(kuò)充,進(jìn)行預(yù)處理后進(jìn)行訓(xùn)練,結(jié)果顯示,GoogleNet無(wú)論是從頭訓(xùn)練還是微調(diào)的情況下都能夠取得比AlexNet更好的識(shí)別效果。
1.6 基于ResNet模型的表情識(shí)別
2015年,ResNet [10]在ILSVRC 2015比賽中奪冠,進(jìn)而進(jìn)入大家的視野當(dāng)中。ResNet引入了殘差單元,利用殘差的思想成功訓(xùn)練了深度高達(dá)152層的神經(jīng)網(wǎng)絡(luò),從此一鳴驚人。為避免深度網(wǎng)絡(luò)中的性能下降,ResNet[10]采用了對(duì)網(wǎng)絡(luò)中模塊學(xué)習(xí)目標(biāo)函數(shù)進(jìn)行變換的方法。打個(gè)比方,如果輸入n網(wǎng)絡(luò)模塊,那么其他神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)函數(shù)為H(n),但如果n是直接連接到輸出,那么學(xué)習(xí)目標(biāo)則為H(n)-n,所以只需要學(xué)習(xí)最初學(xué)習(xí)目標(biāo)和網(wǎng)絡(luò)模塊輸入數(shù)量的差值即可,這也是“殘差”的由來(lái),這樣做的最大優(yōu)勢(shì)是簡(jiǎn)化了學(xué)習(xí)的目標(biāo)數(shù)量和難度,也為超深層網(wǎng)絡(luò)的訓(xùn)練提供了方向。
在兩層殘差學(xué)習(xí)單元模型中,k層直接輸入x1到k+2層輸出,然后將k+2層輸出作為k+3的輸出。而只有維度相同的向量才可以相加,所以在殘差過(guò)程中不能進(jìn)行池化操作,并且卷積核數(shù)和輸出數(shù)必須相等,否則就必須使用一個(gè)1×1卷積進(jìn)行線性變換。而在第三層殘差學(xué)習(xí)單元模型中,使用了兩個(gè)1×1的卷積核,可以通過(guò)卷積核的個(gè)數(shù)實(shí)現(xiàn)特征圖的降維和升維操作。
2016年,KaimingHe等人提出ResNetV2。該模型易于訓(xùn)練,具有較強(qiáng)的泛化能力。與ResNet相比,ResNetV2將ReLU激活函數(shù)改為同等映射函數(shù),且在每一層中添加了批量歸一化技術(shù)。
在表情識(shí)別中,ResNet網(wǎng)絡(luò)在表情識(shí)別數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),其正確率高達(dá)67.50%和92.21%,比VGGNet和AlexNet都要高出很多,同時(shí)其參數(shù)量又遠(yuǎn)小于其他經(jīng)典網(wǎng)絡(luò)。
2 存在的問(wèn)題及發(fā)展趨勢(shì)
2.1 存在的問(wèn)題
⑴ 缺乏對(duì)現(xiàn)實(shí)人類的研究。表情識(shí)別研究所用數(shù)據(jù)集絕大部分為基本表情數(shù)據(jù)集,雖然在這一方面取得了不小進(jìn)展,但是由于人的表情是多變和復(fù)雜的,所以絕大部分研究成品都無(wú)法應(yīng)用到現(xiàn)實(shí)中。
⑵ 面部表情數(shù)據(jù)嚴(yán)重不足?,F(xiàn)在已有的表情數(shù)據(jù)庫(kù)中每個(gè)表情的數(shù)據(jù)都比較少,而且都非常刻意,表情流露不自然,與自然境況下的表情存有一定的差異,難以成為十分精確有效的數(shù)據(jù),并且其中的動(dòng)態(tài)序列圖像更是嚴(yán)重缺乏。
⑶ 研究場(chǎng)所多為實(shí)驗(yàn)室,缺少真實(shí)情況下的訓(xùn)練。表情識(shí)別的研究絕大部分是在理想適合的條件下進(jìn)行的。但是由于自然環(huán)境下會(huì)出現(xiàn)遮擋物體、遮擋人臉,不同時(shí)間亮度不同,以及周圍環(huán)境等其他的情況,都會(huì)對(duì)面部表情識(shí)別結(jié)果產(chǎn)生較大的影響,最終導(dǎo)致實(shí)際結(jié)果與實(shí)驗(yàn)結(jié)果有所不同。
⑷ 當(dāng)前表情識(shí)別多數(shù)僅能在單一表情情況下識(shí)別。人類表情是豐富多彩的,每種表情之間的界限與區(qū)別都是模糊的,就像一個(gè)人的圖片是睜大眼睛的,這有可能代表害怕,也有可能代表驚喜或驚奇。7342C20B-B95E-461D-9C3C-9DD9AA43235D
⑸ 不同人的臉部存在差異。在同種人的情況下,由于每個(gè)人的民族、年齡、生長(zhǎng)條件等因素都會(huì)影響到識(shí)別的正確性。且不同種族下人的習(xí)慣又存在差異,導(dǎo)致人臉很難使用統(tǒng)一的模型來(lái)歸類,增加了識(shí)別難度。
2.2 發(fā)展趨勢(shì)
⑴ 研究新的更加高效,更加精準(zhǔn)的識(shí)別算法。一個(gè)新的高效算法可以有效增加識(shí)別效率和降低識(shí)別時(shí)間,可以更大范圍的應(yīng)用到各個(gè)場(chǎng)景當(dāng)中。
⑵ 加強(qiáng)三維立體面部表情識(shí)別的研究。與二維圖像相比,三維立體圖像更接近于真實(shí)環(huán)境,其能包含更多、更準(zhǔn)確的人臉特征,結(jié)合三維信息可以更好地解決光照亮度等問(wèn)題。
⑶ 在現(xiàn)實(shí)生活的應(yīng)用。一個(gè)人的表情往往可以直接反應(yīng)出其內(nèi)心的心理變化。如果可以把表情識(shí)別與心理學(xué)、神經(jīng)科學(xué)、犯罪學(xué)等學(xué)科結(jié)合,那么對(duì)于社會(huì)發(fā)展與治安將會(huì)產(chǎn)生巨大效益。
卷積神經(jīng)網(wǎng)絡(luò)的適用范圍越來(lái)越廣,可處理的數(shù)據(jù)越來(lái)越多,其模型層數(shù)也從幾層變?yōu)樯习賹印1疚膶?duì)比和總結(jié)了熱門模型情況。如表2所示。
3 結(jié)束語(yǔ)
算法在不斷改進(jìn),而卷積神經(jīng)網(wǎng)絡(luò)依然是計(jì)算機(jī)視覺(jué)乃至深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域的主流模型,但是由于人類表情具有多樣性、模糊性等特點(diǎn),導(dǎo)致真實(shí)情況與研究情況產(chǎn)生誤差。因此,與其他識(shí)別相比,表情識(shí)別發(fā)展相對(duì)較慢,在現(xiàn)實(shí)中的應(yīng)用也較少。但表情識(shí)別在臨床醫(yī)學(xué)、人機(jī)交互以及心理分析等方面具有不可代替的地位,具有廣闊的應(yīng)用前景。除此之外,表情識(shí)別技術(shù)在理論上已相當(dāng)成熟,但在真實(shí)情況下的識(shí)別率和準(zhǔn)確度還有待提高,例如在室外的識(shí)別需加大研究力度??偟膩?lái)說(shuō),卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力極大地促進(jìn)了表情識(shí)別領(lǐng)域的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別具有巨大的發(fā)展?jié)摿蛻?yīng)用前景。
參考文獻(xiàn)(References):
[1] DARWIN C. The expression of the emotions in man and
animals[M]. University of Chicago Press,1965
[2] EKMAN P, Friesen W V. The repertoire of nonverbal
behavior: categories, origins, usage, and coding [J]. Semiotica,1969,1(1):49-98
[3] SCHUBERT S. A look tells all [J]. Scientific American
Mind, 2006,17(5):26-31
[4] DAILEY M N, JOYCE C, LYONS M J, et al. Evidence and
a computational explanation of cultural differences in facial expression recognition [J]. Emotion,2010,10(6):874-893
[5] YANN L C, BOTTOU L, BENGIO Y, et al. Gradient-
based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324
[6] DHALL A, GOECKE R, Lucey S, et al. Collecting Large,
Richly Annotated Facial-Expression Databases from Movies[J].IEEE Multimedia,2012,19(3):34-41
[7] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional
Networks for Large-Scale Image Recognition[J]. Computer Science,2014,1409(15):1-9
[8] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking
the Inception Architecture for Computer Vision[C],Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:2818-2826
[9] HE K, ZHANG X, REN S, et al. Deep Residual Learning
for Image Recognition[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:770-778
[10] HUANG G, LIU Z, et al. Densely Connected
Convolutional Networks[C],Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:4700-47087342C20B-B95E-461D-9C3C-9DD9AA43235D