陸嘉慧 張樹美 趙俊莉
摘要:針對面部表情識別在許多領(lǐng)域的重要應(yīng)用,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)集成的面部表情識別(facial expression recognition,F(xiàn)ER)方法。采用3種網(wǎng)絡(luò)結(jié)構(gòu)不同的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,利用這些深層模型,使用基于驗證準(zhǔn)確性的多數(shù)投票、簡單平均和加權(quán)平均的集合方法,在CK+數(shù)據(jù)集和FER2013數(shù)據(jù)集上分別測試單一網(wǎng)絡(luò)模型和集合網(wǎng)絡(luò)模型。測試結(jié)果表明,單一模型的最佳識別率分別為98.99%和66.45%,集合網(wǎng)絡(luò)的最佳識別率分別達(dá)到99.33%和67.98%,說明使用集合方法的模型比單一模型表現(xiàn)更佳,其中加權(quán)平均的集合方法優(yōu)于簡單平均和多數(shù)投票,說明本文所提出的方法能夠滿足面部表情識別的要求。該研究具有一定的實際應(yīng)用價值。
關(guān)鍵詞:表情識別; 卷積神經(jīng)網(wǎng)絡(luò); 網(wǎng)絡(luò)集合; 表情數(shù)據(jù)集
中圖分類號: TP391.413文獻(xiàn)標(biāo)識碼: A
面部表情是表達(dá)內(nèi)心世界最自然的方式,它在社會交往中起著至關(guān)重要的作用。20世紀(jì)70年代初期,D. Ekman等人[1]提出所有文化中都存在6種普遍的情感表達(dá),即驚訝、悲傷、憤怒、厭惡、快樂和恐懼。近年來,面部表情識別的調(diào)查引起了廣泛關(guān)注[23],A.Krizhevsky等人[4]認(rèn)為基于深度學(xué)習(xí)的新方法可以改善面部表情分類任務(wù),尤其是ImageNet Challenge的最新改進(jìn)以來,使CNN代表了相關(guān)的突破。CNN將特征提取和分類結(jié)合在一起,通過輸入原始數(shù)據(jù)得到最終的分類標(biāo)簽,不需要任何輔助過程。擁有數(shù)千萬參數(shù)的CNN可以處理大量的訓(xùn)練樣本,自動從網(wǎng)絡(luò)中學(xué)習(xí)特征,不需要手工提取。目前,這些端到端方法通過使用深度學(xué)習(xí)分類器的集合進(jìn)行改進(jìn),整體由一組CNN組成,它聚合每個分類器的部分結(jié)果,以在測試時間內(nèi)產(chǎn)生統(tǒng)一的響應(yīng)。T. Connie等人[5]將SIFT特征與從原始圖像中學(xué)習(xí)的CNN特征合并,提高FER性能;H. Jung等人[6]提出了深度網(wǎng)絡(luò)結(jié)合時間外觀特征和一組特定面部地標(biāo)的時間幾何;Ding H等人[7]先用正則化約束調(diào)整CNN權(quán)重,再添加全連接的圖層,這些圖層在初始階段的預(yù)訓(xùn)練特征之上學(xué)習(xí)分類參數(shù);Yu Z等人[8]通過可學(xué)習(xí)權(quán)重將多個CNN模型結(jié)合在一起,以最大限度地減少鉸鏈損失;B. K. Kim等人[9]提出了基于驗證準(zhǔn)確性的指數(shù)加權(quán)平均值,以強(qiáng)調(diào)合格的個體,并通過實施多數(shù)投票或更高層次的簡單平均,構(gòu)建委員會的等級架構(gòu);G. Pons等人[10]使用不同大小的濾波器和全連接層中不同數(shù)量的神經(jīng)元來構(gòu)建各種CNN;Yu Z[11]通過使用對數(shù)似然損失和鉸鏈損失來自適應(yīng)地為每個網(wǎng)絡(luò)分配不同的權(quán)重。使用CNN集合可以勝過單個CNN分類器,單一的CNN分類器在應(yīng)用中常常受到一定條件的限制,而集合CNN融合各單分類器判別信息的同時,實現(xiàn)了各分類器之間優(yōu)缺點的互補(bǔ)。因此,尋求提高分類性能的方法構(gòu)造好的組合分類器非常重要。本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)集成的面部表情識別方法,該方法能夠滿足面部表情識別的要求。該研究可使面部表情識別應(yīng)用到眾多領(lǐng)域。
1集成CNN的構(gòu)建方法
使用一組CNN組成的框架可提高識別過程的準(zhǔn)確性。集成CNN的框架如圖1所示。為了獲得最佳性能,CNN的集合必須是多樣的,以在集合時提高整個框架的識別能力。為了尋求有效的網(wǎng)絡(luò)設(shè)計完成任務(wù),易于訓(xùn)練,選擇適當(dāng)?shù)募戏椒▓?zhí)行這組CNN。受VGG Net[12]提供的整潔結(jié)構(gòu)的啟發(fā),本文設(shè)計了3個不同的結(jié)構(gòu)化子網(wǎng)絡(luò),分別包含3,5,10個卷積層,將子網(wǎng)絡(luò)定義為i,i=[A,B,C]表示這3個子網(wǎng)。
1.1預(yù)處理
在FER2013[13]和Extended Cohn-Kanade(CK+)[14]數(shù)據(jù)集上測試該模型。FER2013是野外面部表情圖像數(shù)據(jù)集,在ICML 2013表征學(xué)習(xí)挑戰(zhàn)中,包含28 709個訓(xùn)練圖像,3 589個驗證和3 589個測試,分為7種類型的表情,即憤怒、厭惡、恐懼、快樂、悲傷、驚喜和中立。由于標(biāo)簽噪聲,此數(shù)據(jù)的人為準(zhǔn)確度為(65±5)%。FER2013的所有類別都有比CK+更多的圖像。CK+是實驗室控制的標(biāo)準(zhǔn)表情數(shù)據(jù)集,其樣本數(shù)量很少,由來自123個受試者的593個序列組成,其中327個序列具有基于FACS的情緒標(biāo)記。每個圖像分配:驚訝、悲傷、快樂、憤怒、蔑視、厭惡和恐懼7種表情之一。CK+和FER2013數(shù)據(jù)集的7種表情示例如圖2所示。由于每個圖像具有不同的姿勢,因此FER2013數(shù)據(jù)集中的圖像更具挑戰(zhàn)性。
在圖像預(yù)處理過程中,對CK+數(shù)據(jù)集運行2個步驟來減少原始圖像中的干擾,即人臉檢測和直方圖均衡化。在面部檢測部分中,檢測結(jié)果基于OpenCV中的Haar-like特征,這是用于面部檢測的最經(jīng)典的特征之一,它可以減少需要處理的數(shù)據(jù)量,并有效地避免圖像中不同背景和其他對象對識別結(jié)果的干擾。在獲取圖像的正面部分之后,還應(yīng)考慮其他麻煩的問題。由于拍照時的光照條件不同,人臉部分也會出現(xiàn)不同的亮度,這不可避免地會對識別結(jié)果造成很大的干擾。因此,在識別之前進(jìn)行直方圖均衡化(histogram equalization,HE)。HE是一種簡單但有效的圖像處理算法,可以使不同圖像中的灰度值分布更均勻,減少不同光照條件下的干擾,更好地呈現(xiàn)重要特征,并且盡可能統(tǒng)一所有圖像。
將兩個數(shù)據(jù)集所有圖像的大小標(biāo)準(zhǔn)化為100×100像素。為了使模型對噪聲和輕微變換更加魯棒,采用了數(shù)據(jù)增強(qiáng)。數(shù)據(jù)增強(qiáng)利用多種能夠生成可信圖像的隨機(jī)變換來增加樣本,即從現(xiàn)有的訓(xùn)練樣本中生成更多的訓(xùn)練數(shù)據(jù),使模型在訓(xùn)練時不會兩次查看完全相同的圖像,可觀察到數(shù)據(jù)的更多內(nèi)容,具有更好的泛化能力。變換包括水平翻轉(zhuǎn),在(-10,10)之間具有隨機(jī)角度的旋轉(zhuǎn)以及水平和豎直方向隨機(jī)移動0.1比例,數(shù)據(jù)增強(qiáng)效果圖如圖3所示,所有圖像都被歸一化為零均值和單位方差。
所有實驗都是在NVIDIA GeForce MX150 GPU上使用TensorFlow開發(fā),內(nèi)存為8 GB。TensorFlow是一個將復(fù)雜數(shù)據(jù)結(jié)構(gòu)傳輸?shù)饺斯ど窠?jīng)網(wǎng)絡(luò)進(jìn)行分析和處理的系統(tǒng),使用數(shù)據(jù)流圖進(jìn)行數(shù)值計算,它可以用在很多深度學(xué)習(xí)領(lǐng)域,如語音識別和圖像識別等。
1.2子CNN結(jié)構(gòu)
CNN結(jié)構(gòu)主要由卷積層、池化層和全連接層構(gòu)成。卷積層的作用是實現(xiàn)由一些卷積核組成的特征提取,對輸入圖像上做卷積運算,加上偏移量,并將結(jié)果輸出到激活函數(shù)中以獲得輸出,減少了網(wǎng)絡(luò)參數(shù)的數(shù)量,降低了參數(shù)選擇的復(fù)雜性。圖像可以直接作為網(wǎng)絡(luò)輸入,避免了傳統(tǒng)方法中復(fù)雜的特征提取和數(shù)據(jù)重建表13個子網(wǎng)絡(luò)模型配置比較過程。池化層可以保持某種不變性(旋轉(zhuǎn)、平移、縮放等)。卷積層的作用是檢測上一層特征的局部連接以實現(xiàn)特征提取,而池化層的作用是結(jié)合相似的特征。池化層通常與卷積層一起使用,通過降采樣來減小尺寸,從而得到特征的不變性。常見的降采樣方法包括最大池、平均池等。全連接層是輸入輸出層神經(jīng)元的全部連接,由于卷積運算是一種線性運算,因此生成的特征也是一種線性特征。
本文構(gòu)建了3個從頭開始設(shè)計的自定義CNN網(wǎng)絡(luò)架構(gòu)。3個子網(wǎng)絡(luò)配置比較如表1所示,建立3種不同的網(wǎng)絡(luò)架構(gòu),保證網(wǎng)絡(luò)的多樣性,由于卷積層的數(shù)量不同,可以學(xué)習(xí)不同的特征,卷積層越多,子網(wǎng)絡(luò)學(xué)習(xí)到的特征就越細(xì)微。
子網(wǎng)絡(luò)A由3個卷積層和3個最大池化層組成,卷積濾波器的數(shù)量分別為32,64,128,過濾器的窗口大小為11×11,5×5,3×3;子網(wǎng)絡(luò)B由10個卷積層和4個平均池化層組成,卷積濾波器的數(shù)量分別為16,32,64,128,256,7,過濾器的窗口大小為7×7,5×5,3×3,最后應(yīng)用全局平均池化,一個特征圖全局平均池化后再進(jìn)行Softmax會減少很多參數(shù)。子網(wǎng)絡(luò)C由5個卷積層和3個最大池化層組成,子網(wǎng)絡(luò)A和子網(wǎng)絡(luò)C最后都是兩個密集的全連接層。每次添加最大池化層時,下一個卷積濾波器的數(shù)量都會翻倍,且最大池化層大小均為2×2。最大池化層用于總結(jié)濾波器區(qū)域,該濾波器區(qū)域被視為一種非線性下采樣,有助于提供一種平移不變性,并減少了更深層的計算。
1.3集成方法
在描述了前3個子網(wǎng)之后,為CNN構(gòu)建整體架構(gòu)(見圖1),該模型包括2個階段。第1階段將面部圖像作為輸入,并將其提供給3個CNN子網(wǎng)。3個子網(wǎng)設(shè)計緊湊,易于訓(xùn)練,是架構(gòu)的核心組件;第2階段負(fù)責(zé)根據(jù)前一階段輸出預(yù)測表情,將這些子網(wǎng)絡(luò)輸出結(jié)合起來,以獲得最準(zhǔn)確的最終決策。使用不同CNN來解決諸如情感識別之類復(fù)雜問題的主要優(yōu)點是它們可以相互補(bǔ)充。在訓(xùn)練多個CNN時,有的在識別某些情緒時會比其他更好。
決策級集合最常用的規(guī)則是多數(shù)投票規(guī)則、簡單平均規(guī)則和加權(quán)平均規(guī)則。在多數(shù)投票規(guī)則中,每個CNN獲得的預(yù)測類別標(biāo)簽,可用于確定具有最高票數(shù)的類別,將多數(shù)分類器預(yù)測結(jié)果作為最終分類結(jié)果,即
其中,mod e為眾數(shù);A,B,C分別是3個子網(wǎng)絡(luò)模型。簡單平均規(guī)則使用從每個分類器產(chǎn)生的與類相關(guān)的分?jǐn)?shù),而不是使用標(biāo)簽。因此,從子網(wǎng)絡(luò)A、子網(wǎng)絡(luò)B和子網(wǎng)絡(luò)C中獲得平均分?jǐn)?shù)最高的類作為最終輸出,從而提高模型的準(zhǔn)確性。輸入圖像x屬于表情e的概率為
加權(quán)平均使用每個有不同權(quán)重的分類器產(chǎn)生的與類相關(guān)的分?jǐn)?shù),獲得平均分?jǐn)?shù)最高的類作為最終輸出,輸入圖像x屬于表情e的概率為
通常要求wi≥0,w1+w2+w3=1。每一個模型都以Softmax層作為最后一層,輸出范圍在0~1,輸出最高概率的表情為最佳匹配表情,即
通過這種架構(gòu),將人臉圖像映射到7個基本表情標(biāo)簽之一,結(jié)合不同結(jié)構(gòu)化CNN模型結(jié)果,使它們成為整個網(wǎng)絡(luò)的一部分。使用決策以獲得更好的性能,因為每個CNN子網(wǎng)都會產(chǎn)生一些錯誤,并且它們在協(xié)同工作中互補(bǔ)。
2訓(xùn)練過程
考慮小數(shù)據(jù)集引起的過擬合,在卷積層和全連接層之后仍然會添加dropout,通過防止特征提取器的共同適應(yīng),即它可以創(chuàng)建不依賴于彼此的特征,產(chǎn)生有用的輸出來降低網(wǎng)絡(luò)過度擬合的風(fēng)險,增加網(wǎng)絡(luò)的泛化能力。為了提高網(wǎng)絡(luò)的非線性特性,本文使用線性整流函數(shù)(rectified linear unit,Relu)作為激活函數(shù)。對于任何給定的輸入值x,Relu定義為
其中,x是神經(jīng)元的輸入。使用Relu激活函數(shù)可避免由其他一些激活函數(shù)引起的消失梯度問題。在網(wǎng)絡(luò)最后階段,放置具有7個輸出的Softmax層,將單個節(jié)點的輸出變成一個概率值,神經(jīng)元的原始輸出不是一個概率值,實質(zhì)上是輸入的數(shù)值x做了復(fù)雜的加權(quán)和與非線性處理之后的一個值zi,即
其中,wij是第i個神經(jīng)元的第j個權(quán)重;b是偏移值。給這個輸出加上一個Softmax函數(shù),即
其中,Si是第i個神經(jīng)元的輸出概率。將與Softmax分類器相對應(yīng)的交叉熵方法用作損失函數(shù),交叉熵?fù)p失函數(shù)是用來判斷實際輸出概率與期望輸出概率的距離,即交叉熵的值越小,兩個概率分布越接近,設(shè)概率分布p為期望輸出,概率分布q為實際輸出,H(p,q)為交叉熵,則
網(wǎng)絡(luò)使用Adam[15]進(jìn)行優(yōu)化,Adam是一種基于自適應(yīng)梯度的優(yōu)化方法。在訓(xùn)練過程中,還引入了批量歸一化層(batch normalization,BN)[16]和L2正則化,以提高訓(xùn)練速度,降低網(wǎng)絡(luò)的擬合能力。
2.1批量歸一化
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程本質(zhì)上是為了學(xué)習(xí)數(shù)據(jù)的分布規(guī)律。一方面,若每批訓(xùn)練數(shù)據(jù)的分布各不相同,網(wǎng)絡(luò)則需要每次迭代去學(xué)習(xí)和適應(yīng)不同的分布,這樣會大大降低網(wǎng)絡(luò)的訓(xùn)練速度;另外,如果訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的分布不同,則網(wǎng)絡(luò)的泛化能力會很大程度降低。除此之外,數(shù)據(jù)分布對激活函數(shù)也極為重要,數(shù)據(jù)分布范圍太大,不利于利用激活函數(shù)的非線性特性,為了緩解這些問題,提出了BN。因此,在每層網(wǎng)絡(luò)輸入時,插入一個歸一化層,即先做歸一化處理,然后再進(jìn)入網(wǎng)絡(luò)的下一層,它是一個可學(xué)習(xí)、有參數(shù)的網(wǎng)絡(luò)層。
BN算法具有提高網(wǎng)絡(luò)泛化能力的特性,并且BN在實際應(yīng)用中收斂非???,因此可以選擇更小的L2正則約束參數(shù),不需要使用局部響應(yīng)歸一化層,因BN本身就是一個歸一化網(wǎng)絡(luò)層。此外,它可以徹底打亂訓(xùn)練數(shù)據(jù),防止每批訓(xùn)練時某一個樣本被經(jīng)常選到。
2.2L2正則化
在數(shù)據(jù)集有限的情況下,另一種防止過擬合的方式就是降低模型的復(fù)雜度。在損失函數(shù)中加入L2正則化項,L2正則化傾向于使網(wǎng)絡(luò)的權(quán)值接近0,降低了前一層神經(jīng)元對后一層神經(jīng)元的影響,使網(wǎng)絡(luò)變得簡單,降低了網(wǎng)絡(luò)的有效大小,也就意味著降低了網(wǎng)絡(luò)的擬合能力。實質(zhì)上L2正則化是對權(quán)值做線性衰減。相比于初始的交叉熵?fù)p失函數(shù),訓(xùn)練過程中的損失函數(shù)多了最后的正則化項,即
其中,λ>0為正則化參數(shù);n為訓(xùn)練集包含的實例個數(shù)。L2正則化項是指w的平方項,該項實質(zhì)上是神經(jīng)網(wǎng)絡(luò)中的權(quán)重之和。
在神經(jīng)網(wǎng)絡(luò)中,正則化網(wǎng)絡(luò)更傾向于小的權(quán)重,這樣數(shù)據(jù)x隨機(jī)變化不會對神經(jīng)網(wǎng)絡(luò)模型造成太大影響,所以受數(shù)據(jù)局部噪音的可能性影響更小。而未加入正則化的神經(jīng)網(wǎng)絡(luò)權(quán)重大,易通過較大的模型改變來適應(yīng)數(shù)據(jù),更容易學(xué)習(xí)到局部的噪音。
3實驗結(jié)果與討論
采集CK+數(shù)據(jù)集2 940張,F(xiàn)ER2013數(shù)據(jù)集28 709張,為測試算法的有效性,實驗采取五折交叉驗證方法。將數(shù)據(jù)集隨機(jī)分成5份,其中4份用作訓(xùn)練,1份用作測試,進(jìn)行5次實驗,最后取5次實驗結(jié)果的平均值。
基于CNN集成的表情識別由2個階段組成。在訓(xùn)練階段,構(gòu)建了所有單獨的分類器,在測試階段,實現(xiàn)融合方法得出面部圖像的最終分類。為了產(chǎn)生不同的結(jié)果,構(gòu)建最佳組合方法。首先構(gòu)建3個深度CNN,這3個子網(wǎng)絡(luò)分開訓(xùn)練,共享一個類似的模式。通過應(yīng)用各種網(wǎng)絡(luò)體系結(jié)構(gòu)及隨機(jī)初始化訓(xùn)練深層模型。在兩個數(shù)據(jù)集上,對當(dāng)前最先進(jìn)的方法進(jìn)行比較,不同模型的分類精度比較如表2所示。
經(jīng)過交叉驗證,子網(wǎng)絡(luò)B的識別率最佳,在CK+數(shù)據(jù)集上達(dá)到98.99%,在FER2013數(shù)據(jù)集上達(dá)到66.45%,證明使用小濾波器不僅可以減少參數(shù)數(shù)量,還可以提高深度神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率。
從實驗中得出訓(xùn)練多個學(xué)習(xí)器并將其結(jié)合,使用結(jié)果明顯超過當(dāng)前的先進(jìn)方法,采用集合方法的識別率優(yōu)于單一模型的識別率,通過訓(xùn)練多個子網(wǎng)絡(luò)模型,提取不同的互補(bǔ)深度特征表示,從而提高了網(wǎng)絡(luò)模型性能。其中,加權(quán)平均的集合方法在CK+和FER2013數(shù)據(jù)集上表現(xiàn)最佳,這是由于加權(quán)平均方法考慮了個體的重要性和置信度,這里將子網(wǎng)絡(luò)B的權(quán)重設(shè)置要比其他子網(wǎng)絡(luò)大一些。模型在CK+數(shù)據(jù)集上7種表情評估結(jié)果如表3所示,模型在FER2013數(shù)據(jù)集上7種表情評估結(jié)果如表4所示。由表3和表4可以看出,表情“高興”的準(zhǔn)確率非常高,這也是人類最容易識別的表情。
4結(jié)束語
本文提出了一個基于集合CNN的面部表情識別方法,根據(jù)子網(wǎng)絡(luò)產(chǎn)生的后驗概率訓(xùn)練CNN,允許捕獲子網(wǎng)絡(luò)成員之間的非線性依賴關(guān)系,并從數(shù)據(jù)中學(xué)習(xí)這種組合。構(gòu)建了3個結(jié)構(gòu)不同的子CNN,以保證網(wǎng)絡(luò)的互補(bǔ)性,這些子網(wǎng)在訓(xùn)練集上分別訓(xùn)練。同時為了提高網(wǎng)絡(luò)的泛化能力和識別率,在網(wǎng)絡(luò)中加入了L2正則化和批量規(guī)范化,使用多數(shù)投票、簡單平均和加權(quán)平均的集成方法,通過后驗概率找到最優(yōu)集合方式,在CK+標(biāo)準(zhǔn)數(shù)據(jù)集和FER2013野外數(shù)據(jù)集中進(jìn)行評估。該研究與單個CNN模型相比,網(wǎng)絡(luò)架構(gòu)通過組合和平均不同結(jié)構(gòu)CNN的輸出,報告了更好的性能,在實驗的準(zhǔn)確度方面取得優(yōu)異結(jié)果。在更大的數(shù)據(jù)集中對網(wǎng)絡(luò)進(jìn)行研究,設(shè)計不同的目標(biāo)函數(shù),訓(xùn)練子CNN是下一步研究的重點,并且對集成方法進(jìn)行深入研究,以獲得更多樣化的網(wǎng)絡(luò)集合方法,進(jìn)一步提高面部表情識別精度。
參考文獻(xiàn):
[1]Keltner D, Ekman P, Gonzaga G C, et al. Facial expression of emotion[J]. Encyclopedia of Human Behavior, 2012, 30(1): 173183.
[2]Sariyanidi E, Gunes H, Cavallaro A. Automatic analysis of facial affect: a survey of registration, representation, and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(6): 11131133.
[3]Corneanu C A, Oliu M, Cohn J F, et al. Survey on RGB, 3D, thermal, and multimodal approaches for facial expression recognition: History, trends, and affect-related applications[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 38(8): 15481568.
[4]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classify cation with deep convolutional neural networks[C]∥NIPS Curran Associates Inc. Nevada: NIPS, 2012: 10971105.
[5]Connie T, Al-Shabi M, Cheah W P, et al. Facial expression recognition using a hybrid CNN-SIFT aggregator[C]∥International Workshop on Multi-Disciplinary in Artificial Intelligence. Gadong, Brunei: MIWAI, 2017: 139149.
[6]Jung H, Lee S, Yim J, et al. Joint fine-tuning in deep neural networks for facial expression recognition[C]∥2015 IEEE International Conference on Computer Vision. Santiago: ICCV, 2015: 29832991.
[7]Ding H, Zhou S H K, Chellappa R. Facenet2expnet: regular izing a deep face recognition net for expression recognition[C]∥ 2017 12th IEEE Computer Society. Washington: IEEE, 2017: 118126.
[8]Yu Z D, Zhang C. Image based static facial expression recognition with multiple deep network learning[C]∥Acm on International Conference on Multimodal Interaction. denver, USA: IEEE, 2015: 435442.
[9]Kim B K, Lee H, Roh J, et al. Hierarchical committee of deep CNNs with exponentially-weighted decision fusion for static facial expression recognition[C]∥ Emotion Recognition in the Wild Challenge @ ACM International Conference on Multimodal Interaction. USA: ICMI, 2015: 427434.
[10]Gerard P, David M. Supervised committee of convolutional neural networks in automated facial expression analysis[J]. IEEE Transactions on Affective Computing, 2018, 9(3): 343350.
[11]Yu Z D, Zhang C. Image based static facial expression recognition with multiple deep network learning[C]∥Acm on International Conference on Multimodal Interaction. Seattle: ACM, 2015: 435442.
[12]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]∥International Conference on Learning Representations, 2015: 114.
[13]Goodfellow I J, Erhan D, Carrier P L, et al. Challenges in representation learning: a report on three machine learning contests[C]∥Neural Information Processing. Berlin: Springer Berlin Heidelberg, 2013: 117124.
[14]Lucey P, Cohn J F, Kanade T, et al. The extended cohn-kanade dataset (CK+): a complete dataset for action unit and emotion-specified expression[C]∥2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. San Francisco, CA, USA: IEEE, 2010: 94101.
[15]Kingma D P, Ba J. Adam: A method for stochastic optimization[C]∥International Conference on Learning Representations. San Diego: LCLR, 2015.
[16]Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]∥International Conference on Learning Representations. 2015.
[17]Liu M, Li S, Shan S, et al. AU-inspired deep networks for facial expression feature learning[J]. Neurocomputing, 2015, 159: 126136.
[18]Mollahosseini A, Chan D, Mahoor M H. Going deeper in facial expression recognition using deep neural networks[C]∥2016 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Placid: IEEE, 2016: 110.
[19]Goodfellow I J, Erhan D, Carrier P L, et al. Challenges in representation learning: a report on three machine learning contests[J]. Neural Information Processing, 2013, 8228: 117124.
[20]Arriaga O, Valdenegro-Toro M, Plger P, et al. Real-time convolutional neural networks for emotion and gender classification[C]∥Computer Vision and Pattern Recognition. Octavio Arriaga: ICAR, 2018.
收稿日期: 2019-09-23; 修回日期: 2019-12-17
基金項目:中國博士后科學(xué)基金資助(2017M622137);國家自然科學(xué)基金資助(61702293);教育部虛擬現(xiàn)實應(yīng)用工程研究中心基金資助(MEOBNUEVRA201601)
作者簡介:陸嘉慧(1995-),女,山東青島人,碩士研究生,主要研究方向為圖像識別與處理、深度學(xué)習(xí)。
通信作者:張樹美(1964),女,山東萊西人,博士,教授,碩士生導(dǎo)師,主要研究方向為時滯非線性系統(tǒng)的分析與控制、圖像識別與處理。 Email: shumeiz@163.com