張璟
摘要:人臉表情識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)重要任務(wù)。針對(duì)經(jīng)典VGG模型參數(shù)量巨大、訓(xùn)練成本較高的問(wèn)題,提出了一種基于VGG模型的改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)。改進(jìn)的模型減少全連接層的使用有效減少了參數(shù)量,加入批規(guī)范化層和dropout隨機(jī)失活操作,進(jìn)一步加速了模型的收斂,從而獲得較好的分類效果。實(shí)驗(yàn)采用FER2013公開人臉表情數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的模型提高了表情識(shí)別的準(zhǔn)確率率和泛化能力,減少了時(shí)間消耗。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);人臉表情識(shí)別;表情分類;批規(guī)范化;卷積
中圖分類號(hào):G642? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)16-0212-02
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Abstract: Face expression recognition is an important task in the field of computer vision. An improved convolutional neural network based on VGG model was proposed to solve the problem of large number of classical VGG model parameters and large training time cost. The improved model reduces the use of full connection layer, effectively reduces the number of parameters, and adds batch normalization layer and dropout random deactivation operation, which further accelerates the convergence of the model and achieves better classification results. In the experiment, FER2013 was used to publish facial expression dataset, the experimental results show that the improved model improves the recognition rate and generalization ability of expression recognition, and reduces the time consumption.
Key words: convolutional neural network;face expression recognition; facial expression classification; batch normalization; convolution
人類通過(guò)臉部表情的細(xì)微變化傳達(dá)了內(nèi)心情感世界的真實(shí)反映[1],通過(guò)快速捕捉并且準(zhǔn)確識(shí)別人類表情,機(jī)器可以做出不同的響應(yīng)并有效提高了人機(jī)交互的友好性和智能性。
傳統(tǒng)的表情識(shí)別方法主要使用Gabor小波、Haar特征和LBP局部二值模式等算法提取表情特征,這些算法主要針對(duì)表情特征中的局部像素點(diǎn),往往忽略了整個(gè)圖像中像素點(diǎn)之間的內(nèi)在聯(lián)系。通?;谑止ぴO(shè)計(jì)的表情特征提取方法費(fèi)時(shí)費(fèi)力,提取到的特征直接決定了表情分類的好壞,在復(fù)雜場(chǎng)景中的識(shí)別效果有待提高。
卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺得到了廣泛的應(yīng)用,在表情識(shí)別領(lǐng)域也取得了顯著的效果。通過(guò)端到端的訓(xùn)練方式將原始圖像作為輸入進(jìn)行自動(dòng)訓(xùn)練和特征自主提取,進(jìn)一步減少了人工預(yù)處理并且適用于大規(guī)模的圖片訓(xùn)練。
1 VGG模型
VGG[2]網(wǎng)絡(luò)模型是牛津大學(xué)計(jì)算機(jī)視覺組的經(jīng)典研究,通過(guò)線性堆疊3[×]3的小型卷積濾波器和2[×]2的最大池化層,在Alexnet模型基礎(chǔ)上得到的更深的網(wǎng)絡(luò)結(jié)構(gòu),獲得了2014年Imagenet比賽的冠軍。在網(wǎng)絡(luò)中重復(fù)使用小卷積核的方法可以獲得與較大尺寸的卷積核一樣的空間特征信息與感受野大小,而且串聯(lián)的卷積核之間額外增加的ReLU激活函數(shù)可以提高網(wǎng)絡(luò)中的非線性表征。例如使用2個(gè)3[×]3的卷積核可以覆蓋5[×]5的區(qū)域,可以減少了28%的參數(shù)量;使用3個(gè)3[×]3的卷積核可以感受到7[×]7的特征信息,但是減少了約45%的參數(shù)量,串聯(lián)小卷積的方式在較深的網(wǎng)絡(luò)中依然可以達(dá)到快速收斂與訓(xùn)練。VGG模型使用較小的卷積核和池化核使得網(wǎng)絡(luò)的層數(shù)更深特征圖更寬,但是連續(xù)3層的全連接層使得模型使用了巨大的參數(shù),耗費(fèi)了更多的計(jì)算資源和訓(xùn)練成本。
如表所示,輸入層為224[×]224[×]3形狀的圖片,前兩段卷積均包含2個(gè)卷積層,后三段卷積均包含了3個(gè)卷積層,每段卷積核的個(gè)數(shù)為64、128、256、512和512,相鄰的卷積層之間通過(guò)ReLU激活函數(shù)稀疏網(wǎng)絡(luò),避免過(guò)擬合現(xiàn)象的發(fā)生??梢园l(fā)現(xiàn)3個(gè)全連接層大約占了總參數(shù)量的89%,第一個(gè)全連接層大約占了74%。
2 基于改進(jìn)VGG16網(wǎng)絡(luò)的識(shí)別模型
在表情識(shí)別實(shí)驗(yàn)過(guò)程中改進(jìn)了VGG模型,在相鄰卷積層之間添加了批規(guī)范化BN層,每段卷積之間加入了隨機(jī)失活dropout操作,并在后3段卷積前均加入了1[×]1卷積。批規(guī)范化層通過(guò)統(tǒng)一隱藏層中輸入數(shù)據(jù)的分布,減小了中間層經(jīng)過(guò)權(quán)重更新后對(duì)上層的輸入數(shù)據(jù)分布的影響,有效地遏制了梯度彌散現(xiàn)象。使用dropout操作的目的是優(yōu)化網(wǎng)絡(luò)的訓(xùn)練,將中間層的部分神經(jīng)元的權(quán)重或輸出信息隨機(jī)重置為0,增加了網(wǎng)絡(luò)的稀疏性與獨(dú)立性,降低了過(guò)擬合現(xiàn)象,提高了對(duì)新數(shù)據(jù)的適應(yīng)性和魯棒性。通過(guò)使用1[×]1卷積組合變化了通道信息并且較少了計(jì)算量。改進(jìn)的VGG模型僅保留了一層全連接層,而且添加了dropout和批處理規(guī)范化BN減弱了參數(shù)之間的聯(lián)合適應(yīng)性,進(jìn)一步加速了模型的收斂,提高了表情分類效果。
3 實(shí)驗(yàn)結(jié)果與分析
本文使用FER2013人臉表情公開數(shù)據(jù)庫(kù)進(jìn)行表情識(shí)別的實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)將人類表情分為:生氣(Angry)、厭惡(Disgust)、害怕(Fear)、高興(Happy)、悲傷(Sad)、驚訝(Surprise)、中性(Neutral)七類基本表情,實(shí)驗(yàn)數(shù)據(jù)均為48x48像素的灰度圖。
本文使用數(shù)據(jù)擴(kuò)充方法進(jìn)行數(shù)據(jù)增強(qiáng),對(duì)圖像數(shù)據(jù)進(jìn)行10度的旋轉(zhuǎn)、水平和豎直方向隨機(jī)移動(dòng)10%、水平和垂直鏡像變換及其組合操作,獲得大量具有空間相關(guān)性的變換圖像。通過(guò)圖像增強(qiáng)有效的增強(qiáng)與豐富了實(shí)驗(yàn)數(shù)據(jù),并且提高了模型的魯棒性和適應(yīng)性。
本文使用經(jīng)典的VGG卷積神經(jīng)網(wǎng)絡(luò)以及改進(jìn)的VGG卷積神經(jīng)網(wǎng)絡(luò)對(duì)FER2013數(shù)據(jù)集進(jìn)行訓(xùn)練。經(jīng)典的VGG方法在PrivateTest中的準(zhǔn)確率為65.58%,經(jīng)過(guò)改進(jìn)的VGG16的模型的準(zhǔn)確率為68.4%,準(zhǔn)確率提高了2.82%。Ian Goodfellow經(jīng)過(guò)研究證明平均人類在FER2013數(shù)據(jù)集的識(shí)別率為65%左右[3],本模型得到的準(zhǔn)確率略高于人類識(shí)別率,略低于排行榜中第3名的68.82%。帶有預(yù)訓(xùn)練權(quán)重的擁有3個(gè)全連接層的VGG模型的參數(shù)量為138357544,經(jīng)過(guò)改進(jìn)的VGG16模型的參數(shù)量為18746823,約為原始VGG模型的13.5%。改進(jìn)的VGG模型平均每步耗時(shí)252ms,訓(xùn)練150輪共耗時(shí)4小時(shí)9分鐘,訓(xùn)練過(guò)程如圖2所示。結(jié)果表明,改進(jìn)的VGG模型對(duì)原始的VGG模型有了顯著的提高。
本文方法在Private Test中的表情預(yù)測(cè)混淆矩陣如圖3所示。分析結(jié)果發(fā)現(xiàn)模型對(duì)于開心的表情識(shí)別率最高為89%,而對(duì)于傷心表情識(shí)別率僅為45%。其中生氣和厭惡表情容易混淆,悲傷和中性表情容易混淆,因?yàn)樯鷼夂蛥拹罕砬榫胁煌潭鹊陌櫭己蛷埓笞彀偷膭?dòng)作,并不容易區(qū)分。悲傷表情中有大部分表現(xiàn)為微微皺眉的憂郁,這與沒有表情變化的中性表情也比較相似。
4 結(jié)論
在本項(xiàng)表情識(shí)別工作中,提出了一個(gè)改進(jìn)的vgg模型。加入批規(guī)范化和隨機(jī)失活操作并減少了全連接層的使用,有效的壓縮了模型的參數(shù)量并且達(dá)到了比賽排行榜第四名的準(zhǔn)確率68.4%。但是對(duì)于輕微的憂傷和驚恐的表情識(shí)別率較低。未來(lái)的工作,我們將重點(diǎn)研究如何加強(qiáng)在表情變化不明顯情況下的準(zhǔn)確識(shí)別。
參考文獻(xiàn):
[1]盧官明,何嘉利,閆靜杰,等.一種用于人臉表情識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)[J].南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,36(01):16-22.
[2] SimonyanK , Zisserman A . Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer Science, 2014.
[3] Goodfellow I J, Erhan D, Carrier P L, et al. Challenges in Representation Learning: A report on three machine learning contests[J]. Neural Netw, 2013, 64:59-63.
[4] 孫曉,潘汀,任福繼.基于ROI-KNN卷積神經(jīng)網(wǎng)絡(luò)的面部表情識(shí)別[J].自動(dòng)化學(xué)報(bào),2016,42(06):883-891.
[5]李勇,林小竹,蔣夢(mèng)瑩.基于跨連接LeNet-5網(wǎng)絡(luò)的面部表情識(shí)別[J].自動(dòng)化學(xué)報(bào),2018,44(01):176-182.
[6]徐嵚崳. 基于遷移學(xué)習(xí)的表情識(shí)別算法研究[D].南京郵電大學(xué),2017.
[7]劉元震. 基于深度學(xué)習(xí)的人臉面部情感識(shí)別的研究[D].哈爾濱工業(yè)大學(xué),2017.
【通聯(lián)編輯:王力】