廖海斌 徐 斌
1(湖北科技學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 湖北咸寧 437100) 2(江西省智慧城市產(chǎn)業(yè)技術(shù)研究院 南昌 330096)
(liao_haibing@163.com.cn)
人臉表情識(shí)別與人臉身份識(shí)別一樣,是一個(gè)熱門(mén)的研究領(lǐng)域[1],具有廣泛應(yīng)用場(chǎng)景.如,可應(yīng)用于安全駕駛、智能教室、視頻會(huì)議、虛擬現(xiàn)實(shí)和認(rèn)知科學(xué)等[2-4].人臉表情識(shí)別系統(tǒng)一般由兩大部分組成[5]:1)特征提??;2)分類(lèi)器設(shè)計(jì).其中,特征提取是從人臉圖像中提取出可鑒別特征.目前兩大常用的特征提取方法為基于幾何結(jié)構(gòu)的特征提取和基于表觀的特征提取.基于幾何結(jié)構(gòu)的特征提取方法首先需要精準(zhǔn)定位出人臉關(guān)鍵點(diǎn),然后基于關(guān)鍵點(diǎn)構(gòu)建人臉幾何距離和角度等結(jié)構(gòu)特征向量[6-7].基于表觀的特征提取方法主要是利用圖像的紋理信息進(jìn)行人臉表情識(shí)別[8-9],具有簡(jiǎn)單有效的特性,但缺乏對(duì)遮擋和光照等變化的魯棒性.在自然場(chǎng)景中,人臉的姿態(tài)、遮擋和低分辨率等變化因素都會(huì)對(duì)人臉特征提取帶來(lái)較大影響.所謂的分類(lèi)器設(shè)計(jì)就是基于提取的人臉特征構(gòu)建出一種能對(duì)表情進(jìn)行分類(lèi)的識(shí)別系統(tǒng).其中,k-最近鄰(k-nearest neighbor, KNN)和支持向量機(jī)(support vector machine, SVM)是2種經(jīng)典的分類(lèi)器.最近,熱門(mén)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)圖像識(shí)別方法能提供一種端到端的人臉表情識(shí)別方案[2,10-11],其將人臉特征提取和分類(lèi)識(shí)別融合到一種框架內(nèi).然而,CNN需要大量的訓(xùn)練樣本和高性能計(jì)算GPU支持[11-12].另外,其框架內(nèi)采用Softmax分類(lèi)器也并非最優(yōu)的選擇.有關(guān)實(shí)驗(yàn)表明:在利用深度學(xué)習(xí)提取特征后,采用聯(lián)合貝葉斯分類(lèi)器或SVM分類(lèi)器會(huì)取得更好效果[13].
Fig. 1 Facial expression images under different attributes圖1 不同屬性下的人臉表情圖像
早在20世紀(jì),Ekman等人[14-15]基于跨文化、跨區(qū)域研究,設(shè)計(jì)了6種基本情感(憤怒、厭惡、恐懼、高興、悲傷和驚訝),他們指出不同文化背景的人類(lèi)具有同樣的基本情感表達(dá)方式.然而,2012年神經(jīng)科學(xué)和心理學(xué)高級(jí)研究表明:人類(lèi)的6種基本情感表達(dá)是與特定文化背景相關(guān)的,不具有普適性[16].與此同時(shí),本文作者發(fā)現(xiàn)不同性別和年齡的人表現(xiàn)出不同的表情表現(xiàn)模式,如圖1所示,小孩和成年人就有著不同的悲傷表情,即人臉的性別和年齡等屬性對(duì)人臉表情識(shí)別有著重要影響.因此,本研究組提出了一種基于人臉性別約束的隨機(jī)森林人臉表情識(shí)別方法[17],此方法充分考慮人臉性別因子對(duì)人臉表情識(shí)別的影響,獲得了較好的效果,從側(cè)面證明了文獻(xiàn)[16]的結(jié)論.本文在前期工作的基礎(chǔ)上做了進(jìn)一步深入研究,與前期工作相比,其創(chuàng)新性和改進(jìn)點(diǎn)如下:
1) 整體思路和框架.提出基于人臉屬性因子分析的人臉表情識(shí)別框架.前期工作只考慮了人臉性別因子的影響;而在本文中,不僅考慮到人臉性別因子,還考慮了人臉年齡因子.這是因?yàn)樵诤髞?lái)的研究中發(fā)現(xiàn),不同年齡段的人群有不同的表情表現(xiàn)方式,因此在原來(lái)性別的基礎(chǔ)上增加了人臉年齡屬性,綜合考慮人臉性別和年齡共同作用下的人臉表情問(wèn)題.實(shí)驗(yàn)證明,加入人臉年齡因子后,效果得到明顯提升.
2) 人臉特征提取.提出基于多示例注意力機(jī)制的特征提取方法.在后來(lái)的研究中發(fā)現(xiàn),針對(duì)人臉表情識(shí)別問(wèn)題,不同的人臉示例塊對(duì)最終人臉表情識(shí)別的貢獻(xiàn)度是不一樣的.比如,對(duì)人臉表情識(shí)別問(wèn)題,人臉嘴巴區(qū)域就比人臉額頭區(qū)域更重要,人臉眼睛區(qū)域比人臉面頰區(qū)域更重要等.前期工作直接將各示例特征串接,并沒(méi)有考慮各示例塊的權(quán)重問(wèn)題.另外,本研究組發(fā)現(xiàn)EfficientNet[18]比GoogLeNet網(wǎng)絡(luò)模型性能更優(yōu).因此,在本文中,采用EfficientNet進(jìn)行各示例特征提取,然后利用注意力機(jī)制自動(dòng)學(xué)習(xí)不同示例塊的權(quán)重,最后進(jìn)行各示例特征的融合.
3) 人臉表情分類(lèi)器設(shè)計(jì).提出基于人臉性別和年齡約束的多條件隨機(jī)森林人臉表情識(shí)別方法.前期工作只是進(jìn)行2類(lèi)別的條件隨機(jī)森林分類(lèi)器設(shè)計(jì),而本文則是進(jìn)行了8類(lèi)別(排列組合不同性別和年齡類(lèi)別形成8類(lèi))條件隨機(jī)森林分類(lèi)器設(shè)計(jì).本文創(chuàng)新性地將人臉性別和年齡進(jìn)行排列組合以生成不同的人臉屬性類(lèi)別,解決了人臉性別和年齡交叉影響問(wèn)題;另外,在多條件隨機(jī)森林分類(lèi)器設(shè)計(jì)時(shí),避免了對(duì)人臉性別和年齡進(jìn)行多層級(jí)判別的問(wèn)題,只需要一次進(jìn)行8選1即可.
綜上,本文利用深度學(xué)習(xí)優(yōu)良的特征提取特性,提出一種多示例注意力學(xué)習(xí)的特征提取方法;同時(shí),利用隨機(jī)森林良好的分類(lèi)性能,提出一種基于人臉屬性的多條件隨機(jī)森林人臉表情分類(lèi)器設(shè)計(jì)方法.
圖2為基于人臉性別和年齡雙屬性因子分析的人臉表情識(shí)別框架,主要包括人臉特征提取、人臉雙屬性估計(jì)和人臉表情識(shí)別三大部分.
Fig. 2 Face expression recognition model framework圖2 人臉表情識(shí)別模型框架
基于多示例注意力機(jī)制的人臉特征提取包括多示例選取、多示例特征提取和多示例特征融合3部分:
1) 人臉多示例選取
Fig. 3 The multi-instance example of facial expression圖3 人臉表情多示例
研究中發(fā)現(xiàn):人臉表情變化主要集中在眉毛、眼睛、嘴巴等關(guān)鍵區(qū)域.因此,本文參考示例密集采樣[19]和圖像塊顯著性檢測(cè)方法[20],配合人臉的“三眼五庭”結(jié)構(gòu)特性,選取如圖3所示的7個(gè)人臉?lè)謮K作為人臉表情示例.因此,7個(gè)人臉示例依次為:整個(gè)人臉圖像、左眼區(qū)域塊、右眼區(qū)域塊、眼部區(qū)域塊、嘴部區(qū)域塊1、嘴部區(qū)域塊2和嘴部區(qū)域塊3.
2) 基于EfficientNet的多示例特征提取
利用EfficientNet-B3網(wǎng)絡(luò)模型對(duì)上步選取人臉表情示例進(jìn)行特征表示學(xué)習(xí).EfficientNet通過(guò)LFW(labled faces in the wild)和YTF(youtube faces in the wild)人臉庫(kù)進(jìn)行預(yù)訓(xùn)練,使其具有高層語(yǔ)義信息表示能力.
3) 基于注意力機(jī)制的多示例特征融合
由于人臉不同示例對(duì)人臉表情識(shí)別的重要性是不一樣的;另外,由于人臉遮擋和噪聲等因素影響也會(huì)導(dǎo)致不同示例對(duì)最終識(shí)別的貢獻(xiàn)度不一樣.因此,本文利用注意力機(jī)制進(jìn)行示例權(quán)重學(xué)習(xí),提出一種基于注意力機(jī)制的多示例特征融合方法,如圖4所示:
Fig. 4 Multi-instance fusion network based on attention mechanism圖4 基于注意力機(jī)制的多示例融合網(wǎng)絡(luò)
在EfficientNet的最后一層加入注意力模塊,將注意力模塊輸出的權(quán)重乘以EfficientNet輸出的向量,作為示例最后的特征向量.注意力網(wǎng)絡(luò)如圖4底部所示,其輸入為EfficientNet最后一層的特征圖,輸出是一個(gè)概率值.假設(shè)基于EfficientNet的人臉示例特征向量提取為
yi=xiw+b,
(1)
其中,yi表示最后的特征輸出,xi表示第i個(gè)示例在最后一層中的特征圖,w是權(quán)值項(xiàng),b為偏置項(xiàng).假設(shè)注意力機(jī)制網(wǎng)絡(luò)的輸出為
αi=Φ(xi),
(2)
其中,αi是第i個(gè)示例的權(quán)重值,Φ表示注意力網(wǎng)絡(luò)操作.因此,利用αi對(duì)yi進(jìn)行加權(quán)可得
(3)
然后,多示例融合特征可以通過(guò)將各示例特征串連而得到
(4)
最后,在深度學(xué)習(xí)網(wǎng)絡(luò)模型中增加一個(gè)全連接層對(duì)式(4)得到的多示例特征y進(jìn)行降維處理.
不同性別和年齡屬性下的人臉表情圖像所在的特征空間具有多樣性,如果不考慮人臉性別和年齡因子,很難找到一個(gè)合適的分類(lèi)曲面將人臉表情特征進(jìn)行空間劃分.本文利用人臉性別和年齡屬性作為隱含條件進(jìn)行人臉表情特征空間劃分,提出一種屬性約束人臉表情識(shí)別模型.
1) 人臉屬性估計(jì)
將人臉屬性根據(jù)性別和年齡組合情況分為8類(lèi):
(5)
首先,訓(xùn)練生成一個(gè)基于人臉性別和年齡屬性分類(lèi)的隨機(jī)森林TA.并利用如下不確定性測(cè)度:
(6)
其中,a表示人臉屬性類(lèi)別(a∈{Ω1,Ω2,…,Ω8}).不確定性測(cè)度引導(dǎo)各節(jié)點(diǎn)選擇最優(yōu)策略不斷將當(dāng)前節(jié)點(diǎn)分裂為不確定性降低的2個(gè)子節(jié)點(diǎn).
然后,基于多示例注意力提取的人臉特征y,采用隨機(jī)森林TA進(jìn)行人臉屬性分類(lèi).每個(gè)葉子節(jié)點(diǎn)l上的人臉性別和年齡屬性概率為
(7)
最后,融合所有葉子節(jié)點(diǎn)概率值,得到最終的人臉屬性類(lèi)別:
(8)
其中,lm為決策樹(shù)對(duì)應(yīng)的葉子節(jié)點(diǎn),M為決策樹(shù)的數(shù)量.
2) 條件隨機(jī)森林訓(xùn)練
3) 人臉表情識(shí)別
在人臉屬性a∈Ωn已知的條件下,y的表情類(lèi)別由最大概率p(e|Ωn,y)決定:
(9)
其中,M為決策樹(shù)的數(shù)量,lm為第m棵決策樹(shù)上y達(dá)到的葉子節(jié)點(diǎn).在人臉屬性a未知的條件下,y的表情類(lèi)別為
(10)
為了驗(yàn)證本文方法的有效性,在公開(kāi)的Cohn-Kanade(CK+)[21],ExpW[22],RAF-DB[23],AffectNet[24]人臉庫(kù)上進(jìn)行實(shí)驗(yàn)驗(yàn)證.CK+是經(jīng)典的人臉表情庫(kù),因此將使用其來(lái)驗(yàn)證本文方法的性能.但是,此庫(kù)人臉圖像都是在可控環(huán)境下采集的,并不能充分說(shuō)明算法的優(yōu)越性.為了驗(yàn)證算法在非可控環(huán)境下的性能,利用ExpW,RAF-DB,AffectNet這3個(gè)表情庫(kù)構(gòu)建了自然場(chǎng)景下的人臉表情組合庫(kù):
首先,根據(jù)人臉性別和年齡屬性將ExpW,RAF-DB,AffectNet人臉庫(kù)合并后分成8類(lèi).
然后,從每類(lèi)中挑選出1.2萬(wàn)張人臉表情圖像,共9.6萬(wàn)(9.6=1.2×8)張人臉表情圖像作為組合庫(kù).當(dāng)從每類(lèi)中挑選出1.2萬(wàn)張人臉表情圖像時(shí),采用均勻采樣的方式盡可能使6種表情均衡.由于ExpW,RAF-DB,AffectNet人臉庫(kù)中老年人表情圖像比較少,作者通過(guò)學(xué)生自愿的方式收集了一部分學(xué)生爺爺奶奶等老年表情圖像樣本,以彌補(bǔ)老年人表情圖像樣本較少的缺陷.
最后,將得到的9.6萬(wàn)張人臉表情庫(kù)分為3個(gè)數(shù)據(jù)集:訓(xùn)練集7.6萬(wàn)張;驗(yàn)證集1萬(wàn)張;測(cè)試集1萬(wàn)張.
由于ExpW,RAF-DB,AffectNet人臉庫(kù)都是來(lái)自于互聯(lián)網(wǎng)上傳的自然場(chǎng)景人臉圖像,因此組合庫(kù)可以很好地驗(yàn)證算法在真實(shí)環(huán)境下的性能.
實(shí)驗(yàn)采用pyTorch深度學(xué)習(xí)構(gòu)架實(shí)現(xiàn)Efficient-Net和多示例注意力人臉特征提取.在訓(xùn)練階段采用隨機(jī)旋轉(zhuǎn)和鏡像的方式進(jìn)行數(shù)據(jù)增廣.模型訓(xùn)練中關(guān)鍵參數(shù)設(shè)置:學(xué)習(xí)率采用動(dòng)態(tài)調(diào)整方法,初始設(shè)置λ=0.001,epochs=6 000,分裂迭代次數(shù)為1 500,樹(shù)深度為20.
本節(jié)利用CK+和組合庫(kù)進(jìn)行人臉屬性估計(jì)實(shí)驗(yàn),人臉屬性估計(jì)樣例如圖5所示,表1給出本文方法、CNN[25]、RoR[26]的人臉屬性識(shí)別比較結(jié)果.其中,CNN采用AlexNet網(wǎng)絡(luò)結(jié)構(gòu)獲得了85.6%準(zhǔn)確率;RoR采用基本塊和瓶頸塊的方式構(gòu)建殘差網(wǎng)絡(luò)獲得了93.45%準(zhǔn)確率;本文方法獲得了最高的準(zhǔn)確率95.03%,另外0.5的方差也表明了其魯棒性.
Fig. 5 Examples of different face databases and their facial expression recognition results圖5 不同人臉庫(kù)樣例及其表情識(shí)別結(jié)果
Table 1 Comparison of Face Attribute Estimation Results表1 人臉屬性估計(jì)結(jié)果比較
1) 特征提取影響分析
為了驗(yàn)證本文提出的多示例注意力特征的有效性,將其與EfficientNet-B3特征、文獻(xiàn)[17]提出的特征(Multi-instances+GoogLeNet)、SIFT(scale-invariant feature Transform)、HOG(histogram of oriented gradient)、幾何結(jié)構(gòu)特征進(jìn)行比較分析.表2給出了不同特征在組合庫(kù)上的人臉表情識(shí)別結(jié)果.從表2中可以看出,多示例注意力特征在非常難的自然場(chǎng)景下取得了最好識(shí)別率70.52%,比第2名(前期工作)高出了6%左右,表明了多注意力機(jī)制和EfficientNet的有效性.其次,多示例GoogLeNet特征比單獨(dú)EfficientNet-B3特征識(shí)別率提高2%左右,表明了多示例學(xué)習(xí)的有效性.另外,從表2中還可看出本文分類(lèi)器比SVM分類(lèi)器具有更優(yōu)性能.
Table 2 Comparison of Facial Expression Recognition Results Under Different Features
2) 人臉屬性因子影響分析
為了驗(yàn)證人臉性別和年齡屬性對(duì)人臉表情識(shí)別的影響,圖6給出了基于人臉性別和年齡雙屬性多條件約束、基于人臉性別單條件約束和無(wú)人臉屬性條件約束下的人臉表情識(shí)別結(jié)果比較.從圖6中可見(jiàn),基于人臉性別和年齡雙屬性多條件約束的人臉表情識(shí)別方法要高于僅使用人臉性別單屬性的方法,而基于人臉性別約束的人臉表情識(shí)別要高于無(wú)人臉屬性條件約束的方法.由此可得出,人臉性別和年齡屬性是人臉表情識(shí)別的一個(gè)重要影響因子,組合使用兩種屬性比單獨(dú)使用性別一種屬性效果要好(在組合人臉庫(kù)上識(shí)別率提高了5%左右).
Fig. 6 Comparison of facial expression recognition based on facial attributes constraint圖6 基于人臉屬性約束的人臉表情識(shí)別比較
3) 綜合分析
表3給出了在組合人臉表情庫(kù)上,不同特征和分類(lèi)器組合的識(shí)別率比較結(jié)果.從表3中可以看出,多示例注意力特征比經(jīng)典的CNN(如GoogLeNet)特征高出7%左右;另外,基于人臉屬性分析的條件隨機(jī)森林(CRF)分類(lèi)器比傳統(tǒng)的支持向量機(jī)(SVM)和隨機(jī)森林(RF)分別高出了7%和5%左右.
Table 3 The Recognition Results by Different Featuresand Classifiers Combination
1) 基于組合庫(kù)的實(shí)驗(yàn)
表4給出了本文方法基于組合庫(kù)的人臉表情識(shí)別混淆矩陣,從表4中可以看出平均準(zhǔn)確率達(dá)到了70.52%,高興表情達(dá)到了最高準(zhǔn)確率88.7%,緊跟其后的分別是驚訝、害怕和悲傷表情,都超過(guò)了67%的準(zhǔn)確率,最低的厭惡表情也獲得了59.5%的準(zhǔn)確率.
Table 4 Facial Expression Recognition Confusion MatrixBased on Combinatorial Database
2) 基于CK+的實(shí)驗(yàn)
CK+是經(jīng)典的人臉表情庫(kù),為了完整性,本節(jié)同時(shí)也在此庫(kù)上驗(yàn)證本文方法的有效性.實(shí)驗(yàn)遵循此庫(kù)公開(kāi)的訓(xùn)練測(cè)試規(guī)則,利用CK+中的訓(xùn)練集對(duì)模型進(jìn)行微調(diào),利用測(cè)試集進(jìn)行測(cè)試.表5給出了基于CK+庫(kù)的人臉表情識(shí)別混淆矩陣,從表5中可以看出所有表情的識(shí)別率都超過(guò)了97%,平均識(shí)別率達(dá)到了99.25%.
Table 5 Facial Expression Recognition Confusion MatrixBased on CK+ Database
3) 比較實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文方法的有效性,將其與目前先進(jìn)的方法進(jìn)行比較實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示.
從表6中可見(jiàn),基于深度學(xué)習(xí)的人臉表情識(shí)別方法,如文獻(xiàn)[11]采用Resnet18+separate loss+Softmax loss的方法在CK+和組合庫(kù)上分別獲得了97.2%和66.83%的識(shí)別率;而混合深度學(xué)習(xí)方法,如C-CNN[31]在CK+上獲得了96.67%的識(shí)別率.另外,基于Gabor特征的SVM方法在CK+和組合庫(kù)上分別獲得了88.61%和43.79%的識(shí)別率;而基于Gabor特征的RF方法在CK+和組合庫(kù)上分別獲得了90.06%和47.35%的識(shí)別率.本文方法在CK+和組合庫(kù)上分別獲得最好識(shí)別率99%和69.72%.由此可見(jiàn):①深度學(xué)習(xí)方法比較傳統(tǒng)的Gabor+SVM或RF方法效果要好;②在表情分類(lèi)中,RF分類(lèi)器比SVM分類(lèi)器優(yōu)秀;③采用人臉性別和年齡雙屬性約束比僅使用性別約束效果要好.④本文采用的多示例注意力特征和屬性多條件隨機(jī)森林方法具有最好效果.
Table 6 Comparison Results of Different Methods Based onCK+ and Combined Database
表7給出不同方法在CPU和GPU上的訓(xùn)練和測(cè)試時(shí)間比較結(jié)果.實(shí)驗(yàn)機(jī)器CPU:i7-6700 4 GHz 32 GB,GPU:NVIDA GeForce GTX 1080.其中RF和SVM方法僅使用CPU進(jìn)行訓(xùn)練和測(cè)試,
Table 7 Comparison of TrainTest Time of Different Methods表7 不同方法的訓(xùn)練測(cè)試時(shí)間比較 s
Table 7 Comparison of TrainTest Time of Different Methods表7 不同方法的訓(xùn)練測(cè)試時(shí)間比較 s
測(cè)試項(xiàng)目CPUGPURF本文方法SVMCNN[11]本文方法訓(xùn)練時(shí)間6.5400.8081000811232測(cè)試時(shí)間0.1280.1650.3780.1350.148
本文方法和CNN使用GPU進(jìn)行訓(xùn)練和測(cè)試.從表7中可以看出本文方法與最近的CNN[11]相比,訓(xùn)練時(shí)間多出不到0.5 h,測(cè)試時(shí)間基本相當(dāng),但精度卻高出3%左右.
為了驗(yàn)證本文方法對(duì)人臉遮擋、噪聲和分辨率變化的魯棒性,本節(jié)隨機(jī)從CK+中選取1 000張人臉圖像進(jìn)行人為加遮擋、噪聲和下采樣處理,以便生成低質(zhì)量人臉圖像,如圖7所示,并將本文方法與CNN,SVM,RF方法進(jìn)行比較實(shí)驗(yàn).其中,CNN采用GoogLeNet網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行人臉特征提取,SVM和RF方法采用Gabor特征.
Fig. 7 Examples of facial occlusion, noise, and resolution variation圖7 人臉遮擋、噪聲和分辨率變化樣例
1) 遮擋實(shí)驗(yàn)
通過(guò)隨機(jī)放置黑色方塊的方式人為生成遮擋比例為20%~80%的遮擋圖像,如圖7(a)所示.圖8給出了不同遮擋比例下不同方法的識(shí)別結(jié)果.從圖8中可以看出,本文方法具有最好的遮擋魯棒性:在遮擋達(dá)到60%時(shí),依然能達(dá)到65%以上的識(shí)別率.另外,在50%遮擋范圍內(nèi),其性能退化緩慢,當(dāng)超過(guò)50%界限時(shí)才開(kāi)始急劇下降.
Fig. 8 The recognition rate under different occlusion intensities圖8 不同遮擋強(qiáng)度下的識(shí)別率
為了進(jìn)一步驗(yàn)證本文方法對(duì)遮擋的魯棒性,本節(jié)選取了一些真實(shí)的遮擋人臉圖像進(jìn)行實(shí)驗(yàn),如圖7(a)所示,部分定性實(shí)驗(yàn)結(jié)果如圖9所示,其中圖9(a)為傳統(tǒng)深度學(xué)習(xí)[32]方法,圖9(b)為本文方法,圖9(c)為真實(shí)情況.從圖9可以看出,本文方法對(duì)真實(shí)的遮擋圖像同樣具有優(yōu)秀的魯棒性.
Fig. 9 The facial expression recognition results under real occlusion images圖9 真實(shí)遮擋人臉圖像表情識(shí)別結(jié)果
2) 噪聲實(shí)驗(yàn)
Fig. 10 Examples of Gaussian noise and salt and pepper noise圖10 高斯噪聲和椒鹽噪聲圖例
為了驗(yàn)證本文方法對(duì)噪聲的魯棒性,本節(jié)對(duì)測(cè)試人臉圖像人為添加高斯噪聲α和椒鹽噪聲β,二者噪聲添加強(qiáng)度分別為0.05,0.1,0.15,0.2,如圖10所示.表8給出了不同噪聲強(qiáng)度下不同方法的識(shí)別率.從表8中可見(jiàn),隨著噪聲強(qiáng)度的增加,所有方法性能都有所下降,但是本文方法下降的幅度最小.對(duì)于高斯噪聲,其識(shí)別率平均高出第2名5%左右;對(duì)于椒鹽噪聲,其識(shí)別率平均高出第2名9%左右.
Table 8 Facial Expression Recognition Comparison UnderDifferent Noise Intensities
3) 分辨率變化實(shí)驗(yàn)
為了驗(yàn)證本文方法對(duì)分辨率變化的魯棒性,本節(jié)對(duì)測(cè)試人臉圖像進(jìn)行12和14下采樣處理以生成不同分辨率人臉圖像.不同分辨率下的識(shí)別率如表9所示.從表9可以看出,本文方法在所有分辨率下識(shí)別率一直保持在94%以上,分辨率變化對(duì)其影響不是很大;而RF和SVM方法對(duì)分辨率變化卻非常敏感.
Table 9 Facial Expression Recognition ComparisonUnder Different Resolution Variations
為了緩解人臉表情識(shí)別中類(lèi)內(nèi)變化和類(lèi)間變化難題,提出一種基于人臉性別和年齡雙屬性因子分析的隨機(jī)森林人臉表情識(shí)別方法.通過(guò)多示例注意力機(jī)制提取魯棒性人臉特征解決人臉遮擋、噪聲和分辨率等變化問(wèn)題;通過(guò)屬性條件隨機(jī)森林分類(lèi)器設(shè)計(jì)解決人臉性別和年齡等屬性因素影響問(wèn)題.通過(guò)廣泛實(shí)驗(yàn)表明,本文方法與先進(jìn)的深度學(xué)習(xí)方法相比具有先進(jìn)性,對(duì)人臉遮擋、噪聲和分辨率變化具有魯棒性.