成亞麗,秦飛龍,李政文
(1.成都工業(yè)學(xué)院 大數(shù)據(jù)與人工智能學(xué)院,四川 成都 611730;2.電子科技大學(xué)成都學(xué)院 文理系,四川 成都 611730)
人臉表情識別在情感計(jì)算、監(jiān)控和機(jī)器人控制等領(lǐng)域都得到了廣泛應(yīng)用[1,2]。在計(jì)算機(jī)視覺處理中,人臉表情主要是根據(jù)不同表情下由面部肌肉運(yùn)動引起的不同面部特征來描述,因此一個(gè)有效的特征描述符是表情識別的關(guān)鍵。然而,在不同的光照條件和人臉姿勢下會產(chǎn)生不同的噪聲,導(dǎo)致人臉像素點(diǎn)無法很好地區(qū)分開,因此構(gòu)造一種對這些變化具有魯棒性的穩(wěn)定描述符具有一定的困難[3]。
針對上述問題,學(xué)者進(jìn)行了大量研究?,F(xiàn)有常用的描述人臉特征方法主要分為兩種[4-9]:①基于幾何特征的方法;②基于外觀特征的方法?;趲缀翁卣鞯姆椒紤]不同面部組件(如嘴、眼睛、眉毛等)的形狀和位置,以表征面部結(jié)構(gòu)。然而,這種方法嚴(yán)格依賴于精確對齊的面部坐標(biāo),這在面部外觀和成像條件發(fā)生變化時(shí)是很難做到的。另一方面,基于外觀特征的方法并不嚴(yán)格依賴于面部組件的位置,因?yàn)樗鼈兠枋隽嗣娌客庥^,又可分為全局外觀和局部外觀。
基于全局外觀的方法試圖通過應(yīng)用基于投影技術(shù)生成一個(gè)全局描述符來表示整個(gè)人臉的外觀,常用的有2D PCA、LDA和ICA等。然而,由于這種方法旨在以全局方式表示圖像,因此不適合描述不同面部表情的精細(xì)外觀變化。與其不同的是,基于局部外觀的方法采用局部編碼策略來發(fā)現(xiàn)由不同表情變化引起的面部微觀紋理或邊緣信息,比基于全局外觀的方法有更好的識別效果。傳統(tǒng)的局部外觀方法有局部二值模式(LBP)、Sobel、Prewitt、Roberts和Kirsch邊緣算子等。
近些年,局部方向模式(local directional pattern,LDP)等基于局部邊緣的描述子用于表情識別[10,11],其關(guān)鍵是描述面部圖像上微觀邊緣的局部特征。這種方法通過應(yīng)用Kirsch掩模在像素的局部鄰域內(nèi)測量不同方向上的邊緣響應(yīng),并對具有顯著Kirsch響應(yīng)的3個(gè)方向進(jìn)行編碼,來表示各種微觀層次的紋理圖案。然而,Kirsch算子只考慮3×3局部鄰域,因此在該區(qū)域中存在的強(qiáng)度失真或噪聲可能影響Kirsch響應(yīng)計(jì)算,導(dǎo)致形成錯(cuò)誤的LDP模式[12]。此外,LDP也會在沒有邊緣的平坦區(qū)域產(chǎn)生編碼,如果一些隨機(jī)噪聲紋理僅出現(xiàn)在這些區(qū)域中,這可能導(dǎo)致不一致的紋理特征。
目前,也有一些學(xué)者對LDP進(jìn)行了改進(jìn)。例如,文獻(xiàn)[13]提出了一種對噪聲更具魯棒性的局部方向模式來描述人臉。文獻(xiàn)[14]通過將圖像方向信息和強(qiáng)度信息相結(jié)合來進(jìn)行編碼,以提高識別率。文獻(xiàn)[15]通過對分塊中獲得的LDP進(jìn)行X-OR運(yùn)行,形成一種精簡型編碼方法稱為DR-LDP。不過這些方法都沒有考慮到LDP在平坦區(qū)域會產(chǎn)生偽邊緣編碼的情況。
本文針對傳統(tǒng)LDP會產(chǎn)生偽特征碼和對局部鄰域噪聲敏感的問題,提出了一種改進(jìn)型LDP局部描述子(ILDP),用于在不同類型的紋理(如邊緣、彎曲邊緣和角狀紋理)上生成清晰編碼,并構(gòu)建了一種人臉表情識別方法,其主要創(chuàng)新點(diǎn)為:
(1)對傳統(tǒng)LDP進(jìn)行改進(jìn)。首先,在LDP計(jì)算過程中對邊緣梯度信息進(jìn)行對數(shù)變換并進(jìn)行積累,以此來抑制少樣本的噪聲信息。然后,在LDP編碼階段,使用梯度閾值方法來區(qū)分面部結(jié)構(gòu)中的顯著特征區(qū)域和無特征的平坦區(qū)域,避免產(chǎn)生無用編碼。從而使LDP方法具有更強(qiáng)的分辨能力和魯棒性,能夠更好地表示人臉局部結(jié)構(gòu)。
(2)將ILDP提取的局部外觀特征與主動表觀模型(active appearance mode,AAM)提取的全局幾何特征相結(jié)合,均衡人臉特征集的整體和細(xì)節(jié)表示能力,進(jìn)一步提高人臉表情識別準(zhǔn)確率。
在JAFFE和BU-3DFE兩個(gè)公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,提出的方法能夠有效提高表情的識別率,降低了對噪聲的敏感性。
本文提出的人臉表情識別方法共分為4個(gè)部分,分別是基于改進(jìn)型LDP(ILDP)的局部外觀特征提取,基于AAM的幾何特征提取,特征融合與主成分分析(PCA)特征降維,基于SVM的人臉表情特征分類。整個(gè)方法基本流程如圖1所示。
圖1 提出的人臉表情識別方法流程
在提出的方法中,ILDP是本文方法的重點(diǎn)。由于傳統(tǒng)LDP存在容易受噪聲像素影響和編碼不穩(wěn)定的情況,為此本文通過3個(gè)措施對其進(jìn)行了改進(jìn),即利用Sobel算子代替Kirsch掩模來更好地提取圖像中的梯度信息,利用一個(gè)log函數(shù)來減弱噪聲點(diǎn)的影響,利用一個(gè)閾值判斷來避免在平坦區(qū)域進(jìn)行邊緣特征編碼。
通過本文提出的ILDP可以提取出有效的人臉局部外觀特征。然而,如果僅使用外觀特征,當(dāng)遇到光照、外圍環(huán)境變化等因素時(shí),會影響識別精度。所以本文在此基礎(chǔ)上還融入了全局幾何特征,即通過AAM模型來提取人臉幾何特征。然后將兩種特征進(jìn)行融合,并通過PCA來對特征集進(jìn)行降維,最終構(gòu)建人臉的高效特征集。
1.2.1 ILDP局部外觀特征提取
本文通過提出的ILDP來提取人臉局部外觀特征,這將在第2章中詳細(xì)描述。
1.2.2 AAM幾何特征提取
本文使用經(jīng)典AAM模型[16]提取人臉幾何特征。AAM模型算法主要分為兩個(gè)部分,首先是模型建立,其次為匹配標(biāo)定。AAM模型采用統(tǒng)計(jì)分析方法建立先驗(yàn)?zāi)P停四樀男螤钚畔⒑图y理信息。模型分為4個(gè)步驟建立:①標(biāo)注訓(xùn)練圖片;②形狀對齊;③形狀和紋理建模;④建立混合模型。
首先采用Procruste分析方法對人臉圖像進(jìn)行歸一化和人類對齊操作。
然后,將人臉的形狀模型與紋理模型相結(jié)合,形成一個(gè)統(tǒng)計(jì)模型進(jìn)行特征點(diǎn)定位,從而提取人臉的幾何特征。形狀變化包含特征點(diǎn)之間的有向圖,紋理包含亮度、色彩等信息。得到的形狀模型和紋理模型分別表示如下
(1)
(2)
其中,s0是平均形狀,si是正交基,bi為形狀參數(shù)。A0(x)是平均紋理,Ai(x)是正交基,ai表示紋理參數(shù)。
最后,在得到人臉圖像的形狀模型和紋理模型后,將兩個(gè)模型通過權(quán)重參數(shù)進(jìn)行聯(lián)合,并去除它們之間的相關(guān)性,得到最終的外觀模型。AAM幾何特征提取的詳細(xì)步驟可參見文獻(xiàn)[16]的描述。
1.2.3 特征融合
我們將ILDP提取的局部外觀特征集表示為HATLDP,將AAM提取的幾何特征集表示為HAMM,通過一個(gè)權(quán)重λ將ILDP和AAM特征進(jìn)行加權(quán)融合,那么總特征集表示為
HALL=λHATLDP+(1-λ)HAMM
(3)
本文在特征提取的基礎(chǔ)上,通過經(jīng)典的PCA算法來進(jìn)行頻繁特征選擇,將最終獲得的頻繁特征表示為HALL-F。對于一個(gè)表情來說,不同個(gè)體與該表情相關(guān)的面部成分都是相似的。這就是說,在面部圖像中,特定表情的面部模式比噪聲模式出現(xiàn)的頻率更高。因此,一個(gè)人臉可以由頻繁出現(xiàn)的特征來表示,而其它不太頻繁的特征可以省略。
PCA是特征降維的一種有效方法,其將高維的數(shù)據(jù)映射到低維,并期望在所投影的維度上數(shù)據(jù)的方差最大。假設(shè)X是已經(jīng)中心化(Z-score)過的數(shù)據(jù)矩陣,每列一個(gè)樣本(每行一個(gè)特征);樣本點(diǎn)xi在新空間中的超平面上的投影是:WTxi;若所有樣本點(diǎn)的投影能夠盡可能分開,則表示投影之后的點(diǎn)在各個(gè)維度上的方差應(yīng)該最大化,那么投影樣本點(diǎn)的各個(gè)維度方差的和表示為
(4)
從而可以得到PCA的最優(yōu)目標(biāo)函數(shù)是
s.t.WTW=I
(5)
LDP通過比較圖像中某個(gè)像素在不同方向上的邊緣響應(yīng)值,為像素分配一個(gè)8位二進(jìn)制編碼來獲取模式。LDP通常鄰域大小設(shè)置為3×3,然后將一個(gè)中心像素分別與8個(gè)Kirsch算子進(jìn)行卷積運(yùn)算,獲得8個(gè)3×3的邊緣響應(yīng)值矩陣,記為|mi|(i=0,1,…,7),邊緣響應(yīng)值反映在不同方向上邊的重要性。然后選取絕對值最大的k個(gè)數(shù)作為主要特征,并且將這k位編碼為1,其余位編碼為0,表示為
(6)
圖2描述了LDP的編碼過程,圖3列舉了k=3時(shí)的一個(gè)LDP編碼示例。
圖2 LDP的編碼過程
圖3 LDP編碼示例(k=3)
然而,傳統(tǒng)LDP描述子存在以下2個(gè)缺陷:
(1)傳統(tǒng)LDP在編碼過程中會受到像素局部鄰域變化的影響,微小的位置變化和噪聲點(diǎn)在很大程度上會影響描述子提取特征的穩(wěn)定性。
(2)臉部的平坦區(qū)域不包含與面部表情分析相關(guān)的有意義特征,然而傳統(tǒng)LDP描述符也會在平坦區(qū)域中編碼非邊緣特征,從而產(chǎn)生不確定的隨機(jī)特征碼。這些編碼可能會與邊緣編碼相似,從而影響了人臉特征表示的準(zhǔn)確性。
圖4描述了LDP在不同種類的圖像區(qū)域上產(chǎn)生相同編碼的例子。
圖4 不同區(qū)域產(chǎn)生相同LDP編碼的例子
為解決上述分析中傳統(tǒng)LDP存在的問題,本文利用局部鄰域邊緣信息的統(tǒng)計(jì)特性,提出了局部顯著方向模式來生成魯棒特征。還提出了一種機(jī)制來避免在平面區(qū)域生成像素的模式碼。此外,還利用了一種特征選擇機(jī)制來選擇一些重要特征,從而獲得更好的分類效果。
2.2.1 改進(jìn)型LDP編碼過程
由于面部表情的不同,嘴、鼻子、眼睛和眉毛等不同面部成分的形狀會隨著面部運(yùn)動而變化。正確編碼這些面部特征的變化是區(qū)分不同表情的關(guān)鍵?;谶吘壍哪J教崛∑髟噲D對這些邊緣的方向和強(qiáng)度進(jìn)行編碼。圖像梯度能有效地表示邊緣的強(qiáng)度和方向,因此可以用來編碼局部形狀結(jié)構(gòu)。另外,由于圖像梯度的方向?qū)庹兆兓膊惶舾校虼嘶谔荻鹊倪吘夗憫?yīng)能被用來提取圖像特征。
如前所述,在用于提取圖像局部梯度/邊緣信息的LDP方法中,其編碼方案利用了Kirsch掩模的邊緣響應(yīng)。由上文討論可知,使用Kirsch掩模的局部形狀表示存在一些問題。因此,本文利用著名的Sobel算子代替Kirsch掩模來提取圖像中的梯度信息。
為了計(jì)算ILDP碼,首先得到梯度幅度(M)和方向(θ)
θ=tan-1(Gy/Gx)
(7)
式中:Gx和Gy分別是對圖像(I)應(yīng)用水平和垂直Sobel算子得到的響應(yīng)
(8)
梯度方向和幅度分別代表邊緣的方向和強(qiáng)度。因此,基于幅度加權(quán)累積的相鄰像素梯度方向信息(稱為方向梯度直方圖HOG)可以表示該鄰域中出現(xiàn)的紋理形狀。采用HOG的概念來描述局部結(jié)構(gòu)的形狀。將梯度方向量化為q方向,即每個(gè)方向覆蓋360/q度。
在HOG中,在第i個(gè)bin(量化方向)中的累積計(jì)算為
(9)
式中:p是鄰域R中的像素,θ(p)和M(p)分別是p處的梯度方向和幅度。
2.2.2 噪聲像素影響的抑制
HOG沿不同方向累積梯度幅度來表示邊緣結(jié)構(gòu)的強(qiáng)度。但是,局部區(qū)域可能包含與外觀變化無關(guān)的強(qiáng)度變化,例如噪聲。在這種情況下,區(qū)域中的一些噪聲像素可能對相應(yīng)直方圖中的累積運(yùn)算提供不良貢獻(xiàn),導(dǎo)致包含噪聲梯度的直方圖可能比用來表示實(shí)際外觀變化的其它直方圖的權(quán)重更大,從而導(dǎo)致混淆噪聲邊緣和實(shí)際形狀的有效邊緣。
為避免這個(gè)問題,本文利用對數(shù)函數(shù)和適當(dāng)?shù)泥徲虼笮頊p少噪聲像素的影響。
首先,對梯度幅度值應(yīng)用一個(gè)log函數(shù),通過改變式(9)中的Δ函數(shù)將其累積到直方圖中,形成方向變化直方圖(histogram of directional variations,HDV),表示為
(10)
式中:HDV累積了梯度幅度的對數(shù)。注意,M在[0~255]范圍內(nèi),即梯度幅度的對數(shù)被量化為最接近的整數(shù)。對數(shù)運(yùn)算符在這里不會產(chǎn)生任何負(fù)值,較小(接近0)的梯度幅度表示平面信息(即缺少面部特征)。由于本文采用了閾值判斷來區(qū)分平坦和邊緣區(qū)域,所以梯度幅度不會為0,這將在下一節(jié)中介紹。
其次,我們發(fā)現(xiàn)從一個(gè)大的鄰域區(qū)域計(jì)算HDV和HOG時(shí)可能會導(dǎo)致特征表征性能的降低,為此選擇一個(gè)合適的領(lǐng)域大小對于表情識別來說非常關(guān)鍵。為此,通過相關(guān)實(shí)驗(yàn)驗(yàn)證了在不同的LDP編碼局部鄰域大小(3×3、5×5 和7×7)下,ILDP算法在JAFFE數(shù)據(jù)集上的性能,算法識別率見表1。
表1 不同LDP編碼局部鄰域大小下的表情識別率/%
根據(jù)表1結(jié)果發(fā)現(xiàn),較小鄰域區(qū)域可以得到更好的結(jié)果。這主要有兩個(gè)原因:①鄰域越大,編碼的特征尺度就越高。當(dāng)鄰域設(shè)置為3×3時(shí),其考慮了8個(gè)鄰居像素進(jìn)行編碼,而設(shè)置為5×5時(shí)則需要考慮16個(gè)鄰居像素,導(dǎo)致特征維數(shù)的成倍增加,為后續(xù)特征分類帶來負(fù)擔(dān)且影響性能;②當(dāng)鄰域過大時(shí),局部細(xì)節(jié)特征就無法準(zhǔn)確獲取,導(dǎo)致諸如微觀邊緣結(jié)構(gòu)特征等細(xì)節(jié)的丟失。這也是經(jīng)典LBP、LDP編碼都采用3×3鄰域的原因。
2.2.3 基于閾值機(jī)制的平坦區(qū)域消除
為解決傳統(tǒng)LDP在臉部的平坦區(qū)域仍然有可能產(chǎn)生與邊緣區(qū)域相似的編碼,形成非邊緣特征的問題。本文引入一個(gè)閾值(τ),僅為梯度幅度(M)超過該閾值的像素生成ILDP碼。
如果像素處的梯度幅度小于τ,則在代碼生成的初始階段直接指定默認(rèn)的ILDP代碼。對于梯度幅度超過τ的像素,ILDP根據(jù)像素領(lǐng)域特征結(jié)構(gòu)找到兩個(gè)重要的邊緣方向,即主(dir1)和次(dir2)梯度方向來探索局部鄰域。然后將兩個(gè)方向進(jìn)行連接,生成ILDP代碼,表示如下
(11)
可以在一些邊緣模式中僅提取一個(gè)有效方向,例如在HDV中僅累積一個(gè)方向的理想邊緣,雖然這種邊緣可能只存在于人臉圖像中的高對比度區(qū)域。為了對這樣的邊緣模式進(jìn)行編碼,將主方向累加了兩次。因此,ILDP成為一個(gè)從0到63的6位代碼。另外,默認(rèn)代碼不具備任何重要信息,因?yàn)樗鼈儽硎緹o特征區(qū)域。
對于閾值τ,需要根據(jù)面部圖像中邊緣像素?cái)?shù)量與像素總數(shù)的比率來設(shè)定。當(dāng)閾值τ設(shè)置較大時(shí),會導(dǎo)致產(chǎn)生較少的特征而無法正確描述面部外觀。另一方面,當(dāng)閾值τ設(shè)置較小時(shí),產(chǎn)生的特征有可能會包括噪聲和弱邊緣,這些與外觀表示沒有顯著關(guān)系。根據(jù)多次實(shí)驗(yàn)結(jié)果分析,當(dāng)閾值τ設(shè)定為圖像中所有邊緣像素梯度幅度平均值的70%時(shí),效果最佳。
該編碼方案產(chǎn)生類似于傳統(tǒng)LDP描述符的特征數(shù)量,但對由噪聲和位置變化引起的干擾更加穩(wěn)定。傳統(tǒng)LDP方法在不同情況下對相同邊緣結(jié)構(gòu)會生成不同的編碼,這清楚地表明編碼原始強(qiáng)度或基于掩碼的邊緣響應(yīng)不能很好地表示實(shí)際形狀信息。相比之下,本文方法中,從基于累積的方向變化直方圖的局部統(tǒng)計(jì)信息中提取顯著方向,可以對無噪聲和有噪聲的圖像區(qū)域生成相同的代碼,避免了噪聲的干擾。
在基準(zhǔn)數(shù)據(jù)集JAFFE、BU-3DFE和Yale上,將本文方法與現(xiàn)有的最新方法進(jìn)行了性能比較分析。JAFFE數(shù)據(jù)集一共有213張圖像,選取了10名日本女學(xué)生,每個(gè)人做7種表情,分別為生氣、厭惡、恐懼、高興、中性、難過和驚訝。BU-3DFE數(shù)據(jù)庫由3D數(shù)據(jù)中建模的2D圖像構(gòu)成,也提供了相同的7種典型表情,其中每種表情包括4種不同的強(qiáng)度級別。該數(shù)據(jù)庫包括100名受試者,其中56%為女性,44%為男性。樣本在年齡和民族上也各不相同,這使得BU-3DFE在實(shí)踐中具有挑戰(zhàn)性。Yale數(shù)據(jù)集常用于人臉識別,其中包含了不同光照、姿態(tài)和表情的圖像,本文手動從中選擇了4種表情的圖像,用于驗(yàn)證算法在不同光照條件下的性能。圖5分別介紹了兩個(gè)數(shù)據(jù)集中的一些示例。
圖5 數(shù)據(jù)集中的一些表情圖像示例
在預(yù)處理階段,將所有圖像歸一化為150×110像素,然后對圖像進(jìn)行特征提取。此外,為了分析各種方法在受到噪聲和位置變化干擾時(shí)的準(zhǔn)確率,在圖像樣本加入了噪聲。所有算法都是通過python3.0進(jìn)行編程實(shí)現(xiàn),運(yùn)行平臺為Intel core i5@2.67 GHz處理器和8 GB RAM的計(jì)算機(jī)。
這里我們執(zhí)行3個(gè)實(shí)驗(yàn),首先在JAFFE數(shù)據(jù)集上評估提出的ILDP和特征融合的表情識別方法的有效性。對7種表情識別的混淆矩陣如圖6所示??梢钥吹?,本文方法獲得了平均95.8%的識別率,具有很高的成功率。
圖6 本文方法在JAFFE數(shù)據(jù)集上識別結(jié)果
然后,為了驗(yàn)證本文采用的改進(jìn)LDP和特征融合是否對提高識別率有促進(jìn)作用,將本文提出的表情識別方法(即ILDP+AAM)與傳統(tǒng)LDP和單獨(dú)ILDP方法進(jìn)行比較,識別準(zhǔn)確率見表2。
表2 JAFFE上人臉表情識別準(zhǔn)確率/%
可以看到,當(dāng)只采用傳統(tǒng)LDP方法時(shí)識別率只有89.97%,而采用改進(jìn)后的ILDP時(shí),識別率提高了約4個(gè)百分點(diǎn)。這是因?yàn)镮LDP提高了對噪聲像素的抑制能力,且通過閾值判斷來識別平坦和邊緣區(qū)域,使其編碼更加準(zhǔn)確地反映真實(shí)表情特征。另外,在進(jìn)一步融合AAM特征后,識別率得到進(jìn)一步提高達(dá)到95.8%,說明幾何特征的融入能夠避免僅僅利用局部外觀特征的不足,使得到的特征集能夠更全面地描述人臉表情。
接著,將本文方法與現(xiàn)有的幾種先進(jìn)方法進(jìn)行比較,對比方法分別為文獻(xiàn)[13]提出的噪聲魯棒的LDP方法,文獻(xiàn)[14]提出的方向-強(qiáng)度信息結(jié)合編碼的LDP方法,文獻(xiàn)[15]提出的精簡型編碼的DR-LDP方法。
為了體現(xiàn)本文方法對噪聲像素的抑制能力,在圖像中加入了不同量級的噪聲。為生成有噪聲點(diǎn)的圖像,對每個(gè)圖像添加具有零均值和兩個(gè)隨機(jī)標(biāo)準(zhǔn)差范圍(0.08-0.16和0.16-0.32)的隨機(jī)高斯噪聲,識別結(jié)果見表3。可以看出,在有噪聲點(diǎn)時(shí),各種方法的識別率都有所下降。但I(xiàn)LDP比其它現(xiàn)有方法有更好的效果,驗(yàn)證了本文對梯度幅度值應(yīng)用log函數(shù)后再累計(jì)的操作具有有效性。另外,AAM幾何特征的融入能夠進(jìn)一步提高識別性能。
表3 不同噪聲等級下,JAFFE數(shù)據(jù)集上的識別準(zhǔn)確率/%
與JAFFE數(shù)據(jù)集上的實(shí)驗(yàn)一樣,我們先進(jìn)行本文方法的驗(yàn)證實(shí)驗(yàn),然后再進(jìn)行對比分析。
本文方法在BU-3DFE數(shù)據(jù)集上的表情識別混淆矩陣如圖7所示??梢钥吹?,本文方法的平均識別率為76.5%,與JAFFE數(shù)據(jù)集相比較低。這是因?yàn)锽U-3DFE數(shù)據(jù)集中的表情強(qiáng)度都不同,且圖像人物的外形差異也很大,導(dǎo)致有些不屬于同一類的表情看上去很相似,給識別帶來了難度。
圖7 本文方法在BU-3DFE數(shù)據(jù)集上識別結(jié)果
然后,對采用的改進(jìn)LDP和特征融合進(jìn)行驗(yàn)證,識別準(zhǔn)確率見表4??梢钥吹剑cJAFFE數(shù)據(jù)集上的結(jié)果一致,ILDP能夠明顯改善傳統(tǒng)LDP的性能,融入AAM特征后可以進(jìn)一步提高識別率。只不過由于BU-3DFE數(shù)據(jù)集上圖像之間的巨大變化,可能會產(chǎn)生任意的編碼,導(dǎo)致特征的模糊性,因此總體精度要比JAFFE數(shù)據(jù)集低很多。
表4 BU-3DFE數(shù)據(jù)集上的人臉表情識別準(zhǔn)確率/%
最后,對BU-3DFE數(shù)據(jù)集上的圖像加入噪聲,不同方法的識別結(jié)果見表5。同樣可以看到,本文方法對噪聲的抵抗能力最強(qiáng),而傳統(tǒng)LDP幾乎沒有噪聲抑制能力,識別率受噪聲的影響很大。
表5 不同噪聲等級下,BU-3DFE數(shù)據(jù)集上的識別準(zhǔn)確率/%
Yale數(shù)據(jù)集主要用來驗(yàn)證在不同光照條件下,算法對人臉表情的識別性能。本文方法的表情識別混淆矩陣如圖8所示??梢钥吹?,由于該實(shí)驗(yàn)中的表情類別數(shù)量較少,所以整體識別率都比較高。在這4類表情中,除了高興和驚訝兩類存在相對較大的分類錯(cuò)誤外,其它的識別率都很高。這也說明了本文方法提取的外觀和幾何特征的結(jié)合能夠很好地克服光照變化帶來的影響,使識別準(zhǔn)確率對光照變化不敏感。
圖8 本文方法在Yale數(shù)據(jù)集上識別結(jié)果
最后,將不同方法在Yale數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),識別結(jié)果見表6。這里不添加噪聲,主要用來驗(yàn)證不同方法對光照變化的抑制能力。同樣可以看到,與現(xiàn)有方法相比,本文方法取得了最好的結(jié)果,其對光照變化的抵抗能力也最強(qiáng)。
表6 Yale數(shù)據(jù)集上的識別準(zhǔn)確率/%
人臉表情識別方法的計(jì)算時(shí)間也是一項(xiàng)重要指標(biāo),在滿足識別準(zhǔn)確性條件下,識別時(shí)間盡可能最短,才能更好地適應(yīng)一些實(shí)時(shí)應(yīng)用。
從數(shù)據(jù)集中隨機(jī)選擇100張圖像,應(yīng)用上述對比方法進(jìn)行人臉特征提取和識別,記錄從每張圖像中提取特征向量長度和完成識別所需的平均時(shí)間,結(jié)果見表7??梢钥吹絺鹘y(tǒng)LDP計(jì)算8個(gè)方向的信息,所以特征長度較大,但由于計(jì)算不復(fù)雜,所以計(jì)算時(shí)間不長。文獻(xiàn)[15]方法的特征長度最小,是因?yàn)樵摲椒▽⒎謮K特征進(jìn)行運(yùn)算整合,構(gòu)建了一種精簡特征集。本文方法的特征長度也不大,是因?yàn)楸疚碾m然結(jié)合了ILDP和AAM特征,但在融合特征之后采用了PCA算法進(jìn)行降維,精簡了特征集維度,所以識別過程所需的時(shí)間也不是很長。
表7 各種方法的特征長度及表情識別時(shí)間/ms
本文提出一種改進(jìn)型局部顯著方向模式(ILDP),通過融入log函數(shù)和平坦區(qū)域閾值判斷,解決了人臉表情識別中的噪聲點(diǎn)和偽編碼問題。另外,將ILDP提取的特征與AAM幾何特征進(jìn)行結(jié)合,進(jìn)一步提高了人臉識別準(zhǔn)確率。
然而,融合后的模型在一定程度上增加了運(yùn)行時(shí)間,在不影響模型準(zhǔn)確率的前提下,未來會進(jìn)一步優(yōu)化該模型,從而提高該模型的執(zhí)行效率。