山笑珂,張炳林
(1.鄭州工程技術(shù)學(xué)院 文化遺產(chǎn)學(xué)院,河南 鄭州 450044;2.河南大學(xué) 教育科學(xué)學(xué)院,河南 開封 475004)
人臉表情識別[1,2]一般可分為基于模板的方法和基于特征的方法?;谀0宓姆椒ㄍǔ_m用于正面人臉表情識別,可靠性較低?;谔卣鞯姆椒P(guān)注外觀和幾何特征,如:定向梯度直方圖(histogram of oriented gradient,HOG)[4]、Gabor小波變換[5]和尺度不變特性變換(scale invariant feature transform,SIFT)[6]。HOG難以處理遮擋問題,對人臉方向變化和噪點(diǎn)敏感,因此,本文僅考慮Gabor小波變換和SIFT對人臉特征進(jìn)行提取。然而,直接提取到的特征維度較大,用于分類網(wǎng)絡(luò)效果很差,必須通過降維技術(shù)對其進(jìn)行降維。常見的降維技術(shù)可分為線性類和非線性類。線性類降維技術(shù)有主成分分析(principal component analysis,PCA)[7]和線性判別分析(linear discriminant analysis,LDA)[8]。非線性降維技術(shù)有核主成分分析(kernel principal component analysis,KPCA)[9]、局部線性嵌入(locally linear embedding,LLE)[10]、等距特征映射(isometric mapping,Isomap)[11]和T分布隨機(jī)鄰嵌入(t-distributed stochastic neighbor embedding,t-SNE)[12]。
針對人臉表情識別問題,已有大量學(xué)者對其進(jìn)行研究。文獻(xiàn)[13]利用圖像顏色信息和通道之間的關(guān)聯(lián)性,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)對人臉表情識別。文獻(xiàn)[14]提出一種雙路特征融合模型,將CNN和HOG方法結(jié)合對人臉表情識別。文獻(xiàn)[15]提出基于差分CNN兩階段框架的人臉表情識別方法,第一階段利用二元CNN從表情序列中自動提取出中性表情幀和完全表情幀,第二階段利用差分CNN對表情分類。CNN類算法屬于監(jiān)督類算法,雖然精度較高,但是所需樣本必須是標(biāo)記后的。實(shí)際生活中大多數(shù)可用數(shù)據(jù)都是未標(biāo)記的,這在人臉表情識別領(lǐng)域尤其明顯,因此,半監(jiān)督方式較為合適。為此,文獻(xiàn)[16]提出基于Wasserstein生成式對抗網(wǎng)絡(luò)(Wasserstei generative adversarial networks,WGAN)的表情識別方法,該方法通過抑制類內(nèi)變異來提高表情識別的準(zhǔn)確性和魯棒性。文獻(xiàn)[17]提出基于圖形信號處理(graph signal processing,GSP)技術(shù)的表情識別方法,該方法利用譜圖小波變換提取信息,使用不同類型濾波器組,找到最佳的識別率性能。基于WGAN和基于GSP的方法具有無監(jiān)督學(xué)習(xí)能力,訓(xùn)練測試速度快,但其精度較低。文獻(xiàn)[18]利用誤差逆向傳播(back propagation,BP)算法對半監(jiān)督深度信念網(wǎng)絡(luò)(deep belief network,DBN)進(jìn)行微調(diào),精度較高,但BP算法在鄰近迭代中搜索正交方向時,存在極值點(diǎn)陷入局部極小和收斂時間過長的問題。
基于上述分析,半監(jiān)督類學(xué)習(xí)對人臉表情識別具有較好的性能,其中半監(jiān)督DBN精度高,優(yōu)勢明顯。但是半監(jiān)督DBN存在極值點(diǎn)陷入局部極小和收斂時間過長的問題。為了解決該問題,半監(jiān)督DBN在本文中被繼續(xù)研究,主要從兩方面入手:一方面提取表情特征后對其進(jìn)行降維,以此降低半監(jiān)督DBN網(wǎng)絡(luò)的學(xué)習(xí)復(fù)雜度;另一方面利用共軛梯度算法(conjugage gradient algorithm,CG)對BP算法處理過程進(jìn)行加速,解決半監(jiān)督DBN存在的問題。所提方法創(chuàng)新點(diǎn)總結(jié)如下:
(1)提出了多特征處理人臉表情的方式,考慮嘴部與眼部的Gabor小波特征和尺度不變特性變換特征;
(2)提出了人臉表情識別中半監(jiān)督DBN的改進(jìn)方式,利用共軛梯度算法對BP算法處理過程加速,解決其在識別過程中存在極值點(diǎn)陷入局部極小和收斂時間過長的問題。
本文人臉表情識別的流程為:樣本采集、特征提取、降維、改進(jìn)DBN訓(xùn)練學(xué)習(xí)得到人臉表情識別網(wǎng)絡(luò)。所用樣本集是開放數(shù)據(jù)庫的標(biāo)準(zhǔn)人臉表情。通常,表情變化時,眼部和嘴部存在明顯的特征變化。因此,本文重點(diǎn)考慮眼部和嘴部的特征?;诓煌砬樘卣?,從面部數(shù)據(jù)中提取眼部和嘴部特征,利用Gabor小波變換和SIFT提取眼部和嘴部特征。
為了獲得最合適的提取方法,對4種特征進(jìn)行了評估,即:嘴部Gabor小波特征、眼部Gabor小波特征、嘴部SIFT特征和眼部SIFT特征。為了加速DBN訓(xùn)練,對特征向量降維,并將這些降維簡化的特征作為改進(jìn)DBN輸入,以計算改進(jìn)DBN對不同人臉表情的識別率。
1.1.1 人臉表情Gabor小波特征
Gabor小波能夠描述人類視覺細(xì)胞的刺激響應(yīng),高效地提取人臉表情的局部空間和頻域信息。其對光線敏感程度較低,對人臉圖像邊緣敏感,具有良好的方向和尺度選擇特性,能夠承受一定的圖像旋轉(zhuǎn)和形變。小波變換核心是卷積,即Gabor濾波器函數(shù)和圖像信號的卷積。
二維Gabor函數(shù)g(x,y) 本質(zhì)是復(fù)正弦調(diào)制后的高斯函數(shù)。Gabor函數(shù)定義為
(1)
式中:ω為正弦頻率,σx,σy是標(biāo)準(zhǔn)差。
Gabor函數(shù)經(jīng)過尺度變換和旋轉(zhuǎn)生成Gabor小波
gmn(x,y)=a-mg(x′,y′)
(2)
式中:x′和y′表示尺度,具體為x′=a-m(xcosθ+ysinθ) 和y′=a-m(-xsinθ+ycosθ),m∈{0,…,M-1}。θ表示方向,θ=nπ/N,n∈{0,…,N-1}。 其余變量定義為
(3)
(4)
(5)
小波變換是Gabor濾波器函數(shù)與原始圖像I的卷積,為
(6)
上式中,Uh和Ul分別為設(shè)計頻段的上界和下界。
1.1.2 人臉表情SIFT特征
人眼幾乎能夠在任何尺度下識別出物體,而計算機(jī)難以直接識別不同尺度下的物體圖像。SIFT是一種特征提取方法,它解決了目標(biāo)在圖像旋轉(zhuǎn)、縮放、平移、光照、遮擋、雜物場景等因素下的影響。SIFT主要步驟為尺度空間的極值檢測、特征點(diǎn)定位、特征方向賦值和特征點(diǎn)描述。
SIFT在構(gòu)建尺度空間時,采用高斯核函數(shù)進(jìn)行濾波。尺度空間表示為
L(x,y,σ)=G(x,y,σ)*I(x,y)
(7)
式中:I(x,y) 為原始圖像,σ是空間尺度因子,控制尺度的大小,尺度越大越凸顯人臉圖像全局特征,越小越凸顯人臉細(xì)節(jié)特征。高斯函數(shù)G表示為
(8)
式中:xm,xn表示高斯模糊的維度,決定于σ值。xm,xn是人臉表情照片像素的位置。
高斯拉普拉斯算子(Laplace of Gaussian,LoG)在檢測圖像特征點(diǎn)時,準(zhǔn)確性較高,但運(yùn)算量過大。采用差分高斯(difference of Gaussian,DoG)近似計算LoG為
D(x,y,σ)=[G(x,y,kσ)-G(x,y,σ)]*I(x,y)=L(x,y,kσ)-L(x,y,σ)
(9)
DoG可以實(shí)現(xiàn)空間極值的檢測,查找特征點(diǎn),具體如下。尺度空間二次泰勒展開式為
(10)
(11)
將最小值和主曲率作為閾值,剔除圖像中平滑區(qū)域內(nèi)不穩(wěn)定的邊緣點(diǎn)和對比度小的特征點(diǎn)。
在尺度不變的情況下,對剩下所有特征點(diǎn)選取一個窗口,求解窗口內(nèi)特征點(diǎn)梯度向量的幅值mg(x,y) 和方向θg
(12)
(13)
利用表情梯度直方圖確定特征點(diǎn)局部的穩(wěn)定方向。通過特征點(diǎn)位置、尺度和方向確定SIFT的特征區(qū)域。特征描述可通過校正旋轉(zhuǎn)方向,生成描述子和特征向量歸一化實(shí)現(xiàn)。
1.2.1 主成分分析降維
主成分分析(PCA)是一種廣泛使用的方法,其目的是保證在信息盡可能不丟失情況下,對特征降維,所以它的輸出維數(shù)線性近似小于輸入維數(shù)。PCA中輸入數(shù)據(jù)向投影面進(jìn)行投影,使得每個主成分的方差最大,核心步驟是特征去中心化和求解協(xié)方差矩陣。對于第i張人臉表情圖片的像素信息xi,N張人臉表情圖像樣本的均值為
(14)
(15)
協(xié)方差矩陣的一個特征向量對應(yīng)一個投影面,特征向量對應(yīng)的特征值是原始特征投影后的方差值。PCA降維最終所需結(jié)果是最大特征值對應(yīng)的特征向量。
雖然PCA在計算上要求不高,但它不能模擬高維數(shù)據(jù)中的非線性變量。KPCA可以模擬非線性變量[11],該方法使用不同的內(nèi)核將輸入投影到非線性特征空間。KPCA最常用的內(nèi)核是高斯核、多項式核和雙曲正切核。然而,隨著數(shù)據(jù)點(diǎn)數(shù)的增加,KPCA內(nèi)核矩陣呈現(xiàn)二次增長,矩陣的特征值分解在計算上將變得困難。
1.2.2 線性判別分析降維
另一種有監(jiān)督線性降維算法是LDA,其可等價為計算系數(shù)w的線性優(yōu)化問題,目標(biāo)是使投影后的類間方差與類內(nèi)方差比最大,即類間方差最大,類內(nèi)方差最小。目標(biāo)函數(shù)為
(16)
式中:SB是人臉表情類間方差,SW是人臉表情類內(nèi)方差,上標(biāo)T代表轉(zhuǎn)置。
數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xm,ym)}, 其中xi為n維向量,yi∈{C1,C2,…,Ck} 是類Ci集合里的一類。人臉表情類間方差和人臉表情類內(nèi)方差為
(17)
(18)
式中:Nj是人臉表情第j類樣本的個數(shù)。μj為人臉表情第j類樣本的均值,Xj為人臉表情第j類樣本的集合,x為n維樣本數(shù)據(jù)。
LDA也是一種運(yùn)用很廣的降維方法,但它也有其局限性。出于分類的目的,當(dāng)數(shù)據(jù)分布是非高斯分布時,LDA將不能保留數(shù)據(jù)的復(fù)雜結(jié)構(gòu)。
玻爾茲曼機(jī)(restricted Boltzmann machines,RBM)可見層和隱藏層的層間和層內(nèi)均有連接,不利于計算??梢妼雍碗[藏層只存在層間無向加權(quán)全連接的玻爾茲曼機(jī)稱為RBM,其結(jié)構(gòu)如圖1所示。圖1中,觀察值用可見層單元表示稱為顯元,用于接受輸入。隱藏層單元稱為隱元,用于提取特征,故又稱為特征檢測器。
圖1 受限玻爾茲曼機(jī)結(jié)構(gòu)
傳統(tǒng)DBN是由多層RBM組成的網(wǎng)絡(luò),其訓(xùn)練過程包括一個預(yù)處理階段和微調(diào)階段。每個RBM都是以無監(jiān)督方式預(yù)訓(xùn)練,一層的輸出是下一層的輸入。
RBM兩層聯(lián)合分布相關(guān)的能量函數(shù)為
(19)
式中:bi是可見層閾值,aj是隱藏層閾值,V和H分別是可見層和隱藏層的單元數(shù)量,wij是可見單元i和隱藏單元j之間的權(quán)重,vi和hj是單元的二進(jìn)制狀態(tài),v和h是包含它們的列向量??梢妼訂卧猦和隱藏層單元v的聯(lián)合概率為
(20)
式中:Z是歸一化因子,具體為
(21)
可見層單元v的邊緣分布為
(22)
隱藏層單元h的邊緣分布為
(23)
可見層單元v狀態(tài)給定時,隱元狀態(tài)為1的后驗概率為
(24)
隱藏層單元h狀態(tài)給定時,顯元狀態(tài)為1的后驗概率為
(25)
兩種后驗概率都滿足sigmoid激活函數(shù)σ。采用對比散度的學(xué)習(xí)算法訓(xùn)練網(wǎng)絡(luò)。對比散度的學(xué)習(xí)規(guī)則為
W′=W+ε[p(h=1|v)vT-p(h′=1|v′)v′T]
(26)
b′=b+ε(v-v′)
(27)
a′=a+ε[p(h=1|v)-p(h′=1|v′)]
(28)
式中:ε是學(xué)習(xí)效率。可見層v重構(gòu)后用v′表示,隱藏層h重構(gòu)后用h′表示。b和a是閾值的矢量形式,W是所有權(quán)值wij的矩陣表達(dá)式。b′和a′是經(jīng)過學(xué)習(xí)調(diào)整后的閾值矢量形式,W′是權(quán)值經(jīng)過學(xué)習(xí)調(diào)整后的矩陣形式。
DBN可由L層RBM(參數(shù)為W(l)、a(l)和b(l)(1≤l≤L)) 堆疊構(gòu)成。這種網(wǎng)絡(luò)可逐層訓(xùn)練,因為每一層節(jié)點(diǎn)在給定前或后一層參數(shù)的情況下彼此條件獨(dú)立。
為貫徹落實(shí)習(xí)近平總書記對廣東提出“四個走在全國前列”要求,加快建立現(xiàn)代財政制度,建立全面規(guī)范透明、標(biāo)準(zhǔn)科學(xué)、約束有力的預(yù)算制度,全面實(shí)施績效管理,打造“大財政、大預(yù)算”格局,提升財政資源配置效率,提升經(jīng)濟(jì)社會高質(zhì)量發(fā)展保障能力,2018年5月,廣東省印發(fā)實(shí)施了《關(guān)于深化省級預(yù)算編制執(zhí)行監(jiān)督管理改革的意見》,提出十二條改革措施,推動預(yù)算編制執(zhí)行監(jiān)督管理改革“兩轉(zhuǎn)變、兩精簡、兩提高”,即通過轉(zhuǎn)變財政財政管理重心,轉(zhuǎn)變部門權(quán)責(zé)配置;精簡財政資金項目審批事項,精簡預(yù)算執(zhí)行流程;提高部門、市縣推動改革發(fā)展的積極性,提高資金使用效益,為廣東實(shí)現(xiàn)“四個走在全國前列”目標(biāo)提供堅實(shí)的財政保障。
傳統(tǒng)典型DBN是一個無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),無需標(biāo)記樣本,但效率較低。而BP算法是有監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),效率較高但需要標(biāo)記樣本。結(jié)合BP算法和DBN優(yōu)勢,即用標(biāo)記樣本數(shù)據(jù)和BP算法對DBN進(jìn)行微調(diào),可以實(shí)現(xiàn)對DBN的改進(jìn)。但是BP算法在鄰近迭代中搜索正交方向,容易在極值點(diǎn)陷入局部極小,且收斂時間過長。采用共軛梯度算法(CG)對這個過程進(jìn)行加速,實(shí)現(xiàn)對DBN的改進(jìn)。
CG核心是將共軛和最速下降法結(jié)合,用已知點(diǎn)的梯度構(gòu)造共軛方向,然后進(jìn)行搜索,找到目標(biāo)函數(shù)的最小點(diǎn)。CG的訓(xùn)練過程可簡化為均方誤差(mean square error,MSE)函數(shù)最小值的求解過程。均方誤差MSE定義為
MSE=E[(μd-μ)T(μd-μ)]
(29)
式中:E表示期望,μd是DBN的理想輸出,即訓(xùn)練人臉表情樣本的真實(shí)類別。μ是DBN的實(shí)際輸出,即預(yù)測的表情樣本類別。此處,CG目標(biāo)是找到DBN最優(yōu)的權(quán)值和閾值。
在預(yù)處理階段,即被CG調(diào)整前,計算輸出誤差。在DBN和CG結(jié)合階段,DBN的權(quán)值矩陣調(diào)整方式為
γk+1=γk+αkβk
(30)
式中:β是搜索方向,α是搜索步長,下標(biāo)k和k+1分別代表迭代的前后。步長采用線性搜索技術(shù)搜索,即在γk和βk已知的情況下,沿搜索方向求解MSE(γk+αkβk) 為最小值時對應(yīng)的αk。 搜索方向初值設(shè)為β0, 具體計算為
(31)
式中: -g0是最速下降方向初值。每次的迭代方向指向上次迭代方向和上次最速下降方向,有
dk+1=-gk+δkdk
(32)
前后兩次的迭代搜索方向必須滿足共軛條件,即βk和βk+1滿足共軛條件。δk是CG的更新參數(shù)。δk影響著CG的具體種類,本文采用Fletcher-Reeves算法有
(33)
改進(jìn)的5層DBN結(jié)構(gòu)如圖2所示。本文將人臉表情分為7類,因此分類器需要4個比特位,則輸出層的節(jié)點(diǎn)數(shù)是4。提取的特征有4種,因此輸入層有兩個節(jié)點(diǎn)。中間其余層分別有3、3和4個節(jié)點(diǎn),激活函數(shù)均為sigmoid函數(shù)。輸出節(jié)點(diǎn)使用softmax函數(shù)激活進(jìn)行標(biāo)準(zhǔn)化。該網(wǎng)絡(luò)首先使用對比散度算法以無監(jiān)督的方式進(jìn)行訓(xùn)練;然后,輸出層利用softmax函數(shù)激活來使用帶有標(biāo)記數(shù)據(jù)的BP算法和CG。
圖2 改進(jìn)的深度信念網(wǎng)絡(luò)的結(jié)構(gòu)
擴(kuò)展Cohn-Kanade數(shù)據(jù)庫(CK+)[19]和Radboud人臉數(shù)據(jù)庫(radboud face datebase,RaFD)[20]都經(jīng)常被用來測試面部表情識別方法,本文將這兩種數(shù)據(jù)庫作為訓(xùn)練樣本。CK+是基于實(shí)驗室環(huán)境獲取的,而RaFD數(shù)據(jù)庫包含不同姿勢和注視方向的人臉表情。
實(shí)驗所用CK+數(shù)據(jù)庫由137名志愿者人臉表情視頻幀構(gòu)成,有中性、憤怒、厭惡、恐懼、開心、悲傷和驚喜7類人臉表情。本文在實(shí)驗中,CK+數(shù)據(jù)庫每一類表情選取200幅圖像,共使用了1400幅表情圖像,圖像分辨率為720×576像素。本文實(shí)驗所用RaFD數(shù)據(jù)庫由67名志愿者8種不同表情的圖像組成。本文將不考慮RaFD中蔑視表情情況,剩余7種人臉表情和CK+數(shù)據(jù)庫類型一致,各表情分別取200幅圖像,共使用了1400幅表情圖像。同時剩余7種表情僅考慮了120°、90°和60°這3個拍攝角度的樣本,各表情正面人臉圖像選取80幅分辨率為125×160像素,其它姿態(tài)分別選取60幅圖像分辨率為284×284像素。兩個數(shù)據(jù)集上,各表情選取150幅圖像作為訓(xùn)練樣本集,剩余圖像作為測試樣本集。RaFD數(shù)據(jù)庫中正面人臉圖像選取70幅圖像,其它姿態(tài)選取40幅作為訓(xùn)練樣本集。兩個數(shù)據(jù)集上的面部表情圖像示例如圖3所示。
圖3 兩個數(shù)據(jù)集上的面部表情圖像示例
識別準(zhǔn)確率和識別速度是人臉表情識別的重要評價指標(biāo)。識別準(zhǔn)確率是所測試樣本集中正確識別表情樣本數(shù)和所測試集樣本總數(shù)的比值,可以表示為
(34)
式中:A是識別準(zhǔn)確率,g是指示函數(shù),xb是測試的樣本,f(xb) 是網(wǎng)絡(luò)的輸出值,yb是樣本的標(biāo)準(zhǔn)類別,p表示測試樣本集內(nèi)總的樣本數(shù),==是邏輯判斷是否相等。
表情識別速度是單個測試樣本所花費(fèi)的平均時間??梢员硎緸?/p>
(35)
式中:T表示測試樣本集花費(fèi)的總時間。
表1是各種降維算法下改進(jìn)DBN網(wǎng)絡(luò)人臉表情的識別率對比結(jié)果。使用降維方法將嘴部Gabor小波特征、眼部Gabor小波特征、嘴部SIFT特征和眼部SIFT特征投影到低維空間。表1中二維和五維是執(zhí)行降維后的維數(shù)。
表1 不同降維方法下改進(jìn)DBN對CK+數(shù)據(jù)庫的識別率
當(dāng)本文方法與降維方法PCA、KPCA、LLE、Isomap和t-SNE聯(lián)合對人臉表情識別時,二維和五維識別率是相似的。PCA和KPCA均采用高斯核函數(shù),PCA貢獻(xiàn)率取98%。采用LDA降維方法和改進(jìn)DBN時,與五維相比,二維識別率顯著提高,且降維后的嘴部SIFT特征識別率為99.31%,性能表現(xiàn)出良好,嘴部Gabor小波變換識別率也達(dá)89.68%。
此外,基于PCA降維比KPCA降維識別率高,PCA集中了原始特征的大部分信息。LLE、Isomap和t-SNE的嘴部SIFT特征相比于其它特征具有較高準(zhǔn)確率,眼部SIFT與眼部Gabor小波準(zhǔn)確率相近。綜合SIFT和Gabor小波變換的準(zhǔn)確率,SIFT優(yōu)于Gabor小波變換。降維后的嘴部特征比眼部特征更有效地分類人臉表情。
圖4是CK+數(shù)據(jù)庫人臉表情眼部SIFT、嘴部SIFT、眼部Gabor小波和嘴部Gabor小波特征的混淆矩陣測試。圖4中主對角線元素數(shù)值代表了人臉表情識別的準(zhǔn)確率,非主對線元素數(shù)值代表了不同人臉表情的混淆率,同一表情的準(zhǔn)確率與混淆率之和等于1。圖4中使用的是LDA降維后的人臉表情特征,改進(jìn)DBN使用的是65%標(biāo)記人臉表情樣本數(shù)據(jù)和35%未標(biāo)記人臉表情樣本數(shù)據(jù)。
圖4 改進(jìn)的DBN對CK+數(shù)據(jù)庫識別的混淆矩陣
從圖4(a)中可知,眼部SIFT特征的情況下,悲傷、厭惡和中性的表情是無法被準(zhǔn)確分類的。從圖4(b)可知,在嘴部SIFT特征的情況下,改進(jìn)DBN具有較高的準(zhǔn)確度,只在恐懼時出現(xiàn)2%的混淆。從圖4(c)可知,眼部Gabor小波變換特征僅在驚喜和厭惡的人臉表情出現(xiàn)混淆,而圖4(d)中的嘴部Gabor小波變換特征在所有情況下都有良好的準(zhǔn)確度。
對比圖4(c)和圖4(d)可知,嘴部Gabor小波變換特征的整體識別率高于眼部SIFT特征和Gabor小波變換特征。在4個特征中,嘴部SIFT特征具有最低混淆特征,具體為98%的恐懼、99%的開心和100%的其余人臉表情識別率。綜上,降維后的嘴部特征更適合人臉表情識別的應(yīng)用。
圖5是改進(jìn)DBN在降維前后人臉表情識別性能比較,圖中前排圓柱代表的是降維前識別率,后排長方體代表的是降維后識別率。通過圖5可知降維后,對于眼部SIFT特征,測試準(zhǔn)確率從36.84%提高至67.32%;對于嘴部SIFT特征,測試準(zhǔn)確率從71.47%提高至99.87%;對于眼部Gabor小波特征測試準(zhǔn)確率從48.93%提高至84.65%;對于嘴部Gabor小波特征從67.35%提高至92.31%。
圖5 降維前后改進(jìn)DBN的人臉表情識別率
降維后的人臉表情識別率比降維前顯著提高,嘴部SIFT特征處,改進(jìn)DBN的識別效果最好。線性判別分析將嘴部SIFT特征的維數(shù)從6048維降低到2維。與高維數(shù)據(jù)相比,低維數(shù)據(jù)能夠更有助于人臉表情的識別。
圖6比較了改進(jìn)DBN和支持向量機(jī)(support vector machine,SVM)[21]的人臉表情測試誤差,為了更直觀比較不同方法的性能,圖中采用了人臉表情嘴部SIFT特征。SVM采用徑向基函數(shù),最佳懲罰系數(shù)為135。圖6中SVM方法和本文方法曲線分別在測試誤差0.8和0附近震蕩。SVM曲線遠(yuǎn)遠(yuǎn)高于本文方法,則SVM的測試誤差遠(yuǎn)大于本文方法,故本文方法表情識別率更高。從圖6中可知,采用65%標(biāo)記數(shù)據(jù)和35%未標(biāo)記數(shù)據(jù)時,本文方法每個特征向量表現(xiàn)出最低的測試誤差。
圖6 不同標(biāo)記數(shù)據(jù)百分比下改進(jìn)的DBN和SVM對于嘴部SIFT特征的人臉表情測試誤差
此外,即使使用了全部的標(biāo)記數(shù)據(jù),SVM人臉表情識別誤差也非常大。因此,與傳統(tǒng)SVM相比,本文方法能夠以較小代價獲得較好的性能。表2是不同方法識別人臉表情精度對比情況,表中除了本文方法外,SVM、CNN[14]、基于WGAN的方法[16]和基于GSP的方法[17]均作為對比方法。CNN中卷積核的大小為5×5,卷積核數(shù)量為32,采用最大值池化算法Maxpool,SoftmaxLoss損失函數(shù)。
表2 不同方法識別人臉表情精度對比
本文方法能夠獲得與CNN相當(dāng)?shù)木?,且只需?5%標(biāo)記數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò),而卷積類方法是監(jiān)督類方法,訓(xùn)練樣本需要全部標(biāo)記。此外,卷積類方法訓(xùn)練時間更長和內(nèi)存消耗更大。本文方法訓(xùn)練和測試時間是160.4 s,而卷積類方法需要大約17 832 s。與SVM、基于WGAN的方法和基于GSP的方法相比,本文方法對人臉識別的精度更高。綜合對比可知,本文方法對人臉表情識別具有精度高、時間成本低和內(nèi)存消耗小的優(yōu)點(diǎn)。
表3是輸入特征向量不同維度的運(yùn)行時間,表中訓(xùn)練運(yùn)行時間為單次周期,考慮了人臉眼部和嘴部不同的特征集,同時也考慮了不同維度下的訓(xùn)練和測試運(yùn)行時間。如眼部SIFT特征每個樣本數(shù)據(jù)的維數(shù)從8642維降到5維再降到2維來訓(xùn)練所提改進(jìn)DBN。由表3可知,降維后的訓(xùn)練時間和測試更短。如眼部SIFT特征在維度為8642維時訓(xùn)練時間和測試時間分別為1.632 s和0.265 s,在5維時訓(xùn)練時間和測試時間分別為0.0463 s和0.0219 s。
表3 輸入不同維度特征向量運(yùn)行時間
表3中數(shù)據(jù)所用降維技術(shù)是LDA,因為LDA在準(zhǔn)確性方面表現(xiàn)良好,所以它能夠捕捉到人臉表情識別所需的重要特征。降維技術(shù)節(jié)省了計算時間和內(nèi)存使用,運(yùn)行時間的顯著減少也表明了其降維相關(guān)性。
針對人臉表情識別過程中,BP算法對DBN微調(diào)時容易陷入極值點(diǎn)局部極小和收斂時間過長的問題,提出一種改進(jìn)DBN方法,使用共軛梯度算法對原DBN中BP神經(jīng)網(wǎng)絡(luò)處理標(biāo)記人臉表情圖像的過程進(jìn)行加速,從而解決極值點(diǎn)局部極小和收斂時間過長的問題。本文首先利用不同的特征提取方法對眼部和嘴部特征進(jìn)行提取,然后用不同方法降維。最后本文對改進(jìn)DBN進(jìn)行了實(shí)驗驗證。驗證結(jié)果如下:
(1)與高維數(shù)據(jù)相比,降維后的人臉表情特征被識別率更高,訓(xùn)練測試時間更短。LDA的降維效果比KPCA、LLE、Isomap和t-SNE的降維效果更好;
(2)嘴部特征比眼部特征更適合人臉表情識別的應(yīng)用,其中嘴部SIFT特征效果最好;
(3)與SVM、基于WGAN的方法和基于GSP的方法相比,本文方法準(zhǔn)確率更高。與卷積類方法相比,本文方法訓(xùn)練時間更短和內(nèi)存消耗更小。
雖然本文方法識別人臉表情準(zhǔn)確率或效率相對于其它方法已有較大的提升,但并沒有真正實(shí)現(xiàn)和人類一樣的人臉表情識別能力,后期針對這一問題還需要進(jìn)一步研究。