程學(xué)軍,邢蕭飛
(1.河南工業(yè)大學(xué)漯河工學(xué)院 信息工程學(xué)院,河南 漯河 462000;2.廣州大學(xué) 計(jì)算機(jī)科學(xué)與網(wǎng)絡(luò)工程學(xué)院,廣東 廣州 528225)
人臉表情是最直接、最明顯的情感表達(dá)方式,對(duì)其有效的識(shí)別具有重要的理論意義和實(shí)用價(jià)值[1,2]。而實(shí)際中,光照變化致使人臉表情識(shí)別面臨著各種挑戰(zhàn),研究有效適用性強(qiáng)的人臉表情識(shí)別方法顯得更為迫切[3]。
對(duì)于計(jì)算機(jī)來說,人臉表情識(shí)別技術(shù)的本質(zhì)是對(duì)采集圖像中海量數(shù)據(jù)進(jìn)行優(yōu)化處理。因其采集圖像存在多樣性和復(fù)雜性,計(jì)算機(jī)處理系統(tǒng)會(huì)面臨樣本數(shù)據(jù)非線性不確定性的問題[4]。而傳統(tǒng)處理方法如主成分分析、尺度不變特征轉(zhuǎn)換等方法,也存在模型簡(jiǎn)單、參數(shù)設(shè)置復(fù)雜等問題。
深度神經(jīng)網(wǎng)絡(luò)則可實(shí)現(xiàn)對(duì)圖像數(shù)據(jù)的深度提取,并基于自身網(wǎng)絡(luò)的不斷學(xué)習(xí),對(duì)于網(wǎng)絡(luò)模型參數(shù)也可進(jìn)行及時(shí)調(diào)整,以滿足識(shí)別場(chǎng)景多樣性和表情識(shí)別準(zhǔn)確性的需求[5,6]。
借鑒于現(xiàn)行深度學(xué)習(xí)技術(shù),提出了一種利用高斯特征提取結(jié)合改進(jìn)型VGG-16網(wǎng)絡(luò)模型的人臉表情識(shí)別方法。主要?jiǎng)?chuàng)新點(diǎn)總結(jié)如下:
(1)為更好支撐VGG-16神經(jīng)網(wǎng)絡(luò)對(duì)被測(cè)圖像的表情識(shí)別,基于改進(jìn)的高斯混合模型對(duì)圖像數(shù)據(jù)及采集數(shù)據(jù)進(jìn)行圖像重建并實(shí)現(xiàn)特征的提??;
(2)針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別忽略表情關(guān)聯(lián)性問題,基于VGG-16神經(jīng)網(wǎng)絡(luò)模型對(duì)圖像特征采集進(jìn)行相關(guān)情感標(biāo)簽分布學(xué)習(xí)和正則化學(xué)習(xí),實(shí)現(xiàn)判別性區(qū)分,從而提高識(shí)別準(zhǔn)確度;
(3)面向在線表情實(shí)時(shí)識(shí)別的需求,采用小批量梯度下降法簡(jiǎn)化網(wǎng)絡(luò)訓(xùn)練模型目標(biāo)函數(shù),減小運(yùn)行內(nèi)存,提高模型對(duì)于表情識(shí)別的時(shí)效性。
人臉表情識(shí)別研究涉及特征提取、圖像理解、數(shù)據(jù)分析和表情分類等內(nèi)容,其研究成果對(duì)于計(jì)算機(jī)視覺、認(rèn)知科學(xué)、心理學(xué)等領(lǐng)域有著重要意義。目前已有一定研究人員對(duì)人臉表情識(shí)別展開研究,其目的是對(duì)面部圖像6種基本情緒表情準(zhǔn)確分類識(shí)別,包括[7,8]:憤怒(An)、厭惡(Di)、恐懼(Fe)、快樂(Ha)、悲傷(Sa)和驚訝(Su)。
傳統(tǒng)的人臉表情識(shí)別方法主要為表觀特征法和模型法兩種方法。主成分分析法作為表觀特征法的代表方式之一,基于近似理論通過尋找最小均方值[9,10],獲取原始數(shù)據(jù)的最大可能投影方向,但其運(yùn)算量較大,且不計(jì)及圖像細(xì)節(jié)機(jī)構(gòu)信息;Gabor濾波算法可有效提供測(cè)圖像數(shù)據(jù)細(xì)節(jié)信息[11],實(shí)現(xiàn)多數(shù)據(jù)多維度識(shí)別分析,但存在決策數(shù)據(jù)維數(shù)過高的問題,不滿足實(shí)時(shí)表情識(shí)別的需求;點(diǎn)分布模型(point distribution model,PDM)是一種模型化的圖像識(shí)別方法,其可計(jì)及圖像表情的形狀特征和紋理特征進(jìn)行綜合考慮統(tǒng)一建模,實(shí)現(xiàn)圖像特征準(zhǔn)確提取,但同樣面臨計(jì)算復(fù)雜的問題,并且存在場(chǎng)景自適應(yīng)能力差的缺陷[12]。
機(jī)器學(xué)習(xí)可通過網(wǎng)絡(luò)模型中多層網(wǎng)絡(luò)結(jié)構(gòu)的迭代分析決策,基于海量數(shù)據(jù)進(jìn)行自主分析決策,以強(qiáng)大的學(xué)習(xí)能力實(shí)現(xiàn)人臉表情識(shí)別的實(shí)時(shí)性和準(zhǔn)確性。針對(duì)面部表情識(shí)別問題,文獻(xiàn)[13]提出了一種基于概率融合的卷積神經(jīng)網(wǎng)絡(luò)模型,采用卷積整流線性層作為第一層并實(shí)時(shí)調(diào)整模型訓(xùn)練參數(shù)和架構(gòu)來適應(yīng)CNN的體系結(jié)構(gòu),具有較好的識(shí)別準(zhǔn)確性;文獻(xiàn)[14]采用多任務(wù)深度卷積網(wǎng)絡(luò)(multiple task deep convolution neural network,MTCNN)檢測(cè)人臉的界標(biāo)點(diǎn),并通過冗余去除和降維改進(jìn)實(shí)現(xiàn)圖像微表情中光流特征的高效提取,基于對(duì)課堂教學(xué)中的實(shí)際應(yīng)用驗(yàn)證方法合理性;文獻(xiàn)[15]提出一種基于深度信念網(wǎng)絡(luò)(deep belief network,DBN)使用簡(jiǎn)化特征的半監(jiān)督情感識(shí)別算法,首先將特征提取應(yīng)用于面部圖像,然后進(jìn)行特征約簡(jiǎn),降低錯(cuò)誤和無效的特征數(shù)據(jù)信息。
但以上方法均沒有對(duì)各種表情之間的關(guān)系進(jìn)行闡釋分析,表情是由多個(gè)面部動(dòng)作模塊組合而成,其面部動(dòng)作模塊的變化并不是完全相同;其次,同一面部動(dòng)作模塊的運(yùn)動(dòng)存在于不同的表情中。根據(jù)普魯奇克的情緒之輪理論,大多數(shù)情緒都是以基本情緒的組合、混合或復(fù)合形式出現(xiàn)的。同時(shí),人類的面部表情往往是不同情緒的融合或復(fù)合,而不是單一的基本感覺。從這個(gè)意義上說,面部表情是模糊的或相關(guān)的,即可以使用多個(gè)表情數(shù)來描述人臉的外觀。因此,以上方法存在復(fù)雜場(chǎng)景下可能無法描述不同情緒中的相關(guān)性或模糊性,導(dǎo)致圖像表情識(shí)別低下的問題。VGG網(wǎng)絡(luò)結(jié)構(gòu)非常簡(jiǎn)潔,可通過不斷加深網(wǎng)絡(luò)結(jié)構(gòu)可以提升性能,以實(shí)現(xiàn)多場(chǎng)景多噪聲環(huán)境下圖像表情準(zhǔn)確區(qū)分與識(shí)別[16]。文獻(xiàn)[17]提出了一種改進(jìn)的VGG網(wǎng)絡(luò)的表情識(shí)別模型,該模型優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù),并通過遷移學(xué)習(xí)技術(shù)來克服圖像訓(xùn)練樣本的不足。文獻(xiàn)[18]基于VGG網(wǎng)絡(luò)模型對(duì)面部表情和人聲變化進(jìn)行識(shí)別,評(píng)估3種不同數(shù)據(jù)模式輸入中的躁動(dòng)級(jí)別分類的有效性:?jiǎn)为?dú)的語音觀察、單獨(dú)的視覺面部觀察以及組合的語音和面部觀察,顯著提升表情和人聲的識(shí)別率。
基于VGG深度神經(jīng)網(wǎng)絡(luò)的易擴(kuò)展、自適應(yīng)能力強(qiáng)等優(yōu)點(diǎn),結(jié)合高斯特征提取方法,提出了一種近紅外人臉表情識(shí)別方法,該方法能更好地提取圖像特征,并通過面部表情的基本情緒賦值,實(shí)現(xiàn)表情的準(zhǔn)確識(shí)別。
為了更好地支撐VGG-16神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征的訓(xùn)練和學(xué)習(xí),以滿足更加精確的人臉表情識(shí)別,通過極大化數(shù)據(jù)模型對(duì)高斯混合模型進(jìn)行改進(jìn),實(shí)現(xiàn)對(duì)圖像采集數(shù)據(jù)的圖像重建和特征提取。
由于采集的紅外人臉圖像存在圖像像素分布不均勻問題,需要對(duì)其進(jìn)行圖像重建的操作。首先通過極大化數(shù)據(jù)模型的相似度對(duì)圖像模型數(shù)據(jù)參數(shù)進(jìn)行針對(duì)性提取,并基于極大似然擬合算法計(jì)算該模型的熵值和高斯度數(shù)值,繼而可將模型轉(zhuǎn)化為高斯混合模型,以此將采集模型轉(zhuǎn)化為熱紅外人臉高斯混合模型[19]。
圖像重建操作具體操作如下:
(1)模型期望概率數(shù)值計(jì)算:對(duì)采集圖像的各像素隸屬k區(qū)域概率。C為模型概率矩陣,cik為圖像中像素xi可歸于區(qū)域k的期望數(shù)值,具體計(jì)算公式為
(1)
式中:pk為當(dāng)前估計(jì)值計(jì)算概率矩陣C中元素cik的期望概率。
(2)模型鄰域概率計(jì)算:對(duì)每個(gè)像素相鄰8個(gè)鄰域隸屬概率值進(jìn)行加權(quán)值計(jì)算。需要注意的是,在該步驟計(jì)算時(shí)需要對(duì)概率矩陣C和權(quán)重系數(shù)P′i進(jìn)行迭代更新:
首先,對(duì)采集圖像的像素xi的鄰域隸屬概率的加權(quán)平均系數(shù)Pik進(jìn)行計(jì)算;將加權(quán)平均值矩陣P設(shè)為n×K的矩陣,矩陣中元素Pik可通過下式進(jìn)行計(jì)算表示
(2)
式中:∑8(xi)為像素xi鄰域的8個(gè)附鄰區(qū)域;υij為像素xi的鄰域像素xj對(duì)其的影響量化因子;cjk為鄰域像素xj可隸屬區(qū)域的概率。
其次,對(duì)模型概率矩陣C進(jìn)行更新迭代計(jì)算,判斷xi像素是否為自由像素,若xi是,將概率cik的類歸屬于元素Pik的相同類;若xi否,則將加權(quán)平均參數(shù)Pik替換為更新后的概率矩陣。
再次,依據(jù)更新后的模型期望矩陣計(jì)算相應(yīng)像素的權(quán)重值,計(jì)算公式為
(3)
(3)混合模型參數(shù)獲取:基于極大化數(shù)據(jù)模型的似然度計(jì)算獲取混合模型的相應(yīng)參數(shù)。計(jì)算公式為
(4)
(5)
(6)
L[X|φ(pk,μk,σk)]=f[X|φ(pk,μk,σk)]=
(7)
(8)
(4)模型轉(zhuǎn)換:采用極大似然擬合將圖像模型轉(zhuǎn)換成高斯混合模型,主要可以分為3個(gè)步驟:
1)首先對(duì)模型對(duì)應(yīng)像素Rk的理論最大熵值進(jìn)行計(jì)算
(9)
2)計(jì)算模型像素Rk的真實(shí)熵值
(10)
其中,采集圖像中像素Rk鄰域所對(duì)應(yīng)的總頻率記為frj。
3)實(shí)現(xiàn)模型似然度最大化,并計(jì)算模型的高斯度G
(11)
若模型中高斯度G→0,證實(shí)采集圖像數(shù)據(jù)模型已完整轉(zhuǎn)換為高斯混合模型,完成相應(yīng)的熱紅外高斯混合人臉圖像重建。
在上文對(duì)于采集圖像高斯混合模型化的基礎(chǔ)上,選擇圖像中區(qū)域特征點(diǎn)標(biāo)注為圓心Os,s=1,2,…,nk。為保證不出現(xiàn)重疊圓的現(xiàn)象,對(duì)相應(yīng)區(qū)域的像素計(jì)算距離圖像邊緣的歐幾里得距離d并獲取相應(yīng)的圖像半徑rjk
Bk(Os,rjk)={xi∈Rp|i=1,2,…,n,d(Os,Oi) (12) 式中:Oi為圓心標(biāo)注位置,依據(jù)對(duì)象像素的位置確定;Bk(Os,rjk)為采集圖像中的第s個(gè)圓;d(Os,Oi)為Oi、Os兩圓間的歐幾里得距離。則重建人臉等溫特征集Yη為 Yη={Bl}l=1 to η (13) 式中:η為圓標(biāo)標(biāo)注參數(shù);Bl為采集圖像中第一個(gè)最大半徑的第l個(gè)圓,Bl∩Bm=?,Bm∈Yη,l≠m。 經(jīng)極大化數(shù)據(jù)模型和高斯混合模型處理后,采集圖像情感特征的提取結(jié)果如圖1所示。 圖1 各種情感提取結(jié)果 在高斯混合模型對(duì)圖像特征提取的基礎(chǔ)上,基于VGG-16神經(jīng)網(wǎng)絡(luò)模型對(duì)圖像特征采集進(jìn)行相關(guān)情感標(biāo)簽分布學(xué)習(xí)和正則化學(xué)習(xí),實(shí)現(xiàn)表情識(shí)別分類;進(jìn)一步采用小批量梯度下降法簡(jiǎn)化目標(biāo)函數(shù),減小運(yùn)行內(nèi)存,提高模型對(duì)于表情識(shí)別的時(shí)效性。 VGG神經(jīng)網(wǎng)絡(luò)提出于2014年,其中VGG16模型因訓(xùn)練學(xué)習(xí)過程簡(jiǎn)潔實(shí)用,廣泛用于圖像處理和目標(biāo)識(shí)別的研究工作中。VGG16神經(jīng)網(wǎng)絡(luò)采用3×3的卷積核,較傳統(tǒng)的較大的卷積核,可保證其在對(duì)于模型數(shù)據(jù)的訓(xùn)練學(xué)習(xí)過程中更為深入。 值得注意的是,對(duì)于VGG-16網(wǎng)絡(luò)模型的討論分析需要對(duì)于其各卷積層進(jìn)行明確,表1為各卷積層的細(xì)節(jié)描述[20]。表中,參數(shù)conv為卷積層,其數(shù)字后綴表示為感受野的尺寸和信道數(shù)量。若采樣層的初始化為0時(shí),對(duì)于下一采樣層需要基于一定規(guī)律實(shí)現(xiàn)梯度計(jì)算,表2為各層參數(shù)設(shè)置情況。 表1 各卷積層設(shè)置 表2 參數(shù)變量設(shè)置 VGG-16網(wǎng)絡(luò)模型輸入為特征提取后的圖像: 第A,A-LRN層卷積層結(jié)構(gòu)為128個(gè)3×3卷積核; 第B層卷積層結(jié)構(gòu)為256個(gè)3×3卷積核; 第C層卷積層結(jié)構(gòu)為394個(gè)3×3卷積核; 第D層卷積層結(jié)構(gòu)為512個(gè)3×3卷積核; 第E層卷積層結(jié)構(gòu)為512個(gè)3×3卷積核; Softmax層為輸出層,將分析進(jìn)行輸出。 (14) 圖2 典型表情及其相關(guān)系數(shù)和表情分布 經(jīng)分析可知,相關(guān)情緒標(biāo)簽分布的構(gòu)建本質(zhì)是一個(gè)映射關(guān)系運(yùn)算(U,V)→D,即給定一個(gè)訓(xùn)練集 E=(X1,q1),(X2,q2),…,(Xn,qn) (15) 其中,Qi={q1,q2,…,qn} 是對(duì)Xi的真實(shí)值的單一標(biāo)簽。則真實(shí)值的情緒分布為 (16) 式中:y和qi表示相同的表情;yj和Ulj表示描述Xi的相同的特定情緒。以憤怒為例 (17) 相關(guān)情緒標(biāo)簽分布學(xué)習(xí)(correlation emotion label distribution learning,CELDL)模型本質(zhì)為一個(gè)映射函數(shù)p(y|X):X→D,可測(cè)潛在相關(guān)面部表情的情緒分布[21]。本文假設(shè)p(y|X)是從S中學(xué)習(xí)的參數(shù)模型p(y|X;θ),其中θ是模型參數(shù)的向量。 (18) 在VGG-16網(wǎng)絡(luò)中,可基于正則化避免過擬合,提高模型的泛化能力,如L2正則化。作為誤差測(cè)量的L2損失公式如下 (19) 然后,最佳模型參數(shù)向量θ*由以下公式?jīng)Q定 (20) 式中:λ表示L2范數(shù)正則化系數(shù)。 此外,利用softmax函數(shù)計(jì)算樣本的概率 (21) 式中:θ表示神經(jīng)網(wǎng)絡(luò)的參數(shù);NN(X)是修改后VGG-16網(wǎng)絡(luò)的最后一個(gè)全連接層的輸出。 目標(biāo)函數(shù)為 (22) 圖3 CELDL模型框架 采用相關(guān)情緒標(biāo)簽分布結(jié)構(gòu)有兩個(gè)主要優(yōu)點(diǎn):首先,它緩解了不正確的真實(shí)值情感問題,只要真實(shí)值情感基本正確,即離真實(shí)情感不遠(yuǎn),那么對(duì)真實(shí)情感的描述仍然足夠高,足以傳達(dá)積極的標(biāo)簽信息;其次,當(dāng)學(xué)習(xí)特定表情的模型時(shí),其它表情中的面部圖像可能會(huì)有幫助,這意味著可以增強(qiáng)每個(gè)表情的訓(xùn)練樣本,而無需實(shí)際擴(kuò)展整個(gè)訓(xùn)練集。 采用小批量梯度下降法(mini-batch gradient descent, MBGD)有效地簡(jiǎn)化目標(biāo)函數(shù)L(θ)。關(guān)于θj的更新規(guī)則表示如下 (23) 式中:α表示MBGD 中的學(xué)習(xí)率。 用鏈?zhǔn)椒▌t從第1層到第L層的參數(shù)可以計(jì)算出CELDL相對(duì)于θ的偏導(dǎo)數(shù),θ的遞推偏導(dǎo)數(shù)方程為 (24) 其中 (25) 和 (26) 則得到δL(θ)/δ(θj)后,用式(23)更新θj。算法1為所提算法的學(xué)習(xí)過程。 算法1:近紅外面部表情識(shí)別的CELDL模型 輸入:訓(xùn)練集S={X,D} 集合:批量大小b,學(xué)習(xí)率為α (1)初始化θj (2)j←0 (3)重復(fù) (4)通過式(24)計(jì)算δL(θj)/δθj (5)使用式(23)小批量更新θj (6)j←j+1 直至收斂 輸出:網(wǎng)絡(luò)層參數(shù)θ* 在本次實(shí)驗(yàn)中采用的是Windows 10的操作系統(tǒng),CPU采用的型號(hào)是Intel i5-5400k 6.0 Hz,顯卡采用的型號(hào)為Radeon Graphics 8核;軟件支撐為Google旗下Tensorflow深度學(xué)習(xí)框架。對(duì)Oulu-CASIA近紅外數(shù)據(jù)集、UCHThermalFace數(shù)據(jù)集及自采集數(shù)據(jù)集分別實(shí)現(xiàn)表情識(shí)別。 Oulu-CASIA 數(shù)據(jù)集包含3種不同亮度情況和兩種成像系統(tǒng)的2880個(gè)圖像數(shù)據(jù)集,且該數(shù)據(jù)集能對(duì)憤怒、厭惡、恐懼、快樂、悲傷以及驚訝等6種情感表情進(jìn)行合理劃分。本文實(shí)驗(yàn)驗(yàn)證選擇可見光數(shù)據(jù)中480個(gè)圖像表情進(jìn)行所提識(shí)別方法可行性驗(yàn)證。 UCHThermalFace數(shù)據(jù)集則是在不同的水平角度和垂直角度采集的熱成像人臉圖像,其也包含室內(nèi)室外兩種情況。本文選擇對(duì)俯仰角在[-15°,15°]、偏轉(zhuǎn)角在[-30°,30°]的102個(gè)熱紅外圖像進(jìn)行識(shí)別實(shí)驗(yàn)驗(yàn)證,包含快樂、悲傷憤怒等表情。 為驗(yàn)證本文所提實(shí)驗(yàn)具有工程適用性,本文亦選擇對(duì)實(shí)際采集圖像進(jìn)行識(shí)別分析?;赩4L2視頻采集驅(qū)動(dòng)實(shí)現(xiàn)測(cè)試圖像采集,其大致流程如圖4所示。采用內(nèi)存映射方式,將設(shè)備采集的信息映射至應(yīng)用程序的內(nèi)存中,并基于mmap函數(shù)將數(shù)據(jù)緩沖區(qū)中的圖片信息進(jìn)行導(dǎo)出。本文為提高采集圖像導(dǎo)出速率,在對(duì)采集數(shù)據(jù)進(jìn)行處理時(shí),同時(shí)調(diào)用兩個(gè)ioctl命令,先將采集數(shù)據(jù)緩沖出隊(duì)列,即VIDIOC_DQBUF,接著再將其入隊(duì)VIDIOC_QBUF,可有效提升其處理速度。 圖4 自采集數(shù)據(jù)集收集流程 4.2.1 Oulu-CASIA 數(shù)據(jù)集識(shí)別分析 為了評(píng)估所提出模型的學(xué)習(xí)能力,本文對(duì)所提的VGG-16 模型的準(zhǔn)確率進(jìn)行分析,如圖5所示。為了驗(yàn)證學(xué)習(xí)能力優(yōu)越性,在暗光照下對(duì)Oulu_CASIA 進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果分析準(zhǔn)確率如圖5所示,VGG-16模型框架,隨著訓(xùn)練次數(shù)的增加,準(zhǔn)確率越來越高,在40次迭代后,所提方法的識(shí)別準(zhǔn)確率趨于穩(wěn)定。 圖5 所提模型識(shí)別準(zhǔn)確率 采用Grad-CAM來可視化重要區(qū)域,如圖6所示,同一個(gè)人的不同表情不僅展示了大多數(shù)不同的類別判別區(qū)域,而且還顯示了一小部分類別判別區(qū)域,圖6(a)為憤怒,圖6(b)為厭惡,圖6(c)為恐懼,圖6(g)為快樂,圖6(h)為悲傷,圖6(i)為驚訝,圖6(d)~圖6(f)和圖6(j)~圖6(l)表示來自訓(xùn)練網(wǎng)絡(luò)的殘差表情圖像。結(jié)果表明,該模型可以在不同的表情中發(fā)現(xiàn)更多的有區(qū)別性的信息。 圖6 同一人不同表情的類別區(qū)分區(qū)域比較 圖7分別示出了憤怒、悲傷和驚訝的類別區(qū)分區(qū)域,圖7(a)~圖7(d)為憤怒,圖7(e)~圖7(h)為悲傷,圖7(i)~圖7(l)為驚訝。不同的人對(duì)同一表情的類別區(qū)分區(qū)域大部分在相同的區(qū)域被激活,驗(yàn)證本文方法的可行性。 圖7 同一表情對(duì)不同人的類別區(qū)分區(qū)域的比較 進(jìn)一步基于3種近紅外光照條件下對(duì)所提出的模型進(jìn)行了識(shí)別實(shí)驗(yàn)驗(yàn)證,平均識(shí)別準(zhǔn)確率比較結(jié)果見表3。在黑暗條件下,本文所提方法較文獻(xiàn)[13]、文獻(xiàn)[14]、文獻(xiàn)[15]、文獻(xiàn)[16]和文獻(xiàn)[17]的識(shí)別方法分別提高13.45%、9.34%、7.46%、6.89%和5.03%;在弱光照條件下,用文獻(xiàn)[13]計(jì)算的平均識(shí)別準(zhǔn)確率僅為76.83%,本文方法的平均識(shí)別準(zhǔn)確率可達(dá)到91.54%;在強(qiáng)光照條件下,本文方法比文獻(xiàn)[13]、文獻(xiàn)[14]、文獻(xiàn)[15]、文獻(xiàn)[16]和文獻(xiàn)[17]方法分別提高了8.35%、8.11%、4.89%、3.92%和2.67%。綜上所述,證實(shí)所提方法在不同光照條件下的可行性于優(yōu)越性,且在光照條件下的識(shí)別性能優(yōu)于黑暗條件和弱光照下的識(shí)別性能。 表3 Oulu_SACIA的表情識(shí)別平均準(zhǔn)確率 同時(shí),表4為各方法對(duì)于Oulu_SACIA數(shù)據(jù)集處理時(shí)間對(duì)比。從圖表中可明顯看出,在處理時(shí)效性上,所提方法可有效實(shí)現(xiàn)對(duì)于表情的快速判別。 表4 各模型及方法識(shí)別時(shí)間 4.2.2 UCHThermalFace 數(shù)據(jù)集識(shí)別分析 本文選取UCHThermalFace數(shù)據(jù)集中6個(gè)數(shù)據(jù)子集進(jìn)行表情識(shí)別實(shí)驗(yàn),包含53個(gè)對(duì)象6個(gè)姿態(tài)圖像,共計(jì)318個(gè)數(shù)據(jù)圖像樣本。分別3種近紅外光照條件下基于UCHThermalFace數(shù)據(jù)集對(duì)所提出的模型進(jìn)行了穩(wěn)定性驗(yàn)證,平均識(shí)別準(zhǔn)確率比較結(jié)果見表5。 如表5所示,所提方法對(duì)于UCHThermalFace數(shù)據(jù)集識(shí)別分析同樣存在強(qiáng)光環(huán)境下識(shí)別結(jié)果要優(yōu)于黑暗和弱光環(huán)境。在強(qiáng)光環(huán)境下,對(duì)于表情平均辨別準(zhǔn)確率可達(dá)到93.51%,較文獻(xiàn)[13]、文獻(xiàn)[14]、文獻(xiàn)[15]、文獻(xiàn)[16]和文獻(xiàn)[17]方法分別提升12.23%、10.31%、8.12%、2.28%和2.75%;而黑暗環(huán)境中,因存在光線不足的原因,其識(shí)別準(zhǔn)確性較強(qiáng)光實(shí)驗(yàn)組有整體的下降,其準(zhǔn)確率分別為71.23%、79.21%、85.12%、87.32%、88.96%和90.31%;而弱光場(chǎng)景下,所提模型準(zhǔn)確率為92.34%,較文獻(xiàn)[13]提升13.56%的準(zhǔn)確性。 面向UCHThermalFace數(shù)據(jù)集各方法處理時(shí)間見表6,所提方法具有明顯時(shí)效性。 表6 各模型及方法識(shí)別時(shí)間 4.2.3 自采集數(shù)據(jù)集識(shí)別分析 為了進(jìn)一步驗(yàn)證所提方法的工程實(shí)用性,采用現(xiàn)場(chǎng)采集的方法對(duì)200人表情特征進(jìn)行黑暗環(huán)境、弱光環(huán)境和強(qiáng)光環(huán)境下的圖像采集與特征提取。如表7所示,所提方法因經(jīng)過分布式學(xué)習(xí)和正則化學(xué)習(xí)的綜合訓(xùn)練,對(duì)于黑暗環(huán)境、弱光環(huán)境和強(qiáng)光環(huán)境的識(shí)別準(zhǔn)確率可以分別達(dá)到89.23%、90.23%和91.33%。而對(duì)比模型因訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單以及缺乏綜合訓(xùn)練學(xué)習(xí),其判斷效率和精度在各種場(chǎng)景下較所提方法存在一定差距。 表7 自采集圖像數(shù)據(jù)集識(shí)別平均準(zhǔn)確率 如前文所述,所提算法為簡(jiǎn)化計(jì)算步驟,提高計(jì)算效率采用MBGD方法實(shí)現(xiàn)算法網(wǎng)絡(luò)模型的優(yōu)化,從而提高識(shí)別效率。對(duì)于自采集人臉表情識(shí)別時(shí)間見表8,所提方法可在278.12 s對(duì)被測(cè)數(shù)據(jù)集完全實(shí)現(xiàn)識(shí)別,較文獻(xiàn)[13]、文獻(xiàn)[14]、文獻(xiàn)[15]、文獻(xiàn)[16]和文獻(xiàn)[17]方法提高20.31 s、24.7 s、18.34 s、11.44 s和12.09 s。 表8 各模型及方法識(shí)別時(shí)間 為進(jìn)一步驗(yàn)證所提方法的適用性,采用混淆矩陣對(duì)識(shí)別結(jié)果進(jìn)行展示說明。如圖8(f)所示,所提方法對(duì)于憤怒表情、厭惡表情、悲傷表情、開心表情、沮喪表情和驚訝表情的識(shí)別準(zhǔn)確分別為82%、79%、83%、95%、82%和92%。同時(shí)因VGG-16網(wǎng)絡(luò)訓(xùn)練結(jié)構(gòu)的復(fù)雜性和兩種學(xué)習(xí)規(guī)則的綜合,可實(shí)現(xiàn)對(duì)于各種表情之間的明顯區(qū)分。以開心表情為例,所提模型對(duì)其識(shí)別正確率可高至95%,對(duì)于厭惡和悲傷表情的識(shí)別區(qū)別錯(cuò)誤率為4%和1%,并且對(duì)于其表情可實(shí)現(xiàn)完全區(qū)分;而對(duì)比模型并沒有充分考慮各表情之間的關(guān)聯(lián)關(guān)系,致使對(duì)于識(shí)別表情的區(qū)分性問題上存在缺陷,如文獻(xiàn)[13]中厭惡表情和憤怒表情識(shí)別錯(cuò)誤率為19%,已將厭惡表情誤識(shí)別為憤怒。 圖8 不同方法下混淆矩陣 本文所提的卷積網(wǎng)絡(luò)模型輸出目標(biāo)主要包括兩部分,即KL損失和L2損失。KL損失和L2損失參數(shù)對(duì)卷積網(wǎng)絡(luò)模型的表情識(shí)別準(zhǔn)確度十分重要,其中參數(shù)λ在這兩個(gè)部分之間交換,參數(shù)σ控制相鄰表情的關(guān)聯(lián)度,均對(duì)識(shí)別精度有很大影響。如參數(shù)σ,若σ數(shù)值太小,單標(biāo)簽真實(shí)值與其它相鄰表情之間的相關(guān)性變得很小,該方法類似于進(jìn)行單標(biāo)簽分類任務(wù);若σ太大,則其它相鄰表情之間的相關(guān)性差別很小。 為了分析不同超參數(shù)λ和σ在CELDL 模型中的敏感度,以實(shí)現(xiàn)模型參數(shù)最優(yōu)化,在VGG-16網(wǎng)絡(luò)模型框架下對(duì)CELDL表情識(shí)別任務(wù)進(jìn)行了實(shí)驗(yàn)驗(yàn)證。 在自采集數(shù)據(jù)集對(duì)模型參數(shù)優(yōu)適值進(jìn)行分析,如圖9所示。在第一個(gè)實(shí)驗(yàn)(a)中,根據(jù)多次實(shí)驗(yàn)的設(shè)置,λ被固定為0.001,并在[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]中改變?chǔ)襾韺W(xué)習(xí)不同的模型??梢杂^察到,CELDL模型的準(zhǔn)確率一般都是先提高,在0.7時(shí)達(dá)到最大值,然后下降。結(jié)果表明,當(dāng)σ設(shè)為0.7時(shí),網(wǎng)絡(luò)模型對(duì)參數(shù)選擇沒有影響,表情之間的相關(guān)性可以很好地表示出來。 圖9 模型參數(shù)靈敏度分析 實(shí)驗(yàn)(b)將σ數(shù)值固定為0.7,在集合[0,0.0001,0.0005,0.001,0.005,0.01,0.05,0.1]中改變?chǔ)诉M(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果表明,識(shí)別性能對(duì)參數(shù)λ的取值非常敏感,λ=0.001是依據(jù)KL損失和L2損失作為綜合結(jié)果判定的情況,保障了深度學(xué)習(xí)特征的優(yōu)秀識(shí)別性能。 面向多場(chǎng)景下多表情識(shí)別的準(zhǔn)確性和快速性需求,本文提出一種基于高斯特征提取和VGG-16神經(jīng)網(wǎng)絡(luò)的紅外人臉表情識(shí)別方法,其主要分為3部分:①基于極大似數(shù)據(jù)模型和高斯混合模型對(duì)采集圖像進(jìn)行處理,為后續(xù)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練提供良好的圖像訓(xùn)練數(shù)據(jù)樣本支撐;②采用相關(guān)情感標(biāo)簽分布學(xué)習(xí)和正則化學(xué)習(xí)對(duì)VGG-16神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),對(duì)各表情情緒針對(duì)分析,保障多環(huán)境場(chǎng)景下采集圖像表情的精準(zhǔn)識(shí)別;③基于MBGD方法有效簡(jiǎn)化網(wǎng)絡(luò)模型的目標(biāo)函數(shù),提高識(shí)別方法的識(shí)別速度,具有工程應(yīng)用實(shí)際意義。通過對(duì)3種數(shù)據(jù)集的實(shí)驗(yàn)仿真分析,可以得到所提方法較CNN模型、MTCNN模型和DBN模型具有人臉表情識(shí)別準(zhǔn)確和快速的優(yōu)勢(shì),其中對(duì)于自采集數(shù)據(jù)集的圖像識(shí)別在黑暗、弱光和強(qiáng)光環(huán)境下識(shí)別正確率可達(dá)到90.31%、92.34%和91.51%,具有一定的工程適用性。 未來研究重點(diǎn)將探討所提方法的平臺(tái)化,努力實(shí)現(xiàn)所提方法的商用化。3 學(xué)習(xí)與識(shí)別
3.1 VGG網(wǎng)絡(luò)結(jié)構(gòu)
3.2 高斯標(biāo)簽的分布構(gòu)造
3.3 情緒標(biāo)簽的分布學(xué)習(xí)
3.4 優(yōu) 化
4 算例驗(yàn)證與結(jié)果討論
4.1 實(shí)驗(yàn)數(shù)據(jù)集
4.2 人臉識(shí)別實(shí)驗(yàn)驗(yàn)證
4.3 模型參數(shù)敏感度分析
5 結(jié)束語