梅英, 譚冠政, 劉振燾
基于視頻圖像的面部表情識(shí)別研究綜述
梅英1, 2, 譚冠政2, 劉振燾3
(1. 湖南文理學(xué)院 電氣與信息工程學(xué)院, 湖南 常德, 415000; 2. 中南大學(xué) 信息科學(xué)與工程學(xué)院, 湖南 長(zhǎng)沙, 410083; 3. 中國(guó)地質(zhì)大學(xué) 自動(dòng)化學(xué)院, 湖北 武漢, 430074)
面部表情識(shí)別是機(jī)器理解人類情感的前提, 是改善人機(jī)交互關(guān)系的關(guān)鍵。首先, 按照視頻圖像中面部表情識(shí)別的流程, 綜述了表情識(shí)別的 3個(gè)階段: 人臉檢測(cè)、表情特征提取、表情分類。重點(diǎn)介紹了表情特征提取和表情分類中所采用算法的原理、優(yōu)缺點(diǎn)及應(yīng)用場(chǎng)合, 并給出了部分算法的識(shí)別率對(duì)比結(jié)果。其次, 對(duì)人機(jī)交互中的微表情識(shí)別及表情識(shí)別的魯棒性研究也做了介紹。最后總結(jié)了面部表情識(shí)別研究中存在的問(wèn)題及難點(diǎn), 探討了該領(lǐng)域值得進(jìn)一步研究的問(wèn)題。
表情識(shí)別; 特征提取; 表情分類; 微表情; 魯棒性
隨著機(jī)器視覺(jué)研究的不斷深入, 面部表情識(shí)別從靜態(tài)圖像中的表情識(shí)別逐步轉(zhuǎn)向了動(dòng)態(tài)圖像中的表情識(shí)別; 從基本表情識(shí)別逐步轉(zhuǎn)向了自然場(chǎng)景下復(fù)雜表情的識(shí)別。本文綜述了近幾年針對(duì)視頻圖像序列的表情識(shí)別研究成果, 重點(diǎn)介紹了表情特征提取、表情分類中所用主流算法的基本原理、優(yōu)缺點(diǎn)及應(yīng)用場(chǎng)合。對(duì)當(dāng)今流行的微表情識(shí)別和表情識(shí)別的魯棒性研究也做了介紹, 最后指出了當(dāng)前表情識(shí)別研究存在的問(wèn)題, 并總結(jié)了進(jìn)一步的研究方向。
針對(duì)視頻圖像的表情識(shí)別技術(shù)基礎(chǔ)包括多媒體視頻技術(shù)、圖像處理技術(shù)、模式識(shí)別技術(shù)等。視頻圖像中面部表情識(shí)別一般包含3個(gè)主要步驟:首先判斷視頻中是否存在人臉, 如果存在,則定位出人臉, 然后提取表情特征, 最后確定表情特征所屬的分類[3]。面部表情識(shí)別流程見(jiàn)圖1。
圖1 面部表情識(shí)別流程
1.1人臉檢測(cè)
人臉檢測(cè)是指在圖像中定位出人臉, 人臉檢測(cè)是進(jìn)一步分析和理解面部表情和行為的基礎(chǔ)。為了減少外部影響, 還增加了圖像預(yù)處理環(huán)節(jié)。現(xiàn)有的人臉檢測(cè)方法可以分為基于特征和基于圖像2大類[4]。基于膚色特征的方法是將輸入圖像經(jīng)過(guò)預(yù)處理后, 在多個(gè)色彩空間中利用膚色特征比對(duì)后即可得到膚色的區(qū)域, 從而實(shí)現(xiàn)人臉區(qū)域的精確定位。該方法的優(yōu)點(diǎn)是處理速度快, 但當(dāng)背景中存在與膚色相近的景物時(shí), 可能會(huì)產(chǎn)生誤判的結(jié)果[5]; 基于圖像的方法[6]首先選取面部樣本與非面部樣本, 通過(guò)訓(xùn)練生成分類器進(jìn)行面部與非面部的區(qū)分, 實(shí)現(xiàn)面部檢測(cè)。目前, 人臉檢測(cè)技術(shù)已經(jīng)成熟, 在智能手機(jī)、電子考勤上應(yīng)用廣泛。
1.2表情特征提取
面部表情特征提取是從檢測(cè)出的人臉圖像中提取有效的表情特征信息, 特征提取的有效程度直接關(guān)系到表情分類的準(zhǔn)確程度, 因此, 表情特征提取是表情識(shí)別中至關(guān)重要的一步。目前, 基于視頻圖像的特征提取方法有光流法、主動(dòng)外觀模型法(Active Appearance Model, AAM)及差分圖像法等。
(1) 光流法。光流法是目前運(yùn)動(dòng)圖像分析的重要方法之一。光流是運(yùn)動(dòng)物體在觀測(cè)成像平面上的像素運(yùn)動(dòng)的“瞬時(shí)速度”, 根據(jù)光流可以衡量2幀圖像之間的變化。表情變化是一個(gè)面部肌肉運(yùn)動(dòng)的過(guò)程,通過(guò)計(jì)算視頻圖像中嘴巴、眼睛、眉毛等表情特征點(diǎn)上的光流, 然后根據(jù)特征區(qū)域的運(yùn)動(dòng)方向變化, 計(jì)算出對(duì)應(yīng)的表情[7]。文獻(xiàn)[8]采用光流法與差分圖像法相結(jié)合的方法, 首先計(jì)算出差分圖像絕對(duì)值并檢測(cè)出運(yùn)動(dòng)區(qū)域, 再在已確定的運(yùn)動(dòng)區(qū)域內(nèi)計(jì)算光流場(chǎng), 最后計(jì)算出面部表情對(duì)應(yīng)的運(yùn)動(dòng)信息, 圖2所示的是吃驚表情序列光流場(chǎng)。文獻(xiàn)[9]提出了采用直方圖和光流法提取面部表情的時(shí)空信息, 在CK+數(shù)據(jù)集上的實(shí)驗(yàn)效果良好。
圖2 “吃驚”表情序列光流場(chǎng)
光流法具有突出面部形變和反映面部運(yùn)動(dòng)趨勢(shì)的優(yōu)點(diǎn), 但是, 該算法成立的前提是灰度守恒假設(shè)和光流場(chǎng)平滑性假設(shè)。當(dāng)動(dòng)態(tài)圖像不滿足上述條件時(shí), 光流法的效果就會(huì)受到很大影響, 在光源有變化或面部有遮擋時(shí), 會(huì)導(dǎo)致光流計(jì)算不準(zhǔn)確而影響識(shí)別率。而且, 光流法計(jì)算量較大不利于實(shí)時(shí)處理, 所以一般采用與其它方法相結(jié)合的方法。
(2) 主動(dòng)外觀模型法。主動(dòng)外觀模型法是在主動(dòng)形狀模型(Active Shape Model, 簡(jiǎn)稱ASM)的基礎(chǔ)上引入紋理模型發(fā)展而來(lái)的。因此, 基于AAM的方法不但能精確地描述人臉輪廓特征還能描述人臉的紋理特征[10]。近年來(lái), AAM 廣泛應(yīng)用于模式識(shí)別領(lǐng)域的特征點(diǎn)提取方法。文獻(xiàn)[11]采用主動(dòng)外觀模型(AAM) 定位圖像序列中各幅人臉圖像的 68個(gè)特征點(diǎn), 然后計(jì)算圖像序列中表情幀和中性幀的表情關(guān)鍵點(diǎn)的坐標(biāo)差, 從而提取出表情特征, 圖3是AAM特征提取結(jié)果。文獻(xiàn)[12]利用主動(dòng)形狀模型對(duì)人臉圖像進(jìn)行特征點(diǎn)檢測(cè), 然后將圖像比例特征與面部動(dòng)畫(huà)參數(shù)作為支持向量機(jī)的輸入, 最后獲得理想的識(shí)別效果。文獻(xiàn)[13]提出了基于 AAM提取面部區(qū)域特征的方法, 通過(guò)支持向量機(jī)分類, 實(shí)驗(yàn)結(jié)果證明了該方法可以適應(yīng)多種頭部姿勢(shì)和光照條件下的表情識(shí)別。
圖3 AAM特征提取結(jié)果
AAM 方法將面部形狀和紋理等信息進(jìn)行統(tǒng)計(jì)建模, 可以很好地匹配不同形狀、大小的人臉, 通用性強(qiáng)。但是, 在一般情況下, 基于模型的方法需要依靠人工標(biāo)注的方式實(shí)現(xiàn)面部特征點(diǎn)的初始化, 從而在一定程度上影響了算法的自動(dòng)化程度。
(3) 差分圖像法。差分圖像法是將圖像序列中的被測(cè)幀與標(biāo)準(zhǔn)幀做差分運(yùn)算, 保留2幀間存在變化的特征。在進(jìn)行表情識(shí)別時(shí), 在相同背景條件下, 將表情幀和中性表情幀進(jìn)行差分運(yùn)算, 最后得到反映表情特征的關(guān)鍵幀, 通過(guò)分析關(guān)鍵幀就可以識(shí)別人臉表情。圖4是JAFFE庫(kù)中人臉圖像及對(duì)應(yīng)的差分圖像[14]。文獻(xiàn)[15]提出了一種基于差分的AAM模型, 即差分主動(dòng)外觀模型, 用來(lái)識(shí)別一組動(dòng)態(tài)的人臉面部表情序列。首先, 通過(guò)輸入人臉表情圖像和中性表情圖像參數(shù)的差分來(lái)計(jì)算差分主動(dòng)表觀模型, 然后運(yùn)用流形學(xué)習(xí)對(duì)差分主動(dòng)外觀模型進(jìn)行平滑圖像以及降維, 最終實(shí)驗(yàn)表明基于差分主動(dòng)外觀模型在表情識(shí)別率上比傳統(tǒng)AAM模型提高了20%。
圖4 人臉表情圖像及其差分圖像
差分圖像法能夠大幅度地減少計(jì)算量, 但需要作差的2幀圖像必須保證像素點(diǎn)嚴(yán)格對(duì)應(yīng), 否則不能反應(yīng)真實(shí)的表情變化。
1.3表情分類
表情分類即判斷表情特征所對(duì)應(yīng)的表情類別?,F(xiàn)有 2種分類方式: 一種是按照面部動(dòng)作分類[16](Facial Action Coding System, FACS), 即將面部表情動(dòng)作分類到44個(gè)動(dòng)作單元AU(Action Units), 每種表情對(duì)應(yīng)幾個(gè)動(dòng)作單元的組合; 另一種分類是按照美國(guó)著名心理學(xué)家Ekman[17]劃分的6種基本表情(恐懼、悲傷、憤怒、高興、驚訝和厭惡)來(lái)分類。近年來(lái), 人工神經(jīng)網(wǎng)絡(luò)、Adaboost算法、支持向量機(jī)、隱馬爾可夫模、K近鄰分類器等成為主流的表情分類方法。
(1) 人工神經(jīng)網(wǎng)絡(luò)分類。由于面部表情的變化規(guī)律難以顯性描述, 但能通過(guò)人工神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)功能, 可以隱性表達(dá)表情的規(guī)律。因此, 將提取的表情特征通過(guò)人工神經(jīng)網(wǎng)絡(luò)分類是目前有效地使用方法[18-19]。文獻(xiàn)[20]采用前饋神經(jīng)網(wǎng)絡(luò)作為表情分類器, 實(shí)驗(yàn)效果表明, 前饋神經(jīng)網(wǎng)絡(luò)比采用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的識(shí)別效果好。文獻(xiàn)[21]將所選是Gabor特征送入一個(gè)三層神經(jīng)網(wǎng)絡(luò)中, 通過(guò)反向傳播算法訓(xùn)練分類器, 實(shí)驗(yàn)結(jié)果表明: 在JAFFE和Yale數(shù)據(jù)庫(kù)平均識(shí)別率分別為96.8%和92.2%。
人工神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的自學(xué)習(xí)、自組織能力, 但是, 當(dāng)輸入樣本維數(shù)過(guò)高或訓(xùn)練樣本過(guò)多時(shí), 會(huì)導(dǎo)致算法收斂緩慢而出現(xiàn)過(guò)學(xué)習(xí)問(wèn)題[22]。
(2) Adaboost算法分類。Adaboost算法的核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器), 然后把這些弱分類器集合起來(lái)組成一個(gè)分類能力更強(qiáng)的強(qiáng)分類器[23]。Ghimire等[24]采用多級(jí)Adaboost和支持向量機(jī)相結(jié)合的方法將表情的幾何特征分類, 實(shí)驗(yàn)結(jié)果表明, 在CK+面部表情數(shù)據(jù)庫(kù)中的識(shí)別率為95.17%。Owusu[25]采用Adaboost算法與SVM相結(jié)合的方法, 形成分類器進(jìn)行訓(xùn)練,利用JAFFE和耶魯大學(xué)的Yale數(shù)據(jù)庫(kù)分別測(cè)試, 結(jié)果表明平均識(shí)別率分別為97.57%和92.33%, 執(zhí)行時(shí)間也明顯縮短。圖5是采用Adaboost分類器的表情識(shí)別結(jié)果。
圖5 表情識(shí)別結(jié)果
Adaboost 算法中權(quán)值的確定可以根據(jù)弱學(xué)習(xí)器預(yù)測(cè)的正確率來(lái)設(shè)定, 從而避免人工神經(jīng)網(wǎng)絡(luò)中容易出現(xiàn)的過(guò)學(xué)習(xí)現(xiàn)象, 但在小樣本情況下, Adaboost方法的性能并不好。
(3) 支持向量機(jī)分類。支持向量機(jī)(Support Vector Machines, SVM)在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì)。支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的, 根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳匹配, 以求獲得最好的推廣能力。使用SVM的關(guān)鍵在于核函數(shù)的選擇, 只要選用適當(dāng)?shù)暮撕瘮?shù), 就可以得到高維空間的分類函數(shù)。文獻(xiàn)[26]提出了一種基于SVM模型的方法用于表情識(shí)別, 通過(guò)與Adboost方法比較, 證明SVM模型具有較高的識(shí)別率。文獻(xiàn)[27]使用主動(dòng)形狀模型與 SVM相結(jié)合的方法進(jìn)行表情識(shí)別, 取得較好的識(shí)別結(jié)果, 可以適應(yīng)頭部偏轉(zhuǎn)和光照不均條件下的表情識(shí)別。
SVM的優(yōu)點(diǎn)是算法具有堅(jiān)實(shí)的理論基礎(chǔ), 尤其適合小樣本數(shù)據(jù)的分類。但經(jīng)典的SVM算法是二類分類算法, 在解決多分類和大規(guī)模樣本運(yùn)算上, SVM 算法需要結(jié)合其它算法來(lái)解決問(wèn)題。
(4) 隱馬爾可夫模型分類。隱馬爾可夫模型(Hiding Markov Model, HMM)是一種統(tǒng)計(jì)分析模型, 用于描述隨機(jī)過(guò)程信號(hào)統(tǒng)計(jì)特性, HMM具有很強(qiáng)的動(dòng)態(tài)時(shí)間序列建模能力, 因此可用于針對(duì)視頻圖像序列的表情識(shí)別。文獻(xiàn)[28]采用HMM模型與K近鄰相結(jié)合的方法組成分類器, 實(shí)現(xiàn)了針對(duì)6種基本表情的識(shí)別。
(5) 稀疏表示分類法。稀疏采樣(Sparse Sampling)是一個(gè)新的采樣理論, 它的原理是采用隨機(jī)采樣的方法獲取信號(hào)中的離散樣本, 最后采用非線性重建算法來(lái)恢復(fù)信號(hào)的原樣。文獻(xiàn)[29]提出了一種基于稀疏表示的遮擋人臉表情識(shí)別方法, 通過(guò)稀疏分解求得待測(cè)圖像的稀疏表示系數(shù)實(shí)現(xiàn)表情識(shí)別, 在Cohn-Kanade 和JAFFE 人臉庫(kù)上的實(shí)驗(yàn)表明稀疏分類法具有較強(qiáng)的魯棒性。
近些年來(lái), 一些新的分類算法不斷提出,如深度學(xué)習(xí)[30]、隨機(jī)森林[31]等, 表1列出了部分算法的識(shí)別結(jié)果。
從表 1可以看出, 針對(duì)動(dòng)態(tài)視頻圖像的面部表情識(shí)別率有待提高, 且每種算法都是在特定約束條件下, 針對(duì)基本表情識(shí)別提出的解決方法。在人機(jī)交互過(guò)程中, 人的表情變化是極其微妙的, 背景也相對(duì)復(fù)雜。因此,對(duì)于微表情和表情識(shí)別的魯棒性研究, 還有待進(jìn)一步深入。
表1 部分算法的表情識(shí)別結(jié)果對(duì)比
2.1微表情識(shí)別
微表情是指持續(xù)時(shí)間僅為 1/25~1/5 s的快速的表情, 表達(dá)了人們?cè)噲D壓抑或隱藏的真正情感, 因此, 心理學(xué)家Ekman發(fā)現(xiàn)50%的人在撒謊時(shí)會(huì)出現(xiàn)微表情, 于是Ekman認(rèn)為微表情可以用于測(cè)謊[35]。文獻(xiàn)[36]指出微表情應(yīng)用于職務(wù)犯罪偵查具有識(shí)別犯罪嫌疑人真實(shí)情緒從而擴(kuò)大案件線索的作用, 在職務(wù)犯罪偵查中具有可操作性。文獻(xiàn)[37]提出了基于差分切片能量圖和 Gabor變換的微表情識(shí)別算法,通過(guò)Gabor變換和線性判別分析提取差分切片能量圖向量判別特征, 并運(yùn)用SVM分類器實(shí)現(xiàn)微表情識(shí)別, 實(shí)驗(yàn)表明該方法具有較高的識(shí)別性能。文獻(xiàn)[38]使用極限學(xué)習(xí)機(jī)實(shí)現(xiàn)微表情自動(dòng)識(shí)別, 在ORL、Yale和CASME 微表情數(shù)據(jù)庫(kù)中的實(shí)驗(yàn)取得了一定的效果。
微表情不僅持續(xù)時(shí)間短而且出現(xiàn)頻率低, 對(duì)于微表情的自動(dòng)識(shí)別難度很大, 目前研究尚不成熟。但微表情識(shí)別可以作為一種有效的偵查輔助手段在刑偵中發(fā)揮重要作用。因此, 微表情識(shí)別研究具有實(shí)用價(jià)值。
2.2表情的魯棒性識(shí)別
在人機(jī)交互過(guò)程中, 局部遮擋、光照不均、頭部偏轉(zhuǎn)的情況時(shí)有發(fā)生, 如圖6所示。為了解決局部遮擋的問(wèn)題, 文獻(xiàn)[39]提出了一種基于流形學(xué)習(xí)的遮擋人臉表情識(shí)別方法;為了解決光照和頭部偏轉(zhuǎn)的問(wèn)題, 文獻(xiàn)[40]通過(guò)AAM和K近鄰算法, 實(shí)現(xiàn)了面部表情的魯棒性識(shí)別。
圖6 自然交互場(chǎng)景中的人臉
為了能更好地解決光照不均、遮擋等問(wèn)題。近些年三維人臉表情識(shí)別逐步興起。面部三維信息比二維圖像具有更多的人臉信息, 以人臉表情的三維數(shù)據(jù)為載體, 最大程度地利用面部幾何特征, 文獻(xiàn)[41]使用面部等高曲線的方法, 在BU-4DFE數(shù)據(jù)庫(kù)上的識(shí)別率為92.2%。但是, 目前三維人臉表情識(shí)別技術(shù)的研究致力于識(shí)別率的提高, 在特征提取上過(guò)多依賴特征點(diǎn), 計(jì)算量較大, 難以滿足實(shí)時(shí)性要求。
3.1存在的問(wèn)題
(1) 缺乏真實(shí)表情研究。近些年的表情識(shí)別研究主要針對(duì)基本表情識(shí)別, 盡管取得了一定的識(shí)別效果, 但需要實(shí)驗(yàn)對(duì)象呈現(xiàn)夸張的臉部表情, 因而很難將它應(yīng)用到真實(shí)的表情交互系統(tǒng)中去, 且在識(shí)別率和實(shí)時(shí)性上不夠理想。
(2) 研究場(chǎng)景局限于實(shí)驗(yàn)室。盡管一些文獻(xiàn)中的表情識(shí)別率較高, 但大多都是基于實(shí)驗(yàn)室理想條件下測(cè)試的。在自然真實(shí)環(huán)境下, 由于光照、姿勢(shì)、遮擋等對(duì)面部表情識(shí)別有較大影響, 如何在復(fù)雜環(huán)境下進(jìn)行面部表情識(shí)別是當(dāng)前研究的一個(gè)關(guān)鍵問(wèn)題。
(3) 面部表情數(shù)據(jù)不足。目前已有的面部表情數(shù)據(jù)庫(kù)(如:JAFFE, CK+, Yale)一般都比較小, 而且?guī)в兄饔^性質(zhì), 表情流露不自然, 難以為科學(xué)研究提供十分精確有效的數(shù)據(jù), 且動(dòng)態(tài)序列圖像數(shù)據(jù)庫(kù)更是缺乏。
3.2表情識(shí)別的難點(diǎn)
(1) 表情的模糊性。人類表情本身具有模糊性, 并不是每種表情之間都有很明顯的區(qū)別, 如: 睜大眼睛有可能代表驚奇, 也有可能代表恐懼等。而且, 同種表情由于民族、年齡、性別等因素也會(huì)存在表達(dá)上的差異。
(2) 人臉的非剛性。人臉受年齡、性別、種族等因素的影響, 表現(xiàn)出明顯的個(gè)體差異, 導(dǎo)致人臉很難用統(tǒng)一的模型來(lái)描述, 因而增加了識(shí)別難度。
(3) 表情識(shí)別的學(xué)科交叉性。表情識(shí)別研究涉及多門(mén)學(xué)科, 如: 模式識(shí)別、機(jī)器學(xué)習(xí)、心理學(xué)等, 有些學(xué)科本身在理論和方法上有待完善。
(1) 尋求新的理論和研究思路。結(jié)合機(jī)器學(xué)習(xí)理論, 根據(jù)表情的圖像特征和幾何特征之間的相關(guān)性,有效融合表情的全局和局部信息[42], 或結(jié)合語(yǔ)音、行為等因素進(jìn)行多模態(tài)情感識(shí)別[43], 將有利于提高表情識(shí)別效果。同時(shí), 應(yīng)借鑒心理學(xué)、神經(jīng)科學(xué)的研究成果, 多方面尋找新的研究思路。
(2) 加強(qiáng)三維面部表情識(shí)別。相對(duì)于二維信息而言, 面部三維信息能包含更多的人臉信息, 結(jié)合三維信息能很好地解決光照不均、遮擋等問(wèn)題[44]。然而, 采用三維數(shù)據(jù)會(huì)隨著運(yùn)算量的增大導(dǎo)致系統(tǒng)實(shí)時(shí)性不足的問(wèn)題, 如何提取更有效的三維特征來(lái)提高表情的識(shí)別率與實(shí)時(shí)性, 是一個(gè)值得深入思考的問(wèn)題。
(3) 建立完善的表情數(shù)據(jù)庫(kù)。表情數(shù)據(jù)庫(kù)是表情識(shí)別的基礎(chǔ), 目前缺乏標(biāo)準(zhǔn)化的大型數(shù)據(jù)庫(kù), 無(wú)法比較各種算法之間的優(yōu)劣。所以, 建立以自然場(chǎng)景為背景的、標(biāo)準(zhǔn)的、公開(kāi)的動(dòng)態(tài)表情數(shù)據(jù)庫(kù)是一項(xiàng)非常迫切的研究工作。
面部表情作為主要的信息載體將成為下一代人機(jī)交互模式的重要組成部分, 面部表情識(shí)別將在服務(wù)機(jī)器人、教育、娛樂(lè)、智能家居等領(lǐng)域具有廣闊的應(yīng)用前景。目前, 面部表情識(shí)別技術(shù)在理論方法和實(shí)用技術(shù)上得到了迅速發(fā)展, 并在服務(wù)機(jī)器人、智能手機(jī)上得到了初步應(yīng)用, 但在識(shí)別率、實(shí)時(shí)性及魯棒性等方面尚不夠理想。加強(qiáng)真實(shí)環(huán)境下自然表情的識(shí)別有利于改善人機(jī)交互模式, 讓計(jì)算機(jī)能夠真正了解人類的意圖從而更好地服務(wù)人類, 同時(shí)也有助于人工智能的發(fā)展。因此, 面部表情識(shí)別研究具有重要的理論意義與實(shí)際應(yīng)用價(jià)值。
[1] Picard R W. Affective computing [M]. USA: MIT Press, 1997: 2–10.
[2] Mehrabian A. Communication without words [J]. Psychology Today, 1968, 2(4): 53–56.
[3] Fang H, Mac Parthaláin N, Aubrey A J, et al. Facial expression recognition in dynamic sequences: An integrated approach [J]. Pattern Recognition, 2014, 47(3): 1271–1281.
[4] Wechsler H, Phillips P J, Bruce V. Face recognition from theory to applications [M]. Berlin: Springer International Publishing, 2012: 23–35.
[5] Mahdi I, Hamed S H. A novel fuzzy facial expression recognition system based on facial feature extraction from color face images [J]. Engineering Applications of Artificial Intelligence, 2012, 25(1): 130–146.
[6] Connolly J F, Granger E, Sabourin R. An adaptive classification system for video-based face recognition [J]. Information Sciences, 2012, 192(6): 50–70.
[7] Fan X, Tjahjadi T. A spatial-temporal framework based on histogram of gradients and optical flow for facial expression recognition in video sequences [J]. Pattern Recognition, 2015, 48(11): 3 407–3 416.
[8] 王宇緯. 基于改進(jìn)光流和HMM的人臉表情識(shí)別研究[D]. 天津: 天津大學(xué), 2009.
[9] Fan X, Tjahjadi T. A spatial-temporal framework based on histogram of gradients and optical flow for facial expression recognition in video sequences [J]. Pattern Recognition, 2015, 32(2): 68–75.
[10] Member F R, Zhong N M. Facial expression recognition based on AAM–SIFT and adaptive regional weighting [J]. IEEE Transactions on Electrical & Electronic Engineering, 2015, 10(6): 713–722.
[11] 施毅. 基于主動(dòng)外觀模型的人臉表情識(shí)別研究[D]. 上海: 上海交通大學(xué), 2012.
[12] Song M L, Tao D C, Liu Z C. Image ratio features for facial expression recognition application [J]. IEEE Transactions on Systems, Man and Cybernetics, 2010, 40(3): 779–788.
[13] Wang L, Li R, Wang K. A novel automatic facial expression recognition method based on AAM [J]. Journal of Computers, 2014, 9(3): 608–617.
[14] 萬(wàn)川. 基于動(dòng)態(tài)序列圖像的面部表情識(shí)別系統(tǒng)理論與方法研究[D]. 長(zhǎng)春: 吉林大學(xué), 2013.
[15] Cheon Y, Kim D. Natural facial expression recognition using differential-AAM and manifold learning [J]. Pattern Recognition, 2009, 42(7): 1 340–1 350.
[16] Sumathi C P, Santhanam T, Mahadevi M. Automatic facial expression analysis a survey [J]. International Journal of Computer Science & Engineering Survey, 2013, 3(6): 47–59.
[17] Ekman P, Friesen W. Constants across cultures in the face and emotion [J]. Journal of Personality and Social Psychology, 1971, 17(2): 124–129.
[18] Taormina R, Chau K W, Sethi R. Artificial neural network simulation of hourly groundwater levels in a coastal aquifer system of the venice lagoon [J]. Engineering Applications of Artificial Intelligence, 2012, 25(8): 1 670–1 676.
[19] Saudagare P V, Chaudhari D S. Facial expression recognition using neural network–an overview [J]. International Journal of Soft Computing and Engineering, 2012, 2(1): 224–227.
[20] Perveen N, Gupta S, Verma K. Facial expression recognition system using statistical feature and neural network [J]. International Journal of Computer Applications, 2012, 48(18): 17–23.
[21] Owusu E, Zhan Y, Mao Q R. A neural-AdaBoost based facial expression recognition system [J]. Expert Systems with Applications, 2014, 41(7): 3 383–3 390.
[22] 王賽. 基于動(dòng)態(tài)模糊神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別算法研究[D]. 重慶: 西南大學(xué), 2012.
[23] Hu W, Gao J, Wang Y, et al. Online adaboost-based parameterized methods for dynamic distributed network intrusion detection [J]. IEEE Transactions on Cybernetics, 2014, 44(1): 66–82.
[24] Ghimire D, Lee J. Geometric feature-based facial expression recognition in image sequences using multi-class AdaBoost and support vector machines [J]. Sensors, 2013, 13(6): 7 714–7 734.
[25] Owusu E, Zhan Y, Mao Q R. An SVM-AdaBoost facial expression recognition system [J]. Applied Intelligence, 2014,40(3): 2 427–2 432.
[26] Prabhakar S, Sharma J, Gupta S. Facial expression recognition in video using adaboost and SVM [J]. International Journal of Computer Applications, 2014, 104(2): 1–4.
[27] Lozano-Monasor E, López M T, Fernández-Caballero A, et al. Facial expression recognition from webcam based on active shape models and support vector machines [M]. Berlin: Springer International Publishing, 2014: 147–154.
[28] Vijayalakshmi M, Senthil T. Automatic human facial expression recognition using Hidden Markov Model [C] // IEEE International Conference on Electronics and Communication Systems, Sanya, 2014: 1–4.
[29] 朱明旱, 李樹(shù)濤, 葉華. 基于稀疏表示的遮擋人臉表情識(shí)別方法[J]. 模式識(shí)別與人工智能, 2014, 27(8): 708–712.
[30] Song I, Kim H J, Jeon P B. Deep learning for real-time robust facial expression recognition on a smartphone [C] // IEEE International Conference on Consumer Electronics, Sanya, 2014: 564–567.
[31] Pu X, Fan K, Chen X, et al. Facial expression recognition from image sequences using twofold random forest classifier [J]. Neurocomputing, 2015, 168: 1 173–1 180.
[32] Lajevardi S M, Hussain Z M. Higher order orthogonal moments for invariant facial expression recognition [J]. Digital Signal Processing, 2010, 20(6): 1 771–1 779.
[33] Fanelli G, Yao A, Noel P L, et al. Hough forest-based facial expression recognition from video sequences [M]. Berlin: Springer International Publishing, 2012: 195–206.
[34] Li Y, Wang S, Zhao Y, et al. Simultaneous facial feature tracking and facial expression recognition [J]. IEEE Transactions on Image Processing, 2013, 22(7): 2 559–2 573.
[35] Ekman P, Telling lies. Clues to deceit in the marketplace, politics, and marriage [M]. 2nd Ed. New York: Norton, 2001.
[36] 胡明銀, 孟凡民. 微表情識(shí)別的偵查實(shí)用性探析[J]. 江西警察學(xué)院學(xué)報(bào), 2011(3): 35–37.
[37] Zhang P, Ben X Y, Yang M Q. Algorithm of micro-expression recognition based on differential slices energy diagram and the Gabor transform [EB/OL]. http://www.paper.edu.cn/releasepaper/content/201312-994, 2013–12–27.
[38] Wang S J, Chen H L, Yan W J, et al. Face recognition and micro-expression recognition based on discriminant tensor subspace analysis plus extreme learning machine [J]. Neural processing letters, 2014, 39(1): 25–43.
[39] 朱明旱, 陳日新, 羅大庸. 基于流形學(xué)習(xí)的遮擋條件下表情識(shí)別方法[J]. 光電子: 激光, 2012, 10(23): 2 003–2 008.
[40] Lee Y H, Han W, Kim Y, et al. Robust emotion recognition algorithm for ambiguous facial expression using optimized AAM and k-NN [J]. International Journal of Security and Its Applications, 2014, 8(5): 203–212.
[41] Le V, Tang H, Huang T S. Expression recognition from 3D dynamic faces using robust spatio-temporal shape features [C] // IEEE International Conference on Automatic Face & Gesture Recognition, California, 2011: 414–421.
[42] Meng H, Bianchi-Berthouze N. Affective state level recognition in naturalistic facial and vocal expressions cybernetics [J]. IEEE Transactions on Cybernetics, 2014, 44(3): 315–328.
[43] Chao Xu, Qinghua Hu, Guangquan Xu, et al. An approach to facial expression analysis with multi-model interactions [J]. International Journal of Computer Mathematics, 2013, 91(11): 2 329–2 340.
[44] Li H, Ding H, Huang D, et al. An efficient multimodal 2D+3D feature-based approach to automatic facial expression recognition [J]. Computer Vision & Image Understanding, 2015, 140: 83–92.
(責(zé)任編校: 劉曉霞)
Review on facial expression recognition based on video image
Mei Ying1, 2, Tan Guanzheng2, Liu Zhentao3
(1. College of Electrical and Information Engineering, Hunan University of Arts and Science, Changde 415000, China; 2. School of Information Science and Engineering, Central South University, Changsha 410083, China)
Facial expression recognition is the precondition for the computer understanding human emotion, and it is the key to improve human-computer interaction. Firstly, a survey facial expression recognition in video is provided according to the three steps: face detection, facial feature extraction, expression classification. Algorithms applied in feature extraction and expression classification are mainly summarized, including their principles, advantages and disadvantages, applications, as well as the accuracy comparisons of some algorithms. Secondly, some issues about micro-expression recognition and robustness research are described in the human-computer interaction. Finally, the existing problems and the difficulties of facial expression recognition, as well as the issues worthy of further study are concluded.
Facial expression recognition; feature extraction; expression classification; micro-expression; robustness
TP 391
1672–6146(2016)03–0019–07
10.3969/j.issn.1672–6146.2016.03.005
梅英, 63641214@qq.com。
2016-06-05
國(guó)家自然科學(xué)基金青年科學(xué)基金項(xiàng)目(61403422)。樂(lè)等領(lǐng)域均有廣泛地應(yīng)用。
面部表情識(shí)別是近些年逐步興起的情感計(jì)算的重要組成部分。美國(guó)麻省理工學(xué)院的 Picard教授[1]曾在《Affective Computing》中指出“情感是未來(lái)計(jì)算機(jī)能夠有效工作的必要條件之一, 希望通過(guò)賦予計(jì)算機(jī)識(shí)別用戶情感的能力, 以便更好地服務(wù)人類。”人類的情感常常通過(guò)面部表情、語(yǔ)音、姿態(tài)等來(lái)表達(dá), 但是, 它們所傳遞的信息量有差別。美國(guó)心理學(xué)家 Mehrabian[2]提出“人們?cè)诮涣鞯倪^(guò)程中, 面部表情能傳遞55%的信息量, 38%的信息量通過(guò)語(yǔ)調(diào)表現(xiàn)出來(lái), 而語(yǔ)言本身傳遞的信息量只占7%?!?因此, 面部表情這一重要的信息載體將成為下一代人機(jī)交互模式的重要組成部分, 面部表情識(shí)別將是人機(jī)交互研究的重要內(nèi)容。在服務(wù)機(jī)器人領(lǐng)域, 機(jī)器人通過(guò)識(shí)別人類的面部表情可以更好地服務(wù)人類; 在遠(yuǎn)程教育領(lǐng)域, 計(jì)算機(jī)通過(guò)監(jiān)測(cè)學(xué)生在學(xué)習(xí)過(guò)程中的表情, 實(shí)時(shí)地調(diào)節(jié)教育資源; 此外, 表情識(shí)別在醫(yī)療、娛