潘崢嶸,賀秀偉
(蘭州理工大學(xué) 電氣與信息工程學(xué)院,甘肅 蘭州 730050)
表情是人類(lèi)傳達(dá)自己內(nèi)心的情緒、情感和意圖最有效和直接的方式。研究表明,表情包含了人類(lèi)傳達(dá)情感55%的信息[1]。因此,表情識(shí)別在研究機(jī)器人與人進(jìn)行情感交互的系統(tǒng)中起著非常重要的作用。目前,表情識(shí)別研究取得的成果非??捎^[2]。Zhang等[3-4]對(duì)表情識(shí)別的智能機(jī)器人人機(jī)交互的應(yīng)用做了一定的研究。但是要滿(mǎn)足生活中的實(shí)際應(yīng)用還有許多關(guān)鍵問(wèn)題需要解決,如采集人臉表情圖像時(shí)光照不均勻,人臉姿態(tài)的旋轉(zhuǎn),圖像的尺度差異,不同身份人臉的差異等影響因子。針對(duì)這些技術(shù)難點(diǎn),很多學(xué)者都提出了自己的解決方案。
表情識(shí)別主要包含三個(gè)過(guò)程:人臉檢測(cè)、表情特征提取、表情分類(lèi)。表情特征提取是最為重要的一個(gè)步驟,有效合理地表征表情特征是準(zhǔn)確分類(lèi)的關(guān)鍵?,F(xiàn)階段的人臉表情特征提取大致分為三類(lèi):基于形狀特征的模型、基于紋理特征的模型、基于混合特征的模型。Cootes等提出幾種典型的人臉特征提取模型,有主動(dòng)形狀模型(active shape models,ASM)[5]、局部約束模型(constrained local models,CLM)[6]、主動(dòng)表觀模型(active appearance models,AAM)[7]。AAM是基于ASM提出的算法,有很好的形狀和紋理特征的匹配性能,但是擬合過(guò)程計(jì)算復(fù)雜度高,缺乏實(shí)時(shí)性。CLM在目標(biāo)圖像上設(shè)置定位點(diǎn),對(duì)于標(biāo)記點(diǎn)的檢測(cè)具有很高的實(shí)時(shí)性和魯棒性,但是缺乏紋理描述能力?;诩y理特征的方法有Gabor小波、局部二進(jìn)制模式(local binary pattern,LBP)[8]、局部Gabor二進(jìn)制模式(local Gabor binary pattern,LGBP)[9]、自適應(yīng)加權(quán)的局部二值模式[10]等。Gabor小波有多尺度、多方向的圖像表征能力,但是局部細(xì)節(jié)信息描述能力不足。LBP可以精細(xì)地表征細(xì)節(jié)信息,但缺乏尺度和方向變化的魯棒性。LGBP結(jié)合了Gabor小波和LBP兩者的優(yōu)點(diǎn),有更強(qiáng)的圖像特征表征能力,但是其對(duì)面部表情特征點(diǎn)缺乏精確定位的能力。Chen等[11]利用混合特征的方法分別提取面部標(biāo)記點(diǎn)和局部紋理特征來(lái)進(jìn)行表情分類(lèi),效果不錯(cuò)。
針對(duì)上述方法的不足,文中采用具有姿態(tài)和旋轉(zhuǎn)魯棒性的BRISK[12]特征描述子與AAM相結(jié)的方法進(jìn)行快速的形狀和紋理特征提取。用LGBP對(duì)AAM的紋理特征進(jìn)行二次提取,以增強(qiáng)表情特征的可分性。
傳統(tǒng)AAM模型擬合算法的復(fù)雜度太高,不能滿(mǎn)足實(shí)時(shí)性的應(yīng)用要求。Georgios等[13]提出的Fast-SIC(fast-simultaneous inverse compositional)擬合算法極大地提高了模型提取特征的時(shí)效性。由于表情特征提取過(guò)程中人臉圖像存在一定的姿態(tài)變化,為了提高表情特征點(diǎn)的檢測(cè)與匹配精度,采用對(duì)姿態(tài)旋轉(zhuǎn)變化具有魯棒性的新特征檢測(cè)與描述算子BRISK進(jìn)行特征匹配。最后,對(duì)AAM的紋理特征采用LGBP進(jìn)行二次提取,在一定程度上提高了表情特征的描述能力。
AAM算法主要包括三個(gè)步驟:形狀模型的建立、紋理模型的建立、AAM模型的擬合?;贔ast-SIC擬合的AAM算法步驟如下:
設(shè)訓(xùn)練圖像集為Ii(x)∈RN,有n個(gè)標(biāo)記點(diǎn)的向量S=(x1,y1,x2,y2,…,xn,yn)T。
Step1:建立形狀模型。
其中,s0為平形狀;S為n個(gè)形狀向量組成的特征矩陣;p為形狀參數(shù)。
Step2:建立紋理模型。
其中,A0為平均紋理;A為m個(gè)紋理向量組成的特征矩陣;c為紋理參數(shù)。
Step3:Fast-SIC擬合模型。
用Fast-SIC擬合算法的AAM模型在LFPW圖像數(shù)據(jù)庫(kù)中對(duì)測(cè)試圖像提取形狀和紋理特征的實(shí)驗(yàn)結(jié)果,如圖1所示。由圖1可知,F(xiàn)ast-SIC擬合算法的AAM模型具有很高的形狀擬合精度和從表觀空間中重建描述表觀模型的性能。
圖1 提取結(jié)果
BRISK算法使用自適應(yīng)通用加速分割檢測(cè)(AGAST)算子在尺度空間內(nèi)檢測(cè)特征點(diǎn),其基礎(chǔ)是FAST角點(diǎn)檢測(cè)算法。利用特征點(diǎn)的鄰域采樣模式,將離散同心圓上均勻分布的采樣點(diǎn)依據(jù)一定規(guī)則描述為512 bit的二進(jìn)制比特串,再用兩個(gè)描述符之間的漢明距離來(lái)衡量其特征的相似度。
LBP[14]是一種灰度范圍內(nèi)像素層級(jí)的紋理度量。LBP方法本質(zhì)上提取的是圖像的邊緣、角點(diǎn)等局部變化特征,該特征對(duì)人臉圖像描述非常重要。但是邊緣特征有尺度和方向的差異性,原始LBP不能提取該特征。而LGBP結(jié)合了Gabor變化提取多尺度、多方向的局部圖像特性的優(yōu)越性,可以很好地描述這些差異性,可以描述圖像中更多區(qū)分性的特征信息。
LGBP特征提取過(guò)程為:先對(duì)歸一化的人臉圖像進(jìn)行多方向,多分辨率Gabor小波濾波,提取不同方向和尺度的多個(gè)Gabor幅值閾譜,然后對(duì)每個(gè)Gabor幅值閾譜提取LBP特征,最后組成LGBP特征描述子。
表情識(shí)別在智能機(jī)器人中的應(yīng)用主要體現(xiàn)在人性化的智能人機(jī)交互系統(tǒng)。基于表情識(shí)別的智能人機(jī)交互系統(tǒng)主要由人臉檢測(cè)、表情特征提取、表情分類(lèi)和交互策略模塊等組成。文中主要論述解決表情識(shí)別中關(guān)鍵問(wèn)題的算法。表情識(shí)別的智能交互系統(tǒng)整體流程如圖2所示。
圖2 系統(tǒng)整體框架
提取有效的表情特征是表情識(shí)別成功的關(guān)鍵。為了從人臉表情圖像中提取包含形狀和紋理而且判別性高的特征信息,研究中常采用的特征提取模型有ASM,CLM和AAM,以及對(duì)其改進(jìn)的模型[15-16]。AAM模型與其他模型相比,不僅包含了可變目標(biāo)的形狀特征,而且還有比較準(zhǔn)確的紋理特征。文中在研究傳統(tǒng)AAM模型的基礎(chǔ)上,改進(jìn)傳統(tǒng)模型擬合算法得到人臉原始圖像的形狀和紋理更高效的表達(dá),最后應(yīng)用于自動(dòng)人臉表情識(shí)別的機(jī)器人智能交互系統(tǒng)中。
AAM模型擬合的目標(biāo)是尋找一組形狀和表觀參數(shù)為訓(xùn)練模型和給定輸入圖像之間提供最好的擬合效果。近年來(lái),為了降低給定輸入圖像和訓(xùn)練模型之間的誤差,提出了很多模型擬合算法和策略以達(dá)到最優(yōu)的擬合效果。Fast-SIC擬合算法具有一定的高效性,但是Fast-SIC擬合的AAM對(duì)人臉的旋轉(zhuǎn)、姿態(tài)變化和快速移動(dòng)很敏感。因此,為了從旋轉(zhuǎn)的人臉圖像中提取有效的形狀和紋理特征信息,AAM必須在帶有旋轉(zhuǎn)和姿態(tài)變化的人臉庫(kù)中再次重復(fù)訓(xùn)練。然而,訓(xùn)練過(guò)程通常比較耗時(shí)和低效,并且需要存取帶有各種頭部姿態(tài)旋轉(zhuǎn)的大樣本圖像數(shù)據(jù)庫(kù),有時(shí)會(huì)因計(jì)算代價(jià)太大而導(dǎo)致訓(xùn)練過(guò)程不可行。為了解決這個(gè)缺陷,需要一種高效的擬合算法。
BRISK是一種具有旋轉(zhuǎn)和尺度不變性的關(guān)鍵點(diǎn)檢測(cè)、描述和匹配的算法。該算法對(duì)處理旋轉(zhuǎn)和尺度變化的特征有很好的魯棒性和高效性,適合應(yīng)用于對(duì)計(jì)算能力和時(shí)間有要求的特征提取過(guò)程。
文中采用了基于AAM和BRISK組合模型的特征提取方法,該方法是一種具有旋轉(zhuǎn)不變性的特征提取模型。首先,利用訓(xùn)練好的AAM實(shí)時(shí)地提取初始的形狀特征信息,再用Fast-SIC算法對(duì)測(cè)試圖像進(jìn)行擬合,然后終止Fast-SIC算法。接著,開(kāi)始構(gòu)建BRISK算法。將AAM中提取的形狀信息s轉(zhuǎn)換成兩個(gè)關(guān)鍵點(diǎn)向量k1和k2,k1表示前一幀的關(guān)鍵點(diǎn),k2表示當(dāng)前幀的關(guān)鍵點(diǎn)。利用生成的關(guān)鍵點(diǎn)計(jì)算得到兩個(gè)BRISK描述子,再用近似最近鄰算法(approximate nearest neighbor,ANN)匹配生成的兩個(gè)BRISK描述子。將ANN搜索匹配后的BRISK描述子作為形狀信息的最后輸出。紋理特征是在生成帶標(biāo)記形狀的指導(dǎo)下從AAM中提取出來(lái)的,標(biāo)記點(diǎn)采用常用的68點(diǎn)人臉面部關(guān)鍵特征點(diǎn)標(biāo)記。將AAM和BRISK結(jié)合提取的紋理特征用LGBP進(jìn)行特征二次提取,進(jìn)一步提高紋理特征的判別能力。最后,將優(yōu)化的形狀和紋理特征結(jié)合之后進(jìn)行表情分類(lèi)。利用AAM和BRISK組合的方法提取形狀和紋理特征的詳細(xì)過(guò)程如圖3所示。
圖3 AAM和BRISK提取形狀和紋理特征
在Cohn-Kanade(CK+)[17]和LFPW[18]人臉庫(kù)上進(jìn)行面部特征點(diǎn)的檢測(cè)實(shí)驗(yàn),在CK+表情庫(kù)上進(jìn)行人臉表情識(shí)別的實(shí)驗(yàn)。CK+人臉庫(kù)包含123個(gè)對(duì)象的593個(gè)圖像序列,每張圖片都帶有68個(gè)面部標(biāo)記點(diǎn)。庫(kù)中包含七種基本表情:anger,contempt,disgust,fear,happy,sadness,surprise。為了構(gòu)建魯棒高效的AAM模型,選取了32個(gè)對(duì)象的2 990張圖片來(lái)訓(xùn)練AAM模型。這些圖片包含了人臉從中性表情變化到其他表情峰值的信息。AAM模型訓(xùn)練的輸入?yún)?shù)為訓(xùn)練圖片和與其對(duì)應(yīng)的68個(gè)標(biāo)記點(diǎn)。LFPW包含了從網(wǎng)絡(luò)上抓取的1 432張人臉圖片,每張圖片帶有29個(gè)標(biāo)記點(diǎn),Sagonas等[19]將其重復(fù)標(biāo)記為68點(diǎn),選取811張圖片作為訓(xùn)練集,224張圖片作為測(cè)試集。
在NAO機(jī)器人平臺(tái)上進(jìn)行人臉表情識(shí)別與交互實(shí)驗(yàn)。該平臺(tái)提供了C++SDK(NAOqi2.1.3)開(kāi)發(fā)包,可以高效地開(kāi)發(fā)機(jī)器人視覺(jué)、語(yǔ)音和運(yùn)動(dòng)的智能組件。NAO機(jī)器人配有920 P攝像頭,最高分辨率為1 280*720像素,視頻幀率為30 fps,可以滿(mǎn)足實(shí)時(shí)視頻圖像處理應(yīng)用的要求。該機(jī)器人提供了視覺(jué)系統(tǒng)API且兼容OpenCV開(kāi)發(fā)包,要實(shí)現(xiàn)表情識(shí)別的交互系統(tǒng)只需開(kāi)發(fā)核心算法即可。在表情識(shí)別的機(jī)器人智能交互系統(tǒng)中,表情識(shí)別的結(jié)果會(huì)反饋給語(yǔ)音交互系統(tǒng),執(zhí)行預(yù)設(shè)的交互功能,語(yǔ)音交互系統(tǒng)可以利用NAOqi系統(tǒng)提供的Audio模塊實(shí)現(xiàn)。
該實(shí)驗(yàn)采用基于Fast-SIC擬合算法的AAM模型進(jìn)行特征點(diǎn)的檢測(cè)與定位。為了得到更好的擬合效果,實(shí)驗(yàn)采用多分辨率的擬合方法,兩種不同分別率的參數(shù)設(shè)置分別為:低分辨率下紋理特征取50維,形狀特征取3維;高分辨率下紋理特征取200維,形狀特征取10維。利用常用的方法來(lái)評(píng)估AAM模型對(duì)特征點(diǎn)檢測(cè)定位的精度,計(jì)算模型定位的特征點(diǎn)坐標(biāo)與樣本手動(dòng)標(biāo)定的特征點(diǎn)坐標(biāo)之間距離的平均誤差,除以定位人臉尺寸長(zhǎng)寬之和的一半,作為單張人臉圖像檢測(cè)定位的誤差。
整個(gè)測(cè)試集的誤差評(píng)估是通過(guò)對(duì)設(shè)定誤差范圍內(nèi)參與評(píng)估測(cè)試圖像所占測(cè)試集的比例與設(shè)定誤差的關(guān)系曲線(xiàn)來(lái)描述。誤差評(píng)估描述曲線(xiàn)如圖4所示。
圖4 特征點(diǎn)定位誤差曲線(xiàn)
從圖4中可以看出,特征點(diǎn)誤差在小于0.05時(shí),分別覆蓋了CK+和LFPW中選取的測(cè)試集的95%和90%。文獻(xiàn)[12]中指出,誤差在0.03附近即表現(xiàn)出了很好的擬合特性。LFPW中的樣本從復(fù)雜背景下采集,姿態(tài)、光照、尺度等影響因素較大,導(dǎo)致LFPW的擬合誤差略大于CK+。
在CK+表情庫(kù)中選取327個(gè)有表情類(lèi)別標(biāo)記的圖像序列,每個(gè)序列抽取與峰值表情連續(xù)的5幀圖像,共1 635個(gè)樣本。選取1 090個(gè)樣本作為訓(xùn)練集,545個(gè)樣本作為測(cè)試集。實(shí)驗(yàn)步驟如下:
(1)AdaBoost人臉檢測(cè)算法檢測(cè)定位人臉;
(2)AAM和BRISK結(jié)合的模型擬合特征點(diǎn)獲取形狀和紋理特征;
(3)LGBP對(duì)紋理特征二次提??;
(4)用SVM分別對(duì)形狀和紋理以及二者的融合特征做分類(lèi)。
SVM分類(lèi)算法采用開(kāi)源工具LIBSVM,核函數(shù)選用線(xiàn)性核函數(shù),其他參數(shù)用默認(rèn)設(shè)置。表情識(shí)別率的實(shí)驗(yàn)結(jié)果如表1所示。
表1 提取的不同特征對(duì)7種表情識(shí)別率的對(duì)比
表情類(lèi)別識(shí)別率shapetextureconfusionLGBP+confusionanger54/7562/7569/7572/7572.00%82.67%92.00%94.74%contempt15/3024/3024/3026/3050.00%80.00%80.00%86.67%disgust89/10087/10090/10092/10089.00%87.00%90.00%92.00%fear8/4023/4022/4035/4020.00%57.50%55.00%87.50%happy96/115109/115109/115112/11683.48%94.78%94.78%96.55%sadness19/4830/4830/4831/4839.58%62.50%62.50%64.58%surprise93/138132/138132/138138/13866.91%95.65%95.65%1.00%total68.50%85.53%87.18%92.67%
根據(jù)表1可以看出,用形狀特征做表情分類(lèi),識(shí)別率(68.50%)最低。LGBP二次提取紋理特征再結(jié)合形狀的特征做表情分類(lèi),識(shí)別率(92.67%)最高。形狀特征受表情圖像的面部特征點(diǎn)運(yùn)動(dòng)幅度影響很大,所以對(duì)面部特征點(diǎn)幾何運(yùn)動(dòng)幅度小的fear,sadness表情分類(lèi)效果很差。而紋理特征相比形狀特征對(duì)表情變化有更為細(xì)節(jié)性的表達(dá),識(shí)別率有明顯提高。形狀與紋理特征的融合可以進(jìn)一步提高識(shí)別率。LGBP提取的紋理特征,不僅對(duì)光照、姿態(tài)變化具有魯棒性,而且表情細(xì)節(jié)信息的表達(dá)更豐富,取得了很好的識(shí)別率(92.67%)。文中方法與其他相關(guān)方法在CK+表情庫(kù)的平均識(shí)別率比較如表2所示。
表2 文中方法與相關(guān)方法平均表情識(shí)別率比較
由表2可知,文中方法利用LGBP提取紋理特征可以獲得表情信息更具判別性的表達(dá),該方法在CK+表情庫(kù)上的表情識(shí)別率優(yōu)于對(duì)比方法。
為了解決基于傳統(tǒng)AAM的表情識(shí)別算法在機(jī)器人智能交互系統(tǒng)中難以達(dá)到實(shí)時(shí)性的問(wèn)題,采用Fast-SIC擬合算法提高了AAM擬合速度,并結(jié)合新的特征檢測(cè)描述子BRISK做人臉面部的關(guān)鍵特征點(diǎn)匹配,然后通過(guò)LGBP對(duì)AAM的紋理特征進(jìn)行二次提取以增強(qiáng)表情特征的判別性,最后用SVM分類(lèi)器對(duì)表情進(jìn)行識(shí)別與分類(lèi)。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)人臉特征點(diǎn)檢測(cè)定位具有實(shí)時(shí)性和姿態(tài)旋轉(zhuǎn)的魯棒性,對(duì)表情特征的描述具有很好的判別性。實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的有較性。但是,該算法對(duì)微弱表情的判別性能較差,下一步研究目標(biāo)是實(shí)現(xiàn)對(duì)微弱表情特征的更有效表達(dá),使得表情識(shí)別在智能機(jī)器人交互應(yīng)用中更人性化。
[1] EKMAN P,FRIESEN W V.Constants across cultures in the face and emotion[J].Journal of Personality & Social Psychology,1971,17(2):124-129.
[2] 薛雨麗,毛 峽,郭 葉,等.人機(jī)交互中的人臉表情識(shí)別研究進(jìn)展[J].中國(guó)圖象圖形學(xué)報(bào),2009,14(5):764-772.
[3] ZHANG L, MISTRY K,HOSSAIN A. Shape and texture based facial action and emotion recognition[C]//Proceedings of the 2014 international conference on autonomous agents and multi-agent systems.Richland,SC:International Foundation for Autonomous Agents and Multiagent Systems,2014:1659-1660.
[4] MISTRY K,LI Z,BARNDEN J.Intelligent facial expression recognition with adaptive feature extraction for a humanoid robot[C]//International joint conference on neural networks.[s.l.]:IEEE,2015:1-8.
[5] COOTES T F,EDWARDS G J,TAYLOR C J.Comparing active shape models with active appearance models[C]//British machine vision conference.Nottingham:[s.n.],1999:173-182.
[6] CRISTINACCE D,COOTES T F.Feature detection and tr-acking with constrained local models[C]//British machine vision conference.Edinburgh,UK:[s.n.],2006:929-938.
[7] COOTES T F,EDWARDS G J,TAYLOR C J.Active appearance models[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2001,23(6):681-685.
[8] SHAN C,GONG S,MCOWAN P W.Facial expression recognition based on local binary patterns:a comprehensive study[J].Image & Vision Computing,2009,27(6):803-816.
[9] ZHANG W, SHAN S, GAO W,et al.Local Gabor binary pattern histogram sequence (lgbphs):a novel non-statistical model for face representation and recognition[C]//Tenth IEEE international conference on computer vision.[s.l.]:IEEE,2005:786-791.
[10] 胡 敏,許艷俠,王曉華,等.自適應(yīng)加權(quán)完全局部二值模式的表情識(shí)別[J].中國(guó)圖象圖形學(xué)報(bào),2013,18(10):1279-1284.
[11] CHEN H Y,HUANG C L,FU C M.Hybrid-boost learning for multi-pose face detection and facial expression recognition[J].Pattern Recognition,2008,41(3):1173-1185.
[12] LEUTENEGGER S,CHLI M,SIEGWART R Y.Brisk:binary robust invariant scalable keypoints[C]//IEEE international conference on computer vision.[s.l.]:IEEE,2011:2548-2555.
[13] TZIMIROPOULOS G,PANTIC M.Optimization problems for fast aam fitting in-the-wild[C]//IEEE international conference on computer vision.[s.l.]:IEEE,2013:593-600.
[14] OJALA T,HARWOOD I.A comparative study of texture measures with classification based on feature distributions[J].Pattern Recognition,1996,29(1):51-59.
[15] 黃 飛,譚守標(biāo).基于改進(jìn)主動(dòng)表觀模型算法的人臉特征定位[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(16):204-209.
[16] 王 晶,蘇光大,劉炯鑫,等.融合改進(jìn)的asm和aam的人臉形狀特征點(diǎn)定位算法[J].光電子·激光,2011,22(8):1227-1230.
[17] LUCEY P,COHN J F,KANADE T,et al.The extended cohn-kanade dataset (ck+):a complete dataset for action unit and emotion-specified expression[C]//IEEE computer society conference on computer vision and pattern recognition workshops.[s.l.]:IEEE,2010:94-101.
[18] BELHUMEUR P N,JACOBS D W,KRIEGMAN D J,et al.Localizing parts of faces using a consensus of exemplars[C]//IEEE conference on computer vision and pattern recognition.Colorado Springs,Co,USA:IEEE,2011:545-552.
[19] SAGONAS C,TZIMIROPOULOS G,ZAFEIRIOU S,et al.300 faces in-the-wild challenge:the first facial landmark localization challenge[C]//Proceedings of the IEEE international conference on computer vision workshops.[s.l.]:IEEE,2013:397-403.
[20] WU T,BARTLETT M S,MOVELLAN J R.Facial expression recognition using Gabor motion energy filters[C]//IEEE computer society conference on computer vision and pattern recognition workshops.[s.l.]:IEEE,2010:42-47.