黃泳銳,楊健豪,廖鵬凱,潘家輝
(華南師范大學(xué) 軟件學(xué)院,佛山 528225)
情緒是一種綜合了人的感覺,思想和行為的狀態(tài),它包括人對外界或自身刺激的心理反應(yīng),也包括伴隨這種心理反應(yīng)的生理反應(yīng),在人們的日常工作和生活中,情緒的作用無處不在.因此,基于人類的視覺特征和腦電特征,采用計算機技術(shù),對情緒特征進行歸類的情緒識別成為人機交互、情感計算、智能控制、機器視覺、圖像處理與模式識別等領(lǐng)域的重要研究課題.
(1)關(guān)于人臉表情識別的研究
20世紀(jì)70年代美國心理學(xué)家Ekman和Friesen對現(xiàn)代人臉表情識別做出了開創(chuàng)性的工作[1].Ekman定義了人類的6種基本表情:高興、生氣、吃驚、恐懼、厭惡和悲傷,確定了識別對象的類別;其次是建立了面部動作編碼系統(tǒng) (Facial Action Coding System,FACS ).Shao等人在2015年提出一種基于子集選擇的面部識別的方法,用來提取人臉的特征[2].Hu等人在2016年提出一種從單一人臉圖像中進行3D人臉重建的方法,用于進行人臉信息的擴充[3].2003年,北京科技大學(xué)的王志良教授領(lǐng)導(dǎo)的團隊,將人臉表情識別算法應(yīng)用于機器人的情感控制研究中[4].人臉表情識別的研究具有很大的開發(fā)潛力.但檢測出準(zhǔn)確的表情并不總可以代表人的真正情緒,因為人可以偽裝表情.
(2)關(guān)于基于腦電的情緒識別研究
對于提取出的腦電特征,如何從腦電特征中學(xué)習(xí)出情緒狀態(tài)的模型,是腦電能否在情緒識別中得到應(yīng)用是關(guān)鍵性的一步.Murugappan等人利用模糊C均值和模糊K均值的方法對高興、厭惡、恐懼三種情緒進行聚類,并通過對聚類效果的觀察,選擇能對情緒進行區(qū)分的最少特征集合[5].Bos利用費雪判別分析,針對正向、負(fù)向、興奮、平靜情緒中每一類分別訓(xùn)練一個分類器,使得正向情緒的分類準(zhǔn)確率為37/39,興奮、平靜情緒分類準(zhǔn)確率為38/39[6].Yazdani等人利用貝葉斯線性判別分析,將腦電特征針對喜悅、憤怒、厭惡、悲傷、驚訝、恐懼等六種情緒進行了分類,達到80%以上的準(zhǔn)確率[7].Pertrantonakis和Hadjileontiadis利用二次判別分析(Quadratic Discriminant Analysis,QDA)以及SVM對情緒在愉快、驚訝、生氣、恐懼、厭惡、悲傷六種類別下進行分類,分別達到了62.3%和83.33%的準(zhǔn)確率[8].但是基于腦電的情緒識別方法,存在信號難以提取的問題.在采集腦電信號時,會存在較大的其他電位干擾(如肌電,眼電等).
(3)關(guān)于利用信息融合技術(shù)的研究
盡管基于單一模態(tài)的情緒識別方法上攜帶著準(zhǔn)確的情緒信息,但是信號強度十分微弱,所以在提取過程中要求較高.近年來,隨著多源異類信息融合處理領(lǐng)域的發(fā)展,可以將來自多類別參考情緒狀態(tài)的特征進行融合.利用不同類別的信號相互支持,通過對互補信息進行融合處理,可以得到很大改善.因此,人們開始利用人臉表情、語音、眼動、姿態(tài)和生理信號等多個通道的情緒信息之間的互補性來研究識別問題,即基于多模態(tài)的情緒識別.多模態(tài)信息融合識別相對于單一信號識別無疑是可以提高識別準(zhǔn)確率的.
本文的工作就是融合人臉圖像和腦電識別的結(jié)果,以提高情緒識別的準(zhǔn)確率.
程序通過攝像頭采集到圖像,通過基于Haar特征值的Adaboost算法,實時檢測人臉位置.利用主成分分析(Principal Component Analysis,PCA)對提取人臉特征值進行降維處理.將降維后的特征值利用卷積神經(jīng)網(wǎng)絡(luò)進行分類.詳細過程見圖1.下面重點講述Adaboost算法,PCA降維和卷積神經(jīng)網(wǎng)絡(luò)算法.
圖1 人臉表情識別流程圖
基于人臉圖像的人臉檢測方法,采用基于Haar特征值的Adaboost算法[9],它實際上是Boosting算法的一個應(yīng)用,Haar分類器用到了Boosting算法中的Adaboost算法,把Adaboost算法訓(xùn)練出的強分類器進行了級聯(lián).
Adaboost是一種迭代算法,其核心思想是針對一個訓(xùn)練數(shù)據(jù)集D={(x1,y1),(x2,y2),(x3,y3),···,(xN,yN)},從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)一系列弱分類器或基本分類器,然后將這些弱分類器組合成一個強分類器.
其算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的.通過每次訓(xùn)練集之中每個樣本分類結(jié)果是否準(zhǔn)確來訓(xùn)練弱分類器.并通過上一次的總體分類準(zhǔn)確率來確定每個弱分類器在強分類器中的權(quán)重,最終將多個弱分類器結(jié)合成強分類器.
將提取到的Haar特征值作為輸入,利用Adaboost算法進行分類器訓(xùn)練,最終得出可用于人臉檢測的分類器.
表情特征提取是人臉表情識別中最重要的部分,有效的表情特征提取工作將使識別的性能大大提高.通過對大量文獻的總結(jié),可知好的表情特征提取結(jié)果應(yīng)該具備以下幾個條件:(1)可完整表示出人臉表情的本質(zhì)特征;(2)可通過灰度處理,高斯濾波等方法去除噪聲、光照及其他與表情無關(guān)的干擾信息;(3)數(shù)據(jù)表示形式緊湊,可避免過高的維數(shù)(常見的方法有PCA和LDA,本文利用PCA進行數(shù)據(jù)降維操作);(4)不同類別表情特征之間有較好的區(qū)分性.要得到滿足這些條件的表情特征,特征提取的過程可能需要數(shù)個步驟來完成.首先,利用某種形式的信息來獲得表情的原始特征,如特征形狀與幾何關(guān)系,局部紋理,光流場等,這一步驟稱為原始特征獲取.然而,這些原始特征一般都存在信息冗余,維數(shù)過高,區(qū)分性不夠等問題.為了能夠更有效地表征輸入人臉表情的本質(zhì),需要對原始特征數(shù)據(jù)需要較好的預(yù)處理方法,因此使用PCA進行降維.主要提取的方式如圖2所示.
圖2 人臉特征點提取過程
PCA是一種分析、簡化數(shù)據(jù)集的技術(shù).主成分分析經(jīng)常用于減少數(shù)據(jù)集維數(shù),同時保持?jǐn)?shù)據(jù)集中對方差貢獻最大的特征.
利用PCA進行特征值降維的基本原理如下:
對于一個M×N的矩陣,其中M為樣本數(shù),每個樣本包含N個特征(n維).
1)進行樣本矩陣中心化,每一維的數(shù)據(jù)都減去該維的均值,將每一維的均值變?yōu)?.
即對于第m個樣本,第n個特征值,將該值代入式(1)進行運算.
2)計算樣本特征的協(xié)方差矩陣
協(xié)方差矩陣的第(i,j)項如式(2)所示.
則協(xié)方差矩陣如式(3)所示[10].
矩陣中第(i,j)項元素是Xi與Xj的協(xié)方差,對角線就是各個維度上的方差.
2)計算協(xié)方差矩陣的特征值和特征向量
得到N個特征值與N個特征向量.將N個特征向量根據(jù)其對應(yīng)的特征值從大到小進行排列,取其中前k列,組成一個N×k的降維矩陣[11].
3)降維計算
將原M×N矩陣與上述步驟得到的降維矩陣N×k相乘,便得到結(jié)果,一個M×k的矩陣.其中M為樣本數(shù)量,k為其維度.
4)應(yīng)用
應(yīng)用到人臉圖像的特征值處理,將原始特征作為初始的輸入維度,進行人臉特征值降維處理,減少接下來表情識別的計算量.
在表情識別方面,采用基于卷積神經(jīng)網(wǎng)絡(luò)的方法.
卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法總體上與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)類似,但是由于其特殊結(jié)構(gòu),不同的層在誤差回傳、前向激活時有所不同,其具體步驟如下[12]:
1)前向傳導(dǎo)階段
從樣本集中選取一個樣本(Xi,Yi),將向量Xi輸入網(wǎng)絡(luò),計算出相應(yīng)的實際輸出f(xi).在這個階段,信息從輸入層經(jīng)過逐層計算,傳遞到輸出層,在此過程中,神經(jīng)網(wǎng)絡(luò)執(zhí)行的計算實際上就是輸入值向量與每層的權(quán)值矩陣進行點乘運算,得到最后的輸出結(jié)果,如式(4)所示.
其中,wi表示第i層各個神經(jīng)元的權(quán)重,ai表示第i層各個神經(jīng)元輸入,ai+1表示第i層各個神經(jīng)元輸出.這個輸出將作為第i+1層神經(jīng)元的輸入,迭代直到輸出層.
2)反向傳播階段
定義代價函數(shù)Loss如式(5)所示.
其中m為樣本集中樣本的個數(shù),l為卷積神經(jīng)網(wǎng)絡(luò)的層數(shù).
網(wǎng)絡(luò)參數(shù)更新需要計算網(wǎng)絡(luò)參數(shù)殘差,其中包括輸出層殘差,下一層為池采樣層(pooling層)的卷積層的殘差以及下一層為卷積層的pooling層的殘差.
在反向傳播階段里,需要將損失函數(shù)產(chǎn)生的殘差依層次往前傳遞,在傳遞的過程中,全連接層、pooling層、卷積層的殘差計算方法和更新權(quán)值矩陣的計算方法不同,如下為具體幾種情況的計算方式和步驟.
1)計算輸出層的殘差
針對單個樣本(x,y)時,對應(yīng)的樣本代價函數(shù)Loss的值如式(6).
其中下標(biāo)c的含義如式(7)所示.
由此可得如式(8)所示此時Loss值相對于輸出層的殘差.
式(9)為第L層的權(quán)值Wl的偏導(dǎo)數(shù).
式(10)為輸出層偏置的偏導(dǎo)數(shù).
假設(shè)第一層為卷積層,第l+1層為pooling層,且pooling層的殘差如式(11)所示.
3)再下一層是卷積層的pooling層殘差計算
假設(shè)pooling層(第l層)有N個通道,即有N張?zhí)卣鲌D,卷積層(l+1層)有M個特征,l+1層中每個通道圖都對應(yīng)有自己的殘差項,則式(12)為第l+1層第j個通道的殘差計算方法.
4)卷積層相連接層的權(quán)值、偏置值的導(dǎo)數(shù)計算
第l層第i個通道與第l+1層第j個通道之間的權(quán)值和偏置的導(dǎo)數(shù)計算方法如式(13)所示.
對于訓(xùn)練完的分類器,將上文利用PCA提取到的特征值,將其作為輸入輸進神經(jīng)網(wǎng)絡(luò)的輸入層,如上述前向傳導(dǎo)的過程,迭代直到輸出層,輸出表情結(jié)果.
通過Neurosky公司的腦電設(shè)備,即時提取腦電波的特征值,當(dāng)接收到識別的命令,將當(dāng)前的值先做特征處理,再作為輸入傳入SVM分類器,得出結(jié)果.詳細過程見圖3.
圖3 腦電處理流程
使用Neurosky公司的腦電提取設(shè)備,提取出來每種的腦電波的值是一個無符號整數(shù).特征預(yù)處理采用的方法是特征標(biāo)準(zhǔn)化和歸一化,再使用訓(xùn)練好的SVM分類器進行特征的分類,將特征分為虛弱、普通、強烈三類,分別對應(yīng)情緒的不同狀態(tài).
對于給定訓(xùn)練樣本:
分類學(xué)習(xí)最基本思想就是基于訓(xùn)練集D在樣本空間找到一個劃分超平面,使得不同類別的樣本分開[13].
設(shè)線性可分時存在超平面可表示為式(14):其中,w為待確定的行向量.則每個樣本點到超平面的距離r如式(15)所示.
距離超平面最近的訓(xùn)練樣本點使得上式等號成立,他們被稱為“支持向量”.支持向量的點到超平面的距離之和如式(17)所示.
因此要求出超平面,就是求出滿足式(18)的w值.
為了簡化計算,等價于計算式(19).
式(19)是一個二次規(guī)劃問題,可用拉格朗日乘子法求得最優(yōu)解.
線性不可分時存在超平面可將樣本從原始空間映射到一個更高維的特征空間,使得樣本在整個樣本空間線性可分.
令g(x)表示將X映射后的特征向量,于是,在特征空間中劃分超平面的模型可表示為式(20).
求解w過程類似于上述線性可分情況.
對于多分類問題,將多分類任務(wù)拆解為若干個二分類任務(wù)求解.
應(yīng)用到腦電波訓(xùn)練問題,對于每個樣本點(xi,yi)
求解一個w,使得存在
使得樣本分為兩類(先把-1和0看成一類,1看成另一類).若找不到存在的w滿足條件,則通過核函數(shù)向高維映射.然后再通過分成多類的方法(區(qū)分-1和0類),將其分為三類.
圖4 信息融合主要流程圖
如圖4所示,首先利用設(shè)備攝像頭檢測當(dāng)前畫面圖像,利用所訓(xùn)練的Haar分類器,找出人臉位置,框出來.與此同時,腦電設(shè)備每隔1 s檢測人腦電波,不斷更新.
當(dāng)系統(tǒng)接收到要進行情緒識別的信號(即鼠標(biāo)點擊人臉框).人臉圖像模塊進行人臉特征提取和表情計算返回當(dāng)前人臉表情.腦電處理模塊進行特征預(yù)處理和特征分類返回當(dāng)前人內(nèi)心情緒的波動程度.信息融合模塊匯總上述2個模塊的信息,給出最終結(jié)果,判斷出人的真正情緒.
下面三種實驗分別分為在線和離線實驗,在線實驗用來產(chǎn)生訓(xùn)練數(shù)據(jù),離線實驗的數(shù)據(jù)用來測試本文方法的準(zhǔn)確率.
每次實驗開始,首先在大屏幕的中心呈現(xiàn)固定十字,以吸引實驗對象的注意力,2秒后,對應(yīng)不同情緒的片段出現(xiàn)在屏幕中心.每個片段2~3分鐘,片段之間間隔10秒讓實驗對象恢復(fù)情緒.情緒的得分使用Manikin自我評定表獲取[14].
實驗中采用攝像頭(25FPS,800×600圖像大小)獲取人臉圖像.采用腦電設(shè)備(Neurosky,Inc.,Abbotsford,Australia)獲取腦電,從“Fz”電極獲取用于分析的腦電信號.所有電極的電阻保持在5 kΩ以下.
實驗數(shù)據(jù)在Windows下采用python3.5進行處理.圖像方面算法用谷歌的開源深度學(xué)習(xí)框架tensorflow.腦電方面算法用python開源庫scikit-learn.信息融合算法自己用python實現(xiàn).
表情識別實驗對象為20個18~22歲的青年,男女比例1:1.每個對象檢測八種基本表情,每種表情檢測3次.檢測環(huán)境有在光照強度大的環(huán)境,也有在光照較差的環(huán)境.被測人的內(nèi)心狀態(tài)各有不同,但都被要求做出所需要的表情.
表情識別實驗效果準(zhǔn)確率如圖5表示,其中,x軸表示實驗者編號,y軸表示準(zhǔn)確率.
圖5 人臉表情檢測準(zhǔn)確率
表情識別實驗效果顯示,雖然對人臉表情檢測準(zhǔn)確率能夠高達81.35%,但是對內(nèi)心情緒波動程度的辨別程度幾乎為0.單純基于人臉圖像對真實情緒檢測的準(zhǔn)確率并不高,其曲線如圖9 (三種情緒識別效果對比可以體現(xiàn)出來).
以上進行表情檢測的20個人,只利用腦電設(shè)備,在其內(nèi)心情緒的不同狀態(tài),檢測10次,每人每次作為一個樣本.進行內(nèi)心情緒波動程度的檢測.檢測的效果如表1.
表1 腦電情緒強弱程度分析效果
可以看到,利用腦電信息對內(nèi)心情緒波動檢測的方法對內(nèi)心情緒波動微弱檢測的召回率較差,但在其他方面均可達到0.8左右的效果.
用相同的20個人,在表情識別實驗基礎(chǔ)上,加入利用腦電信息進行情緒波動分析的方法進行檢測.很大程度上彌補了表情識別無法識別出內(nèi)心情緒波動的缺陷.
圖6 情緒強烈的效果圖
圖7 正常情緒效果圖
圖8 微弱情緒效果圖
開心情緒的識別效果如圖6,7,8所示,被實驗人都被要求做出微笑表情.圖6是在被實驗人聽歡快音樂1分鐘后所試驗,圖8是在被實驗人聽悲傷音樂1分鐘后所試驗,圖7是在被實驗人情緒波動正常時試驗.
三種情緒識別的效果圖如圖9所示,其中,x軸表示實驗者編號,y軸表示準(zhǔn)確率.
圖9 三種情緒識別的效果圖
可以看到,只基于面部表情進行真實情緒識別有較高的波動性,這是因為只要被實驗人懂得假裝自己的面部表情就可以成功地“騙”過機器.利用人臉表情和腦電信息進行情緒識別很好地彌補了只基于單一信息源識別信息單一的缺陷.在檢測出面部表情的基礎(chǔ)上,還檢測出了內(nèi)心情緒的波動程度,這部分的準(zhǔn)確率在71.53%.很大程度上拓寬了情緒信息的廣度.
本文利用信息融合技術(shù)結(jié)合人臉表情識別技術(shù)與腦電情緒識別技術(shù).不僅檢測出了情緒的分類,還檢測出了情緒的強弱程度.對比其他文獻的實驗結(jié)果,他們大多只檢測了情緒的分類,對于情緒的強弱程度這方面,目前并沒有太多的研究者去做.比如說,Murugappan等人從腦電信號中提取多解析度的小波變換作為特征,對高興、厭惡、恐懼三種情緒進行了聚類[5].Li等人指出Gamma頻帶的腦電信號對于愉悅和悲傷兩種情緒的分類有很高的解析度[15].
這些實驗大多只檢測出了情緒的種類,而且檢測出情緒的種類并不夠多.而利用信息融合的方法,不僅可以檢測出情緒的種類,而且還可以檢測出情緒的強弱程度.說明利用信息融合的方法更適合用于情緒識別.下一步的工作:由于內(nèi)心情緒的不可控性,導(dǎo)致進行內(nèi)心情緒的檢測過程困難,難以得到高質(zhì)量的腦電數(shù)據(jù).這進一步導(dǎo)致了腦電部分的估測準(zhǔn)確率不高.但是一旦有高質(zhì)量的腦電數(shù)據(jù),進行分類器的重新訓(xùn)練,就可以大大提高基于腦電信息的內(nèi)心情緒識別的準(zhǔn)確率.
1Ekman P,Friesen WV.Facial action coding system:A technique for the measurement of facial movement.Palo Alto:Consulting Psychologists Press,1978.
2Shao H,Chen S,Zhao JY,et al.Face recognition based on subset selection via metric learning on manifold.Frontiers of Information Technology &Electronic Engineering,2015,16(12):1046-1058.
3Hu XP,Wang Y,Zhu FY,et al.Learning-based fully 3D face reconstruction from a single image.Proceedings of 2016 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).Shanghai,China.2016.1651-1655.
4王志良,陳鋒軍,薛為民.人臉表情識別方法綜述.計算機應(yīng)用與軟件,2003,20(12):63-66.[doi:10.3969/j.issn.1000-386X.2003.12.027]
5Murugappan M,Rizon M,Nagarajan R,et al.EEG feature extraction for classifying emotions using FCM and FKM.International Journal of Computers and Communications,2007,2(1):21-25.
6Bos DO.EEG-based emotion recognition.The Influence of Visual and Auditory Stimuli,2006.
7Yazdani A,Lee JS,Ebrahimi T.Implicit emotional tagging of multimedia using EEG signals and brain computer interface.Proceedings of the First SIGMM Workshop on Social Media.Beijing,China.2009.81-88.
8Petrantonakis PC,Hadjileontiadis LJ.Emotion recognition from EEG using higher order crossings.IEEE Transactions on Information Technology in Biomedicine,2010,14(2):186-197.[doi:10.1109/TITB.2009.2034649]
9江偉堅,郭躬德,賴智銘.基于新Haar-like特征的Adaboost人臉檢測算法.山東大學(xué)學(xué)報(工學(xué)版),2014,44(2):43-48.[doi:10.6040/j.issn.1672-3961.1.2013.003]
10曾陽艷,葉柏龍.基于PCA方法的人臉特征提取和檢測.電腦知識與技術(shù),2008,1(4):742-744.
11高緒偉.核PCA特征提取方法及其應(yīng)用研究[碩士學(xué)位論文].南京:南京航空航天大學(xué),2009.
12王劍云.基于深度神經(jīng)網(wǎng)絡(luò)的表情識別算法[碩士學(xué)位論文].綿陽:西南科技大學(xué),2015.
13張國云.支持向量機算法及其應(yīng)用研究[博士學(xué)位論文].長沙:湖南大學(xué),2006.
14Bradley MM,Lang PJ.Measuring emotion:The selfassessment Manikin and the semantic differential.Journal of Behavior Therapy and Experimental Psychiatry,1994,25(1):49-59.[doi:10.1016/0005-7916(94)90063-9]
15Li M,Lu BL.Emotion classification based on gamma-band EEG.Proceedings of 2009 Annual International Conference of the IEEE Engineering in Medicine and Biology Society.Minneapolis,MN,USA.2009.1223-1226.