石 琳,鄒佳麗,張振友
(1.華北理工大學(xué)人工智能學(xué)院,河北 唐山 063210;2.華北理工大學(xué)人工智能學(xué)院,河北 唐山 063210)
在人類日常生活交流中,表情識(shí)別是人與人交流過(guò)程中一種非常重要的“察言觀色”能力,通過(guò)對(duì)方面部流露出來(lái)的表情來(lái)推測(cè)其內(nèi)心情感的變化,進(jìn)而作出適當(dāng)?shù)难哉Z(yǔ)調(diào)整。著名心理學(xué)家A.Mehirabian的一項(xiàng)研究曾提出,人類之所以能夠進(jìn)行情感交流,主要是因?yàn)槿祟惪梢酝ㄟ^(guò)語(yǔ)言、語(yǔ)氣和表情這三種方式來(lái)表達(dá)自己內(nèi)心的情感,其中,通過(guò)面部表情傳遞情感所占比例高達(dá)約55%。人臉面部表情沒(méi)有肢體語(yǔ)言傳達(dá)出的情感通俗易懂,人臉面部表情往往含有許多無(wú)法直接解讀的內(nèi)在信息,需要結(jié)合心理學(xué)、生理學(xué)等進(jìn)行分析研究。因?yàn)閷?duì)表情識(shí)別的研究可以達(dá)到所謂的“透過(guò)現(xiàn)象看本質(zhì)”的目的,因而該領(lǐng)域的研究也成為了當(dāng)今科研界的一大研究熱點(diǎn)。
傳統(tǒng)的面部表情識(shí)別方法容易造成原有的表情信息丟失等問(wèn)題,信息特征往往不能表征面部表情,因此面部表情識(shí)別準(zhǔn)確率低。另外,傳統(tǒng)的面部表情識(shí)別算法是人為設(shè)計(jì)的,所以計(jì)算能力有限、訓(xùn)練難度大。
卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)能根據(jù)具體的分類類型自動(dòng)地學(xué)習(xí)到針對(duì)性非常強(qiáng)的圖像特征,因此,現(xiàn)階段CNN在圖像識(shí)別領(lǐng)域變得非常受歡迎,該領(lǐng)域的科研人員都開始對(duì)CNN在圖像識(shí)別方向進(jìn)行了大量研究,并取得了巨大的成功。與此同時(shí),CNN用于面部表情識(shí)別也逐漸盛行,并取得了優(yōu)異的成果。
該領(lǐng)域的很多研究者把CNN 應(yīng)用到了面部表情識(shí)別研究中,其中,文獻(xiàn)[1]使用深度置信網(wǎng)絡(luò)DBN(Deep Belief Network),通過(guò)BP[2]神經(jīng)網(wǎng)絡(luò)對(duì)表情進(jìn)行了識(shí)別,取得了不錯(cuò)的效果;文獻(xiàn)[3]提出的深度網(wǎng)絡(luò)AUDN,它將CNN與玻爾茲曼機(jī)兩者結(jié)合對(duì)面部動(dòng)作進(jìn)行特征提取,然后把提取的特征輸入到SVM(Support Vector Machine)[4]分類器進(jìn)行分類;分類器的選擇對(duì)提高面部表情識(shí)別效率具有很大的影響,常用的特征分類算法主要有SVM、K近鄰算法[5]等。與這些常用的特征分類算法相比,極限學(xué)習(xí)機(jī)ELM(Extreme Learning Machine)[6]是一種較好的分類器選擇。在ELM網(wǎng)絡(luò)訓(xùn)練過(guò)程中,輸入層和隱含層之間的權(quán)值矩陣和偏置值都是隨機(jī)生成的,不需要計(jì)算和迭代更新,只需要計(jì)算隱含層與輸出層之間的權(quán)值矩陣,所以耗時(shí)短,計(jì)算量小,收斂速度快,參數(shù)設(shè)置簡(jiǎn)單等,這些優(yōu)點(diǎn)恰恰是SVM、K近鄰等一些算法不具有的。
CNN在圖像識(shí)別領(lǐng)域的顯著優(yōu)勢(shì)就是可以在沒(méi)有人為干預(yù)的情況下提取高質(zhì)量的特征,為了充分利用CNN多層特征融合后信息的全面性,以及ELM分類具有泛化能力強(qiáng)、分類精度高等優(yōu)點(diǎn),這里提出了基于CNN多層特征融合和極限學(xué)習(xí)機(jī)(CNNMCF-ELM)的面部表情識(shí)別方法。
這里提出的表情識(shí)別模型(CNN-MCF-ELM)的整體架構(gòu),如圖1 所示。包括CNN 特征提取、多尺度池化、多層特征融合、ELM分類四個(gè)階段。
預(yù)處理的好壞對(duì)CNN提取高質(zhì)量特征有很大的影響作用,這里在模型訓(xùn)練過(guò)程中,為了防止過(guò)擬合采用了將每個(gè)圖像以原點(diǎn)為中心分別旋轉(zhuǎn)θ角度的數(shù)據(jù)增強(qiáng)方式,這種操作沒(méi)有改變?cè)袌D像的像素值,保證了旋轉(zhuǎn)前后圖像清晰度是完全一樣的。經(jīng)過(guò)旋轉(zhuǎn)變換后像素的坐標(biāo)為:
由式(1)可知,每張圖片分別被旋轉(zhuǎn)了90°、180°和270°,擴(kuò)充后的數(shù)據(jù)集為原始數(shù)據(jù)集的3倍。
在特征提取階段,采用的是CNN網(wǎng)絡(luò)模型。CNN進(jìn)行特征提取有別于傳統(tǒng)的人工選取特征,它可以自動(dòng)習(xí)得重要特征。這里所用的CNN模型是基于經(jīng)典的LeNet-5模型的改進(jìn)[7],它的結(jié)構(gòu)包括3 個(gè)卷積層,分別用C1,C2,C3,表示,3 個(gè)池化層分別用P1,P2,P3表示,其中,P1層是最大池化層,P2和P3層是平均池化層,1個(gè)全連接層用F1表示。
池化操作選用最大池化和平均池化相結(jié)合的方式。CNN只用于特征提取,不用于分類識(shí)別,此時(shí)的F1層沒(méi)有分類功能。網(wǎng)絡(luò)各層參數(shù),如表1所示。
表1 卷積神經(jīng)網(wǎng)絡(luò)模型各層參數(shù)Tab.1 Parameters of Each Layer of the Convolutional Neural Network Model
傳統(tǒng)的CNN網(wǎng)絡(luò)在面部表情識(shí)別過(guò)程中僅使用最后一層特征圖的信息,沒(méi)有充分利用網(wǎng)絡(luò)中間每一層的特征。在文獻(xiàn)[8]中,作者對(duì)卷積神經(jīng)網(wǎng)絡(luò)的特征進(jìn)行了詳細(xì)的可視化,表明不同層級(jí)的表征分別對(duì)應(yīng)識(shí)別對(duì)象不同的特征屬性,因此,這里選擇了融合多層CNN提取的特征圖以盡可能地不遺漏重要特征信息來(lái)表征表情特征,這里模型采用了多特征融合方式獲取能充分表征面部表情的多屬性特征的特征向量。
多特征融合方式,如圖2所示。把卷積神經(jīng)網(wǎng)絡(luò)的后三層即C4,C5,P3層提取得到的特征圖分別經(jīng)多尺度池化之后進(jìn)行特征融合,這里之所以選用CNN提取的最后三層特征進(jìn)行融合,是受文獻(xiàn)[9]進(jìn)行肝癌的診斷識(shí)別使用了CNN的最后三層特征,并取得了較高的準(zhǔn)確率,表明此后三層包含了豐富的特征信息的啟發(fā)。
圖2 多尺度池化操作示意圖Fig.2 Schematic Diagram of Multi-Scale Pooling Operation
多尺度池化算法的思想來(lái)源于空間金字塔池化[10],經(jīng)過(guò)多次試驗(yàn)測(cè)試,最后選擇每一層經(jīng)多尺度池化操作后的輸出均為3個(gè)分別為1×1×r、2×2×r和3×3×r的不同尺度的特征矩陣,其中r為特征圖的數(shù)量,3個(gè)特征矩陣按列形成(13×r)×1的列向量,最后經(jīng)過(guò)特征融合形成一個(gè)具有多尺度多屬性的特征列向量作為ELM分類器的輸入。多尺度池化操作的示意圖,如圖2所示。
這里提出的面部表情識(shí)別模型中的CNN只用于提取分類所需的面部表情圖像的特征,不參與面部表情識(shí)別的分類階段,CNN 的訓(xùn)練一般分為兩個(gè)階段即:正向傳播階段和反向傳播階段,在訓(xùn)練過(guò)程中,需要計(jì)算調(diào)整的參數(shù)非常多,耗時(shí)長(zhǎng),所以在分類階段選用了訓(xùn)練過(guò)程簡(jiǎn)單、分類準(zhǔn)確率高的ELM分類器進(jìn)行表情識(shí)別。
極限學(xué)習(xí)機(jī)由輸入層、隱藏層和輸出層組成。ELM在網(wǎng)絡(luò)訓(xùn)練過(guò)程中只需要計(jì)算隱含層與輸出層之間的權(quán)值矩陣,它的輸入層和隱含層之間的權(quán)值矩陣和偏置值都是隨機(jī)生成的,不需要計(jì)算也不需要迭代更新[7],所以可以節(jié)省大量的網(wǎng)絡(luò)訓(xùn)練時(shí)間,減少計(jì)算消耗開支。ELM網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示。輸入層、隱藏層和輸出層的神經(jīng)元個(gè)數(shù)分別為d、l、m。
圖3 ELM網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 ELM Network Structure
輸入量x是經(jīng)過(guò)特征融合后的具有多尺度多屬性的特征維數(shù)為P的面部表情特征。第i個(gè)隱藏節(jié)點(diǎn)的輸出為:
式中:g、ωi、bi—激活函數(shù)、第i個(gè)隱藏節(jié)點(diǎn)與所有輸入節(jié)點(diǎn)之間的輸入權(quán)值向量、第i個(gè)隱藏節(jié)點(diǎn)的偏置,i=1,2,…,l。g—ReLU函數(shù),即:
輸入層和隱藏層之間的連接是一個(gè)映射的過(guò)程,因?yàn)檩斎氲奶卣飨蛄縳是一個(gè)P維空間特征向量,所以該連接是從P維空間映射到l維空間的過(guò)程。輸入向量x的映射特征向量為:
輸出層有m個(gè)輸出節(jié)點(diǎn),m為表情的種類數(shù),每個(gè)輸出節(jié)點(diǎn)對(duì)應(yīng)一種表情。第i個(gè)隱藏節(jié)點(diǎn)與第j個(gè)輸出節(jié)點(diǎn)間的輸出權(quán)值表示為βij,其中j=1,2,…,m。因此第j個(gè)輸出節(jié)點(diǎn)的值為:
因此,輸入樣本x,其在隱藏層的輸出向量可以表示為:
其中,
在測(cè)試階段,輸入測(cè)試集樣本x,對(duì)應(yīng)的表情類別表示為:
設(shè)有N個(gè)樣本,這N個(gè)樣本是CNN后三層提取的特征融合后具有n個(gè)屬的特征向量,則網(wǎng)絡(luò)的輸入和期望輸出分別表示為xi=[xi1,xi2,…,xim],yi=[yi1,yi2,…,yim]。由ELM分類器介紹部分的定義描述的極限學(xué)習(xí)機(jī)能夠以零誤差逼近訓(xùn)練樣本,即,因 此 存 在ωl,βij,bi使 得以矩陣形式可表示為:
式中的β與式(7)中的β相同,這里不再重復(fù)給出。H—隱含層輸出矩陣,隱含層與輸出層間的連接權(quán)值可以通過(guò)求解方程組min‖ ‖Hβ-Y的最小二乘解獲得。其解為:
式中:H+—隱含層輸出矩陣H的廣義逆矩陣。
數(shù)據(jù)集采用的是CK+和FER2013兩個(gè)公開數(shù)據(jù)集。CK+數(shù)據(jù)集包含123張不同人的面部表情圖像共593例表情序列,951張圖像樣本,共分為正常、生氣、厭惡、恐懼、開心、傷心和驚訝七種表情,七種表情樣例示意圖,如圖4所示。
圖4 CK+數(shù)據(jù)集表情樣例圖Fig.4 CK+ Expression Sample Diagram
FER2013 數(shù)據(jù)集包含35887 張來(lái)自實(shí)際生活中的不同年齡、不同國(guó)籍、不同膚色的自然人臉表情。FER2013數(shù)據(jù)集中七種表情分別是生氣、厭惡、害怕、高興、中性、悲傷、驚訝示例,如圖5所示。
圖5 FER2013數(shù)據(jù)集表情樣例圖Fig.5 FER2013 Set Expression Sample Diagram
考慮到FER2013數(shù)據(jù)集數(shù)據(jù)包含更加齊全,更加符合人類實(shí)際生活的場(chǎng)景,所以選用FER2013數(shù)據(jù)集訓(xùn)練和測(cè)試模型,用CK+驗(yàn)證模型是否具有泛化性。
這里實(shí)驗(yàn)是在PyCharm3.7編譯器內(nèi)完成的,編程語(yǔ)言使用的是Python3.6。深度學(xué)習(xí)框架選擇的是Google 的深度學(xué)習(xí)工具,TensorFlow框架。
3.2.1 多層特征和單一特征進(jìn)行對(duì)比
為了驗(yàn)證這里眾多特征融合方式可以提高面部表情識(shí)別準(zhǔn)確率,因此在公開的FER2013數(shù)據(jù)集上設(shè)計(jì)了兩組實(shí)驗(yàn)進(jìn)行及結(jié)果對(duì)比。
兩組實(shí)驗(yàn)設(shè)計(jì)分別為:第一組實(shí)驗(yàn)用CNN網(wǎng)絡(luò)提取的單層特征即最后一層平均池化層提取的特征輸入到ELM分類器中進(jìn)行表情識(shí)別并測(cè)試其識(shí)別準(zhǔn)確率。第二組實(shí)驗(yàn)是用CNN網(wǎng)絡(luò)后三層提取的特征進(jìn)行多特征融合后輸入ELM分類器中進(jìn)行表情識(shí)別并測(cè)出其識(shí)別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果,如圖6所示。
圖6 不同隱藏節(jié)點(diǎn)數(shù)目對(duì)應(yīng)的準(zhǔn)確率Fig.6 Accuracy of Different Number of Hidden Nodes
由圖6可知,隱藏層節(jié)點(diǎn)數(shù)目l是對(duì)識(shí)別準(zhǔn)確率影響很大的一個(gè)因素,當(dāng)l<10000時(shí),準(zhǔn)確率增加迅速,當(dāng)l>10000,準(zhǔn)確率增加緩慢,考慮到模型的訓(xùn)練時(shí)間和計(jì)算成本。本實(shí)驗(yàn)選取隱藏層節(jié)點(diǎn)數(shù)量l為10000。
由實(shí)驗(yàn)結(jié)果可知,當(dāng)l=10000時(shí),利用多層特征和利用單層特征的平均識(shí)別準(zhǔn)確率分別為78.97%和76.80%。l不論取何值時(shí),利用多層特征的識(shí)別準(zhǔn)確率均比利用單層特征的識(shí)別準(zhǔn)確率都要高出大約2個(gè)百分點(diǎn)。因此,實(shí)驗(yàn)證明了利用多層特征融合能顯著提高面部表情識(shí)別準(zhǔn)確率。
3.2.2 不同分類器的比較
極限學(xué)習(xí)機(jī)具有極易實(shí)現(xiàn),訓(xùn)練速度快,泛化能力強(qiáng),分類準(zhǔn)確度高的特點(diǎn),為驗(yàn)證ELM 分類器用在面部表情識(shí)別領(lǐng)域的也具有顯著優(yōu)勢(shì),分別從訓(xùn)練時(shí)間、識(shí)別速度和平均準(zhǔn)確率3個(gè)方面將ELM分類器與softmax分器和SVM分類器進(jìn)行了比較,實(shí)驗(yàn)結(jié)果,如表2所示。
表2 不同分類器性能比較Tab.2 Performance Comparison of Different Classifiers
由表可知,在準(zhǔn)確率方面,ELM 分類器分類準(zhǔn)確率高達(dá)97.63%,明顯高于Softmax和SVM。
在訓(xùn)練時(shí)間方面,ELM算法避免復(fù)雜繁瑣的復(fù)雜的迭代過(guò)程,它是通過(guò)隨機(jī)生成連接權(quán)值和偏置,因而訓(xùn)練過(guò)程中調(diào)參過(guò)程比較簡(jiǎn)單,需要調(diào)整的參數(shù)量少,計(jì)算的成本低,因此在訓(xùn)練時(shí)間上會(huì)明顯比其他兩類分類器花費(fèi)的時(shí)間少。在識(shí)別時(shí)間方面,ELM分類器的識(shí)別時(shí)間比其他兩類分類器大大縮短了時(shí)間,縮短到了5.32ms,節(jié)省了大量時(shí)間和成本。
3.2.3 其他數(shù)據(jù)集驗(yàn)證
在驗(yàn)證這里算法是否具有泛化性時(shí),使用CK+數(shù)據(jù)集作為這里算法模型的測(cè)試樣本,為了保證實(shí)驗(yàn)的可靠性,依次進(jìn)行3次交叉驗(yàn)證,求平均值作為最終結(jié)果。為了便于表示,識(shí)別結(jié)果用混淆矩陣表示,如表3所示。
表3 CK+數(shù)據(jù)集上表情識(shí)別混淆矩陣Tab.3 Confusion Matrix of Facial Expression Recognition on CK+
由表3可知,這里方法在CK+數(shù)據(jù)集上取得高達(dá)98.72%的平均識(shí)別率準(zhǔn)確率,說(shuō)明了這里提出的模型具有很好的泛化能力。
這里首次把CNN-MCF-ELM模型用在面部表情識(shí)別領(lǐng)域,該模型的提出改善了現(xiàn)有的大多數(shù)面部表情識(shí)別算法泛化能力弱、識(shí)別效率低等一些問(wèn)題,在設(shè)計(jì)模型時(shí)考慮到了充分利用CNN多層特征的全面性和差異性、ELM訓(xùn)練時(shí)間短、參數(shù)計(jì)算量少的優(yōu)勢(shì)。這里提出的算法優(yōu)點(diǎn)如下:
(1)利用CNN網(wǎng)絡(luò)優(yōu)秀的特征提取能力,避免了手動(dòng)選取特征的局限性,通過(guò)自動(dòng)學(xué)習(xí)獲得特征,在復(fù)雜環(huán)境下具有更好的適應(yīng)性。
(2)利用ELM分類器作為表情識(shí)別階段的分類器,大大減少了需要調(diào)整的參數(shù)量,從而避免了繁瑣的數(shù)學(xué)計(jì)算過(guò)程,可以縮短模型訓(xùn)練時(shí)間,提高識(shí)別效率。
(3)利用多特征融合的全面性特點(diǎn)提高了CNN提取的人臉表情特征更具有表征性,從而提高了面部表情識(shí)別率。
(4)該模型算法具有良好的泛化能力,對(duì)實(shí)際應(yīng)用有一定的指導(dǎo)意義。