基于積分投影和LSTM的微表情識(shí)別研究

2017-04-26 08:40李競(jìng)李董東杜玉改成鵬

計(jì)算機(jī)時(shí)代 2017年4期

關(guān)鍵詞：精度

李競(jìng)+李董東+杜玉改++成鵬

摘要：現(xiàn)有的微表情識(shí)別研究主要是利用基于局部二值模式（LBP）改進(jìn)的算法并結(jié)合支持向量機(jī)（SVM）來識(shí)別。最近，積分投影開始應(yīng)用于人臉識(shí)別領(lǐng)域。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM）作為循環(huán)神經(jīng)網(wǎng)絡(luò)，可以用來處理時(shí)序數(shù)據(jù)。因此提出了結(jié)合積分投影和LSTM的模型（LSTM-IP），在最新的微表情數(shù)據(jù)庫(kù)CASME II上進(jìn)行實(shí)驗(yàn)。通過積分投影得到水平和垂直投影向量作為L(zhǎng)STM輸入并分類，同時(shí)采用了防止過擬合技術(shù)。實(shí)驗(yàn)結(jié)果表明，LSTM-IP算法取得了比以前的方法更好的精度。

關(guān)鍵詞：積分投影；循環(huán)神經(jīng)網(wǎng)絡(luò)；長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)；防止過擬合技術(shù)；精度；留一法

中圖分類號(hào)：TP391.4 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1006-8228（2017）04-13-04

Abstract： The existing research on micro expression recognition is mainly based on the improved LBP （local binary patterns） algorithm and SVM （support vector machine）. Recently， integral projection has been applied in the field of face recognition. The long and short memory network （LSTM）， as a kind of recurrent neural network， can be used to process time series data. So LSTM-IP model， which combines integral projection with LSTM， is proposed， and experimented on the latest micro-expression database CASME II. The horizontal and vertical projection vectors obtained by integral projection are used as the input of LSTM and classified， and the over-fitting preventing method is used. The experimental results show that LSTM-IP algorithm gets better results than the previous method.

Key words： integral projection； recurrent neural network； long and short memory network； prevent over-fitting； accuracy； leave-one-subject-out cross validation

0 引言

人們表情的短時(shí)間變化，也叫微表情，心理學(xué)在這方面的研究很早就開始了。近年來，有關(guān)利用機(jī)器學(xué)習(xí)的方法來對(duì)微表情進(jìn)行研究的學(xué)者越來越多，其成為當(dāng)前一個(gè)熱門研究方向。微表情的研究成果可用于測(cè)謊[2-4]、臨床診斷等方面，因?yàn)橐话闳思幢闶切睦磲t(yī)生也很難注意到1/25～1/5秒人表情的變化[1]，而這時(shí)，機(jī)器可以很好的對(duì)微表情進(jìn)行自動(dòng)的識(shí)別。

最近，基于積分投影和紋理描述符的方法被用在人臉識(shí)別[5]，然而，很少有研究將積分投影用于包含人臉的時(shí)間序列中進(jìn)行識(shí)別。微表情與人臉識(shí)別有很大不同，特征很難單從每幀圖片中提取，這時(shí)就需要考慮時(shí)間軸。LSTM可以對(duì)時(shí)序數(shù)據(jù)進(jìn)行分類，以前基本用在語(yǔ)音識(shí)別和自然語(yǔ)言處理的任務(wù)中，很少用于圖像識(shí)別，可能是因?yàn)長(zhǎng)STM處理的是一維的數(shù)據(jù)，而圖像是二維的數(shù)據(jù)。將圖像的二維信息積分投影到一維（水平方向和垂直方向），并以此作為L(zhǎng)STM的輸入并分類，這樣就能將二者很好的結(jié)合起來。

本文構(gòu)造了基于積分投影和LSTM的深度學(xué)習(xí)的模型來對(duì)微表情進(jìn)行識(shí)別。得到的結(jié)果不僅比以前的基于局部二值模式（LBP）的方法好，而且也略微的優(yōu)于最近基于積分投影的論文中的方法。

1 CASME II微表情數(shù)據(jù)集介紹

2014年，中科院心理研究所建立了更進(jìn)一步改進(jìn)的自然誘發(fā)的微表情數(shù)據(jù)庫(kù)CASMEII[8]。CASMEII有26個(gè)平均年齡為22歲左右的亞洲人，9類表情（happiness， surprise， disgust， fear， sadness， anger， repression， tense， negative）組成。用來錄制的高速相機(jī)為200 fps。高速相機(jī)可以捕捉更細(xì)節(jié)的微表情。CASMEII是據(jù)我們所知目前最好的自然誘發(fā)的微表情數(shù)據(jù)庫(kù)。

2 基于差分圖像的積分投影

Mateos等人的開拓性工作[6-7]表明積分投影可以提取同一人臉圖像的共同基本特征。積分投影將人臉的特征水平和垂直投影，可以用公式⑴和⑵表示：

其中It（x，y）表示時(shí)間為t時(shí)，圖像位于（x，y）時(shí)的像素值，Ht（y）和Vt（x）表示水平和垂直積分投影。直接將積分投影應(yīng)用到CASME II微表情數(shù)據(jù)集上效果如圖1所示。

然而，由于微表情的變化是十分微小的，若直接采用上面的積分投影會(huì)有很多噪聲，從圖1（c）可以看出區(qū)分不是很明顯。因此，我們采用改進(jìn)的積分投影方法?？梢杂霉舰呛廷缺硎荆?/p>

我們將每個(gè)視頻下的2到N幀微表情的圖像減去第1幀，將得到的差分圖像做積分投影，效果如圖2所示。

從圖2的（c）可以看出，采用基于差分圖像的水平積分投影效果更好，去掉了不必要的噪聲。

3 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）可以用來處理時(shí)序數(shù)據(jù)，但它有一個(gè)明顯的缺陷，就是不能記憶發(fā)生在較久以前的信息。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM）[9]是一種特殊的RNN，比RNN多了一些特殊的門和細(xì)胞，可以學(xué)習(xí)長(zhǎng)期依賴信息。LSTM結(jié)構(gòu)如圖3所示。

最上面橫著帶箭頭的線包含細(xì)胞單元，作用是記憶之前LSTM單元的信息。x和+表示點(diǎn)分的乘法與加法，表示Sigmoid激活函數(shù)（如公式⑸），tanh表示雙曲正切激活函數(shù)（如公式⑹）。

最下面圓圈中的X和最上面圓圈中的h分別表示時(shí)序輸入和輸出。

通用的LSTM結(jié)構(gòu)可以參考圖4，圖4中，底層節(jié)點(diǎn)為輸入，頂層節(jié)點(diǎn)為輸出，中間層為隱藏層節(jié)點(diǎn)或記憶塊。（a）描述的是傳統(tǒng)的感知機(jī)（MLP）網(wǎng)絡(luò)，即不考慮數(shù)據(jù)的時(shí)序性，認(rèn)為數(shù)據(jù)是獨(dú)立的；（b）將輸入序列映射為一個(gè)定長(zhǎng)向量（分類標(biāo)簽），可用于文本、視頻分類；（c）輸入為單個(gè)數(shù)據(jù)點(diǎn)，輸出為序列數(shù)據(jù)，典型的代表為圖像標(biāo)注；（d）這是一種結(jié)構(gòu)序列到序列的任務(wù)，常被用于機(jī)器翻譯，兩個(gè)序列長(zhǎng)度不一定相等；（e）這種結(jié)構(gòu)會(huì)得到一個(gè)文本的生成模型，每詞都會(huì)預(yù)測(cè)下一時(shí)刻的字符。

4 LSTM-IP模型

因?yàn)镃ASME II數(shù)據(jù)集每個(gè)視頻下微表情圖像幀數(shù)是不一樣的，為了方便我們統(tǒng)一LSTM的輸入，所以我們提取了最能代表這個(gè)視頻微表情的10幀，同時(shí)，本文將整個(gè)數(shù)據(jù)集圖像的尺寸統(tǒng)一到200×200像素，將原來彩色圖像轉(zhuǎn)化為灰度圖像。通過基于差分圖像的積分投影，得到一個(gè)視頻下差分圖像每幀圖像的水平和垂直投影，一個(gè)圖像可以得到一個(gè)200維的水平向量和一個(gè)200維的垂直向量，因?yàn)椴罘謭D像是后面9張減去了第一張圖像，所以一個(gè)視頻下共有9個(gè)水平向量和9個(gè)垂直向量，初始化兩個(gè)9×200大小的一維向量分別保存水平向量和垂直向量。

本文采用圖4（b）和圖4（e）結(jié)合的LSTM結(jié)構(gòu)，如圖5所示。

頂層的X_IP表示將一個(gè)視頻下9個(gè)差分圖像的水平投影組成的9×200的一維特征向量作為輸入，經(jīng)過第一層LSTM得到9×128的一維特征向量，接著經(jīng)過第二層LSTM得到9×128的一維特征向量，最后經(jīng)過一層LSTM得到一個(gè)128的特征向量，Y_IP也是同樣的處理過程。最后將這兩部分的128的特征向量連接起來作為一個(gè)256的特征向量輸入softmax分類器，結(jié)果輸出屬于五類微表情的哪一類。在圖5的每?jī)蓪又g加入一層Dropout層，Dropout的比率設(shè)為0.5。LSTM內(nèi)部參數(shù)初始化采用了glorot_normal，相比較于其他初始化方法，glorot_normal效果最好。

Softmax和Dropout在深度學(xué)習(xí)中都是常用的技術(shù)。Softmax是邏輯斯特回歸應(yīng)用于多分類的推廣。Dropout[10]這種技術(shù)的作用是減少過擬合，是一種正則化技術(shù)，通過防止由完全連接的層引起神經(jīng)元的參數(shù)過多，有助于減少神經(jīng)網(wǎng)絡(luò)的過度擬合問題。給定 dropout率p，其在我們的LSTM中被設(shè)置為0.5，50%單位將被保留，而另外50%將被放棄。簡(jiǎn)單地說，“Dropout”只是隨機(jī)忽略一些神經(jīng)元。然而在測(cè)試階段，每個(gè)神經(jīng)元的輸出將通過因子1-p（保持率）加權(quán)以保持與訓(xùn)練階段中產(chǎn)生相同的效果。如圖6所示。

我們的實(shí)驗(yàn)采用基于Theano的keras框架，keras借鑒了Torch的搭建深度學(xué)習(xí)網(wǎng)絡(luò)的方式，而且使用筆者比較熟悉的Python語(yǔ)言（Torch使用Lua語(yǔ)言），keras的底層可以是Theano或者Tensorflow，可能是因?yàn)閗eras最先在Theano開發(fā)的，經(jīng)過實(shí)驗(yàn)比較單個(gè)GPU下，Theano的速度要比Tensorflow快，所以我們的底層采用Theano。

5 實(shí)驗(yàn)結(jié)果與分析

現(xiàn)在微表情識(shí)別的算法主要是基于LBP改進(jìn)的算法，例如LBP-TOP[11]（Local Binary Pattern-Three Orthogonal Planes）、LBP-SIP[12]（LBP-Six Intersection Points）和LOCP-TOP[13]（Local ordinal contrast pattern-

TOP）等。我們將LSTM-IP算法與以前的方法做了比較，如表1所示。

實(shí)驗(yàn)是在CASME II上做的，因?yàn)镃ASME II微表情數(shù)據(jù)集是最新最好的微表情數(shù)據(jù)集。STLBP-IP也是基于積分投影的，結(jié)合了1DLBP來提取特征。通過表1的比較我們發(fā)現(xiàn)，基于積分投影的算法效果好于原來基于LBP的算法，可以得出，采用提取積分投影特征的方法在微表情數(shù)據(jù)集CASME II上效果比較好?？梢钥闯?，STLBP-IP的性能優(yōu)于文獻(xiàn)[27]的重新實(shí)現(xiàn)，STLBP-IP的精度提高了20.64%。從表1中可知，時(shí)間插值法（TIM）可以提高LBP-TOP的性能，其中LBP-TOP增加到39.68%。然而，與STLBP-IP相比，LBP-TOP在微表情識(shí)別上的效果上有很大的差距（19.43%）。比較兩種基于積分投影的方法，本文提出的方法略微好于STLBP-IP，但通過閱讀STLBP-IP的論文筆者發(fā)現(xiàn)，這種方法存在繁瑣的調(diào)參過程，比如圖像如何分塊，SVM核參數(shù)的選擇，而本文提出的LSTM-IP算法可以自動(dòng)從差分圖像的積分投影中學(xué)習(xí)，調(diào)參的內(nèi)容比較少，而且速度也很快。這些結(jié)果表明，LSTM-IP實(shí)現(xiàn)了令人滿意的效果，而不是LOCP-TOP和LBP-SIP。這部分地解釋了LSTM-IP通過使用積分投影來保持形狀和辨識(shí)的能力。

實(shí)驗(yàn)采用了留一法交叉驗(yàn)證，CASME II有26個(gè)subjects，通過把每個(gè)subject作為測(cè)試，其余作為訓(xùn)練，循環(huán)26次，最后把每次測(cè)試得到的正確視頻個(gè)數(shù)相加除以總的視頻數(shù)，得到識(shí)別精度，這種方法現(xiàn)在是微表情識(shí)別主流的驗(yàn)證方法。

6 結(jié)束語(yǔ)

基于差分圖像的積分投影方法，保存了我們微表情形狀的特征，然后增強(qiáng)微表情的辨別力。深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域已經(jīng)取得了很不錯(cuò)的成績(jī)，而現(xiàn)在深度學(xué)習(xí)的技術(shù)還沒有應(yīng)用于微表情識(shí)別。本文將差分圖像的積分投影與LSTM結(jié)合，從實(shí)驗(yàn)結(jié)果上看，結(jié)果要好于以前的方法。我們認(rèn)為深度學(xué)習(xí)的探索不會(huì)停止，會(huì)有越來越多新的網(wǎng)絡(luò)模型產(chǎn)生，也會(huì)有越來越多的深度學(xué)習(xí)的技術(shù)應(yīng)用于微表情識(shí)別。

我們將繼續(xù)探索基于深度學(xué)習(xí)的微表情識(shí)別的方法及技術(shù)手段。卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別上取得了很好的成績(jī)，但筆者也將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于微表情上，效果并不好，可能是因?yàn)槲⒈砬樵趫D像上變化比較細(xì)微，卷積神經(jīng)網(wǎng)絡(luò)不容易捕捉到特征，但如果考慮了一個(gè)視頻時(shí)間序列的特性，也許會(huì)有比較好的結(jié)果，對(duì)此還有待進(jìn)一步研究。隨著技術(shù)的進(jìn)步，相信微表情識(shí)別效果會(huì)越來越好，并最終能夠應(yīng)用于我們的生活中。

參考文獻(xiàn)（References）：

[1] Ekman P. Micro Expressions Training Tool[M]. Emotion-

srevealed. com，2003.

[2] Ekman P. Darwin， deception， and facial expression[J].

Annals of the New York Academy of Sciences，2003.1000（1）：205-221

[3] Ekman P. Lie catching and microexpressions[J]. The

philosophy of deception，2009：118-133

[4] Ekman P， O'Sullivan M. From flawed self-assessment to

blatant whoppers： the utility of voluntary and involuntary behavior in detecting deception[J]. Behavioral sciences & the law，2006.24（5）：673-686

[5] Benzaoui A， Boukrouche A. Face recognition using 1dlbp

texture analysis[J]. Proc. FCTA，2013： 14-19

[6] Mateos G G. Refining face tracking with integral projections

[C]//International Conference on Audio-and Video-Based Biometric Person Authentication. Springer Berlin Heidelberg，2003： 360-368

[7] García-Mateos G， Ruiz-Garcia A， López-de-Teruel P

E. Human face processing with 1.5 D models[C]//International Workshop on Analysis and Modeling of Faces and Gestures. Springer Berlin Heidelberg，2007：220-234

[8] Yan W J， Li X， Wang S J， et al. CASME II： An improved

spontaneous micro-expression database and the baseline evaluation[J]. PloS one， 2014.9（1）：e86041

[9] Hochreiter S， Schmidhuber J. Long short-term memory[J].

Neural computation，1997.9（8）：1735-1780

[10] Hinton G E， Srivastava N， Krizhevsky A， et al. Improving

neural networks by preventing co-adaptation of feature detectors[J]. Computer Science，2012.3（4）：212-223

[11] Zhao G， Pietikainen M. Dynamic texture recognition

using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence，2007.29（6）.

[12] Wang Y， See J， Phan R C W， et al. Lbp with six

intersection points： Reducing redundant information in lbp-top for micro-expression recognition[C]//Asian Conference on Computer Vision. Springer International Publishing，2014：525-537

[13] Chan C H， Goswami B， Kittler J， et al. Local ordinal

contrast pattern histograms for spatiotemporal， lip-based speaker authentication[J]. IEEE Transactions on Information Forensics and Security，2012.7（2）：602-612

[14] Huang X， Wang S J， Zhao G， et al. Facial

micro-expression recognition using spatiotemporal local binary pattern with integral projection[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops，2015：1-9

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于積分投影和LSTM的微表情識(shí)別研究