鄭昌金 章登義 蘇科華 武小平 洪 程
(武漢大學計算機學院 武漢 430072)
基于LBP特征和熵正則化Wasserstein距離的人臉表情識別
鄭昌金 章登義 蘇科華 武小平 洪 程
(武漢大學計算機學院 武漢 430072)
針對K最近鄰分類中相似度量的量化問題,結合最優(yōu)傳輸理論中Wasserstein距離數(shù)學特性,提出一種基于LBP特征和熵正則化Wasserstein距離的K近鄰分類方法。首先對人臉表情圖像進行預處理,然后使用LBP算子對圖像進行特征提取獲得LBP特征直方圖,最后使用熵正則化的Wasserstein距離作為特征直方圖之間的相似性度量的K最近鄰分類方法進行人臉表情識別分類。實驗結果表明該方法相較于單純基于LBP的方法識別率有較大提高。
最優(yōu)傳輸; Wasserstein距離; 人臉表情識別; 熵正則化; K最近鄰分類
Class Number TP391.4
人臉是人最重要的外貌特征,人臉表情是人類內在心里活動的外在反應,在人與人之間的情感表達和人際交往中起著非常重要的作用?;诿娌勘砬榈难芯恳呀洆碛幸欢魏荛L的歷史,20世紀70年代美國心理學家Ekman和Friesen[1]經過充分的實驗,將人類表情定義為6種基本類型:開心、生氣、難過、害怕、吃驚和厭惡,并指出這6種基本表情對不同種族具有普遍的適應性。心里學家Mehrabian[2]指出,人臉表情在人類日常交流中所傳遞的信息高達信息總量的55%。隨著機器學習、數(shù)據(jù)挖掘和大數(shù)據(jù)時代的到來,基于人臉表情識別的數(shù)據(jù)挖掘和模式識別為人工智能的發(fā)展注入了新的活力,推動了人工智能領域研究的新一代浪潮。
人臉表情識別主要包含人臉檢測、特征提取和特征分類三個方面的內容。圖像識別所使用的特征提取主要分為幾何特征和紋理特征。基于幾何特征提取方法在提取人臉表情特征時一方面對人臉表情圖像質量要求較高,另一方面忽略了臉部的紋理信息,在表情變化細微時識別率較低,因此本文采用基于紋理特征提取方法中比較常用的局部二值模式(LBP)特征。LBP算子由T.Ojala[3]提出,它是一種用來描述圖像局部紋理特征的算子,具有計算簡單、灰度不變性等優(yōu)點,是通過比較周圍像素點和中心點的大小來得到局部紋理特征的描述數(shù)據(jù)。2004年,T.Ahonen[4]首次在人臉識別中引入LBP。2006年,T.Ahonen在文獻[5]中對LBP算法進行了改進。目前已經有許多基于LBP特征的人臉表情識別的研究,如蔣銳[6]提出基于多重中心化二值模式MLBP的人臉表情識別、齊興[7]提出基于區(qū)域塊LBP特征的人臉表情識別、葉棪[8]提出基于多尺度等價模式LBP的表情識別。
基于LBP特征表情識別主要采用K最近鄰(KNN)[9]分類方法進行分類,但目前的研究大都是基于LBP特征的改進,對KNN分類方法中所使用的歐氏距離、曼哈頓距離等相似性度量存在的量化問題卻少有研究,針對該問題并結合Wasserstein距離的數(shù)學特性,本文提出一種基于LBP特征和熵正則化Wasserstein距離的KNN人臉表情識別方法,使用Wasserstein距離可以很好地表征兩個特征直方圖之間的相似性。本文首先使用LBP算子對預處理之后的圖像進行特征提取獲得特征向量,然后結合最優(yōu)傳輸理論中的Wasserstein距離和信息論中的熵,用熵正則化的Wasserstein距離作為圖像之間相似性的度量進行K最近鄰分類。
2.1 局部二值模式(LBP)
原始的LBP算子定義在3*3的窗口內,以窗口中心像素為閾值,在給定的局部區(qū)域內的中心像素點像素值為gc,設以其為中心點的窗口近鄰的8個點像素值分別為g1、g2、g3、g4、g5、g6、g7、g8,則3*3鄰域內的8個點經比較可產生8位二進制數(shù)(通常轉換為十進制數(shù)即LBP碼,共256種),二值化比較處理過程中若滿足gi>gc,i=1,…,8則置為1,反之就置為0,最后使用下列公式轉化為十進制數(shù)值。
(1)
單個像素點的二值化處理如圖1所示。
圖1 單個像素點的LBP特征計算示例
2.2 最優(yōu)傳輸理論和Wasserstein距離
最優(yōu)傳輸問題已經有了一段很長的歷史,最優(yōu)傳輸問題的數(shù)學提法如下:給定歐氏空間中的區(qū)域U,V?R2,分配有概率密度u,v,總的測度相同滿足:
∫Uu=∫Vv
(2)
考察一個微分同胚f:U→V,說這個映射是保測度的,對于任意一個集合B?V,其對應的原像滿足:
∫f-1(B)u=∫Bv
(3)
稱映射是保測度的,那么映射f:U→V的傳輸代價定義為
(4)
所有保測度映射中使得傳輸代價最小者就是最優(yōu)傳輸映射。最優(yōu)傳輸映射所計算的最小距離也就是Wasserstein距離。
人臉表情識別的最終任務就是通過某種準則來判斷兩種表情之間的相似性,而圖像之間的相似性是以距離來反應的。從圖像提取的LBP特征以特征統(tǒng)計直方圖形式來表征,每幅圖像的特征就組成一個特征向量。傳統(tǒng)的距離度量從計算公式可以看出只考慮了兩個空間向量之間的累積差異,卻忽略了對應單個元素之間的差異。然而,特征向量每個位置的元素都代表一種LBP碼的統(tǒng)計量,具有特定的意義。如特征直方圖中第k個元素表示圖像中LBP碼取值為k的像素點的個數(shù)。從圖像中所提取的特征向量因而就滿足一個概率分布,而不僅僅是一個普通向量。使用傳統(tǒng)的距離作為圖像之間的相似性度量,將特征向量簡單地當做普通向量處理,度量精度會存在較大的誤差。因此,結合Wasserstein距離的數(shù)學特性,它對衡量不同概率分布之間的相似性具有很好的效果,因此本文采用最優(yōu)傳輸理論中的Wasserstein距離來作為相似性度量。
在數(shù)學領域,Wasserstein距離作為一個距離的度量已經廣泛地應用到概率論和數(shù)理統(tǒng)計中。它的數(shù)學定義如下:假設d(x,y)是一個度量,f(x)和g(x)是n維歐氏空間空間的概率分布函數(shù)。h(x,y)是聯(lián)合分布函數(shù),并且它的兩個邊際分布滿足∫h(x,y)dx=g(y)和∫h(x,y)dy=f(x)。對于?p>0,Wasserstein距離wp滿足如下
(5)
min代表對于所有可能的h(x,y)所計算的距離取最小,p的一般取值為2。
2.3 熵正則化最優(yōu)傳輸
最優(yōu)傳輸中Wasserstein距離的原始計算辦法是用線性規(guī)劃求解,求解的核心就是找出所有聯(lián)合分布中使得距離最小的方案。直接對所得特征向量進行相似度計算,計算復雜度會隨著特征向量維度增加而變得非常復雜。為降低人臉表情識別中求解Wasserstein距離的時間復雜度,采用熵正則化約束的最優(yōu)傳輸理論中通過在Wasserstein距離的基礎之上增加熵項的方法[10~11],這種正則化具有許多優(yōu)點,一方面將最優(yōu)傳輸問題轉化為一個嚴格凸問題,另一方面可以使用矩陣擴張算法中著名的Sinkhorn[12]不動點迭代來快速求解,理論證明可參考Cuturi[10]。根據(jù)信息論中熵的定義,為聯(lián)合分布定義熵約束如下
H(h)=-?h(x,y)lnh(x,y)dxdy
(6)
因此式(2)中的Wasserstein距離增加熵約束項之后可以定義熵正則化Wasserstein距離為如下形式:
(7)
當α>0,所要求解的h(x,y)是一個絕對連續(xù)的度量,否則,正則化熵項是不定的。通過增加-H(h)這一熵項約束讓式(8)這個距離函數(shù)是嚴格凸函數(shù),因此必定存在唯一的最優(yōu)解。上述式子需要花費函數(shù)來表示從X到Y的運輸花費,依據(jù)Cuturi的理論,運輸花費函數(shù)的選擇具有獨立性。為方便計算定義核Kernel滿足下式:
κ(x,y)=e-td(x,y)2
(8)
對于所有t>0,Kernel是正定的,將式(8)中定義的Kernel帶入式(7)中,得到如下式(9):
(9)
在實際求解過程中令t=1/α。
3.1 熵正則化Wasserstein距離的計算
(10)
符號.*和./表示向量或矩陣之間對應元素的依次相乘和相除。
給定歐氏距離矩陣C依據(jù)式(8)得到正定矩陣K,Sinkhorn定理[13]表明存在唯一一個矩陣H滿足如下的形式H=diag(p)Kdiag(q)并使得H∈P(M×M)。因此給定C和兩個邊際分布x和y,首先初始化兩個m維(特征向量維度)的向量p和q,并由這兩個向量構造出對角矩陣diag(p)和diag(q),然后使用矩陣擴張算法可以快速收斂,基于Sinkhorn不動點迭代的求解過程如下:
輸入:兩張人臉表情圖像
輸出:正則化Wasserstein距離d
1) 對輸入的人臉表情圖像進行預處理,提取局部LBP特征并得到特征向量;
3) 初始化代價C為歐氏距離矩陣,初始化向量p和q為1;
4) //Sinkhorn迭代;
5) While(Δ(p)<ε){
6) p=x./K(a.*q);
7) q=y./KT(a.*p);
8) 計算Δ(p);
9) }//迭代向量p和q;
10) 使用式(10)計算d;
3.2 KNN人臉表情識別的步驟
人臉表情識別過程主要由三部分構成:圖像預處理、特征提取、KNN圖像識別分類。
1) 圖像預處理
本文選擇表情識別實驗中常用的JAFFE[14]人臉表情數(shù)據(jù)庫,該數(shù)據(jù)庫中包含10位日本女性的生氣、高興、厭惡、驚訝、害怕、悲傷、中性7種表情,其中每人每種表情包含有3~4幅,考慮到JAFFE數(shù)據(jù)庫表情原圖中包含大量背景,因此首先選取一定數(shù)量的樣本并選擇臉部位置適中的地方進行統(tǒng)一的裁剪,圖像的初始大小為256×256,裁剪之后大小為128×128,并把樣本分為訓練樣本和測試樣本兩類。然后對所有樣本采用高斯低通濾波來對圖像進行平滑,過濾掉初始樣本圖像的部分噪點。裁剪之前的圖像和裁剪后經過濾波處理的圖像如圖2所示。
圖2 裁剪前后圖像
2) 特征提取
對預處理之后的所有樣本進行特征提取,首先將一幅圖像劃分為互不相交的若干子區(qū)域如圖3(a)所示,劃分區(qū)塊大小為32×32,然后對每一區(qū)域進行LBP特征提取,得到每個區(qū)域的LBP特征直方圖,最后將每個區(qū)域的直方圖歸一化后組成特征向量,區(qū)域劃分之后第一塊和第二塊的LBP特征直方圖如圖3(b)、3(c)所示。
圖3 特征直方圖
3) KNN圖像識別分類
以正則化的Wasserstein距離作為KNN分類中的相似度量,首先對訓練樣本中的不同表情賦予不同的標簽,本文對六種表情分類,標簽取值為1表示生氣、2表示厭惡、3表示害怕、4表示高興、5表示悲傷、6表示驚訝,然后計算每一個測試樣本特征向量和訓練樣本特征向量之間的距離,依據(jù)所設定的K值記錄距離每一個測試樣本最近的K個訓練樣本中標簽,最后將計數(shù)最多的標簽值作為該測試樣本所屬的表情類別。
本文從JAFFE數(shù)據(jù)庫中選擇10位女性的前6種表情各3張共180張進行實驗,其中每人每種表情2張共120張組成訓練集,剩余每人每種表情各1張共60張作為測試集。
首先考察了KNN算法中K值對本文中的方法產生的影響,如下表1列出了K取不同值對準確率的影響,記平均識別率為c,每種測試表情的數(shù)量各10共60幅,每種表情實際識別數(shù)量為ri,i=1,2,3,4,5,6,則計算平均識別率如下:
(11)
表1 5種K值下人臉表情識別率
通過實驗結果可以表明K值的選擇,對于分類結果的正確率存在一定的影響,當K值很小時,識別率很高但可能存在擬合,當K值變大時,雖然將更多的訓練實例加入進行參考但是與此同時也會將與測試實例較遠的訓練實例加入增大了誤差,因此選擇適當大小的K值也至關重要。
接著選擇表1中K值效果適中的值3并固定這個參數(shù),對本文所采用的度量和KNN中常用的歐氏度量、角度距離、曼哈頓距離的效果進行對比,對比結果如表2所示。
表2 5種距離度量人臉表情識別率
從表2中可以看出在固定參數(shù)K值之后,在保證相同的圖像預處理,特征提取后特征向量相同的前提下,采用基于熵正則化Wasserstein距離的方法和其他幾種距離度量相比較,具有更高的平均識別率,通過Wasserstein距離作為相似性度量提高了識別率,具有較好的效果。
最后就本文方法和文獻[8]中方法進行對比,依次以120張樣本中的每張表情作為測試樣本,剩余的119張作為訓練樣本,最后按照不同的表情類別統(tǒng)計識別率,實驗數(shù)據(jù)對比如圖4所示。
圖4 本文方法和文獻[8]方法對比圖
從圖中可以看出本文方法除高興、悲傷以外其它表情的識別率都高于文獻[8]中的方法。本文方法、文獻[8]中的方法的平均識別率分別為92%、90%,從實驗對比結果來看,本文方法平均識別率更高,從而說明使用Wasserstein距離相較于傳統(tǒng)距離來作為滿足一定概率分布的LBP特征直方圖的相似度度量更加合適,驗證了本文方法的有效性和可行性。
本文結合最優(yōu)傳輸理論研究的應用和其中最優(yōu)方案度量Wasserstein距離的數(shù)學特性,并結合最優(yōu)傳輸問題基于熵正則化最新求解方法,將熵正則化的Wasserstein距離作為圖像之間的相似性度量應用到人臉表情識別中,使用最優(yōu)傳輸?shù)淖钚〈鷥r來表示不同特征分布之間的距離,避免了目前大多數(shù)度量中存在的量化問題,并通過實驗結果證實了這種方法的有效性和可行性。
在以后的研究中,考慮將本文中的方法擴展到其它應用例如3D圖像分類、圖像插值、曲面圖像識別和其他的工程領域。
[1] Ekman, P., Friesen, W. V. Facial Action Coding System. Palo Alto[M]. CA: Consulting Psychologists Press,1978.
[2] Mehrabian A, Russell J A. An approach to environmental psychology[M]. Cognition & Psychology,1974.
[3] Ojala T, Pietik?inen M, M?enp?? T. Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2002,24(7):971-987,1-987.
[4] Ahonen T, Hadid A, Pietik?inen M. Face Recognition with Local Binary Patterns[J]. Lecture Notes in Computer Science,2004,3021:469-481.
[5] Ahonen T, Hadid A, Pietik?inen M. Face description with local binary patterns: application to face recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2006,28(12):2037-2041.
[6] 姜銳,許建龍,張愛朋.基于改進LBP的人臉表情識別[J].浙江理工大學學報,2013,30(4):546-549. JIANG Rui, XU Jianlong, ZHANG Aipeng. Facial expression recognition based on improved LBP feature[J]. Journal of Zhejiang Sci-tech University,2013,30(4):546-549.
[7] 齊興,蘇本躍.基于區(qū)域塊LBP特征的人臉表情識別[J].安慶師范學院學報:自然科學版,2015,21(4):48-51. QI Xing, SU Benyue. Expression recognition based on block-area LBP features[J]. Journal of Anqing Normal University: Natural Sciences,2015,21(4):48-51.
[8] 葉棪,陳蕾,龐作超,等.基于多尺度等價模式LBP的人臉表情識別[J].計算機與數(shù)字工程,2016(1):40-44. YE Tan, CHEN Lei, CHANG Chao, et al. Facial expression recognition based on multi-scale LBP equivalent model[J]. Computer and Digital Engineering,2016(1):40-44.
[9] Short R D, Fukunaga K. A new nearest neighbor distance measure[C]//Proc. Fifth IEEE Int’l Conf. Pattern Recognition,1980:81-86.
[10] Cuturi M. Sinkhorn Distances: Lightspeed Computation of Optimal Transportation Distances[J]. Advances in Neural Information Processing Systems,2013,26:2292-2300.
[11] Solomon J, De Goes F, Peyr, Gabriel, et al. Convolutional wasserstein distances: efficient optimal transportation on geometric domains[J]. Acm Transactions on Graphics,2015,34(4):513-526.
[12] Sinkhorn R. A Relationship Between Arbitrary Positive Matrices and Doubly Stochastic Matrices[J]. Annals of Mathematical Statistics,1964,18(2):876-879.
[13] Sinkhorn R. Diagonal equivalence to matrices with perscribed row and column sums[J]. American Mathematical Monthly,1967,74(4):402-405.
[14] Lyons M, Akamatsu S, Kamachi M, et al. Coding facial expressions with Gabor wavelets[C]//IEEE International Conference on Automatic Face and Gesture Recognition, 1998. Proceedings,1998:200-205.
Facial Expression Recognition Based on LBP Features and Entropy-regularized Wasserstein Distance
ZHENG Changjin ZHANG Dengyi SU Kehua WU Xiaoping HONG Cheng
(School of Computer, Wuhan University, Wuhan 430072)
To solve quantification of similarity measure in the K-nearest neighbor classification, a KNN method is proposed based on LBP features and entropy-regularized Wasserstein distance, by combining the mathematical properties of Wasserstein distance in optimal mass transportation theory. Firstly, facial expression images are preprocessed. Secondly, LBP operator is applied to extract LBP feature histograms. Lastly, the K-nearest neighbor method with entropy-regularized Wasserstein distance as the similarity measure between feature histograms is used to recognize and classify facial expressions. Experimental results show that compared to the methods based on LBP only, the method greatly increases the recognition rate.
optimal mass trassportation, Wasserstein distance, human facial expression recognition, entropic regularization, K-nearnest neighbor classification
2016年8月5日,
2016年9月21日
湖北省科技支撐計劃(編號:2014BAA149)資助。
鄭昌金,男,碩士研究生,研究方向:計算機圖形圖像。章登義,男,碩士,教授,研究方向:計算機視覺。蘇科華,男,博士,副教授,研究方向:計算機圖形圖像。武小平,男,博士,副教授,研究方向:計算機安防和實時監(jiān)控。洪程,男,碩士研究生,研究方向:計算機圖形圖像。
TP391.4
10.3969/j.issn.1672-9722.2017.02.010