鄭秋梅,呂興會(huì),時(shí)公喜
(中國(guó)石油大學(xué)計(jì)算機(jī)與通信工程學(xué)院,山東東營(yíng)257061)
基于多特征集成分類器的人臉表情識(shí)別
鄭秋梅,呂興會(huì),時(shí)公喜
(中國(guó)石油大學(xué)計(jì)算機(jī)與通信工程學(xué)院,山東東營(yíng)257061)
提出基于多特征集成分類器的人臉表情識(shí)別新算法。新算法首先對(duì)預(yù)處理后的人臉表情圖像通過(guò)3種不同的特征提取方法來(lái)提取不同類型的表情特征,然后對(duì)不同特征構(gòu)造不同的分類器,最后構(gòu)造一個(gè)基于神經(jīng)網(wǎng)絡(luò)的集成分類器模型,對(duì)這3個(gè)分類器的輸出進(jìn)行決策融合,從而實(shí)現(xiàn)人臉表情的最終識(shí)別。在JAFFE人臉表情數(shù)據(jù)庫(kù)中的試驗(yàn)結(jié)果表明,所提算法的識(shí)別效果優(yōu)于單個(gè)特征和單一的分類器。
人臉表情識(shí)別;多特征;集成分類器;神經(jīng)網(wǎng)絡(luò)
人臉表情識(shí)別涉及的領(lǐng)域非常廣泛,包括圖像分析[1-4]、模式識(shí)別、機(jī)器視覺(jué)、人機(jī)交互等。人臉表情識(shí)別的研究主要集中在特征提取和表情分類兩個(gè)方面。近年來(lái),涌現(xiàn)出了很多新的特征提取方法。Ruan等提出的二維判別保局投影算法(two-dimensional discriminant locality preserving projections,2DDLPP)[5]具有非線性數(shù)據(jù)表達(dá)和保留局部結(jié)構(gòu)信息的性能,強(qiáng)調(diào)了判別信息,適合應(yīng)用于表情特征提取和識(shí)別工作。筆者曾提出一種新的Gabor特征降維方法[6],利用分布估計(jì)算法選擇具有最大判別力的Gabor核的尺度和方向,降低了特征維數(shù)。后來(lái),筆者又提出雙向二維直接線性判別分析算法((2D)2DLDA算法)[7],從水平和垂直兩個(gè)方向?qū)D像矩陣執(zhí)行直接線性判別分析,進(jìn)行列和行的兩次維數(shù)壓縮,降低了特征維數(shù)。集成分類器的分類方法因其具有泛化能力強(qiáng)和不易出現(xiàn)“過(guò)學(xué)習(xí)”等優(yōu)點(diǎn),逐漸成為模式識(shí)別領(lǐng)域中的研究熱點(diǎn)。在人臉識(shí)別及表情識(shí)別領(lǐng)域,出現(xiàn)了利用不同特征、不同分類器相互組合的系統(tǒng),并且識(shí)別性能獲得了較大提高[8-10]。筆者結(jié)合整體特征、局部特征和集成分類器的優(yōu)勢(shì),提出一種基于多特征集成分類器的人臉表情識(shí)別方法。
本文中提出的基于多特征集成分類器人臉表情識(shí)別系統(tǒng)的結(jié)構(gòu)如圖1所示。系統(tǒng)的基本思想是充分利用人臉圖像的信息,對(duì)預(yù)處理后的表情圖像,通過(guò)3種不同的特征提取方法來(lái)提取不同類型的表情特征,即改進(jìn)的Gabor特征、(2D)DLDA特征、2DDLPP特征。對(duì)3種特征分別用最近鄰分類器、神經(jīng)網(wǎng)絡(luò)分類器、最小距離分類器進(jìn)行初步分類,然后用基于神經(jīng)網(wǎng)絡(luò)的集成分類器模型對(duì)多個(gè)分類器的輸出進(jìn)行融合,實(shí)現(xiàn)人臉表情的最終識(shí)別,從而提高識(shí)別率。
圖1 基于多特征集成分類器的人臉表情識(shí)別系統(tǒng)圖Fig.1 Facial expression recognition system based on multi-feature and combining multiple classifiers
上述多特征集成分類器人臉表情識(shí)別系統(tǒng)具有以下優(yōu)勢(shì):
(1)使用不同的訓(xùn)練集,提取不同類型的特征,有利于結(jié)合整體特征和局部特征的優(yōu)勢(shì);
(2)用不同的特征去訓(xùn)練不同的單分類器,然后把這些不同的訓(xùn)練集整合起來(lái)對(duì)融合規(guī)則進(jìn)行訓(xùn)練,盡可能加大了各單分類器的差異,有利于各單分類器的互補(bǔ);
(3)在計(jì)算單分類器的輸出上,對(duì)每一樣本使用不同的計(jì)算方式:能直接輸出度量級(jí)信息的(神經(jīng)網(wǎng)絡(luò))直接使用其輸出信息;基于距離的單分類器(最小距離分類器、最近距離分類器)則輸出樣本對(duì)各類別的相似度[10];
(4)不用傳統(tǒng)的積規(guī)則、和規(guī)則等去融合各單分類器的輸出信息,而是在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上利用系統(tǒng)的決策誤差調(diào)整各層間的權(quán)值和閾值,實(shí)現(xiàn)了融合規(guī)則的自動(dòng)調(diào)整和優(yōu)化。
顯然,本文所提出的多特征集成分類器方法,能夠保證分類的準(zhǔn)確性和穩(wěn)定性,提高人臉表情識(shí)別效果。
改進(jìn)的Gabor特征提取方法[6]是將Gabor核的尺度和方向的選擇問(wèn)題簡(jiǎn)化為特征選擇問(wèn)題,利用基于群體的增量學(xué)習(xí)算法(PBIL)對(duì)Gabor核的尺度和方向進(jìn)行選擇,得到最優(yōu)尺度和方向的濾波器集合,并在此基礎(chǔ)上提取Gabor特征,降低了特征維數(shù),減少了特征中的冗余信息。
基于PBIL的Gabor核的尺度和方向的選擇算法過(guò)程描述如下:
(1)設(shè)置PBIL算法中的必要的參數(shù),包括種群大小M、個(gè)體長(zhǎng)度L、變異率Pm、學(xué)習(xí)率α、概率變異的學(xué)習(xí)率am、最優(yōu)個(gè)體數(shù)目μ。其中個(gè)體由定長(zhǎng)的二進(jìn)制串構(gòu)成,L是全局濾波器組的個(gè)數(shù)。
(2)初始化概率向量p(x)。根據(jù)概率向量,生成第一代的M個(gè)個(gè)體。設(shè)置訓(xùn)練次數(shù)t為1。
(3)根據(jù)適應(yīng)度函數(shù)[6]評(píng)估每個(gè)個(gè)體的適應(yīng)值。
(4)選擇μ個(gè)適應(yīng)值最高的最優(yōu)個(gè)體,并根據(jù)下式修正概率向量p:
式中,pl(x)為第l代的概率向量;為選擇的μ個(gè)個(gè)體。
(5)根據(jù)如下概率變異公式修改概率模型:
式中,U(0,1)表示一個(gè)向量,其每個(gè)分量都是0、1之間的均勻分布隨機(jī)數(shù)。
(6)根據(jù)新的概率模型生成下一代個(gè)體。
(7)如果終止條件滿足,算法終止,輸出最優(yōu)解;否則,轉(zhuǎn)步驟(3),t=t+1。
(2D)2DLDA[7]算法從水平和垂直兩個(gè)方向?qū)D像矩陣執(zhí)行直接線性判別分析,進(jìn)行列和行的兩次維數(shù)壓縮,提取的特征數(shù)目大大減少。水平方向的處理稱之為2DDLDA算法,垂直方向的稱之為Alternate 2DDLDA算法。
設(shè)在訓(xùn)練集中有C個(gè)樣本類別:ω1,ω2,…,ωC,每類有樣本Ni個(gè),所有訓(xùn)練樣本總數(shù)為M。矩陣(m×n的圖像矩陣)代表第i類的第j個(gè)訓(xùn)練樣本圖像,所有訓(xùn)練樣本的平均圖像是ˉA,第i類的平均圖像是…,C)。
(1)2DDLDA算法。訓(xùn)練樣本的類間離散度矩陣Gb和類內(nèi)離散度矩陣Gw分別為
試圖找一個(gè)矩陣來(lái)對(duì)角化Gb和Gw,這個(gè)矩陣就是水平方向的投影矩陣X。
(2)Alternate 2DDLDA算法。訓(xùn)練樣本的類間離散度矩陣Hb和類內(nèi)離散度矩陣Hw分別為
與2DDLDA相似,找一個(gè)矩陣對(duì)角化Hb和Hw。這個(gè)矩陣就是垂直方向的投影矩陣Z。
X和Z確定以后,給定人臉圖像A,令Y=ZTAX,可以求得圖像A的特征矩陣Y。
2D-DLPP算法[5]通過(guò)在2D-LPP的目標(biāo)函數(shù)中增加一個(gè)類間離散度約束,找到一個(gè)通過(guò)最小化類內(nèi)距離、最大化類間距離的最能判別不同類的子空間,該算法強(qiáng)調(diào)了判別信息,更適合識(shí)別工作。
2D-DLPP算法的目標(biāo)函數(shù)為
其中
A記做m×n的圖像矩陣,I是變換矩陣,線性變換是Y=AI。將式(7)進(jìn)行變換化簡(jiǎn)為
其中
求解公式ATLAI=λFTHFI的特征值和特征向量。其中是第i類的均值
矩陣。投影矩陣I=[a1a2…ad]由d個(gè)最小的非零特征值所對(duì)應(yīng)的特征向量構(gòu)成。對(duì)任意一幅圖像Ai有Ai→Yi=AiI。Yi就是投影后的特征矩陣。
基于神經(jīng)網(wǎng)絡(luò)的集成分類器模型是一個(gè)單分類器的組合器。通過(guò)模型將各單分類器的輸出作為新的特征進(jìn)行融合,用神經(jīng)網(wǎng)絡(luò)對(duì)融合規(guī)則進(jìn)行訓(xùn)練。
基于神經(jīng)網(wǎng)絡(luò)的集成分類器模型(圖2)由輸入層、隱含層和輸出層組成。與單個(gè)神經(jīng)網(wǎng)絡(luò)分類器的區(qū)別在于:輸入層的節(jié)點(diǎn)不是一般意義上的節(jié)點(diǎn),而是一個(gè)個(gè)獨(dú)立的單分類器,節(jié)點(diǎn)數(shù)等于單分類器的個(gè)數(shù),因此每個(gè)節(jié)點(diǎn)的輸入也不同于普通節(jié)點(diǎn)的單一輸入,而是一個(gè)向量。
輸入層的l個(gè)節(jié)點(diǎn)對(duì)應(yīng)l個(gè)單分類器,每個(gè)節(jié)點(diǎn)的輸入是相應(yīng)的單分類器對(duì)同一個(gè)樣本的決策向量,向量的長(zhǎng)度與類別數(shù)目相等,分量為此單分類器判定樣本屬于對(duì)應(yīng)類別的概率。這些概率值在預(yù)先設(shè)定規(guī)則下與權(quán)值進(jìn)行運(yùn)算,結(jié)果作為隱含層的輸入。隱含層節(jié)點(diǎn)數(shù)m可按經(jīng)驗(yàn)公式來(lái)取,每個(gè)節(jié)點(diǎn)的輸出由這層的輸入經(jīng)過(guò)一個(gè)激勵(lì)函數(shù)計(jì)算所得,節(jié)點(diǎn)的輸出與權(quán)值進(jìn)行運(yùn)算,作為輸出層的輸入。輸出層節(jié)點(diǎn)數(shù)n為人臉表情的類別數(shù),每個(gè)節(jié)點(diǎn)的輸出是[0,1]上的小數(shù),由這層的輸入經(jīng)過(guò)激勵(lì)函數(shù)計(jì)算所得,表示系統(tǒng)判定輸入樣本屬于某類別的概率,是集成分類器模型的最終輸出,其中最接近1的那個(gè)分量對(duì)應(yīng)著樣本預(yù)測(cè)的類別。
圖2 基于神經(jīng)網(wǎng)絡(luò)的集成分類器模型Fig.2 Combining multiple classifiers model based on nerve net
模型的輸入為Z={z1,z2,…,zl},zi=[zi1zi2…zin]T表示分類器i對(duì)樣本圖像的輸出,作為新的特征,成為輸入層節(jié)點(diǎn)i的輸入。yj是隱含層節(jié)點(diǎn)j的輸出。O(o1,o2,…,on)為模型的實(shí)際輸出向量,它的分量ok即為集成分類器最終判定輸入樣本屬于類別Ck的概率,dk表示輸出層節(jié)點(diǎn)k的期望輸出值。wij表示輸入層節(jié)點(diǎn)i與隱含層節(jié)點(diǎn)j的連接權(quán)值,是一個(gè)向量。tjk表示隱含層節(jié)點(diǎn)j與輸出層節(jié)點(diǎn)k的連接權(quán)值。θ是閾值,f是激勵(lì)函數(shù),f(x),η是學(xué)習(xí)率。
隱含層神經(jīng)元和輸出層神經(jīng)元的輸出分別為
輸出層和隱含層權(quán)值修正為
輸出層和隱含層閾值修正為
具體步驟如下:
(1)把所有樣本分為訓(xùn)練集和測(cè)試集兩部分,對(duì)訓(xùn)練集進(jìn)一步細(xì)分為l組,分別用來(lái)訓(xùn)練l個(gè)單分類器。
(2)指定學(xué)習(xí)率η,初始化各權(quán)值wij、tjk和閾值θ。
(3)根據(jù)相應(yīng)的度量級(jí)信息計(jì)算方法,對(duì)訓(xùn)練集中的每個(gè)樣本X,計(jì)算分類器i對(duì)樣本圖像X的輸出zi=[zi1zi2…zin]T,作為輸入層節(jié)點(diǎn)i的輸入。
(4)計(jì)算隱含層和輸出層節(jié)點(diǎn)的凈輸入和輸出。
(5)計(jì)算輸出層節(jié)點(diǎn)的誤差,修正輸出層和隱含層的權(quán)值和閾值,轉(zhuǎn)步驟(3)。
(6)當(dāng)?shù)螖?shù)大于某個(gè)預(yù)定的值,結(jié)束,并記錄此時(shí)的權(quán)值和閾值。
用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)從輸入到輸出的映射,根據(jù)輸出向量中的最大分量所在的位置,決定輸入樣本所屬類別。
試驗(yàn)采用日本的JAFFE表情庫(kù),此庫(kù)包含了213幅10名日本女性的表情圖像,每人有7種表情,每種表情有3~4張樣本。庫(kù)中圖像的原始尺寸為256×256像素,256級(jí)灰度。
試驗(yàn)中,先對(duì)圖像進(jìn)行預(yù)處理,包括人眼定位、灰度均衡化和尺度歸一化,將所有圖像都?xì)w一化為尺寸為128×128像素。然后把213幅圖像分成訓(xùn)練集和測(cè)試集兩部分,在每人每種表情中任取一幅圖像作為測(cè)試樣本,剩下的作為訓(xùn)練樣本。這樣測(cè)試集包含70幅圖像,訓(xùn)練集中包含143幅圖像。把訓(xùn)練集細(xì)分成3組,每組中每種表情有6~7張樣本。每組提取一種特征,訓(xùn)練一個(gè)單分類器。整個(gè)訓(xùn)練集用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)集成分類器模型。
為驗(yàn)證本文方法的有效性,在Intel(R)Core(TM)2 Duo CPU機(jī)器上進(jìn)行試驗(yàn)。表1中列出了采用不同算法進(jìn)行表情識(shí)別的識(shí)別率和單個(gè)樣本識(shí)別時(shí)間。在采用多特征集成分類器后,雖然增加了樣本的識(shí)別時(shí)間,但是識(shí)別率較單特征單分類器有較大提高,體現(xiàn)了多特征集成分類器的明顯優(yōu)勢(shì)?;谏窠?jīng)網(wǎng)絡(luò)的集成分類器模型較基于傳統(tǒng)的積規(guī)則、和規(guī)則的集成分類器有更高的識(shí)別率,充分體現(xiàn)了神經(jīng)網(wǎng)絡(luò)集成分類器模型的準(zhǔn)確性和穩(wěn)定性。
表1 不同算法的識(shí)別率和識(shí)別時(shí)間的比較Table 1 Comparison of recognition rate and running time by different method
基于多特征集成分類器的方法進(jìn)行了人臉表情識(shí)別。構(gòu)造了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的集成分類器模型,對(duì)多特征多分類器的輸出進(jìn)行決策融合。在日本的JAFFE上試驗(yàn)得到了令人滿意的結(jié)果,充分體現(xiàn)了多特征集成分類器的明顯優(yōu)勢(shì)和神經(jīng)網(wǎng)絡(luò)集成分類器模型的準(zhǔn)確性和穩(wěn)定性。但是,樣本的識(shí)別時(shí)間主要決定于多個(gè)單分類器的初次識(shí)別時(shí)間和集成分類器對(duì)單分類器識(shí)別結(jié)果的融合時(shí)間,故識(shí)別時(shí)間有所增加。因此,實(shí)現(xiàn)算法的并行性,以補(bǔ)償算法的復(fù)雜性和運(yùn)算時(shí)間的高開(kāi)銷是下一步要研究和解決的問(wèn)題。
[1]鄭秋梅,李新安,楊發(fā)科.基于形態(tài)膨脹操作的小波圖像壓縮編碼算法[J].中國(guó)石油大學(xué)學(xué)報(bào):自然科學(xué)版,2007,31(6):117-119.ZHENG Qiu-mei,LI Xin-an,YANG Fa-ke.Wavelet image compression coding algorithm based on a morphological operater[J].Journal of China University of Petroleum(Edition of Natural Science),2007,31(6):117-119.
[2]鄭秋梅,楊發(fā)科,蔣曉紅.一種基于關(guān)系的小波域水印算法[J].中國(guó)石油大學(xué)學(xué)報(bào):自然科學(xué)版,2009,33(2):164-168.ZHENG Qiu-mei,YANG Fa-ke,JIANG Xiao-h(huán)ong.A digital watermarking algorithm based opon relationship in wavelet transform domain[J].Journal of China University of Petroleum(Edition of Natural Science),2009,33(2):164-168.
[3]ZHENG Qiu-mei,WANG Hong-xia.Image retrieval algorithm based on vector transferring and clustering[J].Journal of Computational Information Systems,2009,5(2):1009-1016.
[4]ZHENG Qiu-mei,SHI Gong-xi,Lü Xing-h(huán)ui.A robust digital watermarking scheme based on integer wavelet using compound encryption[C]//Proceedings of 2009 4th International Conference on Computer Science&Education,Nanning,China,July 25-28,2009.Piscata way,NJ,USA:IEEE,2009:716-719.
[5]ZHI Ruicong,RUN Qiuqi.Facial expression recognition based on two-dimensional discriminant locality preserving projections[J].Neuro computing,2008,71(7/9):1730-1734.
[6]ZHENG Qiu-mei,Lü Xing-h(huán)ui,SHI Gong-xi.EDA-based optimal gabor kernel's scale and orientation selection for facial expression recognition[C]//Proceedings of 2009 4th International Conference on Computer Science&Education,Nanning,China,July 25-28,2009.Piscataway,NJ,USA:IEEE,2009:113-117.
[7]鄭秋梅,呂興會(huì),時(shí)公喜.基于雙向二維直接線性判別分析的人臉表情識(shí)別[J].中國(guó)石油大學(xué)學(xué)報(bào):自然科學(xué)版,2010,34(5):179-182.ZHENG Qiu-mei,Lü Xing-h(huán)ui,SHI Gong-xi.Two directional two dimensional direct linear discriminant analysis for facial expression recognition[J].Journal of China U-niversity of Petroleum(Edition of Natural Science),2010,34(5):179-182.
[8]陳羽,賴劍煌.基于多分類器融合的人臉識(shí)別方法[J].中山大學(xué)學(xué)報(bào):自然科學(xué)版,2006,45(4):23-27.CHEN Yu,LAI Jian-h(huán)uang.Face recognition based on fusion of multiple classifiers[J].SunYatsen University(Acta Scientiarum Naturalium),2006,45(4):23-27.
[9]劉松.基于SVM信息融合的圖像識(shí)別與并行實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(33):168-170.LIU Song.Image recognition based on SVM information fusion and DSP parallel realization[J].Computer Engineering and Applications,2009,45(33):168-170.
[10]蔣林波,蔡立軍,易葉青.一個(gè)新的多分類器組合模型[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(17):131-134.JIANG Lin-bo,CAI Li-jun,YI Ye-qing.New model of combining multiple classifiers[J].Computer Engineering and Applications,2008,44(17):131-134.
(編輯 修榮榮)
Facial expression recognition based on multi-feature and combining multiple classifiers
ZHENG Qiu-mei,Lü Xing-h(huán)ui,SHI Gong-xi
(College of Computer and Communication Engineering in China University of Petroleum,Dongying 257061,China)
A multi-feature and combining multiple classifiers method for facial expression recognition was proposed.First,
three features are obtained from pre-processed face images by three different feature extraction methods.Then different classifiers are made based on different features.At last,a model of combining multiple classifiers is developed based on nerve net.The outputs of three classifiers are input to the model in order to get facial expression recognition.Experimental results on JAFFE database show that proposed method is superior to the single feature and single classifier.
facial expression recognition;multi-feature;combining multiple classifiers;nerve net
TP 391.4
A
10.3969/j.issn.1673-5005.2011.01.035
2010-01-10
“863”國(guó)家高科技研究發(fā)展計(jì)劃項(xiàng)目(2007AA09Z301);山東省自然科學(xué)基金項(xiàng)目(Y2007G21)
鄭秋梅(1964-),女(漢族),山東高密人,教授,碩士,碩士生導(dǎo)師,主要從事圖像處理方面的研究工作。
1673-5005(2011)01-0174-05