鄭 偉
(南京郵電大學(xué) 通信與信息工程學(xué)院,南京 210003)
面部表情識別技術(shù)是人機(jī)交互領(lǐng)域的研究熱點(diǎn)之一,在醫(yī)療看護(hù)、智能駕駛、遠(yuǎn)程教育和公共安全等方面有著十分廣闊的應(yīng)用前景。面部表情識別一般包括4 個(gè)步驟:人臉圖像檢測;對檢測到的人臉圖像進(jìn)行預(yù)處理,包括圖像灰度化、尺度歸一化等;對預(yù)處理后的圖像進(jìn)行特征提取;基于提取的特征實(shí)現(xiàn)表情分類。人臉特征提取是面部表情識別技術(shù)的關(guān)鍵步驟。在過去的幾十年里,相關(guān)的研究人員提出了許多特征提取算法,通??梢苑譃? 類:基于幾何特征、基于紋理特征和基于神經(jīng)網(wǎng)絡(luò)的特征提取算法。其中,基于幾何特征的提取算法主要是依據(jù)不同的面部表情下的五官形狀以及位置變換來提取特征,但對于尺寸過多的圖像處理存在困難且容易受到光照等客觀因素的影響;基于神經(jīng)網(wǎng)絡(luò)的特征提取算法利用多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從大量的訓(xùn)練信息中提取面部表情特征,比傳統(tǒng)的特征提取方法具有更好的抗噪性和抗泛化能力,但其計(jì)算較復(fù)雜,需要花費(fèi)大量的時(shí)間成本?;诩y理特征的特征提取算法主要是提取人臉表情圖像的底層信息,如圖像的密度、邊緣、梯度等,相較于幾何特征,紋理保留的圖像信息更為完整且具有良好的光照適應(yīng)性,相較于神經(jīng)網(wǎng)絡(luò)提取特征,基于紋理特征提取的算法計(jì)算簡單,花費(fèi)時(shí)間更少。因此,基于紋理特征提取的算法受到了廣大研究者的歡迎,目前,LBP和HOG 是能夠有效描述圖像紋理特征的描述子。
LBP 特征是由Ojala 等人提出的,該特征值只需將圖像中的像素值與周圍像素值做比較、并加以進(jìn)制轉(zhuǎn)換便可得,因?yàn)槠溆?jì)算簡單,灰度不變性以及對圖像的旋轉(zhuǎn)、尺度變化的特性等優(yōu)勢,受到了許多研究者的青睞并對其進(jìn)行了改進(jìn),如文獻(xiàn)[11]引入了歐氏距離和差分編碼,解決了傳統(tǒng)LBP 特征只考慮了中心像素與鄰域像素之間的關(guān)系,卻忽略了鄰域像素間的關(guān)系。HOG 特征是由Dalai 等人在CVPR 會(huì)議上提出的特征提取算法,該特征能夠準(zhǔn)確提取到圖像的輪廓信息,因此現(xiàn)已由眾多學(xué)者將其應(yīng)用到面部表情識別領(lǐng)域中。
考慮到人臉不同部位對表情識別的貢獻(xiàn)程度不同,本文對HOG 特征不再直接應(yīng)用到整幅人臉圖像中,而是將人臉均勻劃分并對每個(gè)子塊提取HOG 特征,然后根據(jù)不同子塊對識別貢獻(xiàn)率的大小賦予不同的權(quán)重。針對LBP 特征,直接對人臉表情敏感區(qū)提取LBP 特征。最后,將二者融合得到改進(jìn)的融合特征提取算法。
該算法具體步驟為:圖像預(yù)處理、OD-LBP 特征提取、加權(quán)HOG 特征提取、加權(quán)HOG 與OD-LBP特征融合、PCA 降維、SVM 分類識別。圖像預(yù)處理中,對JAFFE 和CK 表情庫中圖像進(jìn)行灰度化處理、利用Haar+Adaboost 構(gòu)成的人臉檢測系統(tǒng)定位圖像人臉區(qū)域、裁剪人臉區(qū)域并采用雙線性插值法對裁剪后的圖像尺度做歸一化。然后,對預(yù)處理后的圖像定位面部表情敏感區(qū)(眼睛、嘴巴、鼻子)并提取OD-LBP 特征。接著,對預(yù)處理后的圖像進(jìn)行均勻分塊,對每個(gè)子塊計(jì)算改進(jìn)的空間頻率值,同時(shí)提取每個(gè)子塊的HOG 特征。進(jìn)一步地,用改進(jìn)的空間頻率值對HOG 特征進(jìn)行加權(quán),再將加權(quán)HOG 與ODLBP 特征進(jìn)行融合,且用PCA 對融合后的特征進(jìn)行降維處理。最后,通過SVM 完成面部表情分類識別。具體算法流程如圖1 所示。
圖1 算法流程圖Fig.1 Flow chart of the algorithm in the paper
OD-LBP 特征由Karanwal 等人提出并對LBP 特征進(jìn)行了改善,用于面部表情識別領(lǐng)域的一種局部描述子,該描述子在不同姿態(tài)、光照條件和噪聲等因素下具有良好的適應(yīng)性。OD-LBP 特征提取算法步驟可闡釋分述如下。
(1)基于正交特性對鄰域像素點(diǎn)進(jìn)行分類。假設(shè)圖像中的的任一像素點(diǎn)位置為(x,y),像素值為G,對其構(gòu)造3× 3 的鄰域窗口,再對窗口中位置為(x,y),像素值為G(0 ≤≤7) 的鄰域像素點(diǎn)按照正交特性進(jìn)行分類,分類結(jié)果如圖2 所示。
圖2 基于正交特性的鄰域像素點(diǎn)分類圖Fig.2 The graph of depicting the neighborhood pixels based on orthogonal characteristics
(2)分別對不同正交群的鄰域像素點(diǎn)進(jìn)行差值運(yùn)算。目前大多數(shù)的局部描述子都是鄰域像素值與中心像素值做對比,導(dǎo)致特殊局部特征信息(如圖像邊緣像素點(diǎn))丟失的情況。針對上述問題,OD-LBP將鄰域像素值與其最近的2 個(gè)鄰域像素值和中心像素值做差值,具體計(jì)算過程如式(1)所示:
其中,、、、是第一正交群中正交值的差值集合,、、、是第二正交群中正交值的差值集合。
(3)不同正交群中正交值的差值集合做二值化處理。將正交值中的3 個(gè)像素差值與各自產(chǎn)生的閾值做比較。對此處理過程,研究展開的表述為:
其中,、、、表示第一正交群中正交值經(jīng)過處理后的二進(jìn)制值集合;、、、表示第二正交群中正交值經(jīng)過處理后的二進(jìn)制值集合;表示閾值;x(0 ≤≤2) 表示正交值中的各個(gè)差值;()表示方差。
(4)生成一個(gè)圖像像素點(diǎn)的OD-LBP 特征值。首先串聯(lián)不同正交群中二進(jìn)制化的正交值:
其中,b是正交值中的每個(gè)差值二進(jìn)制化后的值。
然后,構(gòu)造3 個(gè)不同姿態(tài)下的OD-LBP 特征值,將串聯(lián)后的24 位正交比特流按照每8 位進(jìn)行截取,再進(jìn)制轉(zhuǎn)換,具體計(jì)算如下:
最后,串聯(lián)生成一個(gè)像素點(diǎn)的OD-LBP 特征值:
實(shí)驗(yàn)中對人臉圖像提取OD-LBP 特征,先提取人臉圖像中敏感區(qū)域,敏感區(qū)域分為3 部分:90×54像素大小的眼睛部分,54×18 像素大小的嘴巴部分和54×18 像素大小的鼻子部分;然后將每個(gè)部分分成18×18 像素大小的子塊并按上述流程提取ODLBP 特征,每個(gè)子塊得到3 個(gè)不同姿態(tài)下256 個(gè)統(tǒng)計(jì)直方圖特征值,最后將所有部分的子塊特征串聯(lián)起來,得到人臉敏感區(qū)域的OD-LBP 特征向量為(15+3+3)×3×256=16128。
HOG 特征是由Dalai 等人提出的,該特征提取算法因能夠準(zhǔn)確地提取圖像的輪廓信息,而被廣泛應(yīng)用在面部表情識別領(lǐng)域中。這里,將對HOG 特征提取算法的步驟給出詳述如下。
(1)計(jì)算圖像中每個(gè)像素點(diǎn)的梯度幅值和梯度方向。通過計(jì)算每個(gè)像素點(diǎn)的梯度值能夠獲得圖像的邊緣信息,像素點(diǎn)(,) 的梯度為:
其中,(,) 是像素點(diǎn)(,) 的像素值;G(,) 是像素點(diǎn)(,) 的垂直方向梯度值;G(,) 是像素點(diǎn)(,) 的水平方向梯度值。
圖像中任一像素點(diǎn)(,) 的梯度幅值和梯度方向?yàn)椋?/p>
(2)計(jì)算單元細(xì)胞(cell)內(nèi)的梯度直方圖。將圖像劃分為大小相同的單元細(xì)胞,計(jì)算單元細(xì)胞中每個(gè)像素點(diǎn)的梯度方向和梯度幅值,劃分不同方向的直方圖通道,將單元細(xì)胞中每個(gè)像素點(diǎn)的梯度幅值依據(jù)不同的梯度方向投給不同直方圖通道。
(3)計(jì)算歸一化重疊塊的梯度直方圖。將幾個(gè)鄰近的單元細(xì)胞拼接成一個(gè)更大的塊(block),將每個(gè)塊內(nèi)的所有單元細(xì)胞梯度直方圖按順序串聯(lián)構(gòu)成新的梯度直方圖,并使用-norm 對新的梯度直方圖進(jìn)行歸一化處理,最終構(gòu)成歸一化重疊塊的梯度直方圖。研究中給出的-norm 的計(jì)算公式可寫為:
(4)構(gòu)造整幅圖像的HOG 特征向量。將圖像中所有計(jì)算得出的塊梯度直方圖按照順序串聯(lián),得出整幅圖像的HOG 特征向量。
改進(jìn)的空間頻率是Zheng 等人在用空間頻率對圖像中像素的活躍度進(jìn)行度量時(shí),對空間頻率提出的一種改進(jìn)。改進(jìn)的空間頻率反映了圖像中像素的活躍程度。當(dāng)圖像中像素活躍程度越高,改進(jìn)的空間頻率值越大,反之活躍度越低,該值就越小。因此,該值能夠很好地突出面部不同部分對表情識別的貢獻(xiàn)程度。改進(jìn)的空間頻率從4 個(gè)方向反映空間域內(nèi)圖像的總體活躍程度,具體計(jì)算公式如下:
其中,是圖像的改進(jìn)頻率值,、、、分別是圖像的行頻率、列頻率、左對角頻率、右對角頻率,具體計(jì)算公式如下:
考慮到人臉不同部分對表情識別效果的貢獻(xiàn)程度是不同的,不能簡單地將HOG 特征應(yīng)用到人臉全局特征中。因此,提出了一種改進(jìn)頻率值加權(quán)的HOG 特征提取方法。該方法將人臉圖像進(jìn)行均勻分塊,根據(jù)不同分塊對表情識別貢獻(xiàn)率添加不同的權(quán)重,加強(qiáng)人臉重要部位對識別效果的影響。對此可通過如下步驟來計(jì)算實(shí)現(xiàn)。
(1)圖像分塊并提取HOG 特征。將人臉圖像分為塊,對每塊提取HOG 特征。則整幅圖像提取的HOG 特征向量為:
其中,h(1 ≤≤)表示第子塊的HOG 特征向量。
(2)計(jì)算每個(gè)分塊的加權(quán)系數(shù)。將人臉圖像分為塊,對每個(gè)子塊提取改進(jìn)的空間頻率值,則第塊的改進(jìn)頻率值為:
其中,1 ≤≤。子塊的像素活躍度越高,賦予子塊的權(quán)重就越大,則第子塊的權(quán)重系數(shù)為:
(3)將不同子塊的權(quán)重系數(shù)賦予相應(yīng)子塊的HOG 特征向量,得到加權(quán)后的HOG 特征。
實(shí)驗(yàn)中預(yù)處理后的人臉圖像像素大小為126×126,按照3×3 將人臉圖像均勻分塊。首先按照1.2節(jié)的流程提取每個(gè)子塊的HOG 特征,其中cell 大小為6×6,然后在0°~180°上均勻劃分9 個(gè)區(qū)間,將cell 中每個(gè)像素點(diǎn)的梯度幅值依據(jù)不同的梯度方向投給不同直方圖區(qū)間;再將2×2 個(gè)cell 構(gòu)成block,一個(gè)圖像子塊有5×5 個(gè)block,最后整幅圖像提取出的HOG 特征向量為9×4×25×9=8100;按照1.3 節(jié)流程提取每個(gè)子塊的改進(jìn)頻率值;至此,則按照1.4節(jié)流程得到最終的加權(quán)HOG 特征向量。
本文算法的研發(fā)步驟具體如下:
(1)針對人臉表情數(shù)據(jù)集,將其劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。
(2)圖像預(yù)處理。先將劃分后人臉表情數(shù)據(jù)集中的圖像進(jìn)行灰度化、直方圖均衡化處理,而后利用Haar+Adaboost 人臉識別系統(tǒng)定位圖像中的人臉部分并裁剪,再利用雙線性插值對裁剪后的圖像進(jìn)行尺度歸一化。
(3)利用Haar+Adaboost 人臉識別系統(tǒng)定位經(jīng)過預(yù)處理的圖像中面部表情敏感區(qū),對面部表情敏感區(qū)提取OD-LBP 特征。
(4)針對預(yù)處理后的圖像,將圖像均勻分塊,分別提取每個(gè)子塊的HOG 特征和計(jì)算每個(gè)子塊的改進(jìn)空間頻率值,將改進(jìn)的空間頻率值作為權(quán)重系數(shù)賦予每個(gè)子塊的HOG 特征,得到子塊的加權(quán)HOG特征值,同時(shí)將子塊的HOG 特征值按照一定的順序串聯(lián)得到整幅圖像的加權(quán)HOG 特征值。
(5)融合OD-LBP 特征和加權(quán)HOG 特征。
(6)利用PCA對融合特征進(jìn)行降維。
(7)采用SVM 分類器分別對訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集進(jìn)行識別分類。
實(shí)驗(yàn)是通過Pycharm 工具平臺進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)運(yùn)行環(huán)境為InterCore I7 處理器,16 GB 運(yùn)行內(nèi)存,Windows10 操作系統(tǒng)。本文實(shí)驗(yàn)在JAFFE 和CK 人臉表情數(shù)據(jù)集上進(jìn)行,JAFFE 數(shù)據(jù)集選取7 種表情:驚奇、悲傷、中性、高興、害怕、厭惡、憤怒,共213 張圖片。對數(shù)據(jù)集進(jìn)行劃分,篩選出144 張圖片作為訓(xùn)練數(shù)據(jù)集,69 張圖片作為測試數(shù)據(jù)集。CK 數(shù)據(jù)集選擇憤怒、蔑視、厭惡、害怕、高興、悲傷、驚奇7 種表情、共327 張圖片,其中220 張作為訓(xùn)練數(shù)據(jù)集,107 張作為測試數(shù)據(jù)集,考慮到本實(shí)驗(yàn)可以廣泛應(yīng)用,具有更強(qiáng)的魯棒性,CK 表情所選取的實(shí)驗(yàn)圖片中同一類表情中的志愿者各不相同。
為了保證實(shí)驗(yàn)的識別效果只取決于提取特征的優(yōu)劣,這里對用于表情分類的SVM 分類器選取適用性廣的、性能較佳的RBF 核作為SVM 的核函數(shù)。
在將OD-LBP 特征和加權(quán)HOG 特征融合之前,首先需要對單個(gè)特征進(jìn)行實(shí)驗(yàn),故選擇最優(yōu)的OD-LBP 特征和加權(quán)HOG 的最優(yōu)參數(shù)。為了讓加權(quán)HOG 特征更能體現(xiàn)出面部不同區(qū)域?qū)Ρ砬樽R別的貢獻(xiàn)程度、從而提高對表情的識別率,需要從2 個(gè)角度進(jìn)行考慮:分塊方式和加權(quán)因子。不同加權(quán)因子的HOG 在JAFFE、CK 數(shù)據(jù)集的識別率如圖3 所示。
圖3 不同加權(quán)因子的HOG 在JAFFE、CK 數(shù)據(jù)集的識別率Fig.3 Recognition rate of HOG with different weighting factors on JAFFE and CK
由圖3 可知,在JAFFE 和CK 表情數(shù)據(jù)集中分別進(jìn)行實(shí)驗(yàn),通過對比能夠表征區(qū)域表情貢獻(xiàn)程度的權(quán)值:像素平均值、信息熵、方差、改進(jìn)的空間頻率和不同分塊下的識別率后可知,在對圖像進(jìn)行3×3的分塊下,選擇改進(jìn)的空間頻率作為加權(quán)因子,加權(quán)HOG 在JAFFE 和CK 數(shù)據(jù)集上取得最佳的識別率,分別是90.2%和91.6%。
為了進(jìn)一步驗(yàn)證本文提出的多特征融合提取方法的有效性,與單一特征提取方法和其他特征融合方法進(jìn)行了對比實(shí)驗(yàn),結(jié)果見表1。
表1 各特征在JAFFE、CK 數(shù)據(jù)集的識別率Tab.1 Recognition rate of different features on JAFFE and CK%
從表1 的實(shí)驗(yàn)結(jié)果可知,本文的特征提取方法在JAFFE 和CK 數(shù)據(jù)集上的表情識別率達(dá)到了95.4%和96.9%,較單一特征提取方法:OD-LBP、加權(quán)HOG 相比,本文的特征提取方法讓表情識別率提高了5%以上。此外,加權(quán)HOG 與全局HOG 相比,加權(quán)HOG 對表情的識別率提高了10%以上。與未考慮面部不同部分對表情識別貢獻(xiàn)程度不同的特征融合提取方法相比,在JAFFE 數(shù)據(jù)集上的識別率提高了2.2%,在CK 數(shù)據(jù)集上的識別率提高了2.1%。實(shí)驗(yàn)結(jié)果表明了本文的OD-LBP+加權(quán)HOG 特征提取方法的有效性。
本文從面部不同部分對表情識別貢獻(xiàn)程度不同的角度出發(fā),提出了使用改進(jìn)空間頻率值加權(quán)HOG特征以及對面部表情敏感區(qū)提取OD-LBP 特征,二者的融合充分考慮了人臉各部位信息對于識別效果的影響,降低了人臉不重要部位信息對于識別效果的干擾,進(jìn)一步豐富了面部的全局和局部特征信息表達(dá)。在JAFFE 和CK 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,多特征融合的識別率優(yōu)于單一特征的識別率,本文提出的多特征融合提取方法較未考慮區(qū)域重要性的特征融合提取方法的識別率在JAFFE 和CK 數(shù)據(jù)集上提高了2.2%和2.1%,進(jìn)一步驗(yàn)證了本文算法的有效性。