張洋銘,吳 凱,王藝凡,利 節(jié)
(1.復(fù)雜系統(tǒng)仿真總體重點(diǎn)實(shí)驗(yàn)室,北京 100020;2.重慶科技學(xué)院 智能技術(shù)與工程學(xué)院,重慶 400000)
面部表情是人際交往過程中表達(dá)情感和含意的重要手段之一[1]。近年來,面部表情識(shí)別在虛擬現(xiàn)實(shí)、智能教育系統(tǒng)、醫(yī)療衛(wèi)生和數(shù)據(jù)驅(qū)動(dòng)動(dòng)畫等領(lǐng)域都取得了較大進(jìn)展[2-4]。面部表情識(shí)別主要是根據(jù)給定的人臉圖像來識(shí)別人臉的情緒和情感態(tài)度(如中性、憤怒、厭惡、恐懼、開心、傷心和驚嘆)[5]。一方面因在訓(xùn)練過程中表情標(biāo)注主觀性強(qiáng),歧義較大,訓(xùn)練數(shù)據(jù)集標(biāo)注難度大,導(dǎo)致可訓(xùn)練樣少,甚至公開數(shù)據(jù)集均是缺乏多樣性的小數(shù)據(jù)樣本,導(dǎo)致訓(xùn)練困難和識(shí)別準(zhǔn)確度不高。目前眾多數(shù)據(jù)增強(qiáng)的預(yù)處理方法(比如隨機(jī)裁剪,隨機(jī)翻轉(zhuǎn)等)可以解決數(shù)據(jù)樣本缺失導(dǎo)致準(zhǔn)確度不能提高的問題[6],但采用具體模型適用于面部表情數(shù)據(jù)集的,才可以最大程度上提高識(shí)別的準(zhǔn)確率。
筆者主要研究通過隨機(jī)數(shù)據(jù)增強(qiáng)策略并結(jié)合基于特征的方法以提高人臉面部表情識(shí)別準(zhǔn)確度,通過VGG19網(wǎng)絡(luò)提取面部表情特征并進(jìn)行準(zhǔn)確識(shí)別。其中數(shù)據(jù)增強(qiáng)是采用5種數(shù)據(jù)增強(qiáng)方式(圖像旋轉(zhuǎn)、圖像平移、圖像縮放、圖像翻轉(zhuǎn)、圖像投射)隨機(jī)權(quán)重結(jié)合,通過實(shí)驗(yàn)結(jié)果得出了哪種數(shù)據(jù)增強(qiáng)的分配策略更適用于面部表情識(shí)別,即在保證可訓(xùn)練的數(shù)據(jù)集具有多樣性的同時(shí),得到更加準(zhǔn)確的識(shí)別模型并掌握其權(quán)重的分布情況。
VGG在2014年由牛津大學(xué)著名研究組VGG(visua geometry group)提出,斬獲該年Imagenet競(jìng)賽中定位任務(wù)(localization task)的第一名和分類任務(wù)(classification task)的第二名[7-8]。VGG19的結(jié)構(gòu)如下圖1它是由16個(gè)stride為1,padding為1的3×3卷積核與5個(gè)size為2,stride為2的maxpool層加上3個(gè)全連接層最后添加一個(gè)soft-max層組成的。VGG 19連續(xù)使用多個(gè)3×3卷積堆疊以便于優(yōu)化并取代大體積的卷積核。多層非線性層在增加網(wǎng)絡(luò)深度時(shí),可以保證更復(fù)雜的模型學(xué)習(xí)而且代價(jià)更小(以至于達(dá)到參數(shù)更少的目標(biāo))。簡(jiǎn)單地來說,在VGG中,用3個(gè)3×3卷積核代替7×7的卷核,用2個(gè)3×3卷積核代替5×5的卷積核。其主要目的在于是在同一感受野的條件下,提高卷積網(wǎng)絡(luò)的深度,在一定程度上提高神經(jīng)網(wǎng)絡(luò)提取特征的效果[9]。
圖1 VGG19結(jié)構(gòu)圖Fig. 1 The structure diagram of VGG19
將輸入圖像并行通過窮舉法策略,進(jìn)行隨機(jī)分配權(quán)重的5種數(shù)據(jù)增強(qiáng)方式,再將其送入到面目表情檢測(cè)識(shí)別網(wǎng)絡(luò)中通過采用數(shù)據(jù)增強(qiáng)策略以達(dá)到可提高面目表情識(shí)別準(zhǔn)確率的目的。整體結(jié)構(gòu)框圖如圖2所示。將原始數(shù)據(jù)X通過隨機(jī)分配權(quán)重W1~W5得到分配后的圖像數(shù)據(jù)X1~X5,將其并行通過5種數(shù)據(jù)增強(qiáng)的圖像變換并結(jié)合原始數(shù)據(jù)組成新的數(shù)據(jù)集Y。將新的數(shù)據(jù)集Y送入到圖像特征提取VGG19網(wǎng)絡(luò)模型中,進(jìn)行后續(xù)的面目表情識(shí)別處理。
圖2 隨機(jī)權(quán)重分布的數(shù)據(jù)增強(qiáng)結(jié)構(gòu)圖Fig. 2 Data enhancement structure diagram of random weight distribution
圖像旋轉(zhuǎn)是指將圖像以其中某一個(gè)點(diǎn)為旋轉(zhuǎn)中心旋轉(zhuǎn)一定角度,對(duì)圖像對(duì)齊起著極其重要作用。以矩陣變換來表示設(shè)點(diǎn)P0(x0,y0)逆時(shí)針旋轉(zhuǎn)θ角后對(duì)應(yīng)點(diǎn)為那么,旋轉(zhuǎn)前后點(diǎn)P(x0,y0)的坐標(biāo)分別為P(x,y)
(1)
(2)
圖像的平移操作就是將圖像所有的像素點(diǎn)坐標(biāo)分別加上水平與垂直操作上的偏移量。對(duì)于平移變換假設(shè)水平偏移量為dx,垂直偏移量為dy,則平移變換的坐標(biāo)映射為
(3)
其逆變換為
(4)
x1與y1的矩陣變換可表示為式(5)
(5)
圖像縮放是指對(duì)圖像的大小進(jìn)行調(diào)整的過程,是一種非平凡的過程,需要高效率,平滑和清晰,縮小圖像稱為下采樣,放大圖像稱為上采樣。
(6)
圖像的翻轉(zhuǎn)變換是從A(x,y)(二維坐標(biāo))到B(u,v)(二維坐標(biāo))的一種線性變換,其數(shù)學(xué)表達(dá)式為
(7)
式(7)分別為水平翻轉(zhuǎn),垂直翻轉(zhuǎn),對(duì)角線翻轉(zhuǎn)。且通過圖像的翻轉(zhuǎn)變換,可以使圖像達(dá)到180°的翻轉(zhuǎn)效果這樣就可以加大其樣本的多樣性。
將一張圖像投影到一個(gè)新的平面為圖像的透射變換,其使用的變換公式為
(8)
將5種數(shù)據(jù)增強(qiáng)方法進(jìn)行基于隨機(jī)權(quán)重分配策略結(jié)合其結(jié)果Y可表示為
Y=W1XR+W2XT+W3XZ+W4XF+W5XP,
(9)
式中W1~W5分別表示5種數(shù)據(jù)增強(qiáng)方式的隨機(jī)權(quán)重分布。W1~W5X分別表示進(jìn)行并行處理圖像數(shù)據(jù)。RX1為進(jìn)行隨機(jī)旋轉(zhuǎn)的圖像樣本;TX2為隨機(jī)圖像平移的圖像樣本;ZX3為隨機(jī)圖像縮放的樣本;FX4為隨機(jī)圖像仿射變換的圖像樣本;PX5代表隨機(jī)透射變換的圖像樣本。
Fer2013人臉面部表情數(shù)據(jù)集是人臉面目表情研究中最常用的數(shù)據(jù)集之一并且在研究當(dāng)中占據(jù)了很高的地位,F(xiàn)er2013數(shù)據(jù)集已經(jīng)為使用者劃分好了訓(xùn)練集,驗(yàn)證集和測(cè)試集。Fer2013數(shù)據(jù)集包含35 887張人臉圖片,其中訓(xùn)練集28 709張,驗(yàn)證集3 589張,測(cè)試集3 589張。并該數(shù)據(jù)集中的圖像均是灰度圖像并且大小為48x48.樣本被劃分為0=anger(生氣)、1=disgust(厭惡)、2=fear(恐懼)、3=happy(開心)、4=sad(傷心)、5=surprised(驚訝)、6=normal(中性)7類。
在Cohn-Kanade基礎(chǔ)上擴(kuò)充數(shù)據(jù)集產(chǎn)生了CK+數(shù)據(jù)集,并在2010年發(fā)布。該數(shù)據(jù)集有20%的圖像數(shù)據(jù)當(dāng)作測(cè)試集并用于測(cè)試模型,80%的圖像數(shù)據(jù)用于訓(xùn)練模型。圖3,4分別展示了Fer2013和CK+人臉表情數(shù)據(jù)集對(duì)應(yīng)的7種表情。
圖3 Fer2013數(shù)據(jù)集的7種表情圖像Fig. 3 Seven facial expressions of Fer2013 dataset
圖4 CK+數(shù)據(jù)集的7種表情圖像Fig. 4 Seven facial expressions of ck+ dataset
訓(xùn)練與測(cè)試數(shù)據(jù)集按8∶2劃分此整體數(shù)據(jù)集,并將訓(xùn)練集圖像基于遺傳算法的隨機(jī)分配策進(jìn)行權(quán)重的劃分,并每次均采用相同的訓(xùn)練方式和識(shí)別網(wǎng)絡(luò)架構(gòu)進(jìn)行實(shí)驗(yàn)。為驗(yàn)證其結(jié)果的通用性,實(shí)驗(yàn)中將使用的模型為VGG19,Resnet,Googlenet,為了提高模型的整體識(shí)別能力,通過微調(diào)將模型調(diào)整到最佳結(jié)構(gòu)。訓(xùn)練的初始權(quán)重參數(shù)設(shè)置為Epoch=30時(shí),batchsize=128,學(xué)習(xí)率為0.001,優(yōu)化算法采用隨機(jī)梯度下降(SGD),并在每訓(xùn)練1個(gè)Epoch后便用此權(quán)重測(cè)試一次測(cè)試集,并記錄每次實(shí)驗(yàn)的精準(zhǔn)度。
通過隨機(jī)算法生成不同的數(shù)據(jù)預(yù)處理子策略權(quán)重配比,比較實(shí)驗(yàn)結(jié)果準(zhǔn)確度得出哪種比例數(shù)據(jù)預(yù)處理子策略配比方式更適用于面目表情識(shí)別網(wǎng)絡(luò)并可以提升識(shí)別準(zhǔn)確度。通過大量的等同條件重復(fù)實(shí)驗(yàn),選取識(shí)別準(zhǔn)確率最高的6種子策略權(quán)重配比方式,結(jié)果如表1所示。通過對(duì)比實(shí)驗(yàn)可看出圖像旋轉(zhuǎn)和圖像平移2種數(shù)據(jù)增強(qiáng)子策略的權(quán)重比例增加,可一定程度上提高其模型的面目表情識(shí)別的準(zhǔn)確率。
表1 在Fer2013和CK+ 數(shù)據(jù)集上數(shù)據(jù)預(yù)處理子策略配比最優(yōu)權(quán)重
為了驗(yàn)證實(shí)驗(yàn)的正確性,手動(dòng)將數(shù)據(jù)預(yù)處理子策略配比方式調(diào)成1∶ 1∶ 1∶ 1∶ 1的形式,通過將數(shù)據(jù)預(yù)處理子策略的任意一種子策略手動(dòng)調(diào)成2,實(shí)驗(yàn)結(jié)果如表2所示。
表2 在Fer2013和CK+ 數(shù)據(jù)集上不同權(quán)重分配策略,準(zhǔn)確度測(cè)試比較
繼續(xù)采用相同的數(shù)據(jù)預(yù)處理子策略權(quán)重配比方式,運(yùn)用不同的網(wǎng)絡(luò)結(jié)構(gòu)在Fer2013訓(xùn)練集上訓(xùn)練表情識(shí)別模型,其性能在測(cè)試集上的結(jié)果比較如表3,驗(yàn)證了其隨機(jī)權(quán)重分配策略的通用性。但是,表情識(shí)別領(lǐng)域可能存在更好的權(quán)重分配策略,在今后的工作中將進(jìn)一步深入探究。
表3 采用不同網(wǎng)絡(luò)結(jié)構(gòu)與相同權(quán)重分配策略,平均準(zhǔn)確度測(cè)試比較
筆者提出了一種在現(xiàn)有的表情識(shí)別算法訓(xùn)練和識(shí)別的網(wǎng)絡(luò)架構(gòu)基礎(chǔ)上增加了一種隨機(jī)權(quán)重分配進(jìn)行數(shù)據(jù)增強(qiáng)的預(yù)處理方式,解決了由于在訓(xùn)練過程中表情標(biāo)注主觀性強(qiáng),歧義較大,導(dǎo)致可訓(xùn)練樣本缺少,識(shí)別準(zhǔn)確度不高等問題。實(shí)驗(yàn)結(jié)果表明,文中提出的方法可提高圖像的數(shù)據(jù)庫(kù)質(zhì)量,提高分類器的性能和面目表情識(shí)別的準(zhǔn)確率。