基于隨機(jī)權(quán)重分配策略的面目表情識(shí)別

2022-10-12 09:43:22張洋銘王藝凡

重慶大學(xué)學(xué)報(bào) 2022年9期

張洋銘，吳凱，王藝凡，利節(jié)

(1.復(fù)雜系統(tǒng)仿真總體重點(diǎn)實(shí)驗(yàn)室，北京 100020；2.重慶科技學(xué)院智能技術(shù)與工程學(xué)院，重慶 400000)

面部表情是人際交往過程中表達(dá)情感和含意的重要手段之一[1]。近年來，面部表情識(shí)別在虛擬現(xiàn)實(shí)、智能教育系統(tǒng)、醫(yī)療衛(wèi)生和數(shù)據(jù)驅(qū)動(dòng)動(dòng)畫等領(lǐng)域都取得了較大進(jìn)展[2-4]。面部表情識(shí)別主要是根據(jù)給定的人臉圖像來識(shí)別人臉的情緒和情感態(tài)度(如中性、憤怒、厭惡、恐懼、開心、傷心和驚嘆)[5]。一方面因在訓(xùn)練過程中表情標(biāo)注主觀性強(qiáng)，歧義較大，訓(xùn)練數(shù)據(jù)集標(biāo)注難度大，導(dǎo)致可訓(xùn)練樣少，甚至公開數(shù)據(jù)集均是缺乏多樣性的小數(shù)據(jù)樣本，導(dǎo)致訓(xùn)練困難和識(shí)別準(zhǔn)確度不高。目前眾多數(shù)據(jù)增強(qiáng)的預(yù)處理方法(比如隨機(jī)裁剪，隨機(jī)翻轉(zhuǎn)等)可以解決數(shù)據(jù)樣本缺失導(dǎo)致準(zhǔn)確度不能提高的問題[6]，但采用具體模型適用于面部表情數(shù)據(jù)集的，才可以最大程度上提高識(shí)別的準(zhǔn)確率。

筆者主要研究通過隨機(jī)數(shù)據(jù)增強(qiáng)策略并結(jié)合基于特征的方法以提高人臉面部表情識(shí)別準(zhǔn)確度，通過VGG19網(wǎng)絡(luò)提取面部表情特征并進(jìn)行準(zhǔn)確識(shí)別。其中數(shù)據(jù)增強(qiáng)是采用5種數(shù)據(jù)增強(qiáng)方式(圖像旋轉(zhuǎn)、圖像平移、圖像縮放、圖像翻轉(zhuǎn)、圖像投射)隨機(jī)權(quán)重結(jié)合，通過實(shí)驗(yàn)結(jié)果得出了哪種數(shù)據(jù)增強(qiáng)的分配策略更適用于面部表情識(shí)別，即在保證可訓(xùn)練的數(shù)據(jù)集具有多樣性的同時(shí)，得到更加準(zhǔn)確的識(shí)別模型并掌握其權(quán)重的分布情況。

1 用于面目表情特征提取的網(wǎng)絡(luò)VGG19

VGG在2014年由牛津大學(xué)著名研究組VGG(visua geometry group)提出，斬獲該年Imagenet競(jìng)賽中定位任務(wù)(localization task)的第一名和分類任務(wù)(classification task)的第二名[7-8]。VGG19的結(jié)構(gòu)如下圖1它是由16個(gè)stride為1，padding為1的3×3卷積核與5個(gè)size為2，stride為2的maxpool層加上3個(gè)全連接層最后添加一個(gè)soft-max層組成的。VGG 19連續(xù)使用多個(gè)3×3卷積堆疊以便于優(yōu)化并取代大體積的卷積核。多層非線性層在增加網(wǎng)絡(luò)深度時(shí)，可以保證更復(fù)雜的模型學(xué)習(xí)而且代價(jià)更小(以至于達(dá)到參數(shù)更少的目標(biāo))。簡(jiǎn)單地來說，在VGG中，用3個(gè)3×3卷積核代替7×7的卷核，用2個(gè)3×3卷積核代替5×5的卷積核。其主要目的在于是在同一感受野的條件下，提高卷積網(wǎng)絡(luò)的深度，在一定程度上提高神經(jīng)網(wǎng)絡(luò)提取特征的效果[9]。

圖1 VGG19結(jié)構(gòu)圖Fig. 1 The structure diagram of VGG19

2 隨機(jī)權(quán)重分布的數(shù)據(jù)增強(qiáng)

將輸入圖像并行通過窮舉法策略，進(jìn)行隨機(jī)分配權(quán)重的5種數(shù)據(jù)增強(qiáng)方式，再將其送入到面目表情檢測(cè)識(shí)別網(wǎng)絡(luò)中通過采用數(shù)據(jù)增強(qiáng)策略以達(dá)到可提高面目表情識(shí)別準(zhǔn)確率的目的。整體結(jié)構(gòu)框圖如圖2所示。將原始數(shù)據(jù)X通過隨機(jī)分配權(quán)重W1～W5得到分配后的圖像數(shù)據(jù)X1～X5，將其并行通過5種數(shù)據(jù)增強(qiáng)的圖像變換并結(jié)合原始數(shù)據(jù)組成新的數(shù)據(jù)集Y。將新的數(shù)據(jù)集Y送入到圖像特征提取VGG19網(wǎng)絡(luò)模型中，進(jìn)行后續(xù)的面目表情識(shí)別處理。

圖2 隨機(jī)權(quán)重分布的數(shù)據(jù)增強(qiáng)結(jié)構(gòu)圖Fig. 2 Data enhancement structure diagram of random weight distribution

2.1 圖像旋轉(zhuǎn)(R)

圖像旋轉(zhuǎn)是指將圖像以其中某一個(gè)點(diǎn)為旋轉(zhuǎn)中心旋轉(zhuǎn)一定角度，對(duì)圖像對(duì)齊起著極其重要作用。以矩陣變換來表示設(shè)點(diǎn)P0(x0,y0)逆時(shí)針旋轉(zhuǎn)θ角后對(duì)應(yīng)點(diǎn)為那么,旋轉(zhuǎn)前后點(diǎn)P(x0,y0)的坐標(biāo)分別為P(x,y)

(1)

(2)

2.2 圖像平移(T)

圖像的平移操作就是將圖像所有的像素點(diǎn)坐標(biāo)分別加上水平與垂直操作上的偏移量。對(duì)于平移變換假設(shè)水平偏移量為dx，垂直偏移量為dy，則平移變換的坐標(biāo)映射為

(3)

其逆變換為

(4)

x1與y1的矩陣變換可表示為式(5)

(5)

2.3 圖像縮放(Z)

圖像縮放是指對(duì)圖像的大小進(jìn)行調(diào)整的過程，是一種非平凡的過程，需要高效率，平滑和清晰，縮小圖像稱為下采樣，放大圖像稱為上采樣。

(6)

2.4 圖像翻轉(zhuǎn)(F)

圖像的翻轉(zhuǎn)變換是從A(x,y)(二維坐標(biāo))到B(u,v)(二維坐標(biāo))的一種線性變換，其數(shù)學(xué)表達(dá)式為

(7)

式(7)分別為水平翻轉(zhuǎn)，垂直翻轉(zhuǎn)，對(duì)角線翻轉(zhuǎn)。且通過圖像的翻轉(zhuǎn)變換，可以使圖像達(dá)到180°的翻轉(zhuǎn)效果這樣就可以加大其樣本的多樣性。

2.5 圖像投射(P)

將一張圖像投影到一個(gè)新的平面為圖像的透射變換，其使用的變換公式為

(8)

將5種數(shù)據(jù)增強(qiáng)方法進(jìn)行基于隨機(jī)權(quán)重分配策略結(jié)合其結(jié)果Y可表示為

Y=W1XR+W2XT+W3XZ+W4XF+W5XP，

(9)

式中W1～W5分別表示5種數(shù)據(jù)增強(qiáng)方式的隨機(jī)權(quán)重分布。W1～W5X分別表示進(jìn)行并行處理圖像數(shù)據(jù)。RX1為進(jìn)行隨機(jī)旋轉(zhuǎn)的圖像樣本；TX2為隨機(jī)圖像平移的圖像樣本；ZX3為隨機(jī)圖像縮放的樣本；FX4為隨機(jī)圖像仿射變換的圖像樣本；PX5代表隨機(jī)透射變換的圖像樣本。

3 實(shí)驗(yàn)結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

Fer2013人臉面部表情數(shù)據(jù)集是人臉面目表情研究中最常用的數(shù)據(jù)集之一并且在研究當(dāng)中占據(jù)了很高的地位，F(xiàn)er2013數(shù)據(jù)集已經(jīng)為使用者劃分好了訓(xùn)練集，驗(yàn)證集和測(cè)試集。Fer2013數(shù)據(jù)集包含35 887張人臉圖片，其中訓(xùn)練集28 709張，驗(yàn)證集3 589張，測(cè)試集3 589張。并該數(shù)據(jù)集中的圖像均是灰度圖像并且大小為48x48.樣本被劃分為0=anger(生氣)、1=disgust(厭惡)、2=fear(恐懼)、3=happy(開心)、4=sad(傷心)、5=surprised(驚訝)、6=normal(中性)7類。

在Cohn-Kanade基礎(chǔ)上擴(kuò)充數(shù)據(jù)集產(chǎn)生了CK+數(shù)據(jù)集，并在2010年發(fā)布。該數(shù)據(jù)集有20%的圖像數(shù)據(jù)當(dāng)作測(cè)試集并用于測(cè)試模型，80%的圖像數(shù)據(jù)用于訓(xùn)練模型。圖3，4分別展示了Fer2013和CK+人臉表情數(shù)據(jù)集對(duì)應(yīng)的7種表情。

圖3 Fer2013數(shù)據(jù)集的7種表情圖像Fig. 3 Seven facial expressions of Fer2013 dataset

圖4 CK+數(shù)據(jù)集的7種表情圖像Fig. 4 Seven facial expressions of ck+ dataset

3.2 訓(xùn)練數(shù)據(jù)并驗(yàn)證識(shí)別精準(zhǔn)度

訓(xùn)練與測(cè)試數(shù)據(jù)集按8∶2劃分此整體數(shù)據(jù)集，并將訓(xùn)練集圖像基于遺傳算法的隨機(jī)分配策進(jìn)行權(quán)重的劃分，并每次均采用相同的訓(xùn)練方式和識(shí)別網(wǎng)絡(luò)架構(gòu)進(jìn)行實(shí)驗(yàn)。為驗(yàn)證其結(jié)果的通用性，實(shí)驗(yàn)中將使用的模型為VGG19，Resnet，Googlenet，為了提高模型的整體識(shí)別能力，通過微調(diào)將模型調(diào)整到最佳結(jié)構(gòu)。訓(xùn)練的初始權(quán)重參數(shù)設(shè)置為Epoch=30時(shí)，batchsize=128，學(xué)習(xí)率為0.001，優(yōu)化算法采用隨機(jī)梯度下降(SGD)，并在每訓(xùn)練1個(gè)Epoch后便用此權(quán)重測(cè)試一次測(cè)試集，并記錄每次實(shí)驗(yàn)的精準(zhǔn)度。

通過隨機(jī)算法生成不同的數(shù)據(jù)預(yù)處理子策略權(quán)重配比，比較實(shí)驗(yàn)結(jié)果準(zhǔn)確度得出哪種比例數(shù)據(jù)預(yù)處理子策略配比方式更適用于面目表情識(shí)別網(wǎng)絡(luò)并可以提升識(shí)別準(zhǔn)確度。通過大量的等同條件重復(fù)實(shí)驗(yàn)，選取識(shí)別準(zhǔn)確率最高的6種子策略權(quán)重配比方式，結(jié)果如表1所示。通過對(duì)比實(shí)驗(yàn)可看出圖像旋轉(zhuǎn)和圖像平移2種數(shù)據(jù)增強(qiáng)子策略的權(quán)重比例增加，可一定程度上提高其模型的面目表情識(shí)別的準(zhǔn)確率。

表1 在Fer2013和CK+ 數(shù)據(jù)集上數(shù)據(jù)預(yù)處理子策略配比最優(yōu)權(quán)重

為了驗(yàn)證實(shí)驗(yàn)的正確性，手動(dòng)將數(shù)據(jù)預(yù)處理子策略配比方式調(diào)成1∶ 1∶ 1∶ 1∶ 1的形式，通過將數(shù)據(jù)預(yù)處理子策略的任意一種子策略手動(dòng)調(diào)成2，實(shí)驗(yàn)結(jié)果如表2所示。

表2 在Fer2013和CK+ 數(shù)據(jù)集上不同權(quán)重分配策略，準(zhǔn)確度測(cè)試比較

繼續(xù)采用相同的數(shù)據(jù)預(yù)處理子策略權(quán)重配比方式，運(yùn)用不同的網(wǎng)絡(luò)結(jié)構(gòu)在Fer2013訓(xùn)練集上訓(xùn)練表情識(shí)別模型，其性能在測(cè)試集上的結(jié)果比較如表3，驗(yàn)證了其隨機(jī)權(quán)重分配策略的通用性。但是，表情識(shí)別領(lǐng)域可能存在更好的權(quán)重分配策略，在今后的工作中將進(jìn)一步深入探究。

表3 采用不同網(wǎng)絡(luò)結(jié)構(gòu)與相同權(quán)重分配策略，平均準(zhǔn)確度測(cè)試比較

4 結(jié)束語

筆者提出了一種在現(xiàn)有的表情識(shí)別算法訓(xùn)練和識(shí)別的網(wǎng)絡(luò)架構(gòu)基礎(chǔ)上增加了一種隨機(jī)權(quán)重分配進(jìn)行數(shù)據(jù)增強(qiáng)的預(yù)處理方式，解決了由于在訓(xùn)練過程中表情標(biāo)注主觀性強(qiáng)，歧義較大，導(dǎo)致可訓(xùn)練樣本缺少，識(shí)別準(zhǔn)確度不高等問題。實(shí)驗(yàn)結(jié)果表明，文中提出的方法可提高圖像的數(shù)據(jù)庫(kù)質(zhì)量，提高分類器的性能和面目表情識(shí)別的準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡