程其玉 鐘志水 劉華敏 汪 立 李 璐
( 安徽信息工程學(xué)院計(jì)算機(jī)與軟件工程學(xué)院,安徽 蕪湖 241100 )
隨著智能化時(shí)代的到來(lái), 面部表情識(shí)別技術(shù)作為人工智能中對(duì)于研究人的行為狀態(tài)的基礎(chǔ), 逐漸在各個(gè)領(lǐng)域發(fā)展應(yīng)用起來(lái)。 由于在機(jī)器開(kāi)發(fā)時(shí)模擬的圖像僅為實(shí)驗(yàn)室中的理想情況, 即使已經(jīng)考慮到光線、眼鏡、遮擋等因素,但在實(shí)際生活中攝像頭采集到的面部圖像往往達(dá)不到所需的識(shí)別尺寸, 因而識(shí)別精準(zhǔn)度就會(huì)隨之降低。 圖像識(shí)別中,當(dāng)輸入圖像的尺寸減小時(shí), 神經(jīng)網(wǎng)絡(luò)的特征提取程度也受到限制,反之,圖像進(jìn)行放大時(shí),會(huì)導(dǎo)致部分細(xì)節(jié)的丟失,從而導(dǎo)致圖像分辨率降低, 進(jìn)而導(dǎo)致圖像識(shí)別的準(zhǔn)確率降低。
近些年,隨著人臉識(shí)別和面部表情識(shí)別的發(fā)展,部分學(xué)者不再拘泥于理想數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練。 2017 年胡(HU)等人首次提出了對(duì)微小人臉面部區(qū)域進(jìn)行檢測(cè), 并且訓(xùn)練出了可以在不同面部尺寸中進(jìn)行檢測(cè)的多尺度的模型[1]。 2018 年白(BAI)等人將超分辨率網(wǎng)絡(luò)應(yīng)用到人臉檢測(cè)和識(shí)別中[2],該網(wǎng)絡(luò)使用超分辨率網(wǎng)絡(luò)對(duì)圖像進(jìn)行細(xì)化以生成清晰且真實(shí)的高分辨率圖像, 最終實(shí)現(xiàn)了能夠最低檢測(cè)10*10 像素的面部圖像。2019 年邵(SHAO)等人重點(diǎn)研究了尺寸為16*16 像素的微小面孔, 通過(guò)探索生成對(duì)抗性網(wǎng)絡(luò)W-GAN (Wasserstein Generative Adversarial Net)的潛力,將它們重建到8 倍上采樣版本[3]。 2020 年,余(YU)等人提出了一種新的超分辨率變革性對(duì)抗性神經(jīng)網(wǎng)絡(luò),以同時(shí)產(chǎn)生幻覺(jué)(由8 倍的上采樣)和正面化微小(16*16 像素)不對(duì)齊的人臉圖像[4]。 南(NAN)等人提出一種基于特征超分辨率的人臉表情識(shí)別方法FSR-FER, 可針對(duì)低分辨率面部表情圖像進(jìn)行訓(xùn)練識(shí)別, 通過(guò)在RAF-DB 數(shù)據(jù)庫(kù)上放大2 倍、3 倍、4倍、8 倍驗(yàn)證了所提出網(wǎng)絡(luò)的效果, 即最小能夠識(shí)別25*25 像素大小的面部圖片[5]。 言(YAN)等人從濾波器學(xué)習(xí)的角度來(lái)執(zhí)行低分辨率的面部表情識(shí)別,在CK+、MMI、JAFFE 數(shù)據(jù)庫(kù)上進(jìn)行了輸入大小為8*8、16*16、32*32 分別放大4 倍、2 倍、1 倍的驗(yàn)證,在RAF-DB 數(shù)據(jù)庫(kù)上也進(jìn)行了放大三倍實(shí)驗(yàn)的驗(yàn)證[6]。綜上,近些年研究者們提出的超分辨率方法,大多都是通過(guò)網(wǎng)絡(luò)深度的提升來(lái)提高超分辨率的性能,而要加深網(wǎng)絡(luò)的整體深度, 對(duì)訓(xùn)練時(shí)的時(shí)間要求以及對(duì)計(jì)算機(jī)性能的要求也都會(huì)提高。 因此,本文提出一種微小面部表情識(shí)別網(wǎng)絡(luò)CTE-FER,網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,旨在解決在圖像采集中由于像素等原因?qū)е虏杉降拿娌繄D像較小以及分辨率較低, 從而導(dǎo)致面部表情識(shí)別準(zhǔn)確率降低的問(wèn)題。 首先,本文引入來(lái)自Cutblur 的圖像預(yù)處理機(jī)制[7], 結(jié)合EDSR(Enhanced Deep Residual Networks for Single Image Super-Resolution)超分辨率網(wǎng)絡(luò)進(jìn)行訓(xùn)練[8]。 由于要縱向加深網(wǎng)絡(luò)的整體深度, 其訓(xùn)練的時(shí)間延長(zhǎng)以及對(duì)計(jì)算機(jī)性能要求也會(huì)提高。 綜合考慮網(wǎng)絡(luò)層次深度以及超分辨率效果, 本文在不改變EDSR 網(wǎng)絡(luò)縱向深度的同時(shí)提出了在橫向程度上添加通道, 以構(gòu)成三通道的EDSR 網(wǎng)絡(luò)。其次,將其與FER 面部表情識(shí)別網(wǎng)絡(luò)結(jié)合, 構(gòu)成端對(duì)端的基于Cutblur 的三通道EDSR 表情識(shí)別網(wǎng)絡(luò),稱之為CTE-FER 網(wǎng)絡(luò)。 最后,本文采用多項(xiàng)實(shí)驗(yàn)對(duì)比驗(yàn)證所提出算法的有效性。
圖1 CTE-FER 網(wǎng)絡(luò)結(jié)構(gòu)
本文提出的三通道超分辨率微小面部表情識(shí)別網(wǎng)絡(luò)分為三個(gè)部分。如上文圖1 所示,分別為Cutblur圖像預(yù)處理部分、 三通道EDSR 超分辨率部分以及FER 面部表情識(shí)別部分。 CTE-FER 圖像預(yù)處理部分是將面部圖像在超分辨率網(wǎng)絡(luò)訓(xùn)練之前進(jìn)行色塊方面的預(yù)處理, 以減少圖像特征處理時(shí)對(duì)超分辨率結(jié)果和表情識(shí)別結(jié)果的影響。 三通道的EDSR 網(wǎng)絡(luò)對(duì)處理后的圖像特征進(jìn)行學(xué)習(xí), 三通道將網(wǎng)絡(luò)的橫向深度加深, 保證了網(wǎng)絡(luò)縱向深度不變的同時(shí)提升其訓(xùn)練效果和穩(wěn)定性。 表情識(shí)別部分為對(duì)超分辨率處理后的圖像特征進(jìn)行面部特征的提取和分類, 最終得到識(shí)別的結(jié)果。
CTE-FER 算法首先采用Cutblur 對(duì)圖像進(jìn)行預(yù)處理, 通過(guò)在空間上將不同分辨率的圖像色塊相互填充, 從而實(shí)現(xiàn)有針對(duì)性地對(duì)某一特征區(qū)域進(jìn)行超分辨率處理。 如圖2 所示, 將低分辨率圖像 (lowresolution ,LR) 中的圖像塊進(jìn)行裁剪并粘貼在高分辨率圖像(high-resolution ,HR) 中對(duì)應(yīng)位置; 使用HR 對(duì)放大后的LR 反向進(jìn)行局部區(qū)域的填充操作。通過(guò)預(yù)處理,既可以讓模型知道如何處理,也可以知道哪里需要處理, 即算法可以自適應(yīng)地對(duì)圖像進(jìn)行不同程度的處理, 而不是盲目地對(duì)所有像素進(jìn)行超分辨率處理。
圖2 Cutblur 預(yù)處理原理
假設(shè)給定LR 圖像xLR∈RW*H*C和HR 圖像xLR∈RW*H*C,CTE-FER 首先對(duì)LR 圖像進(jìn)行s 倍的雙三次插值,再通過(guò)剪切、粘貼進(jìn)行色塊相互填充,生成成對(duì)的訓(xùn)練樣本xLR∈RW*H*C:
其中s 是放大倍數(shù),M∈0.{ }1sW*sH為二值Mask,其主要功能為確定所需要進(jìn)行裁剪粘貼的部分。
本文提出的三通道EDSR 網(wǎng)絡(luò)如圖3 所示, 將經(jīng)過(guò)Cutblur 處理后的特征向量作為輸入信息T1in、T2in、T3in,輸入到三通道EDSR 的網(wǎng)絡(luò)中。再經(jīng)過(guò)低分辨率特征提取塊conv(s,n)得到提取后的特征T′1in、T′2in和T′3in。
圖3 三通道EDSR
conv(s,n)代表卷積層,公式中的s 和n 分別是濾波器的大小和數(shù)目。 之后便將這些特征進(jìn)行殘差塊ResBlock 多次迭代。
fRes表示T′in,ResBlock 層, 經(jīng)多次迭代加和后將輸出的殘差結(jié)構(gòu)進(jìn)行上采樣以及圖像重建,如此便得到了經(jīng)過(guò)殘差網(wǎng)絡(luò)訓(xùn)練的超分辨率放大后的圖像特征T1out、T2out和T3out。 之后再將三通道得到的圖像特征進(jìn)行加權(quán), 得到綜合的超分辨率特征值Tout。
其中μ 為權(quán)重, 具體參數(shù)獲取方法將在消融實(shí)驗(yàn)給出。
在得到三通道加權(quán)后的超分辨率圖像特征之后,CTE-FER 將圖像特征放入面部表情識(shí)別網(wǎng)絡(luò)中進(jìn)行面部特征提取與分類。
其中,I0表示面部表情識(shí)別輸出結(jié)果,fSMFER表示面部表情網(wǎng)絡(luò)。
此CTE-FER 網(wǎng)絡(luò)的損失函數(shù)可以表示為:
其中,LDF表示三通道EDSR 網(wǎng)絡(luò)的損失函數(shù),Lfer表示面部表情識(shí)別網(wǎng)絡(luò)的損失函數(shù)。 在此選擇交叉熵作為損失函數(shù)。λDE和λfer表示正則化參數(shù)。其中,三通道EDSR 網(wǎng)絡(luò)采用損失函數(shù)L1 來(lái)優(yōu)化, 面部表情網(wǎng)絡(luò)采用交叉熵?fù)p失函數(shù)優(yōu)化。 因此可以表示為:
其中,μ值與公式9 一致,LSR1、LSR2、LSR3分別對(duì)應(yīng)三個(gè)通道的損失,THR為輸入的高分辨率圖像特征,即目標(biāo)特征。 Ix為表情識(shí)別實(shí)際標(biāo)簽。
本實(shí)驗(yàn)在Pytorch3.6 的環(huán)境中運(yùn)行, 使用NVIDIA2080GPU 進(jìn)行訓(xùn)練。 訓(xùn)練時(shí)一共有700 000個(gè)steps,每訓(xùn)練1 000 個(gè)steps 顯示一次。 在網(wǎng)絡(luò)中使用Adam 優(yōu)化器優(yōu)化網(wǎng)絡(luò)參數(shù),初始學(xué)習(xí)率為1e-4。 對(duì)于三通道的EDSR 網(wǎng)絡(luò)來(lái)說(shuō),訓(xùn)練時(shí)間和改進(jìn)之前的訓(xùn)練時(shí)間相差無(wú)幾, 在輸入低分辨率圖像大小為12*12 像素放大四倍的情況下,每訓(xùn)練1 000 個(gè)steps 大約需要10 分鐘。
表1 展示了本文所提出的CTE-FER 算法與采用CARN 網(wǎng)絡(luò)和不同通道分別在CK+、FER2013、BU-3DFE 數(shù)據(jù)庫(kù)中的表情識(shí)別結(jié)果的比較。 放大倍數(shù)為3和4 時(shí),將數(shù)據(jù)庫(kù)采用雙三次插值法縮小到原來(lái)1/3 和1/4 分別得到大小為16*16 像素和12*12 像素的輸入。
表1 消融實(shí)驗(yàn)
在表1 中,CSC-FER 為在單通道時(shí)采用CARN算法時(shí)的結(jié)果, 其在CK+數(shù)據(jù)集上的結(jié)果為91.92%, 在FER2013 和BU-3DFE 的結(jié)果分別為66.26%和78.8%。 但對(duì)于其未采用Cutblur, 只采用EDSR 結(jié)果相對(duì)比結(jié)果并不理想。 CSE-FER 為單通道采用EDSR 網(wǎng)絡(luò)時(shí)的結(jié)果,可以看到,在三個(gè)數(shù)據(jù)集上該算法得到的結(jié)果較采用同等網(wǎng)絡(luò)深度網(wǎng)絡(luò)(CARN)時(shí)的結(jié)果要好,并且在放大三倍的情況下整體面部表情識(shí)別的準(zhǔn)確率也較為理想。 因此,在網(wǎng)絡(luò)中選取EDSR 作為基礎(chǔ)網(wǎng)絡(luò), 同時(shí)為進(jìn)一步驗(yàn)證多通道的有效性,本文將輸入大小縮小為12*12 像素,即縮小4 倍的情況。 可以看出, 在圖像進(jìn)一步縮小時(shí),各個(gè)數(shù)據(jù)庫(kù)的識(shí)別準(zhǔn)確率都有一定程度的降低。綜合比較單通道(CSE-FER)、雙通道(CDE-FER)、三通道(CTE-FER)時(shí)的情況可以看出,在按通道時(shí)所有數(shù)據(jù)庫(kù)的準(zhǔn)確率均有明顯提升。 進(jìn)一步進(jìn)行四通道訓(xùn)練時(shí), 在FER2013 數(shù)據(jù)庫(kù)中可以看到準(zhǔn)確率開(kāi)始下降,也正是因?yàn)橛?xùn)練所需時(shí)間為三通道的兩倍,針對(duì)四通道之后的訓(xùn)練不再繼續(xù)。
上文公式(9)中有三個(gè)參數(shù)μ1、μ2、μ3,分別用于確定三通道EDSR 網(wǎng)絡(luò)中的各個(gè)通道的影響。 本實(shí)驗(yàn)采用FER2013 數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn),首先采用不定系數(shù)法保持μ1=1 不變, 然后調(diào)整μ2和μ3的值來(lái)觀察識(shí)別準(zhǔn)確率,從下頁(yè)圖4 可以看出,當(dāng)μ2=μ3=0.08 時(shí)面部表情識(shí)別準(zhǔn)確率最高;之后保持μ2=μ3=0.08 不變,調(diào)整μ1的值,得出的結(jié)果如下頁(yè)圖5 所示。 可以看出當(dāng)μ1=0.8 時(shí),面部表情識(shí)別準(zhǔn)確率達(dá)到最高。 綜上,本實(shí)驗(yàn)在μ1=0.8,μ2=μ3=0.08 時(shí)達(dá)到最優(yōu)值。
圖4 μ1=1,改變?chǔ)?,μ3 時(shí)面部表情識(shí)別準(zhǔn)確率的變化
圖5 μ2=μ3=0.08 時(shí),改變?chǔ)? 時(shí)面部表情識(shí)別準(zhǔn)確率的變化
圖6 展示出本算法在CK+、FER2013、BU-3DFE數(shù)據(jù)庫(kù)中的混淆矩陣分析,從圖中可以看到,各種表情開(kāi)心與驚訝的表情準(zhǔn)確率相對(duì)較高, 而其他的表情準(zhǔn)確率相對(duì)略低, 并且不同的數(shù)據(jù)庫(kù)中的相同表情準(zhǔn)確率的順序也不相同, 這是因?yàn)槊總€(gè)數(shù)據(jù)庫(kù)中的各個(gè)表情所占比重不同, 以及每個(gè)數(shù)據(jù)庫(kù)的圖像來(lái)源、清晰度、表情程度等均對(duì)其造成影響。
圖6 CTE-FER 在三個(gè)數(shù)據(jù)庫(kù)上的混淆矩陣
表2 展示了在數(shù)據(jù)庫(kù)CK+、FER2013、BU-3DFE本章算法與先進(jìn)算法結(jié)果進(jìn)行比較, 可以看出在本文輸入大小僅為12*12 像素時(shí),CK+數(shù)據(jù)庫(kù)和BU-3DFE 數(shù)據(jù)庫(kù)中得到的結(jié)果可以與先進(jìn)算法相媲美,達(dá)到96.97%和80.40%,而對(duì)于FER2013 數(shù)據(jù)庫(kù), 由于其原始數(shù)據(jù)庫(kù)是由網(wǎng)絡(luò)中的圖片得到,存在較大的噪聲,且分辨率較低,在進(jìn)行超分辨率訓(xùn)練時(shí), 高分辨率的圖像決定訓(xùn)練結(jié)果的最優(yōu)值,因此FER2013 數(shù)據(jù)庫(kù)得到的效果與先進(jìn)算法存在一定差距。
表2 不同方法在CK+、FER2013、BU-3DFE 數(shù)據(jù)庫(kù)上的準(zhǔn)確度(不同輸入大?。?/p>
為了驗(yàn)證在相同輸入大小時(shí)的CTE-FER 網(wǎng)絡(luò)性能, 將其在放大倍數(shù)為4 時(shí)的結(jié)果與其他網(wǎng)絡(luò)在相同輸入大小時(shí)進(jìn)行比較。 對(duì)比結(jié)果如表3 所示,在相同輸入大小時(shí),本文提出的CTE-FER 網(wǎng)絡(luò)的表情識(shí)別結(jié)果高于其他網(wǎng)絡(luò)。
表3 面部表情識(shí)別在CK+、FER2013、BU-3DFE 數(shù)據(jù)庫(kù)上的準(zhǔn)確度(相同輸入大小)
為了進(jìn)一步對(duì)本文提出了網(wǎng)絡(luò)性能進(jìn)行驗(yàn)證,針對(duì)RAF-DB 數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn), 并與現(xiàn)有的部分超分辨率面部表情識(shí)別算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果于表4所示。 可以看出與其他網(wǎng)絡(luò)的結(jié)果對(duì)比,在放大倍數(shù)為2 的情況下,準(zhǔn)確率略低于E-FCNN 算法結(jié)果,而在放大3 倍和放大4 倍時(shí)得到的結(jié)果均高于其他算法。 因此,在高放大倍數(shù)的情況下,本章所提算法具有優(yōu)越性。
表4 RAF-DB 數(shù)據(jù)庫(kù)的低分辨率面部表情識(shí)別比較
研究提出一種基于超分辨率的面部表情識(shí)別算法CTE-FER, 對(duì)于微小尺寸的面部表情進(jìn)行識(shí)別,通過(guò)針對(duì)超分辨率算法進(jìn)行多通道的改進(jìn), 提升針對(duì)小尺寸下面部表情圖像的超分辨率效果, 進(jìn)而提升整體面部表情識(shí)別的準(zhǔn)確率。 同時(shí),研究采用大量的對(duì)比實(shí)驗(yàn)評(píng)估該算法的性能,實(shí)驗(yàn)結(jié)果表明,本文提出的算法有效地提升了微小面部表情的識(shí)別準(zhǔn)確率。 未來(lái)研究將進(jìn)一步提升算法的性能,降低算法訓(xùn)練時(shí)間的同時(shí)提升準(zhǔn)確率。