三通道超分辨率微小面部表情識(shí)別算法研究

2024-01-24 07:39:30程其玉鐘志水劉華敏

銅陵學(xué)院學(xué)報(bào) 2023年6期

程其玉鐘志水劉華敏汪立李璐

（安徽信息工程學(xué)院計(jì)算機(jī)與軟件工程學(xué)院，安徽蕪湖 241100 ）

一、引言

隨著智能化時(shí)代的到來(lái)，面部表情識(shí)別技術(shù)作為人工智能中對(duì)于研究人的行為狀態(tài)的基礎(chǔ)，逐漸在各個(gè)領(lǐng)域發(fā)展應(yīng)用起來(lái)。由于在機(jī)器開(kāi)發(fā)時(shí)模擬的圖像僅為實(shí)驗(yàn)室中的理想情況，即使已經(jīng)考慮到光線、眼鏡、遮擋等因素，但在實(shí)際生活中攝像頭采集到的面部圖像往往達(dá)不到所需的識(shí)別尺寸，因而識(shí)別精準(zhǔn)度就會(huì)隨之降低。圖像識(shí)別中，當(dāng)輸入圖像的尺寸減小時(shí)，神經(jīng)網(wǎng)絡(luò)的特征提取程度也受到限制，反之，圖像進(jìn)行放大時(shí)，會(huì)導(dǎo)致部分細(xì)節(jié)的丟失，從而導(dǎo)致圖像分辨率降低，進(jìn)而導(dǎo)致圖像識(shí)別的準(zhǔn)確率降低。

近些年，隨著人臉識(shí)別和面部表情識(shí)別的發(fā)展，部分學(xué)者不再拘泥于理想數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練。 2017 年胡（HU）等人首次提出了對(duì)微小人臉面部區(qū)域進(jìn)行檢測(cè)，并且訓(xùn)練出了可以在不同面部尺寸中進(jìn)行檢測(cè)的多尺度的模型[1]。 2018 年白（BAI）等人將超分辨率網(wǎng)絡(luò)應(yīng)用到人臉檢測(cè)和識(shí)別中[2]，該網(wǎng)絡(luò)使用超分辨率網(wǎng)絡(luò)對(duì)圖像進(jìn)行細(xì)化以生成清晰且真實(shí)的高分辨率圖像，最終實(shí)現(xiàn)了能夠最低檢測(cè)10*10 像素的面部圖像。2019 年邵（SHAO）等人重點(diǎn)研究了尺寸為16*16 像素的微小面孔，通過(guò)探索生成對(duì)抗性網(wǎng)絡(luò)W-GAN （Wasserstein Generative Adversarial Net）的潛力，將它們重建到8 倍上采樣版本[3]。 2020 年，余（YU）等人提出了一種新的超分辨率變革性對(duì)抗性神經(jīng)網(wǎng)絡(luò)，以同時(shí)產(chǎn)生幻覺(jué)（由8 倍的上采樣)和正面化微小(16*16 像素）不對(duì)齊的人臉圖像[4]。南（NAN）等人提出一種基于特征超分辨率的人臉表情識(shí)別方法FSR-FER，可針對(duì)低分辨率面部表情圖像進(jìn)行訓(xùn)練識(shí)別，通過(guò)在RAF-DB 數(shù)據(jù)庫(kù)上放大2 倍、3 倍、4倍、8 倍驗(yàn)證了所提出網(wǎng)絡(luò)的效果，即最小能夠識(shí)別25*25 像素大小的面部圖片[5]。言（YAN）等人從濾波器學(xué)習(xí)的角度來(lái)執(zhí)行低分辨率的面部表情識(shí)別，在CK+、MMI、JAFFE 數(shù)據(jù)庫(kù)上進(jìn)行了輸入大小為8*8、16*16、32*32 分別放大4 倍、2 倍、1 倍的驗(yàn)證，在RAF-DB 數(shù)據(jù)庫(kù)上也進(jìn)行了放大三倍實(shí)驗(yàn)的驗(yàn)證[6]。綜上，近些年研究者們提出的超分辨率方法，大多都是通過(guò)網(wǎng)絡(luò)深度的提升來(lái)提高超分辨率的性能，而要加深網(wǎng)絡(luò)的整體深度，對(duì)訓(xùn)練時(shí)的時(shí)間要求以及對(duì)計(jì)算機(jī)性能的要求也都會(huì)提高。因此，本文提出一種微小面部表情識(shí)別網(wǎng)絡(luò)CTE-FER，網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示，旨在解決在圖像采集中由于像素等原因?qū)е虏杉降拿娌繄D像較小以及分辨率較低，從而導(dǎo)致面部表情識(shí)別準(zhǔn)確率降低的問(wèn)題。首先，本文引入來(lái)自Cutblur 的圖像預(yù)處理機(jī)制[7]，結(jié)合EDSR（Enhanced Deep Residual Networks for Single Image Super-Resolution）超分辨率網(wǎng)絡(luò)進(jìn)行訓(xùn)練[8]。由于要縱向加深網(wǎng)絡(luò)的整體深度，其訓(xùn)練的時(shí)間延長(zhǎng)以及對(duì)計(jì)算機(jī)性能要求也會(huì)提高。綜合考慮網(wǎng)絡(luò)層次深度以及超分辨率效果，本文在不改變EDSR 網(wǎng)絡(luò)縱向深度的同時(shí)提出了在橫向程度上添加通道，以構(gòu)成三通道的EDSR 網(wǎng)絡(luò)。其次，將其與FER 面部表情識(shí)別網(wǎng)絡(luò)結(jié)合，構(gòu)成端對(duì)端的基于Cutblur 的三通道EDSR 表情識(shí)別網(wǎng)絡(luò)，稱之為CTE-FER 網(wǎng)絡(luò)。最后，本文采用多項(xiàng)實(shí)驗(yàn)對(duì)比驗(yàn)證所提出算法的有效性。

圖1 CTE-FER 網(wǎng)絡(luò)結(jié)構(gòu)

二、三通道超分辨率微小面部表情識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)

本文提出的三通道超分辨率微小面部表情識(shí)別網(wǎng)絡(luò)分為三個(gè)部分。如上文圖1 所示，分別為Cutblur圖像預(yù)處理部分、三通道EDSR 超分辨率部分以及FER 面部表情識(shí)別部分。 CTE-FER 圖像預(yù)處理部分是將面部圖像在超分辨率網(wǎng)絡(luò)訓(xùn)練之前進(jìn)行色塊方面的預(yù)處理，以減少圖像特征處理時(shí)對(duì)超分辨率結(jié)果和表情識(shí)別結(jié)果的影響。三通道的EDSR 網(wǎng)絡(luò)對(duì)處理后的圖像特征進(jìn)行學(xué)習(xí)，三通道將網(wǎng)絡(luò)的橫向深度加深，保證了網(wǎng)絡(luò)縱向深度不變的同時(shí)提升其訓(xùn)練效果和穩(wěn)定性。表情識(shí)別部分為對(duì)超分辨率處理后的圖像特征進(jìn)行面部特征的提取和分類，最終得到識(shí)別的結(jié)果。

（一）CTE-FER 框架原理

CTE-FER 算法首先采用Cutblur 對(duì)圖像進(jìn)行預(yù)處理，通過(guò)在空間上將不同分辨率的圖像色塊相互填充，從而實(shí)現(xiàn)有針對(duì)性地對(duì)某一特征區(qū)域進(jìn)行超分辨率處理。如圖2 所示，將低分辨率圖像（lowresolution ，LR）中的圖像塊進(jìn)行裁剪并粘貼在高分辨率圖像（high-resolution ，HR）中對(duì)應(yīng)位置；使用HR 對(duì)放大后的LR 反向進(jìn)行局部區(qū)域的填充操作。通過(guò)預(yù)處理，既可以讓模型知道如何處理，也可以知道哪里需要處理，即算法可以自適應(yīng)地對(duì)圖像進(jìn)行不同程度的處理，而不是盲目地對(duì)所有像素進(jìn)行超分辨率處理。

圖2 Cutblur 預(yù)處理原理

假設(shè)給定LR 圖像xLR∈RW*H*C和HR 圖像xLR∈RW*H*C，CTE-FER 首先對(duì)LR 圖像進(jìn)行s 倍的雙三次插值，再通過(guò)剪切、粘貼進(jìn)行色塊相互填充，生成成對(duì)的訓(xùn)練樣本xLR∈RW*H*C：

其中s 是放大倍數(shù)，M∈0.｛｝1sW*sH為二值Mask，其主要功能為確定所需要進(jìn)行裁剪粘貼的部分。

本文提出的三通道EDSR 網(wǎng)絡(luò)如圖3 所示，將經(jīng)過(guò)Cutblur 處理后的特征向量作為輸入信息T1in、T2in、T3in，輸入到三通道EDSR 的網(wǎng)絡(luò)中。再經(jīng)過(guò)低分辨率特征提取塊conv(s,n)得到提取后的特征T′1in、T′2in和T′3in。

圖3 三通道EDSR

conv(s,n)代表卷積層，公式中的s 和n 分別是濾波器的大小和數(shù)目。之后便將這些特征進(jìn)行殘差塊ResBlock 多次迭代。

fRes表示T′in，ResBlock 層，經(jīng)多次迭代加和后將輸出的殘差結(jié)構(gòu)進(jìn)行上采樣以及圖像重建，如此便得到了經(jīng)過(guò)殘差網(wǎng)絡(luò)訓(xùn)練的超分辨率放大后的圖像特征T1out、T2out和T3out。之后再將三通道得到的圖像特征進(jìn)行加權(quán)，得到綜合的超分辨率特征值Tout。

其中μ 為權(quán)重，具體參數(shù)獲取方法將在消融實(shí)驗(yàn)給出。

（二）表情識(shí)別部分及損失函數(shù)

在得到三通道加權(quán)后的超分辨率圖像特征之后，CTE-FER 將圖像特征放入面部表情識(shí)別網(wǎng)絡(luò)中進(jìn)行面部特征提取與分類。

其中，I0表示面部表情識(shí)別輸出結(jié)果，fSMFER表示面部表情網(wǎng)絡(luò)。

此CTE-FER 網(wǎng)絡(luò)的損失函數(shù)可以表示為：

其中，LDF表示三通道EDSR 網(wǎng)絡(luò)的損失函數(shù)，Lfer表示面部表情識(shí)別網(wǎng)絡(luò)的損失函數(shù)。在此選擇交叉熵作為損失函數(shù)。λDE和λfer表示正則化參數(shù)。其中，三通道EDSR 網(wǎng)絡(luò)采用損失函數(shù)L1 來(lái)優(yōu)化，面部表情網(wǎng)絡(luò)采用交叉熵?fù)p失函數(shù)優(yōu)化。因此可以表示為：

其中，μ值與公式9 一致，LSR1、LSR2、LSR3分別對(duì)應(yīng)三個(gè)通道的損失，THR為輸入的高分辨率圖像特征，即目標(biāo)特征。 Ix為表情識(shí)別實(shí)際標(biāo)簽。

三、實(shí)驗(yàn)結(jié)果分析

（一）實(shí)驗(yàn)參數(shù)及實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)在Pytorch3.6 的環(huán)境中運(yùn)行，使用NVIDIA2080GPU 進(jìn)行訓(xùn)練。訓(xùn)練時(shí)一共有700 000個(gè)steps，每訓(xùn)練1 000 個(gè)steps 顯示一次。在網(wǎng)絡(luò)中使用Adam 優(yōu)化器優(yōu)化網(wǎng)絡(luò)參數(shù)，初始學(xué)習(xí)率為1e-4。對(duì)于三通道的EDSR 網(wǎng)絡(luò)來(lái)說(shuō)，訓(xùn)練時(shí)間和改進(jìn)之前的訓(xùn)練時(shí)間相差無(wú)幾，在輸入低分辨率圖像大小為12*12 像素放大四倍的情況下，每訓(xùn)練1 000 個(gè)steps 大約需要10 分鐘。

（二）消融實(shí)驗(yàn)

表1 展示了本文所提出的CTE-FER 算法與采用CARN 網(wǎng)絡(luò)和不同通道分別在CK+、FER2013、BU-3DFE 數(shù)據(jù)庫(kù)中的表情識(shí)別結(jié)果的比較。放大倍數(shù)為3和4 時(shí)，將數(shù)據(jù)庫(kù)采用雙三次插值法縮小到原來(lái)1/3 和1/4 分別得到大小為16*16 像素和12*12 像素的輸入。

表1 消融實(shí)驗(yàn)

在表1 中，CSC-FER 為在單通道時(shí)采用CARN算法時(shí)的結(jié)果，其在CK+數(shù)據(jù)集上的結(jié)果為91.92%，在FER2013 和BU-3DFE 的結(jié)果分別為66.26%和78.8%。但對(duì)于其未采用Cutblur，只采用EDSR 結(jié)果相對(duì)比結(jié)果并不理想。 CSE-FER 為單通道采用EDSR 網(wǎng)絡(luò)時(shí)的結(jié)果，可以看到，在三個(gè)數(shù)據(jù)集上該算法得到的結(jié)果較采用同等網(wǎng)絡(luò)深度網(wǎng)絡(luò)（CARN）時(shí)的結(jié)果要好，并且在放大三倍的情況下整體面部表情識(shí)別的準(zhǔn)確率也較為理想。因此，在網(wǎng)絡(luò)中選取EDSR 作為基礎(chǔ)網(wǎng)絡(luò)，同時(shí)為進(jìn)一步驗(yàn)證多通道的有效性，本文將輸入大小縮小為12*12 像素，即縮小4 倍的情況。可以看出，在圖像進(jìn)一步縮小時(shí)，各個(gè)數(shù)據(jù)庫(kù)的識(shí)別準(zhǔn)確率都有一定程度的降低。綜合比較單通道（CSE-FER）、雙通道（CDE-FER）、三通道（CTE-FER）時(shí)的情況可以看出，在按通道時(shí)所有數(shù)據(jù)庫(kù)的準(zhǔn)確率均有明顯提升。進(jìn)一步進(jìn)行四通道訓(xùn)練時(shí)，在FER2013 數(shù)據(jù)庫(kù)中可以看到準(zhǔn)確率開(kāi)始下降，也正是因?yàn)橛?xùn)練所需時(shí)間為三通道的兩倍，針對(duì)四通道之后的訓(xùn)練不再繼續(xù)。

上文公式（9）中有三個(gè)參數(shù)μ1、μ2、μ3，分別用于確定三通道EDSR 網(wǎng)絡(luò)中的各個(gè)通道的影響。本實(shí)驗(yàn)采用FER2013 數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)，首先采用不定系數(shù)法保持μ1=1 不變，然后調(diào)整μ2和μ3的值來(lái)觀察識(shí)別準(zhǔn)確率，從下頁(yè)圖4 可以看出，當(dāng)μ2=μ3=0.08 時(shí)面部表情識(shí)別準(zhǔn)確率最高；之后保持μ2=μ3=0.08 不變，調(diào)整μ1的值，得出的結(jié)果如下頁(yè)圖5 所示。可以看出當(dāng)μ1=0.8 時(shí)，面部表情識(shí)別準(zhǔn)確率達(dá)到最高。綜上，本實(shí)驗(yàn)在μ1=0.8，μ2=μ3=0.08 時(shí)達(dá)到最優(yōu)值。

圖4 μ1=1，改變?chǔ)?，μ3 時(shí)面部表情識(shí)別準(zhǔn)確率的變化

圖5 μ2=μ3=0.08 時(shí)，改變?chǔ)? 時(shí)面部表情識(shí)別準(zhǔn)確率的變化

（三）算法自我評(píng)估

圖6 展示出本算法在CK+、FER2013、BU-3DFE數(shù)據(jù)庫(kù)中的混淆矩陣分析，從圖中可以看到，各種表情開(kāi)心與驚訝的表情準(zhǔn)確率相對(duì)較高，而其他的表情準(zhǔn)確率相對(duì)略低，并且不同的數(shù)據(jù)庫(kù)中的相同表情準(zhǔn)確率的順序也不相同，這是因?yàn)槊總€(gè)數(shù)據(jù)庫(kù)中的各個(gè)表情所占比重不同，以及每個(gè)數(shù)據(jù)庫(kù)的圖像來(lái)源、清晰度、表情程度等均對(duì)其造成影響。

圖6 CTE-FER 在三個(gè)數(shù)據(jù)庫(kù)上的混淆矩陣

（四）與先進(jìn)算法比較

表2 展示了在數(shù)據(jù)庫(kù)CK+、FER2013、BU-3DFE本章算法與先進(jìn)算法結(jié)果進(jìn)行比較，可以看出在本文輸入大小僅為12*12 像素時(shí)，CK+數(shù)據(jù)庫(kù)和BU-3DFE 數(shù)據(jù)庫(kù)中得到的結(jié)果可以與先進(jìn)算法相媲美，達(dá)到96.97%和80.40%，而對(duì)于FER2013 數(shù)據(jù)庫(kù)，由于其原始數(shù)據(jù)庫(kù)是由網(wǎng)絡(luò)中的圖片得到，存在較大的噪聲，且分辨率較低，在進(jìn)行超分辨率訓(xùn)練時(shí)，高分辨率的圖像決定訓(xùn)練結(jié)果的最優(yōu)值，因此FER2013 數(shù)據(jù)庫(kù)得到的效果與先進(jìn)算法存在一定差距。

表2 不同方法在CK+、FER2013、BU-3DFE 數(shù)據(jù)庫(kù)上的準(zhǔn)確度（不同輸入大?。?/p>

（五）相同輸入大小時(shí)面部表情識(shí)別的比較

為了驗(yàn)證在相同輸入大小時(shí)的CTE-FER 網(wǎng)絡(luò)性能，將其在放大倍數(shù)為4 時(shí)的結(jié)果與其他網(wǎng)絡(luò)在相同輸入大小時(shí)進(jìn)行比較。對(duì)比結(jié)果如表3 所示，在相同輸入大小時(shí)，本文提出的CTE-FER 網(wǎng)絡(luò)的表情識(shí)別結(jié)果高于其他網(wǎng)絡(luò)。

表3 面部表情識(shí)別在CK+、FER2013、BU-3DFE 數(shù)據(jù)庫(kù)上的準(zhǔn)確度（相同輸入大小）

（六）低分辨率面部表情識(shí)別比較

為了進(jìn)一步對(duì)本文提出了網(wǎng)絡(luò)性能進(jìn)行驗(yàn)證，針對(duì)RAF-DB 數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)，并與現(xiàn)有的部分超分辨率面部表情識(shí)別算法進(jìn)行比較，實(shí)驗(yàn)結(jié)果于表4所示。可以看出與其他網(wǎng)絡(luò)的結(jié)果對(duì)比，在放大倍數(shù)為2 的情況下，準(zhǔn)確率略低于E-FCNN 算法結(jié)果，而在放大3 倍和放大4 倍時(shí)得到的結(jié)果均高于其他算法。因此，在高放大倍數(shù)的情況下，本章所提算法具有優(yōu)越性。

表4 RAF-DB 數(shù)據(jù)庫(kù)的低分辨率面部表情識(shí)別比較

四、結(jié)語(yǔ)

研究提出一種基于超分辨率的面部表情識(shí)別算法CTE-FER，對(duì)于微小尺寸的面部表情進(jìn)行識(shí)別，通過(guò)針對(duì)超分辨率算法進(jìn)行多通道的改進(jìn)，提升針對(duì)小尺寸下面部表情圖像的超分辨率效果，進(jìn)而提升整體面部表情識(shí)別的準(zhǔn)確率。同時(shí)，研究采用大量的對(duì)比實(shí)驗(yàn)評(píng)估該算法的性能，實(shí)驗(yàn)結(jié)果表明，本文提出的算法有效地提升了微小面部表情的識(shí)別準(zhǔn)確率。未來(lái)研究將進(jìn)一步提升算法的性能，降低算法訓(xùn)練時(shí)間的同時(shí)提升準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡