增強(qiáng)可分離卷積通道特征的表情識(shí)別研究

2022-01-25 18:54梁華剛雷毅雄

計(jì)算機(jī)工程與應(yīng)用 2022年2期

關(guān)鍵詞：壓縮率網(wǎng)絡(luò)結(jié)構(gòu)人臉

梁華剛，雷毅雄

長(zhǎng)安大學(xué) 電子與控制工程學(xué)院，西安 710064

機(jī)器視覺(jué)是人工智能領(lǐng)域的一個(gè)飛速發(fā)展的分支，隨著科學(xué)技術(shù)不斷進(jìn)步，人臉表情識(shí)別（facial expression recognition，F(xiàn)ER）技術(shù)正在經(jīng)歷前所未有的發(fā)展。人們?cè)谌粘Ｉ钪薪?jīng)常會(huì)聽(tīng)到“表情”這個(gè)詞，它是面部肌肉的動(dòng)作或狀態(tài)的結(jié)果，是一種非語(yǔ)言交流的形式。面部表情是日常生活中最為重要的一種信息傳遞方式，人們?cè)谌粘Ｉ钪锌梢酝ㄟ^(guò)面部表情進(jìn)行交流，傳遞大量的信息。當(dāng)人們面對(duì)面交流時(shí)，55%的信息是通過(guò)面部表情傳遞的[1]。目前人類(lèi)主要有七種情感：憤怒、高興、悲傷、驚訝、厭惡、恐懼和自然。面部表情識(shí)別的研究從未停止過(guò)，人臉面部表情識(shí)別是人臉識(shí)別技術(shù)中的重要組成部分，近年來(lái)在人機(jī)交互、安全、機(jī)器人制造、自動(dòng)化、醫(yī)療、通信和駕駛等領(lǐng)域得到了廣泛的關(guān)注，成為學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。

人臉表情識(shí)別主要包括人臉圖像采集、人臉圖像預(yù)處理、特征提取和表情識(shí)別四個(gè)步驟，其中特征提取是最重要的步驟，一個(gè)好的特征提取方法可以直接決定人臉面部表情識(shí)別的準(zhǔn)確率。傳統(tǒng)的人臉表情識(shí)別方法主要采用手動(dòng)提取特征的方式，比如提取表情幾何特征的ASM[2]方法，提取表情邊緣特征的HOG[3]方法和表情紋理特征的LBP[4]方法等，再用SVM[5]進(jìn)行分類(lèi)。傳統(tǒng)的人臉表情特征提取方法受人為因素影響識(shí)別率不高，而卷積神經(jīng)網(wǎng)絡(luò)面臨大數(shù)據(jù)樣本時(shí)更易訓(xùn)練，并能提取到人臉表情的高維特征，用在人臉表情識(shí)別的特征提取當(dāng)中可以取得相當(dāng)不錯(cuò)的效果。

LeCun等人[6]首次提出第一個(gè)真正意義上的卷積神經(jīng)網(wǎng)絡(luò)，并于1998年提出了應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)的算法解決手寫(xiě)數(shù)字識(shí)別的視覺(jué)任務(wù)。深度卷積神經(jīng)網(wǎng)絡(luò)起源于2012年的AlexNet網(wǎng)絡(luò)[7]，與以前的卷積神經(jīng)網(wǎng)絡(luò)相比，AlexNet網(wǎng)絡(luò)最顯著的特點(diǎn)是層次更深，參數(shù)規(guī)模更大，使用了新的激活函數(shù)修正線(xiàn)性單元（the rectified linear unit，ReLU），并且引入dropout機(jī)制。2014年，Simonyan等人[8]提出VGGNet，通過(guò)不斷加深網(wǎng)絡(luò)來(lái)提升性能，證明了深度對(duì)模型性能的重要性。隨后Szegedy等人[9]提出GoogleNet模型，不僅增加了網(wǎng)絡(luò)模型的深度，還增加了網(wǎng)絡(luò)模型的寬度，在沒(méi)有增加計(jì)算代價(jià)的同時(shí)反而能提取到更多的特征，從而提升訓(xùn)練結(jié)果。深度卷積神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)方法，也是一種特征學(xué)習(xí)的方法，可以提取到更深的圖像特征，使得表情識(shí)別的準(zhǔn)確率也得以提升，已經(jīng)取得了相當(dāng)不錯(cuò)的成果。王建霞等人[10]通過(guò)增加卷積神經(jīng)網(wǎng)絡(luò)的深度和寬度來(lái)增強(qiáng)特征提取能力，將高層次與低層次的特征進(jìn)行融合，取得了較好的表情識(shí)別效果。杜進(jìn)等人[11]在網(wǎng)絡(luò)結(jié)構(gòu)中引入了殘差學(xué)習(xí)模塊，目的是解決隨著網(wǎng)絡(luò)深度的增加神經(jīng)網(wǎng)絡(luò)出現(xiàn)的退化問(wèn)題，從而導(dǎo)致表情識(shí)別精度下降。呂誨等人[12]使用超級(jí)精簡(jiǎn)的輕量化網(wǎng)絡(luò)，網(wǎng)絡(luò)只有66 000個(gè)參數(shù)，主要是保證網(wǎng)絡(luò)的實(shí)時(shí)性需求。這些方法雖然取得了較好的效果，但也面臨著一些問(wèn)題：（1）隨著網(wǎng)絡(luò)層數(shù)的加深，網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜程度也越高，計(jì)算代價(jià)會(huì)越來(lái)越昂貴；（2）網(wǎng)絡(luò)參數(shù)降低后精度卻得不到一定的保證。

因此，本文采用深度學(xué)習(xí)方法，設(shè)計(jì)并訓(xùn)練輕量化的卷積神經(jīng)網(wǎng)絡(luò)表情識(shí)別模型，將可以增強(qiáng)特征提取能力的Squeeze-and-Excitation（SE）[13]模塊與深度可分離卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合，來(lái)減少網(wǎng)絡(luò)模型參數(shù)，同時(shí)更高效地提取人臉表情特征。在網(wǎng)絡(luò)結(jié)構(gòu)通道數(shù)不同的層加入的SE模塊的壓縮率是不同的，可以更好地將通道間的相關(guān)性結(jié)合起來(lái)，增強(qiáng)特征提取能力。

1 基于深度可分離卷積的表情識(shí)別

1.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）在分類(lèi)問(wèn)題中表現(xiàn)優(yōu)異，對(duì)其進(jìn)行訓(xùn)練，可以學(xué)習(xí)到輸入和輸出之間的多層非線(xiàn)性關(guān)系。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)一般由卷積層、池化層和全連接層組成，如圖1所示。

圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of convolutional neural network

1.1.1 卷積層

卷積層即卷積操作，在圖像處理中，卷積操作其實(shí)就是對(duì)一組多維矩陣的不同局部與卷積核每個(gè)位置的元素相乘，然后求和，計(jì)算表達(dá)式如公式（1）所示：

1.1.2 池化層

池化層常見(jiàn)的兩種方式為平均池化和最大池化，即取對(duì)應(yīng)區(qū)域的平均值或最大值作為池化后的元素值。例如，對(duì)一個(gè)4×4的輸入，使用2×2的核進(jìn)行最大池化操作的過(guò)程為：

1.1.3 全連接層

全連接層的每個(gè)結(jié)點(diǎn)與前一層所有結(jié)點(diǎn)進(jìn)行連接，將前一層所提取到的各個(gè)特征結(jié)合起來(lái)，使網(wǎng)絡(luò)學(xué)習(xí)到的特征圖轉(zhuǎn)換為一個(gè)多維特征向量，送入分類(lèi)器后可以實(shí)現(xiàn)圖像的分類(lèi)與識(shí)別。假設(shè)全連接層輸入為X，輸出為Y，計(jì)算表達(dá)式如公式（2）所示：

式中，Yi表示輸出Y中的元素，Xj表示輸入X中的元素，wij表示權(quán)重系數(shù)，Q表示輸入X的元素總數(shù)，b為偏置。

1.2 深度可分離卷積

深度可分離卷積實(shí)質(zhì)上將卷積分為兩個(gè)階段：深度卷積DW（depthwise convolution）和點(diǎn)卷積PW（pointwise convolution）。DW屬于深度可分離卷積濾波階段，每一個(gè)通道上有對(duì)應(yīng)的卷積核進(jìn)行卷積操作；PW是深度可分離卷積的組合階段，整合多個(gè)特征圖信息。深度可分離卷積能夠大幅度減少參數(shù)，因而其計(jì)算量較傳統(tǒng)卷積大幅縮減，并且在深度卷積和1×1卷積后都增加了BN（batch normalization）[14]層和激活層。深度可分離卷積的結(jié)構(gòu)如圖2所示，BN層用于對(duì)數(shù)據(jù)進(jìn)行歸一化，以保證每層的數(shù)據(jù)分布穩(wěn)定，避免輸入數(shù)據(jù)的偏移造成的影響。激活層增加了神經(jīng)網(wǎng)絡(luò)各層之間的非線(xiàn)性關(guān)系，通過(guò)激活函數(shù)稀疏后的模型能夠更好地提取相關(guān)特征、擬合訓(xùn)練數(shù)據(jù)，同時(shí)有效地抑制了梯度消失的問(wèn)題。

圖2 深度可分離卷積結(jié)構(gòu)圖Fig.2 Structure diagram of depthwise separable convolution

1.3 激活函數(shù)

激活函數(shù)在神經(jīng)網(wǎng)絡(luò)中主要用來(lái)解決線(xiàn)性不可分問(wèn)題，它可以增強(qiáng)神經(jīng)網(wǎng)絡(luò)模型的非線(xiàn)性能力，以及提升網(wǎng)絡(luò)模型的學(xué)習(xí)和表達(dá)能力。ReLU激活函數(shù)是其中效果比較好的一種，根據(jù)公式（3）可看出，首先輸入在正區(qū)間內(nèi)，只有線(xiàn)性關(guān)系，可以讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度提升數(shù)倍，不會(huì)對(duì)模型的泛化產(chǎn)生影響。其次，ReLU的非負(fù)區(qū)間的梯度為一個(gè)常數(shù)，所以梯度消失的問(wèn)題基本上是不存在的，使得模型的收斂速率相對(duì)穩(wěn)定。但是ReLU也有其局限性，由于其函數(shù)在負(fù)半軸上置0，此操作也稱(chēng)作單側(cè)抑制，使得神經(jīng)網(wǎng)絡(luò)中的神經(jīng)單元具備了稀疏激活性。但是，隨著訓(xùn)練的進(jìn)行，可能會(huì)出現(xiàn)神經(jīng)單元的死亡，相應(yīng)的參數(shù)不再更新的情況，而且ReLU函數(shù)的輸出不是以0為中心的。

式中，x是來(lái)自上一層神經(jīng)網(wǎng)絡(luò)的輸入向量。

放縮指數(shù)線(xiàn)性單元（scaled exponential linear units，SeLU）[15]激活函數(shù)就是解決上述問(wèn)題而產(chǎn)生的，如公式（4），使用該激活函數(shù)后可以使得樣本的分布自動(dòng)地歸一化到零均值和單位方差，并且經(jīng)過(guò)許多層的前向傳播后還是會(huì)收斂到零均值和單位方差，即使是存在噪聲和擾動(dòng)的情況下依然如此。與ReLU函數(shù)相比較，在輸入為負(fù)數(shù)的情況下，此時(shí)是有一定的輸出能力的，并且這部分輸出還具備抗干擾的能力。這樣可以解決ReLU神經(jīng)單元死掉的問(wèn)題，因此，SeLU函數(shù)更有利于訓(xùn)練多層的深度神經(jīng)網(wǎng)絡(luò)，訓(xùn)練過(guò)程中梯度也不會(huì)爆炸或消失。

其中，λ=1.050 700 987 355 480 493 419 334 985 294 6，α=1.673 263 242 354 377 284 817 042 991 671 7。

1.4 Squeeze-and-Excitation

SE模塊是一種基于注意力機(jī)制的網(wǎng)絡(luò)子結(jié)構(gòu)，是本文網(wǎng)絡(luò)結(jié)構(gòu)的核心模塊，它通過(guò)對(duì)特征通道間的相關(guān)性進(jìn)行建模，把重要通道的特征強(qiáng)化，非重要通道的特征弱化，以此來(lái)提升準(zhǔn)確率，可以嵌入到各種分類(lèi)網(wǎng)絡(luò)模型當(dāng)中，增強(qiáng)特征提取層的感受野，提升卷積神經(jīng)網(wǎng)絡(luò)的性能。模塊主要由Squeeze（壓縮）、Excitation（激發(fā)）和Scale（加權(quán)）三部分構(gòu)成，當(dāng)上一層網(wǎng)絡(luò)結(jié)構(gòu)輸出一個(gè)寬為W、高為H、通道數(shù)為C的特征X時(shí)，SE模塊可以學(xué)習(xí)到該特征不同通道的重要性并進(jìn)行加權(quán)，最終輸出一個(gè)表征能力更強(qiáng)的特征，SE模塊結(jié)構(gòu)如圖3所示。

圖3 SE模塊結(jié)構(gòu)圖Fig.3 SE module structure diagram

一般來(lái)說(shuō)，卷積神經(jīng)網(wǎng)絡(luò)的每個(gè)通道使用的濾波器都在局部感受野上工作，因此每個(gè)特征圖不能有效地利用其他特征圖的上下文信息，而且在網(wǎng)絡(luò)的較低層次上，其感受野的尺寸都是較小的，這樣情況就會(huì)變得糟糕。壓縮操作是首先順著空間維度來(lái)進(jìn)行特征壓縮，使用全局平均池化（global average pooling，GAP）進(jìn)行壓縮操作，將C個(gè)W×H大小的特征圖提取成長(zhǎng)度為C的實(shí)數(shù)列。這個(gè)實(shí)數(shù)列其實(shí)是擁有全局的感受野，輸入的特征通道數(shù)和輸出的維度是相互對(duì)應(yīng)的。它表征著在特征通道上響應(yīng)的全局分布，而且使得靠近輸入的層獲得全局的感受野成為可能。緊接著將實(shí)數(shù)列送入兩個(gè)全連接層去建模通道間的相關(guān)性，并輸出和輸入特征同樣數(shù)目的權(quán)重。具體的，首先通過(guò)一個(gè)全連接層將特征維度降低到輸入的1/r，其中r為壓縮率，然后經(jīng)過(guò)SeLU激活后再通過(guò)一個(gè)全連接層升回到原始維度。這樣做比直接用一個(gè)全連接層的好處在于：（1）非線(xiàn)性度更高，能更好地?cái)M合通道間復(fù)雜的相關(guān)性；（2）極大地減少了參數(shù)量和計(jì)算量。然后通過(guò)一個(gè)Sigmoid的門(mén)獲得0到1之間歸一化的權(quán)重，最后通過(guò)一個(gè)Scale的操作來(lái)將歸一化后的權(quán)重加權(quán)到每個(gè)通道的特征上。

1.5 網(wǎng)絡(luò)架構(gòu)

本文提出了一種增強(qiáng)可分離卷積通道特征的表情識(shí)別研究方法，網(wǎng)絡(luò)框架如圖4所示。將輸入圖像送入卷積層進(jìn)行一系列卷積操作提取特征后進(jìn)行分類(lèi)，為了提取到更好的特征，網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)借鑒了Xception[16]網(wǎng)絡(luò)結(jié)構(gòu)的輕量化設(shè)計(jì)思想，在通道數(shù)過(guò)大的卷積層采取深度可分離卷積取代一部分普通卷積，減少網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量。但是與Xception網(wǎng)絡(luò)不同的是，本文網(wǎng)絡(luò)結(jié)構(gòu)沒(méi)有大量堆疊深度可分離卷積，主要是因?yàn)樵趯?shí)驗(yàn)過(guò)程中發(fā)現(xiàn)堆疊太多深度可分離卷積并沒(méi)有對(duì)表情識(shí)別精度的提升有明顯幫助。此外，對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn)的同時(shí)引入可以增強(qiáng)特征提取能力的SE模塊來(lái)高效地提取人臉表情識(shí)別特征，在通道數(shù)不同的卷積層SE模塊的壓縮率是不同的。

圖4 網(wǎng)絡(luò)框架圖Fig.4 Network structure diagram

所提網(wǎng)絡(luò)結(jié)構(gòu)及詳細(xì)參數(shù)信息如表1所示。網(wǎng)絡(luò)主要由11個(gè)卷積層依次相連組成，第3個(gè)卷積層至第10個(gè)卷積層采用深度可分離卷積，卷積層的所有卷積核大小為3×3，步長(zhǎng)為1，初始通道數(shù)為64，通道數(shù)依次遞增，最高可達(dá)1 024個(gè)通道。最后接一個(gè)全局平均池化，分別累加每個(gè)特征圖所有像素值并求平均，得到7個(gè)數(shù)值，將這7個(gè)數(shù)值輸入到softmax分類(lèi)器中，得到7個(gè)概率值，即這張圖片屬于每個(gè)類(lèi)別的概率值，用于對(duì)七類(lèi)表情的預(yù)測(cè)。網(wǎng)絡(luò)中的部分卷積層后依次使用批量歸一化、放縮指數(shù)線(xiàn)性單元和SE模塊，并且分別在第4、6、8、10個(gè)SE模塊后嵌入了窗口大小為3、步長(zhǎng)為2的最大池化層。

表1 網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)表Table 1 Network structure and parameter table

2 實(shí)驗(yàn)結(jié)果及分析

2.1 實(shí)驗(yàn)數(shù)據(jù)集

本實(shí)驗(yàn)分別采用FER2013[17]表情數(shù)據(jù)集和The Extended Cohn-Kanade Dataset（CK+）[18]表情數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

（1）FER2013數(shù)據(jù)集。該數(shù)據(jù)集共包含了35 887幅圖像，其中有28 709幅圖像為訓(xùn)練集，測(cè)試集和驗(yàn)證集分別為3 589幅圖片。每幅圖片是由48×48固定大小的灰度圖像組成，共有7種表情，分別為：憤怒、厭惡、恐懼、高興、悲傷、驚訝和自然。圖5為FER2013表情數(shù)據(jù)集中部分表情樣例，包含了不同年齡、膚色、性別的人臉表情。

圖5 FER2013數(shù)據(jù)集部分圖像Fig.5 Partial images of FER2013 dataset

（2）CK+數(shù)據(jù)集。該數(shù)據(jù)集總共包含了123個(gè)人的593段表情序列，但是有效標(biāo)注表情的標(biāo)簽數(shù)據(jù)只有327個(gè)表情序列，本實(shí)驗(yàn)抽取了其中的1 101個(gè)比較明顯的圖片，檢測(cè)到人臉并且將人臉裁剪到大小固定為48×48的灰度圖像，分為7種表情：憤怒、厭惡、恐懼、高興、悲傷、驚訝和自然。圖6為CK+表情數(shù)據(jù)集中部分表情樣例，包含了不同種族、膚色、性別的人臉表情。

圖6 CK+數(shù)據(jù)集部分圖像Fig.6 Partial images of CK+dataset

為了減少訓(xùn)練過(guò)程中的過(guò)擬合，在實(shí)驗(yàn)中進(jìn)行了數(shù)據(jù)增強(qiáng)處理如圖7所示，具體參數(shù)設(shè)置如表2所示。其中，“Rotation_range”表示將圖像按順時(shí)針或逆時(shí)針?lè)较螂S機(jī)旋轉(zhuǎn)一定角度；“Rescale”表示隨機(jī)縮放圖片；“Shear_range”表示逆時(shí)針?lè)较虻募羟凶儞Q角度；“Zoom_range”表示隨機(jī)縮放圖片的幅度；“Horizontal_flip”表示進(jìn)行隨機(jī)水平翻轉(zhuǎn)圖片；“Fill_mode”表示進(jìn)行變換時(shí)若超出邊界的點(diǎn)，會(huì)按照選擇設(shè)置的參數(shù)進(jìn)行處理。

圖7 數(shù)據(jù)增強(qiáng)圖Fig.7 Data augmentation diagram

表2 數(shù)據(jù)增強(qiáng)參數(shù)表Table 2 Data augmentation parameter table

2.2 實(shí)驗(yàn)結(jié)果與分析

本文使用Python3.6.5進(jìn)行實(shí)驗(yàn)，操作系統(tǒng)為Windows 10，硬件平臺(tái)為英特爾Core i9-9820X CPU，內(nèi)存為32 GB，GPU為11 GB的NVIDIA GeForce RTX 2080 Ti。網(wǎng)絡(luò)的batch為32，初始學(xué)習(xí)率為0.1，如果驗(yàn)證損失在10輪內(nèi)都沒(méi)有改善，則按照10倍的速率將學(xué)習(xí)率降低，最低降為0.000 1，采用交叉熵?fù)p失函數(shù)，并在實(shí)驗(yàn)中用Adam優(yōu)化器優(yōu)化訓(xùn)練過(guò)程。

圖8和圖9分別為CK+和FER2013數(shù)據(jù)集上的準(zhǔn)確率迭代收斂曲線(xiàn)，圖10和圖11分別為CK+和FER2013數(shù)據(jù)集上的損失函數(shù)迭代收斂曲線(xiàn)。

圖8 CK+準(zhǔn)確率曲線(xiàn)圖Fig.8 CK+accuracy curve

圖9 FER2013準(zhǔn)確率曲線(xiàn)圖Fig.9 FER2013 accuracy curve

圖10 CK+損失曲線(xiàn)圖Fig.10 CK+loss curve

圖11 FER2013損失曲線(xiàn)圖Fig.11 FER2013 loss curve

網(wǎng)絡(luò)在CK+數(shù)據(jù)集上得到的最終準(zhǔn)確率為98.95%，在FER2013數(shù)據(jù)集上得到的最終準(zhǔn)確率為70.30%。由準(zhǔn)確率迭代收斂曲線(xiàn)圖可以看出，隨著迭代次數(shù)的增加，準(zhǔn)確率逐漸上升，雖然迭代過(guò)程中會(huì)產(chǎn)生一些波動(dòng)變化，但是總體是趨于穩(wěn)定收斂狀態(tài)的。由損失函數(shù)迭代收斂曲線(xiàn)圖可以看出，在迭代過(guò)程中損失值會(huì)逐漸下降，最終收斂到一個(gè)接近于0的值，并保持穩(wěn)定狀態(tài)。

2.2.1 壓縮率對(duì)比實(shí)驗(yàn)

本文引入了SE模塊來(lái)提高人臉表情識(shí)別精度，選擇不同的壓縮率r可以使得模塊具有不同效果的通道加權(quán)能力。實(shí)驗(yàn)中分別將壓縮率r設(shè)置為2，4，8，16，32，與本文所提出的在網(wǎng)絡(luò)結(jié)構(gòu)的不同層采用不同的壓縮率進(jìn)行對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如圖12和圖13所示，combination代表本文方法，None代表在網(wǎng)絡(luò)結(jié)構(gòu)中不加入SE模塊?？梢钥吹揭隨E模塊會(huì)提高表情識(shí)別準(zhǔn)確率，且本文方法效果優(yōu)于所有模塊使用同一個(gè)壓縮率。

圖12 FER2013表情識(shí)別準(zhǔn)確率Fig.12 Expression recognition accuracy rate with FER2013

圖13 CK+表情識(shí)別準(zhǔn)確率Fig.13 Expression recognition accuracy rate with CK+

選擇不同的壓縮率會(huì)影響最終的人臉表情識(shí)別精度，因此壓縮率的選取很關(guān)鍵?；诖嗽诓煌瑢硬捎貌煌膲嚎s率，由于初始層通道數(shù)較少，所以設(shè)置的壓縮率小，隨著通道數(shù)的增多，逐漸增加SE模塊壓縮率到網(wǎng)絡(luò)結(jié)構(gòu)的不同層。網(wǎng)絡(luò)結(jié)構(gòu)從第三個(gè)SE模塊開(kāi)始，每隔兩個(gè)SE模塊的通道數(shù)是一樣的，所以選擇壓縮率的時(shí)候?qū)⑦@些通道數(shù)一樣的SE模塊的壓縮率設(shè)置為同一個(gè)壓縮率。進(jìn)行實(shí)驗(yàn)對(duì)比后，實(shí)驗(yàn)結(jié)果如圖14和圖15所示，圖中為7組效果較好的不同壓縮率組合方式，選擇了性能最佳的壓縮率組合方式r1。圖中網(wǎng)絡(luò)結(jié)構(gòu)的SE模塊壓縮率r1至r7具體設(shè)置如表3所示，表中總共10個(gè)SE模塊，分別對(duì)應(yīng)其壓縮率取值。選擇合適的壓縮率主要是為了更好地利用兩個(gè)全連接層來(lái)擬合通道間的相關(guān)性，利用通道間的相關(guān)性來(lái)增強(qiáng)特征提取能力，從而提升表情識(shí)別精度。

圖14 FER2013不同壓縮率組合方式識(shí)別準(zhǔn)確率Fig.14 Recognition accuracy of different squeeze ratio combinations with FER2013

圖15 CK+不同壓縮率組合方式識(shí)別準(zhǔn)確率Fig.15 Recognition accuracy of different squeeze ratio combinations with CK+

表3 壓縮率取值Table 3 Squeeze ratio value

2.2.2 不同方法對(duì)比實(shí)驗(yàn)

通過(guò)多次實(shí)驗(yàn)后得出實(shí)驗(yàn)結(jié)果，F(xiàn)ER2013和CK+數(shù)據(jù)集上七類(lèi)表情的混淆矩陣如圖16和圖17所示。

圖16 FER2013數(shù)據(jù)集上七類(lèi)表情的混淆矩陣Fig.16 Confusion matrix of 7 types of expressions on FER2013 dataset

圖17 CK+數(shù)據(jù)集上七類(lèi)表情的混淆矩陣Fig.17 Confusion matrix of 7 types of expressions on CK+dataset

由圖16可以看出，F(xiàn)ER2013數(shù)據(jù)集中表情識(shí)別率最高的是高興和驚訝，可能原因是高興和驚訝的表情特征辨識(shí)度更高。憤怒和恐懼表情識(shí)別率相對(duì)較低，可能原因是這兩種表情特征很相似，具有相同的嘴角、眉毛等特征，很容易發(fā)生混淆，從而導(dǎo)致表情識(shí)別率不高。由圖17可以看出，CK+數(shù)據(jù)集的整體表情識(shí)別準(zhǔn)確率可以達(dá)到95%以上，其中識(shí)別率最高的為憤怒和高興，可能原因是由于CK+數(shù)據(jù)集中憤怒和高興的表情特征相對(duì)于其他表情區(qū)別更大一些，識(shí)別率較低的是悲傷類(lèi)，因?yàn)樵跀?shù)據(jù)集特征都相對(duì)明顯的情況下，悲傷表情和厭惡表情特征相近似，使其識(shí)別率有所影響。圖18和圖19為FER2013和CK+數(shù)據(jù)集中容易發(fā)生混淆的表情示例。

圖18 FE（Rb20）13恐?jǐn)?shù)懼據(jù)表集情易混示淆例圖片對(duì)比Fig.18 Confusing expression contrast on FER2013 dataset

圖19 CK+數(shù)據(jù)集易混淆圖片對(duì)比Fig.19 Confusing expression contrast on CK+dataset

為了驗(yàn)證本文提出方法的有效性，在CK+和FER2013數(shù)據(jù)庫(kù)上，對(duì)比本文算法與表情識(shí)別經(jīng)典算法的準(zhǔn)確率和網(wǎng)絡(luò)參數(shù)量，參與對(duì)比實(shí)驗(yàn)的經(jīng)典算法有Alexnet[19]、InceptionV4[20]、Xception[16]。除此之外，還與近幾年最新的表情識(shí)別算法進(jìn)行了比較，參與對(duì)比實(shí)驗(yàn)的最新算法有Parallel CNN[21]、CNN[22]、Attention Net[23]、FaceNet2ExpNet[24]、GAN[25]，對(duì)比結(jié)果如表4所示。Alexnet是2012年ImageNet大賽上的冠軍網(wǎng)絡(luò)，InceptionV4是Inception系列網(wǎng)絡(luò)中的一個(gè)性?xún)r(jià)比較高的網(wǎng)絡(luò)，本文網(wǎng)絡(luò)是根據(jù)Xception設(shè)計(jì)思想進(jìn)行改進(jìn)的，這三個(gè)經(jīng)典網(wǎng)絡(luò)都具有典型的代表性。Parallel CNN方法設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)具有兩個(gè)并行的卷積池化結(jié)構(gòu)，分成三個(gè)不同的并行路徑來(lái)提取三種不同的圖像特征。CNN方法主要考慮核大小和濾波器數(shù)目對(duì)分類(lèi)精度的影響，設(shè)計(jì)了兩種新穎的CNN網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提取人臉表情特征。Attention Net方法將注意力集中在人臉上，用高斯空間表示來(lái)進(jìn)行人臉表情識(shí)別。FaceNet2ExpNet方法提出一種基于靜態(tài)圖像訓(xùn)練表情識(shí)別網(wǎng)絡(luò)的新思路，首先提出一種新的分布函數(shù)來(lái)模擬表達(dá)網(wǎng)絡(luò)的神經(jīng)元，在此基礎(chǔ)上設(shè)計(jì)了兩個(gè)階段的訓(xùn)練算法，先預(yù)訓(xùn)練一個(gè)表情網(wǎng)絡(luò)，在正式訓(xùn)練時(shí)將全連接層與預(yù)先訓(xùn)練的卷積層相結(jié)合并共同訓(xùn)練。GAN方法在StarGAN的基礎(chǔ)上，改進(jìn)重構(gòu)誤差，用生成器進(jìn)行下采樣，由某一個(gè)人的一種表情可以生成其他不同表情。

表4 不同方法在數(shù)據(jù)集上的識(shí)別結(jié)果Table 4 Recognition results of different methods on dataset %

目前人類(lèi)在FER2013數(shù)據(jù)集上的識(shí)別率平均約為65%±5%[17]，本文模型在CK+數(shù)據(jù)集上取得了98.95%的識(shí)別準(zhǔn)確率，在FER2013數(shù)據(jù)集上取得了70.30%的識(shí)別準(zhǔn)確率，已經(jīng)能夠達(dá)到平均識(shí)別的效果。與現(xiàn)有方法相比，本文提出的網(wǎng)絡(luò)結(jié)構(gòu)在CK+和FER2013數(shù)據(jù)集上，識(shí)別率分別提高了0.15個(gè)百分點(diǎn)和3.29個(gè)百分點(diǎn)，證明本文模型具有一定的穩(wěn)定性和泛化能力。CK+數(shù)據(jù)集的識(shí)別率相對(duì)FER2013表情數(shù)據(jù)集整體提高了許多，主要原因是FER2013數(shù)據(jù)集中存在很多錯(cuò)誤標(biāo)簽以及非正常表情圖片，圖20為FER2013數(shù)據(jù)集中部分非正常表情示例。

圖20 FER2013數(shù)據(jù)集中非正常表情示例Fig.20 Example of abnormal expressions on FER2013 dataset

此外，為了進(jìn)一步驗(yàn)證本文網(wǎng)絡(luò)模型的輕量性，對(duì)比了表4中與本文實(shí)驗(yàn)結(jié)果準(zhǔn)確率相近的部分網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量，如表5所示，本文提出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量是最少的，且與改進(jìn)前的Xception網(wǎng)絡(luò)相比，參數(shù)少了75%，并且在服務(wù)端進(jìn)行了測(cè)試，算法的平均識(shí)別速度可以達(dá)到137 frame/s，滿(mǎn)足實(shí)時(shí)性（30 frame/s以上）的要求。

表5 不同方法的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量Table 5 Network structure parameters of different methods

3 結(jié)語(yǔ)

針對(duì)目前人臉表情識(shí)別準(zhǔn)確率不高、網(wǎng)絡(luò)模型參數(shù)復(fù)雜等問(wèn)題，本文提出了一種可以增強(qiáng)可分離卷積通道特征的神經(jīng)網(wǎng)絡(luò)，吸取了Xception網(wǎng)絡(luò)的輕量化設(shè)計(jì)思想，并且引入了SE模塊使得特征提取更加有效。最后在CK+和FER2013數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)，各自取得較高的識(shí)別率，表明本文提出的人臉表情識(shí)別方法能夠在降低網(wǎng)絡(luò)參數(shù)量的同時(shí)，提高表情識(shí)別精度，實(shí)現(xiàn)網(wǎng)絡(luò)模型的輕量化。深度學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù)支撐，希望在今后的工作中能夠盡可能多地收集訓(xùn)練樣本，建立自己的數(shù)據(jù)庫(kù)，并且在以后的研究工作中將遮擋、人臉姿勢(shì)變換等問(wèn)題考慮進(jìn)去，如何在面臨這些問(wèn)題的情況下還能保證人臉表情識(shí)別的準(zhǔn)確率將是進(jìn)一步的研究方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡