梁華剛,雷毅雄
長(zhǎng)安大學(xué) 電子與控制工程學(xué)院,西安 710064
機(jī)器視覺(jué)是人工智能領(lǐng)域的一個(gè)飛速發(fā)展的分支,隨著科學(xué)技術(shù)不斷進(jìn)步,人臉表情識(shí)別(facial expression recognition,F(xiàn)ER)技術(shù)正在經(jīng)歷前所未有的發(fā)展。人們?cè)谌粘I钪薪?jīng)常會(huì)聽(tīng)到“表情”這個(gè)詞,它是面部肌肉的動(dòng)作或狀態(tài)的結(jié)果,是一種非語(yǔ)言交流的形式。面部表情是日常生活中最為重要的一種信息傳遞方式,人們?cè)谌粘I钪锌梢酝ㄟ^(guò)面部表情進(jìn)行交流,傳遞大量的信息。當(dāng)人們面對(duì)面交流時(shí),55%的信息是通過(guò)面部表情傳遞的[1]。目前人類(lèi)主要有七種情感:憤怒、高興、悲傷、驚訝、厭惡、恐懼和自然。面部表情識(shí)別的研究從未停止過(guò),人臉面部表情識(shí)別是人臉識(shí)別技術(shù)中的重要組成部分,近年來(lái)在人機(jī)交互、安全、機(jī)器人制造、自動(dòng)化、醫(yī)療、通信和駕駛等領(lǐng)域得到了廣泛的關(guān)注,成為學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。
人臉表情識(shí)別主要包括人臉圖像采集、人臉圖像預(yù)處理、特征提取和表情識(shí)別四個(gè)步驟,其中特征提取是最重要的步驟,一個(gè)好的特征提取方法可以直接決定人臉面部表情識(shí)別的準(zhǔn)確率。傳統(tǒng)的人臉表情識(shí)別方法主要采用手動(dòng)提取特征的方式,比如提取表情幾何特征的ASM[2]方法,提取表情邊緣特征的HOG[3]方法和表情紋理特征的LBP[4]方法等,再用SVM[5]進(jìn)行分類(lèi)。傳統(tǒng)的人臉表情特征提取方法受人為因素影響識(shí)別率不高,而卷積神經(jīng)網(wǎng)絡(luò)面臨大數(shù)據(jù)樣本時(shí)更易訓(xùn)練,并能提取到人臉表情的高維特征,用在人臉表情識(shí)別的特征提取當(dāng)中可以取得相當(dāng)不錯(cuò)的效果。
LeCun等人[6]首次提出第一個(gè)真正意義上的卷積神經(jīng)網(wǎng)絡(luò),并于1998年提出了應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)的算法解決手寫(xiě)數(shù)字識(shí)別的視覺(jué)任務(wù)。深度卷積神經(jīng)網(wǎng)絡(luò)起源于2012年的AlexNet網(wǎng)絡(luò)[7],與以前的卷積神經(jīng)網(wǎng)絡(luò)相比,AlexNet網(wǎng)絡(luò)最顯著的特點(diǎn)是層次更深,參數(shù)規(guī)模更大,使用了新的激活函數(shù)修正線(xiàn)性單元(the rectified linear unit,ReLU),并且引入dropout機(jī)制。2014年,Simonyan等人[8]提出VGGNet,通過(guò)不斷加深網(wǎng)絡(luò)來(lái)提升性能,證明了深度對(duì)模型性能的重要性。隨后Szegedy等人[9]提出GoogleNet模型,不僅增加了網(wǎng)絡(luò)模型的深度,還增加了網(wǎng)絡(luò)模型的寬度,在沒(méi)有增加計(jì)算代價(jià)的同時(shí)反而能提取到更多的特征,從而提升訓(xùn)練結(jié)果。深度卷積神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)方法,也是一種特征學(xué)習(xí)的方法,可以提取到更深的圖像特征,使得表情識(shí)別的準(zhǔn)確率也得以提升,已經(jīng)取得了相當(dāng)不錯(cuò)的成果。王建霞等人[10]通過(guò)增加卷積神經(jīng)網(wǎng)絡(luò)的深度和寬度來(lái)增強(qiáng)特征提取能力,將高層次與低層次的特征進(jìn)行融合,取得了較好的表情識(shí)別效果。杜進(jìn)等人[11]在網(wǎng)絡(luò)結(jié)構(gòu)中引入了殘差學(xué)習(xí)模塊,目的是解決隨著網(wǎng)絡(luò)深度的增加神經(jīng)網(wǎng)絡(luò)出現(xiàn)的退化問(wèn)題,從而導(dǎo)致表情識(shí)別精度下降。呂誨等人[12]使用超級(jí)精簡(jiǎn)的輕量化網(wǎng)絡(luò),網(wǎng)絡(luò)只有66 000個(gè)參數(shù),主要是保證網(wǎng)絡(luò)的實(shí)時(shí)性需求。這些方法雖然取得了較好的效果,但也面臨著一些問(wèn)題:(1)隨著網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜程度也越高,計(jì)算代價(jià)會(huì)越來(lái)越昂貴;(2)網(wǎng)絡(luò)參數(shù)降低后精度卻得不到一定的保證。
因此,本文采用深度學(xué)習(xí)方法,設(shè)計(jì)并訓(xùn)練輕量化的卷積神經(jīng)網(wǎng)絡(luò)表情識(shí)別模型,將可以增強(qiáng)特征提取能力的Squeeze-and-Excitation(SE)[13]模塊與深度可分離卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,來(lái)減少網(wǎng)絡(luò)模型參數(shù),同時(shí)更高效地提取人臉表情特征。在網(wǎng)絡(luò)結(jié)構(gòu)通道數(shù)不同的層加入的SE模塊的壓縮率是不同的,可以更好地將通道間的相關(guān)性結(jié)合起來(lái),增強(qiáng)特征提取能力。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在分類(lèi)問(wèn)題中表現(xiàn)優(yōu)異,對(duì)其進(jìn)行訓(xùn)練,可以學(xué)習(xí)到輸入和輸出之間的多層非線(xiàn)性關(guān)系。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)一般由卷積層、池化層和全連接層組成,如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of convolutional neural network
1.1.1 卷積層
卷積層即卷積操作,在圖像處理中,卷積操作其實(shí)就是對(duì)一組多維矩陣的不同局部與卷積核每個(gè)位置的元素相乘,然后求和,計(jì)算表達(dá)式如公式(1)所示:
1.1.2 池化層
池化層常見(jiàn)的兩種方式為平均池化和最大池化,即取對(duì)應(yīng)區(qū)域的平均值或最大值作為池化后的元素值。例如,對(duì)一個(gè)4×4的輸入,使用2×2的核進(jìn)行最大池化操作的過(guò)程為:
1.1.3 全連接層
全連接層的每個(gè)結(jié)點(diǎn)與前一層所有結(jié)點(diǎn)進(jìn)行連接,將前一層所提取到的各個(gè)特征結(jié)合起來(lái),使網(wǎng)絡(luò)學(xué)習(xí)到的特征圖轉(zhuǎn)換為一個(gè)多維特征向量,送入分類(lèi)器后可以實(shí)現(xiàn)圖像的分類(lèi)與識(shí)別。假設(shè)全連接層輸入為X,輸出為Y,計(jì)算表達(dá)式如公式(2)所示:
式中,Yi表示輸出Y中的元素,Xj表示輸入X中的元素,wij表示權(quán)重系數(shù),Q表示輸入X的元素總數(shù),b為偏置。
深度可分離卷積實(shí)質(zhì)上將卷積分為兩個(gè)階段:深度卷積DW(depthwise convolution)和點(diǎn)卷積PW(pointwise convolution)。DW屬于深度可分離卷積濾波階段,每一個(gè)通道上有對(duì)應(yīng)的卷積核進(jìn)行卷積操作;PW是深度可分離卷積的組合階段,整合多個(gè)特征圖信息。深度可分離卷積能夠大幅度減少參數(shù),因而其計(jì)算量較傳統(tǒng)卷積大幅縮減,并且在深度卷積和1×1卷積后都增加了BN(batch normalization)[14]層和激活層。深度可分離卷積的結(jié)構(gòu)如圖2所示,BN層用于對(duì)數(shù)據(jù)進(jìn)行歸一化,以保證每層的數(shù)據(jù)分布穩(wěn)定,避免輸入數(shù)據(jù)的偏移造成的影響。激活層增加了神經(jīng)網(wǎng)絡(luò)各層之間的非線(xiàn)性關(guān)系,通過(guò)激活函數(shù)稀疏后的模型能夠更好地提取相關(guān)特征、擬合訓(xùn)練數(shù)據(jù),同時(shí)有效地抑制了梯度消失的問(wèn)題。
圖2 深度可分離卷積結(jié)構(gòu)圖Fig.2 Structure diagram of depthwise separable convolution
激活函數(shù)在神經(jīng)網(wǎng)絡(luò)中主要用來(lái)解決線(xiàn)性不可分問(wèn)題,它可以增強(qiáng)神經(jīng)網(wǎng)絡(luò)模型的非線(xiàn)性能力,以及提升網(wǎng)絡(luò)模型的學(xué)習(xí)和表達(dá)能力。ReLU激活函數(shù)是其中效果比較好的一種,根據(jù)公式(3)可看出,首先輸入在正區(qū)間內(nèi),只有線(xiàn)性關(guān)系,可以讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度提升數(shù)倍,不會(huì)對(duì)模型的泛化產(chǎn)生影響。其次,ReLU的非負(fù)區(qū)間的梯度為一個(gè)常數(shù),所以梯度消失的問(wèn)題基本上是不存在的,使得模型的收斂速率相對(duì)穩(wěn)定。但是ReLU也有其局限性,由于其函數(shù)在負(fù)半軸上置0,此操作也稱(chēng)作單側(cè)抑制,使得神經(jīng)網(wǎng)絡(luò)中的神經(jīng)單元具備了稀疏激活性。但是,隨著訓(xùn)練的進(jìn)行,可能會(huì)出現(xiàn)神經(jīng)單元的死亡,相應(yīng)的參數(shù)不再更新的情況,而且ReLU函數(shù)的輸出不是以0為中心的。
式中,x是來(lái)自上一層神經(jīng)網(wǎng)絡(luò)的輸入向量。
放縮指數(shù)線(xiàn)性單元(scaled exponential linear units,SeLU)[15]激活函數(shù)就是解決上述問(wèn)題而產(chǎn)生的,如公式(4),使用該激活函數(shù)后可以使得樣本的分布自動(dòng)地歸一化到零均值和單位方差,并且經(jīng)過(guò)許多層的前向傳播后還是會(huì)收斂到零均值和單位方差,即使是存在噪聲和擾動(dòng)的情況下依然如此。與ReLU函數(shù)相比較,在輸入為負(fù)數(shù)的情況下,此時(shí)是有一定的輸出能力的,并且這部分輸出還具備抗干擾的能力。這樣可以解決ReLU神經(jīng)單元死掉的問(wèn)題,因此,SeLU函數(shù)更有利于訓(xùn)練多層的深度神經(jīng)網(wǎng)絡(luò),訓(xùn)練過(guò)程中梯度也不會(huì)爆炸或消失。
其中,λ=1.050 700 987 355 480 493 419 334 985 294 6,α=1.673 263 242 354 377 284 817 042 991 671 7。
SE模塊是一種基于注意力機(jī)制的網(wǎng)絡(luò)子結(jié)構(gòu),是本文網(wǎng)絡(luò)結(jié)構(gòu)的核心模塊,它通過(guò)對(duì)特征通道間的相關(guān)性進(jìn)行建模,把重要通道的特征強(qiáng)化,非重要通道的特征弱化,以此來(lái)提升準(zhǔn)確率,可以嵌入到各種分類(lèi)網(wǎng)絡(luò)模型當(dāng)中,增強(qiáng)特征提取層的感受野,提升卷積神經(jīng)網(wǎng)絡(luò)的性能。模塊主要由Squeeze(壓縮)、Excitation(激發(fā))和Scale(加權(quán))三部分構(gòu)成,當(dāng)上一層網(wǎng)絡(luò)結(jié)構(gòu)輸出一個(gè)寬為W、高為H、通道數(shù)為C的特征X時(shí),SE模塊可以學(xué)習(xí)到該特征不同通道的重要性并進(jìn)行加權(quán),最終輸出一個(gè)表征能力更強(qiáng)的特征,SE模塊結(jié)構(gòu)如圖3所示。
圖3 SE模塊結(jié)構(gòu)圖Fig.3 SE module structure diagram
一般來(lái)說(shuō),卷積神經(jīng)網(wǎng)絡(luò)的每個(gè)通道使用的濾波器都在局部感受野上工作,因此每個(gè)特征圖不能有效地利用其他特征圖的上下文信息,而且在網(wǎng)絡(luò)的較低層次上,其感受野的尺寸都是較小的,這樣情況就會(huì)變得糟糕。壓縮操作是首先順著空間維度來(lái)進(jìn)行特征壓縮,使用全局平均池化(global average pooling,GAP)進(jìn)行壓縮操作,將C個(gè)W×H大小的特征圖提取成長(zhǎng)度為C的實(shí)數(shù)列。這個(gè)實(shí)數(shù)列其實(shí)是擁有全局的感受野,輸入的特征通道數(shù)和輸出的維度是相互對(duì)應(yīng)的。它表征著在特征通道上響應(yīng)的全局分布,而且使得靠近輸入的層獲得全局的感受野成為可能。緊接著將實(shí)數(shù)列送入兩個(gè)全連接層去建模通道間的相關(guān)性,并輸出和輸入特征同樣數(shù)目的權(quán)重。具體的,首先通過(guò)一個(gè)全連接層將特征維度降低到輸入的1/r,其中r為壓縮率,然后經(jīng)過(guò)SeLU激活后再通過(guò)一個(gè)全連接層升回到原始維度。這樣做比直接用一個(gè)全連接層的好處在于:(1)非線(xiàn)性度更高,能更好地?cái)M合通道間復(fù)雜的相關(guān)性;(2)極大地減少了參數(shù)量和計(jì)算量。然后通過(guò)一個(gè)Sigmoid的門(mén)獲得0到1之間歸一化的權(quán)重,最后通過(guò)一個(gè)Scale的操作來(lái)將歸一化后的權(quán)重加權(quán)到每個(gè)通道的特征上。
本文提出了一種增強(qiáng)可分離卷積通道特征的表情識(shí)別研究方法,網(wǎng)絡(luò)框架如圖4所示。將輸入圖像送入卷積層進(jìn)行一系列卷積操作提取特征后進(jìn)行分類(lèi),為了提取到更好的特征,網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)借鑒了Xception[16]網(wǎng)絡(luò)結(jié)構(gòu)的輕量化設(shè)計(jì)思想,在通道數(shù)過(guò)大的卷積層采取深度可分離卷積取代一部分普通卷積,減少網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量。但是與Xception網(wǎng)絡(luò)不同的是,本文網(wǎng)絡(luò)結(jié)構(gòu)沒(méi)有大量堆疊深度可分離卷積,主要是因?yàn)樵趯?shí)驗(yàn)過(guò)程中發(fā)現(xiàn)堆疊太多深度可分離卷積并沒(méi)有對(duì)表情識(shí)別精度的提升有明顯幫助。此外,對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn)的同時(shí)引入可以增強(qiáng)特征提取能力的SE模塊來(lái)高效地提取人臉表情識(shí)別特征,在通道數(shù)不同的卷積層SE模塊的壓縮率是不同的。
圖4 網(wǎng)絡(luò)框架圖Fig.4 Network structure diagram
所提網(wǎng)絡(luò)結(jié)構(gòu)及詳細(xì)參數(shù)信息如表1所示。網(wǎng)絡(luò)主要由11個(gè)卷積層依次相連組成,第3個(gè)卷積層至第10個(gè)卷積層采用深度可分離卷積,卷積層的所有卷積核大小為3×3,步長(zhǎng)為1,初始通道數(shù)為64,通道數(shù)依次遞增,最高可達(dá)1 024個(gè)通道。最后接一個(gè)全局平均池化,分別累加每個(gè)特征圖所有像素值并求平均,得到7個(gè)數(shù)值,將這7個(gè)數(shù)值輸入到softmax分類(lèi)器中,得到7個(gè)概率值,即這張圖片屬于每個(gè)類(lèi)別的概率值,用于對(duì)七類(lèi)表情的預(yù)測(cè)。網(wǎng)絡(luò)中的部分卷積層后依次使用批量歸一化、放縮指數(shù)線(xiàn)性單元和SE模塊,并且分別在第4、6、8、10個(gè)SE模塊后嵌入了窗口大小為3、步長(zhǎng)為2的最大池化層。
表1 網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)表Table 1 Network structure and parameter table
本實(shí)驗(yàn)分別采用FER2013[17]表情數(shù)據(jù)集和The Extended Cohn-Kanade Dataset(CK+)[18]表情數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。
(1)FER2013數(shù)據(jù)集。該數(shù)據(jù)集共包含了35 887幅圖像,其中有28 709幅圖像為訓(xùn)練集,測(cè)試集和驗(yàn)證集分別為3 589幅圖片。每幅圖片是由48×48固定大小的灰度圖像組成,共有7種表情,分別為:憤怒、厭惡、恐懼、高興、悲傷、驚訝和自然。圖5為FER2013表情數(shù)據(jù)集中部分表情樣例,包含了不同年齡、膚色、性別的人臉表情。
圖5 FER2013數(shù)據(jù)集部分圖像Fig.5 Partial images of FER2013 dataset
(2)CK+數(shù)據(jù)集。該數(shù)據(jù)集總共包含了123個(gè)人的593段表情序列,但是有效標(biāo)注表情的標(biāo)簽數(shù)據(jù)只有327個(gè)表情序列,本實(shí)驗(yàn)抽取了其中的1 101個(gè)比較明顯的圖片,檢測(cè)到人臉并且將人臉裁剪到大小固定為48×48的灰度圖像,分為7種表情:憤怒、厭惡、恐懼、高興、悲傷、驚訝和自然。圖6為CK+表情數(shù)據(jù)集中部分表情樣例,包含了不同種族、膚色、性別的人臉表情。
圖6 CK+數(shù)據(jù)集部分圖像Fig.6 Partial images of CK+dataset
為了減少訓(xùn)練過(guò)程中的過(guò)擬合,在實(shí)驗(yàn)中進(jìn)行了數(shù)據(jù)增強(qiáng)處理如圖7所示,具體參數(shù)設(shè)置如表2所示。其中,“Rotation_range”表示將圖像按順時(shí)針或逆時(shí)針?lè)较螂S機(jī)旋轉(zhuǎn)一定角度;“Rescale”表示隨機(jī)縮放圖片;“Shear_range”表示逆時(shí)針?lè)较虻募羟凶儞Q角度;“Zoom_range”表示隨機(jī)縮放圖片的幅度;“Horizontal_flip”表示進(jìn)行隨機(jī)水平翻轉(zhuǎn)圖片;“Fill_mode”表示進(jìn)行變換時(shí)若超出邊界的點(diǎn),會(huì)按照選擇設(shè)置的參數(shù)進(jìn)行處理。
圖7 數(shù)據(jù)增強(qiáng)圖Fig.7 Data augmentation diagram
表2 數(shù)據(jù)增強(qiáng)參數(shù)表Table 2 Data augmentation parameter table
本文使用Python3.6.5進(jìn)行實(shí)驗(yàn),操作系統(tǒng)為Windows 10,硬件平臺(tái)為英特爾Core i9-9820X CPU,內(nèi)存為32 GB,GPU為11 GB的NVIDIA GeForce RTX 2080 Ti。網(wǎng)絡(luò)的batch為32,初始學(xué)習(xí)率為0.1,如果驗(yàn)證損失在10輪內(nèi)都沒(méi)有改善,則按照10倍的速率將學(xué)習(xí)率降低,最低降為0.000 1,采用交叉熵?fù)p失函數(shù),并在實(shí)驗(yàn)中用Adam優(yōu)化器優(yōu)化訓(xùn)練過(guò)程。
圖8和圖9分別為CK+和FER2013數(shù)據(jù)集上的準(zhǔn)確率迭代收斂曲線(xiàn),圖10和圖11分別為CK+和FER2013數(shù)據(jù)集上的損失函數(shù)迭代收斂曲線(xiàn)。
圖8 CK+準(zhǔn)確率曲線(xiàn)圖Fig.8 CK+accuracy curve
圖9 FER2013準(zhǔn)確率曲線(xiàn)圖Fig.9 FER2013 accuracy curve
圖10 CK+損失曲線(xiàn)圖Fig.10 CK+loss curve
圖11 FER2013損失曲線(xiàn)圖Fig.11 FER2013 loss curve
網(wǎng)絡(luò)在CK+數(shù)據(jù)集上得到的最終準(zhǔn)確率為98.95%,在FER2013數(shù)據(jù)集上得到的最終準(zhǔn)確率為70.30%。由準(zhǔn)確率迭代收斂曲線(xiàn)圖可以看出,隨著迭代次數(shù)的增加,準(zhǔn)確率逐漸上升,雖然迭代過(guò)程中會(huì)產(chǎn)生一些波動(dòng)變化,但是總體是趨于穩(wěn)定收斂狀態(tài)的。由損失函數(shù)迭代收斂曲線(xiàn)圖可以看出,在迭代過(guò)程中損失值會(huì)逐漸下降,最終收斂到一個(gè)接近于0的值,并保持穩(wěn)定狀態(tài)。
2.2.1 壓縮率對(duì)比實(shí)驗(yàn)
本文引入了SE模塊來(lái)提高人臉表情識(shí)別精度,選擇不同的壓縮率r可以使得模塊具有不同效果的通道加權(quán)能力。實(shí)驗(yàn)中分別將壓縮率r設(shè)置為2,4,8,16,32,與本文所提出的在網(wǎng)絡(luò)結(jié)構(gòu)的不同層采用不同的壓縮率進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖12和圖13所示,combination代表本文方法,None代表在網(wǎng)絡(luò)結(jié)構(gòu)中不加入SE模塊??梢钥吹揭隨E模塊會(huì)提高表情識(shí)別準(zhǔn)確率,且本文方法效果優(yōu)于所有模塊使用同一個(gè)壓縮率。
圖12 FER2013表情識(shí)別準(zhǔn)確率Fig.12 Expression recognition accuracy rate with FER2013
圖13 CK+表情識(shí)別準(zhǔn)確率Fig.13 Expression recognition accuracy rate with CK+
選擇不同的壓縮率會(huì)影響最終的人臉表情識(shí)別精度,因此壓縮率的選取很關(guān)鍵?;诖嗽诓煌瑢硬捎貌煌膲嚎s率,由于初始層通道數(shù)較少,所以設(shè)置的壓縮率小,隨著通道數(shù)的增多,逐漸增加SE模塊壓縮率到網(wǎng)絡(luò)結(jié)構(gòu)的不同層。網(wǎng)絡(luò)結(jié)構(gòu)從第三個(gè)SE模塊開(kāi)始,每隔兩個(gè)SE模塊的通道數(shù)是一樣的,所以選擇壓縮率的時(shí)候?qū)⑦@些通道數(shù)一樣的SE模塊的壓縮率設(shè)置為同一個(gè)壓縮率。進(jìn)行實(shí)驗(yàn)對(duì)比后,實(shí)驗(yàn)結(jié)果如圖14和圖15所示,圖中為7組效果較好的不同壓縮率組合方式,選擇了性能最佳的壓縮率組合方式r1。圖中網(wǎng)絡(luò)結(jié)構(gòu)的SE模塊壓縮率r1至r7具體設(shè)置如表3所示,表中總共10個(gè)SE模塊,分別對(duì)應(yīng)其壓縮率取值。選擇合適的壓縮率主要是為了更好地利用兩個(gè)全連接層來(lái)擬合通道間的相關(guān)性,利用通道間的相關(guān)性來(lái)增強(qiáng)特征提取能力,從而提升表情識(shí)別精度。
圖14 FER2013不同壓縮率組合方式識(shí)別準(zhǔn)確率Fig.14 Recognition accuracy of different squeeze ratio combinations with FER2013
圖15 CK+不同壓縮率組合方式識(shí)別準(zhǔn)確率Fig.15 Recognition accuracy of different squeeze ratio combinations with CK+
表3 壓縮率取值Table 3 Squeeze ratio value
2.2.2 不同方法對(duì)比實(shí)驗(yàn)
通過(guò)多次實(shí)驗(yàn)后得出實(shí)驗(yàn)結(jié)果,F(xiàn)ER2013和CK+數(shù)據(jù)集上七類(lèi)表情的混淆矩陣如圖16和圖17所示。
圖16 FER2013數(shù)據(jù)集上七類(lèi)表情的混淆矩陣Fig.16 Confusion matrix of 7 types of expressions on FER2013 dataset
圖17 CK+數(shù)據(jù)集上七類(lèi)表情的混淆矩陣Fig.17 Confusion matrix of 7 types of expressions on CK+dataset
由圖16可以看出,F(xiàn)ER2013數(shù)據(jù)集中表情識(shí)別率最高的是高興和驚訝,可能原因是高興和驚訝的表情特征辨識(shí)度更高。憤怒和恐懼表情識(shí)別率相對(duì)較低,可能原因是這兩種表情特征很相似,具有相同的嘴角、眉毛等特征,很容易發(fā)生混淆,從而導(dǎo)致表情識(shí)別率不高。由圖17可以看出,CK+數(shù)據(jù)集的整體表情識(shí)別準(zhǔn)確率可以達(dá)到95%以上,其中識(shí)別率最高的為憤怒和高興,可能原因是由于CK+數(shù)據(jù)集中憤怒和高興的表情特征相對(duì)于其他表情區(qū)別更大一些,識(shí)別率較低的是悲傷類(lèi),因?yàn)樵跀?shù)據(jù)集特征都相對(duì)明顯的情況下,悲傷表情和厭惡表情特征相近似,使其識(shí)別率有所影響。圖18和圖19為FER2013和CK+數(shù)據(jù)集中容易發(fā)生混淆的表情示例。
圖18 FE(Rb20)13恐?jǐn)?shù)懼據(jù)表集情易混示淆例圖片對(duì)比Fig.18 Confusing expression contrast on FER2013 dataset
圖19 CK+數(shù)據(jù)集易混淆圖片對(duì)比Fig.19 Confusing expression contrast on CK+dataset
為了驗(yàn)證本文提出方法的有效性,在CK+和FER2013數(shù)據(jù)庫(kù)上,對(duì)比本文算法與表情識(shí)別經(jīng)典算法的準(zhǔn)確率和網(wǎng)絡(luò)參數(shù)量,參與對(duì)比實(shí)驗(yàn)的經(jīng)典算法有Alexnet[19]、InceptionV4[20]、Xception[16]。除此之外,還與近幾年最新的表情識(shí)別算法進(jìn)行了比較,參與對(duì)比實(shí)驗(yàn)的最新算法有Parallel CNN[21]、CNN[22]、Attention Net[23]、FaceNet2ExpNet[24]、GAN[25],對(duì)比結(jié)果如表4所示。Alexnet是2012年ImageNet大賽上的冠軍網(wǎng)絡(luò),InceptionV4是Inception系列網(wǎng)絡(luò)中的一個(gè)性?xún)r(jià)比較高的網(wǎng)絡(luò),本文網(wǎng)絡(luò)是根據(jù)Xception設(shè)計(jì)思想進(jìn)行改進(jìn)的,這三個(gè)經(jīng)典網(wǎng)絡(luò)都具有典型的代表性。Parallel CNN方法設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)具有兩個(gè)并行的卷積池化結(jié)構(gòu),分成三個(gè)不同的并行路徑來(lái)提取三種不同的圖像特征。CNN方法主要考慮核大小和濾波器數(shù)目對(duì)分類(lèi)精度的影響,設(shè)計(jì)了兩種新穎的CNN網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提取人臉表情特征。Attention Net方法將注意力集中在人臉上,用高斯空間表示來(lái)進(jìn)行人臉表情識(shí)別。FaceNet2ExpNet方法提出一種基于靜態(tài)圖像訓(xùn)練表情識(shí)別網(wǎng)絡(luò)的新思路,首先提出一種新的分布函數(shù)來(lái)模擬表達(dá)網(wǎng)絡(luò)的神經(jīng)元,在此基礎(chǔ)上設(shè)計(jì)了兩個(gè)階段的訓(xùn)練算法,先預(yù)訓(xùn)練一個(gè)表情網(wǎng)絡(luò),在正式訓(xùn)練時(shí)將全連接層與預(yù)先訓(xùn)練的卷積層相結(jié)合并共同訓(xùn)練。GAN方法在StarGAN的基礎(chǔ)上,改進(jìn)重構(gòu)誤差,用生成器進(jìn)行下采樣,由某一個(gè)人的一種表情可以生成其他不同表情。
表4 不同方法在數(shù)據(jù)集上的識(shí)別結(jié)果Table 4 Recognition results of different methods on dataset %
目前人類(lèi)在FER2013數(shù)據(jù)集上的識(shí)別率平均約為65%±5%[17],本文模型在CK+數(shù)據(jù)集上取得了98.95%的識(shí)別準(zhǔn)確率,在FER2013數(shù)據(jù)集上取得了70.30%的識(shí)別準(zhǔn)確率,已經(jīng)能夠達(dá)到平均識(shí)別的效果。與現(xiàn)有方法相比,本文提出的網(wǎng)絡(luò)結(jié)構(gòu)在CK+和FER2013數(shù)據(jù)集上,識(shí)別率分別提高了0.15個(gè)百分點(diǎn)和3.29個(gè)百分點(diǎn),證明本文模型具有一定的穩(wěn)定性和泛化能力。CK+數(shù)據(jù)集的識(shí)別率相對(duì)FER2013表情數(shù)據(jù)集整體提高了許多,主要原因是FER2013數(shù)據(jù)集中存在很多錯(cuò)誤標(biāo)簽以及非正常表情圖片,圖20為FER2013數(shù)據(jù)集中部分非正常表情示例。
圖20 FER2013數(shù)據(jù)集中非正常表情示例Fig.20 Example of abnormal expressions on FER2013 dataset
此外,為了進(jìn)一步驗(yàn)證本文網(wǎng)絡(luò)模型的輕量性,對(duì)比了表4中與本文實(shí)驗(yàn)結(jié)果準(zhǔn)確率相近的部分網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量,如表5所示,本文提出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量是最少的,且與改進(jìn)前的Xception網(wǎng)絡(luò)相比,參數(shù)少了75%,并且在服務(wù)端進(jìn)行了測(cè)試,算法的平均識(shí)別速度可以達(dá)到137 frame/s,滿(mǎn)足實(shí)時(shí)性(30 frame/s以上)的要求。
表5 不同方法的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量Table 5 Network structure parameters of different methods
針對(duì)目前人臉表情識(shí)別準(zhǔn)確率不高、網(wǎng)絡(luò)模型參數(shù)復(fù)雜等問(wèn)題,本文提出了一種可以增強(qiáng)可分離卷積通道特征的神經(jīng)網(wǎng)絡(luò),吸取了Xception網(wǎng)絡(luò)的輕量化設(shè)計(jì)思想,并且引入了SE模塊使得特征提取更加有效。最后在CK+和FER2013數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),各自取得較高的識(shí)別率,表明本文提出的人臉表情識(shí)別方法能夠在降低網(wǎng)絡(luò)參數(shù)量的同時(shí),提高表情識(shí)別精度,實(shí)現(xiàn)網(wǎng)絡(luò)模型的輕量化。深度學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù)支撐,希望在今后的工作中能夠盡可能多地收集訓(xùn)練樣本,建立自己的數(shù)據(jù)庫(kù),并且在以后的研究工作中將遮擋、人臉姿勢(shì)變換等問(wèn)題考慮進(jìn)去,如何在面臨這些問(wèn)題的情況下還能保證人臉表情識(shí)別的準(zhǔn)確率將是進(jìn)一步的研究方向。