国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)的ResNeXt50神經(jīng)網(wǎng)絡(luò)面部表情識別方法*

2022-02-03 02:58錢智哲
關(guān)鍵詞:非對稱集上特征提取

張 潔,穆 靜,錢智哲

(西安工業(yè)大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,西安 710021)

人類對于情緒的感知,往往來自于面部表情。個人對他人的初印象,僅有7%取決于談話內(nèi)容,絕大部分來自于面部表情[1]。從表情中可判斷情緒狀況的好壞,繼而可以更好的進(jìn)行交流,表情的這種直觀性使其具有很高的應(yīng)用價值。將表情識別與機(jī)器進(jìn)行結(jié)合,提高識別效率,有助于表情識別在醫(yī)學(xué)、自動駕駛等領(lǐng)域的應(yīng)用。面部表情識別過程包括圖像獲取、圖像預(yù)處理、特征提取、表情分類四個部分。特征提取是整個表情識別過程中最為關(guān)鍵的步驟,對表情分類的結(jié)果產(chǎn)生直接影響[2]。

面部表情識別方法一般分為傳統(tǒng)方法和深度學(xué)習(xí)方法。傳統(tǒng)方法中,文獻(xiàn)[3]對圖像序列進(jìn)行了面部表情的自動識別分析,文獻(xiàn)[4]將光流法引入面部表情識別,提取光流值構(gòu)成面部表情的特征向量,再對面部表情特征進(jìn)行識別,文獻(xiàn)[5]提出局部二進(jìn)制模型(Local Binary Pattern,LBP),在不同的數(shù)據(jù)集上,手工設(shè)計出不同的分類器進(jìn)行表情識別。上述的傳統(tǒng)面部表情識別方法采用手工設(shè)計的特征提取器,在提取特征時容易將對分類有較大影響的特征忽略掉,從而導(dǎo)致分類結(jié)果不準(zhǔn)確。隨著軟硬件設(shè)施的進(jìn)步,特征提取方法也在不斷的發(fā)展。2006年,文獻(xiàn)[6]提出深度信念網(wǎng)絡(luò),深度學(xué)習(xí)重新開始進(jìn)入研究人員視野,此后,研究人員提出了許多經(jīng)典的分類網(wǎng)絡(luò)模型,如AlexNet[7],GoogelNet[8]等等。深度學(xué)習(xí)的迅猛發(fā)展使得表情識別也取得巨大突破,文獻(xiàn)[9]將卷積神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)相結(jié)合,通過監(jiān)督學(xué)習(xí)來增強(qiáng)卷積網(wǎng)絡(luò)對表情的分類能力,但這種方法特征提取方面的能力仍舊不強(qiáng)。在早期的深度學(xué)習(xí)中,獲取更多表情特征的主要方式是增加網(wǎng)絡(luò)深度,也就是堆疊卷積運(yùn)算符,這樣容易出現(xiàn)梯度消失或者梯度爆炸現(xiàn)象[10-11],文獻(xiàn)[12]提出ResNet網(wǎng)絡(luò),以“短接”的方式直接將信息繞道傳到輸出,不但在一定程度上保持了信息的完整性,還有效解決了梯度消失或爆炸問題。2017年,受到Inception[13]思想的啟發(fā),文獻(xiàn)[14]將ResNet與Inception結(jié)合,提出ResNeXt網(wǎng)絡(luò),與ResNet相比,在同等網(wǎng)絡(luò)層數(shù)條件下,ResNeXt用到的參數(shù)數(shù)量更少,且計算速度和精確度有明顯提升。深度學(xué)習(xí)網(wǎng)絡(luò)在特征提取方面有了很大的進(jìn)步,但仍不可避免一些重要信息在卷積和池化過程中丟失。文獻(xiàn)[15]提出一種基于混合注意力機(jī)制的網(wǎng)絡(luò),強(qiáng)化網(wǎng)絡(luò)通道在提取特征時對于一些表情細(xì)節(jié)的關(guān)注,如眼睛、嘴角等,文獻(xiàn)[16]提出融合了全局特征與局部特征的算法,文獻(xiàn)[17]提出融合局部特征與兩階段注意力權(quán)重學(xué)習(xí)的面部表情識別方法,這些方法都旨在提取更多表情特征以提升分類效果。金字塔卷積(Pyramidal Convolution,PyConv)[18]利用大小不同的卷積核,既可以關(guān)注到全局特征,也可以很好的照顧到局部特征,進(jìn)而細(xì)化特征提取。文獻(xiàn)[19]提出基于全局注意力及金字塔卷積的表情識別,文獻(xiàn)[20]提出深度多尺度融合注意力殘差面部表情識別網(wǎng)絡(luò),都從細(xì)化特征提取方面入手以獲得更好的結(jié)果。ACNet (Asymmetric Convolution Network,ACNet)[21-22]中使用非對稱卷積模塊從不同的維度提取特征,提升網(wǎng)絡(luò)模型的魯棒性。

基于此,文中擬從強(qiáng)化特征提取方向入手,以ResNeXt網(wǎng)絡(luò)為基礎(chǔ)架構(gòu),采用多尺度特征融合方式細(xì)化紋理方面的特征提取,選用SoftPool池化[23-24],以減少特征信息的損失,再結(jié)合非對稱卷積良好的性能,增強(qiáng)殘差網(wǎng)絡(luò)的魯棒性。

1 算法原理

SoftPool是一種變種的池化層,它可以在保持池化層功能的同時盡可能地減少特征圖信息的損失。SoftPool是可微的,是基于Softmax加權(quán)方法來保留輸入的基本屬性。局部領(lǐng)域內(nèi),激活的自然指數(shù)與領(lǐng)域內(nèi)所有激活的指數(shù)之和之比即為權(quán)重,對領(lǐng)域內(nèi)所有權(quán)重進(jìn)行加權(quán)激活累加,得到池化操作的輸出[25]。權(quán)重計算公式及加權(quán)激活公式為

(1)

(2)

圖1為SoftPool下采樣的過程。輸入一張?zhí)卣鲌D,圖中彩色部分表示正在進(jìn)行采樣的3×3大小的區(qū)域。利用權(quán)重計算公式,計算出選區(qū)中每個元素的權(quán)重,將每個權(quán)重與相應(yīng)的激活值進(jìn)行相乘并累加,得到最后結(jié)果,在此過程中,權(quán)重與相應(yīng)的激活值一起做非線性變換。

圖1 SoftPool下采樣過程Fig.1 SoftPool downsampling process

ACNet的核心在于非對稱卷積模塊(Asymmetric Convolution Block,ACBlock),其原理是利用大小方向不同的卷積核,強(qiáng)化特征提取,實現(xiàn)效果提升[26]。目前3×3卷積是大多數(shù)網(wǎng)絡(luò)所使用的基礎(chǔ)組件,因此,非對稱卷積模塊針對3×3的卷積核進(jìn)行,將原本一個3×3的卷積核拆分成1×3,3×1以及3×3的三個卷積核,對特征圖分別進(jìn)行卷積,最后進(jìn)行融合。非對稱卷積模塊如圖2所示。

圖2 非對稱卷積模塊Fig.2 Asymmetric convolution module

2 ResNeXt50神經(jīng)網(wǎng)絡(luò)改進(jìn)

文中以ResNeXt50網(wǎng)絡(luò)為基礎(chǔ),結(jié)合多尺度特征融合、SoftPool和非對稱卷積,設(shè)計出基于多尺度特征融合的AC-SP-ResNeXt50網(wǎng)絡(luò)。多尺度特征融合層(Multi-Scale Feature Fusion Convolution,MFFC)為網(wǎng)絡(luò)的第一層卷積結(jié)構(gòu),使網(wǎng)絡(luò)以多個感受野采集特征信息,再將非對稱卷積模塊融入殘差結(jié)構(gòu)中,構(gòu)成非對稱殘差模塊,受到文獻(xiàn)20的啟發(fā),將SoftPool作為本網(wǎng)絡(luò)的池化層,盡可能地減少輸入特征信息的損失。

2.1 AC-SP-ResNeXt50網(wǎng)絡(luò)構(gòu)建

圖像輸入網(wǎng)絡(luò)后經(jīng)過MFFC層進(jìn)行特征提取,經(jīng)過SoftPool池化后進(jìn)入到添加了ACBlock的殘差網(wǎng)絡(luò)中,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 AC-SP-ResNeXt50網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 AC-SP-ResNeXt50 network structure

殘差結(jié)構(gòu)中,將原本的普通卷積模塊替換成非對稱卷積模塊,目的是讓殘差分支能夠提取到更豐富的特征。與原ResNeXt網(wǎng)絡(luò)結(jié)構(gòu)的分組相同,殘差結(jié)構(gòu)共有32條平行路徑,每條分支路徑的拓?fù)浣Y(jié)構(gòu)相同,但參數(shù)相互獨立,可以有更好的性能提取特征。進(jìn)入殘差結(jié)構(gòu)后,由1×1的卷積核將輸入數(shù)據(jù)的特征映射到新的特征空間中,經(jīng)過拆分后的1×3,3×1,3×3三路并行卷積,從不同的空間上提取多尺度的特征信息再進(jìn)行線性相加融合,實現(xiàn)強(qiáng)化特征提取的目的,再由1×1卷積靈活控制特征圖輸出到網(wǎng)絡(luò)的下一層的深度,最終將整個分組卷積融合,與短接的分支相加,經(jīng)過ReLU函數(shù)激活輸出到下一層,該非對稱卷積計算過程為

(3)

Y=Bn(X1×3+X3×1+X3×3),

(4)

X=ReLU(Y),

(5)

式中:X為輸入矩陣;Convn×n(·)為卷積核尺寸為n×n的卷積;Y為三個不同大小卷積核卷積后進(jìn)行融合的結(jié)果;Bn(·)為批量統(tǒng)一化。AC-SP-ResNeXt網(wǎng)絡(luò)結(jié)構(gòu)詳細(xì)信息見表1。

表1 AC-SP-ResNeXt50網(wǎng)絡(luò)結(jié)構(gòu)詳細(xì)信息表Tab.1 Detailed information of the AC-SP-ResNeXt50 network structure

續(xù)表

2.2 多尺度特征融合

在進(jìn)行特征提取時,不同尺寸卷積核具有不同的感受野[27],尺寸較大的卷積核進(jìn)行特征提取時能很好的提取到圖像的整體特征,但容易忽略掉比較重要的細(xì)節(jié),而尺寸較小的卷積核雖然能很好的照顧到圖像的細(xì)節(jié)特征,卻不容易提取到圖像的整體特性,且對于圖像分類來說,高層特征圖包含的特征信息會更加豐富清晰,基于此,文中提出采用3×3,5×5,7×7,9×9四個不同尺度的卷積核對原始圖像以多個尺度進(jìn)行特征提取。

如圖4,選取ResNeXt50和AC-SP-ResNeXt50網(wǎng)絡(luò)第一層輸出中最具有代表性的12張?zhí)卣鲌D,(a)、(b)分別為圖像經(jīng)過ResNeXt50網(wǎng)絡(luò)的第一個7×7卷積后輸出的特征圖以及文中提出的AC-SP-ResNeXt50網(wǎng)絡(luò)MFFC層后輸出的特征圖,從圖像上可以看到,文中提出的方法在進(jìn)行特征提取時對于紋理特征的關(guān)注明顯多于ResNeXt50,且對于圖像全局特征的關(guān)注也優(yōu)于ResNeXt50,因此在以后進(jìn)行更深層次的特征提取操作時所擁有的語義細(xì)節(jié)特征更多,識別效果也會更加出色。

圖4 網(wǎng)絡(luò)第一層特征圖Fig.4 The feature map of the first layer of the network

3 實驗結(jié)果及分析

文中在CK+數(shù)據(jù)集和Jaffe數(shù)據(jù)集上訓(xùn)練模型并驗證。CK+數(shù)據(jù)集是在實驗室環(huán)境下拍攝的表情數(shù)據(jù)集,拍攝環(huán)境固定,干擾條件較少,包含123名受試人員593個視頻序列,這些序列的持續(xù)時間從10幀到60幀不等,表現(xiàn)了從中性表情到高峰表情的轉(zhuǎn)變。選取其中帶有7個基本表情表達(dá)標(biāo)簽(憤怒、蔑視、厭惡、恐懼、快樂、悲傷和驚訝)的327個序列幀共981張圖作為文中實驗的數(shù)據(jù)集。Jaffe數(shù)據(jù)集是由10名日本女生在實驗室條件下做出7種表情(憤怒,厭惡,恐懼,高興,悲傷,驚訝,中性),共包含213張圖片,由于Jaffe數(shù)據(jù)集樣本數(shù)量較少,為擴(kuò)充數(shù)據(jù),提升網(wǎng)絡(luò)訓(xùn)練過程中的性能,文中將每個樣本數(shù)據(jù)經(jīng)過水平方向和垂直方向的翻轉(zhuǎn)后,達(dá)到639張樣本圖片,擴(kuò)充后的jaffe數(shù)據(jù)集如圖5所示。

圖5 擴(kuò)充后的jaffe數(shù)據(jù)集Fig.5 The augmented jaffe dataset

實驗使用的操作系統(tǒng)是Windows系統(tǒng),在python3.8環(huán)境下用PyTorch1.7.1搭建網(wǎng)絡(luò)模型,使顯卡內(nèi)存為12 GB的NVIDIA Tesla K80訓(xùn)練網(wǎng)絡(luò).訓(xùn)練過程中,使用Adam優(yōu)化器更新權(quán)重,學(xué)習(xí)率設(shè)置為0.000 1。根據(jù)數(shù)據(jù)集樣本數(shù)量特點,查閱資料后,先選取100次,150次,200次分別作為迭代參數(shù)在CK+數(shù)據(jù)集上進(jìn)行實驗。經(jīng)過實驗驗證,迭代次數(shù)為100次時網(wǎng)絡(luò)性能不夠穩(wěn)定,在迭代150次以后識別率曲線已達(dá)到相對穩(wěn)定狀態(tài),因此選取總迭代次數(shù)為150次完成文中實驗。為了驗證和測試文中提出的結(jié)構(gòu),文中設(shè)計了三組實驗:

1) 在CK+數(shù)據(jù)集上,建立消融實驗驗證文中提出的AC-SP-ResNeXt50神經(jīng)網(wǎng)絡(luò)的可行性;

2) 在CK+數(shù)據(jù)集和Jaffe數(shù)據(jù)集上,與現(xiàn)有的其他參考文獻(xiàn)使用的算法,建立對比實驗,測試改進(jìn)效果;

3) 使用網(wǎng)上隨機(jī)下載的圖片進(jìn)行表情識別,評估模型的泛化能力。

3.1 消融實驗

為驗證改進(jìn)模型的可行性和必要性,文中對改進(jìn)模型中的MFFC卷積、ACBlock、SoftPool分別與ResNeXt50結(jié)合進(jìn)行實驗,并與ResNeXt50和改進(jìn)的AC-SP-ResNeXt50在CK+數(shù)據(jù)集上進(jìn)行對比。

圖6為訓(xùn)練過程中在驗證集上的識別率曲線。

圖6 驗證集Acc曲線Fig.6 Validation set Acc curves

圖6中MFFC-ResNeXt50表示MFFC卷積與ResNeXt50結(jié)合,AC-ResNeXt50表示ACBlock與ResNeXt50結(jié)合,SP-ResNeXt50表示SoftPool與ResNeXt50結(jié)合,MFFC-SP-ResNeXt50表示MFFC卷積、SoftPool與ResNeXt50結(jié)合,MFFC-AC-ResNeXt50表示MFFC卷積、ACBlock與Res NeXt50結(jié)合,SPAC-ResNeXt50表示SoftPool、ACBlock與ResNeXt50結(jié)合。從圖像上可以看出,改進(jìn)后的模型在識別率上優(yōu)于其他模型,每個因素對于識別率均有一定的提升。

圖7為模型的損失曲線,從下降速度來看,迭代30次以后,改進(jìn)模型AC-SP-ResNeXt50的下降速度最快,表現(xiàn)最好。

圖7 訓(xùn)練損失曲線Fig.7 Training loss curves

表2為消融實驗的具體實現(xiàn)過程,將每個模塊與ResNeXt50結(jié)合,在CK+數(shù)據(jù)集上進(jìn)行驗證,得出每個模型的識別率。

表2 以ResNeXt50為基礎(chǔ)模型的消融實驗Tab.2 Ablation experiments based onthe ResNeXt50 model

從表2中可知,MFFC,SoftPool,ACBlock均對模型識別能力有一定的提升。其中,文中提出的多尺度特征融合MFFC使模型識別能力有較大的提升。MFFC使模型的識別率上升了1.4%,所以,多尺度特征融合可以提取到更多輸入圖像的特征信息。

SoftPool使網(wǎng)絡(luò)的識別率增加了0.9%,實現(xiàn)下采樣的同時也保留了更多特征信息,有利于后續(xù)殘差結(jié)構(gòu)的特征提取。

ACBlock提高了1.0%的識別率,使殘差模塊具有更好的學(xué)習(xí)能力,提升網(wǎng)絡(luò)模型的表情識別能力。

在消融實驗的進(jìn)行過程中不難發(fā)現(xiàn),各個模塊對于網(wǎng)絡(luò)模型的性能均有提升,但這種提升效果不是直接疊加的,而是在一個改進(jìn)的基礎(chǔ)上有小幅度的提升,通過逐步改進(jìn)ResNeXt50網(wǎng)絡(luò),模型的表情識別能力也在逐步提升。

3.2 對比實驗

為驗證文中方法的有效性和優(yōu)勢,將AC-SP-ResNeXt50結(jié)構(gòu)與存在的一些深度學(xué)習(xí)方法:文獻(xiàn)[9]提出的卷積神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)相結(jié)合的方法(CNN+SVM),文獻(xiàn)[15]提出的注意力與空間注意力機(jī)制分離方法(CA-ST-DSC),文獻(xiàn)[19]提出的金字塔卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合的方法(PyConv-Attention),文獻(xiàn)[2]提出的注意力金字塔卷積殘差網(wǎng)絡(luò)模型結(jié)合的方法(APRNET50)在CK+數(shù)據(jù)集上進(jìn)行對比分析。文獻(xiàn)[16]提出的全局分支和局部分支結(jié)合的方法(GL-DCNN),李春虹等人提出的基于深度可分離卷積的識別方法(DSC-FER)[28],文獻(xiàn)[17]提出的融合局部特征與全局特征方法(FLF-TAWL),文獻(xiàn)[20]提出的多尺度注意力殘差網(wǎng)絡(luò)方法(DMFA-ResNet)與文中所提方法在Jaffe數(shù)據(jù)集上進(jìn)行對比。文中提出的AC-SP-ResNeXt50網(wǎng)絡(luò)首先以多尺度特征融合層提取原始圖像上的特征,細(xì)化紋理信息,再以SoftPool池化,實現(xiàn)降低計算量防止特征冗余的同時保留更多特征,最后再使用非對稱殘差結(jié)構(gòu)提取更深層次的特征,達(dá)到強(qiáng)化特征提取的目的,從這三個方面最大程度上實現(xiàn)提取到更多特征信息,進(jìn)而提升識別率。從表3的對比結(jié)果來看,文中提出的網(wǎng)絡(luò)在CK+數(shù)據(jù)集和Jaffe數(shù)據(jù)集上的特征提取效果更好,識別結(jié)果更優(yōu)。

表3 對比結(jié)果Tab.3 Comparison results

3.3 模型泛化能力評估

為測試模型在現(xiàn)實場景中的應(yīng)用能力,將在CK+數(shù)據(jù)集上訓(xùn)練的模型保存,并在網(wǎng)上隨機(jī)選取表情圖片運(yùn)用該模型進(jìn)行面部表情識別,識別結(jié)果如圖8所示。

圖8 表情識別結(jié)果Fig.8 Expression recognition results

從圖8中的識別結(jié)果來看,文中模型對與現(xiàn)實生活中的表情圖片也能基本準(zhǔn)確識別,其中,對于“悲傷”表情識別準(zhǔn)確率為95.7%、“驚訝”識別準(zhǔn)確率為95.6%、“高興”識別準(zhǔn)確率為90.8%、“厭惡”識別準(zhǔn)確率為91.9%,這四種表情識別率都能達(dá)到90%以上,“生氣”表情識別準(zhǔn)確率為86.1%、“恐懼”識別準(zhǔn)確率為80.3%、“蔑視”識別準(zhǔn)確率為80.1%,這三種表情的識別結(jié)果也能在80%以上,從整體來看,文中提出的改進(jìn)模型泛化能力較好。

4 結(jié) 論

1) 文中從特征提取的角度出發(fā),提出一種以ResNeXt50為基礎(chǔ)的改進(jìn)網(wǎng)絡(luò)模型。在結(jié)構(gòu)中,多尺度特征融合卷積從原始圖像上提取了更多的特征信息,SoftPool完成池化功能的同時防止丟失重要特征,非對稱卷積使殘差網(wǎng)絡(luò)結(jié)構(gòu)具有更強(qiáng)的特征提取能力。在Jaffe數(shù)據(jù)集和CK+數(shù)據(jù)集上設(shè)計了消融實驗和對比實驗,驗證了模型的有效性,測試并評估了模型的泛化能力。

2) MFFC、SoftPool、ACBlock這三個模塊均對模型的表情識別能力有提升作用,但這種作用的效果不是直接疊加,而是隨著模型的改進(jìn)而逐步提升;相對于現(xiàn)有的一些表情識別方法,文中模型在Jaffe數(shù)據(jù)集和CK+數(shù)據(jù)集上的識別結(jié)果更好,驗證了文中模型的有效性;文中模型在識別網(wǎng)絡(luò)表情圖像的表現(xiàn)較好,泛化能力較好。

3) 下一步計劃在數(shù)據(jù)增強(qiáng)和模型泛化能力評估方面做出進(jìn)一步的改進(jìn),強(qiáng)化數(shù)據(jù)增強(qiáng)方法,并擴(kuò)充真實場景下的測試集,全面評估模型的泛化能力。

猜你喜歡
非對稱集上特征提取
GCD封閉集上的冪矩陣行列式間的整除性
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
閥控非對稱缸電液伺服系統(tǒng)線性自抗擾控制
非對稱干涉儀技術(shù)及工程實現(xiàn)
R語言在統(tǒng)計學(xué)教學(xué)中的運(yùn)用
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
師如明燈,清涼溫潤
基于MED和循環(huán)域解調(diào)的多故障特征提取
非對稱換向閥在液壓缸傳動系統(tǒng)中的應(yīng)用
青田县| 织金县| 阿拉善左旗| 漳州市| 丰镇市| 郁南县| 永清县| 万宁市| 屯留县| 安陆市| 神木县| 油尖旺区| 永安市| 菏泽市| 泰宁县| 临澧县| 仁怀市| 察隅县| 叶城县| 平罗县| 象山县| 翼城县| 和政县| 岳池县| 临沂市| 镇宁| 衡南县| 富裕县| 尖扎县| 宁国市| 长顺县| 阿巴嘎旗| 眉山市| 滦平县| 漯河市| 阿克| 广昌县| 九寨沟县| 绵竹市| 高密市| 宁都县|