国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多層交叉注意力融合網(wǎng)絡(luò)模型的人臉圖像情感分析

2023-03-15 10:34:16鄧亞萍王新尹甜甜
科學(xué)技術(shù)與工程 2023年3期
關(guān)鍵詞:人臉交叉注意力

鄧亞萍,王新,尹甜甜

(云南民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,昆明 650500)

隨著微信、微博等社交媒體的蓬勃發(fā)展,使用自拍等圖片來表達(dá)想法的趨勢越來越強(qiáng)烈,因此面部圖像情感分析愈發(fā)引起了行業(yè)內(nèi)外的關(guān)注。心理學(xué)家拉塞爾通過研究發(fā)現(xiàn)約55%的日常交流由面部表情傳達(dá),這說明面部表情在情感的表達(dá)中起著重要作用。人臉情感分析是一項(xiàng)復(fù)雜且具有挑戰(zhàn)性的工作,是人機(jī)交互的重要組成,隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)在人臉情感領(lǐng)域的研究也逐漸成為研究熱點(diǎn)[1]。

在過往的研究中,大多是采用傳統(tǒng)的方法對淺層信息,如顏色、輪廓等方面進(jìn)行情感分析[2]。但是,傳統(tǒng)方法易出現(xiàn)泛化能力差、識別率低等問題,并且在特征提取過程中容易缺少重要的表情特征[3]。近些年,研究人員基于深度學(xué)習(xí)設(shè)計(jì)了許多經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)如ResNet[4]、AlexNet[5]、GoogLeNet[6]等,使得深度學(xué)習(xí)算法再次引起了大家的關(guān)注。隨著深度學(xué)習(xí)在圖像處理方面的不斷應(yīng)用,研究者開始將其應(yīng)用于人臉情感分析。張珂等[7]在保證識別率的情況下提出了一種改進(jìn)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),簡化了網(wǎng)絡(luò)結(jié)構(gòu)的同時(shí)提升了訓(xùn)練速度。Yang等[8]結(jié)合注意力機(jī)制和循環(huán)結(jié)構(gòu)共同訓(xùn)練了具有雙向密集型連接、逐層精煉特征的網(wǎng)絡(luò)CliqueNet。Li等[9]利用深度殘差網(wǎng)絡(luò)來特征提取從而進(jìn)行人臉情感分析。Agrawal等[10]深入研究了過濾器大小與卷積核數(shù)量等對人臉情感分析的影響,并做了全面評估。徐琳琳等[11]針對訓(xùn)練時(shí)間過長與表情特征提取較難等問題,提出了并行卷積神經(jīng)網(wǎng)絡(luò)的人臉情感分析方法。宋曉茹等[12]使用不同尺度的特征層嵌入注意力機(jī)制來改進(jìn)的R-ResNet50網(wǎng)絡(luò)模型,使得提取特征更具有判別性。上述研究僅考慮了圖像的整體情況,而對于局部區(qū)域的情感表達(dá)研究在近年亦引起了學(xué)者們的關(guān)注。如Sun等[13]利用深度學(xué)習(xí)自動(dòng)定位有效特征信息的局部區(qū)域用于視覺情感分析。Li等[14]提出了一種兼顧局部和局部-整體的全文情境感知分類模型。蔡國永等[15]針對視覺圖像情感分析中忽略局部區(qū)域情感表示的問題,提出一種嵌入圖像整體特征與局部對象特征的視覺情感分析方法。雖然近些年學(xué)者對圖像整體與局部區(qū)域都有不同的研究,但是很少有人探索二者之間的協(xié)同作用對視覺情感特征表示的意義。

現(xiàn)針對大多數(shù)人臉圖像情感分析方法只單方面關(guān)注圖像整體或圖像局部來構(gòu)建視覺情感特征表示,提出一種多層交叉注意力融合網(wǎng)絡(luò)情感分析方法。結(jié)合人臉圖像整體與局部在情感表達(dá)上的協(xié)同關(guān)系,利用多層交叉注意力融合網(wǎng)絡(luò)模型,使提取的特征更加完善全面,更有利于提高后續(xù)情感分類的準(zhǔn)確性。

1 基于多層交叉注意力融合網(wǎng)絡(luò)模型

1.1 圖像數(shù)據(jù)預(yù)處理

在實(shí)際生活中,大規(guī)模的人臉數(shù)據(jù)集通常包含大量信息,為了最大限度地簡化數(shù)據(jù)和增強(qiáng)模型提取特征的可靠性,同時(shí)提高網(wǎng)絡(luò)模型的魯棒性與泛化性,采用旋轉(zhuǎn)、翻轉(zhuǎn)、裁剪、縮放、擴(kuò)充等手段進(jìn)行預(yù)處理的同時(shí),還使用人臉對齊的方法。人臉對齊是根據(jù)輸入的人臉圖像定位出面部的關(guān)鍵特征點(diǎn),如嘴角、眼睛、鼻尖等關(guān)鍵部位,如圖1所示,得到其關(guān)鍵點(diǎn)坐標(biāo),并根據(jù)坐標(biāo)進(jìn)行對齊。

圖1 人臉對齊提取關(guān)鍵特征點(diǎn)圖Fig.1 Face alignment extraction key feature points

如圖2所示,利用K均值聚類(K-means)的方法進(jìn)行人臉對齊[16],首先采用K-means對訓(xùn)練圖像進(jìn)行聚類,使歐氏距離相近的人臉圖像歸為一類,將訓(xùn)練圖像分為K類;其次通過KNN(Knearest neighbors)算法根據(jù)輸入圖像匹配其相似的類,選取K張與輸入圖像相似的訓(xùn)練圖像,建立其形狀和外觀模型;然后將非線性人臉模型轉(zhuǎn)換為一系列的線性組合,最終實(shí)現(xiàn)快速擬合。

圖2 人臉對齊算法框圖Fig.2 Block diagram of face alignment algorithm

為了簡便計(jì)算,將其權(quán)重系數(shù)d設(shè)置為零,選擇與輸入圖像I距離最近的K張訓(xùn)練圖為形狀和外觀基礎(chǔ),其中歐式距離公式為

(1)

式(1)中:dist為歐式距離函數(shù);x=(x1,x2,…xn);y=(y1,y2,…yn);xi和yi為第i個(gè)點(diǎn)的坐標(biāo)。

最后人臉對齊方法可以簡化為

(2)

式(2)中:K為選定的與測試圖最相近的訓(xùn)練圖的數(shù)量;I為測試圖像;S0為平均形狀;Ai(u)為形狀變化;W(u;a)為平均形狀S0到形狀S的分段仿射變換;α和β分別為形狀參數(shù)和外觀參數(shù)。

1.2 特征相關(guān)性分析

面部表情通過多個(gè)面部區(qū)域同時(shí)展現(xiàn),為了解面部各特征之間的聯(lián)系,同時(shí)剔除部分無關(guān)特征,提取最有效的分類特征,即實(shí)現(xiàn)最大化類的可分性。為此引入Center Loss+Softmax Loss來實(shí)現(xiàn)簡單而有效的特征相關(guān)性分析。該方法不僅能兼顧類內(nèi)聚合與類間分離,且能在保留信息量的同時(shí)減少特征的數(shù)量。

Center Loss+Softmax Loss主要是在Softmax Loss的基礎(chǔ)上,讓每一類特征盡可能的在輸出特征空間內(nèi)聚集在一起,即每一類的特征在特征空間中盡可能的聚集在某一個(gè)中心點(diǎn)附近。在訓(xùn)練過程中,增加樣本經(jīng)過網(wǎng)絡(luò)映射后在特征空間與類中心的距離約束,從而兼顧了類內(nèi)聚合與類間分離[17]。

其中Center Loss的公式為

(3)

關(guān)于LC的梯度和cyi的更新公式為

(4)

(5)

式中:cj為類中心;cyi為第yi個(gè)類別的特征中心;δ(yi=j)為指示函數(shù),當(dāng)yi=j時(shí)返回1,否則返回0;xi為全連接層之前的特征;m為mini-batch的大小。因此式(5)就是希望一個(gè)batch中每個(gè)樣本的特征離特征中心距離的平方和越小越好,也就是類內(nèi)距離要越小越好。

最終將Center Loss和Softmax Loss進(jìn)行加權(quán)求和,實(shí)現(xiàn)整體的分類任務(wù)的學(xué)習(xí)。

其中Softmax Loss的公式為

(6)

L1=LS+λLC

(7)

在加權(quán)求和的過程中通過λ來控制二者的比重,其中λ為平衡因子,m表示mini-batch包含的樣本數(shù)量,n表示類別數(shù),權(quán)重W相當(dāng)于n個(gè)向量組成的矩陣,byi為偏置,在訓(xùn)練時(shí),提取到人臉特征x根據(jù)標(biāo)簽確定屬于哪一類,然后與W中的向量做內(nèi)積。

1.3 多層交叉注意力網(wǎng)絡(luò)

由于在圖像的整體和局部區(qū)域?qū)W習(xí)到的情感特征并不完全相同的,因此二者對于圖像的情感表達(dá)缺一不可。近年來,由于注意力機(jī)制擁有能在海量信息中篩選出重要信息并聚焦定位信息和加強(qiáng)局部區(qū)域的情感特征表示等特點(diǎn),使其在深度學(xué)習(xí)領(lǐng)域被廣泛應(yīng)用,同時(shí)也取得了令人鼓舞的成果。但單一注意力模塊無法充分捕捉不同表情中的所有微妙而復(fù)雜的變化,因此在綜合考慮整體和局部協(xié)同關(guān)系后,提出了多層交叉注意力網(wǎng)絡(luò),即引入多頭CBAM(convolutional block attention module)注意力模塊。由于在特征提取的過程中,隨著網(wǎng)絡(luò)層數(shù)的增加,不同層的特征圖呈現(xiàn)不同的特點(diǎn)。淺層神經(jīng)網(wǎng)絡(luò)易保留更多邊緣環(huán)境信息,深層神經(jīng)網(wǎng)絡(luò)則會保留更多的情感信息。由此將融合通道和空間注意力的思想從卷積的最高層擴(kuò)展到每一層,加強(qiáng)對空間與通道的關(guān)注,同時(shí)激活多個(gè)不重疊的注意力區(qū)域,捕獲來自不同層和不同區(qū)域的關(guān)鍵特征,從而提升網(wǎng)絡(luò)的特征表達(dá)能力。多層交叉注意力網(wǎng)絡(luò)具體結(jié)構(gòu)如圖3~圖5所示。

圖3 交叉注意力網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Structure of cross-attention network

圖4 通道注意力網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Structure of channel attention network

圖5 空間注意力網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 Structure of spatial attention network

通道注意力聚焦在“什么”是有意義的輸入圖像,而空間注意力聚焦在“哪里”具有重要情感特征,是對通道注意力的補(bǔ)充。從空間的角度來看,通道注意力是全局的,而空間注意力是局部的,因此交叉注意力網(wǎng)絡(luò)是通道注意力和空間注意力模型的組合[18]。在多層交叉注意力網(wǎng)絡(luò)中,通道注意力模塊先接收來自預(yù)處理的圖像作為輸入特征,利用最大池化與平均池化同時(shí)對輸入特征維度進(jìn)行壓縮,再通過由多層感知器組成的共享網(wǎng)絡(luò),合并形成通道注意力圖;然后空間注意力模塊接收來自通道注意力模塊的輸入特征,依次利用最大池化與平均池化進(jìn)行空間特征提取,獲得空間注意力特征;經(jīng)過交叉注意力網(wǎng)絡(luò)后,新特征圖結(jié)合了通道和空間維度上的注意力權(quán)重,提升了各特征在通道和空間上的相關(guān)性,更有利于提取人臉的有效特征。最后將通道注意力圖與空間注意圖放入后續(xù)的注意力融合網(wǎng)絡(luò)模塊中進(jìn)行融合。

1.4 注意力融合網(wǎng)絡(luò)

雖然多層交叉注意力網(wǎng)絡(luò)生成的注意力圖能夠捕捉各種區(qū)域的特征,但仍然是無序的。為解決這個(gè)問題,提出了注意力融合網(wǎng)絡(luò)。首先通過log-softmax函數(shù)縮放注意力圖來強(qiáng)調(diào)最感興趣和最重要的區(qū)域;其次提出了一種分區(qū)損失來指導(dǎo)多層次交叉注意力聚焦在不同的關(guān)鍵區(qū)域,避免重疊注意力,造成計(jì)算量的消耗;然后通過引入改進(jìn)的Focal損失函數(shù)解決數(shù)據(jù)集存在類別樣本不平衡問題;最后統(tǒng)一將其進(jìn)行歸一化,最終形成了注意力的融合[19-20]。

為了縮放注意力圖,因此需要定義一個(gè)縮放函數(shù)。假設(shè)x屬于k×c的向量空間,即x∈Rk×c,xi為注意力圖的第i個(gè)向量,那么縮放函數(shù)為

(8)

為了將注意力圖之間的差異最大化,考慮將交叉注意力作為自適應(yīng)調(diào)整的損失值下降速度的參數(shù),因此將分區(qū)損失定義為

(9)

針對數(shù)據(jù)集類別樣本不平衡這個(gè)問題,引入改進(jìn)的 Focal 損失函數(shù)進(jìn)行加權(quán),有助于提升情感分類模型的訓(xùn)練效率,其具體計(jì)算公式[21]為

L3=-α(1-p)γlnp

(10)

式(10)中:聚焦參數(shù)γ為一個(gè)大于0的超參數(shù),最優(yōu)值通過實(shí)驗(yàn)獲得,其作用是通過(1-p)γ項(xiàng)來調(diào)節(jié)置信樣本在總損失中的權(quán)重,p為相應(yīng)概率值。平衡參數(shù)α同樣是一個(gè)超參數(shù),由網(wǎng)格搜索方法得到最優(yōu)值,其作用是控制正負(fù)樣本在總損失的權(quán)重,平衡不同類別樣本的數(shù)量。

為了將各損失函數(shù)進(jìn)行統(tǒng)一融合,設(shè)計(jì)了權(quán)值融合策略為

L=λ1L1+λ2L2+λ3L3

互聯(lián)網(wǎng)是經(jīng)濟(jì)發(fā)展的重要助推力,也是企業(yè)財(cái)務(wù)信息化建設(shè)的技術(shù)支撐性力量,互聯(lián)網(wǎng)背景下的企業(yè)財(cái)務(wù)管理特點(diǎn)包括如下三點(diǎn):

(11)

式(11)中:L1為特征相關(guān)性分析中的損失函數(shù);L2為分區(qū)損失函數(shù);L3為Focal損失函數(shù);λ1、λ2和λ3為L1、L2和L3的平衡因子,系數(shù)越大,代表權(quán)重越大。

1.5 多層交叉注意力融合網(wǎng)絡(luò)算法

多層交叉注意力融合網(wǎng)絡(luò)包括:輸入層、人臉圖像預(yù)處理層、特征相關(guān)性分析層、多層交叉注意力網(wǎng)絡(luò)層、注意力融合層、線性層、正則化層和輸出層。算法步驟如下:

步驟1獲取數(shù)據(jù)集,將數(shù)據(jù)集中的人臉圖像X輸入,其中Xi表示這張圖像的第i個(gè)特征。即

X=[X1,X2,…,Xn]

(12)

步驟2將輸入層的圖像進(jìn)行預(yù)處理,提取關(guān)鍵特征,用向量T表示為

T=[T1,T2,…,Tn]

(13)

步驟3將預(yù)處理后得到的特征向量T作為輸入矩陣,在多層交叉注意力融合網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,經(jīng)過特征相關(guān)性分析層、多層交叉注意力網(wǎng)絡(luò)層、注意力融合層后,得到圖像向量表示為F。

步驟4利用線性層對特征進(jìn)行處理,再通過正則化層穩(wěn)定網(wǎng)絡(luò)。

步驟5輸出人臉圖像X對應(yīng)的多標(biāo)簽情感分類預(yù)測準(zhǔn)確率(accuracy)和ROC(receiver operating characteristic curve)曲線。

多層交叉注意力融合網(wǎng)絡(luò)算法框圖如圖6所示。

圖6 多層交叉注意力網(wǎng)絡(luò)算法框圖Fig.6 Block diagram of multi-layer cross-attention network algorithm

多層交叉注意力融合網(wǎng)絡(luò)首先采用旋轉(zhuǎn)、翻轉(zhuǎn)、裁剪、縮放、擴(kuò)充和K-means人臉對齊等手段進(jìn)行預(yù)處理,不僅最大限度地簡化數(shù)據(jù),同時(shí)增強(qiáng)模型提取特征的可靠性。其次利用Center Loss+Softmax Loss進(jìn)行特征相關(guān)性分析,兼顧了類內(nèi)聚合與類間分離,且在保留信息量的同時(shí)減少了特征的數(shù)量。再次將通道注意力與空間注意力交替組成交叉注意力網(wǎng)絡(luò),從卷積的最高層擴(kuò)展到每一層,加強(qiáng)對空間與通道的關(guān)注,提升整體與局部特征的表達(dá)能力。然后通過注意力融合網(wǎng)絡(luò)對各種注意力進(jìn)行有序融合,避免因注意力重疊導(dǎo)致的計(jì)算量的消耗的同時(shí),將注意力定位在最感興趣和最重要部位。最后將融合后的結(jié)果通過線性化層與正則化層,加快網(wǎng)絡(luò)的訓(xùn)練和收斂的速度,最終利用Softmax分類器輸出分類結(jié)果。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

本文的實(shí)驗(yàn)平臺與環(huán)境配置如表1所示。

表1 實(shí)驗(yàn)平臺與環(huán)境Table 1 Experimental platform and environment

為了評估本文多層交叉注意力融合網(wǎng)絡(luò)模型情感分析的效果,采用網(wǎng)絡(luò)上公開的數(shù)據(jù)集RAF-DB對模型的有效性與優(yōu)越性進(jìn)行驗(yàn)證,數(shù)據(jù)來源于http://www.whdeng.cn/raf/model1.html。此數(shù)據(jù)集是一個(gè)大規(guī)模的面部表情數(shù)據(jù)庫,發(fā)布于2017年,包含總共29 672 張圖片,其中7個(gè)基本表情和12個(gè)復(fù)合表情,而且每張圖還提供了年齡范圍和性別標(biāo)注?;诒姲⑨專繌垐D像都由大約40個(gè)注釋者獨(dú)立標(biāo)記。實(shí)驗(yàn)過程中將人臉圖像數(shù)據(jù)集按照5∶1的比例劃分為訓(xùn)練集和驗(yàn)證集,其中標(biāo)簽分為驚喜、害怕、厭惡、開心、傷心、生氣和中立等7個(gè)大類。數(shù)據(jù)集中部分圖像如圖7所示。

圖7 數(shù)據(jù)集示例圖像圖Fig.7 sample image of the dataset

2.2 實(shí)驗(yàn)參數(shù)設(shè)置

多層交叉注意力融合網(wǎng)絡(luò)模型采用ResNet-18作為主干網(wǎng)絡(luò),其中模型的主要參數(shù)包括學(xué)習(xí)率、Batch_size、epoch、Num attention heads、激活函數(shù)、優(yōu)化器等,在控制其他參數(shù)相互保持固定的情況下,依次改變各參數(shù)的數(shù)值,以得到模型的最優(yōu)參數(shù)。最終多層交叉注意力融合網(wǎng)絡(luò)模型具體參數(shù)設(shè)置如表2所示。

表2 多層交叉注意力融合網(wǎng)絡(luò)模型參數(shù)設(shè)置Table 2 Parameter Settings of multi-layer cross-attention fusion network model

2.3 實(shí)驗(yàn)效果評估與分析

2.3.1 實(shí)驗(yàn)效果評估

使用混淆矩陣統(tǒng)計(jì)分類結(jié)果,如表3所示。其中TP表示預(yù)測為正例的正例樣本數(shù)量,F(xiàn)N表示預(yù)測為負(fù)例的正例樣本數(shù)量,F(xiàn)P表示預(yù)測為正例的負(fù)例樣本數(shù)量,TN表示預(yù)測為負(fù)例的負(fù)例樣本數(shù)量。

表3 分類結(jié)果的混淆矩陣Table 3 Confusion matrix of classification results

在圖像情感分析任務(wù)中,每個(gè)樣本可以有一個(gè)或多個(gè)標(biāo)簽,一般情況下,每個(gè)標(biāo)簽對應(yīng)兩個(gè)類別。在綜合考慮各種因素后,采用準(zhǔn)確率與ROC曲線為模型分類效果的評價(jià)指標(biāo)。

準(zhǔn)確率(accuracy,Acc)的計(jì)算公式為

(14)

真正類率(TPR)的計(jì)算公式為

(15)

假正類率(FPR)和計(jì)算公式為

(16)

準(zhǔn)確率是預(yù)測正確的結(jié)果占總樣本的百分比,能反映模型總體的預(yù)測準(zhǔn)確程度。ROC曲線是一種直觀用于評價(jià)模型分類能力的曲線,其縱軸代表真正類率(ture positive rate,TPR),即分類器預(yù)測的正類中實(shí)際正例占所有正例的比例;橫軸代表假正類率(false positive rate,FPR),即分類器預(yù)測的正類中實(shí)際負(fù)例占所有負(fù)例的比例。

2.3.2 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)的訓(xùn)練集與驗(yàn)證集必不可少。訓(xùn)練集是模型擬合的數(shù)據(jù)樣本,在訓(xùn)練過程中對訓(xùn)練誤差進(jìn)行梯度下降和學(xué)習(xí)。驗(yàn)證集是模型訓(xùn)練過程中單獨(dú)留出的樣本集,用于調(diào)整模型的超參數(shù)與評估模型。實(shí)驗(yàn)中將數(shù)據(jù)集的29 672張圖片按5∶1的比例隨機(jī)劃分成訓(xùn)練集和驗(yàn)證集,在上述實(shí)驗(yàn)環(huán)境下,統(tǒng)計(jì)多層交叉注意力融合網(wǎng)絡(luò)在訓(xùn)練集和驗(yàn)證集上的表現(xiàn)效果,最終訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率如表4所示。

從表4知多層次交叉注意力融合網(wǎng)絡(luò)在訓(xùn)練集和驗(yàn)證集中準(zhǔn)確率均達(dá)到88.5%以上,驗(yàn)證了本文方法的有效性。然而,由于訓(xùn)練集類別樣本不均衡,故在驗(yàn)證集上的表現(xiàn)不如訓(xùn)練集,因此解決樣本不均衡影響分類效果的問題仍需進(jìn)一步優(yōu)化。

表4 多層交叉注意力融合網(wǎng)絡(luò)模型實(shí)驗(yàn)結(jié)果Table 4 Experimental results of multi-layer cross-attention fusion network model

ROC曲線能直觀評價(jià)模型分類能力,ROC曲線越是靠近左上角,即ROC曲線越靠攏(0,1)點(diǎn),越偏離45°對角線,則模型的靈敏度越高,誤判率越低,該模型的性能越好,實(shí)驗(yàn)的ROC曲線如圖8所示。

圖8 實(shí)驗(yàn)的ROC曲線圖Fig.8 ROC curve of the experiment

從圖8中可以明顯看出每一條曲線均非常靠近左上角(0,1)點(diǎn)且偏離45°對角線,表明該模型靈敏度很高,且對數(shù)據(jù)集中的七種情緒分類較為準(zhǔn)確,再次驗(yàn)證該模型方法的有效性。

2.4 消融實(shí)驗(yàn)與對比實(shí)驗(yàn)

2.4.1 消融實(shí)驗(yàn)

為了明確各個(gè)網(wǎng)絡(luò)模塊對最終分類性能的影響,利用RAF-DB數(shù)據(jù)集在原先的實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)參數(shù)下進(jìn)行消融實(shí)驗(yàn),測試驚喜、害怕、厭惡、開心、傷心、生氣和中立等7種情緒的最優(yōu)準(zhǔn)確率。

多層交叉注意力融合網(wǎng)絡(luò)模型主要由圖像預(yù)處理模塊、特征相關(guān)性分析模塊、多層交叉注意力網(wǎng)絡(luò)模塊、注意力融合模塊組成,由于圖像預(yù)處理對本文模型是必要的,因此保留預(yù)處理模塊,然后分別刪除其余模塊進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。

表5 RAF-DB數(shù)據(jù)集消融實(shí)驗(yàn)結(jié)果Table 5 Ablation experiment results of RAF-DB data set

從表5中可以看出,當(dāng)刪除其中任何一個(gè)模塊時(shí),與完整網(wǎng)絡(luò)相比,最優(yōu)準(zhǔn)確率均有一定程度的下降。當(dāng)沒有特征相關(guān)性分析模塊,準(zhǔn)確率下降了1.31%;沒有注意力融合模塊,準(zhǔn)確率下降了0.39%;尤其是沒有多層次交叉注意力模塊的情況下,準(zhǔn)確率下降了2.12%,下降比例最大。實(shí)驗(yàn)結(jié)果表明每個(gè)模塊對最終輸出結(jié)果上都有一定的促進(jìn)作用,同時(shí)也確立了多層次交叉注意力模塊在整個(gè)網(wǎng)絡(luò)模型中的核心地位。

2.4.2 對比實(shí)驗(yàn)

為了評估模型的性能,本文列舉了當(dāng)下先進(jìn)的5種研究情感分析模型與之進(jìn)行對比。

Separate-Loss[22]:為了提高學(xué)習(xí)特征的判別能力,基于主干網(wǎng)絡(luò)ResNet-18,使用隨機(jī)梯度下降算法進(jìn)行訓(xùn)練,提出了一種新的基本與復(fù)合面部表情識別的單獨(dú)損失,利用Separate-Loss與Softmax Loss共同優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)模型,最終的特征具有類內(nèi)緊密性與類間分離性的優(yōu)點(diǎn)。

DDA-Loss[23]:考慮到最大化嵌入空間中的類內(nèi)相似性和類間分離,基于隨機(jī)梯度下降算法訓(xùn)練的主干網(wǎng)絡(luò)ResNet-18,提出了一種新的判別分布不可知損失(discriminant distribution-agnostic loss,DDA)來優(yōu)化極端類別不平衡場景的嵌入空間,任何卷積神經(jīng)網(wǎng)絡(luò)模型都可以使用 DDA 損失進(jìn)行訓(xùn)練,以在嵌入空間中產(chǎn)生分離良好的深度特征簇。

DACL[24]:由于顯著的類內(nèi)變化和類間相似性,所以提出了一種深度注意力中心損失(deep attentive center loss,DACL)方法來自適應(yīng)地選擇重要特征元素的子集以增強(qiáng)辨別力,該方法采用ResNet-18作為主干網(wǎng)絡(luò),由注意力網(wǎng)絡(luò)和稀疏中心損失組成的模塊化DACL方法使用標(biāo)準(zhǔn)隨機(jī)梯度下降算法進(jìn)行訓(xùn)練,能迅速應(yīng)用于任何最先進(jìn)網(wǎng)絡(luò)和深度度量學(xué)習(xí)方法。

IF-GAN[25]:由身份相關(guān)的面部屬性(例如年齡、種族和性別)引起的高主體間差異問題,提出了一種新的無身份條件生成對抗網(wǎng)絡(luò)(identity-free conditional generative adversarial network,IF-GAN)。該方法在ResNet-101主干網(wǎng)絡(luò)上加入自注意力機(jī)制提取關(guān)鍵特征,是一個(gè)端到端的網(wǎng)絡(luò),能通過直接移動(dòng)身份信息為無身份(facial expression recognition,F(xiàn)ER)生成人臉圖像。

EfficientFace[26]:考慮到大多數(shù)情緒以基本情緒的組合、混合或復(fù)合形式出現(xiàn),引入了一種簡單但有效的標(biāo)簽分布學(xué)習(xí)(label distribution learning,LDL)方法作為一種新穎的訓(xùn)練策略。該方法采用了由Conv1、Stage2、Stage3、Stage4和Conv5組成的最先進(jìn)的輕量級ShuffleNet-V2作為主干網(wǎng)絡(luò),并設(shè)計(jì)了局部特征提取器和通道空間調(diào)制器,增強(qiáng)了模型魯棒性,并顯著提升了性能。

為了進(jìn)行公平的比較,統(tǒng)一使用相同的數(shù)據(jù)集,都沒有進(jìn)行人工標(biāo)注。最終對比結(jié)果如表6所示。

從表6給出的本文方法與另外5種情感分析方法的比較結(jié)果中,可以看出這些方法準(zhǔn)確率都為85%~88%,而本文方法取得了最好的效果,其準(zhǔn)確率達(dá)到了88.53%,比Separate-Loss方法提升了2.15%,比DDA-Loss方法提升了1.63%,比DACL方法提升了0.75%,比IF-GAN方法提升了0.2%,比EfficientFace模型提升了0.17%,驗(yàn)證了本文提出方法的優(yōu)越性。

表6 各種網(wǎng)絡(luò)模型方法性能對比Table 6 Performance comparison of various network model methods

3 結(jié)論

綜合考慮圖像整體和局部的關(guān)系,提出了一種多層交叉注意力融合網(wǎng)絡(luò)模型分析方法,該方法主要由圖像預(yù)處理模塊、特征相關(guān)性分析模塊、多層交叉注意力網(wǎng)絡(luò)模塊、注意力融合模塊等組成。首先將圖像預(yù)處理,然后利用特征相關(guān)性分析模塊同時(shí)兼顧類內(nèi)聚合與類間分離,從而實(shí)現(xiàn)了最大化類的可分性,再將多頭的通道-空間注意力機(jī)制嵌入到每一層網(wǎng)絡(luò)中,最后將提取的注意力圖進(jìn)行融合,從而使得提取的特征更加有效全面,最終在RAF-DB數(shù)據(jù)集上驗(yàn)證了本文提出的方法的有效性與優(yōu)越性。在下一步的工作中,考慮針對樣本不均衡問題設(shè)計(jì)出更合理的特征提取網(wǎng)絡(luò),通過深度學(xué)習(xí)的方法更精確地挖掘動(dòng)態(tài)視覺圖像中的整體和局部全方面的情感特征,以進(jìn)一步提高視覺情感分析的效果。

猜你喜歡
人臉交叉注意力
讓注意力“飛”回來
有特點(diǎn)的人臉
“六法”巧解分式方程
三國漫——人臉解鎖
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
連一連
基于Fast-ICA的Wigner-Ville分布交叉項(xiàng)消除方法
馬面部與人臉相似度驚人
長得象人臉的十種動(dòng)物
奇聞怪事(2014年5期)2014-05-13 21:43:01
疏附县| 吉木乃县| 贞丰县| 巧家县| 海南省| 孙吴县| 木里| 洪泽县| 黔西县| 山西省| 漯河市| 中超| 宜丰县| 吉首市| 乐山市| 石阡县| 定日县| 久治县| 瑞丽市| 紫云| 大名县| 陇南市| 青海省| 丹寨县| 临桂县| 岑溪市| 永福县| 定襄县| 西安市| 金寨县| 本溪| 中牟县| 藁城市| 太康县| 南华县| 吉林省| 德令哈市| 桦甸市| 卢龙县| 彩票| 黄平县|