基于混合注意力機制的視頻序列表情識別

2023-10-29 01:50李金海

計算機仿真 2023年9期

李金海,李俊

(1. 桂林電子科技大學電子工程與自動化學院,廣西桂林 541004;2. 桂林電子科技大學計算機與信息安全學院,廣西桂林541004)

1 引言

表情能傳遞人類的情緒、心理和身體狀態(tài)信息。研究表情自動識別技術(shù)能夠有效地輔助人工智能機器分析判斷人類的情緒,近年來該研究廣泛應用于智能教育[1]、交通安全[2]、醫(yī)療[3]等領域,使得許多學者逐漸開始關注動態(tài)表情識別方面的研究。

傳統(tǒng)的視頻表情識別算法主要有LBP-TOP[4]與光流法[5]等,這些手工提取特征的方法很大程度上依賴于特定的任務,且這些方法都具有缺乏泛化性與穩(wěn)定性的特點。

近幾年來,隨著人工智能的迅猛發(fā)展,許多深度學習方法應用在表情識別領域上,并且識別精度比手工提取特征方法有很大提升?，F(xiàn)階段主要有級聯(lián)網(wǎng)絡[6]、三維卷積神經(jīng)網(wǎng)絡[7]、多網(wǎng)絡融合[8]等方法對視頻表情進行識別。以上方法對特征的提取具有一定的隨意性,且忽略了對表情峰值幀的關注,而表情在變化過程中表情峰值幀往往具有更多判別性的特征。此外,深度學習方法在訓練模型時候要有大規(guī)模的數(shù)據(jù)量支撐。而表情識別任務中可靠的數(shù)據(jù)集規(guī)模較小,在該類數(shù)據(jù)集上直接訓練會導致模型出現(xiàn)過擬合現(xiàn)象。

本文提出了一種混合注意力模型。該模型在通道維度上能有效地增強與表情相關性高的通道信息,時間維度上給予表情峰值幀更多的關注,以此增強網(wǎng)絡提取有效特征的能力。數(shù)據(jù)集方面通過數(shù)據(jù)增強,增加訓練樣本數(shù)量,解決數(shù)據(jù)集規(guī)模小的問題。最后通過對比結(jié)果驗證本文方法能夠明顯提高識別準確率。

2 基于混合注意力機制的表情識別模型

本文提出了一種基于混合注意力機制的時空網(wǎng)絡對視頻中的臉部表情進行分類。模型主要包括了三部分:空域子網(wǎng)絡、時域子網(wǎng)絡和混合注意力模塊。

2.1 空域子網(wǎng)絡

空域子網(wǎng)絡中,通過VGG16網(wǎng)絡中的卷積層和池化層來學習人臉各類表情的空域特征。本文對VGG16網(wǎng)絡進行了修改,首先是保留VGG16的卷積層部分,并使用自適應平均池化(Adaptive average Pooling,APP)代替原始網(wǎng)絡中的全連接層。其中自適應平均池化層的池化窗口(kernel size)大小為4*4,滑動步長(Padding)為4,經(jīng)過池化層的操作實現(xiàn)特征降維。最終得到的特征向量的通道數(shù)(channel)為512,大小為1*1的特征圖。

表1 改進的VGG16結(jié)構(gòu)

2.2 時域子網(wǎng)絡

對于視頻幀中的表情識別,需要觀察表情和時間變化之間的關系。由于VGG神經(jīng)網(wǎng)絡對于時序變化的表達能力不足,因此需要引入其它網(wǎng)絡來解決該問題。長短時記憶網(wǎng)絡能夠通過隱藏狀態(tài)來記錄先前序列的內(nèi)容,從而解決時序問題。

GRU網(wǎng)絡中重置門rt與更新門zt(t代表當前時刻)具有重要要作用,如圖1所示。rt與zt都能接收當前時刻輸入xt和先前時刻隱藏層狀態(tài)ht-1輸入,對應的權(quán)值分別是Wr與Wz。根據(jù)圖1的GRU內(nèi)部結(jié)構(gòu)圖,網(wǎng)絡的主要操作過程如下式所示

圖1 GRU內(nèi)部結(jié)構(gòu)

(1)

模型訓練過程中,將一組序列中的視頻幀當成一批次輸入,空域子網(wǎng)絡提取該批次的特征再經(jīng)過AAP層,得到n個大小為1*1,通道數(shù)為512的特征向量。然后把這些向量輸入時域子網(wǎng)絡里,GRU讀取視頻的時間變化獲得大小為n×512特征矩陣,隨后將特征矩陣進行平鋪處理成1×512n的特征矩陣,最后輸入到混合注意力模塊中。

2.3 混合注意力模塊

本文設計的混合注意力主要為了有效提取通道特征與表情變化的時間特征。通道注意力采用自學習的方式獲得各個特征通道的權(quán)重,并按照權(quán)重大小增強對表情分類有用的通道,抑制非相關的通道,提高了網(wǎng)絡對顯著性特征的提取性能。時間注意力通過判別幀間的表情強度,賦予表情強度大的視頻幀更高的權(quán)重,使網(wǎng)絡更關注于表情峰值幀。根據(jù)文獻[9]的實驗原理,本文將兩個注意力模塊按照串聯(lián)的方式排列。設計完成后混合注意力如圖2所示。

圖2 混合注意力模塊

2.3.1 通道注意力原理

通道注意力主要有激勵和特征通道賦值這兩個過程。其中激勵操作的原理如式(2)所示

s=Fex(ht,WcATT)=δ(WcATT2σ(WcATT1ht))

(2)

其中ht為序列表情的時空特征,δ與σ為ReLU激活函數(shù)和Sigmoid激活函數(shù),Fex為激勵處理,WcATT1、WcATT2分別代表通道注意力中兩個全連接層的權(quán)值。激勵操作中,先采用第一個全連接層WcATT1與時空特征ht相乘,WcATT1的維度是C/r*C,r表示縮減倍數(shù),即為了減少運算量,對原特征通道總數(shù)進行壓縮,根據(jù)文獻[10],r取16。此時WcATT1ht的維度為[1,1,C/r]。激活函數(shù)使用ReLU函數(shù),保持輸出維度不變;隨后經(jīng)過全連接處理,將結(jié)果和WcATT2相乘,并利用sigmoid激活函數(shù)進行非線性轉(zhuǎn)換。得到數(shù)值范圍為0到1的通道權(quán)重值sc。此時sc的維度大小為[1,1,C]。最后進行特征通道賦值操作,即將權(quán)重sc與注意力機制前的時空特征ht進行相乘,通道賦值公式如式所示

(3)

通道賦值中,對應的權(quán)值sc表示為各個特征通道對表情的相關性大小。模型訓練時,通過sc的大小對相應的特征進行增強或者抑制。通過這種方式,能夠?qū)崿F(xiàn)對最具鑒別性表情特征的聚焦,提升模型的性能。

2.3.2 時間注意力原理

在視頻序列的識別任務中,并不是每一時刻的表情都對識別的貢獻相同。因此本文提出一種時間注意力機制,賦予表情峰值幀更多的權(quán)重,以生成更有判別性的特征。在時間注意力中,提出了一種比較幀強度的方法,即通過一個全連接層,將每個幀特征映射為時間注意力分數(shù)。公式如下

(4)

式中,WtAtt為時間注意力模塊中可學習的參數(shù)矩陣。ut表示序列第t幀圖片時間注意力分數(shù);然后,通過Softmax函數(shù)歸一化每幀的注意力分數(shù)

(5)

(6)

最后,使用兩個全連接層降維,并使用Softmax函數(shù)分類得出六種表情結(jié)果。

3 實驗與分析

3.1 表情數(shù)據(jù)集預處理

為了驗證本文算法在視頻序列表情識別的效果,本文選取了公開主流數(shù)據(jù)庫:CK+數(shù)據(jù)庫與Oulu-CASIA數(shù)據(jù)庫。

在實驗過程中使用dlib庫提供的人臉檢測器對眼睛、眉毛、鼻子、嘴巴和面部輪廓在內(nèi)的68個人臉關鍵點進行檢測。利用68個點位置,計算臉部中間點的信息。根據(jù)視頻第一幀的位置信息,利用仿射變換矩陣調(diào)整后續(xù)圖像,使后續(xù)人臉臉部對齊。最后將臉部圖片裁剪成64x64尺寸,圖3為裁剪后的表情圖像。

圖3 部分裁剪后圖像樣本

由于兩個數(shù)據(jù)集中序列表情圖片較少,為了保證模型的泛化性與魯棒性,本文實驗對數(shù)據(jù)集采取了數(shù)據(jù)擴充的方法。具體地,首先將裁剪到的所有人臉區(qū)域圖片進行水平反轉(zhuǎn)得到翻轉(zhuǎn)圖像數(shù)據(jù)集;然后,將原數(shù)據(jù)集與反轉(zhuǎn)圖像數(shù)據(jù)集分別偏移-10°、-5°、5°、10°得到偏移數(shù)據(jù)集,最后獲得10倍于原先的實驗數(shù)據(jù)量。因為各個視頻的幀數(shù)都不同,而模型的輸入維度是不變的,因此對CK+與Oulu-CASIA中每個表情視頻序列均從起始幀按照時間序列連續(xù)采樣16幀,作為神經(jīng)網(wǎng)絡的輸入。此外,如果視頻序列幀數(shù)少于16幀的長度,則復制最后一幀直至每個序列變?yōu)槠骄L度。

3.2 實驗設置

本文實驗軟件框架為Pytorch1.8.1。實驗在訓練時采用隨機梯度下降法優(yōu)化模型在模型訓練時,CK+的訓練集損失函數(shù)變化情況如圖4所示,當?shù)?50個epoch后,損失函數(shù)已基本收斂,損失函數(shù)值接近0.1,因此實驗中epoch取160。為了能更好地體現(xiàn)出算法的實驗效果,本次實驗使用十折交叉驗證方法得到最后的準確率。

圖4 CK+訓練損失函數(shù)圖

3.3 消融實驗

為了體現(xiàn)加入了混合注意力機制的效果提升,對其進行了消融實驗。其中,Baseline是指改進的VGG16與GRU的級聯(lián)網(wǎng)絡,CA代表通道注意力模塊,TA代表時間注意力模塊,HA代表CA與TA相結(jié)合的混合注意力模塊。

表2為消融實驗中各個模型的準確率。單獨加入通道注意力模塊與單獨加入時間注意力的網(wǎng)絡在兩個主流數(shù)據(jù)集上所得的準確率相對于Baseline都有明顯的提高。

表2 各個模型準確率

對于CK+數(shù)據(jù)集,單個時間與單個通道注意力模塊的加入分別比Baseline提高0.95%和1.41%。在Oulu-CASIA的實驗中,分別提高了1.69%與4.76%。由此可得,通道注意力的性能略優(yōu)于時間注意力的識別性能,說明在視頻表情識別中全局通道維度比全局時間維度提供更多的信息。此外,Baseline-HA模型在CK+與Oulu-CASIA的準確率分別比Baseline高出2.47%和6.75%,這表明混合注意力模塊能夠有效地將兩個注意力模塊的性能進行互補,不僅能夠在視頻序列中給予表情峰值幀更多的關注,而且能抑制無關通道干擾,提取更具顯著性的臉部紋理特征。

3.4 混淆矩陣分析

圖5與圖6展示了本文方法在兩個數(shù)據(jù)集上的混淆矩陣。混淆矩陣的行表示當前表情的真正類別,列為模型的分類表情。不難得知,CK+數(shù)據(jù)庫的整體表情識別準確率比Oulu-CASIA的要高,這是因為CK+中大多數(shù)為清晰的人物正臉圖像;而Oulu-CASIA中圖像分辨率不夠高,而且部分人物有眼鏡和圍巾的遮擋,導致識別率較低。

圖5 CK+識別結(jié)果混淆矩陣

圖6 Oulu-CASIA識別結(jié)果混淆矩陣

比較兩個混淆矩陣的數(shù)據(jù)可知,文中模型對驚訝與開心兩個表情取得了優(yōu)異的識別效果。模型對于生氣和害怕兩個表情識別性能較弱,主要原因是,數(shù)據(jù)集中害怕與驚訝大部分都是瞪眼和張嘴的動作,而生氣與悲傷都伴隨著鎖眉和撇嘴的動作。具體而言,表情的相似導致模型出現(xiàn)混淆分類的情況。

3.5 與現(xiàn)有方法對比

表3展示了本文所提模型與其它主流模型在所選數(shù)據(jù)集上實驗的對比結(jié)果。

表3 不同方法的準確率對比

從中可得,本文所提出模型對CK+與Oulu-CASIA這兩個數(shù)據(jù)集的識別準確率僅次于MGLN-GRU,而優(yōu)于其它方法。值得注意的是,本文模型只關注于表情特征,而識別準確率高于同時利用表情特征和幾何路標點的PHRNN-MSCNN。而MGLN-GRU利用復雜的多任務模型實現(xiàn)了99.08%與90.40%的識別率,比文中模型分別高了0.38%和1.25%,但是MGLN-GRU模型與本文的實驗設置不同,該模型的輸入是選取視頻序列的第一幀、中間幀和最后一幀來表示表情演化,這種離散幀的識別方法會造成峰值信息缺失。本文提出模型將視頻的連續(xù)多幀作為輸入,使文中模型注重于連續(xù)幀之間的表情依賴性,較好地適應了表情強度的變化,更符合現(xiàn)實生活人臉表情變化過程。

4 結(jié)束語

本文設計了一種混合注意力機制視頻序列表情識別模型。該方法的主體為改進的卷積神經(jīng)網(wǎng)絡與GRU網(wǎng)絡的級聯(lián)網(wǎng)絡,可以提取序列時空信息的同時減少特征提取的計算量。其次,提出了由通道與時間注意力組成的混合注意力模塊,更關注于表情峰值幀中與表情相關性高的特征通道。通過數(shù)據(jù)擴充方法,解決目前表情數(shù)據(jù)規(guī)模較小的難題,保證模型的泛化性。實驗結(jié)果表明,嵌入混合注意力模塊使得模型在CK+與Oulu-CASIA兩個數(shù)據(jù)集上的識別準確率分別提高2.47%與6.79%。最后,通過與其它研究方法對比,該模型在表情識別準確率有明顯優(yōu)勢。驗證了本文提出的方法能夠有效地提取最具表達能力的特征,提高識別準確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡