国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于層次注意力機(jī)制的維度情感識(shí)別方法

2020-06-18 03:41湯宇豪毛啟容高利劍
計(jì)算機(jī)工程 2020年6期
關(guān)鍵詞:人臉音頻注意力

湯宇豪,毛啟容,高利劍

(江蘇大學(xué) 計(jì)算機(jī)科學(xué)與通信工程學(xué)院,江蘇 鎮(zhèn)江 212013)

0 概述

情感是人類行為和思考的一種狀態(tài),隨著人工智能技術(shù)的不斷發(fā)展,人們更多地希望改變智能機(jī)器客觀、冷靜的特性,并進(jìn)行深度開發(fā)使其具備人類一樣的情感與思維,提供更人性化的服務(wù)。美國(guó)麻省理工學(xué)院PICARD教授根據(jù)情感在人類認(rèn)知、決策、行動(dòng)選擇和語(yǔ)言學(xué)習(xí)等方面所起到的關(guān)鍵作用,于1997年提出了“情感計(jì)算”[1]的概念,其目的是通過(guò)賦予計(jì)算機(jī)識(shí)別、理解、表達(dá)和適應(yīng)人的情感的能力來(lái)建立和諧人機(jī)環(huán)境,并使計(jì)算機(jī)具有更高更全面的智能。

隨著情感計(jì)算需求的不斷增加,需要識(shí)別的情感種類越來(lái)越多。傳統(tǒng)的離散情感識(shí)別模型因?yàn)榍楦蟹N類的局限性,在準(zhǔn)確率和魯棒性上達(dá)到了瓶頸。連續(xù)維度情感描述的是持續(xù)不斷的情感狀態(tài),主要利用維度情感空間對(duì)情感狀態(tài)進(jìn)行建模和描述。這種方法采用空間中連續(xù)的數(shù)值來(lái)描述情感狀態(tài),每個(gè)情感狀態(tài)對(duì)應(yīng)多維空間中的一個(gè)點(diǎn),每個(gè)維度對(duì)應(yīng)情感的心理學(xué)屬性,將描述情感階段變化的離散情感轉(zhuǎn)換為描述情感連續(xù)變化的維度情感。

本文提出一種層次注意力機(jī)制(Hierarchical Attention Mechanism,HAM)來(lái)學(xué)習(xí)音頻模態(tài)中的頻域信息和視頻模態(tài)中的人臉位置信息,并將兩者融合進(jìn)行維度情感識(shí)別。該模型分為視頻特征學(xué)習(xí)和層次注意力機(jī)制學(xué)習(xí)兩個(gè)部分,通過(guò)頻率注意力機(jī)制,計(jì)算音頻不同頻域?qū)η楦斜磉_(dá)的貢獻(xiàn)值并增強(qiáng)凸顯情感流露部分特征的影響力,根據(jù)多模態(tài)注意力機(jī)制,分別計(jì)算兩種模態(tài)對(duì)情感識(shí)別的貢獻(xiàn)值并進(jìn)行融合,以彌補(bǔ)單一模態(tài)信息表達(dá)不完整的缺陷。

1 相關(guān)工作

二維(arousal-valence)情感空間如圖1所示,其中,橫軸valence代表效價(jià)度,表示情感的積極與消極程度,縱軸arousal代表喚醒度,表示情感的激昂與低迷程度。通過(guò)設(shè)置效價(jià)度和喚醒度,可以表示出各種復(fù)雜細(xì)微的情感并加以區(qū)分,如欣喜若狂和怡然自樂(lè)描述了不同程度的愉悅之情,眉飛色舞和洋洋得意表達(dá)了兩個(gè)褒貶不同的喜悅。二維情感空間因?yàn)槠漭^簡(jiǎn)單的結(jié)構(gòu)和豐富的情感表達(dá)能力,成為目前維度情感識(shí)別主要采用的維度空間。

圖1 二維arousal-valence情感狀態(tài)空間示意圖

早期的連續(xù)維度情感識(shí)別方法主要采用手工特征結(jié)合傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行識(shí)別。文獻(xiàn)[2]采用手工方法提取人臉表情特征,結(jié)合最大似然分類、似然空間估計(jì)等概率空間分類方法以及隱馬爾科夫模型(Hidden Markov Models,HMM)實(shí)現(xiàn)維度情感識(shí)別。文獻(xiàn)[3]采用支持向量機(jī)(SVM)算法和k-近鄰(KNN)算法對(duì)比維度情感識(shí)別效果。

隨著深度學(xué)習(xí)的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)在維度情感識(shí)別領(lǐng)域得到應(yīng)用。文獻(xiàn)[4]使用手工方法和深度學(xué)習(xí)方法相結(jié)合的方式,首先將維度情感分為簡(jiǎn)單和復(fù)雜兩個(gè)等級(jí),使用隱馬爾科夫模型對(duì)情感進(jìn)行初步識(shí)別,然后在此基礎(chǔ)上采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BLSTM)學(xué)習(xí)時(shí)間上下文信息,識(shí)別效果優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法。文獻(xiàn)[5]采用時(shí)間池化的方式將多模態(tài)特征串在一起進(jìn)行特征層融合并使用LSTM進(jìn)行維度情感識(shí)別。文獻(xiàn)[6]對(duì)音頻和視頻模態(tài)分別使用BLSTM進(jìn)行識(shí)別,再運(yùn)用線性支持向量回歸(SVR)對(duì)識(shí)別結(jié)果進(jìn)行決策層融合。文獻(xiàn)[7]使用3D卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征上下文信息。雖然上述方法都取得了較好的效果,但是存在如下問(wèn)題:

1)未考慮到人臉區(qū)域凸顯情感表達(dá)的部分并不相同,如說(shuō)話人微笑時(shí),嘴部和眼部等凸顯情感的部分較人臉邊緣區(qū)域(頭發(fā)、耳朵等)對(duì)情感識(shí)別影響更大[8]。此外,音頻不同頻域之間對(duì)情感識(shí)別的效果也有差異,同等處理高頻和低頻的特征并不合理,如激動(dòng)時(shí),高頻域的特征相比于低頻域的特征更能凸顯此時(shí)的情感狀態(tài)。

2)不同模態(tài)對(duì)于情感狀態(tài)的影響程度是不同的,如說(shuō)話人沮喪時(shí),低沉的語(yǔ)調(diào)相比“面無(wú)表情”更能表征當(dāng)前的情感狀態(tài)。

3)已有模型所取得的高精確度主要源于數(shù)據(jù)庫(kù)提供的手工特征以及在訓(xùn)練和測(cè)試模型時(shí)投入了高額計(jì)算成本。因此,如何采用更合理的方法進(jìn)行多模態(tài)連續(xù)維度情感識(shí)別,成為當(dāng)前的一個(gè)挑戰(zhàn)。

近年來(lái),注意力模型在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)[9]基于注意力模型構(gòu)建了根據(jù)圖像生成主題的模型。文獻(xiàn)[10]提出基于CRNN與注意力機(jī)制相結(jié)合的語(yǔ)音識(shí)別模型。文獻(xiàn)[11]提出將雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和注意力模型相結(jié)合的視頻描述與語(yǔ)義分析的模型。其實(shí)注意力模型本質(zhì)上是一種資源分配模型,主要目的是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)更關(guān)鍵的信息,提高模型的性能。以計(jì)算機(jī)視覺(jué)中的注意力模型為例,特征學(xué)習(xí)的瓶頸在于需要對(duì)整體圖像處理[12],但是人類視覺(jué)只需要將視覺(jué)焦點(diǎn)集中在當(dāng)前感興趣的區(qū)域上,這一特點(diǎn)能夠有效地減少人類視覺(jué)系統(tǒng)的帶寬。因此,通過(guò)保留編碼器(CNN、LSTM等)對(duì)輸入序列的中間輸出結(jié)果,然后訓(xùn)練一個(gè)模型來(lái)對(duì)這些輸入進(jìn)行選擇性的學(xué)習(xí)并且在模型輸出時(shí)將輸出序列與之進(jìn)行關(guān)聯(lián)。相比于采用多層網(wǎng)絡(luò)疊加或者決策層進(jìn)行多模態(tài)融合的方式提高模型準(zhǔn)確率,注意力模型使用更加簡(jiǎn)潔的結(jié)構(gòu)學(xué)習(xí)對(duì)目標(biāo)有利的特征,并將結(jié)果傳遞到下一層網(wǎng)絡(luò)中進(jìn)一步學(xué)習(xí),簡(jiǎn)化了模型的復(fù)雜度,提升識(shí)別效果。

2 層次注意力機(jī)制維度情感識(shí)別方法

基于層次注意力機(jī)制(HAM)的多模態(tài)維度情感識(shí)別模型結(jié)構(gòu)如圖2所示,該模型主要分為視頻模態(tài)特征學(xué)習(xí)和層次注意力機(jī)制兩個(gè)階段。在模型訓(xùn)練階段,將訓(xùn)練視頻輸入到HAM模型中學(xué)習(xí)情感顯著特征,將訓(xùn)練音頻輸入到頻率注意力機(jī)制學(xué)習(xí)顯著頻域信息,然后利用多模態(tài)注意力機(jī)制將人臉特征和音頻特征融合。在模型測(cè)試階段,將測(cè)試視頻輸入到訓(xùn)練充分的HAM中,先提取人臉情感顯著特征,再進(jìn)行最終情感預(yù)測(cè)。本節(jié)首先對(duì)所提出的基于層次注意力機(jī)制維度情感識(shí)別模型進(jìn)行概述,然后詳細(xì)描述各個(gè)階段的學(xué)習(xí)過(guò)程。

圖2 基于層次注意力機(jī)制的多模態(tài)維度情感識(shí)別模型結(jié)構(gòu)

2.1 視頻情感顯著特征學(xué)習(xí)

首先通過(guò)視頻預(yù)處理,將視頻按照每0.04 s為一幀進(jìn)行截取,采用數(shù)據(jù)庫(kù)官方提供的人臉坐標(biāo)對(duì)每幀圖像中的人臉進(jìn)行截取,再將所有人臉圖片歸一化到相同尺寸。然后采用深度卷積神經(jīng)網(wǎng)絡(luò),包括VGG、ResNet和Inception對(duì)人臉圖片序列進(jìn)行特征學(xué)習(xí)。將深度卷積神經(jīng)網(wǎng)絡(luò)中的全連接層結(jié)構(gòu),改為三層全連接層,第1層包含1 024個(gè)節(jié)點(diǎn),第2層包含512個(gè)節(jié)點(diǎn),第3層包含64個(gè)節(jié)點(diǎn)。其中第1層、第2層全連接采用relu作為激活函數(shù),第3層全連接采用sigmoid作為激活函數(shù),主要目的是學(xué)習(xí)人臉特征中的高層特征,將特征中影響力較大的維度壓縮到接近1,影響力較小的維度壓縮到0.5,降低低層特征中的不穩(wěn)定性。

相比傳統(tǒng)方法中選取最后一層全連接層作為特征[13],本文采用最后一次卷積模塊所得到的特征圖作為人臉特征。全連接層是將池化后的特征拉直并進(jìn)行壓縮的過(guò)程,圖像的位置信息和通道信息都被打亂,使用注意力模型學(xué)習(xí)到的特征貢獻(xiàn)值只是形式化的參數(shù),缺乏理論實(shí)際意義。而特征圖則完整地保留了人臉的紋理和層次信息,如圖2人臉特征所示,注意力模型更容易根據(jù)標(biāo)簽學(xué)習(xí)到人臉中的情感顯著特征。特征圖可以更直觀地可視化出來(lái),隨著網(wǎng)絡(luò)深度的增加,特征圖會(huì)越來(lái)越稀疏,實(shí)驗(yàn)過(guò)程中相比于觀察最后的識(shí)別準(zhǔn)確率的變化,情感狀態(tài)遷移給特征圖帶來(lái)的變化更明顯。

2.2 層次注意力機(jī)制

本節(jié)首先通過(guò)音頻預(yù)處理,按照每0.04 s為一幀提取音頻頻譜圖。因?yàn)閱螏Z(yǔ)音頻譜圖展現(xiàn)的信息量較少,且缺乏上下文聯(lián)系[14],所以以當(dāng)前幀為基準(zhǔn),設(shè)置一個(gè)長(zhǎng)度為n的滑動(dòng)窗口,將前n-1幀音頻頻譜圖與當(dāng)前幀頻譜圖進(jìn)行拼接,作為當(dāng)前幀的特征輸入。然后滑動(dòng)窗口以步長(zhǎng)為1繼續(xù)向后滑動(dòng)采樣。假設(shè)當(dāng)前幀數(shù)少于n幀,比如第一幀,那么復(fù)制n-1次第一幀進(jìn)行補(bǔ)齊。由于前后幀與幀之間的變化較小,并且一般n取值小于10,因此不會(huì)對(duì)實(shí)驗(yàn)產(chǎn)生波動(dòng)性影響。

2.2.1 頻率注意力機(jī)制

如圖2所示,將提取好的單幀頻譜圖序列和整體頻譜圖分別輸入到兩個(gè)并行的三層卷積池化模塊中學(xué)習(xí)局部頻率信息和整體頻率信息。局部頻率信息模塊的輸出激活函數(shù)為sigmoid,把單幀頻譜圖特征值映射0~1之間,實(shí)際上這里的局部頻率學(xué)習(xí)過(guò)程就是注意力矩陣的學(xué)習(xí)過(guò)程,主要學(xué)習(xí)的是不同頻率之間特征的差異對(duì)整體頻率信息帶來(lái)的影響。將輸出的局部頻率特征進(jìn)行拼接,與整體頻率特征進(jìn)行對(duì)應(yīng)元素相乘,根據(jù)情感標(biāo)簽反向傳播,來(lái)對(duì)整體頻率特征中的各個(gè)維度進(jìn)行選擇性加強(qiáng)或者削弱。相比于只采用單幀音頻頻譜圖作為輸入,加入多幀頻譜圖可以使模型在特征學(xué)習(xí)階段學(xué)習(xí)時(shí)間上下文信息,同時(shí)學(xué)習(xí)到幀與幀之間在頻率上的差異,而不僅僅依賴于LSTM在后期進(jìn)行時(shí)序構(gòu)建。此外,傳統(tǒng)的注意力模型往往需要在原有網(wǎng)絡(luò)基礎(chǔ)上增加一個(gè)分支來(lái)提取注意力權(quán)重,并進(jìn)行單獨(dú)訓(xùn)練,本文中的頻率注意力機(jī)制在前向傳播的過(guò)程中利用頻率之間的差異性學(xué)習(xí)注意力矩陣,使得模型訓(xùn)練更加簡(jiǎn)單。

2.2.2 多模態(tài)注意力機(jī)制

將經(jīng)過(guò)頻率注意力機(jī)制處理過(guò)的音頻特征經(jīng)過(guò)全連接層輸入到LSTM中學(xué)習(xí)時(shí)間上下文信息。假設(shè)t時(shí)刻音頻特征為xt,前一時(shí)刻LSTM隱藏層輸出為ht-1,LSTM門控函數(shù)為f(),那么t時(shí)刻的隱藏層輸出定義為:

ht=f(ht-1,xt)

(1)

假設(shè)t時(shí)刻人臉特征為V,以vgg19為例,提取的特征是第5次卷積模塊的輸出,特征大小為196×512,因此V的特征維數(shù)為196,每個(gè)特征深度為512,那么每維特征的注意力權(quán)重計(jì)算過(guò)程如下:

(2)

(3)

將LSTM中的音頻上下文信息和人臉特征融合,計(jì)算過(guò)程如下:

(4)

其中,λt為t時(shí)刻音頻特征的權(quán)重,1-λt為t時(shí)刻視頻特征的權(quán)重。

2.2.3 模態(tài)比例優(yōu)化函數(shù)

在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),當(dāng)說(shuō)話人在說(shuō)話時(shí),鏡頭中并沒(méi)有出現(xiàn)人臉,此時(shí)只有環(huán)境背景,如電腦儀器、桌子等,多模態(tài)注意力模型無(wú)法準(zhǔn)確判斷視頻中是否存在人臉,只會(huì)根據(jù)特征中各維度大小依靠情感標(biāo)簽來(lái)反向傳播分配相應(yīng)的注意力權(quán)重,因此有可能在沒(méi)出現(xiàn)人臉時(shí)依然給人臉特征分配了較大的貢獻(xiàn)值。同理,鏡頭中出現(xiàn)了人臉,但是說(shuō)話人并沒(méi)有說(shuō)話,而有可能是遠(yuǎn)處的錄制視頻人員發(fā)出的聲音,但是仍然有可能給音頻特征分配了較大的注意力權(quán)重,這樣對(duì)情感識(shí)別造成了誤導(dǎo)。在深度學(xué)習(xí)梯度下降過(guò)程中,會(huì)在原損失函數(shù)中增加L2正則化[15]函數(shù)來(lái)防止過(guò)擬合,其原理主要是通過(guò)增加輔助函數(shù)來(lái)限制原損失函數(shù)中無(wú)關(guān)參數(shù)的影響力,引導(dǎo)總損失函數(shù)反向求導(dǎo)的方向。因此,受L2正則化啟發(fā),本文采用增加輔助標(biāo)簽和輔助損失函數(shù)的方式在反向傳播的過(guò)程中引導(dǎo)總損失函數(shù)梯度下降的方向,在出現(xiàn)極端情況(有人臉無(wú)聲音,有聲音無(wú)人臉)時(shí),限制多模態(tài)融合比例的取值范圍。針對(duì)音頻模態(tài),短時(shí)能量衡量了語(yǔ)音在某個(gè)時(shí)刻聲音能量的強(qiáng)弱,由于遠(yuǎn)處錄制人員和說(shuō)話人距離較遠(yuǎn),能量強(qiáng)度差異很大,因而通過(guò)設(shè)置能量閾值,低于閾值以下的能量強(qiáng)度設(shè)為0,以此來(lái)規(guī)避掉遠(yuǎn)處錄制人員聲音的干擾。因此,提取音頻短時(shí)能量并歸一化到[0,1]作為音頻輔助標(biāo)簽。針對(duì)視頻模態(tài),利用opencv中非常成熟的人臉檢測(cè)庫(kù)對(duì)人臉圖片進(jìn)行檢測(cè),檢測(cè)到人臉則輔助標(biāo)簽置為1,沒(méi)檢測(cè)到則置為0。構(gòu)造的輔助損失函數(shù)如下:

(5)

其中,m為短時(shí)能量,是屬于0~1之間的實(shí)數(shù),n為集合{0,1},表示是否檢測(cè)到人臉。L1在t時(shí)刻對(duì)λ的梯度為:

(6)

(7)

圖3 模態(tài)比例優(yōu)化函數(shù)梯度示意圖

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)庫(kù)

為驗(yàn)證模型的識(shí)別效果,本文選用了AVEC2016(International Audio/Visual Emotion Challenge and Workshop)挑戰(zhàn)賽提供的數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)。AVEC2016數(shù)據(jù)庫(kù)是RECOLA(Remote Collaboration and Affective Interaction)數(shù)據(jù)庫(kù)的一個(gè)子集。數(shù)據(jù)庫(kù)提供自然型的數(shù)據(jù),是對(duì)參與視頻會(huì)議的人進(jìn)行錄制得到的。數(shù)據(jù)庫(kù)提供了訓(xùn)練集、驗(yàn)證集和測(cè)試集一共27個(gè)長(zhǎng)度時(shí)間為5 min的視頻,由6個(gè)法國(guó)研究人員在arousal和valence兩個(gè)情感維度上進(jìn)行了標(biāo)注,每隔40 ms進(jìn)行一次標(biāo)注,標(biāo)注范圍為-1~1。每個(gè)視頻長(zhǎng)達(dá)7 500 frame,最終每幀標(biāo)簽為6名研究人員標(biāo)注結(jié)果取平均值。數(shù)據(jù)庫(kù)官方強(qiáng)調(diào)了數(shù)據(jù)庫(kù)構(gòu)建的工作量并鼓勵(lì)使用數(shù)據(jù)庫(kù)的研究人員可以采用更合理的方法去提取特征。

3.2 實(shí)驗(yàn)設(shè)置

在視頻特征學(xué)習(xí)階段,本文采用R平方系數(shù)[16]作為特征學(xué)習(xí)的評(píng)估指標(biāo),其通過(guò)計(jì)算數(shù)據(jù)的變化來(lái)表征回歸任務(wù)中預(yù)測(cè)值和標(biāo)簽值的擬合程度。R平方系數(shù)越大,代表擬合程度越高,特征提取效果越好。R平方系數(shù)函數(shù)如下:

(8)

其中,Y_actual是情感真實(shí)標(biāo)簽序列,Y_predict是情感預(yù)測(cè)值序列,Y_mean是情感真實(shí)標(biāo)簽序列的平均值。

在層次注意力機(jī)制訓(xùn)練與測(cè)試階段,本文采用數(shù)據(jù)庫(kù)官方提供的一致性相關(guān)系數(shù)(Concordance Correlation Coefficient,CCC)作為情感識(shí)別的評(píng)估指標(biāo),計(jì)算公式如下:

(9)

其中,μx和μy分別是情感預(yù)測(cè)值序列和情感真實(shí)標(biāo)簽序列的平均值,σx和σy分別是情感預(yù)測(cè)值序列和情感真實(shí)標(biāo)簽序列的標(biāo)準(zhǔn)差,ρ是2個(gè)序列之間的皮爾遜相關(guān)系數(shù)[17],計(jì)算公式如下:

(10)

在整個(gè)實(shí)驗(yàn)中,采用均方根誤差(Root Mean Square Error,RMSE)作為損失函數(shù),其定義如下:

(11)

其中,xi代表第i幀的情感預(yù)測(cè)值,yi代表第i幀的情感真實(shí)標(biāo)簽。

在視頻特征學(xué)習(xí)階段,選取12組視頻作為訓(xùn)練集,6組視頻作為測(cè)試集。對(duì)于人臉特征學(xué)習(xí),分別采用Vgg19、ResNet34、ResNet50、InceptionV3 4種經(jīng)典深度CNN進(jìn)行對(duì)比實(shí)驗(yàn)。由于以上4種深度CNN對(duì)圖片大小要求基本都是224×224或者299×299,因此批量訓(xùn)練數(shù)量設(shè)置為150。在頻率注意力機(jī)制模型中,使用三層卷積三層池化的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為音頻上下文特征學(xué)習(xí)模型,每幀音頻頻譜圖大小為24×120,輸入窗口為5幀音頻信息,因此輸入頻譜圖大小為120×120。第1層卷積核大小為2×2,卷積核數(shù)量為8。第2層卷積核大小為3×3,卷積核數(shù)量為16。第3層卷積核大小為3×3,卷積核數(shù)量為32。為了保證整體頻率學(xué)習(xí)與頻率局部學(xué)習(xí)特征圖輸出大小一致,卷積過(guò)程中采用全0填充,保持兩者尺寸一致。池化尺寸全部設(shè)置尺寸為2×2的最大池化,步長(zhǎng)為1。

在驗(yàn)證HAM模型識(shí)別效果階段,設(shè)置了3組對(duì)比實(shí)驗(yàn):1)僅使用單幀音頻頻譜信息作為模型輸入,在不使用頻率注意力機(jī)制的前提下與視頻特征在特征層融合,對(duì)比完整的HAM模型,比較CCC相關(guān)度系數(shù);2)在使用頻率注意力機(jī)制的情況下,與視頻特征在特征層融合而沒(méi)有在模態(tài)間使用注意力機(jī)制,對(duì)比完整的HAM模型,比較CCC相關(guān)度系數(shù);3)在使用頻率注意力機(jī)制和多模態(tài)注意力機(jī)制的情況下,對(duì)使用和未使用模態(tài)比例調(diào)整函數(shù)的實(shí)驗(yàn)效果進(jìn)行對(duì)比。

實(shí)驗(yàn)操作系統(tǒng)為ubuntu18.04,開發(fā)語(yǔ)言為python3.6.2,深度學(xué)習(xí)框架為tensorflow1.8、keras2.1和theano1.0.0,CPU為英特爾至強(qiáng)E5-2630V4 10核20線程,內(nèi)存為三星ddr4 2400 16 GB×8(128 GHz),GPU為英偉達(dá)特斯拉P100×2 16 GB顯存,加速版本為CUDA 9.0。在前期多次實(shí)驗(yàn)對(duì)比的情況下,為了保證訓(xùn)練充分,將epoch次數(shù)設(shè)置為1 000。梯度下降優(yōu)化算法從SGD、Adam和RMSProp三者中選擇。初始學(xué)習(xí)率設(shè)置為0.000 5。為了更直觀地對(duì)比訓(xùn)練和測(cè)試結(jié)果之間的差異,每訓(xùn)練一個(gè)epoch并在相應(yīng)數(shù)據(jù)集上測(cè)試一次。

3.3 性能比較

3.3.1 人臉情感顯著特征學(xué)習(xí)效果對(duì)比

在人臉特征學(xué)習(xí)階段,分別在arousal和valence 2個(gè)維度上采用4種深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn)。特征學(xué)習(xí)結(jié)果分別如圖4和圖5所示,在arousal維度上,InceptionV3和ResNet50在訓(xùn)練充分的情況下,R平方系數(shù)都非常接近0.73,兩者損失幾乎沒(méi)有差異,但是InceptionV3相比ResNet50網(wǎng)絡(luò)參數(shù)多達(dá)24 734 048個(gè),單次epoch訓(xùn)練時(shí)間54 s,而ResNet50單次epoch訓(xùn)練時(shí)間為37 s,因此在arousal維度上采用ResNet50學(xué)習(xí)人臉特征。在valence維度上,ResNet34的R平方系數(shù)達(dá)到了0.62,損失也非常接近最低的VGG19,而且網(wǎng)絡(luò)結(jié)構(gòu)相比于其他幾種也更簡(jiǎn)單,單次epoch訓(xùn)練時(shí)間31 s,因此在valence維度上采用ResNet34學(xué)習(xí)人臉特征。

圖4 arousal維度視頻情感顯著特征學(xué)習(xí)結(jié)果

圖5 valence維度視頻情感顯著特征學(xué)習(xí)結(jié)果

3.3.2 層次注意力機(jī)制可視化

為更直觀地展現(xiàn)層次注意力機(jī)制的識(shí)別效果,在測(cè)試模型階段保存頻率注意力機(jī)制和多模態(tài)注意力機(jī)制所計(jì)算出的注意力權(quán)重,疊加到原始人臉圖片和頻譜圖上,生成熱力成像圖,并展示多模態(tài)注意力機(jī)制人臉特征權(quán)重分布圖,如圖6所示。

圖6 層次注意力機(jī)制可視化結(jié)果

從圖6可以看出,加入了層次注意力機(jī)制之后,人臉凸顯情感表達(dá)的部位比如眼睛和嘴巴都被賦予了更大的權(quán)重,而邊緣區(qū)域比如頭發(fā)、耳朵等噪音的影響被削弱,語(yǔ)音信號(hào)中與當(dāng)前情感流露更相關(guān)的頻率得到了加強(qiáng),如圖6所示說(shuō)話人微笑時(shí),高頻域音頻特征更加顯著。通過(guò)注意力權(quán)重分布圖可以看出,突出情感表達(dá)的特征往往集中在少數(shù)部分的幾個(gè)特征中,這樣有選擇地加強(qiáng)這部分特征的影響力,減少了模型對(duì)其他無(wú)關(guān)特征或者影響力較小特征的關(guān)注,在面對(duì)維度更多的特征時(shí),模型只需關(guān)注對(duì)當(dāng)前識(shí)別貢獻(xiàn)較多的特征。

3.3.3 層次注意力機(jī)制效果對(duì)比

在層次注意力機(jī)制學(xué)習(xí)階段,分別對(duì)比了不使用層次注意力機(jī)制、僅使用層次注意力機(jī)制中的頻率注意力機(jī)制而不使用多模態(tài)注意力機(jī)制、使用層次注意力機(jī)制和使用模態(tài)比例優(yōu)化的層次注意力機(jī)制4種方法進(jìn)行對(duì)比。實(shí)驗(yàn)中保存了4種方法在測(cè)試集上的最佳結(jié)果,并隨機(jī)選取測(cè)試視頻逐幀展開繪制預(yù)測(cè)曲線。在不使用層次注意力機(jī)制的情況下,預(yù)測(cè)曲線非常抖動(dòng),與標(biāo)簽曲線差異較大。使用了頻率注意力機(jī)制的預(yù)測(cè)曲線,整體走向偏向標(biāo)簽曲線的發(fā)展趨勢(shì),相對(duì)穩(wěn)定。使用了層次注意力機(jī)制的預(yù)測(cè)曲線,相比只采用頻率注意力機(jī)制,預(yù)測(cè)曲線和標(biāo)簽擬合程度有了大幅提升,更加穩(wěn)定。而加入了模態(tài)比例優(yōu)化函數(shù)的預(yù)測(cè)曲線,在原有的結(jié)果上進(jìn)一步優(yōu)化,相對(duì)情感標(biāo)簽的擬合程度更高。

優(yōu)化過(guò)的層次注意力機(jī)制在arousal和valence兩個(gè)維度上的訓(xùn)練測(cè)試過(guò)程分別如圖7和圖8所示。在arousal維度上,當(dāng)訓(xùn)練epoch達(dá)到800次時(shí),此時(shí)訓(xùn)練集CCC已經(jīng)超過(guò)0.9,測(cè)試集也達(dá)到了0.75左右,模型訓(xùn)練已充分,隨著訓(xùn)練的繼續(xù),模型開始過(guò)擬合,測(cè)試效果下降。在valence維度上,訓(xùn)練和測(cè)試過(guò)程都較為抖動(dòng),訓(xùn)練epoch達(dá)到700次時(shí),模型基本訓(xùn)練充分,但是測(cè)試結(jié)果并不穩(wěn)定。無(wú)論是在arousal還是在valence維度上,RMSE損失都有一定的波動(dòng)。因此,在模型訓(xùn)練充分后,取測(cè)試階段的50個(gè)epoch結(jié)果的平均值作為最終識(shí)別結(jié)果,最終在arousal維度上CCC為0.732,在valence維度上CCC為0.679。

圖7 arousal維度優(yōu)化層次注意力機(jī)制訓(xùn)練測(cè)試過(guò)程

圖8 valence維度優(yōu)化層次注意力機(jī)制訓(xùn)練測(cè)試過(guò)程

具體對(duì)比實(shí)驗(yàn)結(jié)果如表1所示,相比于當(dāng)前維度情感識(shí)別中的其他方法,層次注意力機(jī)制雖然在損失上遜色于最優(yōu)結(jié)果,但是CCC相關(guān)度系數(shù)更能反映情感預(yù)測(cè)值和情感標(biāo)簽值的擬合程度。從表1可以看出,使用了頻率注意力機(jī)制在CCC上已經(jīng)超越了大多方法的結(jié)果,在此基礎(chǔ)上構(gòu)建的層次注意力機(jī)制的CCC表現(xiàn)最佳。最后對(duì)損失進(jìn)行優(yōu)化,CCC在2個(gè)維度上分別達(dá)到了0.732和0.679,說(shuō)明經(jīng)過(guò)優(yōu)化的HAM模型可以更有效地提取音頻和視頻中的情感顯著特征進(jìn)行融合。

表1 層次注意力機(jī)制與其他方法的維度情感識(shí)別結(jié)果對(duì)比

4 結(jié)束語(yǔ)

基于連續(xù)維度情感識(shí)別,本文提出基于層次注意力機(jī)制的維度情感識(shí)別方法。利用大量實(shí)驗(yàn)環(huán)境下的數(shù)據(jù)進(jìn)行人臉情感顯著特征和層次注意力機(jī)制兩個(gè)部分的學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,與目前的主流方法相比,本文方法使用注意力機(jī)制對(duì)所學(xué)習(xí)的特征利用上下文信息進(jìn)行有選擇的加強(qiáng),簡(jiǎn)化了特征預(yù)處理的過(guò)程,降低了情感無(wú)關(guān)因素的干擾,在連續(xù)視頻與音頻模態(tài)上的維度情感識(shí)別任務(wù)中取得了良好的效果。由于采用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人臉特征,且沒(méi)有和層次注意力機(jī)制融合成一個(gè)模型,導(dǎo)致模型損失優(yōu)化困難與特征學(xué)習(xí)不徹底,因此下一步將采用更合理的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)人臉特征,將特征學(xué)習(xí)和模型預(yù)測(cè)融為一體,并引入音頻手工特征豐富音頻信息與人臉特征融合,進(jìn)一步提高模型識(shí)別準(zhǔn)確率。

猜你喜歡
人臉音頻注意力
讓注意力“飛”回來(lái)
有特點(diǎn)的人臉
一起學(xué)畫人臉
必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
三國(guó)漫——人臉解鎖
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
A Beautiful Way Of Looking At Things
Pro Tools音頻剪輯及修正
杭锦后旗| 临江市| 乐平市| 凤山县| 五常市| 道真| 贵定县| 宣威市| 汪清县| 枝江市| 雅安市| 新平| 双鸭山市| 泸定县| 安多县| 山阳县| 锡林浩特市| 聂拉木县| 精河县| 日喀则市| 宁南县| 澄迈县| 玛沁县| 罗甸县| 邵武市| 和田市| 永修县| 古浪县| 永平县| 松溪县| 隆昌县| 南皮县| 喜德县| 辽阳市| 手机| 高唐县| 昭觉县| 华阴市| 永川市| 茂名市| 富宁县|