国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合背景上下文特征的視覺(jué)情感識(shí)別與預(yù)測(cè)方法

2024-06-01 18:47馮月華魏若巖朱曉慶

馮月華 魏若巖 朱曉慶

摘 要:為解決基于視覺(jué)的情感識(shí)別無(wú)法捕捉人物所處環(huán)境和與周?chē)宋锘?dòng)對(duì)情感識(shí)別的影響、單一情感種類(lèi)無(wú)法更豐富地描述人物情感、無(wú)法對(duì)未來(lái)情感進(jìn)行合理預(yù)測(cè)的問(wèn)題,提出了融合背景上下文特征的視覺(jué)情感識(shí)別與預(yù)測(cè)方法。該方法由融合背景上下文特征的情感識(shí)別模型(Context-ER)和基于GRU與Valence-Arousal連續(xù)情感維度的情感預(yù)測(cè)模型(GRU-mapVA)組成。Context-ER同時(shí)綜合了面部表情、身體姿態(tài)和背景上下文(所處環(huán)境、與周?chē)宋锘?dòng)行為)特征,進(jìn)行26種離散情感類(lèi)別的多標(biāo)簽分類(lèi)和3個(gè)連續(xù)情感維度的回歸。GRU-mapVA根據(jù)所提映射規(guī)則,將Valence-Arousal的預(yù)測(cè)值投影到改進(jìn)的Valence-Arousal模型上,使得情感預(yù)測(cè)類(lèi)間差異更為明顯。Context-ER在Emotic數(shù)據(jù)集上進(jìn)行了測(cè)試,結(jié)果表明識(shí)別情感的平均精確率比現(xiàn)有方法提高4%以上;GRU-mapVA在三段視頻樣本上進(jìn)行了測(cè)試,結(jié)果表明情感預(yù)測(cè)效果相較于現(xiàn)有方法有很大提升。

關(guān)鍵詞:情感識(shí)別; 背景上下文; 多標(biāo)簽分類(lèi); GRU; 情感預(yù)測(cè)

中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A?文章編號(hào):1001-3695(2024)05-043-1585-09

doi:10.19734/j.issn.1001-3695.2023.08.0388

Visual emotion recognition and prediction based onfusion of background contextual features

Abstract:To address the problems of inability to capture the impact of environmental factors and interaction with surrounding individuals on emotion recognition in vision-based affective computing, limitations of describing emotions with a single category, and inability to predict future emotions, this paper proposed a visual emotion recognition and prediction method integrating background context features. This method consisted of an emotion recognition model that integrated background context features(Context-ER) and an emotion prediction model based on GRU and continuous emotion dimensions of Valence-Arousal(GRU mapVA). Context-ER combined facial expressions, body posture, and background context(environment, interaction behavior with surrounding people) features to perform multi-label classification for 26 discrete emotion categories and regression for 3 continuous emotion dimensions. GRU mapVA projected the predicted values of Valence-Arousal onto the improved Valence-Arousal model based on the proposed mapping rules, making the differences between sentiment prediction classes more pronounced. Context-ER was tested on the Emotic dataset, and the results show an average precision improvement of over 4% compared to the state-of-the-art methods. GRU-mapVA was tested on three video samples, and the results demonstrate a signi-ficant improvement in emotion prediction compared to existing methods.

Key words:emotion recognition; background context; multi-label classification; GRU; emotion prediction

0 引言

情感識(shí)別與情感預(yù)測(cè)在日常生活和社交活動(dòng)中有著廣泛的應(yīng)用,例如駕乘人員疲勞檢測(cè)[1]、測(cè)謊儀[2]、學(xué)生學(xué)習(xí)狀態(tài)監(jiān)測(cè)[3]以及人機(jī)交互[4]等。

常見(jiàn)的情感表示分為粗粒度和細(xì)粒度兩類(lèi)。粗粒度只包括幾種常見(jiàn)的情感表達(dá),關(guān)注整體傾向性;細(xì)粒度包括更多情感類(lèi)別,涵蓋更具體的情感表達(dá)。在粗粒度表示中,一些研究[5~7]對(duì)常見(jiàn)的5~7種情感進(jìn)行識(shí)別,因?yàn)榍楦惺菑?fù)雜、多維的表達(dá),僅將其分為幾種離散類(lèi)別無(wú)法涵蓋所有情感的細(xì)微差別。因此一些研究[8~10]還使用VAD三個(gè)連續(xù)維度描述情感:V(效價(jià),valence),衡量情感的積極愉快程度,從消極到積極;A(喚醒度,arousal),衡量人物的激動(dòng)程度,從不活躍、平靜到激動(dòng)、準(zhǔn)備行動(dòng);D(支配性,dominance),衡量人物對(duì)局勢(shì)的控制程度,從順從、不控制到支配、控制。在細(xì)粒度表示中,文獻(xiàn)[11,12]對(duì)26種離散情感分類(lèi),包括confusion、embarrassment、sympathy等復(fù)雜的情感類(lèi)別。通過(guò)識(shí)別復(fù)雜情感類(lèi)別,可以捕捉更細(xì)微的差別,更好地理解情感的復(fù)雜性和多樣性。受文獻(xiàn)[11,12]的啟發(fā),本文對(duì)26種離散情感類(lèi)別和3個(gè)連續(xù)情感維度進(jìn)行分類(lèi)和回歸。

在基于視覺(jué)的情感識(shí)別研究中,面部表情通常被認(rèn)為是表征情感最好的方式[13],通過(guò)分析面部表情進(jìn)行情感識(shí)別,在近些年來(lái)已經(jīng)取得很多成果,例如文獻(xiàn)[3,14~17]通過(guò)設(shè)計(jì)高效的面部特征提取網(wǎng)絡(luò),解決了干擾、遮擋等問(wèn)題,提高了面部表情識(shí)別的準(zhǔn)確性。除此之外,部分研究考慮了其他的視覺(jué)線(xiàn)索。文獻(xiàn)[18,19]結(jié)合面部特征和身體姿態(tài)特征進(jìn)行情感判斷實(shí)驗(yàn),發(fā)現(xiàn)參與者會(huì)猜測(cè)與身體姿態(tài)特征相匹配的情感。文獻(xiàn)[19]對(duì)環(huán)境背景信息的必要性進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)即使在無(wú)聲且參與者的面部和身體被遮住的視頻中,觀眾也能成功推斷出正確的情感。因此結(jié)合面部特征、身體姿態(tài)特征和環(huán)境背景特征進(jìn)行情感識(shí)別能夠更全面地理解和分析人物情感。文獻(xiàn)[20]將面部、身體姿態(tài)和環(huán)境背景特征進(jìn)行晚期融合,并使用K近鄰分類(lèi)器識(shí)別在群體水平上表達(dá)的喚醒度和效價(jià)。文獻(xiàn)[11,21,22]提出了相似的雙流架構(gòu),一個(gè)分支提取身體關(guān)鍵部位特征,另一個(gè)分支提取環(huán)境背景特征,再將兩種特征直接拼接進(jìn)行情感識(shí)別。文獻(xiàn)[23]在雙流架構(gòu)的基礎(chǔ)上提出多標(biāo)簽焦點(diǎn)損失,還指出在多任務(wù)學(xué)習(xí)中損失函數(shù)之間協(xié)同作用的重要性。然而上述方法都只是將不同特征進(jìn)行直接簡(jiǎn)單的拼接,忽略了特征間的關(guān)聯(lián)性。除此之外,有研究表明,人物之間的社交互動(dòng)也會(huì)影響參與主體間的情感[24]。一些研究利用步行速度、距離和接近性等特征對(duì)個(gè)體之間的社交互動(dòng)建模,以解釋不同個(gè)體的行為特點(diǎn),從而提高情感識(shí)別的準(zhǔn)確性,但目前對(duì)人物之間社交互動(dòng)影響人物情感的研究較少。

預(yù)測(cè)未來(lái)情感的研究主要聚焦于文本數(shù)據(jù),如影評(píng)、留言等,并且基于文本分析進(jìn)行情感預(yù)測(cè)。例如文獻(xiàn)[12,25]提出基于文本的情感傾向預(yù)測(cè)模型,并把模型應(yīng)用到銷(xiāo)售預(yù)測(cè)、流行趨勢(shì)預(yù)測(cè)領(lǐng)域。但預(yù)測(cè)結(jié)果一般是正向傾向或負(fù)向傾向兩類(lèi),不會(huì)預(yù)測(cè)出具體的情感類(lèi)型。針對(duì)此問(wèn)題,一些研究[26,27]通過(guò)對(duì)喚醒度和效價(jià)進(jìn)行預(yù)測(cè),來(lái)掌握未來(lái)連續(xù)情感維度的變化趨勢(shì),但是并沒(méi)有將連續(xù)情感維度與具體情感種類(lèi)相結(jié)合,也不會(huì)預(yù)測(cè)出具體的情感類(lèi)型。

通過(guò)上述描述可總結(jié)出現(xiàn)有方法存在的三個(gè)主要問(wèn)題:a)情感種類(lèi)少且單一,難以體現(xiàn)人物更多的情感信息;b)基于視覺(jué)的情感識(shí)別以關(guān)注身體關(guān)鍵部位特征為主,例如面部、身體姿態(tài)等,但是忽略了人物所處環(huán)境和與周?chē)宋锘?dòng)行為的影響;c)情感預(yù)測(cè)方法以分析文本預(yù)測(cè)情感傾向?yàn)橹?,預(yù)測(cè)結(jié)果只有正向和負(fù)向兩類(lèi),不能預(yù)測(cè)出具體的情感類(lèi)型。

為解決上述問(wèn)題,本文提出了融合背景上下文特征的視覺(jué)情感識(shí)別與預(yù)測(cè)方法。針對(duì)問(wèn)題a)和b),提出了融合背景上下文特征的情感識(shí)別模型(Context-ER),該模型同時(shí)提取人物身體特征、所處環(huán)境語(yǔ)義特征和與周?chē)宋锘?dòng)的深度圖特征,如圖1所示;利用自注意力機(jī)制和混合級(jí)融合對(duì)三種特征進(jìn)行融合;對(duì)融合特征進(jìn)行26種離散情感的多標(biāo)簽分類(lèi)和3個(gè)連續(xù)情感的回歸,使得情感識(shí)別更加精確。針對(duì)問(wèn)題c),提出了基于GRU和Valence-Arousal連續(xù)情感維度[28]的情感預(yù)測(cè)模型(GRU-mapVA),該模型制定改進(jìn)的Valence-Arousal模型和映射規(guī)則,將Valence-Arousal的預(yù)測(cè)值依據(jù)映射規(guī)則投影到改進(jìn)的Valence-Arousal模型上,得到對(duì)應(yīng)的預(yù)測(cè)情感種類(lèi),使得情感預(yù)測(cè)類(lèi)間差異更明顯。

1 本文方法

本文方法可完成情感識(shí)別任務(wù)與未來(lái)情感預(yù)測(cè)任務(wù),總體流程如圖2所示。

1.1 情感識(shí)別

1.1.1 融合背景上下文特征的情感識(shí)別

情感識(shí)別網(wǎng)絡(luò)模型Context-ER如圖3所示。身體特征提取模塊以人物身體為中心,提取人物面部信息、身體姿態(tài)等重要線(xiàn)索。身體特征提取模塊的主干網(wǎng)絡(luò)為ResNet18,使用遷移學(xué)習(xí)技術(shù),通過(guò)微調(diào)Krizhevsky等人[29]提出的預(yù)訓(xùn)練模型,將其應(yīng)用到本文身體特征提取任務(wù)上,提取到身體特征向量后再引入一個(gè)自注意力機(jī)制關(guān)注人物身體對(duì)情感識(shí)別有利的區(qū)域。

Bolei等人[30]提供了場(chǎng)景分類(lèi)效果較好的各種基線(xiàn)CNN,識(shí)別效果如表1所示。環(huán)境語(yǔ)義背景為場(chǎng)景中存在的物體以及正在進(jìn)行活動(dòng)的理解關(guān)鍵字,如表1中“室外”“懸崖”“陽(yáng)光明媚的”“攀巖”等構(gòu)成了一組環(huán)境語(yǔ)義成分,“室內(nèi)”“辦公室”“工作”“封閉的區(qū)域”等構(gòu)成了另一組環(huán)境語(yǔ)義成分。從圖像中識(shí)別環(huán)境的語(yǔ)義背景,提取環(huán)境語(yǔ)義成分,可能影響對(duì)人物的情感判斷。環(huán)境語(yǔ)義特征提取模塊以環(huán)境為中心,主干網(wǎng)絡(luò)為ResNet18,使用遷移學(xué)習(xí)技術(shù)通過(guò)微調(diào)Bolei等人[30]的預(yù)訓(xùn)練模型,將其應(yīng)用到本文環(huán)境語(yǔ)義特征提取任務(wù)上。

除了環(huán)境背景會(huì)影響對(duì)人物的情感判斷外,人物背景也是一種判斷情感的有利輔助信息,受文獻(xiàn)[31]的啟發(fā),采用提取深度圖的方法模擬人物之間的互動(dòng)和接近性。本文提取深度圖的步驟如下:a)進(jìn)行數(shù)據(jù)預(yù)處理,將數(shù)據(jù)集中所有的圖像規(guī)范化到RGB三通道;b)使用MegaDepth深度估計(jì)模型[32]得到原圖像的單目深度圖;c)對(duì)得到的深度圖進(jìn)行彩色渲染以加深效果;d)計(jì)算深度圖的深度矩陣信息D,如下所示:

其中:D表示M×N的矩陣;D(i,j)表示深度圖中第i行第j列的深度值,如圖4所示,該圖為經(jīng)過(guò)彩色渲染的深度圖。將單通道深度圖變成三通道彩色深度圖后,采用由三個(gè)卷積層、三個(gè)池化層和三個(gè)全連接層構(gòu)成的網(wǎng)絡(luò)提取深度圖特征。

1.1.2 背景上下文特征與情感識(shí)別的相關(guān)性分析

從以下三種情況分析環(huán)境背景與情感的相關(guān)性(表2中“原圖”列圖片來(lái)自Emotic數(shù)據(jù)集[11]):a)完全無(wú)法獲取面部信息時(shí),如表2中第①組示例圖片所示。此時(shí)無(wú)法根據(jù)面部、姿態(tài)識(shí)別情感,但依據(jù)環(huán)境背景特征可以推斷出相應(yīng)的情感表達(dá)。b)面部不完全或存在遮擋時(shí),如表2中第②組示例圖片所示。此時(shí)依據(jù)不完整的面部信息推斷出的情感為neutral,但結(jié)合人物所處環(huán)境可得到真實(shí)準(zhǔn)確的情感表達(dá),如在婚禮場(chǎng)景下,人物更準(zhǔn)確的情感為affection、esteem、happiness。c)可獲取到完整的面部信息但相同的面部表情處于不同的環(huán)境中時(shí),如表2中第③④組示例圖片所示。以第③組為例,只依據(jù)面部表情,兩張示例圖片中的情感都為pain,然而一張?jiān)卺t(yī)院背景下,一張?jiān)隗w育場(chǎng)比賽背景下,故結(jié)合環(huán)境背景信息來(lái)分析,體育場(chǎng)比賽場(chǎng)景下的真實(shí)情感為disquietment、engagement、excitement。

故當(dāng)無(wú)法從面部信息中獲取情感時(shí),可依據(jù)環(huán)境背景特征來(lái)推斷情感;當(dāng)面部信息不完整或存在遮擋時(shí),結(jié)合人物所處環(huán)境可得到更準(zhǔn)確的情感表達(dá);當(dāng)面部表情相同但處于不同的環(huán)境中時(shí),結(jié)合環(huán)境背景信息可進(jìn)一步分析和理解真實(shí)的情感表達(dá)。通過(guò)結(jié)合環(huán)境背景特征,可更全面地把握情感表達(dá)的細(xì)微變化,從而更好地理解人物的情感狀態(tài)。

從以下兩種情況分析與周?chē)宋锘?dòng)背景和情感的相關(guān)性(表3中“原圖”列圖片來(lái)自Emotic數(shù)據(jù)集[11]):a)當(dāng)一個(gè)人與其他人有共同身份或是彼此熟知進(jìn)行互動(dòng)時(shí),其情感趨向可能會(huì)趨于一致,如表3中第①組示例圖片所示;b)當(dāng)一個(gè)人與其他人身份不同或是陌生人時(shí),其情感傾向可能會(huì)不同,如表3中第②組示例圖片所示,籃球比賽中的運(yùn)動(dòng)員和觀眾、課堂中的教師和學(xué)生情感傾向不相同。

故情感可通過(guò)社交互動(dòng)迅速傳播,人物的情感會(huì)受與周?chē)说幕?dòng)和接近性的影響,當(dāng)與他人互動(dòng)時(shí),可能會(huì)受到其他人情緒的影響,從而改變自己的情感狀態(tài)。

1.2 情感預(yù)測(cè)

情感預(yù)測(cè)GRU-mapVA流程如圖5所示。將一段視頻數(shù)據(jù)輸入到上文所述的情感識(shí)別模型中,可識(shí)別出人物的離散情感種類(lèi)和連續(xù)情感VAD值;現(xiàn)取得到的連續(xù)valence和arousal預(yù)測(cè)值作為門(mén)控循環(huán)單元(GRU)的輸入,使GRU學(xué)習(xí)序列的時(shí)序特征,預(yù)測(cè)未來(lái)時(shí)刻的valence和arousal值;再將valence和arousal的預(yù)測(cè)值依據(jù)所提映射規(guī)則投影到改進(jìn)的valence-arousal模型上,得到對(duì)應(yīng)的預(yù)測(cè)情感種類(lèi)。

1.2.1 情感預(yù)測(cè)映射規(guī)則

在VAD連續(xù)情感維度中,valence衡量情感的積極程度或愉悅程度,0~10代表從消極到積極;arousal衡量人物的激動(dòng)程度,0~10代表從不活躍、平靜到激動(dòng)、準(zhǔn)備行動(dòng)?,F(xiàn)定義情感預(yù)測(cè)映射規(guī)則,映射規(guī)則步驟如下:

a)取一個(gè)二維平面直角坐標(biāo)系,橫縱坐標(biāo)分別為效價(jià)V和喚醒度A,取值均為0~10。

b)在所取二維平面直角坐標(biāo)系上,定義四個(gè)區(qū)域五個(gè)端點(diǎn),如圖6所示。

c)若現(xiàn)有一段長(zhǎng)為n的VA預(yù)測(cè)序列(t1,t2,t3,…,tn),每個(gè)ti表示一個(gè)坐標(biāo)對(duì),ti=(Vi,Ai),i∈[1,n],則將ti投影到二維平面直角坐標(biāo)系的對(duì)應(yīng)位置。

1.2.2 改進(jìn)的valence-arousal模型

Hanjalic提出了效價(jià)-喚醒度空間理論[33],表示連續(xù)情感維度valence、arousal與16種離散情感類(lèi)別之間的關(guān)系,如圖7[33]所示。

由于本文先對(duì)視頻進(jìn)行情感識(shí)別得到連續(xù)的valence和arousal值,在此基礎(chǔ)上再進(jìn)行未來(lái)情感預(yù)測(cè),而情感識(shí)別部分涉及了26種情感(valence-arousal模型只涉及了16種情感),為保持前后一致,且26種情感可以更全面地涵蓋各種情感狀態(tài)和表達(dá)方法,提高情感預(yù)測(cè)的準(zhǔn)確性和適用性,故需要對(duì)valence-arousal模型進(jìn)行改進(jìn)。

改進(jìn)的具體步驟如下:

a)保持原模型中五個(gè)端點(diǎn)(高喚醒度點(diǎn)、低喚醒度點(diǎn)、高效價(jià)點(diǎn)、低效價(jià)點(diǎn)、居中點(diǎn))對(duì)應(yīng)的情感不變。

b)使用word2vec詞嵌入模型[34]捕捉情感詞語(yǔ)之間的語(yǔ)義關(guān)系,再使用t-SNE降維算法[35]對(duì)高維情感詞向量進(jìn)行降維,結(jié)果如圖8所示,含義相近的詞語(yǔ)相互間的位置更接近。依據(jù)降維結(jié)果和語(yǔ)義接近性,擴(kuò)展原模型中四個(gè)區(qū)域(高效價(jià)-高喚醒度、高效價(jià)-低喚醒度、低效價(jià)-高喚醒度、低效價(jià)-低喚醒度區(qū)域)對(duì)應(yīng)的情感。例如高效價(jià)-高喚醒度區(qū)域由excited、roused、delighted擴(kuò)展為anticipation、engagement、excitement、pleasure、yearning。

c)將改進(jìn)后的四個(gè)端點(diǎn)、五個(gè)區(qū)域的情感放置在圖6所示的二維平面上,得到改進(jìn)的Valence-Arousal模型,如圖9所示。將長(zhǎng)為n的VA預(yù)測(cè)序列(t1,t2,t3,…,tn),ti=(Vi,Ai),i∈[1,n]中每個(gè)點(diǎn)投影到改進(jìn)的Valence-Arousal模型的對(duì)應(yīng)位置,得到預(yù)測(cè)情感。

2 實(shí)驗(yàn)

2.1 情感識(shí)別實(shí)驗(yàn)

2.1.1 數(shù)據(jù)集

實(shí)驗(yàn)使用的數(shù)據(jù)集為Emotic[11,12],注釋結(jié)合了26種離散情感類(lèi)別和3個(gè)連續(xù)情感表示。數(shù)據(jù)集中圖片來(lái)源有兩個(gè),一是來(lái)自?xún)蓚€(gè)公共數(shù)據(jù)集COCO和Ade20k,一是來(lái)自谷歌搜索引擎,如圖10所示。所有的圖片都具有背景廣泛多樣、不同的地點(diǎn)與環(huán)境兩個(gè)特點(diǎn)。這些特點(diǎn)保證了Emotic數(shù)據(jù)集的豐富多樣性,同時(shí)也給情感識(shí)別任務(wù)帶來(lái)了一定的挑戰(zhàn)。

2.1.2 損失函數(shù)和評(píng)價(jià)指標(biāo)

損失函數(shù)為兩個(gè)單獨(dú)損失的加權(quán)組合,即L=λ1L1+λ2L2,L1和L2分別為26種離散情感損失之和和3個(gè)連續(xù)情感損失之和,λ1和λ2分別為離散情感損失的權(quán)重和連續(xù)情感損失的權(quán)重。離散情感損失L1使用多標(biāo)簽焦點(diǎn)損失(multi-label focal loss,MFL)[23],連續(xù)情感損失L2使用Huber損失[23],定義為

2.1.3 實(shí)驗(yàn)結(jié)果

情感識(shí)別模型在Emotic數(shù)據(jù)集上得到的情感精確率和情感識(shí)別定性結(jié)果如圖11和12所示,連續(xù)情感平均絕對(duì)誤差如表4所示。

由實(shí)驗(yàn)結(jié)果可得最終的平均精確率為32.517%,anticipation、engagement、confidence、excitement和happiness這幾種情感識(shí)別精確率較高,都在70%以上;embarrassment、doubt/confusion、sensitivity等這幾種情感識(shí)別精確率較低,都在20%以下。原因之一為數(shù)據(jù)集中前者所占比重大,后者所占比重??;另一個(gè)原因?yàn)閑mbarrassment、doubt/confusion、sensitivity等特征不明顯,本身識(shí)別就有一定的難度。

2.1.4 消融實(shí)驗(yàn)

進(jìn)行不同分支組合的消融實(shí)驗(yàn),保證實(shí)驗(yàn)其他參數(shù)一致,得到的平均精確率(AP)和平均絕對(duì)誤差(MAE)如表5所示。由實(shí)驗(yàn)可得,融合環(huán)境語(yǔ)義信息和深度圖信息后,平均精確率提高了8.773%左右,平均絕對(duì)誤差降低了0.005左右。

進(jìn)行不同融合策略的消融實(shí)驗(yàn),保證實(shí)驗(yàn)其他參數(shù)一致,得到的平均精確率(AP)和平均絕對(duì)誤差(MAE)如表6所示。由實(shí)驗(yàn)可得,混合級(jí)融合較特征級(jí)融合和決策級(jí)融合的平均精確率分別提高了2.7%和5%左右。平均絕對(duì)誤差分別降低了0.004和0.018左右。圖13為精確率提高5%以上的六種情感。

進(jìn)行有無(wú)注意力模塊的消融實(shí)驗(yàn),保證實(shí)驗(yàn)其他參數(shù)一致,得到的平均精確率(AP)和平均絕對(duì)誤差(MAE)如表7所示。由實(shí)驗(yàn)可得,加入注意力模塊后,平均精確率提高了1.8%左右,平均絕對(duì)誤差沒(méi)有明顯變化。圖14為精確率提高5%以上的五種情感。

2.1.5 對(duì)比實(shí)驗(yàn)

將Context-ER與文獻(xiàn)[11,21~23,36]的模型進(jìn)行對(duì)比,得到的AP和MAE如表8所示。由實(shí)驗(yàn)可得,Context-ER模型的平均精確率比文獻(xiàn)[11,36]的模型提高了5%和13%左右,比文獻(xiàn)[21]的模型提高了12%左右,比文獻(xiàn)[22,23]的模型提高了4%左右。

2.2 情感預(yù)測(cè)實(shí)驗(yàn)

2.2.1 實(shí)驗(yàn)數(shù)據(jù)

選取三段長(zhǎng)為800 s的電影片段命名為video1、video2、video3進(jìn)行情感預(yù)測(cè)實(shí)驗(yàn),如圖15所示。先將三個(gè)樣本數(shù)據(jù)輸入到情感識(shí)別模型中進(jìn)行情感識(shí)別,得到連續(xù)時(shí)刻的VA序列,再按3∶1劃分訓(xùn)練集和測(cè)試集,將訓(xùn)練集輸入到情感預(yù)測(cè)模型中進(jìn)行情感預(yù)測(cè),在測(cè)試集上測(cè)試預(yù)測(cè)效果。

2.2.2 損失函數(shù)和評(píng)價(jià)指標(biāo)

在情感預(yù)測(cè)模型中,使用均方誤差函數(shù)(MSE)作為損失函數(shù),評(píng)價(jià)指標(biāo)為平均絕對(duì)誤差(MAE)、可解釋方差得分(EVS)和決定系數(shù)(R2)。

2.2.3 實(shí)驗(yàn)結(jié)果

由情感預(yù)測(cè)模型預(yù)測(cè)三個(gè)樣本數(shù)據(jù)未來(lái)200 s的VA值,預(yù)測(cè)結(jié)果如圖16所示。

截取每個(gè)樣本未來(lái)200 s中1~20 s、70~80 s、180~200 s三個(gè)時(shí)間段的狀態(tài),最終的預(yù)測(cè)效果如圖17所示。以video1為例,由預(yù)測(cè)結(jié)果可得出,在1~20 s時(shí),V,A∈[7,9],推斷可能的情感是excitement、pleasure等;同理可得在70~80 s時(shí),V,A∈[5,6],推斷可能的情感是neutral;在180~200 s時(shí),V,A∈[4,5],推斷可能的情感是fatigue、pain、sensitivity等。

2.2.4 對(duì)比實(shí)驗(yàn)

對(duì)比LSTM、GRU、SAEs三個(gè)網(wǎng)絡(luò)模型對(duì)三個(gè)樣本預(yù)測(cè)的平均結(jié)果,三個(gè)模型得到的可解釋方差得分(EVS)、決定系數(shù)(R2)和平均絕對(duì)誤差(MAE)如表9所示。由實(shí)驗(yàn)可得,GRU模型在EVS和R2上比LSTM和SAEs模型高,在平均絕對(duì)誤差上比LSTM和SAEs模型低。

將GRU-mapVA與文獻(xiàn)[25]、基于文本數(shù)據(jù)的預(yù)測(cè)方法[26]、基于視頻數(shù)據(jù)的預(yù)測(cè)方法[37]進(jìn)行對(duì)比,結(jié)果如表10~12所示。由實(shí)驗(yàn)可得,文獻(xiàn)[25,26]的方法只能得到情感傾向,且與真實(shí)結(jié)果相差較大;文獻(xiàn)[37]只能得到效價(jià)和喚醒度的預(yù)測(cè)值;GRU-mapVA模型能預(yù)測(cè)出具體的情感類(lèi)別,但預(yù)測(cè)范圍較大。

3 結(jié)束語(yǔ)

本文為解決基于視覺(jué)的情感識(shí)別無(wú)法捕捉人物所處環(huán)境和與周?chē)宋锘?dòng)對(duì)情感識(shí)別的影響、單一情感種類(lèi)無(wú)法更豐富地描述人物情感、無(wú)法對(duì)未來(lái)情感進(jìn)行合理預(yù)測(cè)的問(wèn)題,提出了融合背景上下文特征的視覺(jué)情感識(shí)別與預(yù)測(cè)方法。該方法首先提取人物身體特征、所處環(huán)境語(yǔ)義特征和與周?chē)宋锘?dòng)的深度圖特征;其次利用自注意力機(jī)制和混合級(jí)融合對(duì)三種特征進(jìn)行融合,對(duì)融合特征進(jìn)行26種離散情感的多標(biāo)簽分類(lèi)和3個(gè)連續(xù)情感的回歸;最后利用GRU模型預(yù)測(cè)VA序列的未來(lái)值,將預(yù)測(cè)值按所提映射規(guī)則投影到改進(jìn)的valence-arousal模型上進(jìn)行未來(lái)情感種類(lèi)的預(yù)測(cè)。為驗(yàn)證本文方法的有效性,分別進(jìn)行了情感識(shí)別實(shí)驗(yàn)和情感預(yù)測(cè)實(shí)驗(yàn)。在情感識(shí)別中,與各方法進(jìn)行了消融實(shí)驗(yàn)對(duì)比,結(jié)果表明,Context-ER的平均精確率均高于其他方法。在情感預(yù)測(cè)中,GRU-mapVA也能準(zhǔn)確預(yù)測(cè)出未來(lái)情感的種類(lèi)。但是該模型仍有以下問(wèn)題尚未解決:a)embarrassment、fatigue、sensitivity等情感的識(shí)別精確率較低;b)情感預(yù)測(cè)模型的預(yù)測(cè)結(jié)果范圍較大。今后將圍繞該問(wèn)題,在本文方法的基礎(chǔ)上開(kāi)展后續(xù)研究。

參考文獻(xiàn):

[1]Liu Jinfeng, Li Guang, Zhou Jiyan et al. Research on fatigue driving monitoring model and key technologies based on multi-input deep learning[J]. Journal of Physics: Conference Series, 2020,1648(2): article ID 022112.

[2]Jordan S, Brimbal L, Wallace B D, et al. A test of the micro-expressions training tool: Does it improve lie detection?[J]. Journal of Investigative Psychology and Offender Profiling, 2019,16(3): 222-235.

[3]Long T D, Tung T T, Dung T T. A facial expression recognition model using lightweight dense-connectivity neural networks for monitoring online learning activities[J]. International Journal of Modern Education and Computer Science, 2022,14(6): 53-64.

[4]Nie Zexian, Yu Ying, Bao Yong. Application of human-computer interaction system based on machine learning algorithm in artistic visual communication[J]. Soft Computing, 2023,27(14): 10199-10211.

[5]Babu S P, Kumar S K, Manjur K, et al. Efficient Net-XGBoost: an implementation for facial emotion recognition using transfer learning[J]. Mathematics, 2023,11(3): article ID 0776.

[6]Jia Ziyu, Lin Youfang, Cai Xiyang, et al. SST-EmotionNet: spatial-spectral-temporal based attention 3D dense network for EEG emotion recognition[C]//Proc of the 28th ACM International Conference on Multimedia. New York: ACM Press, 2020: 2909-2917.

[7]Liu Xia, Xu Zhijing, Huang Kan. Multimodal emotion recognition based on cascaded multichannel and hierarchical fusion[J]. Computational Intelligence and Neuroscience, 2023, 2023: article ID 9645611.

[8]Sebastian J, Pierucci P. Fusion techniques for utterance-level emotion recognition combining speech and transcripts

[C]//Proc of InterSpeech 2019. 2019:51-55.

[9]Soumitra G, Asif E, Pushpak B. VAD-assisted multitask transformer framework for emotion recognition and intensity prediction on suicide notes[J]. Information Processing and Management, 2023, 60(2): article ID 103234.

[10]Mollahosseini A, Hasani B, Mahoor H M. AffectNet: a database for facial expression, valence, and arousal computing in the wild[J]. IEEE Trans on Affective Computing, 2019,10(1): 18-31.

[11]Kosti R,Alvarez J M,Recasens A,et al. Context based emotion recognition using EMOTIC dataset[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2019, 42(11): 2755-2766.

[12]Kazuyuki M, Reishi A, Minoru Y, et al. Trend prediction based on multi-modal affective analysis from social networking posts[J]. Electronics, 2022, 11(21): 3431-3431.

[13]Yacine Y. An efficient facial expression recognition system with appearance-based fused descriptors[J]. Intelligent Systems with Applications, 2023, 17: article ID 200166.

[14]Siqueira H, Magg S, Wermter S. Efficient facial feature learning with wide ensemble-based convolutional neural networks[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA:AAAI Press, 2020: 5800-5809.

[15]Ren Hanchi, Hu Yi, Myint S H, et al. A real-time and long-term face tracking method using convolutional neural network and optical flow in IoT-based multimedia communication systems[J]. Wireless Communications and Mobile Computing, 2021, 2021: article ID 6711561.

[16]Wang Kai, Peng Xiaojiang, Yang Jianfei, et al. Region attention networks for pose and occlusion robust facial expression recognition[J]. IEEE Trans on Image Processing: A Publication of the IEEE Signal Processing Society, 2020, 29: 4057-4069.

[17]Liao Jun,Lin Yuanchang,Ma Tengyun,et al. Facial expression recognition methods in the wild based on fusion feature of attention mechanism and LBP[J]. Sensors, 2023, 23(9): article ID 4204.

[18]Aviezer H, Trope Y, Todorov A. Body cues, not facial expressions, discriminate between intense positive and negative emotions[J]. Science, 2012, 338(6111): 1225-1229.

[19]Martinez A M. Context may reveal how you feel[J]. Proc of the National Academy of Sciences of the United States of America, 2019, 116(15): 7169-7171.

[20]Mou Wenxuan, Celiktutan O, Gunes H. Group-level arousal and valence recognition in static images: face, body and context[C]//Proc of the 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Piscataway,NJ: IEEE Press, 2015: 1-6.

[21]Lee J, Kim S, Park J, et al. Context-aware emotion recognition networks[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2019: 10142-10151.

[22]Zhang Minghui, Liang Yumeng, Ma Huadong. Context-aware affective graph reasoning for emotion recognition[C]//Proc of IEEE International Conference on Multimedia and Expo. Piscataway,NJ:IEEE Press, 2019: 151-156.

[23]Ilyes B, Frederic V, Denis H, et al. Multi-label, multi-task CNN approach for context-based emotion recognition[J]. Information Fusion, 2020, 76: 422-428.

[24]Dong Yaojia, Sheng Xiongzou. Driver fatigue monitoring based on head and facial features using hierarchical Bayesian method[J]. Applied Mechanics and Materials, 2014, 548-549: 1093-1097.

[25]Hao Zhihao, Wang Guancheng, Mao Dianhui, et al. A novel method for food market regulation by emotional tendencies predictions from food reviews based on blockchain and SAEs[J]. Foods, 2021,10(6): article ID 1398.

[26]張帥, 傅湘玲, 后羿. 基于投資者情感傾向的P2P市場(chǎng)成交量預(yù)測(cè)模型[J]. 計(jì)算機(jī)科學(xué), 2019, 46(S1): 60-65. (Zhang Shuai, Fu Xiangling, Hou Yi. A predictive model for P2P market trading volume based on investor sentiment bias[J]. Computer Science, 2019, 46(S1): 60-65.)

[27]Meng Hongying, Bianchi-Berthouze N, Deng Yangdong, et al. Time-delay neural network for continuous emotional dimension prediction from facial expression sequences[J]. IEEE Trans on Cybernetics, 2016, 46(4): 916-929.

[28]Joshi T, Sivaprasad S, Pedanekar N. Partners in crime: utilizing arousal-valence relationship for continuous prediction of valence in movies[C]//Proc of the 2nd Workshop on Affective Content Analysis Co-Located with the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press,2019:28-38.

[29]Krizhevsky A, Sutskever I, Hinton E G. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[30]Bolei Z, Agata L, Antonio T, et al. Places: an image database for deep scene understanding[J]. Journal of Vision, 2017, 17(10): 296-296.

[31]Mittal T, Guhan P, Bhattacharya U, et al. EmotiCon: contextaware multimodal emotion recognition using Freges principle[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE Press, 2020: 14222-14231.

[32]Li Zhengqi, Snavely N. MegaDepth: learning single-view depth prediction from Internet photos[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 2041-2050.

[33]Yu L C, Lee L H, Hao Shuai, et al. Building Chinese affective resources in valence-arousal dimensions[C]//Proc of the 15th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016:540-545.

[34]Mikolov T, Chen Kai, Corrado G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-09-07). https://arxiv.org/abs/1301.3781.

[35]Laurens V D M, Hinton G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9(2605): 2579-2605.

[36]Kosti R, Alvarez J. M, Recasens A. Emotion recognition in context[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2017: 1960-1968.

[37]Omar I J, AnaMaria C, Stéphane B, et al. Prediction of continuous emotional measures through physiological and visual data[J]. Sensors, 2023, 23(12): article ID 5613.

[38]McFarland J D, Parvaz A M, Sarnacki A W, et al. Prediction of subjective ratings of emotional pictures by EEG features[J]. Journal of Neural Engineering, 2017, 14(1): article ID 016009.