国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多模態(tài)的情感分析技術(shù)綜述

2021-07-22 17:02劉繼明張培翔張偉東
計(jì)算機(jī)與生活 2021年7期
關(guān)鍵詞:模態(tài)文獻(xiàn)特征

劉繼明,張培翔,劉 穎,3,4,張偉東,4,房 杰,3,4

1.西安郵電大學(xué) 通信與信息工程學(xué)院,西安 710121

2.西安郵電大學(xué) 圖像與信息處理研究所,西安 710121

3.陜西省無線通信與信息處理技術(shù)國際合作研究中心,西安 710121

4.西安郵電大學(xué) 電子信息現(xiàn)場勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室,西安 710121

情感是生物對(duì)外界價(jià)值關(guān)系產(chǎn)生的主觀反應(yīng),也是生物智能的重要組成部分[1]。在日常生活中,人們一般都是通過面部表情來獲取他人的情感狀態(tài),但是某一些情況下,人們也會(huì)根據(jù)語氣、肢體動(dòng)作等其他一些細(xì)微的變化來獲取他人的情感狀態(tài)。在服務(wù)型機(jī)器人、審訊、娛樂等方面需要通過計(jì)算機(jī)的幫助來獲得人類準(zhǔn)確的情感狀態(tài),因此情感分析體現(xiàn)了越來越重要的研究價(jià)值。

情感分析的理論和算法構(gòu)建涉及人工智能(artificial intelligence,AI)、計(jì)算機(jī)視覺(computational vision,CV)和自然語言處理(natural language processing,NLP)等多個(gè)方面,是一個(gè)多學(xué)科交叉的研究領(lǐng)域。早在20 世紀(jì),Ekman 等人[2]就將人類的情感分為憤怒、厭惡、恐懼、快樂、悲傷和驚訝六種基本情感,奠定了當(dāng)今表情識(shí)別的基礎(chǔ)。在后來的研究中,蔑視也被認(rèn)為是人類的基本情感之一。

在現(xiàn)有的文獻(xiàn)中,主要根據(jù)面部表情、文本以及語音中的一種模態(tài)來對(duì)情感進(jìn)行分析。在面部表情識(shí)別(facial expression recognition,F(xiàn)ER)中,傳統(tǒng)的方法主要有基于幾何和外觀的方法?;趲缀蔚姆椒m然簡單易行,但是容易忽略局部細(xì)節(jié)信息。基于外觀的方法主要是根據(jù)面部的紋理變化來判斷情緒的變化,具有良好的光照不變性。在面部的紋理特征提取中,局部二值模式(local binary pattern,LBP)和Gabor 小波因具有較好的性能而被廣泛應(yīng)用。情感極性是指積極、消極以及中性的情感狀態(tài)。通過文本分析得到情感極性的方法又稱為意見挖掘,傳統(tǒng)的方法是基于情感詞典,該方法通過人為構(gòu)建情感詞典并將其作為工具來判斷情感極性。由于情感詞典中情感詞的不完整,該方法具有很大的局限性。語音情感分析主要是提取語音中的韻律、音質(zhì)等特征來進(jìn)行分析。近年來,隨著深度學(xué)習(xí)的發(fā)展,面部表情、文本和語音三種模態(tài)都嘗試用深度學(xué)習(xí)的方法來進(jìn)行情感分析。在基于深度學(xué)習(xí)的方法中,面部表情信息主要用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)以及與傳統(tǒng)方法相結(jié)合進(jìn)行情感分析;文本信息主要用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)來進(jìn)行情感分析;語音情感分析主要用支持向量機(jī)(support vector machine,SVM)、隱馬爾科夫模型(hidden Markov model,HMM)等來進(jìn)行分析?;谏疃葘W(xué)習(xí)的方法在這三種模態(tài)的情感分析中都取得了不錯(cuò)的效果,但是由于數(shù)據(jù)集等原因,在訓(xùn)練模型時(shí)仍然存在一些不可避免的誤差。

在情感分析的發(fā)展過程中,許多研究者用一種模態(tài)來進(jìn)行情感分析。由于用單模態(tài)來進(jìn)行情感分析時(shí)只能在該模態(tài)獲得情感信息,在某些情況下有很多局限性。如圖1 所示,在對(duì)人物進(jìn)行情感分析時(shí),若僅僅考慮文本信息,會(huì)得到一樣的結(jié)果,只有結(jié)合面部表情后才能得到正確的情感極性。隨著研究的深入,為了解決單模態(tài)的局限性,研究者開始結(jié)合兩種或兩種以上的模態(tài)來實(shí)現(xiàn)跨模態(tài)的情感分析。多模態(tài)的情感分析有效解決了單模態(tài)的局限性,并且提高了結(jié)果的準(zhǔn)確度。圖2 顯示了一個(gè)多模態(tài)情感分析的框架。該框架包含兩個(gè)基本步驟:分別處理單模態(tài)的數(shù)據(jù)和將處理后的數(shù)據(jù)進(jìn)行融合。這兩個(gè)步驟都很重要,如果單一模態(tài)的數(shù)據(jù)處理不好,會(huì)對(duì)多種模態(tài)的情感分析結(jié)果產(chǎn)生負(fù)面影響,而融合方式的性能不好會(huì)破壞多模態(tài)系統(tǒng)的穩(wěn)定性[3]。

Fig.1 Limitations of single mode圖1 單一模態(tài)的局限性

Fig.2 Framework for multi-modal sentiment analysis圖2 多模態(tài)情感分析的框架

在情感分析中,目前常用的信息有面部表情信息、文本信息和語音信息,也有一些研究者嘗試用姿態(tài)、腦部信息來進(jìn)行情感分析。多模態(tài)的情感分析是指由兩種及兩種以上的模態(tài)信息結(jié)合來進(jìn)行情感分析。在特征提取階段,多模態(tài)的情感分析與單模態(tài)的特征提取方法相同。利用多模態(tài)和單模態(tài)進(jìn)行情感分析最大的區(qū)別就是在于多模態(tài)需要將單模態(tài)的信息進(jìn)行融合,從而得到情感極性。結(jié)合現(xiàn)有文獻(xiàn),模態(tài)融合主要包括三種方法,分別是特征級(jí)融合、決策級(jí)融合以及混合融合。

在多模態(tài)情感分析發(fā)展過程中,學(xué)者從不同的角度對(duì)現(xiàn)有的技術(shù)進(jìn)行了總結(jié)。文獻(xiàn)[4]通過基于視覺信息、語音信息、文本信息以及腦部信息的情感分析分別對(duì)現(xiàn)有的技術(shù)進(jìn)行了總結(jié)。文獻(xiàn)[5]對(duì)情感識(shí)別、意見挖掘和情緒分析做了詳細(xì)介紹和區(qū)分,并且對(duì)情感分析所用到的文本、語音和視覺三種模態(tài)的技術(shù)做了分類總結(jié)。文獻(xiàn)[6]對(duì)現(xiàn)有的單模態(tài)情感分析技術(shù)進(jìn)行討論,然后對(duì)近幾年的多模態(tài)情感分析文獻(xiàn)進(jìn)行概括總結(jié)的同時(shí)指出了其模態(tài)融合的方法。文獻(xiàn)[7]從基于深度學(xué)習(xí)的角度對(duì)現(xiàn)有的模態(tài)融合算法進(jìn)行了歸納總結(jié)。與上述綜述相比,本文在介紹單模態(tài)情感分析技術(shù)的基礎(chǔ)上著重對(duì)多模態(tài)情感分析進(jìn)行歸納總結(jié),并且對(duì)文中提到的算法進(jìn)行對(duì)比分析,最后重點(diǎn)介紹了多模態(tài)融合技術(shù)并對(duì)現(xiàn)有問題進(jìn)行總結(jié)。

1 多模態(tài)情感分析數(shù)據(jù)集

目前國內(nèi)外多模態(tài)情感數(shù)據(jù)庫大多來源于網(wǎng)絡(luò)視頻評(píng)論或人為制作,對(duì)于科研領(lǐng)域仍是半公開或者不公開的狀態(tài)。由于模態(tài)選擇的不同以及數(shù)據(jù)集的局限性,一些研究者會(huì)根據(jù)自己的需求來建立所需要的情感數(shù)據(jù)集。用于多模態(tài)情感分析的可用數(shù)據(jù)集大多是從不同在線視頻共享平臺(tái)上的產(chǎn)品評(píng)論收集的。表1 總結(jié)了常用的多模態(tài)情感分析數(shù)據(jù)集。

SEED 數(shù)據(jù)集[8]:該數(shù)據(jù)集收集了15 名(男性7名,女性8 名)受試者在觀看15 個(gè)中國電影剪輯時(shí)的腦電信號(hào)。其標(biāo)簽為積極、中性和消極三種。

新浪微博數(shù)據(jù)集[9]:數(shù)據(jù)集收集了新浪微博中關(guān)于新聞以及娛樂八卦的評(píng)論,共包括6 171 條評(píng)論,其中有4 196 條肯定消息,1 354 條否定消息和621 條中性消息,5 859 條消息具有一個(gè)伴隨圖像。情感標(biāo)注為三分類。

Yelp 數(shù)據(jù)集[10]:該數(shù)據(jù)集從Yelp.com 評(píng)論網(wǎng)站收集關(guān)于餐廳和食品的評(píng)論。一共有44 305 條評(píng)論和233 569 張圖片,其中每條評(píng)論有13 個(gè)句子,23 個(gè)單詞。情感標(biāo)注為1~5 的5 個(gè)分?jǐn)?shù)。

Multi-ZOL 數(shù)據(jù)集[11]:該數(shù)據(jù)集收集了關(guān)于5 288條多模態(tài)的關(guān)于手機(jī)的評(píng)論信息,其中每條數(shù)據(jù)至少包含一個(gè)文本內(nèi)容和一個(gè)圖像級(jí)。情感標(biāo)注為1~10 的10 個(gè)分?jǐn)?shù)。

DEAP 數(shù)據(jù)集[12]:該數(shù)據(jù)集收集了32 名(一半男一半女)受試者在觀看音樂視頻時(shí)的生理信號(hào)和受試者對(duì)視頻的Valence、Arousal、Dominance、Liking 的心理量表,同時(shí)也包括前22 名參與者的面部表情視頻。標(biāo)簽為消極到積極1~9 的9 個(gè)分?jǐn)?shù)。

CH-SIMS 數(shù)據(jù)集[13]:該數(shù)據(jù)集中包含60 個(gè)原始視頻,剪輯出2 281 個(gè)視頻片段,每個(gè)片段長度不小于1 s 且不大于10 s。在每個(gè)視頻片段中,除了說話者的面部以外不會(huì)出現(xiàn)其他面部,且只包含普通話。數(shù)據(jù)集的情感標(biāo)注為-1(負(fù))、0(中性)或1(正)三種。

YouTube 數(shù)據(jù)集[14]:該數(shù)據(jù)集包含從YouTube 上收集整理的47 個(gè)不同產(chǎn)品的評(píng)論視頻。視頻由不同年齡、不同種族背景的20名女性以及27名男性對(duì)產(chǎn)品的觀點(diǎn)講述組成,且所有視頻長度都被規(guī)范為30 s。在進(jìn)行標(biāo)注時(shí),3 名人員隨機(jī)觀看并用積極、消極、中性三種標(biāo)簽對(duì)視頻進(jìn)行標(biāo)注。該數(shù)據(jù)集共包含13 個(gè)積極、22 個(gè)中性以及12 個(gè)消極標(biāo)簽的視頻序列。

ICT-MMMO 數(shù)據(jù)集[15]:該數(shù)據(jù)集包含了來自YouTube 和ExpoTV 中的370 個(gè)關(guān)于電影評(píng)論的視頻。視頻中不同的人對(duì)著攝像機(jī)表達(dá)1~3 min 的電影評(píng)論。此數(shù)據(jù)集中包括228 個(gè)正面評(píng)論、23 個(gè)中立評(píng)論和119 個(gè)負(fù)面評(píng)論。

MOSI 數(shù)據(jù)集[16]:該數(shù)據(jù)集包含了YouTube 上的93 個(gè)關(guān)于電影評(píng)論的視頻博客。視頻中包括年齡為20~30 歲以及來自不同種族背景的41 位女性和48 位男性的2~5 min 的電影評(píng)論。數(shù)據(jù)集中擁有從-3 到+3 的視頻標(biāo)簽,代表7 類情感傾向。

News Rover Sentiment數(shù)據(jù)集[17]:該數(shù)據(jù)集是新聞?lì)I(lǐng)域的數(shù)據(jù)集,由各種新聞節(jié)目和頻道視頻中的929個(gè)4~15 s的視頻組成。該數(shù)據(jù)集的標(biāo)注為三分類。

IEMOCAP 數(shù)據(jù)集[18]:該數(shù)據(jù)集包含了5 個(gè)男演員和5 個(gè)女演員在情感互動(dòng)過程中的大約12 h 視聽數(shù)據(jù),該數(shù)據(jù)包括對(duì)話者的音頻、視頻、文本、面部和姿態(tài)信息等。情感標(biāo)簽為憤怒、快樂、悲傷、中立等10 個(gè)標(biāo)簽。

2 單模態(tài)的情感分析算法

情感分析主要是通過一些表達(dá)情感的方式(比如面部表情等)對(duì)人們的情感進(jìn)行分析。目前,主流的單模態(tài)的情感分析主要有基于面部表情信息和基于文本信息的情感分析。

不同的人物在表達(dá)情感時(shí)的方式不同:當(dāng)一個(gè)人趨向于用語言表達(dá)情感時(shí),那么其音頻特征可能包含較多的情感線索;如果一個(gè)人趨向于用面部表情來進(jìn)行情感表達(dá),那么其面部表情特征可能包含較多的情感線索。由于人們多用說話方式的改變、音調(diào)的高低或者面部表情的變化對(duì)自己的情感狀態(tài)進(jìn)行表達(dá),本章將重點(diǎn)介紹基于面部表情信息、文本信息以及語音信息的情感分析技術(shù)。

2.1 基于面部表情的情感分析

在日常生活中,面部表情信息是人們相互獲得情感狀態(tài)的常用方式,因此面部表情信息在情感分析的過程中有很重要的意義。根據(jù)特征表示的不同,F(xiàn)ER 系統(tǒng)可分為靜態(tài)圖像的FER 和動(dòng)態(tài)序列的FER 兩大類[9]。在動(dòng)態(tài)序列的FER 中,面部表情呈現(xiàn)出兩個(gè)特點(diǎn):空時(shí)性和顯著性。動(dòng)態(tài)序列的FER 中常常忽略面部表情的顯著性,為了解決這一問題,文獻(xiàn)[19]提出一種基于空時(shí)注意力網(wǎng)絡(luò)的面部表情識(shí)別方法,該方法在空域子網(wǎng)絡(luò)和時(shí)域子網(wǎng)絡(luò)中加入相應(yīng)的注意力模塊,來提高CNN 和RNN 提取特征時(shí)的性能。

面部表情識(shí)別過程包括三個(gè)階段,分別是人臉檢測(cè)、特征提取與選擇以及分類。根據(jù)所采用的特征表示,可分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。

2.1.1 傳統(tǒng)的FER 方法

目前,F(xiàn)ER 中常用特征有幾何特征、外觀特征、統(tǒng)計(jì)特征和運(yùn)動(dòng)特征等。基于幾何特征的方法是對(duì)人臉構(gòu)建幾何特征矢量,且每幅圖像只保存一個(gè)特征矢量;基于外觀特征的方法主要對(duì)面部的紋理特征進(jìn)行提取,目前常用的紋理特征主要有:LBP、基于頻率域的Gabor 小波特征等;基于整體統(tǒng)計(jì)特征的方法可以盡可能多地保留圖像中的主要信息,目前主要有主成分分析(principal component analysis,PCA)和獨(dú)立主元分析(independent component correlation algorithm,ICA);基于運(yùn)動(dòng)特征的方法對(duì)動(dòng)態(tài)圖像序列中的運(yùn)動(dòng)特征進(jìn)行提取,常用的是光流法。表2 從概念和優(yōu)缺點(diǎn)兩方面對(duì)傳統(tǒng)的FER 特征提取方法進(jìn)行了總結(jié)。

Table 2 Traditional FER feature extraction methods表2 傳統(tǒng)的FER 特征提取方法

2.1.2 基于深度學(xué)習(xí)的FER 方法

近年來,研究者嘗試用深度學(xué)習(xí)的方法進(jìn)行面部表情識(shí)別,令人驚喜的是,深度學(xué)習(xí)在面部表情識(shí)別中也取得了良好的效果,研究者對(duì)面部表情識(shí)別的研究也逐漸從傳統(tǒng)的方法轉(zhuǎn)向深度學(xué)習(xí)方法。

文獻(xiàn)[20]提出一種基于CNN 集成的面部表情識(shí)別方法,該方法在一組CNN 網(wǎng)絡(luò)中設(shè)計(jì)了3 個(gè)不同的結(jié)構(gòu)化子網(wǎng)絡(luò),分別包含3、5、10 個(gè)卷積層,圖3 為集成CNN 的框架。該模型包括兩個(gè)階段:第一階段將面部圖像作為輸入,并將其提供給3 個(gè)CNN 子網(wǎng)絡(luò),這是該模型的核心部分;第二階段則根據(jù)前一階段的輸出預(yù)測(cè)表情,將這些子網(wǎng)絡(luò)輸出結(jié)合起來,以獲得最準(zhǔn)確的最終決策。

Fig.3 Framework of integrated CNN圖3 集成CNN 的框架

由于傳統(tǒng)方法中的LBP 具有旋轉(zhuǎn)不變性和對(duì)光照不敏感等優(yōu)點(diǎn),文獻(xiàn)[21]提出基于VGG-NET 的特征融合FER 方法,該方法將LBP 特征和CNN 卷積層提取的特征送入改進(jìn)的VGG-16 的網(wǎng)絡(luò)連接層中進(jìn)行加權(quán)融合,最后將融合后的特征送入Softmax 分類器獲取各類特征的概率,完成基本的6 種表情分類。圖4 為該方法的基本框架。

Fig.4 VGG-NET based feature fusion for FER圖4 基于VGG-NET 的特征融合FER 方法

基于深度學(xué)習(xí)的方法彌補(bǔ)了傳統(tǒng)方法在面部表情特征提取方面的缺點(diǎn),提升了識(shí)別效果,同時(shí)也存在著一些問題?;谏疃葘W(xué)習(xí)的方法需要大量的樣本來進(jìn)行模型的訓(xùn)練,以訓(xùn)練出穩(wěn)定、可靠的面部表情識(shí)別模型。但是目前的面部表情數(shù)據(jù)集中的圖像數(shù)量較少,在對(duì)模型訓(xùn)練時(shí)可能會(huì)存在過擬合的現(xiàn)象。為了減輕過擬合問題,研究者對(duì)擴(kuò)充FER 數(shù)據(jù)庫進(jìn)行了研究。文獻(xiàn)[22]提出一種基于cBEGAN(conditional boundary equilibrium generative adversarial networks)的數(shù)據(jù)擴(kuò)充方法,這種方法收斂速度快,并且可以通過添加輔助條件標(biāo)簽信息來控制生成數(shù)據(jù)的類別。圖5 為cBEGAN 模型,其中G、D、Enc、Dec、Rlr和Rlg分別代表生成器、鑒別器、編碼器、解碼器和兩個(gè)重建損耗。

數(shù)據(jù)集中也存在著一些不可避免的問題:一個(gè)是在對(duì)圖像標(biāo)注時(shí),依賴標(biāo)注人員的主觀判斷,可能會(huì)出現(xiàn)標(biāo)記錯(cuò)誤的現(xiàn)象;另一個(gè)是數(shù)據(jù)中存在一些模糊的或者有遮擋的圖像。用存在問題的數(shù)據(jù)集進(jìn)行模型的訓(xùn)練時(shí),可能會(huì)使模型在優(yōu)化的初期就不合邏輯[23]。針對(duì)模糊的圖像以及錯(cuò)誤標(biāo)簽的問題,文獻(xiàn)[23]提出一種自修復(fù)網(wǎng)絡(luò)(selfcure network,SCN),該網(wǎng)絡(luò)為了防止樣本的過擬合問題將數(shù)據(jù)集中的樣本進(jìn)行排序正則化加權(quán)。在排名最低的組中通過重標(biāo)記機(jī)制改變這些樣本標(biāo)簽來對(duì)錯(cuò)誤標(biāo)簽進(jìn)行修改。

由于文化背景以及采集條件的不同,數(shù)據(jù)集中的數(shù)據(jù)可能會(huì)產(chǎn)生明顯的偏差,文獻(xiàn)[24]深入研究了這種偏差,首次探索了數(shù)據(jù)集差異的內(nèi)在原因,提出了深層情感適應(yīng)網(wǎng)絡(luò)(emotion-conditional adaption network,ECAN),該方法可以同時(shí)匹配域間的邊緣分布和條件分布,并且通過一個(gè)可學(xué)習(xí)的重加權(quán)參數(shù)來解決被廣泛忽視的表達(dá)式類分布偏差。由于數(shù)據(jù)集中的數(shù)據(jù)較少,以及數(shù)據(jù)集中的問題,有些研究者提出用遷移學(xué)習(xí)的方法來彌補(bǔ)FER 數(shù)據(jù)集少的缺點(diǎn),但是遷移學(xué)習(xí)也會(huì)產(chǎn)生一些冗余信息。文獻(xiàn)[25]基于面部肌肉運(yùn)動(dòng)產(chǎn)生面部表情變化的原理,提出了一種新的端到端的深度網(wǎng)絡(luò)框架以解決此問題。

2.2 基于文本的情感分析

文本情感分析是指從文本中提取可以表達(dá)觀點(diǎn)、情感的信息。文本情感分析的應(yīng)用有很多,包括獲取用戶滿意度信息、根據(jù)用戶情緒推薦產(chǎn)品、預(yù)測(cè)情緒等。涉及人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語言處理等多個(gè)研究領(lǐng)域。文獻(xiàn)[26]將文本情感分析分為兩部分:第一部分是觀點(diǎn)挖掘,處理意見的表達(dá);第二部分是情感挖掘,關(guān)注情感的表達(dá)。觀點(diǎn)挖掘更關(guān)注的是文本中表達(dá)的觀點(diǎn)的概念,這些觀點(diǎn)可以是積極的、消極的,也可以是中性的,而情感挖掘則是研究反映在文本中的情緒(如快樂、悲傷等)。

在文本情感分析中,情感信息抽取是最重要的部分。情感信息抽取的效果直接影響文本情感分析的效果。情感信息的抽取就是對(duì)文本中情感詞的抽取,情感詞匯可以分為三種類型:(1)只包含情感詞的詞匯(單詞列表);(2)由情感詞和極性取向構(gòu)成的詞匯(只有正負(fù)注釋的單詞列表);(3)具有方向和強(qiáng)度的情感詞[27]。

隨著對(duì)文本情感分析研究的深入以及大量帶有情感色彩的文本信息的出現(xiàn),研究者從剛開始對(duì)情感詞進(jìn)行分析逐漸轉(zhuǎn)變到句子以及篇章級(jí)別的研究。目前,基于情感詞典和深度學(xué)習(xí)的方法是文本情感分析的兩種主要方法。

2.2.1 基于情感詞典的方法

Fig.5 cBEGAN model圖5 cBEGAN 模型

基于情感詞典的方法首先對(duì)情感詞進(jìn)行抽取,然后根據(jù)情感詞典中包含的單詞及相關(guān)詞匯的情感極性來進(jìn)行情感估計(jì)[28]。常用詞典包括WordNet、GI(general inquirer)詞典等?;谇楦性~典的方法在識(shí)別中具有簡單且識(shí)別速度快的特點(diǎn),但同時(shí)也存在一些不可能避免的缺點(diǎn)。一個(gè)缺點(diǎn)就是這種方法比較依賴情感詞的個(gè)數(shù),另一個(gè)就是有一些詞語一詞多義,在識(shí)別時(shí)可能會(huì)造成誤判。為了增加情感詞典跨領(lǐng)域的適應(yīng)性,文獻(xiàn)[27]利用分布式語義的概念,提出了一種將語義相似度與嵌入表示相結(jié)合的情感分類模型,該方法通過計(jì)算輸入詞與詞匯之間的語義相似度來提取文本的特征,有效地解決了情感詞典中詞匯覆蓋率和領(lǐng)域適應(yīng)方面的局限性。文獻(xiàn)[29]提出了一種基于多源數(shù)據(jù)融合的方面級(jí)情感分析方法,該方法可以從不同類型的資源中積累情感知識(shí),并且利用BERT(bidirectional encoder representation from transformers)來生成用于情感分析的方面特定的句子表示來使模型能夠做出更準(zhǔn)確的預(yù)測(cè)。

2.2.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法

在文本情感分析領(lǐng)域中,傳統(tǒng)的機(jī)器學(xué)習(xí)方法也廣泛用于建立情感分析模型,這些方法首先建立一個(gè)訓(xùn)練集,并通過情感來標(biāo)記訓(xùn)練數(shù)據(jù),然后從訓(xùn)練數(shù)據(jù)中提取一組特征,并將其送到分類器模型中進(jìn)行分析,常用的分類模型有邏輯回歸、支持向量機(jī)、隨機(jī)森林、最大熵分類等[30]。2002 年,文獻(xiàn)[31]首次將樸素貝葉斯、最大熵分類和SVM 三種機(jī)器學(xué)習(xí)方法用在文本情感分析中,取得了不錯(cuò)的準(zhǔn)確度。文獻(xiàn)[32]基于多特征組合的方式用SVM 和條件隨機(jī)場(conditional random field,CRF)分別進(jìn)行文本情感分析,通過實(shí)驗(yàn)表明在選用的特征中情感詞對(duì)結(jié)果的影響最大,程度副詞對(duì)結(jié)果的影響最小,并且還可能降低結(jié)果的準(zhǔn)確度,同時(shí)還表明在相同的特征條件下,CRF 的效果比SVM 好。為了提高機(jī)器學(xué)習(xí)算法在文本情感分析的準(zhǔn)確度,文獻(xiàn)[33]利用集成學(xué)習(xí)的方法結(jié)合多種分類器來進(jìn)行情感分析。該文將常用的7 個(gè)不同的傳統(tǒng)機(jī)器學(xué)習(xí)分類模型用Bagging 和AdaBoost-r 集成在兩個(gè)不同的數(shù)據(jù)集上進(jìn)行交叉驗(yàn)證。實(shí)驗(yàn)結(jié)果表明用集成學(xué)習(xí)方法比單一分類器的準(zhǔn)確度高,并且在集成學(xué)習(xí)模型中,Bagging 的表現(xiàn)優(yōu)于AdaBoost-r。

2.2.3 基于深度學(xué)習(xí)的方法

基于深度學(xué)習(xí)對(duì)文本進(jìn)行情感分析的原理是將提取后的文本特征由計(jì)算機(jī)根據(jù)某種算法進(jìn)行處理,然后對(duì)其分類。由于CNN 在文本挖掘和NLP 任務(wù)方面表現(xiàn)出了良好的適應(yīng)性,研究人員用CNN 進(jìn)行了一系列實(shí)驗(yàn),證明CNN 在句子級(jí)的情感分析任務(wù)上表現(xiàn)出了良好的性能。受此啟發(fā),文獻(xiàn)[34]提出了一種基于CNN 的文本分類模型,通過使用二維TFIDF(term frequency-inverse document frequency)特征代替預(yù)先訓(xùn)練的方法,得到了較好的識(shí)別準(zhǔn)確度,圖6 為該模型的基本結(jié)構(gòu)。由于在文本情感分析中文本詞向量作為特征對(duì)CNN 進(jìn)行訓(xùn)練時(shí)無法充分利用其情感特征等問題,文獻(xiàn)[35]提出了一種基于多通道卷積神經(jīng)網(wǎng)絡(luò)(multi-channels convolutional neural networks,MCCNN)的中文微博情感分析模型,該模型可以通過多方面信息學(xué)習(xí)不同輸入特征之間的聯(lián)系,挖掘出更多的隱藏特征信息。該模型在多個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),都取得了良好的效果。

Fig.6 Text classification model based on convolutional neural network圖6 卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型

由于現(xiàn)有文本情感分析算法中網(wǎng)絡(luò)輸入單一,同時(shí)缺乏考慮相似文本實(shí)例對(duì)整體分類效果的影響,文獻(xiàn)[36]提出一種融合CNN 和注意力的評(píng)論文本情感分析模型。在文本情感分析中,人們常常會(huì)忽略詞語和上下文之間的關(guān)系,進(jìn)而影響情感分析的準(zhǔn)確度。文獻(xiàn)[37]提出一種基于BGRU(bidirectional gated recurrent unit)深度神經(jīng)的中文情感分析方法,該方法通過BGRU 對(duì)文本信息的上下文提取進(jìn)行分析,通過實(shí)驗(yàn)表明,加入上下文信息后可以有效提高準(zhǔn)確度。文獻(xiàn)[38]提出了一個(gè)CNN 和RNN 的聯(lián)合架構(gòu),該方法利用CNN 生成的粗粒度局部特征作為RNN 的輸入來對(duì)短文本進(jìn)行情感分析。神經(jīng)網(wǎng)絡(luò)模型在自然語言處理中非常強(qiáng)大,但該模型有兩個(gè)主要缺點(diǎn):訓(xùn)練數(shù)據(jù)集較小時(shí),該模型可能會(huì)過擬合;當(dāng)類別數(shù)較大時(shí),它不能精確地限定類別信息。為了解決這兩個(gè)缺點(diǎn),文獻(xiàn)[39]提出了一種文本生成新模型CS-GAN(category sentence generative adversarial network),它是RNN、生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)和強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)的集合。該方法不僅可以通過CS-GAN擴(kuò)展任何給定的數(shù)據(jù)集,還可以直接用GAN 學(xué)習(xí)句子結(jié)構(gòu),提高該模型在不同數(shù)據(jù)集上的泛化能力。

2.3 基于語音的情感分析

在日常生活中,以語音進(jìn)行交流是必不可少的方式之一。語音中含有豐富的情感信息,不僅僅只是文本信息,還包括音調(diào)、韻律等可以顯示情感的特征。近年來,利用多媒體計(jì)算機(jī)系統(tǒng)研究語音中的情感信息越來越受到研究者的重視,分析情感特征、判斷和模擬說話人的喜怒哀樂成為一個(gè)意義重大的研究課題。在現(xiàn)有的文獻(xiàn)中,基于語音的情感分析研究大部分集中在識(shí)別一些聲學(xué)特征,如韻律特征、音質(zhì)特征和譜特征。目前主要分為基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。

2.3.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法

在語音情感分析中,有一些研究集中在情感語音數(shù)據(jù)庫的構(gòu)建、語音特征提取、語音情感識(shí)別算法等方面?,F(xiàn)有成果中,傳統(tǒng)的情感識(shí)別的主要方法有SVM、K最近鄰(K-nearest neighbor,KNN)、HMM[40]、高斯混合模型(Gaussian mixture model,GMM)等。如文獻(xiàn)[41]通過基于機(jī)器學(xué)習(xí)的PPCA(probability PCA)工具包來提取韻律特征進(jìn)行情感分析。文獻(xiàn)[42]通過使用預(yù)先訓(xùn)練的SVM 和線性判斷分析(linear discriminant analysis,LDA)分類器將語音情感特征分類輸入來完成語音情感分析。

目前仍無法準(zhǔn)確地確定各類情感的本質(zhì)特征由哪些語音情感特征參數(shù)決定,理論上說,提取統(tǒng)計(jì)的特征參數(shù)越詳細(xì),情感類型越容易辨識(shí),但實(shí)際上必須在大量情感信息中挑選出能準(zhǔn)確反映情緒狀況的特征參數(shù),才能獲得良好的語音情感識(shí)別性。通過對(duì)聲學(xué)特征的對(duì)比分析,文獻(xiàn)[43]結(jié)合韻律特征和質(zhì)量特征導(dǎo)出MFCC(Mel frequency cepstrum coefficient)、LPCC(linear predictive cepstral coefficient)和MEDC(Mel-energy spectrum dynamic coefficient)三種特征來訓(xùn)練SVM 進(jìn)行情感分析,取得了不錯(cuò)的效果,并且該方法具有較好的魯棒性。

2.3.2 基于深度學(xué)習(xí)的方法

隨著深度學(xué)習(xí)的日益發(fā)展,其被更多的研究者用于識(shí)別語音中的情感分析中。文獻(xiàn)[44]利用CNN從音頻中提取情感特征,然后將提取到的特征送入分類器進(jìn)行情感分類識(shí)別。在大規(guī)模的網(wǎng)絡(luò)語音數(shù)據(jù)中進(jìn)行情感分析一直以來是一個(gè)挑戰(zhàn),為解決這個(gè)問題,文獻(xiàn)[45]提出了一個(gè)深度稀疏神經(jīng)網(wǎng)絡(luò)(deep sparse neural network,DSNN)模型,該模型提取話語中三方面的特征:聲學(xué)特征(音調(diào)、能量等)、內(nèi)容信息(如描述性相關(guān)和時(shí)間相關(guān)性)和地理信息(如地理-社會(huì)相關(guān)性)。然后融合所有的特征來自動(dòng)預(yù)測(cè)情感信息。

2.4 小結(jié)

本節(jié)主要介紹了現(xiàn)有的單模態(tài)的情感分析方法。如圖7 所示,根據(jù)模態(tài)不同分別對(duì)文獻(xiàn)進(jìn)行敘述。在FER 中,現(xiàn)有算法多用傳統(tǒng)方法與深度學(xué)習(xí)相結(jié)合的方法來進(jìn)行情感分析,在數(shù)據(jù)集方面用GAN、遷移學(xué)習(xí)等進(jìn)行擴(kuò)充。

在文本情感分析中,由于傳統(tǒng)方法中情感詞典受情感詞數(shù)量和個(gè)數(shù)的限制,大多數(shù)研究者使用深度學(xué)習(xí)中的RNN、LSTM 等模型來進(jìn)行分析,同時(shí)加入注意力機(jī)制來提高分析效果;在語音情感分析中,多用深度學(xué)習(xí)的方法來進(jìn)行分析,而難以采集到大量包含情感的語音數(shù)據(jù)是限制對(duì)其深入研究的主要因素之一。

由于從單模態(tài)中獲得的信息量有限,想要進(jìn)一步提高情感分析的準(zhǔn)確度變得十分困難。因此有研究者嘗試從多種模態(tài)中獲取更多的信息進(jìn)行情感分析來提高準(zhǔn)確度。

3 多模態(tài)情感分析

用單模態(tài)進(jìn)行情感分析有識(shí)別率低、穩(wěn)定性差等局限性,在情感分析的發(fā)展過程中,研究者利用多種模態(tài)進(jìn)行情感分析來提高其準(zhǔn)確性以及穩(wěn)定性。在多模態(tài)情感分析中,模態(tài)融合的效果會(huì)直接影響結(jié)果的準(zhǔn)確性[46]。因此對(duì)單模態(tài)的信息處理完成時(shí),還需要根據(jù)所用模態(tài)的不同以及模態(tài)中信息的不同選擇適當(dāng)?shù)哪B(tài)融合方法。

本章先對(duì)近幾年的多模態(tài)情感分析文獻(xiàn)根據(jù)模態(tài)融合方式的不同進(jìn)行歸納總結(jié),然后討論了現(xiàn)有的模態(tài)融合算法,最后對(duì)文獻(xiàn)中出現(xiàn)的算法進(jìn)行對(duì)比分析。

3.1 基于多模態(tài)的情感分析

Fig.7 Current research status of monomodal sentiment analysis圖7 單模態(tài)情感分析研究現(xiàn)狀結(jié)構(gòu)框圖

在現(xiàn)有的文獻(xiàn)中,基于多模態(tài)的情感分析除了單模態(tài)的特征提取外,還需要進(jìn)行模態(tài)融合。融合不同模態(tài)的信息是任何多模態(tài)任務(wù)的核心問題,它將從不同的單模態(tài)中提取到的信息集成一個(gè)多模態(tài)特征[47]。多種模態(tài)信息的融合可以為決策提供更加全面的信息,從而提高決策總體結(jié)果的準(zhǔn)確度[48]。目前模態(tài)融合的方式主要分為特征級(jí)融合、決策級(jí)融合和混合融合三種。

3.1.1 特征級(jí)融合

特征級(jí)融合也稱早期融合,在進(jìn)行特征提取后立即集成,通常只是簡單連接它們的表示,廣泛出現(xiàn)在多模態(tài)學(xué)習(xí)任務(wù)中[49]。

在基于特征級(jí)融合的文獻(xiàn)中,文獻(xiàn)[50]建立了首個(gè)在話語層面進(jìn)行注釋的MOUD 數(shù)據(jù)集并且提出了一種基于話語級(jí)的情感分析方法。該方法用OpenEAR、CERT 提取語音和面部的情感特征,將視頻中出現(xiàn)頻率低的單詞刪除,剩余單詞與每個(gè)話語轉(zhuǎn)錄內(nèi)頻率的值相關(guān)聯(lián)得到簡單的加權(quán)圖特征作為文本情感特征,然后使用特征級(jí)融合的方法將三種特征進(jìn)行融合送入SVM 進(jìn)行分析得到情感極性。

由于視頻中的話語之間存在相互依賴和聯(lián)系,一些文獻(xiàn)在對(duì)視頻中人物的情感分析過程中利用這種依賴和聯(lián)系,取得了不錯(cuò)的情感分析效果。文獻(xiàn)[51]提出了一種基于LSTM 的情感分析模型,該模型在進(jìn)行特征提取時(shí)分為兩部分:第一部分用CNN、3d-CNN 和openSMILE 對(duì)文本信息、面部表情信息以及音頻進(jìn)行特征提取;第二部分用bc-LSTM 提取語境話語層面的特征。文獻(xiàn)[52]提出了一種多模態(tài)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),此結(jié)構(gòu)用LSTM 整合了隨時(shí)間變化的視覺信息,并將其與音頻和文本信息通過特征級(jí)融合的方式進(jìn)行情感分析,圖8 為該結(jié)構(gòu)的基本框架。文獻(xiàn)[53]提出了一種卷積遞歸多核學(xué)習(xí)(convolutional recurrent multiple kernel learning,CRMKL)模型。在特征提取時(shí),用openSMILE 提取音頻中音高和聲音強(qiáng)度;在視頻中,為了捕捉時(shí)間相關(guān)性,將時(shí)間t和t+1 的每對(duì)連續(xù)圖像轉(zhuǎn)換成單個(gè)圖像,作為RNN 的輸入,輸出為“正”或“負(fù)”;在文本中,先將西班牙語轉(zhuǎn)換為英語,用word2vec 字典進(jìn)行預(yù)處理形成300 維的向量作為CNN 的輸入來提取特征。在模型中,將提取的特征用基于循環(huán)相關(guān)的特征子集(correlationbased feature subset selection,CFS)和PCA 進(jìn)行特征選擇降低特征維度,然后用多核學(xué)習(xí)(multiple kernel learning,MKL)將特征進(jìn)行特征級(jí)融合,最后進(jìn)行分析得到情感極性。通過實(shí)驗(yàn)表明,加入上下文之間的聯(lián)系進(jìn)行分析時(shí),可以有效提高情感分析的準(zhǔn)確度。

Fig.8 Multi-modal neural network framework for emotion recognition圖8 多模態(tài)神經(jīng)網(wǎng)絡(luò)情感識(shí)別框架

由于在用語音特征區(qū)分憤怒和開心時(shí)準(zhǔn)確率過低,文獻(xiàn)[54]結(jié)合文本和語音來區(qū)分憤怒和開心兩種情緒。該方法用openSMILE 提取聲學(xué)特征,用基于詞典的方法提取文本特征,然后進(jìn)行特征級(jí)融合,將融合后的結(jié)果分別送入SVM 和CNN 中進(jìn)行對(duì)比分析。通過實(shí)驗(yàn)證明文本和語音中包含的情感信息進(jìn)行互補(bǔ),提高了憤怒和開心的區(qū)分準(zhǔn)確率。

由于注意力機(jī)制和門控循環(huán)單元在一些領(lǐng)域取得了不錯(cuò)的效果,在多模態(tài)情感分析的研究中,研究者嘗試將注意力機(jī)制和門控循環(huán)單元引入其中進(jìn)行分析,如文獻(xiàn)[55]結(jié)合音頻和文本進(jìn)行情感分析,提出了一種多特征融合和多模態(tài)融合的新策略(deep feature fusion-audio and text modality fusion,DFFTMF)。在特征提取時(shí),用Librosa 工具包在音頻中提取聲學(xué)特征,用BERT 模型在文本中提取文本特征,然后將其分別輸入到改進(jìn)的Bi-LSTM 和CNN 串行神經(jīng)網(wǎng)絡(luò)中,結(jié)合注意力機(jī)制對(duì)情感特征進(jìn)行改善,分別得到其情感向量,隨后用多模態(tài)注意力機(jī)制和Bi-LSTM 編碼器來選擇性學(xué)習(xí)這些輸入進(jìn)行特征級(jí)融合,最后用softmax 進(jìn)行情感分析。此方法在進(jìn)行模態(tài)融合時(shí)用多模態(tài)注意力機(jī)制重點(diǎn)融合來自音頻和文本互補(bǔ)的情感信息,減少了特征融合的數(shù)量。文獻(xiàn)[56]用視頻信息和文本信息提出了一種改進(jìn)的多模態(tài)情感分析方法。該方法使用自注意力機(jī)制獲得視頻上下文的相關(guān)性,使用交叉注意力機(jī)制學(xué)習(xí)不同模態(tài)之間的相互作用,使用交叉相互的門控機(jī)制來克服單個(gè)模態(tài)中存在的噪聲,選擇性學(xué)習(xí)融合特征向量,隨后使用Bi-GRU 來學(xué)習(xí)每個(gè)模態(tài)的深度特征向量,最后將每個(gè)模態(tài)的深度多模態(tài)特征向量連接用softmax 進(jìn)行情感分析。

文獻(xiàn)[57]利用圖像的深度語義信息提出了一種深度語義以及多主體網(wǎng)絡(luò),從圖像中提取包括對(duì)象和場景在內(nèi)的深度語義特征作為情感分析的附加信息。在視覺信息中,分別選用VGG 模型和Scene-VGG 模型在ImageNet 以及dataset-Place365 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后采用遷移學(xué)習(xí)來克服數(shù)據(jù)集之間的類別差異,將學(xué)習(xí)到的參數(shù)轉(zhuǎn)移到情感分析任務(wù)中,來獲得視覺特征以及場景特征。在文本信息中,引入注意力機(jī)制和LSTM 模型提取文本特征。

由于大多數(shù)現(xiàn)有的任務(wù)方法在進(jìn)行情感分析時(shí)主要依賴文本內(nèi)容,而沒有考慮其他重要的模態(tài)信息,基于此問題,文獻(xiàn)[58]提出了一種用于實(shí)體級(jí)多模態(tài)情感分類的實(shí)體敏感注意和融合網(wǎng)絡(luò)。在文本特征中,將文本分為左上下文、右上下文和目標(biāo)實(shí)體三部分,用三個(gè)LSTM 獲得其上下文信息以及情感特征;在視覺特征中,用殘差網(wǎng)絡(luò)(ResNet)來提取視覺特征并用注意力機(jī)制來獲得其每部分的權(quán)重信息,然后加入門控循環(huán)單元(gate recurrent unit,GRU)來濾除圖像噪聲,最后通過特征級(jí)別融合的方式將兩種模態(tài)的特征融合后送入softmax 中進(jìn)行情感分析。雖然此方式在幾個(gè)評(píng)論數(shù)據(jù)集上都取得了較好的效果,但是其網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,運(yùn)行時(shí)間較長。

3.1.2 決策級(jí)融合

決策級(jí)融合也稱后期融合。在這個(gè)融合過程中,每個(gè)模態(tài)的特征被獨(dú)立地分析,將分析結(jié)果融合為決策向量以獲得最終的決策結(jié)果。決策級(jí)融合的優(yōu)點(diǎn)是當(dāng)任何一個(gè)模態(tài)缺失時(shí),可以通過使用其他模態(tài)來做出決策,這時(shí)需要一個(gè)智能系統(tǒng)來檢測(cè)缺失的模態(tài)。由于在分析任務(wù)中使用了不同的分類器,在決策級(jí)融合階段,所有這些分類器的學(xué)習(xí)過程都變得繁瑣而耗時(shí)[3]。

在基于決策級(jí)融合的方式中,部分文獻(xiàn)僅用單模態(tài)提取的特征進(jìn)行情感分析。文獻(xiàn)[59]提出了一種基于深度CNN的微博視覺和文本的情感分析方法,在該方法中,用CNN 和DNN 分別對(duì)文本信息和視覺信息進(jìn)行情感分析,最后用平均策略和權(quán)重對(duì)兩種模態(tài)的分析結(jié)果進(jìn)行融合。由于中文微博數(shù)據(jù)集較小,在構(gòu)建DNN 模型時(shí)加入DropConnect 防止過擬合。文獻(xiàn)[60]使用文本、視頻和音頻三種模態(tài)提出了一種擅長于異構(gòu)數(shù)據(jù)的基于深層CNN 的特征提取方法。該方法在文本特征提取時(shí),用CNN 對(duì)其情感特征進(jìn)行提?。辉诿娌刻卣魈崛r(shí),將視頻逐幀剪輯獲取靜態(tài)圖像,然后從靜態(tài)圖像中提取面部特征點(diǎn);在音頻特征中,用openSMILE 軟件來提取與音調(diào)、聲音強(qiáng)度相關(guān)的音頻特征,最后將所提取的特征送入單獨(dú)的分類器中進(jìn)行分析,將結(jié)果在決策級(jí)進(jìn)行可并行化的融合。該文和文獻(xiàn)[53]都用基于循環(huán)相關(guān)和主成分分析來減少特征分析時(shí)的數(shù)量。特征選擇雖然加快了情感分析的速度,但同時(shí)可能丟失較為重要的細(xì)節(jié)情感特征信息,對(duì)結(jié)果產(chǎn)生負(fù)面影響。

由于多模態(tài)情感分析數(shù)據(jù)集較少,且注釋的數(shù)據(jù)集中的示例較少,在情感分析模型訓(xùn)練時(shí),得到的結(jié)果可能會(huì)與人物的身份特征相關(guān)聯(lián)。為了解決此類問題,文獻(xiàn)[61]提出了一個(gè)選擇加性(select-additive learning,SAL)學(xué)習(xí)程序來改善神經(jīng)網(wǎng)絡(luò)在多模態(tài)情感分析中的泛化能力。SAL 程序一共分為選擇階段和添加階段兩部分。在選擇階段,SAL 從神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的潛在表征中識(shí)別混雜因素。在加法階段,SAL通過在這些表示中添加高斯噪聲,迫使原始模型丟棄混雜元素。將文獻(xiàn)[44]中的情感分析方法用SAL增加其泛化能力和預(yù)測(cè)情緒后得到SAL-CNN,通過實(shí)驗(yàn)證明,SAL-CNN 在有限數(shù)據(jù)集上得到了不錯(cuò)的效果,并且該方法在不同的數(shù)據(jù)集上進(jìn)行測(cè)試時(shí),也獲得了良好的預(yù)測(cè)精度。

文獻(xiàn)[62]介紹了一種新的損失函數(shù)的回歸模型,稱為SDL(speaker-distribution loss),提出了一個(gè)時(shí)間選擇性注意的模型(temporally selective attention model,TSAM),該模型由注意力模塊、編碼模塊和說話人分布損失函數(shù)三部分組成。注意力機(jī)制通過明確分配注意權(quán)重來幫助模型選擇顯著的時(shí)間步長,在注意力模塊用LSTM 對(duì)序列進(jìn)行預(yù)處理,編碼階段用Bi-LSTM 對(duì)序列觀測(cè)值進(jìn)行編碼并加權(quán)組合作為該模塊的輸出,最后送到SDL 中進(jìn)行情感分析。在模態(tài)的特征提取中,用openFace 提取面部外觀特征,用協(xié)同語音分析庫技術(shù)(collaborative voice analysis repository technologies,COVAREP)提取聲學(xué)特征,文本用Glove得到詞向量。通過實(shí)驗(yàn)表明,加入注意力機(jī)制之后的模型能夠關(guān)注以人為中心的視頻序列的顯著部分,并且取得了不錯(cuò)的效果。

3.1.3 混合融合

混合融合是特征級(jí)融合和決策級(jí)融合方法的結(jié)合。這種融合方法結(jié)合了特征級(jí)融合和決策級(jí)融合的優(yōu)點(diǎn),同時(shí)模型復(fù)雜度和實(shí)現(xiàn)難度也隨之增加。

由于注意力機(jī)制和GRU 在情感分析中表現(xiàn)出較好的性能,文獻(xiàn)[63]提出了一種帶有時(shí)間注意門控的多模態(tài)嵌入LSTM 模型,該模型在單詞級(jí)上進(jìn)行融合,并且可以關(guān)注到最重要的時(shí)間幀,解決了“在每一時(shí)刻要尋找什么樣的情況”和“在交流中什么時(shí)候說話最重要”這兩個(gè)關(guān)鍵問題。在本文中,首次提出了一個(gè)注意層和一個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練的輸入門控制器來解決模態(tài)中的噪聲問題。文獻(xiàn)[64]提出了一種端到端的RNN 模型用來對(duì)情感進(jìn)行分析。此模型可以捕捉所有模態(tài)對(duì)話上下文、聽者和說話者情緒狀態(tài)之間的依賴性以及可用模態(tài)之間的相關(guān)性。在結(jié)構(gòu)上,使用兩種門控循環(huán)單元sGRU 和cGRU 來為對(duì)話者的狀態(tài)和情感建模。除此之外,使用一個(gè)互連的上下文網(wǎng)絡(luò)來學(xué)習(xí)上下文表示,并且使用成對(duì)的注意力機(jī)制來對(duì)每種模態(tài)的有用信息進(jìn)行簡單的表示。此文通過實(shí)驗(yàn)表明成對(duì)的注意力在多模態(tài)數(shù)據(jù)上具有最先進(jìn)的性能。

文獻(xiàn)[65]和文獻(xiàn)[66]引入了幾種不常用的模態(tài)進(jìn)行情感分析。文獻(xiàn)[65]基于面部表情、皮膚電反應(yīng)和腦電圖提出了一種基于混合融合的多模態(tài)情感分析系統(tǒng),圖9為其結(jié)構(gòu)框圖。該系統(tǒng)用8 898張圖片訓(xùn)練得到CNNF模型,輸出為7 個(gè)離散情感類別的概率向量。CNNV和CNNA由腦電圖和皮膚電反應(yīng)(galvanic skin response,GSR)模態(tài)的網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到。加權(quán)單元分別計(jì)算CNNV和CNNA輸出的化合價(jià)和喚醒的加權(quán)和,然后將其送到距離計(jì)算器計(jì)算情感距離,最后將情感距離送到?jīng)Q策樹,與CNNF得到的結(jié)果進(jìn)行融合得到情感狀態(tài)。文獻(xiàn)[66]結(jié)合視頻中的面部表情和姿態(tài)提出一種基于視覺的多模態(tài)情感分析框架,從視頻序列中自動(dòng)識(shí)別面部表情和上身手勢(shì)特征進(jìn)行特征級(jí)融合,隨后將分析結(jié)果用乘積和加權(quán)的方法進(jìn)行決策級(jí)融合得出結(jié)果。由于多模態(tài)情感分析的數(shù)據(jù)集較少,該篇文章所用的數(shù)據(jù)集是自建的一個(gè)面部表情和姿態(tài)的視頻數(shù)據(jù)庫。

3.2 模態(tài)融合相關(guān)算法

由于多模態(tài)技術(shù)的發(fā)展,模態(tài)融合技術(shù)也受到了研究者的廣泛關(guān)注。在模態(tài)融合技術(shù)發(fā)展的初期,大多數(shù)研究者都是使用基于機(jī)器學(xué)習(xí)的方法訓(xùn)練模態(tài)的分類器,如SVM、Logistic 回歸、K-近鄰分類器等,還有一些研究者使用基于規(guī)則的方法,如線性加權(quán)和多數(shù)表決等[67]。隨著深度學(xué)習(xí)的發(fā)展,研究者將深度學(xué)習(xí)的方法引入到模態(tài)融合中。近年來提出了一些經(jīng)典的模態(tài)融合方法如下:

一些研究者將注意力機(jī)制和GRU 引入模態(tài)融合中,通過注意力機(jī)制來獲得模態(tài)的特征向量的權(quán)重。文獻(xiàn)[68]提出了一種融合抽取模型(fusion-extraction network,F(xiàn)ENet)。該模型用一種細(xì)粒度的注意力機(jī)制來交互學(xué)習(xí)視覺和文本信息的跨模態(tài)融合表示向量,可以融合兩種單一模態(tài)中對(duì)情感最有用的信息。在該方法中引入門控機(jī)制調(diào)節(jié)多模態(tài)特征融合時(shí)的權(quán)重以進(jìn)行情感分析。文獻(xiàn)[69]提出了一種基于雙向門控遞歸單元模型獲取話語間的上下文關(guān)系的信息增強(qiáng)融合算法框架,通過CT-BiLSTM(contextual-based bi-directional long short-term memory)獲取文本、音頻和視頻的上下文相關(guān)的單模態(tài)特征,然后用AT-BiGRU(attention-based bi-directional gated recurrent unit)模型來放大與目標(biāo)話語高度相關(guān)的上下文信息。此算法可以優(yōu)先選擇對(duì)情感分析有較大影響的模態(tài),能夠增強(qiáng)對(duì)目標(biāo)話語正確分類結(jié)果影響較大的情感信息。

Fig.9 Cross-subject multi-modal emotion recognition based on hybrid fusion圖9 基于混合融合的跨主體多模態(tài)情感識(shí)別

也有一些研究者將張量引入模態(tài)融合中計(jì)算模態(tài)間的交互作用,如文獻(xiàn)[70]提出了一種張量融合網(wǎng)絡(luò)(tensor fusion network,TFN)新模型,可以端到端地學(xué)習(xí)模態(tài)內(nèi)和模態(tài)間的動(dòng)態(tài)特性,它明確地聚合了單模態(tài)、雙模態(tài)和三種模態(tài)的相互作用。通過三種模態(tài)嵌入子網(wǎng)絡(luò)分別對(duì)語言、視覺和聲學(xué)模態(tài)進(jìn)行模態(tài)內(nèi)動(dòng)力學(xué)建模。文獻(xiàn)[71]將張量的方法和一些神經(jīng)網(wǎng)絡(luò)結(jié)合起來提出了一種深度高階序列融合網(wǎng)絡(luò)(deep higher order sequence fusion,Deep-HOSeq),通過從多模態(tài)時(shí)間序列中提取兩種對(duì)比信息進(jìn)行多模態(tài)融合。第一種是模態(tài)間信息和模態(tài)內(nèi)信息的融合,第二種是多模態(tài)交互的時(shí)間粒度信息。該網(wǎng)絡(luò)用LSTM 從每個(gè)單模態(tài)中獲得模態(tài)內(nèi)信息,然后將每個(gè)模態(tài)內(nèi)信息合并為多模態(tài)張量,取其外積。另一方面利用前饋層從每個(gè)單模態(tài)中獲得潛在特征,然后在每個(gè)時(shí)間步驟中獲得模態(tài)內(nèi)的作用,用卷積層和全連接層進(jìn)行特征提取,最后通過池化操作統(tǒng)一來自所有時(shí)態(tài)步驟的信息。在獲得這兩種信息后與一個(gè)融合層相結(jié)合來進(jìn)行情感分析。

在處理模態(tài)融合時(shí),保持單模態(tài)神經(jīng)網(wǎng)絡(luò)的性能是至關(guān)重要的,基于此觀點(diǎn)文獻(xiàn)[72]提出了一種多層的多模態(tài)融合方法,該方法引入了一個(gè)特定的神經(jīng)網(wǎng)絡(luò)稱為中央網(wǎng)絡(luò),該中央網(wǎng)絡(luò)不僅可以將不同的特征聯(lián)合起來,而且通過使用多任務(wù)學(xué)習(xí)來規(guī)范各個(gè)模態(tài)的網(wǎng)絡(luò)。此融合方法可以通過將相應(yīng)的單模態(tài)網(wǎng)絡(luò)層和其前一層的加權(quán)和作為每個(gè)層的輸入。中央網(wǎng)絡(luò)的優(yōu)點(diǎn)為中央網(wǎng)絡(luò)的損失函數(shù)不僅允許學(xué)習(xí)如何組合不同的模態(tài),而且還增加了對(duì)特定模態(tài)的網(wǎng)絡(luò)的限制,從而增強(qiáng)了模態(tài)間的互補(bǔ)性。文獻(xiàn)[73]用分層的方式對(duì)模態(tài)信息進(jìn)行融合,在該方法中引入RNN 和GRU 分別用來獲取周圍話語信息以提高特征向量的質(zhì)量和對(duì)上下文信息進(jìn)行建模。

3.3 不同算法對(duì)比

為了得到影響情感分析準(zhǔn)確率的因素,本節(jié)將前文中對(duì)視頻信息進(jìn)行情感分析所提到的算法進(jìn)行對(duì)比研究,對(duì)比結(jié)果如表3~表6 所示。以下表中的評(píng)價(jià)指標(biāo)都為Accuracy,并且表中的模態(tài)信息A、V、T分別代表Audio、Video、Text。

Table 3 Accuracy comparison of single-modal sentiment analysis表3 單模態(tài)的情感分析Accuracy 比較 %

Table 4 Accuracy comparison of different algorithms on MOSI dataset表4 MOSI數(shù)據(jù)集上不同算法Accuracy 比較 %

Table 5 Accuracy comparison of different algorithms on MOUD dataset表5 MOUD 數(shù)據(jù)集上不同算法Accuracy 比較 %

Table 6 Accuracy comparison of same algorithm on different datasets表6 相同算法在不同數(shù)據(jù)集上Accuracy 比較 %

通過表3 可以看出,大多數(shù)算法用T+V 和T+A進(jìn)行情感分析時(shí)的準(zhǔn)確率都要高于V+A,說明在基于多模態(tài)的情感分析中,文本信息仍然是重要的情感線索。

通過表4 可得,在MOSI 數(shù)據(jù)集上用三種模態(tài)進(jìn)行情感分析時(shí),Gated mechanism for attention 算法的準(zhǔn)確率最高,說明門控單元在模態(tài)選擇時(shí)的重要性。此外,對(duì)每種模態(tài)的特征進(jìn)行除噪也可以提高準(zhǔn)確率。其次,Multilogue-Net 和DFF-TMF 這兩種算法的準(zhǔn)確率也較高,可以看出注意力機(jī)制以及模態(tài)間的相關(guān)性在提高準(zhǔn)確率方面也有重要的價(jià)值。

通過表5 可得,在MOUD 數(shù)據(jù)集上用三種模態(tài)進(jìn)行情感分析時(shí),CRMKL 算法的準(zhǔn)確率最高,說明視頻中上下文的信息、文本信息的預(yù)處理以及模態(tài)融合的選擇對(duì)提高準(zhǔn)確率很有幫助。

通過表6 可得,大多數(shù)算法在不同數(shù)據(jù)集上的魯棒性較好。LSTM-based model 方法在不同數(shù)據(jù)集上的準(zhǔn)確度相差較大,產(chǎn)生這種效果的原因是模型用MOSI 訓(xùn)練,MOSI 是英語,而MOUD 是西班牙語,語言不同,因而情感表達(dá)方式不同,分析方式也不同。

通過表3~表5 中相同的算法進(jìn)行對(duì)比可以看出,用三種模態(tài)進(jìn)行情感分析的準(zhǔn)確率高于用兩種和一種模態(tài)方法的準(zhǔn)確率,說明結(jié)合多種模態(tài)信息進(jìn)行情感分析的必要性。

3.4 小結(jié)

本節(jié)主要對(duì)現(xiàn)有的多模態(tài)情感分析技術(shù)以及模態(tài)融合技術(shù)進(jìn)行了總結(jié)。在多模態(tài)情感分析技術(shù)中,部分文獻(xiàn)僅在單模態(tài)的特征提取上進(jìn)行改進(jìn)提高準(zhǔn)確度,而忽略了視頻序列中的上下文信息,導(dǎo)致對(duì)不同模態(tài)的特征挖掘不充分。隨著研究的深入,研究者引入RNN、LSTM、GRU 等網(wǎng)絡(luò)提取上下文信息進(jìn)而提高情感分析準(zhǔn)確度,但處理長時(shí)間的序列容易出現(xiàn)信息丟失問題?,F(xiàn)階段可以考慮用多層級(jí)GRU編碼上下文信息解決長時(shí)間依賴問題,從而獲得更為全面的情感信息。

在模態(tài)融合技術(shù)方面,研究者利用多層融合的方法來進(jìn)行模態(tài)融合,這種方法可以提高單模態(tài)特征向量的質(zhì)量,在數(shù)據(jù)較大的情況下可以獲得較好的效果,但在小樣本中可能導(dǎo)致過擬合問題。由于注意力機(jī)制在模態(tài)融合中尋找最優(yōu)權(quán)值時(shí)具有重要的作用,張量可以將所有模態(tài)的特征投影到同一空間獲得一個(gè)聯(lián)合表征空間,易于計(jì)算模態(tài)間的交互作用,近年來主流的模態(tài)融合方法是基于注意力機(jī)制的方法和基于張量的方法。

4 總結(jié)和展望

隨著深度學(xué)習(xí)和一些融合算法的興起,多模態(tài)情感分析技術(shù)得到了快速的發(fā)展,本文通過對(duì)多模態(tài)情感分析研究現(xiàn)狀的認(rèn)識(shí),總結(jié)出其面臨的挑戰(zhàn)與發(fā)展趨勢(shì)如下:

(1)多模態(tài)情感分析數(shù)據(jù)集。在多模態(tài)情感分析中,數(shù)據(jù)采集時(shí)的花費(fèi)以及如何在人們自然表達(dá)問題的情況下進(jìn)行數(shù)據(jù)的采集是目前存在的主要問題之一。數(shù)據(jù)集較少且多是由視覺、文本和語音三種模態(tài)組成,缺少姿態(tài)、腦電波等模態(tài)數(shù)據(jù)。因此需要高質(zhì)量且規(guī)模較大的數(shù)據(jù)集來提高情感分析的準(zhǔn)確度。

(2)單模態(tài)情感分析。在FER 中,一方面是不同的數(shù)據(jù)之間存在一定的差異性,由于不同的采集條件和注釋的主觀性,數(shù)據(jù)偏差和注釋不一致在不同的數(shù)據(jù)集中非常常見。另一方面是對(duì)一些表情識(shí)別不準(zhǔn)確,在對(duì)高興、傷心等表情識(shí)別時(shí)很容易,但在捕獲令人反感、憤怒和其他較不常見的表情信息時(shí)非常具有挑戰(zhàn)性;在基于文本信息的情感分析中,由于不同領(lǐng)域的情感表達(dá)差別較大,導(dǎo)致情感詞典的構(gòu)建較難。在含有許多隱喻、反話等復(fù)雜的語言形式中進(jìn)行情感分析得到的效果并不理想,因此如何提取對(duì)情感分析具有更大價(jià)值的特征依然是一個(gè)有待完善的課題;除此之外,情感分析技術(shù)在語音、姿態(tài)等一些模態(tài)中的不成熟制約了多模態(tài)情感分析技術(shù)的發(fā)展。

(3)模態(tài)間相關(guān)性。從不同模態(tài)中提取的特征之間存在一定的相關(guān)性,在現(xiàn)有的模態(tài)融合算法中,常常會(huì)忽略不同特征間的相關(guān)性,因此如何有效利用模態(tài)間的相關(guān)性來提高情感分析的準(zhǔn)確度是未來的研究方向之一。

(4)算法復(fù)雜度。在進(jìn)行多模態(tài)情感分析時(shí),模態(tài)過多會(huì)提高融合算法的復(fù)雜度,模態(tài)過少會(huì)影響結(jié)果的準(zhǔn)確性,因此如何選擇最佳的模態(tài)進(jìn)行融合也是一個(gè)急需解決的問題。

(5)模態(tài)融合時(shí)模態(tài)的權(quán)值問題。在模態(tài)融合時(shí),不同環(huán)境中不同模態(tài)的最優(yōu)權(quán)值分配是影響情感分析結(jié)果的重要因素之一。在完成不同分析任務(wù)時(shí),不同的模態(tài)對(duì)分析結(jié)果的影響不同,因此如何將對(duì)分析結(jié)果影響最大的模態(tài)賦予較大的權(quán)值是接下來模態(tài)融合的重點(diǎn)方向之一。

5 結(jié)束語

本文對(duì)多模態(tài)的情感分析領(lǐng)域的現(xiàn)有研究成果進(jìn)行了總結(jié),介紹了常用的多模態(tài)情感分析數(shù)據(jù)集;然后將近幾年中單模態(tài)的情感分析技術(shù)的文獻(xiàn)根據(jù)面部表情信息、文本信息以及語音信息進(jìn)行分類敘述;隨后對(duì)多模態(tài)的情感分析技術(shù)的文獻(xiàn)進(jìn)行總結(jié),并且對(duì)現(xiàn)有的模態(tài)融合技術(shù)進(jìn)行了詳細(xì)的描述;最后對(duì)情感分析中存在的問題進(jìn)行了討論。

猜你喜歡
模態(tài)文獻(xiàn)特征
聯(lián)合仿真在某車型LGF/PP尾門模態(tài)仿真上的應(yīng)用
基于老年駕駛?cè)说亩嗄B(tài)集成式交互設(shè)計(jì)研究
Hostile takeovers in China and Japan
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
抓特征解方程組
不忠誠的四個(gè)特征
模態(tài)可精確化方向的含糊性研究
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
日版《午夜兇鈴》多模態(tài)隱喻的認(rèn)知研究
宝清县| 邛崃市| 紫阳县| 乡城县| 潼关县| 临颍县| 乌恰县| 沙坪坝区| 博野县| 邵阳市| 昆明市| 西城区| 应城市| 澄江县| 武邑县| 扬州市| 安乡县| 老河口市| 沾化县| 繁昌县| 溧水县| 呼伦贝尔市| 南靖县| 乐安县| 鄂尔多斯市| 苏尼特右旗| 赤峰市| 沈阳市| 汽车| 临邑县| 托克逊县| 天镇县| 华宁县| 北安市| 汨罗市| 民丰县| 靖宇县| 虞城县| 岚皋县| 山阳县| 永平县|