劉繼明,張培翔,劉 穎,3,4,張偉東,4,房 杰,3,4
1.西安郵電大學(xué) 通信與信息工程學(xué)院,西安 710121
2.西安郵電大學(xué) 圖像與信息處理研究所,西安 710121
3.陜西省無線通信與信息處理技術(shù)國際合作研究中心,西安 710121
4.西安郵電大學(xué) 電子信息現(xiàn)場勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室,西安 710121
情感是生物對(duì)外界價(jià)值關(guān)系產(chǎn)生的主觀反應(yīng),也是生物智能的重要組成部分[1]。在日常生活中,人們一般都是通過面部表情來獲取他人的情感狀態(tài),但是某一些情況下,人們也會(huì)根據(jù)語氣、肢體動(dòng)作等其他一些細(xì)微的變化來獲取他人的情感狀態(tài)。在服務(wù)型機(jī)器人、審訊、娛樂等方面需要通過計(jì)算機(jī)的幫助來獲得人類準(zhǔn)確的情感狀態(tài),因此情感分析體現(xiàn)了越來越重要的研究價(jià)值。
情感分析的理論和算法構(gòu)建涉及人工智能(artificial intelligence,AI)、計(jì)算機(jī)視覺(computational vision,CV)和自然語言處理(natural language processing,NLP)等多個(gè)方面,是一個(gè)多學(xué)科交叉的研究領(lǐng)域。早在20 世紀(jì),Ekman 等人[2]就將人類的情感分為憤怒、厭惡、恐懼、快樂、悲傷和驚訝六種基本情感,奠定了當(dāng)今表情識(shí)別的基礎(chǔ)。在后來的研究中,蔑視也被認(rèn)為是人類的基本情感之一。
在現(xiàn)有的文獻(xiàn)中,主要根據(jù)面部表情、文本以及語音中的一種模態(tài)來對(duì)情感進(jìn)行分析。在面部表情識(shí)別(facial expression recognition,F(xiàn)ER)中,傳統(tǒng)的方法主要有基于幾何和外觀的方法?;趲缀蔚姆椒m然簡單易行,但是容易忽略局部細(xì)節(jié)信息。基于外觀的方法主要是根據(jù)面部的紋理變化來判斷情緒的變化,具有良好的光照不變性。在面部的紋理特征提取中,局部二值模式(local binary pattern,LBP)和Gabor 小波因具有較好的性能而被廣泛應(yīng)用。情感極性是指積極、消極以及中性的情感狀態(tài)。通過文本分析得到情感極性的方法又稱為意見挖掘,傳統(tǒng)的方法是基于情感詞典,該方法通過人為構(gòu)建情感詞典并將其作為工具來判斷情感極性。由于情感詞典中情感詞的不完整,該方法具有很大的局限性。語音情感分析主要是提取語音中的韻律、音質(zhì)等特征來進(jìn)行分析。近年來,隨著深度學(xué)習(xí)的發(fā)展,面部表情、文本和語音三種模態(tài)都嘗試用深度學(xué)習(xí)的方法來進(jìn)行情感分析。在基于深度學(xué)習(xí)的方法中,面部表情信息主要用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)以及與傳統(tǒng)方法相結(jié)合進(jìn)行情感分析;文本信息主要用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)來進(jìn)行情感分析;語音情感分析主要用支持向量機(jī)(support vector machine,SVM)、隱馬爾科夫模型(hidden Markov model,HMM)等來進(jìn)行分析?;谏疃葘W(xué)習(xí)的方法在這三種模態(tài)的情感分析中都取得了不錯(cuò)的效果,但是由于數(shù)據(jù)集等原因,在訓(xùn)練模型時(shí)仍然存在一些不可避免的誤差。
在情感分析的發(fā)展過程中,許多研究者用一種模態(tài)來進(jìn)行情感分析。由于用單模態(tài)來進(jìn)行情感分析時(shí)只能在該模態(tài)獲得情感信息,在某些情況下有很多局限性。如圖1 所示,在對(duì)人物進(jìn)行情感分析時(shí),若僅僅考慮文本信息,會(huì)得到一樣的結(jié)果,只有結(jié)合面部表情后才能得到正確的情感極性。隨著研究的深入,為了解決單模態(tài)的局限性,研究者開始結(jié)合兩種或兩種以上的模態(tài)來實(shí)現(xiàn)跨模態(tài)的情感分析。多模態(tài)的情感分析有效解決了單模態(tài)的局限性,并且提高了結(jié)果的準(zhǔn)確度。圖2 顯示了一個(gè)多模態(tài)情感分析的框架。該框架包含兩個(gè)基本步驟:分別處理單模態(tài)的數(shù)據(jù)和將處理后的數(shù)據(jù)進(jìn)行融合。這兩個(gè)步驟都很重要,如果單一模態(tài)的數(shù)據(jù)處理不好,會(huì)對(duì)多種模態(tài)的情感分析結(jié)果產(chǎn)生負(fù)面影響,而融合方式的性能不好會(huì)破壞多模態(tài)系統(tǒng)的穩(wěn)定性[3]。
Fig.1 Limitations of single mode圖1 單一模態(tài)的局限性
Fig.2 Framework for multi-modal sentiment analysis圖2 多模態(tài)情感分析的框架
在情感分析中,目前常用的信息有面部表情信息、文本信息和語音信息,也有一些研究者嘗試用姿態(tài)、腦部信息來進(jìn)行情感分析。多模態(tài)的情感分析是指由兩種及兩種以上的模態(tài)信息結(jié)合來進(jìn)行情感分析。在特征提取階段,多模態(tài)的情感分析與單模態(tài)的特征提取方法相同。利用多模態(tài)和單模態(tài)進(jìn)行情感分析最大的區(qū)別就是在于多模態(tài)需要將單模態(tài)的信息進(jìn)行融合,從而得到情感極性。結(jié)合現(xiàn)有文獻(xiàn),模態(tài)融合主要包括三種方法,分別是特征級(jí)融合、決策級(jí)融合以及混合融合。
在多模態(tài)情感分析發(fā)展過程中,學(xué)者從不同的角度對(duì)現(xiàn)有的技術(shù)進(jìn)行了總結(jié)。文獻(xiàn)[4]通過基于視覺信息、語音信息、文本信息以及腦部信息的情感分析分別對(duì)現(xiàn)有的技術(shù)進(jìn)行了總結(jié)。文獻(xiàn)[5]對(duì)情感識(shí)別、意見挖掘和情緒分析做了詳細(xì)介紹和區(qū)分,并且對(duì)情感分析所用到的文本、語音和視覺三種模態(tài)的技術(shù)做了分類總結(jié)。文獻(xiàn)[6]對(duì)現(xiàn)有的單模態(tài)情感分析技術(shù)進(jìn)行討論,然后對(duì)近幾年的多模態(tài)情感分析文獻(xiàn)進(jìn)行概括總結(jié)的同時(shí)指出了其模態(tài)融合的方法。文獻(xiàn)[7]從基于深度學(xué)習(xí)的角度對(duì)現(xiàn)有的模態(tài)融合算法進(jìn)行了歸納總結(jié)。與上述綜述相比,本文在介紹單模態(tài)情感分析技術(shù)的基礎(chǔ)上著重對(duì)多模態(tài)情感分析進(jìn)行歸納總結(jié),并且對(duì)文中提到的算法進(jìn)行對(duì)比分析,最后重點(diǎn)介紹了多模態(tài)融合技術(shù)并對(duì)現(xiàn)有問題進(jìn)行總結(jié)。
目前國內(nèi)外多模態(tài)情感數(shù)據(jù)庫大多來源于網(wǎng)絡(luò)視頻評(píng)論或人為制作,對(duì)于科研領(lǐng)域仍是半公開或者不公開的狀態(tài)。由于模態(tài)選擇的不同以及數(shù)據(jù)集的局限性,一些研究者會(huì)根據(jù)自己的需求來建立所需要的情感數(shù)據(jù)集。用于多模態(tài)情感分析的可用數(shù)據(jù)集大多是從不同在線視頻共享平臺(tái)上的產(chǎn)品評(píng)論收集的。表1 總結(jié)了常用的多模態(tài)情感分析數(shù)據(jù)集。
SEED 數(shù)據(jù)集[8]:該數(shù)據(jù)集收集了15 名(男性7名,女性8 名)受試者在觀看15 個(gè)中國電影剪輯時(shí)的腦電信號(hào)。其標(biāo)簽為積極、中性和消極三種。
新浪微博數(shù)據(jù)集[9]:數(shù)據(jù)集收集了新浪微博中關(guān)于新聞以及娛樂八卦的評(píng)論,共包括6 171 條評(píng)論,其中有4 196 條肯定消息,1 354 條否定消息和621 條中性消息,5 859 條消息具有一個(gè)伴隨圖像。情感標(biāo)注為三分類。
Yelp 數(shù)據(jù)集[10]:該數(shù)據(jù)集從Yelp.com 評(píng)論網(wǎng)站收集關(guān)于餐廳和食品的評(píng)論。一共有44 305 條評(píng)論和233 569 張圖片,其中每條評(píng)論有13 個(gè)句子,23 個(gè)單詞。情感標(biāo)注為1~5 的5 個(gè)分?jǐn)?shù)。
Multi-ZOL 數(shù)據(jù)集[11]:該數(shù)據(jù)集收集了關(guān)于5 288條多模態(tài)的關(guān)于手機(jī)的評(píng)論信息,其中每條數(shù)據(jù)至少包含一個(gè)文本內(nèi)容和一個(gè)圖像級(jí)。情感標(biāo)注為1~10 的10 個(gè)分?jǐn)?shù)。
DEAP 數(shù)據(jù)集[12]:該數(shù)據(jù)集收集了32 名(一半男一半女)受試者在觀看音樂視頻時(shí)的生理信號(hào)和受試者對(duì)視頻的Valence、Arousal、Dominance、Liking 的心理量表,同時(shí)也包括前22 名參與者的面部表情視頻。標(biāo)簽為消極到積極1~9 的9 個(gè)分?jǐn)?shù)。
CH-SIMS 數(shù)據(jù)集[13]:該數(shù)據(jù)集中包含60 個(gè)原始視頻,剪輯出2 281 個(gè)視頻片段,每個(gè)片段長度不小于1 s 且不大于10 s。在每個(gè)視頻片段中,除了說話者的面部以外不會(huì)出現(xiàn)其他面部,且只包含普通話。數(shù)據(jù)集的情感標(biāo)注為-1(負(fù))、0(中性)或1(正)三種。
YouTube 數(shù)據(jù)集[14]:該數(shù)據(jù)集包含從YouTube 上收集整理的47 個(gè)不同產(chǎn)品的評(píng)論視頻。視頻由不同年齡、不同種族背景的20名女性以及27名男性對(duì)產(chǎn)品的觀點(diǎn)講述組成,且所有視頻長度都被規(guī)范為30 s。在進(jìn)行標(biāo)注時(shí),3 名人員隨機(jī)觀看并用積極、消極、中性三種標(biāo)簽對(duì)視頻進(jìn)行標(biāo)注。該數(shù)據(jù)集共包含13 個(gè)積極、22 個(gè)中性以及12 個(gè)消極標(biāo)簽的視頻序列。
ICT-MMMO 數(shù)據(jù)集[15]:該數(shù)據(jù)集包含了來自YouTube 和ExpoTV 中的370 個(gè)關(guān)于電影評(píng)論的視頻。視頻中不同的人對(duì)著攝像機(jī)表達(dá)1~3 min 的電影評(píng)論。此數(shù)據(jù)集中包括228 個(gè)正面評(píng)論、23 個(gè)中立評(píng)論和119 個(gè)負(fù)面評(píng)論。
MOSI 數(shù)據(jù)集[16]:該數(shù)據(jù)集包含了YouTube 上的93 個(gè)關(guān)于電影評(píng)論的視頻博客。視頻中包括年齡為20~30 歲以及來自不同種族背景的41 位女性和48 位男性的2~5 min 的電影評(píng)論。數(shù)據(jù)集中擁有從-3 到+3 的視頻標(biāo)簽,代表7 類情感傾向。
News Rover Sentiment數(shù)據(jù)集[17]:該數(shù)據(jù)集是新聞?lì)I(lǐng)域的數(shù)據(jù)集,由各種新聞節(jié)目和頻道視頻中的929個(gè)4~15 s的視頻組成。該數(shù)據(jù)集的標(biāo)注為三分類。
IEMOCAP 數(shù)據(jù)集[18]:該數(shù)據(jù)集包含了5 個(gè)男演員和5 個(gè)女演員在情感互動(dòng)過程中的大約12 h 視聽數(shù)據(jù),該數(shù)據(jù)包括對(duì)話者的音頻、視頻、文本、面部和姿態(tài)信息等。情感標(biāo)簽為憤怒、快樂、悲傷、中立等10 個(gè)標(biāo)簽。
情感分析主要是通過一些表達(dá)情感的方式(比如面部表情等)對(duì)人們的情感進(jìn)行分析。目前,主流的單模態(tài)的情感分析主要有基于面部表情信息和基于文本信息的情感分析。
不同的人物在表達(dá)情感時(shí)的方式不同:當(dāng)一個(gè)人趨向于用語言表達(dá)情感時(shí),那么其音頻特征可能包含較多的情感線索;如果一個(gè)人趨向于用面部表情來進(jìn)行情感表達(dá),那么其面部表情特征可能包含較多的情感線索。由于人們多用說話方式的改變、音調(diào)的高低或者面部表情的變化對(duì)自己的情感狀態(tài)進(jìn)行表達(dá),本章將重點(diǎn)介紹基于面部表情信息、文本信息以及語音信息的情感分析技術(shù)。
在日常生活中,面部表情信息是人們相互獲得情感狀態(tài)的常用方式,因此面部表情信息在情感分析的過程中有很重要的意義。根據(jù)特征表示的不同,F(xiàn)ER 系統(tǒng)可分為靜態(tài)圖像的FER 和動(dòng)態(tài)序列的FER 兩大類[9]。在動(dòng)態(tài)序列的FER 中,面部表情呈現(xiàn)出兩個(gè)特點(diǎn):空時(shí)性和顯著性。動(dòng)態(tài)序列的FER 中常常忽略面部表情的顯著性,為了解決這一問題,文獻(xiàn)[19]提出一種基于空時(shí)注意力網(wǎng)絡(luò)的面部表情識(shí)別方法,該方法在空域子網(wǎng)絡(luò)和時(shí)域子網(wǎng)絡(luò)中加入相應(yīng)的注意力模塊,來提高CNN 和RNN 提取特征時(shí)的性能。
面部表情識(shí)別過程包括三個(gè)階段,分別是人臉檢測(cè)、特征提取與選擇以及分類。根據(jù)所采用的特征表示,可分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。
2.1.1 傳統(tǒng)的FER 方法
目前,F(xiàn)ER 中常用特征有幾何特征、外觀特征、統(tǒng)計(jì)特征和運(yùn)動(dòng)特征等。基于幾何特征的方法是對(duì)人臉構(gòu)建幾何特征矢量,且每幅圖像只保存一個(gè)特征矢量;基于外觀特征的方法主要對(duì)面部的紋理特征進(jìn)行提取,目前常用的紋理特征主要有:LBP、基于頻率域的Gabor 小波特征等;基于整體統(tǒng)計(jì)特征的方法可以盡可能多地保留圖像中的主要信息,目前主要有主成分分析(principal component analysis,PCA)和獨(dú)立主元分析(independent component correlation algorithm,ICA);基于運(yùn)動(dòng)特征的方法對(duì)動(dòng)態(tài)圖像序列中的運(yùn)動(dòng)特征進(jìn)行提取,常用的是光流法。表2 從概念和優(yōu)缺點(diǎn)兩方面對(duì)傳統(tǒng)的FER 特征提取方法進(jìn)行了總結(jié)。
Table 2 Traditional FER feature extraction methods表2 傳統(tǒng)的FER 特征提取方法
2.1.2 基于深度學(xué)習(xí)的FER 方法
近年來,研究者嘗試用深度學(xué)習(xí)的方法進(jìn)行面部表情識(shí)別,令人驚喜的是,深度學(xué)習(xí)在面部表情識(shí)別中也取得了良好的效果,研究者對(duì)面部表情識(shí)別的研究也逐漸從傳統(tǒng)的方法轉(zhuǎn)向深度學(xué)習(xí)方法。
文獻(xiàn)[20]提出一種基于CNN 集成的面部表情識(shí)別方法,該方法在一組CNN 網(wǎng)絡(luò)中設(shè)計(jì)了3 個(gè)不同的結(jié)構(gòu)化子網(wǎng)絡(luò),分別包含3、5、10 個(gè)卷積層,圖3 為集成CNN 的框架。該模型包括兩個(gè)階段:第一階段將面部圖像作為輸入,并將其提供給3 個(gè)CNN 子網(wǎng)絡(luò),這是該模型的核心部分;第二階段則根據(jù)前一階段的輸出預(yù)測(cè)表情,將這些子網(wǎng)絡(luò)輸出結(jié)合起來,以獲得最準(zhǔn)確的最終決策。
Fig.3 Framework of integrated CNN圖3 集成CNN 的框架
由于傳統(tǒng)方法中的LBP 具有旋轉(zhuǎn)不變性和對(duì)光照不敏感等優(yōu)點(diǎn),文獻(xiàn)[21]提出基于VGG-NET 的特征融合FER 方法,該方法將LBP 特征和CNN 卷積層提取的特征送入改進(jìn)的VGG-16 的網(wǎng)絡(luò)連接層中進(jìn)行加權(quán)融合,最后將融合后的特征送入Softmax 分類器獲取各類特征的概率,完成基本的6 種表情分類。圖4 為該方法的基本框架。
Fig.4 VGG-NET based feature fusion for FER圖4 基于VGG-NET 的特征融合FER 方法
基于深度學(xué)習(xí)的方法彌補(bǔ)了傳統(tǒng)方法在面部表情特征提取方面的缺點(diǎn),提升了識(shí)別效果,同時(shí)也存在著一些問題?;谏疃葘W(xué)習(xí)的方法需要大量的樣本來進(jìn)行模型的訓(xùn)練,以訓(xùn)練出穩(wěn)定、可靠的面部表情識(shí)別模型。但是目前的面部表情數(shù)據(jù)集中的圖像數(shù)量較少,在對(duì)模型訓(xùn)練時(shí)可能會(huì)存在過擬合的現(xiàn)象。為了減輕過擬合問題,研究者對(duì)擴(kuò)充FER 數(shù)據(jù)庫進(jìn)行了研究。文獻(xiàn)[22]提出一種基于cBEGAN(conditional boundary equilibrium generative adversarial networks)的數(shù)據(jù)擴(kuò)充方法,這種方法收斂速度快,并且可以通過添加輔助條件標(biāo)簽信息來控制生成數(shù)據(jù)的類別。圖5 為cBEGAN 模型,其中G、D、Enc、Dec、Rlr和Rlg分別代表生成器、鑒別器、編碼器、解碼器和兩個(gè)重建損耗。
數(shù)據(jù)集中也存在著一些不可避免的問題:一個(gè)是在對(duì)圖像標(biāo)注時(shí),依賴標(biāo)注人員的主觀判斷,可能會(huì)出現(xiàn)標(biāo)記錯(cuò)誤的現(xiàn)象;另一個(gè)是數(shù)據(jù)中存在一些模糊的或者有遮擋的圖像。用存在問題的數(shù)據(jù)集進(jìn)行模型的訓(xùn)練時(shí),可能會(huì)使模型在優(yōu)化的初期就不合邏輯[23]。針對(duì)模糊的圖像以及錯(cuò)誤標(biāo)簽的問題,文獻(xiàn)[23]提出一種自修復(fù)網(wǎng)絡(luò)(selfcure network,SCN),該網(wǎng)絡(luò)為了防止樣本的過擬合問題將數(shù)據(jù)集中的樣本進(jìn)行排序正則化加權(quán)。在排名最低的組中通過重標(biāo)記機(jī)制改變這些樣本標(biāo)簽來對(duì)錯(cuò)誤標(biāo)簽進(jìn)行修改。
由于文化背景以及采集條件的不同,數(shù)據(jù)集中的數(shù)據(jù)可能會(huì)產(chǎn)生明顯的偏差,文獻(xiàn)[24]深入研究了這種偏差,首次探索了數(shù)據(jù)集差異的內(nèi)在原因,提出了深層情感適應(yīng)網(wǎng)絡(luò)(emotion-conditional adaption network,ECAN),該方法可以同時(shí)匹配域間的邊緣分布和條件分布,并且通過一個(gè)可學(xué)習(xí)的重加權(quán)參數(shù)來解決被廣泛忽視的表達(dá)式類分布偏差。由于數(shù)據(jù)集中的數(shù)據(jù)較少,以及數(shù)據(jù)集中的問題,有些研究者提出用遷移學(xué)習(xí)的方法來彌補(bǔ)FER 數(shù)據(jù)集少的缺點(diǎn),但是遷移學(xué)習(xí)也會(huì)產(chǎn)生一些冗余信息。文獻(xiàn)[25]基于面部肌肉運(yùn)動(dòng)產(chǎn)生面部表情變化的原理,提出了一種新的端到端的深度網(wǎng)絡(luò)框架以解決此問題。
文本情感分析是指從文本中提取可以表達(dá)觀點(diǎn)、情感的信息。文本情感分析的應(yīng)用有很多,包括獲取用戶滿意度信息、根據(jù)用戶情緒推薦產(chǎn)品、預(yù)測(cè)情緒等。涉及人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語言處理等多個(gè)研究領(lǐng)域。文獻(xiàn)[26]將文本情感分析分為兩部分:第一部分是觀點(diǎn)挖掘,處理意見的表達(dá);第二部分是情感挖掘,關(guān)注情感的表達(dá)。觀點(diǎn)挖掘更關(guān)注的是文本中表達(dá)的觀點(diǎn)的概念,這些觀點(diǎn)可以是積極的、消極的,也可以是中性的,而情感挖掘則是研究反映在文本中的情緒(如快樂、悲傷等)。
在文本情感分析中,情感信息抽取是最重要的部分。情感信息抽取的效果直接影響文本情感分析的效果。情感信息的抽取就是對(duì)文本中情感詞的抽取,情感詞匯可以分為三種類型:(1)只包含情感詞的詞匯(單詞列表);(2)由情感詞和極性取向構(gòu)成的詞匯(只有正負(fù)注釋的單詞列表);(3)具有方向和強(qiáng)度的情感詞[27]。
隨著對(duì)文本情感分析研究的深入以及大量帶有情感色彩的文本信息的出現(xiàn),研究者從剛開始對(duì)情感詞進(jìn)行分析逐漸轉(zhuǎn)變到句子以及篇章級(jí)別的研究。目前,基于情感詞典和深度學(xué)習(xí)的方法是文本情感分析的兩種主要方法。
2.2.1 基于情感詞典的方法
Fig.5 cBEGAN model圖5 cBEGAN 模型
基于情感詞典的方法首先對(duì)情感詞進(jìn)行抽取,然后根據(jù)情感詞典中包含的單詞及相關(guān)詞匯的情感極性來進(jìn)行情感估計(jì)[28]。常用詞典包括WordNet、GI(general inquirer)詞典等?;谇楦性~典的方法在識(shí)別中具有簡單且識(shí)別速度快的特點(diǎn),但同時(shí)也存在一些不可能避免的缺點(diǎn)。一個(gè)缺點(diǎn)就是這種方法比較依賴情感詞的個(gè)數(shù),另一個(gè)就是有一些詞語一詞多義,在識(shí)別時(shí)可能會(huì)造成誤判。為了增加情感詞典跨領(lǐng)域的適應(yīng)性,文獻(xiàn)[27]利用分布式語義的概念,提出了一種將語義相似度與嵌入表示相結(jié)合的情感分類模型,該方法通過計(jì)算輸入詞與詞匯之間的語義相似度來提取文本的特征,有效地解決了情感詞典中詞匯覆蓋率和領(lǐng)域適應(yīng)方面的局限性。文獻(xiàn)[29]提出了一種基于多源數(shù)據(jù)融合的方面級(jí)情感分析方法,該方法可以從不同類型的資源中積累情感知識(shí),并且利用BERT(bidirectional encoder representation from transformers)來生成用于情感分析的方面特定的句子表示來使模型能夠做出更準(zhǔn)確的預(yù)測(cè)。
2.2.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法
在文本情感分析領(lǐng)域中,傳統(tǒng)的機(jī)器學(xué)習(xí)方法也廣泛用于建立情感分析模型,這些方法首先建立一個(gè)訓(xùn)練集,并通過情感來標(biāo)記訓(xùn)練數(shù)據(jù),然后從訓(xùn)練數(shù)據(jù)中提取一組特征,并將其送到分類器模型中進(jìn)行分析,常用的分類模型有邏輯回歸、支持向量機(jī)、隨機(jī)森林、最大熵分類等[30]。2002 年,文獻(xiàn)[31]首次將樸素貝葉斯、最大熵分類和SVM 三種機(jī)器學(xué)習(xí)方法用在文本情感分析中,取得了不錯(cuò)的準(zhǔn)確度。文獻(xiàn)[32]基于多特征組合的方式用SVM 和條件隨機(jī)場(conditional random field,CRF)分別進(jìn)行文本情感分析,通過實(shí)驗(yàn)表明在選用的特征中情感詞對(duì)結(jié)果的影響最大,程度副詞對(duì)結(jié)果的影響最小,并且還可能降低結(jié)果的準(zhǔn)確度,同時(shí)還表明在相同的特征條件下,CRF 的效果比SVM 好。為了提高機(jī)器學(xué)習(xí)算法在文本情感分析的準(zhǔn)確度,文獻(xiàn)[33]利用集成學(xué)習(xí)的方法結(jié)合多種分類器來進(jìn)行情感分析。該文將常用的7 個(gè)不同的傳統(tǒng)機(jī)器學(xué)習(xí)分類模型用Bagging 和AdaBoost-r 集成在兩個(gè)不同的數(shù)據(jù)集上進(jìn)行交叉驗(yàn)證。實(shí)驗(yàn)結(jié)果表明用集成學(xué)習(xí)方法比單一分類器的準(zhǔn)確度高,并且在集成學(xué)習(xí)模型中,Bagging 的表現(xiàn)優(yōu)于AdaBoost-r。
2.2.3 基于深度學(xué)習(xí)的方法
基于深度學(xué)習(xí)對(duì)文本進(jìn)行情感分析的原理是將提取后的文本特征由計(jì)算機(jī)根據(jù)某種算法進(jìn)行處理,然后對(duì)其分類。由于CNN 在文本挖掘和NLP 任務(wù)方面表現(xiàn)出了良好的適應(yīng)性,研究人員用CNN 進(jìn)行了一系列實(shí)驗(yàn),證明CNN 在句子級(jí)的情感分析任務(wù)上表現(xiàn)出了良好的性能。受此啟發(fā),文獻(xiàn)[34]提出了一種基于CNN 的文本分類模型,通過使用二維TFIDF(term frequency-inverse document frequency)特征代替預(yù)先訓(xùn)練的方法,得到了較好的識(shí)別準(zhǔn)確度,圖6 為該模型的基本結(jié)構(gòu)。由于在文本情感分析中文本詞向量作為特征對(duì)CNN 進(jìn)行訓(xùn)練時(shí)無法充分利用其情感特征等問題,文獻(xiàn)[35]提出了一種基于多通道卷積神經(jīng)網(wǎng)絡(luò)(multi-channels convolutional neural networks,MCCNN)的中文微博情感分析模型,該模型可以通過多方面信息學(xué)習(xí)不同輸入特征之間的聯(lián)系,挖掘出更多的隱藏特征信息。該模型在多個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),都取得了良好的效果。
Fig.6 Text classification model based on convolutional neural network圖6 卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型
由于現(xiàn)有文本情感分析算法中網(wǎng)絡(luò)輸入單一,同時(shí)缺乏考慮相似文本實(shí)例對(duì)整體分類效果的影響,文獻(xiàn)[36]提出一種融合CNN 和注意力的評(píng)論文本情感分析模型。在文本情感分析中,人們常常會(huì)忽略詞語和上下文之間的關(guān)系,進(jìn)而影響情感分析的準(zhǔn)確度。文獻(xiàn)[37]提出一種基于BGRU(bidirectional gated recurrent unit)深度神經(jīng)的中文情感分析方法,該方法通過BGRU 對(duì)文本信息的上下文提取進(jìn)行分析,通過實(shí)驗(yàn)表明,加入上下文信息后可以有效提高準(zhǔn)確度。文獻(xiàn)[38]提出了一個(gè)CNN 和RNN 的聯(lián)合架構(gòu),該方法利用CNN 生成的粗粒度局部特征作為RNN 的輸入來對(duì)短文本進(jìn)行情感分析。神經(jīng)網(wǎng)絡(luò)模型在自然語言處理中非常強(qiáng)大,但該模型有兩個(gè)主要缺點(diǎn):訓(xùn)練數(shù)據(jù)集較小時(shí),該模型可能會(huì)過擬合;當(dāng)類別數(shù)較大時(shí),它不能精確地限定類別信息。為了解決這兩個(gè)缺點(diǎn),文獻(xiàn)[39]提出了一種文本生成新模型CS-GAN(category sentence generative adversarial network),它是RNN、生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)和強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)的集合。該方法不僅可以通過CS-GAN擴(kuò)展任何給定的數(shù)據(jù)集,還可以直接用GAN 學(xué)習(xí)句子結(jié)構(gòu),提高該模型在不同數(shù)據(jù)集上的泛化能力。
在日常生活中,以語音進(jìn)行交流是必不可少的方式之一。語音中含有豐富的情感信息,不僅僅只是文本信息,還包括音調(diào)、韻律等可以顯示情感的特征。近年來,利用多媒體計(jì)算機(jī)系統(tǒng)研究語音中的情感信息越來越受到研究者的重視,分析情感特征、判斷和模擬說話人的喜怒哀樂成為一個(gè)意義重大的研究課題。在現(xiàn)有的文獻(xiàn)中,基于語音的情感分析研究大部分集中在識(shí)別一些聲學(xué)特征,如韻律特征、音質(zhì)特征和譜特征。目前主要分為基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。
2.3.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法
在語音情感分析中,有一些研究集中在情感語音數(shù)據(jù)庫的構(gòu)建、語音特征提取、語音情感識(shí)別算法等方面?,F(xiàn)有成果中,傳統(tǒng)的情感識(shí)別的主要方法有SVM、K最近鄰(K-nearest neighbor,KNN)、HMM[40]、高斯混合模型(Gaussian mixture model,GMM)等。如文獻(xiàn)[41]通過基于機(jī)器學(xué)習(xí)的PPCA(probability PCA)工具包來提取韻律特征進(jìn)行情感分析。文獻(xiàn)[42]通過使用預(yù)先訓(xùn)練的SVM 和線性判斷分析(linear discriminant analysis,LDA)分類器將語音情感特征分類輸入來完成語音情感分析。
目前仍無法準(zhǔn)確地確定各類情感的本質(zhì)特征由哪些語音情感特征參數(shù)決定,理論上說,提取統(tǒng)計(jì)的特征參數(shù)越詳細(xì),情感類型越容易辨識(shí),但實(shí)際上必須在大量情感信息中挑選出能準(zhǔn)確反映情緒狀況的特征參數(shù),才能獲得良好的語音情感識(shí)別性。通過對(duì)聲學(xué)特征的對(duì)比分析,文獻(xiàn)[43]結(jié)合韻律特征和質(zhì)量特征導(dǎo)出MFCC(Mel frequency cepstrum coefficient)、LPCC(linear predictive cepstral coefficient)和MEDC(Mel-energy spectrum dynamic coefficient)三種特征來訓(xùn)練SVM 進(jìn)行情感分析,取得了不錯(cuò)的效果,并且該方法具有較好的魯棒性。
2.3.2 基于深度學(xué)習(xí)的方法
隨著深度學(xué)習(xí)的日益發(fā)展,其被更多的研究者用于識(shí)別語音中的情感分析中。文獻(xiàn)[44]利用CNN從音頻中提取情感特征,然后將提取到的特征送入分類器進(jìn)行情感分類識(shí)別。在大規(guī)模的網(wǎng)絡(luò)語音數(shù)據(jù)中進(jìn)行情感分析一直以來是一個(gè)挑戰(zhàn),為解決這個(gè)問題,文獻(xiàn)[45]提出了一個(gè)深度稀疏神經(jīng)網(wǎng)絡(luò)(deep sparse neural network,DSNN)模型,該模型提取話語中三方面的特征:聲學(xué)特征(音調(diào)、能量等)、內(nèi)容信息(如描述性相關(guān)和時(shí)間相關(guān)性)和地理信息(如地理-社會(huì)相關(guān)性)。然后融合所有的特征來自動(dòng)預(yù)測(cè)情感信息。
本節(jié)主要介紹了現(xiàn)有的單模態(tài)的情感分析方法。如圖7 所示,根據(jù)模態(tài)不同分別對(duì)文獻(xiàn)進(jìn)行敘述。在FER 中,現(xiàn)有算法多用傳統(tǒng)方法與深度學(xué)習(xí)相結(jié)合的方法來進(jìn)行情感分析,在數(shù)據(jù)集方面用GAN、遷移學(xué)習(xí)等進(jìn)行擴(kuò)充。
在文本情感分析中,由于傳統(tǒng)方法中情感詞典受情感詞數(shù)量和個(gè)數(shù)的限制,大多數(shù)研究者使用深度學(xué)習(xí)中的RNN、LSTM 等模型來進(jìn)行分析,同時(shí)加入注意力機(jī)制來提高分析效果;在語音情感分析中,多用深度學(xué)習(xí)的方法來進(jìn)行分析,而難以采集到大量包含情感的語音數(shù)據(jù)是限制對(duì)其深入研究的主要因素之一。
由于從單模態(tài)中獲得的信息量有限,想要進(jìn)一步提高情感分析的準(zhǔn)確度變得十分困難。因此有研究者嘗試從多種模態(tài)中獲取更多的信息進(jìn)行情感分析來提高準(zhǔn)確度。
用單模態(tài)進(jìn)行情感分析有識(shí)別率低、穩(wěn)定性差等局限性,在情感分析的發(fā)展過程中,研究者利用多種模態(tài)進(jìn)行情感分析來提高其準(zhǔn)確性以及穩(wěn)定性。在多模態(tài)情感分析中,模態(tài)融合的效果會(huì)直接影響結(jié)果的準(zhǔn)確性[46]。因此對(duì)單模態(tài)的信息處理完成時(shí),還需要根據(jù)所用模態(tài)的不同以及模態(tài)中信息的不同選擇適當(dāng)?shù)哪B(tài)融合方法。
本章先對(duì)近幾年的多模態(tài)情感分析文獻(xiàn)根據(jù)模態(tài)融合方式的不同進(jìn)行歸納總結(jié),然后討論了現(xiàn)有的模態(tài)融合算法,最后對(duì)文獻(xiàn)中出現(xiàn)的算法進(jìn)行對(duì)比分析。
Fig.7 Current research status of monomodal sentiment analysis圖7 單模態(tài)情感分析研究現(xiàn)狀結(jié)構(gòu)框圖
在現(xiàn)有的文獻(xiàn)中,基于多模態(tài)的情感分析除了單模態(tài)的特征提取外,還需要進(jìn)行模態(tài)融合。融合不同模態(tài)的信息是任何多模態(tài)任務(wù)的核心問題,它將從不同的單模態(tài)中提取到的信息集成一個(gè)多模態(tài)特征[47]。多種模態(tài)信息的融合可以為決策提供更加全面的信息,從而提高決策總體結(jié)果的準(zhǔn)確度[48]。目前模態(tài)融合的方式主要分為特征級(jí)融合、決策級(jí)融合和混合融合三種。
3.1.1 特征級(jí)融合
特征級(jí)融合也稱早期融合,在進(jìn)行特征提取后立即集成,通常只是簡單連接它們的表示,廣泛出現(xiàn)在多模態(tài)學(xué)習(xí)任務(wù)中[49]。
在基于特征級(jí)融合的文獻(xiàn)中,文獻(xiàn)[50]建立了首個(gè)在話語層面進(jìn)行注釋的MOUD 數(shù)據(jù)集并且提出了一種基于話語級(jí)的情感分析方法。該方法用OpenEAR、CERT 提取語音和面部的情感特征,將視頻中出現(xiàn)頻率低的單詞刪除,剩余單詞與每個(gè)話語轉(zhuǎn)錄內(nèi)頻率的值相關(guān)聯(lián)得到簡單的加權(quán)圖特征作為文本情感特征,然后使用特征級(jí)融合的方法將三種特征進(jìn)行融合送入SVM 進(jìn)行分析得到情感極性。
由于視頻中的話語之間存在相互依賴和聯(lián)系,一些文獻(xiàn)在對(duì)視頻中人物的情感分析過程中利用這種依賴和聯(lián)系,取得了不錯(cuò)的情感分析效果。文獻(xiàn)[51]提出了一種基于LSTM 的情感分析模型,該模型在進(jìn)行特征提取時(shí)分為兩部分:第一部分用CNN、3d-CNN 和openSMILE 對(duì)文本信息、面部表情信息以及音頻進(jìn)行特征提取;第二部分用bc-LSTM 提取語境話語層面的特征。文獻(xiàn)[52]提出了一種多模態(tài)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),此結(jié)構(gòu)用LSTM 整合了隨時(shí)間變化的視覺信息,并將其與音頻和文本信息通過特征級(jí)融合的方式進(jìn)行情感分析,圖8 為該結(jié)構(gòu)的基本框架。文獻(xiàn)[53]提出了一種卷積遞歸多核學(xué)習(xí)(convolutional recurrent multiple kernel learning,CRMKL)模型。在特征提取時(shí),用openSMILE 提取音頻中音高和聲音強(qiáng)度;在視頻中,為了捕捉時(shí)間相關(guān)性,將時(shí)間t和t+1 的每對(duì)連續(xù)圖像轉(zhuǎn)換成單個(gè)圖像,作為RNN 的輸入,輸出為“正”或“負(fù)”;在文本中,先將西班牙語轉(zhuǎn)換為英語,用word2vec 字典進(jìn)行預(yù)處理形成300 維的向量作為CNN 的輸入來提取特征。在模型中,將提取的特征用基于循環(huán)相關(guān)的特征子集(correlationbased feature subset selection,CFS)和PCA 進(jìn)行特征選擇降低特征維度,然后用多核學(xué)習(xí)(multiple kernel learning,MKL)將特征進(jìn)行特征級(jí)融合,最后進(jìn)行分析得到情感極性。通過實(shí)驗(yàn)表明,加入上下文之間的聯(lián)系進(jìn)行分析時(shí),可以有效提高情感分析的準(zhǔn)確度。
Fig.8 Multi-modal neural network framework for emotion recognition圖8 多模態(tài)神經(jīng)網(wǎng)絡(luò)情感識(shí)別框架
由于在用語音特征區(qū)分憤怒和開心時(shí)準(zhǔn)確率過低,文獻(xiàn)[54]結(jié)合文本和語音來區(qū)分憤怒和開心兩種情緒。該方法用openSMILE 提取聲學(xué)特征,用基于詞典的方法提取文本特征,然后進(jìn)行特征級(jí)融合,將融合后的結(jié)果分別送入SVM 和CNN 中進(jìn)行對(duì)比分析。通過實(shí)驗(yàn)證明文本和語音中包含的情感信息進(jìn)行互補(bǔ),提高了憤怒和開心的區(qū)分準(zhǔn)確率。
由于注意力機(jī)制和門控循環(huán)單元在一些領(lǐng)域取得了不錯(cuò)的效果,在多模態(tài)情感分析的研究中,研究者嘗試將注意力機(jī)制和門控循環(huán)單元引入其中進(jìn)行分析,如文獻(xiàn)[55]結(jié)合音頻和文本進(jìn)行情感分析,提出了一種多特征融合和多模態(tài)融合的新策略(deep feature fusion-audio and text modality fusion,DFFTMF)。在特征提取時(shí),用Librosa 工具包在音頻中提取聲學(xué)特征,用BERT 模型在文本中提取文本特征,然后將其分別輸入到改進(jìn)的Bi-LSTM 和CNN 串行神經(jīng)網(wǎng)絡(luò)中,結(jié)合注意力機(jī)制對(duì)情感特征進(jìn)行改善,分別得到其情感向量,隨后用多模態(tài)注意力機(jī)制和Bi-LSTM 編碼器來選擇性學(xué)習(xí)這些輸入進(jìn)行特征級(jí)融合,最后用softmax 進(jìn)行情感分析。此方法在進(jìn)行模態(tài)融合時(shí)用多模態(tài)注意力機(jī)制重點(diǎn)融合來自音頻和文本互補(bǔ)的情感信息,減少了特征融合的數(shù)量。文獻(xiàn)[56]用視頻信息和文本信息提出了一種改進(jìn)的多模態(tài)情感分析方法。該方法使用自注意力機(jī)制獲得視頻上下文的相關(guān)性,使用交叉注意力機(jī)制學(xué)習(xí)不同模態(tài)之間的相互作用,使用交叉相互的門控機(jī)制來克服單個(gè)模態(tài)中存在的噪聲,選擇性學(xué)習(xí)融合特征向量,隨后使用Bi-GRU 來學(xué)習(xí)每個(gè)模態(tài)的深度特征向量,最后將每個(gè)模態(tài)的深度多模態(tài)特征向量連接用softmax 進(jìn)行情感分析。
文獻(xiàn)[57]利用圖像的深度語義信息提出了一種深度語義以及多主體網(wǎng)絡(luò),從圖像中提取包括對(duì)象和場景在內(nèi)的深度語義特征作為情感分析的附加信息。在視覺信息中,分別選用VGG 模型和Scene-VGG 模型在ImageNet 以及dataset-Place365 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后采用遷移學(xué)習(xí)來克服數(shù)據(jù)集之間的類別差異,將學(xué)習(xí)到的參數(shù)轉(zhuǎn)移到情感分析任務(wù)中,來獲得視覺特征以及場景特征。在文本信息中,引入注意力機(jī)制和LSTM 模型提取文本特征。
由于大多數(shù)現(xiàn)有的任務(wù)方法在進(jìn)行情感分析時(shí)主要依賴文本內(nèi)容,而沒有考慮其他重要的模態(tài)信息,基于此問題,文獻(xiàn)[58]提出了一種用于實(shí)體級(jí)多模態(tài)情感分類的實(shí)體敏感注意和融合網(wǎng)絡(luò)。在文本特征中,將文本分為左上下文、右上下文和目標(biāo)實(shí)體三部分,用三個(gè)LSTM 獲得其上下文信息以及情感特征;在視覺特征中,用殘差網(wǎng)絡(luò)(ResNet)來提取視覺特征并用注意力機(jī)制來獲得其每部分的權(quán)重信息,然后加入門控循環(huán)單元(gate recurrent unit,GRU)來濾除圖像噪聲,最后通過特征級(jí)別融合的方式將兩種模態(tài)的特征融合后送入softmax 中進(jìn)行情感分析。雖然此方式在幾個(gè)評(píng)論數(shù)據(jù)集上都取得了較好的效果,但是其網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,運(yùn)行時(shí)間較長。
3.1.2 決策級(jí)融合
決策級(jí)融合也稱后期融合。在這個(gè)融合過程中,每個(gè)模態(tài)的特征被獨(dú)立地分析,將分析結(jié)果融合為決策向量以獲得最終的決策結(jié)果。決策級(jí)融合的優(yōu)點(diǎn)是當(dāng)任何一個(gè)模態(tài)缺失時(shí),可以通過使用其他模態(tài)來做出決策,這時(shí)需要一個(gè)智能系統(tǒng)來檢測(cè)缺失的模態(tài)。由于在分析任務(wù)中使用了不同的分類器,在決策級(jí)融合階段,所有這些分類器的學(xué)習(xí)過程都變得繁瑣而耗時(shí)[3]。
在基于決策級(jí)融合的方式中,部分文獻(xiàn)僅用單模態(tài)提取的特征進(jìn)行情感分析。文獻(xiàn)[59]提出了一種基于深度CNN的微博視覺和文本的情感分析方法,在該方法中,用CNN 和DNN 分別對(duì)文本信息和視覺信息進(jìn)行情感分析,最后用平均策略和權(quán)重對(duì)兩種模態(tài)的分析結(jié)果進(jìn)行融合。由于中文微博數(shù)據(jù)集較小,在構(gòu)建DNN 模型時(shí)加入DropConnect 防止過擬合。文獻(xiàn)[60]使用文本、視頻和音頻三種模態(tài)提出了一種擅長于異構(gòu)數(shù)據(jù)的基于深層CNN 的特征提取方法。該方法在文本特征提取時(shí),用CNN 對(duì)其情感特征進(jìn)行提?。辉诿娌刻卣魈崛r(shí),將視頻逐幀剪輯獲取靜態(tài)圖像,然后從靜態(tài)圖像中提取面部特征點(diǎn);在音頻特征中,用openSMILE 軟件來提取與音調(diào)、聲音強(qiáng)度相關(guān)的音頻特征,最后將所提取的特征送入單獨(dú)的分類器中進(jìn)行分析,將結(jié)果在決策級(jí)進(jìn)行可并行化的融合。該文和文獻(xiàn)[53]都用基于循環(huán)相關(guān)和主成分分析來減少特征分析時(shí)的數(shù)量。特征選擇雖然加快了情感分析的速度,但同時(shí)可能丟失較為重要的細(xì)節(jié)情感特征信息,對(duì)結(jié)果產(chǎn)生負(fù)面影響。
由于多模態(tài)情感分析數(shù)據(jù)集較少,且注釋的數(shù)據(jù)集中的示例較少,在情感分析模型訓(xùn)練時(shí),得到的結(jié)果可能會(huì)與人物的身份特征相關(guān)聯(lián)。為了解決此類問題,文獻(xiàn)[61]提出了一個(gè)選擇加性(select-additive learning,SAL)學(xué)習(xí)程序來改善神經(jīng)網(wǎng)絡(luò)在多模態(tài)情感分析中的泛化能力。SAL 程序一共分為選擇階段和添加階段兩部分。在選擇階段,SAL 從神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的潛在表征中識(shí)別混雜因素。在加法階段,SAL通過在這些表示中添加高斯噪聲,迫使原始模型丟棄混雜元素。將文獻(xiàn)[44]中的情感分析方法用SAL增加其泛化能力和預(yù)測(cè)情緒后得到SAL-CNN,通過實(shí)驗(yàn)證明,SAL-CNN 在有限數(shù)據(jù)集上得到了不錯(cuò)的效果,并且該方法在不同的數(shù)據(jù)集上進(jìn)行測(cè)試時(shí),也獲得了良好的預(yù)測(cè)精度。
文獻(xiàn)[62]介紹了一種新的損失函數(shù)的回歸模型,稱為SDL(speaker-distribution loss),提出了一個(gè)時(shí)間選擇性注意的模型(temporally selective attention model,TSAM),該模型由注意力模塊、編碼模塊和說話人分布損失函數(shù)三部分組成。注意力機(jī)制通過明確分配注意權(quán)重來幫助模型選擇顯著的時(shí)間步長,在注意力模塊用LSTM 對(duì)序列進(jìn)行預(yù)處理,編碼階段用Bi-LSTM 對(duì)序列觀測(cè)值進(jìn)行編碼并加權(quán)組合作為該模塊的輸出,最后送到SDL 中進(jìn)行情感分析。在模態(tài)的特征提取中,用openFace 提取面部外觀特征,用協(xié)同語音分析庫技術(shù)(collaborative voice analysis repository technologies,COVAREP)提取聲學(xué)特征,文本用Glove得到詞向量。通過實(shí)驗(yàn)表明,加入注意力機(jī)制之后的模型能夠關(guān)注以人為中心的視頻序列的顯著部分,并且取得了不錯(cuò)的效果。
3.1.3 混合融合
混合融合是特征級(jí)融合和決策級(jí)融合方法的結(jié)合。這種融合方法結(jié)合了特征級(jí)融合和決策級(jí)融合的優(yōu)點(diǎn),同時(shí)模型復(fù)雜度和實(shí)現(xiàn)難度也隨之增加。
由于注意力機(jī)制和GRU 在情感分析中表現(xiàn)出較好的性能,文獻(xiàn)[63]提出了一種帶有時(shí)間注意門控的多模態(tài)嵌入LSTM 模型,該模型在單詞級(jí)上進(jìn)行融合,并且可以關(guān)注到最重要的時(shí)間幀,解決了“在每一時(shí)刻要尋找什么樣的情況”和“在交流中什么時(shí)候說話最重要”這兩個(gè)關(guān)鍵問題。在本文中,首次提出了一個(gè)注意層和一個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練的輸入門控制器來解決模態(tài)中的噪聲問題。文獻(xiàn)[64]提出了一種端到端的RNN 模型用來對(duì)情感進(jìn)行分析。此模型可以捕捉所有模態(tài)對(duì)話上下文、聽者和說話者情緒狀態(tài)之間的依賴性以及可用模態(tài)之間的相關(guān)性。在結(jié)構(gòu)上,使用兩種門控循環(huán)單元sGRU 和cGRU 來為對(duì)話者的狀態(tài)和情感建模。除此之外,使用一個(gè)互連的上下文網(wǎng)絡(luò)來學(xué)習(xí)上下文表示,并且使用成對(duì)的注意力機(jī)制來對(duì)每種模態(tài)的有用信息進(jìn)行簡單的表示。此文通過實(shí)驗(yàn)表明成對(duì)的注意力在多模態(tài)數(shù)據(jù)上具有最先進(jìn)的性能。
文獻(xiàn)[65]和文獻(xiàn)[66]引入了幾種不常用的模態(tài)進(jìn)行情感分析。文獻(xiàn)[65]基于面部表情、皮膚電反應(yīng)和腦電圖提出了一種基于混合融合的多模態(tài)情感分析系統(tǒng),圖9為其結(jié)構(gòu)框圖。該系統(tǒng)用8 898張圖片訓(xùn)練得到CNNF模型,輸出為7 個(gè)離散情感類別的概率向量。CNNV和CNNA由腦電圖和皮膚電反應(yīng)(galvanic skin response,GSR)模態(tài)的網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到。加權(quán)單元分別計(jì)算CNNV和CNNA輸出的化合價(jià)和喚醒的加權(quán)和,然后將其送到距離計(jì)算器計(jì)算情感距離,最后將情感距離送到?jīng)Q策樹,與CNNF得到的結(jié)果進(jìn)行融合得到情感狀態(tài)。文獻(xiàn)[66]結(jié)合視頻中的面部表情和姿態(tài)提出一種基于視覺的多模態(tài)情感分析框架,從視頻序列中自動(dòng)識(shí)別面部表情和上身手勢(shì)特征進(jìn)行特征級(jí)融合,隨后將分析結(jié)果用乘積和加權(quán)的方法進(jìn)行決策級(jí)融合得出結(jié)果。由于多模態(tài)情感分析的數(shù)據(jù)集較少,該篇文章所用的數(shù)據(jù)集是自建的一個(gè)面部表情和姿態(tài)的視頻數(shù)據(jù)庫。
由于多模態(tài)技術(shù)的發(fā)展,模態(tài)融合技術(shù)也受到了研究者的廣泛關(guān)注。在模態(tài)融合技術(shù)發(fā)展的初期,大多數(shù)研究者都是使用基于機(jī)器學(xué)習(xí)的方法訓(xùn)練模態(tài)的分類器,如SVM、Logistic 回歸、K-近鄰分類器等,還有一些研究者使用基于規(guī)則的方法,如線性加權(quán)和多數(shù)表決等[67]。隨著深度學(xué)習(xí)的發(fā)展,研究者將深度學(xué)習(xí)的方法引入到模態(tài)融合中。近年來提出了一些經(jīng)典的模態(tài)融合方法如下:
一些研究者將注意力機(jī)制和GRU 引入模態(tài)融合中,通過注意力機(jī)制來獲得模態(tài)的特征向量的權(quán)重。文獻(xiàn)[68]提出了一種融合抽取模型(fusion-extraction network,F(xiàn)ENet)。該模型用一種細(xì)粒度的注意力機(jī)制來交互學(xué)習(xí)視覺和文本信息的跨模態(tài)融合表示向量,可以融合兩種單一模態(tài)中對(duì)情感最有用的信息。在該方法中引入門控機(jī)制調(diào)節(jié)多模態(tài)特征融合時(shí)的權(quán)重以進(jìn)行情感分析。文獻(xiàn)[69]提出了一種基于雙向門控遞歸單元模型獲取話語間的上下文關(guān)系的信息增強(qiáng)融合算法框架,通過CT-BiLSTM(contextual-based bi-directional long short-term memory)獲取文本、音頻和視頻的上下文相關(guān)的單模態(tài)特征,然后用AT-BiGRU(attention-based bi-directional gated recurrent unit)模型來放大與目標(biāo)話語高度相關(guān)的上下文信息。此算法可以優(yōu)先選擇對(duì)情感分析有較大影響的模態(tài),能夠增強(qiáng)對(duì)目標(biāo)話語正確分類結(jié)果影響較大的情感信息。
Fig.9 Cross-subject multi-modal emotion recognition based on hybrid fusion圖9 基于混合融合的跨主體多模態(tài)情感識(shí)別
也有一些研究者將張量引入模態(tài)融合中計(jì)算模態(tài)間的交互作用,如文獻(xiàn)[70]提出了一種張量融合網(wǎng)絡(luò)(tensor fusion network,TFN)新模型,可以端到端地學(xué)習(xí)模態(tài)內(nèi)和模態(tài)間的動(dòng)態(tài)特性,它明確地聚合了單模態(tài)、雙模態(tài)和三種模態(tài)的相互作用。通過三種模態(tài)嵌入子網(wǎng)絡(luò)分別對(duì)語言、視覺和聲學(xué)模態(tài)進(jìn)行模態(tài)內(nèi)動(dòng)力學(xué)建模。文獻(xiàn)[71]將張量的方法和一些神經(jīng)網(wǎng)絡(luò)結(jié)合起來提出了一種深度高階序列融合網(wǎng)絡(luò)(deep higher order sequence fusion,Deep-HOSeq),通過從多模態(tài)時(shí)間序列中提取兩種對(duì)比信息進(jìn)行多模態(tài)融合。第一種是模態(tài)間信息和模態(tài)內(nèi)信息的融合,第二種是多模態(tài)交互的時(shí)間粒度信息。該網(wǎng)絡(luò)用LSTM 從每個(gè)單模態(tài)中獲得模態(tài)內(nèi)信息,然后將每個(gè)模態(tài)內(nèi)信息合并為多模態(tài)張量,取其外積。另一方面利用前饋層從每個(gè)單模態(tài)中獲得潛在特征,然后在每個(gè)時(shí)間步驟中獲得模態(tài)內(nèi)的作用,用卷積層和全連接層進(jìn)行特征提取,最后通過池化操作統(tǒng)一來自所有時(shí)態(tài)步驟的信息。在獲得這兩種信息后與一個(gè)融合層相結(jié)合來進(jìn)行情感分析。
在處理模態(tài)融合時(shí),保持單模態(tài)神經(jīng)網(wǎng)絡(luò)的性能是至關(guān)重要的,基于此觀點(diǎn)文獻(xiàn)[72]提出了一種多層的多模態(tài)融合方法,該方法引入了一個(gè)特定的神經(jīng)網(wǎng)絡(luò)稱為中央網(wǎng)絡(luò),該中央網(wǎng)絡(luò)不僅可以將不同的特征聯(lián)合起來,而且通過使用多任務(wù)學(xué)習(xí)來規(guī)范各個(gè)模態(tài)的網(wǎng)絡(luò)。此融合方法可以通過將相應(yīng)的單模態(tài)網(wǎng)絡(luò)層和其前一層的加權(quán)和作為每個(gè)層的輸入。中央網(wǎng)絡(luò)的優(yōu)點(diǎn)為中央網(wǎng)絡(luò)的損失函數(shù)不僅允許學(xué)習(xí)如何組合不同的模態(tài),而且還增加了對(duì)特定模態(tài)的網(wǎng)絡(luò)的限制,從而增強(qiáng)了模態(tài)間的互補(bǔ)性。文獻(xiàn)[73]用分層的方式對(duì)模態(tài)信息進(jìn)行融合,在該方法中引入RNN 和GRU 分別用來獲取周圍話語信息以提高特征向量的質(zhì)量和對(duì)上下文信息進(jìn)行建模。
為了得到影響情感分析準(zhǔn)確率的因素,本節(jié)將前文中對(duì)視頻信息進(jìn)行情感分析所提到的算法進(jìn)行對(duì)比研究,對(duì)比結(jié)果如表3~表6 所示。以下表中的評(píng)價(jià)指標(biāo)都為Accuracy,并且表中的模態(tài)信息A、V、T分別代表Audio、Video、Text。
Table 3 Accuracy comparison of single-modal sentiment analysis表3 單模態(tài)的情感分析Accuracy 比較 %
Table 4 Accuracy comparison of different algorithms on MOSI dataset表4 MOSI數(shù)據(jù)集上不同算法Accuracy 比較 %
Table 5 Accuracy comparison of different algorithms on MOUD dataset表5 MOUD 數(shù)據(jù)集上不同算法Accuracy 比較 %
Table 6 Accuracy comparison of same algorithm on different datasets表6 相同算法在不同數(shù)據(jù)集上Accuracy 比較 %
通過表3 可以看出,大多數(shù)算法用T+V 和T+A進(jìn)行情感分析時(shí)的準(zhǔn)確率都要高于V+A,說明在基于多模態(tài)的情感分析中,文本信息仍然是重要的情感線索。
通過表4 可得,在MOSI 數(shù)據(jù)集上用三種模態(tài)進(jìn)行情感分析時(shí),Gated mechanism for attention 算法的準(zhǔn)確率最高,說明門控單元在模態(tài)選擇時(shí)的重要性。此外,對(duì)每種模態(tài)的特征進(jìn)行除噪也可以提高準(zhǔn)確率。其次,Multilogue-Net 和DFF-TMF 這兩種算法的準(zhǔn)確率也較高,可以看出注意力機(jī)制以及模態(tài)間的相關(guān)性在提高準(zhǔn)確率方面也有重要的價(jià)值。
通過表5 可得,在MOUD 數(shù)據(jù)集上用三種模態(tài)進(jìn)行情感分析時(shí),CRMKL 算法的準(zhǔn)確率最高,說明視頻中上下文的信息、文本信息的預(yù)處理以及模態(tài)融合的選擇對(duì)提高準(zhǔn)確率很有幫助。
通過表6 可得,大多數(shù)算法在不同數(shù)據(jù)集上的魯棒性較好。LSTM-based model 方法在不同數(shù)據(jù)集上的準(zhǔn)確度相差較大,產(chǎn)生這種效果的原因是模型用MOSI 訓(xùn)練,MOSI 是英語,而MOUD 是西班牙語,語言不同,因而情感表達(dá)方式不同,分析方式也不同。
通過表3~表5 中相同的算法進(jìn)行對(duì)比可以看出,用三種模態(tài)進(jìn)行情感分析的準(zhǔn)確率高于用兩種和一種模態(tài)方法的準(zhǔn)確率,說明結(jié)合多種模態(tài)信息進(jìn)行情感分析的必要性。
本節(jié)主要對(duì)現(xiàn)有的多模態(tài)情感分析技術(shù)以及模態(tài)融合技術(shù)進(jìn)行了總結(jié)。在多模態(tài)情感分析技術(shù)中,部分文獻(xiàn)僅在單模態(tài)的特征提取上進(jìn)行改進(jìn)提高準(zhǔn)確度,而忽略了視頻序列中的上下文信息,導(dǎo)致對(duì)不同模態(tài)的特征挖掘不充分。隨著研究的深入,研究者引入RNN、LSTM、GRU 等網(wǎng)絡(luò)提取上下文信息進(jìn)而提高情感分析準(zhǔn)確度,但處理長時(shí)間的序列容易出現(xiàn)信息丟失問題?,F(xiàn)階段可以考慮用多層級(jí)GRU編碼上下文信息解決長時(shí)間依賴問題,從而獲得更為全面的情感信息。
在模態(tài)融合技術(shù)方面,研究者利用多層融合的方法來進(jìn)行模態(tài)融合,這種方法可以提高單模態(tài)特征向量的質(zhì)量,在數(shù)據(jù)較大的情況下可以獲得較好的效果,但在小樣本中可能導(dǎo)致過擬合問題。由于注意力機(jī)制在模態(tài)融合中尋找最優(yōu)權(quán)值時(shí)具有重要的作用,張量可以將所有模態(tài)的特征投影到同一空間獲得一個(gè)聯(lián)合表征空間,易于計(jì)算模態(tài)間的交互作用,近年來主流的模態(tài)融合方法是基于注意力機(jī)制的方法和基于張量的方法。
隨著深度學(xué)習(xí)和一些融合算法的興起,多模態(tài)情感分析技術(shù)得到了快速的發(fā)展,本文通過對(duì)多模態(tài)情感分析研究現(xiàn)狀的認(rèn)識(shí),總結(jié)出其面臨的挑戰(zhàn)與發(fā)展趨勢(shì)如下:
(1)多模態(tài)情感分析數(shù)據(jù)集。在多模態(tài)情感分析中,數(shù)據(jù)采集時(shí)的花費(fèi)以及如何在人們自然表達(dá)問題的情況下進(jìn)行數(shù)據(jù)的采集是目前存在的主要問題之一。數(shù)據(jù)集較少且多是由視覺、文本和語音三種模態(tài)組成,缺少姿態(tài)、腦電波等模態(tài)數(shù)據(jù)。因此需要高質(zhì)量且規(guī)模較大的數(shù)據(jù)集來提高情感分析的準(zhǔn)確度。
(2)單模態(tài)情感分析。在FER 中,一方面是不同的數(shù)據(jù)之間存在一定的差異性,由于不同的采集條件和注釋的主觀性,數(shù)據(jù)偏差和注釋不一致在不同的數(shù)據(jù)集中非常常見。另一方面是對(duì)一些表情識(shí)別不準(zhǔn)確,在對(duì)高興、傷心等表情識(shí)別時(shí)很容易,但在捕獲令人反感、憤怒和其他較不常見的表情信息時(shí)非常具有挑戰(zhàn)性;在基于文本信息的情感分析中,由于不同領(lǐng)域的情感表達(dá)差別較大,導(dǎo)致情感詞典的構(gòu)建較難。在含有許多隱喻、反話等復(fù)雜的語言形式中進(jìn)行情感分析得到的效果并不理想,因此如何提取對(duì)情感分析具有更大價(jià)值的特征依然是一個(gè)有待完善的課題;除此之外,情感分析技術(shù)在語音、姿態(tài)等一些模態(tài)中的不成熟制約了多模態(tài)情感分析技術(shù)的發(fā)展。
(3)模態(tài)間相關(guān)性。從不同模態(tài)中提取的特征之間存在一定的相關(guān)性,在現(xiàn)有的模態(tài)融合算法中,常常會(huì)忽略不同特征間的相關(guān)性,因此如何有效利用模態(tài)間的相關(guān)性來提高情感分析的準(zhǔn)確度是未來的研究方向之一。
(4)算法復(fù)雜度。在進(jìn)行多模態(tài)情感分析時(shí),模態(tài)過多會(huì)提高融合算法的復(fù)雜度,模態(tài)過少會(huì)影響結(jié)果的準(zhǔn)確性,因此如何選擇最佳的模態(tài)進(jìn)行融合也是一個(gè)急需解決的問題。
(5)模態(tài)融合時(shí)模態(tài)的權(quán)值問題。在模態(tài)融合時(shí),不同環(huán)境中不同模態(tài)的最優(yōu)權(quán)值分配是影響情感分析結(jié)果的重要因素之一。在完成不同分析任務(wù)時(shí),不同的模態(tài)對(duì)分析結(jié)果的影響不同,因此如何將對(duì)分析結(jié)果影響最大的模態(tài)賦予較大的權(quán)值是接下來模態(tài)融合的重點(diǎn)方向之一。
本文對(duì)多模態(tài)的情感分析領(lǐng)域的現(xiàn)有研究成果進(jìn)行了總結(jié),介紹了常用的多模態(tài)情感分析數(shù)據(jù)集;然后將近幾年中單模態(tài)的情感分析技術(shù)的文獻(xiàn)根據(jù)面部表情信息、文本信息以及語音信息進(jìn)行分類敘述;隨后對(duì)多模態(tài)的情感分析技術(shù)的文獻(xiàn)進(jìn)行總結(jié),并且對(duì)現(xiàn)有的模態(tài)融合技術(shù)進(jìn)行了詳細(xì)的描述;最后對(duì)情感分析中存在的問題進(jìn)行了討論。