多模態(tài)情感識別綜述

2022-09-22 10:32:32程大雷張代瑋陳雅茜

西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年4期

關(guān)鍵詞：特征提取模態(tài)神經(jīng)網(wǎng)絡(luò)

程大雷，張代瑋，陳雅茜

(西南民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院計(jì)算機(jī)系統(tǒng)國家民委重點(diǎn)實(shí)驗(yàn)室，四川成都 610041)

近年來，情感識別作為人工智能的關(guān)鍵技術(shù)之一，在遠(yuǎn)程醫(yī)療、智能家居等多種場景中得到了廣泛的應(yīng)用.人們每天都會產(chǎn)生大量具有豐富情感的多模態(tài)數(shù)據(jù)，如面部表情、語音等.基于多模態(tài)數(shù)據(jù)對情感進(jìn)行識別具有重要的研究價值和應(yīng)用意義.如圖1所示，多模態(tài)情感識別一般分為數(shù)據(jù)預(yù)處理、多模態(tài)特征提取和多模態(tài)情感融合等幾個步驟.為了提取高質(zhì)量的特征，會對原始數(shù)據(jù)降噪、去重等預(yù)處理操作.多模態(tài)表示學(xué)習(xí)是利用多模態(tài)的互補(bǔ)性和冗余性的方式來表示多模態(tài)數(shù)據(jù)[1].多模態(tài)情感融合就是通過模態(tài)間的相互作用將來自不同模態(tài)的信息聯(lián)合在一起.由于融合信息可以提供更多的情感線索，因此能夠提高整體結(jié)果或決策的準(zhǔn)確性[2].

本文分別從數(shù)據(jù)集、多模態(tài)特征提取以及多模態(tài)情感融合等方面對多模態(tài)情感識別進(jìn)行系統(tǒng)探索.特別針對多模態(tài)情感融合這一重點(diǎn)問題，對特征級融合、決策級融合、模型級融合這三個主流融合策略分別進(jìn)行了探討.最后從引入新模態(tài)和多模態(tài)融合等方面對改善和提升情感識別性能進(jìn)行了展望.

1 多模態(tài)情感識別數(shù)據(jù)集

在機(jī)器學(xué)習(xí)與人工智能這個大的領(lǐng)域，情感識別作為一門成熟的學(xué)科，有一系列不同的數(shù)據(jù)集來滿足日益增長的數(shù)據(jù)需求.用于多模態(tài)情感識別的模型必須具備很強(qiáng)的泛化能力，既能推斷出有用的社會信息，又能有效地落地于工業(yè)應(yīng)用.該任務(wù)的數(shù)據(jù)集必須具備一些期望的屬性，如不同的說話人、性別、討論主題、口語、使用的詞匯、情感強(qiáng)度以及數(shù)據(jù)量的多樣性等.表1列出了常用的多模態(tài)情感數(shù)據(jù)集.

(1)IEMOCAP數(shù)據(jù)集

IEMOCAP(Interactive Emotional Dyadic Motion Capture)[3]是應(yīng)用最廣泛的數(shù)據(jù)集，在實(shí)驗(yàn)室環(huán)境中以敘述的方式收集的.包含12個小時的英語對話，男女均有，擁有即興表演和腳本語言兩種方式，并按照憤怒、悲傷等九種情緒分類.此外，它還包含高質(zhì)量的視覺特征，因?yàn)槊娌?、頭部和手勢的標(biāo)記被用于捕捉面部表情和手勢動作.IEMOCAP也是使用最早的、有良好注釋和維護(hù)的數(shù)據(jù)集之一，因此絕大多數(shù)多模態(tài)情感識別模型都使用該數(shù)據(jù)集進(jìn)行評估.

(2)MELD數(shù)據(jù)集

MELD(Multimodal EmotionLines Dataset)數(shù)據(jù)集[4]是一個大型的多模態(tài)多方情感對話數(shù)據(jù)集，包含13 000個來自《老友記》電視劇的話語，由1 433個對話組成，每個對話包含兩個以上的說話人.每個話語都帶有情感和情緒標(biāo)簽，該數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集，分別對應(yīng)有9 593、1 061和2 504個話語.有憤怒、厭惡等七種情緒類別.

(3)CMU-MOSEI數(shù)據(jù)集

CMU-MOSEI(CMU Multimodal Opinion Sentiment and Emotion Intensity)數(shù)據(jù)集[5]是最大的話語級情感分析和情感識別數(shù)據(jù)集，包含超過65小時的注釋視頻1 000名發(fā)言者和250個主題，這些視頻來自于YouTube.由于許多工業(yè)產(chǎn)品使用類似的數(shù)據(jù)，這使得它成為最有用的數(shù)據(jù)集之一.每個視頻話語有來自3個不同人的注釋，以減少偏差.該數(shù)據(jù)集通過給每個例子分配一個情緒評分(-3到3之間)來進(jìn)行注釋，其中-3代表極端消極的情緒，＋3代表極端積極情緒.

(4)CMU-MOSI數(shù)據(jù)集

CMU-MOSI(Multimodal Opinion-level Sentiment Intensity)數(shù)據(jù)集[7]由93個來自YouTube的電影評論視頻組成.這些視頻涵蓋了2 199個話語.每個話語的標(biāo)簽由5個不同的工作者標(biāo)注，在-3到＋3的連續(xù)范圍內(nèi)，表示消極情緒(低于0分)或積極情緒(高于0分)的相對強(qiáng)度.

(5)CH-SIMS數(shù)據(jù)集

CH-SIMS(Chinese Single-and Multimodal Sentiment)是中文多模態(tài)情感分析數(shù)據(jù)集，它包含2 281個精細(xì)化的視頻片段，多模態(tài)和獨(dú)立的單模態(tài)注釋[7].它允許研究者研究模態(tài)之間的相互作用或使用獨(dú)立的單模態(tài)注釋進(jìn)行單模態(tài)情感識別.

2 多模態(tài)情感特征提取

特征提取是指從原始數(shù)據(jù)中提取一組特征并降低特征空間的維數(shù)這一過程.在特征提取過程中，會刪除不相關(guān)和冗余的特征，從而提高算法的準(zhǔn)確性，縮短訓(xùn)練時間.因此，特征提取是多模態(tài)情感識別的首要步驟，本節(jié)主要介紹文本、語音和面部表情特征的提取技術(shù).

2.1 文本情感特征提取

文本特征提取即對文本信息進(jìn)行提取，是表示文本信息的一種方法，它是對大量文本進(jìn)行處理的基礎(chǔ).過濾法、融合法、映射法和聚類法是常用的文本特征提取方法[8].與傳統(tǒng)的特征提取方法相比，深度學(xué)習(xí)可以從訓(xùn)練數(shù)據(jù)中快速獲得新的有效的特征.一些研究[9-10]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取多模態(tài)情感識別的文本特征.循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[11-12]用于處理順序數(shù)據(jù).對于涉及順序輸入的任務(wù)，例如語音和自然語言，通常使用RNNs更好.另外有各種各樣的無監(jiān)督架構(gòu)被設(shè)計(jì)用來學(xué)習(xí)單詞的向量空間表示，GloVe[31]是第一個產(chǎn)生健壯的詞嵌入的模型之一，其次是BERT[13]模型.BERT是一種開源的預(yù)訓(xùn)練模型，它是在一個大型的未標(biāo)記文本語料庫上預(yù)先訓(xùn)練的，該語料庫包括整個維基百科(約25億單詞)和一個圖書語料庫(8億單詞).之前的研究[14]使用BERT提取文本特征作為多模態(tài)情感識別中的文本模態(tài).這些模型設(shè)計(jì)高效，經(jīng)過大量數(shù)據(jù)的預(yù)訓(xùn)練，具有很強(qiáng)的特征表示學(xué)習(xí)能力，能夠捕捉詞義和上下文.在這一點(diǎn)上，為了方便與基線模型進(jìn)行比較，大多數(shù)多模態(tài)情感識別模型都采用了GloVe嵌入.

2.2 語音情感特征提取

將語音信號分割為20～30 ms的幀，然后從這些幀中提取特征，這些幀統(tǒng)稱為低級描述特征(LLDs).文獻(xiàn)[15]提取17維的LLDs聲學(xué)特征進(jìn)行情感識別.話語的長度因數(shù)據(jù)庫而異，由于話語長度的不同，數(shù)據(jù)庫中每個話語的幀數(shù)也不同.話語長度的確定是通過在話語的所有幀中提取每個LLDs特征的統(tǒng)計(jì)描述符來實(shí)現(xiàn)的.高級統(tǒng)計(jì)描述特征(HSDs)是在LLDs的基礎(chǔ)上做一些統(tǒng)計(jì)(如均值、最大值)而得到的.文獻(xiàn)[16]分別提取這兩個層次的聲學(xué)特征，進(jìn)行有效的互補(bǔ)融合達(dá)到了較好的結(jié)果.使用Librosa[17]音頻處理庫和openSMILE[18]開源軟件可以進(jìn)行簡單的語音特征提取.深度學(xué)習(xí)算法在語音情感識別中也得到了廣泛關(guān)注和應(yīng)用，例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)[19]被廣泛應(yīng)用于圖像相關(guān)特征學(xué)習(xí).因此當(dāng)給定一種將音頻信號映射到二維表示(圖像)的方法，CNN就可以學(xué)習(xí)深度音頻特征.循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[20]以及它的改進(jìn)長短期記憶網(wǎng)絡(luò)(LSTM)[21]同樣也取得了顯著的改善.最近，為了從初始波形中學(xué)習(xí)音頻表示，人們提出了各種表示學(xué)習(xí)技術(shù)和結(jié)構(gòu).SincNet[32]網(wǎng)絡(luò)使用有監(jiān)督的方式以CNN處理原始語音波形.另一方面，從音頻中學(xué)習(xí)語音表示的無監(jiān)督方法正在迅速發(fā)展，并產(chǎn)生了高效的架構(gòu)，如wav2vec[33]，wav2vec 2.0[34]是目前先進(jìn)的表示學(xué)習(xí)模型.

2.3 面部表情特征提取

雖然從理論上講，肢體語言在表達(dá)人的情緒方面起著重要的作用，但多模態(tài)情感識別的相關(guān)數(shù)據(jù)集大多是捕捉人臉面部表情.面部表情特征提取會產(chǎn)生更小、更豐富的屬性集，這些屬性集包含臉部邊緣、對角線等特征，以及嘴唇和眼睛之間的距離、兩只眼睛之間的距離等信息.特征提取的方法包括基于幾何的特征提取和基于外觀的特征提取.前者基于幾何的特征提取方法諸如邊緣特征和角點(diǎn)特征等，Neha等人[22]分析了特征提取技術(shù)Gabor濾波器的性能，他們還測試了平均Gabor濾波器，并比較了兩種濾波技術(shù)以提高識別率；后者利用突出的點(diǎn)特征來處理臉部不同點(diǎn)的狀態(tài)，比如眼睛的位置，嘴巴和眉毛等重要點(diǎn)的形狀.傳統(tǒng)的特征提取方法大多采用局部二值模式(LBP)作為特征提取技術(shù)，LBP是一種基于通用的框架，用于從靜態(tài)圖像中提取特征.此外，隨著深度學(xué)習(xí)的發(fā)展，其特征提取方法要比傳統(tǒng)方法要好.近年來研究人員提出了一系列深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)方法用于視頻序列中面部表情識別任務(wù)的高級特征學(xué)習(xí).其中，具有代表性的深度模型有AlexNet[23]、VGG[24]、GoogleNet[25]、ResNet[26]等等.特別是Li等人[27]利用預(yù)先訓(xùn)練的VGG網(wǎng)絡(luò)學(xué)習(xí)了專門的面部表情識別模型.Zhang等人[28]采用3D-CNN網(wǎng)絡(luò)來學(xué)習(xí)視頻序列中與面部情緒表達(dá)相關(guān)的情感視頻特征.

3 多模態(tài)情感識別

在多模態(tài)情感識別中，特征表示和多模態(tài)情感融合是兩個重要的研究方向[29-30].一個好的特征表示應(yīng)該捕捉豐富的情感線索，這些線索可以概括不同的說話者、背景和語義內(nèi)容等.一個良好的融合機(jī)制應(yīng)該能夠有效地整合各個模態(tài)數(shù)據(jù).

3.1 多模態(tài)情感識別特征表示

為了幫助理解多模態(tài)情感特征表示的任務(wù)，本文列出了兩種常用的多模態(tài)表示學(xué)習(xí)策略:聯(lián)合表示和協(xié)同表示.聯(lián)合表示將單模態(tài)信號整合到同一個表示空間中稱為聯(lián)合嵌入空間，而協(xié)同表示分別處理單模態(tài)信號，但會對它們施加某些相似性約束.

聯(lián)合表示法將單模態(tài)表示投影到多模態(tài)聯(lián)合表示中.聯(lián)合表示的最簡單的例子是單個模態(tài)特征的拼接(也稱為早期融合[35]).在本文中我們主要討論使用神經(jīng)網(wǎng)絡(luò)創(chuàng)建聯(lián)合表示的方法如表2，神經(jīng)網(wǎng)絡(luò)已經(jīng)成為一種非常流行的單模態(tài)特征表示方法，它們被用來表示文本、視覺和聽覺數(shù)據(jù)，并越來越多地用于多模態(tài)情感識別領(lǐng)域.為了使用神經(jīng)網(wǎng)絡(luò)構(gòu)建多模態(tài)表示，每個模態(tài)都從幾個單獨(dú)的神經(jīng)層開始，然后使用一個隱藏層將多種模態(tài)投影到聯(lián)合空間中.Mai等人[36]提出了一種新的對抗性編碼器-解碼器-分類器框架來學(xué)習(xí)模態(tài)不變性的聯(lián)合嵌入空間.由于各種模態(tài)的分布性質(zhì)不同，為了減少模態(tài)差距，利用對抗性訓(xùn)練，通過各自的編碼器將源模態(tài)的分布轉(zhuǎn)化為目標(biāo)模態(tài)的分布.此外，通過引入重構(gòu)損失和分類損失對嵌入空間施加額外的約束.在多模態(tài)情感識別中我們經(jīng)常需要表示長度不等的序列，如句子和音頻.循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變體，如長短期記憶(LSTM)網(wǎng)絡(luò)，因其成功地對各種任務(wù)進(jìn)行序列建模受到了廣泛關(guān)注.RNN表示的使用并不局限于單模態(tài)，使用RNN構(gòu)造多模態(tài)情感識別表示的早期用法來自于Chen等人[43].基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合表示的主要優(yōu)勢在于，當(dāng)標(biāo)記數(shù)據(jù)不足以用于監(jiān)督學(xué)習(xí)時，它們能夠?qū)o標(biāo)記數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練.Zhao等人[44]提出了一個用于多模態(tài)情緒識別的預(yù)訓(xùn)練模型MEmoBERT，該模型通過自監(jiān)督學(xué)習(xí)從大量的未標(biāo)記視頻數(shù)據(jù)中學(xué)習(xí)多模態(tài)聯(lián)合表示.

表2 多模態(tài)情感識別表示技術(shù)綜述Table 2 Asummary of multimodal emotion recognition representation techniques

協(xié)同表示不是把模態(tài)一起投影到聯(lián)合空間，而是學(xué)習(xí)每個模態(tài)的單獨(dú)表示，但通過一個約束來協(xié)調(diào).協(xié)同表示主要分為相似性和結(jié)構(gòu)化協(xié)調(diào)空間模型.相似性模型最小化了協(xié)同空間中模態(tài)之間的距離.Weston等人[46]的研究是此類表示學(xué)習(xí)的最早例子之一.最近，由于神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)特征表示的能力，它已經(jīng)成為一種構(gòu)造協(xié)同表示的流行方式.它們的優(yōu)勢在于可以通過端到端方式共同學(xué)習(xí)協(xié)同表示.Fu等人[47]使用增強(qiáng)稀疏局部判別典型相關(guān)分析方法來學(xué)習(xí)多模態(tài)共享特征表示，利用En-SLDCCA方法得到視頻和音頻的相關(guān)系數(shù)，然后利用相關(guān)系數(shù)形成融合視頻和音頻特征的共享特征表示.結(jié)構(gòu)化的協(xié)同表示模型在模態(tài)表示之間加強(qiáng)了額外的約束.例如，典型相關(guān)分析(CCA)[48]方法計(jì)算線性投影，最大化兩個隨機(jī)變量之間的相關(guān)性，并加強(qiáng)新空間的正交關(guān)系.Zhang等人[49]將深度典型相關(guān)分析(DCCA)引入到多模態(tài)情緒識別中.DCCA的基本思想是將每個模態(tài)分別變換，并通過指定的典型相關(guān)分析約束將不同模態(tài)協(xié)調(diào)到一個多維空間.

3.2 多模態(tài)情感識別特征融合

對來自多種模態(tài)的信息進(jìn)行融合是多模態(tài)任務(wù)的一個重要步驟.然而，多模態(tài)數(shù)據(jù)在本質(zhì)上是高度異構(gòu)的，所以融合是一項(xiàng)具有挑戰(zhàn)性的任務(wù).多模態(tài)情感融合主要有特征級融合、決策級融合、模型級融合[37]三種策略.如圖2所示，特征級融合最為直觀，通過串接等方式對不同模態(tài)的特征進(jìn)行融合.由于融合特征包含更多的情感信息，可以明顯提高情感識別性能.Zadeh等人[38]提出了一種張量融合網(wǎng)絡(luò)(TFN)利用多模態(tài)特征的乘積來融合多模態(tài)信息.但這樣會極大增加特征的維度，使模型過大難以訓(xùn)練.與張量網(wǎng)絡(luò)不同的是Liu等人[39]采用了低秩多模態(tài)融合方法，利用低秩張量提高了融合效率，該方法不僅減少了參數(shù)，而且提高了情感識別性能.Zeng等人[40]提出了一種新穎的、數(shù)據(jù)驅(qū)動的乘法融合技術(shù)來融合多模態(tài)，在訓(xùn)練過程中它會對模態(tài)進(jìn)行檢測，過濾掉無效的情感特征，這樣就學(xué)習(xí)了更可靠的情感線索.

圖2 特征級融合Fig.2 Feature level fusion

決策級融合將各模態(tài)的特征進(jìn)行獨(dú)立的提取和分類，得到局部決策結(jié)果之后，再融合各個決策結(jié)果為決策向量以獲得最終決策，如圖3所示.相比特征級融合，決策級融合更簡單自由，因?yàn)槊糠N模態(tài)的決策結(jié)果通常是具有相同意義的數(shù)據(jù).此外，每種模態(tài)可以自由選擇合適的特征提取器和分類器，產(chǎn)生更優(yōu)的局部決策結(jié)果.Zadeh[5]等人提出了一種動態(tài)融合圖(DFG)技術(shù)來融合多模態(tài).DFG可以學(xué)習(xí)n-模態(tài)之間的相互作用和有效參數(shù)數(shù)目(不同于TFN具有大量參數(shù)).它還可以根據(jù)n-模態(tài)動力學(xué)的重要性動態(tài)改變其結(jié)構(gòu)和選擇融合圖.DFG具有高度可解釋性，與目前的技術(shù)水平相比，具有較強(qiáng)競爭力.

圖3 決策級融合Fig.3 Decision level fusion

與特征級融合和決策級融合相比，如圖4所示，模型級融合可以更好學(xué)習(xí)模型內(nèi)部的多模態(tài)交互，更好地發(fā)揮了深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢.隨著注意力機(jī)制(Attention)的普及，它在多模態(tài)融合中發(fā)揮著重要的作用.Chen等人[41]提出了條件注意力融合模型，采用長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM-RNN)作為基本的單模態(tài)模型來捕獲長時間依賴.分配給不同模態(tài)的權(quán)重是由當(dāng)前輸入特征和最近的歷史信息自動決定的，通過在每個時間步上動態(tài)地關(guān)注不同的模態(tài)，對傳統(tǒng)的融合策略進(jìn)行了改進(jìn).最近提出了一種更有效的Transformer模型.它以較長的時間跨度來模擬長期的時間依賴，更適合于模擬情感的時間過程.Huang等人[42]利用Transformer模型學(xué)習(xí)語音和視頻兩個模態(tài)之間的語義關(guān)聯(lián)，實(shí)現(xiàn)模型級融合，進(jìn)行連續(xù)的情感識別.

圖4 模型級融合Fig.4 Model level fusion

4 展望

多模態(tài)情感識別目前還有很多問題有待研究，如怎么融合新模態(tài)的信息來提高情感識別的準(zhǔn)確率、多模態(tài)特征對齊，如何結(jié)合多個模型的優(yōu)點(diǎn)來提高情感識別率等.其中，我們認(rèn)為新模態(tài)的引入和多模態(tài)融合是未來的重點(diǎn)發(fā)展方向.

4.1 新模態(tài)的引入

除了文本、語音和視頻等常用模態(tài)外，可以考慮引入姿態(tài)和生理信號等新模態(tài).在很多大的場景中(如商場、火車站等公共場所)，用戶的面部表情、語音等屬于微觀情感，這些信息通過近距離才能采集到.而動作姿態(tài)也是用戶表達(dá)情感的重要方式，目前尚未得到充分的利用.而且，對于聽障人士、面部表情障礙人群等，相較于語音和面部表情，他們表達(dá)感情的方式更依賴于動作姿態(tài).用戶的動作姿態(tài)空間尺度大、數(shù)據(jù)容易采集、不同情感之間數(shù)據(jù)變化明顯.因此，通過姿態(tài)所表達(dá)的情感也是抑郁癥和自殺行為檢測以及暴力傾檢測的重要指標(biāo).

另外當(dāng)人處于某一情感狀態(tài)時，身體會發(fā)生一系列的生理反應(yīng)，腦電、心電、肌電等信號是我們常用的生理信號.在某些情況下人們刻意掩蓋自己的情緒，或者患有面神經(jīng)炎的人無法表達(dá)表情，就無法準(zhǔn)確預(yù)測他們的情感.隨著腦機(jī)接口等領(lǐng)域的研究發(fā)展，許多研究者提出了基于生理信號的情感識別方法.在未來生理信號和面部表情、語音、姿態(tài)等特征相結(jié)合的多模態(tài)情感識別技術(shù)會成為新的發(fā)展趨勢.

4.2 多模態(tài)情感融合問題

多模態(tài)情感融合一直是一個被廣泛研究的課題，研究者們提出了大量的方法來解決它，每種方法都有自己的優(yōu)缺點(diǎn).近年來，神經(jīng)網(wǎng)絡(luò)已成為處理多模態(tài)融合的一種非常流行的方法.然而多模態(tài)融合仍然面臨以下挑戰(zhàn):(i)各個模態(tài)數(shù)據(jù)可能不是時間對齊的；(ii)難以建立利用互補(bǔ)信息提高情感識別性能；(iii)每個模態(tài)在不同的時間點(diǎn)可能表現(xiàn)出不同類型和不同程度的噪聲.在未來多模態(tài)情感融合方法還需要大量創(chuàng)新來提高情感識別準(zhǔn)確率.

4.3 如何提高模型的泛化能力

雖然在多模態(tài)情感識別領(lǐng)域提出了很多優(yōu)越的模型，但它們通常是在特定的數(shù)據(jù)集上訓(xùn)練的，模型訓(xùn)練依賴于不現(xiàn)實(shí)的數(shù)據(jù)，如強(qiáng)制對齊的多模態(tài)序列，無錯誤的文本轉(zhuǎn)錄，人工的對話語境等，缺乏泛化能力，很難適應(yīng)工業(yè)應(yīng)用.因此，在實(shí)踐中，需要設(shè)計(jì)更穩(wěn)健的模型.未來的工作應(yīng)該包含以下幾個方面:(i)采用跨數(shù)據(jù)集的評估方式進(jìn)行訓(xùn)練，同時利用無監(jiān)督或有監(jiān)督領(lǐng)域適應(yīng)方法的能力，以便更好地評估其泛化能力；(ii)能夠?qū)Ψ菍R的多模態(tài)數(shù)據(jù)進(jìn)行推斷；(iii)在有噪聲或缺失模態(tài)的情況下能夠進(jìn)行推斷.

4.4 預(yù)訓(xùn)練表示學(xué)習(xí)

在多模態(tài)情感識別的文獻(xiàn)中還缺少一個概念，即無監(jiān)督地表示學(xué)習(xí).在其他機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域中，也有很多功能強(qiáng)大的無監(jiān)督表示學(xué)習(xí)方法，如針對文本的BERT[13]，針對音頻的wav2vec[33]，以及針對視覺的MoCo[50]，這些方法都是獨(dú)立于應(yīng)用的.已經(jīng)為多模態(tài)情感識別任務(wù)創(chuàng)建了幾個定義良好的數(shù)據(jù)集，結(jié)合它們以生成通用的多模態(tài)情感特征表示的研究可能有助于提高情感識別的準(zhǔn)確率.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡