對話情緒識別綜述

2023-02-14 10:30陳曉婷

計(jì)算機(jī)工程與應(yīng)用 2023年3期

陳曉婷，李實(shí)

東北林業(yè)大學(xué) 信息與計(jì)算機(jī)工程學(xué)院，哈爾濱 150040

對話系統(tǒng)作為人們?nèi)粘贤ê颓楦斜磉_(dá)的載體，其應(yīng)用場景廣泛并受到了學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注。早前的對話系統(tǒng)針對特定領(lǐng)域開展任務(wù)[1]，例如手機(jī)語音助手，此類任務(wù)只需確保生成回復(fù)的語義和邏輯正確，無需考慮用戶的具體情緒，因此缺乏共情性。近年來，隨著人機(jī)交互技術(shù)逐漸從交叉學(xué)科中脫離出來成為一個(gè)獨(dú)立的研究領(lǐng)域[2]，人們開始從提高生成對話的語義質(zhì)量轉(zhuǎn)向?yàn)榧訌?qiáng)對話過程的交互。

情感是人和機(jī)器的本質(zhì)區(qū)別，情感理解是人工智能的一個(gè)重要研究方向。作為人類智力的重要組成部分，情商被定義為感知、整合、理解和調(diào)節(jié)情緒的能力[3]。在聊天過程中，機(jī)器若能感受到用戶的情緒并對此進(jìn)行準(zhǔn)確的處理，就能極大地豐富對話的內(nèi)容并且讓用戶產(chǎn)生移情和共情反應(yīng)[4-7]，從而提高用戶滿意度。

除此之外，對話情緒識別（emotion recognition in conversation，ERC）在其他任務(wù)中也有潛在的應(yīng)用，例如社交媒體中的意見挖掘[8]、推薦系統(tǒng)[9-10]、醫(yī)療保健[11]和假新聞檢測[12]等諸多領(lǐng)域。圍繞對話進(jìn)行情感分析旨在讓機(jī)器理解說話者的感受和情緒，從而產(chǎn)生共情心。隨著近幾年臉書（facebook，https：//www.facebook.com/）、推特（Twitter，https：//twitter.com/）和微博等社交媒體平臺(tái)以及亞馬遜Alexa等對話助手的增多，對話情緒識別受到學(xué)術(shù)界越來越多的關(guān)注[13-14]，研究者開始致力于通過提高任務(wù)的模型效果來為后續(xù)的感知和響應(yīng)情感對話奠定基礎(chǔ)。

對話情緒識別的目標(biāo)是識別對話中每個(gè)話語的情感標(biāo)簽，本質(zhì)上是分類問題，即從定義好的情感類別中，為對話的每一句表達(dá)確定其情感類別[15]。如果不考慮對話中的上下文依賴，一般的文本分類方法都能用來解決對話文本中的情感分類問題。但由于對話本身具有很多要素，比如，對話文本通常是簡短的、非正式的文本，對話中的主題時(shí)?？焖偾袚Q，上下文信息是動(dòng)態(tài)的，同時(shí)，說話者的情緒和狀態(tài)也會(huì)受其他說話者的影響。因此，話語的情感識別并不簡單地等同于單個(gè)文本句子的情感識別，而是需要綜合考慮相關(guān)信息，這些都是對話情緒識別任務(wù)中存在的獨(dú)特挑戰(zhàn)。

對話情緒識別任務(wù)不僅需要對話語語義和情感表達(dá)有更深刻的理解，還要考慮不同話語之間的信息交互。圖1所示，說話者A本來是一個(gè)悲傷（“Sad”）的狀態(tài)，但由于模型忽略了歷史對話信息，結(jié)果第三次話語被分配了錯(cuò)誤的情緒標(biāo)簽“Happy”。因此，應(yīng)該探索更有效的自然語言處理技術(shù)，同時(shí)結(jié)合心理和認(rèn)知領(lǐng)域的知識，從而提高對話情緒識別模型的整體效果。

圖1 對話情緒識別的例子Fig.1 Example of conversational emotion recognition

為了解決對話情緒識別任務(wù)中存在的關(guān)鍵問題，需要綜合考慮以下三點(diǎn)：首先，對話情緒識別在識別目標(biāo)句子的情感時(shí)，需要利用對話上下文信息，建模上下文可以為情緒識別提供更多背景知識。此外，對話情緒識別中的上下文信息是依賴說話者的，對于相同的話語，由同一個(gè)說話者說出與不同說話者說出帶來的影響是不同的，因此許多研究人員對說話者的狀態(tài)和說話者之間的依賴關(guān)系進(jìn)行了建模。最后，情感是通過多種模態(tài)的形式進(jìn)行表達(dá)的，不同模態(tài)提供的信息往往也是不同的，利用單一模態(tài)有時(shí)很難做出準(zhǔn)確的判斷，需要綜合考慮不同模態(tài)內(nèi)和跨模態(tài)之間的差異化信息進(jìn)行多模態(tài)建模。

近年來已有不少學(xué)者關(guān)注對話情緒識別這一方向，該領(lǐng)域的研究處于一個(gè)明顯上升的勢頭，產(chǎn)生并積累了許多成果。為了便于研究者在現(xiàn)有研究工作的基礎(chǔ)上取得更好的進(jìn)展，有必要對目前對話情緒識別的研究成果進(jìn)行全面的分析和總結(jié)。本文的組織結(jié)構(gòu)如圖2所示。

圖2 本文的組織結(jié)構(gòu)Fig.2 Organization of this paper

1 問題定義與分類

對話情緒識別是一個(gè)分類任務(wù)，旨在對一段對話中的話語進(jìn)行情緒分類，任務(wù)的輸入是一段連續(xù)的對話，輸出是這段對話中所有話語的情緒。本文所指的“情緒”是更為廣義的概念[16]，它既包括普通的正向、負(fù)向和中性的情感含義，也包括高興、生氣、害怕等具體層面的情緒含義。

對話情緒識別任務(wù)的形式化定義如下：

給定對話記錄以及每個(gè)組成話語的說話者信息，對話情緒識別任務(wù)旨在從一組預(yù)定義的情緒中識別每個(gè)話語的情緒。具體來說，假設(shè)有N個(gè)連續(xù)話語u1,u2,…,uN和M個(gè)說話者p1,p2,…,pM的對話。每個(gè)話語ui由一個(gè)說話者pS(ui)說出，其中函數(shù)S將話語的索引映射到其對應(yīng)的說話者，對話情緒識別的目標(biāo)是預(yù)測每個(gè)話語ui的情感標(biāo)簽ei。

現(xiàn)有的對話情緒識別研究可以分為兩個(gè)方向：靜態(tài)和實(shí)時(shí)。靜態(tài)對話情緒識別[17-18]意味著整個(gè)對話已經(jīng)完成，因此可以利用歷史和未來的上下文信息來檢測話語的情緒。實(shí)時(shí)對話情緒識別[19]中沒有未來的上下文，需要構(gòu)建記憶庫來捕獲歷史背景信息并適當(dāng)?shù)乜偨Y(jié)記憶進(jìn)行話語情感的識別，現(xiàn)有工作主要遵循三個(gè)步驟，先分別獲取對話中每個(gè)話語的特征表示，再捕獲查詢語句的上下文信息，最后將上下文信息融合到查詢中以提取查詢的情感表示。

對話情緒識別的研究也可以根據(jù)會(huì)話場景進(jìn)一步分類：多模態(tài)和單模態(tài)。在多模態(tài)場景中，所有文本、視頻和音頻信息都可以用于識別情緒，而單模態(tài)對話情緒識別則獨(dú)立地利用文本、視頻或音頻信息。對多模態(tài)對話情緒識別和文本對話情緒識別的區(qū)別和相關(guān)方法介紹詳見第3章和第4章。

2 問題切入方式

識別對話話語中的情緒需要綜合考慮多方面的信息，該問題的切入方式大致分為兩類：上下文建模和說話者建模。一方面，周圍的話語可以提供重要的上下文信息。另一方面，不同說話者的狀態(tài)以及說話者之間的相互影響也與情緒狀態(tài)息息相關(guān)。除此之外，還有一些輔助建模的工作，用于更好地提升模型效果，比如情緒一致性建模和對話主題信息建模等。下面分別介紹這三類建模方式的應(yīng)用與研究情況。

2.1 上下文建模

在對話情緒識別中，當(dāng)前話語情緒的表達(dá)依賴于周圍話語中的上下文信息，這些信息來源于局部和遠(yuǎn)距離的上下文，因此，掌握對話情緒識別的長距離上下文依賴是有必要的。例如，Poria等人[20]利用長短期記憶網(wǎng)絡(luò)（long short term memory，LSTM）提取每個(gè)上下文語句，再用全連接層融合上下文信息。但未考慮到每個(gè)語句也依賴與其相關(guān)的上下文語句，即句子之間存在著依賴關(guān)系。為了解決這個(gè)問題，Chen等人[21]采用了多層遞歸神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）提取語句信息并處理對話中連續(xù)的句子表示?，F(xiàn)有的基于上下文的對話情緒識別方法主要集中于利用循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制來建模局部句子之間的聯(lián)系，而忽略了對話作為一個(gè)整體所呈現(xiàn)的特征。吳良慶等人[22]對此進(jìn)行完善，提出了基于神經(jīng)主題的情感分類模型，通過提取每段對話中的主題信息作為全局信息嵌入到上下文句子表示。

2.2 說話者建模

對話中說話者的情感狀態(tài)主要包括兩方面，第一，每個(gè)人的情感具有一定的延續(xù)性；第二，說話者會(huì)受對話中其他人的情感所影響，換句話說，說話者敏感的交互主要由自我影響和說話者之間的影響兩個(gè)重要因素引起。因此，對說話者建模可以提高對話情緒識別模型的效果。Hazarika等人[23]使用不同的GRU為說話者內(nèi)和說話者間的上下文建模，該特征融合是當(dāng)前話語信息，相當(dāng)于局部信息融合，并未考慮將每個(gè)用戶的信息進(jìn)行融合獲得全局信息狀態(tài)。為了解決該問題，Hazarika等人[24]在此模型的基礎(chǔ)上加入了DGIM模塊，對說話者的歷史狀態(tài)信息進(jìn)行整合得到全局狀態(tài)信息。此外，還有一些工作從不同的角度考慮對話中的說話者，例如，DialogueRNN[25]解決了對于最終要識別的話語中未區(qū)分該話語屬于哪個(gè)說話者的問題。DialogueGCN[26]構(gòu)建整篇對話的關(guān)系圖，使用不同類型的邊來表示時(shí)序以及說話者之間的關(guān)系。

2.3 其他輔助建模

同時(shí)考慮說話者敏感建模和上下文敏感建模有助于獲取到更多的信息，從而提升情緒預(yù)測的準(zhǔn)確率，在此基礎(chǔ)上，一些研究者開始探索其他輔助建模，來幫助提高模型效果。

（1）情緒一致性建模

在對話中，說話者傾向于保持穩(wěn)定的情緒趨勢，符合實(shí)際說話者本身的說話邏輯，這被稱為情緒慣性[15]。因此，在簡短的對話中，說話者的情緒往往保持不變。但是，由于對話的獨(dú)特性，說話者的情緒可能會(huì)受到其他說話者的影響。在這種情況下，來自同一說話者的兩個(gè)連續(xù)話語的情感標(biāo)簽可能不同，稱之為情緒變化[27]。田雨亭[28]通過引入判斷相鄰對話情緒一致性（JECD）的子任務(wù)，用于分析對話上一句與當(dāng)前句之間的情緒是否發(fā)生轉(zhuǎn)變。Wang等人[29]提出了一種將對話情緒識別任務(wù)建模為序列標(biāo)記的方法，其中利用條件隨機(jī)場層來學(xué)習(xí)對話中的情緒一致性。Gao等人[30]提出了一種多任務(wù)學(xué)習(xí)模型ESD-ERC，利用情緒轉(zhuǎn)移檢測作為輔助任務(wù)來協(xié)助完成對話情緒識別。

（2）對話主題信息建模

對話主題作為一段對話的全局背景信息，與對話中句子的情感傾向有著密切的聯(lián)系，情緒的表達(dá)方式以及話語的含義會(huì)根據(jù)所討論的特定主題而變化，因此，融入主題信息有助于提高對話情緒識別的性能。傳統(tǒng)的主題模型，例如概率潛在語義分析[31]和潛在狄利克雷分配[32]，已被廣泛應(yīng)用于推測一段文本的主題分布。同時(shí)，建立在神經(jīng)變分推理的基礎(chǔ)上，出現(xiàn)了一些基于神經(jīng)網(wǎng)絡(luò)的主題模型，例如基于潛在狄利克雷分配的概率模型[33]，基于預(yù)訓(xùn)練主題分布的獨(dú)立訓(xùn)練模型[34]，主題信息融入詞向量[35]等?，F(xiàn)有工作并沒有強(qiáng)調(diào)對對話的整體屬性（即對話主題和語氣）進(jìn)行建模，因此，不易捕捉與所討論主題相關(guān)的說話者的情感狀態(tài)。王建成等人[22]提出利用主題模型學(xué)習(xí)對話全局的主題信息。Zhu等人[36]提出主題驅(qū)動(dòng)的對話情感檢測方法，設(shè)計(jì)了一個(gè)主題增強(qiáng)語言模型。

對話中的情緒識別任務(wù)不僅要考慮文本的語義信息，還要考慮說話者之間的影響，因此，上下文建模和說話者建模是兩個(gè)必不可少的關(guān)鍵挑戰(zhàn)。隨著自然語言處理技術(shù)的深入發(fā)展，現(xiàn)有的研究從多個(gè)角度設(shè)計(jì)不同的模型同時(shí)考慮這兩種問題切入方式，取得了一定的進(jìn)展，本文在第3章和第4章分別從文本和多模態(tài)方面對相關(guān)工作展開介紹。

3 文本對話情緒識別的主要方法

人類語言理解和人類語言生成是自然語言處理的兩個(gè)方面。然而，由于自然語言中存在歧義問題，前者更具有挑戰(zhàn)性。對話情緒識別作為對話理解中的關(guān)鍵任務(wù)，得到了學(xué)術(shù)界和工業(yè)界廣泛關(guān)注，下面將從基于詞典的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法三方面對文本對話情緒識別的技術(shù)進(jìn)行總結(jié)和概括。

3.1 基于詞典的方法

情感詞典將數(shù)字、文本和符號進(jìn)行整合，是情感識別系統(tǒng)的知識庫[37]。基于情感詞典的文本情感分析常指通過情感詞典獲取情感詞的情感值，再使用情感值的總和或平均值來計(jì)算整個(gè)句子或文檔的情感，通過計(jì)算判定文本對話中的情感傾向[38-39]。這種方法本質(zhì)上是一種基于關(guān)鍵詞的搜索方法，它搜索分配給某些心理狀態(tài)的情感關(guān)鍵詞[40]。流行的情感檢測詞典是WordNet-Affect[41]和NRC情感詞典[42]，WordNet-Affect是WordNet的擴(kuò)展形式，這些詞典是分類詞典，用情感狀態(tài)標(biāo)記每個(gè)單詞以進(jìn)行情感分類。然而，由于忽略了情緒強(qiáng)度，這些傳統(tǒng)詞典暴露出信息量少、適應(yīng)性差的問題，因此，Li等人[43]提出了一種有效的策略，通過合并一個(gè)名為NRC-Valence arousal dominance的維度字典，來獲得詞級情緒分布，將具有強(qiáng)度的情緒分配給情緒詞。除此之外，早期還有大量的研究基于情感詞典來提升情緒識別效果[44-50]。圖3概述了該方法的基本流程，初始情感關(guān)鍵字列表來自常規(guī)詞匯資源，先對數(shù)據(jù)集進(jìn)行預(yù)處理，在預(yù)定義的關(guān)鍵字列表和文本中的情感詞之間執(zhí)行關(guān)鍵字匹配，再檢查情感關(guān)鍵字的強(qiáng)度。之后，檢查否定，判斷否定線索和范圍，最后進(jìn)行情感標(biāo)簽計(jì)算。

圖3 使用情感詞典進(jìn)行對話情緒識別Fig.3 Emotion recognition in conversation using emotion dictionary

然而，這些僅基于關(guān)鍵字的分類方法仍存在一些問題，首先，單詞根據(jù)用法和上下文具有不同含義的歧義。其次，這些詞典無法識別句子中不包含情感關(guān)鍵字的情感。最后，根據(jù)情感詞典進(jìn)行文本對話情緒識別，往往由于對話文本數(shù)據(jù)的靈活性、文本數(shù)據(jù)的專業(yè)性以及缺乏語言相關(guān)信息等問題影響情緒識別的準(zhǔn)確度。因此，研究者開始探索基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的相關(guān)方法。

3.2 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法

監(jiān)督學(xué)習(xí)包括使用支持向量機(jī)（support vector machine，SVM）、最大熵、特征組合、樸素貝葉斯等算法，而無監(jiān)督學(xué)習(xí)包括使用情感詞典、語法分析和句法分析。圖4是在對話情緒識別任務(wù)中使用機(jī)器學(xué)習(xí)的常規(guī)方法，一般是把帶有情感信息的對話文本數(shù)據(jù)作為輸入，將文本矩陣化，同時(shí)，利用樸素貝葉斯、支持向量機(jī)、邏輯回歸等方法進(jìn)行訓(xùn)練，得到情感分類器，把需要預(yù)測情感傾向的對話文本進(jìn)行情感分類。研究者利用基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法在對話情緒識別任務(wù)上開展了大量工作[51-58]，然而，機(jī)器學(xué)習(xí)的方法缺乏透明度，推理過程無法解釋，存在一定的局限性。

圖4 使用機(jī)器學(xué)習(xí)的方法進(jìn)行對話情緒識別Fig.4 Emotion recognition in conversational using machine learning methods

3.3 基于深度學(xué)習(xí)的方法

早期的研究往往是基于特定任務(wù)驅(qū)動(dòng)的對話數(shù)據(jù)集，只使用了3～4個(gè)情緒分類標(biāo)簽，很難在對話中詳細(xì)地描述人類的情感。此外，基于詞典和統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法并未考慮上下文信息和說話者信息，也沒有明確區(qū)分對話文本和普通文本。對話文本情緒識別和傳統(tǒng)文本情感分析的相關(guān)工作非常類似，因此，許多文本情感分析的方法都可以用在對話情緒識別中。近年來，深度學(xué)習(xí)技術(shù)在對話情緒識別領(lǐng)域展現(xiàn)出了優(yōu)異的表征能力，優(yōu)于基于情感字典或統(tǒng)計(jì)機(jī)器學(xué)習(xí)的傳統(tǒng)方法，對話情緒識別任務(wù)得到了研究者的高度關(guān)注，其數(shù)據(jù)集也不斷增多，許多工作開始考慮對話情感的各個(gè)方面。

3.3.1 神經(jīng)網(wǎng)絡(luò)及其混合模型

（1）長短期記憶網(wǎng)絡(luò)

RNN存在兩個(gè)關(guān)鍵缺陷：第一，它會(huì)受到短時(shí)記憶的影響。第二，在反向傳播期間，會(huì)面臨梯度消失的問題。而LSTM應(yīng)用于對話情緒識別任務(wù)能夠解決上下文中存在的短期記憶問題，其具有稱為門的內(nèi)部機(jī)制，從而調(diào)節(jié)信息流。Gupta等人[59]首次對對話情緒識別進(jìn)行了清晰的定義，并利用LSTM進(jìn)行句子的上下文建模，得到了不錯(cuò)的結(jié)果?；诖耍芯空唛_始利用LSTM進(jìn)行大量的工作來捕獲說話者信息和上下文信息[20，29，60-62]。

（2）門控循環(huán)單元

門控循環(huán)單元（gated recurrent unit，GRU）的輸入輸出結(jié)構(gòu)與普通的RNN相似，其內(nèi)部思想與LSTM相似。與LSTM相比，GRU內(nèi)部少了一個(gè)門控，參數(shù)比LSTM少，但是卻能夠達(dá)到與LSTM相當(dāng)?shù)墓δ?。考慮到硬件的計(jì)算能力和時(shí)間成本，因而很多時(shí)候會(huì)選擇更加實(shí)用的GRU。Jiao等人[63]提出層次門控循環(huán)單元（HiGRU）框架，其中低級GRU對詞級輸入進(jìn)行建模，高級GRU用于捕獲話語級嵌入的上下文。但當(dāng)對話長度增加時(shí)，該模型僅采用GRU并不能有效地對位置信息進(jìn)行建模。因此，Ma等人[64]提出了一個(gè)帶有殘差門控循環(huán)單元（HAN-ReGRU）框架的分層注意網(wǎng)絡(luò)來改善上述缺陷。為了以有意義的方式去區(qū)分對話的不同方，Majumder等人[25]提出了DialogueRNN模型，該模型利用三個(gè)GRU分別捕獲先前話語的說話者信息、上下文和情感信息。除此之外，還有一些工作利用GRU進(jìn)行對話情緒識別任務(wù)[19，65-66]。

（3）Transformer

Transformer拋棄了傳統(tǒng)的CNN和RNN，整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)由自注意和前饋神經(jīng)網(wǎng)絡(luò)組成，從而將序列中任意兩個(gè)位置之間的距離縮小為一個(gè)常量。另外，它不是類似RNN的順序結(jié)構(gòu)，因此具有更好的并行性。Zhang等人[67]提出多任務(wù)學(xué)習(xí)知識感知增量Transformer（KAITML），設(shè)計(jì)雙層圖注意力機(jī)制來利用常識知識，再應(yīng)用增量Transformer編碼多輪上下文話語。Li等人[68]提出了一種基于Transformer的上下文和說話者敏感模型HiTrans，它由兩個(gè)分層Transformer組成。Tu等人[69]提出上下文和情感感知框架SenticGAT，構(gòu)建對話Transformer網(wǎng)絡(luò)（DTN）來捕獲上下文中的內(nèi)部依賴和相互依賴關(guān)系。許多現(xiàn)有方法僅將對話中的話語視為時(shí)間序列，而忽略了細(xì)粒度情感線索，模型很難捕捉到話語的準(zhǔn)確語義特征，從而導(dǎo)致記憶庫中積累了不正確的情感特征。因此，Liu等人[70]提出了一個(gè)帶有Transformer預(yù)訓(xùn)練的基于樹的注意力網(wǎng)絡(luò)（TANTP），將上下文表示和遞歸選區(qū)樹結(jié)構(gòu)合并到模型架構(gòu)中。

（4）圖神經(jīng)網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)

現(xiàn)有的對話情緒識別方法大多通過注意力機(jī)制或聯(lián)合學(xué)習(xí)來獲取語義信息，其子句編碼器基本是以LSTM或GRU為基礎(chǔ)序列模型，這類模型難以刻畫子句之間的長距離依賴或全局依賴，從而忽略子句間的深層依賴關(guān)系。隨著圖神經(jīng)網(wǎng)絡(luò)（graph neural network，GNN）在自然語言處理任務(wù)中的興起，研究人員越來越關(guān)注基于GNN的對話情緒識別方法。與RNN中只對序列數(shù)據(jù)進(jìn)行循環(huán)建模的方法不同，GNN把對話情緒識別問題看作圖中節(jié)點(diǎn)之間的連接和消息傳播問題，對節(jié)點(diǎn)之間的依賴關(guān)系進(jìn)行建模，旨在通過各種聚合算法捕獲各種圖結(jié)構(gòu)信息。此外，Transformer也是圖神經(jīng)網(wǎng)絡(luò)的特例，但僅支持詞的全連接交互，不支持與任意圖結(jié)構(gòu)的復(fù)雜交互，并且Transformer只關(guān)注單詞的交互，而不是上層語言單元的交互，因此具有一定的局限性。

最早對GNN的研究是由Scarselli等人[71]提出的，后來，Kipf和Welling[72]提出了GCN，將卷積濾波器的特征推廣到圖上，Schlichtkrull等人[73]提出了GCN關(guān)系數(shù)據(jù)模型。然而，由于要用作節(jié)點(diǎn)的每個(gè)話語都需要附加額外信息以及文本本身信息，例如說話者信息和句子的順序等，GCN的現(xiàn)有架構(gòu)并不適用于對話情緒識別任務(wù)。因此，Ghosal等人[26]提出對話圖卷積網(wǎng)絡(luò)（DialogueGCN），用來調(diào)整GCN的結(jié)構(gòu)以適應(yīng)對話數(shù)據(jù)，并利用說話者內(nèi)和說話者之間的依賴性來模擬對話上下文以進(jìn)行情感識別。通過圖網(wǎng)絡(luò)，DialogueGCN解決了當(dāng)前基于DialogueRNN的方法中存在的上下文傳播問題，但忽視了話語之間的順序信息。為了解決這個(gè)問題，Ishiwatari等人[74]提出了具有關(guān)系位置編碼的關(guān)系感知圖注意網(wǎng)絡(luò)（R-GAT），Shen等人[75]提出了基于說話者身份和位置關(guān)系從具有約束的對話中構(gòu)建有向無環(huán)圖的方法（DAG-ERC）。雖然DialogueGCN、RGAT和DAG-ERC模型證明了GNN在建模會(huì)話上下文中的優(yōu)越性，但在建模特定說話者的上下文方面效果不佳，并且沒有真正利用細(xì)粒度的時(shí)間信息?；诖?，Liang等人[76]提出用于對話情緒識別的說話者和位置感知圖神經(jīng)網(wǎng)絡(luò)模型（S+PAGE），結(jié)合關(guān)系圖卷積網(wǎng)絡(luò)和Transformer的優(yōu)點(diǎn)，以實(shí)現(xiàn)更好的上下文建模。除了傳統(tǒng)的兩人對話，一些研究也開始專注于多人對話中的情緒檢測，Sun等人[77]為多方對話情緒識別提出了一種話語感知圖神經(jīng)網(wǎng)絡(luò)（ERMC-DisGCN）。Zhang等人[78]提出了一種基于圖的對話卷積神經(jīng)網(wǎng)絡(luò)（ConGCN），正確建模多人對話中的上下文敏感依賴和說話者敏感依賴。此外，一些學(xué)者也從多個(gè)角度對進(jìn)一步提高對話情緒識別的性能做了努力，例如，提出對話情緒校正網(wǎng)絡(luò)（DECN）[79]來自動(dòng)糾正情緒識別策略所產(chǎn)生的一些錯(cuò)誤、兩階段的總結(jié)和聚合圖推理網(wǎng)絡(luò)（SumAggGIN）[80]來關(guān)注常被忽視的話語之間的短語級語義聯(lián)系以及基于依存關(guān)系的圖卷積網(wǎng)絡(luò)[81]來同時(shí)考慮語義信息和句法結(jié)構(gòu)。

（5）記憶網(wǎng)絡(luò)

傳統(tǒng)的深度學(xué)習(xí)模型使用隱藏狀態(tài)或者注意機(jī)制作為其記憶功能，但由于記憶模塊過?。ㄖ挥幸粋€(gè)固定維度的向量），將輸入編碼成密集向量時(shí)丟失了大量信息，無法精確記錄一段話中所表達(dá)的全部內(nèi)容。因此，在模型中加入一系列的記憶單元，增強(qiáng)模型的記憶能力，便有了記憶網(wǎng)絡(luò)。利用記憶網(wǎng)絡(luò)可以存儲(chǔ)說話者的歷史信息以及跟蹤完整對話中的情感變化[23-24]，然而，無論記憶庫是如何建立的，用于總結(jié)的軟注意都會(huì)丟失記憶的位置和排序信息。為了解決這個(gè)問題，Jiao等人[82]提出注意力門控分層記憶網(wǎng)絡(luò)（HMN），其中注意力GRU（AGRU）利用注意力權(quán)重來更新相應(yīng)的內(nèi)部狀態(tài)進(jìn)行記憶總結(jié)。

（6）膠囊網(wǎng)絡(luò)

2011年Hinton等人[83]提出“膠囊”的概念，用向量表示空間上的相對位置關(guān)系，2017年Sabour等人[84]提出膠囊網(wǎng)絡(luò)，通過動(dòng)態(tài)路由機(jī)制捕獲CNN模型丟失的小概率語義信息。將膠囊網(wǎng)絡(luò)應(yīng)用于具有豐富文本結(jié)構(gòu)的對話情緒識別任務(wù)中，用神經(jīng)元向量代替?zhèn)鹘y(tǒng)神經(jīng)網(wǎng)絡(luò)的單個(gè)神經(jīng)元節(jié)點(diǎn)，以Dynamic Routing的方式去訓(xùn)練這種全新的神經(jīng)網(wǎng)絡(luò)，進(jìn)行有效的編碼，有助于提高對話文本的表達(dá)能力和模型的效率。Xiao等人[85]提出了一個(gè)帶有門循環(huán)單元框架的膠囊網(wǎng)絡(luò)（CapsGRU），解決了數(shù)據(jù)不平衡對情緒識別產(chǎn)生的影響以及對話標(biāo)注數(shù)據(jù)不足的問題。

3.3.2 外部信息輔助模型

（1）任務(wù)輔助：多任務(wù)聯(lián)合學(xué)習(xí)模型

對話行為識別（dialog act recognition，DAR）和情感分類（sentiment classification，SC）是捕捉說話者意圖的兩個(gè)相關(guān)任務(wù)，具體來說，是為每條語句添加上標(biāo)簽，分別表示出說話者的隱式意圖和顯式意圖。

DAR和SC常被用在對話系統(tǒng)中進(jìn)行聯(lián)合建模，挖掘出對話文本的跨任務(wù)隱藏交互信息，從而更好地掌握說話者的意圖，提高情感分類與對話行為識別的準(zhǔn)確性。Cerisara等人[86]為了利用跨任務(wù)交互信息，提出了JointDAS模型聯(lián)合訓(xùn)練SC任務(wù)以及DAR任務(wù)，但只利用了跨任務(wù)交互信息而沒有利用對話上下文信息，因此，無法讓模型學(xué)習(xí)到對話語句之間的關(guān)聯(lián)。Kim等人[87]提出IIIM模型利用先前的行為信息去預(yù)測接下來的行為標(biāo)簽，只利用了上下文的信息而沒有利用跨任務(wù)交互信息去構(gòu)建模型，這種做法等于將兩個(gè)相關(guān)聯(lián)的任務(wù)分別建模，同樣也無法充分利用對話文本信息。為了充分考慮跨任務(wù)信息以及對話上下文信息，Tan等人先后提出DCR-Net模型[88]和Co-GAT模型[89]完成對語句標(biāo)簽的預(yù)測。然而，先前工作將DAR和SC聯(lián)合建模為序列標(biāo)記問題，存在一個(gè)關(guān)鍵缺點(diǎn)是未能完全納入對話中的局部上下文信息。Li等人[90]在2021年提出使用動(dòng)態(tài)卷積網(wǎng)絡(luò)（DCN）作為話語編碼器來捕獲對話上下文，在多任務(wù)學(xué)習(xí)下將框架擴(kuò)展為雙通道版本（即BDCN和BCDCN），以實(shí)現(xiàn)聯(lián)合DAR和SC。

以前的工作提出了不同的模型來模擬兩個(gè)任務(wù)之間的相關(guān)性，但無法對說話者間的交互進(jìn)行建模，并且省略了話語之間的時(shí)間關(guān)系。如圖5所示，對于雙任務(wù)推理，一方面，以前的工作只考慮參數(shù)共享和語義級的交互，而標(biāo)簽信息沒有集成到雙任務(wù)交互中，無法捕獲兩個(gè)任務(wù)之間的顯式依賴關(guān)系。另一方面，以前的工作沒有考慮雙任務(wù)推理中話語之間的時(shí)間關(guān)系，而這些在模型中起著關(guān)鍵作用。因此，Xing等人[91]提出DARER模型，通過引入時(shí)間關(guān)系和利用標(biāo)簽信息來解決上述問題。

圖5 先前的工作和DAREA模型中的工作Fig.5 Previous work and work in DAREA model

（2）量子輔助：基于量子驅(qū)動(dòng)的模型

近年來，量子理論被用于各種信息檢索和自然語言處理任務(wù)中來構(gòu)建文本表示。在量子物理實(shí)驗(yàn)中，一個(gè)粒子在測量之前處于多個(gè)相互獨(dú)立的純態(tài)的混合狀態(tài)，測量使其坍縮成一個(gè)單一的純測量態(tài)。同樣，說話者處于多種獨(dú)立情緒的模棱兩可的狀態(tài)，對話上下文作為一種測量，使得情緒狀態(tài)坍縮到純粹的狀態(tài)。此外，量子態(tài)隨時(shí)間的演變類似于說話者在談話過程中情緒狀態(tài)的演變。Zhang等人[92]提出量子驅(qū)動(dòng)交互網(wǎng)絡(luò)QIN，該方法利用量子理論的數(shù)學(xué)形式和長短期記憶網(wǎng)絡(luò)來學(xué)習(xí)這種交互動(dòng)力學(xué)。Li等人[93]提出了量子驅(qū)動(dòng)神經(jīng)網(wǎng)絡(luò)QMNN，通過將單詞視為疊加態(tài)和將句子視為混合態(tài)來模擬自然語言，從而統(tǒng)一復(fù)值向量空間中不同級別的語義單元。為了將量子框架從建模單詞序列推廣到建模復(fù)雜圖文本交互，Yan等人[94]提出量子概率驅(qū)動(dòng)的圖注意網(wǎng)絡(luò)QPGAT，同時(shí)提出了一個(gè)通用且高效的應(yīng)用框架，在情感原因?qū)σ约奥?lián)合建模對話行為識別和情感分類兩個(gè)復(fù)雜的NLP任務(wù)上驗(yàn)證其有效性。

（3）知識輔助：融合外部知識的模型

使用機(jī)器準(zhǔn)確分析人類對話中的情緒具有很大挑戰(zhàn)性，部分原因是人類經(jīng)常依賴上下文和常識知識來表達(dá)情緒，而機(jī)器很難捕捉到這些情緒，因此，一些學(xué)者開始嘗試將外部知識引入到模型中。Zhong等人[95]提出了一種知識豐富的Transformer（KET）使用上下文感知情感圖注意機(jī)制整合常識知識。但沒有考慮外部知識庫中的各種關(guān)系，這可能會(huì)導(dǎo)致語義信息的丟失。Ghosal等人[96]提出以常識為指導(dǎo)的對話情緒識別框架COSMIC，用來捕獲常識知識庫中的個(gè)性、事件、心理狀態(tài)、意圖和情緒之間的一些復(fù)雜交互作用。然而，COSMIC忽略了從上下文話語到目標(biāo)話語的結(jié)構(gòu)性心理影響。為了解決這個(gè)問題，Li等人[97]提出心理知識感知交互圖SKAIG，利用知識表示來豐富邊，并用圖Transformer處理SKAIG，實(shí)驗(yàn)結(jié)果得到了提升。

4 多模態(tài)對話情緒識別的主要方法

由于情緒識別的復(fù)雜性，單一模態(tài)難以滿足需求，文本、視覺和語音是機(jī)器感知人類情感的三種模式，因此，可以通過三種情緒表達(dá)方式來傳達(dá)一種特定的情緒。然而，在表達(dá)特定情緒時(shí)，特別是在對話中，情緒行為在模態(tài)內(nèi)部和模態(tài)之間并不是嚴(yán)格同步的。這種現(xiàn)象可以從兩個(gè)方面來解讀，從模態(tài)內(nèi)來看，不同模態(tài)中的情感表達(dá)對對話上下文有不同的偏好，例如，視頻模態(tài)中會(huì)更關(guān)注面部表情和肢體動(dòng)作，音頻模態(tài)中會(huì)更關(guān)注聲學(xué)特征。從模態(tài)間的角度來看，不同模態(tài)的情緒表達(dá)對情緒預(yù)測的貢獻(xiàn)是不同的，當(dāng)多個(gè)模態(tài)中的情感表達(dá)不一致時(shí)，需要綜合考慮權(quán)重不同模態(tài)中的情感信息。因此，對話情緒識別任務(wù)不僅要關(guān)注上下文敏感建模和說話者敏感建模，也應(yīng)當(dāng)關(guān)注不同模態(tài)內(nèi)和跨模態(tài)的差異化情緒行為，設(shè)計(jì)適合差異化的多模態(tài)情緒行為的適當(dāng)策略，從而產(chǎn)生更準(zhǔn)確的情緒預(yù)測。

為了融合多模態(tài)特征，以前的工作集中在兩個(gè)關(guān)鍵步驟：多模態(tài)對齊和多模態(tài)融合[98]。具體來說，先對齊多模態(tài)特征，再使用融合技術(shù)融合這些對齊的特征。

4.1 多模態(tài)對齊

多模態(tài)對齊的目標(biāo)是找到同一個(gè)實(shí)例的不同模態(tài)信息元素之間的對應(yīng)關(guān)系，該工作具有兩方面挑戰(zhàn)，一是不同模態(tài)數(shù)據(jù)之間通常具有長度差異；二是不同模態(tài)數(shù)據(jù)之間通常具有語意（信息量）差異?，F(xiàn)有策略包括顯式對齊和隱式對齊，顯示對齊關(guān)注模態(tài)之間組件的對應(yīng)關(guān)系，而隱式對齊則是在深度學(xué)習(xí)模型訓(xùn)練期間對數(shù)據(jù)進(jìn)行潛在的對齊。

顯式對齊的方法是假設(shè)多模態(tài)特征已經(jīng)在話語級或單詞級中對齊，以前的工作主要集中在話語級顯式對齊。Zadeh等人[99]提出了一種基于話語級顯式對齊的融合方法，稱為張量融合網(wǎng)絡(luò)TFN，TFN通過笛卡爾積學(xué)習(xí)模態(tài)內(nèi)和模態(tài)間的交互。后來，Liu等人[100]和Mai等人[101]改善了TFN，他們試圖提高效率并減少可訓(xùn)練參數(shù)。然而，人類通常在單詞層面感知情緒，如果將詞級特征壓縮成話語級特征，就會(huì)丟失時(shí)間信息和短期信息。為了解決這個(gè)問題，絕大多數(shù)工作都在探索詞級顯式對齊。Gu等人[102]利用模態(tài)之間的詞級對齊并探索時(shí)間受限的跨模態(tài)動(dòng)態(tài)交互信息。

顯式對齊僅在對齊部件的多模態(tài)交互上進(jìn)行建模，卻忽略了長期的跨模態(tài)交互。為了克服這個(gè)問題，研究人員提出模態(tài)隱式對齊，學(xué)習(xí)在模型訓(xùn)練期間潛在地對齊數(shù)據(jù)[103]。Xu等人[104]利用注意力網(wǎng)絡(luò)來學(xué)習(xí)語音和文本之間的對齊，并將對齊后的特征在詞級組合，用作情感話語的多模態(tài)特征。Tsai等人[105]提出了多模態(tài)Transformer，通過重復(fù)強(qiáng)化一種模態(tài)的特征與其他模態(tài)的特征來潛在地將數(shù)據(jù)流從一種模態(tài)調(diào)整到另一種模態(tài)。這種利用神經(jīng)網(wǎng)絡(luò)進(jìn)行隱式對齊的方法與多模態(tài)融合中的模型層融合在應(yīng)用的技術(shù)方面存在交叉，但研究對象略有不同。隱式對齊是在深度學(xué)習(xí)模型訓(xùn)練期間對數(shù)據(jù)進(jìn)行潛在對齊；多模態(tài)對話情緒識別中的模型融合旨在捕捉所涉及模態(tài)的互補(bǔ)相關(guān)性，并降低了這些模態(tài)時(shí)間同步的需求。本文為了使邏輯條理更加明確，將多模態(tài)對齊和多模態(tài)融合分開敘述。

4.2 多模態(tài)融合

利用多個(gè)模態(tài)的特征進(jìn)行對話情緒識別可以整合來自不同模態(tài)的互補(bǔ)信息，但是同時(shí)也會(huì)導(dǎo)致信息冗余和相互干擾，因此，如何信息互補(bǔ)的同時(shí)去除信息冗余和相互干擾以提升性能是多模態(tài)對話情緒識別任務(wù)上面臨的挑戰(zhàn)。目前多模態(tài)信息融合主要有三種策略：特征層融合、決策層融合和模型層融合[106]。

特征層融合只是在輸入級將不同模態(tài)的特征連接成一個(gè)聯(lián)合特征向量，將其送到單個(gè)分類器中進(jìn)行情感識別。這種融合方式利用了各個(gè)模態(tài)信息之間的關(guān)聯(lián)性，并且簡單易操作，最大限度地保留了最終決策所需的特征信息。雖然特征層融合的方法可以提高識別性能[107-111]，但高維特征集很容易出現(xiàn)數(shù)據(jù)稀疏的問題，因此，通過簡單串聯(lián)來組合不同模式的性能是有限的。

為了解決上述問題，決策層融合為每個(gè)模態(tài)使用和訓(xùn)練單獨(dú)的分類器，并結(jié)合每個(gè)分類器的輸出以獲得最終預(yù)測[112-113]。具體來說，使用單峰決策值并通過投票[114]、平均[115]或加權(quán)[116]來融合它們。決策層融合的方法相對于特征層融合而言，充分考慮了各模態(tài)信息之間的差異性。但這種方法忽略了不同模式之間的相互作用和相關(guān)性，并且大多數(shù)決策融合使用投票和加權(quán)的方法，只是簡單地將各個(gè)模態(tài)的分類結(jié)果按照一定的規(guī)則進(jìn)行組合，最終決策很容易受到某些單模態(tài)信息的干擾和影響，出現(xiàn)情緒誤判的情況。而且隨著模態(tài)信息的增多，計(jì)算量會(huì)增大，整個(gè)學(xué)習(xí)的過程也會(huì)變得耗時(shí)。

基于此，研究者開始探索深度學(xué)習(xí)模型來實(shí)現(xiàn)模型層融合[117-119]，該方法是特征層融合和決策層融合之間的折中，提出融合不同模態(tài)的中間表示。通過利用神經(jīng)網(wǎng)絡(luò)及其混合模型，對話情緒識別任務(wù)中的多模態(tài)融合性能得到了很大提升，涌現(xiàn)出不少優(yōu)異的成果，例如基于Transformer的交叉模態(tài)融合[120-121]，基于GRU的多模態(tài)融合[122]，引入跨模態(tài)的注意力融合[123]以及基于多模態(tài)融合圖卷積網(wǎng)絡(luò)[124]等。這種融合架構(gòu)既確保了跨模式關(guān)系的有效性，也確保了融合不同模式的魯棒性。

5 數(shù)據(jù)集

對話情緒識別任務(wù)用到的數(shù)據(jù)集主要分為文本模態(tài)數(shù)據(jù)集和多模態(tài)數(shù)據(jù)集，如表1和表2所示，多模態(tài)數(shù)據(jù)集提供了文本、視頻和音頻信息，但由于文本中含有大量的信息，現(xiàn)有的文本對話情緒識別工作不僅利用純文本數(shù)據(jù)集，也會(huì)在多模態(tài)數(shù)據(jù)集中的文本模態(tài)數(shù)據(jù)集上開展工作。

表1 常見的文本模態(tài)評測數(shù)據(jù)集及其相關(guān)信息Table 1 Common text-modal evaluation datasets and their related information

表2 常見的多模態(tài)評測測數(shù)據(jù)集及其相關(guān)信息匯總表Table 2 Common multimodal evaluation datasets and their related information

5.1 文本模態(tài)數(shù)據(jù)集

Mastodon數(shù)據(jù)集[125]主要用于對話中的情感分類與行為識別，尤其是聯(lián)合識別任務(wù)。它包括535個(gè)對話、2 217個(gè)語句，標(biāo)注了3大類情感標(biāo)簽、27類對話動(dòng)作。

DailyDialog數(shù)據(jù)集[126]主要包括13 118個(gè)對話，標(biāo)注了7種情感、4類對話動(dòng)作以及10個(gè)對話主題，對話反映了不同主題的日常生活，無固定說話者。它可以用于對話情緒識別任務(wù)、對話動(dòng)作識別任務(wù)以及情感對話生成任務(wù)。該數(shù)據(jù)集的優(yōu)點(diǎn)是數(shù)據(jù)規(guī)模較大、噪聲小，缺點(diǎn)是中性情緒占比過高。

EmotionLines數(shù)據(jù)集[127]來源于《老友記》（多人對話）和私人Facebook聊天記錄（雙人對話），有固定說話者，內(nèi)容上兩部分獨(dú)立，共29 245句。該數(shù)據(jù)集標(biāo)注了7類情緒，非中性情緒占比44.5%。

EmoryNLP數(shù)據(jù)集[128]來自電視節(jié)目《老友記》的抄本，JSON中公開提供了該節(jié)目所有季的文字記錄。每一季由大量劇集組成，每一集包含場景，每一場景包含話語，其中每一話語都為說話者提供了信息。該研究采用前四季的腳本，通過添加帶有情感的注釋來創(chuàng)建語料庫，共有97集、897個(gè)場景和12 606個(gè)話語。

EmoContext數(shù)據(jù)集[129]由三輪英文推文組成，屬于純文本雙人對話，每段對話有三句，僅最后一句有情感標(biāo)簽，目標(biāo)是在前兩個(gè)話語作為上下文的情況下檢測最后一個(gè)話語的情緒。該數(shù)據(jù)集有38 421段對話，共115 263句，其中標(biāo)注了4類情緒，非中性情緒占比42.8%。它曾用于SemEval-2019 Task 3[130]。EmoContext的優(yōu)點(diǎn)是數(shù)據(jù)規(guī)模較大，缺點(diǎn)是對話長度過短和僅標(biāo)注最后一句。

5.2 多模態(tài)數(shù)據(jù)集

多模態(tài)對話情緒識別是一個(gè)新興且快速發(fā)展的領(lǐng)域，其任務(wù)是根據(jù)來自多模態(tài)的線索為對話中的每個(gè)話語分配一種候選情緒。說話者的情緒不僅可以通過文字表達(dá)，還可以通過面部表情和語音來表達(dá)。因此，識別對話中的情緒需要對多模態(tài)數(shù)據(jù)進(jìn)行聯(lián)合分析，包括文本、視覺和聲學(xué)模態(tài)。

IEMOCAP數(shù)據(jù)集[131]包含151個(gè)對話、7 433個(gè)語句、10個(gè)對話角色以及9種情緒標(biāo)簽，非中性情緒占比77%。該數(shù)據(jù)集是南加州大學(xué)SAIL實(shí)驗(yàn)室收集的，由10個(gè)專業(yè)演員扮演的雙人對話，一共分為5個(gè)Session，每個(gè)Session分配1男1女，共12 h的多模態(tài)視聽數(shù)據(jù)。對話分為兩部分，一部分是固定的劇本，另一部分是給定主題情景下的自由發(fā)揮。IEMOCAP是對話情緒識別中最常用的數(shù)據(jù)集，優(yōu)點(diǎn)是包含多模態(tài)信息，數(shù)據(jù)集單條質(zhì)量較高，缺點(diǎn)是數(shù)據(jù)規(guī)模較小，缺乏多方對話，并且可能存在過度表演的風(fēng)險(xiǎn)。

SEMAINE數(shù)據(jù)集[132]是由4個(gè)固定形象的機(jī)器人與人進(jìn)行對話獲得的，標(biāo)注了4個(gè)情感維度：Valence、Arousal、Expectancy、Power。其中Valence、Arousal和Expectancy為[-1，1]范圍內(nèi)的連續(xù)值，Power為大于等于0的連續(xù)值。該數(shù)據(jù)集曾被用于AVEC2012挑戰(zhàn)賽，它是對話情緒識別中常用的數(shù)據(jù)集之一，缺點(diǎn)是數(shù)據(jù)規(guī)模較小且缺乏多方對話。

MELD數(shù)據(jù)集[133]包括1 433個(gè)對話、13 708個(gè)語句、3大類粗粒度情緒標(biāo)簽以及7種細(xì)粒度情緒標(biāo)簽，非中性情緒占比53%。該數(shù)據(jù)集是EmotionLines數(shù)據(jù)集中《老友記》部分的多模態(tài)擴(kuò)充（文本+視頻）。MELD是對話情緒識別中常用的數(shù)據(jù)集之一，優(yōu)點(diǎn)是數(shù)據(jù)集質(zhì)量較高并且有多模態(tài)信息，缺點(diǎn)是數(shù)據(jù)集中的對話涉及到的劇情背景太多，情緒識別難度很大。

EMOTyDA數(shù)據(jù)集[134]是一個(gè)類似于Mastodon的對話數(shù)據(jù)集，它主要整理了IEMOCAP以及MELD數(shù)據(jù)集，并且增加了12種常見的對話動(dòng)作標(biāo)簽，最終包括1 341個(gè)對話以及19 365個(gè)對話語句，可以用于情感和對話行為的聯(lián)合識別任務(wù)。

6 展望

本文回顧了近年來對話情緒識別任務(wù)的研究進(jìn)展。首先，介紹了對話情緒識別的問題定義和分類，根據(jù)研究方向的不同，可以分為靜態(tài)和實(shí)時(shí)，根據(jù)會(huì)話場景的不同，又可以分為多模態(tài)和單模態(tài)。其次，考慮到現(xiàn)有工作對該任務(wù)的切入方式不同，將其分為上下文建模、說話者建模和其他輔助建模。最后，詳細(xì)介紹了文本對話情緒識別和多模態(tài)對話情緒識別，總結(jié)了現(xiàn)有的相關(guān)方法和數(shù)據(jù)集，并對其優(yōu)缺點(diǎn)進(jìn)行闡述。綜上，目前的對話情緒識別任務(wù)主要圍繞著多模態(tài)信息融合、上下文建模以及說話者建模三個(gè)方向展開，除此之外，還有很多關(guān)鍵問題也受到研究者越來越多的關(guān)注。

6.1 對話情緒識別的挑戰(zhàn)和問題

（1）對話中隱式表達(dá)的情緒

由于對話的風(fēng)格和形式多變，話語間可能會(huì)存在諷刺現(xiàn)象，當(dāng)說話者使用諷刺來表達(dá)自己的觀點(diǎn)時(shí)，其真實(shí)情緒和字面表達(dá)的情緒往往存在相反的關(guān)系，現(xiàn)有的對話情緒識別模型雖然能以很高的置信度分析出文本的情感極性，但是當(dāng)對話中出現(xiàn)諷刺表達(dá)后，其性能將大幅降低，尋找將背景信息、說話者的性格特征和說話風(fēng)格結(jié)合到諷刺識別的方法中，同時(shí)也可以利用說話者的面部表情和說話語調(diào)獲取更多的信息，從而提高諷刺識別方法的性能和識別結(jié)果的可解釋性。

（2）對話情緒識別的跨領(lǐng)域問題

跨領(lǐng)域?qū)υ捛榫w識別旨在通過源領(lǐng)域的標(biāo)注數(shù)據(jù)對目標(biāo)領(lǐng)域的無標(biāo)注數(shù)據(jù)進(jìn)行情感分類。現(xiàn)有工作存在領(lǐng)域依賴，涉及到跨領(lǐng)域下的語言風(fēng)格、同詞情感歧義等問題。如何利用已有領(lǐng)域的標(biāo)注數(shù)據(jù)和模型搭建只含有少量標(biāo)注數(shù)據(jù)的新領(lǐng)域?qū)υ捛榫w識別系統(tǒng)是當(dāng)前的研究重點(diǎn)，未來可以考慮提出不同的對話情緒識別模型，高效地提取領(lǐng)域不變性特征，實(shí)現(xiàn)源領(lǐng)域到目標(biāo)領(lǐng)域的遷移學(xué)習(xí)。

（3）缺少領(lǐng)域知識和常識知識

對話過程一般默認(rèn)雙方知道彼此很多信息，比如彼此的需求目的、社會(huì)關(guān)系、環(huán)境、常識，性格和三觀等，但是在實(shí)際建模場景下這些大部分都會(huì)丟失。同時(shí)，對話中含有大量的網(wǎng)絡(luò)用語，比如“擺爛”“破防”“YYDS”等，人類具有一定的生活經(jīng)驗(yàn)和常識知識，可以很容易地理解對方所表達(dá)的情感，但機(jī)器并不能理解話語，做出準(zhǔn)確判斷。此外，情緒識別具有主觀特性，不同身份、性格、經(jīng)歷的人對同一事件所產(chǎn)生的情緒反應(yīng)可能大不相同，這大大增加了情緒預(yù)測的難度?，F(xiàn)有的工作已經(jīng)開始在對話情緒識別模型中引入外部知識庫，其實(shí)驗(yàn)結(jié)果也證明了引入知識可以提升情緒識別的效果。在未來的工作中，考慮如何使模型更好地融合外部知識信息，同時(shí)針對對話情緒識別任務(wù)建立特定的知識圖譜與常識知識庫，獲得深層語義表示。

（4）對話情緒識別的應(yīng)用

對話情緒識別作為一種更深層次的情感挖掘，不僅能夠豐富情感計(jì)算領(lǐng)域的研究成果，為情感分析提供新的研究方向，而且也能為人工智能和自然語言處理的一些分支提供有益幫助。例如，在醫(yī)療領(lǐng)域，問診過程會(huì)產(chǎn)生大量的文字記錄，這些對話文本信息包含多種實(shí)體內(nèi)容，如疾病、手術(shù)、癥狀和用藥，不同的實(shí)體會(huì)有不同的情緒狀態(tài)，例如“拔牙太疼了，吃點(diǎn)消炎藥蠻好的”這句話中，對于拔牙這個(gè)手術(shù)實(shí)體，表現(xiàn)的是負(fù)面情緒，而對于消炎藥這個(gè)實(shí)體卻是正面情緒，對此進(jìn)行情感分析，能夠判斷患者的情感狀態(tài)，有助于識別患者意圖。在人機(jī)對話領(lǐng)域，人們不再滿足于用對話系統(tǒng)解決特定的任務(wù)，而是更渴望實(shí)現(xiàn)精神層面的交流，在聊天過程中，機(jī)器若能感受到用戶的情緒并對此進(jìn)行準(zhǔn)確的情感響應(yīng)，就能極大地豐富對話的內(nèi)容，避免陷入僵局，從而改善雙方的對話行為，讓用戶產(chǎn)生共情和移情反應(yīng)，提高用戶滿意度。

6.2 深度學(xué)習(xí)方法的挑戰(zhàn)和問題

（1）缺乏可解釋性的深度神經(jīng)網(wǎng)絡(luò)

基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法就像一個(gè)黑盒模型，其解釋性較弱，算法無法對特定任務(wù)給出清晰的概括，為了更好地理解為對話情緒識別研究所設(shè)計(jì)的深度網(wǎng)絡(luò)，往往需要知曉算法所給出結(jié)果的依據(jù)。目前大部分可解釋性算法往往側(cè)重于工程性的功能實(shí)現(xiàn)，側(cè)重于迎合人類對被解釋事物的主觀認(rèn)知，而缺少基于統(tǒng)一的理論基礎(chǔ)的科學(xué)理論體系，影響了可解釋性算法的嚴(yán)謹(jǐn)性，阻礙了可解釋性研究的進(jìn)一步發(fā)展。未來需要在神經(jīng)網(wǎng)絡(luò)可解釋性方面建立一個(gè)統(tǒng)一的體系框架，使用這個(gè)體系來指導(dǎo)和設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)，構(gòu)建解釋能力強(qiáng)的深度神經(jīng)網(wǎng)絡(luò)來促進(jìn)對話情緒識別任務(wù)的發(fā)展。

（2）存在模型壓縮問題

在大數(shù)據(jù)情形下，往往只有比較復(fù)雜或表達(dá)能力強(qiáng)的模型，才能充分挖掘海量數(shù)據(jù)中的信息。隨著深度模型變得更強(qiáng)大，從大數(shù)據(jù)中挖掘出的信息往往更有價(jià)值。比如，多模態(tài)對話情緒識別包括文本、音頻和視頻信息，所面臨的是高達(dá)十億到千億級別的樣本訓(xùn)練，難以適應(yīng)移動(dòng)計(jì)算發(fā)展對低資源、低功耗的需求。因此，在不顯著影響模型精度的前提下，通過對神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮來輕量化模型是非常有必要的。未來可以考慮在知識蒸餾方面，探索更多類型的先驗(yàn)知識，提高知識蒸餾的效果，拓寬知識蒸餾的應(yīng)用范圍，并且制定針對剪枝和量化范式的定制化蒸餾方法，來同時(shí)考慮模型結(jié)構(gòu)的動(dòng)態(tài)變化、數(shù)值表示和表征空間的差異。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡