国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向任務(wù)型的對話系統(tǒng)研究進展

2021-11-16 09:13:18賀王卜丁紫凡
中文信息學(xué)報 2021年10期
關(guān)鍵詞:集上知識庫意圖

楊 帆,饒 元,3,丁 毅,賀王卜,丁紫凡

(1.西安交通大學(xué) 軟件學(xué)院 社會智能與復(fù)雜數(shù)據(jù)處理實驗室,陜西 西安 710049;2.西安交通大學(xué) 陜西省人工智能聯(lián)合實驗室,陜西 西安 710049;3.西安交通大學(xué) 深圳研究院,廣東 深圳 518057)

0 引言

隨著基于深度學(xué)習(xí)的自然語言處理技術(shù)的快速發(fā)展,以文本內(nèi)容特征表示學(xué)習(xí)與語言模型為核心的深度語義理解與模型構(gòu)建已逐步替代了傳統(tǒng)的基于語法、句法和語義解析的方法,并大幅提升了人機對話系統(tǒng)在人機交互、智能助手、智能客服、情感陪護和問答咨詢等多個領(lǐng)域的應(yīng)用性能與效率。與面向開放領(lǐng)域的對話聊天系統(tǒng)不同(如微軟小冰和蘋果Siri),面向任務(wù)型的對話系統(tǒng)(Task-oriented Dialogue System)是特定場景與環(huán)境下,在理解用戶多樣的表達(dá)方式(甚至是口語、俚語以及富情感)的基礎(chǔ)上,通過對用戶意圖的準(zhǔn)確識別,并結(jié)合外部知識庫與知識圖譜中的知識語義,盡可能高效率且準(zhǔn)確地響應(yīng)用戶任務(wù)需求的一種人機對話系統(tǒng)。

早期階段,構(gòu)建一個經(jīng)典的基于流水線模式的任務(wù)型對話系統(tǒng)主要包括:自然語言理解(Natural Language Understanding)、對話管理(Dialogue Management)和自然語言生成(Natural Language Generation)等三個方面的任務(wù)[1]。其中,利用自然語言處理技術(shù)來理解用戶的語言并準(zhǔn)確獲取用戶意圖,則是核心且基礎(chǔ)性的工作?;谝?guī)則的槽-值對(即Slot-value對,例如,fromLoc.City_name=Xi’an/depart_time=2020.04.01)的經(jīng)典方法可較好地抽取出語句中的核心語義和用戶意圖特征,并在多輪對話中通過利用對話狀態(tài)管理,將這些用戶意圖保存起來以保證對話的連貫性。盡管這種基于規(guī)則的流水線模式具有較高的準(zhǔn)確度,但是,一方面由于依賴大量的專家經(jīng)驗來人工建立規(guī)則,無法適應(yīng)復(fù)雜且快速變化場景下的實際應(yīng)用;另一方面,多個任務(wù)模塊在串行的流水線機制下,容易產(chǎn)生誤差積累問題,極大地影響了對話文本生成的質(zhì)量。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,Eric等人[2]、Madotto等人[3]提出了采用基于深度神經(jīng)網(wǎng)絡(luò)的端到端模式的方法來解決上述問題,并在多個方面取得了較好的性能提升,成為目前研究與應(yīng)用的主要方向。

本文在對任務(wù)型對話系統(tǒng)基本概念進行形式化定義的基礎(chǔ)上,重點關(guān)注基于深度學(xué)習(xí)的對話管理模型,圍繞著目前對話問題理解、狀態(tài)管理、對話內(nèi)容生成等核心問題的研究進展進行梳理與綜述。同時,針對所涉及的依賴數(shù)據(jù)標(biāo)注與知識庫相結(jié)合的方法,以及基于個性化條件下的內(nèi)容多模態(tài)生成等關(guān)鍵技術(shù)與性能指標(biāo)進行對比分析,進一步探討了新一代對話系統(tǒng)的技術(shù)發(fā)展新趨勢。

1 任務(wù)型對話系統(tǒng)概念與核心挑戰(zhàn)

定義:任務(wù)型對話系統(tǒng):是一種以任務(wù)為導(dǎo)向,面向單領(lǐng)域或多領(lǐng)域問題,以最短輪數(shù)完成用戶查詢或?qū)υ捜蝿?wù)為目標(biāo)的一種人機對話系統(tǒng)。其優(yōu)化的目標(biāo)函數(shù)可表示為式(1):

(1)

其中,θ*為通過神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù),U表示截至第n輪對話時的用戶話語集合:U={U0,…,Un};R*則表示機器自動生成的回復(fù)的集合,R*={R0,…,Rn-1},K表示該領(lǐng)域下的知識庫或知識圖譜中的業(yè)務(wù)數(shù)據(jù)或知識集合,N表示對話的總輪數(shù)。因此,任務(wù)型對話系統(tǒng)可以表示為:針對用戶問題Un的意圖識別,在前n-1輪的對話狀態(tài)的管理與知識庫K的約束下,機器在最小輪次的情況下自動生成的滿足用戶需求的回復(fù)Rn。

根據(jù)上述定義,任務(wù)型對話系統(tǒng)需要面對如下三個核心挑戰(zhàn)。

(1)如何準(zhǔn)確理解和識別在復(fù)雜業(yè)務(wù)場景下基于自然語言的用戶意圖。由于任務(wù)型對話系統(tǒng)的核心優(yōu)化目標(biāo)是采用盡可能少的對話輪次來實現(xiàn)用戶任務(wù)的反饋Rn,一方面,在人機交互時,如何提高對自然語言的理解能力,從用戶話語U中精確獲取和識別用戶意圖是任務(wù)型對話系統(tǒng)面臨的核心挑戰(zhàn);另一方面,當(dāng)單輪對話無法完成對話任務(wù)時,如何通過對話狀態(tài)管理,從R*中有效選擇相同任務(wù)主題中的上下文,來優(yōu)化用戶意圖的識別,也是目前研究的關(guān)鍵問題之一。

(2)如何解決對訓(xùn)練數(shù)據(jù)的標(biāo)注依賴和知識庫的結(jié)合問題?;诙说蕉说纳疃葘W(xué)習(xí)算法在建模時往往依賴大量的標(biāo)注的數(shù)據(jù),高質(zhì)量的標(biāo)注數(shù)據(jù)需要花費大量的時間與人力,如何在無標(biāo)注或少量標(biāo)注的情況下,提高模型在用戶意圖、對話狀態(tài)和對話策略等方面的性能;其次,系統(tǒng)如何結(jié)合包含業(yè)務(wù)數(shù)據(jù)的知識庫K,來對識別出的用戶意圖進行更好的語義查詢與推理匹配,這直接影響系統(tǒng)的應(yīng)用性能與范圍。

(3)如何解決多模態(tài)條件下對話內(nèi)容的個性化生成。目前主流的任務(wù)型對話系統(tǒng)主要采用基于語音或文字的人機交互方法,但是人們在實際的對話過程中,往往會同時借助于視覺、語言內(nèi)容以及語音和語調(diào)等多種模態(tài)的融合特征來輔助決策。一旦將這些多模態(tài)信息引入到對話系統(tǒng),既能避免傳統(tǒng)對話內(nèi)容生成的單調(diào)性,又能充分結(jié)合用戶的個性化特征,確保了基于多模態(tài)對話內(nèi)容生成的多樣性。因此,解決面向復(fù)雜場景下的基于多模態(tài)的對話內(nèi)容個性化生成已成為下一代對話系統(tǒng)的重要方向之一。

因此,本文在任務(wù)型對話系統(tǒng)基本概念的基礎(chǔ)上,針對上述三個核心問題,進一步分析并深入探討當(dāng)前的研究與技術(shù)進展。

2 基于自然語言處理的用戶意圖理解

如何準(zhǔn)確理解用戶問題和意圖是面向復(fù)雜業(yè)務(wù)場景下人機對話系統(tǒng)的核心任務(wù)與挑戰(zhàn),這主要依賴于系統(tǒng)對自然語言以及口語的理解能力。在流水線模式下,可根據(jù)事先定義的規(guī)則將用戶意圖分為不同的類,如天氣查詢、訂餐等,再將時間、地點、人物等不同的命名實體類別定義為槽(Slot),從用戶話語中抽取相應(yīng)的值(Value),并形成Slot-value對(如:時間=12:00pm)來表示用戶意圖。目前,大量實際的人機對話系統(tǒng)都是以此為基礎(chǔ)進行擴展和優(yōu)化形成的。本節(jié)針對近年來在用戶意圖識別與理解領(lǐng)域的最新研究進展進行梳理與總結(jié)。

在任務(wù)型對話系統(tǒng)的自然語言理解領(lǐng)域,較為常用的數(shù)據(jù)集有ATIS (https://github.com/Microsoft/CNTK/tree/master/Examples/LanguageUnderstanding/ATIS)、DSTC4[4]和Snips-NLU[5]三種,其中,ATIS和Snips-NLU兩個數(shù)據(jù)集的一些信息如表1所示。DSTC4數(shù)據(jù)集由35組真實的對話數(shù)據(jù)組成數(shù)據(jù)集,分為導(dǎo)游和游客兩種角色,對話中包含31 034條話語,時長達(dá)21h。

表1 ATIS和Snips-NLU的數(shù)據(jù)統(tǒng)計

2.1 聯(lián)合意圖理解與槽填充任務(wù)的人機對話理解

在對話語義理解與意圖識別任務(wù)中,用戶意圖檢測(Intent Detection,ID)可通過文本主題分類方式與基于BIO標(biāo)注的語義槽填充(Slot Filling,SF)相結(jié)合,以利用兩者在語義和邏輯上的聯(lián)系提升模型性能,可解釋性也更好,這類模型常被稱為聯(lián)合學(xué)習(xí)模型。

Zhang等人[6]提出了RNN Joint Model,將命名實體抽取與對話主題分類相結(jié)合,通過Bi-RNN進行編碼,將其中的隱向量作為意圖識別與槽填充兩個任務(wù)的輸入,在ATIS數(shù)據(jù)集上的實驗結(jié)果表明,這種方法可有效提高模型的性能,其槽填充F1值達(dá)到了95.61%,成為近年來最具競爭力的模型之一。而Liu等人[7]則使用類似于機器翻譯的Seq2Seq+Attention注意力機制的聯(lián)合學(xué)習(xí)模型來進行意圖識別和槽填充任務(wù),使用Encoder對用戶話語進行編碼,并利用基于Attention的機制分別進行意圖與槽填充的判斷。該模型在ATIS和Snips-NLU數(shù)據(jù)集上槽填充的F1值分別達(dá)到94.2%和87%。上述這兩種模型均采用聯(lián)合損失函數(shù)來模擬意圖識別和槽填充的聯(lián)合學(xué)習(xí)方式,但均未明確地描述出兩者之間的關(guān)聯(lián),因此也被稱為隱式的聯(lián)合學(xué)習(xí)方法。

為了更加顯式地表示兩者之間的關(guān)系,Goo等人[8]提出了Slot-Gated Model,利用門機制對用戶意圖與槽之間的關(guān)系進行建模,在提升模型可解釋性的同時,其性能比Attention Bi-RNN模型在ATIS和Snips-NLU數(shù)據(jù)集下的槽填充F1值分別提高了1%和1.3%。為了進一步增強對輸入特征的選擇與語義的表示能力,Li等人[9]融合了門與自注意力機制,提出了一個GMSAM模型,該模型利用自注意力機制增強了自然語言的編碼能力,并利用門控(Gate)機制實現(xiàn)了輸入特征的選擇控制,且在ATIS數(shù)據(jù)集下的槽填充F1值以及意圖識別準(zhǔn)確率分別達(dá)到了96.52%和98.77%。

上述兩種基于門控機制的聯(lián)合模型均是根據(jù)用戶意圖來決定槽填充的單向方法。但實際上,槽分類與意圖識別之間存在著相互的影響,因此,Wang等人[10]設(shè)計了一種利用兩個Bi-LSTM Encoder分別對用戶語句的意圖特征和槽特征進行編碼的雙向模型(Bi-Model),并在計算過程中同時考慮意圖與槽之間的相互影響,該模型在ATIS數(shù)據(jù)集上的槽填充F1值和意圖識別準(zhǔn)確率比GMSAM[9]分別提升了0.37%和0.22%。Haihong等人[11]在顯式地模擬和計算意圖與槽之間相互影響的基礎(chǔ)上,進一步提出了一種新的聯(lián)合學(xué)習(xí)模型SF-ID network,如圖1所示,模型對于學(xué)習(xí)到的意圖和槽表示向量,并不直接進行分類輸出,而是利用文中提到的subnet算法先計算出兩者之間的融合表示,再利用其表示與槽表示計算出槽的加強向量,并用該向量完成后續(xù)的任務(wù)。這種方式使得模型可以更加深入地學(xué)習(xí)意圖與槽之間的語義和上下文聯(lián)系,在Snips-NLU數(shù)據(jù)集上的槽填充F1值和意圖識別準(zhǔn)確率分別達(dá)到92.23%和97.29%。

圖1 SF-ID network的結(jié)構(gòu)[11]

Zhang等人[12]提出了一種基于分級膠囊網(wǎng)絡(luò)的CAPSULE-NLU動態(tài)模型,如圖2所示,該模型封裝了話語中的詞語、槽和意圖之間的層次關(guān)系,并實現(xiàn)了槽填充和意圖識別的聯(lián)合學(xué)習(xí),且在Snips-NLU數(shù)據(jù)集上,槽填充F1值與意圖識別準(zhǔn)確率分別達(dá)到了90.2%和97.7%。

圖2 CAPSULE-NLU模型的結(jié)構(gòu)[12]

為了進一步融合槽與意圖的語義關(guān)系和詞級別的關(guān)系,Chen等人[13]提出了WAIS模型,該模型在Encoding部分使用了傳統(tǒng)的BiLSTM進行特征編碼,再利用Attention機制計算意圖與槽的表示,但隨后利用了詞級別的Attention來提取額外特征,并利用門控機制將意圖與槽的表示和該特征融合起來輸出計算結(jié)果。這種做法使得模型在結(jié)構(gòu)簡潔、參數(shù)較少的情況下,同時融合了詞級別特征和槽/意圖特征,因此獲得了較高的性能。在ATIS數(shù)據(jù)集上,WAIS比SF-ID network模型在意圖識別準(zhǔn)確率和槽填充F1值上分別高出1.0%和0.7%。在Snips-NLU數(shù)據(jù)集上,則比此前性能最好的CAPSULE-NLU高出0.73%和0.89%。

隨著BERT[14]預(yù)訓(xùn)練模型在自然語言處理的各項任務(wù)上表現(xiàn)出的強大性能,Chen等人[15]將BERT模型用于槽填充和意圖識別聯(lián)合學(xué)習(xí)的任務(wù)上,通過將CLS標(biāo)簽對應(yīng)的輸出采用線性分類器輸出意圖類別,而用戶話語對應(yīng)的輸出則利用BERT+CRF的經(jīng)典方式輸出槽填充的標(biāo)注。該方法在Snips-NLU數(shù)據(jù)集上與WAIS 模型相比,在意圖識別準(zhǔn)確率上相當(dāng),但在槽填充F1值上則高出5.61%。加入字母Embedding的做法可以為模型加入諸如詞根等額外特征,使得模型獲得更深入的解析能力。Firdaus等人[16]基于此提出HCNN模型,利用融合單詞和字母Embedding的做法大幅提高了模型的性能,并在ATIS數(shù)據(jù)集上,意圖識別與槽填充的性能比BERT+CRF模型分別高出1.19%和1.32%;但在Snips-NLU數(shù)據(jù)集上則比BERT+CRF模型低了0.16%和1.8%。

2.2 基于上下文狀態(tài)管理的對話理解

在一些應(yīng)用場景下,一旦無法用當(dāng)前對話來確定用戶的真實意圖,則需要通過多輪對話來確定,此時對話的上下文信息可用來輔助模型進行自然語言理解任務(wù)?;诖?,Shi等人[17]提出了一個基于對話上下文分析的語言理解模型RNN-based Contextual Model,該模型將上一輪對話的預(yù)測結(jié)果與當(dāng)前輪次的對話結(jié)果相結(jié)合,來確定用戶的意圖與槽值,在AITS數(shù)據(jù)集上槽填充F1值達(dá)到了96.83%。為了將對話歷史信息更好地建模,Chen等人[18]提出了MNN-NLU模型,該模型通過MNN網(wǎng)絡(luò)將對話的歷史上下文內(nèi)容進行編碼,將當(dāng)前用戶話語表示與歷史用戶話語表示直接求向量積來計算 Attention 權(quán)重,用Attention權(quán)重與歷史對話表示加權(quán)求和來生成上下文表示向量,再利用這個上下文表示向量與當(dāng)前輪的對話表示相結(jié)合,協(xié)助判斷用戶意圖與槽的填充值。在Cortana數(shù)據(jù)集上,多輪對話的整體槽填充準(zhǔn)確率為67.8%,召回率為66.5%。在此基礎(chǔ)上,Bapna等人[19]進一步提出了一種基于序列對話的編碼網(wǎng)絡(luò)(SDEN),該網(wǎng)絡(luò)在編碼歷史對話信息的策略上與MNN算法不同,該策略是將當(dāng)前用戶話語表示與歷史對話表示拼接起來,使用前饋神經(jīng)網(wǎng)絡(luò)來計算上下文矩陣,再求解獲得上下文的向量表示。為了將對話中僅包含單領(lǐng)域問題的數(shù)據(jù)集擴展到支持多領(lǐng)域問題的數(shù)據(jù)集,SDEN模型采用了一種重組數(shù)據(jù)集的策略,即隨機選取兩組對話,并隨機將其中一組對話截取為兩半,將前一半拼接在第二組對話的前面,構(gòu)成新的重組數(shù)據(jù)。測試結(jié)果顯示,在非重組數(shù)據(jù)集中,該模型表現(xiàn)略差于MemNN-NLU模型,但是在重組數(shù)據(jù)集上的領(lǐng)域和槽兩個任務(wù)指標(biāo)上分別高出0.7%和1.8%,而意圖F1值上則低了0.4%。

由于離當(dāng)前對話越近的歷史上下文對當(dāng)前的用戶意圖理解可能會越有用,并且之前研究普遍缺少對話角色對算法的影響(例如,服務(wù)端角色說話的方式通常較為固定,回答也比用戶更簡單易懂)。因此,Chen等人[20]提出了考慮角色的時間-上下文動態(tài)感知模型(CTAA),結(jié)構(gòu)如圖3所示。

圖3 CTAA模型的結(jié)構(gòu)[20]

該模型分別對用戶和系統(tǒng)利用了上下文和時序兩類Attention協(xié)助編碼歷史對話,在DSTC4數(shù)據(jù)集上,句子級別和角色級別的F1值分別達(dá)到了74.6%和 74.2%。為了更加精確地計算時序特征,Su等人[21]又提出了E2E-CTAA模型,該模型認(rèn)為這種時間-上下文動態(tài)感知模型在計算時序時 Attention 方式過于簡單,因此,使用可學(xué)習(xí)的方式將三種一次函數(shù)利用加權(quán)平均方式來模擬時間衰減函數(shù),從而獲得了比手動配置衰減函數(shù)以及使用固定的衰減函數(shù)更高的性能,并在DSTC4數(shù)據(jù)集上,句子級和角色級的F1值分別達(dá)到了74.40%和74.33%??紤]到這兩種模型的性能基本相當(dāng),并且在上述兩種時間感知模型中,利用手動調(diào)整的時間衰減函數(shù)常常無法達(dá)到最優(yōu)的效果,因此Kim等人[22]提出了無須衰減函數(shù)的時間感知注意力模型(DFF-CTAA)。該模型一方面引入了一個可訓(xùn)練的距離向量來直接學(xué)習(xí)時間衰減趨勢,另一方面考慮了存在多個用戶的情況,將說話人身份的角色特征構(gòu)造成一個可訓(xùn)練向量來計算。實驗結(jié)果顯示,該模型的性能比之前Su和Chen等人提出的模型有了很明顯的提高,在句子級別與角色級別的計算中,F(xiàn)1值在句子級別上比此前最好的CTAA模型高出1.35%,在角色級別上也比E2E-CTAA模型高出1.23%。

2.3 基于自然語言處理的對話理解模型對比

一般地,基于聯(lián)合學(xué)習(xí)的研究重點主要在于如何解析深度語義來實現(xiàn)槽與意圖的有效關(guān)聯(lián);而基于對話歷史上下文整合的模型則更關(guān)注如何綜合判斷對話歷史距離以及內(nèi)容對于當(dāng)前對話的影響上,因此一些研究利用歷史對話與當(dāng)前對話的關(guān)聯(lián)性隨時間衰減這一特點,來進行模型性能的優(yōu)化;同時,由于模型在編碼對話歷史時隨著對話輪數(shù)的不斷增多,耗費的計算資源也將隨之增加,如何將這種衰減與對話中的意圖與語義結(jié)合起來,讓對話歷史的關(guān)聯(lián)性從單純的時間維度拓展到語義、意圖等多維度,則是一項重要的任務(wù)。但由于基于上下文的預(yù)測模型和聯(lián)合學(xué)習(xí)模型所采用的數(shù)據(jù)集不同,因此,尚未對這兩類模型的性能優(yōu)劣進行有效對比分析。

表2對比了上文中提到的各類基于自然語言處理的對話理解模型的性能對比,其中,ID表示為意圖檢測(Intent Detection),SF表示槽填充(Slot Filling)。從性能指標(biāo)來看,Kim等人[22]提出的DFF-CTAA模型在利用上下文預(yù)測的模型中性能最佳,這是因為該模型不僅將角色利用可訓(xùn)練向量進行表示,而非簡單地采用Guide/User來表示,使得用戶的角色特征可以被模型更好地學(xué)習(xí)和表示,并且模型在時間衰減函數(shù)上采用了完全的端到端算法,增加了時間衰減函數(shù)的精確性。而在基于聯(lián)合學(xué)習(xí)的模型中,無論是采用基于膠囊網(wǎng)絡(luò)、CNN或是RNN的模型,在不同數(shù)據(jù)集上都獲得了較好的性能;同時,在HCNN模型中通過利用字母級別的Embedding,以及在WAIS模型中加入了詞級別的Attention,這些方式增加了更多有用的特征,并提升了模型對自然語言的理解能力。另外,基于預(yù)訓(xùn)練的新語言模型對算法性能提升顯著,例如,一個簡單的BERT+CRF[15]結(jié)構(gòu),就能讓模型獲得較大的性能改善,如果將相關(guān)數(shù)據(jù)集進行預(yù)訓(xùn)練,性能也許會有更大的提升。

表2 基于自然語言處理的對話理解模型的性能對比

2.4 基于對話狀態(tài)追蹤的用戶意圖理解

對話狀態(tài)通常由一組請求和聯(lián)合目標(biāo)共同組成,其中,請求分為目標(biāo)(information,即表示用戶希望實現(xiàn)的目標(biāo))和請求(request,表示用戶希望獲取的信息),例如,用戶希望吃中餐(以Slot-value的形式體現(xiàn):如food=Chinese)是一個目標(biāo),而用戶希望獲得地址(address)則是一個請求。將到當(dāng)前輪為止的每一對話輪中的目標(biāo)和請求加在一起,其中的每一輪的目標(biāo)和請求稱為回合目標(biāo)和回合請求,而所有輪的目標(biāo)構(gòu)成聯(lián)合目標(biāo)。表3列舉了一些在該任務(wù)上的常見數(shù)據(jù)集,這些數(shù)據(jù)集不僅可以用來進行對話狀態(tài)追蹤任務(wù),也可以作為整個對話系統(tǒng)構(gòu)建任務(wù)的數(shù)據(jù)集使用。

表3 支持對話狀態(tài)追蹤任務(wù)的常見數(shù)據(jù)集

在傳統(tǒng)的流水線模型中,需要對話狀態(tài)追蹤模塊記憶用戶的每一輪意圖來進行系統(tǒng)行為的判斷。在當(dāng)前的研究中,對話狀態(tài)追蹤任務(wù)整合了用戶意圖理解的任務(wù),對話狀態(tài)直接由對話生成。而使用基于深度學(xué)習(xí)方式來構(gòu)建的對話狀態(tài)追蹤器常可以分為兩種方式:生成式與檢索式,前者直接使用生成方式來生成槽或根據(jù)備選的槽生成對應(yīng)的值;后者則是將所有的備選槽-值對以分類的形式進行計算,從而判斷當(dāng)前的對話狀態(tài)。

Zhong等人[28]發(fā)現(xiàn):在對話狀態(tài)追蹤任務(wù)相關(guān)的數(shù)據(jù)集中,有一些槽的樣本很少,傳統(tǒng)的模型對于這類稀疏樣本無法有效學(xué)習(xí),因此提出GLAD模型(Global-local Attentive Encoder),如圖4所示,該模型對于不同類型的槽使用單獨的基于Bi-LSTM的編碼器進行編碼(local-encoder)以學(xué)習(xí)不同槽的特征,并對所有的槽使用了一個相同結(jié)構(gòu)的全局編碼器進行編碼(global-encoder)來學(xué)習(xí)這些槽的共同特征。該方式不僅解決了對于稀疏樣本的學(xué)習(xí)問題,并在對話狀態(tài)追蹤性能上取得了突破,且在DSTC2[23]數(shù)據(jù)集上的聯(lián)合目標(biāo)準(zhǔn)確率比NBT模型高出1.1%,達(dá)到了74.5%,在WoZ2.0[24]數(shù)據(jù)集上比FS-NBT模型高出3.3%,達(dá)到了88.1%。同時,在多領(lǐng)域?qū)υ挃?shù)據(jù)集Multi-WoZ[25]數(shù)據(jù)集上的全部任務(wù)聯(lián)合目標(biāo)準(zhǔn)確率達(dá)到了35.57%,并且針對該數(shù)據(jù)集中的餐廳子數(shù)據(jù)集達(dá)到了43.95%。實驗顯示,在面對較少的測試樣例時,通過global-local策略可有效提升模型的對話狀態(tài)追蹤能力,如圖5所示。

圖4 GLAD模型的結(jié)構(gòu)[28]

圖5 GLAD模型在面對稀疏數(shù)據(jù)時顯示出較高性能[28]

在GLAD模型的基礎(chǔ)上,又衍生出一系列相應(yīng)的改進模型。其中,具有代表性的改進模型包括:Sharma等人[29]提出的DRC模型以及Nouri等人[30]提出的GCE模型等。DRC模型主要采用GLAD模型分別編碼對話歷史、系統(tǒng)行為與用戶話語來融合不同特征,從而在MultiWoZ-Restaurant[25]數(shù)據(jù)集上獲得的聯(lián)合目標(biāo)準(zhǔn)確率比單純的GLAD模型高出2.36%。而GCE模型在大幅降低GLAD模型的復(fù)雜性的同時也提升了其性能,在WoZ2.0[24]數(shù)據(jù)集上的聯(lián)合目標(biāo)準(zhǔn)確率比GLAD模型高出0.4%。

由于GLAD模型隨著槽的類型的增加,模型的參數(shù)量也會隨之增多,因此在多領(lǐng)域數(shù)據(jù)集下的訓(xùn)練將非常耗費系統(tǒng)資源,而且無法有效地分類訓(xùn)練未出現(xiàn)過的樣本。而Ren等人[31]使用了一個通用的StateNet模型,通過跨槽值來共享參數(shù),并且模型不會隨著槽值對的數(shù)目增加而變得更復(fù)雜。同時,對于給定的槽,即使出現(xiàn)新的對應(yīng)的值,只要有該值的詞向量,模型就可以對新的值進行預(yù)測。為了進一步證明模型在共享參數(shù)時也可以更好地實現(xiàn)對話狀態(tài)追蹤任務(wù),消融實驗的結(jié)果顯示:通過共享領(lǐng)域間的參數(shù),并使用某一領(lǐng)域的部分?jǐn)?shù)據(jù)進行預(yù)訓(xùn)練,可有效提高模型的性能。在DSTC2[23]和WoZ2.0[24]兩個數(shù)據(jù)集上的測試結(jié)果顯示,聯(lián)合目標(biāo)準(zhǔn)確率比GLAD模型分別提高了1%和0.8%。

此外,隨著BERT等預(yù)訓(xùn)練語言模型在自然語言處理領(lǐng)域內(nèi)的成功,Lee等人[32]將BERT模型引入到對話狀態(tài)追蹤任務(wù)中,提出了SUMBT模型。該模型利用BERT模型分別預(yù)訓(xùn)練學(xué)習(xí)對話狀態(tài)的固有特征和自然語言的通用特征,從而充分共享不同領(lǐng)域間的語義和槽值對等信息,并在多個數(shù)據(jù)集上展現(xiàn)出了很高的性能,其中,在WoZ2.0[24]數(shù)據(jù)集上,該模型比StateNet模型的聯(lián)合準(zhǔn)確率高出0.3%,達(dá)到了89.2%;在MultiWoZ[25]數(shù)據(jù)集上,該模型的聯(lián)合準(zhǔn)確率則高出GCE模型6.82%,達(dá)到了42.4%。

考慮到對話狀態(tài)追蹤模型在利用會話歷史以及語言理解兩種模式分別進行計算時,都表現(xiàn)出了一定的優(yōu)勢,如果能將這兩種模式的優(yōu)勢融合,則可能會大幅提高模型的性能,因此,Goel等人[33]提出了混合兩種模式的HyST模型,并將當(dāng)前話語編碼和前一輪的對話編碼作為輸入,利用前饋神經(jīng)網(wǎng)絡(luò)計算每一個槽是否在該輪被提及,并判斷每一個槽對應(yīng)的值在全詞表上的分布,使得模型在整合對話歷史、加強自然語言處理能力和應(yīng)對OOV(Out of Vocabulary)問題上都獲得了較好的性能。例如,在MultiWoZ[25]數(shù)據(jù)集上,該模型的聯(lián)合目標(biāo)準(zhǔn)確率比SUMBT[32]高出1.84%。而Gao等人[34]提供了另一種解決問題的思路,其將對話狀態(tài)追蹤任務(wù)作為閱讀理解任務(wù)來看待,并基于Attention來構(gòu)建了NRC-DST模型(Neural Reading Comprehension-DST),該模型將用戶話語中蘊含的槽分類為:是/否/不關(guān)心或范圍(span)四種,當(dāng)槽檢測器檢測結(jié)果為范圍時,槽范圍檢測器則會在對話內(nèi)容中確定一個存在槽的范圍;如果檢測結(jié)果為“是/否”,則利用二值化檢測器輸出所有候選槽的概率分布。在MultiWoZ[25]數(shù)據(jù)集上,該模型的聯(lián)合目標(biāo)準(zhǔn)確率達(dá)到了47.33%,比HyST[33]模型高出3.11%。

為了讓模型更好地適應(yīng)多領(lǐng)域的對話任務(wù),Wu等人[35]在引入指針生成網(wǎng)絡(luò)[36]的基礎(chǔ)上,提出了TRADE模型,通過檢索整個詞表與候選的槽值對來選擇所需要生成的對話狀態(tài)。該模型在MultiWoZ[25]數(shù)據(jù)集上聯(lián)合目標(biāo)準(zhǔn)確率達(dá)到了48.62%,比NRC-DST[34]模型高出了1.29%。其結(jié)構(gòu)如圖6所示。

圖6 TRADE模型的結(jié)構(gòu)[35]

而利用MultiWoZ[25]中五個領(lǐng)域中的四個子數(shù)據(jù)集進行訓(xùn)練時,將剩下一個領(lǐng)域子數(shù)據(jù)集中1%的數(shù)據(jù)進行fine-tuning,再對該領(lǐng)域進行測試,結(jié)果顯示模型具有一定的遷移能力(表4)。表中指標(biāo)為聯(lián)合目標(biāo)準(zhǔn)確率,第一行數(shù)據(jù)為除該領(lǐng)域外的數(shù)據(jù)進行學(xué)習(xí)時達(dá)到的準(zhǔn)確率,后三行為根據(jù)不同的策略在新領(lǐng)域利用1%的數(shù)據(jù)進行學(xué)習(xí)后在新領(lǐng)域數(shù)據(jù)上的性能。

表4 TRADE模型的領(lǐng)域遷移實驗[35]

由于上述模型的時間復(fù)雜度普遍較高,例如,前文提到的GLAD[28]模型,其算法的推理時間復(fù)雜度[39]為O(m×n),其中,m表示值的數(shù)目,n表示槽的數(shù)目。這使得本來就耗費計算資源的深度學(xué)習(xí)模型在面對多領(lǐng)域、大數(shù)據(jù)量的情況時,計算的速度會變得非常慢。基于此,Ren等人[39]提出了完全生成式的COMER模型,將前輪的對話狀態(tài)、前輪系統(tǒng)回復(fù)和當(dāng)前輪的用戶話語采用BERT進行預(yù)訓(xùn)練進行嵌入表示后,再利用經(jīng)典的BiLSTM進行編碼,而后經(jīng)過三個CMR Encoder(圖7)的編碼器結(jié)構(gòu)進行特征融合編碼,最終輸出當(dāng)前輪的對話狀態(tài)。這種方式不需要對每一個槽或值進行匹配和計算,而是通過采用不同的生成方式分別生成領(lǐng)域、槽和值的對應(yīng)信息。這種完全生成的方式在Multi WoZ[25]數(shù)據(jù)集上顯示出了極佳的性能,聯(lián)合目標(biāo)準(zhǔn)確率高出TRADE模型0.03%,同時將計算的推理時間復(fù)雜度降低到O(1)。

圖7 CMR Encoder模型的結(jié)構(gòu)[39]

本文進一步將上述模型在不同數(shù)據(jù)集下的性能進行對比。在該問題下,除了聯(lián)合目標(biāo)準(zhǔn)確率外,常用的評判指標(biāo)還有每輪輪請求準(zhǔn)確率(Turn Request Accuracy)和槽識別準(zhǔn)確率(Slot Accuracy)。從表5 可見,一些具有跨領(lǐng)域處理能力的模型,由于其具有對深度語義的理解能力,使得其在單領(lǐng)域數(shù)據(jù)集下具有較好的性能,并且在基于全詞表檢索的生成式模型的基礎(chǔ)上,這些算法在降低所需計算資源的同時,面對測試集中存在的未知數(shù)據(jù)也可以通過遷移學(xué)習(xí)而具有一定的應(yīng)對能力。下一步的研究中,如何為算法賦予更深刻的語義解析能力、業(yè)務(wù)和通用領(lǐng)域語義的融合能力,以及對稀疏樣本的學(xué)習(xí)能力,將成為研究工作的重點。

表5 對話狀態(tài)追蹤領(lǐng)域各模型的性能對比

3 標(biāo)注數(shù)據(jù)依賴與知識依賴

3.1 降低標(biāo)注數(shù)據(jù)依賴的對話理解算法優(yōu)化

利用基于流水線的深度學(xué)習(xí)模型需要用戶意圖理解、對話狀態(tài)追蹤、對話策略管理、自然語言生成等多個模塊協(xié)同工作,也因此需要大量的標(biāo)注數(shù)據(jù),這導(dǎo)致訓(xùn)練樣本的獲取成本變得高昂。例如,WoZ 2.0[24]這種小規(guī)模的數(shù)據(jù)集,僅包括了99個餐廳數(shù)據(jù),約1 500輪對話,三種information和六種request類型的數(shù)據(jù)。而現(xiàn)實場景下的業(yè)務(wù)數(shù)據(jù)和客服記錄并未進行過大規(guī)模的詳細(xì)標(biāo)注,如果能對這些原始數(shù)據(jù)進行妥善利用,將會極大降低數(shù)據(jù)集的構(gòu)建成本并提高系統(tǒng)的構(gòu)建效率。

傳統(tǒng)的Seq2Seq[40-41]模型在機器翻譯場景下,采用完全端到端的方法而無需額外的數(shù)據(jù)標(biāo)注就能取得很好的結(jié)果。因此,如果能夠?qū)v史對話全部進行編碼和存儲,并在輸入新的對話后,通過改進Seq2Seq模型來實現(xiàn)對話狀態(tài)管理以及對話歷史與上下文的快速查詢與語義匹配,則可有效改進任務(wù)型對話系統(tǒng)對數(shù)據(jù)的依賴。例如,MemNN模型[42]通過計算對話歷史和當(dāng)前對話的Attention來計算對話歷史記錄對當(dāng)前對話的影響,其結(jié)構(gòu)如圖8所示。在此基礎(chǔ)上,Madotto等人[3]將Seq2Seq與MemNN模型相結(jié)合,提出了Mem2Seq模型,該模型利用不同層的MemNN將對話歷史與知識庫中的不同特征進行編碼,從詞表、對話歷史以及知識庫中挑選出單詞作為輸出。在KVRT(In-Car)[2]數(shù)據(jù)集上,該方法比單純的Seq2Seq模型在EntityF1值與BLEU指標(biāo)上分別提高了13.5%和4.2%。

圖8 MemNN模型的結(jié)構(gòu)[42]

考慮到人們對情景記憶(對話、文本等)以及語義記憶(書本、知識庫等)模式存在著差別,但Mem2Seq將知識庫與對話編碼混為一談,因此,Chen等人[43]提出了一個WMM2Seq模型,將對話歷史和知識庫分別編碼后,使用門控機制來過濾并選擇所需要生成的單詞。該模型在DSTC2[23]數(shù)據(jù)集上比起Mem2Seq模型在EntityF1值和BLEU兩個指標(biāo)上進一步提高了5.43%和3.27%。除了利用MemNN結(jié)構(gòu)進行端到端的對話系統(tǒng)構(gòu)建外,Wen等人[44]提出DSR模型,利用對話狀態(tài)追蹤模塊與Seq2Seq模型的優(yōu)勢,將對話狀態(tài)建模為向量表示形式,并使用注意力機制來增強模型對知識庫的查詢以及對對話歷史中有效信息的利用。測試結(jié)果顯示,該模型在Cam676[45]數(shù)據(jù)集上,BLEU和Entity Match 的F1值比Mem2Seq模型分別又提升了1.7%和9.2%;而在KVRT[2]數(shù)據(jù)集中,則在這兩個指標(biāo)上也分別高出Mem2Seq模型0.1%和18.5%。

另外,基于傳統(tǒng)端到端的任務(wù)型對話系統(tǒng)常將知識庫查詢作為對整個知識庫的Attention,而不是針對特定的單個知識庫進行觀察,這種情況可能會導(dǎo)致模型生成的實體會出現(xiàn)不一致。針對這一問題,Qin等人[46]提出了一個基于Seq2Seq結(jié)構(gòu)的KBRNet模型,該模型采用遠(yuǎn)程監(jiān)督技術(shù)[47]和Gumbel-Softmax技術(shù),解決了知識庫中檢索標(biāo)簽未標(biāo)注的問題。同時,在解析用戶話語時,利用知識庫檢索組件返回最相關(guān)的知識庫記錄,來過濾生成話語中的無關(guān)實體,提高了話語的邏輯性和實體之間的相關(guān)性。并在KVRT[2]數(shù)據(jù)集上,BLEU指標(biāo)與Entity Match 的F1分別達(dá)到了14.1%和到53.7%,并比DSR模型分別高出了1.4%和1.8%;而在Cam676[45]數(shù)據(jù)集上,兩項指標(biāo)分別達(dá)到18.5%和58.6%,比DSR模型分別高出1.1%和0.6%。

同時,為了更好地解析語義并利用知識庫中的信息,Banerjee等人[48]提出了GCN-SeA模型,通過圖卷積網(wǎng)絡(luò)[49-50]將對話歷史、當(dāng)前對話及知識庫信息進行編碼,并結(jié)合圖卷積網(wǎng)絡(luò)對知識庫三元組的元素進行語義嵌入與關(guān)系解析,并達(dá)到了與WMM2Seq模型相近的性能效果。而Lei等人[51]利用標(biāo)注好的對話狀態(tài)數(shù)據(jù)與聊天記錄一起來進行任務(wù)型對話系統(tǒng)的構(gòu)建,在基于CopyNet[52]的基礎(chǔ)上提出了Sequicity模型,該模型先利用上一輪的對話狀態(tài)和系統(tǒng)回復(fù)以及當(dāng)前用戶話語生成對話狀態(tài),再進一步考慮到該輪的對話狀態(tài),并生成下一輪的系統(tǒng)回復(fù)。這種方式既減少了對標(biāo)注數(shù)據(jù)的依賴,又可以利用對話狀態(tài)提高模型的可解釋性。在Cam676[45]數(shù)據(jù)集上的測試結(jié)果顯示,該模型比LIDM[45]在Entity Match Rate、BLEU以及SuccessF1等指標(biāo)上分別提升了1.5%、0.7%和1.4%。另外,這種方式在降低模型復(fù)雜度的同時提高了對標(biāo)注數(shù)據(jù)的利用率,并可以通過基于生成的方式來有效應(yīng)對OOV(out of vocabulary)問題。但是,這種生成式模型也可能會由于生成錯誤的對話狀態(tài)或?qū)υ挔顟B(tài)序列的順序而導(dǎo)致對下一輪結(jié)果產(chǎn)生影響。

考慮到Sequicity模型存在的不足,Shu等人[53]結(jié)合檢索式和生成式兩種模型的優(yōu)勢提出了FSDM模型,該模型利用CopyNet通過輸入槽的編碼來生成inform類槽的內(nèi)容,并使用二分類方式從所有備選內(nèi)容中判斷Request類槽和系統(tǒng)回復(fù)中所包含的槽內(nèi)容,并在Cam676數(shù)據(jù)集下,比Sequicity模型在BLEU,Entity Match Rate和SuccessF1三個指標(biāo)上分別提高了2.1%、2.2%和2.1%。但由于所采用的encoder會限制用戶話語的編碼能力,因此如果采用更好的編碼方式(例如更高的維度)將會進一步提升模型的性能。

表6對近兩年來通過降低標(biāo)注數(shù)據(jù)依賴而實現(xiàn)的任務(wù)型對話算法的性能進行了對比。常用的任務(wù)型對話系統(tǒng)模型的評判標(biāo)準(zhǔn)如下:

表6 低標(biāo)注數(shù)據(jù)依賴的任務(wù)型對話系統(tǒng)與性能對比表

(1)Per-Response/Per-dialogAccuracy[54]:分別表示一輪或一組完整對話響應(yīng)與ground truth匹配的百分比。

(2)BLEU[55]:利用N-gram下的準(zhǔn)確率評判生成的回復(fù)與ground truth相似程度的指標(biāo)。

(3)EntityF1[56]:表示每輪生成的實體與groud truth中實體匹配程度的百分比值。

(4)EntityMatchRate(EMR)[24]:表示每組完整的對話完成后算法選擇的實體與ground truth的匹配率。

(5)SuccessF1[50]/Rate[47]:表示在對話中對用戶請求的槽識別的F1/比例。

從實體識別能力的角度來看,2019年提出的幾個模型在不同數(shù)據(jù)集下均展現(xiàn)出了較高的性能。而在生成回復(fù)部分,由于基于圖網(wǎng)絡(luò)和CopyNet模型分別在知識庫查詢和回復(fù)生成方面具有更強的性能,使得模型的BLEU指標(biāo)相對較高。而KBRNet[46]在使用的數(shù)據(jù)集和測試方式上和其他幾個數(shù)據(jù)集不同,但考慮到該模型基于Seq2Seq模式,且僅考慮了對知識庫的優(yōu)化檢索方式,就已獲得了比之前工作更好的性能。可見,目前的任務(wù)型對話系統(tǒng)在數(shù)據(jù)檢索問題上還存在不足,需要在以后的研究中繼續(xù)探索和優(yōu)化。

3.2 基于知識的對話系統(tǒng)(KBQA)研究

KBQA領(lǐng)域的研究內(nèi)容是構(gòu)建以基于知識庫幫助用戶回答問題為目的的對話系統(tǒng),與任務(wù)型對話系統(tǒng)的區(qū)別在于KBQA領(lǐng)域的對話以單輪對話為主,問題也常需要進行邏輯推演來找到答案。在該領(lǐng)域,最為廣泛使用的兩個數(shù)據(jù)集是WebQuestions[57]和SimpleQuestions[58],前者訓(xùn)練集/驗證集/測試集中的問題數(shù)分別為3 000/778和2 032,后者則為75 910/10 845/21 687。

3.2.1 針對多跳關(guān)系問答的研究

由于用戶意圖并非都采用基礎(chǔ)的實體/關(guān)系查詢,在實際場景中,基于知識庫或知識圖譜的邏輯推理過程,存在著具有遞歸性質(zhì)的實體關(guān)系間的多跳邏輯,因此,Yu等人[59]提出了一種分層遞歸神經(jīng)網(wǎng)絡(luò)HR-BiLSTM模型來檢測知識庫中的知識關(guān)系,該模型在SimpleQuestions[58]及WebQuestions[57]兩個數(shù)集上的準(zhǔn)確率分別達(dá)到93.3%和82.53%。Zhang等人[60]進一步將注意力機制引入KBQA領(lǐng)域,并提出了一個基于注意力的詞級別互作用模型ABWIM,該模型比HR-BiLSTM模型在相同數(shù)據(jù)集上的準(zhǔn)確率分別提高了0.2%和2.79%。而Yu等人[61]在知識庫自動提取出對象實體類型的基礎(chǔ)上,進一步從關(guān)系和問題中抽取出多個信息視圖,并從多個角度來比較不同視圖中存在的問題和關(guān)系,使得在相同數(shù)據(jù)集上的性能比ABWIM模型進一步提升了0.19%和0.63%。

除了常用的SimpleQuestions等數(shù)據(jù)集外,在如PathQuestion[62](https://github.com/zmtkeke/IRN)/MetaQA[62](https://github.com/yuyuz/MetaQA)/WC2014[64](https://github.com/zmtkeke/IRN)這樣的數(shù)據(jù)集上,有75.6%的問題屬于三跳關(guān)系的問題,而單跳關(guān)系的比例為0。為了解決該問題,Lan等人[65]提出了一種迭代序列匹配模型來進行多跳關(guān)系的匹配工作,模型在MetaQA數(shù)據(jù)集上,一跳/二跳/三跳的%Hits@1性能達(dá)到了96.3%,99.1%和99.6%。同時,在MetaQA,PathQuestion和WC2014數(shù)據(jù)集上的Hits@1和F1性能分別達(dá)到了98.6%和98.1%,96.7%和96.0%,及99.9%和99.9%。但是一個依然存在的問題是:所有現(xiàn)有的模型總是有跳數(shù)上限,因此對于過度復(fù)雜的多跳問題,識別能力依然有限。

3.2.2 針對數(shù)據(jù)不完整等問題的KBQA研究

由于目前現(xiàn)有的知識庫,如FreeBase(已被Wiki Data取代,https://www.wikidata.org/wiki/Wikidata:Main_Page)的子集FB2M,擁有200萬個實體和6 700條關(guān)系;而SimpleQuestions[58]等數(shù)據(jù)集由于問題數(shù)有限,因此無法覆蓋所有的關(guān)系。因此,如何讓模型識別出這些無法被數(shù)據(jù)集覆蓋到的關(guān)系也是一個具有挑戰(zhàn)性的問題。針對這一個問題,Wu等人[66]提出了一個從整個知識圖譜中學(xué)習(xí)關(guān)系表示的New HR-BiLSTM模型,該模型將學(xué)習(xí)到的表示合并到關(guān)系檢測的模型中。在SQB數(shù)據(jù)集上的測試結(jié)果顯示,對于見過的關(guān)系樣例,模型的Micror/Macro Average Accuracy分別達(dá)到92.6%和86.4%,而對于未見過的關(guān)系樣例則分別達(dá)到了77.3%和73.2%,而原生的HR-BiLSTM模型雖然對見過的樣例在兩個參數(shù)上分別達(dá)到了93.5%和84.7%,但對于未見過的關(guān)系其性能指標(biāo)則只有33.0%和49.3%。

同時,針對現(xiàn)存知識庫在內(nèi)容上存在不完整和歧義、同義等問題,Xiong等人[67]提出了SG-KA-Rader模型。該模型利用圖注意力機制對知識庫中的知識和關(guān)系進行標(biāo)識,并利用相關(guān)文檔中的豐富語義信息進行補充。在知識庫的完整程度不同時,模型的性能指標(biāo)和與baseline的對比如表7所示。

表7 SG-KA-Reader模型在不同知識庫完整度下的性能[66]

綜上,基于KBQA的對話系統(tǒng),為自然語言中復(fù)雜的邏輯和知識庫中知識查詢與交互的問題提供了一些借鑒的思路,隨著任務(wù)型對話系統(tǒng)能力要求的加深,以及更新、更貼近真實情況的數(shù)據(jù)集出現(xiàn),這些工作將很好地為構(gòu)建性能更強大的任務(wù)型對話系統(tǒng)提供幫助。

4 基于多模態(tài)的對話內(nèi)容個性化生成

任務(wù)型對話系統(tǒng)除了應(yīng)該滿足目前用戶對于語音交流的需求,還應(yīng)該在以后的研究中更進一步朝著更加人性化和智能化的方向發(fā)展。這要求對話系統(tǒng)在理解業(yè)務(wù)邏輯和用戶自然語言之外,具備對于用戶情緒、表情、動作及一些用戶數(shù)據(jù)的解析能力。例如,在電影訂閱系統(tǒng)中,推薦新電影時需要綜合了解用戶的觀影習(xí)慣及情緒狀態(tài);在導(dǎo)購、導(dǎo)游等問答系統(tǒng)中,需要分析用戶動作,理解用戶手指、目光等指向的目標(biāo),以此了解用戶意圖。為了實現(xiàn)這樣的目的,需要利用在多模態(tài)、個性化推薦等問題上的研究進展來為未來的任務(wù)型對話系統(tǒng)研究提供思路。

4.1 基于多模態(tài)的問答系統(tǒng)研究進展

隨著傳感器、攝像機,以及智能穿戴設(shè)備的普及,圖像、視頻、聲音以及文字特征的信息為對話系統(tǒng)提供了多模態(tài)的數(shù)據(jù)來源[70]。利用這些多模態(tài)數(shù)據(jù)輸入并融合后,結(jié)合用戶個性化的表情與場景等視覺特征、語音和語氣等音頻特征,以及對話信息內(nèi)容特征來實現(xiàn)基于多模態(tài)人機對話更貼近于人類對世界的基本認(rèn)知方式。

在視覺情緒識別領(lǐng)域,You等人[71]利用CNN構(gòu)建了一個情緒識別問題的基線模型并提出了大型數(shù)據(jù)集FI,該數(shù)據(jù)集包含8個情緒類別,每個類別有約11 000張圖片樣例。Yang等人[72]認(rèn)為包含的情緒常常并不是單一的,因此將數(shù)據(jù)重新標(biāo)注,同時引入情緒標(biāo)簽之間的相似度等先驗知識來輔助分類。Zhu等人[73]認(rèn)為,很多工作并未將圖像中的顏色、質(zhì)地、部位、物體等多種特征作為獨立的特征看待,基于此提出了利用CNN-RNN模型來捕獲多種要素特征的Bi-GRU模型,測試顯示該模型能有效地捕捉顏色、紋理、物體等關(guān)鍵信息。另外,Yang等人[74]基于之前的工作[72]提出了AR模型,將之前引入標(biāo)簽相似程度的先驗知識轉(zhuǎn)換為圖像中的檢測重點區(qū)域,對重點區(qū)域進行情感和實體的重要性打分,再利用打分和VGG網(wǎng)絡(luò)的輸出對情感進行分類。該模型FI參考文獻(xiàn)[70]和flickr上的準(zhǔn)確率分別達(dá)到86.35%和71.13%。上述四個模型的準(zhǔn)確率對比如表8所示。

表8 圖像情感識別相關(guān)研究基于FI[70]的準(zhǔn)確率對比

在基于音頻信號進行情緒識別的問題上,Gumelar等人[75]基于對話人的性別和五種情緒類別,利用一維深度卷積網(wǎng)絡(luò)把梅爾倒譜系數(shù)作為額外特征對音頻信號進行分類,性別與情緒分類的準(zhǔn)確率分別達(dá)到了90%和78.83%。Tao等人[76]則基于從電影中抽取數(shù)據(jù)的MEC2017[77]數(shù)據(jù)集,將性別、說話人和情緒作為三個分類任務(wù)在深度神經(jīng)網(wǎng)絡(luò)、SVM、RNN等多種算法模型融合下進行多任務(wù)學(xué)習(xí)。測試結(jié)果顯示,這種融合方法比單純的CNN等方式有明顯的提升。另外,語音本身也是一種與自然語言含義重合的時間序列,因此利用RNN模型常會獲得比CNN模型更好的效果,Xie等人[78]遵循該思路提出使用一種基于Attention加權(quán)的多層LSTM模型進行情感分類任務(wù),在ENTERFACE[79]和IEMOCAP[80]兩個數(shù)據(jù)集上的UAR(Unweighted Average Recall)指標(biāo)分別比Luong等人[81]提出的Attention-Seq2Seq模型提升2%和1%。

綜合不同模態(tài)技術(shù)的研究進展,2014年由Malinowski等人[82]率先提出構(gòu)建基于視覺信息的問答系統(tǒng)(VQA)設(shè)想,VQA不僅需要利用算法識別出圖像/視頻中的物體對象,還需要根據(jù)用戶的提問結(jié)合圖像/視頻進行反饋。Jiang等人[83-84]提出了Pythia模型,并選取圖像中物體相關(guān)的若干候選框,利用問題表示來為候選框計算權(quán)值,確定與問題相關(guān)的目標(biāo)對象。在VQA 2.0數(shù)據(jù)集上,Pythia v 0.1[83]版本達(dá)到了68.49%[85]的準(zhǔn)確率,v 0.3[84]版本則達(dá)到了68.71%[85],并獲得了2018年VQA Challenge的最佳模型。同時,圖像中的文本常常包含多種有用線索,雖然大量的工作從圖片中抽取其中的文本語義信息[86-87],但鮮有研究抽取圖像文本特征輔助問答系統(tǒng)的工作。Singh等人[85]在構(gòu)建TextVQA數(shù)據(jù)集的基礎(chǔ)上提出了LoRRA模型,模型利用Pythia v 0.3[84]和LoRRA兩種方法相結(jié)合的策略在VQA 2.0數(shù)據(jù)集上的準(zhǔn)確率為69.21%,比單純的Pythia v 0.3[84]高出0.5%;而在TextVQA數(shù)據(jù)集上的準(zhǔn)確率則達(dá)到了27.63%,比Pythia v 0.3[84]算法的測試結(jié)果高出13.63%。而在音頻、視頻結(jié)合領(lǐng)域,Alamri等人[88]構(gòu)建了基于視頻和音頻數(shù)據(jù)的數(shù)據(jù)集,如QA和AVSD,為結(jié)合視頻和音頻的問答系統(tǒng)提供研究數(shù)據(jù)。Yeh等人[89]于2019年提出了音頻-視覺QA模型,融合了視覺與音頻信息,該模型將視頻,音頻,以及問題、對話記錄、描述信息分別利用RNN結(jié)構(gòu)編碼,在多個階段融合特征和注意力,來更好地集成多模態(tài)特征,測試結(jié)果較Alamri等人[88]的基線在BLEU-4、ROUGE-L指標(biāo)上分別高出0.006和0.023。除此之外,Matsuda等人[70]提出了USI 模型,利用智能設(shè)備收集身體反應(yīng)特征(如頭部運動、眼動、心跳等),來估算在旅行領(lǐng)域用戶的多維身體反應(yīng)與用戶滿意度之間的關(guān)系,并發(fā)現(xiàn)眼動特征最能體驗用戶的滿意程度,相關(guān)程度高達(dá)36%。

4.2 基于個性化的對話內(nèi)容生成

根據(jù)個性化信息的來源不同,基于個性化的對話內(nèi)容生成可以分為基于情感的對話生成和基于用戶個人信息的對話生成兩大類。Zhou等人[90]率先將情感因素引入對話中,提出了ECM模型。該模型利用emotion embedding來深度刻畫情感表示,并利用外部情感詞匯來豐富回復(fù)內(nèi)容。在其收集的ESTC數(shù)據(jù)集下,其情感匹配的準(zhǔn)確率達(dá)到77.3%,BLEU指標(biāo)則達(dá)到1.68,情感識別性能 (Emotion-a)達(dá)到0.810,在生成的回復(fù)中包含相應(yīng)情感詞匯的比例(Emotion-w)則為0.687。Song等人[91]則提出了EmoDS模型,利用了情感分類器對情感表達(dá)的強度來隱式提供情感生成的全局指導(dǎo),并通過基于詞匯的注意力來顯式地在系統(tǒng)回復(fù)中加入情感詞匯。該模型與ECM相比在BLEU/Emotion-a/Emotion-w三個數(shù)據(jù)集上分別提高了0.05/0.45/0.107。Colombo等人[92]則基于ECM的思想將情感通過向量進行表示,并提出利用情感調(diào)節(jié)器對中性詞進行懲罰,計算時強制令模型生成與情感相關(guān)的一系列單詞,最后在生成的過程中利用Re-rank機制來優(yōu)化模型對情感相關(guān)詞的響應(yīng)。該模型在Cornell數(shù)據(jù)集[93]上的測試結(jié)果顯示,無Re-rank機制時,在distinct-1/distinct-2/BLEU三個指標(biāo)上分別為0.034 2/0.153 0和0.010 8,分別高出ECM模型12.1%/9.1%和12.5%。加上Re-rank機制后,模型比相應(yīng)的Baseline[94]在三個指標(biāo)上則分別高出7.1%,37.8%和7.7%,達(dá)到了0.040 6/0.203 0和0.014 0。而Lubis等人[95]基于Seq2Seq結(jié)構(gòu)加入了情感編碼器來保證語句生成時的情感極性和情感一致性,構(gòu)建了一個基于同理心的Emo-HRED對話模型,在DailyDialog[96]數(shù)據(jù)集中的內(nèi)容和同理心通過人工評分的均值為1.26和0.91。Li等人[97]針對細(xì)粒度的情感感知,將用戶反饋作為后驗信號,基于對抗生成網(wǎng)絡(luò)思想提出了EmpGAN模型,提高了模型的內(nèi)容質(zhì)量和同理分析能力,并在DailyDialog數(shù)據(jù)集下兩個指標(biāo)的分?jǐn)?shù)均值分別為1.33和1.08,略高于Emo-HRED模型。

另一方面,針對基于用戶個人信息的個性化對話生成,Joshi等人[98]提出了針對任務(wù)型對話系統(tǒng)的個性化功能集成的數(shù)據(jù)集Personalized bAbI。圍繞該數(shù)據(jù)集可進一步分為以下五個任務(wù):對話系統(tǒng)中對用戶缺失信息的詢問和查詢(Issuing API Calls)、用戶請求更新時的系統(tǒng)響應(yīng)(UpdatingAPI Calls)、用戶請求查詢和對話狀態(tài)的記錄(Displaying Options)、根據(jù)用戶信息在備選方案中的選擇推斷(Providing Information),以及上述四個任務(wù)的集合(Full Dialogue)。Luo等人[99]針對該數(shù)據(jù)集的存儲記憶網(wǎng)絡(luò)提出了一個端到端的個性化任務(wù)型對話模型Personalized MemN2N,并在bAbI數(shù)據(jù)集上的五個任務(wù)中每輪回復(fù)的準(zhǔn)確率為99.91%、99.94%、71.43%、81.56%和95.33%。Zhang等人[100]在MemN2N基礎(chǔ)上,進一步將Mem2Seq模型與門控機制相結(jié)合,并將用戶個性化信息表示與對話歷史相結(jié)合,提出了Personalized Gated-Mem2Seq模型,該模型在Personalized bAbI數(shù)據(jù)集中五個任務(wù)上的每輪回復(fù)準(zhǔn)確率分別達(dá)到100%、78.94%、91.83%、87.26%和97.98%。

綜上,針對多模態(tài)條件下的內(nèi)容個性化生成這一問題,目前還存在許多關(guān)鍵問題有待進一步解決。例如,基于多模態(tài)的情感識別以及蘊含情感的個性化對話等問題,如何通過多模態(tài)特征的有效融合,來構(gòu)造出一個可以聽、說、看、共情的個性化對話系統(tǒng)將成為未來重要的研究方向。另外,由于基于多模態(tài)的內(nèi)容個性化生成的問題橫跨多個領(lǐng)域、并且其參數(shù)的構(gòu)成復(fù)雜,因此,如何設(shè)計一個滿足在多可用場景下,構(gòu)造基于多模態(tài)個性化生成的帶標(biāo)注數(shù)據(jù)集,以及設(shè)定相關(guān)的評價標(biāo)準(zhǔn),也是迫切需要開展的一項重要研究任務(wù)。

5 總結(jié)

隨著新技術(shù)和新需求的不斷涌現(xiàn),任務(wù)型對話系統(tǒng)正在向著復(fù)雜環(huán)境與場景的適應(yīng)性以及內(nèi)容生成的多樣化與個性化方向發(fā)展,本文在對目前任務(wù)型的智能對話系統(tǒng)進行分析的基礎(chǔ)上,圍繞著復(fù)雜業(yè)務(wù)場景下基于自然語言的用戶意圖識別、訓(xùn)練數(shù)據(jù)的標(biāo)注依賴和知識庫結(jié)合,以及多模態(tài)條件下對話內(nèi)容的個性化生成這三個核心挑戰(zhàn)與問題展開了深入研究、進展分析與綜述,從而促進了人機交互過程中用戶意圖的精確識別與對話內(nèi)容的智能化且個性化的生成,為開發(fā)更強大的下一代任務(wù)型對話系統(tǒng)提供借鑒和幫助。

除了上述的核心問題,還存在一些值得進一步思考和研究的問題,其中主要包括:

(1)基于任務(wù)型對話系統(tǒng)構(gòu)建新的基礎(chǔ)訓(xùn)練數(shù)據(jù)集:數(shù)據(jù)以及數(shù)據(jù)標(biāo)注質(zhì)量對算法的性能影響巨大,尤其是在不同主題的實際場景中,語言風(fēng)格與特征的個性化,也迫切需要建立類似于FI[70]的基礎(chǔ)語料資源庫來改進模型的預(yù)訓(xùn)練模型的質(zhì)量,這會極大地促進對話學(xué)習(xí)與內(nèi)容生成的質(zhì)量。

(2)提出更好的任務(wù)型對話系統(tǒng)的評判指標(biāo):一般地,這些評判指標(biāo)主要可以分為兩類:一是對于實體、關(guān)系等要素能否成功檢測并響應(yīng)的指標(biāo),如EntityF1,Per-Dialogue Acc[3]等指標(biāo),二是對生成的對話內(nèi)容的通順性與可讀性的評價指標(biāo),例如BLEU等,但在實際的任務(wù)型對話系統(tǒng)的質(zhì)量評測方面遠(yuǎn)比上述指標(biāo)評測復(fù)雜,這也導(dǎo)致目前對話系統(tǒng)與實際需要之間存在明顯的差異。因此,如何提出一個有效的針對任務(wù)型對話系統(tǒng)的判別標(biāo)準(zhǔn),還需要進一步的思考與優(yōu)化。

(3)提高模型的小樣本學(xué)習(xí)能力和遷移能力:面對全新的業(yè)務(wù),由于數(shù)據(jù)樣本的稀缺,也迫切需要為模型提供小樣本的自學(xué)習(xí)能力以及跨主題、跨模態(tài)、跨語言的遷移學(xué)習(xí)能力。這些工作將會成為下一代任務(wù)型對話系統(tǒng)的優(yōu)化方向,值得進一步深入研究。

猜你喜歡
集上知識庫意圖
原始意圖、對抗主義和非解釋主義
法律方法(2022年2期)2022-10-20 06:42:20
陸游詩寫意圖(國畫)
制定法解釋與立法意圖的反事實檢驗
法律方法(2021年3期)2021-03-16 05:56:58
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
復(fù)扇形指標(biāo)集上的分布混沌
高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
燕山秋意圖
文山县| 宝兴县| 五原县| 武邑县| 泸西县| 嵊州市| 金塔县| 全南县| 本溪| 临安市| 东至县| 南乐县| 仪陇县| 青海省| 和平区| 依兰县| 当涂县| 吴江市| 通辽市| 长白| 光山县| 穆棱市| 辽宁省| 平安县| 上虞市| 那曲县| 兴义市| 龙南县| 宜川县| 西华县| 治多县| 德安县| 仁怀市| 通河县| 临沂市| 利川市| 密云县| 东城区| 柯坪县| 延安市| 徐闻县|