国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識(shí)圖譜的多輪對(duì)話技術(shù)研究綜述

2023-04-21 13:10盛勝利奚雪峰
關(guān)鍵詞:三元組后驗(yàn)編碼器

楊 陽,盛勝利,奚雪峰

(1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215009;2.蘇州市虛擬現(xiàn)實(shí)智能交互及應(yīng)用重點(diǎn)實(shí)驗(yàn)室(蘇州科技大學(xué)),江蘇 蘇州 215009;3.數(shù)據(jù)分析實(shí)驗(yàn)室(德州理工大學(xué)),德克薩斯州 拉伯克市 79409)

0 引 言

近年來,隨著自然語言處理技術(shù)和人工智能的蓬勃發(fā)展,從備受關(guān)注的人機(jī)對(duì)戰(zhàn)到貫穿人們?nèi)粘I畹臒o人駕駛、智能家居等,人工智能正在逐漸地改變?nèi)藗兊娜粘I頪1]。例如,通過WIFI等接入方式與一些智能家居設(shè)備相連并進(jìn)行控制操作[2-3]。得益于深度學(xué)習(xí)技術(shù)的不斷完善與發(fā)展,加上使用海量的大數(shù)據(jù)和云計(jì)算的不斷普及,自然語言處理技術(shù)和語音識(shí)別技術(shù)的判斷準(zhǔn)確率得到了明顯的提高。

對(duì)話系統(tǒng)得益于自然語言技術(shù)的不斷成熟,其意在能夠精準(zhǔn)猜測(cè)出用戶的意圖,并且快速準(zhǔn)確地回答問題。當(dāng)然對(duì)話不可能只是一問一答,現(xiàn)實(shí)中對(duì)話一定是多問多答,并且是連貫的、合乎邏輯的。然而目前多輪對(duì)話仍然存在諸多問題,例如缺乏相對(duì)應(yīng)的知識(shí)推理能力,多輪對(duì)話的能力。在實(shí)際的人機(jī)對(duì)話過程中,必須進(jìn)行多方考慮,目前部分機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用案例以及相關(guān)的技術(shù)研究還僅僅處在一個(gè)“低級(jí)智能”階段,為了使機(jī)器的回復(fù)更精準(zhǔn)、更高效、更有趣,從“低級(jí)智能”向“高級(jí)智能”階段進(jìn)一步發(fā)展,因此許多研究人員努力將知識(shí)圖譜技術(shù)應(yīng)用到多輪對(duì)話中?;谥R(shí)圖譜的多輪對(duì)話是結(jié)合實(shí)體和實(shí)體間的關(guān)系,將知識(shí)三元組和原始對(duì)話上下文數(shù)據(jù)融合在一起,更好地實(shí)現(xiàn)多輪對(duì)話。

1 問題定義

根據(jù)當(dāng)前的應(yīng)用場(chǎng)景(包括開放域和特定域),目前的對(duì)話系統(tǒng)主要分為單輪對(duì)話系統(tǒng)和多輪對(duì)話系統(tǒng)。

單輪對(duì)話的定義公式為:γ=g(q);

多輪對(duì)話的定義公式為:γ=g(q|c)。

以上公式中,q表示查詢語句;γ表示答復(fù)語句;c表示歷史上下文對(duì)話信息;g(*)表示從查詢語句中對(duì)應(yīng)答復(fù)的數(shù)據(jù)庫中經(jīng)過篩選匹配后給出最合適數(shù)據(jù)的結(jié)果。

2 多輪對(duì)話中使用的相關(guān)技術(shù)

隨著自然語言處理技術(shù)的不斷成熟與發(fā)展,當(dāng)前對(duì)自然語言處理的研究側(cè)重點(diǎn)已經(jīng)轉(zhuǎn)移到深度學(xué)習(xí),深度學(xué)習(xí)是加深了層的深度神經(jīng)網(wǎng)絡(luò),是研究人員模仿人類大腦的工作運(yùn)轉(zhuǎn)模式,通過計(jì)算模擬出人工神經(jīng)元以此來組成人工神經(jīng)網(wǎng)絡(luò),解決一系列復(fù)雜問題。多輪對(duì)話中的主要技術(shù)有詞向量技術(shù)、知識(shí)圖譜等。

2.1 詞向量技術(shù)

詞向量技術(shù)為人類自然語言和計(jì)算機(jī)語言處理提供了一座橋梁,讓原本零散的、孤立的、稀疏的詞序列演變成為密集的語義向量,為人工神經(jīng)網(wǎng)絡(luò)更好地理解人類自然語言提供了有力的保障?,F(xiàn)實(shí)中自然語言符號(hào)往往采用高維度向量表示,為了方便計(jì)算機(jī)讀取和處理數(shù)據(jù),需要采用相對(duì)應(yīng)的技術(shù)手段將這些零散的文字進(jìn)行向量化,即轉(zhuǎn)為詞向量。目前采用的方法主要有One-Hot編碼和詞的分布式表達(dá)法。

One-Hot編碼主要采用的是將文章中所有出現(xiàn)的詞匯融合成一個(gè)字典,其目的是為每一個(gè)字典中出現(xiàn)的詞設(shè)定一定的維度并確定為詞向量。該向量的要求為詞對(duì)應(yīng)的位置上為“1”,即每一個(gè)詞在指定的并相同的部分為1,其他部分均為0。例如,在一個(gè)包含10 000個(gè)詞的詞典,該詞典里包含了所有的交通工具,例如“高鐵”“地鐵”,那么這兩個(gè)詞可以表示為:“高鐵”:[0,0,0,0,0,0,0,1,0,0],“地鐵”:[0,0,0,1,0,0,0,0,0,0]。但由于自然語言字詞符號(hào)等數(shù)量龐大,因此相應(yīng)的詞表也會(huì)非常大,從而造成了資源的極大浪費(fèi)。

鑒于One-Hot編碼的缺點(diǎn)及其發(fā)展的局限性,研究人員在表示詞向量的維度上做出了很多改進(jìn)。詞的分布式表達(dá)法是目前廣泛用于自然語言處理(Natural Language Processing,NLP)任務(wù)中的一種新范式。該方法最初在1986年由David E Rumelhart、Geoffrey E Hintont、Ronald J Williams提出,它克服了One-Hot編碼的缺點(diǎn),并具有很多優(yōu)勢(shì)。其旨在以固定長(zhǎng)度、連續(xù)和密集的特征向量來表示單詞。此外,Mikolov等人[4-5]提出了一種使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)分布式詞向量表示(Word2Vec)的模型架構(gòu),這種技術(shù)目前主要用于自然語言技術(shù)中捕捉語義和語法之間的關(guān)系。其他的分布式單詞表示法有語義分析法[6]和潛在Dirichlet分配法[7]。

2.2 知識(shí)圖譜技術(shù)

由于在多輪對(duì)話過程中,多輪對(duì)話需要深度結(jié)合歷史對(duì)話信息,確保對(duì)話上下文具有連貫性,針對(duì)提問者提出來的問題,從答復(fù)語料庫中選取匹配相似度最相關(guān)的回復(fù)。為了解決開放域多輪對(duì)話中存在的問題,研究人員建議將有關(guān)對(duì)話的先驗(yàn)信息表示為圖,旨在建立更加連貫的對(duì)話?;谥R(shí)圖譜[8]的多輪對(duì)話是給定與當(dāng)前對(duì)話相關(guān)的知識(shí)三元組,以當(dāng)前用戶語句和對(duì)話歷史信息作為輸入,以合適的回答作為輸出。

在基于知識(shí)圖譜的多輪對(duì)話中,其主要采用的是End-to-end[9]的生成模型來構(gòu)建系統(tǒng)模型。在系統(tǒng)建模時(shí),主要工作為對(duì)知識(shí)圖譜、歷史對(duì)話和用戶當(dāng)前語句進(jìn)行建模,與此同時(shí)針對(duì)這三個(gè)部分的建模信息進(jìn)行相對(duì)應(yīng)的解碼,以產(chǎn)生相對(duì)應(yīng)的回復(fù)。

知識(shí)圖譜的技術(shù)架構(gòu)如圖1所示。

圖1 知識(shí)圖譜的技術(shù)架構(gòu)

3 基于知識(shí)圖譜的多輪對(duì)話模型

3.1 預(yù)訓(xùn)練模型

深度上下文語言模型(Deep Context Model,DCM)被證明在語言表達(dá)方面是有效的,在一系列的自然語言處理模型中取得了最先進(jìn)的結(jié)果。例如語言模型嵌入[10]、廣義自回歸預(yù)訓(xùn)練[11]、魯棒優(yōu)化伯特預(yù)訓(xùn)練方法[12]和AL-BERT[13]。通過提供細(xì)粒度的上下文信息,這些預(yù)訓(xùn)練的模型既可以作為編碼器輕松應(yīng)用于下游模型,也可以用于微調(diào),這些DCM在表示特定領(lǐng)域語料庫中的上下文化信息方面仍然受到限制,因?yàn)樗鼈兺ǔT谕ㄓ玫恼Z料庫中進(jìn)行訓(xùn)練[14-15]。

3.2 多輪對(duì)話建模

開發(fā)對(duì)話系統(tǒng)意味著訓(xùn)練機(jī)器使用自然語言與人類對(duì)話。目前已經(jīng)設(shè)計(jì)了許多對(duì)話系統(tǒng),主要分為兩種類型的架構(gòu):一種連接所有上下文語句[16-18],另一種分離并聚合上下文語句[19-24]。

3.3 基線模型

3.3.1 基于后驗(yàn)生成的模型

Liu等人[25]在2017年提出了采用先驗(yàn)分布來逼近后驗(yàn)分布的方法,其原理為從候選的知識(shí)圖譜庫中選擇出最合適的知識(shí)三元組,生成相對(duì)應(yīng)的回復(fù)語句。先驗(yàn)分布是根據(jù)用戶的提問來選擇知識(shí),后驗(yàn)概率主要是根據(jù)回復(fù)和用戶輸入選擇知識(shí)。模型由四個(gè)部分組成,包含上下文編碼器、知識(shí)編碼器、知識(shí)管理器和解碼器。上下文編碼器是將用戶當(dāng)前語句和歷史對(duì)話信息作為輸入,記為I,輸出的為上下文向量,記為i。知識(shí)編碼器是與當(dāng)前產(chǎn)生的所有對(duì)話產(chǎn)生的知識(shí)圖譜和產(chǎn)生的回復(fù)作為輸入,最終輸出結(jié)果為每一個(gè)知識(shí)的三元組向量和回復(fù)向量。知識(shí)管理器是以上下文編碼器和知識(shí)編碼器的輸出結(jié)果作為輸入,輸出經(jīng)過大量篩選后的知識(shí)向量。同理,解碼器是以上下文編碼器和知識(shí)管理器的輸出結(jié)果作為輸入,最后生成回復(fù)。

3.3.2 基于注意力機(jī)制的后驗(yàn)生成的模型

Bahdanau等人[26]在2014年在機(jī)器翻譯任務(wù)中引入注意力機(jī)制,大幅度地提升了機(jī)器翻譯的性能。于是后期研究人員將注意力機(jī)制廣泛應(yīng)用于自然語言處理的各個(gè)領(lǐng)域。在基于序列到序列的生成任務(wù)中,可以根據(jù)當(dāng)前解碼狀態(tài)去選擇最相關(guān)的原始端信息,來提升解碼效果,同時(shí)該方法也符合人類思考的思維習(xí)慣:關(guān)注重點(diǎn)信息,選擇性忽視不重要的信息??梢詫⒆⒁饬C(jī)制分為三個(gè)部分,分別為查詢語句q,鍵項(xiàng)k={k1,k2,…,kn},值項(xiàng)v={v1,v2,…,vn},注意力機(jī)制的計(jì)算公式如公式1~公式3所示。

ei=score(q,ki)

(1)

(2)

(3)

目前注意力機(jī)制采取的得分函數(shù)有若干種計(jì)算方式。Luong等[27]研究人員提出了三種注意力機(jī)制計(jì)算方法,如公式4所示。

(4)

其中,dot計(jì)算公式中要求有相同維度的q和ki,而general計(jì)算公式主要通過可變參數(shù)Wa使得q和ki的維度保持不同,concat的計(jì)算方式主要采用的是將q和ki拼接聯(lián)系起來,通過使用一個(gè)單層感知機(jī)和可變參數(shù)Va計(jì)算得出最后的分?jǐn)?shù)。Vaswani等[28]研究人員提出一種新的計(jì)算手段-放縮點(diǎn)積,計(jì)算公式如公式5所示。

(5)

可以清楚地發(fā)現(xiàn):基于后驗(yàn)生成的模型和基于注意力機(jī)制的后驗(yàn)生成的模型無明顯差別,其唯一存在的區(qū)別就是在解碼時(shí)加入注意力機(jī)制這一手段。使用解碼時(shí)上一時(shí)刻狀態(tài)st-1以及上下文編碼器中的hi使用注意力機(jī)制可以得到的結(jié)果為ct,然后根據(jù)ct以及知識(shí)管理器的輸出k和st-1,結(jié)果產(chǎn)生下一時(shí)刻的解碼狀態(tài)st,最后判斷當(dāng)前時(shí)刻解碼狀態(tài)st以及上下文向量x輸出當(dāng)前時(shí)刻解碼單詞,計(jì)算過程如公式6~公式10所示。

(6)

(7)

(8)

(9)

Yt=softmax(st,x)

(10)

3.4 層次上下文建模的后驗(yàn)生成模型

3.4.1 基于層次上下文建模的后驗(yàn)生成模型

上述討論的基于后驗(yàn)生成基線模型中,將歷史對(duì)話上下文信息拼接成一句話,最后對(duì)拼接的句子建模。但是存在的問題是:上下文信息不可能是單獨(dú)的一句話,一般是由多句話組成。并且拼接的句子語句長(zhǎng)度較長(zhǎng),這種建模方式會(huì)產(chǎn)生歷史上下文對(duì)話中最前面的幾句話被忽略,導(dǎo)致上下文信息缺失,向量信息不充分。為了解決此問題,研究人員采用了層次上下文建模方式。其主要原理為:先使用一個(gè)編碼器建模上下文中每一句話的信息,再使用另一個(gè)編碼器建模所有的句子信息,最后生成上下文信息??梢园l(fā)現(xiàn):基于層次上下文建模的后驗(yàn)生成的模型和基于后驗(yàn)生成的模型無明顯差別,各模塊基本相同,其唯一存在的區(qū)別就是編碼器不同。一個(gè)雙向的門控循環(huán)單元(Gate Recurrent Unit,GRU)和一個(gè)單向的GRU組合構(gòu)成基于層次上下文建模的后驗(yàn)生成的模型的編碼器。例如給定上下文X={u1,u2,…,un},其中ui表示上下文X中的第i句話;Ui={wi1,wi2,…,win},其中win表示Ui中的第j個(gè)詞。Utterance Encoder是一個(gè)雙向GRU,主要功能是將歷史對(duì)話上下文中每一句話{u1,u2,…,un}編碼形成句子向量{u1,u2,…,un}。Context Encoder是一個(gè)GRU,主要功能是將句子向量編碼成上下文向量x,計(jì)算步驟如公式11~公式12所示。

(11)

x=sn=GRU(un,sn-1)

(12)

3.4.2 融合層次上下文建模和注意力機(jī)制的后驗(yàn)生成模型

在多輪對(duì)話系統(tǒng)中,解碼需要充分考慮上下文信息。即解碼每一個(gè)詞時(shí),需要提前判斷歷史對(duì)話中哪些話需要考慮進(jìn)來,并且是重要的。其次,需要充分考慮歷史對(duì)話中哪些詞對(duì)解碼的意義至關(guān)重要。融合層次上下文建模和注意力機(jī)制的后驗(yàn)生成模型和基于層次上下文建模的后驗(yàn)生成模型無明顯差別,其唯一存在的區(qū)別在于上下文編碼器和注意力使用機(jī)制有所不同。

上下文編碼器主要采用層次上下文方法進(jìn)行建模,其模型結(jié)構(gòu)和基于層次上下文建模的后驗(yàn)生成模型的上下文編碼器大體相同。需要注意的是,模型中不僅將注意力機(jī)制用于Utterance Encoder的輸出,而且也將該技術(shù)運(yùn)用于Context Encoder的輸出。Utterance Encoder的輸出表示為輸出每個(gè)詞的狀態(tài),將其定義為詞級(jí)別的注意力機(jī)制(Word Attention)。Context Encoder的輸出表示為上下文中每句話的狀態(tài),將其定義為句子級(jí)別的注意力機(jī)制(Sentence Attention)。在使用中需要注意詞級(jí)別的注意力機(jī)制和句子級(jí)別的注意力機(jī)制的相同之處以及不同之處,并做好區(qū)分。例如,給定上下文X={u1,u2,…,un},Utterance Encoder的功能是將歷史對(duì)話中每一句話Ui編碼生成詞向量Hi={hi1,hi2,…,hin}和對(duì)應(yīng)句子向量ui,ui計(jì)算公式如公式11所示。Context Encoder的功能是將句子向量C={c1,c2,…,cn}編碼生成{s1,s2,…,sn}。在解碼時(shí)使用上一時(shí)刻狀態(tài)st-1并分別對(duì)所有的詞向量和句子向量使用注意力機(jī)制,最后得到的結(jié)果為ct,計(jì)算步驟如公式13~公式15所示。

ct1=Attention(st,H)

(13)

ct2=Attention(st,C)

(14)

ct=MLP([ct1;ct2])

(15)

3.5 基于TransD后驗(yàn)生成模型

在基于知識(shí)圖譜的多輪對(duì)話中,需要將知識(shí)圖譜建模并且融入到多輪對(duì)話系統(tǒng)中?;谧⒁饬C(jī)制的后驗(yàn)生成的模型的主要原理為將歷史對(duì)話中與當(dāng)前對(duì)話相關(guān)的知識(shí)三元組相互連接組成一句話,然后將連接后的知識(shí)圖譜使用雙向GRU進(jìn)行建模。該建模方式存在的缺點(diǎn)為沒有充分利用實(shí)體間的關(guān)系,導(dǎo)致知識(shí)圖譜的建模信息不完整。為了解決該問題,研究人員引入知識(shí)表示學(xué)習(xí),在知識(shí)圖譜量化時(shí),也充分考慮了各個(gè)實(shí)體和關(guān)系之間的語義關(guān)系。

知識(shí)圖譜主要包含實(shí)體及其對(duì)應(yīng)關(guān)系的圖結(jié)構(gòu)網(wǎng)絡(luò),圖中的每一條邊都表示為一個(gè)知識(shí)三元組,即頭實(shí)體、關(guān)系和尾實(shí)體。兩個(gè)實(shí)體之間通過特定的關(guān)系相連,每個(gè)實(shí)體可以和若干個(gè)實(shí)體相連,每個(gè)關(guān)系也可以出現(xiàn)在若干個(gè)不同的三元組中。Bordes等人[29]最早提出了TransE模型,其主要采用的方法是將實(shí)體和關(guān)系映射到向量空間。同時(shí)研究人員借鑒word2vec的平移不變性的特性,可以將知識(shí)圖譜中的關(guān)系看作是實(shí)體間的某種平移不變量。即針對(duì)一個(gè)已經(jīng)建立好的知識(shí)圖譜三元組(h,r,t),其中h表示頭實(shí)體,r表示關(guān)系,(h,r,t)表示尾實(shí)體,TransE的作用原理主要是將每個(gè)三元組(h,r,t)映射到向量空間,使得h+r的值和t盡可能靠近,如圖2所示。

圖2 TransE模型

同時(shí)在TransE模型訓(xùn)練過程中,可以構(gòu)造出大量的負(fù)樣本,要求負(fù)樣本中的h'+r'和t'盡可能背離。具體損失函數(shù)公式如公式16所示:

(16)

TransE模型中參數(shù)較少,計(jì)算復(fù)雜程度低,可以很好解決一對(duì)一的問題,但是無法解決一對(duì)多和多對(duì)一的問題。為了解決該問題,Wang等人[30]提出TransH模型,TransH主要原理為針對(duì)每一組關(guān)系都定義一個(gè)超平面Wr和關(guān)系向量dr,主要采用的方法為將頭實(shí)體和尾實(shí)體通過超平面映射到關(guān)系平面上,這樣可以將關(guān)系平面中頭實(shí)體向量加關(guān)系向量接近于尾實(shí)體向量,如公式17所示。

(17)

TransH使得不同的實(shí)體在不同的關(guān)系中可以用不同的向量來表示,同時(shí)也可以使得不同的實(shí)體在同一關(guān)系中,使用關(guān)系向量的映射,得到不同的向量表示,如圖3所示。因此TransH相對(duì)于TransE,可以很好地解決一對(duì)多和多對(duì)一的情況。

TransE和TransH的應(yīng)用場(chǎng)景均為假設(shè)實(shí)體和關(guān)系運(yùn)用于同一向量空間中,但是實(shí)體和關(guān)系表示為不同的對(duì)象,可能運(yùn)用于不同的向量空間中,這就會(huì)導(dǎo)致在不同的向量空間中無法表示的可能性。為了解決該問題,Lin等人[31]提出TransR模型。TransR主要原理為一個(gè)實(shí)體可以包含多種屬性,不同的關(guān)系需要考慮實(shí)體屬性也不同,因此不同的關(guān)系對(duì)應(yīng)映射到不同的語義空間。在TransR模型中,實(shí)體和關(guān)系均有不同的向量維度,針對(duì)每一個(gè)關(guān)系都定義一個(gè)語義空間Mr,它采用的是將實(shí)體映射到關(guān)系空間。然后在關(guān)系空間內(nèi),使頭實(shí)體加關(guān)系盡可能接近尾實(shí)體,如公式18~公式19所示。

hr≡hMr,tr≡tMr

(18)

fr(h,t)≡hr+r-tr

(19)

在TransE、TransH和TransR模型中,都是假設(shè)每種模型中每種關(guān)系僅有一層含義,但是同一種關(guān)系可能存在多層含義。例如,relationship可以表示人和某個(gè)團(tuán)體之間的關(guān)系,也可以表示人和某個(gè)國(guó)家之間的關(guān)系。在TransR模型(見圖4)中,針對(duì)同一個(gè)關(guān)系,頭實(shí)體和尾實(shí)體可共享同一投影矩陣,但頭實(shí)體和尾實(shí)體所包含的對(duì)應(yīng)屬性可能存在明顯的差異。為了解決該問題,Ji等人[32]提出TransD模型,TransD主要原理基于動(dòng)態(tài)矩陣生成,對(duì)應(yīng)的生成映射矩陣由實(shí)體向量和關(guān)系向量?jī)刹糠纸M成。這樣生成的優(yōu)勢(shì)為在同一種關(guān)系下在不同的頭實(shí)體和尾實(shí)體所對(duì)應(yīng)的映射矩陣完全獨(dú)立且都不相同,如公式20~公式22所示。對(duì)于每一個(gè)三元組(h,r,t)都分別對(duì)應(yīng)于兩個(gè)向量,即h,hp,r,rp,t,tp,一個(gè)可以用來表示它們的具體含義,另一個(gè)用于構(gòu)造出相對(duì)應(yīng)的映射矩陣,I表示單位矩陣。TransD模型中映射矩陣包含實(shí)體向量和關(guān)系向量,因此大幅度提高了TransD計(jì)算復(fù)雜度,并遠(yuǎn)小于TransR。

圖4 TransR模型

(20)

h⊥=Mrhh,t⊥=Mrtt

(21)

fr(h,t)=h⊥-t⊥

(22)

與TransE、TransH和TransR相比,TransD(見圖5)計(jì)算復(fù)雜度小,模型優(yōu)化效果明顯?;赥ransD后驗(yàn)生成模型與基于注意力機(jī)制的后驗(yàn)生成模型相比,其主要區(qū)別在于知識(shí)編碼器不同以及編碼器數(shù)量有所不同。

圖5 TransD模型

使用TransD模型將所有的知識(shí)圖譜向量化,即針對(duì)每一個(gè)知識(shí)三元組Ki={hi,ri,ti},將頭實(shí)體向量hi、關(guān)系向量ri和尾實(shí)體向量ti進(jìn)行相連,最后經(jīng)過全連接層生成ki,其計(jì)算公式如公式23所示。

ki=FUN([hi,ri,ti])

(23)

4 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

4.1 數(shù)據(jù)集介紹

DuConv數(shù)據(jù)集于2019年由Wu等人[33]在ACL2019[34]首次公開,主要涵蓋內(nèi)容為基于知識(shí)圖譜的多輪對(duì)話數(shù)據(jù)集。Ubuntu數(shù)據(jù)集在2015年由Lowe等人首次公開,主要涵蓋內(nèi)容為一個(gè)大規(guī)模開放域下對(duì)話生成的數(shù)據(jù)集,其廣泛用于對(duì)話生成任務(wù)中[35-36]。Cui等人[37]于ACL2020發(fā)表了多輪對(duì)話與推理的數(shù)據(jù)集MuTual, 針對(duì)性強(qiáng)地用于評(píng)價(jià)模型在多輪對(duì)話過程中的邏輯與推理能力。

4.2 評(píng)價(jià)標(biāo)準(zhǔn)

針對(duì)基于知識(shí)圖譜的多輪對(duì)話的實(shí)驗(yàn)結(jié)果,研究者主要采用以下兩個(gè)客觀指標(biāo)進(jìn)行評(píng)價(jià)。

(1)平均對(duì)話輪數(shù)。對(duì)話輪數(shù)指的是從語句輸入到最終對(duì)話結(jié)束一共持續(xù)的對(duì)話輪數(shù)。當(dāng)對(duì)話中出現(xiàn)類似于“嗯嗯”“好的”等這些人為實(shí)現(xiàn)定義的回復(fù)或者對(duì)話一直是重復(fù)的無效的,系統(tǒng)則默認(rèn)對(duì)話過程已經(jīng)結(jié)束。

(2)多樣性。采用統(tǒng)計(jì)方法模擬在對(duì)話過程中產(chǎn)生出來的各種互相不重疊關(guān)系的一元文法(unigram)和二元文法(bigram)之間所約占比例的百分比,以進(jìn)一步反映對(duì)話結(jié)果產(chǎn)生的復(fù)雜性。一元文法與二元文法都是語言模型理論中重要的概念,這種指標(biāo)通常可以用來判斷表示出其最終的輸出結(jié)果的語言模型豐富程度的程度。由于多輪對(duì)話回答問題的特殊性,其回答結(jié)果也不存在絕對(duì)唯一性,故也可以同時(shí)出現(xiàn)一個(gè)問題或出現(xiàn)多個(gè)回答。因此,傳統(tǒng)的BLUE等傳統(tǒng)評(píng)價(jià)方式也不適用于針對(duì)多輪值對(duì)話結(jié)果進(jìn)行的評(píng)價(jià)。

5 結(jié)束語

對(duì)話系統(tǒng)是自然語言處理以及人工智能領(lǐng)域研究的一個(gè)重要領(lǐng)域,并且得到了廣泛的商用。基于知識(shí)圖譜的多輪對(duì)話技術(shù)是結(jié)合實(shí)體和實(shí)體間的關(guān)系,將知識(shí)三元組和原始對(duì)話上下文數(shù)據(jù)融合在一起,更好地實(shí)現(xiàn)多輪對(duì)話。研究人員多次運(yùn)用并證明了將知識(shí)圖譜融入到多輪對(duì)話中對(duì)多輪對(duì)話技術(shù)的發(fā)展是有幫助的并且效果是非常顯著的。然而目前的研究進(jìn)展存在諸多挑戰(zhàn),例如針對(duì)開放域的信息抽取,主要包括實(shí)體抽取、關(guān)系抽取以及屬性抽取這三個(gè)問題。其中,多種語言文本信息、開放域下非結(jié)構(gòu)化純文本信息抽取等問題是當(dāng)前面臨的重要挑戰(zhàn)之一。知識(shí)圖譜的重要性不僅是一項(xiàng)技術(shù),更加推動(dòng)了自然語言處理和深度學(xué)習(xí)的發(fā)展。文章希望更多的研究者能夠參與并且投入到這份研究工作中。

猜你喜歡
三元組后驗(yàn)編碼器
特征標(biāo)三元組的本原誘導(dǎo)子
基于對(duì)偶理論的橢圓變分不等式的后驗(yàn)誤差分析(英)
關(guān)于余撓三元組的periodic-模
貝葉斯統(tǒng)計(jì)中單參數(shù)后驗(yàn)分布的精確計(jì)算方法
基于FPGA的同步機(jī)軸角編碼器
一種基于最大后驗(yàn)框架的聚類分析多基線干涉SAR高度重建算法
基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
基于三元組的擴(kuò)頻碼構(gòu)造及其性能分析
多總線式光電編碼器的設(shè)計(jì)與應(yīng)用