高瑋軍,劉健,毛文靜
(蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,蘭州 730050)
對(duì)話摘要旨在將會(huì)話濃縮成一段包含重要信息的簡(jiǎn)短文本,使人們不用回顧歷史對(duì)話就可以快速捕捉到半結(jié)構(gòu)化和多參與者對(duì)話的重點(diǎn)。近年來(lái),隨著移動(dòng)電話、電子郵件和社交軟件的普及,人們?cè)絹?lái)越多地使用對(duì)話形式分享信息,特別是新冠肺炎疫情在全球大范圍的傳播,在線多人聊天或會(huì)議已成為人們?nèi)粘9ぷ鞯闹匾糠?。因此,利用文本摘要技術(shù)快速準(zhǔn)確地將大量的對(duì)話類數(shù)據(jù)組織成簡(jiǎn)短、自然和信息豐富的文本成為研究熱點(diǎn)。
目前,對(duì)話摘要的研究方法通常分為抽取式摘要和生成式摘要。抽取式摘要方法是從給定的源對(duì)話中抽取若干重要的話語(yǔ),并將它們重新組合排序形成摘要[1-2]。這種方法形成的摘要只是重要語(yǔ)句的機(jī)械拼接,語(yǔ)義不連貫,不符合人類的摘要習(xí)慣。而生成式摘要方法是對(duì)原文內(nèi)容進(jìn)行語(yǔ)義理解和重構(gòu),并用新的語(yǔ)句表達(dá)原文信息,從而使生成的結(jié)果更像是人類編寫的摘要[3]。隨著深度學(xué)習(xí)的發(fā)展,生成式摘要方法已經(jīng)成為目前研究的主流。
現(xiàn)有的文本摘要研究大多都集中在單一參與者的文檔上,如新聞以及科學(xué)論文摘要等,這些文檔通常以第三人稱的角度闡述內(nèi)容,通過(guò)段落或章節(jié)使得信息流更清晰。與這些結(jié)構(gòu)化文本不同,對(duì)話是一種動(dòng)態(tài)的信息流交換過(guò)程,通常是非正式的、冗長(zhǎng)的和重復(fù)的,并伴隨著錯(cuò)誤的開始、主題漂移和參與者打斷[4]。為了總結(jié)非結(jié)構(gòu)化和復(fù)雜的對(duì)話,文獻(xiàn)[5]直接將文檔摘要方法應(yīng)用于對(duì)話總結(jié)中。盡管指針生成網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)、預(yù)訓(xùn)練語(yǔ)言模型等在結(jié)構(gòu)化文檔上取得了重大的進(jìn)展,但是文檔和對(duì)話類數(shù)據(jù)存在固有差異,直接應(yīng)用文檔摘要模型來(lái)總結(jié)對(duì)話面臨諸多挑戰(zhàn)。
為解決上述問題,研究人員采用圖結(jié)構(gòu)對(duì)會(huì)話進(jìn)行建模,以打破對(duì)話的順序位置,直接將相關(guān)的遠(yuǎn)距離話語(yǔ)相連接,解決遠(yuǎn)距離依賴問題,并且建模額外的知識(shí)。為此,本文提出一種基于T-HDGN(Topic-word guided Heterogeneous Dialogue Graph Network)模型的對(duì)話摘要生成方法,基于圖到序列的框架通過(guò)圖神經(jīng)網(wǎng)絡(luò)挖掘話語(yǔ)內(nèi)和話語(yǔ)間的語(yǔ)義關(guān)系,在解碼階段融入主題詞引導(dǎo)摘要生成。本文利用從會(huì)話中顯式提取的行動(dòng)三元組(Who,Doing,What)構(gòu)建對(duì)話圖以融入說(shuō)話人與其動(dòng)作之間正確的對(duì)應(yīng)關(guān)系。將行動(dòng)三元組和話語(yǔ)作為異質(zhì)數(shù)據(jù)進(jìn)行建模,從而得到異質(zhì)對(duì)話圖。異質(zhì)圖網(wǎng)絡(luò)可以更有效地融合信息并捕獲句間豐富的語(yǔ)義關(guān)系,從而更好地對(duì)會(huì)話進(jìn)行編碼[6]。此外,在異質(zhì)對(duì)話圖網(wǎng)絡(luò)中使用信息融合模塊和節(jié)點(diǎn)位置嵌入2 個(gè)特殊模塊。信息融合模塊旨在幫助話語(yǔ)節(jié)點(diǎn)更好地聚合說(shuō)話人和行動(dòng)三元組的信息,而位置嵌入模塊使話語(yǔ)節(jié)點(diǎn)能感知其位置信息。
與抽取式摘要方法相比,生成式摘要方法被認(rèn)為更具挑戰(zhàn)性。為此,研究人員設(shè)計(jì)各種方法生成文檔摘要。文獻(xiàn)[7]提出將序列到序列模型用于生成式文本摘要。文獻(xiàn)[8]提出指針生成器網(wǎng)絡(luò),允許從源文本復(fù)制單詞,在解決 OOV(Out Of Vocabulary)問題的同時(shí)又可以避免生成重復(fù)內(nèi)容。文獻(xiàn)[9]利用強(qiáng)化學(xué)習(xí)選擇摘要所需的正確內(nèi)容,該方法被證明可以有效提升生成效果。文獻(xiàn)[10]使用大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型BERT 作為文本上下文編碼器以獲取更多的語(yǔ)義信息,進(jìn)一步提高摘要的生成質(zhì)量。隨著圖變得越來(lái)越普遍,信息更豐富,圖神經(jīng)網(wǎng)絡(luò)受到越來(lái)越多的關(guān)注,特別是它非常適用于在自然語(yǔ)言處理,如序列標(biāo)注[11]、文本分類[12]、文本生成[13]等任務(wù)中表示圖結(jié)構(gòu)。對(duì)于摘要任務(wù),最近也有研究基于圖模型的方法探索文檔摘要,如抽取實(shí)體類型[14],利用知識(shí)圖[15]以及額外的事實(shí)[16]校正模塊。此外,文獻(xiàn)[17]通過(guò)Transformer 編碼器創(chuàng)建1個(gè)完全連接圖,學(xué)習(xí)成對(duì)句子之間的關(guān)系。然而,如何構(gòu)建有效的圖結(jié)構(gòu)以獲取豐富的語(yǔ)義表示來(lái)生成摘要仍然面臨挑戰(zhàn)。
對(duì)話摘要研究主要集中在會(huì)議、閑聊、客戶服務(wù)、醫(yī)療對(duì)話等領(lǐng)域。然而,由于缺乏公開可用的資源,因此在各領(lǐng)域只是進(jìn)行了一些初步工作。早期的研究人員基于模板或使用多句壓縮的方法來(lái)抽取對(duì)話摘要[18],但這些方法很難生成簡(jiǎn)潔自然的摘要,尤其是面對(duì)會(huì)話這種特殊的文本結(jié)構(gòu)。而生成式對(duì)話摘要方法能夠有效解決這些問題。文獻(xiàn)[19]根據(jù)會(huì)議數(shù)據(jù)集AMI 構(gòu)建1 個(gè)新的對(duì)話摘要數(shù)據(jù)集,并通過(guò)句子門控機(jī)制來(lái)聯(lián)合建模交互行為和摘要之間的顯式關(guān)系。文獻(xiàn)[5]提出1 個(gè)新的生成式對(duì)話摘要數(shù)據(jù)集,并且基于序列的模型驗(yàn)證其性能。由于參與者的多重性和頻繁出現(xiàn)的共指現(xiàn)象,因此模型生成的對(duì)話摘要存在事實(shí)不一致的問題。為此,文獻(xiàn)[20]通過(guò)說(shuō)話人感知的自注意力機(jī)制來(lái)處理參與者和他們的相關(guān)人稱代詞之間的復(fù)雜關(guān)系。一些研究還利用對(duì)話分析生成對(duì)話摘要,如利用主題段[21]、會(huì)話階段[22]或關(guān)鍵點(diǎn)序列[23]。
綜上所述,現(xiàn)有的對(duì)話摘要模型主要基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的序列到序列模型進(jìn)行優(yōu)化改進(jìn)。盡管相關(guān)的研究已經(jīng)取得了一定成果,但是對(duì)話具有多參與者以及突出信息分散在整個(gè)會(huì)話中的特點(diǎn),使得摘要模型難以集中在許多信息性的話語(yǔ)上。此外,當(dāng)前模型對(duì)識(shí)別不同說(shuō)話者的行為以及他們?nèi)绾蜗嗷プ饔没蛳嗷ヒ玫年P(guān)注較少,難以將說(shuō)話者及其對(duì)應(yīng)的動(dòng)作聯(lián)系起來(lái),從而產(chǎn)生錯(cuò)誤的推理。為了緩解這些問題,受基于圖方法的啟發(fā),本文基于圖模型的方法進(jìn)一步探索對(duì)話摘要。
對(duì)于給定的會(huì)話C={u0,u1,…,un},將異質(zhì)對(duì)話圖定義為1 個(gè)有向圖G=(V,E,A,R),其中,V是節(jié)點(diǎn)集合,包含3 種節(jié)點(diǎn)V=Vu∪Va∪Vs,E是邊集合。不同類型的節(jié)點(diǎn)和邊分別有各自的類型映射函數(shù),節(jié)點(diǎn)類型的映射函數(shù)為τ(v):V→A,邊類型的映射函數(shù)為φ(e):E→R。
完全依賴神經(jīng)模型很難從對(duì)話中獲得具體的事實(shí)特征,為了幫助模型更好地理解會(huì)話中說(shuō)話人與其行為之間正確的聯(lián)系,本文從會(huì)話中提取行動(dòng)三元組(Who,Doing,What),將其作為先驗(yàn)知識(shí)構(gòu)建對(duì)話圖。
首先,基于以下規(guī)則將第一人稱的話語(yǔ)轉(zhuǎn)換為第三人稱觀點(diǎn)的形式:1)用當(dāng)前說(shuō)話人或周圍說(shuō)話人的名字替換第一或第二人稱代詞;2)根據(jù)斯坦福CoreNLP 檢索會(huì)話中的共指簇以替換第三人稱代詞,例如,Amanda 對(duì)Jerry 說(shuō):“I'll bring it to you tomorrow”被轉(zhuǎn)換為“Amanda'll bring cakes to Jerry tomorrow”。
然后,使用開源信息抽取系統(tǒng)OpenIE 對(duì)轉(zhuǎn)換后的對(duì)話提取行動(dòng)三元組(Who,Doing,What),即主謂賓信息。行動(dòng)三元組如圖1 所示。
圖1 行動(dòng)三元組Fig.1 Action triplets
話語(yǔ)-行動(dòng)圖如圖2 所示,通過(guò)將話語(yǔ)和各行動(dòng)三元組視為不同類型的節(jié)點(diǎn)以構(gòu)建話語(yǔ)-行動(dòng)圖。本文考慮到出現(xiàn)具體事實(shí)特征的話語(yǔ)以及其周圍話語(yǔ)往往是重要話語(yǔ),將抽取出的各行動(dòng)三元組作為行動(dòng)節(jié)點(diǎn),并且將它與出現(xiàn)該具體動(dòng)作的話語(yǔ)以及下一位說(shuō)話人的話語(yǔ)相連接,使得模型關(guān)注重要話語(yǔ)并理解說(shuō)話人與其對(duì)應(yīng)動(dòng)作的正確聯(lián)系。此外,本文將話語(yǔ)和行動(dòng)節(jié)點(diǎn)之間的邊定義為action邊。
圖2 話語(yǔ)-行動(dòng)圖Fig.2 Utterance-action graph
由于會(huì)話包含多個(gè)對(duì)話者以及各自對(duì)應(yīng)的話語(yǔ),因此將對(duì)話者和話語(yǔ)視為不同類型的節(jié)點(diǎn)。將說(shuō)話人與其對(duì)應(yīng)的話語(yǔ)通過(guò)talk 邊進(jìn)行連接。話語(yǔ)-對(duì)話者圖如圖3 所示。
圖3 話語(yǔ)-對(duì)話者圖Fig.3 Utterance-speaker graph
本文綜合上述話語(yǔ)-行動(dòng)圖以及話語(yǔ)-對(duì)話者圖,構(gòu)建最終的異質(zhì)對(duì)話圖。此外,為了促進(jìn)信息流在整個(gè)圖上的傳播,本文添加2 種反向邊rev-action 和rev-talk。異質(zhì)對(duì)話圖具有對(duì)話者、話語(yǔ)和行動(dòng)節(jié)點(diǎn)3種,以及action、talk、rev-action 和rev-talk 4 種類型的邊。異質(zhì)對(duì)話圖如圖4 所示。
圖4 異質(zhì)對(duì)話圖Fig.4 Heterogeneous dialogue graph
主題詞引導(dǎo)的異質(zhì)對(duì)話圖網(wǎng)絡(luò)(T-HDGN)結(jié)構(gòu)如圖5 所示。T-HDGN 主要由節(jié)點(diǎn)編碼器、圖編碼器以及主題詞引導(dǎo)的解碼器3 部分組成。節(jié)點(diǎn)編碼器旨在初始化每個(gè)圖節(jié)點(diǎn);圖編碼器用來(lái)捕獲會(huì)話結(jié)構(gòu)信息并得到更高級(jí)的節(jié)點(diǎn)表示;主題詞引導(dǎo)的解碼器在指針機(jī)制和覆蓋機(jī)制中融入主題詞特征以輔助摘要的生成。
圖5 T-HDGN 模型結(jié)構(gòu)Fig.5 Structure of T-HDGN model
在得到各節(jié)點(diǎn)的初始表示后將它們輸入到1 個(gè)圖編碼器中,利用圖編碼器捕獲會(huì)話結(jié)構(gòu)信息并得到更高級(jí)的節(jié)點(diǎn)表示。本文使用文獻(xiàn)[24]提出的Heterogeneous Graph Transformer 作為圖編碼器,針對(duì)異質(zhì)性問題,采用與類型相關(guān)的參數(shù)進(jìn)行建模。異質(zhì)圖Transformer 層結(jié)構(gòu)如圖6 所示。
圖6 異質(zhì)圖Transformer層Fig.6 Transformer layer of heterogeneous graph
Heterogeneous Graph Transformer 主要包括3 個(gè)模塊:1)異質(zhì)相互注意力用來(lái)計(jì)算源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的注意力得分Attention(s,e,t);2)異質(zhì)消息傳遞為每個(gè)源節(jié)點(diǎn)生成消息向量MMsg(s,e,t),并傳播特定類型的信息;3)特定目標(biāo)的信息聚合使用注意力分?jǐn)?shù)作為權(quán)重來(lái)聚合從源節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)的信息。本文通過(guò)1 個(gè)消息融合過(guò)程和節(jié)點(diǎn)位置編碼使異質(zhì)圖上的學(xué)習(xí)過(guò)程更有效。
3.2.1 異質(zhì)相互注意力
3.2.2 異質(zhì)消息傳遞
3.2.3 特定目標(biāo)的聚合
基于目標(biāo)節(jié)點(diǎn)的類型,該過(guò)程分為2 種情況:1)當(dāng)目標(biāo)節(jié)點(diǎn)不是話語(yǔ)節(jié)點(diǎn)時(shí),首先使用注意力得分加權(quán)求和消息向量2)當(dāng)目標(biāo)節(jié)點(diǎn)是話語(yǔ)節(jié)點(diǎn)時(shí),本文通過(guò)消息融合過(guò)程將信息更有效地聚合到話語(yǔ)節(jié)點(diǎn)中。在消息融合過(guò)程中,由于注意力是1 個(gè)歸一化的分布,因此當(dāng)目標(biāo)為話語(yǔ)類型的節(jié)點(diǎn)聚合來(lái)自行動(dòng)和對(duì)話者類型的源節(jié)點(diǎn)信息時(shí),話語(yǔ)節(jié)點(diǎn)可能會(huì)更傾向于對(duì)話者節(jié)點(diǎn)而忽視行動(dòng)節(jié)點(diǎn)。為此,本文使用行動(dòng)節(jié)點(diǎn)的注意力權(quán)重加權(quán)對(duì)應(yīng)的消息向量并添加對(duì)話者信息。其計(jì)算式如下:
最終,在得到聚合后的消息向量后,根據(jù)目標(biāo)節(jié)點(diǎn)類型,本文通過(guò)1 個(gè)線性映射把它映射回目標(biāo)節(jié)點(diǎn)類型,并采用殘差連接得到更新后的節(jié)點(diǎn)表示
3.2.4 位置編碼
由于對(duì)話本質(zhì)上是連續(xù)序列,因此部分上下文信息也將沿著這個(gè)順序流動(dòng),而原始異質(zhì)圖不能直接建模話語(yǔ)之間的時(shí)間順序。為了節(jié)點(diǎn)能夠感知其位置信息,本文添加節(jié)點(diǎn)位置信息。對(duì)于對(duì)話者和行動(dòng)節(jié)點(diǎn)其位置都置為0。對(duì)于話語(yǔ)節(jié)點(diǎn)vi,將其位置pvi與源對(duì)話中的話語(yǔ)順序相關(guān)聯(lián)。最終本文為每個(gè)節(jié)點(diǎn)添加位置信息表示1個(gè)可學(xué)習(xí)的位置參數(shù)矩陣。
在得到添加位置信息的節(jié)點(diǎn)表示之后,將其與對(duì)應(yīng)的初始詞語(yǔ)表示拼接,并進(jìn)一步映射得到最終的詞語(yǔ)表示
主題關(guān)鍵詞是主題信息常見的表示形式,體現(xiàn)了文檔的關(guān)鍵內(nèi)容。因此,本文在解碼過(guò)程中使用主題關(guān)鍵詞引導(dǎo)摘要的生成。
傳統(tǒng)的編碼器-解碼器模型只使用源文本作為輸入,導(dǎo)致生成的摘要中缺乏主題詞信息。為此,本文在指針機(jī)制和覆蓋機(jī)制中注入主題詞以增強(qiáng)摘要中的主題關(guān)鍵詞信息。
本文將1 次會(huì)話中所有行動(dòng)三元組的Who、Doing 和What 作為主題關(guān)鍵詞K={k1,k2,…,km},并且將所有主題關(guān)鍵詞表示ki的均值作為主題信息表示。此外,本文用圖中所有節(jié)點(diǎn)詞語(yǔ)表示hvi,n的均值作為解碼器的初始狀態(tài)s0。具體計(jì)算式如下:
3.3.1 覆蓋機(jī)制
由于注意力機(jī)制會(huì)反復(fù)關(guān)注輸入序列中的某些單詞,因此會(huì)出現(xiàn)摘要自我重復(fù)的現(xiàn)象,尤其是對(duì)話者的名字和重要?jiǎng)幼?。因此,本文引入覆蓋機(jī)制來(lái)解決這個(gè)問題,通過(guò)歷史注意力來(lái)影響當(dāng)前注意力計(jì)算,首先將注意力分布at之和作為覆蓋向量ct,ct表示單詞從注意力機(jī)制受到的覆蓋程度。傳統(tǒng)的覆蓋機(jī)制只涉及解碼器狀態(tài)st和編碼器隱藏狀態(tài)hvi,n,難以關(guān)注到主題詞信息。因此,本文修改了注意力的構(gòu)成部分,將主題詞添加到覆蓋機(jī)制中,計(jì)算式如式(9)和式(10)所示:
其中:v、Wh、Ws、Wc、Wk和bAttention是可學(xué)習(xí)參數(shù)。通過(guò)注意力得分加權(quán)編碼器隱藏狀態(tài),得到上下文向量
在解碼步驟t時(shí)刻,解碼器狀態(tài)st、上下文向量和主題向量通過(guò)2 個(gè)線性層產(chǎn)生詞匯分布Pvocab,計(jì)算式如式(12)所示:
其中:V′、V、b和b′是可學(xué)習(xí)參數(shù)。
3.3.2 指針機(jī)制
受固定詞匯表的限制,在生成摘要時(shí)可能會(huì)丟失一些主題詞信息。因此需要引入指針機(jī)制來(lái)擴(kuò)展目標(biāo)詞匯表使其包含主題詞,通過(guò)指針網(wǎng)絡(luò)決定從固定詞匯表生成1 個(gè)單詞還是根據(jù)注意力分布at直接從輸入序列復(fù)制1 個(gè)單詞。為此,本文將主題詞添加到開關(guān)的計(jì)算中,使解碼器根據(jù)狀態(tài)st、主題向量、上下文向量和解碼器輸入xt共同計(jì)算指針開關(guān)pgen。具體計(jì)算式如式(13)所示:
其中:σ為Sigmoid 激活函數(shù);均為可學(xué)習(xí)參數(shù);bptr為偏置項(xiàng)。最終,在擴(kuò)展詞匯上的概率分布如式(14)所示:
為驗(yàn)證所提模型的可行性和有效性,本文在SAMSum 數(shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn)。SAMSum 數(shù)據(jù)集是1 個(gè)關(guān)于現(xiàn)實(shí)生活中各種場(chǎng)景下的英文對(duì)話數(shù)據(jù)集,包括閑聊、安排會(huì)議、討論事件以及與同學(xué)討論大學(xué)作業(yè)等話題。
數(shù)據(jù)集中源對(duì)話的平均對(duì)話長(zhǎng)度為126.7(Token 數(shù)),平均話語(yǔ)數(shù)為11.1。每句話語(yǔ)均包含對(duì)話者的名字,大多數(shù)對(duì)話只有2 個(gè)對(duì)話人(約占所有對(duì)話的75%),其余是3 個(gè)或更多人之間的對(duì)話。表1 所示為SAMSum 數(shù)據(jù)集的相關(guān)信息,包括每次會(huì)話中對(duì)話者數(shù)、話語(yǔ)數(shù)以及行動(dòng)三元組這三者的平均數(shù),“#”表示對(duì)應(yīng)的統(tǒng)計(jì)總數(shù),長(zhǎng)度是指Token數(shù)。
表1 SAMSum 數(shù)據(jù)集相關(guān)信息Table 1 Related information of SAMSum dataset 單位:個(gè)
本文實(shí)驗(yàn)平臺(tái)使用開源的深度學(xué)習(xí)框架PyTorch,編譯語(yǔ)言為Python3.6 版本。由于深度學(xué)習(xí)模型對(duì)計(jì)算資源的要求相對(duì)較高,因此采用GPU 進(jìn)行訓(xùn)練來(lái)提高效率。
在訓(xùn)練階段,使用Adam 優(yōu)化器對(duì)模型進(jìn)行優(yōu)化,并使用最大梯度范數(shù)為2 的梯度裁剪。節(jié)點(diǎn)編碼器和指針解碼器的維度都設(shè)為300。在測(cè)試過(guò)程中,使用集束搜索(Beam Search)方法生成最終的結(jié)果。集束搜索衡量了搜索空間和得到最優(yōu)解概率的雙重因素,每步會(huì)根據(jù)集束寬度K保留概率最大的K個(gè)結(jié)果并繼續(xù)按照詞表搜索,直到生成過(guò)程結(jié)束。在模型測(cè)試階段,本文設(shè)置Beam Search 的束寬為5。具體實(shí)驗(yàn)參數(shù)如表2 所示。
表2 實(shí)驗(yàn)參數(shù)設(shè)置Table 2 Experimental parameter settings
本文實(shí)驗(yàn)采用自動(dòng)文本摘要領(lǐng)域常用的評(píng)價(jià)工具ROUGE 中的ROUGE-1、ROUGE-2 以及ROUGE-L這3 類評(píng)價(jià)指標(biāo)的F1 值來(lái)評(píng)估摘要質(zhì)量。其中,ROUGE-1 代表了自動(dòng)文本摘要的信息量,ROUGE-2側(cè)重于評(píng)估對(duì)話摘要的流暢性,而ROUGE-L 則基于最長(zhǎng)公共子序列,可以認(rèn)為是摘要對(duì)原文信息的覆蓋量。ROUGE 值度量了生成的摘要與目標(biāo)摘要的接近程度。
4.4.1 基準(zhǔn)實(shí)驗(yàn)對(duì)比分析
為驗(yàn)證所提方法在生成式對(duì)話摘要任務(wù)中的效果,本文選取了7 種基線模型進(jìn)行對(duì)比實(shí)驗(yàn)。
1)Longest-3 是一種提取式摘要方法,選取最長(zhǎng)的三句話語(yǔ)按長(zhǎng)度排序作為摘要。
2)Seq2Seq+Attention 是由RUSH等[7]提出,使用基于Attention 機(jī)制的編碼器來(lái)學(xué)習(xí)輸入文本的潛在軟對(duì)齊,以提供摘要信息。
3)PGN[8]是指針生成網(wǎng)絡(luò),使用指針機(jī)制和覆蓋機(jī)制解決了生成式文本摘要中的OOV 和摘要重復(fù)問題。
4)Transformer是由VASWANI等[25]提出,是一種利用Self-Attention 機(jī)制實(shí)現(xiàn)快速并行的序列到序列模型。
5)Fast Abs RL[9]是一種基于兩階段式的摘要模型,首先由抽取器選擇重要句子,然后生成器對(duì)抽取出的句子重寫得到最終摘要。
6)Fast Abs RL Enhanced 是Fast Abs RL 的變形,由于原模型可能會(huì)選擇1 個(gè)人的話語(yǔ)而沒有關(guān)于其他對(duì)話者的信息,因此它將所有其他對(duì)話者的名字添加到話語(yǔ)的結(jié)尾。
7)T-GAT 是本文模型的變形,將異質(zhì)圖層替換為同質(zhì)圖層的圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)[26]。
考慮到計(jì)算資源有限,本文沒有使用預(yù)訓(xùn)練語(yǔ)言模型(如BERT)。因此,為了公平起見,本文只和未使用預(yù)訓(xùn)練語(yǔ)言模型的方法進(jìn)行比較。不同模型的實(shí)驗(yàn)結(jié)果對(duì)比如表3 所示,Separator 是人為添加的1 個(gè)標(biāo)記來(lái)分隔話語(yǔ)。
表3 不同模型的實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Experiment results comparison among different models %
從表3 可以看出,與原模型相比,使用了分隔符(Separator)使得對(duì)應(yīng)模型的性能有所增加,這是因?yàn)橥ㄟ^(guò)人工添加特殊標(biāo)記改善了語(yǔ)篇結(jié)構(gòu)。與傳統(tǒng)的抽取式方法Longest-3 相比,T-HDGN 在ROUGE評(píng)價(jià)指標(biāo)上獲得了較大的提高,說(shuō)明生成式方法具有明顯的優(yōu)勢(shì)。與表現(xiàn)較優(yōu)的Fast Abs RL Enhanced模型相比,在不需要使用強(qiáng)化學(xué)習(xí)策略和簡(jiǎn)化訓(xùn)練過(guò)程的情況下,T-HDGN 模型在ROUGE 得分上依然具有優(yōu)勢(shì)。與同質(zhì)網(wǎng)絡(luò)T-GAT 相比,基于異質(zhì)圖網(wǎng)絡(luò)的T-HDGN 模型在ROUGE-1、ROUGE-2、ROUGE-L上分別提升了0.70、0.98 和0.61 個(gè)百分點(diǎn),表明異質(zhì)性建模具有一定的有效性。此外,T-HDGN 模型的性能均優(yōu)于其他生成式方法Seq2Seq+Attention、PGN 和Transformer,說(shuō)明通過(guò)圖結(jié)構(gòu)對(duì)會(huì)話進(jìn)行建模時(shí),異質(zhì)圖網(wǎng)絡(luò)可以有效地融合信息并捕獲語(yǔ)句間豐富的語(yǔ)義關(guān)系,解決了對(duì)會(huì)話上下文理解不充分的問題。此外,使用行動(dòng)三元組有助于模型理解說(shuō)話人與其對(duì)應(yīng)動(dòng)作之間的正確關(guān)系,提高摘要的生成質(zhì)量。
4.4.2 消融實(shí)驗(yàn)
為驗(yàn)證該模型中主要模塊對(duì)生成對(duì)話摘要的有效性,本文進(jìn)行消融實(shí)驗(yàn),驗(yàn)證對(duì)話圖中行動(dòng)節(jié)點(diǎn)和對(duì)話者節(jié)點(diǎn)這2 種不同類型節(jié)點(diǎn)的有效性。消融實(shí)驗(yàn)結(jié)果如表4 所示,T-HDGN w/o action 表示移除對(duì)話圖中的行動(dòng)三元組節(jié)點(diǎn),T-HDGN w/o speaker 表示移除對(duì)話圖中的對(duì)話者節(jié)點(diǎn)。
表4 消融實(shí)驗(yàn)結(jié)果Table 4 Ablation experimental results %
缺失行動(dòng)三元組節(jié)點(diǎn)和對(duì)話者節(jié)點(diǎn)均降低了模型生成摘要的效果。其中,移除行動(dòng)三元組節(jié)點(diǎn)使得ROUGE-1、ROUGE-2、ROUGE-L 評(píng)分分別降低了0.48、0.67 和0.71 個(gè)百分點(diǎn),這表明加入行動(dòng)三元組(Who,Doing,What)有助于模型更充分地對(duì)會(huì)話上下文建模。此外,如果直接移除圖中的對(duì)話者節(jié)點(diǎn),將造成話語(yǔ)沒有對(duì)應(yīng)的說(shuō)話人。因此,本文首先在話語(yǔ)前面加上說(shuō)話人,然后移除對(duì)話者節(jié)點(diǎn)。實(shí)驗(yàn)結(jié)果表明,移除對(duì)話者節(jié)點(diǎn)也導(dǎo)致了模型性能下降,說(shuō)明異質(zhì)性建模對(duì)話者節(jié)點(diǎn)能夠更充分地學(xué)習(xí)到會(huì)話的上下文表示,有利于最終摘要的生成。
此外,為了驗(yàn)證在指針機(jī)制和覆蓋機(jī)制中融入主題詞對(duì)生成摘要的有效性,同樣進(jìn)行消融實(shí)驗(yàn),結(jié)果如表5所示。T-HDGN w/o TP表示移除主題詞的指針機(jī)制,T-HDGN w/o TC 表示移除主題詞的覆蓋機(jī)制。
表5 消融實(shí)驗(yàn)對(duì)比結(jié)果Table 5 Comparison results of ablation experiments %
從表5 可以看出,在移除了覆蓋機(jī)制和指針機(jī)制中的主題詞后,模型性能都不如完整的T-HDGN 模型,說(shuō)明對(duì)于關(guān)鍵信息分散在不同話語(yǔ)中的會(huì)話,主題關(guān)鍵詞有利于模型生成信息豐富且真實(shí)的對(duì)話摘要。
4.4.3 對(duì)話者數(shù)和轉(zhuǎn)換數(shù)對(duì)模型的影響
為了探究會(huì)話中對(duì)話人數(shù)和轉(zhuǎn)換數(shù)對(duì)ROUGH指標(biāo)的影響,本文在表現(xiàn)最佳的T-HDGN 模型上進(jìn)行實(shí)驗(yàn)分析,其可視化結(jié)果如圖7 所示。實(shí)驗(yàn)結(jié)果表明,隨著對(duì)話人數(shù)和轉(zhuǎn)換數(shù)的增加,ROUGH 指標(biāo)呈逐漸下降趨勢(shì),表明在生成式對(duì)話摘要任務(wù)中隨著會(huì)話參與人數(shù)和話語(yǔ)數(shù)的增加,總結(jié)對(duì)話的難度就越大。
圖7 參與者數(shù)和轉(zhuǎn)換數(shù)對(duì)模型性能之間的影響Fig.7 The impact of the number of participants and conversions on model performance
4.4.4 泛化性實(shí)驗(yàn)
為驗(yàn)證模型是否具有較優(yōu)的泛化能力,本文直接在由人類編寫的辯論對(duì)話摘要數(shù)據(jù)集ADSC 上進(jìn)行泛化性實(shí)驗(yàn)測(cè)試,結(jié)果如表6 所示。
表6 在ADSC 數(shù)據(jù)集上不同模型的ROUGE 結(jié)果Table 6 ROUGE results among different models on the ADSC dataset %
從表6 可以看出,T-HDGN 模型在ADSC 數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其他基線模型,說(shuō)明本文模型可以更充分理解新領(lǐng)域中的對(duì)話,在生成式對(duì)話摘要任務(wù)中具有較優(yōu)的應(yīng)用價(jià)值。其原因?yàn)樵谏烧獣r(shí),一方面通過(guò)顯式建模“Who,Doing,What”信息以幫助模型更好地理解說(shuō)話者和話語(yǔ)內(nèi)行動(dòng)之間的關(guān)系;另一方面,通過(guò)1 個(gè)異質(zhì)圖網(wǎng)絡(luò)來(lái)建模不同類型的數(shù)據(jù),合理地編碼會(huì)話結(jié)構(gòu)。同時(shí),基于T-HDGN 模型的對(duì)話摘要生成模型也可以應(yīng)用于其他領(lǐng)域,如在線醫(yī)療問診的總結(jié)以及人機(jī)對(duì)話的下游任務(wù)。
4.4.5 摘要實(shí)例對(duì)比分析
不同模型針對(duì)如下對(duì)話生成的摘要示例對(duì)比如表7 所示。
表7 不同模型生成的摘要示例Table 7 An example of summary generated by different models
Lilly:sorry,I'm gonna be late.
Lilly:don't wait for me and order the food.
Gabriel:no problem,shall we also order something for you?
Gabriel:so that you get it as soon as you get to us?
Lilly:good idea!
Lilly:pasta with salmon and basil is always very tasty there.
從表7 可以看出,傳統(tǒng)的抽取式摘要模型Longest-3 與生成式摘要模型的效果差距明顯,這主要是因?yàn)榕c新聞等文本不同,對(duì)話類數(shù)據(jù)的信息比較分散,前幾句很少涉及關(guān)鍵信息,導(dǎo)致抽取的摘要效果不佳。對(duì)于Fast Abs RL Enhanced 模型,由于事先在每句話語(yǔ)之后添加了其他對(duì)話者的名字,因此模型在生成摘要時(shí)能正確包含說(shuō)話人的名字。然而,F(xiàn)ast Abs RL Enhanced 模型在決定動(dòng)作由誰(shuí)做出時(shí)出現(xiàn)錯(cuò)誤,這可能與該模型的兩階段式生成過(guò)程有關(guān),再加上對(duì)話的特殊文本結(jié)構(gòu),導(dǎo)致對(duì)話的上下文范圍縮小,從而生成不正確的內(nèi)容。與其他的序列到序列模型相比,T-HDGN 模型能正確決定動(dòng)作由誰(shuí)做出。這是因?yàn)楸疚拿鞔_建?!癢ho,Doing,What”信息有助于模型更好地理解說(shuō)話者和話語(yǔ)內(nèi)行動(dòng)之間的關(guān)系。此外,在譯碼階段還使用主題詞來(lái)引導(dǎo)解碼器生成摘要,使得摘要中包含更多的關(guān)鍵信息。
本文建立一種主題詞引導(dǎo)的異質(zhì)對(duì)話圖網(wǎng)絡(luò)(T-HDGN)模型,以圖到序列的框架自動(dòng)生成對(duì)話摘要。利用從話語(yǔ)中抽取的“Who,Doing,What”信息構(gòu)建對(duì)話圖,將圖中的話語(yǔ)、對(duì)話者和行動(dòng)節(jié)點(diǎn)作為異質(zhì)節(jié)點(diǎn),通過(guò)1 個(gè)異質(zhì)圖網(wǎng)絡(luò)對(duì)會(huì)話圖進(jìn)行編碼。此外,在生成階段融入主題信息以輔助摘要生成。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的文檔摘要模型相比,T-HDGN 模型可以正確地將對(duì)話者與其對(duì)應(yīng)動(dòng)作相關(guān)聯(lián),并且生成的摘要中包含更多的關(guān)鍵信息,更接近目標(biāo)摘要。后續(xù)將使用預(yù)訓(xùn)練語(yǔ)言模型更好地編碼會(huì)話表示,還將針對(duì)具體的應(yīng)用領(lǐng)域改進(jìn)對(duì)話總結(jié)模型以適用于各個(gè)領(lǐng)域,如醫(yī)療對(duì)話、客服對(duì)話、辯論以及可能涉及更長(zhǎng)話語(yǔ)和更多非同步參與者的對(duì)話。