鞏軼凡,劉紅巖,何 軍+,岳永姣,杜小勇
1.數(shù)據(jù)工程與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(中國(guó)人民大學(xué) 信息學(xué)院),北京 100872
2.清華大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京 100084
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,文本信息出現(xiàn)了爆炸式增長(zhǎng),各種網(wǎng)絡(luò)媒體如微信公眾號(hào)、新聞網(wǎng)站、微博等每天都會(huì)產(chǎn)生海量的信息。對(duì)于這些海量的信息,人們沒(méi)有足夠的精力去閱讀每一篇文本,信息過(guò)載成為一個(gè)嚴(yán)重的問(wèn)題。因此,從文本信息中提取出關(guān)鍵的內(nèi)容成為一個(gè)迫切的需求,而文本摘要技術(shù)則可以很好地解決這個(gè)問(wèn)題。
目前的文本摘要主要是利用帶有注意力機(jī)制的序列到序列模型(sequence to sequence,Seq2Seq[1])對(duì)文本生成摘要,但是注意力機(jī)制在每個(gè)時(shí)刻的計(jì)算是獨(dú)立的,沒(méi)有考慮到之前時(shí)刻生成的文本信息,導(dǎo)致模型在生成文本時(shí)忽略了之前生成的內(nèi)容,導(dǎo)致重復(fù)生成部分信息,最終生成的文本只包含了原始文本的部分信息。本文在注意力機(jī)制的基礎(chǔ)上,提出一種新的覆蓋率機(jī)制,記錄歷史的注意力權(quán)重信息,借此改變當(dāng)前時(shí)刻注意力的權(quán)重分布,使模型盡可能地關(guān)注尚未利用到的信息,生成的摘要文本包含的信息更準(zhǔn)確。
本文的主要貢獻(xiàn)如下:
(1)在文本摘要的經(jīng)典模型中引入一種新的覆蓋率機(jī)制,使用覆蓋向量記錄歷史的注意力權(quán)重分布信息,解決注意力機(jī)制不考慮歷史時(shí)刻生成信息的問(wèn)題。
(2)提出了兩種不同的衰減方法,降低輸入文本中部分位置的注意力權(quán)重,使模型盡可能地關(guān)注尚未利用到的信息。
(3)所提方法在新浪微博數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,基于本文提出的覆蓋率機(jī)制的文本摘要模型性能評(píng)價(jià)得分高于普通的Seq2Seq模型。
本文后續(xù)內(nèi)容安排如下:第2章是相關(guān)工作部分,介紹了抽取式摘要和生成式摘要的相關(guān)工作。第3章是文本摘要模型部分,介紹本文所用的Seq2Seq模型和注意力機(jī)制。第4章介紹覆蓋率機(jī)制,介紹了注意力機(jī)制存在的問(wèn)題和本文引入的覆蓋率機(jī)制。第5章是實(shí)驗(yàn)部分,介紹了本文的實(shí)驗(yàn)設(shè)計(jì),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析。第6章是總結(jié)和對(duì)未來(lái)工作的展望。
文本摘要任務(wù)按照所使用的方法,可分為抽取式(extractive)摘要和生成式(abstractive)摘要[2-4]。抽取式摘要是從原文中抽取出關(guān)鍵的詞或句子再組合起來(lái);生成式摘要?jiǎng)t要求對(duì)文本進(jìn)行分析,理解文本所描述的內(nèi)容,然后生成新的摘要句子。
抽取式摘要主要是利用機(jī)器學(xué)習(xí)的方法為原文中的每個(gè)句子做出評(píng)價(jià),賦予一定的權(quán)重,從而選出比較重要的句子,把這些句子組合起來(lái),由于句子之間可能存在信息冗余,因此在組合句子的同時(shí)還要消除這些冗余信息[5]。相比于生成式摘要,抽取式摘要的方法通常都比較簡(jiǎn)單,缺點(diǎn)是比較依賴(lài)于特征工程,句子組合起來(lái)可能出現(xiàn)不連貫的問(wèn)題。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展和計(jì)算能力的提升,越來(lái)越多的研究人員開(kāi)始將深度學(xué)習(xí)技術(shù)用在文本摘要任務(wù)的研究上。通過(guò)帶有注意力機(jī)制的Seq2Seq模型實(shí)現(xiàn)對(duì)文本生成摘要。Seq2Seq模型由一個(gè)Encoder和一個(gè)Decoder組成,Encoder把輸入序列編碼成語(yǔ)義向量c,Decoder從語(yǔ)義向量中c解碼出對(duì)應(yīng)的序列。將原始文本輸入到Encoder中并編碼成語(yǔ)義向量c,Decoder從語(yǔ)義向量c中解碼出對(duì)應(yīng)的摘要文本。
在Seq2Seq模型中,Encoder和Decoder一般由循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)構(gòu)成,語(yǔ)義向量c一般為Encoder最后一個(gè)時(shí)刻的隱藏層狀態(tài)向量。由于語(yǔ)義向量c的維度是固定的,當(dāng)輸入文本過(guò)長(zhǎng)時(shí)會(huì)出現(xiàn)信息損失的情況,文獻(xiàn)[6]在Seq2Seq模型的基礎(chǔ)上提出了注意力機(jī)制,通過(guò)在不同的時(shí)刻輸入不同的語(yǔ)義向量來(lái)解決這個(gè)問(wèn)題,在機(jī)器翻譯任務(wù)上取得了很好的效果。文獻(xiàn)[7]提出了全局注意力(global attention)和局部注意力(local attention)機(jī)制,在全局注意力機(jī)制中給出了三種計(jì)算注意力權(quán)重的方法,對(duì)于過(guò)長(zhǎng)的輸入文本提出局部注意力機(jī)制,大大減少了模型的計(jì)算量。
文獻(xiàn)[8]基于新浪微博構(gòu)建了一個(gè)大規(guī)模的中文短文本摘要數(shù)據(jù)集,提出基于漢字的摘要模型和基于詞的摘要模型,搭配兩種網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)自動(dòng)文本摘要,結(jié)果表明基于漢字的模型要優(yōu)于基于詞的模型。文獻(xiàn)[9]在文本摘要任務(wù)上提出了拷貝機(jī)制,拷貝輸入序列的片段到輸出序列中,解決了文本摘要任務(wù)中OOV(out of vocabulary)的問(wèn)題。文獻(xiàn)[10]在機(jī)器翻譯模型中引入了覆蓋率機(jī)制,記錄了翻譯過(guò)程中歷史注意力權(quán)重信息,使模型更多地關(guān)注沒(méi)有被翻譯到的詞,解決了機(jī)器翻譯任務(wù)上“過(guò)度翻譯”和“漏翻譯”的問(wèn)題。文獻(xiàn)[11]在Seq2Seq模型的基礎(chǔ)上提出了推敲(deliberation)網(wǎng)絡(luò),包括兩個(gè)解碼器,第一個(gè)解碼器生成原始的輸出,第二個(gè)解碼器根據(jù)輸入文本和第一個(gè)解碼器生成的原始輸出,推敲打磨生成更好的輸出文本。文獻(xiàn)[12]在文本摘要任務(wù)上引入了LVT(large vocabulary trick)技術(shù)解決Decoder生成文本時(shí)詞表過(guò)大的問(wèn)題,在模型訓(xùn)練時(shí)加入了一些其他的語(yǔ)言學(xué)特征來(lái)提升模型的性能,通過(guò)pointer[13]指針選擇輸入文本中的詞作為輸出解決OOV的問(wèn)題。
由于注意力機(jī)制在不同時(shí)刻的計(jì)算是獨(dú)立的,沒(méi)有考慮歷史的注意力權(quán)重分布信息,因此在文本摘要任務(wù)上,Seq2Seq模型也會(huì)出現(xiàn)文獻(xiàn)[10]提到的問(wèn)題,會(huì)重復(fù)生成部分信息,漏掉部分信息,導(dǎo)致生成的摘要只包含了輸入文本的部分信息。本文借鑒機(jī)器翻譯任務(wù)上的覆蓋率機(jī)制,提出一種新的覆蓋率機(jī)制,通過(guò)衰減方法降低輸入文本中部分位置的注意力權(quán)重,使模型盡可能地關(guān)注沒(méi)有利用到的信息。
Seq2Seq文本摘要模型選擇使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short term memory network,LSTM)作為Encoder和Decoder,其結(jié)構(gòu)示意圖如圖1所示。
Fig.1 Text summarization model圖1 文本摘要模型示意圖
其中X={x1,x2,…,xn}表示輸入文本,xj代表輸入文本中的第j個(gè)字符,如一個(gè)詞或一個(gè)漢字,n為輸入文本的長(zhǎng)度,Y={y1,y2,…,ym}表示對(duì)應(yīng)的輸出文本,yi代表輸出文本中的第i個(gè)字符,如一個(gè)詞或一個(gè)漢字,m為輸出文本的長(zhǎng)度?!埃糱os>”和“<eos>”分別代表Decoder開(kāi)始解碼的字符和停止解碼的字符。Encoder對(duì)應(yīng)的各個(gè)隱藏層狀態(tài)向量的集合為H={h1,h2,…,hn},Decoder對(duì)應(yīng)的各個(gè)隱藏層狀態(tài)向量的集合為S={s1,s2,…,sm}:
f表示LSTM網(wǎng)絡(luò),本文使用文獻(xiàn)[7]提出的注意力機(jī)制的計(jì)算方式,在不同時(shí)刻生成不同的語(yǔ)義向量ci,避免由固定的語(yǔ)義向量帶來(lái)的信息損失的問(wèn)題。Decoder部分在時(shí)刻i對(duì)應(yīng)的語(yǔ)義向量ci為:
其中,αij為歸一化后不同位置Encoder隱藏層狀態(tài)向量的注意力權(quán)重:
eij用來(lái)衡量Decoder隱藏層狀態(tài)向量和不同位置Encoder隱藏層狀態(tài)向量的相關(guān)性:
We為參數(shù)矩陣,將語(yǔ)義向量ci和Decoder的隱藏層狀態(tài)向量si拼接起來(lái)經(jīng)過(guò)線性變換和激活函數(shù)后形成:
Wcs為參數(shù)矩陣。
模型生成字符的過(guò)程是一個(gè)多分類(lèi)的問(wèn)題,類(lèi)別的個(gè)數(shù)為詞表中所有字符的個(gè)數(shù),從詞表中選擇概率最大的字符作為時(shí)刻i的輸出。模型生成詞表中字符的概率分布yvocab的計(jì)算方式為:
Ws為參數(shù)矩陣,選擇yvocab中概率最大的字符yi-pre作為時(shí)刻i的輸出。采用交叉熵?fù)p失作為模型的損失函數(shù)進(jìn)行學(xué)習(xí):
模型通過(guò)梯度下降等方法對(duì)參數(shù)進(jìn)行更新求解。模型在訓(xùn)練階段,已經(jīng)知道真正的輸出序列Y={y1,y2,…,ym},因此Decoder在時(shí)刻i的輸入為上一時(shí)刻真正的字符yi-1(teacher forcing)。模型在預(yù)測(cè)階段,不知道真正的輸出序列,因此Decoder在時(shí)刻i的輸入為上一時(shí)刻模型的輸出yi-pre。
注意力機(jī)制把Encoder所有位置的隱藏層狀態(tài)向量加權(quán)和作為時(shí)刻i的語(yǔ)義向量ci,注意力權(quán)重αij越大,該位置j的隱藏層狀態(tài)向量在語(yǔ)義向量ci中所占的比重就越大,輸入xj為模型生成字符yi-pre貢獻(xiàn)的信息就越大。也就是說(shuō),模型在時(shí)刻i的注意力集中在該位置。
在注意力機(jī)制的計(jì)算中,不同時(shí)刻的注意力機(jī)制的計(jì)算是獨(dú)立的,注意力權(quán)重αij只與當(dāng)前時(shí)刻Decoder隱藏層狀態(tài)向量si,Encoder隱藏層狀態(tài)向量hj有關(guān),不會(huì)考慮歷史的注意力權(quán)重分布情況。因此模型在不同時(shí)刻可能會(huì)將注意力重復(fù)集中在某一位置,這就導(dǎo)致在生成的摘要文本中,出現(xiàn)重復(fù)生成部分信息和漏掉部分信息的情況。
表1是帶有注意力機(jī)制的Seq2Seq模型生成的摘要文本包含重復(fù)信息的樣例,可以看出,在生成的摘要文本中,重復(fù)生成了“預(yù)期”和“國(guó)際金價(jià)”的信息。分析模型在不同時(shí)刻注意力集中的位置可以發(fā)現(xiàn),模型在生成第一個(gè)“國(guó)際金價(jià)”信息時(shí),注意力集中在原文第42~45個(gè)字符“國(guó)際金價(jià)”的位置;在生成第二個(gè)“國(guó)際金價(jià)”信息時(shí),注意力同樣集中在原文第42~45個(gè)字符“國(guó)際金價(jià)”的位置。也就是說(shuō),模型在這兩個(gè)時(shí)刻的注意力集中在相同的位置。
一個(gè)好的文本摘要模型,應(yīng)該綜合考慮輸入文本中所有的信息,生成的摘要是對(duì)全部文本的一個(gè)總結(jié)。如果摘要模型把大部分注意力集中在部分位置,則生成的摘要不能包含所有的信息,還會(huì)出現(xiàn)信息重復(fù)的現(xiàn)象。因此在決定模型下一步注意力位置的時(shí)候,需要引入歷史生成的信息,從而避免再一次將模型的注意力集中到該位置。
因此,本文引入覆蓋率機(jī)制,通過(guò)coverage向量coveri={coveri1,coveri2,…,coverin}記錄i時(shí)刻之前的注意力權(quán)重信息,該向量維度與注意力向量維度相同,其中每個(gè)元素稱(chēng)為覆蓋度,計(jì)算方法為:
Table 1 Summary containing duplicate information表1 包含重復(fù)信息的生成摘要
αi-1,j為i-1時(shí)刻位置j的注意力權(quán)重(計(jì)算見(jiàn)式(4));coverij記錄了歷史時(shí)刻位置j的注意力權(quán)重信息,表示i時(shí)刻之前模型位置j信息的使用情況。在初始時(shí)刻,cover0為零向量。
在模型生成摘要文本的過(guò)程中,注意力權(quán)重越大的地方貢獻(xiàn)的信息量越大,如果輸入文本的某個(gè)位置在當(dāng)前時(shí)刻字符的生成時(shí)注意力權(quán)重很大,則在接下來(lái)的文本生成中注意力權(quán)重應(yīng)該相對(duì)較小。基于以上思想,模型在時(shí)刻i計(jì)算注意力權(quán)重的時(shí)候,會(huì)對(duì)i時(shí)刻之前已經(jīng)利用過(guò)信息的位置進(jìn)行信息衰減,使模型更多地關(guān)注輸入文本中沒(méi)有用過(guò)的信息。
具體的,Decoder在生成時(shí)刻i的輸出時(shí),需要對(duì)Encoder所有位置的隱藏層狀態(tài)向量H={h1,h2,…,hn}進(jìn)行加權(quán)處理:
hj′為加權(quán)后新的Encoder隱藏層狀態(tài)向量;β為衰減因子,取值范圍為[1,10]。這步處理的目的在于,如果Encoder位置j的注意力權(quán)重在時(shí)刻i之前比較大,coverij的值就會(huì)比較大,通過(guò)exp(-βcoverij)乘上一個(gè)比較小的權(quán)重,這樣對(duì)其隱藏層狀態(tài)向量的作用就是衰減。衰減的程度與β有關(guān),衰減因子β越大,對(duì)hj的衰減就越大。
若在時(shí)刻i,第j個(gè)輸入文本對(duì)應(yīng)的覆蓋度的值coverij為0.3,當(dāng)β=1時(shí),該位置對(duì)應(yīng)的hj′為原來(lái)的0.74;當(dāng)β=5時(shí),該位置對(duì)應(yīng)的hj′為原來(lái)的0.22;當(dāng)β=10時(shí),該位置對(duì)應(yīng)的hj′為原來(lái)的0.05。
除了對(duì)Encoder所有位置的隱藏層狀態(tài)向量H={h1,h2,…,hn}乘一個(gè)固定權(quán)重的方法外,本文還提出了另一種動(dòng)態(tài)調(diào)整權(quán)重的方式:
其中,Wc為參數(shù)向量,由模型根據(jù)訓(xùn)練數(shù)據(jù)自動(dòng)學(xué)習(xí)得到,對(duì)Encoder隱藏層狀態(tài)向量的衰減方式由Wc決定。
圖2是帶有覆蓋率機(jī)制的文本摘要模型示意圖,模型采用雙向LSTM作為Encoder,在任何位置都可以同時(shí)利用上下文的信息。在計(jì)算注意力權(quán)重之前,通過(guò)coveri對(duì)Encoder隱藏層狀態(tài)向量進(jìn)行衰減,然后在此基礎(chǔ)上計(jì)算eij′:
γj為Encoder隱藏層狀態(tài)向量的衰減權(quán)重,把eij′帶入式(4)中的eij,即可得到調(diào)整后的注意力權(quán)重αij,從而使coverij較大的位置對(duì)應(yīng)的注意力權(quán)重降低,降低該位置的信息在語(yǔ)義向量ci中的比重,使模型更多地關(guān)注輸入文本中沒(méi)有用過(guò)的信息。
Fig.2 Text summarization model based on coverage圖2 帶覆蓋率機(jī)制的文本摘要模型示意圖
本文提出的帶有覆蓋率機(jī)制的文本摘要模型學(xué)習(xí)算法如算法1所示。其中,D={X1,X2,…,Xp}和S={Y1,Y2,…,Yp}分別代表訓(xùn)練數(shù)據(jù)的輸入文本集合和摘要文本集合;p為訓(xùn)練數(shù)據(jù)的條數(shù);H′為經(jīng)過(guò)coverage向量衰減后的Encoder隱藏層狀態(tài)向量集合;αi={αi1,αi2,…,αin}為時(shí)刻i所有位置Encoder隱藏層狀態(tài)向量的注意力權(quán)重的集合。
算法1模型學(xué)習(xí)算法
本文實(shí)驗(yàn)所用的數(shù)據(jù)集來(lái)自于文獻(xiàn)[8]所提供的LCSTS(large-scale Chinese short text summarization dataset)數(shù)據(jù)集,數(shù)據(jù)集為微博文本和對(duì)應(yīng)的摘要數(shù)據(jù),分為PART I、PART II和 PART III三部分,其中PART I部分為主要的數(shù)據(jù)集,PART II部分的數(shù)據(jù)經(jīng)過(guò)一人的人工評(píng)分,PART III部分的數(shù)據(jù)經(jīng)過(guò)了三人的人工評(píng)分。人工評(píng)分的范圍為1~5,1表示非常不相關(guān),5表示非常相關(guān)。數(shù)據(jù)分布如表2所示。
Table 2 LCSTS dataset表2 LCSTS數(shù)據(jù)集
在本文實(shí)驗(yàn)中,選擇PART I中的部分?jǐn)?shù)據(jù)共60萬(wàn)條微博數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),選擇PART III中人工評(píng)分大于3分的數(shù)據(jù)共725條微博數(shù)據(jù)作為測(cè)試數(shù)據(jù)。
對(duì)于LCSTS數(shù)據(jù)集,本文采用基于中文漢字字符的模型,將訓(xùn)練數(shù)據(jù)按照漢字級(jí)別輸入到模型中,采用基于漢字的模型原因?yàn)椋褐形臐h字的數(shù)量遠(yuǎn)小于中文詞語(yǔ)的數(shù)量,可以減少模型的計(jì)算量,同時(shí)減少了生成文本中OOV的情況;而且基于中文詞語(yǔ)的模型的準(zhǔn)確率還依賴(lài)于分詞工具的準(zhǔn)確率,不恰當(dāng)?shù)姆衷~方式還會(huì)引入語(yǔ)義上的歧義。
同時(shí),在詞表中加入四個(gè)新的字符:“<bos>”、“<eos>”、“<unk>”、“<pad>”。“<bos>”表示Decoder從語(yǔ)義向量c中解碼信息的開(kāi)始字符,“<eos>”表示解碼的終止字符,“<unk>”表示未出現(xiàn)在詞表中的字符,“<pad>”表示將文本填充到統(tǒng)一長(zhǎng)度的字符。
對(duì)訓(xùn)練數(shù)據(jù)中Decoder端對(duì)應(yīng)的摘要文本前加“<bos>”字符作為Decoder的啟動(dòng)標(biāo)志,在摘要文本末尾加“<eos>”作為解碼結(jié)束的標(biāo)志,對(duì)于不在詞表中的字符,用“<unk>”字符代替。模型訓(xùn)練時(shí)采用批梯度下降法(mini-batches learning)的方式學(xué)習(xí)參數(shù),將一個(gè)batch內(nèi)的文本通過(guò)“<pad>”填充到統(tǒng)一長(zhǎng)度便于處理。隨機(jī)初始化中文字符的embedding表示,隨著模型的訓(xùn)練對(duì)embedding向量進(jìn)行學(xué)習(xí)。
在本次實(shí)驗(yàn)中,覆蓋率機(jī)制的衰減因子β分別選擇1、5、10。中文字符詞典的大小選擇3 500,中文字符的embedding size為400,Encoder和Decoder共享中文字符詞典和embedding矩陣,LSTM隱藏層向量維度為500,batch的大小為64,梯度裁減的閾值為2,Decoder生成文本的最大長(zhǎng)度為30,模型一共訓(xùn)練30個(gè)epochs,使用梯度下降的方法對(duì)模型參數(shù)進(jìn)行學(xué)習(xí)。選擇Pytorch深度學(xué)習(xí)框架搭建文本摘要模型[14],使用NVIDIATesla M60 GPU加速模型的訓(xùn)練。
文獻(xiàn)[15]提出的ROUGE(recall-oriented understudy for gisting evaluation),是最常用的自動(dòng)文本摘要的評(píng)估方法,本文采用這一評(píng)價(jià)方法,它采用召回率作為指標(biāo),通過(guò)將自動(dòng)生成的摘要與一組參考摘要(通常是人工生成的)進(jìn)行比較計(jì)算,得出相應(yīng)的分值,以衡量自動(dòng)生成的摘要與參考摘要之間的“相似度”,主要包括ROUGH-N(N=1,2,…)、ROUGH-L等。
表3是各種文本摘要模型的實(shí)驗(yàn)結(jié)果,其中RNN(w)和RNN(c)為文獻(xiàn)[8]在LCSTS數(shù)據(jù)集上基于中文詞語(yǔ)模型和中文漢字模型的ROUGE評(píng)價(jià)得分,Cover-Tu是文獻(xiàn)[10]在機(jī)器翻譯任務(wù)上提出的覆蓋率機(jī)制的方法,本文采用其中的Linguistic Coverage Model在LCSTS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。Cover-w為式(11)對(duì)應(yīng)的模型,Cover-1、Cover-5、Cover-10為式(10)對(duì)應(yīng)的模型,其中衰減因子β分別為1、5、10。
Table 3 Model experiment results表3 模型實(shí)驗(yàn)結(jié)果
由實(shí)驗(yàn)結(jié)果可知,帶有覆蓋率機(jī)制的Seq2Seq模型的ROUGE評(píng)價(jià)得分高于普通的Seq2Seq模型,當(dāng)β為5時(shí),ROUGE評(píng)價(jià)得分最高,高于Cover-Tu的覆蓋率機(jī)制的方法。與Cover-Tu的覆蓋率機(jī)制相比,本文方法直接對(duì)coverage值較大的位置對(duì)應(yīng)的Encoder的隱藏層狀態(tài)向量進(jìn)行衰減,降低注意力權(quán)重,減小在語(yǔ)義向量ci中的比重,可以更直接地使模型關(guān)注輸入文本中沒(méi)有被利用的信息。
對(duì)于表1中的微博文本,本文提出的帶有覆蓋率機(jī)制的文本摘要模型最終生成的摘要文本為“高盛:黃金價(jià)格預(yù)期或跌至1 200美元”,與不帶覆蓋率機(jī)制的模型相比,避免了重復(fù)生成“國(guó)際金價(jià)”的信息。
表4是不同模型的實(shí)驗(yàn)結(jié)果樣例。標(biāo)準(zhǔn)摘要表示LCSTS數(shù)據(jù)集中對(duì)應(yīng)的摘要,Baseline表示不帶覆蓋率機(jī)制的文本摘要模型生成的摘要,Coverage表示本文提出的帶有覆蓋率機(jī)制的文本摘要模型??梢钥闯觯谋菊P鸵敫采w率機(jī)制以后,生成文本的時(shí)候同時(shí)考慮了歷史的信息,從而避免模型重復(fù)生成已生成的信息,最終生成的摘要文本包含了輸入文本中更多的信息。如Baseline生成的文本為“央視曝光3.15被央視曝光”,在帶有覆蓋率機(jī)制的模型中,根據(jù)歷史生成的“央視曝光”的信息,模型調(diào)整注意力集中的位置,接下來(lái)生成了“互聯(lián)網(wǎng)公司”相關(guān)的信息。Baseline生成的文本為“山寨盒子的山寨公司”,在帶有覆蓋率機(jī)制的模型中,根據(jù)歷史生成的“山寨盒子”的信息,模型接下來(lái)生成了“隱秘生態(tài)圈”相關(guān)的信息。Baseline生成的文本為“廣州飛行員飛行訓(xùn)練時(shí)飛行員跳傘成功”,覆蓋率機(jī)制引入了歷史的信息后生成的文本為“廣州空軍飛機(jī)突發(fā)機(jī)械故障飛行員跳傘成功”。
Table 4 Model results sample表4 模型結(jié)果樣例
帶有注意力機(jī)制的Seq2Seq模型在計(jì)算時(shí)不考慮歷史生成的文本信息,可能會(huì)將注意力重復(fù)集中在輸入文本的某些位置,導(dǎo)致生成的摘要文本出現(xiàn)重復(fù),不能很好地概括輸入文本的所有信息。針對(duì)這一問(wèn)題,本文引入了覆蓋率機(jī)制,記錄生成文本時(shí)歷史時(shí)刻的注意力權(quán)重分布,并對(duì)輸入信息進(jìn)行衰減,降低部分位置的注意力權(quán)重,使模型更多地考慮輸入文本中沒(méi)有用到的信息。本文在新浪微博數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,帶有覆蓋率機(jī)制的文本摘要模型的ROUGE評(píng)價(jià)得分高于普通的Seq2Seq模型。
帶有覆蓋率機(jī)制的文本摘要模型可以在一定程度上解決重復(fù)生成部分信息的問(wèn)題,但仍然不能完全避免這一問(wèn)題,生成的摘要文本中仍然會(huì)出現(xiàn)生成重復(fù)信息的情況。與機(jī)器翻譯任務(wù)不同的是,文本摘要任務(wù)的輸出文本是對(duì)輸入文本的概括總結(jié),長(zhǎng)度遠(yuǎn)小于輸入文本,在輸入文本中本來(lái)就包含很多的重復(fù)信息,而機(jī)器翻譯任務(wù)的輸入文本和輸出文本存在一一對(duì)應(yīng)的關(guān)系,未來(lái)可以從這個(gè)角度出發(fā),對(duì)文本摘要任務(wù)進(jìn)行進(jìn)一步的研究。