国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于指針網(wǎng)絡(luò)的抽取生成式摘要生成模型

2022-01-05 02:31偉,楊
計(jì)算機(jī)應(yīng)用 2021年12期
關(guān)鍵詞:編碼器指針權(quán)重

陳 偉,楊 燕

(西南交通大學(xué)計(jì)算機(jī)與人工智能學(xué)院,成都 611756)

(?通信作者電子郵箱yyang@swjtu.edu.cn)

0 引言

隨著網(wǎng)絡(luò)空間中數(shù)據(jù)的爆炸性增長(zhǎng),摘要生成技術(shù)應(yīng)運(yùn)而生,使得人們可以處理非結(jié)構(gòu)化的文本數(shù)據(jù),從而獲得文本的大意。文本摘要技術(shù)的實(shí)現(xiàn)可以增強(qiáng)文檔的可讀性,減少搜尋信息的時(shí)間,獲得更多適用于特定領(lǐng)域的信息,極具學(xué)術(shù)研究意義。目前文本摘要生成技術(shù)可分為生成式和抽取式方法,其中:抽取式文本摘要可確保語(yǔ)法結(jié)構(gòu),但不能保證所生成摘要中的語(yǔ)義連貫性;而生成式文本摘要有效地維持了語(yǔ)義的連貫性,但又無(wú)法確保所生成摘要的語(yǔ)法結(jié)構(gòu)。為了結(jié)合兩者的優(yōu)點(diǎn),一些方法也同時(shí)使用抽取結(jié)合生成的方法來(lái)完成摘要任務(wù)。在生成式摘要中,生成過(guò)程往往缺少關(guān)鍵信息的控制和指導(dǎo),因此一些方法首先提取關(guān)鍵內(nèi)容,再進(jìn)行摘要生成,任務(wù)可以大致分為兩步:首先選擇重要文本內(nèi)容,再將候選內(nèi)容進(jìn)行改寫?;诖?,本文探索了抽取生成式摘要生成方法,構(gòu)造了融合兩者優(yōu)勢(shì)的抽取生成式摘要生成方法。利用抽取式算法抽取主題句子作為輔助語(yǔ)義特征,將語(yǔ)義與生成式方法相結(jié)合,生成的摘要句子具有與主題更加相似以及語(yǔ)義更加連貫豐富的優(yōu)勢(shì)。

首先,在抽取式摘要生成環(huán)節(jié),利用TextRank 算法[1]對(duì)每個(gè)句子節(jié)點(diǎn)進(jìn)行權(quán)重計(jì)算,并融合主題相似性,根據(jù)最終的權(quán)重值對(duì)文章句子進(jìn)行抽取,抽取的信息給后續(xù)的生成式方法提供了額外的信息;然后,在生成式摘要環(huán)節(jié),模型基于Seq2Seq(Sequence-to-Sequence)模型框架,分別對(duì)抽取出的候選語(yǔ)義與原文語(yǔ)義進(jìn)行編碼,再對(duì)語(yǔ)義進(jìn)行融合,送入Seq2Seq 的編碼器,經(jīng)過(guò)訓(xùn)練,模型將能夠?qū)W會(huì)從抽取式文本中提取有效信息;隨后,引入指針網(wǎng)絡(luò)(pointer-generator network)模型來(lái)處理未登錄詞(Out-Of-Vocabulary,OOV)問(wèn)題;最后,在公共數(shù)據(jù)集上進(jìn)行驗(yàn)證,客觀地表明了該模型的效果,分別在ROUGE-1、ROUGE-2 和ROUGE-L 指標(biāo)上獲得提升。

1 相關(guān)工作

自動(dòng)摘要生成一直以來(lái)都是自然語(yǔ)言處理領(lǐng)域經(jīng)典并且熱點(diǎn)的話題,隨著深度學(xué)習(xí)的出現(xiàn),摘要生成領(lǐng)域得到了極大的發(fā)展。文獻(xiàn)[2]中提出了Seq2Seq 模型用于學(xué)習(xí)句子中的特征信息。隨后文獻(xiàn)[3]中將序列到序列模型應(yīng)用于機(jī)器翻譯中,取得了很好的翻譯效果,從此序列到序列模型開始逐漸應(yīng)用于抽象文本摘要,并且生成的抽象文本摘要也獲得了很好的效果。文獻(xiàn)[4]中第一次使用注意機(jī)制進(jìn)一步擴(kuò)展了基本的序列到序列模型,結(jié)合了更多的功能和技術(shù)來(lái)生成摘要。文獻(xiàn)[5]中利用Seq2Seq 模型進(jìn)行句子壓縮,為后續(xù)不同粒度的摘要生成奠定了基礎(chǔ)。文獻(xiàn)[6]中為了控制哪一部分的信息從編碼器到解碼器,在基本模型中增加了一個(gè)選擇門控網(wǎng)絡(luò)。文獻(xiàn)[7]中提出了一種基于圖和注意機(jī)制的模型來(lái)加強(qiáng)源文本重要信息的定位。為了解決未登錄詞問(wèn)題,文獻(xiàn)[8]和文獻(xiàn)[9]中分別提出了COPYNET 模型和pointing 機(jī)制,文獻(xiàn)[10]中創(chuàng)造了read-again 和復(fù)制機(jī)制。文獻(xiàn)[11]中提出了一個(gè)更新版本的指針網(wǎng)絡(luò)模型,效果證明得到了提升。對(duì)于重復(fù)單詞的問(wèn)題,文獻(xiàn)[12]中為了解決翻譯過(guò)多或遺漏的問(wèn)題,提出了覆蓋機(jī)制,利用歷史信息進(jìn)行注意力計(jì)算。文獻(xiàn)[13]中介紹了一系列不同的結(jié)構(gòu)來(lái)解決單詞的重復(fù)問(wèn)題。到目前為止,在摘要生成領(lǐng)域,很少有文章在語(yǔ)言層面上考慮結(jié)構(gòu)或語(yǔ)義問(wèn)題。文獻(xiàn)[14]中提出了一種新的無(wú)監(jiān)督方法,利用修剪后的依賴樹獲取壓縮后的句子。基于中文短文本摘要(Large scale Chinese Short Text Summarization,LCSTS)數(shù)據(jù)集和注意力序列模型,文獻(xiàn)[15]中提出了通過(guò)計(jì)算摘要與文本之間的相似性來(lái)增強(qiáng)語(yǔ)義相關(guān)度方法。

另一方面,抽取生成技術(shù)從源文本中抽取與主題相關(guān)的關(guān)鍵詞和重要句子,構(gòu)成摘要。文獻(xiàn)[16]中提出了一種具有層次編碼器和注意力解碼器的模型,用于解決單詞和句子級(jí)別的抽取摘要任務(wù)。文獻(xiàn)[17]中提出了SummaRuNNer 模型用于抽取摘要內(nèi)容,取得了較好的性能。

2 相關(guān)原理

2.1 Seq2Seq模型

Seq2Seq模型在摘要生成領(lǐng)域中應(yīng)用廣泛,尤其是生成式摘要生成方法,也有將問(wèn)題建模為序列標(biāo)注問(wèn)題,都會(huì)廣泛地使用到Seq2Seq 模型。該模型可以看作是一個(gè)最簡(jiǎn)單的文本摘要模型,使用了多層長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò),將輸入序列映射到固定維向量中,然后使用另一個(gè)LSTM 從向量中將目標(biāo)序列進(jìn)行解碼,模型的主體結(jié)構(gòu)主要由兩部分組成,分別是編碼器和解碼器,編碼器依次接收文本中的每個(gè)單詞作為輸入。

2.2 TextRank算法

TextRank 算法[1]最早受PageRank 算法的影響,將投票的思想應(yīng)用到算法中,當(dāng)某一個(gè)網(wǎng)頁(yè)節(jié)點(diǎn)獲得的投票數(shù)越多,其重要性就越大,在算法計(jì)算過(guò)程中的權(quán)重值也就越大。同時(shí),一個(gè)節(jié)點(diǎn)的權(quán)重還受到投票節(jié)點(diǎn)重要性的影響,因?yàn)橐粋€(gè)節(jié)點(diǎn)自身越重要,那么其被鏈接的節(jié)點(diǎn)重要性就越大。所以,一個(gè)節(jié)點(diǎn)的重要性由其獲得的投票數(shù)及其周圍投票節(jié)點(diǎn)自身的重要性所決定。

而TextRank 算法正是應(yīng)用了這樣一種思想,將文本切割為若干以單詞或則句子為文本單元的狀態(tài),然后將這些文本單元作為一個(gè)又一個(gè)節(jié)點(diǎn),通過(guò)節(jié)點(diǎn)間的相似性來(lái)確定邊和權(quán)重值,以此來(lái)構(gòu)建圖模型。進(jìn)一步地將文本量化,使用矩陣的形式來(lái)進(jìn)行表示,有助于進(jìn)行迭代計(jì)算,最終通過(guò)節(jié)點(diǎn)值的大小進(jìn)行排序選擇,獲得需要的信息內(nèi)容。

該算法不需要對(duì)文檔進(jìn)行訓(xùn)練,使用其文檔信息就可以實(shí)現(xiàn)文檔中關(guān)鍵詞和關(guān)鍵句的提取,其簡(jiǎn)潔性促進(jìn)了該算法的廣泛使用。

該算法模型的實(shí)際應(yīng)用可以看作是對(duì)文檔中句子節(jié)點(diǎn)的圖模型構(gòu)造:文檔中句子所構(gòu)成的節(jié)點(diǎn)集合為V={V1,V2,…,Vn},構(gòu)建網(wǎng)絡(luò)圖G=(V,E,W),E是邊集合,W是邊的權(quán)重集合,節(jié)點(diǎn)之間的權(quán)重可以通過(guò)相似度計(jì)算函數(shù)得到。

節(jié)點(diǎn)間概率轉(zhuǎn)移矩陣如下:

通過(guò)節(jié)點(diǎn)間的概率矩陣和網(wǎng)絡(luò)圖G可以將每個(gè)節(jié)點(diǎn)的權(quán)重進(jìn)行迭代計(jì)算,公式如下:

其中:WS(Vi)是節(jié)點(diǎn)權(quán)重值;d∈(0,1)是阻尼系數(shù),用來(lái)表示圖中某一個(gè)節(jié)點(diǎn)跳轉(zhuǎn)到任意節(jié)點(diǎn)的概率,一般設(shè)置為0.85;IN(Vi)表示指向節(jié)點(diǎn)Vi的所有節(jié)點(diǎn)的集合,OUT(Vj)表示節(jié)點(diǎn)Vj所指向的節(jié)點(diǎn)集合;wij表示節(jié)點(diǎn)Vi與Vj之間的相似度;WS(Vj)表示上一次迭代后的權(quán)重值。

同時(shí),還需要注意到節(jié)點(diǎn)的自身權(quán)重,通常將所有節(jié)點(diǎn)的初始值權(quán)重設(shè)置為1,經(jīng)過(guò)多次迭代后,每個(gè)節(jié)點(diǎn)的權(quán)重值趨于穩(wěn)定達(dá)到收斂,B0=(1,1,…,1)T,且收斂公式如下:

通過(guò)上式,計(jì)算每一次迭代結(jié)果,當(dāng)兩次迭代結(jié)果差值接近于0 時(shí)停止計(jì)算,可得到包含各個(gè)節(jié)點(diǎn)的權(quán)重值向量,再按照權(quán)重值大小進(jìn)行排序,選擇內(nèi)容。摘要句抽取主要步驟如下:

a)預(yù)處理。將文本中句子進(jìn)行完整分割、詞性標(biāo)注等操作。句子集合為S={S1,S2,…,Sn}。

b)計(jì)算句子間相似度。相似度計(jì)算基于句子之間的內(nèi)容重疊率,計(jì)算兩個(gè)句子包含相同詞項(xiàng)的個(gè)數(shù),公式如下:

若兩條邊之間存在語(yǔ)義相關(guān)性,則利用它們構(gòu)成邊,邊的權(quán)值為:

c)利用式(2)迭代計(jì)算句子權(quán)重直至收斂,得到每個(gè)的句子得分。

d)排序選擇。利用c)中的得分進(jìn)行排序,選擇最重要的句子作為該文本的候選摘要句。

e)組成摘要。根據(jù)相關(guān)的要求,如句子數(shù)目、摘要字?jǐn)?shù)等,從d)中選擇最終內(nèi)容。

3 改進(jìn)方法

3.1 句子主題相似性計(jì)算

文檔的標(biāo)題、真實(shí)人工摘要往往都具有鮮明的主題特色,蘊(yùn)含了豐富的主題信息,可以簡(jiǎn)單明了地概括出整個(gè)文檔的中心思想,是天然的參照信息,所以可以利用其優(yōu)勢(shì)來(lái)增強(qiáng)模型摘要的生成質(zhì)量。因此,將參考摘要信息考慮到算法中。用S0表示參考摘要句子,則代表參考摘要的特征詞向量,h′用來(lái)標(biāo)記特征詞數(shù)量。

計(jì)算參考摘要與每個(gè)句子之間的相似度,若相似度越大則對(duì)應(yīng)句子的權(quán)重越大,反之權(quán)重提升越小或者保持原狀,計(jì)算公式如下:

其中:Sih′與S0h′分別表示每個(gè)句子與參考摘要的第h′個(gè)特征詞。根據(jù)上式可獲得向量,以此可將式(3)調(diào)整為:

考慮單詞層面的共同包含的特征詞項(xiàng)。若文檔中各特征詞出現(xiàn)在參考摘要中則對(duì)應(yīng)單詞的權(quán)重越大,反之權(quán)重保持原狀,計(jì)算公式如下:

其中:Si是預(yù)處理后句子i的詞項(xiàng)表,Title表示預(yù)處理后參考摘要的詞項(xiàng)表,wk是同時(shí)出現(xiàn)在參考摘要與句子中的詞項(xiàng)。

計(jì)算結(jié)束后,可得到最終的權(quán)重調(diào)整值,通過(guò)對(duì)融入主題相似性的句子權(quán)重進(jìn)行排序,抽取權(quán)重大小排名靠前的句子作為候選摘要。

3.2 指針網(wǎng)絡(luò)

在模型訓(xùn)練過(guò)程中,針對(duì)出現(xiàn)的OOV 問(wèn)題,同時(shí)也為解決生成文本摘要時(shí)詞匯量不足的問(wèn)題,在基礎(chǔ)模型之上將指針網(wǎng)絡(luò)模型進(jìn)行結(jié)合,利用該算法的優(yōu)勢(shì)來(lái)解決較生澀詞匯的生成問(wèn)題,為提升摘要質(zhì)量提供了解決思路[11]。具體計(jì)算公式如下:

其中:U′、U、b和b′是模型訓(xùn)練中可獲得的學(xué)習(xí)參數(shù),Pvocab是字典上的概率分布。最終預(yù)測(cè)的單詞概率用Pw進(jìn)行表示,公式如下:

該模型根據(jù)時(shí)刻t的上下文向量ct和解碼器隱藏層的輸出狀態(tài)st以及模型的輸入xt來(lái)共同生成指針概率Pgen,且Pgen∈[0,1],計(jì)算公式如下:

該模型的損失函數(shù)使用的是交叉熵函數(shù),對(duì)于模型訓(xùn)練過(guò)程中的每步t,所預(yù)測(cè)目標(biāo)詞為wt*,在t步時(shí),損失函數(shù)將表達(dá)為:

則整個(gè)序列的損失函數(shù)為:

3.3 基于指針網(wǎng)絡(luò)的抽取生成式模型

抽取式文本摘要可確保語(yǔ)法結(jié)構(gòu),但不能保證所生成摘要中的語(yǔ)義連貫性;生成式文本摘要能有效地維持語(yǔ)義的連貫性,但又無(wú)法確保所生成摘要的語(yǔ)法結(jié)構(gòu),所以將兩者的優(yōu)勢(shì)結(jié)合,以期生成更加有可讀性的內(nèi)容。本文模型利用抽取出來(lái)的候選語(yǔ)義與生成式方法相結(jié)合,參照文獻(xiàn)[3],模型如圖1 所示,使用單層雙向LSTM(Bi-directional Long Short-Term Memory,Bi-LSTM)作為模型編碼器,將原文和抽取語(yǔ)義進(jìn)行編碼,利用單向LSTM 作為解碼器進(jìn)行解碼操作。對(duì)于模型訓(xùn)練每一個(gè)步i,分別對(duì)應(yīng)原文文本和抽取的候選摘要的詞嵌入將會(huì)共同輸送到編碼器中,同時(shí)會(huì)生成對(duì)應(yīng)的隱藏狀態(tài)←→。在解碼步驟時(shí),對(duì)每一個(gè)時(shí)間步t,解碼器將從步驟t-1 接收詞嵌入,該步驟是在訓(xùn)練過(guò)程中根據(jù)參考摘要中的前一個(gè)單詞獲得,或解碼器在測(cè)試時(shí)自己提供。然后獲取隱藏狀態(tài)st,生成詞匯分布P(yt)。

圖1 抽取生成式摘要生成模型Fig.1 Extractive and abstractive summarization model

隨后,編碼器隱藏層的輸出hi由融合而成,充分利用原文和抽取語(yǔ)義的信息,具體公式如下:

然后,引入注意力機(jī)制[4],計(jì)算解碼器隱藏狀態(tài)st與hi之間的相關(guān)性eit,計(jì)算公式如下:

其中:tanh()是激活函數(shù);hi與st分別代表編碼器和解碼器隱藏層的輸出;V、Wh、Ws和battn是模型訓(xùn)練所學(xué)習(xí)的參數(shù)。由此可獲得上下文向量ct,公式如下所示:

其中:αit是輸入到編碼器中單詞的注意力分布,可以視為原始文本上的概率分布,可以使得解碼器關(guān)注某些重要詞匯,有助于提取更加重要的語(yǔ)義信息,獲得文本信息表示,促進(jìn)摘要生成。

在該模型中,首先,使用基于注意力機(jī)制的Seq2Seq 模型進(jìn)行構(gòu)建,同時(shí)使用基于TextRank 算法進(jìn)行文本主題信息抽取。然后,在模型編碼層利用特殊字符[SEP]將抽取出來(lái)的候選語(yǔ)義與原文語(yǔ)義進(jìn)行信息融合,特殊字符[SEP]的作用是用于分隔非連續(xù)token序列的特殊符號(hào),目的是在于區(qū)分原文語(yǔ)義和抽取語(yǔ)義。隨后,分別使用編碼器對(duì)原文及抽取語(yǔ)義進(jìn)行編碼,通過(guò)編碼器可以得到各自的隱藏狀態(tài),再通過(guò)編碼器隱藏層上對(duì)應(yīng)的語(yǔ)義向量拼接實(shí)現(xiàn)信息融合,再將融合之后的語(yǔ)義向量一起送入模型中進(jìn)行訓(xùn)練,經(jīng)過(guò)訓(xùn)練后,模型將能夠?qū)W會(huì)[SEP]這個(gè)標(biāo)記之后的內(nèi)容是抽取式文本,并提取其中的有效信息輔助完成摘要生成任務(wù)。

最后,引入指針網(wǎng)絡(luò)模型[18]來(lái)解決模型中出現(xiàn)的OOV 問(wèn)題,利用式(11)獲得指針概率Pgen的值,利用其大小來(lái)判斷模型是從詞匯分布中生成單詞又或是通過(guò)注意力分布從原文中復(fù)制單詞;然后,利用Pgen對(duì)注意力分布和詞匯分布進(jìn)行加權(quán)平均,由于Pgen∈[0,1],可以根據(jù)其大小靈活設(shè)置模型對(duì)詞匯分布和注意力分布的關(guān)注,當(dāng)單詞在詞匯分布中不存在時(shí)則通過(guò)注意力分布將原文單詞進(jìn)行復(fù)制,以此將詞匯表進(jìn)行補(bǔ)充,得到擴(kuò)展詞匯表上的最終分布,有效解決了OOV 問(wèn)題,有利于進(jìn)一步提升摘要質(zhì)量。

4 實(shí)驗(yàn)分析

4.1 實(shí)驗(yàn)環(huán)境和模型訓(xùn)練

本文實(shí)驗(yàn)在Ubuntu 18.04 LTS 操作系統(tǒng)上進(jìn)行,編程語(yǔ)言采用的是Python3.6,深度學(xué)習(xí)框架為TensorFlow 1.10.0,另外使用了CUDA 10.0,用于GPU 加速。主要硬件配置包括CPU 為Intel Core i7 8700K,8 核3.6 GHz;GPU 為NVDIA GTX 1080Ti,顯存11 GB;RAM為16 GB。

在基本模型訓(xùn)練過(guò)程中,編碼器隱藏層使用的是單層雙向LSTM 網(wǎng)絡(luò),隱藏單元數(shù)為256,字向量維數(shù)為128,解碼器隱藏層使用的是單層單向LSTM 網(wǎng)絡(luò)。由于該模型使用指針網(wǎng)絡(luò)來(lái)解決詞匯量不足的問(wèn)題,因此字典的大小設(shè)置為50 000。訓(xùn)練過(guò)程中使用了Adagrad 優(yōu)化器來(lái)進(jìn)行模型優(yōu)化[19],學(xué)習(xí)率設(shè)置為0.15,初始累積值為0.1。模型批量大小是32,beam size 為4,模型最大編碼長(zhǎng)度設(shè)置為500,最大解碼的輸出長(zhǎng)度為100,同時(shí)最小輸出長(zhǎng)度設(shè)置為35,抽取算法中抽取的候選語(yǔ)義長(zhǎng)度設(shè)置為100。

4.2 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)數(shù)據(jù)集使用的是CNN/Daily Mail 數(shù)據(jù)集[20],該數(shù)據(jù)集平均每篇文章中有781 個(gè)標(biāo)記、3.75 個(gè)摘要句,利用CoreNLP 進(jìn)行數(shù)據(jù)預(yù)處理[11],將文章劃分為句子,并將數(shù)據(jù)分為若干塊,每一塊中包含1 000 條文章及摘要信息,該數(shù)據(jù)集包含了訓(xùn)練集、驗(yàn)證集、測(cè)試集,其中訓(xùn)練集中包含287 226個(gè)文章摘要對(duì),驗(yàn)證集中包含13 368個(gè)文章摘要對(duì),測(cè)試集中包含11 490個(gè)文章摘要對(duì),并按照相對(duì)應(yīng)的分類進(jìn)行文件命名。

本實(shí)驗(yàn)評(píng)價(jià)指標(biāo)采用自動(dòng)摘要領(lǐng)域中常用的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[21]系列方法。使用ROUGE-1.5.5工具包對(duì)最終摘要結(jié)果進(jìn)行測(cè)評(píng),其中ROUGE?N計(jì)算公式如下:

其中:n代表連續(xù)單詞數(shù);Ref代表參考摘要集;Count(gramn)用于計(jì)算基準(zhǔn)摘要的N個(gè)連續(xù)單詞數(shù);Countmatch(gramn)計(jì)算了基準(zhǔn)摘要和生成摘要之間匹配的N個(gè)連續(xù)單詞數(shù)。

ROUGE 分別計(jì)算了準(zhǔn)確率P、召回率R和F值,并且F=2PR/(P+R)。

4.3 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本實(shí)驗(yàn)的有效性,選擇了9 種基準(zhǔn)實(shí)驗(yàn)進(jìn)行對(duì)比,參照文獻(xiàn)[22],其中包含典型的生成式摘要方法和抽取式方法:

1)Seq2seq+Attn:以Seq2seq模型為框架,并融合了注意力機(jī)制,是摘要生成領(lǐng)域的典型模型,促進(jìn)了該領(lǐng)域的大力發(fā)展。

2)Seq2seq+Attn(150k):在1)的基礎(chǔ)上改變?cè)~匯量大小,擴(kuò)大詞匯。

3)Seq2seq+Attn+PGN:首次提出指針生成網(wǎng)絡(luò),將該網(wǎng)絡(luò)融入摘要生成模型訓(xùn)練中,提高了解決未登錄詞的能力,促進(jìn)了摘要質(zhì)量。

4)ABS[5]:利用自動(dòng)構(gòu)造的句子-標(biāo)題來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)摘要模型。

5)Lead-3+Dual-attn+PGN[22]:將抽取式方法Lead-3與生成式方法結(jié)合,設(shè)計(jì)了雙重注意力框架并引入指針網(wǎng)絡(luò)模型。

6)WordNet+Dual-attn+PGN[22]:在5)的基礎(chǔ)上利用WordNet進(jìn)行句子抽取,并融合指針生成網(wǎng)絡(luò)模型。

7)TextRank;將句子視為節(jié)點(diǎn)來(lái)構(gòu)造圖模型,分別迭代計(jì)算節(jié)點(diǎn)權(quán)重值,抽取權(quán)重較大信息為摘要內(nèi)容。

8)Graph-Based Attentional Neural Model[7]:構(gòu)造基于圖模型的注意力機(jī)制來(lái)完成摘要生成任務(wù)。

9)SummaRuNNer[17]:將摘要內(nèi)容進(jìn)行抽取,取得了較為良好的性能。

對(duì)比數(shù)據(jù)如表1 所示,可以看出本文模型在ROUGE 相關(guān)指標(biāo)上的表現(xiàn)均得到了一定的提升,從客觀上表明了本文模型在生成文本摘要任務(wù)中具有一定的優(yōu)越性。

從表1還可以看出,在實(shí)驗(yàn)Seq2seq+Attn基礎(chǔ)上引入指針網(wǎng)絡(luò)后,Seq2seq+Attn+PGN 實(shí)驗(yàn)結(jié)果在三個(gè)指標(biāo)上分別提升了5.08、3.81 和4.48 個(gè)百分點(diǎn),因此使用指針網(wǎng)絡(luò)可以較好地提升摘要質(zhì)量。同時(shí),傳統(tǒng)的抽取式摘要生成模型TextRank 模型也為摘要生成帶來(lái)了良好的評(píng)價(jià)結(jié)果,所以基于此,本文在TextRank 模型的基礎(chǔ)之上進(jìn)行模型的優(yōu)化也能進(jìn)一步提升摘要效果,本文模型對(duì)比TextRank 模型在三個(gè)指標(biāo)上分別提升了1.74、1.65和1.73個(gè)百分點(diǎn)。這表明將生成式方法與抽取式方法相融合的方式更能表達(dá)文本的內(nèi)容,也體現(xiàn)了本文模型的優(yōu)勢(shì)。

表1 在CNN/Daily Mail數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 單位:%Tab.1 Experimental results on CNN/Daily Mail dataset unit:%

同時(shí)也給出了該模型對(duì)比TextRank在準(zhǔn)確率P、召回率R和平均F值上的對(duì)比,如表2 所示。可以看出本文模型在相關(guān)指標(biāo)上好于對(duì)比模型,說(shuō)明生成的摘要效果要更加接近于參考摘要,也進(jìn)一步表明了本文模型在同時(shí)考慮抽取式與生成式方法結(jié)合時(shí)能提升摘要生成的質(zhì)量。

表2 不同模型在P、R、F指標(biāo)上的對(duì)比結(jié)果 單位:%Tab.2 Comparison results of different models on indexes P,R,F(xiàn) unit:%

實(shí)驗(yàn)在CNN/Daily Mail 數(shù)據(jù)集上生成的摘要示例如表3所示。由表3 可以看出,本文模型所生成的摘要在語(yǔ)義信息相似性方面得到了一定程度的提升。例如,在第一個(gè)實(shí)例中,面對(duì)文章內(nèi)容較多的情況時(shí)該模型可以保留較為重要信息,并且相對(duì)于TextRank 來(lái)說(shuō),可以去掉較為冗余的信息,生成的摘要更為簡(jiǎn)潔;在第二個(gè)實(shí)例中,對(duì)比TextRank 時(shí),出現(xiàn)了相同的關(guān)鍵信息,同時(shí)該模型又對(duì)部分信息進(jìn)行了改寫,充分體現(xiàn)了抽取式和生成式模型在實(shí)驗(yàn)中的作用,突出了抽取生成式摘要模型的優(yōu)勢(shì),同時(shí)也肯定了該實(shí)驗(yàn)在探索結(jié)合兩者方法過(guò)程中的做法。

表3 文本摘要生成實(shí)例Tab.3 Text summarization instances

5 結(jié)語(yǔ)

本文研究了結(jié)合抽取式方法和生成式方法優(yōu)勢(shì)的基于指針網(wǎng)絡(luò)的抽取生成式摘要生成模型。首先,基于傳統(tǒng)的TextRank 算法將主題相似性因素考慮進(jìn)句子抽取中,得到有效的候選語(yǔ)義,提高句子主題相關(guān)性;其次,設(shè)計(jì)融合抽取語(yǔ)義與原文信息的框架,分別對(duì)其進(jìn)行處理,并通過(guò)語(yǔ)義融合共同完成對(duì)摘要的生成;然后,引入指針網(wǎng)絡(luò)模型解決未登錄詞問(wèn)題;最后,在CNN/Daily Mail 數(shù)據(jù)集上驗(yàn)證了本文模型的有效性。在未來(lái)工作研究中,將進(jìn)一步考慮抽取生成式摘要模型在文本摘要生成中的表現(xiàn)。

猜你喜歡
編碼器指針權(quán)重
基于ResNet18特征編碼器的水稻病蟲害圖像描述生成
WDGP36J / WDGA36J編碼器Wachendorff自動(dòng)化有限公司
權(quán)重望寡:如何化解低地位領(lǐng)導(dǎo)的補(bǔ)償性辱虐管理行為?*
基于Beaglebone Black 的絕對(duì)式編碼器接口電路設(shè)計(jì)*
權(quán)重常思“浮名輕”
郊游
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
權(quán)重漲個(gè)股跌 持有白馬藍(lán)籌
為什么表的指針都按照順時(shí)針?lè)较蜣D(zhuǎn)動(dòng)
基于TMS320F28335的絕對(duì)式光電編碼器驅(qū)動(dòng)設(shè)計(jì)