国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合多層注意力表示的中文新聞文本摘要生成

2023-11-02 12:35雷景生唐小嵐
關(guān)鍵詞:主題詞注意力卷積

王 騫 雷景生 唐小嵐

(上海電力大學(xué) 上海 201300)

0 引 言

隨著互聯(lián)網(wǎng)的飛速發(fā)展以及智能手機(jī)的普及,海量的文本信息進(jìn)入并影響著人們的生活。如何從這些越來越龐大的數(shù)據(jù)中快速獲取自己想要的信息成為當(dāng)下閱讀的一個難題。文本自動摘要技術(shù)應(yīng)運(yùn)而生,它可以對長篇文檔“閱讀理解”之后概括出短小易懂的文本,從而便于讓人們快速了解文本內(nèi)容,掌握數(shù)據(jù)信息。目前文本摘要主要分為抽取式文本摘要和生成式文本摘要。

抽取式摘要是指從原文中選擇比較重要的句子并提取出來作為摘要,這些句子常常包含一些關(guān)鍵詞或者能夠反映文章主旨的詞語。早期的抽取式摘要可以通過獲取包含高頻詞的句子[1],甚至可以直接選擇文章的前幾句作為摘要[2]。圖模型的興起為提高抽取式摘要的性能找到了突破口,它可以將文章中每個句子視作圖結(jié)構(gòu)中的節(jié)點(diǎn),句子間的關(guān)系視作連接節(jié)點(diǎn)的邊,如經(jīng)典算法TextRank[3]。基于此,張?jiān)萍兊萚4]提出了基于圖模型的多文檔摘要生成算法。羅芳等[5]提出了融合主題特征的多維度度量的文本摘要模型MDSR,通過定義主題重要度等概念,結(jié)合其他統(tǒng)計(jì)特征提高了摘要生成質(zhì)量。隨著神經(jīng)網(wǎng)絡(luò)的出現(xiàn),抽取式摘要技術(shù)迎來了巨大的革新。Chopra等[6]提出了可以解決序列數(shù)據(jù)任務(wù)的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network);同樣作為序列數(shù)據(jù),Sutskever等[7]提出了Seq2Seq(sequence-to-sequence)模型,現(xiàn)在已成為文本摘要領(lǐng)域常用的架構(gòu)之一;隨后Bahdanau等[8]在序列模型的基礎(chǔ)上提出了注意力機(jī)制,它可以模仿人的閱讀習(xí)慣,極大地提升了文本摘要的效率。

生成式摘要是將文本數(shù)據(jù)送入計(jì)算機(jī),這類似于人的閱讀過程,需要捕捉和歸納形成文章的主旨大意。生成式摘要可以包括原文本中沒有出現(xiàn)過的詞匯,更符合人類的習(xí)慣,因此越來越受研究人員的青睞。Perez-Beltrachini等[9]提出了一種包含層次解碼器的序列模型,它從文檔和句子兩個角度分別學(xué)習(xí)詞向量并加以組合,并結(jié)合LDA算法為每一個句子分配一個可能的主題,使得生成的句子表意全面且緊扣主題。寧珊等[10]提出了融合關(guān)鍵詞的文本摘要生成方法,它通過提取文中關(guān)鍵詞及相鄰詞的信息來達(dá)到提升主題關(guān)聯(lián)度的目的。倪海清等[11]提出了基于語義感知的短文本摘要生成模型,它結(jié)合了BERT預(yù)訓(xùn)練模型,并且用參考摘要作為監(jiān)督以計(jì)算不一致?lián)p失,生成了質(zhì)量較好的文本摘要。潘慧[12]通過無監(jiān)督的關(guān)鍵句抽取算法得到關(guān)鍵句,并將其壓縮為短文本,然后在短文本的基礎(chǔ)上運(yùn)行模型生成摘要。Nallapati等[13]通過對關(guān)鍵詞建模以及捕捉句子到單詞的結(jié)構(gòu),使生成的摘要結(jié)構(gòu)規(guī)范嚴(yán)謹(jǐn),這給本文提供了良好的思路。上述方法都有結(jié)合注意力機(jī)制,雖然在一定程度上提升了語義表示,但是未能注重中長文本中經(jīng)常出現(xiàn)的遠(yuǎn)距離詞句關(guān)聯(lián),忽略了遠(yuǎn)距離詞句的依賴信息,造成文本表征不全面。

為了解決上述問題,本文提出了融合多層注意力表示的文本摘要方法。該方法總體沿用Seq2Seq架構(gòu),使用Transformer進(jìn)行編碼與解碼。首先通過對中長文本進(jìn)行抽取式分割,得到用于后續(xù)生成式摘要訓(xùn)練的主體文本和輔助文本。然后對主體文本進(jìn)行圖卷積訓(xùn)練和依存句法分析,從句間信息和句子結(jié)構(gòu)兩個方面,得到相關(guān)詞句的動態(tài)表征;同時對輔助文本進(jìn)行高頻主題詞抽取。最后將以上三種信息以三種注意力表示與Transformer進(jìn)行融合,加強(qiáng)輸入文本的信息表征,從而輸出表意更加全面的文本摘要。

1 本文模型

本文的主體研究路線如圖1所示。

圖1 論文研究路線

圖1中,首先將中文文本進(jìn)行預(yù)處理,并通過預(yù)訓(xùn)練模型得到詞向量,接著通過TextRank算法將文本分為主體文本和輔助文本;然后對主體文本進(jìn)行圖卷積和依存句法分析,分別得到包含句間序列信息的詞向量表征和包含句法結(jié)構(gòu)信息的依存詞對,同時對輔助文本進(jìn)行高頻主題詞的挖掘,盡可能地利用文本信息,這里主要用到的方法是LDA和TF-IDF;最后將這三種信息送入Transformer模型并對模型稍作改進(jìn),得到最終的摘要。

1.1 預(yù)訓(xùn)練模型

ALBERT是BERT模型的優(yōu)化模型之一。它將原始BERT模型的Embedding Dimension(簡稱E)與Hidden Dimension(簡稱H)解綁,采用矩陣因式分解的方法,將原本的參數(shù)量V×H優(yōu)化為V×E+E×H,大大減少了模型參數(shù)。

傳統(tǒng)Transformer的每一層參數(shù)都是獨(dú)立的,導(dǎo)致層數(shù)增加時帶來參數(shù)量的大幅上升。ALBERT模型將所有層的參數(shù)共享,相當(dāng)于只學(xué)習(xí)第一層的參數(shù),并在剩下的所有層中重新用該層的參數(shù)。實(shí)驗(yàn)發(fā)現(xiàn),使用共享參數(shù)不僅可以減小參數(shù)規(guī)模,提升運(yùn)算速度,還可以有效地提升模型穩(wěn)定性。

另外,ALBERT將BERT模型中的“下一個句子預(yù)測”任務(wù)改為“句子順序預(yù)測”,提高了多種下游任務(wù)的表現(xiàn)。

本文基于減少實(shí)驗(yàn)參數(shù)及提升詞向量表征的綜合考量,采用ALBERT模型對輸入文本詞匯進(jìn)行訓(xùn)練。

1.2 TextRank算法

TextRank是抽取式文摘領(lǐng)域的經(jīng)典算法,它是一種用于文本的基于圖的排序算法。它的基本思想是將每個句子視作節(jié)點(diǎn),句子間的相似度視作連接節(jié)點(diǎn)的邊上的權(quán)值。為每個節(jié)點(diǎn)初始化一個值,通過不斷迭代計(jì)算直到收斂。最終將結(jié)果值最高的K個節(jié)點(diǎn)即句子作為最終摘要。

TextRank一般模型可以表示為一個有向有權(quán)圖G=(V,E),由點(diǎn)集合V和邊集合E組成。本文將中文數(shù)據(jù)集以句號分割得到的每一個句子vi作為節(jié)點(diǎn),以vi、vj兩個句子間的詞匯共現(xiàn)度作為節(jié)點(diǎn)上邊的權(quán)重wij。對于一個給定的點(diǎn)vi,(vi)為指向該點(diǎn)的點(diǎn)集合,Out(vi)為點(diǎn)vi指向的點(diǎn)集合。點(diǎn)vi的得分定義如下:

(1)

式中:d為阻尼系數(shù),表示從圖中某一節(jié)點(diǎn)指向其他任意點(diǎn)的概率,一般取0.85[14]。

對于給定的句子Si和Sj,詞匯共現(xiàn)度計(jì)算公式如式(2)所示。

(2)

式中:sim(Si,Sj)表示兩個句子的共現(xiàn)度。

每個頂點(diǎn)的最終取值與初始權(quán)值的選擇無關(guān),初始權(quán)值只會影響算法迭代直到收斂的次數(shù)??紤]到阻尼系數(shù)d取0.85,它表示圖中某一節(jié)點(diǎn)指向其他任一點(diǎn)的概率為0.85,則可認(rèn)為該節(jié)點(diǎn)對自身的轉(zhuǎn)移概率為0.15,即本文為每個句子節(jié)點(diǎn)賦初始權(quán)重為0.15。另外,TextRank算法中任意一點(diǎn)的誤差率小于給定的極限值就可以達(dá)到收斂,文獻(xiàn)[14]認(rèn)為該極限值是一個經(jīng)驗(yàn)值,一般取0.000 1即可令絕大部分節(jié)點(diǎn)的誤差率達(dá)到收斂,因此本文取該極限值為0.000 1。

當(dāng)算法收斂時,按照得分從高到低排序,取前40%的句子組合做主體文本。這里的40%是因?yàn)楸敬螌?shí)驗(yàn)所用的樣本平均長度在10個句子左右(以句號分割),后續(xù)的對比實(shí)驗(yàn)要求樣本平均長度為4,所以只取結(jié)果中前40%的句子,以達(dá)到數(shù)據(jù)集的一致性。

1.3 依存句法分析

依存指的是非對稱的、二元的中心詞與依賴詞之間的關(guān)系。依存句法分析通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu)。對于計(jì)算機(jī)來說,理解詞匯本身的意思是很難的,但是可以通過理解詞匯所承受的語義框架來描述該詞匯。

依存句法分析認(rèn)為句子中的核心動詞是支配其他成分的中心成分,它本身不受支配。其次,其他成分間也存在支配關(guān)系。例如,“他一邊喝小米粥,一邊看小米電視?!边@句話中,核心動詞是“喝”,它與“看”是并列關(guān)系;“喝”與“小米粥”、“看”與“小米電視”分別是動賓關(guān)系。但是句子中的“小米粥”與“小米電視”有相同的部分“小米”,如果僅僅只關(guān)注這個部分,相應(yīng)的詞向量會很難區(qū)分二者的差異。而通過依存句法分析之后,會很容易明白二者各自的含義。

依存分析的結(jié)果表示為有向圖,如圖2所示。

圖2 依存句法分析有向圖

本文只關(guān)注三種主要的關(guān)系:動賓關(guān)系dobj,如“喝”與“小米粥”;并列關(guān)系conj,如“喝”與“看”,復(fù)合關(guān)系compound,如“小米”與“電視”。將這些關(guān)系表示為依存詞對,如<喝,小米粥>,詞對中的兩個詞可能相鄰,也可能距離稍遠(yuǎn);然后用詞位置信息替代,將其和原始詞向量送入Transformer編碼器,其中詞位置信息指的是該詞在句子中從前往后的位置;取最后一層encoder中每個詞對應(yīng)位置的隱藏層狀態(tài)向量,將兩個詞向量簡單拼接,作為decoder的輸入。

1.4 圖卷積神經(jīng)網(wǎng)絡(luò)

圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)是近幾年流行起來的神經(jīng)網(wǎng)絡(luò)模型[15]。原始卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的感受野受制于目標(biāo)詞,很難滿足大多數(shù)場景的需求?,F(xiàn)實(shí)生活中很多場景都呈現(xiàn)網(wǎng)狀結(jié)構(gòu)G=,其中:V代表節(jié)點(diǎn),E代表節(jié)點(diǎn)間的關(guān)系。而文本序列由于具有時序性,前面的詞句或多或少會影響到后面的詞句,且不同的詞句可以構(gòu)成不同的節(jié)點(diǎn)。這樣同時具備了圖結(jié)構(gòu)的節(jié)點(diǎn)和邊信息,因此本文嘗試使用圖卷積神經(jīng)網(wǎng)絡(luò)(見圖3)對文本數(shù)據(jù)進(jìn)行向量化表示并且學(xué)習(xí)更高層次的表征。

圖3 圖卷積網(wǎng)絡(luò)的概念

如圖3所示,GCN包含輸入層、輸出層和中間的隱藏層。H(0)表示經(jīng)過訓(xùn)練的詞向量組成的句矩陣輸入,H(N)表示輸出。中間每一個隱藏層的計(jì)算公式為:

(3)

(4)

將詞向量矩陣作為一個節(jié)點(diǎn),句子之間的相似度作為邊的權(quán)重,構(gòu)建圖網(wǎng)狀結(jié)構(gòu)。這里的構(gòu)建過程與TextRank算法的圖構(gòu)建過程是相似的,但是迭代計(jì)算的原理不同。GCN的權(quán)重傳播原理如圖4所示。

圖4 GCN節(jié)點(diǎn)權(quán)重傳播圖

圖4中,A、B、C和D分別表示不同的節(jié)點(diǎn),以節(jié)點(diǎn)A為例,圖4(a)表示第一步:發(fā)射,將其他節(jié)點(diǎn)自身的特征信息經(jīng)過變換后發(fā)送給節(jié)點(diǎn)A,可以理解為對節(jié)點(diǎn)特征進(jìn)行抽取變換;圖4(b)表示第二步:接收,將節(jié)點(diǎn)A及其鄰居節(jié)點(diǎn)的特征信息聚合起來,即融合該節(jié)點(diǎn)的局部信息;圖4(c)表示第三步:變換,把前面的信息聚合之后做非線性變換,增加向量的表達(dá)能力。

圖卷積巧妙地將CNN的局部注意力轉(zhuǎn)換為一個節(jié)點(diǎn)對其鄰居節(jié)點(diǎn)的注意力,這無疑更加符合人類對網(wǎng)狀結(jié)構(gòu)的認(rèn)知。通過圖卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,可以得到更加具有綜合性、概括性的詞向量。從某種意義上講,圖卷積將文本的時間序列轉(zhuǎn)變成了空間序列,所以不用考慮之后的Seq2Seq架構(gòu)再次使用LSTM等循環(huán)神經(jīng)網(wǎng)絡(luò)。

1.5 LDA與TF-IDF

本節(jié)主要是通過LDA與TF-IDF算法對輔助文本進(jìn)行高頻主題詞的挖掘,輔助文本指的是對原始文本進(jìn)行抽取式提取關(guān)鍵句之后剩下的文本內(nèi)容。這部分文本中也必然包含著一些能夠表達(dá)文章主題的、頻繁出現(xiàn)的詞匯,因此對其進(jìn)行信息挖掘很有必要。

1.5.1LDA

LDA算法是一種文檔主題生成模型,其主要原理簡單來講就是“文章以一定概率選擇了某個主題,然后又在這個主題下以一定概率選擇了某個單詞”,通過這樣一個層次關(guān)系將“文檔w-詞匯d”的關(guān)系拓展為“文檔w-主題t-詞匯d”。因此LDA算法的核心公式為:

p(w|d)=p(w|t)×p(t|d)

(5)

LDA整個模型中所有可見變量以及隱藏變量的聯(lián)合分布為:

p(wi,zi,θi,Φ|α,β)=

(6)

式中:wi表示文本中第i個詞;zi表示第i個主題;θi表示從狄利克雷分布α中取樣生成文本i的主題分布;zi,j表示從主題的多項(xiàng)式分布θi中取樣生成文檔i第j個詞的主題;Φ表示從狄利克雷分布β中取樣生成主題zi,j的詞語分布,其具體分布形式寫為φzi,j;wi,j表示從詞語的多項(xiàng)式分布Φ中采樣生成的最終詞語。

最終一篇文檔的單詞分布的最大似然估計(jì)可以通過對式(6)中的θi、Φ進(jìn)行積分以及對zi進(jìn)行求和得到,即:

(7)

根據(jù)式(7),本文目的是得到主題分布zi和詞匯分布wi。常用的方法是采用Gibbs采樣對其進(jìn)行參數(shù)估計(jì)來得到主題-詞參數(shù)矩陣Φ和文檔-主題矩陣θ,最終得到輔助樣本中各篇文檔的主題詞。

1.5.2TF-IDF

TF-IDF算法常用于計(jì)算文本中的加權(quán)詞頻,得到文本中較為重要的詞。TF指的是詞頻,IDF指逆文本頻率指數(shù)。其主要思想是:一個詞若能在一篇文章中高頻出現(xiàn),且在其他文章中很少出現(xiàn),則認(rèn)為這個詞能夠代表這篇文章,即該詞是這篇文章的關(guān)鍵詞。

(8)

(9)

式(8)表示第i個詞條的TF值,其中分子表示某篇文章中包含第i個詞條的個數(shù),分母則表示這篇文章的總詞條數(shù)目。式(9)表示第i個詞條的IDF值,括號內(nèi)分子表示數(shù)據(jù)集中的文章總數(shù),分母表示數(shù)據(jù)集中包含第i個詞條的文章總數(shù),之所以要加1,是為了避免分母為0;boolean(i)表示如果第i個詞條在第m篇文章中,則為1,反之則為0。最終的TF-IDF計(jì)算公式為:

TF_IDF=TF×IDF

(10)

TF_IDF值越大,則這個詞成為一個關(guān)鍵詞的概率就越大。

通過以上兩種算法分別得到輔助樣本中每個文本的主題詞與關(guān)鍵詞,本文對這兩個集合取交集得到最終的高頻主題詞。

1.6 融合多層注意力表的Transformer模型

通過1.3節(jié)、1.4節(jié)和1.5節(jié),分別得到依存詞對、圖卷積表示以及輔助樣本中的高頻主題詞,現(xiàn)在將它們分別輸入Transformer模型中,進(jìn)行學(xué)習(xí)以及文本摘要的生成。

1.6.1傳統(tǒng)的Transformer模型

Transformer模型是由Google團(tuán)隊(duì)為解決Seq2Seq問題而提出的,它用全attention的結(jié)構(gòu)代替了長短期記憶網(wǎng)絡(luò)LSTM,在自然語言處理領(lǐng)域取得了很好的效果。Transformer模型的結(jié)構(gòu)如圖5所示。

圖5 Transformer結(jié)構(gòu)圖

Transformer包括n個編碼器和n個解碼器,每個編碼器中又包含兩個子層,分別是多頭注意力層和前饋層;解碼器在編碼器中兩層的基礎(chǔ)上,又加入一個編碼-解碼注意力子層。除此之外,上述所有子層之后都有一個殘差連接和歸一化層,目的是為了連接低維的向量、減小不同范圍數(shù)據(jù)的不利影響。

文本數(shù)據(jù)通過編碼和嵌入位置信息之后,進(jìn)入編碼器,通過多頭自注意力層對文本不同位置的信息進(jìn)行學(xué)習(xí),然后在前饋層調(diào)整權(quán)重等參數(shù);通過n個這樣的編碼器,在最頂端輸出包含隱藏層信息的狀態(tài)向量,再次輸入解碼器;解碼器的大致步驟和編碼器相同,但是自注意力層只處理輸出序列中靠前的位置,因?yàn)榭亢笪恢玫男畔敵鲂蛄羞M(jìn)行引導(dǎo),達(dá)不到預(yù)測目標(biāo)位置詞匯的效果。

1.6.2融合多種注意力表示的改進(jìn)Transformer模型

傳統(tǒng)的Transformer模型在編碼解碼時通過設(shè)置多頭注意力層對句子不同的位置進(jìn)行局部注意力感知,最后將其拼接為完整的詞向量。這種局部注意力只能對目標(biāo)詞周圍視野內(nèi)的詞信息進(jìn)行學(xué)習(xí),但是有時候無意義地對周圍詞信息進(jìn)行學(xué)習(xí)非常浪費(fèi)計(jì)算成本和時間,因?yàn)榭赡芟噜彽膬蓚€詞或多個詞并沒有多大的關(guān)聯(lián),僅僅是文本語義上的遞進(jìn),或者稱之為“自然堆砌”。因此引導(dǎo)局部注意力機(jī)制向更有效率的方向聚焦非常有必要。

本文在傳統(tǒng)局部注意力的基礎(chǔ)上,使用前文提到的圖卷積表示的詞向量作為Transformer編碼器的基礎(chǔ)輸入,結(jié)合依存詞對和高頻主題詞的信息,設(shè)計(jì)了以下改進(jìn)的Transformer模型。

首先將高頻主題詞分別與圖卷積表示的詞向量矩陣進(jìn)行相似度計(jì)算,得到每個詞與高頻主題詞相似度的由高到低的排序,計(jì)算公式如下:

(11)

式中:wj表示句子中的第j個詞;gi表示高頻主題詞集中的第i個詞。通過將兩個詞向量進(jìn)行相乘,得到它們之間的相似性,繼續(xù)計(jì)算該詞與下一個主題詞的相似性,依此類推,最后將所有相似度累加,得到該詞與主題的整體相關(guān)度。將句子中的每個詞都計(jì)算其與主題的相關(guān)度,選擇相關(guān)度最高的TopK個詞,并對這些詞設(shè)置特殊標(biāo)記位,原理圖如圖6所示。

圖6 改進(jìn)的Transformer結(jié)構(gòu)

圖6中Wd和Wd′分別表示原始滑動窗口長度和擴(kuò)展之后的窗口長度。帶星號的位置表示與主題高度相關(guān)的詞。

處理完文本輸入之后,將其放入Transformer模型進(jìn)行學(xué)習(xí)。當(dāng)?shù)谝粋€編碼器學(xué)習(xí)到具有星號標(biāo)記位的詞時,將滑動窗口的左右長度各放大一個單位。因?yàn)樵撛~與主題相關(guān)度高,故認(rèn)為其周圍的詞也可能包含更多的主題信息,這樣在頂層編碼器能夠使目標(biāo)詞學(xué)習(xí)到更多周圍詞的信息。

在最后一個編碼器學(xué)習(xí)完畢之后,根據(jù)依存詞對儲存的位置信息,將對應(yīng)詞的隱狀態(tài)向量提取出來,隨后放入解碼器進(jìn)行學(xué)習(xí)。

進(jìn)入解碼階段,大致步驟和傳統(tǒng)的Transformer解碼器相同。不同之處在于,如果解碼的時候碰到了具有依存信息的詞時,則將該詞周圍位置的詞隱狀態(tài)向量改為和該詞具有依存關(guān)系詞的隱狀態(tài)向量??紤]到有些詞并沒有依存關(guān)系,因此對這些詞依然采用原來的局部注意力處理。即:

Attention=(1-p)×D_Attention+

p×L_Attention,p∈{0,1}

(12)

式中:D_Attention表示依存注意力;L_Attention表示局部注意力。

綜上,將圖卷積表示的詞向量作為基礎(chǔ)輸入,此為第一種注意力表示;根據(jù)高頻主題詞的信息,將傳統(tǒng)局部注意力適當(dāng)放大,以學(xué)習(xí)到更多主題信息,此為第二種注意力表示;按照依存關(guān)系對目標(biāo)詞進(jìn)行更遠(yuǎn)距離的信息學(xué)習(xí),此為第三種注意力表示。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 實(shí)驗(yàn)數(shù)據(jù)集

本文采用文本摘要研究領(lǐng)域較為通用的數(shù)據(jù)集,即NLPCC2017任務(wù)中面向今日頭條的新聞文本摘要數(shù)據(jù)集,該數(shù)據(jù)集涵蓋民事、科技、娛樂、醫(yī)學(xué)、軍事等十多個領(lǐng)域內(nèi)的中文新聞內(nèi)容,每一篇新聞文本都含有新聞對應(yīng)的人工撰寫的摘要,可用于評估針對互聯(lián)網(wǎng)媒體網(wǎng)站上新聞文檔的自動摘要技術(shù)。訓(xùn)練集包括文本內(nèi)容和參考摘要共100 418條,測試集包括文本內(nèi)容和參考摘要共4 000條。

2.2 實(shí)驗(yàn)過程

首先對數(shù)據(jù)進(jìn)行預(yù)處理:由于本文研究的是中長文本摘要,因此先將文本過短的新聞進(jìn)行剔除,剔除后新聞數(shù)量約為10萬條;然后對文本進(jìn)行分詞、去停用詞、詞性標(biāo)注等工作;最后按照圖1的流程進(jìn)行實(shí)驗(yàn)。詞性標(biāo)注的工作是為了之后的依存句法分析便于進(jìn)行。

2.3 實(shí)驗(yàn)結(jié)果評價指標(biāo)

本論文實(shí)驗(yàn)采用國際通用的摘要評價指標(biāo)ROUGE,ROUGE分?jǐn)?shù)用于計(jì)算生成摘要與參考摘要的詞匯重疊度。本文采用其中的ROUGE-1、ROUGE-2、ROUGE-S4。ROUGE-1和ROUGE-2分?jǐn)?shù)分別表示公共詞長度為1和2的重疊度,這兩個指標(biāo)直觀簡潔,能夠在一定程度上反映詞序;ROUGE-S4表示詞間最大距離為4,比n-gram模型更能深入反映句子級詞序。

2.4 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

本實(shí)驗(yàn)的環(huán)境配置和參數(shù)設(shè)置分別如表1和表2所示。

表1 實(shí)驗(yàn)環(huán)境配置

表2 實(shí)驗(yàn)參數(shù)設(shè)置

2.5 實(shí)驗(yàn)結(jié)果分析

為了探究本文模型的優(yōu)劣,選擇以下摘要模型作為基線模型,分別是經(jīng)典的TextRank抽取式摘要模型(取得分最高的兩個句子組成摘要)、傳統(tǒng)的Transformer生成式摘要模型、羅芳等[5]提出的MDSR摘要模型、寧珊等提出的融合關(guān)鍵詞的摘要模型(下文簡稱為“關(guān)鍵詞模型”)。后兩種模型由于建立在短文本數(shù)據(jù)集上,因此直接使用本文中的主體文本作為數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。為了證明數(shù)據(jù)集的基準(zhǔn)性,本文還與NLPCC2017文本摘要任務(wù)中排名靠前的NLP@WUST團(tuán)隊(duì)的實(shí)驗(yàn)?zāi)P蚚16]進(jìn)行對比。該團(tuán)隊(duì)使用基于句子抽取的特征工程來獲得抽取式摘要,并通過句子壓縮算法進(jìn)一步提高摘要質(zhì)量。另外,針對本文的多層注意力表示,設(shè)置多個消融分析實(shí)驗(yàn),觀察其中各層注意力的效果。

2.5.1本文模型與基線模型對比實(shí)驗(yàn)

通過在NLPCC 2017文本摘要集上對各模型進(jìn)行復(fù)現(xiàn)實(shí)驗(yàn),得到五個基線模型與本文模型的ROUGE分?jǐn)?shù),具體如表3所示。

表3 各模型結(jié)果對比實(shí)驗(yàn)結(jié)果(%)

為了更直觀地觀察分析結(jié)果,將該表數(shù)據(jù)繪制為如圖7所示的折線統(tǒng)計(jì)圖。

圖7 各模型對比實(shí)驗(yàn)結(jié)果圖

可以看出,本文提出的融合多層注意力表示的文本摘要方法在各項(xiàng)指標(biāo)上均有提升。與經(jīng)典的TextRank算法模型和傳統(tǒng)的Transformer序列模型相比較,本文模型效果有了一倍多的提升,分析原因可知,本文提出的多層注意力表示已經(jīng)將TextRank算法的思想、傳統(tǒng)的Transformer模型涵蓋在內(nèi),并且在其上有了更大的改進(jìn),因此會有一個很大的提升。與MDSR模型、關(guān)鍵詞模型相比較,本文模型的ROUGE-S4分?jǐn)?shù)分別增加了3.95百分點(diǎn)和1.50百分點(diǎn),原因在于本文模型在照顧到高頻主題詞的基礎(chǔ)上,不僅增加了句法結(jié)構(gòu)方面的知識和相關(guān)的遠(yuǎn)距離注意力跳轉(zhuǎn),還對相鄰詞句進(jìn)行了更高層次的圖卷積表示,極大地豐富了詞向量的表征。NLP@WUST團(tuán)隊(duì)的模型ROUGE-2分?jǐn)?shù)為22.53%,是所有實(shí)驗(yàn)中最高的,但是ROUGE-S4分?jǐn)?shù)比本文模型低2.42百分點(diǎn),分析原因可知該團(tuán)隊(duì)的模型用特征工程的方法,結(jié)合多種詞句特征在原文中選擇出具有代表性的詞匯,但是并沒有對長距離詞句關(guān)系進(jìn)行探究,因此呈現(xiàn)出詞匯共現(xiàn)度高但是句子級詞序描述不足的結(jié)果。綜上所述,本文提出的方法可以被證明對文本摘要具有可行性,且能達(dá)到較好的效果。

2.5.2本文模型各層注意力消融分析實(shí)驗(yàn)

為了探究本文方法中各層注意力表示的效果,設(shè)置以下消融分析實(shí)驗(yàn)。以傳統(tǒng)的Transformer序列模型作為對照,分別以GCN、依存詞、主題詞三種注意力表示、三者之間兩兩結(jié)合以及最后三者綜合起來進(jìn)行對比分析,得到如圖8所示的條形統(tǒng)計(jì)圖(為了方便對比,去掉了解釋性最差的ROUGE-1分?jǐn)?shù))。

圖8 各注意力消融分析結(jié)果圖

由圖8看出,在第二至第四組實(shí)驗(yàn)中,GCN加Transformer的表現(xiàn)最好,其ROUGE-2、ROUGE-S4分?jǐn)?shù)比依存詞加Transformer分別高了約3百分點(diǎn)和2百分點(diǎn),比主題詞加Transformer分別高了約4百分點(diǎn)和2.5百分點(diǎn);在第五至第七組實(shí)驗(yàn)中,GCN加依存詞和Transformer的ROUGE得分最高,分別比其他兩組的得分高了約2百分點(diǎn)、4百分點(diǎn)。這表明,同數(shù)量層的注意力表示中,包含圖卷積GCN表示的實(shí)驗(yàn)效果是最佳的,其次是依存詞,最后是主題詞。分析原因可以知道,實(shí)驗(yàn)中先做的是圖卷積表示,每個詞向量都學(xué)習(xí)到大量周圍詞以及相鄰句子的知識,而依存詞和主題詞分別在其基礎(chǔ)上進(jìn)行優(yōu)化改進(jìn),且主題詞是在輔助文本中挖掘得到,主體文本中已經(jīng)包含了許多主題相關(guān)的關(guān)鍵詞,因此對實(shí)驗(yàn)的積極影響都相對較小。

2.6 典型示例說明

為了更加具象化實(shí)驗(yàn)數(shù)據(jù)的解釋性,實(shí)驗(yàn)還選取了數(shù)據(jù)集中的一條新聞樣本在各個模型下生成的摘要進(jìn)行對比說明。如表4所示,其中包括文本內(nèi)容、參考摘要、對比實(shí)驗(yàn)的摘要以及本文模型的摘要。

表4 各模型生成的摘要示例

可以看出,TextRank、MDSR、NLP@WUST的結(jié)果屬于抽取式摘要,而Transformer、關(guān)鍵詞模型、本文模型的結(jié)果屬于生成式摘要。TextRank和MDSR的摘要可讀性較差,前者直接抓取了文本的前兩句內(nèi)容,后者則僅生成了關(guān)鍵詞的集合;Transformer和關(guān)鍵詞模型的摘要大意和參考摘要貼合,但是句式結(jié)構(gòu)糅雜,部分語義模糊的問題很明顯;而NLP@WUST團(tuán)隊(duì)模型的摘要缺少主語。本文模型利用圖卷積和依存關(guān)系解決了長距離依賴和句式結(jié)構(gòu)的問題,并且通過挖掘高頻主題詞使得摘要進(jìn)一步貼合主題,所以生成了可讀性更好、表意完整、句式結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)恼?/p>

3 結(jié) 語

本文針對傳統(tǒng)的文本序列模型向量表征不全面,且融合句法結(jié)構(gòu)信息方面稍顯欠佳的問題,提出了一種融合多種注意力表示的文本摘要方法。本方法適用于中長文本數(shù)據(jù)集,首先通過抽取式摘要技術(shù)將文本分割為主體文本和輔助文本,然后利用圖卷積網(wǎng)絡(luò)、依存句法分析和高頻主題詞得到融合后的注意力表示,最后將其送入Transformer序列模型中,得到文本摘要。實(shí)驗(yàn)結(jié)果相較于經(jīng)典的算法模型和目前的幾個研究更優(yōu),下一步的工作是研究如何融合更多更復(fù)雜的句法結(jié)構(gòu),且巧妙地改進(jìn)注意力模型來獲得質(zhì)量更高的文本摘要。

猜你喜歡
主題詞注意力卷積
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個21世紀(jì)的Ei主題詞
我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個21世紀(jì)的Ei主題詞
2014年第16卷第1~4期主題詞索引
《疑難病雜志》2014年第13卷主題詞索引
东莞市| 永宁县| 百色市| 陇川县| 凤翔县| 海盐县| 安宁市| 涿州市| 上思县| 伊吾县| 丹东市| 浦城县| 石门县| 兴宁市| 古蔺县| 临沧市| 永顺县| 西峡县| 涟水县| 信阳市| 保定市| 个旧市| 怀集县| 虎林市| 三穗县| 荣成市| 保定市| 清远市| 中阳县| 呈贡县| 石嘴山市| 汉阴县| 饶阳县| 威海市| 陕西省| 彭泽县| 马关县| 龙陵县| 神农架林区| 子长县| 宝兴县|