国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于篇章主次關(guān)系的單文檔抽取式摘要方法研究

2019-09-05 12:33:38王中卿王紅玲
中文信息學(xué)報(bào) 2019年8期
關(guān)鍵詞:文檔神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)

張 迎,王中卿,王紅玲

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 江蘇 蘇州 215006)

0 引言

在信息呈現(xiàn)爆炸式增長(zhǎng)的時(shí)代,如何從龐大的互聯(lián)網(wǎng)上獲取更有價(jià)值的信息成為人們?nèi)找骊P(guān)注的重點(diǎn)。自動(dòng)文摘作為人們高效利用信息的重要手段,一直是自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)。自動(dòng)文摘是通過(guò)對(duì)原文本進(jìn)行壓縮、提煉,為用戶(hù)提供簡(jiǎn)明扼要的文字描述。根據(jù)處理的文檔數(shù)量,自動(dòng)文摘可以分為: 單文檔自動(dòng)文摘(Single-document Summarization)和多文檔自動(dòng)文摘(Multi-document Summarization)。根據(jù)文摘句選取方式的不同又分為: 抽取式文摘(Extraction Summarization)和理解式文摘(Abstraction Summarization)。

抽取式文摘是目前最主流、應(yīng)用最廣、最容易實(shí)現(xiàn)的方法。傳統(tǒng)的抽取式摘要主要考慮單詞的詞頻信息,通過(guò)計(jì)算句子的相似度得分,再對(duì)關(guān)鍵句排序,抽取得分高的句子作為摘要[1]。這種方法只考慮單獨(dú)的字、詞等語(yǔ)義信息,并沒(méi)有考慮結(jié)構(gòu)信息,抽取的摘要的可讀性較差。

近年來(lái),隨著篇章級(jí)語(yǔ)料庫(kù)(尤其是PDTB[2]、RST-DT[3]、CDTB[4])的不斷建設(shè),以及相關(guān)國(guó)際學(xué)術(shù)評(píng)測(cè)(如CoNLL2015、CoNLL2016等)的大力推動(dòng),篇章結(jié)構(gòu)分析發(fā)展迅速,目前已成為自然語(yǔ)言處理領(lǐng)域最活躍的研究方向之一。篇章是句子層級(jí)之上的自然語(yǔ)言單位,篇章結(jié)構(gòu)分析旨在研究篇章內(nèi)部的結(jié)構(gòu)關(guān)系,從整體上理解篇章。篇章主次關(guān)系作為篇章結(jié)構(gòu)的一個(gè)重要組成部分,一直融合在篇章結(jié)構(gòu)的研究中。篇章的主次關(guān)系可分為段落間的主次關(guān)系[5]和句子間的主次關(guān)系[6],本文研究的篇章主次關(guān)系指的是句子間的主次關(guān)系。句子間的主次關(guān)系研究旨在分析篇章內(nèi)部的主要內(nèi)容和次要內(nèi)容,進(jìn)而更好地理解篇章的主題思想和展開(kāi)思路。篇章的主次關(guān)系標(biāo)記主要有3類(lèi),center=1: 前一句為核心句子;center=2: 后一句為核心句子;center=3: 兩個(gè)句子同為核心句子。例如,圖1中“|”是句子的分隔符,表示這兩個(gè)句子在此處被分割開(kāi)來(lái)??梢钥闯觯@兩個(gè)句子中,前一句是主要內(nèi)容,后一句是為前一句作解釋說(shuō)明是次要內(nèi)容。所以它們的主次關(guān)系標(biāo)記為: center=1。如果在抽取摘要的時(shí)候給這兩個(gè)句子標(biāo)記主次關(guān)系標(biāo)簽,則第一個(gè)句子的重要性就會(huì)被凸顯出來(lái),在抽取文檔核心句子的時(shí)候,第一句就會(huì)被格外關(guān)注,這樣就可以抽取出更能概括文檔核心內(nèi)容的句子。

圖1 主次關(guān)系示例

本文將篇章主次關(guān)系等結(jié)構(gòu)信息加入到自動(dòng)摘要任務(wù)中,以此來(lái)指導(dǎo)摘要的抽取。首先,通過(guò)一個(gè)主次關(guān)系標(biāo)記模型給實(shí)驗(yàn)語(yǔ)料標(biāo)記篇章的主次關(guān)系,這里標(biāo)記的是相鄰兩個(gè)句子間的主次關(guān)系。然后,按比例從正文中抽取與參考摘要相似度最高的句子作為正例,其余為負(fù)例。最后,在模型構(gòu)建方面,本文基于神經(jīng)網(wǎng)絡(luò)模型構(gòu)建一個(gè)篇章的主次關(guān)系預(yù)測(cè)和文本摘要任務(wù)的聯(lián)合學(xué)習(xí)模型,同時(shí)學(xué)習(xí)與預(yù)測(cè)每個(gè)句子的篇章主次關(guān)系和代表性,從而抽取出文檔的候選摘要句。這種方法不僅考慮了詞組、短語(yǔ)等語(yǔ)義信息,而且利用了篇章的主次關(guān)系等結(jié)構(gòu)信息來(lái)指導(dǎo)文本摘要任務(wù),從而抽取出更能概括文檔核心內(nèi)容的句子。實(shí)驗(yàn)結(jié)果表明,本文提出的方法能有效提高文本摘要的效果。

1 相關(guān)工作

單文檔抽取式摘要是指: 給定一篇文檔,通過(guò)對(duì)原文本進(jìn)行提煉、壓縮,抽取出最能代表文檔核心內(nèi)容的信息作為文檔的摘要,其本質(zhì)是一個(gè)排序問(wèn)題。常用的實(shí)現(xiàn)方法主要有: 基于統(tǒng)計(jì)學(xué)習(xí)的方法、基于圖模型的方法和基于神經(jīng)網(wǎng)絡(luò)模型的方法。

基于統(tǒng)計(jì)學(xué)習(xí)的方法主要是通過(guò)手工設(shè)計(jì)大量的特征,然后從原始文檔中抽取出這些特征,并指定一個(gè)分類(lèi)器來(lái)學(xué)習(xí)這些特征,從而通過(guò)文本分類(lèi)的方式來(lái)實(shí)現(xiàn)自動(dòng)摘要。在20世紀(jì)90年代,隨著NLP機(jī)器學(xué)習(xí)技術(shù)的出現(xiàn),Kupiec[7]等開(kāi)始使用貝葉斯分類(lèi)器等機(jī)器學(xué)習(xí)的方法進(jìn)行自動(dòng)文摘。同年,Cortes和Vapnik提出了支持向量機(jī)(Support Vector Machine)算法[8],這種算法在小樣本、非線性及高維模式識(shí)別中表現(xiàn)出了許多優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中,具有很好的泛化能力。Joachims第一次將SVM用到文本分類(lèi)任務(wù)中[9],并在不同的數(shù)據(jù)集上都取得了較好的分類(lèi)性能和良好的魯棒性。

基于圖模型的算法主要是在詞頻的基礎(chǔ)上利用各種關(guān)聯(lián)度計(jì)算方法計(jì)算詞項(xiàng)間的關(guān)聯(lián)度,構(gòu)建相應(yīng)的無(wú)權(quán)或加權(quán)的網(wǎng)絡(luò)圖,從而抽出文檔最核心的句子,在PageRank[10]算法的基礎(chǔ)上Mihalcea和Tarau提出了TextRank算法[11],Erkan和Radev提出了LexPageRank算法[12]等。這種算法可以找出文檔最中心的主題,但不適合長(zhǎng)句子,并且在處理多主題文檔時(shí)存在較大的誤差和局限性。

近幾年,基于神經(jīng)網(wǎng)絡(luò)模型的自動(dòng)文摘方法很受歡迎。例如,K?geb?ck[13]等采用遞歸自編碼器來(lái)抽取摘要,在Opinosis數(shù)據(jù)集上取得了良好的性能。Kim[14]提出了一種卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)短文本分類(lèi)模型,CNN網(wǎng)絡(luò)的優(yōu)點(diǎn)在于能夠捕捉局部的相關(guān)性,類(lèi)似于文本中的N-gram。它由輸入層、隱層和輸出層構(gòu)成,通過(guò)反向傳播算法進(jìn)行參數(shù)優(yōu)化。CNN 在很多自然語(yǔ)言處理任務(wù)中可以得到較好的結(jié)果,但是由于它需要固定卷積核窗口的大小,不適合序列信息較長(zhǎng)的情況,同時(shí)對(duì)于卷積核大小的參數(shù)調(diào)節(jié)也很煩瑣。因此自然語(yǔ)言處理中更常用到的是循環(huán)神經(jīng)網(wǎng)絡(luò)[15](Recurrent Neural Network,RNN)。RNN可以抓取任一長(zhǎng)度序列,并分析長(zhǎng)句之間的關(guān)聯(lián)。傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)中,在梯度反向傳播階段,容易出現(xiàn)梯度爆炸或梯度消失的情況。1997年Hochreiter和Schmidhuber提出了一種長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)[16],這種網(wǎng)絡(luò)結(jié)構(gòu)可以解決RNN中的長(zhǎng)期依賴(lài)問(wèn)題,讓記住長(zhǎng)期信息成為神經(jīng)網(wǎng)絡(luò)的默認(rèn)行為。

篇章指由一系列連續(xù)的子句、句子或語(yǔ)段構(gòu)成的語(yǔ)言整體單位[17]。在一個(gè)篇章中,子句、句子或語(yǔ)段間具有一定的層次結(jié)構(gòu)和語(yǔ)義關(guān)系,篇章結(jié)構(gòu)分析旨在分析出這種結(jié)構(gòu)關(guān)系。篇章結(jié)構(gòu)分析的研究成果在自然語(yǔ)言處理領(lǐng)域應(yīng)用廣泛,例如,在統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation)[18]、自動(dòng)文摘(text summarization)[19-20]、信息抽取(information extraction)[21]和情感分析(sentiment analysis)[22]等領(lǐng)域都取得了一定的研究成果。劉凱[23]提出的基于篇章修辭結(jié)構(gòu)的自動(dòng)文摘研究,首先從微觀角度入手,以篇章單元的主次關(guān)系為依據(jù),抽取篇章單元中的主要部分,然后依據(jù)宏觀的篇章修辭結(jié)構(gòu),從段落摘要中抽出主要的內(nèi)容作為整篇文章的摘要,該方法得到的摘要能夠更加完整地表達(dá)篇章的信息,更加貼近人工摘要。這些應(yīng)用研究的成果表明,對(duì)文本進(jìn)行更深層次的挖掘,包括對(duì)結(jié)構(gòu)和語(yǔ)義信息的深入分析,有助于在已有的抽取式文摘研究上取得新的進(jìn)展。

2 基于主次關(guān)系的單文檔抽取式摘要

基于主次關(guān)系的單文檔抽取式摘要方法以基于神經(jīng)網(wǎng)絡(luò)的單文檔抽取式摘要方法為基礎(chǔ),構(gòu)建一個(gè)篇章主次關(guān)系預(yù)測(cè)和文本摘要任務(wù)的聯(lián)合學(xué)習(xí)模型,同時(shí)考慮詞組、短語(yǔ)等篇章語(yǔ)義信息和篇章主次關(guān)系等篇章的結(jié)構(gòu)信息。本節(jié)將從篇章主次關(guān)系抽取、基于神經(jīng)網(wǎng)絡(luò)的單文檔抽取式摘要模型和主次關(guān)系與文本摘要的聯(lián)合學(xué)習(xí)模型三個(gè)方面介紹該方法。

2.1 篇章主次關(guān)系抽取

篇章主次關(guān)系研究是篇章結(jié)構(gòu)解析的一項(xiàng)結(jié)構(gòu)預(yù)測(cè)任務(wù): 對(duì)于給定的子句序列,通過(guò)模型預(yù)測(cè)出這些子句之間的主次關(guān)系。本文的篇章主次關(guān)系標(biāo)記采用的模型是: 基于轉(zhuǎn)移的中文篇章結(jié)構(gòu)解析框架[24],是將篇章樹(shù)的構(gòu)建過(guò)程看成是一個(gè)狀態(tài)轉(zhuǎn)移路徑的搜索過(guò)程,將篇章結(jié)構(gòu)解析任務(wù)形式化為對(duì)給定狀態(tài)進(jìn)行分類(lèi)的問(wèn)題。

基于轉(zhuǎn)移的中文篇章結(jié)構(gòu)解析將一篇文章經(jīng)過(guò)分句、篇章解析后得到一棵形似二叉樹(shù)的篇章結(jié)構(gòu)解析樹(shù)。樹(shù)中的每個(gè)節(jié)點(diǎn)包含了該節(jié)點(diǎn)的子節(jié)點(diǎn)、父節(jié)點(diǎn)、該節(jié)點(diǎn)所包含子句在文中的句子位置和主次關(guān)系標(biāo)記。

例如,給定一篇文章:

①世界衛(wèi)生組織發(fā)布報(bào)告,②指出自殺已經(jīng)取代難產(chǎn),③成為女性的頭號(hào)殺手。④報(bào)道稱(chēng),根據(jù)報(bào)告提供的數(shù)據(jù)顯示,多年來(lái),難產(chǎn)死亡一直是女性喪命的最主要原因,⑤然而在過(guò)去10年,⑥自殺取代難產(chǎn)死亡,⑦成為女性死亡的最主要原因。⑧報(bào)告將全球分為美洲、東南亞、中東、歐洲、非洲及西太平洋6大地區(qū),⑨自殺唯獨(dú)在非洲未有列入5大殺手之內(nèi),⑩原因是當(dāng)?shù)仉y產(chǎn)和艾滋病死因占絕大多數(shù)。在東南亞,自殺占少女死因的比率也較其他死因高兩倍。專(zhuān)家分析指出,造成這種結(jié)果的原因是當(dāng)?shù)匦詣e歧視嚴(yán)重。

將這篇文章輸入到基于轉(zhuǎn)移的中文篇章結(jié)構(gòu)解析標(biāo)注的模型中,會(huì)依據(jù)模型的分句規(guī)則得到12個(gè)子句,值得注意的是,該模型并非將所有標(biāo)點(diǎn)都作為句子的邊界標(biāo)識(shí)。如第11句“在東南亞,自殺占少女死因的比率也較其他死因高兩倍?!边@個(gè)句子單元中就包含了兩個(gè)子句。這種分句方式主要是為了保證每個(gè)句子單元中都包含較為完整的句子信息,確保篇章結(jié)構(gòu)解析可以順利進(jìn)行。具體的分句方式參考文獻(xiàn)[25]中的方法。

標(biāo)注完成將得到如圖2所示的篇章結(jié)構(gòu)樹(shù)。其中,根節(jié)點(diǎn)包含整篇文章的內(nèi)容,非葉子節(jié)點(diǎn)表示待分割的句子集,葉子節(jié)點(diǎn)表示該節(jié)點(diǎn)的子節(jié)點(diǎn)不可再分。符號(hào)“|”表示句子分割符,標(biāo)識(shí)文檔的分割位置。篇章解析樹(shù)形似一棵二叉樹(shù),每個(gè)節(jié)點(diǎn)通過(guò)分隔符分割后得到兩個(gè)子節(jié)點(diǎn),若子節(jié)點(diǎn)不可再分則不在圖中顯示。逐層分割,直到整篇文檔都不可再分時(shí)解析完成。

從圖2可以看出,該篇章結(jié)構(gòu)樹(shù)共有6層,表示該篇文檔從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)共經(jīng)過(guò)6次分割。共有11個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)中包含該節(jié)點(diǎn)的父節(jié)點(diǎn)、子節(jié)點(diǎn)、該節(jié)點(diǎn)句子在文中的句子位置和主次關(guān)系標(biāo)記。加粗部分表示該部分是被主次關(guān)系分析為核心的內(nèi)容,即center=1的前半部分和center=2的后半部分,center=3時(shí)前后兩部分同為核心,不做加粗標(biāo)記。可以看出,節(jié)點(diǎn)Node1標(biāo)記為核心的部分基本上可以概括整篇文檔的核心內(nèi)容,這些核心句可以直接抽取出來(lái)作為文檔的摘要句。這就證明了主次關(guān)系標(biāo)記對(duì)我們抽取摘要句具有一定的指導(dǎo)作用。需要指出的是,在節(jié)點(diǎn)Node8中,核心句子為“自殺唯獨(dú)在非洲未有列入5大殺手之內(nèi),原因是當(dāng)?shù)仉y產(chǎn)和艾滋病死因占絕大多數(shù)”,這個(gè)核心句顯然就不是摘要句,這是因?yàn)楸疚臉?biāo)記的主次關(guān)系是微觀層面的主次關(guān)系,是句子間的主次關(guān)系,某個(gè)句子在和相鄰句子比較的時(shí)候被認(rèn)為是核心句,但在整篇文檔中卻不一定是能概括整篇文檔核心內(nèi)容的句子。

圖2 基于轉(zhuǎn)移的中文篇章結(jié)構(gòu)樹(shù)示例

為了得到任意兩個(gè)相鄰句子的主次關(guān)系標(biāo)記,我們通過(guò)句子位置信息找到該句子在樹(shù)中的位置,然后從該節(jié)點(diǎn)到根節(jié)點(diǎn)遍歷該樹(shù),找到這兩個(gè)相鄰節(jié)點(diǎn)的最小公共父節(jié)點(diǎn),最小公共父節(jié)點(diǎn)的主次關(guān)系標(biāo)記就作為這兩個(gè)相鄰句子的主次關(guān)系標(biāo)記。例如,要得到第二句“指出自殺已經(jīng)取代難產(chǎn),”和第三句“成為女性的頭號(hào)殺手”的主次關(guān)系,首先通過(guò)這兩個(gè)句子在文檔中的句子位置,找到它們的最小公共父節(jié)點(diǎn)為Node4,則Node4的主次關(guān)系標(biāo)記就為這兩個(gè)相鄰句子的主次關(guān)系標(biāo)記。

2.2 基于神經(jīng)網(wǎng)絡(luò)的單文檔抽取式摘要模型

單文檔抽取式摘要可以形式化地表示為一個(gè)文本二分類(lèi)的問(wèn)題: 給定一篇文檔D,包含句子序列{S1,…,Sn},選擇k(k

圖3 單文檔抽取式摘要流程圖

圖3中給定的一篇文檔D,首先要對(duì)它進(jìn)行去除噪聲、分句、分詞等預(yù)處理,這里的噪聲主要是新聞?wù)Z料中的一些無(wú)法用中文漢字表示的標(biāo)簽、符號(hào)等。然后把每個(gè)分好詞的句子單元轉(zhuǎn)換成向量表達(dá)的形式,這一步本文是通過(guò)生成一個(gè)高頻詞表,用詞組在高頻詞表中的位置來(lái)取代該詞的中文表示的方法來(lái)實(shí)現(xiàn)的。接下來(lái),就依次把句子向量輸入到一個(gè)分類(lèi)器中,并輸出該句子的0/1概率分布P=[P0,P1]。最后,我們把一篇文章的所有句子按P1從大到小排序,選取前k個(gè)句子作為候選摘要句。

在基于神經(jīng)網(wǎng)絡(luò)的單文檔抽取式摘要模型中,我們用一個(gè)標(biāo)準(zhǔn)的LSTM神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器。LSTM模型引入了一種稱(chēng)為存儲(chǔ)單元的新結(jié)構(gòu)。如圖4所示,存儲(chǔ)單元主要由四個(gè)主要元件組成: 輸入門(mén)、具有自回歸鏈接的神經(jīng)元、 遺忘門(mén)和輸出門(mén)。自回歸連接的權(quán)重為1.0,并確保在禁止任何外部干擾的情況下,存儲(chǔ)器單元的狀態(tài)可以從一個(gè)時(shí)間步長(zhǎng)保持恒定到另一個(gè)時(shí)間步長(zhǎng)。門(mén)用于調(diào)節(jié)存儲(chǔ)器單元本身與其環(huán)境之間的相互作用。輸入門(mén)可以允許輸入信號(hào)改變存儲(chǔ)器單元的狀態(tài)或阻止它。另一方面,輸出門(mén)可以允許存儲(chǔ)器單元的狀態(tài)對(duì)其他神經(jīng)元產(chǎn)生影響或阻止它。最后,遺忘門(mén)可以調(diào)制存儲(chǔ)器單元的自我重復(fù)連接,允許單元根據(jù)需要記住或忘記其先前的狀態(tài)。

圖4 LSTM存儲(chǔ)單元

然后,計(jì)算t時(shí)刻,遺忘門(mén)的激活函數(shù)ft如式(3)所示。

ft=σ(Wfxt+Ufht -1+bf)

(3)

(4)

最后,利用存儲(chǔ)單元的新?tīng)顟B(tài),我們可以計(jì)算t時(shí)刻輸出門(mén)的值ht,如式(5)、式(6)所示。

其中,xt表示的是t時(shí)刻的神經(jīng)元輸入,Wi,Wf,Wc,Wo,Ui,Uf,Uc,Uo,Vo表示的是權(quán)重矩陣,bi,bf,bc,bo表示的是誤差項(xiàng)。

2.3 主次關(guān)系與文本摘要的聯(lián)合學(xué)習(xí)模型

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型的輸入只是單純的句子序列,并沒(méi)有考慮到篇章的結(jié)構(gòu)信息,由前面的理論分析我們可以知道,篇章結(jié)構(gòu)信息,尤其是篇章的主次關(guān)系信息,對(duì)于我們選擇哪些句子為文檔的核心句子,具有重要的指導(dǎo)作用。為了將篇章的主次關(guān)系信息加入到文本分類(lèi)中去,我們利用LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)造了如圖5所示的主次關(guān)系與文本分類(lèi)的聯(lián)合學(xué)習(xí)模型。

其中si={wi1,wi2,…,win},sj={wj1,wj2,…,wjm}表示相鄰的兩個(gè)句子輸入,通過(guò)一個(gè)高頻詞表轉(zhuǎn)變?yōu)橄鄳?yīng)的句子向量,然后把這個(gè)句子向量輸入到LSTM神經(jīng)網(wǎng)絡(luò)模型中,得到相應(yīng)的隱藏神經(jīng)元向量Hi,Hj,將這兩個(gè)神經(jīng)元向量拼接起來(lái)得到向量Hall。一方面,Hall可以通過(guò)一個(gè)全連接層得到相鄰兩個(gè)句子的主次關(guān)系分布概率Pc=[P1,P2,P3],cl∈{1,2,3)},其中,cl表示句子的主次關(guān)系標(biāo)記,center=1: 前一句為核心句子;center=2: 后一句為核心句子;center=3: 兩個(gè)句子同為核心句子。另一方面,Hi、Hj分別與Hall拼接起來(lái)得到新的向量Halli和Hallj,Halli和Hallj經(jīng)過(guò)一個(gè)全連接層之后得到相應(yīng)句子是否為摘要的概率分布Pt=[P0,P1],tl∈{0,1},其中tl表示句子是否為摘要的標(biāo)記,0表示該句不是摘要,1表示該句是摘要。

對(duì)于主次關(guān)系與文本摘要的聯(lián)合學(xué)習(xí)模型,我們的訓(xùn)練目標(biāo)是最小化交叉熵?fù)p失,聯(lián)合模型的損失函數(shù)如式(7)所示。

(7)

其中,PC和PL分別是模型預(yù)測(cè)的主次關(guān)系和摘要句抽取結(jié)果,yC和yL是文本的主次關(guān)系標(biāo)記和是否為摘要的標(biāo)記,θ是模型的參數(shù)集,τ是L2正則化的參數(shù),本文使用AdaGrad梯度下降算法進(jìn)行模型訓(xùn)練過(guò)程中的優(yōu)化。

圖5 基于主次關(guān)系的單文檔抽取式摘要模型

3 實(shí)驗(yàn)與評(píng)價(jià)

3.1 實(shí)驗(yàn)數(shù)據(jù)

原始數(shù)據(jù)集為NLPCC2017 Shared Task3評(píng)測(cè)任務(wù)的數(shù)據(jù)集(1)http://tcci.ccf.org.cn/conference/2018/taskdata.php,其中訓(xùn)練集有50 000篇帶有手工摘要的新聞文本,測(cè)試集是2 000篇帶有手工摘要的新聞文本。數(shù)據(jù)集文本的平均長(zhǎng)度如表1所示。

表1 數(shù)據(jù)集平均長(zhǎng)度統(tǒng)計(jì)表

3.2 評(píng)價(jià)方法

我們使用ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[26]作為我們的評(píng)價(jià)標(biāo)準(zhǔn)。ROUGE準(zhǔn)則是2004年由ISI的Chin-Yew Lin提出的一種自動(dòng)摘要評(píng)價(jià)方法,現(xiàn)被廣泛應(yīng)用于DUC(Document Understanding Conference)的摘要評(píng)測(cè)任務(wù)中。ROUGE基于摘要中n元詞[(n-gram)]的共現(xiàn)信息來(lái)評(píng)價(jià)摘要,是一種面向n元詞召回率的評(píng)價(jià)方法。基本思想為由多個(gè)專(zhuān)家分別生成人工摘要,構(gòu)成標(biāo)準(zhǔn)摘要集,將系統(tǒng)生成的自動(dòng)摘要與人工生成的標(biāo)準(zhǔn)摘要相對(duì)比,通過(guò)統(tǒng)計(jì)二者之間重疊的基本單元(n元語(yǔ)法、詞序列和詞對(duì))的數(shù)目來(lái)評(píng)價(jià)摘要的質(zhì)量。通過(guò)與專(zhuān)家人工摘要的對(duì)比,提高評(píng)價(jià)系統(tǒng)的穩(wěn)定性和健壯性。該方法現(xiàn)已成為摘要評(píng)價(jià)技術(shù)的通用標(biāo)注之一。

本文主要考慮ROUGE-1(單字組)、ROUGE-2(雙字組)和ROUGE-L(最長(zhǎng)公共子序列)來(lái)評(píng)測(cè)實(shí)驗(yàn)效果。

3.3 對(duì)照實(shí)驗(yàn)

NLPCC_ONE[27]: 是NLPCC2017年評(píng)測(cè)任務(wù)的第一名的實(shí)驗(yàn)結(jié)果,也是本文使用的數(shù)據(jù)集官方公布的最好結(jié)果。本文采用此結(jié)果作為我們模型性能的參照。

LEAD: 這是本文的baseline模型,因?yàn)樾侣勎谋玖?xí)慣在開(kāi)篇給出論點(diǎn),開(kāi)篇的句子一般都緊扣主題,所以本文取每篇新聞文本的前60個(gè)中文字符作為摘要。

PageRank[28]: 是基于圖排序的自動(dòng)摘要算法,使用句子作為圖節(jié)點(diǎn),從整個(gè)圖遞歸繪制的全局信息來(lái)確定圖中頂點(diǎn)重要性的一種方式?;舅枷胧琼旤c(diǎn)之間的“投票”或“推薦”。若一個(gè)句子與眾多其他句子相似,那么此句話(huà)就可能是重要的。

LSTM: 采用標(biāo)準(zhǔn)的LSTM神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器。進(jìn)行特征提取(特征表達(dá)),最后將訓(xùn)練好的神經(jīng)元經(jīng)過(guò)一個(gè)Dense全連接層,得到文本的0/1概率分布P=[P0,P1],按P1從大到小排序,選取前k個(gè)句子作為候選摘要句。

LSTM+Nuclear: 先通過(guò)LSTM模型抽取出候選摘要句,再通過(guò)查看候選摘要句的主次關(guān)系標(biāo)記,抽取出其中核心的句子。例如,如果相鄰兩句的的主次關(guān)系標(biāo)記center=1,則認(rèn)為前一句是核心句子,若center=2則后一句是核心句,若center=3則認(rèn)為前后兩句都是核心句子。

3.4 實(shí)驗(yàn)設(shè)置

3.4.1 文本預(yù)處理

預(yù)處理時(shí),首先用正則表達(dá)式將原始數(shù)據(jù)集中的標(biāo)簽、符號(hào)等非法字符去除。然后,因?yàn)橹鞔侮P(guān)系標(biāo)記模型的限制,對(duì)于文本長(zhǎng)度超過(guò) 3 000 個(gè)字符的文本只保留前 3 000 個(gè)字符。之后,從標(biāo)記好主次關(guān)系的文本中,抽取出相鄰兩個(gè)句子的主次關(guān)系標(biāo)記。這里抽取出的句子保留主次關(guān)系標(biāo)記中的分句方式。最后,將正文中的句子依次與參考摘要的句子計(jì)算余弦相似度,從正文中選取與參考摘要余弦相似度最高的前15%標(biāo)記為正例,其余的標(biāo)記為負(fù)例。

3.4.2 統(tǒng)計(jì)與分析

為了查看主次關(guān)系標(biāo)記的準(zhǔn)確性,我們分別統(tǒng)計(jì)了主次關(guān)系標(biāo)記在全文中和在正例文本中的標(biāo)記占比,如表2、表3所示。

表2 全文中主次關(guān)系標(biāo)記占比(%)

表2為訓(xùn)練集和測(cè)試集的全文中3類(lèi)主次關(guān)系所占比例。其中,center=1的占比最少,只有14%左右。其次是center=2,占了三分之一左右。center=3所占的比例最高,占了一半左右。

表3為訓(xùn)練集和測(cè)試集的正例文本中三類(lèi)主次關(guān)系所占比例。因?yàn)橹鞔侮P(guān)系標(biāo)記的是前后兩個(gè)句子之間的關(guān)系,所以有些語(yǔ)句的主次關(guān)系標(biāo)記可能會(huì)有兩種情況,例如,句子對(duì){s1,s2}的主次關(guān)系標(biāo)記為: center=1,此時(shí)每個(gè)句子s1和s2被認(rèn)為有center=1標(biāo)記;句子對(duì){s2,s3} 的主次關(guān)系標(biāo)記為center=3,此時(shí)句子s2和s3被認(rèn)為有center=3標(biāo)記;若s2剛好被標(biāo)記為正例,則在統(tǒng)計(jì)正例中主次關(guān)系標(biāo)記占比時(shí),s2既有center=1標(biāo)記,又有center=3標(biāo)記。

表3 正例中主次關(guān)系標(biāo)記占比(%)

與表2對(duì)比我們可以發(fā)現(xiàn),正例中center=1和center=2的比例明顯上升,這說(shuō)明,我們選取出來(lái)的正例文本和主次關(guān)系標(biāo)記模型標(biāo)記的重要文本在很大程度是吻合的,這進(jìn)一步證明了,在抽取式摘要中加入篇章的主次關(guān)系信息,可以抽取出更能代表文檔核心內(nèi)容的句子。

3.4.3 實(shí)驗(yàn)參數(shù)設(shè)置

訓(xùn)練集用的是 10 000 篇帶有手工摘要的新聞文本,測(cè)試集是 2 000 篇帶有手工摘要的新聞文本。詞表取的是前 20 000 個(gè)高頻詞。

實(shí)驗(yàn)?zāi)P偷南嚓P(guān)參數(shù)如表4所示。

表4 實(shí)驗(yàn)參數(shù)設(shè)置表

3.5 實(shí)驗(yàn)結(jié)果及分析

本文baseline采用的是每篇文本的前60個(gè)中文字符作為摘要。因此,為保證評(píng)測(cè)結(jié)果的公正性和有效性,最終用于評(píng)測(cè)的摘要是候選摘要句的前60個(gè)中文字符。

如表5所示,NLPCC_ONE是本文使用的數(shù)據(jù)集在NLPCC2017 Shared Task3任務(wù)中獲得第一名的評(píng)測(cè)結(jié)果,我們采用其ROUGE-2的結(jié)果作為本文實(shí)驗(yàn)結(jié)果的參照。LEAD為本文實(shí)驗(yàn)的baseline,即取每篇文檔的前60個(gè)中文字符作為摘要。此外,PageRank模型、LSTM模型和LSTM+Nuclear這三個(gè)模型作為對(duì)比實(shí)驗(yàn),Ours模型是本文采用的主次關(guān)系與文本摘要的聯(lián)合學(xué)習(xí)的模型。

表5 實(shí)驗(yàn)結(jié)果(%)

分析表5實(shí)驗(yàn)結(jié)果可以得到: 首先,本文采用的對(duì)比實(shí)驗(yàn)的結(jié)果均超過(guò)了baseline的結(jié)果,這說(shuō)明本文采用的單文檔抽取式摘要方法均是有效的。其次,LSTM+Nuclear的實(shí)驗(yàn)結(jié)果超過(guò)了僅僅使用LSTM模型的實(shí)驗(yàn)結(jié)果,這說(shuō)明本文標(biāo)記的主次關(guān)系對(duì)于抽取出更能代表文檔核心內(nèi)容的句子有一定的幫助。但是由于本文采用的主次關(guān)系是句子間的主次關(guān)系,微觀層面上主要的句子有時(shí)并不代表在整篇文檔中也是核心的句子。所以通過(guò)LSTM模型抽取摘要句再選取其中主要的句子,這種方法存在一定弊端。最后,本文采用的主次關(guān)系和文本摘要聯(lián)合學(xué)習(xí)的模型效果最好,該模型在考慮了詞組、短語(yǔ)等語(yǔ)義信息的同時(shí),利用了篇章的主次關(guān)系信息來(lái)指導(dǎo)文本摘要任務(wù),抽取出更能代表文檔核心內(nèi)容的句子。由前文的分析可知: 本文通過(guò)余弦相似度標(biāo)記的正例文本,即整篇文檔的核心句子,和主次關(guān)系標(biāo)記的重要文本,即微觀層面上的主要句子,二者在很大程度上是吻合的,這說(shuō)明我們將兩項(xiàng)任務(wù)聯(lián)合學(xué)習(xí)的時(shí)候,二者會(huì)有一個(gè)相輔相成的過(guò)程。實(shí)驗(yàn)結(jié)果表明: 本文模型的ROUGE-2得分比baseline提高了6個(gè)多百分點(diǎn),比單獨(dú)的LSTM模型提高了約2.3個(gè)百分點(diǎn)。這充分說(shuō)明了篇章主次關(guān)系和文本摘要聯(lián)合學(xué)習(xí)的模型可以得到更高質(zhì)量的文本摘要。

此外,本文的實(shí)驗(yàn)結(jié)果雖然已經(jīng)超過(guò)了該數(shù)據(jù)集官方評(píng)測(cè)第一名的結(jié)果,但優(yōu)勢(shì)并沒(méi)有很明顯。與以下兩個(gè)原因有關(guān): 一是本文采用篇章主次關(guān)系標(biāo)記模型的分句方式。如2.1節(jié)中所述,基于轉(zhuǎn)移的中文篇章結(jié)構(gòu)解析模型并非將所有標(biāo)點(diǎn)都作為句子的邊界標(biāo)識(shí),即一個(gè)句子單元中可能包含多個(gè)子句,因此導(dǎo)致抽取出的摘要句冗余度較大。二是抽取式摘要按照預(yù)測(cè)句子的分布概率從高到低抽取句子,容易導(dǎo)致抽取出的摘要句中存在相似度特別高的現(xiàn)象。在規(guī)定摘要長(zhǎng)度較短的情況下,該現(xiàn)象導(dǎo)致抽取出的摘要句概括性不高。所以本文做了一個(gè)對(duì)候選摘要句去冗余的實(shí)驗(yàn),在按照預(yù)測(cè)句子的分布概率從高到低抽取摘要句的時(shí)候,后一個(gè)句子在被抽取之前分別與已抽取的句子計(jì)算余弦相似度,若余弦相似度大于0.75或句子長(zhǎng)度小于4時(shí)舍棄該句子。

如表6所示,通過(guò)該方法去除冗余后的實(shí)驗(yàn)結(jié)果在原有基礎(chǔ)上有了一定的提升,PageRank和LSTM模型的提升效果最好,均提升了2個(gè)百分點(diǎn)左右,說(shuō)明PageRank和LSTM模型抽取出來(lái)的摘要句中存在較多的冗余信息和重復(fù)信息。而主次關(guān)系與文本摘要聯(lián)合學(xué)習(xí)模型的結(jié)果只提升了0.2個(gè)百分點(diǎn),也從側(cè)面證實(shí)了本文采用的基于主次關(guān)系的單文檔抽取式摘要模型抽取出來(lái)的句子在不去冗余的情況下已經(jīng)具有很高的概括性。

表6 去冗余后實(shí)驗(yàn)結(jié)果(%)

4 結(jié)束語(yǔ)

篇章的主次關(guān)系研究,對(duì)于更好地把握篇章的主題思想、主要內(nèi)容和展開(kāi)思路具有很好的指導(dǎo)作用。本文提出了一種基于篇章主次關(guān)系的單文檔抽取式摘要方法,構(gòu)建了篇章主次關(guān)系和文本分類(lèi)的聯(lián)合學(xué)習(xí)模型,在考慮詞組、短語(yǔ)等語(yǔ)義信息的同時(shí),利用篇章的主次關(guān)系等結(jié)構(gòu)信息指導(dǎo)文本摘要任務(wù),從而抽取出更能代表文檔核心內(nèi)容的句子。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的單文檔抽取式摘要方法相比,該方法在ROUGE值的評(píng)測(cè)上有了較大的提升。在接下來(lái)的工作中,一方面考慮提高篇章的主次關(guān)系標(biāo)記精度,爭(zhēng)取讓篇章主次關(guān)系在文本摘要中發(fā)揮最大的指導(dǎo)作用。另一方面,可把篇章的銜接關(guān)系等修辭結(jié)構(gòu)信息加入到文本摘要任務(wù)中,進(jìn)一步提高文本摘要句的銜接性和可讀性。

猜你喜歡
文檔神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)
CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
Analysis of the characteristics of electronic equipment usage distance for common users
有人一聲不吭向你扔了個(gè)文檔
基于AutoCAD的門(mén)窗節(jié)點(diǎn)圖快速構(gòu)建
神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
抓住人才培養(yǎng)的關(guān)鍵節(jié)點(diǎn)
黄骅市| 神农架林区| 建湖县| 呼玛县| 呈贡县| 克山县| 阿拉善左旗| 黄陵县| 阳原县| 舒城县| 益阳市| 马尔康县| 泊头市| 宁海县| 抚州市| 凤凰县| 安顺市| 乡城县| 资源县| 都昌县| 安达市| 屏东县| 长武县| 阳谷县| 临汾市| 甘谷县| 普宁市| 盐山县| 色达县| 南安市| 南木林县| 谷城县| 万荣县| 咸丰县| 靖远县| 湖州市| 临朐县| 金阳县| 南江县| 保靖县| 陆丰市|