基于子句抽取的文本摘要自動(dòng)提取算法

2024-03-12 11:39:52朱兵兵羅勇軍丁煒超

華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版) 2024年1期

朱兵兵，羅飛，羅勇軍，丁煒超，黃浩

（華東理工大學(xué)信息科學(xué)與工程學(xué)院, 上海 200237）

在如今信息數(shù)據(jù)呈指數(shù)增長(zhǎng)時(shí)代，人們想在短時(shí)間內(nèi)獲得有效數(shù)據(jù)使用自動(dòng)摘要技術(shù)無(wú)疑是一個(gè)比較好的選擇；其中，如何從冗余、非結(jié)構(gòu)化的長(zhǎng)文本中提煉出關(guān)鍵信息，并且使得提煉出的信息精簡(jiǎn)通順是一個(gè)關(guān)鍵問(wèn)題。目前基于文本摘要自動(dòng)抽取技術(shù)的自動(dòng)摘要已經(jīng)應(yīng)用到社會(huì)各領(lǐng)域，如社交媒體綜述[1]、新聞綜述[2]、專(zhuān)利綜述[3]、觀點(diǎn)綜述[4]以及學(xué)術(shù)文獻(xiàn)綜述[5]等。

基于生成方式，自動(dòng)摘要可分為抽取式摘要和生成式摘要[6]。抽取式摘要[7]從文本中原封不動(dòng)地截取一些句子作為摘要輸出，其本質(zhì)是轉(zhuǎn)換為一個(gè)排序問(wèn)題，它根據(jù)每個(gè)句子的重要性賦予其不同的分?jǐn)?shù)，然后選中分?jǐn)?shù)排名靠前的提取單元作為摘要。提取單元可以為句子、詞組或詞語(yǔ)，而現(xiàn)有方法主要以句子作為提取單元[8]?，F(xiàn)如今抽取式摘要中的提取算法以句子為單位已經(jīng)能夠取得不錯(cuò)的效果，但仍具有以下問(wèn)題：一方面，抽取出的句子存在冗余；另一方面，抽取出的句子包含了一些不關(guān)鍵的信息[9]。生成式摘要是在理解原文的基礎(chǔ)上重新生成摘要，而不再以原文句子拼接形式生成摘要。目前對(duì)于生成式摘要想要得到理想的結(jié)果還是比較困難的，因?yàn)樾枰罅康膭?chuàng)新和相應(yīng)的工作來(lái)提升性能。

基于生成技術(shù)，自動(dòng)摘要可分為基于主題模型、基于圖、基于特征評(píng)分和基于啟發(fā)式算法等[10]。其中，基于圖模型方法的圖排序算法充分考慮了文本圖的全局信息，同時(shí)又不需要人工標(biāo)注訓(xùn)練集[11]。TextRank 算法及其系列改進(jìn)算法從生成方式上屬于抽取式方法，其中用到的技術(shù)為基于圖模型技術(shù)；僅僅使用文本自身的相關(guān)信息和文本自身的結(jié)構(gòu)特點(diǎn)，就能夠?qū)崿F(xiàn)自動(dòng)摘要的提取[12]。TextRank 算法作為一種抽取式總結(jié)方法，正是由于它不需要事先學(xué)習(xí)和訓(xùn)練多份文件，所以被廣泛使用。

TextRank 算法本身并沒(méi)有對(duì)摘要去除冗余的處理。為了提升TextRank 算法的性能，一系列改進(jìn)算法被提出[11-16]。如為了去除冗余，F(xiàn)ang 等[13]提出了一種新的詞句聯(lián)合排序模型CoRank；李娜娜等[14]、汪旭祥等[15]采用余弦相似度方法；朱玉佳等[16]采用MMR 算法。為了提升摘要的準(zhǔn)確率，徐馨韜等[11]把K-means 方法、TextRank 方法和Doc2Vec 模型相結(jié)合，提出中文文本摘要自動(dòng)抽取算法(DKTextRank)；黃波等[12]利用每個(gè)詞的向量，結(jié)合其他語(yǔ)句的向量、TextRank 算法和Word2Vec 模型，提高詞匯的維度。

然而，TextRank 及其系列改進(jìn)算法并未有效地解決抽取式摘要所存在的冗余性問(wèn)題。為此，本文提出基于抽取子句模型的文本摘要自動(dòng)提取算法(PTextRank)，以降低提取摘要的冗余度，并提高摘要的準(zhǔn)確性。首先對(duì)文本進(jìn)行預(yù)處理，以句號(hào)為標(biāo)記把整個(gè)文章分割成單個(gè)句子集。然后通過(guò)Sinica Treebank[17]方法對(duì)句子進(jìn)行句法成分分析，選擇子句作為抽取單元，通過(guò)BERT（Bidirectional Encoder Representation from Transformers）構(gòu)建每個(gè)子句的特征向量，然后在矩陣中存儲(chǔ)每個(gè)子句向量的相似度。最后，將相似矩陣轉(zhuǎn)換成以子句為節(jié)點(diǎn)，相似度分?jǐn)?shù)為邊的圖結(jié)構(gòu)，一定數(shù)量排名靠前的子句構(gòu)成最終的摘要，同時(shí)圖的結(jié)構(gòu)中也引入標(biāo)題、特殊語(yǔ)句等信息。本文所述的算法從比句子更細(xì)粒度的提取單元出發(fā)，將重點(diǎn)信息和非重點(diǎn)信息通過(guò)更細(xì)粒度的提取單元來(lái)區(qū)分，從而防止了冗余的內(nèi)容都被抽取作為摘要的結(jié)果。

1 TextRank 及SWTextRank 算法

TextRank 算法是從PageRank 算法衍生出來(lái)的一種基于圖排序的無(wú)監(jiān)督方法。PageRank 算法用來(lái)衡量網(wǎng)頁(yè)的重要性，以每個(gè)網(wǎng)頁(yè)為節(jié)點(diǎn)，網(wǎng)頁(yè)之間的聯(lián)系為邊構(gòu)建網(wǎng)絡(luò)圖。因此，TextRank 算法將文本以句子為單位進(jìn)行拆分，將每句話(huà)作為節(jié)點(diǎn)在網(wǎng)絡(luò)圖中進(jìn)行劃分，同時(shí)將句子之間的相似度作為邊。通過(guò)網(wǎng)絡(luò)圖的迭代計(jì)算，可以得出每句話(huà)的重要性得分，最后選出分?jǐn)?shù)較高的幾句話(huà)作為最終摘要。

TextRank 算法中有權(quán)的無(wú)向網(wǎng)絡(luò)圖可表示為G=(V,E,W)，其中：V為句子表示的節(jié)點(diǎn)，E為節(jié)點(diǎn)間各個(gè)邊的非空有限集合，W為各邊上權(quán)重的集合。假設(shè)V={V1,V2,···,Vn} ，則其中Wij是節(jié)點(diǎn)Vi與Vj間邊的權(quán)重?cái)?shù)值。通過(guò)余弦相似度方法可得出句子之間的相似度矩陣如式(1)所示：

每個(gè)句子的權(quán)重?cái)?shù)值可以結(jié)合網(wǎng)絡(luò)圖G和矩陣Sn×n來(lái)計(jì)算，如式(2)所示任意句子的權(quán)重Vi計(jì)算公式為：

式中：Ws(Vi) 為句子Vi的權(quán)重，d是取值大小為0.85 的阻尼系數(shù)，In(Vi) 表示指向句子Vi的句子集合，Out(Vi) 表示節(jié)點(diǎn)Vi指向其他節(jié)點(diǎn)的集合，Wij表示節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj間的相似度，表示上一次迭代后節(jié)點(diǎn)Vj的權(quán)重值。

邊權(quán)重在TextRank 算法中的計(jì)算過(guò)程屬于Markov 過(guò)程，收斂的權(quán)重?cái)?shù)值可以通過(guò)迭代計(jì)算最終得到。一般把句子的初始權(quán)重設(shè)為1，也就是B0=(1,···,1)T，然后迭代計(jì)算至收斂：

收斂時(shí)Bi和Bi?1會(huì)很接近，一般認(rèn)為當(dāng)Bi和Bi?1之間差值小于0.000 1 時(shí)收斂，最后，根據(jù)每句話(huà)的得分，以實(shí)際需要選擇排序靠前的句子作為摘要。

SWTextRank 算法[15]針對(duì)TextRank 算法在自動(dòng)提取中文文本摘要時(shí)只考慮句子間的相似性，而忽略了詞語(yǔ)間的語(yǔ)義相關(guān)信息及文本的重要全局信息進(jìn)行了相應(yīng)改進(jìn)，使得摘要的準(zhǔn)確率得到提高。SWTextRank 算法利用Word2Vec 訓(xùn)練的詞匯矢量，綜合考慮了句子權(quán)重的影響因素，如語(yǔ)句的位置、語(yǔ)句與題目是否具有相似性、重點(diǎn)詞語(yǔ)的覆蓋、重點(diǎn)語(yǔ)句與提示詞等，并通過(guò)分析句子的相似性來(lái)達(dá)到優(yōu)化語(yǔ)句分量的目的。最后，對(duì)所獲得的候選句使用余弦相似度進(jìn)行冗余處理。

2 算法設(shè)計(jì)

本文提出提取子句的方法，以避免TextRank 算法及其系列改進(jìn)算法提取的摘要存在冗余的問(wèn)題，從而減少含有相同語(yǔ)義信息的句子重復(fù)出現(xiàn)，使得最終獲取的摘要既具有簡(jiǎn)約性又具有對(duì)文章總體意思的總結(jié)。本文在句子權(quán)重計(jì)算時(shí)，綜合考慮文中的子句位置，子句和題目的相似度，重點(diǎn)語(yǔ)句和提示詞等要素，使得最終獲得的摘要更準(zhǔn)確。一般來(lái)說(shuō)，每一段的首句或者尾句更能表明大意，所以這部分語(yǔ)句的權(quán)重也應(yīng)當(dāng)加大；和標(biāo)題相似度很高的句子也應(yīng)當(dāng)加大權(quán)重；具有概括文章大意詞語(yǔ)的句子權(quán)重也應(yīng)當(dāng)加大。

2.1 基于子句的抽取

在本節(jié)中，提出一種抽取單元替代方法，對(duì)完整的句子進(jìn)行截取來(lái)提取文檔的摘要。因此，使用子句提取來(lái)代替之前的整句提取方法。具體來(lái)說(shuō)，提取單元基于句子的選區(qū)解析樹(shù)中的子句節(jié)點(diǎn)。圖1顯示了選區(qū)解析樹(shù)的兩個(gè)簡(jiǎn)化示例（圖中S（Sentence）、ADVP（ Adverb）、 NP（ Noun Phrase）、 VP（ Verb Phrase）、VBD（Verb Past Tense）、SBAR 表示從句性質(zhì)、 WHNP（ Wh-Noun Phrase）、 CC（ Coordinating Conjunction））。選區(qū)樹(shù)中的根節(jié)點(diǎn)表示整個(gè)句子，而葉節(jié)點(diǎn)表示其對(duì)應(yīng)的詞法標(biāo)記。根節(jié)點(diǎn)上的提取本質(zhì)上是提取整個(gè)句子，而葉節(jié)點(diǎn)上的提取是通過(guò)提取單詞進(jìn)行壓縮。對(duì)非終端節(jié)點(diǎn)進(jìn)行抽取，既能表達(dá)相對(duì)完整的句子含義又能被人讀懂。因此，子句節(jié)點(diǎn)如S 和SBAR 成為一個(gè)很好的選擇。

圖1 兩個(gè)簡(jiǎn)化的選區(qū)解析樹(shù)Fig.1 Two simplified analytic trees of selected area

為了對(duì)子句單元進(jìn)行提取，需要確定哪些單元可以提取。該方法基于選區(qū)解析樹(shù)，其基本思想是基于樹(shù)中的子句。在實(shí)驗(yàn)中，我們采用了Sinica Treebank 中使用的語(yǔ)法標(biāo)記集。在STB 標(biāo)記集中有兩種主要類(lèi)型：短語(yǔ)和句子。在本實(shí)驗(yàn)中使用子句標(biāo)簽是因?yàn)樽泳渲械男畔⒈榷陶Z(yǔ)更完整。本文實(shí)驗(yàn)中主要是針對(duì)中文文本摘要的提取，因此語(yǔ)法標(biāo)記使用的是中研院Sinica Treebank。中文和英文在句法結(jié)構(gòu)上存在差異，比如英語(yǔ)句子的特點(diǎn)是句子中的每一個(gè)成分均可有修飾語(yǔ)，而且修飾語(yǔ)不止一個(gè)，每個(gè)修飾語(yǔ)都可以很長(zhǎng)；一個(gè)修飾語(yǔ)還可被另一個(gè)修飾語(yǔ)修飾，因此句子結(jié)構(gòu)復(fù)雜。中文句子中修飾語(yǔ)少而短，句子由一個(gè)一個(gè)的分句構(gòu)成并逐步展開(kāi)。因此，如果對(duì)英文文本進(jìn)行摘要的提取，語(yǔ)法標(biāo)記建議使用Penn Treebank。

在給定句子解析樹(shù)的情況下，遍歷它來(lái)確定提取單元的邊界。具體來(lái)說(shuō)，每個(gè)子句都被視為提取單元候選項(xiàng)。如果它的一個(gè)祖先是子句節(jié)點(diǎn)，我們選擇最高級(jí)的祖先子句節(jié)點(diǎn)（根節(jié)點(diǎn)除外）作為提取單元，因?yàn)樽罡呒?jí)的祖先子句節(jié)點(diǎn)包含更完整的信息。如果一個(gè)句子沒(méi)有子句，那么就用整句作為抽取單元。

表1 顯示了兩個(gè)中文句子經(jīng)過(guò)本文子句抽取策略的提取結(jié)果。從結(jié)果可以看出，通過(guò)對(duì)子句提取，整個(gè)句子被分解成更細(xì)粒度的語(yǔ)義單元。因此，本文的子句抽取策略可以提取重要的部分，而不引入不重要的內(nèi)容。

表1 子句抽取結(jié)果Table 1 Clause extraction result

2.2 子句相似度計(jì)算

TextRank 算法網(wǎng)絡(luò)圖中的節(jié)點(diǎn)間權(quán)重影響每句話(huà)的最終得分，而節(jié)點(diǎn)間權(quán)重即為句子間的相似度，所以計(jì)算句子相似度就變得特別重要。為了使句子相似度計(jì)算更為準(zhǔn)確，多種相似度計(jì)算方法已經(jīng)應(yīng)用在TextRank 算法上，如Word2Vec、Doc2Vec 等。

BERT 是一個(gè)語(yǔ)言表征模型，由Google 于2018年推出。它的特點(diǎn)就是不同于以往的單向語(yǔ)言模型或者把兩個(gè)單向語(yǔ)言模型進(jìn)行簡(jiǎn)單拼接的方法進(jìn)行預(yù)訓(xùn)練，而是基于Transformer 采用深度的雙向語(yǔ)言表征。與Word2Vec、Doc2Vec 等方法相比，BERT 能夠更好地反映出句子之間的關(guān)系。本文正是利用BERT 訓(xùn)練的詞向量來(lái)獲得子句的向量進(jìn)而計(jì)算子句與子句之間的相似度。具體算法如算法1 所示，其中T為初始化的詞向量集合，S為初始化的句子向量集合，D為原始句子經(jīng)過(guò)STB 抽取子句，對(duì)子句進(jìn)行文本分詞、去除符號(hào)和停用詞得到的詞語(yǔ)集合。算法1 的具體實(shí)現(xiàn)流程如下所示：

利用官方中文BERT 預(yù)訓(xùn)練模型對(duì)以下3 個(gè)句子進(jìn)行編碼，兩種句子的相似度結(jié)果，如表2 所示。

表2 不同句子相似度結(jié)果Table 2 Similarity results of different sentences

句子A=“要重視文本摘要算法的研究”

句子B=“自動(dòng)文摘是自然語(yǔ)言處理中的重要內(nèi)容”

句子C=“今天天氣真好，風(fēng)和日麗”

從所舉的例子中可以得出，A、B 兩句在語(yǔ)義上較A、C 兩句更為相似，但是這3 句話(huà)之間都沒(méi)有相同的詞語(yǔ)，每句話(huà)之間的語(yǔ)義相似度并未提現(xiàn)。A、B 和A、C 之間的余弦?jiàn)A角相似度的結(jié)果，可以反映出使用BERT 對(duì)句子進(jìn)行向量編碼后語(yǔ)義上的差異。可以看出，BERT 訓(xùn)練出的詞向量更能體現(xiàn)出句子之間的語(yǔ)義不同，使得最后得出的摘要更能反映原文主旨內(nèi)容。

2.3 特殊子句的權(quán)重處理

本文對(duì)特殊位置的子句、包含標(biāo)題關(guān)鍵詞的子句、包含線(xiàn)索詞的子句和含有專(zhuān)有名詞的子句的權(quán)重調(diào)整為原來(lái)的k倍。在根據(jù)式(3)迭代計(jì)算收斂后，對(duì)k分別取值1.2、1.4、1.6、1.8 進(jìn)行實(shí)驗(yàn)對(duì)比，最后抽取前兩句作為摘要，根據(jù)式(4)～式(6)中平均準(zhǔn)確率P、平均召回率R和平均F值最終確定k取1.4 時(shí)摘要抽取的效果最好。

其中：ai表示算法生成的第i篇文章的摘要，bi表示數(shù)據(jù)集中給定的第i篇摘要。

實(shí)驗(yàn)結(jié)果對(duì)比如表3 所示。具體算法如算法2 所示，其中Bi表示句子權(quán)重值，函數(shù)isSelectCentence()是選擇符合上述條件的子句改變其權(quán)重。算法2 的具體實(shí)現(xiàn)流程如下所示：

表3 不同權(quán)重結(jié)果對(duì)比Table 3 Comparison of results with different weights

2.4 算法實(shí)現(xiàn)

基于上述子句抽取、句子相似度計(jì)算及特殊句子的權(quán)重處理策略，改進(jìn)后的PTextRank 算法的實(shí)現(xiàn)過(guò)程如算法3 所示。算法中對(duì)文本的處理、子句向量的計(jì)算和算法1 相同。Wij表示利用余弦相似度計(jì)算子句向量間的相似性，Sn×n是把Wij存放在如式(1)的矩陣中。然后根據(jù)式(2)計(jì)算出子句權(quán)重值Ws(Vi)，選擇符合條件的子句進(jìn)行權(quán)重調(diào)整，根據(jù)式(3)迭代計(jì)算至收斂得到每個(gè)子句的分?jǐn)?shù)。最后根據(jù)分?jǐn)?shù)排名得到最終的摘要。算法3 的具體實(shí)現(xiàn)流程如下所示：

3 冗余度分析

TextRank 算法迭代計(jì)算后按照句子分?jǐn)?shù)從大到小的順序選擇前幾個(gè)句子形成最終的摘要，因?yàn)榍皫拙涞恼Z(yǔ)義是相近的，此時(shí)的摘要就會(huì)形成冗余。原文作者為了強(qiáng)調(diào)重要信息，可能會(huì)用不同形式的句子，在原文的不同位置重復(fù)原文的主旨內(nèi)容。如果不同位置相似的句子都成為摘要句，那么在最終形成的摘要中就會(huì)有相似的句子造成信息冗余。

為了分析冗余問(wèn)題是否存在，本文采用基于計(jì)數(shù)統(tǒng)計(jì)和人為判斷兩種方法進(jìn)行實(shí)驗(yàn)和分析。本文選取了TTNewsCorpus_NLPCC2017 數(shù)據(jù)集為樣本。在此數(shù)據(jù)集上分別進(jìn)行TextRank、SWTextRank 以及PTextRank 算法的冗余度分析。首先定義一個(gè)冗余度量，即n元重疊率，計(jì)算每對(duì)句子之間的ngram 重疊。這種重疊的計(jì)算方法如式(7)所示：

根據(jù)表4 的數(shù)據(jù)顯示， TextRank 算法和SWTextRank 算法在冗余度上都遠(yuǎn)遠(yuǎn)高于參考摘要的冗余度。在詞匯層面的統(tǒng)計(jì)之外，還進(jìn)行了人工評(píng)價(jià)，結(jié)果與n-gram 的重疊率相匹配，這表明TextRank 和SWTextRank 兩種算法都存在冗余的問(wèn)題。

表4 各種算法和參考摘要的冗余度Table 4 Redundancy of various algorithms and reference abstracts

4 性能分析

本節(jié)進(jìn)行了兩個(gè)性能分析實(shí)驗(yàn)：實(shí)驗(yàn)1 比較了PTextRank 算法與TextRank 算法和SWTextRank 算法的性能，實(shí)驗(yàn)2 比較分析了PTextRank 算法與典型網(wǎng)絡(luò)在線(xiàn)摘要生成系統(tǒng)的摘要生成結(jié)果。

4.1 PTextRank 算法與TextRank、SWTextRank 算法的對(duì)比

本節(jié)以計(jì)算準(zhǔn)確率P、召回率R和平均值F值為評(píng)價(jià)指標(biāo)，將PTextRank 與TextRank 算法和SWTextRank[15]進(jìn)行比較；實(shí)驗(yàn)中所采用的數(shù)據(jù)集是TTNewsCorpus_NLPCC2017。首先獲取數(shù)據(jù)集中article 和summarization 兩部分當(dāng)中的article 部分，然后通過(guò)本文的PTextRank 算法和TextRank 算法、SWTextRank 算法分別生成每篇文章的摘要。

實(shí)驗(yàn)結(jié)果如表5 所示。

表5 各種算法的實(shí)驗(yàn)結(jié)果對(duì)比Table 5 Comparison of experimental results of various algorithms

通過(guò)表5 的數(shù)據(jù)對(duì)比可以發(fā)現(xiàn)，從P、R、F這3 個(gè)指標(biāo)來(lái)看，PTextRank 算法所產(chǎn)生的摘要效果要好于另外兩個(gè)算法所產(chǎn)生的，更加接近數(shù)據(jù)集中給定的標(biāo)準(zhǔn)摘要。其中SWTextRank 算法在生成摘要句為2 句和3 句時(shí)根據(jù)式(4)計(jì)算得出的準(zhǔn)確率為38.5%和38.8%，而PTextRank 算法根據(jù)式(4)計(jì)算出的準(zhǔn)確率為44.8%和42.7%。所以可以看出，PTextRank算法至少提高了6%的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果說(shuō)明，在提取摘要的過(guò)程中考慮了文本的整體結(jié)構(gòu)信息、句子的位置以及句子與標(biāo)題的相似度等因素，并結(jié)合TextRank 算法，能夠提高摘要的質(zhì)量。通過(guò)表4的數(shù)據(jù)表明，在使用子句抽取模式代替原來(lái)的抽取整句后，PTextRank 算法對(duì)其進(jìn)行了進(jìn)一步的冗余優(yōu)化處理，使得生成的摘要效果優(yōu)于SWTextRank 算法。

4.2 與典型網(wǎng)絡(luò)摘要生成系統(tǒng)的摘要生成結(jié)果對(duì)比

本部分選取數(shù)據(jù)集中的兩篇文章，將PTextRank算法生成的摘要、在線(xiàn)自動(dòng)摘要系統(tǒng)(http://kgb.ling join.com/nlpir/)生成的摘要與數(shù)據(jù)集中給定的摘要比較，結(jié)果如表6 所示。在線(xiàn)自動(dòng)摘要系統(tǒng)所使用的算法是以TextRank 算法為基礎(chǔ)，首先使用Word2Vec生成詞向量并自定義Embedding，得到詞語(yǔ)的Embedding 后以詞向量的平均值作為句子的向量表示。其次使用余弦相似度計(jì)算句子之間的相似度并構(gòu)成如式(1)的相似度矩陣。最后根據(jù)式(2)和式(3)迭代得到句子的TextRank 值，并對(duì)TextRank 值排序得到最終摘要。根據(jù)表6 的結(jié)果可知在線(xiàn)自動(dòng)摘要系統(tǒng)和PTextRank 算法生成的摘要都能夠較好地表達(dá)原文的內(nèi)容。因本部分只選擇兩篇文章抽取摘要數(shù)據(jù)量較小，在線(xiàn)自動(dòng)摘要系統(tǒng)和PTextRank 算法生成的摘要在準(zhǔn)確率P、召回率R和平均值F基本無(wú)差別。從摘要冗余度看，根據(jù)式(7)計(jì)算二元重疊率，可以得出在線(xiàn)自動(dòng)摘要系統(tǒng)生成的摘要二元重疊率分別為22%和13%；PTextRank算法生成的兩篇摘要二元重疊率分別為10%和6%?？梢钥闯鯬TextRank 算法生成摘要的冗余度遠(yuǎn)遠(yuǎn)小于在線(xiàn)自動(dòng)摘要系統(tǒng)生成摘要的冗余度。

表6 摘要結(jié)果對(duì)比Table 6 Summary results comparsion

5 結(jié)束語(yǔ)

自動(dòng)摘要一直是自然語(yǔ)言處理中的主要研究方向。本文針對(duì)目前抽取式摘要在提取中文文本摘要時(shí)存在的不足，提出了改進(jìn)的PTextRank 算法。對(duì)于在抽取摘要時(shí)以句子為單位會(huì)造成抽取出的摘要存在冗余問(wèn)題，本文使用STB 對(duì)每個(gè)句子進(jìn)行語(yǔ)法標(biāo)記，選擇每個(gè)句子的子句，沒(méi)有子句的就用整句作為抽取單元，進(jìn)而以子句代替原來(lái)的整個(gè)句子為抽取單元。通過(guò)實(shí)驗(yàn)與分析表明，與以句子為單位抽取模式相比，子句提取具有更好的效果。抽取式摘要抽取出的句子之間銜接生硬、不夠自然等問(wèn)題將作為下一步待解決的工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡