朱兵兵, 羅 飛, 羅勇軍, 丁煒超, 黃 浩
(華東理工大學(xué)信息科學(xué)與工程學(xué)院, 上海 200237)
在如今信息數(shù)據(jù)呈指數(shù)增長(zhǎng)時(shí)代,人們想在短時(shí)間內(nèi)獲得有效數(shù)據(jù)使用自動(dòng)摘要技術(shù)無(wú)疑是一個(gè)比較好的選擇;其中,如何從冗余、非結(jié)構(gòu)化的長(zhǎng)文本中提煉出關(guān)鍵信息,并且使得提煉出的信息精簡(jiǎn)通順是一個(gè)關(guān)鍵問(wèn)題。目前基于文本摘要自動(dòng)抽取技術(shù)的自動(dòng)摘要已經(jīng)應(yīng)用到社會(huì)各領(lǐng)域,如社交媒體綜述[1]、新聞綜述[2]、專(zhuān)利綜述[3]、觀點(diǎn)綜述[4]以及學(xué)術(shù)文獻(xiàn)綜述[5]等。
基于生成方式,自動(dòng)摘要可分為抽取式摘要和生成式摘要[6]。抽取式摘要[7]從文本中原封不動(dòng)地截取一些句子作為摘要輸出,其本質(zhì)是轉(zhuǎn)換為一個(gè)排序問(wèn)題,它根據(jù)每個(gè)句子的重要性賦予其不同的分?jǐn)?shù),然后選中分?jǐn)?shù)排名靠前的提取單元作為摘要。提取單元可以為句子、詞組或詞語(yǔ),而現(xiàn)有方法主要以句子作為提取單元[8]?,F(xiàn)如今抽取式摘要中的提取算法以句子為單位已經(jīng)能夠取得不錯(cuò)的效果,但仍具有以下問(wèn)題:一方面,抽取出的句子存在冗余;另一方面,抽取出的句子包含了一些不關(guān)鍵的信息[9]。生成式摘要是在理解原文的基礎(chǔ)上重新生成摘要,而不再以原文句子拼接形式生成摘要。目前對(duì)于生成式摘要想要得到理想的結(jié)果還是比較困難的,因?yàn)樾枰罅康膭?chuàng)新和相應(yīng)的工作來(lái)提升性能。
基于生成技術(shù),自動(dòng)摘要可分為基于主題模型、基于圖、基于特征評(píng)分和基于啟發(fā)式算法等[10]。其中,基于圖模型方法的圖排序算法充分考慮了文本圖的全局信息,同時(shí)又不需要人工標(biāo)注訓(xùn)練集[11]。TextRank 算法及其系列改進(jìn)算法從生成方式上屬于抽取式方法,其中用到的技術(shù)為基于圖模型技術(shù);僅僅使用文本自身的相關(guān)信息和文本自身的結(jié)構(gòu)特點(diǎn),就能夠?qū)崿F(xiàn)自動(dòng)摘要的提取[12]。TextRank 算法作為一種抽取式總結(jié)方法,正是由于它不需要事先學(xué)習(xí)和訓(xùn)練多份文件,所以被廣泛使用。
TextRank 算法本身并沒(méi)有對(duì)摘要去除冗余的處理。為了提升TextRank 算法的性能,一系列改進(jìn)算法被提出[11-16]。如為了去除冗余,F(xiàn)ang 等[13]提出了一種新的詞句聯(lián)合排序模型CoRank;李娜娜等[14]、汪旭祥等[15]采用余弦相似度方法;朱玉佳等[16]采用MMR 算法。為了提升摘要的準(zhǔn)確率,徐馨韜等[11]把K-means 方法、TextRank 方法和Doc2Vec 模型相結(jié)合,提出中文文本摘要自動(dòng)抽取算法(DKTextRank);黃波等[12]利用每個(gè)詞的向量,結(jié)合其他語(yǔ)句的向量、TextRank 算法和Word2Vec 模型,提高詞匯的維度。
然而,TextRank 及其系列改進(jìn)算法并未有效地解決抽取式摘要所存在的冗余性問(wèn)題。為此,本文提出基于抽取子句模型的文本摘要自動(dòng)提取算法(PTextRank),以降低提取摘要的冗余度,并提高摘要的準(zhǔn)確性。首先對(duì)文本進(jìn)行預(yù)處理,以句號(hào)為標(biāo)記把整個(gè)文章分割成單個(gè)句子集。然后通過(guò)Sinica Treebank[17]方法對(duì)句子進(jìn)行句法成分分析,選擇子句作為抽取單元,通過(guò)BERT(Bidirectional Encoder Representation from Transformers)構(gòu)建每個(gè)子句的特征向量,然后在矩陣中存儲(chǔ)每個(gè)子句向量的相似度。最后,將相似矩陣轉(zhuǎn)換成以子句為節(jié)點(diǎn),相似度分?jǐn)?shù)為邊的圖結(jié)構(gòu),一定數(shù)量排名靠前的子句構(gòu)成最終的摘要,同時(shí)圖的結(jié)構(gòu)中也引入標(biāo)題、特殊語(yǔ)句等信息。本文所述的算法從比句子更細(xì)粒度的提取單元出發(fā),將重點(diǎn)信息和非重點(diǎn)信息通過(guò)更細(xì)粒度的提取單元來(lái)區(qū)分,從而防止了冗余的內(nèi)容都被抽取作為摘要的結(jié)果。
TextRank 算法是從PageRank 算法衍生出來(lái)的一種基于圖排序的無(wú)監(jiān)督方法。PageRank 算法用來(lái)衡量網(wǎng)頁(yè)的重要性,以每個(gè)網(wǎng)頁(yè)為節(jié)點(diǎn),網(wǎng)頁(yè)之間的聯(lián)系為邊構(gòu)建網(wǎng)絡(luò)圖。因此,TextRank 算法將文本以句子為單位進(jìn)行拆分,將每句話(huà)作為節(jié)點(diǎn)在網(wǎng)絡(luò)圖中進(jìn)行劃分,同時(shí)將句子之間的相似度作為邊。通過(guò)網(wǎng)絡(luò)圖的迭代計(jì)算,可以得出每句話(huà)的重要性得分,最后選出分?jǐn)?shù)較高的幾句話(huà)作為最終摘要。
TextRank 算法中有權(quán)的無(wú)向網(wǎng)絡(luò)圖可表示為G=(V,E,W),其中:V為句子表示的節(jié)點(diǎn),E為節(jié)點(diǎn)間各個(gè)邊的非空有限集合,W為各邊上權(quán)重的集合。假設(shè)V={V1,V2,···,Vn} ,則其中Wij是節(jié)點(diǎn)Vi與Vj間邊的權(quán)重?cái)?shù)值。通過(guò)余弦相似度方法可得出句子之間的相似度矩陣如式(1)所示:
每個(gè)句子的權(quán)重?cái)?shù)值可以結(jié)合網(wǎng)絡(luò)圖G和矩陣Sn×n來(lái)計(jì)算,如式(2)所示任意句子的權(quán)重Vi計(jì)算公式為:
式中:Ws(Vi) 為句子Vi的權(quán)重,d是取值大小為0.85 的阻尼系數(shù),In(Vi) 表示指向句子Vi的句子集合,Out(Vi) 表示節(jié)點(diǎn)Vi指向其他節(jié)點(diǎn)的集合,Wij表示節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj間的相似度,表示上一次迭代后節(jié)點(diǎn)Vj的權(quán)重值。
邊權(quán)重在TextRank 算法中的計(jì)算過(guò)程屬于Markov 過(guò)程,收斂的權(quán)重?cái)?shù)值可以通過(guò)迭代計(jì)算最終得到。一般把句子的初始權(quán)重設(shè)為1,也就是B0=(1,···,1)T,然后迭代計(jì)算至收斂:
收斂時(shí)Bi和Bi?1會(huì)很接近,一般認(rèn)為當(dāng)Bi和Bi?1之間差值小于0.000 1 時(shí)收斂,最后,根據(jù)每句話(huà)的得分,以實(shí)際需要選擇排序靠前的句子作為摘要。
SWTextRank 算法[15]針對(duì)TextRank 算法在自動(dòng)提取中文文本摘要時(shí)只考慮句子間的相似性,而忽略了詞語(yǔ)間的語(yǔ)義相關(guān)信息及文本的重要全局信息進(jìn)行了相應(yīng)改進(jìn),使得摘要的準(zhǔn)確率得到提高。SWTextRank 算法利用Word2Vec 訓(xùn)練的詞匯矢量,綜合考慮了句子權(quán)重的影響因素,如語(yǔ)句的位置、語(yǔ)句與題目是否具有相似性、重點(diǎn)詞語(yǔ)的覆蓋、重點(diǎn)語(yǔ)句與提示詞等,并通過(guò)分析句子的相似性來(lái)達(dá)到優(yōu)化語(yǔ)句分量的目的。最后,對(duì)所獲得的候選句使用余弦相似度進(jìn)行冗余處理。
本文提出提取子句的方法,以避免TextRank 算法及其系列改進(jìn)算法提取的摘要存在冗余的問(wèn)題,從而減少含有相同語(yǔ)義信息的句子重復(fù)出現(xiàn),使得最終獲取的摘要既具有簡(jiǎn)約性又具有對(duì)文章總體意思的總結(jié)。本文在句子權(quán)重計(jì)算時(shí),綜合考慮文中的子句位置,子句和題目的相似度,重點(diǎn)語(yǔ)句和提示詞等要素,使得最終獲得的摘要更準(zhǔn)確。一般來(lái)說(shuō),每一段的首句或者尾句更能表明大意,所以這部分語(yǔ)句的權(quán)重也應(yīng)當(dāng)加大;和標(biāo)題相似度很高的句子也應(yīng)當(dāng)加大權(quán)重;具有概括文章大意詞語(yǔ)的句子權(quán)重也應(yīng)當(dāng)加大。
在本節(jié)中,提出一種抽取單元替代方法,對(duì)完整的句子進(jìn)行截取來(lái)提取文檔的摘要。因此,使用子句提取來(lái)代替之前的整句提取方法。具體來(lái)說(shuō),提取單元基于句子的選區(qū)解析樹(shù)中的子句節(jié)點(diǎn)。圖1顯示了選區(qū)解析樹(shù)的兩個(gè)簡(jiǎn)化示例(圖中S(Sentence)、ADVP( Adverb) 、 NP( Noun Phrase) 、 VP( Verb Phrase)、VBD(Verb Past Tense)、SBAR 表示從句性質(zhì)、 WHNP( Wh-Noun Phrase) 、 CC( Coordinating Conjunction))。選區(qū)樹(shù)中的根節(jié)點(diǎn)表示整個(gè)句子,而葉節(jié)點(diǎn)表示其對(duì)應(yīng)的詞法標(biāo)記。根節(jié)點(diǎn)上的提取本質(zhì)上是提取整個(gè)句子,而葉節(jié)點(diǎn)上的提取是通過(guò)提取單詞進(jìn)行壓縮。對(duì)非終端節(jié)點(diǎn)進(jìn)行抽取,既能表達(dá)相對(duì)完整的句子含義又能被人讀懂。因此,子句節(jié)點(diǎn)如S 和SBAR 成為一個(gè)很好的選擇。
圖1 兩個(gè)簡(jiǎn)化的選區(qū)解析樹(shù)Fig.1 Two simplified analytic trees of selected area
為了對(duì)子句單元進(jìn)行提取,需要確定哪些單元可以提取。該方法基于選區(qū)解析樹(shù),其基本思想是基于樹(shù)中的子句。在實(shí)驗(yàn)中,我們采用了Sinica Treebank 中使用的語(yǔ)法標(biāo)記集。在STB 標(biāo)記集中有兩種主要類(lèi)型:短語(yǔ)和句子。在本實(shí)驗(yàn)中使用子句標(biāo)簽是因?yàn)樽泳渲械男畔⒈榷陶Z(yǔ)更完整。本文實(shí)驗(yàn)中主要是針對(duì)中文文本摘要的提取,因此語(yǔ)法標(biāo)記使用的是中研院Sinica Treebank。中文和英文在句法結(jié)構(gòu)上存在差異,比如英語(yǔ)句子的特點(diǎn)是句子中的每一個(gè)成分均可有修飾語(yǔ),而且修飾語(yǔ)不止一個(gè),每個(gè)修飾語(yǔ)都可以很長(zhǎng);一個(gè)修飾語(yǔ)還可被另一個(gè)修飾語(yǔ)修飾,因此句子結(jié)構(gòu)復(fù)雜。中文句子中修飾語(yǔ)少而短,句子由一個(gè)一個(gè)的分句構(gòu)成并逐步展開(kāi)。因此,如果對(duì)英文文本進(jìn)行摘要的提取,語(yǔ)法標(biāo)記建議使用Penn Treebank。
在給定句子解析樹(shù)的情況下,遍歷它來(lái)確定提取單元的邊界。具體來(lái)說(shuō),每個(gè)子句都被視為提取單元候選項(xiàng)。如果它的一個(gè)祖先是子句節(jié)點(diǎn),我們選擇最高級(jí)的祖先子句節(jié)點(diǎn)(根節(jié)點(diǎn)除外)作為提取單元,因?yàn)樽罡呒?jí)的祖先子句節(jié)點(diǎn)包含更完整的信息。如果一個(gè)句子沒(méi)有子句,那么就用整句作為抽取單元。
表1 顯示了兩個(gè)中文句子經(jīng)過(guò)本文子句抽取策略的提取結(jié)果。從結(jié)果可以看出,通過(guò)對(duì)子句提取,整個(gè)句子被分解成更細(xì)粒度的語(yǔ)義單元。因此,本文的子句抽取策略可以提取重要的部分,而不引入不重要的內(nèi)容。
表1 子句抽取結(jié)果Table 1 Clause extraction result
TextRank 算法網(wǎng)絡(luò)圖中的節(jié)點(diǎn)間權(quán)重影響每句話(huà)的最終得分,而節(jié)點(diǎn)間權(quán)重即為句子間的相似度,所以計(jì)算句子相似度就變得特別重要。為了使句子相似度計(jì)算更為準(zhǔn)確,多種相似度計(jì)算方法已經(jīng)應(yīng)用在TextRank 算法上,如Word2Vec、Doc2Vec 等。
BERT 是一個(gè)語(yǔ)言表征模型,由Google 于2018年推出。它的特點(diǎn)就是不同于以往的單向語(yǔ)言模型或者把兩個(gè)單向語(yǔ)言模型進(jìn)行簡(jiǎn)單拼接的方法進(jìn)行預(yù)訓(xùn)練,而是基于Transformer 采用深度的雙向語(yǔ)言表征。與Word2Vec、Doc2Vec 等方法相比,BERT 能夠更好地反映出句子之間的關(guān)系。本文正是利用BERT 訓(xùn)練的詞向量來(lái)獲得子句的向量進(jìn)而計(jì)算子句與子句之間的相似度。具體算法如算法1 所示,其中T為初始化的詞向量集合,S為初始化的句子向量集合,D為原始句子經(jīng)過(guò)STB 抽取子句,對(duì)子句進(jìn)行文本分詞、去除符號(hào)和停用詞得到的詞語(yǔ)集合。算法1 的具體實(shí)現(xiàn)流程如下所示:
利用官方中文BERT 預(yù)訓(xùn)練模型對(duì)以下3 個(gè)句子進(jìn)行編碼,兩種句子的相似度結(jié)果,如表2 所示。
表2 不同句子相似度結(jié)果Table 2 Similarity results of different sentences
句子A=“要重視文本摘要算法的研究”
句子B=“自動(dòng)文摘是自然語(yǔ)言處理中的重要內(nèi)容”
句子C=“今天天氣真好,風(fēng)和日麗”
從所舉的例子中可以得出,A、B 兩句在語(yǔ)義上較A、C 兩句更為相似,但是這3 句話(huà)之間都沒(méi)有相同的詞語(yǔ),每句話(huà)之間的語(yǔ)義相似度并未提現(xiàn)。A、B 和A、C 之間的余弦?jiàn)A角相似度的結(jié)果,可以反映出使用BERT 對(duì)句子進(jìn)行向量編碼后語(yǔ)義上的差異。可以看出,BERT 訓(xùn)練出的詞向量更能體現(xiàn)出句子之間的語(yǔ)義不同,使得最后得出的摘要更能反映原文主旨內(nèi)容。
本文對(duì)特殊位置的子句、包含標(biāo)題關(guān)鍵詞的子句、包含線(xiàn)索詞的子句和含有專(zhuān)有名詞的子句的權(quán)重調(diào)整為原來(lái)的k倍。在根據(jù)式(3)迭代計(jì)算收斂后,對(duì)k分別取值1.2、1.4、1.6、1.8 進(jìn)行實(shí)驗(yàn)對(duì)比,最后抽取前兩句作為摘要,根據(jù)式(4)~式(6)中平均準(zhǔn)確率P、平均召回率R和平均F值最終確定k取1.4 時(shí)摘要抽取的效果最好。
其中:ai表示算法生成的第i篇文章的摘要,bi表示數(shù)據(jù)集中給定的第i篇摘要。
實(shí)驗(yàn)結(jié)果對(duì)比如表3 所示。具體算法如算法2 所示,其中Bi表示句子權(quán)重值,函數(shù)isSelectCentence()是選擇符合上述條件的子句改變其權(quán)重。算法2 的具體實(shí)現(xiàn)流程如下所示:
表3 不同權(quán)重結(jié)果對(duì)比Table 3 Comparison of results with different weights
基于上述子句抽取、句子相似度計(jì)算及特殊句子的權(quán)重處理策略,改進(jìn)后的PTextRank 算法的實(shí)現(xiàn)過(guò)程如算法3 所示。算法中對(duì)文本的處理、子句向量的計(jì)算和算法1 相同。Wij表示利用余弦相似度計(jì)算子句向量間的相似性,Sn×n是把Wij存放在如式(1)的矩陣中。然后根據(jù)式(2)計(jì)算出子句權(quán)重值Ws(Vi),選擇符合條件的子句進(jìn)行權(quán)重調(diào)整,根據(jù)式(3)迭代計(jì)算至收斂得到每個(gè)子句的分?jǐn)?shù)。最后根據(jù)分?jǐn)?shù)排名得到最終的摘要。算法3 的具體實(shí)現(xiàn)流程如下所示:
TextRank 算法迭代計(jì)算后按照句子分?jǐn)?shù)從大到小的順序選擇前幾個(gè)句子形成最終的摘要,因?yàn)榍皫拙涞恼Z(yǔ)義是相近的,此時(shí)的摘要就會(huì)形成冗余。原文作者為了強(qiáng)調(diào)重要信息,可能會(huì)用不同形式的句子,在原文的不同位置重復(fù)原文的主旨內(nèi)容。如果不同位置相似的句子都成為摘要句,那么在最終形成的摘要中就會(huì)有相似的句子造成信息冗余。
為了分析冗余問(wèn)題是否存在,本文采用基于計(jì)數(shù)統(tǒng)計(jì)和人為判斷兩種方法進(jìn)行實(shí)驗(yàn)和分析。本文選取了TTNewsCorpus_NLPCC2017 數(shù)據(jù)集為樣本。在此數(shù)據(jù)集上分別進(jìn)行TextRank、SWTextRank 以及PTextRank 算法的冗余度分析。首先定義一個(gè)冗余度量,即n元重疊率,計(jì)算每對(duì)句子之間的ngram 重疊。這種重疊的計(jì)算方法如式(7)所示:
根據(jù)表4 的數(shù)據(jù)顯示, TextRank 算法和SWTextRank 算法在冗余度上都遠(yuǎn)遠(yuǎn)高于參考摘要的冗余度。在詞匯層面的統(tǒng)計(jì)之外,還進(jìn)行了人工評(píng)價(jià),結(jié)果與n-gram 的重疊率相匹配,這表明TextRank 和SWTextRank 兩種算法都存在冗余的問(wèn)題。
表4 各種算法和參考摘要的冗余度Table 4 Redundancy of various algorithms and reference abstracts
本節(jié)進(jìn)行了兩個(gè)性能分析實(shí)驗(yàn):實(shí)驗(yàn)1 比較了PTextRank 算法與TextRank 算法和SWTextRank 算法的性能,實(shí)驗(yàn)2 比較分析了PTextRank 算法與典型網(wǎng)絡(luò)在線(xiàn)摘要生成系統(tǒng)的摘要生成結(jié)果。
本節(jié)以計(jì)算準(zhǔn)確率P、召回率R和平均值F值為評(píng)價(jià)指標(biāo), 將PTextRank 與TextRank 算法和SWTextRank[15]進(jìn)行比較;實(shí)驗(yàn)中所采用的數(shù)據(jù)集是TTNewsCorpus_NLPCC2017。首先獲取數(shù)據(jù)集中article 和summarization 兩部分當(dāng)中的article 部分,然后通過(guò)本文的PTextRank 算法和TextRank 算法、SWTextRank 算法分別生成每篇文章的摘要。
實(shí)驗(yàn)結(jié)果如表5 所示。
表5 各種算法的實(shí)驗(yàn)結(jié)果對(duì)比Table 5 Comparison of experimental results of various algorithms
通過(guò)表5 的數(shù)據(jù)對(duì)比可以發(fā)現(xiàn),從P、R、F這3 個(gè)指標(biāo)來(lái)看,PTextRank 算法所產(chǎn)生的摘要效果要好于另外兩個(gè)算法所產(chǎn)生的,更加接近數(shù)據(jù)集中給定的標(biāo)準(zhǔn)摘要。其中SWTextRank 算法在生成摘要句為2 句和3 句時(shí)根據(jù)式(4)計(jì)算得出的準(zhǔn)確率為38.5%和38.8%,而PTextRank 算法根據(jù)式(4)計(jì)算出的準(zhǔn)確率為44.8%和42.7%。所以可以看出,PTextRank算法至少提高了6%的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果說(shuō)明,在提取摘要的過(guò)程中考慮了文本的整體結(jié)構(gòu)信息、句子的位置以及句子與標(biāo)題的相似度等因素,并結(jié)合TextRank 算法,能夠提高摘要的質(zhì)量。通過(guò)表4的數(shù)據(jù)表明,在使用子句抽取模式代替原來(lái)的抽取整句后,PTextRank 算法對(duì)其進(jìn)行了進(jìn)一步的冗余優(yōu)化處理,使得生成的摘要效果優(yōu)于SWTextRank 算法。
本部分選取數(shù)據(jù)集中的兩篇文章,將PTextRank算法生成的摘要、在線(xiàn)自動(dòng)摘要系統(tǒng)(http://kgb.ling join.com/nlpir/)生成的摘要與數(shù)據(jù)集中給定的摘要比較,結(jié)果如表6 所示。在線(xiàn)自動(dòng)摘要系統(tǒng)所使用的算法是以TextRank 算法為基礎(chǔ),首先使用Word2Vec生成詞向量并自定義Embedding,得到詞語(yǔ)的Embedding 后以詞向量的平均值作為句子的向量表示。其次使用余弦相似度計(jì)算句子之間的相似度并構(gòu)成如式(1)的相似度矩陣。最后根據(jù)式(2)和式(3)迭代得到句子的TextRank 值,并對(duì)TextRank 值排序得到最終摘要。根據(jù)表6 的結(jié)果可知在線(xiàn)自動(dòng)摘要系統(tǒng)和PTextRank 算法生成的摘要都能夠較好地表達(dá)原文的內(nèi)容。因本部分只選擇兩篇文章抽取摘要數(shù)據(jù)量較小,在線(xiàn)自動(dòng)摘要系統(tǒng)和PTextRank 算法生成的摘要在準(zhǔn)確率P、召回率R和平均值F基本無(wú)差別。從摘要冗余度看,根據(jù)式(7)計(jì)算二元重疊率,可以得出在線(xiàn)自動(dòng)摘要系統(tǒng)生成的摘要二元重疊率分別為22%和13%;PTextRank算法生成的兩篇摘要二元重疊率分別為10%和6%??梢钥闯鯬TextRank 算法生成摘要的冗余度遠(yuǎn)遠(yuǎn)小于在線(xiàn)自動(dòng)摘要系統(tǒng)生成摘要的冗余度。
表6 摘要結(jié)果對(duì)比Table 6 Summary results comparsion
自動(dòng)摘要一直是自然語(yǔ)言處理中的主要研究方向。本文針對(duì)目前抽取式摘要在提取中文文本摘要時(shí)存在的不足,提出了改進(jìn)的PTextRank 算法。對(duì)于在抽取摘要時(shí)以句子為單位會(huì)造成抽取出的摘要存在冗余問(wèn)題,本文使用STB 對(duì)每個(gè)句子進(jìn)行語(yǔ)法標(biāo)記,選擇每個(gè)句子的子句,沒(méi)有子句的就用整句作為抽取單元,進(jìn)而以子句代替原來(lái)的整個(gè)句子為抽取單元。通過(guò)實(shí)驗(yàn)與分析表明,與以句子為單位抽取模式相比,子句提取具有更好的效果。抽取式摘要抽取出的句子之間銜接生硬、不夠自然等問(wèn)題將作為下一步待解決的工作。