摘? 要:基于圖模型的TextRank方法形成的摘要不會(huì)脫離文檔本身,但在抽取文本特征的時(shí)候,傳統(tǒng)的詞向量獲取方法存在一詞多義的問(wèn)題,而基于BERT的詞向量獲取方式,充分挖掘了文本語(yǔ)義信息,緩解了一詞多義問(wèn)題。對(duì)不同詞嵌入方法進(jìn)行了實(shí)驗(yàn)對(duì)比,驗(yàn)證了BERT模型的有效性。基于詞頻統(tǒng)計(jì)的相似度計(jì)算方法也忽略了句子的語(yǔ)義信息,文中選擇了向量形式的相似度的計(jì)算方法用于文本摘要生成。最后在TTNews數(shù)據(jù)集上做實(shí)驗(yàn),效果有了明顯的提升。
關(guān)鍵詞:中文文本摘要;BERT;TextRank;相似度
中圖分類號(hào):TP 391 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2022)02-0091-06
Abstract: The abstract formed by TextRank method based on graph model will not be separated from the document itself, but when extracting text features, the traditional word vector acquisition method has the problem of polysemy, while the word vector acquisition method based on BERT fully excavates the semantic information of the text and alleviates the problem of polysemy. The experimental comparison of different word embedding methods verifies the effectiveness of the BERT model. The similarity calculation method based on word frequency statistics also ignores the semantic information of sentences. In this paper, the similarity calculation method in vector form is selected for text abstract generation. Finally, the experiment on TTNews data set shows that the effect is obviously improved.
Keywords: abstract of Chinese text; BERT; TextRank; similarity
0? 引? 言
文本摘要作為自然語(yǔ)言處理領(lǐng)域的主要研究方向之一,它的主要任務(wù)是信息抽取。在這個(gè)互聯(lián)網(wǎng)快速發(fā)展的時(shí)期,每天都能從網(wǎng)上看到大量的文本信息,比如新聞微博等。然而并不是所有的信息都是需要的,我們都只關(guān)注自己所關(guān)心的內(nèi)容,如何從大量的文本里面抽取到關(guān)鍵信息以幫助人們快速獲得自己想要的信息,是本篇論文主要討論的問(wèn)題。文本摘要的主要任務(wù)就是抽取關(guān)鍵信息,進(jìn)而可以解決這一問(wèn)題,文本摘要旨在幫助人們從大量的文本信息中快速找到自己關(guān)注的信息。如果把含有幾千字的文章縮寫(xiě)成幾百字,那么讀者就可以很輕松地了解到文章的主旨,摘要分為“人工摘要”和“自動(dòng)摘要”,人工摘要由讀者自己閱讀總結(jié)得到,可能需要花費(fèi)讀者大量的時(shí)間和精力,自動(dòng)摘要是由機(jī)器得到的。
文本摘要可以分為抽取式摘要、生成式摘要[1]和混合式摘要。抽取式摘要可以簡(jiǎn)單概括為從原文檔中抽取出一個(gè)或者多個(gè)句子拼接在一起構(gòu)成摘要,這樣得到的摘要不會(huì)脫離文檔本身,既簡(jiǎn)單又實(shí)用。抽取式摘要主要思想是對(duì)文檔的每句話打分,句子的重要程度就是根據(jù)分?jǐn)?shù)的高低來(lái)判定的,按照分?jǐn)?shù)的高低對(duì)每個(gè)句子排序,分?jǐn)?shù)高的前幾個(gè)句子被抽取出來(lái)形成摘要。生成式摘要和抽取式摘要不同,它重在提取每個(gè)句子的特征,獲取文檔的主要思想后,重新組織語(yǔ)言生成新的句子組成摘要?;旌鲜秸褪菍⑸鲜鰞煞N方法結(jié)合在一起生成的摘要稱為混合式摘要。
文本摘要又可以按照文檔的其他形式劃分,比如按照文檔數(shù)量劃分,分為單文檔摘要和多文檔摘要[2],這兩者只是在文檔數(shù)量上有所不同,單文檔是指只針對(duì)一篇文檔,多文檔針對(duì)同一類型的多篇文檔處理,最后生成的摘要包含了這些文檔的主題信息。
1? 相關(guān)工作
1.1? 文本摘要研究現(xiàn)狀
抽取式文本摘要簡(jiǎn)單實(shí)用,目前也出現(xiàn)了很多抽取式摘要生成方法,其中在工業(yè)方面應(yīng)用的比較廣泛,目前主要的技術(shù)方法有基于主題模型、基于圖模型、特征評(píng)分、深度學(xué)習(xí),等等。
1958年Luhn[3]提出了基于高頻關(guān)鍵詞給文章句子排序得到摘要的方法。Kupiec[4]等人采用了樸素貝葉斯分類器來(lái)計(jì)算一個(gè)句子是否為摘要句的概率。Aone[5]提出了TF-IDF[6]方法來(lái)計(jì)算某個(gè)句子成為摘要句子的概率。Conrog[7]等人運(yùn)用馬爾可夫模型來(lái)抽取摘要句子。
上述幾種方法都是基于統(tǒng)計(jì)特征為基礎(chǔ)的摘要方法。這幾種方法得到的摘要的可讀性不是很好,為了繼續(xù)完善自動(dòng)摘要提取方法,GunesErkan和Rad等人[8]提出了TextRank方法,這個(gè)算法計(jì)算每?jī)蓚€(gè)句子之間的相似度,計(jì)算每個(gè)句子占全文信息的比重,選擇比重較高的前幾個(gè)句子組成摘要。隨著深度學(xué)習(xí)不斷地發(fā)展,生成式摘要也逐漸得到了廣泛的研究。2014年Google提出的序列到序列模型[9]最開(kāi)始應(yīng)用在翻譯任務(wù)中;2015年Facebook公司的Rush等人[10]將深度學(xué)習(xí)的端到端的方法首次應(yīng)用到摘要的生成任務(wù)中,得到了很好的效果;Chopra等人[11]用卷積神經(jīng)網(wǎng)絡(luò)編碼原文信息,采用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行解碼生成了更加連貫的摘要;Nallapati[12]等在編碼階段使用雙向循環(huán)的神經(jīng)網(wǎng)絡(luò),還對(duì)低頻詞進(jìn)行了處理;2016年谷歌[13]發(fā)布的摘要模型采用了集束搜索(Beam-Search)來(lái)生成摘要,這種方法在編碼和解碼的部分采用的是循環(huán)神經(jīng)網(wǎng)絡(luò),避免時(shí)間和空間的浪費(fèi);2018年谷歌發(fā)布BERT[14]模型,這個(gè)模型被多次應(yīng)用在自然語(yǔ)言處理任務(wù)中,都取得了比較好的效果。
1.2? 主要工作
在以往的NLP任務(wù)中,詞向量的表示方法有One-Hot方法,可是One-Hot編碼方式存在維度過(guò)高的缺點(diǎn),計(jì)算量非常龐大。2013年Mikolov等人提出了基于分布式的詞嵌入方式Word2Vec方法,這個(gè)方法網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,訓(xùn)練的中文語(yǔ)料比較少,不能提取句子的深層語(yǔ)義信息。2018年由Jacob Devlin等人研發(fā)出BERT[14]模型,BERT內(nèi)部主要由Transformer[15]組成,該模型網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,訓(xùn)練的中文語(yǔ)料比較多,充分提取文檔的語(yǔ)義特征,緩解了一詞多義問(wèn)題。本文選用BERT模型,是因?yàn)锽ERT模型使用雙向Transformer編碼器,Transformer模型能夠抽取句子的特征,得到的詞向量會(huì)隨著上下文語(yǔ)境的改變而動(dòng)態(tài)變化,使句子的語(yǔ)義表達(dá)更準(zhǔn)確,比如“蘋(píng)果公司”和“吃個(gè)蘋(píng)果”,“蘋(píng)果”在第一個(gè)句子中代表的是一個(gè)品牌的名字,在第二句話中表示的是水果的意思,BERT在對(duì)蘋(píng)果這個(gè)詞進(jìn)行編碼的時(shí)候會(huì)根據(jù)其所在的上下文不同而改變編碼的詞向量,使其更符合所表達(dá)的含義。對(duì)于之前從未考慮過(guò)的詞的位置信息影響語(yǔ)義的表達(dá)的問(wèn)題,比如像“明天你去我家”和“明天我去你家”,意思完全不一樣,BERT加入Position Embedding來(lái)保留位置信息,使相同的詞在不同的位置的時(shí)候表達(dá)的語(yǔ)義信息更加準(zhǔn)確。本文將其他詞嵌入方法與BERT模型用于文本摘要做了實(shí)驗(yàn)對(duì)比,BERT相比較其他模型來(lái)說(shuō)能達(dá)到比較好的效果。將微調(diào)后的BERT用來(lái)預(yù)處理文本,原始的BERT輸出是針對(duì)Token的而不是句子,并且原始BERT的輸入只有兩個(gè)句子,不適合做文本摘要任務(wù),所以,為了使它更加適合文本摘要任務(wù),需要對(duì)BERT模型做一些修改。在每個(gè)句子句首加上[CLS]標(biāo)簽,每個(gè)句子的末尾都有一個(gè)[SEP]標(biāo)簽,[CLS]標(biāo)簽可以區(qū)分每一個(gè)句子,BERT可以輸入多個(gè)句子,給句子進(jìn)行編碼構(gòu)成特征向量,用于文本摘要任務(wù)?;趫D模型的方法處理文本信息,通常以單詞或者句子作為處理文本單元,在抽取式文本摘要中,主要以句子為文本單元進(jìn)行處理,將句子作為頂點(diǎn),2個(gè)相似的點(diǎn)用邊連接起來(lái)構(gòu)成圖,利用圖排序算法,比如TextRank算法對(duì)句子進(jìn)行打分排序。這種方法依賴句子之間的相似度,主要進(jìn)行任意句子之間的相似性計(jì)算和迭代計(jì)算,TextRank算法是基于PageRank算法改進(jìn)而來(lái)。傳統(tǒng)的TextRank模型在計(jì)算句子的相似度時(shí)用的是基于詞頻的統(tǒng)計(jì)方式,這種方法沒(méi)有考慮到句子語(yǔ)義方面的信息,比如像“你美不”“你不美”這類的句子,沒(méi)有考慮到他們的語(yǔ)義層面的信息,結(jié)果存在不必要性。本文用余弦相似度的計(jì)算方法代替了傳統(tǒng)的詞頻統(tǒng)計(jì)方法,結(jié)果得到了明顯的改善。本文研究?jī)?nèi)容主要有:
(1)基于BERT的句向量表示。通過(guò)word2vec或者glove方法抽取淺層的文本特征來(lái)對(duì)基本語(yǔ)義單元進(jìn)行向量化表示,而后依據(jù)相應(yīng)算法計(jì)算句子的權(quán)重,這種方法存在一詞多義問(wèn)題,抽取得到的摘要句精確度低,連貫性差。針對(duì)這一問(wèn)題使用BERT對(duì)句子進(jìn)行向量化表示,學(xué)習(xí)和開(kāi)發(fā)深層次的語(yǔ)義特征,效果有明顯改善。
(2)句子的相似度度量。用TextRank方法做抽取式摘要,計(jì)算每?jī)蓚€(gè)句子之間的相似度時(shí),用的是基于詞頻的相似度度量方法,這種方法忽視了句子的上下文信息,針對(duì)這一問(wèn)題本文對(duì)比了其他的相似度度量方法進(jìn)行研究。
(3)關(guān)于TTNews的文本摘要生成。將本文的文本摘要生成方法用于TTNews數(shù)據(jù)集上,用其他方法和本文方法做了實(shí)驗(yàn)對(duì)比,運(yùn)用ROUGE評(píng)價(jià)方法評(píng)測(cè)了摘要的質(zhì)量。
2? 研究方法
獲取句子的向量形式,本文使用改進(jìn)的BERT方法,原始的BERT輸出是針對(duì)Token而不是句子,并且原始BERT的輸入只有兩個(gè)句子,不適合做文本摘要任務(wù),所以,需要對(duì)BERT模型做一些修改。在每個(gè)句子句首加上[CLS]標(biāo)簽,使[CLS]標(biāo)簽可以區(qū)分每一個(gè)句子,同時(shí)BERT可以輸入多個(gè)句子。使用BERT來(lái)獲取句子的表示向量,借助BERT模型的強(qiáng)大表示能力,更好地捕捉句子的上下文信息。用TextRank算法對(duì)文本進(jìn)行抽取處理,將文檔中重要的句子抽取出來(lái)組合在一起,生成新的文本摘要。
2.1? BERT的模型
圖1為BERT的模型結(jié)構(gòu),BERT內(nèi)部主要由多層Transformer構(gòu)成。Transformer基本結(jié)構(gòu)是Encoder-Decoder,Encoder表示編碼器,Decoder表示解碼器Transformer由這兩者組合而成。
2.2? TextRank圖模型
TextRank做文本摘要,針對(duì)單個(gè)文檔首先根據(jù)標(biāo)點(diǎn)符號(hào)進(jìn)行句子分割,針對(duì)每個(gè)句子獲得句子的向量表示,構(gòu)建相似度矩陣,然后以句子為頂點(diǎn),相似度作為邊表示成圖的形式,最后計(jì)算每個(gè)頂點(diǎn)的得分,把得分最高的前幾個(gè)句子抽取出來(lái)構(gòu)成文檔的摘要,其流程圖如圖2所示。
具體流程為:
(1)將文檔按照: , ? ! 。 ; “”等標(biāo)點(diǎn)符號(hào)劃分成一系列的句子。
(2)文本預(yù)處理,去除停用詞,然后進(jìn)行(jieba)分詞,得到句子中詞的詞向量,對(duì)詞向量求平均作為句子的向量表示。
(3)計(jì)算每?jī)蓚€(gè)句子之間的相似度值,然后以句子為頂點(diǎn),相似度值作為邊,將兩個(gè)頂點(diǎn)連接構(gòu)成圖如圖3所示。
(4)計(jì)算每個(gè)句子的得分值。
(5)最后按照分?jǐn)?shù)高低排序,得分高的前幾個(gè)句子抽取出來(lái)構(gòu)成摘要。
TextRank圖模型如圖3所示,每個(gè)頂點(diǎn)代表的是文本中的句子,兩個(gè)頂點(diǎn)連線上的數(shù)字為兩個(gè)句子之間的相似度。
2.3? 本文方法
摘要生成的流程圖如圖4所示,首先根據(jù)標(biāo)點(diǎn)符號(hào)對(duì)文檔進(jìn)行句子分割,然后送入BERT模型,BERT模型首先對(duì)文檔每個(gè)句子進(jìn)行處理,在每個(gè)句子開(kāi)頭加[CLS]標(biāo)簽,句子的末尾加上[SEP]標(biāo)簽,句子表示成圖4(TokenEmbedding+SegmentEmbedding+PositionEmbedding)的形式,BERT模型內(nèi)部有多個(gè)Transformer層,經(jīng)過(guò)這些Transformer層處理后輸出每個(gè)句子的向量表示形式。然后求每?jī)蓚€(gè)句子之間的相似度值,構(gòu)建相似度矩陣,以每個(gè)句子為頂點(diǎn),句子之間的相似度作為邊構(gòu)建圖模型,最后求每個(gè)句子的得分值,選取得分高的幾個(gè)句子作為文檔的摘要。
2.3.1? 文本句向量表示
給定一篇文檔D={S1,S2,S3,…,Sn}(其中n表示文檔的第n個(gè)句子),BERT模型的句向量表示如圖5所示。
原始的BERT輸出是針對(duì)Token的而不是句子,由于原始BERT模型不適合文本摘要任務(wù),所以,需要對(duì)模型做一些修改。在每個(gè)句子句首加上[CLS]標(biāo)簽,句子的末尾都有一個(gè)[SEP]標(biāo)簽,因此模型可以區(qū)分開(kāi)每一個(gè)句子。
TokenEmbeddings:先得到每個(gè)詞的詞向量形式;
SegmentEmbeddings:根據(jù)i的奇偶性來(lái)決定這個(gè)句子的段嵌入為EA或者EB;
PositionEmbeddings:根據(jù)詞在文檔中的位置訓(xùn)練得到;
將上面三個(gè)向量相加TokenEmbedding+SegmentEmbedding+PositionEmbedding作為BERT模型的輸入。即:
(1)將每個(gè)句子用向量表示出來(lái)保存在[CLS]中。
(2)經(jīng)過(guò)BERT模型,得到每個(gè)句子的向量表示,這種向量表示包含句子的上下文信息,考慮到了句子語(yǔ)義層面的信息。
BERT模型與其他模型相比,可以充分挖掘詞的上下文的信息,獲得含有語(yǔ)義信息的向量表示形式,因此可以在一定程度上緩解多義詞問(wèn)題。
2.3.2? 摘要句抽取
TextRank算法求句子的相似度,是基于詞頻的統(tǒng)計(jì)方式,忽視了句子之間的語(yǔ)義信息。計(jì)算公式為:
(Si,Sj表示第i個(gè)句子和第j個(gè)句子,wk表示第k個(gè)詞)這種計(jì)算方法僅僅通過(guò)統(tǒng)計(jì)兩個(gè)句子之間的公有詞的個(gè)數(shù)來(lái)計(jì)算句子之間的相似度,沒(méi)有考慮任何語(yǔ)義層面的信息。本文用BERT模型獲取的句子的向量來(lái)計(jì)算相似度,因?yàn)锽ERT模型使用雙向Transformer編碼器,即讓兩個(gè)Transformer特征抽取器分別從左到右和從右到左掃描輸入序列。BERT加入Position Embedding來(lái)保留位置信息,使相同的詞在不同的位置的時(shí)候表達(dá)的語(yǔ)義信息更加準(zhǔn)確。本文通過(guò)用余弦相似度的計(jì)算方法計(jì)算相似度,這個(gè)方法正是計(jì)算兩個(gè)向量之間的方向關(guān)系,這樣求得的句子之間的相似度更能表達(dá)兩個(gè)句子之間的關(guān)系。
本文也考慮了用歐氏距離[16]來(lái)計(jì)算兩個(gè)句子的相似度,可因?yàn)闅W氏距離主要用來(lái)計(jì)算兩個(gè)點(diǎn)之間的距離,和兩個(gè)點(diǎn)之間的坐標(biāo)信息有關(guān),而語(yǔ)義層次的信息并不關(guān)心數(shù)值的大小,更多的是關(guān)注兩個(gè)向量在方向上是否更加接近?;诖?,余弦相似度的度量方法可以更有效地表示兩個(gè)句子之間的相似度關(guān)系。
給定文檔D,劃分句子D={S1,S2,S3,…,Sn}。以句子為頂點(diǎn),構(gòu)建圖G(V,E),其中V代表句子的集合,E是邊的集合,句子之間的相似度作為構(gòu)成圖的邊的權(quán)值。
式(2)中,WS(Vi)表示頂點(diǎn)i的得分,d的值為0.85。in(Vi)代表所有指向點(diǎn)i的點(diǎn),Wji表示點(diǎn)j和點(diǎn)i之間的邊的權(quán)值,out(Vj)表示所有從點(diǎn)j指向其他頂點(diǎn)的點(diǎn),Wjk表示點(diǎn)j和點(diǎn)k的邊的權(quán)值,WS(Vj)表示頂點(diǎn)j的得分。
根據(jù)式(2)得到每個(gè)句子的得分值,本文選取得分比較高的前三個(gè)句子作為文檔的摘要。
3? 實(shí)驗(yàn)分析
3.1? 實(shí)驗(yàn)數(shù)據(jù)
文章提出的方法用在了TTNews corpus數(shù)據(jù)集上,取得分最高的前三句作為文本摘要,并與其他三個(gè)抽取式摘要方法做了對(duì)比。
3.2? 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
實(shí)驗(yàn)環(huán)境:Pytorch 1.8.1,Tensorflow 1.9.0,Torchvision 0.8,Cuda 9.2。
實(shí)驗(yàn)使用的BERT-base模型共12層即12個(gè)encoder單元,隱藏層768維,12個(gè)attention,序列長(zhǎng)度為128。
3.3? 評(píng)價(jià)指標(biāo)
文中用ROUGE[15]作為文本自動(dòng)摘要的評(píng)價(jià)指標(biāo),Rouge方法比較本文生成的摘要與數(shù)據(jù)集給出的標(biāo)準(zhǔn)摘要的重疊單元,來(lái)評(píng)價(jià)模型生成摘要的質(zhì)量。本實(shí)驗(yàn)用ROUGE-1、ROUGE-2、ROUGE-L這三個(gè)值作為評(píng)價(jià)指標(biāo)對(duì)得出的摘要進(jìn)行評(píng)價(jià)。
式(3)中n代表比較文本單元的長(zhǎng)度,Countmatch代表的是同時(shí)出現(xiàn)在標(biāo)準(zhǔn)摘要和機(jī)器生成的摘要的文本的數(shù)目。
ROUGE-L表示的是標(biāo)準(zhǔn)摘要和本文生成的摘要的最長(zhǎng)公共子序列的長(zhǎng)度占標(biāo)準(zhǔn)摘要的比例。
3.4? 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)進(jìn)行了2000次迭代,文中介紹的抽取式摘要方法和其他抽取式摘要方法都在TTNews數(shù)據(jù)集上做了比較。從解決一詞多義方面考慮,首先對(duì)word2vec、glove、BERT三種不同的詞嵌入方法做了實(shí)驗(yàn)對(duì)比,結(jié)果如表1所示,從中可以看出相比較其他詞向量表示方法,文中采用的方法效果更好。
對(duì)于不同的相似度計(jì)算方法,對(duì)比了TextRank原始的詞頻統(tǒng)計(jì)方式、歐氏距離相似度算法,以及文中用的余弦相似度算法,相似度比較結(jié)果如表2所示。從中可以看出,文中選用的余弦相似度計(jì)算方法判斷兩個(gè)句子之間的相似性精確度有了明顯的提升。
最后,用文中提出的抽取式摘要方法與其他幾個(gè)抽取式摘要方法做了實(shí)驗(yàn)對(duì)比,結(jié)果如表3所示。
Lead3方法:選取文章的前三個(gè)句子作為文章的摘要部分。這種方法雖然簡(jiǎn)單方便,但是存在信息覆蓋不全,容易損失信息的缺點(diǎn)。
TextRank[17]方法:構(gòu)建圖模型,用算法為文檔的每個(gè)句子按照得分排序。此方法經(jīng)過(guò)本文方法的改進(jìn)后,摘要信息的準(zhǔn)確率得到了明顯的提升。
TF-IDF方法[6]:根據(jù)每個(gè)句子中詞語(yǔ)的TF-IDF值來(lái)計(jì)算句子的得分,句子的重要性根據(jù)詞的重要性之和來(lái)估計(jì),選取重要性高的幾個(gè)句子作為摘要。這種方法句子的重要性主要通過(guò)“關(guān)鍵詞”來(lái)衡量,得到的摘要存在片面,信息涵蓋不全,不連貫等缺點(diǎn)。
從表3中可以看出本文提出的方法和其他幾種方法相比,ROUGE-1、ROUGE-2、ROUGE-L的值都有所提升。說(shuō)明本文提出的方法生成的摘要準(zhǔn)確性和可讀性有一定的保障。
4? 結(jié)? 論
文中主要介紹了一種對(duì)TextRank方法進(jìn)行改進(jìn)而得到的一個(gè)抽取式文本摘要方法,分別介紹了BERT的模型結(jié)構(gòu)和TextRank處理文本的流程及原理,以及計(jì)算句子相似度的方法。因?yàn)榻┠闎ERT模型在NLP領(lǐng)域處理文本的時(shí)候效果都比較好,所以選擇了BERT模型來(lái)進(jìn)行處理文本。文中首先對(duì)BERT進(jìn)行改進(jìn),使它適用于處理多個(gè)句子,對(duì)多個(gè)句子進(jìn)行向量表示。然后基于TextRank的思想對(duì)句子進(jìn)行打分處理。就是將兩種模型綜合在一起使用,然后選擇了合適的文本相似度度量方法,最后將得到的文本摘要同標(biāo)準(zhǔn)摘要進(jìn)行對(duì)比分析。文中提出的方法雖然準(zhǔn)確率得到了提升,但是得到的文本摘要還達(dá)不到非常好的效果,比如句子不夠通順、存在句子冗余等問(wèn)題,文本摘要在自然語(yǔ)言處理領(lǐng)域還有待發(fā)展。
參考文獻(xiàn):
[1] MIHALCEA R,TARAU P. TextRank:Bringing Order into Texts [EB/OL].[2021-11-12].https://digital.library.unt.edu/ark:/67531/metadc30962/m1/1/.
[2] 胡俠,林曄,王燦,等.自動(dòng)文本摘要技術(shù)綜述 [J].情報(bào)雜志,2010,29(8):144-147.
[3] LUHNHP. The automatic creation of literature astracts [J].IBM Journal of Research and Development,1958,2(2):159-165.
[4] KUPIEC J,PEDERSEN J O,CHEN F. A trainable document summarizer [C]//18th annual international ACM SIGIR conference on Research and development in information retrieval.New York:Association for Computing Machinery,1995:68-73.
[5] AONE C,OKUROWSKI M E,GORLINSKY J,et al. A rainable summarizer with knowledge acquired from robust NLP techniques [M]//INDERJEET M,MARK M T.Advances in Automatic Text Summarization,Cambridge:The Mit Press,1999:71-80.
[6] SALTON G,BUCKLEY C.Term-weighting approaches in automatic text retrieval [J].Information Processing & Managem-ent,1988,24(5):513-523.
[7] CONROY J M,OLEARY D P. Text summarization via hidden Markov models [C]//SIGIR ‘01: Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval,New Orleans:Association for Computing Machinery,2001:406-407.
[8] ERKAN G,RADEV D R. LexRank:Graph-based Lexical Centrality as Salience in TextSummarization [J/OL].arXiv1109.2128[cs.CL].[2021-11-23].https://arxiv.org/abs/1109.2128.
[9] BAHDANAU D,CHO K,BENGIO Y. Neural Machine Translation by Jointly Learning to Align and Translate [J/OL].arXiv:1409.0473 [cs.CL].(2014-09-01).https://arxiv.org/abs/1409.0473,2014.
[10] RUSH A M,CHOPRA S,WESTON J. A Neural Attention Model for Abstractive Sentence Summarization [C]//Proceddings of the 2015Conference on Empirical Methods in Natural Language Processing.Lisbon:Association for Computational Linguistics,2015:379-389.
[11] CHOPRA S,AULI M,RUSH A M. Abstractive sentence summarization with attentive recurrent neural networks [C]//Proceddings of the Annual Conference of the North American Chapter of the Association for Computional Linguistics:Human Language Technologies.San Diego:Association for Computational Linguistics,2016:93-98.
[12] NALLAPATI R,ZHOU B W,SANTOS CND,et al. Abstractive Text Summarization Using Sequence-to-sequence RNNS and Beyond [C]//Proceddings of the 20thSIGNLL Conference on Computational Natural Language Learning.Berlin:Association for Computational Linguistics,2016:280-290.
[13] ABADI M,BARHAM P,CHEN J,et al. Tensor Flow:Asystem for large-scale machine learning [C]//The Processing of the 12th USENLX Symposium on Operating Systems Design and Implementation.Savannah:USENIX Association,2016:265-283.
[14] DEVLIN J,CHANG M W,LEE K,et al. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv:1810.04805 [cs.CL].[2021-11-23].https://arxiv.org/abs/1810.04805v1.
[15] 王侃,曹開(kāi)臣,徐暢,等.基于改進(jìn)Transformer模型的文本摘要生成方法 [J].電訊技術(shù),2019,59(10):1175-1181.
[16] Cjayz.文本相似度算法研究[EB/OL].[2021-11-23].https://www.docin.com/p-2221663292.html.
[17] MIHALCEA R,TARAU P. TextRank:Bringing Order into Texts [C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing.Barcelona:Association for Computational Linguistics,2004:404-411.
作者簡(jiǎn)介:黃菲菲(1995—),女,漢族,河南商丘人,碩士在讀,研究方向:自然語(yǔ)言處理。