国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于二階段對比學習的中文自動文本摘要方法研究

2024-01-01 00:00:00楊子健郭衛(wèi)斌
關鍵詞:指標

摘要:在中文自動文本摘要中,暴露偏差是一個常見的現(xiàn)象。由于中文文本自動摘要在序列到序列模型訓練時解碼器每一個詞輸入都來自真實樣本,但是在測試時當前輸入用的卻是上一個詞的輸出,導致預測詞在訓練和測試時是從不同的分布中推斷出來的,而這種不一致將導致訓練模型和測試模型直接的差異。本文提出了一個兩階段對比學習框架以實現(xiàn)面向中文文本的生成式摘要訓練,同時從摘要模型的訓練以及摘要評價的建模進行對比學習。在大規(guī)模中文短文本摘要數(shù)據(jù)集(LCSTS)以及自然語言處理與中文計算會議的文本數(shù)據(jù)集(NLPCC)上的實驗結果表明,相比于基線模型,本文方法可以獲得更高的面向召回率的摘要評價方法(ROUGE)指標,并能更好地解決暴露偏差問題。

關鍵詞:中文自動文本摘要;對比學習;暴露偏差;預處理模型;ROUGE 指標

中圖分類號:TP391 文獻標志碼:A

中文文本摘要是將一個較長的中文文本壓縮成較短的文本,并保留了文本的主要內(nèi)容。這個過程通常由自動化程序完成,其目的是為了幫助人們快速理解和瀏覽大量的中文文本。中文文本摘要主要有兩種類型:抽取式摘要和生成式摘要。Erkan 等[1] 提出了一種基于圖論的抽取式摘要方法LexRank,該方法通過計算句子之間的相似度構建一個句子圖,并利用PageRank 算法對句子進行排序。抽取式摘要的主要問題是受限于原始文本、信息丟失、可讀性差等。生成式摘要則使用自然語言處理技術從原始文本中提取信息,然后基于這些信息生成全新的摘要。Nallapati 等[2] 提出了一種使用基于循環(huán)神經(jīng)網(wǎng)絡(RNN)的序列到序列(Sequence-to-Sequence)模型獲得生成式摘要的方法。TextRank算法則構建標題和每個子句的特征向量,并計算子句特征向量間的相似性,最后結合子句位置、子句與標題的相似度等調(diào)整子句相似度矩陣,迭代計算直至收斂,進而選取得分最高的子句作為最終摘要[3]。

近年來,以Transformer 模型[4] 為代表的預處理模型在自然語言處理領域受到了廣泛關注。Dodge 等[5]研究了預訓練語言模型在微調(diào)階段的3 個關鍵因素:權重初始化、數(shù)據(jù)順序和早期停止。具有預訓練的編解碼器模型如BART( Bidirectional and Auto-Regressive Transformers)[6]、Pegasus[7] 等,在中文自動文本摘要任務中獲得了較好的性能,這些模型的架構通常采用Transformers 模型。盡管生成式摘要在語言流暢性方面顯示出很好的潛力,但其在訓練序列到序列模型時面臨著廣泛的認知挑戰(zhàn)[8]。

對比學習(Contrastive Learning,CL)通過添加額外的優(yōu)化目標,降低那些束搜索出來的非目標序列。該方法的核心思想是通過構造具有代表性的負樣本,并降低其在訓練過程中的出現(xiàn)概率,以緩解暴露偏差并提高文本生成的性能。Liu 等[9]提出了一種新的對比學習框架,用于在有限的平行數(shù)據(jù)下訓練文本摘要模型。Xu 等[10] 提出了一個用于抽取式文本摘要的對比學習框架從而提高了文本摘要的質(zhì)量和一致性。Cao 等[11] 提出了一種新的對比學習方法,用于改進抽象式文本摘要;該方法利用對比學習的能力來學習更好的句子表示,從而提高了摘要的流暢性和準確性。上述研究成果在文本摘要領域的應用主要集中在2 個方面:一是摘要模型的訓練,二是摘要評價的建模。

猜你喜歡
指標
一類帶臨界指標的非自治Kirchhoff型方程非平凡解的存在性
學術期刊引證指標
學術期刊引證指標
最新引用指標
莫讓指標改變初衷
商周刊(2018年26期)2018-12-29 12:56:00
數(shù)字電視指標測量及日常維護處理
Double圖的Kirchhoff指標
線損指標在線管理探索
機電信息(2015年27期)2015-02-27 15:57:12
制造強國的主要指標
沿海地區(qū)主要指標(2013年)
江蘇年鑒(2014年0期)2014-03-11 17:10:15
霍城县| 松潘县| 册亨县| 海南省| 林甸县| 新兴县| 门头沟区| 潢川县| 德钦县| 葵青区| 永吉县| 汾阳市| 黑河市| 饶河县| 阜宁县| 连南| 日喀则市| 丰原市| 余庆县| 遂平县| 牡丹江市| 东城区| 安化县| 兴安盟| 雷山县| 浦东新区| 治多县| 莱西市| 乌恰县| 繁昌县| 峨眉山市| 湘乡市| 翁牛特旗| 汉川市| 库尔勒市| 同江市| 苏尼特左旗| 潞西市| 五莲县| 佳木斯市| 保定市|