基于深度學(xué)習的中文短語復(fù)述抽取技術(shù)研究

2021-03-17 07:48:38潘曉彤劉作鵬

中文信息學(xué)報 2021年2期

顏欣，張宇，潘曉彤，劉作鵬，劉挺

(1. 哈爾濱工業(yè)大學(xué) 社會計算與信息檢索研究中心，黑龍江哈爾濱 150001)(2. 北京小米松果電子有限公司人工智能部，北京 100085)

0 引言

中文的自然語言變化多樣，很多人們?nèi)粘＝涣骰蛭淖直磉_的句子，都能通過替換細粒度語言單元來達到相同效果，這就是細粒度級復(fù)述的一個重要應(yīng)用場景，而短語就是一種細粒度語言單元。

復(fù)述(paraphrase)即使用不同的文本表達表示相同的語義信息，是自然語言多樣性的一種體現(xiàn)，也是自然語言處理中的最基本、最核心的任務(wù)之一[1]。根據(jù)文本粒度的不同，可以將復(fù)述研究分為三類: 詞匯級復(fù)述研究、短語級復(fù)述研究以及句子級復(fù)述研究，而從任務(wù)角度又可以劃分為抽取式、識別式和生成式。優(yōu)質(zhì)的復(fù)述資源，能夠應(yīng)用在很多下游任務(wù)中以提升效果。

傳統(tǒng)方法大多基于雙語平行語料，通過組塊分析以及共現(xiàn)概率獲取短語復(fù)述。然而這類傳統(tǒng)方法的相關(guān)研究早已遇到瓶頸，因為對齊錯誤或者外文翻譯錯誤都會導(dǎo)致抽取到錯誤的短語復(fù)述，同時由于組塊分析的局限性，只是將大量的連續(xù)詞串作為短語，會識別出大量的非語言單元。時下深度學(xué)習技術(shù)興起，為解決這類問題帶來了新方式，本文提出了一種新的抽取短語復(fù)述的框架，無須雙語語料，可直接從單語語料中識別短語并抽取更為精確的短語復(fù)述。

1 相關(guān)工作

國內(nèi)外一直有研究人員在復(fù)述領(lǐng)域進行相關(guān)研究工作。Barzilay R等人[2]利用同一本小說的多個平行英文翻譯構(gòu)造了單語平行語料，并根據(jù)該語料抽取單詞和短語的復(fù)述資源。他們訓(xùn)練了一個基于上下文的復(fù)述分類器來對候選復(fù)述進行過濾。Bannard C[3]等人則在雙語平行語料上進行短語復(fù)述抽取，相比于單語平行語料，雙語平行語料更加易于獲取。

趙世奇[4]利用機器翻譯將雙語平行語料中的目標句子進行翻譯，從而獲取源語言句子的復(fù)述句，進而構(gòu)建單語平行語料用于復(fù)述抽取。李莉等人[5]將中英平行專利語料用于短語級的復(fù)述抽取，利用組塊分析技術(shù)過濾短語復(fù)述，再根據(jù)分布相似度對候選復(fù)述進行重排序。Li Z等人[6]首次引入深度強化學(xué)習進行句子級復(fù)述生成的研究。該方法由生成器和判別器組成，前者基于序列到序列模型生成句子復(fù)述，后者則使用文本匹配模型判斷生成的句子是否是源句子的復(fù)述。其中生成器采用了二階段的訓(xùn)練方式，先使用深度學(xué)習進行預(yù)訓(xùn)練，再利用強化學(xué)習做進一步的微調(diào)。

在應(yīng)用方面，Dong L等人[7]將復(fù)述應(yīng)用到QA任務(wù)中，提出了一種能用于各類QA任務(wù)的復(fù)述框架。蘇晨等人[8]將復(fù)述應(yīng)用到機器翻譯中，利用源語言的復(fù)述緩解了機翻過程中缺少相關(guān)知識的問題。除此之外，王超越[9]利用復(fù)述知識作為輔助，提高情感分析任務(wù)的指標。

本文受啟發(fā)于Ma X等人[10]提出的端到端序列標注模型，將中文的短語劃分轉(zhuǎn)化成序列標注任務(wù)，并遷移該模型用于中文短語劃分。Zhang B等人[11]也提出了一種短語的向量表示方式，計算源、目標語言短語之間語義相似度用于統(tǒng)計機器翻譯模型中提升效果。受啟發(fā)于此，本文利用該模型獲取中間的短語向量表示，進而通過語義計算和規(guī)則過濾，獲取和過濾候選復(fù)述資源。

2 方法介紹

中文短語復(fù)述抽取的流程如圖1所示，包含6個模塊: 單語語料預(yù)處理、短語劃分、短語過濾、短語向量表示學(xué)習、候選復(fù)述抽取以及候選復(fù)述判別。下文將依次介紹這幾個模塊。

圖1 中文短語復(fù)述抽取流程

2.1 單語語料預(yù)處理

通過哈工大社會計算與信息檢索研究中心研發(fā)的語言技術(shù)平臺(LTP)[12](以下簡稱“LTP”)對原始的中文語料進行如下操作: 分句、分詞、詞性標注。對分句之后的過長過短句進行過濾，其閾值范圍為[3 100]。另外，對于分詞之后的句子，如果分詞的結(jié)果中某個詞的長度過長(超過7)，則認為該句子太過臟亂，進而會刪除對應(yīng)的句子。預(yù)處理過后，獲取到分好詞且做好詞性標注的句子。

2.2 短語劃分

傳統(tǒng)的中文短語獲取方法大都是基于組塊分析，這種做法抽取連續(xù)詞串作為短語,會出現(xiàn)很多非語言單元。為了解決這類問題，我們將短語劃分問題變換成序列標注問題，對預(yù)先定義好的短語類別按BIO標注法標注好，LSTM+CNN+CRF的框架已經(jīng)證明在序列標注問題上有很好的效果，本文將該框架遷移到中文短語劃分任務(wù)上，解決了傳統(tǒng)方法會抽取到很多非語言單元的問題，提高了短語質(zhì)量。

2.2.1 短語類型劃分

要做短語劃分任務(wù)，預(yù)先要定義好短語類別。Xue等人[13]把中文短語分為12類，如表1所示。這些短語類別都是并列關(guān)系。

表1 中文短語類型及說明

本文將中文的短語劃分任務(wù)視為一種特殊的序列標注任務(wù)，利用BIO標注法將上述中文短語類別標注為25類。例如，動詞短語(VP)分成了兩類標簽: B-VP以及I-VP，其他類別標簽同理，外加單獨標簽O，總共25個標簽。

2.2.2 基于2BiLSTM+CNN+CRF的序列標注模型

圖2 基于2BiLSTM+CNN+CRF的序列標注模型

該模型將詞及其對應(yīng)的字和詞性的向量表示拼接在一起作為雙向長短時記憶網(wǎng)絡(luò)(bi-directional long short-term memory，BiLSTM)模型的輸入。本文引入了兩層BiLSTM，讓每個詞的上下文信息學(xué)習得更充分。

本文利用卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network，CNN)生成字向量表示,如圖3所示。將每個中文詞的字向量按順序拼接后做Padding，通過卷積層和池化層進行特征提取，生成對應(yīng)的字向量表示。

圖3 基于CNN的字表示生成模型

2.3 中文短語過濾

通過2.2節(jié)中介紹的模型能夠進行短語劃分，初步獲取短語集。為處理原始短語集，本文設(shè)置過濾規(guī)則如下:

① 2≤短語組成詞的個數(shù)≤5;

② 不能出現(xiàn)非中文字符;

③ 過濾掉某個短語中對應(yīng)的某個詞沒有翻譯數(shù)據(jù)的情況;

④ 過濾頻率小于10的低頻短語。

基于以上過濾規(guī)則，其獲取了103萬條優(yōu)質(zhì)中文短語用于實驗比對。

2.4 基于二元注意力機制遞歸自編碼器的短語表示學(xué)習

傳統(tǒng)方法大都基于雙語平行語料計算共現(xiàn)概率來獲取短語復(fù)述，缺點是對齊錯誤會造成誤識。短語的翻譯數(shù)據(jù)相對單一，通過“樞軸法”獲取的復(fù)述資源又會大幅減少。本文提出了一種新的短語復(fù)述抽取方法: 先通過表示學(xué)習獲取短語向量表示，再通過語義相似度獲取候選復(fù)述，最后通過設(shè)置規(guī)則，保留正確的復(fù)述資源。

本文使用了二元注意力機制遞歸自編碼器BattRAE[11](bidimensional attention-based recursive autoencoders)模型來學(xué)習短語向量表示。這樣獲取的短語向量不僅包含上下文信息，還有本身的語義以及結(jié)構(gòu)信息，同時能夠提高后續(xù)通過語義相似度獲取到的候選復(fù)述資源的質(zhì)量。

2.4.1 BattRAE模型介紹

模型結(jié)構(gòu)如圖4所示，左右兩邊分別輸入源(中文)和目標語言(英文)短語。

圖4 BattRAE模型結(jié)構(gòu)

首先，用遞歸自編碼器RAE(recursive auto encoder)解析源和目標短語的層次結(jié)構(gòu)。進而從生成的結(jié)構(gòu)中獲得多級粒度(詞，子短語和短語)embedding表示，輸入的信息更豐富，就能學(xué)到更好的短語表示。

圖5為遞歸自編碼器的模型結(jié)構(gòu)圖，輸入短語序列“中華人民共和國”，節(jié)點x1(中華)，和x2(人民)組成了第一層父節(jié)點y1，計算過程如式(1)所示。

圖5 Recursive AutoEncoder 模型結(jié)構(gòu)圖

y1=We*[x1,x2]+be

(1)

其中，We和be分別是encoder部分的權(quán)重和偏置項。

y1再重構(gòu)出x′1以及x′2，如式(2)所示。

[x′1,x′2]=Wd*y1+bd

(2)

Wd和bd分別是decoder部分的權(quán)重和偏置項。

該節(jié)點的重構(gòu)誤差如式(3)所示。

(3)

訓(xùn)練目標即最小化所有節(jié)點重構(gòu)誤差。如式(4)所示。

(4)

不同粒度語言單元的表示投射到attention空間，利用二維attention矩陣表示源語言和目標語言之間各個單元的對齊強度。在該矩陣上執(zhí)行行(列)方向求和后做softmax生成源(目標)側(cè)attention 權(quán)重。最終短語表示為初始embedding和attention權(quán)重加權(quán)求和。圖6為該部分網(wǎng)絡(luò)框架。

圖6 BattRAE模型中二維注意力機制網(wǎng)絡(luò)框架

模型在輸入矩陣上堆疊attention層，用以將Ms和Mt的embedding投影到共同的attention空間，如式(5)、式(6)所示。

在該attention空間上，源語言的每個embedding與目標語言的所有embedding交互，反之亦然。交互強度可以通過語義匹配值來衡量，計算如式(7)所示。

(7)

生成了attention矩陣B，下一步計算特定粒度級別的embedding相對于相應(yīng)源和目標短語之間的語義相似度的重要程度。因為每個embedding在對側(cè)與所有embedding交互，其重要性可以表示為各交互強度的總和，即在式(7)中計算出來的匹配值。通過二維attention矩陣上的行或者列逐次求和，如式(8)、式(9)所示。

由于短語的長度不是固定的，模型用softmax函數(shù)對上述向量做歸一化，保證attention空間上的實數(shù)分布，即attention權(quán)重，如式(10)、式(11)所示。

根據(jù)上述權(quán)重，分別獲取源和目標語言短語向量表示，如式(12)、式(13)所示。

本文將兩者轉(zhuǎn)換到同一語義空間，計算短語向量之間的語義相似度，存在非線性映射如式(14)、式(15)所示。

最后為了測量它們的語義相似性，用到了Bilinear model，如式(16)所示。

(16)

2.4.2 目標函數(shù)和訓(xùn)練方法

本模型目標函數(shù)由兩部分組成: ①遞歸自編碼器的重構(gòu)誤差(前面內(nèi)容已經(jīng)有介紹)； ②語義誤差，用于估量源和目標語言短語之間的語義匹配程度。

本文在給定一個訓(xùn)練樣例(c,e)的同時，采用隨機替換單詞的方式生成對應(yīng)的負樣例(c-,e-)，運用最大邊界法(max-margin method)建立語義誤差如式(17)所示。

(17)

最小化上式誤差，能保證最大化正確的短語對(c,e)，同時最小化負例短語對(c,e-)和(c-,e)之間的語義相似性。

對于訓(xùn)練樣例(c,e)，BattRAE網(wǎng)絡(luò)的聯(lián)合訓(xùn)練目標定義如式(18)所示。

J(θ)=αErec(c,e)+βEsem(c,e)+R(θ)

(18)

其中，Erec(c,e)=Erec(c)+Erec(e)，為了平衡兩類誤差，令參數(shù)α和β滿足約束條件α+β=1。R(θ)表示正則項。所有參數(shù)分為四類，如表2所示。

表2 參數(shù)分類情況

不同種類的參數(shù)簇用不同的正則化權(quán)重，計算如式(19)所示。

(19)

其中，λ*是對應(yīng)的超參，同時用L-BFGS算法[14]進行參數(shù)優(yōu)化。

2.5 候選復(fù)述獲取和判別

在學(xué)習到中文短語的向量表示之后，本文利用余弦相似度表征短語之間的語義相似度，如式(20)所示。

(20)

其中Ea和Eb分別表示短語a和b對應(yīng)的短語向量。

通過相似度計算排序后，為了保證最終復(fù)述資源的數(shù)量和質(zhì)量，本文將相似度top40的短語選為候選復(fù)述短語。在此基礎(chǔ)上需判別其正確性，過濾掉非復(fù)述短語?？紤]到缺乏大規(guī)模標注數(shù)據(jù)，無法訓(xùn)練分類器做判別過濾，最終決定用基于規(guī)則的方式過濾。

本文主要是基于英文翻譯數(shù)據(jù)對短語復(fù)述詞表做過濾。例如，短語復(fù)述對“法國世錦賽”和“俄羅斯世錦賽”，顯然“法國”和“俄羅斯”兩個詞不一樣，就可以根據(jù)翻譯規(guī)則判斷兩者不存在共現(xiàn)外文翻譯，對其進行過濾。另外像“代表投票”和“投票代表”這種候選復(fù)述對，雖無法通過翻譯規(guī)則過濾，但分析發(fā)現(xiàn)這兩個的短語屬于不同的類別，前者是名詞短語，而后者是動詞短語，可以通過短語類別的不同過濾掉候選復(fù)述對。

3 實驗

3.1 數(shù)據(jù)來源

實驗中用搜狗新聞數(shù)據(jù)作為中文單語語料。在短語識別任務(wù)中用到了Chinese Treebank(CTB)8.0[15]進行模型的訓(xùn)練和測試。短語表示學(xué)習中用到的平行外文短語，是從Google翻譯中爬取的對應(yīng)英文翻譯。

3.2 結(jié)果及分析

3.2.1 短語劃分相關(guān)結(jié)果

本文將CTB8.0語料重新用LTP做詞性標注，按照9∶1的比例劃分成訓(xùn)練集和測試集。其中中文詞向量通過Word2Vec在搜狗新聞?wù)Z料上進行預(yù)訓(xùn)練，詞性embedding隨機初始化，字向量是預(yù)訓(xùn)練的WIKI百科字向量。

如表3所示，本文用BiLSTM模型作為baseline，其準確率為0.877，F(xiàn)1值是0.824。由于使用CRF可以提高模型建模輸出序列之間的語義關(guān)系，因此使用CRF作為序列標注的輸出層可以大幅度提高模型的性能。而2BiLSTM + CRF模型額外增加了一層BiLSTM，進一步提高了模型學(xué)習句子內(nèi)部語義信息的能力，因此又有了進一步的性能提升。而在加上字向量表示信息之后，我們提出的2BiLSTM+CNN+CRF在各項指標上又有提升，準確率和F1值分別能夠達到0.903和0.861。這說明字向量的引入能夠讓輸入的信息更加豐富，進而幫助標注。

表3 短語劃分任務(wù)實驗結(jié)果

3.2.2 短語復(fù)述抽取實驗

我們在短語劃分的基礎(chǔ)上使用前面介紹過的方法學(xué)習中文短語的向量表示，同時進行候選復(fù)述的抽取和判別實驗。最終獲取到大約14萬條中文短語復(fù)述，我們選取了一部分復(fù)述樣例展示在表4中。

表4 部分中文短語復(fù)述結(jié)果

我們從抽取結(jié)果中隨機抽取500條復(fù)述，使用Precision值和MRR值進行評價。并同已有的短語向量學(xué)習方法進行比較，最后的評價結(jié)果如表5所示。

表5 短語復(fù)述抽取結(jié)果評價

我們將BattRAE同已有的短語向量學(xué)習方法進行對比，其中CBOW(continue bag of word)通過根據(jù)當前詞的上下文來預(yù)測當前詞的訓(xùn)練方式來學(xué)習當前詞的向量表示[16]。我們將該方法遷移到了短語的向量表示學(xué)習上，根據(jù)當前短語的上下文來學(xué)習當前短語的向量表示。實驗結(jié)果顯示，基于CBOW方法生成的短語向量不能很好地用于抽取短語復(fù)述，無論在精確度上還是MRR上結(jié)果都不理想。RAE(recursive autoencoder)表示是基于遞歸自編碼器的方法[17]，其獲取的復(fù)述結(jié)果要優(yōu)于CBOW，說明遞歸自編碼器對于短語信息的表征能力要強過CBOW模型。

SWEM(simple word embedding based models)系列的表征方法比較簡單，aver是將每個詞向量加和平均作為短語表征；max是在每個維度上取最大；而concat是將兩者拼接[18]。這樣的表征方式，雖然很簡單，但是效果不差，SWEM-aver的效果只略低于RAE。SWEM-max的方法相對于SWEM-aver在Precision有一定的提升，而相比于這兩者SWEM-concat的效果要更好一些。這證明了拼接的方法要優(yōu)于最大池化和平均池化，更適合用于生成短語向量。

SIF(smooth inverse frequency)則將每個詞平滑的逆頻率進行加權(quán)求和，再除以第一主成分來獲取短語的表示向量[19]。相對SWFM-concat其有3個點的提升。

BRAE(bilingually-constrained recursive auto encoder)是帶雙語約束的遞歸自編碼方法[20]。其引入外文語料進行聯(lián)合訓(xùn)練，提高了建模短語向量的能力，可以讓短語向量蘊涵更豐富的語義信息。實驗結(jié)果顯示，其性能相對于SIF有了進一步的提升，也進一步佐證了其更為強大的建模短語的能力。而相比于BRAE模型，我們提出的BattRAE則在引入外文語義信息的同時還學(xué)到了短語中各個子結(jié)構(gòu)的信息，因此相比于BRAE模型，本文模型性能又有了進一步的提升。

4 結(jié)論及下一步展望

本文提出了一種中文短語復(fù)述抽取的方法，該方法主要通過2BiLSTM+CNN+CRF模型進行中文短語劃分，同時利用BattRAE模型進行短語表示學(xué)習，通過余弦相似度計算和規(guī)則過濾，進行候選復(fù)述的抽取和過濾。在搜狗新聞?wù)Z料上進行抽取實驗，通過實驗對比，證明該方法超越了目前其他的方法。下一步我們的研究將嘗試更多不同的方式去進行短語復(fù)述的抽取?？紤]使用加入BERT模型[21]進一步提高短語劃分的準確率，同時還會嘗試獲取一些標注語料，方便訓(xùn)練分類器對候選復(fù)述進行判別。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡