顏 欣,張 宇,潘曉彤,劉作鵬,劉 挺
(1. 哈爾濱工業(yè)大學(xué) 社會計算與信息檢索研究中心,黑龍江 哈爾濱 150001)(2. 北京小米松果電子有限公司 人工智能部,北京 100085)
中文的自然語言變化多樣,很多人們?nèi)粘=涣骰蛭淖直磉_的句子,都能通過替換細粒度語言單元來達到相同效果,這就是細粒度級復(fù)述的一個重要應(yīng)用場景,而短語就是一種細粒度語言單元。
復(fù)述(paraphrase)即使用不同的文本表達表示相同的語義信息,是自然語言多樣性的一種體現(xiàn),也是自然語言處理中的最基本、最核心的任務(wù)之一[1]。根據(jù)文本粒度的不同,可以將復(fù)述研究分為三類: 詞匯級復(fù)述研究、短語級復(fù)述研究以及句子級復(fù)述研究,而從任務(wù)角度又可以劃分為抽取式、識別式和生成式。優(yōu)質(zhì)的復(fù)述資源,能夠應(yīng)用在很多下游任務(wù)中以提升效果。
傳統(tǒng)方法大多基于雙語平行語料,通過組塊分析以及共現(xiàn)概率獲取短語復(fù)述。然而這類傳統(tǒng)方法的相關(guān)研究早已遇到瓶頸,因為對齊錯誤或者外文翻譯錯誤都會導(dǎo)致抽取到錯誤的短語復(fù)述,同時由于組塊分析的局限性,只是將大量的連續(xù)詞串作為短語,會識別出大量的非語言單元。時下深度學(xué)習技術(shù)興起,為解決這類問題帶來了新方式,本文提出了一種新的抽取短語復(fù)述的框架,無須雙語語料,可直接從單語語料中識別短語并抽取更為精確的短語復(fù)述。
國內(nèi)外一直有研究人員在復(fù)述領(lǐng)域進行相關(guān)研究工作。Barzilay R等人[2]利用同一本小說的多個平行英文翻譯構(gòu)造了單語平行語料,并根據(jù)該語料抽取單詞和短語的復(fù)述資源。他們訓(xùn)練了一個基于上下文的復(fù)述分類器來對候選復(fù)述進行過濾。Bannard C[3]等人則在雙語平行語料上進行短語復(fù)述抽取,相比于單語平行語料,雙語平行語料更加易于獲取。
趙世奇[4]利用機器翻譯將雙語平行語料中的目標句子進行翻譯,從而獲取源語言句子的復(fù)述句,進而構(gòu)建單語平行語料用于復(fù)述抽取。李莉等人[5]將中英平行專利語料用于短語級的復(fù)述抽取,利用組塊分析技術(shù)過濾短語復(fù)述,再根據(jù)分布相似度對候選復(fù)述進行重排序。Li Z等人[6]首次引入深度強化學(xué)習進行句子級復(fù)述生成的研究。該方法由生成器和判別器組成,前者基于序列到序列模型生成句子復(fù)述,后者則使用文本匹配模型判斷生成的句子是否是源句子的復(fù)述。其中生成器采用了二階段的訓(xùn)練方式,先使用深度學(xué)習進行預(yù)訓(xùn)練,再利用強化學(xué)習做進一步的微調(diào)。
在應(yīng)用方面,Dong L等人[7]將復(fù)述應(yīng)用到QA任務(wù)中,提出了一種能用于各類QA任務(wù)的復(fù)述框架。蘇晨等人[8]將復(fù)述應(yīng)用到機器翻譯中,利用源語言的復(fù)述緩解了機翻過程中缺少相關(guān)知識的問題。除此之外,王超越[9]利用復(fù)述知識作為輔助,提高情感分析任務(wù)的指標。
本文受啟發(fā)于Ma X等人[10]提出的端到端序列標注模型,將中文的短語劃分轉(zhuǎn)化成序列標注任務(wù),并遷移該模型用于中文短語劃分。Zhang B等人[11]也提出了一種短語的向量表示方式,計算源、目標語言短語之間語義相似度用于統(tǒng)計機器翻譯模型中提升效果。受啟發(fā)于此,本文利用該模型獲取中間的短語向量表示,進而通過語義計算和規(guī)則過濾,獲取和過濾候選復(fù)述資源。
中文短語復(fù)述抽取的流程如圖1所示,包含6個模塊: 單語語料預(yù)處理、短語劃分、短語過濾、短語向量表示學(xué)習、候選復(fù)述抽取以及候選復(fù)述判別。下文將依次介紹這幾個模塊。
圖1 中文短語復(fù)述抽取流程
通過哈工大社會計算與信息檢索研究中心研發(fā)的語言技術(shù)平臺(LTP)[12](以下簡稱“LTP”)對原始的中文語料進行如下操作: 分句、分詞、詞性標注。對分句之后的過長過短句進行過濾,其閾值范圍為[3 100]。另外,對于分詞之后的句子,如果分詞的結(jié)果中某個詞的長度過長(超過7),則認為該句子太過臟亂,進而會刪除對應(yīng)的句子。預(yù)處理過后,獲取到分好詞且做好詞性標注的句子。
傳統(tǒng)的中文短語獲取方法大都是基于組塊分析,這種做法抽取連續(xù)詞串作為短語,會出現(xiàn)很多非語言單元。為了解決這類問題,我們將短語劃分問題變換成序列標注問題,對預(yù)先定義好的短語類別按BIO標注法標注好,LSTM+CNN+CRF的框架已經(jīng)證明在序列標注問題上有很好的效果,本文將該框架遷移到中文短語劃分任務(wù)上,解決了傳統(tǒng)方法會抽取到很多非語言單元的問題,提高了短語質(zhì)量。
2.2.1 短語類型劃分
要做短語劃分任務(wù),預(yù)先要定義好短語類別。Xue等人[13]把中文短語分為12類,如表1所示。這些短語類別都是并列關(guān)系。
表1 中文短語類型及說明
本文將中文的短語劃分任務(wù)視為一種特殊的序列標注任務(wù),利用BIO標注法將上述中文短語類別標注為25類。例如,動詞短語(VP)分成了兩類標簽: B-VP以及I-VP,其他類別標簽同理,外加單獨標簽O,總共25個標簽。
2.2.2 基于2BiLSTM+CNN+CRF的序列標注模型
圖2 基于2BiLSTM+CNN+CRF的序列標注模型
該模型將詞及其對應(yīng)的字和詞性的向量表示拼接在一起作為雙向長短時記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)模型的輸入。本文引入了兩層BiLSTM,讓每個詞的上下文信息學(xué)習得更充分。
本文利用卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)生成字向量表示,如圖3所示。將每個中文詞的字向量按順序拼接后做Padding,通過卷積層和池化層進行特征提取,生成對應(yīng)的字向量表示。
圖3 基于CNN的字表示生成模型
通過2.2節(jié)中介紹的模型能夠進行短語劃分,初步獲取短語集。為處理原始短語集,本文設(shè)置過濾規(guī)則如下:
① 2≤短語組成詞的個數(shù)≤5;
② 不能出現(xiàn)非中文字符;
③ 過濾掉某個短語中對應(yīng)的某個詞沒有翻譯數(shù)據(jù)的情況;
④ 過濾頻率小于10的低頻短語。
基于以上過濾規(guī)則,其獲取了103萬條優(yōu)質(zhì)中文短語用于實驗比對。
傳統(tǒng)方法大都基于雙語平行語料計算共現(xiàn)概率來獲取短語復(fù)述,缺點是對齊錯誤會造成誤識。短語的翻譯數(shù)據(jù)相對單一,通過“樞軸法”獲取的復(fù)述資源又會大幅減少。本文提出了一種新的短語復(fù)述抽取方法: 先通過表示學(xué)習獲取短語向量表示,再通過語義相似度獲取候選復(fù)述,最后通過設(shè)置規(guī)則,保留正確的復(fù)述資源。
本文使用了二元注意力機制遞歸自編碼器BattRAE[11](bidimensional attention-based recursive autoencoders)模型來學(xué)習短語向量表示。這樣獲取的短語向量不僅包含上下文信息,還有本身的語義以及結(jié)構(gòu)信息,同時能夠提高后續(xù)通過語義相似度獲取到的候選復(fù)述資源的質(zhì)量。
2.4.1 BattRAE模型介紹
模型結(jié)構(gòu)如圖4所示,左右兩邊分別輸入源(中文)和目標語言(英文)短語。
圖4 BattRAE模型結(jié)構(gòu)
首先,用遞歸自編碼器RAE(recursive auto encoder)解析源和目標短語的層次結(jié)構(gòu)。進而從生成的結(jié)構(gòu)中獲得多級粒度(詞,子短語和短語)embedding表示,輸入的信息更豐富,就能學(xué)到更好的短語表示。
圖5為遞歸自編碼器的模型結(jié)構(gòu)圖,輸入短語序列“中華 人民 共和國”,節(jié)點x1(中華),和x2(人民)組成了第一層父節(jié)點y1,計算過程如式(1)所示。
圖5 Recursive AutoEncoder 模型結(jié)構(gòu)圖
y1=We*[x1,x2]+be
(1)
其中,We和be分別是encoder部分的權(quán)重和偏置項。
y1再重構(gòu)出x′1以及x′2,如式(2)所示。
[x′1,x′2]=Wd*y1+bd
(2)
Wd和bd分別是decoder部分的權(quán)重和偏置項。
該節(jié)點的重構(gòu)誤差如式(3)所示。
(3)
訓(xùn)練目標即最小化所有節(jié)點重構(gòu)誤差。如式(4)所示。
(4)
不同粒度語言單元的表示投射到attention空間,利用二維attention矩陣表示源語言和目標語言之間各個單元的對齊強度。在該矩陣上執(zhí)行行(列)方向求和后做softmax生成源(目標)側(cè)attention 權(quán)重。最終短語表示為初始embedding和attention權(quán)重加權(quán)求和。圖6為該部分網(wǎng)絡(luò)框架。
圖6 BattRAE模型中二維注意力機制網(wǎng)絡(luò)框架
模型在輸入矩陣上堆疊attention層,用以將Ms和Mt的embedding投影到共同的attention空間,如式(5)、式(6)所示。
在該attention空間上,源語言的每個embedding與目標語言的所有embedding交互,反之亦然。交互強度可以通過語義匹配值來衡量,計算如式(7)所示。
(7)
生成了attention矩陣B,下一步計算特定粒度級別的embedding相對于相應(yīng)源和目標短語之間的語義相似度的重要程度。因為每個embedding在對側(cè)與所有embedding交互,其重要性可以表示為各交互強度的總和,即在式(7)中計算出來的匹配值。通過二維attention矩陣上的行或者列逐次求和,如式(8)、式(9)所示。
由于短語的長度不是固定的,模型用softmax函數(shù)對上述向量做歸一化,保證attention空間上的實數(shù)分布,即attention權(quán)重,如式(10)、式(11)所示。
根據(jù)上述權(quán)重,分別獲取源和目標語言短語向量表示,如式(12)、式(13)所示。
本文將兩者轉(zhuǎn)換到同一語義空間,計算短語向量之間的語義相似度,存在非線性映射如式(14)、式(15)所示。
最后為了測量它們的語義相似性,用到了Bilinear model,如式(16)所示。
(16)
2.4.2 目標函數(shù)和訓(xùn)練方法
本模型目標函數(shù)由兩部分組成: ①遞歸自編碼器的重構(gòu)誤差(前面內(nèi)容已經(jīng)有介紹); ②語義誤差,用于估量源和目標語言短語之間的語義匹配程度。
本文在給定一個訓(xùn)練樣例(c,e)的同時,采用隨機替換單詞的方式生成對應(yīng)的負樣例(c-,e-),運用最大邊界法(max-margin method)建立語義誤差如式(17)所示。
(17)
最小化上式誤差,能保證最大化正確的短語對(c,e),同時最小化負例短語對(c,e-)和(c-,e)之間的語義相似性。
對于訓(xùn)練樣例(c,e),BattRAE網(wǎng)絡(luò)的聯(lián)合訓(xùn)練目標定義如式(18)所示。
J(θ)=αErec(c,e)+βEsem(c,e)+R(θ)
(18)
其中,Erec(c,e)=Erec(c)+Erec(e),為了平衡兩類誤差,令參數(shù)α和β滿足約束條件α+β=1。R(θ)表示正則項。所有參數(shù)分為四類,如表2所示。
表2 參數(shù)分類情況
不同種類的參數(shù)簇用不同的正則化權(quán)重,計算如式(19)所示。
(19)
其中,λ*是對應(yīng)的超參,同時用L-BFGS算法[14]進行參數(shù)優(yōu)化。
在學(xué)習到中文短語的向量表示之后,本文利用余弦相似度表征短語之間的語義相似度,如式(20)所示。
(20)
其中Ea和Eb分別表示短語a和b對應(yīng)的短語向量。
通過相似度計算排序后,為了保證最終復(fù)述資源的數(shù)量和質(zhì)量,本文將相似度top40的短語選為候選復(fù)述短語。在此基礎(chǔ)上需判別其正確性,過濾掉非復(fù)述短語??紤]到缺乏大規(guī)模標注數(shù)據(jù),無法訓(xùn)練分類器做判別過濾,最終決定用基于規(guī)則的方式過濾。
本文主要是基于英文翻譯數(shù)據(jù)對短語復(fù)述詞表做過濾。例如,短語復(fù)述對“法國 世錦賽”和“俄羅斯 世錦賽”,顯然“法國”和“俄羅斯”兩個詞不一樣,就可以根據(jù)翻譯規(guī)則判斷兩者不存在共現(xiàn)外文翻譯,對其進行過濾。另外像“代表投票”和“投票代表”這種候選復(fù)述對,雖無法通過翻譯規(guī)則過濾,但分析發(fā)現(xiàn)這兩個的短語屬于不同的類別,前者是名詞短語,而后者是動詞短語,可以通過短語類別的不同過濾掉候選復(fù)述對。
實驗中用搜狗新聞數(shù)據(jù)作為中文單語語料。在短語識別任務(wù)中用到了Chinese Treebank(CTB)8.0[15]進行模型的訓(xùn)練和測試。短語表示學(xué)習中用到的平行外文短語,是從Google翻譯中爬取的對應(yīng)英文翻譯。
3.2.1 短語劃分相關(guān)結(jié)果
本文將CTB8.0語料重新用LTP做詞性標注,按照9∶1的比例劃分成訓(xùn)練集和測試集。其中中文詞向量通過Word2Vec在搜狗新聞?wù)Z料上進行預(yù)訓(xùn)練,詞性embedding隨機初始化,字向量是預(yù)訓(xùn)練的WIKI百科字向量。
如表3所示,本文用BiLSTM模型作為baseline,其準確率為0.877,F(xiàn)1值是0.824。由于使用CRF可以提高模型建模輸出序列之間的語義關(guān)系,因此使用CRF作為序列標注的輸出層可以大幅度提高模型的性能。而2BiLSTM + CRF模型額外增加了一層BiLSTM,進一步提高了模型學(xué)習句子內(nèi)部語義信息的能力,因此又有了進一步的性能提升。而在加上字向量表示信息之后,我們提出的2BiLSTM+CNN+CRF在各項指標上又有提升,準確率和F1值分別能夠達到0.903和0.861。這說明字向量的引入能夠讓輸入的信息更加豐富,進而幫助標注。
表3 短語劃分任務(wù)實驗結(jié)果
3.2.2 短語復(fù)述抽取實驗
我們在短語劃分的基礎(chǔ)上使用前面介紹過的方法學(xué)習中文短語的向量表示,同時進行候選復(fù)述的抽取和判別實驗。最終獲取到大約14萬條中文短語復(fù)述,我們選取了一部分復(fù)述樣例展示在表4中。
表4 部分中文短語復(fù)述結(jié)果
我們從抽取結(jié)果中隨機抽取500條復(fù)述,使用Precision值和MRR值進行評價。并同已有的短語向量學(xué)習方法進行比較,最后的評價結(jié)果如表5所示。
表5 短語復(fù)述抽取結(jié)果評價
我們將BattRAE同已有的短語向量學(xué)習方法進行對比,其中CBOW(continue bag of word)通過根據(jù)當前詞的上下文來預(yù)測當前詞的訓(xùn)練方式來學(xué)習當前詞的向量表示[16]。我們將該方法遷移到了短語的向量表示學(xué)習上,根據(jù)當前短語的上下文來學(xué)習當前短語的向量表示。實驗結(jié)果顯示,基于CBOW方法生成的短語向量不能很好地用于抽取短語復(fù)述,無論在精確度上還是MRR上結(jié)果都不理想。RAE(recursive autoencoder)表示是基于遞歸自編碼器的方法[17],其獲取的復(fù)述結(jié)果要優(yōu)于CBOW,說明遞歸自編碼器對于短語信息的表征能力要強過CBOW模型。
SWEM(simple word embedding based models)系列的表征方法比較簡單,aver是將每個詞向量加和平均作為短語表征;max是在每個維度上取最大;而concat是將兩者拼接[18]。這樣的表征方式,雖然很簡單,但是效果不差,SWEM-aver的效果只略低于RAE。SWEM-max的方法相對于SWEM-aver在Precision有一定的提升,而相比于這兩者SWEM-concat的效果要更好一些。這證明了拼接的方法要優(yōu)于最大池化和平均池化,更適合用于生成短語向量。
SIF(smooth inverse frequency)則將每個詞平滑的逆頻率進行加權(quán)求和,再除以第一主成分來獲取短語的表示向量[19]。相對SWFM-concat其有3個點的提升。
BRAE(bilingually-constrained recursive auto encoder)是帶雙語約束的遞歸自編碼方法[20]。其引入外文語料進行聯(lián)合訓(xùn)練,提高了建模短語向量的能力,可以讓短語向量蘊涵更豐富的語義信息。實驗結(jié)果顯示,其性能相對于SIF有了進一步的提升,也進一步佐證了其更為強大的建模短語的能力。而相比于BRAE模型,我們提出的BattRAE則在引入外文語義信息的同時還學(xué)到了短語中各個子結(jié)構(gòu)的信息,因此相比于BRAE模型,本文模型性能又有了進一步的提升。
本文提出了一種中文短語復(fù)述抽取的方法,該方法主要通過2BiLSTM+CNN+CRF模型進行中文短語劃分,同時利用BattRAE模型進行短語表示學(xué)習,通過余弦相似度計算和規(guī)則過濾,進行候選復(fù)述的抽取和過濾。在搜狗新聞?wù)Z料上進行抽取實驗,通過實驗對比,證明該方法超越了目前其他的方法。下一步我們的研究將嘗試更多不同的方式去進行短語復(fù)述的抽取??紤]使用加入BERT模型[21]進一步提高短語劃分的準確率,同時還會嘗試獲取一些標注語料,方便訓(xùn)練分類器對候選復(fù)述進行判別。