国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于重解碼的神經機器翻譯方法研究

2021-07-23 06:56:30宗勤勤李茂西
中文信息學報 2021年6期
關鍵詞:英中下文解碼器

宗勤勤,李茂西

(江西師范大學,計算機信息工程學院,江西 南昌 330022)

0 引言

近年來,基于Transformer[1]的編碼器—解碼器結構拋棄了傳統(tǒng)的CNN[2]層和RNN[3]層,完全利用注意力機制實現(xiàn)序列轉換任務,極大地提高了機器翻譯的質量、訓練效率和系統(tǒng)的并行性。

盡管Transformer編碼器并行地讀取源語言句子中每個詞語,使用自注意力機制使每個詞均由其上下文進行表示;但是,其解碼生成機器譯文是自左向右單向的,譯文中當前位置詞的生成只能根據(jù)已翻譯的歷史信息和源端信息來預測。由于詞的依存關系包括上文和下文,因此,一些情況下利用已翻譯的上文信息不足以準確預測目標詞,尤其是決定當前位置詞的依賴信息位于未翻譯的下文時,極易導致出現(xiàn)詞語搭配不當?shù)确g錯誤。表1給出具體示例來解釋這種情況,給定源句“He was wearing a hat.”,當解碼“wearing”這個詞時,解碼器只會利用譯文中已生成的前文信息“他”,而不能利用對其生成更重要的未翻譯后文信息“帽子”,導致生成的詞“穿”與后文的詞“帽子”搭配不當。針對這種情況,我們探索將已解碼生成的機器譯文作為目標語言的近似上下文,重新對其中每個詞依次進行重解碼,在本例中即利用已生成的機器譯文“ 他 穿了 一個 帽子?!敝小按钡暮笪男畔ⅰ懊弊印睂⒃~“穿”校正為詞“戴”,通過這種方式提高機器譯文質量。

表1 Transformer解碼器自左向右生成機器譯文容易導致翻譯錯誤的簡單示例

為了利用已生成的機器譯文作為目標語言的近似上下文環(huán)境校正其中的翻譯錯誤,我們將Transformer解碼器中遮擋多頭注意力(masked multi-head attention)修改為僅遮擋當前重解碼詞的遮擋矩陣,并探索多種Transformer解碼層堆疊方式,提高譯文質量的同時將解碼器簡化為一層。在多個WMT機器翻譯評測任務測試集上,使用該方法對Transformer的輸出譯文和參與評測的最優(yōu)翻譯系統(tǒng)的輸出譯文,以及WMT18 APE測試集中的機器譯文分別進行重解碼,重解碼的機器譯文在BLEU指標上均得到了一定提高。對重解碼譯文的進一步分析揭示了本文的方法能較好地校正翻譯中的搭配不當和主謂不一致等錯誤。

1 相關工作

在傳統(tǒng)統(tǒng)計機器翻譯中,為了研究上文信息和下文信息對翻譯質量的影響,Watanabe和Sumita[4]在英語-日語和日語-英語翻譯中嘗試了自左向右和自右向左的兩種解碼方式,發(fā)現(xiàn)不同方向的解碼適合不同的翻譯任務,并提出了雙向解碼合并從左到右和從右到左生成的機器譯文;Finch和Sumita[5]收集前向和后向解碼產生的所有翻譯假設,然后基于兩個方向的線性插值對所有假設進行重新排序,以生成高質量的機器譯文。

在基于RNN的編碼器—解碼器神經機器翻譯方面,Liu等[6]通過聯(lián)合搜索算法在從左到右解碼和從右到左解碼生成的譯文中尋找最優(yōu)的譯文;Sennrich等[7]利用Liu等人的方法參加WMT16機器翻譯評測,并取得了較好的成績;另一種利用目標端上下文信息的有效途徑是訓練新的神經機器翻譯模型以合并預解碼器的目標譯文,這些方法通常是多源神經機器翻譯模型的變體[8]。在基于Transformer的編碼器—解碼器神經機器翻譯方面,Zhou等[9]提出了同步雙向序列生成模型,同時從兩邊向中間生成機器譯文;Zheng等[10]提出利用動態(tài)路由機制,在每一個解碼步中根據(jù)當前狀態(tài)顯式地將源語言句子中的詞語分為已翻譯的和未翻譯的,以充分利用目標端上下文信息。Zhang等[11]提出一種迭代正則化的策略,強制前向和后向翻譯模型保持相互一致,以從對等的翻譯模型中生成上下文信息,從而獲取語義信息;Fan等[12]提出的QEBrain模型使用兩個獨立的Transformer解碼器來關注機器譯文的上文和下文信息。

與前人的工作不同,我們將已解碼生成的機器譯文作為目標端近似上下文環(huán)境,利用新的遮擋方式構建編碼器—解碼器模型,在已生成的機器譯文基礎上對其進行重解碼,以提高機器譯文質量。

2 基于重解碼的神經機器翻譯模型

為了對已生成的機器譯文進行校正,我們把譯文重解碼任務轉化為完形填空任務,即給定源語言句子和其已生成的機器譯文,逐個遮擋機器譯文中每個詞,由重解碼模型重新生成該位置的詞。根據(jù)這樣的設置我們改進了Transformer模型,使其適應對機器譯文進行重解碼,改進后的模型稱為TransRedecoder,模型結構如圖1所示,它包含6層編碼器和1層解碼器。TransRedecoder模型的輸入由源語言句子和已生成的機器譯文組成,即圖中最下一行src和mt,模型的輸出是重解碼生成的機器譯文,即圖中最上一行redecoder mt。它與Transformer模型的主要區(qū)別表現(xiàn)在:

(1) TransRedecoder為了利用下文信息,改變了遮擋多頭注意力中遮擋方式,而Transformer的遮擋多頭注意力中采用的是下三角遮擋矩陣;

圖1 TransRedecoder模型的結構

(2) TransRedecoder重解碼是并行的多個分類過程,而Transformer解碼是自左向右自回歸的自由文本生成過程。

下面對該模型進行詳細的闡述。

給定一個包含m個詞的源語言句子x= (x1,x2,…,xm),Transformer模型利用已訓練好的模型參數(shù)θ和已生成的機器譯文上文信息y

(1)

在模型測試解碼時,Transformer模型只能看到前面已生成的局部譯文信息,而在模型訓練時,雙語平行語料中目標語言端譯文信息全部呈現(xiàn)給Transformer模型,為了模擬測試階段輸入信息的方式,Transformer模型在訓練時采用遮擋多頭注意力遮擋目標語言端當前位置詞后面的詞語信息。其遮擋矩陣如圖2(a)所示,矩陣中元素為0的位置表示在進行softmax計算分配概率時,將相應位置的詞語注意力權值設為一個很小的負常數(shù)值,通常為“-1e9”,以使該位置的詞語不參與注意力分配;而矩陣中元素為1的位置表示其值原樣輸出,參與多頭注意力的計算。

小班化教學所提倡的新型評價理念,在評價內容上的反映是要求教師不僅只著眼于學習成果,還應綜合考慮學生在小組合作中的合作、社會交往以及語言表達的能力。小班教學要求廣大教師必須更加關心學生的合作學習過程,將學術性評價與合作能力評價相結合,努力使兩種評價方式為提高合作學習的效率發(fā)揮作用,盡最大的努力給予學生公平、客觀的評價。

基于重解碼的方法以給定(x,y)為出發(fā)點,把已生成的機器譯文y看作是目標語言端的近似上下文環(huán)境,對y中詞語逐個進行重新解碼生成新的機器譯文y′,如式(2)所示。

(2)

圖2 不同遮擋方式對比示意圖

其中,參數(shù)θ′是重解碼模型的參數(shù)。由于重解碼當 前位置詞生成的新詞可能為空,因此,新的機器譯文y′包含的詞語數(shù)量不嚴格等于原機器譯文的長度。需要說明的是,重解碼生成的新詞不參與譯文中后續(xù)詞語的校正,即重解碼并沒有在線更新譯文中的詞語,這主要是為了避免讀入新詞的詞向量和重新計算多頭注意力,以加速解碼過程和支持并行化。在后續(xù)的實驗中,我們將驗證可以通過二次重解碼來批量更新譯文中的詞語。

為了利用已生成的機器譯文,我們對Transformer解碼器的遮擋多頭注意力中的遮擋方式進行了修改,以使重解碼當前位置詞時可以看到近似的下文信息y>i,典型的遮擋方式如圖2(b)所示,重解碼時僅遮擋譯文當前位置的原詞(記為Mask-CURRENT),以生成新的詞語,如式(3)所示。

(3)

在實驗中,我們還嘗試給出其他不同的目標端下文信息,即其他遮擋方式進行重解碼的性能,比如圖2(c)和圖2(d)兩種遮擋方式。如無特殊說明,以Mask-CURRENT遮擋方式為準。

3 實驗

3.1 實驗設置

為了測試基于重解碼的神經機器翻譯方法的性能,我們在WMT19和WMT18以及WMT17英中和英德語言對翻譯任務和WMT18英德方向自動后編輯任務上進行了實驗。評測官方發(fā)布的訓練集被用來訓練重解碼神經機器翻譯模型TransRedecoder,模型的性能在測試集上給出。表2統(tǒng)計了實驗使用的語料規(guī)模,包括雙語平行語料中的句對數(shù)量和詞語數(shù)量。語料中英語和德語端句子分別進行了規(guī)范化(normalize)、大小寫轉換、符號化(tokenize)以及BPE[16]子詞切分等處理,中文端句子采用Stanford分詞工具對其進行切分。

表2 實驗使用的語料規(guī)模統(tǒng)計

在譯文性能評價方面,我們對所有機器譯文均采用大小寫不敏感的BLEU值和TER值進行測定,并且中文機器譯文以字為單位進行打分,使用常用的開源打分腳本“mteval-v13a.pl”和“TERcom”[17]計算機器譯文的BLEU值、NIST值以及TER值。

我們在開源工具包Fairseq[18]上實現(xiàn)基于重解碼的神經機器翻譯模型TransRedecoder,除了解碼層層數(shù)設為1外,其余參數(shù)均與Transformer-base模型[1]一致,即編碼器層數(shù)設為6,詞向量維度設為512,編碼器和解碼器中前饋神經網絡層的輸出維度設為2 048,注意力頭設為8,模型訓練時使用Adam優(yōu)化器,學習率lr=0.000 3,最小學習率min_lr = 10-9。在后續(xù)實驗中我們將驗證為什么將重解碼模型的解碼層層數(shù)設置為1。

3.2 重解碼實驗結果

首先,在WMT19和WMT18評測官方發(fā)布的英中、中英、英德和德英平行語料上訓練了Transformer-base模型[1],并將其在測試集上的輸出譯文記為原機器譯文,基于重解碼的神經機器翻譯模型TransRedecoder對原機器譯文進行了重解碼,其輸出譯文記為重解碼機器譯文。表3給出了譯文質量的BLEU值,TransRedecoder模型在WMT19、WMT18和WMT17英中方向上對機器譯文的BLEU值分別提升了1.26、1.04以及1.17;在中英方向上,BLEU值分別提升了1.36、1.32以及1.49;在英德方向上BLEU值分別提升了1.09、1.08以及0.88;在德英方向上,BLEU值分別提升了1.05、0.96以及0.81。這表明基于重解碼的神經機器翻譯模型在不同測試集上一致地提高了原輸出機器譯文的質量。

表3 在WMT不同語言對的測試集上對Transformer輸出譯文重解碼的結果(BLEU值)

由于Transformer-base模型作為樸素的Transformer模型,其翻譯性能與參與評測的最好翻譯系統(tǒng)有一定的差距。因此,我們進一步對參與英中和英德語言對評測的最優(yōu)翻譯系統(tǒng)Baidu[19]、KSAI[20]、Facebook-FAIR[21]、Microsoft[22]和RWTH-Aachen[23]的輸出譯文進行了重解碼。Baidu翻譯系統(tǒng)使用Transformer-big模型[1]參數(shù),在更大的訓練語料(英中為15.7 M,中英為10.8 M)上,使用反向翻譯、聯(lián)合訓練、知識蒸餾、微調、模型融合和重排序等方法提高翻譯質量;KSAI翻譯系統(tǒng)在24.22 M規(guī)模的雙語平行語料上使用數(shù)據(jù)篩選、反向翻譯、模型增強、微調、模型融合和重排序等方法來提高譯文質量;同時,F(xiàn)acebook-FAIR、Microsoft和RWTH-Aachen也在大規(guī)模語料上使用了數(shù)據(jù)篩選、反向翻譯、微調、模型融合和噪聲信道重排序等方法來提高譯文質量。盡管這些翻譯系統(tǒng)在WMT19英中和英德語言對上取得了最好的翻譯性能,然而表4的結果表明它們還有一定的提升空間,基于重解碼的神經機器翻譯模型TransRedecoder對其輸出機器譯文進行重解碼能在一定程度上提高翻譯性能。在英中方向上,BLEU值分別提高了0.16和0.19;在中英方向上,BLEU值分別提高了0.50和0.54;在英德方向上,BLEU值提高了0.83和0.68;在德英方向上,TransRedecoder模型將重解碼譯文的BLEU值顯著提高了0.84和1.03。進一步分析不同翻譯系統(tǒng)輸出譯文重解碼的結果,我們發(fā)現(xiàn)原機器譯文質量越低,其重解碼后的譯文質量提高幅度越大,在表4中,重解碼譯文質量提高幅度最大的是英德語言對上的RWTH和Fackbook-FAIR翻譯系統(tǒng),其次是Microsoft翻譯系統(tǒng),然后才是KSAI和Baidu翻譯系統(tǒng)。

對重解碼的機器譯文進行重解碼,能否進一步提高譯文質量呢?基于重解碼的神經機器翻譯模型TransRedecoder以重解碼的機器譯文為目標語言上下文環(huán)境對其進行了二次重解碼,其輸出譯文記為二次重解碼機器譯文。表3、表4的實驗結果表明,二次重解碼進一步提高了譯文質量,在Transformer-base重解碼機器譯文上其提高幅度最大,在WMT19英中和中英方向上BLEU值分別提高了0.21和0.26;而在Baidu重解碼機器譯文上其提高幅度最小,在英中和中英方向BLEU值分別提高了0.08和0.09,趨于利用上下文信息提高的極限。

表4 在WMT19不同語言對的測試集上對優(yōu)秀參與系統(tǒng)輸出譯文重解碼的結果(BLEU值)

為了比較基于重解碼的機器翻譯方法與經典自動后編輯方法,我們在WMT18 APE任務上將TransRedecoder與CopyNet[13]、Tsinghua[14]、FBK[24]、USAAR_DFKI[25]和POSTECH[15]進行了對比,表5給出了重解碼生成譯文的TER值和BLEU值。在開發(fā)集上,基于重解碼的神經機器翻譯模型生成的重解碼機器譯文顯著優(yōu)于CopyNet[13],盡管TER值稍低于性能最優(yōu)的Tsinghua系統(tǒng)[14],但BLEU值高出其0.55;在測試集上,重解碼譯文優(yōu)于在WMT18 APE任務上的最優(yōu)FBK[24]系統(tǒng),這表明基于重解碼的神經機器翻譯方法能有效地對原機器譯文進行修正,從而顯著提高輸出譯文的質量。

表5 在WMT18英德方向自動后編輯機器譯文上重解碼的結果

3.3 不同遮擋方式的實驗結果

為了研究利用不同的下文信息進行重解碼對翻譯性能的影響,我們嘗試了在遮擋注意力中使用多種下文遮擋方式,以下給出其中三種典型遮擋的對比結果。

一種遮擋方式是重解碼時給出當前位置詞的上文信息和下文中下一個詞的信息,遮擋矩陣如圖2(c)所示,記為Unmask-NEXT;另一種遮擋方式是重解碼時給出所有上文信息和下文信息,包括重解碼位置原來詞的信息,遮擋矩陣如圖2(d)所示,記為Unmask-ALL。

在WMT19英中方向上對Transformer-base模型輸出機器譯文進行重解碼,將利用這兩種遮擋方式的重解碼結果與默認的僅遮擋當前位置詞的Mask-CURRENT遮擋方式的重解碼結果進行對比。表6的結果表明,僅遮擋當前位置詞的Mask-CURRENT遮擋方式對翻譯性能的提高幅度最大;給出待預測詞下一個詞信息的Unmask-NEXT遮擋方式對翻譯性能的提高幅度次之;而給出原機器譯文所有詞信息的Unmask-ALL遮擋方式不僅沒有提高重解碼的翻譯質量,反而降低了翻譯的質量,這可能是由于引入原來詞的信息不利于重解碼生成新的詞語來校正當前翻譯錯誤的詞,使重解碼仍然趨向于生成原來的詞。

表6 設置不同遮擋方式在WMT19英中方向上對Transformer-base機器譯文進行重解碼的性能

3.4 不同解碼器層數(shù)的實驗結果

在遮擋當前位置詞的基礎上,我們嘗試了堆積多個解碼器層時重解碼模型的性能。表7給出了當設置不同解碼器層數(shù)時(分別為1層、2層、3層和6層),TransRedecoder模型在WMT19英中方向上對Transformer-base模型輸出機器譯文進行重解碼的性能。結果表明,隨著解碼器層數(shù)的增多,譯文重解碼的性能不僅沒有提高,反而有所下降。產生這種現(xiàn)象的一個原因是模型在正確的機器譯文上進行訓練,而在不一定正確的機器輸出譯文上進行測試,訓練和測試之間存在差異;隨著解碼器層數(shù)的增多,參數(shù)空間隨之增大,容易導致模型在測試集上出現(xiàn)欠訓練現(xiàn)象,導致翻譯質量下降。

表7 設置不同解碼器層數(shù)在WMT19英中方向上對Transformer-base機器譯文進行重解碼的性能

3.5 實驗分析

根據(jù)Maja的工作[26],機器翻譯錯誤類型主要有以下五類,分別是詞序錯誤(Rer)、漏詞(MISer)、增詞(EXTer)、屈折(形態(tài))錯誤(INFer)和錯詞(LEXer)。我們在WMT19、WMT18以及WMT17英中和中英測試集上,使用“Hjerson”[26]工具分別計算原機器譯文和重解碼譯文中不同類型翻譯錯誤所占比例,由于中文屬于孤立詞,不是屈折詞,沒有顯著的時態(tài)標記,且缺乏詞形變化,所以表8只展示了其他四種錯誤類型。統(tǒng)計結果表明,TransRedecoder模型能有效地降低機器翻譯錯誤類型中占比最大的錯詞率LEXer,盡管在其他翻譯錯誤類型上重解碼機器譯文與原機器譯文相當。綜上,Trans-Redecoder模型能有效校正原機器譯文中的翻譯錯詞。

表8 原機器譯文和重解碼譯文各種翻譯錯誤比例

為了定性揭示基于重解碼的神經機器翻譯方法的有效性,表9給出了兩個在WMT19英中和中英方向上,Transformer-base模型原輸出機器譯文以及利用所提方法重解碼生成的譯文示例,并將其分別與人工參考譯文進行對比,對比發(fā)現(xiàn)重解碼方法能對原機器譯文中的錯誤翻譯詞進行有效校正。在英中翻譯方向上的例子中,利用“禁止”的下文信息,對其進行重解碼,重生成詞“拒絕”與下文的“提供 庇護”搭配更好;在中英翻譯的例子中,利用“hope”的下文信息“meeting”,重解碼生成詞“intention”與源語言下文“會談”搭配更恰當。對更多重解碼譯文的分析表明,重解碼方法能較好地校正翻譯中的搭配不當和主謂不一致等錯誤。

表9 原機器譯文和重解碼機器譯文的對比示例

4 結論

為了緩解神經機器翻譯模型的解碼器自左向右生成機器譯文時只能利用上文信息,而不能利用下文信息的問題,本文提出了基于Transformer的重解碼神經機器翻譯模型,該模型改變了Transformer解碼器的遮擋多頭注意力中遮擋矩陣,以使解碼器可以利用已生成的機器譯文作為重解碼時目標語言的近似上下文環(huán)境。實驗結果表明,所提方法顯著提高了機器譯文質量。在今后的工作中,我們將探索利用語境詞向量來進一步解決目標語言端下文信息缺乏的不足。

猜你喜歡
英中下文解碼器
新媒體視野下文創(chuàng)產品的營銷與創(chuàng)新
科學解碼器(一)
科學解碼器(二)
科學解碼器(三)
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
從《神秘博士》到英中創(chuàng)意經濟
去古代吃頓飯(上)
學生天地(2017年35期)2017-04-19 01:50:08
水能生火
《英中共建“一帶一路”案例報告2016》研討會在重慶舉辦
完形填空三則
开鲁县| 稻城县| 梁山县| 莆田市| 三都| 屏东县| 东阿县| 读书| 内乡县| 聂拉木县| 陆河县| 蒙自县| 颍上县| 凯里市| 聂荣县| 红河县| 柞水县| 全州县| 铜梁县| 定边县| 改则县| 南川市| 德安县| 博客| 衡阳市| 二连浩特市| 甘洛县| 鞍山市| 秦皇岛市| 彰化市| 阳春市| 丰台区| 鹰潭市| 西充县| 报价| 黄大仙区| 漳平市| 新安县| 嵩明县| 贺兰县| 宁晋县|