神經(jīng)網(wǎng)絡機器翻譯研究熱點與前沿趨勢分析

2019-11-18 08:04蘇勁松

中文信息學報 2019年11期

林倩，劉慶，蘇勁松，林歡，楊靜，羅斌

(廈門大學信息學院，福建廈門 361005)

0 引言

機器翻譯是利用計算機自動將一種語言翻譯成另外一種語言的過程，它是人類長久以來的一個夢想。隨著全球化進程的加速和互聯(lián)網(wǎng)的快速發(fā)展，各國之間的信息交流日趨頻繁，高效、快速的翻譯逐漸成為人們的日常需求之一。然而，傳統(tǒng)人工作業(yè)的翻譯方式無法滿足迅猛增長的翻譯需求。而機器對海量數(shù)據(jù)的處理能力使得高效、快速的翻譯成為可能，人們的目光開始轉(zhuǎn)向機器翻譯，對于機器翻譯的需求空前增長。

近年來，隨著深度學習的快速發(fā)展，神經(jīng)網(wǎng)絡機器翻譯研究取得了巨大進展。在許多語種上，神經(jīng)網(wǎng)絡機器翻譯(neural machine translation，NMT)性能大幅度提升，遠遠超過了傳統(tǒng)統(tǒng)計機器翻譯(statistical machine translation，SMT)。目前，NMT研究是自然語言處理研究的熱門前沿發(fā)展方向。表1給出了2017年和2018年人工智能、自然語言處理方向的各大權威期刊和會議與NMT主題相關的Regular論文統(tǒng)計情況。發(fā)表論文的數(shù)量充分表現(xiàn)出NMT研究已經(jīng)成為學者們關注的焦點，在學術界有著巨大影響力。

與此同時，產(chǎn)業(yè)界各大公司也投入人力、物力研發(fā)各自的神經(jīng)網(wǎng)絡機器翻譯實用系統(tǒng)。NMT已成為各大機器翻譯系統(tǒng)的核心技術，促進了翻譯工具市場的蓬勃發(fā)展。翻譯工具日益普遍，已經(jīng)成為人們生活中的重要組成部分，從文獻翻譯到國際交流，機器翻譯正在發(fā)揮重要作用。可以說，機器翻譯的發(fā)展在學術界和產(chǎn)業(yè)界都已經(jīng)完全進入了NMT時代。

縱觀近一年發(fā)表的NMT論文，我們可以粗略得知該領域的研究發(fā)展主要集中在以下幾個方向：詞匯表受限研究、資源受限研究和模型研究，而模型研究是整個NMT研究的重點。接下來，本文將對這三個方面分別進行介紹。最后，對NMT的后續(xù)發(fā)展進行了展望。

表1 2017—2018年神經(jīng)網(wǎng)絡機器翻譯的Regular論文發(fā)表篇數(shù)

1 詞匯表受限研究

傳統(tǒng)NMT模型使用固定大小的詞表，編碼器無法學習詞表之外(out-of-vocabulary，OOV)的詞的語義表示，解碼器無法選擇詞表之外的詞作為譯文，極大地影響了翻譯質(zhì)量。因此，如何解決詞匯表受限問題已成為研究的重點之一。當前的研究主要通過基于細粒度語義單元的建模方法來解決該問題。這方面的研究主要分為以下三類：

(1) 字詞混合的語義建模方法。Passban等[1]用字符級的解碼器提高了形態(tài)學豐富的語言翻譯質(zhì)量；Chen等[2]在編碼器中使用了詞和字符兩個粒度的信息，在解碼端用多個注意力，使不同粒度的信息能夠協(xié)同幫助翻譯；Zhao等[3]為建模同一語系的語言對之間的相似性，其編碼器由字符級單向RNN和詞級雙向RNN組成，并使用自頂向下的層次注意力機制，先獲得詞級別的上下文，再獲得字符級的上下文，共同用于預測目標語言字符。

(2) 基于子詞的語義建模方法。這類工作主要是以BPE(byte pair encoding)[4]為基礎。Kudo等[5]提出子詞正則化，利用一元語言模型生成多種候選的子詞序列，豐富NMT編碼器的輸入以增強翻譯系統(tǒng)的魯棒性。Morishita等[6]引入了多粒度BPE的表示來平均求得詞匯語義表示。特別地，Morishita等[6]認為編碼器詞向量層、解碼器詞向量層以及解碼器輸出層有著不同的作用，因此不同層的BPE粒度的選擇也應該有所差別。

(3) 詞干加詞綴的語義建模方法。Song等[7]將詞分解為詞干和后綴，解碼時先生成詞干，再生成后綴；為了解決形態(tài)豐富的語言中存在源語言單詞可能對應多個目標語言單詞的情況，Passban等[8]將源語言詞拆分成詞干和后綴作為編碼器的雙通道輸入，相應地，在解碼器端使用了雙注意力機制來捕獲編碼器不同粒度的語義信息。

這三類方法都在一定程度上緩解了詞表之外的詞降低翻譯質(zhì)量的問題。字詞混合的語義建模方法結合了詞級方法和字符級方法兩者的優(yōu)點，既可以緩解以詞為語義單元造成的詞匯表受限問題，又避免了完全只使用字符信息造成語義單元歧義大、輸入序列過長的問題。詞綴等語言現(xiàn)象的存在使得基于子詞的建模方式受到了越來越多的關注。詞干加詞綴的建模方法則為形態(tài)學豐富語言的翻譯任務提供了新思路。

2 資源受限NMT研究

NMT模型以平行句對為基礎。然而，對于許多語言的翻譯任務而言，平行句對的獲取并不容易。因此，如何在資源受限的情況下建立高性能的NMT模型也成為研究熱點之一。

2.1 無監(jiān)督NMT研究

無監(jiān)督NMT致力于在只有單語數(shù)據(jù)的情況下構建翻譯模型。

Lample等[9]總結了無監(jiān)督機器翻譯取得成功的三個重要步驟：初始化、語言模型和迭代的反向翻譯；Lample 等[10]不依賴任何平行語料，只使用單語數(shù)據(jù)集來進行翻譯模型建模。具體實現(xiàn)中，Lample 等[10]利用降噪自編碼器和對抗訓練將兩種語言映射到相同的隱式空間，并迭代訓練兩個方向的翻譯模型；Artetxe等[11]先預訓練詞向量，利用自編碼器和反向翻譯實現(xiàn)無監(jiān)督NMT；Yang等[12]認為之前的無監(jiān)督NMT使用共享編碼器來編碼不同語言的語義表示容易丟失不同語言各自的特性，進而限制翻譯性能。對此，Yang等[12]提出每種語言應該使用各自的編碼器進行建模，只對編碼器的后幾層和解碼器的前幾層的權重進行共享。

2.2 半監(jiān)督NMT研究

與傳統(tǒng)NMT和無監(jiān)督NMT不同，半監(jiān)督NMT以大量單語語料和少量平行語料為基礎來進行翻譯模型建模。

Fadaee[13]首先分析發(fā)現(xiàn)：反向翻譯生成的偽平行數(shù)據(jù)太多、容易使得NMT模型更偏向其中的噪聲數(shù)據(jù)。此外，偽平行數(shù)據(jù)的使用對于具有高預測損失的單詞最有幫助。進一步地，F(xiàn)adaee[13]提出先識別目標語言中難以預測的單詞，然后在單語數(shù)據(jù)中對含有這些詞的句子進行采樣，增加這些單詞的出現(xiàn)次數(shù)，并在單語數(shù)據(jù)中對類似于難預測詞上下文的句子進行采樣；但是另一方面，反向翻譯的模型性能仍受限于合成語料的質(zhì)量。因此Zhang等[14]提出了聯(lián)合訓練方法，對源語言到目標語言和目標語言到源語言的NMT模型進行聯(lián)合訓練，一方向的NMT模型為反方向的NMT模型提供偽平行數(shù)據(jù)，如此迭代多次，可以同時提升NMT模型的翻譯性能；基于同樣的想法，Wang等[15]采用對偶學習來進行兩個方向的半監(jiān)督NMT聯(lián)合建模。

2.3 基于樞軸的NMT研究

基于樞軸的SMT研究取得了很好的效果。研究者將這個想法遷移到NMT中，也取得了不錯的效果。

Chen等[16]通過兩種語言的多模態(tài)數(shù)據(jù)實現(xiàn)零資源翻譯，首先利用源語言的文本—圖片數(shù)據(jù)，訓練源語言的圖片描述(image captioning)模型，用于生成目標語言圖片對應的源語言描述，以此來構造偽平行文本數(shù)據(jù)訓練翻譯模型；Ren等[17]提出在含有稀缺資源的語言對中引入高資源語言，將低資源的語言作為中間隱變量，以最大化大規(guī)模平行語料的似然為目標，使用雙向EM算法聯(lián)合訓練兩個方向共四個NMT模型。

2.4 領域自適應研究

與SMT研究一樣，領域自適應也一直是NMT研究的重點。讓非目標領域的平行語料來幫助建立更好的目標領域翻譯模型，可以在一定程度上解決資源受限的問題。

從語料的角度，Zhang等[18]計算目標領域和候選訓練平行句對的語義相似度，然后將相似度融入目標函數(shù)來實現(xiàn)模型領域自適應；Wang等[19]為解決領域自適應，提出了兩種方法：句子選擇和句子加權，并能夠在訓練過程中動態(tài)進行句子選擇和權重計算。上述工作均是從語料選擇的角度來解決領域自適應問題。從建立模型的角度，Zeng等[20]用多任務學習方法聯(lián)合訓練神經(jīng)網(wǎng)絡機器翻譯模型和基于注意力機制的領域分類器，分別學習到領域相關和領域無關的上下文信息，并且通過強化領域相關的目標語言詞來優(yōu)化模型訓練。從參數(shù)生成的角度，Ha 等[21]和Platanios等[22]均致力于如何使用小的網(wǎng)絡根據(jù)上下文信息來為每個翻譯句子動態(tài)生成模型參數(shù)。特別地，Chu等[23]對NMT中的領域自適應研究進行了歸類總結。

2.5 多模態(tài)NMT研究

近年來，融合文本之外的其他模態(tài)信息成為了NLP的一個研究熱點。同樣，在機器翻譯領域，融合了文本、圖像等模態(tài)信息的多模態(tài)NMT研究也成為了NMT發(fā)展的新趨勢。

與傳統(tǒng)的多模態(tài)NMT模型不同，Delbrouck等[24]在使用CNN抽取圖片信息時，充分考慮文本信息，同時使用注意力機制捕獲圖片的相關信息來作為文本語義表示的有效補充；而Zhou等[25]則是引入多任務學習，同時建模兩個任務：多模態(tài)翻譯，圖片—文本的聯(lián)合語義表示。

2.6 多語言多任務NMT研究

多語言多任務NMT一直是NMT研究的熱點，它的優(yōu)勢在于可以充分發(fā)揮神經(jīng)網(wǎng)絡模型語義表示向量化、參數(shù)共享的優(yōu)勢。

在這方面，Gu等[26]通過多種語言之間的詞匯和句子語義表示共享，使得低資源語言NMT模型能夠利用高資源語言NMT模型的詞匯和句子表示；Blackwood等[27]針對多語言NMT提出了一個任務相關的注意力模型，對不同目標語言采用不同的注意力參數(shù)，提高了多語言NMT模型的性能。Gu等[28]引入元學習(meta learning)來實現(xiàn)從多種資源豐富語言對的翻譯模型到低資源語言對翻譯模型的模型參數(shù)快速自適應；Wang等[29]為多語言NMT提出三個改進策略：在解碼器中使用初始化標簽引導目標語言翻譯、引入位置信息，并將隱狀態(tài)分割為語言共享和語言獨立的兩個單元。多任務機制同樣是解決資源受限的一個方法。Kiperwasser等[30]認為，訓練時多任務中的輔助任務權重應該先大后小，而主要任務反之，并在此基礎上提出了根據(jù)訓練時間變化來動態(tài)決定每個任務在不同訓練階段的權重；Zaremoodi等[31]通過多任務學習對機器翻譯任務和語義分析、語法分析和命名實體識別等輔助任務進行聯(lián)合建模，使得NMT模型能夠自動學習到語義和句法知識；Niu等[32]在多任務學習框架下考慮了和機器翻譯相關的兩個任務：單語正式度轉(zhuǎn)換(formality transfer)和正式度敏感的機器翻譯(formality sensitive machine translation)。

3 模型研究

3.1 模型架構

從模型框架的角度來進行分類，目前NMT模型主要包含三類：基于循環(huán)神經(jīng)網(wǎng)絡的NMT模型(recurrent neural network based NMT，RNMT)，基于卷積神經(jīng)網(wǎng)絡的NMT模型(convolutional sequence to sequence learning，ConvS2S)，基于自注意力機制的NMT模型(Transformer)。下面我們對這三類模型一年來的進展進行介紹。

3.1.1 RNMT

圖1 RNMT框架圖

如圖1所示，RNMT模型主要包含基于雙向循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network，RNN)的編碼器，基于單向RNN的解碼器兩個部分，其主要特點是在解碼時每步都使用注意力機制動態(tài)地捕獲與當前譯文相關的源語言上下文信息。針對RNMT模型，研究人員在原本的網(wǎng)絡結構基礎上做了大量的嘗試和改進，包括編碼器和解碼器的改進、信息建模方式的創(chuàng)新及外部知識的引入等。

編碼器NMT的編碼器以RNN為基礎。由于RNN存在梯度消失和爆炸的缺陷，因此無法很好地建模長距離信息。對此，Su等[33]提出了將輸入句子進行切分，形成詞—子句—句子的層次結構，然后引入層次循環(huán)神經(jīng)網(wǎng)絡來進行編碼器建模。同時，解碼器以子句為單元進行逐子句翻譯，并且引入兩個注意力機制來分別捕獲子句內(nèi)部和子句之間的上下文信息。Zhang等[34]在編碼層增加了一個關系網(wǎng)絡層，該層可以有效建模不同源語言詞對應的語義表示(annotation)之間的關系，改善編碼器的語義建模效果。此外，現(xiàn)有RNMT編碼器只使用雙向RNN得到的annotation來表示輸入句子的語義，存在信息表示不充分的缺陷。針對該缺陷，Xiong 等[35]設計了一種多信道編碼器，包含來自輸入源語言詞的向量表示、雙向RNN的隱藏狀態(tài)、神經(jīng)圖靈機中的外部存儲，并進一步引入門機制來自動學習不同信道語義表示的權重。受計算機視覺稠密卷積神經(jīng)網(wǎng)絡的啟發(fā)，Shen等[36]也對RNMT的編碼器和解碼器進行修改，使得當前隱狀態(tài)的語義表示生成同時受前面所有隱狀態(tài)的影響，既在一定程度上解決梯度消失爆炸問題，又增強了模型的語義表示能力。

注意力機制注意力機制主要是使用目標隱狀態(tài)來對源語言annotation進行相關度權重計算(本質(zhì)是計算能量函數(shù)再進行歸一化)，自動生成和當前相關譯文選擇的上下文信息。Werlen等[37]利用注意力機制將之前預測的所有詞信息融入當前詞預測過程。Wang等[38]也用同樣的思想將注意力機制的關注范圍擴展到目標語言的隱狀態(tài)，在中英實驗上獲得了最佳性能。受到深層編碼器和解碼器工作的啟發(fā)，Zhang等[39]將注意力機制也改為深層模型，使得每一層的編碼器都能獲得相應層次級別的上下文信息。由于全局注意力機制會將權重分散到所有的源語言詞匯，削弱了關鍵性詞匯的影響。為了能夠?qū)⒆⒁饬性陉P鍵信息上，研究者們提出了局部注意力機制[40]只對序列窗口內(nèi)的內(nèi)容進行建模，然而局部注意力通常以對齊詞為中心，權重往兩邊遞減，這樣的做法不一定合理：一是按照絕對距離來衡量權重不合理；二是上下文窗口無法保證包含所有重要的上下文詞。Chen等[41]在局部注意力機制的基礎上進一步加入語法信息約束，在依存樹上設置窗口，對依存樹上中心詞周圍的詞進行關注建模，這樣能夠捕獲絕對距離較遠但語法距離較近的詞的信息，從而獲得更好的上下文表示。為了能夠利用更多的信息，許多工作引入記憶(memory)模塊來記錄歷史注意信息，輔助網(wǎng)絡學習。記憶模塊主要承擔兩個功能：記憶注意力機制歷史信息和更新句子表示。在此基礎上，Meng等[42]提出使用兩個記憶模塊來分別承擔兩個功能，從而進一步改善記憶模塊的使用效果。

解碼器在傳統(tǒng)的RNMT中，解碼器利用三部分信息(由注意力機制捕捉到的源語言上下文、前一時間步的隱狀態(tài)和前一時間步的譯文)來預測當前時間步的譯文。在此基礎上，Li等[43]提出首先預測目標譯文的詞性，預測得到的詞性可以用于幫助注意力機制生成更好的源語言上下文，以改善最終的譯文預測。Huang等[44]提出了基于短語的NMT模型，該模型能夠顯式地建模輸出序列中的短語結構，作者利用“sleep-wake network”[45]來對齊目標語句與源語句，代替?zhèn)鹘y(tǒng)的注意力機制。

現(xiàn)有NMT模型在解碼時的Softmax操作十分耗費時間，為了解決該問題，Shi等[46]借助詞對齊信息，減少目標語言的候選詞匯,從而加快解碼速度。借鑒傳統(tǒng)SMT解碼工作的成功經(jīng)驗，Zhang等[47]提出面向NMT的立方體剪枝方法，其主要思想是通過合并前綴譯文相似的譯文假設來構造等價類，每個類進行各自的Softmax譯文選擇操作。搜索時，挑選所有類中分數(shù)最小的譯文假設進行擴展搜索。這種方式不僅能減少解碼器的搜索次數(shù)，同時也減少了Softmax操作。與之前的工作不同，Post等[48]主要是探索如何在具有候選譯文約束的情況下進行譯文搜索，論文作者提出了新的搜索算法，使得搜索時間復雜度與候選譯文約束的個數(shù)無關。

其他網(wǎng)絡結構改進傳統(tǒng)的RNMT模型存在一個明顯的缺陷：解碼器輸出與編碼器輸入缺乏直接聯(lián)系，因此在模型后向求導過程中容易出現(xiàn)梯度消失和梯度爆炸的問題。對此，Kuang等[49]通過增加解碼器目標譯文和源語言輸入詞匯之間的聯(lián)系來解決該問題。

針對RNMT低頻詞存在訓練不足的難題，Nguyen等[50]進行了兩種改進： ①在標準的輸出層計算中加入正則化操作； ②引入一個簡單的詞匯模塊來解決原本給予高頻詞過多反饋的問題，從而改善低頻詞的翻譯情況。與前面工作不同，Liu 等[51]則是利用上下文信息來優(yōu)化源語言輸入詞的嵌入表示，進而優(yōu)化譯文選擇。而Wang 等[52]則是針對NMT翻譯過程中代詞缺失現(xiàn)象進行研究，提出引入重建網(wǎng)絡來使得編碼器和解碼器隱狀態(tài)能夠重建代詞信息，強化模型翻譯代詞的能力。

此外，還有一些工作主要致力于對RNMT神經(jīng)網(wǎng)絡單元的改進。例如，Li等[53]在原有的權重矩陣外再乘上一個由神經(jīng)網(wǎng)絡計算出的動態(tài)權重，進一步動態(tài)區(qū)分了神經(jīng)網(wǎng)絡單元中加權求和操作中不同部分的作用。Zhang等[54]則使用簡單的加減操作簡化門控循環(huán)單元，只保留了權重矩陣。這樣的建模方式加快了計算速度，并且使得隱層狀態(tài)具有可解釋性。

模型壓縮現(xiàn)有NMT模型往往模型結構復雜，參數(shù)量巨大。因而，模型壓縮也是一種NMT研究選擇。剪枝是實現(xiàn)模型壓縮的方法之一。See等[55]采用了參數(shù)剪枝，以很小的性能代價壓縮模型，解決了深度模型參數(shù)量過大的問題。Shu等[56]用一組編碼表示詞匯，壓縮了詞嵌入表示，大大減少了模型在詞嵌入表示部分的參數(shù)。

未來信息建模與上述工作不同，近期還有許多研究工作涉及到了NMT的多次解碼建模。這類工作的思想與人工翻譯往往需要多次修改的過程是一致的。例如，Xia等[57]引入兩次解碼來優(yōu)化譯文生成，其中第二次解碼時會參考第一次解碼的譯文信息。而Zhang等[58]主要是考慮了反向和正向譯文的互補性，提出了引入反向解碼器進行反向解碼產(chǎn)生反向譯文信息，然后再進行正向解碼。在這過程中，正向解碼器同時關注編碼器和反向譯文信息，因此能夠生成更好的譯文。在前面工作基礎上，Geng 等[59]則是引入增強學習，根據(jù)輸入句子的翻譯難度和已產(chǎn)生譯文的質(zhì)量來自動決定多次解碼的次數(shù)。Su等[60]和Schulz等[61]都致力于引入變分循環(huán)神經(jīng)網(wǎng)絡來增強NMT譯文的多樣性。Lin等[62]則是使用編碼器利用反卷積操作產(chǎn)生全局語義信息，再利用注意力機制將其融入解碼器。而Zheng等[63]則是通過在解碼器中引入兩層網(wǎng)絡分別建模已生成譯文和未生成譯文，并同時建模了二者的語義關系。顯然，后者信息可用于優(yōu)化譯文生成。

跨句子信息建模傳統(tǒng)NMT翻譯都是逐句進行翻譯。然而，人們在翻譯過程中，往往會用到跨句子的信息，這樣翻譯出來的譯文才會更加完整連貫?；诖?，Kuang等[64]通過引入門機制來動態(tài)控制前一個句子有多少信息被用于當前句子的翻譯過程中。Tu等[65]提出使用緩存(cache)來保留先前(跨句子和翻譯句子當前狀態(tài)之前的)的上下文和譯文信息，然后在解碼過程中使解碼器根據(jù)上下文的相似性從cache中讀取之前的隱狀態(tài)，優(yōu)化當前時間步的隱狀態(tài)建模表示。Maruf等[66]引入兩個記憶模塊來分別存儲文檔中源語言句子信息和第一次翻譯產(chǎn)生的目標句子信息，這樣在第二次翻譯時通過關注這兩個模塊，NMT模型就可以充分利用源語言和目標語言文檔級別的上下文信息。Kuang 等[67]則是采用兩個緩存來分別存儲目標語言句子級別動態(tài)產(chǎn)生的主題詞和文檔級別靜態(tài)產(chǎn)生的主題詞，這種方式可以方便解碼器使用文檔級別的信息。

SMT知識SMT模型架構完全不同于NMT。學到的翻譯知識也有別于NMT學到的翻譯知識。因此，引入SMT的翻譯知識來改進NMT模型也是一種研究選擇。

Wang等[68]在譯文選擇時不僅考慮了神經(jīng)網(wǎng)絡的預測概率，還同時考慮SMT的譯文預測概率。神經(jīng)網(wǎng)絡機器翻譯系統(tǒng)可能存在生成文本很流利,但是翻譯得不夠準確的問題，Zhao等[69]構造了基于目標語言的前綴樹來存儲雙語短語和對應的翻譯概率，使得解碼器挑選譯文時能盡量使用前綴樹包含的譯文。此外，Zhao等[70]使用記憶模塊來存儲低頻詞的上下文信息和譯文嵌入表示，用于輔助低頻詞的后續(xù)翻譯。

句法知識基于句法的SMT研究的成功證明了句法知識對翻譯的重要性。因而，利用句法知識來改進NMT模型也成為了研究者的選擇。這方面的前沿工作包括： Chen等[71]將基于句法樹的RNN擴展為雙向，改進了編碼器建模。同時，在解碼器端引入了針對樹結構的覆蓋度模型(tree-coverage model)。Li等[72]先將源語言句子句法信息進行序列化，然后再用不同方法進行RNN建模，以此來將源端句法信息融入編碼器。而Wu等[73]則是研究如何利用目標譯文的句法信息來改善譯文生成。具體而言，他們提出在生成目標端譯文的同時構建譯文的依存結構，并將依存信息用于輔助下一個目標詞的生成。Wu等[74]提出了編碼器和解碼器都是基于依存樹的NMT模型。為了克服基于1-best句法樹在NMT建模上存在的缺陷，Ma等[75]和Zaremoodi等[76]著重研究如何基于短語樹森林來進行NMT建模。前者主要關注如何將短語樹森林進行序列化，以方便后續(xù)的雙向RNN建模，而后者主要關注如何直接基于短語樹森林進行自底向上的語義融合生成。與前面工作的解碼方式存在明顯不同，Gu 等[77]提出了一種自頂向下帶有句法信息的譯文生成方式，以此來充分利用目標語言譯文的句法信息。另外，Bastings等[78]引入圖卷積網(wǎng)絡(GCN)，在傳統(tǒng)編碼器—解碼器結構翻譯模型的編碼器端加入圖卷積層來引入句法依存樹信息，作者分別嘗試了CNN、BOW和雙向RNN三種類型的編碼器，實驗結果表明三種模型與GCN結合后效果均有提升。

其他外部知識除了上述信息，研究者們還探索了其他類型外部知識對NMT模型翻譯效果的影響。例如，Li等[79]在編碼端加入了一個知識模塊，該模塊存儲了額外的語言學信息，把這些信息作為輸入詞匯的補充，使得編碼器能夠包含盡可能多的語言學信息。Gu等[80]和Zhang等[81]則是利用搜索引擎檢索得到的信息來改善翻譯質(zhì)量。而Ugawa等[82]則是在編碼器中引入了命名實體信息。

3.1.2 Transformer

傳統(tǒng)NMT模型多是基于雙向RNN進行序列化建模，即當前時刻的隱狀態(tài)語義表示只直接依賴于上一時刻的隱狀態(tài)語義表示和當前時刻的輸入信息。Vaswani等[83]提出的Transformer框架引入了多重自注意力(multi-head self-attention)機制來增強模型翻譯能力。

與RNN相比，自注意力機制中當前節(jié)點的隱狀態(tài)語義表示同時依賴于序列中所有節(jié)點的隱狀態(tài)表示，具有更強語義建模能力和可并行化訓練的優(yōu)點。如圖2所示，編碼器端首先對輸入的源語言詞的嵌入表示進行多重自注意力機制建模，獲得源語言句子的最終語義表示。略有不同的是，解碼器引入Masked多重自注意力機制建模目標語言的上下文信息，這個信息再和編碼器的語義表示進行多重注意力機制建模，生成源語言的上下文信息，最后得出概率分布。因此，Transformer很快成為機器翻譯界的新寵兒，如何基于Transformer進行改進成為了NMT研究的熱點問題。

標準的Transformer以序列生成的方式來產(chǎn)生譯文，因此，翻譯模型在測試階段無法實現(xiàn)譯文的并行生成，影響了模型效率。對此，Gu 等[84]提出首先預測源語言詞的繁殖度(fertility)，然后根據(jù)繁殖度分別進行復制，復制后的源語言詞同時輸入解碼器，以此來實現(xiàn)目標譯文的并行生成。這種方式雖然解決了標準模型無法并行的問題，但也丟失了目標譯文之間的序列信息。對此，Wang 等[85]則提出了一種折中方案：目標譯文分組生成，組內(nèi)的譯文并行生成，組間保留順序生成。與上述關注如何并行生成譯文的工作不同，更多工作都致力于Transformer中的自注意力機制的改進研究。目前的研究主要分兩類：一類做法是加入額外信息來優(yōu)化注意權重計算。例如，Shaw等[86]引入了新的位置矩陣以建模詞之間的相對位置關系；Yang等[87]用自注意力的中間狀態(tài)計算得到一個高斯偏置項，并將其加入到原來的自注意力分布計算中，使權重分布更為平滑，以提升捕獲短距離語義依賴的能力；另一類做法是改進自注意力機制的權重計算方式。例如，Shen 等[88]提出了具有方向性、多維度的自注意力機制；Zhang 等[89]將解碼器端的Masked自注意力機制替換成平均注意力機制，在保證模型效果可比的情況下加快了模型的解碼速度；Li等[90]引入子空間不一致、注意位置不一致和輸出表示不一致三種正則化項，分別促進了子空間、注意位置和輸出表示的差異性，來確保多重自注意力機制的多樣性和互補性；Shen等[91]提出了一種雙向分塊自注意力機制，將輸入的詞嵌入序列劃分為等長的分塊，先進行塊內(nèi)的自注意力計算，再對上一步結果進行塊間的自注意力計算，實現(xiàn)更快且節(jié)省空間的上下文融合。

圖2 Transformer框架圖

此外，還有不少研究者關注如何對層與層之間的信息進行融合，以此來減少編碼器信息丟失，提升模型效果。Dou等[92]提出了兩種融合方法：層回歸和多層注意力。其中層回歸把每一層同一個位置的隱狀態(tài)通過殘差連接、線性組合、迭代組合或?qū)哟谓M合的方式融合，而多層注意力機制將計算自注意力機制時的加權對象由當前層擴展到了當前層以下的每一層，最后將每層各個位置的隱狀態(tài)都進行融合。Wang 等[93]則是對每層同一位置的隱狀態(tài)語義表示進行了融合。

3.1.3 ConvS2S

卷積神經(jīng)網(wǎng)絡(convolutional neural network，CNN)通常用于圖像信息抽取，卷積操作能夠并行計算，提升模型效率。為了避免NMT序列化建模的缺陷，基于CNN來進行NMT建模也是選擇之一。

如圖3所示，Gehring等[94]提出ConvS2S模型，將CNN引入序列到序列的翻譯模型中，編碼器和解碼器采用相同的卷積操作，然后經(jīng)門控線性單元進行非線性變換得到相應輸出。值得關注的是，注意力機制為多跳注意力，即每個卷積層都進行注意力建模，上一層的卷積的輸出作為下一層卷積的輸入，經(jīng)過堆疊得到最終的輸出。而Gehring 等[95]用卷積神經(jīng)網(wǎng)絡建模了NMT編碼器。Kaiser等[96]將在圖像分類任務中取得很好效果的深度可分離卷積網(wǎng)絡應用于神經(jīng)網(wǎng)絡機器翻譯，減少了卷積操作中的參數(shù)數(shù)量。以上幾個工作均在保證一定翻譯準確度的情況下提升了翻譯速度。

圖3 ConvS2S框架圖

3.2 模型對比和分析

縱觀NMT的發(fā)展歷史，不同模型框架有著不同的優(yōu)勢和缺陷。自然地，對這些模型進行對比和分析也成為NMT研究領域的一個研究方向。

Chen等[97]將當前效果顯著的幾種優(yōu)化算法與模型結合，探究不同優(yōu)化算法對不同模型的影響。得出如下結論： ①標簽平滑[98]對RNMT和Transformer都有效； ②多重注意力機制對RNMT和Transformer都有效； ③層標準化使得RNMT和Transformer的模型訓練更加穩(wěn)定； ④訓練時增大Batch Size大小對RNMT和Transformer都有效。Domhan等[99]的研究表明通過調(diào)節(jié)參數(shù)和增加優(yōu)化算法，RNMT、ConvS2S的性能能夠達到和Transformer可比的程度。

通過對翻譯模型本身各部分的重要性進行粒度分析，Domhan等[99]認為編碼端最后一層語義表示對于翻譯模型最為重要。此外，多重注意力機制和殘差前饋層的作用也不容忽視，而其中源語言的自注意力機制比目標語言的自注意力機制更為重要。Wang等[100]把傳統(tǒng)注意力機制的作用范圍擴展到解碼器隱狀態(tài)，使得RNMT的翻譯性能第一次超過了Transformer。Lakew等[101]針對多語言翻譯進行了三個方面的對比：一是對雙語、多語、零樣本系統(tǒng)的翻譯質(zhì)量進行定量比較; 二是對RNMT和Transformer的翻譯質(zhì)量進行比較; 三是考察語言接近程度對于零樣本翻譯的影響。最終論文得出如下結論： ①多語言模型的性能要比雙語模型性能更強； ②利用多語言語料訓練，Transformer相對于RNMT的性能提升更加明顯； ③使用相關語言的語料能有效提升多語言模型的性能； ④在雙語和零樣本模型中，源語言和目標語言的相關性對模型的性能影響不大； ⑤對于零樣本的情況，Transformer模型比RNMT表現(xiàn)得更好。

Tang等[102]同樣對比了RNN，自注意力機制和CNN在兩個與翻譯密切相關任務上的性能：主謂一致和詞義消歧。論文發(fā)現(xiàn)在主謂一致任務的長距離建模上CNN和自注意力機制的模型效果并不會優(yōu)于RNN，只有當建模距離長于一定值時兩者的效果才會與后者相當，甚至更好。

除了上述研究，還有一些工作側(cè)重于探究模型性能受限的原因，以及解決特定問題的能力。Ott 等[103]提出當前NMT模型性能受到答案的多樣性和噪聲訓練數(shù)據(jù)的限制。

Belinkov等[104]在基于字符的NMT模型上將字符嵌入表示的平均來作為詞嵌入表示，使得模型不受輸入字符順序錯位的影響。此外，還采用了對抗實例集成訓練的方法，使得模型能夠同步學習對多種噪聲具有魯棒性的語義表示。Tan等[105]則對Transformer模型進行了語言學分析，認為語言學特性對模型正確率的影響比錯誤傳播更大。

3.3 模型訓練

對NMT模型訓練方法的改進研究主要集中在增強學習和對抗學習兩個領域。增強學習通過對機器當前的每一步行為給予不同獎勵，來指導模型自動選擇如何做出正確的決策。通常，獎勵函數(shù)設置為和譯文評價指標直接相關的函數(shù)，因而能夠在一定程度上解決NMT模型訓練和測試評價函數(shù)不一致的問題。由于在增強學習中往往需要對譯文進行采樣生成，使用基于對數(shù)似然的訓練方法面臨著訓練和測試不一致的問題，即模型在測試時必須根據(jù)前面做出的決策來生成標記，而無法像訓練階段一樣使用正確標記信息。Bahdanau等[106]和He等[107]分別引入判定網(wǎng)絡和價值網(wǎng)絡來估計采樣生成譯文的質(zhì)量。Wu等[108]針對增強學習在深層模型和大規(guī)模數(shù)據(jù)訓練上的不穩(wěn)定缺陷，提出設置更有效的獎勵函數(shù)，將原來目標函數(shù)加入到增強學習目標函數(shù)中，以使得增強學習訓練更加穩(wěn)定。

對抗學習的核心思想是讓兩個目標相反的網(wǎng)絡交替訓練，這兩個網(wǎng)絡分別被稱作生成器和判別器。生成器的目的是產(chǎn)生判別器無法區(qū)分真假的數(shù)據(jù)，而判別器要盡量將真假數(shù)據(jù)分辨出來，兩者相互抗衡可以使得模型整體上達到更好的效果。生成器和判別器都可看作是黑盒模型。Ebrabimi等[109]不再將生成器當作黑盒，而是提出幾種修改原文本的方式，使模型學會生成改變方式，并且從多種可能的句子中選擇對抗對象。這樣做的好處在于可以提升對抗樣本的質(zhì)量，覆蓋更多種的對抗方式，有利于增強模型的魯棒性。Cheng等[110]則是將編碼器作為生成器，帶有噪聲的源語言句子和原本的源語言句子同時經(jīng)過編碼器語義建模，訓練判別器將兩者語義表示區(qū)分開來。傳統(tǒng)的對抗學習中生成器往往不可導，Gu等[111]引入耿貝爾分布(gumbel distribution)使得生成器可導，模型可以實現(xiàn)一體化訓練。Yang等[112]結合了增強學習和對抗學習的思想，通過判別器給出的相似度作為增強學習的獎勵函數(shù)，以此來進行判別器與生成器的交替訓練。

4 總結和展望

綜上所述，神經(jīng)網(wǎng)絡機器翻譯技術正在發(fā)揮越來越重要的作用，在學術界和產(chǎn)業(yè)界有著巨大的影響力，已經(jīng)成為機器翻譯領域的主流技術。但是，神經(jīng)網(wǎng)絡機器翻譯仍然面臨諸多挑戰(zhàn)，未來的發(fā)展趨勢值得更多的關注。

(1) 資源受限的NMT研究。資源問題一直是困擾NMT研究和產(chǎn)業(yè)化的首要問題。隨著NMT產(chǎn)業(yè)化的逐漸推廣，這個問題將日益突出。因此資源問題仍將是本領域研究的重要問題。

(2) 知識驅(qū)動的NMT研究。人工翻譯融合了多方面、多維度的知識。因此，要構建一個高性能的NMT模型，如何融合除平行語料之外的翻譯知識也是進一步提升NMT模型效果的關鍵所在。

(3) NMT模型簡化研究。目前，基于RNMT+[97]和Transformer都取得了非常好的翻譯效果。然而，隨著翻譯性能不斷提升,帶來的問題是模型變得日益復雜。如何在保持翻譯性能的前提下，對這些翻譯模型進行簡化，降低訓練復雜度，將是NMT產(chǎn)業(yè)化過程中需要解決的問題。

(4) NMT模型可解釋性研究。神經(jīng)網(wǎng)絡的可解釋性一直是深度學習的研究重點，相較于計算機視覺、圖像處理，基于神經(jīng)網(wǎng)絡的自然語言處理在模型可解釋性方面的研究更為缺乏，NMT研究也不例外，模型可解釋性研究將有助于我們進一步推動NMT其他方面研究的進展。

(5) 新NMT架構設計。目前NMT架構主要以RNMT、Transformer和ConvS2S為主。三類模型架構性能相當，各有優(yōu)缺點。如何融合三類架構的優(yōu)點，設計出性能更好的翻譯架構，也是學術界不斷探索的研究問題。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡