国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合語言學知識的神經機器翻譯研究進展

2021-07-22 17:02:18郭望皓范江威張克亮
計算機與生活 2021年7期
關鍵詞:源語言目標語言字符

郭望皓,范江威,張克亮

1.戰(zhàn)略支援部隊信息工程大學 洛陽校區(qū),河南 洛陽 471003

2.鄭州大學 信息工程學院,鄭州 450001

自1954 年世界上第一個機器翻譯系統(tǒng)問世以來,到今天已經有60 余年了。期間,機器翻譯經歷了百花齊放、百舸爭流的盛況,也經歷了萬籟俱靜的蕭條與沉寂。主流機器翻譯技術發(fā)展范式由基于規(guī)則的方法,演進到統(tǒng)計方法,再到時至今日的神經網絡方法。隨著機器翻譯譯文質量的提升,其應用也由實驗室走向人們的日常生活之中,滿足大家閱讀、會談、出行、購物等跨語言交際的需求。2013 年以來,神經機器翻譯由于不需要設計復雜的特征工程,模型簡潔高效得到了研究者與開發(fā)人員的青睞,加之并行計算、圖形處理器、大數(shù)據的廣泛應用,在學界和產業(yè)界迅速掀起了神經機器翻譯的研發(fā)熱潮,推動神經機器翻譯向實用化、商業(yè)化方向不斷邁進。盡管神經機器翻譯取得了巨大成功,但是依然存在著諸如翻譯不忠實,存在“過譯”和“漏譯”現(xiàn)象,罕見詞(rare word)和集外詞(out of vocabulary,OOV)處理困難,低資源語言表現(xiàn)不佳等問題[1-3]。神經機器翻譯架構本身導致了上述問題的產生。表1 顯示了目前神經機器翻譯存在的問題及原因。

Table 1 Problems and causes of neural machine translation表1 目前神經機器翻譯存在的問題及原因

為了緩解上述問題,學者們提出了諸多方法改進神經機器翻譯模型[4-8]。其中一項重要的思路就是將語言學知識融合到神經網絡之中,從而提升系統(tǒng)性能,提高翻譯質量。縱觀機器翻譯發(fā)展史,語言學知識一直發(fā)揮著不可替代的重要作用。尤其是在早期階段,基于規(guī)則的方法占據主導地位時,從源語言的剖析,到目標語言的生成,再到翻譯規(guī)則的制定,每一步都離不開語言學知識的指導,形態(tài)學、句法學、語義學的發(fā)展一直為基于規(guī)則的機器翻譯技術提供養(yǎng)料。在統(tǒng)計機器翻譯發(fā)展的黃金十年內,利用層次短語解決具有長距離依賴關系的詞語翻譯問題,利用句法學解決目標語短語調序問題,無一不在證明著語言學知識在以數(shù)據驅動為主的機器翻譯時代仍具不可替代的地位與作用。在目前主流的神經機器翻譯框架中,源語言和目標語言都被當作字符串進行序列化的處理,這樣做一方面使得模型變得簡潔,不需要再進行復雜的切分、對齊、調序等處理流程,但與此同時也使得許多重要的語言學信息在此過程中丟失。因此,學者們希望在借鑒基于規(guī)則機器翻譯、統(tǒng)計機器翻譯的相關研究成果的基礎上,通過對語言學知識進行顯性建模,并與神經機器翻譯模型相融合,以其能夠緩解神經機器翻譯面臨的固有困境,改進神經機器翻譯模型,進一步提升翻譯的質量。

有關融合語言學知識的神經機器翻譯的研究成果目前散見于與此話題相關的綜述和研究性論文之中,它們要么就是簡單列舉、一筆帶過,要么就僅關注某一方面的內容,缺乏系統(tǒng)性的梳理、歸納和總結。本文針對融合語言學知識的神經機器翻譯這一方向,選擇具有代表性的研究成果,從三方面分別介紹融合字詞結構信息、短語結構信息和句法結構信息的神經機器翻譯最新研究進展,展現(xiàn)本領域研究發(fā)展脈絡,總結現(xiàn)有研究的特點與規(guī)律,探討未來研究發(fā)展方向,為進一步的相關研究提供文獻支撐。

1 融合字詞結構信息的神經機器翻譯研究

在融合字詞結構信息方面,最主要的思路是通過對詞以下的結構單位進行編碼,降低顆粒度,從而在不改變詞表規(guī)模、不增加計算時空開銷的同時減少集外詞的數(shù)量。由于神經網絡計算量大,因此通常會將源語言和目標語言的詞表規(guī)??刂圃? 萬到5 萬,把詞表外的罕見詞、集外詞統(tǒng)一處理為符號,這種處理方式一方面會影響到源語言語義信息捕獲的完整性,另一方面會增加用戶理解目標語言的困難程度。這就是上文中提到神經機器翻譯面臨的挑戰(zhàn)之一:罕見詞、集外詞處理困難。為了緩解這一問題,研究者們進行了下面兩種嘗試:一是神經機器翻譯擴大詞表規(guī)?;蛘呒友b外部詞典[4-5,9];二是改變翻譯的基本單位,由單詞(word)轉向字符(character)或者子詞(sub-word),利用顆粒度更細的語言單位來減少集外詞的數(shù)量,也就是將字詞結構信息融合到神經機器翻譯系統(tǒng)之中。不同顆粒度的詞語切分如表2 所示。

Table 2 Different levels of language units and sentences表2 不同層級語言單位及例句

采用字符作為神經機器翻譯的基本語言單位,除了可以消減集外詞問題之外,對于諸如漢、日、韓、泰等語言還可以避免分詞帶來的誤差,并且受語言形態(tài)變化影響小,有助于提升形態(tài)豐富語言(德語、俄語、土耳其語等)的詞語利用效率。Kim 等人、Hahn 和Baroni 的研究均涉及到利用神經網絡將字符序列轉化為詞向量的方法[10-11]。Ling 等人[12]提出在基于注意力機制的神經機器翻譯模型前后兩端分別增加字符到詞(character to word,C2W)的組合模塊和詞向量到字符(vector to character,V2C)的生成模塊。組合模塊利用一個雙向長短時記憶網絡(bidirectional LSTM)在雙語兩端把字符向量組合成詞向量;生成模塊是將字符向量、注意力向量和目標詞向量進行拼接后通過另外一個單向的長短時記憶網絡(long short-term memory,LSTM)逐字符生成目標語言的詞語(見圖1)。該模型能夠學習到部分詞綴(包括前綴和后綴)在原文和譯文之間的對應關系,因此可以識別和生成一些詞表中不存在的詞形,這對于形態(tài)復雜的語言間的翻譯確實有所幫助。但是,該方法需要在雙語語料中為每一個單詞和句子分別添加開始和結尾的標記,注意力機制仍作用于單詞而非字符之上,且實驗結果與基于單詞的神經機器翻譯模型相比未有顯著提高,同時模型復雜程度高,訓練所需時間長。原因在于,以字符為單位統(tǒng)計出的句長一般是以單詞為單位句長的6 到8 倍(由于漢語字符數(shù)量多,因此不到2 倍),造成注意力機制運算量呈平方級增長,同時增加了長距離依賴學習的難度,降低了訓練速度。

Fig.1 Illustration of NMT model with composition module and generation module圖1 加入組合模塊和生成模塊的NMT 模型示例

針對這些問題,Lee 等人[13]提出了采用多層卷積(a stack of convolutional)、最大池化(max-pooling)操作與高速公路神經網絡層(highway network layers)的處理方案。具體而言,先將輸入字符映射為字符向量,再利用窗口大小不一的卷積層進行卷積(相當于學習到與窗口大小相同的N元語言模型),然后把卷積輸出成分連接起來后再切分成長度固定的序列,對每個序列作最大池化操作(相當于選擇最顯著的特征作為分割向量(segment embeddings)),最后將這些分割向量(相當于具有語言學意義的結構單位)經過高速公路神經網絡層和雙向的門控循環(huán)單元(bi-gate recurrent unit,Bi-GRU,LSMT 的一種變體)進行編碼。在解碼階段,注意力機制通過關注源語言的分割向量,并通過一個字符級的門控循環(huán)單元生成目標語言的字符序列。德-英、捷克-英、芬蘭-英和俄-英機器翻譯實驗結果表明,該字符級的神經機器翻譯模型在拼寫錯誤單詞、罕見詞、詞形變化、臨時構造詞翻譯處理方面具有優(yōu)勢,同時對于像德、捷克、芬蘭這些字符相近的語言,字符級神經機器翻譯模型能夠學習到各語言間通用的語素,可以在不增加模型規(guī)模的條件下通過共享一個編碼器實現(xiàn)多語言(多到一,many-to-one)機器翻譯。

基于字符的神經機器翻譯雖然減少了集外詞的數(shù)量,緩解了詞表規(guī)模受限問題,但是單個字符義項增加,更容易產生歧義,并且增大了長距離依賴問題,導致長句翻譯質量下滑。為此,有學者提出采用介于詞語和字符之間的語言單位進行編碼,其中最具代表性的工作當屬Sennrich 等人[14]提出的子詞(sub-word)字節(jié)對編碼(byte pair encoding,BPE)方案。作者受命名實體、同源詞、借詞、復雜形態(tài)詞(這些詞大部分屬于罕見詞或集外詞)翻譯策略的啟發(fā),當專業(yè)譯員遇到這些不認識的單詞時往往會通過分析其組成成分預測單詞的意義,因而認為將這些罕見詞或集外詞處理為子詞有助于緩解神經機器翻譯的詞表規(guī)模受限問題。具體而言,這種方法將經常組合在一起的字符序列看作一個單位,如英文中的詞綴“er”“ism”“dis”,詞尾“ed”“ing”等。做法是將所有單詞以字符劃分,不斷將頻次最高的N-gram 進行合并操作,一直迭代至詞表規(guī)模大小。實驗結果顯示,在WMT15英德和英俄任務上,較之于傳統(tǒng)的神經機器翻譯模型,基于子詞的模型BLEU(bilingual evaluation understudy)值分別提升了1.1 和1.3。相對于基于單詞的神經翻譯模型和基于字符的神經翻譯模型,該研究提出的子詞模型在詞表大小和句子長度兩方面取得了平衡。由于子詞單元能夠在相近或者同源語言間共享詞干、詞綴和詞尾的信息,基于子詞的神經機器翻譯方法得到了廣泛的應用,由最初僅用來處理罕見詞或集外詞,發(fā)展到全部單詞均切分成子詞單元再喂入神經網絡模型之中進行運算。這一方法也在某些語言間(如英、法、德等)的翻譯系統(tǒng)中逐漸成為標配,著名的谷歌神經機器翻譯(Google's neural machine translation,GNMT)系統(tǒng)[15]和Transformer 系統(tǒng)[16]也都采用這一設計思想和處理方式。

還有的研究工作,在源語言編碼和目標語言解碼兩端分別使用不同層級語言單位進行建模的方案。Costa-Jussà等人[17]在源語言端通過卷積濾波器(convolution filters)和高速公路網絡層(highway layers)實現(xiàn)了由字符到詞向量的映射過程。字符級編碼方式利用單詞的內部信息,能夠捕捉到源語言所有單詞的全部表達形式,消減了源語言端的集外詞問題。但在目標語言端仍以詞語為單位進行解碼與生成,因此這一方案仍然受到詞表規(guī)模的限制。Chung 等人[18]的主要工作是在解碼端使用了一種新的名為雙尺度循環(huán)神經網絡(biscale recurrent neural network)的結構,可以在字符和單詞兩個時間尺度上進行處理,不需要進行分詞,直接生成目標語言字符序列。但是該研究在源語言端采用的還是子詞結構。與之相似的還有Yang 等人[19]、Su 等人[20]的工作。

有的研究工作將不同層級語言單位編碼后混合到同一神經機器翻譯模型之中。Luong 和Manning[21]設計了一個字符-單詞混合的神經機器翻譯模型。整個模型主要由單詞級模塊驅動,當出現(xiàn)符號時,模型會調用字符級模塊,將源語言中的對應的單詞轉換為該單詞字母構成的字符向量,把目標語言中的恢復生成為單詞(見圖2)。源語言和目標語言兩端的字符級模塊都是通過一個四層單向的LSTM 訓練得到的,不同之處在于,源語言端的字符級模塊是上下文獨立(context independent)的,因此可以進行預訓練、預計算,而目標語言端的字符級模塊是上下文依存(context dependent)的。不過由于結構較為復雜,基于字符的模型訓練時間長達3 個月之久。

Fig.2 Illustration of word-character model hybrid NMT圖2 字符-單詞混合NMT 模型示例

Chen 等人[22]提出同時將字信息與詞信息進行編碼,即將不同顆粒度語言單位表示融合到一個神經機器翻譯系統(tǒng)之中。在源語言端,先用兩個獨立的注意力模塊分別學習每個單詞的詞內字符向量和詞外字符向量,前者可提供單詞內部字符間關系信息,后者提供單詞邊界信息;再將學到的兩個字符向量通過前饋神經網絡連接后嫁接到詞(或子詞)向量之上,形成具有字符信息的詞向量;然后將此詞向量喂入循環(huán)神經網絡進行計算。在目標語言端,解碼器采用了一個多尺度的注意力機制(multi-scale attention mechanism)模塊,該模塊既能采集到詞向量蘊含的信息,也能夠采集到字向量信息。實驗表明,在漢英互譯任務中,該模型表現(xiàn)優(yōu)于單純基于字符以及單純基于單詞的神經機器翻譯模型;在英譯德任務中,該模型優(yōu)于采用BPE 技術的子詞翻譯模型。實驗結果還顯示,這種方法不僅可用于緩解神經機器翻譯的集外詞問題,而且對提升常見詞翻譯的準確性也有所幫助,原因在于編碼器中融合了由字符提供的單詞的內部信息與邊界信息。Wang 等人[23]的工作也是用一個混合注意力機制模型將源語言的單詞信息和字符信息分別編碼,兩類信息具有兼容性和互補性,該方法在漢英機器翻譯實驗中與傳統(tǒng)基于單詞的基線模型相比取得了1.92 個BLEU 值的提升。

除此之外,還有研究者將目光轉向到比字符顆粒度更低的語言單位:亞字(sub-character)。如果說亞詞能夠學到詞干、構詞詞綴和構形詞綴的信息的話,在中、日等語素文字(ideographs/logograph)體系中亞字就包含了構件(如漢字的偏旁)的語義信息?,F(xiàn)代漢語中,形聲字的比重占到90%左右,也就是說絕大多數(shù)的漢字能夠拆分為“聲旁”和“形旁”,其中“形旁”相同的漢字往往在意義上有聯(lián)系,如“桃、梅、梨、枝、株、棵”都與樹木有關,這就為基于亞字的神經機器翻譯模型提供了基礎。另外在漢語和日語中,有時相同或者相近的字形表示相同的意義,如中文漢字“風景”和日文漢字“風景”寫法相近,意義相同,因此在中日互譯時其漢字組成成分間的信息可以互享,從而提高表示精度。Zhang 和Komachi[24]就進行了這方面的研究。該研究在中、日、英三種語言的翻譯中開展,英語采用詞向量,中、日文分別采用詞向量、字向量、構件向量和筆畫向量。除詞以外的語言單位均采用BPE 技術切分組合而得。實驗結果顯示,對于中文,基于構件的表示方法能夠提升模型的翻譯質量,而對于日語,基于筆畫的模型才是最優(yōu)解。

縱觀上述研究,不難發(fā)現(xiàn),在神經機器翻譯模型中,降低翻譯單位的語言顆粒度,確實能夠在以下幾個方面改善翻譯質量:(1)降低了由集外詞和罕見詞帶來的負面影響;(2)對于形態(tài)變化豐富的語言,提升了詞表的利用效率;(3)對于詞語間無明顯邊界的語言,避免了由分詞帶來的誤差。探求這些現(xiàn)象背后的原因,從語言學的角度來看,改變語言顆粒度大小的實質就是如何更加有效地利用不同語言自身所具備形態(tài)學特征。但從目前的研究來看,主要存在的問題是,大多數(shù)研究僅僅局限于英、法、德、俄、西、葡、捷克、芬蘭等具有同源或者近源的語言之間,偶爾涉及漢、日、阿等語言,對于世界上大部分的孤立語、黏著語、多式綜合語缺乏關注,因此難以取得普遍性、規(guī)律性的結論。未來的研究將視線轉到但不局限于以下幾個方面:(1)降低翻譯單位的語言顆粒度,勢必會增加長距離依賴問題,尤其對那些形態(tài)句法一致性要求高的語言來說,這一問題造成的損失甚至會超過改變語言單位帶來的收益;(2)針對不同的語言,在編解碼兩端究竟應該采用哪一層級的語言顆粒度作為其基本翻譯單位,其背后存在何種規(guī)律,是否與人類語言類型有關,能否進行合理的解釋;(3)在神經翻譯現(xiàn)有框架下,如何更好地利用形態(tài)學的信息,形態(tài)學信息如何更好地與短語信息、句法信息等相互融合,共同推進翻譯質量的提升。

2 融合短語結構信息的神經機器翻譯研究

短語結構的意義并非都是其組成成分的簡單加和,這樣的例子在各種語言中比比皆是、屢見不鮮。如英語中的“l(fā)et alone(更不必說)”“by and large(總的來說)”“red tape(繁文縟節(jié))”,漢語中的“網絡水手”“買面子”“996(指每天早上9 點上班,晚上9 點下班,一周工作6 天)”等。由此可見,在翻譯過程中,短語占據著舉足輕重的地位和作用。統(tǒng)計機器翻譯發(fā)展歷程中也證實了這一點,正是基于短語的統(tǒng)計機器翻譯[25-27]技術走向成熟,機器翻譯才算真正地走向實用。

由于統(tǒng)計機器翻譯在短語翻譯研究方面有著較長時間的積累和較為成熟的經驗,如何利用既有研究成果與神經機器翻譯模型相融合就成為研究者們自然而然的想法了。Wang 等人[28]就是在神經機器翻譯的解碼器上增加了一個統(tǒng)計機器翻譯模塊用于生成短語。每當解碼器工作到下一步時,先通過一個名為balancer 多層神經網絡判斷要生成的單詞還是短語,如果要生成單詞,那就還用神經機器翻譯模塊進行生成;如果要生成短語則調用統(tǒng)計機器翻譯模塊的結果。與之類似的研究還有Tang等人[29]、Dahlmann等人[30]、Rikters 和Bojar[31]的工作,但是他們的研究都借助于外部裝置提取并記憶短語翻譯的結果,神經機器翻譯模型本身并不能處理生成短語結構。

利用神經網絡進行短語結構的翻譯就需要從編碼器和解碼器入手,通過擴充或者改造,使其具備處理短語層級信息的能力。Li 等人[32]提出的模型有兩個編碼器和一個解碼器:兩個編碼器分別以單詞和短語為單元對源語言的句子進行編碼,解碼器工作時會同時考慮單詞向量和短語向量中蘊含的信息。這個簡單的結構在漢英翻譯任務中取得了不錯的成績,較之于傳統(tǒng)模型平均提高了1.13 個BLEU 值。Ishiwatari等人[33]提出的模型則包含兩個解碼器,一個用于處理短語(文中稱為組塊或語塊chunk)間的依賴關系,而另一個用于對短語內單詞間的關系進行建模。該方法在WAT16 英日翻譯任務取得了出色的成績。Zhou 等人[34]的工作是在解碼器中引入一個額外的神經網絡層,實現(xiàn)了從短語到單詞分層次的譯文生成過程,在多種語言上進行的實驗結果表明該方法能夠顯著提高翻譯質量。Huang等人[35]提出了基于短語的神經機器翻譯(neural phrase-based machine translation,NPMT)。他們提出的方法不需要事先準備短語,目標語言端的短語是通過一個Sleep-Wake 網絡(sleep-wake networks,SWAN)和一個調序層(reordering layer)從訓練語料中自動提取到的(見圖3)。SWAN是Wang 等人[36]提出的一項基于分割的序列建模技術。實驗結果顯示,這一方法能夠將目標序列切割成為具有語言學意義的短語。在IWSLT2014 德英互譯、IWSLT2015 英譯越數(shù)據集上BLEU 值結果顯示,這種方法超越了基于注意力機制的神經機器翻譯模型。

Fig.3 Illustration of phrase-based NMT model圖3 基于短語的NMT 模型示例

可以看出,為了能夠顯式地利用短語結構信息指導翻譯過程,突出短語在神經機器翻譯中的作用,學者們做了兩方面的努力:(1)利用統(tǒng)計機器翻譯在處理短語結構時積累下的優(yōu)勢,探索統(tǒng)計機器翻譯模型與神經機器翻譯模型相互結合的方法,使得二者各自的優(yōu)勢都能得以充分發(fā)揮;(2)改進神經機器翻譯模型,使其具備處理短語結構的能力,從而提升短語翻譯效果。相較而言,這兩類工作前者更側重于工程實踐,目的在于取得更高的翻譯質量,后者則更偏向于科學探究,目的在于神經機器翻譯模型的進化與迭代。經梳理統(tǒng)計發(fā)現(xiàn),后者的研究主要集中在解碼端,即在解碼器中集成短語生成模塊,而在編碼端的短語識別由于涉及短語提取、短語切分等其他技術,目前還未得到充分關注。另外這類相關實驗中,解碼端作為目的語的語種通常是諸如德、日、捷克等語序較為靈活的語言,對于語序較為固定的分析語來說,如何在合適的位置生成短語依然面臨不小挑戰(zhàn)。其實無論在短語內部各詞語之間,還是在短語外部與其他詞語之間,都包含著大量的語言學知識,如何能夠利用這些句法語義關系來改進神經機器翻譯模型,是未來研究的一個重要方向。另外,短語結構信息與不同類型的神經機器翻譯模型(Transformer、CNN(convolutional neural networks)等)融合問題,也是一個新興且頗具挑戰(zhàn)性的課題。

3 融合句法結構信息的神經機器翻譯研究

句子并非單詞的簡單線性排列,它是有層次關系結構的。如:“關心孩子的母親”,既可能是一個動賓結構“關心/孩子的母親”,也可能是一個定中結構“關心孩子的/母親”;“門把手弄壞了”,既可能是“門/把/手/弄/壞了”,也可能是“門把手/弄/壞 了”。因此將句法結構信息融合至機器翻譯系統(tǒng)中有助于消解歧義,提升翻譯的準確性。早在統(tǒng)計機器翻譯時代,句法結構信息的價值就已經得到了證明[37-42]。受上述研究的啟發(fā),學者們嘗試將未被顯式建模的句法結構信息融入到神經機器翻譯模型之中,其中主要用到的兩種句法理論分別是短語結構語法和依存語法。

在源語言端融入句法結構信息的研究有:Eriguchi 等人[43]在研究英日機器翻譯時發(fā)現(xiàn),兩種語言在語序、句法結構方面均有較大差異。一般的注意力機制模型難以處理詞與短語、短語與短語之間的對齊,為此他們提出了樹到序列(tree-to-sequence)的注意力機制神經機器翻譯模型。其核心思想是,在編碼階段,利用中心語驅動的短語結構文法(headdriven phrase structure grammar,HPSG)對源語言進行自底向上的編碼,從而獲得了源語言的短語結構信息(見圖4)。在WAT15 英日數(shù)據集上的測試結果證實了這種方法的有效性。

Fig.4 Illustration of tree-to-sequence NMT model based on phrase structure grammar圖4 基于短語結構文法的樹到序列NMT 模型示例

Chen 等人[44]在此基礎上,對源語言端的單向樹狀結構進行了強化,變成自底向上和自上而下雙向編碼,在一定程度上克服了Eriguchi 等人研究中存在的頂端節(jié)點包含的句法信息多,底端節(jié)點包含的句法信息少的問題。此外,在解碼端引入了基于樹的覆蓋率機制[45],可以有效地將源語言上下文知識整合至注意力機制之中。研究采用賓州漢語樹庫作為源語言的句法剖析工具。在NIST 英漢翻譯數(shù)據集上的實驗結果顯示,該方法較之于基線神經機器翻譯系統(tǒng)平均高出3.54 個BLEU 值,在同等條件下雙向編碼較之于單向編碼高出0.79~0.96 個BLEU 值,而基于樹的覆蓋率機制的引入則提升了0.40~1.13 個BLEU值。與Chen 等人拋棄句法標簽信息的做法不同,Li等人[46]的工作是將句法樹轉化為句法標簽后與詞語混合成為同一個線性化序列,這種方法的好處在于避免樹的復雜網絡結構(見圖5)。實驗結果顯示,在長句翻譯、詞及短語對齊準確率和過譯三方面均優(yōu)于基線神經機器翻譯模型。

Fig.5 Illustration of syntax tags linearization圖5 句法標簽序列化示例

除了短語結構文法,依存文法在源語言編碼方面也有不少應用。其中代表性的工作是Bastings 等人[47]利用圖卷積網絡(graph convolutional network,GCN,圖神經網絡GNN(graph neural network)的一種)對源語言的依存結構進行編碼。他們的研究將GCN 疊加在CNN 之上,以CNN 編碼后的隱層向量作為輸入,通過依存結構信息對隱層向量進行圖學習,為每一個詞生成一個包含依存句法信息的向量,從而使得翻譯模型獲取句法知識。除此之外,在源語言融入句法知識的還有Ma 等人[48]的森林-序列(forest-tosequence)模型,Xu 等人[49]的圖-序列(graph-to-sequence)模型等,Sennrich 和Haddow[50]將詞性還原、詞性和依存句法標簽向量化后與詞向量進行拼接,新的詞向量就包含不同層級的語言學信息。

在目標語言端融入句法知識的研究有Nadejde等人[51]將組合范疇文法(combinatory categorial grammar,CCG)標注引入神經機器翻譯的解碼器端,其方法有兩種:一是將句法標簽與目標語言詞語交叉排列,即一個詞語一個對應的標簽,輸出序列長度增加一倍;二是借鑒多任務學習(multi-task learning)的思路,將句法標簽序列與目標語言序列分別用一個解碼器進行解碼。在德語-英語和羅馬尼亞語-英語的翻譯實驗證實了解碼階段加入句法知識的有效性,且第一種方法的結果優(yōu)于多任務學習的方法。實驗還顯示,如果同時在源語言端也加入語言學知識的話,翻譯性能會得到進一步提升。Aharoni 和Goldberg[52]的研究思路是,在模型訓練階段,先將目標語言句子通過句法分析器轉換為其句法樹線性化序列,一個既包含該句子所有單詞,也包含句法結構成分標簽的序列,然后將這一序列代替目標語句子與源語言進行模型訓練。在翻譯過程中,能夠同時生成目標語言和目標語言的樹結構,利用目標語言樹結構的約束和限制,最終可以得到更為準確的目標語翻譯結果。在WMT16 德英新聞翻譯任務數(shù)據集上的結果顯示該方法能夠提升0.94 個BLEU 值。Eriguchi 等人、Wu等人、Le等人的工作集中在如何在解碼端利用依存文法來提升模型的翻譯質量[53-55]。Eriguchi等人[53]的思路是用RNNG(recurrent neural network grammars)作為神經機器翻譯模型的解碼器;Wu 等人[54]的方法是利用兩個RNN 網絡先后用以依存句法結構的生成和詞語生成;Le 等人[55]的想法是將目標語言通過斯坦福依存文法分析器剖析成的句法樹序列化后代替目標語言的句子進行模型訓練。以上這些方法都被證明句法結構信息有助于提升機器翻譯的質量。

上述研究盡管能夠證明句法信息結構確實對改進神經機器翻譯的結果有所幫助,但是目前這些研究仍然面臨幾個方面的問題:(1)樹形結構的句法與序列結構的神經機器翻譯模型相融合,勢必增加神經網絡的復雜度,從而導致模型訓練難度加大,速度下降,同時也在一定程度上影響了翻譯模型結構清晰簡潔的特性。(2)研究采用數(shù)據規(guī)模偏小,模型訓練集通常在幾萬到幾十萬不等,無法與其他神經機器翻譯動輒上千萬的數(shù)據模型相提并論。眾所周知,翻譯性能隨著數(shù)據量的提升而改善恰恰是神經機器翻譯這一方法的一大優(yōu)勢。(3)在解碼器端現(xiàn)有研究對于句法結構信息的利用效率很低,通常只是用來線性化目標語言結構,其中蘊含的句法結構知識沒有被用來指導生成目標語的句子。未來融合句法結構信息的神經機器翻譯發(fā)展方向有:(1)在編解碼兩端同時利用句法結構知識,改變目前僅在源語言或者目標語言一端融合句法結構信息的現(xiàn)狀。(2)句法結構信息與新的神經機器翻譯模型相融合,將句法結構知識由循環(huán)神經網絡拓展到卷積神經網絡和Transformer 模型。(3)句法結構信息的規(guī)模、精度對于模型翻譯結果影響的實證性研究。(4)借助于遷移學習等方法手段,將已有的寶貴的句法結構信息數(shù)據資源用于更多的稀缺性語言之中,以提高稀缺語言機器翻譯的質量與效能。

4 問題與展望

從上文所述的研究中不難看出,融合語言學知識后的神經機器翻譯模型的確能夠提升翻譯性能。但是,也不得不承認,目前的研究還存在以下幾個問題:(1)融合語言學知識后,或多或少地增加了神經機器翻譯模型的復雜度,使得模型訓練需要消耗更多的資源,耗費更久的時間。(2)在通過線性化的方法加入語言學知識時,不論是在編碼階段還是在解碼階段都會使得序列變得更長,從而進一步加劇了長句處理的困難程度。這就形成了一個“怪圈”(一般而言,句子越長成分越復雜,越需要句法信息的輔助,而一旦增加了句法信息,句子序列變長,又會導致模型翻譯性能下降。)。(3)融合語言學信息的神經機器翻譯模型研究受到語言學理論研究和相應工具開發(fā)的限制。在模型中引入哪種類型的語言學知識,這種知識來自于何種語言學或計算語言學理論,有沒有開發(fā)出高質量的標注工具,這些問題都將與最終研究結果息息相關。以句法分析為例,目前各種類型的句法自動分析工具都會產生或多或少的標注錯誤,這就在一定程度上限制了數(shù)據使用的規(guī)模與質量。此外,還需注意的是,文中提到的絕大部分方法都屬于驗證性的,其所做的實驗,也僅僅用于證明其方法在某一數(shù)據集或者某一領域內有效,距離真正的實用還有相當一段距離。因此,今后融合語言學知識的神經機器翻譯研究將著眼但不限于以下方面:(1)隨著深度學習方法不斷更新,神經機器翻譯技術也在與時俱進,新的模型架構不斷出現(xiàn),也在不斷刷新著機器翻譯的最高水平。但不論如何發(fā)展,其本質都是在對人類語言進行建模,在這一過程中,無論是形態(tài)學、句法學知識,還是語義學、語用學知識都將會有用武之地。語言學知識與新模型、新框架、新技術融合的腳步不會停止。(2)目前神經機器翻譯在大語種、通用領域的翻譯結果無論從準確性還是從易讀性來說都已經達到了一個較高的水平。如果要繼續(xù)提升,就恐怕涉及語用等層面的問題了。因此,在語言學知識與神經機器翻譯深度融合這一進程中,將不僅僅用到形態(tài)學、句法學這些表層的語言學知識,而且會用到語義學、語用學這些層次更深、更為抽象的知識。如何利用這些知識來改進神經機器翻譯模型,提升翻譯效果,是今后一段時間研究中應該關注的問題。(3)由于神經機器翻譯對于大數(shù)據的依賴,往往在低資源語言翻譯方面表現(xiàn)不佳。在數(shù)據資源有限的情況下,融合外部知識的方式是提升翻譯模型性能的一個重要方法。人類的各個語言之間,往往具備千絲萬縷的聯(lián)系,這就恰好為語言學知識的遷移提供了橋梁。因此,利用高資源語言與低資源語言間存在的聯(lián)系,將諸如字詞結構信息、短語結構信息、句法學結構信息移植到低資源語言上,提升其翻譯質量,也是今后的一個重要研究課題。

猜你喜歡
源語言目標語言字符
尋找更強的字符映射管理器
字符代表幾
一種USB接口字符液晶控制器設計
電子制作(2019年19期)2019-11-23 08:41:50
林巍《知識與智慧》英譯分析
消失的殖民村莊和神秘字符
淺析日語口譯譯員素質
北方文學(2018年18期)2018-09-14 10:55:22
教材插圖在英語課堂閱讀教學中的運用及實例探討
文理導航(2017年25期)2017-09-07 15:38:18
跨文化視角下對具有修辭手法諺語英譯漢的研究
速讀·下旬(2016年7期)2016-07-20 08:50:28
以口譯實例談雙語知識的必要性
考試周刊(2015年36期)2015-09-10 15:03:38
二語習得過程中的石化現(xiàn)象分析
区。| 华安县| 建水县| 庆城县| 河源市| 郎溪县| 宜良县| 西丰县| 嘉禾县| 财经| 漠河县| 六枝特区| 瑞金市| 宜丰县| 正安县| 边坝县| 新竹县| 措勤县| 茂名市| 印江| 台南市| 涪陵区| 临邑县| SHOW| 凤凰县| 鸡东县| 新晃| 通江县| 鞍山市| 张家川| 兴山县| 沭阳县| 察雅县| 瑞安市| 衡山县| 会理县| 繁峙县| 康保县| 安图县| 多伦县| 双城市|