李洪政 馮 沖 黃河燕
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(Neural machine translation,NMT)于2013 年正式出現(xiàn)[1].在短短幾年的時(shí)間里,從最初的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neuralnetwork,RNN)encoder-decoder 結(jié)構(gòu)[2],到基于注意力機(jī)制的RNN search 模型[3]及其各種變體,再到目前最流行的Transformer 架構(gòu)[4]以及隨后多樣的預(yù)訓(xùn)練模型,NMT 以其獨(dú)特的優(yōu)勢迅速成為主流的翻譯方法,翻譯技術(shù)取得了巨大突破,翻譯質(zhì)量也不斷得到改善和提高.
NMT 的成功與算力資源、算法模型和數(shù)據(jù)資源密不可分,尤其依賴于海量的雙語數(shù)據(jù)資源.而獲取高質(zhì)量的雙語資源往往需要很多高昂的代價(jià),另一方面,世界上目前現(xiàn)存的很多語言在雙語數(shù)據(jù)資源方面卻十分匱乏甚至缺失.在機(jī)器翻譯領(lǐng)域的研究中,這些語言一般稱為“稀缺資源語言”,也稱為“低資源語言”(Low-resource languages).本文接下來會交替使用這兩種術(shù)語.
在數(shù)據(jù)因素的制約下,NMT 在低資源語言中的翻譯效果仍然并不理想.而低資源語言機(jī)器翻譯一直具有很多實(shí)際的需求和應(yīng)用場景,因此引起了國內(nèi)外學(xué)術(shù)界和業(yè)界的廣泛關(guān)注,已經(jīng)成為當(dāng)前機(jī)器翻譯領(lǐng)域的重要研究熱點(diǎn)之一,也出現(xiàn)了很多值得關(guān)注的研究成果.
Google、Facebook、卡內(nèi)基·梅隆大學(xué)(CMU)和愛丁堡大學(xué)等在低資源語言機(jī)器翻譯上做了很多研究.國內(nèi)機(jī)器翻譯領(lǐng)域也非常重視這方面的研究.中科院自動化所、清華大學(xué)、蘇州大學(xué)、東北大學(xué)、昆明理工大學(xué)、北京理工大學(xué)等多個(gè)科研團(tuán)隊(duì)在承擔(dān)低資源語言機(jī)器翻譯國家級科研項(xiàng)目、自主研發(fā)實(shí)用翻譯系統(tǒng)等方面都積極推動深入的技術(shù)交流與合作,同時(shí)在全國機(jī)器翻譯大會等多種學(xué)術(shù)活動都有廣泛、密切的研討,推動了這個(gè)方向的研究進(jìn)展[5?8].
隨著國內(nèi)外研究的發(fā)展和深入,我們認(rèn)為很有必要對目前稀缺資源語言機(jī)器翻譯的研究進(jìn)展進(jìn)行比較全面的回顧.本文期望能夠?yàn)闄C(jī)器翻譯和相關(guān)領(lǐng)域的研究者提供有益的參考,幫助他們更好地深入了解低資源語言機(jī)器翻譯的研究動態(tài)和選擇未來的研究方向.
本綜述的剩余部分組織如下:第1 節(jié)介紹了與低資源語言機(jī)器翻譯相關(guān)的學(xué)術(shù)活動和公開的數(shù)據(jù)資源;第2 節(jié)詳細(xì)梳理歸納了目前比較重要和常用的低資源翻譯方法和技術(shù),并總結(jié)了它們各自的特點(diǎn);第3 節(jié)總結(jié)了這些方法之間的關(guān)系,第4 節(jié)分析了當(dāng)前研究現(xiàn)狀的主要特點(diǎn);最后對未來的研究趨勢和發(fā)展方向提出了展望和建議.
為了進(jìn)一步推動稀缺資源語言機(jī)器翻譯的發(fā)展,加快研究步伐,加強(qiáng)技術(shù)交流,實(shí)現(xiàn)技術(shù)與真實(shí)應(yīng)用場景結(jié)合和技術(shù)落地,近兩年以來國際上積極開展了各類有影響力的學(xué)術(shù)活動.
機(jī)器翻譯領(lǐng)域最權(quán)威的國際比賽之一的機(jī)器翻譯大會(Conference on Machine Translation,WMT)近幾年來在新聞?lì)I(lǐng)域的翻譯評測任務(wù)都會涉及英語?低資源語言的翻譯,如古吉拉特語,哈薩克語等[9?12].
“針對緊急事件的低資源語言”(Low Resource Languages for Emergent Incidents,LORELEI)是美國國防高級研究計(jì)劃局(DARPA)資助的項(xiàng)目,該計(jì)劃的目標(biāo)是顯著提高計(jì)算語言學(xué)和人類語言技術(shù)的水平,以實(shí)現(xiàn)低資源語言的快速和低成本開發(fā).為此,美國國家標(biāo)準(zhǔn)技術(shù)研究所(NIST)推出了相應(yīng)的評測活動(LoReHLT)1https://www.nist.gov/itl/iad/mig/lorehlt-evaluations,評測任務(wù)包括機(jī)器翻譯、實(shí)體發(fā)現(xiàn)和鏈接等.該評測活動從2016 開始每年一次,至2019 年已經(jīng)連續(xù)舉辦了4 屆.
WAT2https://lotus.kuee.kyoto-u.ac.jp/WAT/(Workshop on Asian Translation)是專門針對亞洲語言翻譯的會議,到2019 年已經(jīng)連續(xù)舉辦了6 屆.該會議具有亞洲低資源語言和英語的翻譯評測活動.
另外兩個(gè)專門的學(xué)術(shù)活動是“低資源翻譯技術(shù)研討會”(Workshop on Technologies for MT of Low Resource Languages,LoResMT)3http://www.conference.amtaweb.org/,4https://sites.google.com/view/loresmt/和“低資源自然語言處理與深度學(xué)習(xí)研討會”(Deep Learning for Low-resource NLP)5https://sites.google.com/view/deeplo18/home,6https://sites.google.com/view/deeplo19,這兩個(gè)論壇已于2018 年和2019 年分別連續(xù)舉辦了2 屆.
機(jī)器翻譯與數(shù)據(jù)資源密不可分.表1 整理了一些可以用于低資源語言翻譯的數(shù)據(jù)資源:
表1 低資源語言翻譯相關(guān)的數(shù)據(jù)資源Table 1 Data for low-resource MT
本部分將重點(diǎn)介紹低資源語言的機(jī)器翻譯方法.由于zero-shot (即待翻譯語言對之間未經(jīng)過翻譯模型訓(xùn)練)和zero-resource (即待翻譯語言對之間沒有平行語料數(shù)據(jù))場景也屬于低資源翻譯的特殊形式,故也將其納入本文的考察范圍之內(nèi).目前已有研究方法大致可以分為五大類:第一類是利用第三方樞軸語言的翻譯方法;第二類是從豐富資源語言到稀缺資源語言的遷移學(xué)習(xí)方法;第三類是利用單語數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)的方法;第四類是半監(jiān)督和無監(jiān)督方法;第五類是多語言和多任務(wù)的翻譯方法.接下來將分別介紹每類方法,并在每類方法的最后總結(jié)各自的優(yōu)勢和不足等系列特點(diǎn).
需要說明的是,本文希望考察“低資源”這一特殊場景的翻譯方法研究,在整理文獻(xiàn)時(shí)重點(diǎn)根據(jù)“低資源、零資源”等關(guān)鍵詞語進(jìn)行篩選,同時(shí)也會考慮文獻(xiàn)中的數(shù)據(jù)集規(guī)模,如果某類方法出現(xiàn)在一些明顯屬于豐富資源語言或者較大實(shí)驗(yàn)數(shù)據(jù)集(比如規(guī)模多達(dá)幾十萬甚至百萬)的文獻(xiàn)中,那么我們傾向不將這些文獻(xiàn)納入本文的研究范圍.另外,在有些研究中,某類方法可能會與其他類型的方法同時(shí)被使用.另有一些研究中使用的方法也不一定能夠嚴(yán)格地歸入文中介紹的其中一類.
基于樞軸語言(Pivot-based)的翻譯方法試圖為源語言和目標(biāo)語言尋找一種(或幾種)樞軸語言(如英語),實(shí)現(xiàn)源語言?樞軸語言?目標(biāo)語言的翻譯過程.一種代表性的方法是首先利用源語言?樞軸語翻譯模型將源語言翻譯為樞軸語言,然后利用樞軸語言?目標(biāo)語翻譯模型將樞軸語言翻譯為目標(biāo)語言[17].這種方法在統(tǒng)計(jì)機(jī)器翻譯中具有廣泛的應(yīng)用,NMT 興起并發(fā)展以后,也開始出現(xiàn)在NMT 和一些商業(yè)翻譯系統(tǒng)中.例如Google 在GNMT 中很早就采用了樞軸語言翻譯方法,實(shí)驗(yàn)結(jié)果明顯優(yōu)于沒有增量訓(xùn)練(Incremental training,也即,使模型在不丟失已經(jīng)學(xué)習(xí)到的已有數(shù)據(jù)信息的基礎(chǔ)上,繼續(xù)學(xué)習(xí)新加入的訓(xùn)練數(shù)據(jù))的通用模型[18].
基于樞軸語言的翻譯方法通常會存在錯(cuò)誤累積問題.由于源語言?樞軸語言與樞軸語言?目標(biāo)語言雙語之間的關(guān)系不是非常緊密甚至毫無關(guān)系等原因,源語言?樞軸語言翻譯模型中的錯(cuò)誤會傳遞到樞軸語言?目標(biāo)語言模型中.而且兩種翻譯模型通常單獨(dú)訓(xùn)練,這進(jìn)一步放大了錯(cuò)誤傳遞.
為了解決這一問題,清華大學(xué)劉洋老師的團(tuán)隊(duì)做了深入而有影響的研究[19?21].Cheng 等[19]提出了一種聯(lián)合訓(xùn)練的神經(jīng)網(wǎng)絡(luò)翻譯模型,通過生成并共享樞軸語言的詞向量,以及對小規(guī)模的源語言?目標(biāo)語言雙語語料進(jìn)行最大似然估計(jì)的方法將源語言?樞軸語的翻譯模型和樞軸語言?目標(biāo)語的翻譯模型聯(lián)系起來進(jìn)行聯(lián)合訓(xùn)練.實(shí)驗(yàn)結(jié)果顯示BLEU值比Baseline (獨(dú)立訓(xùn)練兩種翻譯模型)提升了1~2 個(gè)百分點(diǎn).
同樣是為了解決錯(cuò)誤傳遞問題,Zheng 等[20]針對零資源機(jī)器翻譯,通過最大期望似然估計(jì)(Maximum expected likelihood estimation,MELE),直接訓(xùn)練源語言?目標(biāo)語言的翻譯模型.
如圖1 所示,MELE 方法的目標(biāo)是,在樞軸語言Z-目標(biāo)語Y平行語料的基礎(chǔ)上,針對源語言X-目標(biāo)語言Y翻譯模型,對樞軸語言Z-源語言X翻譯模型獲得最大期望.
圖1 基于樞軸語言的方法(a)和MELE 方法(b)Fig.1 Pivot-based method (a)and MELE method (b)
在Cheng 和Zheng 等的工作基礎(chǔ)上,Chen等[21]針對零資源機(jī)器翻譯進(jìn)一步提出了“Teacher-Student”的框架.該工作的主要思想是,為了訓(xùn)練缺乏雙語語料的源語言?目標(biāo)語言的翻譯模型(“學(xué)生”),可以利用預(yù)訓(xùn)練的樞軸語言?目標(biāo)語言的翻譯模型(“老師”)指導(dǎo)基于源語言?樞軸語言雙語數(shù)據(jù)訓(xùn)練的學(xué)生模型,如圖2 所示.
圖2 基于樞軸語言的方法(a)和“老師?學(xué)生”方法(b)Fig.2 Pivot-based method (a)and“Teacher-student”method (b)
該框架提出了句子級和詞語級兩種“老師”模型,允許翻譯模型直接進(jìn)行參數(shù)估計(jì),而無需將解碼過程分解為兩個(gè)步驟,因此既有效率提升,又可以避免錯(cuò)誤傳遞.與Cheng 等的結(jié)果進(jìn)行對比,最好的BLEU 分?jǐn)?shù)在相同數(shù)據(jù)集上又提升了3 個(gè)多百分點(diǎn).
Ren 等[22]假設(shè)源語言X-樞軸語言Z屬于豐富數(shù)據(jù)的語言對,而樞軸語言Z-目標(biāo)語言Y屬于稀缺語言對.他們同樣不針對(X,Y)進(jìn)行直接建模,但與前面研究不同的是,他們將目標(biāo)語言作為中間橋梁,對目標(biāo)語言-樞軸語言翻譯模型進(jìn)行建模,把訓(xùn)練翻譯模型P(Z|X)分解為訓(xùn)練P(Y|X)和P(Z|Y)兩個(gè)翻譯模型,然后利用期望最大化算法(Expectation-maximization,EM)對模型進(jìn)行訓(xùn)練.
Lakew 等[23]針對多語種的zero-shot 翻譯場景,提出了一種以英語為樞軸語言的迭代式翻譯模型,在意大利語 ? 羅馬尼亞語數(shù)據(jù)上使BLEU 分?jǐn)?shù)提升了8~10 個(gè)百分點(diǎn).
除了文本信息,圖像等多模態(tài)信息也可以作為樞軸語言信息用于低資源語言翻譯.例如:Nakayama 和Nishida[24]把圖片作為樞軸信息,認(rèn)為對于改善零資源翻譯效果同樣有幫助.Chowdhury 等[25]利用Flickr30k 圖片數(shù)據(jù)集中的圖像信息和圖像描述信息實(shí)現(xiàn)了印地語?英語的多模態(tài)低資源語言翻譯,在圖像信息的幫助下,BLEU 分?jǐn)?shù)比單純的文本翻譯有了相應(yīng)提升.
總結(jié):基于樞軸語言的翻譯方法以第三方語言為中介,以其簡潔方便的特點(diǎn)能夠適用于統(tǒng)計(jì)翻譯和神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯等,具有比較久的研究歷史,但該類方法由于不直接實(shí)現(xiàn)源語言和目標(biāo)語言之間的翻譯,在訓(xùn)練過程的幾個(gè)階段容易產(chǎn)生錯(cuò)誤累積等問題,而且整個(gè)訓(xùn)練過程的解碼時(shí)間相對較長.
遷移學(xué)習(xí)(Transfer learning)[26]是機(jī)器學(xué)習(xí)的一種重要方法,在自然語言處理領(lǐng)域同樣有著廣泛應(yīng)用.Ruder 在其博士論文中有詳細(xì)深入的論述[27].具體到低資源語言翻譯,遷移學(xué)習(xí)的一般做法是首先在數(shù)據(jù)資源豐富的語言上訓(xùn)練模型,然后遷移到低資源語言上,進(jìn)行微調(diào),最終產(chǎn)生譯文.
由于遷移學(xué)習(xí)涉及多種語言,因此豐富資源和稀缺資源語言之間的語言相關(guān)性是一個(gè)經(jīng)常研究的問題.一般來說,語言相似性越高,越有利于遷移學(xué)習(xí).在“父”語言和“子”語言之間共享BPE 得到的子詞詞匯表或者BPE 向量表示可以利用語言之間的相似性.
Zoph 等[28]率先將遷移學(xué)習(xí)用在機(jī)器翻譯中.他們利用豐富資源的語言對訓(xùn)練了一個(gè)“父”模型,然后對稀缺語言的“子”模型進(jìn)行權(quán)重初始化,最后在資源匱乏的語言對上訓(xùn)練最終的翻譯模型.
Nguyen 和Chiang[29]進(jìn)一步探索了父模型的語言對也屬于低資源語言,但與子語言對之間有關(guān)系的場景,通過使用BPE 方法的共享詞匯表和音譯等改進(jìn)了以前的方法.Dabre 等[30]也探索了語言相關(guān)性在遷移學(xué)習(xí)中對于翻譯質(zhì)量的影響效果.
Kocmi 和Bojar[31]則驗(yàn)證了語言對之間不存在關(guān)聯(lián)性的情景中,利用Transformer 在父、子模型之間共享詞匯,進(jìn)行遷移學(xué)習(xí)翻譯的效果.模型以英語為中間語言,分別在相關(guān)性較強(qiáng)的歐洲語言對之間和不相關(guān)的歐洲語言對之間進(jìn)行了多組實(shí)驗(yàn),結(jié)果都有不同程度的明顯提升.但他們同時(shí)表明翻譯效果可能還跟父語言對的規(guī)模有關(guān).
Gu 等[32]針對雙語數(shù)據(jù)都非常稀缺的語言對,提出了一種通用的翻譯模型,把多種源語言共享的詞語級和句子級表示映射到一種目標(biāo)語言中,得到通用空間中的詞向量表示.這樣做的優(yōu)勢是,不同語言中語義相似的詞語能夠具有相似的表示并映射到同一個(gè)語義空間.隨后他們又提出了一種與模型無關(guān)的元學(xué)習(xí)框架(圖3)(Model-agnostic metalearning,MAML)[33],在多個(gè)語種上的實(shí)驗(yàn)效果要遠(yuǎn)遠(yuǎn)優(yōu)于遷移學(xué)習(xí)模型.Li 等[34]也基于元學(xué)習(xí)方法利用多種領(lǐng)域的數(shù)據(jù)解決低資源翻譯中的領(lǐng)域遷移問題.
圖3 遷移學(xué)習(xí),多語言遷移學(xué)習(xí)與元學(xué)習(xí)Fig.3 Transfer learning,multilingual transfer learning and meta learning
Kim 等[35]利用跨語言詞向量,提出了一種不需要共享詞匯表的遷移技術(shù)用于零資源翻譯場景.隨后又提出了一種基于樞軸語言的遷移學(xué)習(xí)方法[36],首先預(yù)訓(xùn)練源語言 ? 樞軸語言和樞軸語言 ? 目標(biāo)語言的翻譯模型,然后將二者遷移到源語言 ? 目標(biāo)語言翻譯模型上進(jìn)行微調(diào).蘇州大學(xué)張民老師團(tuán)隊(duì)最近針對zero-shot 場景提出了基于跨語言預(yù)訓(xùn)練模型的遷移學(xué)習(xí)方法,比Kim 等的效果進(jìn)一步有所提升[37].
整體來看,目標(biāo)語言端的遷移學(xué)習(xí)比源語言端的遷移學(xué)習(xí)更具挑戰(zhàn)性.因?yàn)椴煌哪繕?biāo)語言需要特定的目標(biāo)語言表示形式,而遷移學(xué)習(xí)則更喜歡目標(biāo)語言不變的表示形式.遷移學(xué)習(xí)的成功取決于在這些因素之間取得適當(dāng)?shù)钠胶?隨著各種預(yù)訓(xùn)練模型的流行,遷移學(xué)習(xí)能夠?qū)⒈M可能多的知識遷移到翻譯模型,在一定程度上也增加了翻譯模型的可解釋性.
總結(jié):以預(yù)訓(xùn)練模型為主要方式的遷移學(xué)習(xí)方法已經(jīng)廣泛應(yīng)用于自然語言處理的很多應(yīng)用領(lǐng)域和場景,也極大地改善了翻譯質(zhì)量.但隨著各種超大規(guī)模的預(yù)訓(xùn)練模型的發(fā)布,在一定程度上對于遷移學(xué)習(xí)涉及的語言之間的相似性和算力資源提出了更高的挑戰(zhàn),在訓(xùn)練過程中也會存在不易優(yōu)化等困難.
低資源語言機(jī)器翻譯通常缺乏大規(guī)模雙語數(shù)據(jù),而單語數(shù)據(jù)比較充足也更容易獲取.半監(jiān)督方法(Semi-supervised)主要利用單語數(shù)據(jù)和小規(guī)模雙語數(shù)據(jù)實(shí)現(xiàn)翻譯過程.其中回譯技術(shù)(Back-translation,或稱反向翻譯)是一種主要手段,將在下一小節(jié)中詳細(xì)論述.
Cheng 等[38]利用自動編碼器(Autoencoder)分別重構(gòu)單語的源語言X和目標(biāo)語言Y.即,目標(biāo)語言的自動編碼器首先利用Y→X的翻譯模型將目標(biāo)語言編碼為潛在的源語言,然后利用X→Y翻譯模型解碼重構(gòu)新的目標(biāo)語言Y′,同理,源語言亦如此.
Skorokhodov 等[39]則將預(yù)訓(xùn)練的語言模型與翻譯模型結(jié)合起來,首先分別訓(xùn)練源語言和目標(biāo)語言的語言模型,然后初始化翻譯模型,在俄語?英語這一極低資源數(shù)據(jù)集上使BLEU 分?jǐn)?shù)比baseline 提高了1.4 個(gè)百分點(diǎn).
Gulcehre 等[40]利用“淺層融合”(類似于常規(guī)SMT 解碼器中使用語言模型)和“深層融合”(將語言模型和解碼器的隱藏狀態(tài)拼接在一起)兩種機(jī)制將單語目標(biāo)語言的神經(jīng)網(wǎng)絡(luò)語言模型融合到翻譯模型中,在土耳其?英語等低資源數(shù)據(jù)集上使BLEU分?jǐn)?shù)提升了接近2 個(gè)百分點(diǎn).
南京大學(xué)團(tuán)隊(duì)[41]最近提出了一種“鏡像生成式”(Mirror-generative)的機(jī)器翻譯模型,結(jié)合了回譯、對偶學(xué)習(xí)等技術(shù),可以更好地利用非平行語料改善翻譯效果.
在無監(jiān)督翻譯(Unsupervised)方法中,則不依賴雙語平行數(shù)據(jù),只依賴單語數(shù)據(jù)訓(xùn)練翻譯模型(如圖4 所示).Facebook 的團(tuán)隊(duì)非常重視低資源翻譯研究,做了很多開創(chuàng)性的工作[42?45].現(xiàn)有的無監(jiān)督翻譯方法通常包括兩個(gè)階段:首先預(yù)訓(xùn)練語言模型[46?47],然后在微調(diào)階段利用回譯等訓(xùn)練翻譯模型.
圖4 無監(jiān)督翻譯方法Fig.4 Unsupervised NMT
此后,無監(jiān)督方法吸引了更多研究者的關(guān)注.在過去兩年的NLP 頂級會議上就有多篇關(guān)于無監(jiān)督翻譯方法的論文.例如:Yang 等[48]對無監(jiān)督翻譯模型增加了權(quán)重共享約束,使得模型能夠使用兩個(gè)獨(dú)立的編碼器,然后使用生成對抗網(wǎng)絡(luò)(GAN)改善了翻譯效果.
Gu 等[49]針對零資源翻譯場景,首先定量分析了零資源翻譯的退化問題.然后通過預(yù)訓(xùn)練解碼器的語言模型和對零資源語言對進(jìn)行反向翻譯,在數(shù)十種歐洲語言對上驗(yàn)證了方法的有效性.最近他們又利用25 種語言預(yù)訓(xùn)練去噪的模型,然后在不同規(guī)模的語言對數(shù)據(jù)集上調(diào)優(yōu),進(jìn)行了句子級別和文檔級別的翻譯實(shí)驗(yàn),在英語 ? 越南語等低資源數(shù)據(jù)集上將BLEU 提升了10 多個(gè)百分點(diǎn),取得了非常好的效果[50].
除了文獻(xiàn)[43]等少數(shù)研究工作,大部分無監(jiān)督翻譯方法通常首先需要利用無監(jiān)督跨語言向量模型(如Facebook 的LASER 和MUSE 工具等)[51-52]將兩種語言的向量表示映射到共享向量空間,因此對于相似性較高的低資源語言之間的翻譯比較有效,而在遠(yuǎn)距離語言對之間的翻譯效果比較差.
總結(jié):半監(jiān)督和無監(jiān)督翻譯方法的一個(gè)優(yōu)勢在于可以更多地依賴于單語數(shù)據(jù)資源,而不必局限于雙語數(shù)據(jù),這在低資源翻譯場景中具有很好的價(jià)值,在未來仍將是非常有希望的研究方向之一.但是這類方法的實(shí)際效果在不同語言之間的差別較大,在相似性更高的語言對上具有更好的效果.盡管有研究在日語 ? 俄語等遠(yuǎn)距離語言對上的無監(jiān)督翻譯提升了翻譯效果[53?54],但在大多數(shù)語言對上的效果仍然落后于傳統(tǒng)的有監(jiān)督方法.另外,有研究也指出,無監(jiān)督方法的有效性依賴于大量輔助數(shù)據(jù),以及其他條件是否滿足[55].例如,當(dāng)語言在形態(tài)上不同或訓(xùn)練領(lǐng)域不匹配時(shí),無監(jiān)督方法的有效性會受到損害.
數(shù)據(jù)增強(qiáng)方法(Data augmentation)最初廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,是圖像處理的標(biāo)準(zhǔn)處理技術(shù),其目的是利用有限的訓(xùn)練樣本數(shù)據(jù)增加健壯性并改進(jìn)學(xué)習(xí)目標(biāo).后來開始應(yīng)用于機(jī)器翻譯等自然語言處理領(lǐng)域.在低資源語言機(jī)器翻譯中,由于缺少足夠的雙語數(shù)據(jù),數(shù)據(jù)增強(qiáng)方法主要利用已有的單語數(shù)據(jù)達(dá)到增加訓(xùn)練數(shù)據(jù)的目的,從而更好地訓(xùn)練翻譯模型,改善翻譯效果.單語數(shù)據(jù)主要來自目標(biāo)語言一端,但也有研究利用源語言端的單語數(shù)據(jù)改善翻譯效果.例如:中科院自動化研究所的宗成慶研究員團(tuán)隊(duì)早在2016 年就提出通過自學(xué)習(xí)算法和多任務(wù)模型框架利用源語言一側(cè)的數(shù)據(jù)有效提升翻譯質(zhì)量,引起了廣泛關(guān)注[56].
Gibadullin 等[57]對低資源翻譯中如何利用單語數(shù)據(jù)做了比較全面的綜述分析,他們把利用單語數(shù)據(jù)的方法分為“獨(dú)立于翻譯模型”和“依賴于翻譯模型”兩大類.本文將常見的數(shù)據(jù)增強(qiáng)方法同樣分為以下兩種類型.
1)回譯方法
愛丁堡大學(xué)的團(tuán)隊(duì)首次將回譯技術(shù)用于NMT,利用目標(biāo)端的單語數(shù)據(jù)有效地提升了翻譯性能[58].此后,這一方法被廣泛應(yīng)用在NMT 中,也被證明對于改善翻譯質(zhì)量特別是低資源翻譯場景有很大幫助,回譯已經(jīng)成為NMT 的標(biāo)準(zhǔn)技術(shù)之一.
盡管回譯對NMT 的性能提升有很大幫助,但其中仍有很多因素值得深入研究.很多工作針對回譯從多個(gè)方面進(jìn)行了探索.
Park 等[59]分析了僅使用反向翻譯生成的多種合成數(shù)據(jù)對翻譯模型的影響.Poncelas 等[60]也對多種訓(xùn)練數(shù)據(jù)類型(僅真實(shí)數(shù)據(jù)、僅合成數(shù)據(jù)、混合數(shù)據(jù))以及回譯數(shù)據(jù)的比例對于翻譯效果的影響進(jìn)行了實(shí)證分析.他們認(rèn)為,與基于最大化推斷生成的合成數(shù)據(jù)相比,基于采樣和加入噪聲的束搜索生成的合成數(shù)據(jù)能夠提供更好的訓(xùn)練優(yōu)勢.后來他們又分析了SMT 和NMT 產(chǎn)生的合成數(shù)據(jù)對于NMT效果的影響,認(rèn)為二者結(jié)合可以進(jìn)一步提高翻譯效果[61].
回譯方法的一個(gè)主要局限是需要平衡真實(shí)數(shù)據(jù)和合成數(shù)據(jù)的規(guī)模.Edunov 等[62]對生成回譯的多種方法進(jìn)行了比較全面的實(shí)證研究和對比分析.他們表明,在合成數(shù)據(jù)中增加噪聲數(shù)據(jù)不僅可以提高翻譯質(zhì)量,還可以使訓(xùn)練在合成句子與真實(shí)句子的比率較高的情況下更加可靠.Fadaee 和Monz[63]也進(jìn)行了類似的工作.
回譯方法雖然操作簡單,方便有效,但產(chǎn)生的偽平行語料可能會面臨數(shù)據(jù)質(zhì)量較低的問題,在一定程度上會影響翻譯性能.針對這個(gè)問題,有研究者做了相關(guān)工作.
Hoang 等[64]在回譯的基礎(chǔ)上進(jìn)一步提出了迭代式回譯,即不斷重復(fù)回譯的過程,直到獲得更好的翻譯效果.Imankulova 等[65?66]通過多次翻譯篩選譯文語句構(gòu)建較高質(zhì)量的偽雙語數(shù)據(jù),以改善翻譯質(zhì)量.
Wu 等[67]提出了一種名為“Extract-Edit”的雙語數(shù)據(jù)抽取方法用于替代廣泛使用的回譯方法,以產(chǎn)生高質(zhì)量的雙語數(shù)據(jù).
Currey 等[68]則利用反向翻譯將第三方的單語樞軸語言分別生成源語言和目標(biāo)語言,組成偽雙語數(shù)據(jù),然后實(shí)現(xiàn)源語言到目標(biāo)語言的翻譯.
2)詞語替換方法
不同于回譯方法,這種方法的主要做法是有針對性地替換訓(xùn)練數(shù)據(jù)中的詞語,而無需訓(xùn)練回譯需要的翻譯模型.
Fadaee 等[69]在不改變訓(xùn)練語句句法和語義的前提下,將訓(xùn)練語料中的詞語替換成一些低頻詞語.這樣就增加了訓(xùn)練數(shù)據(jù)的規(guī)模.但該方法需要一些復(fù)雜的預(yù)處理步驟,而且實(shí)驗(yàn)表明只對低資源數(shù)據(jù)集有效.
Wang 等[70]對源語言和目標(biāo)語言兩側(cè)均進(jìn)行數(shù)據(jù)增強(qiáng).利用從兩側(cè)詞匯中統(tǒng)一采樣的其他單詞分別替換源語言句子和目標(biāo)語言句子中的單詞.在多個(gè)語言數(shù)據(jù)集上均有效提升了BLEU 分?jǐn)?shù).
Xia 等[71]結(jié)合樞軸語言方法提出了一種實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)的通用框架(圖5),不僅可以利用目標(biāo)語言一端的數(shù)據(jù),還可以將與稀缺資源語言有一定聯(lián)系的豐富資源語言作為樞軸語言,獲得豐富語言?稀缺語言的數(shù)據(jù).
圖5 數(shù)據(jù)增強(qiáng)框架.其中,(i)和(ii)是傳統(tǒng)數(shù)據(jù)增強(qiáng)方法,(iii)和(iv)是新提出的方法Fig.5 Data augmentation method,where (i)and (ii)are traditional methods,while (iii)and (iv)are new ones
微軟團(tuán)隊(duì)[72]提出了一種“軟”語境數(shù)據(jù)增強(qiáng)方法.該方法可以將隨機(jī)選定的詞語替換為與該詞語語境密切相關(guān)的“軟”詞語.軟性詞語可以通過語言模型獲得,可以認(rèn)為是基于語料數(shù)據(jù)的詞表概率分布.
Zhou 等[73]則將句法信息引入數(shù)據(jù)增強(qiáng)方法,首先將目標(biāo)語言調(diào)整為具有源語言句法結(jié)構(gòu)和語序的目標(biāo)語言,然后利用雙語詞典將調(diào)序后的目標(biāo)語言中的詞語替換為源語言詞語,最后將其加入偽平行語料數(shù)據(jù)中,從而實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)的目的.
除了以上兩種類型的方法,Currey 等[74]通過復(fù)制目標(biāo)端的數(shù)據(jù)也實(shí)現(xiàn)了提升翻譯效果的目的.
數(shù)據(jù)增強(qiáng)方法在不同翻譯任務(wù)上對于提升翻譯效果存在差異性,也就是說,不是所有的數(shù)據(jù)增強(qiáng)方法在所有翻譯任務(wù)上都能夠提升效果.為了分析數(shù)據(jù)增強(qiáng)在不同方法和任務(wù)中通常能夠獲得什么益處,在深度學(xué)習(xí)理論的啟發(fā)下,Li 等[75]從輸入靈敏度(Input sensitivity)和預(yù)測余量(Prediction margin)兩個(gè)維度進(jìn)行了全面的實(shí)證檢驗(yàn).
總結(jié):在缺乏大規(guī)模雙語數(shù)據(jù)的場景中,數(shù)據(jù)增強(qiáng)方法能夠快速地?cái)U(kuò)充訓(xùn)練數(shù)據(jù),回譯方法也以其自身的優(yōu)勢成為NMT 的標(biāo)準(zhǔn)處理技術(shù)和數(shù)據(jù)增強(qiáng)的重要途徑.但這類方法通常需要考慮真實(shí)數(shù)據(jù)與新產(chǎn)生的合成數(shù)據(jù)之間的規(guī)模比例問題,有時(shí)候當(dāng)偽數(shù)據(jù)超過一定規(guī)模后,反而會影響翻譯性能,另外,通過數(shù)據(jù)增強(qiáng)產(chǎn)生的數(shù)據(jù)也可能會存在質(zhì)量較差的情況,在一定程度上也會增加很多噪聲.
多語言(Multi-lingual)翻譯的目標(biāo)是通過單一翻譯模型實(shí)現(xiàn)多種語言之間的互相翻譯[76].文獻(xiàn)[77]對多語言神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯做了詳細(xì)的回顧.為了更好地改善低資源場景的翻譯質(zhì)量,近幾年來這種翻譯方法引起了很多關(guān)注,例如微軟團(tuán)隊(duì)和CMU團(tuán)隊(duì)等都開展了有針對性的集中研究,包括知識蒸餾(Knowledge distillation)和語言集束方法[78?79],使用共享詞向量表征所有語言,以及軟解耦的編碼方法等[80?81].
在多語言NMT 模型中,根據(jù)源語言和目標(biāo)語言的數(shù)量,通常存在三種翻譯策略:多對一翻譯、一對多翻譯以及多對多翻譯.多對一模型學(xué)習(xí)將在源語端的任何語言翻譯成目標(biāo)端的一種特定的語言,這種情況下通常會選取語料豐富的語言比如英語;相似地,一對多模型學(xué)習(xí)將在源語端的一種語言翻譯成目標(biāo)端任意一種語言.多對一這種模式通常會看作多領(lǐng)域?qū)W習(xí)的問題,類似于源語端的輸入分布是不一致的,但是都會翻譯成一種目標(biāo)語.而一對多模式可以被看作是多任務(wù)的問題,類似于每一對源語到目標(biāo)語看作一個(gè)單獨(dú)的任務(wù).多對多這種模式就是這兩個(gè)模式的集合.Google 的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)在去年的最新進(jìn)展中實(shí)現(xiàn)了以上三種策略在超過100 種語言之間的低資源和零資源翻譯[82].
Firat 等[83]對零資源翻譯場景提出了一種多語言翻譯的調(diào)優(yōu)算法,認(rèn)為多對一的翻譯策略更優(yōu)于一對一的翻譯方法.Zhou 等[84]對多個(gè)不同語族的多種歐洲語言進(jìn)行了全面的定性和定量分析,得出了基于與低資源目標(biāo)語言最相近的語族的幾種語言訓(xùn)練多語言翻譯模型,能夠有效改善翻譯質(zhì)量的結(jié)論.Maimaiti 等[85]同樣得到了類似的結(jié)論,與僅使用一對高資源語言對進(jìn)行遷移學(xué)習(xí)相比,使用多個(gè)語言關(guān)系高度相關(guān)的高資源語言對并進(jìn)行多個(gè)回合的微調(diào)可以提高翻譯性能.類似工作還有文獻(xiàn)[86]等.從這些研究可以看出,無論是多語言翻譯,還是遷移學(xué)習(xí)方法,更強(qiáng)的語言相關(guān)性對于改善翻譯效果都會有更多幫助.
除了歐洲語言,也有人研究了亞洲語言.Dabre等[87]將多語言翻譯方法與遷移學(xué)習(xí)結(jié)合,實(shí)現(xiàn)了英語到亞洲多種語言的翻譯.他們在多語言、多階段微調(diào)過程中沒有關(guān)注語言差異,而是表明數(shù)據(jù)大小很重要.但這種多語言、多階段的遷移學(xué)習(xí)需要進(jìn)一步的研究.Murthy 等[88]基于Zoph 等[28]的工作,使用英語作為輔助語言,以英語?印地語作為預(yù)訓(xùn)練的父模型,在預(yù)訓(xùn)練時(shí)還考慮了句法語序信息,最后在幾種亞洲語言?印地語的子翻譯模型上進(jìn)行微調(diào).
Imankulova 等[89]將領(lǐng)域適用性、多語言翻譯和反向翻譯等技術(shù)結(jié)合起來,首先利用領(lǐng)域外的數(shù)據(jù)訓(xùn)練多語言翻譯模型,然后在領(lǐng)域內(nèi)數(shù)據(jù)集上微調(diào),在日語?俄語這一語言特點(diǎn)差異很大的極端低資源數(shù)據(jù)集上使翻譯效果有了明顯提升.
Neubig 和Hu[90]將多語言作為種子模型,提出了一種能夠快速有效地適用于新語言的多語言翻譯模型.類似地,Lu 等[91]在多語言翻譯框架中引入國際輔助語言“因特語”(Interlingua)模塊,在zeroshot 場景中將特定語言的編碼器輸出轉(zhuǎn)化為獨(dú)立于特定語言的解碼器輸入表示,實(shí)現(xiàn)了語言的直接翻譯,而無需借助樞軸語言.
Sestorain 等[92]則利用強(qiáng)化學(xué)習(xí)方法共同訓(xùn)練融入語言模型的多語言翻譯模型和重構(gòu)目標(biāo),以保證譯文的語法準(zhǔn)確性和翻譯質(zhì)量.但這種方法在訓(xùn)練中非常耗時(shí),而且在數(shù)次迭代后效果很難繼續(xù)有所改善.
多語言翻譯對于低資源翻譯場景盡管具有很多優(yōu)勢,但同時(shí)面臨著在獨(dú)立模型下無法實(shí)現(xiàn)知識共享,且需要大規(guī)模存儲和計(jì)算資源的問題.CMU 的團(tuán)隊(duì)為翻譯模型設(shè)計(jì)了一種適用于多種語言的語境參數(shù)生成器,使翻譯模型變得更加通用,并且適用于零資源和低資源翻譯[81].中科院自動化研究所的宗成慶老師團(tuán)隊(duì)提出了一種結(jié)構(gòu)緊湊且語言敏感的多語言機(jī)器翻譯方法,能夠很好地利用語言之間的共性,為低資源和零資源的翻譯場景提供了新的解決思路[93].
多任務(wù)(Multi-task)翻譯方法是NMT 的一種常見方法之一,其主要思想是利用多個(gè)相關(guān)的其他任務(wù)(如句法分析、語義分析等),來提升翻譯任務(wù)的質(zhì)量.
文獻(xiàn)[94]利用詞性標(biāo)注和依存分析任務(wù)將句法信息引入翻譯任務(wù)中,使得BLEU 分?jǐn)?shù)有了1~2個(gè)百分點(diǎn)的提升;文獻(xiàn)[95?96]改進(jìn)模型架構(gòu)設(shè)計(jì),希望學(xué)習(xí)到多個(gè)任務(wù)之間共享的有效參數(shù),同時(shí)改進(jìn)訓(xùn)練安排,即調(diào)整不同任務(wù)之間的優(yōu)先程度,保證將改善翻譯質(zhì)量作為主任務(wù),其他相關(guān)任務(wù)作為輔助任務(wù).
總結(jié):多語言翻譯方法對于低資源翻譯任務(wù)是很有必要的,因?yàn)閬碜远喾N語言的翻譯模型能夠幫助資源匱乏語言獲得額外的知識,同時(shí)不同語言也使得模型具有更好的泛化能力,與雙語翻譯相比具有更好的遷移學(xué)習(xí)能力[97].目前主流的多語言翻譯模型主要有三種思路:1)使用不同的編碼器和解碼器表征不同語言;2)使用統(tǒng)一的編碼器和解碼器用于所有語言之間的翻譯;3)在編碼器和解碼器中共享一部分參數(shù)表示語言之間的共性特征,另一部分表示語言的特有屬性.但正如前面提到的,通常都會不可避免地面臨模型結(jié)構(gòu)復(fù)雜,計(jì)算復(fù)雜度增加以及知識共享存在障礙等問題.
以上回顧了低資源翻譯的主要方法.另外,還有一些研究不一定能夠嚴(yán)格地歸入上述的某一類方法,如微軟團(tuán)隊(duì)提出的對偶學(xué)習(xí)(Dual learning)[98]就與前面方法的學(xué)習(xí)范式有很多不同之處,自從提出以來產(chǎn)生了比較大的影響,以及最近提出的語言圖蒸餾(Language graph distillation)方法[99]等.再如文獻(xiàn)[100]等使用的方法同樣證明了對于提升翻譯質(zhì)量的有效性.此處不再贅述.
從前面的梳理可以看到,很多研究文獻(xiàn)中結(jié)合了不止一種翻譯方法和技術(shù),表2 列出了一些這樣的文獻(xiàn).
表2 使用多種翻譯方法的一些文獻(xiàn)Table 2 Literatures with more than one MT method
研究中使用的不同方法各有特點(diǎn),也存在比較密切的聯(lián)系,下面根據(jù)圖6 依次進(jìn)行簡要分析.
圖6 幾類翻譯方法之間的關(guān)系Fig.6 Relations between the translation methods
遷移學(xué)習(xí)是目前非常流行而又高效的方法,特別是最近兩年,在稀缺資源翻譯研究中占有較高的比重,這種“預(yù)訓(xùn)練+微調(diào)”的模式可以應(yīng)用到其他各類的翻譯方法中.因此與其他各類方法都有關(guān)聯(lián).
樞軸語言翻譯方法由來已久,在用于NMT 以前,經(jīng)常用于統(tǒng)計(jì)翻譯,甚至在更早的規(guī)則翻譯方法中也有所體現(xiàn).樞軸語言方法從一個(gè)語言對之間的翻譯還可以擴(kuò)展到多語種之間的翻譯,比如多語種之間的零資源翻譯場景.數(shù)據(jù)增強(qiáng)方法同樣可以擴(kuò)展到多語種翻譯場景[101].
另外,樞軸語言還可以通過反向翻譯構(gòu)造樞軸語言與源語言/目標(biāo)語言之間的合成雙語數(shù)據(jù),從而實(shí)現(xiàn)了數(shù)據(jù)增強(qiáng)的目的.
值得注意的是,在圖6 中,樞軸語言翻譯方法與無監(jiān)督/半監(jiān)督方法之間采用虛線箭頭連接,這是因?yàn)槎鄶?shù)場景(如zero-shot)的樞軸語言翻譯可以看做是有監(jiān)督翻譯或半監(jiān)督翻譯,而不屬于無監(jiān)督方法.
無監(jiān)督方法具有很大的挑戰(zhàn)性.由于不使用雙語數(shù)據(jù),而擺脫了NMT 嚴(yán)重依賴大規(guī)模雙語數(shù)據(jù)的局限,對數(shù)據(jù)資源的依賴較小,尤其適合于低資源和零資源翻譯場景.盡管目前的翻譯效果仍然相對不是非常理想,但在近期和未來一段時(shí)間應(yīng)該會有很好的發(fā)展?jié)摿?
將無監(jiān)督翻譯方法用于多語言翻譯場景的研究目前暫時(shí)不多,因?yàn)槎嗾Z言翻譯通常屬于有監(jiān)督翻譯方法.不過最近 Google 團(tuán)隊(duì)嘗試了無監(jiān)督方法的多語種翻譯,在羅馬尼亞語?英語數(shù)據(jù)集上使最好BLEU 分?jǐn)?shù)提高了近兩個(gè)百分點(diǎn)[102].相信未來會有更多這方面的嘗試.
由于很多文獻(xiàn)在不同領(lǐng)域、不同規(guī)模和不同語種的測試集上進(jìn)行實(shí)驗(yàn),我們認(rèn)為難以比較以上不同類別方法之間的效果差異.但我們分析了過去三年(2017~2019 年)WMT 比賽的新聞?lì)I(lǐng)域翻譯評測任務(wù)使用的方法,希望從實(shí)際比賽和工程實(shí)踐中觀察各類翻譯方法的使用情況.
根據(jù)歷年的評測總結(jié)報(bào)告,在2017 年的評測參賽隊(duì)伍中,約有一半左右(12~15 個(gè))使用了回譯技術(shù),而遷移學(xué)習(xí)和無監(jiān)督方法等在當(dāng)時(shí)還未出現(xiàn)或者尚不流行,幾乎沒有被用于參賽.在2018 年的比賽中,隨著Transformer 的出現(xiàn)和流行,35 個(gè)左右的參賽隊(duì)伍中的絕大多數(shù)(約30 個(gè))都使用了Transformer 架構(gòu),而其中都使用了回譯作為基本的技術(shù)手段,另外還有三四個(gè)隊(duì)伍分別使用了無監(jiān)督方法和多語言結(jié)合的方法.2019 年的比賽任務(wù)吸引了包括多家國內(nèi)單位在內(nèi)的更多參賽隊(duì)伍(近50 個(gè))參加,有效提交系統(tǒng)數(shù)量超過150 個(gè),同時(shí)新增了無監(jiān)督翻譯任務(wù),比賽中使用的方法也更加多元化.表3 總結(jié)了本文介紹的幾類方法在參賽系統(tǒng)中出現(xiàn)的大概頻次.
表3 幾類方法在WMT2019 中的使用情況Table 3 The methods in WMT2019
除了以上方法,微軟亞洲研究院、百度、小牛翻譯等多家單位還使用了領(lǐng)域適用性(Domain adaptation)和知識蒸餾等多種有效的綜合方法和技術(shù).
圖7 是WMT2019 提供的一些訓(xùn)練方法的統(tǒng)計(jì)和占比,從中也可以看出包括低資源翻譯在內(nèi)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯在國際比賽中的技術(shù)概況.
圖7 WMT2019 中涉及的主要方法和技術(shù)Fig.7 Main methods in WMT2019
圖8 簡要總結(jié)了這幾類翻譯方法各自的優(yōu)勢與局限性.
圖8 各類翻譯方法的優(yōu)勢與局限Fig.8 Advantages and limits of translation methods
通過梳理已有的研究方法,我們還總結(jié)了目前研究現(xiàn)狀呈現(xiàn)的主要特點(diǎn):
1)從目前工作的類型來看,已有研究主要分為兩種類型:一種主要的類型是采用某種或者某些方法改善低資源翻譯的質(zhì)量;另一種則是對某種方法(如回譯)進(jìn)行不同程度的定性和定量研究和分析,希望對這些方法有更深入的了解等.這類工作不一定涉及方法改進(jìn),往往只是對于某個(gè)方法的實(shí)證性探究.
2)從機(jī)器翻譯的類型來看,絕大多數(shù)研究集中于低資源文本翻譯,這也是機(jī)器翻譯最重要的應(yīng)用場景之一;還有一些工作圍繞語音翻譯開展研究,包括語音轉(zhuǎn)錄(Speech transcription)[103],語音到文本的翻譯等[104?106];甚至還有人研究低資源方言的機(jī)器翻譯等[107?108].
3)從機(jī)器翻譯涉及的領(lǐng)域來看,更多的研究通常更關(guān)注新聞、(Technology,Entertainment,Design)演講等常見的通用領(lǐng)域的低資源語言翻譯,一個(gè)主要原因在于這些領(lǐng)域的數(shù)據(jù)資源相對較多.文獻(xiàn)[109]針對醫(yī)療領(lǐng)域中的醫(yī)患交流口語翻譯率先做了嘗試.低資源翻譯從常用領(lǐng)域逐漸擴(kuò)展到更多的專門領(lǐng)域和場景很有必要,同時(shí)也更有挑戰(zhàn)性.
4)從研究涉及的語種分布來看,低資源語種的分布很不均衡.絕大部分的工作主要集中于歐洲語言場景,英語毫無疑問是最為廣泛的語言,無論是作為樞軸語言,還是與其他低資源語種之間的翻譯;另有很少一部分研究以亞洲等其他地區(qū)的語種為研究對象,如日語?越南語等[110].
值得一提的是,就我們目前掌握的研究文獻(xiàn),漢語與其他低資源語言之間的NMT 研究數(shù)量仍然非常少,僅有少量研究采用統(tǒng)計(jì)翻譯方法.以漢語?越南語神經(jīng)網(wǎng)絡(luò)翻譯為例,昆明理工大學(xué)的團(tuán)隊(duì)近年來做了比較集中的研究[111?115].
稀缺資源語言機(jī)器翻譯目前仍然具有很多挑戰(zhàn)和困難有待解決,例如以下幾個(gè)科學(xué)問題:
預(yù)訓(xùn)練模型與翻譯模型的結(jié)合問題;不同語言,特別是遠(yuǎn)距離語言之間的有效表示學(xué)習(xí)問題;以及領(lǐng)域適用性等問題.
我們認(rèn)為低資源語言機(jī)器翻譯在未來可能會呈現(xiàn)如下研究趨勢和發(fā)展方向:
1)加強(qiáng)預(yù)訓(xùn)練模型和遷移學(xué)習(xí)在低資源翻譯中的研究.預(yù)訓(xùn)練模型和遷移學(xué)習(xí)在NLP 和機(jī)器翻譯領(lǐng)域已被證明其有效性,并成為一種新的研究范式.一些研究工作已經(jīng)開始關(guān)注將BERT (Bidirectional encoder representations from transformers)[116]等預(yù)訓(xùn)練模型融入低資源語言的翻譯模型中[117?118],未來將有更多值得探索和研究的地方.例如:如何更好地將BERT/GPT (Generative pretrained transformer)[119]等流行的預(yù)訓(xùn)練模型融入到翻譯模型中,并將遷移學(xué)習(xí)的功效盡可能最大化等.目前基于大規(guī)模單語數(shù)據(jù)的無監(jiān)督預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí)和無監(jiān)督翻譯等研究正在增強(qiáng).
2)加強(qiáng)語言之間的相關(guān)性等方面的語言學(xué)分析研究.整體來看,低資源翻譯的研究多以改進(jìn)算法模型提高翻譯質(zhì)量為主,而缺乏必要的語言學(xué)分析.目前雖然有一些研究從語言學(xué)角度出發(fā),證明了語族接近的語言有助于改善低資源語言的翻譯效果等,但值得進(jìn)一步深入探索.如果能夠發(fā)現(xiàn)不同語言之間更多的深層次的語言學(xué)特征,實(shí)現(xiàn)語言特征和知識的遷移和傳遞,相信會進(jìn)一步促進(jìn)稀缺資源語言翻譯的發(fā)展,同時(shí)也可能使翻譯過程更具有解釋性.
3)加強(qiáng)更有效的語言表示學(xué)習(xí)研究.低資源語言對之間在詞語、句法和語義等層面往往存在較大差異,甚至具有不同的書寫系統(tǒng)以及屬于不同的語族.在訓(xùn)練翻譯模型時(shí),如何處理并減小語言之間在編碼表示中的差異,更好地平衡不同語言在向量空間中的表示始終是影響低資源翻譯的核心問題.例如:構(gòu)建語言無關(guān)的編碼器和具有語言意識的解碼器等都將是非常值得深入研究的話題.
4)加強(qiáng)漢語和低資源語言之間的機(jī)器翻譯研究.我國目前正在大力推行“一帶一路”倡議,構(gòu)建人類命運(yùn)共同體.語言互通是實(shí)現(xiàn)“一帶一路”建設(shè)的重要保障,而機(jī)器翻譯又是實(shí)現(xiàn)語言互通的加速器和催化劑.在未來應(yīng)該進(jìn)一步加強(qiáng)漢語與低資源語言,特別是“一帶一路”沿線國家和地區(qū)語言之間的機(jī)器翻譯研究,包括構(gòu)建多樣化的語言數(shù)據(jù)資源,利用不同方法全面提升翻譯質(zhì)量等.只有這樣,才能更好地服務(wù)于國家的重大戰(zhàn)略需求.
5)加強(qiáng)口語和方言等低資源語言的語音翻譯研究.正如上文所述,目前大部分的低資源翻譯主要關(guān)注文本翻譯.語音翻譯,包括自動語音識別,語音?文本轉(zhuǎn)換以及語音?語音翻譯等都具有很多應(yīng)用場景,也存在很多機(jī)遇和挑戰(zhàn).未來關(guān)于低資源語言在語音上的翻譯也將是一個(gè)很有趣和有價(jià)值的研究方向.