劉婉月,艾山·吾買爾,敖乃翔,郭銳
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊 830046;2. 新疆大學(xué)新疆多語種信息技術(shù)實驗室,烏魯木齊 830046;3. 中國電子科技集團公司電子科學(xué)研究院,北京 1000414. 新疆聯(lián)海創(chuàng)智信息科技有限公司,烏魯木齊 830010)
由于缺乏大規(guī)模并行語料使NMT模型無法達到所需的性能[1],導(dǎo)致低資源語言的機器翻譯任務(wù)困難重重。為了解決這個問題,出現(xiàn)了許多創(chuàng)新技術(shù)。迄今為止,最成功的方法是Sennrich等人的方法[2],通過反向翻譯將單語目標文本轉(zhuǎn)換為偽造并行數(shù)據(jù)。此后,該技術(shù)已在許多后續(xù)研究中被證明是有效的,但大多數(shù)研究僅使用BT的所有數(shù)據(jù)來提高NMT模型的質(zhì)量。在資源匱乏的環(huán)境中,低資源下很難訓(xùn)練高性能的反向翻譯模型,因此使用全部的BT數(shù)據(jù)效果并不好[3],合理適當(dāng)?shù)剡x擇BT數(shù)據(jù)子集更能有效提高模型的翻譯質(zhì)量。因此,確定最佳質(zhì)量的BT數(shù)據(jù)子集是一個值得探索的問題。
為了解決低資源問題,先前的研究學(xué)者們提出了很多不同的方法擴充平行語料。在不修改NMT翻譯模型的條件下,通過前向翻譯將大量的源端單語數(shù)據(jù)翻譯成目標語言,構(gòu)造大規(guī)模偽造語料庫[4-5]。使用目標端單語數(shù)據(jù)進行平行語料的擴充,置源端為空,單語數(shù)據(jù)放置在目標端聯(lián)合真實平行語料訓(xùn)練翻譯模型[6]。和前向翻譯完全相反,使用目標單語數(shù)據(jù)反向翻譯成源端數(shù)據(jù),構(gòu)造偽造平行語料庫[7]。將單語數(shù)據(jù)同時放置在源端和目標端聯(lián)合真實平行語料訓(xùn)練模型[7-8]。源端和目標端單語數(shù)據(jù)同時使用,聯(lián)合反向翻譯和正向翻譯擴充平行語料庫[9-11],使用單個翻譯模型聯(lián)合源端和目標端單語數(shù)據(jù)構(gòu)造偽造語料庫[12]。
單純的使用大量的外部單語數(shù)據(jù)可以擴充低資源語料庫,但是低資源平行語料訓(xùn)練的NMT翻譯模型翻譯效果不佳,導(dǎo)致偽造的平行語料質(zhì)量不高,為了解決這個問題,研究學(xué)者們又從兩個不同的方向提高偽造平行語料的質(zhì)量:修改翻譯模型內(nèi)部結(jié)構(gòu),提高翻譯模型的翻譯能力,使用不同的句子篩選方法,從大量的偽造語料中篩選高質(zhì)量語料。修改翻譯模型內(nèi)部結(jié)構(gòu),提出限制采樣,非限制采樣,重排序等方法使翻譯得到的句子質(zhì)量更高[11];置信度不斷評估反向翻譯模型的質(zhì)量,從而提高模型的翻譯質(zhì)量[13];翻譯模型禁用目標到源模型的標簽平滑以及限制性采樣[14]等方法,都能夠提高反向翻譯的句子的質(zhì)量。大量的偽造語料中篩選高質(zhì)量語料,將目標單語翻譯成偽造源語言,然后將偽造源語言翻譯成偽造目標語言,計算真實目標單語和偽造目標單語的相似度,按照真實句子和偽造句子的相似度進行偽造語料的篩選[15-16],但是這樣需要將大量單語數(shù)據(jù)翻譯兩次,時間成本比較高。最簡單且最通用的做法是用全部的源端單語訓(xùn)練語言模型,然后計算偽造句子的困惑度,將困惑度從小到大排序,將困惑度小的偽造語料篩選出來作為高質(zhì)量的偽造語料。
提出的方法不同于計算相似度篩選偽造語料,也不同于僅僅使用源端單語數(shù)據(jù)訓(xùn)練單一語言模型計算困惑度,按困惑度排序的方法。使用基于熵的方法,僅僅將句子翻譯一次,使用真實或偽造的雙語或單語數(shù)據(jù)訓(xùn)練單個或多個語言模型,按照不同的困惑度篩選方法,篩選高質(zhì)量的偽造語料,該方法不但降低了時間成本,而且方法簡單易于實現(xiàn)。
偽造語料作為附加數(shù)據(jù),彌補低資源語言對不足的情況。在文中,提出了8種利用語言模型過濾偽造平行語料庫的方法,按照不同的語言模型劃分為4大類M1,M2,M3,M4。不同的訓(xùn)練數(shù)據(jù)得到不同的語言模型,使用符號來表示這些訓(xùn)練數(shù)據(jù)和語言模型。雙語用b表示,單語用m表示,源端用s表示,目標端用t表示,偽造數(shù)據(jù)用p表示,真實數(shù)據(jù)用r表示,語言模型用LM表示。
M1是用源端真實語料訓(xùn)練語言模型,得到語言模型LM_rbs,對反向翻譯偽造的源端數(shù)據(jù)進行過濾采取四種不同的方式:
M1_a)使用LM_rbs對反向翻譯的每一個源端偽造句子計算困惑度,按照困惑度從小到大排序后,按百分比從全部偽造語料中選取困惑度小的偽造數(shù)據(jù)。
M1_b)使用LM_rbs對真實平行語料中的源端語料計算困惑度,困惑度從小到大排序,最小的20個困惑度求和取平均作為最小困惑度Minppl,最大的20個困惑度求和取平均作為最大困惑度Maxppl,使用LM_rbs計算源端偽造語料的困惑度,將困惑度在在Minppl和Maxppl之間的偽造語料篩選出來。
M1_c)使用LM_rbs對真實平行語料中的源端數(shù)據(jù)計算困惑度,所有困惑度求和取平均為平均困惑度Avgppl,使用LM_rbs計算源端偽造語料的困惑度,將困惑度小于等于Avgppl的偽造語料篩選出來。
M1_d)考慮到用語言模型計算困惑度時,長句子的困惑度會比短句子的困惑度高,但是短句子的質(zhì)量不一定比長句子質(zhì)量好,因此提出按照句子長度進行困惑度選取的方法,使用LM_rbs對反向翻譯的每一個源端偽造句子計算困惑度,相同的長度內(nèi)按照困惑度排序,從每個長度區(qū)間內(nèi)的選取困惑度小的偽造數(shù)據(jù)。
M2是用源端偽造數(shù)據(jù)訓(xùn)練語言模型。這種方法和前面提出的M1_a篩選語料的過程完全相同,不同之處是語言模型的訓(xùn)練數(shù)據(jù),源端偽造數(shù)據(jù)訓(xùn)練語言模型是使用反向翻譯得到的全部源端偽造數(shù)據(jù)訓(xùn)練語言模型LM_ps。使用LM_ps對反向翻譯的每一個源端偽造句子計算困惑度照困惑度從小到大排序,按百分比從全部偽造語料中選取困惑度小的偽造數(shù)據(jù)。
M3是用偽造雙語語料和真實雙語語料分別訓(xùn)練語言模型,聯(lián)合使用4個不同的語言模型計算源端句子的困惑度。利用真實雙語句分別訓(xùn)練語言模型LM_rbs和LM_rbt,從單語數(shù)據(jù)m中選擇長度分布與真實的雙語語料庫中的目標端句子長度比較接近的單語句子,訓(xùn)練LM_mt模型,將選擇的單語數(shù)據(jù)進行翻譯,用翻譯得到的源端數(shù)據(jù)訓(xùn)練語言模型LM_ps。對每個偽造的源端句子按公式(1)(2)計算,λ∈{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1},λ是插值化超參數(shù),在實驗過程中進行調(diào)整,確定最好的插值化超參數(shù),最后將ppl按照從小多大排序,按百分比從全部偽造語料中選取困惑度小的偽造數(shù)據(jù)。
pp1=δ(λ*|LMps-LMrbs|+(1-λ)*|LMmt-LMrbt)
(1)
(2)
M4是用源端偽造數(shù)據(jù)和源端真實數(shù)據(jù)分別訓(xùn)練語言模型,聯(lián)合使用兩個不同的語言模型計算源端偽造句子的困惑度,利用真實雙語句對中的源端數(shù)據(jù)訓(xùn)練語言模型LM_rbs,從偽造的全部源端數(shù)據(jù)中選擇和真實源端句子長度接近的句子訓(xùn)練語言模型LM_ps,采取兩種不同的方法使用兩個語言模型來篩選數(shù)據(jù)。
M4_a)使用兩個語言模型對偽造語料計算ppl并加權(quán)求和,按公式(3)計算,LM_pbs權(quán)值為α,LM_rbs的權(quán)值為β,α ∶β=3 ∶7;4 ∶6;5 ∶5;7 ∶3;6 ∶4,按百分比從全部偽造語料中選取困惑度小的偽造數(shù)據(jù)。
pp1=α*LMrbs+β*LMpbs
(3)
M4_b)使用兩個語言模型對偽造語料按公式(4)(2)計算ppl,λ∈{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9},λ是插值化超參數(shù),在實驗過程中進行調(diào)整,確定最好的插值化超參數(shù),按百分比從全部偽造語料中選取困惑度小的偽造數(shù)據(jù)。
pp1=δ(λ*LMrbs+(1-λ)*LMpbs)
(4)
使用OpenNMT Toolkit[17]訓(xùn)練所有的翻譯模型,所有實驗使用的參數(shù)如下:編碼器和解碼器的層數(shù)為6層,詞向量維度為768,隱藏層維度768,多頭注意力的頭數(shù)為8,全連接隱藏層狀態(tài)4096,句子的最大長度為150,優(yōu)化器方法是Adam,Label smoothing=0.1,學(xué)習(xí)率衰減方法為noam,最大訓(xùn)練批次為4096。
使用moses中的multi-bleu.perl計算bleu值。維漢翻譯模型中,維吾爾語使用bpe進行切分,合并24k次,漢語按字切分,反向翻譯模型中維語和漢語均使用bpe切分,合并24k次。古吉拉特語和英語分別合并10k次,實驗中的基線系統(tǒng)是用低資源平行語料和反向翻譯得到的偽造平行語料共同訓(xùn)練的翻譯模型。
用維語-漢語語言對進行深入的實驗,用古吉拉特語-英語對最好的篩選方法進行驗證。其中維-漢雙語平行語料來自2019 CWMT和新疆大學(xué)多語種實驗室小組自建的98萬句對維吾爾語-漢語數(shù)據(jù)集,2019 CCMT中的驗證集作為實驗的驗證數(shù)據(jù)集,漢語單語數(shù)據(jù)也來自2019CWMT。古吉拉特語-英語數(shù)據(jù)集來自WMT19,驗證集為newdev2019,測試集為newtest2019,單語英語來自WMT19的news crawl數(shù)據(jù)集,從中篩選100萬作為單語語料。如表1所示為實驗數(shù)據(jù)集的數(shù)據(jù)量。
表1 數(shù)據(jù)統(tǒng)計
17萬維漢句對的預(yù)處理包括編碼轉(zhuǎn)換、全角半角轉(zhuǎn)換、亂碼過濾、分詞、BPE切分。具體操作為利用新疆大學(xué)多語種實驗室研發(fā)的編碼轉(zhuǎn)換工具對維漢語料進行編碼轉(zhuǎn)換;利用開源的哈爾濱工業(yè)大學(xué)中文NLP工具LTP對中文語料進行分詞處理;用自主研發(fā)的維語分詞工具對維語語料分詞處理;用subword-nmt開源工具對維漢語料bpe切分處理。CWMT2019的700萬漢語進行初步篩選,首先將700萬漢語反向翻譯成維吾爾語,同時將維漢雙語中句子長度小于5大于140的句對刪除。計算17萬數(shù)據(jù)和700萬數(shù)據(jù)的單詞頻率,每行句子中單詞頻率之和除以句子長度作為相似度標準,將700萬數(shù)據(jù)中與17萬數(shù)據(jù)相似程度高的數(shù)據(jù)篩選出來,最后得到478萬數(shù)據(jù)。從478萬數(shù)據(jù)中隨機選擇200萬漢語作為單語數(shù)據(jù)。
古吉拉特語-英語數(shù)據(jù)集中古吉拉特語和[18]使用相同的預(yù)處理方式,使用Indic NLP Library工具切分,moses中的tokenizer.perl和truecase.perl對英語預(yù)處理。單語英語使用nltk切分句子最后得到的句子個數(shù)44001362,平行語料中英語的句長在2-81,英語單語數(shù)據(jù)從大量單語中隨機選擇在句長范圍內(nèi)的句子,選取100萬作為單語數(shù)據(jù)。
維漢翻譯實驗使用兩種不同的單語數(shù)據(jù),分別為新疆大學(xué)多語種實驗室小組自建的98萬句對中的漢語作為單語數(shù)據(jù)和從CWMT2019單語漢語中篩選出來的200萬漢語。使用kenlm訓(xùn)練3-Gram統(tǒng)計語言模型,分別對92萬和200萬翻譯的維語進行篩選。
3.3.1 篩選92萬數(shù)據(jù)
實驗中采用了8種不同的方法訓(xùn)練語言模型,計算反向翻譯的偽造語料的困惑度,如表2所示。
M1_a,M1_b,M1_c,M1_d使用相同的語言模型用不同的方法對偽造維語進行篩選,其中M1_a的結(jié)果最高,比baseline高了0.53個bleu值。M1_b和M1_d方法模型效果比baseline要低,說明這兩種方法并不能篩選出質(zhì)量高的偽造語料。M3方法提高了0.43個bleu值,剩余的幾種方法均有0.5個bleu以上的提高,在8種不同的方法中,M4_a方法訓(xùn)練的模型質(zhì)量最好為41.94,比baseline提高了0.93個bleu值,說明這種方法篩選的偽造語料質(zhì)量最好。除此以外,由于自建的98萬語料中漢語存在與之平行的維語數(shù)據(jù),98萬真實語料同17萬語料聯(lián)合訓(xùn)練模型的bleu值為42.03,和M4_a相比僅僅高了0.09個bleu值,由此可見,使用M4_a篩選的偽造語料質(zhì)量相對較高。
表2 維-漢模型實驗結(jié)果
使用語言模型計算偽造語料的困惑度,將偽造句子按困惑度從小到大排序,按照百分比從偽造語料中篩選出高質(zhì)量的偽造語料,如表3所示,M1_a的實驗結(jié)果顯示,當(dāng)偽造語料取值大于top30時,模型的質(zhì)量開始高于baseline,當(dāng)取92萬數(shù)據(jù)的top70時,模型的質(zhì)量最好,bleu值為41.64。除此之外,在表3中可以看到,top10-top70隨著偽造數(shù)據(jù)的增加,模型的質(zhì)量也隨之升高,但是top80之后模型質(zhì)量下降,因為過多的偽造數(shù)據(jù)會引入過多的噪聲,從而降低模型的翻譯質(zhì)量。
表3 M1_a實驗結(jié)果
續(xù)上表
3.3.2 篩選200萬數(shù)據(jù)
由于98萬數(shù)據(jù)是平行語料,實驗中有真實的語料作對比,最終確定使用兩種語言模型聯(lián)合計算句子的困惑度,能夠篩選出質(zhì)量較好的偽造語料。接下來,擴大單語數(shù)據(jù)的規(guī)模,使用200萬漢語作為反向翻譯的目標單語數(shù)據(jù),構(gòu)造偽造語料庫,使用M4_a的方法對偽造語料進行篩選,實驗結(jié)果如表4所示。權(quán)重比為3 ∶7時,取top50的偽造數(shù)據(jù)翻譯模型達到了最好的效果bleu為43.23,baseline高出了1.25個bleu值。
表4 200萬M4_a結(jié)果
3.3.3 古吉拉特語-英語驗證實驗
取100萬數(shù)據(jù)的top90會得到最好的模型,因此下面所有的實驗都是取的top90的數(shù)據(jù)。表5所示,M4_a方法進行的實驗,偽造古吉拉特語和真實古吉拉特語分別訓(xùn)練語言模型,聯(lián)合使用兩個不同的語言模型計算偽造古吉拉特語句子的困惑度,按公式(3)計算,LM_ps權(quán)值為α,LM_rbs的權(quán)值為β,α ∶β=1 ∶9;2 ∶8;3 ∶7;4 ∶6;5 ∶5;6 ∶4;7 ∶3;8 ∶2;9 ∶1,按top90從全部偽造語料中選取困惑度小的偽造數(shù)據(jù),實驗結(jié)果表明α ∶β=2 ∶8時比baseline結(jié)果高了1.06個bleu值,除此之外,隨著LM_ps權(quán)值的增大,模型的效果先提高后降低,選取的偽造數(shù)據(jù)質(zhì)量先越來越好隨后質(zhì)量越來越壞。
表5 古吉拉特語-英語驗證實驗結(jié)果
3.3.4 對比語言模型
本小節(jié)對比了4種不同的語言模型,包括統(tǒng)計語言模型kenlm、預(yù)訓(xùn)練語言模型bert、highway語言模型、rnnlm。在維漢語料上做實驗,四個實驗使用相同的數(shù)據(jù)訓(xùn)練語言模型,相同的方法篩選合成的維語句子,其中使用M4_a方法獲取訓(xùn)練數(shù)據(jù)、訓(xùn)練語言模型并進行語料篩選。實驗中使用200萬漢語作為單語數(shù)據(jù)。由于不存在已經(jīng)訓(xùn)練好的維語bert語言模型,所以維語的bert語言模型是重新訓(xùn)練的。
統(tǒng)計語言模型使用M4_a的方法篩選偽造語料的實驗,前期實驗中,當(dāng)取top50的數(shù)據(jù)時,模型的質(zhì)量最好,因此在對比實驗中,每種不同的比例均取top50的數(shù)據(jù)進行實驗,實驗結(jié)果如表6所示。統(tǒng)計語言模型中最好的結(jié)果為43.21,bert語言模型最好的結(jié)果42.82,highway語言模型最好的結(jié)果是42.81,rnnlm最好的結(jié)果是43.11。使用統(tǒng)計語言模型篩選的偽造語料訓(xùn)練的翻譯模型的bleu值相對更高,翻譯模型的質(zhì)量更好。Bert語言模型產(chǎn)生這種結(jié)果的原因可能是因為維語bert語言模型是從頭開始重新訓(xùn)練的,但是bert語言模型需要大規(guī)模的訓(xùn)練語料,維語bert訓(xùn)練數(shù)據(jù)較少,訓(xùn)練完成的語言模型計算句子困惑度準確度不高,造成篩選的偽造語料質(zhì)量較低,訓(xùn)練的翻譯模型質(zhì)量不好。Highway語言模型的網(wǎng)絡(luò)結(jié)構(gòu)相對簡單,訓(xùn)練的語言模型相對于其他三個語言模型質(zhì)量最不好。rnnlm選擇的數(shù)據(jù)質(zhì)量相對高一些,但是仍沒有統(tǒng)計語言模型篩選的數(shù)據(jù)質(zhì)量好。
這四種不同的語言模型中,從3個不同的方面進行對比。第一方面,語言模型的訓(xùn)練時間,bert語言模型和rnnlm語言模型訓(xùn)練的時間相對較長;highway語言模型的訓(xùn)練時間短,統(tǒng)計語言模型訓(xùn)練的時間最短,很快完成。第二方面:計算單語數(shù)據(jù)的困惑度時間,bert、rnnlm、highway都需要較長的時間,其中bert花費的時間最長,200萬句子需要花費幾天完成,而統(tǒng)計語言模型只需要幾分鐘就可以完成。第三方面:訓(xùn)練的語言模型的質(zhì)量方面,通過篩選偽造數(shù)據(jù)進行機器翻譯的bleu值來判斷語言模型的好壞。由于在低資源情況下,維語數(shù)據(jù)并不多,因此bert語言模型的質(zhì)量并不高;highway語言模型和bert語言模型質(zhì)量差不多;rnnlm的質(zhì)量比前兩個要好很多,但是就翻譯模型的質(zhì)量而言,統(tǒng)計語言模型篩選的數(shù)據(jù)質(zhì)量要更好一些,也就是統(tǒng)計語言模型的質(zhì)量要比rnnlm更高一些。
因此,四種不同的語言模型,從三個不同的角度進行比較,無論是模型的訓(xùn)練時間還是計算ppl的時間,或者是模型的質(zhì)量,統(tǒng)計語言模型都是最好的。
表6 對比實驗
實驗中一共使用了8種不同的方法進行數(shù)據(jù)篩選,實驗結(jié)果表明使用單一語言模型,無論是源端真實語料訓(xùn)練的語言模型還是源端合成語料訓(xùn)練的語言模型,他們篩選出的語料都能夠提高模型質(zhì)量,但是篩選的偽造數(shù)據(jù)質(zhì)量不是最好的;聯(lián)合使用這兩個語言模型,兩種語言模型計算的困惑度加權(quán)求和能夠篩選出最多的高質(zhì)量的偽造語料,在98萬維漢實驗數(shù)據(jù)上,模型取得了41.94的結(jié)果相比baseline提升了0.93個點,和98萬真實數(shù)據(jù)訓(xùn)練的模型相比僅僅低了0.09個點。在200萬維漢實驗數(shù)據(jù)上,模型取得了43.23的結(jié)果,相比于baseline高出了1.25個點。在古吉拉特語和英語數(shù)據(jù)集上提高了1.06個bleu。除此之外四種不同的語言模型進行對比,從模型訓(xùn)練時間,困惑度計算時間以及篩選句子的質(zhì)量三個方面綜合考慮,統(tǒng)計語言模型是最好的選擇。
本文提出了8種不同基于熵的機器翻譯偽并行語料庫選擇方法,不同的方法在相同的數(shù)據(jù)集上進行實驗,對比結(jié)果表明,使用源端真實和偽造語料分別訓(xùn)練語言模型,加權(quán)求和能夠篩選出質(zhì)量非常好的偽造語料。文中提出的這8種不同的方法都是對反向翻譯語料進行處理,并沒有對模型進行修改,下一步的工作就是修改反向翻譯模型,從模型結(jié)構(gòu)入手,提高反向翻譯模型的質(zhì)量,從根本上提高反向翻譯偽造數(shù)據(jù)的質(zhì)量。