国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文化風格區(qū)分的無監(jiān)督領(lǐng)域適應(yīng)的電商產(chǎn)品翻譯

2021-10-29 14:21史小靜寧秋怡段湘煜
關(guān)鍵詞:區(qū)分語料平行

史小靜,寧秋怡,段湘煜

(蘇州大學計算機科學與技術(shù)學院,江蘇 蘇州 215006)

經(jīng)濟全球化促進了世界多邊貿(mào)易體制的形成,跨境貿(mào)易顯得日趨重要,出口產(chǎn)品信息翻譯需求也日益突顯,僅依靠人工來實現(xiàn)翻譯花費較大且不易實現(xiàn).機器翻譯(machine translation, MT)的發(fā)展使得這一問題得到了緩解.近年來神經(jīng)機器翻譯[1-3](neural machine translation,NMT)的提出極大地改善了MT模型的性能,并且在某些領(lǐng)域已經(jīng)達到了較高的水準[4-7],但是MT系統(tǒng)的性能很大程度上依賴于平行語料的規(guī)模和質(zhì)量,然而在跨語言的信息處理任務(wù)中,平行語料是非常稀有的,因此基于領(lǐng)域適應(yīng)的MT引起了廣泛的關(guān)注,其中大部分工作集中在少量內(nèi)領(lǐng)域平行數(shù)據(jù)可用的情況[8-9].

現(xiàn)有的無監(jiān)督領(lǐng)域適應(yīng)的NMT主要通過生成內(nèi)領(lǐng)域偽平行數(shù)據(jù)或?qū)δP徒Y(jié)構(gòu)進行修改.Freitag等[10]提出使用外領(lǐng)域的平行語料預(yù)訓練一個翻譯系統(tǒng),基于外領(lǐng)域翻譯模型,利用內(nèi)領(lǐng)域的數(shù)據(jù)繼續(xù)進行調(diào)參訓練,以達到領(lǐng)域適應(yīng)的目的,同時保證了外領(lǐng)域系統(tǒng)的性能僅有稍微的減弱.Sennrich等[11]提出將內(nèi)領(lǐng)域目標語言文本通過反向翻譯的方法翻譯為源端語言數(shù)據(jù),再將翻譯得到的源端數(shù)據(jù)和真實的目標端數(shù)據(jù)構(gòu)建內(nèi)領(lǐng)域的偽平行數(shù)據(jù).Currey等[12]提出將內(nèi)領(lǐng)域的目標語言文本復制到源語言端來創(chuàng)建內(nèi)領(lǐng)域的偽平行語料數(shù)據(jù).Zeng等[13]提出分別使用外領(lǐng)域和內(nèi)領(lǐng)域的數(shù)據(jù)進行預(yù)訓練,然后基于知識蒸餾迭代地執(zhí)行雙向知識轉(zhuǎn)移幫助模型的訓練.Chu等[14]提出把多語言翻譯和領(lǐng)域自適應(yīng)結(jié)合起來,改善資源缺乏的內(nèi)領(lǐng)域的翻譯模型的性能.Dou等[15]提出將領(lǐng)域特征嵌入到神經(jīng)網(wǎng)絡(luò)中編碼端的無監(jiān)督領(lǐng)域適應(yīng)方法,并通過多任務(wù)學習來聯(lián)合訓練整個神經(jīng)網(wǎng)絡(luò).Yang等[16]提出通過引入兩個分類器,其中一個用于判斷模型生成的句子是否屬于目標端領(lǐng)域,另一個用于判斷譯文句子是否屬于源端句子領(lǐng)域,這兩個分類器構(gòu)成了一個對抗訓練的網(wǎng)絡(luò).Su等[17]提出采用多任務(wù)學習的方式,將翻譯任務(wù)和領(lǐng)域分類任務(wù)進行聯(lián)合建模:通過在編碼端引入領(lǐng)域分類器和對抗領(lǐng)域分類器對輸入句子進行領(lǐng)域分類,從而分離出領(lǐng)域?qū)S行畔⒑皖I(lǐng)域共享信息;解碼端使用基于注意力機制的領(lǐng)域分類器,從而使分類器導出的注意力權(quán)重具有領(lǐng)域特征,可用來調(diào)整訓練過程中反饋的誤差.Zeng[18]提出將NMT模型和單語領(lǐng)域分類任務(wù)聯(lián)合,使用兩個門控向量構(gòu)建領(lǐng)域區(qū)分和領(lǐng)域共享的注釋,利用目標端領(lǐng)域分類器得到的注意力信息調(diào)整目標詞的權(quán)重,使得領(lǐng)域相關(guān)的詞獲得更大的權(quán)重.Shoetsu等[19]提出詞表自適應(yīng)方法,在微調(diào)之前將詞嵌入映射到內(nèi)領(lǐng)域的詞嵌入空間,緩解領(lǐng)域差異較大的預(yù)訓練導致的領(lǐng)域不匹配問題.Gordonm等[20]提出將知識蒸餾和領(lǐng)域適應(yīng)相結(jié)合,提升多語言對模型的效果.

NMT模型的性能很大程度上依賴于訓練數(shù)據(jù)的數(shù)量和質(zhì)量,然而據(jù)本文調(diào)研,目前電商領(lǐng)域還沒有公開可利用的平行語料,這是訓練電商領(lǐng)域產(chǎn)品翻譯系統(tǒng)的主要挑戰(zhàn)之一.此外,由于不同地區(qū)的文化風格和語言特點的差異,即使對于同一種產(chǎn)品也會有不同風格的描述信息,這是電商領(lǐng)域產(chǎn)品信息翻譯的另一難點.為了解決電商領(lǐng)域語料稀少這一問題,本文分別從不同的電商平臺獲取了不同語言的產(chǎn)品數(shù)據(jù)信息,主要包括中文和英文電商領(lǐng)域產(chǎn)品的數(shù)據(jù)信息,中文電商領(lǐng)域的語料數(shù)據(jù)取自淘寶官方網(wǎng)站,英文電商領(lǐng)域的數(shù)據(jù)語料取自亞馬遜官方網(wǎng)站.針對產(chǎn)品信息文化風格差異這一問題,本文提出了基于無監(jiān)督領(lǐng)域適應(yīng)的混合訓練方法和文化風格區(qū)分方法.利用資源豐富的新聞領(lǐng)域的平行語料訓練源語言到目標語言以及目標語言到源語言的兩個翻譯系統(tǒng),然后對電商領(lǐng)域的單語數(shù)據(jù)進行翻譯得到偽的平行數(shù)據(jù),使用偽平行數(shù)據(jù)進行混合訓練和文化風格區(qū)分的方法進行模型訓練.

1 混合訓練和文化風格區(qū)分的方法

本文提出的混合訓練和文化風格區(qū)分的無監(jiān)督領(lǐng)域適應(yīng)電商產(chǎn)品信息的翻譯方法,使得基于資源豐富的外領(lǐng)域的平行語料庫訓練的翻譯模型能夠適應(yīng)于沒有平行語料的電商領(lǐng)域單語數(shù)據(jù)的翻譯任務(wù),提升電商領(lǐng)域的MT譯文質(zhì)量.本文基于目前效果最好的Transformer進行混合訓練和文化風格區(qū)分實驗,將電商領(lǐng)域的單語數(shù)據(jù)視為內(nèi)領(lǐng)域的數(shù)據(jù),將新聞領(lǐng)域的數(shù)據(jù)視為外領(lǐng)域的數(shù)據(jù).

1.1 混合訓練方法

1.2 文化風格區(qū)分的電商產(chǎn)品翻譯方法

電商領(lǐng)域中,不同語言的不同電子商務(wù)平臺的產(chǎn)品信息描述表現(xiàn)出顯著的風格差異,例如給出的同一類產(chǎn)品,不同語言的電子商務(wù)平臺的相應(yīng)特性描述如下:

淘寶平臺:阿迪達斯adidas 男鞋 女鞋2021 春季 中底 運動鞋 減震 跑步鞋

亞馬遜平臺:These adidas running shoes are designed to turbo charge your daily miles.A soft, comfortable elastane heel allows for natural movement of the Achilles.

從上述樣例中可以看出:中文淘寶平臺的產(chǎn)品描述信息主要是以詞匯的無序堆疊方式呈現(xiàn),包含較少的語義信息;與之相比,亞馬遜平臺的英文產(chǎn)品描述信息更加流暢自然并且語義信息較為豐富.為了區(qū)分不同語言數(shù)據(jù)的不同文化風格,緩解電商產(chǎn)品翻譯過程中的文化風格差異問題,本文給不同語言的電商數(shù)據(jù)添加了對應(yīng)的文化風格區(qū)分標記(如圖1所示).在訓練過程中告訴模型當前數(shù)據(jù)的所屬類別,根據(jù)類別信息獲取相應(yīng)的文化風格區(qū)分特征向量.在編碼端,網(wǎng)絡(luò)的輸入信息添加源語言端的文化風格特征向量,而在解碼端添加目標端語言的風格特征向量θculture,使得模型在解碼過程中能夠?qū)W習到特定的目標語言的文化風格,在忠于源端數(shù)據(jù)的前提下使得到的譯文風格更趨于目標端的風格.文化風格特征向量在模型訓練過程中與其他參數(shù)共同訓練,通過與1.1節(jié)的混合訓練方法相結(jié)合,使得模型不僅能夠?qū)W習到同一產(chǎn)品的相關(guān)聯(lián)的描述信息,同時也能夠捕獲到同一產(chǎn)品的不同文化風格的描述信息,共同提升產(chǎn)品翻譯的譯文質(zhì)量.

圖1 文化風格區(qū)分的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The network structure of cultural-style aware

當編碼端的數(shù)據(jù)為淘寶平臺的數(shù)據(jù)時,則在編碼端添加淘寶數(shù)據(jù)的文化風格特征向量.相應(yīng)地,希望目標端的譯文在忠于原文的前提下具有亞馬遜文化風格的特征,則在解碼端添加亞馬遜數(shù)據(jù)的文化風格特征向量.具體如式(1)和(2)所示.

(1)

(2)

相應(yīng)地,混合訓練時當編碼端的數(shù)據(jù)為亞馬遜平臺的數(shù)據(jù)時,則在編碼端添加亞馬遜數(shù)據(jù)的文化風格特征向量.此時,希望目標端譯文在忠于原文數(shù)據(jù)的前提下具有淘寶文化風格的特征,則在解碼端添加淘寶數(shù)據(jù)的文化風格特征向量.特別地,文化風格區(qū)分的特征向量分別在編碼器端和解碼器端的每一層均添加,為了方便拼接,特征向量的維度和隱藏層的狀態(tài)向量維度保持一致.

2 對比訓練模型和策略

本文選擇標準的Transformer[7]模型結(jié)合混合訓練和文化風格區(qū)分的方法進行訓練,并將本文提出的方法與如下幾種訓練策略進行對比:

a) 反向翻譯 Sennrich等[11]提出利用外領(lǐng)域已有的平行語料,訓練一個目標端到源端的翻譯系統(tǒng),再通過訓練好的系統(tǒng)將目標端單語語料翻譯成源端對應(yīng)的語料,將得到的源端語料和真實的目標端語料構(gòu)成偽平行語料.將外領(lǐng)域的平行語料和合成的內(nèi)領(lǐng)域的偽平行語料連接實現(xiàn)對內(nèi)領(lǐng)域數(shù)據(jù)的擴充,使用擴充的語料訓練源端到目標端的NMT系統(tǒng).

b) 基于外領(lǐng)域模型微調(diào)的反向翻譯 Freitag等[10]提出使用外領(lǐng)域的平行語料預(yù)訓練一個Transformer翻譯系統(tǒng),基于外領(lǐng)域數(shù)據(jù)訓練得到的翻譯模型利用內(nèi)領(lǐng)域的數(shù)據(jù)繼續(xù)進行調(diào)參訓練,以達到領(lǐng)域適應(yīng)的目標,同時保證了外領(lǐng)域系統(tǒng)的翻譯性能僅有稍微的減弱.

c) 目標端復制 Currey等[12]提出將目標端內(nèi)領(lǐng)域的單語語料復制一份作為源端數(shù)據(jù),與其構(gòu)成偽平行數(shù)據(jù),將得到的偽平行數(shù)據(jù)與外領(lǐng)域的平行語料進行連接,共同訓練一個領(lǐng)域適應(yīng)的Transformer系統(tǒng),并且證明了通過復制目標端文本到源端得到的偽平行語料不會消減外領(lǐng)域數(shù)據(jù)訓練的模型性能.

d) 基于領(lǐng)域感知特征嵌入的無監(jiān)督領(lǐng)域適應(yīng)(domain aware feature embedding,DAFE) Dou等[15]通過將特定領(lǐng)域的特征嵌入添加到NMT編碼端的每一層網(wǎng)絡(luò)中,并且結(jié)合語言模型進行多任務(wù)學習來訓練特定的領(lǐng)域特征.這種在多任務(wù)學習網(wǎng)絡(luò)框架中的訓練模型,既有領(lǐng)域外的平行語料,也有通過反向翻譯生成的內(nèi)領(lǐng)域的偽平行語料.本文提出的文化風格區(qū)分的方法不僅在編碼端添加源語言端的文化風格區(qū)分標記,同時在解碼端添加目標端語言的文化風格區(qū)分標記.本文的文化風格區(qū)分標記的特征參數(shù)不是通過單獨的語言模型進行訓練,而是與網(wǎng)絡(luò)中其他參數(shù)一起訓練,降低了網(wǎng)絡(luò)訓練的復雜度,提升了模型在電商領(lǐng)域數(shù)據(jù)的翻譯性能.

3 實 驗

3.1 實驗數(shù)據(jù)集

從語言數(shù)據(jù)聯(lián)盟(LDC)中抽取新聞領(lǐng)域的中英平行語句對訓練中英和英中基準系統(tǒng),訓練數(shù)據(jù)包含125 萬平行語句對,該訓練數(shù)據(jù)集為外領(lǐng)域平行語料.測試集為美國國家標準與技術(shù)研究院2002年的數(shù)據(jù)NIST02、NIST03、NIST04、NIST05 和NIST08,共5個測試數(shù)據(jù)集.驗證集為NIST06.中文詞表大小為4萬,英文詞表大小為5萬,其余低頻詞用替換.

電商數(shù)據(jù)集中,因為淘寶和亞馬遜網(wǎng)站的電商產(chǎn)品資源非常豐富,并且獲取的數(shù)據(jù)比較具有權(quán)威性,所以中文電商領(lǐng)域的產(chǎn)品信息語料取自淘寶官方網(wǎng)站,英文電商領(lǐng)域的產(chǎn)品信息語料取自亞馬遜官方網(wǎng)站.中英文數(shù)據(jù)均主要包括女士服裝、男士服裝、玩具和食物四大類別,具體的數(shù)據(jù)統(tǒng)計信息如表1所示.

表1 電商領(lǐng)域的數(shù)據(jù)統(tǒng)計Tab.1 Data statistics of e-commerce

3.2 實驗參數(shù)

本文中所有實驗均基于開源代碼Fairseq[23],將模型設(shè)置為Transformer,模型的失活率設(shè)置為0.3,編碼器和解碼器層數(shù)均為6層,其他基本的超參數(shù)設(shè)置為Fairseq中的默認參數(shù)選項,最大保存模型數(shù)目設(shè)置為5.解碼時,采用集束搜索,其中束大小設(shè)置為5,其余參數(shù)采用默認設(shè)置.訓練和測試均在NVIDIA TITAN XP GPU硬件上實現(xiàn).

3.3 評測標準

雙語互譯評估[24](bilingual evaluation understudy,BLEU)是一種MT的自動評估指標,用來評估MT的譯文質(zhì)量,計算公式為:

(3)

其中:VBP表示過短懲罰系數(shù),當譯文的句子過短時,會給其一定的懲罰;pn為n元語法的精度,表示譯文句子的詞出現(xiàn)在參考答案中的概率;wn為每個pn的權(quán)重.

3.4 不同字節(jié)對編碼(BPE)實驗

由于電商數(shù)據(jù)多為基于名詞實體或短語的堆疊,比如:品牌名和產(chǎn)品的形狀等,固定的詞表大小產(chǎn)生的未登錄詞較多.在將數(shù)據(jù)用于相關(guān)實驗之前,本文中使用BPE[25]技術(shù)處理了所有數(shù)據(jù).并且分別設(shè)置了不同的BPE進行實驗,以探索合適的BPE.實驗結(jié)果如表2所示,當編碼方式為中英單獨編碼、BPE為64 000 時,翻譯性能最佳,故以下實驗均采用中英單獨編碼,BPE大小選為64 000.

表2 不同BPE的實驗結(jié)果對比Tab.2 Experimental results comparison of different BPE

3.5 混合訓練實驗

本文中分別嘗試不同比例的電商內(nèi)領(lǐng)域的偽數(shù)據(jù)和外領(lǐng)域的平行語料進行實驗,得到的實驗結(jié)果如表3所示.對比添加不同比例的外領(lǐng)域平行語料時Tranformer的翻譯性能可知,當電商數(shù)據(jù)與外領(lǐng)域平行語料的數(shù)據(jù)比例為1∶1時,翻譯效果最好,這與Sennrich等[11]得到的結(jié)論一致.

表3 不同比例數(shù)據(jù)的實驗結(jié)果Tab.3 Experimental results of different scale data

采用本文提出的混合訓練方法得到的實驗結(jié)果記錄在表3中最后兩行.與以1∶1的比例添加外領(lǐng)域平行數(shù)據(jù)的翻譯性能相比,本文提出的混合訓練方法僅用電商領(lǐng)域的單語數(shù)據(jù)及其解碼得到的偽數(shù)據(jù)在英中和中英翻譯中平均BLEU值分別提升2.64和1.54個百分點.雖然未使用質(zhì)量較高的外領(lǐng)域的平行語料,本文的混合訓練方法相比于其他已有的方法依舊得到了較大的提升.這與Edunov等[21]和Bogoychev等[22]的研究結(jié)果一致,本文提出的混合訓練方法結(jié)合了兩者的思想,通過混合訓練的方法使得模型能夠?qū)W習到亞馬遜和淘寶電商平臺產(chǎn)品數(shù)據(jù)的共同特點,特別是對于同類別產(chǎn)品的數(shù)據(jù)信息,使得模型能夠捕獲到不同平臺數(shù)據(jù)的相關(guān)信息,從而進一步提升了電商領(lǐng)域的產(chǎn)品信息的翻譯效果.

3.6 混合訓練+文化風格區(qū)分實驗

基于混合訓練方法添加文化風格特征嵌入的實驗結(jié)果和相關(guān)方法基準系統(tǒng)的實驗結(jié)果如表4所示.

表4中,基準系統(tǒng)為僅使用外領(lǐng)域平行語料訓練得到的Transformer模型.對比已有的主流方法反向翻譯、基于外領(lǐng)域模型微調(diào)的反向翻譯、目標端復制和DAFE方法的翻譯性能,可以看出以上實驗方法均能有效地提升電商領(lǐng)域產(chǎn)品信息翻譯的效果.其中,對于英中翻譯方向,目標端復制方法相對于基準系統(tǒng)的平均BLEU值提升最高,為3.63個百分點;對于中英翻譯方向,基于外領(lǐng)域模型微調(diào)的反向翻譯方法的性能提升最明顯,平均BLEU值提升6.90個百分點.本文提出的混合訓練方法在英中翻譯方向上BLEU平均得分為16.74%,高出基準系統(tǒng)3.99個百分點,中英翻譯方向上平均BLEU得分為16.79%,高出基準系統(tǒng)7.03個百分點,同時相較于已經(jīng)存在的相關(guān)主流方法均有進一步的提升.

表4 不同方法的實驗結(jié)果Tab.4 Experimental results of different methods

從表4中最后2行的結(jié)果來看,在混合訓練的基礎(chǔ)上增加文化風格特征區(qū)分后,在英中翻譯方向上的平均BLEU得分為17.07%,高出反向翻譯方法2.97個百分點,高出目標端復制單語數(shù)據(jù)的方法0.69個百分點,并且相較于混合訓練方法,模型效果有進一步地提升;在中英翻譯方向上,混合訓練+文化風格特征區(qū)分在四大類測試集數(shù)據(jù)上的平均BLEU得分為17.33%,高出反向翻譯方法1.58個百分點,高出目標端復制單語數(shù)據(jù)的方法0.78個百分點.實驗結(jié)果表明,文化風格特征嵌入和混合訓練的方法相結(jié)合使得模型不僅能夠?qū)W習到同一產(chǎn)品的相關(guān)描述,同時也能夠捕獲到同一產(chǎn)品的不同風格特征的描述,使得模型的翻譯效果得到進一步的提升.

4 結(jié) 論

針對電商產(chǎn)品翻譯系統(tǒng)的訓練存在兩個主要的問題:電商領(lǐng)域訓練數(shù)據(jù)稀缺和電商產(chǎn)品描述文化風格差異較大,本文將獲取的大量產(chǎn)品信息預(yù)處理后作為訓練語料,并且提出了基于無監(jiān)督領(lǐng)域適應(yīng)的混合訓練添加文化風格特征區(qū)分的方法.實驗結(jié)果表明,本文提出的方法提高了基于單語語料的電商產(chǎn)品翻譯的準確度.目前僅對于中文淘寶官方網(wǎng)站的電商產(chǎn)品和英文亞馬遜官方網(wǎng)站的電商產(chǎn)品數(shù)據(jù)信息進行了相關(guān)實驗,未來工作中,將獲取更多平臺和更多語種的電商領(lǐng)域產(chǎn)品數(shù)據(jù)信息進行相關(guān)研究,使得電商產(chǎn)品信息翻譯模型性能夠得到進一步的提升.

猜你喜歡
區(qū)分語料平行
向量的平行與垂直
平行
基于歸一化點向互信息的低資源平行語料過濾方法*
逃離平行世界
怎么區(qū)分天空中的“彩虹”
教你區(qū)分功和功率
怎祥區(qū)分天空中的“彩虹”(一)
再頂平行進口
罪數(shù)區(qū)分的實踐判定
《苗防備覽》中的湘西語料