神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯之語境式學(xué)習(xí)

2019-10-15 07:44楊寅冬

太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版) 2019年3期

楊寅冬，姚潔

(1.安徽郵電職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系，安徽合肥 230031；2.安徽郵電職業(yè)技術(shù)學(xué)院公共基礎(chǔ)部，安徽合肥 230031)

0 引言

盡管神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯在學(xué)術(shù)界和工業(yè)界迅速普及，并且在該領(lǐng)域最近取得一定的成功，但人們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯在很大程度上無法利用除當(dāng)前源語句之外的其他語境信息，這是因?yàn)榇笳Z境機(jī)器翻譯系統(tǒng)往往忽略附加語境信息，例如先前的語句、相關(guān)圖像.最近所開展的大量研究致力于構(gòu)建一種可以更好地利用附加語境信息的新網(wǎng)絡(luò)架構(gòu)，但是收效甚微.

在本文中，我們從“學(xué)習(xí)”的角度來解決大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯問題.通過向與語境正確配對的翻譯(而不是與語境錯(cuò)誤匹配的翻譯)賦予更大的對數(shù)概率，使模型更好地利用附加語境信息.

通過設(shè)計(jì)，我們將該正則項(xiàng)應(yīng)用于標(biāo)注、語句和批層次中，使用改良版轉(zhuǎn)換器，對文檔級翻譯進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明，與之前的實(shí)驗(yàn)結(jié)果不同，經(jīng)過本文提出的學(xué)習(xí)算法訓(xùn)練的模型確實(shí)對該語境敏感，并且在整體質(zhì)量方面略有改善(單位BLEU).這些結(jié)論表明，本文所述的學(xué)習(xí)方法在構(gòu)建一種有效的大語境神經(jīng)翻譯模型方面是一種具有發(fā)展前景的方法.

1 大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯背景

大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)是在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)的基礎(chǔ)上發(fā)展起來的，它將某語句翻譯成目標(biāo)語言的Y語句時(shí)，大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)除了考慮源語句X之外，還考慮了語境C[1].在多模式機(jī)器翻譯的情況中，附加語境信息是指源語句X所描述的圖像.在文檔級機(jī)器翻譯的情況中，附加語境信息C可以包括包含源語句X的文檔中的其他句子.這種大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)由編碼器器fC組成，編碼器fC將附加語境信息C編碼成一組向量表示，這些向量表示又與原始編碼器fX中從源語句X中提取的那些語句組合在一起.然后，解碼器g使用這些向量，來計(jì)算自回歸范例中靶序列Y的條件分布，即:

Pθ(yt|y

其中θ是神經(jīng)網(wǎng)絡(luò)翻譯模型中所有參數(shù)的集合.f(C)和g通常是指神經(jīng)網(wǎng)絡(luò)，例如視覺注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和自我注意神經(jīng)網(wǎng)絡(luò)[2-4].

在給定一組訓(xùn)練三元組D(tr)=x(tr)*y(tr)*c(tr)={(X1,Y1,C1),…，(XN,YN,CN)}情況下，通常過最大化對數(shù)似然，來完成訓(xùn)練.對數(shù)似然定義為

(1)

2 學(xué)習(xí)利用語境

在本文中，我們關(guān)注的是“學(xué)習(xí)”而不是網(wǎng)絡(luò)架構(gòu).我們的目標(biāo)是提出一種可以與任何潛在的大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)一起配套使用的學(xué)習(xí)算法，而不是提出一種可以擴(kuò)大翻譯范圍的新架構(gòu)[5].

2.1 中性、有用和有害的語境

為了實(shí)現(xiàn)這點(diǎn)，首先要注意，根據(jù)總概率定律，

pθ(yt|y

(2)

因此，在給定源X的條件下，在整個(gè)語境C中，附加語境信息總體上是“中性的”.

盡管這些“中性”“有用”和“有害”的語境是在標(biāo)注級別定義的，但我們可以通過定義以下計(jì)分函數(shù)，輕松地對它們進(jìn)行擴(kuò)展，直至覆蓋所有級別：

(data)sdata(yt|·)=∑Y∈Yssent(Y|·)

2.2 語境正則化

通過使用從三個(gè)不同級別進(jìn)行定義的分?jǐn)?shù)，我們正則化學(xué)習(xí)算法，以便神經(jīng)翻譯系統(tǒng)優(yōu)先以有用的方式使用語境.正則項(xiàng)適用于所有三個(gè)級別：標(biāo)注、語句和整個(gè)數(shù)據(jù)，并且基于相似度損失：

(3)

其中，αd,αs和αT是數(shù)據(jù) 、語句和標(biāo)志級別的正則化強(qiáng)度.δd、δs和δT是對應(yīng)的邊際值.

本文所述出的正則項(xiàng)明確表明了所有級別的附加語境的有用性.我們使用相似度損失，使模型產(chǎn)生輕微偏差，以便以有用的方式使用語境，但這不一定使模型必須完全依賴語境.這是因?yàn)榇蠖鄶?shù)必要信息已經(jīng)包含在源X里，附加語境C僅只需提供一些補(bǔ)充信息.

2.3 上下文無關(guān)的分?jǐn)?shù)估計(jì)

當(dāng)根據(jù)方程式(2)上下文丟失時(shí)，計(jì)算分?jǐn)?shù)并非易事，因?yàn)樗枰?1)訪問p(C|X);(2)邊緣化所有可能存在的C,而這個(gè)是比較難以處理的.在本文中，通過使用語句pdata(C)的數(shù)據(jù)分布，我們得出了求得p(C|X)近似值的最簡單方法.

假設(shè)語境C獨(dú)立于源X，即p(C|X)=p(C)，并且語境C遵循數(shù)據(jù)分布，則通過隨機(jī)統(tǒng)一選擇M訓(xùn)練語境，來得出近似估計(jì)值：

其中Cm是第m個(gè)樣本.

我們當(dāng)然可以更有效地估計(jì)p(C|X)的值.一種方法是使用Wang和Cho(2016)所述的大語境循環(huán)語言模型[6].另一種可能的方法是使用現(xiàn)有的檢索引擎來構(gòu)建非參數(shù)采樣器，我們會(huì)在后續(xù)文章中討論該點(diǎn).

圖1 基于大語境模型且按語句得分差異排序的測試集BLEU累積分

2.4 固有的評價(jià)指標(biāo)

“中性”“有用”和“有害”語境的條件也可作為構(gòu)建大語境神經(jīng)機(jī)器翻譯系統(tǒng)固有的評價(jià)指標(biāo)的基礎(chǔ).對于一個(gè)充分訓(xùn)練的大語境翻譯系統(tǒng)來說

ΔDθ=s(y|x,c;θ)-s(y|x,θ)>0

3 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置

實(shí)驗(yàn)數(shù)據(jù)使用Open- Subtitles2018 En→Ru并行數(shù)據(jù)，從2M的實(shí)例中選擇相同的數(shù)據(jù)子集，使用32k合并操作，在源語言和目標(biāo)之間建立BPE子字標(biāo)注詞匯表.

實(shí)驗(yàn)?zāi)Ｐ团c構(gòu)建基礎(chǔ)轉(zhuǎn)換器的大語境轉(zhuǎn)換所提出的系統(tǒng)類似，該系統(tǒng)將當(dāng)前和之前的語句作為輸入項(xiàng).每一個(gè)當(dāng)前和之前的語句由一個(gè)通用的6層轉(zhuǎn)換器編碼器獨(dú)立編碼[9].通過參考之前語句中標(biāo)注的最終表示并以非線性的方式組合當(dāng)前和之前語句的輸出項(xiàng)，來獲得當(dāng)前語句中每個(gè)標(biāo)注的最終表示.使用標(biāo)準(zhǔn)轉(zhuǎn)換器的同一個(gè)解碼器，并共享矩陣內(nèi)的所有字詞.

使用初始步長為10-4的Adam來訓(xùn)練每個(gè)模型.使用貪婪解碼[10-11]，每半個(gè)階段評估模型一次，并且當(dāng)開發(fā)時(shí)的BLEU得分在連續(xù)五次評估后均未得到改善時(shí)，將學(xué)習(xí)速率減半.基于初步實(shí)驗(yàn)期間測試集的BLEU分?jǐn)?shù)，令正則項(xiàng)(3)的系數(shù)和差值為aT=ad=1,as=0,δT=δs=0和δd=log(1.1).模型以5的光束尺寸進(jìn)行評估，根據(jù)長度調(diào)整分?jǐn)?shù).

表1 報(bào)告語境(經(jīng)邊緣化處理)正確配對和錯(cuò)誤配對的BLEU分?jǐn)?shù)

取三個(gè)隨機(jī)語境(經(jīng)過邊緣化處理)的BLEU分?jǐn)?shù)平均值.測試集的BLEU分?jǐn)?shù)用括號顯示.f通過定某個(gè)隨機(jī)語境，而不是忽略某個(gè)語境，使參數(shù)與大語境模型相匹配.

4 實(shí)驗(yàn)評估和結(jié)果分析

圖1對比了正確配對(LC)和錯(cuò)誤配對(LC+Rand)語句的翻譯質(zhì)量(單位BLEU).根據(jù)差值ssent(Y|X,C)-ssent(Y|X)對測試集中的語句進(jìn)行排序，并報(bào)告BLEU累積分[12].對于那些被大語境模型認(rèn)為可以結(jié)合其他語境進(jìn)行翻譯的語句，這種分?jǐn)?shù)差距更大.該分?jǐn)?shù)差距(使用參考翻譯)與實(shí)際翻譯質(zhì)量之間得到匹配，從而進(jìn)一步論證了本文所述方法的有效性.

5 結(jié)束語

通過使用多級成對排序損失，本文所議的新正則項(xiàng)可以推動(dòng)大語境機(jī)器翻譯模型將附加語境信息納入考慮范疇.經(jīng)驗(yàn)評估結(jié)果表明，使用本文所述的方法訓(xùn)練的大語境翻譯模型確實(shí)對附加語境信息變得更加敏感，并且優(yōu)于上下文無關(guān)的基準(zhǔn)模型.我們認(rèn)為該項(xiàng)研究是令人振奮的第一步，從而開發(fā)出適用于大語境模型的更好的語境式學(xué)習(xí)算法.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡