楊寅冬,姚 潔
(1.安徽郵電職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)系,安徽 合肥 230031;2.安徽郵電職業(yè)技術(shù)學(xué)院公共基礎(chǔ)部,安徽 合肥 230031)
盡管神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯在學(xué)術(shù)界和工業(yè)界迅速普及,并且在該領(lǐng)域最近取得一定的成功,但人們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯在很大程度上無法利用除當(dāng)前源語句之外的其他語境信息,這是因?yàn)榇笳Z境機(jī)器翻譯系統(tǒng)往往忽略附加語境信息,例如先前的語句、相關(guān)圖像.最近所開展的大量研究致力于構(gòu)建一種可以更好地利用附加語境信息的新網(wǎng)絡(luò)架構(gòu),但是收效甚微.
在本文中,我們從“學(xué)習(xí)”的角度來解決大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯問題.通過向與語境正確配對的翻譯(而不是與語境錯(cuò)誤匹配的翻譯)賦予更大的對數(shù)概率,使模型更好地利用附加語境信息.
通過設(shè)計(jì),我們將該正則項(xiàng)應(yīng)用于標(biāo)注、語句和批層次中,使用改良版轉(zhuǎn)換器,對文檔級翻譯進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明,與之前的實(shí)驗(yàn)結(jié)果不同,經(jīng)過本文提出的學(xué)習(xí)算法訓(xùn)練的模型確實(shí)對該語境敏感,并且在整體質(zhì)量方面略有改善(單位BLEU).這些結(jié)論表明,本文所述的學(xué)習(xí)方法在構(gòu)建一種有效的大語境神經(jīng)翻譯模型方面是一種具有發(fā)展前景的方法.
大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)是在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)的基礎(chǔ)上發(fā)展起來的,它將某語句翻譯成目標(biāo)語言的Y語句時(shí),大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)除了考慮源語句X之外,還考慮了語境C[1].在多模式機(jī)器翻譯的情況中,附加語境信息是指源語句X所描述的圖像.在文檔級機(jī)器翻譯的情況中,附加語境信息C可以包括包含源語句X的文檔中的其他句子.這種大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)由編碼器器fC組成,編碼器fC將附加語境信息C編碼成一組向量表示,這些向量表示又與原始編碼器fX中從源語句X中提取的那些語句組合在一起.然后,解碼器g使用這些向量,來計(jì)算自回歸范例中靶序列Y的條件分布,即:
Pθ(yt|y 其中θ是神經(jīng)網(wǎng)絡(luò)翻譯模型中所有參數(shù)的集合.f(C)和g通常是指神經(jīng)網(wǎng)絡(luò),例如視覺注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和自我注意神經(jīng)網(wǎng)絡(luò)[2-4]. 在給定一組訓(xùn)練三元組D(tr)=x(tr)*y(tr)*c(tr)={(X1,Y1,C1),…,(XN,YN,CN)}情況下,通常過最大化對數(shù)似然,來完成訓(xùn)練.對數(shù)似然定義為 (1) 在本文中,我們關(guān)注的是“學(xué)習(xí)”而不是網(wǎng)絡(luò)架構(gòu).我們的目標(biāo)是提出一種可以與任何潛在的大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)一起配套使用的學(xué)習(xí)算法,而不是提出一種可以擴(kuò)大翻譯范圍的新架構(gòu)[5]. 為了實(shí)現(xiàn)這點(diǎn),首先要注意,根據(jù)總概率定律, pθ(yt|y (2) 因此,在給定源X的條件下,在整個(gè)語境C中,附加語境信息總體上是“中性的”. 盡管這些“中性”“有用”和“有害”的語境是在標(biāo)注級別定義的,但我們可以通過定義以下計(jì)分函數(shù),輕松地對它們進(jìn)行擴(kuò)展,直至覆蓋所有級別: (data)sdata(yt|·)=∑Y∈Yssent(Y|·) . 通過使用從三個(gè)不同級別進(jìn)行定義的分?jǐn)?shù),我們正則化學(xué)習(xí)算法,以便神經(jīng)翻譯系統(tǒng)優(yōu)先以有用的方式使用語境.正則項(xiàng)適用于所有三個(gè)級別:標(biāo)注、語句和整個(gè)數(shù)據(jù),并且基于相似度損失: (3) 其中,αd,αs和αT是數(shù)據(jù) 、語句和標(biāo)志級別的正則化強(qiáng)度.δd、δs和δT是對應(yīng)的邊際值. 本文所述出的正則項(xiàng)明確表明了所有級別的附加語境的有用性.我們使用相似度損失,使模型產(chǎn)生輕微偏差,以便以有用的方式使用語境,但這不一定使模型必須完全依賴語境.這是因?yàn)榇蠖鄶?shù)必要信息已經(jīng)包含在源X里,附加語境C僅只需提供一些補(bǔ)充信息. 當(dāng)根據(jù)方程式(2)上下文丟失時(shí),計(jì)算分?jǐn)?shù)并非易事,因?yàn)樗枰?1)訪問p(C|X);(2)邊緣化所有可能存在的C,而這個(gè)是比較難以處理的.在本文中,通過使用語句pdata(C)的數(shù)據(jù)分布,我們得出了求得p(C|X)近似值的最簡單方法. 假設(shè)語境C獨(dú)立于源X,即p(C|X)=p(C),并且語境C遵循數(shù)據(jù)分布,則通過隨機(jī)統(tǒng)一選擇M訓(xùn)練語境,來得出近似估計(jì)值: 其中Cm是第m個(gè)樣本. 我們當(dāng)然可以更有效地估計(jì)p(C|X)的值.一種方法是使用Wang和Cho(2016)所述的大語境循環(huán)語言模型[6].另一種可能的方法是使用現(xiàn)有的檢索引擎來構(gòu)建非參數(shù)采樣器,我們會(huì)在后續(xù)文章中討論該點(diǎn). 圖1 基于大語境模型且按語句得分差異排序的測試集BLEU累積分 “中性”“有用”和“有害”語境的條件也可作為構(gòu)建大語境神經(jīng)機(jī)器翻譯系統(tǒng)固有的評價(jià)指標(biāo)的基礎(chǔ).對于一個(gè)充分訓(xùn)練的大語境翻譯系統(tǒng)來說 ΔDθ=s(y|x,c;θ)-s(y|x,θ)>0 實(shí)驗(yàn)數(shù)據(jù)使用Open- Subtitles2018 En→Ru并行數(shù)據(jù), 從2M的實(shí)例中選擇相同的數(shù)據(jù)子集,使用32k合并操作,在源語言和目標(biāo)之間建立BPE子字標(biāo)注詞匯表. 實(shí)驗(yàn)?zāi)P团c構(gòu)建基礎(chǔ)轉(zhuǎn)換器的大語境轉(zhuǎn)換所提出的系統(tǒng)類似,該系統(tǒng)將當(dāng)前和之前的語句作為輸入項(xiàng).每一個(gè)當(dāng)前和之前的語句由一個(gè)通用的6層轉(zhuǎn)換器編碼器獨(dú)立編碼[9].通過參考之前語句中標(biāo)注的最終表示并以非線性的方式組合當(dāng)前和之前語句的輸出項(xiàng),來獲得當(dāng)前語句中每個(gè)標(biāo)注的最終表示.使用標(biāo)準(zhǔn)轉(zhuǎn)換器的同一個(gè)解碼器,并共享矩陣內(nèi)的所有字詞. 使用初始步長為10-4的Adam來訓(xùn)練每個(gè)模型.使用貪婪解碼[10-11],每半個(gè)階段評估模型一次,并且當(dāng)開發(fā)時(shí)的BLEU得分在連續(xù)五次評估后均未得到改善時(shí),將學(xué)習(xí)速率減半.基于初步實(shí)驗(yàn)期間測試集的BLEU分?jǐn)?shù),令正則項(xiàng)(3)的系數(shù)和差值為aT=ad=1,as=0,δT=δs=0和δd=log(1.1).模型以5的光束尺寸進(jìn)行評估,根據(jù)長度調(diào)整分?jǐn)?shù). 表1 報(bào)告語境(經(jīng)邊緣化處理)正確配對和錯(cuò)誤配對的BLEU分?jǐn)?shù) 取三個(gè)隨機(jī)語境(經(jīng)過邊緣化處理)的BLEU分?jǐn)?shù)平均值.測試集的BLEU分?jǐn)?shù)用括號顯示.f通過定某個(gè)隨機(jī)語境,而不是忽略某個(gè)語境,使參數(shù)與大語境模型相匹配. 圖1對比了正確配對(LC)和錯(cuò)誤配對(LC+Rand)語句的翻譯質(zhì)量(單位BLEU).根據(jù)差值ssent(Y|X,C)-ssent(Y|X)對測試集中的語句進(jìn)行排序,并報(bào)告BLEU累積分[12].對于那些被大語境模型認(rèn)為可以結(jié)合其他語境進(jìn)行翻譯的語句,這種分?jǐn)?shù)差距更大.該分?jǐn)?shù)差距(使用參考翻譯)與實(shí)際翻譯質(zhì)量之間得到匹配,從而進(jìn)一步論證了本文所述方法的有效性. 通過使用多級成對排序損失,本文所議的新正則項(xiàng)可以推動(dòng)大語境機(jī)器翻譯模型將附加語境信息納入考慮范疇.經(jīng)驗(yàn)評估結(jié)果表明,使用本文所述的方法訓(xùn)練的大語境翻譯模型確實(shí)對附加語境信息變得更加敏感,并且優(yōu)于上下文無關(guān)的基準(zhǔn)模型.我們認(rèn)為該項(xiàng)研究是令人振奮的第一步,從而開發(fā)出適用于大語境模型的更好的語境式學(xué)習(xí)算法.2 學(xué)習(xí)利用語境
2.1 中性、有用和有害的語境
2.2 語境正則化
2.3 上下文無關(guān)的分?jǐn)?shù)估計(jì)
2.4 固有的評價(jià)指標(biāo)
3 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置
4 實(shí)驗(yàn)評估和結(jié)果分析
5 結(jié)束語
——編碼器