国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合新冠領(lǐng)域知識(shí)的漢越神經(jīng)機(jī)器翻譯方法

2023-08-31 08:40:48谷雪鵬張樂(lè)樂(lè)郭軍軍余正濤
關(guān)鍵詞:源語(yǔ)言解碼器解碼

谷雪鵬, 張樂(lè)樂(lè), 郭軍軍,2*, 余正濤,2

1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院, 云南 昆明 650504;2.云南省人工智能重點(diǎn)實(shí)驗(yàn)室, 云南 昆明 650504

神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT)是近年來(lái)流行的自然語(yǔ)言處理任務(wù)之一,旨在將給定的源語(yǔ)言翻譯為相同語(yǔ)義的目標(biāo)語(yǔ)言,減少各國(guó)人們之間的交流困難問(wèn)題。漢語(yǔ)-越南語(yǔ)作為我國(guó)“一帶一路”倡議下與東南亞國(guó)家交流的代表語(yǔ)種,特定領(lǐng)域語(yǔ)料的大小和可用的領(lǐng)域數(shù)量有限[1],提升漢越特定領(lǐng)域神經(jīng)機(jī)器翻譯的性能從而提升整體漢越機(jī)器翻譯的性能有著廣泛的市場(chǎng)應(yīng)用空間和學(xué)術(shù)研究?jī)r(jià)值。目前基于編碼器-解碼器的框架[2]在翻譯質(zhì)量上取得了突破性的進(jìn)展,注意力機(jī)制[3]的提出顯著改善了端到端系統(tǒng)的翻譯性能。Vaswani等[4]提出Transformer模型來(lái)學(xué)習(xí)輸入輸出的表示,在通用領(lǐng)域取得了顯著的成功,高度并行化的結(jié)構(gòu)也顯著減少了模型訓(xùn)練所需時(shí)間,成為了目前NMT的主流架構(gòu)。在Transformer的基礎(chǔ)上,大量的工作將先驗(yàn)知識(shí)應(yīng)用于機(jī)器翻譯模型,進(jìn)一步提升了翻譯性能。Hokamp等[5]提出擴(kuò)展約束搜索算法,在解碼時(shí)利用詞法約束施加預(yù)先指定的翻譯,確保指定的短語(yǔ)出現(xiàn)在生成的譯文中。Wang W X等[6]提出在句子層面上將主題信息嵌入到NMT模型中以提高翻譯性能的異構(gòu)方法,加入前-編碼器主題嵌入、后-編碼器主題嵌入和解碼器主題嵌入,使NMT模型獲得更廣泛的上下文信息,達(dá)到消除語(yǔ)義歧義,增強(qiáng)翻譯效果的目的。Nguyen等[7]提出了分層累積的方法對(duì)分層結(jié)構(gòu)進(jìn)行建模,通過(guò)自底向上的方法對(duì)成分句法樹(shù)結(jié)構(gòu)編碼,通過(guò)句法信息改進(jìn)翻譯結(jié)果。Shavarani等[8]通過(guò)構(gòu)建一個(gè)語(yǔ)法信息提取器,將預(yù)訓(xùn)練模型中的語(yǔ)言學(xué)信息融入到機(jī)器翻譯模型中,利用語(yǔ)言學(xué)知識(shí)提升翻譯性能。

以往的工作在通用領(lǐng)域取得了顯著的成功,然而在垂直領(lǐng)域場(chǎng)景中仍然存在痛點(diǎn)。垂直領(lǐng)域相較于通用領(lǐng)域而言,擁有很多特定領(lǐng)域中的領(lǐng)域詞,翻譯效果不佳[9]。在翻譯過(guò)程中傳遞準(zhǔn)確的領(lǐng)域詞被看作是高質(zhì)量翻譯的重要組成部分?,F(xiàn)有的機(jī)器翻譯模型不能完全挖掘領(lǐng)域數(shù)據(jù)中的領(lǐng)域詞信息。領(lǐng)域詞典作為一種外部知識(shí),如何與現(xiàn)有的機(jī)器翻譯模型相結(jié)合,在翻譯過(guò)程中利用領(lǐng)域知識(shí)改善特定領(lǐng)域的翻譯效果仍然是一個(gè)極具挑戰(zhàn)性的問(wèn)題。

基于此,本文提出了一種有效的NMT方法,通過(guò)識(shí)別源語(yǔ)言句中的領(lǐng)域詞,將領(lǐng)域詞知識(shí)融入到Transformer框架中,提升特定領(lǐng)域下的神經(jīng)機(jī)器翻譯效果。

1 相關(guān)工作與技術(shù)

1.1 相關(guān)工作

將領(lǐng)域知識(shí)整合到神經(jīng)機(jī)器翻譯中,有助于提升領(lǐng)域詞的翻譯質(zhì)量,進(jìn)而優(yōu)化特定領(lǐng)域的翻譯效果。近年來(lái),大量的研究證明了將先驗(yàn)知識(shí)應(yīng)用于機(jī)器翻譯模型有助于提升翻譯性能,可以分為基于短語(yǔ)的方法和基于結(jié)構(gòu)知識(shí)的方法。

基于短語(yǔ)信息增強(qiáng)的機(jī)器翻譯方法旨在利用額外的短語(yǔ)信息優(yōu)化或指導(dǎo)翻譯結(jié)果的生成,越來(lái)越多的研究工作關(guān)注于將短語(yǔ)融合到神經(jīng)機(jī)器翻譯模型中。Gulcehre等[10]提出在解碼端使用兩層softmax,一層用來(lái)預(yù)測(cè)源語(yǔ)言中單詞的位置,另一層預(yù)測(cè)單詞在詞匯表中的位置。在生成目標(biāo)端翻譯時(shí),模型自適應(yīng)地選擇復(fù)制源語(yǔ)言中的單詞或者翻譯生成目標(biāo)詞匯表中的單詞。Luong等[11]使用占位符標(biāo)記替換源語(yǔ)言和目標(biāo)語(yǔ)言?xún)蓚?cè)對(duì)應(yīng)的稀有詞,模型通過(guò)翻譯占位符標(biāo)簽學(xué)習(xí)翻譯受約束的單詞。Dinu等[12]將目標(biāo)端術(shù)語(yǔ)和替換對(duì)應(yīng)位置的源詞直接附加在原詞后邊合成平行句訓(xùn)練NMT模型,實(shí)現(xiàn)預(yù)先指定單詞的翻譯。Song K等[13]提出了一種利用雙語(yǔ)詞典的數(shù)據(jù)方法,通過(guò)替換源語(yǔ)言和目標(biāo)語(yǔ)言對(duì)應(yīng)的短語(yǔ)生成合成語(yǔ)料庫(kù),合并生成的數(shù)據(jù)和原始平行數(shù)據(jù)混合訓(xùn)練模型,在不改變模型結(jié)構(gòu)的情況下提升了約束詞的翻譯。Hasler等[14]在解碼時(shí)利用詞匯約束解碼器,強(qiáng)制網(wǎng)絡(luò)生成特定的單詞或短語(yǔ)。Wang Xing等[15]提出將短語(yǔ)記憶集成到編碼器-解碼器結(jié)構(gòu)中,在解碼時(shí)通過(guò)概率計(jì)算決定選擇內(nèi)存中的短語(yǔ)或從目標(biāo)詞匯表中正常生成翻譯。

基于結(jié)構(gòu)知識(shí)的方法通過(guò)利用句子中包含的語(yǔ)言學(xué)特征改善翻譯結(jié)果,Sennrich等[16]證明了神經(jīng)機(jī)器翻譯模型可以很容易地學(xué)習(xí)語(yǔ)言學(xué)特征,而不會(huì)造成信息冗余。通過(guò)將形態(tài)特征、詞性標(biāo)記和句法依賴(lài)標(biāo)記作為額外的輸入特征,在注意式編碼器-解碼器體系結(jié)構(gòu)中推廣了編碼器的嵌入層,在多個(gè)指標(biāo)上提升了模型質(zhì)量。Ugawa等[17]在編碼器每一步對(duì)輸入詞進(jìn)行基于實(shí)體標(biāo)簽的編碼,可以減少輸入詞的歧義。Chen Huadong等[18]使用多層粒度編碼,利用字符級(jí)信息增加詞級(jí)表示,解碼端利用多重注意的解碼器使不同粒度級(jí)別的表示協(xié)同控制翻譯。Xiao Fengshun等[19]提出了基于格的編碼器,在訓(xùn)練過(guò)程中自動(dòng)探索有效的詞或子詞表示。通過(guò)點(diǎn)陣位置編碼和點(diǎn)陣感知的自我注意,協(xié)同改進(jìn)編碼方式,實(shí)驗(yàn)結(jié)果表明優(yōu)于傳統(tǒng)的Transformer編碼器。

1.2 相關(guān)技術(shù)

本文的模型基于Transformer框架實(shí)現(xiàn)。Vaswani等[4]提出僅依賴(lài)自注意力機(jī)制計(jì)算輸入和輸出表示的Transformer模型,在解決多種seq2seq任務(wù)中取得了優(yōu)異的成績(jī),成為目前神經(jīng)機(jī)器翻譯的主流框架。Transformer模型由L個(gè)相同的編碼器和解碼器組成,通過(guò)使用自注意力機(jī)制遞歸計(jì)算來(lái)處理源語(yǔ)言序列和目標(biāo)語(yǔ)言序列的依賴(lài)關(guān)系。與傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)不同,引入相對(duì)位置信息編碼保存單詞在句子中的位置關(guān)系。模型的編碼器端和解碼器端本質(zhì)上是多個(gè)相同結(jié)構(gòu)的編碼器和解碼器的堆疊。每個(gè)編碼器層包含兩個(gè)子層,第一個(gè)子層為注意力層(Attention,ATT),第二個(gè)子層為全連接前饋神經(jīng)網(wǎng)絡(luò)層(Feed Forward Network,FFN)。子層之間使用殘差連接,并執(zhí)行層歸一化(Layer Normalization,LN)。模型首先對(duì)輸入序列轉(zhuǎn)換為詞嵌入向量傳遞到第一個(gè)編碼器,生成的詞嵌入向量通過(guò)自注意力層和前饋網(wǎng)絡(luò)層傳遞到下一個(gè)編碼器,以此形成迭代網(wǎng)絡(luò)。自注意力層根據(jù)輸入的詞嵌入向量乘以訓(xùn)練過(guò)程中創(chuàng)建的3個(gè)參數(shù)矩陣得到3個(gè)向量,分別為查詢(xún)向量(Q)、鍵向量(K)和值向量(V)。通過(guò)這3個(gè)向量計(jì)算輸入序列中所有單詞對(duì)于當(dāng)前單詞的注意力權(quán)重。在形式上,每層編碼器的計(jì)算過(guò)程如下:

(1)

(2)

編碼器最后一層的輸出狀態(tài)向量傳遞到解碼器中作為上下文編碼向量輸入。編碼器和解碼器結(jié)構(gòu)差不多,但是多了一個(gè)編碼器-解碼器的注意力子層,用于計(jì)算與編碼器輸出Hl的對(duì)齊權(quán)重。每層解碼器的計(jì)算過(guò)程如下:

(3)

(4)

(5)

(6)

其中,Wo和Ww是參數(shù)矩陣,tanh為激活函數(shù)。為了得到翻譯模型,訓(xùn)練目標(biāo)是在翻譯過(guò)程中最大化訓(xùn)練數(shù)據(jù)集{X,Y}的條件概率,即

(7)

2 方法描述

利用領(lǐng)域知識(shí)增強(qiáng)NMT,旨在通過(guò)領(lǐng)域詞知識(shí)加強(qiáng)源語(yǔ)言的語(yǔ)義表征和在解碼階段共同指導(dǎo)目標(biāo)譯文的生成。本文設(shè)計(jì)了基于領(lǐng)域知識(shí)增強(qiáng)的機(jī)器翻譯模型,模型結(jié)構(gòu)如圖1所示,整體結(jié)構(gòu)由三部分組成:領(lǐng)域知識(shí)編碼器、源語(yǔ)言編碼器和解碼器。領(lǐng)域知識(shí)編碼器由多頭注意力模塊(Multi-head Attention)和前饋神經(jīng)網(wǎng)絡(luò)(FFN)兩個(gè)子層經(jīng)過(guò)殘差網(wǎng)絡(luò)(Residual Connection)和層歸一化(LN)連接。編碼源語(yǔ)言中的領(lǐng)域詞,源語(yǔ)言編碼器編碼輸入的源語(yǔ)言與傳統(tǒng)Transformer模型的編碼器不同,增加了一個(gè)多頭注意力模塊,通過(guò)交叉注意力機(jī)制更好地融合領(lǐng)域知識(shí)編碼器的知識(shí)。與源語(yǔ)言編碼器類(lèi)似,解碼器通過(guò)增加一個(gè)多頭注意力模塊,同時(shí)利用源語(yǔ)言的語(yǔ)義表示和領(lǐng)域詞的語(yǔ)義表示生成目標(biāo)句。每一個(gè)長(zhǎng)度為ls的源語(yǔ)言句子序列表示為Xi={x1,x2,…,xls},都由這些模塊處理之后生成目標(biāo)句。

圖1 融合特定領(lǐng)域知識(shí)的神經(jīng)機(jī)器翻譯模型

2.1 領(lǐng)域知識(shí)編碼器

為了利用包含領(lǐng)域知識(shí)的領(lǐng)域詞信息提升NMT翻譯性能,在Transformer基礎(chǔ)結(jié)構(gòu)之上,加入額外的一個(gè)編碼器來(lái)完成對(duì)領(lǐng)域詞的編碼,學(xué)習(xí)領(lǐng)域詞的語(yǔ)義向量表示。首先通過(guò)領(lǐng)域詞典匹配源句中的領(lǐng)域詞,領(lǐng)域詞序列表示為C={c1,c2,…,cn},n代表領(lǐng)域詞的個(gè)數(shù);然后經(jīng)過(guò)詞嵌入層(Domain Knowledge Embedding,DKE)轉(zhuǎn)換得到詞嵌入向量,與傳統(tǒng)的序列建模方式不同;Transformer詞嵌入層使用并行化的編碼方式,生成的向量表征缺乏體現(xiàn)單詞之間先后順序的位置信息,因此引入相對(duì)位置信息(Positional Embedding)作為詞嵌入層的額外補(bǔ)充,得到句子中所有單詞的詞嵌入表示E(C),即

E(C)=(wc1+pc1,wc2+pc2,…,wcn+pcn),

(8)

其中,wci表示第i個(gè)領(lǐng)域詞的詞向量,pci表示位置嵌入。E(C)被傳遞到第一層編碼器,依次執(zhí)行自注意力層(ATT)和前饋神經(jīng)網(wǎng)絡(luò)層(FFN)計(jì)算得到隱藏狀態(tài),子層之間使用殘差連接,并執(zhí)行層歸一化(LN)操作。在多層編碼器中重復(fù)執(zhí)行計(jì)算,前一層的輸出作為當(dāng)前層的輸入,領(lǐng)域詞編碼器每層計(jì)算過(guò)程如下:

(9)

(10)

2.2 源語(yǔ)言編碼器

與傳統(tǒng)的編碼器結(jié)構(gòu)不同之處是在源語(yǔ)言編碼器增加一個(gè)多頭注意力模塊,用于領(lǐng)域詞編碼器輸出的隱藏狀態(tài)和源語(yǔ)言語(yǔ)義向量進(jìn)行注意力計(jì)算,旨在加強(qiáng)源語(yǔ)言中對(duì)語(yǔ)義表征起到重要作用的相關(guān)領(lǐng)域詞表征。源語(yǔ)言編碼器首先進(jìn)行自注意力編碼源語(yǔ)言句子,然后通過(guò)和領(lǐng)域知識(shí)編碼器的隱藏狀態(tài)輸出進(jìn)行注意力計(jì)算,加強(qiáng)領(lǐng)域詞在源語(yǔ)言句子中的表征,最后通過(guò)FFN子層生成最終源語(yǔ)言句子的向量表示。計(jì)算過(guò)程如下:

(11)

(12)

(13)

2.3 解碼器

在Transformer解碼器的基礎(chǔ)上,引入一個(gè)多頭注意模塊,該模塊進(jìn)行領(lǐng)域詞和解碼器的注意力計(jì)算,在解碼時(shí)刻,執(zhí)行3種注意力,除了自注意力以外,執(zhí)行領(lǐng)域詞知識(shí)編碼器和解碼器的注意力計(jì)算以及源語(yǔ)言編碼器和解碼器的注意力計(jì)算,通過(guò)領(lǐng)域詞和源語(yǔ)言一起指導(dǎo)目標(biāo)譯文的生成,計(jì)算過(guò)程如下:

(14)

(15)

(16)

(17)

(18)

引入領(lǐng)域知識(shí),表1給出了新冠疫情領(lǐng)域的翻譯示例。

表1 新冠疫情領(lǐng)域的翻譯示例

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集

為了驗(yàn)證本文所提出的基于領(lǐng)域知識(shí)增強(qiáng)的漢越神經(jīng)機(jī)器翻譯方法,本文分別在漢-越和越-漢兩個(gè)語(yǔ)言對(duì)方向上開(kāi)展了相關(guān)實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)所需的漢越雙語(yǔ)語(yǔ)料通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲得新冠疫情領(lǐng)域可比語(yǔ)料,通過(guò)平行句對(duì)抽取方法對(duì)可比語(yǔ)料進(jìn)行過(guò)濾篩選。同時(shí)調(diào)用Fast_akign工具對(duì)雙語(yǔ)平行句對(duì)進(jìn)行相似度計(jì)算,選擇相似度高的平行句對(duì),將其分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。漢語(yǔ)和越南語(yǔ)領(lǐng)域詞典通過(guò)TF-IDF和人工篩選的方法挖掘原始語(yǔ)料中的領(lǐng)域詞。數(shù)據(jù)規(guī)模見(jiàn)表2。

表2 數(shù)據(jù)集規(guī)模 /條

TF-IDF是一種常用的統(tǒng)計(jì)方法,用來(lái)評(píng)估術(shù)語(yǔ)對(duì)文檔集合中特定文檔的重要程度。本文基于TF-IDF識(shí)別特定領(lǐng)域中的領(lǐng)域詞,長(zhǎng)度為Jm的輸入句子看做文檔Dm,文檔Dm中的每個(gè)單詞TF-IDF得分TIj計(jì)算公式為

(19)

其中,kj,m代表單詞在句子中出現(xiàn)的次數(shù),|M|表示語(yǔ)料庫(kù)句子總數(shù),|m:dj∈Dm|表示語(yǔ)料庫(kù)中包含單詞的句子數(shù)。根據(jù)得分進(jìn)行排序,進(jìn)一步經(jīng)過(guò)人工篩選,選擇10 000個(gè)詞添加到領(lǐng)域詞典中。篩選得到的領(lǐng)域詞典樣例見(jiàn)表3。

表3 領(lǐng)域詞典樣例

3.2 評(píng)價(jià)指標(biāo)

神經(jīng)機(jī)器翻譯任務(wù)中通常選用BLEU值(Bilingual Evaluation Understudy,雙語(yǔ)評(píng)估替換)作為評(píng)價(jià)指標(biāo)。BLEU是一種對(duì)生成語(yǔ)句進(jìn)行評(píng)估的指標(biāo),用于比較候選文本翻譯與其他一個(gè)或多個(gè)參考翻譯的評(píng)價(jià)分?jǐn)?shù)。根據(jù)n-gram的不同,BLEU可以劃分成多種評(píng)價(jià)指標(biāo),常見(jiàn)的指標(biāo)有BLEU-1、BLEU-2、BLEU-3、BLEU-4四種,其中n-gram指的是連續(xù)的單詞個(gè)數(shù)為n。本節(jié)主要介紹在機(jī)器翻譯任務(wù)中使用頻率較高的BLEU-4。

為了防止讓模型傾向于翻譯短句子及翻譯不完整的情況,首先引入BP值(Brevity Penalty),指定當(dāng)待評(píng)價(jià)譯文同任意一個(gè)參考譯文長(zhǎng)度相等或超過(guò)參考譯文長(zhǎng)度時(shí)BP值為1,當(dāng)待評(píng)價(jià)的譯文較短時(shí),則用一個(gè)算法得出BP值。以c來(lái)表示待評(píng)價(jià)譯文的長(zhǎng)度,r來(lái)表示參考譯文的長(zhǎng)度,則有

(20)

BLEU值計(jì)算為

(21)

其中,pn為修正的n-單位精確度,wn為權(quán)重。在對(duì)數(shù)情況下,計(jì)算變得更加簡(jiǎn)便:

(22)

通常n值取4,wn=1/4,也即經(jīng)典指標(biāo)BLEU-4。

3.3 實(shí)驗(yàn)參數(shù)設(shè)置

本文所提模型基于Facebook開(kāi)源的Fairseq框架實(shí)現(xiàn),參考默認(rèn)的Transformer-base參數(shù)設(shè)置,選取具有6層編碼器和解碼器的Transformer模型為機(jī)器翻譯實(shí)驗(yàn)的基礎(chǔ)架構(gòu)。具體的參數(shù)設(shè)置:詞嵌入向量維度和隱藏層維度均為512,前饋神經(jīng)網(wǎng)絡(luò)中間層單元數(shù)為2 048,多頭注意力的數(shù)量為8;學(xué)習(xí)率設(shè)置為0.000 3,學(xué)習(xí)率更新步數(shù)為4 000步,可以使模型訓(xùn)練時(shí)更快更好地收斂;使用Adam作為優(yōu)化器,為防止模型過(guò)擬合,標(biāo)簽平滑值為0.1;為了防止過(guò)擬合和減少噪聲對(duì)語(yǔ)料的影響,Dropout值為0.1;解碼過(guò)程使用約束搜索算法,搜索寬度設(shè)置為5;使用BLEU作為評(píng)價(jià)指標(biāo)。

3.4 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證所提出的基于領(lǐng)域知識(shí)增強(qiáng)的漢-越神經(jīng)機(jī)器翻譯模型的有效性,進(jìn)行以下4組實(shí)驗(yàn)。首先使用雙語(yǔ)數(shù)據(jù)訓(xùn)練基礎(chǔ)RNNSearch和Transformer模型作為基線模型對(duì)比,然后對(duì)訓(xùn)練數(shù)據(jù)分別在非BPE分詞狀態(tài)和BPE分詞狀態(tài)訓(xùn)練本文提出的模型。具體實(shí)驗(yàn)結(jié)果見(jiàn)表4。

表4 實(shí)驗(yàn)結(jié)果

根據(jù)表4的實(shí)驗(yàn)結(jié)果,Transformer模型相比RNNSearch模型在漢-越和越-漢兩個(gè)翻譯方向上分別獲得了3.18和2.75的BLEU值提升,說(shuō)明了Transformer模型可以更好地捕獲源語(yǔ)言和目標(biāo)語(yǔ)言的映射關(guān)系;在漢-越和越-漢兩個(gè)翻譯方向上本文提出的模型在非BPE分詞狀態(tài)(Ours)和BPE分詞狀態(tài)(Ours-BPE)下都比Transformer模型獲得了顯著的改進(jìn)效果。證明了融入領(lǐng)域知識(shí)的有效性。本文的模型在非BPE分詞狀態(tài)下,漢-越和越-漢兩個(gè)方向上相較于基線Transformer模型獲得了0.48和0.57的BLEU值提升,在BPE分詞狀態(tài)下相較于Transformer模型獲得了0.93和1.13的BLEU值提升,驗(yàn)證了方法在不同詞粒度的通用性,可以應(yīng)用于不同處理方法的語(yǔ)料庫(kù)。在兩個(gè)翻譯方向上的一致提升說(shuō)明我們的模型可以充分挖掘領(lǐng)域詞信息,證明了領(lǐng)域知識(shí)對(duì)提升目標(biāo)譯文的有效性,基于交互注意力的方法可以有效地將領(lǐng)域詞信息融入翻譯過(guò)程中。利用領(lǐng)域知識(shí)可以增強(qiáng)模型的語(yǔ)義表征和學(xué)習(xí)能力。使用領(lǐng)域詞指導(dǎo)目標(biāo)語(yǔ)言的生成可以提升特定領(lǐng)域翻譯的譯文質(zhì)量。

3.5 融合領(lǐng)域知識(shí)對(duì)編、解碼端的有效性分析

為了分析模型不同模塊對(duì)翻譯效果的影響,更好地理解不同部分在模型中的具體效用,驗(yàn)證在編碼端和解碼端融合領(lǐng)域知識(shí)的有效性,通過(guò)將模型的不同模塊移除得到新的模型,進(jìn)行以下消融實(shí)驗(yàn)對(duì)比。定義“-DKEnc”表示移除領(lǐng)域知識(shí)-編碼器的注意力模塊,“-DKDec”表示移除領(lǐng)域知識(shí)-解碼器的注意力機(jī)制模塊,再與主模型進(jìn)行實(shí)驗(yàn)結(jié)果對(duì)比,結(jié)果見(jiàn)表5。

表5 消融實(shí)驗(yàn)

根據(jù)表5的實(shí)驗(yàn)結(jié)果,相較于Transformer模型,將領(lǐng)域知識(shí)分別融入到編碼端和解碼端,在翻譯性能上均得到了提升。說(shuō)明了領(lǐng)域知識(shí)本身對(duì)于提升特定領(lǐng)域翻譯效果是有效的。相比于主模型(Ours-BPE),移除不同模塊得到消融模型性能均出現(xiàn)了明顯的下降,移除領(lǐng)域知識(shí)-編碼器注意力模塊得到的“-DKEnc”模型在漢-越和越-漢兩個(gè)翻譯方向上BLEU值分別下降了0.29和0.31,移除領(lǐng)域知識(shí)-解碼器注意力模塊得到的“-DKDec”模型在漢-越和越-漢兩個(gè)翻譯方向上BLEU值分別下降了0.52和0.73;“-DKDec”模型相較于“-DKEnc”模型BLEU值下降的更為明顯,說(shuō)明了在源語(yǔ)言利用注意力機(jī)制融入領(lǐng)域知識(shí),更有助于模型建立領(lǐng)域詞之間的映射關(guān)系,通過(guò)增強(qiáng)編碼信息的方式更有助于提升編碼器-解碼器結(jié)構(gòu)的學(xué)習(xí)能力。本文的方法(Ours-BPE)在兩個(gè)翻譯方向上得到了最優(yōu)結(jié)果,說(shuō)明了將領(lǐng)域知識(shí)共同作用于編碼端和解碼端有助于目標(biāo)譯文的生成,領(lǐng)域知識(shí)與編碼端的注意力模塊用于增強(qiáng)源語(yǔ)言中領(lǐng)域詞的語(yǔ)義表示,領(lǐng)域知識(shí)與解碼端的注意力模塊在解碼時(shí)幫助模型關(guān)注于更有意義的源語(yǔ)言部分,在各模塊的共同作用下模型達(dá)到了最好的性能,說(shuō)明了各模塊在提升整體模型性能上發(fā)揮著重要作用,對(duì)于最終模型學(xué)習(xí)和利用領(lǐng)域知識(shí)生成更好的目標(biāo)譯文來(lái)說(shuō)必不可少。

3.6 解碼端不同融合方式對(duì)模型性能影響

與標(biāo)準(zhǔn)的Transformer模型不同,本文所提模型額外引入了領(lǐng)域知識(shí)-解碼器的注意力模塊,本小節(jié)實(shí)驗(yàn)探索兩種注意力機(jī)制的不同融合方法對(duì)模型性能的影響。通過(guò)不同的方式融合領(lǐng)域知識(shí)-解碼器注意力和編碼器-解碼器注意力,分別通過(guò)平均池化、高速網(wǎng)絡(luò)、門(mén)控機(jī)制和線性變換4種不同的方式,對(duì)不同的注意力表征進(jìn)行融合,實(shí)驗(yàn)結(jié)果見(jiàn)表6。

表6 解碼端不同融合方式對(duì)比實(shí)驗(yàn)

表6的實(shí)驗(yàn)結(jié)果顯示,與基線模型Transformer相比,基于高速網(wǎng)絡(luò)和平均池化的信息融合方式,對(duì)模型的性能提升起到了反作用?;陂T(mén)控機(jī)制和線性變換方式獲得了更好的效果,有效地利用了不同的信息表征,改善了翻譯質(zhì)量。原因在于平均池化方式只是簡(jiǎn)單地對(duì)兩種注意力進(jìn)行求平均值操作,不能很好地區(qū)分有效信息。高速網(wǎng)絡(luò)方式?jīng)]有識(shí)別出需要激活和需要保持不變的信息。門(mén)控機(jī)制和線性變換的融合方式有效地控制了有效信息的傳遞,實(shí)現(xiàn)了解碼端的信息增強(qiáng),優(yōu)化了譯文質(zhì)量。

4 結(jié)束語(yǔ)

本文主要研究融合領(lǐng)域知識(shí)增強(qiáng)特定領(lǐng)域的漢越神經(jīng)機(jī)器方法,針對(duì)特定領(lǐng)域包含大量的領(lǐng)域詞,在低資源的情況下不能得到很好的翻譯效果這一問(wèn)題。本文的主要貢獻(xiàn)如下:

1)提出將新冠領(lǐng)域詞作為先驗(yàn)知識(shí)的信息輸入,在漢越神經(jīng)機(jī)器翻譯中融合領(lǐng)域詞知識(shí);

2)提出在編碼器和解碼器引入額外的注意力機(jī)制,更有助于神經(jīng)機(jī)器翻譯模型利用領(lǐng)域知識(shí);

3)在構(gòu)建的漢越數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明本文所提的方法能夠有效提升特定領(lǐng)域下神經(jīng)機(jī)器翻譯的性能。

猜你喜歡
源語(yǔ)言解碼器解碼
《解碼萬(wàn)噸站》
科學(xué)解碼器(一)
科學(xué)解碼器(二)
科學(xué)解碼器(三)
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
解碼eUCP2.0
林巍《知識(shí)與智慧》英譯分析
NAD C368解碼/放大器一體機(jī)
Quad(國(guó)都)Vena解碼/放大器一體機(jī)
淺析日語(yǔ)口譯譯員素質(zhì)
咸丰县| 九龙城区| 福安市| 吉安县| 景谷| 平乐县| 郯城县| 金沙县| 明水县| 礼泉县| 庄河市| 汕头市| 凤山市| 新源县| 乐都县| 亚东县| 新竹县| 吐鲁番市| 达日县| 水城县| 延津县| 翁牛特旗| 伊金霍洛旗| 井冈山市| 郯城县| 岐山县| 铅山县| 时尚| 株洲县| 南投县| 惠州市| 新巴尔虎左旗| 元江| 凤台县| 兴宁市| 赤城县| 天长市| 淳安县| 永清县| 洪洞县| 黎城县|