張金鵬,段湘煜
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215000)
神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT)是自然語言處理領(lǐng)域的一項(xiàng)重要且具有挑戰(zhàn)性的任務(wù)[1]。隨著信息技術(shù)的不斷發(fā)展,電商、醫(yī)藥、新能源等領(lǐng)域涌現(xiàn)出大量行業(yè)術(shù)語[2-4],錯(cuò)誤的術(shù)語翻譯可能會嚴(yán)重影響用戶體驗(yàn),這便要求機(jī)器翻譯系統(tǒng)具備更高的準(zhǔn)確性與可控性。在統(tǒng)計(jì)翻譯年代,基于短語的機(jī)器翻譯系統(tǒng)[5]可以對系統(tǒng)輸出進(jìn)行良好的控制,實(shí)現(xiàn)對指定單詞的強(qiáng)制翻譯[6],然而這種強(qiáng)制干預(yù)不適用于神經(jīng)機(jī)器翻譯。
2022 年,WANG 等[7]借助向量化方法將詞典知識顯式地融入模型控制術(shù)語翻譯。雖然向量化方法為術(shù)語干預(yù)提供了新的范式,但其只考慮了如何將術(shù)語信息與句子信息融合,并沒有強(qiáng)調(diào)模型對術(shù)語信息的關(guān)注。在向量化方法中,目標(biāo)術(shù)語的翻譯主要依據(jù)兩部分信息:一是源端句子信息,包含源端術(shù)語及其上下文;二是人為給定的術(shù)語約束,包含正確的術(shù)語翻譯。本文建立一種結(jié)合向量化方法與掩碼機(jī)制的術(shù)語干預(yù)機(jī)器翻譯模型,在訓(xùn)練階段借助掩碼機(jī)制對源端術(shù)語加以屏蔽,以增強(qiáng)編碼器與解碼器對約束信息的關(guān)注,同時(shí)在推理階段借助掩碼機(jī)制優(yōu)化術(shù)語干預(yù)輸出層的概率分布,最終達(dá)到提升術(shù)語翻譯準(zhǔn)確率的目的。
目前,主流的術(shù)語干預(yù)方法可以分為兩類:一類是對傳統(tǒng)的束搜索加以改進(jìn),引入強(qiáng)制解碼策略;另一類是使用數(shù)據(jù)增強(qiáng)方法調(diào)整模型輸入。
網(wǎng)格束搜索(GBS)[8]是典型的基于強(qiáng)制解碼的術(shù)語干預(yù)方法,相較于傳統(tǒng)束搜索,網(wǎng)格束搜索為術(shù)語額外增加一個(gè)維度,用于標(biāo)記已經(jīng)生成的術(shù)語單詞數(shù)量,從而將束搜索拓展為網(wǎng)格的形式。假設(shè)術(shù)語單詞數(shù)為C,GBS 將維護(hù)C+1 組用于存儲滿足不同術(shù)語單詞數(shù)的候選譯文,最后從第C+1 組(術(shù)語全部生成)的候選譯文中選取得分最高的句子作為解碼輸出。由于網(wǎng)格束搜索增加了額外的維度,解碼復(fù)雜度隨術(shù)語單詞數(shù)量線性增長。為了克服上述問題,POST 等[9]提出使用動態(tài)束分配(DBA)的策略改進(jìn)GBS。不同于GBS,DBA 控制解碼過程中波束的總量不變,并采用動態(tài)分配的策略將波束分配給C+1 組,保證解碼復(fù)雜度與術(shù)語單詞數(shù)無關(guān)。HU 等[10]進(jìn)一步提出借助向量數(shù)組優(yōu)化的動態(tài)束分配策略(VDBA),使DBA 能夠以批處理方式運(yùn)行,優(yōu)化了解碼效率。雖然此類方法通過對束搜索加以改進(jìn),確保指定術(shù)語出現(xiàn)在譯文中,但其愈發(fā)繁瑣的解碼過程使其明顯慢于傳統(tǒng)束搜索解碼。
目前,工業(yè)界采用的術(shù)語干預(yù)方法主要基于數(shù)據(jù)增強(qiáng)技術(shù),原因在于采用數(shù)據(jù)增強(qiáng)技術(shù)無需修改模型結(jié)構(gòu),只需使用標(biāo)準(zhǔn)的束搜索即可達(dá)到一定程度的術(shù)語干預(yù)效果,且解碼速度快。SONG 等[11]提出使用字符替換的方法(Code-Switching)進(jìn)行術(shù)語干預(yù),具體做法是借助先驗(yàn)的術(shù)語詞典,將源句中的源端術(shù)語替換為目標(biāo)端術(shù)語,用于翻譯模型訓(xùn)練。在推理階段,人們需要提前將源句中的術(shù)語替換為指定的翻譯再進(jìn)行解碼。DINU 等[12]提出保留源端術(shù)語并在其右側(cè)拼接目標(biāo)術(shù)語的方式進(jìn)行數(shù)據(jù)增強(qiáng)。在WMT2021 英中術(shù)語翻譯任務(wù)中,WANG 等[13]對此類方法做進(jìn)一步拓展,將源端術(shù)語使用特殊標(biāo)記替換,并在該標(biāo)記的右側(cè)指明源端術(shù)語及其翻譯(TermMind)。目前,數(shù)據(jù)增強(qiáng)方法最主要的缺點(diǎn)在于術(shù)語干預(yù)的成功率有限,說明只改變訓(xùn)練數(shù)據(jù)而不調(diào)整模型結(jié)構(gòu)難以到達(dá)理想的干預(yù)效果。
采用Transformer[14]作為機(jī)器翻譯模型的基礎(chǔ)結(jié)構(gòu)(Vanilla),模型由編碼器、解碼器以及輸出層構(gòu)成,Transformer 借助編碼器與解碼器將具體的單詞或者子詞轉(zhuǎn)化為向量化表示,并借助輸出層將解碼器的輸出向量轉(zhuǎn)化為詞表概率。
基于向量化方法的術(shù)語干預(yù)機(jī)器翻譯模型如圖1 所示。對比傳統(tǒng)的Transformer 模型,基于向量化方法的術(shù)語干預(yù)模型存在以下改動:1)借助詞嵌入層以及多頭注意力機(jī)制將源端術(shù)語以及目標(biāo)端術(shù)語向量化(圖1 虛線區(qū)域);2)將這些攜帶術(shù)語信息的特征向量融入翻譯模型的編碼器與解碼器(分別對應(yīng)圖1 中編碼器融合術(shù)語信息以及解碼器融合術(shù)語信息);3)引入額外的輸出概率分布提高術(shù)語生成的準(zhǔn)確率(對應(yīng)圖1 中術(shù)語干預(yù)輸出層)。
圖1 基于向量化方法的術(shù)語干預(yù)機(jī)器翻譯模型Fig.1 Terminology intervention machine translation model based on vectorization method
圖2 結(jié)合掩碼機(jī)制與編碼器的自注意力機(jī)制Fig.2 Self-attention mechanism combining mask mechanism and encoder
2.1.1 術(shù)語向量化
向量化干預(yù)方法首先將源端術(shù)語與目標(biāo)端術(shù)語分別轉(zhuǎn)化為額外的鍵Kterm與值Vterm,以便將術(shù)語信息融入編碼器的自注意力機(jī)制以及解碼器的編碼器-解碼器注意力機(jī)制。使用(S,T)表示一組術(shù)語對在經(jīng)過詞向量層與位置編碼層后得到的向量表示。在通常情況下,源端術(shù)語與目標(biāo)端術(shù)語的長度不一致,在形態(tài)上不對齊[15]。在這種情況下,將S與T分別作為鍵與值是不可行的,需要額外增加一層多頭注意力使得T與S形態(tài)一致,如式(1)所示:
其中:Kterm與Vterm分別表示一組術(shù)語的鍵與值,且Kterm與Vterm?Rd×|s|,d與|s|分別表示模型的詞嵌入維度以及該組術(shù)語中源端術(shù)語所包含的單詞數(shù)量,Vterm可以被看作是向量T在源端長度上的重新分配。事實(shí)上,由于一組平行句對中包含不止一組術(shù)語,因此Kterm與Vterm由N組術(shù)語鍵值拼接得到,如式(2)所示:
2.1.2 編碼器融合術(shù)語信息的過程
在Transformer 中,編碼器由詞嵌入層以及6 層編碼層構(gòu)成,編碼層的自注意力機(jī)制由多頭注意力網(wǎng)絡(luò)構(gòu)成,用于學(xué)習(xí)文本的上下文表示。每層的自注意力機(jī)制如式(3)所示:
其中:Hout表示自注意力機(jī)制的輸出,Hout?Rd×|x|;Henc表示編碼層的輸入,Henc?Rd×|x|,|x|表示編碼層輸入的序列長度。
由于編碼器的每一層都包含不同級別的語義信息[16],因此應(yīng)確保術(shù)語信息融入編碼器的每一層。在編碼端,向量化方法借助自注意力機(jī)制融合Kterm與Vterm。在每一層執(zhí)行自注意力過程前,使用兩層適應(yīng)網(wǎng)絡(luò)將包含術(shù)語信息的鍵值與原始輸入Henc拼接,確保編碼器在自注意力過程中可以顯式地融合術(shù)語信息,如式(4)所示,以此達(dá)到術(shù)語干預(yù)的目的。
其中:adapt 表示包含兩層線性變換以及ReLU 激活函數(shù)的適應(yīng)網(wǎng)絡(luò),該適應(yīng)網(wǎng)絡(luò)對所有編碼層是通用的;Kunion與Vunion分別表示引入術(shù)語干預(yù)的鍵與值,Kunion和Vunion?Rd×(|x|+|s|),|s|表示所有源端術(shù)語的長度之和。
在編碼層中,融合術(shù)語信息的自注意力機(jī)制如式(5)所示:
2.1.3 解碼器融合術(shù)語信息的過程
將術(shù)語信息融入解碼器的方式與編碼器類似,區(qū)別為選取編碼器-解碼器注意力機(jī)制融合術(shù)語信息。在Transformer 中,解碼器由詞嵌入層以及6 層解碼層組成,解碼層由自注意力組件、編碼器-解碼器注意力組件以及前向網(wǎng)絡(luò)構(gòu)成。每一層的編碼器-解碼器注意力機(jī)制如式(6)所示:
其中:Henc表示編碼端提供的輸入;Hdec表示解碼端自注意力組件提供的輸入,Hdec?Rd×|y|,|y|表示解碼器輸入的長度。
對于每一層的編碼器-解碼器注意力機(jī)制,融合術(shù)語信息的鍵值如式(7)所示:
其中:Kunion和Vunion?Rd×(|y|+|s|),與編碼器融合術(shù)語信息類似,解碼器借助adapt 將術(shù)語特征向量與該注意力機(jī)制的原始輸入Henc進(jìn)行拼接,得到新的鍵Kunion與值Vunion。在融合術(shù)語信息后,編碼器-解碼器注意力機(jī)制如式(8)所示:
2.1.4 術(shù)語干預(yù)輸出層
如圖1 所示,向量化方法借助術(shù)語干預(yù)輸出層進(jìn)一步提升術(shù)語翻譯準(zhǔn)確率。在Transformer 中,輸出層用來將解碼器最后一層的輸出轉(zhuǎn)化為子詞級別的概率。使用hk?Rd×1表示解碼器在k時(shí)刻的輸出,使用s與t表示人為給定的術(shù)語對,則Transformer 模型的輸出如式(9)所示:
其 中:W?Rd×|υ|表示輸 出嵌入矩陣,|υ|表示詞 表大小。
為了進(jìn)一步借助術(shù)語信息干預(yù)文本生成,受控制文本生成[17]的啟發(fā),在輸出層引入額外的概率分布對輸出分布進(jìn)行調(diào)整,如式(10)所示:
其中:wy表示子詞y的詞向量;t表示所有目標(biāo)術(shù)語子詞集合。
在得到Pplug后,使用門控單元控制Pplug的干預(yù)力度,門控單元如式(11)所示:
其中:W1和W2?Rd×d;W3?R2d×1。
模型借助3 個(gè)可訓(xùn)練的線性變換生成干預(yù)權(quán)重g,最終的輸出概率如式(12)所示:
掩碼機(jī)制被廣泛應(yīng)用于各項(xiàng)任務(wù)中,用于屏蔽無關(guān)信息或者對原數(shù)據(jù)加噪,例如自回歸生成模型在解碼器中借助掩碼操作屏蔽后續(xù)文本,在各項(xiàng)任務(wù)中對填充符進(jìn)行處理,以及在掩碼語言模型中直接使用掩碼符號對一定比例的原文本進(jìn)行替換。此外,ReLU 激活函數(shù)以及丟棄機(jī)制(Dropout)都被認(rèn)為是一種掩碼操作。本文在訓(xùn)練階段借助掩碼機(jī)制屏蔽源端術(shù)語,增強(qiáng)模型編碼器與解碼器對約束信息的關(guān)注;在解碼階段引入掩碼機(jī)制,改善輸出層的概率分布,進(jìn)一步提升術(shù)語翻譯準(zhǔn)確率。
2.2.1 結(jié)合掩碼機(jī)制的編碼器
向量化干預(yù)方法將術(shù)語信息直接拼接到編碼器自注意力機(jī)制的鍵值中,當(dāng)自注意力機(jī)制進(jìn)行查詢操作時(shí),可以顯式地看到兩部分信息,分別是人為給定的術(shù)語信息以及源端句子信息,源端句子又可以分為源端術(shù)語和源端術(shù)語上下文兩部分。
2.2.2 結(jié)合掩碼機(jī)制的解碼器
掩碼機(jī)制融入解碼器的方式與編碼器類似。向量化干預(yù)方法將術(shù)語信息直接拼接到編碼器-解碼器注意力機(jī)制的鍵值中,然后根據(jù)解碼端提供的查詢信息對編碼器的鍵值進(jìn)行注意力操作。為了增強(qiáng)模型解碼器對人為給定的約束信息的關(guān)注,如圖3所示,在編碼器-解碼器注意力機(jī)制中利用掩碼機(jī)制屏蔽源端術(shù)語對應(yīng)的鍵值。
圖3 結(jié)合掩碼機(jī)制的編碼器-解碼器注意力機(jī)制Fig.3 Attention mechanism of encoder-decoder combining mask mechanism
2.2.3 結(jié)合掩碼機(jī)制的輸出層
在解碼階段,基于向量化方法的干預(yù)機(jī)制在輸出層中引入額外的概率分布Pplug,然而Pplug是面向所有術(shù)語子詞計(jì)算的,忽視了每個(gè)術(shù)語的實(shí)際翻譯情況。例如“傳染源”這個(gè)術(shù)語,經(jīng)過子詞切分后為“傳染@@源”,術(shù)語干預(yù)輸出層會額外增大“傳染@@”以及“源”兩個(gè)子詞的輸出概率。這一做法并沒有考慮該術(shù)語的實(shí)際翻譯情況,假設(shè)模型在推理階段未解碼出“傳染@@”,此時(shí)模型無須增大“源”的輸出概率,否則可能導(dǎo)致模型提前生成“源”。
簡而言之,當(dāng)術(shù)語的第i個(gè)子詞未被譯出時(shí),Pplug不應(yīng)該包括第i+1 個(gè)子詞及其之后的子詞。針對該問題,對Pplug進(jìn)行改進(jìn),使用tnext替換式(10)中的t,如式(13)所示,tnext表示每個(gè)術(shù)語下一個(gè)待生成子詞的集合,并非所有未生成的子詞的集合。借助掩碼數(shù)組進(jìn)行維護(hù),將每個(gè)術(shù)語下一個(gè)待生成子詞的掩碼置為1,其余置為0,并根據(jù)術(shù)語的解碼情況進(jìn)行更新。
選擇德英與英中語項(xiàng)進(jìn)行實(shí)驗(yàn)。對于德英任務(wù),使用WMT2014 德英語料作為訓(xùn)練集,共包含447 萬句平 行語料,并借助fast-align[18]對 齊,使 用文獻(xiàn)[19]中的500 句包含人工對齊標(biāo)注的平行語料作為測試集。對于德英訓(xùn)練集和測試集,也采用文獻(xiàn)[19]中的術(shù)語抽取腳本依據(jù)對齊標(biāo)注抽取術(shù)語。此外,由于德英測試集與訓(xùn)練集存在部分重疊,因此將這部分重疊句子從測試集中移除。對于英中翻譯任務(wù),使用語料隨機(jī)抽取腳本,從WMT2021 英中數(shù)據(jù)集中抽取450 萬句平行語料用于訓(xùn)練,訓(xùn)練集的術(shù)語抽取方法與WMT2014 德英數(shù)據(jù)集一致。采用WMT2021 英中術(shù)語翻譯任務(wù)提供的2 000 句包含術(shù)語標(biāo)注的平行語料作為測試集。德英與英中實(shí)驗(yàn)均采用子詞切分方法[20]構(gòu)建源端與目標(biāo)端共享的詞表,構(gòu)建時(shí)迭代操作數(shù)設(shè)置為40 000。
所提翻譯模型的執(zhí)行根據(jù)Fairseq 工具庫[21],所有模型的訓(xùn)練均在8 張顯存為16 GB 的英偉達(dá)P100-PCIe 顯卡上進(jìn)行。選取編碼器與解碼器的層數(shù)均為6,將隱狀態(tài)維度為512 的Transformer 模型作為基礎(chǔ)架構(gòu),每個(gè)多頭注意力機(jī)制包含8 個(gè)獨(dú)立的注意力頭。在訓(xùn)練階段,德英與英中任務(wù)均迭代10 萬步,采用Warm-up 學(xué)習(xí)策略,學(xué)習(xí)率的初始值為0.000 7,最大值為0.001,并采用Adam 更新策略,Dropout 的概率設(shè)置為0.1。在訓(xùn)練階段,參考掩碼語言模型的設(shè)計(jì)[22],借助掩碼機(jī)制隨機(jī)屏蔽15%的源端術(shù)語。
對比的術(shù)語干預(yù)方法主要分為兩類:一是基于強(qiáng)制解碼策略的方法;二是基于數(shù)據(jù)增強(qiáng)的方法。此外,也與未采用掩碼機(jī)制的基于原始向量化方法的Code-Switching 翻譯模型進(jìn)行比較。為了保證對比公平,所有基線均采用與本文術(shù)語干預(yù)方法一致的Transformer 結(jié)構(gòu),并保持一致的學(xué)習(xí)策略進(jìn)行訓(xùn)練,直至收斂。在測試環(huán)節(jié),為所有術(shù)語干預(yù)方法提供相同的術(shù)語約束。對比的機(jī)器翻譯模型具體描述如下:
1)Vanilla。未采用任何術(shù)語干預(yù)方法的基線Transformer 翻譯模型。
2)VDBA。在推理階段采用向量化的動態(tài)束分配策略,并使用前綴樹對DBA 進(jìn)行優(yōu)化,能以批處理方式執(zhí)行解碼并具有強(qiáng)大的術(shù)語干預(yù)能力。
3)Code-Switching。將源句中的術(shù)語直接替換為目標(biāo)端術(shù)語作為輸入,同時(shí)使用指針網(wǎng)絡(luò)進(jìn)一步優(yōu)化。
4)TermMind。將源句中的術(shù)語替換為指定的特殊標(biāo)記,并將目標(biāo)端術(shù)語與源端術(shù)語拼接在特殊標(biāo)記的右側(cè),在WMT2021 英中術(shù)語翻譯任務(wù)中排名第一。
5)VecConstNMT?;谙蛄炕椒ǖ男g(shù)語干預(yù)翻譯模型,未引入掩碼機(jī)制。
評價(jià)指標(biāo)主要包括:1)BLEU 得分,使用sacreBLEU[23]計(jì)算;2)復(fù)制成功率(CSR),從單詞級別上計(jì)算術(shù)語翻譯準(zhǔn)確率;3)術(shù)語評估矩陣[24],包括正確匹配率(EM)、窗口重疊度量(Window2和Window3)以及偏向術(shù)語的翻譯編輯率(TERm)[25-26]。EM 用來衡量在譯文中成功匹配的源端術(shù)語占總源端術(shù)語的比例,不同于CSR,EM 從短語級別上計(jì)算術(shù)語生成的比例,是本文最重要的評價(jià)指標(biāo)。窗口重疊度量用來衡量目標(biāo)術(shù)語在譯文中的位置準(zhǔn)確率。TERm 計(jì)算術(shù)語單詞部分的編輯損失。
各模型在WMT2014 德英與WMT2021 英中數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1 所示。對于術(shù)語翻譯準(zhǔn)確率,VDBA 具有最高的單詞級別準(zhǔn)確率(CSR)和短語級別準(zhǔn)確率(EM),但該模型并不能更深層次地融合術(shù)語信息,且VDBA 在BLEU 得分以及窗口級別的準(zhǔn)確率等指標(biāo)上表現(xiàn)并不理想?;谛g(shù)語數(shù)據(jù)增強(qiáng)的Code-Switching 以及TermMind 具有較高的BLEU 得分,但是術(shù)語干預(yù)能力較弱,CSR 與EM 低于其他模型。本文提出的結(jié)合向量化方法與掩碼機(jī)制的干預(yù)機(jī)器翻譯模型在提升術(shù)語翻譯準(zhǔn)確率的同時(shí),進(jìn)一步提升了譯文的整體翻譯質(zhì)量,與Code-Switching 相比,在WMT2014 德英數(shù)據(jù)集上EM 指標(biāo)提升了9.27 個(gè)百分點(diǎn),在WMT2021 英中數(shù)據(jù)集上EM 指標(biāo)提升了2.95 個(gè)百分點(diǎn),且sacreBLEU提升了0.8 和0.4 個(gè)百分點(diǎn),Window2、Window3 以及TERm 等指標(biāo)也有所提升。
表1 各模型在WMT2014 德英與WMT2021 英中數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 1 Experimental result of various models on the WMT2014 German-English and WMT2021 English-Chinese datasets %
消融實(shí)驗(yàn)結(jié)果如表2 所示,分別移除編碼器、解碼器以及輸出層的掩碼機(jī)制以測試其對模型性能的影響。由表2 可以看出:移除編碼器的掩碼機(jī)制會顯著降低模型的sacreBLEU;輸出層的掩碼機(jī)制減少了Pplug的候選,因此移除后會使sacreBLEU 略有提升,但EM 下降明顯;解碼器掩碼機(jī)制對模型性能的影響介于編碼器與輸出層之間。
表2 消融實(shí)驗(yàn)結(jié)果Table 2 Results of ablation experiments %
掩碼機(jī)制的引入能大幅度提升模型對于短語級別術(shù)語的翻譯能力。按照術(shù)語長度將測試集分為4 個(gè)子集,表3 對比了VecConstNMT 與所提模型的4 個(gè)子集的術(shù)語翻譯結(jié)果。由表3 可以看出,CSR 與EM 之間存在較大的差距,這一差距隨術(shù)語長度的增加而增加。這說明了向量化干預(yù)方法雖然可以將術(shù)語在單詞級別翻譯出來,但無法保證這些單詞以正確的順序連續(xù)譯出,保證術(shù)語的完整翻譯。引入掩碼機(jī)制可顯著提高長術(shù)語的EM 指標(biāo)值,縮小CSR與EM 之間的差距。
表3 不同長度的術(shù)語翻譯結(jié)果Table 3 Results of terms with different lengths
各模型的解碼速度如表4 所示。由表4 可以看出:Vanilla 未使用任何術(shù)語干預(yù)方法,解碼速度最快;VDBA 在推理階段加以約束,雖然具備最高的術(shù)語翻譯準(zhǔn)確率,但解碼速度極慢,尤其是批處理解碼,在大部分實(shí)際場景中不適用;所提模型只需在輸出層跟蹤每個(gè)術(shù)語的翻譯進(jìn)度,因此相比于Vec ConstNMT 模型,解碼速度幾乎不受影響。
表4 各模型的解碼速度對比Table 4 Comparison of decoding speed of various models 單位:(句?s-1)
目前,基于數(shù)據(jù)增強(qiáng)與強(qiáng)制解碼的術(shù)語干預(yù)方法存在目標(biāo)術(shù)語翻譯準(zhǔn)確率低以及解碼速度慢的問題,限制了這些方法在實(shí)際場景中的應(yīng)用。受向量化方法的啟發(fā),本文構(gòu)建基于向量化方法與掩碼機(jī)制的術(shù)語干預(yù)機(jī)器翻譯模型,借助掩碼機(jī)制增強(qiáng)模型對向量化信息的關(guān)注及優(yōu)化輸出層的概率分布。實(shí)驗(yàn)結(jié)果表明,所提模型在保證解碼速度的同時(shí)顯著提升了術(shù)語翻譯的準(zhǔn)確率,并且提高了譯文的整體翻譯質(zhì)量。術(shù)語翻譯任務(wù)建立在人為給定的術(shù)語翻譯完全正確這一基礎(chǔ)上,但在實(shí)際場景中術(shù)語對往往存在一對多的情況,并且對于每句句子中的每個(gè)術(shù)語,通過人工注釋得到最合適的目標(biāo)翻譯顯然是費(fèi)時(shí)費(fèi)力的。后續(xù)將針對上述問題做進(jìn)一步研究,根據(jù)特定上下文,使模型從候選術(shù)語中自動識別并翻譯出正確的目標(biāo)術(shù)語。