国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

篇章約束的譯文質(zhì)量評(píng)估模型

2023-02-10 06:08:30馮勤貢正仙葉恒周國棟
關(guān)鍵詞:指代譯文約束

馮勤 貢正仙 葉恒 周國棟

北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 第59卷 第1期 2023年1月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 1 (Jan. 2023)

10.13209/j.0479-8023.2022.067

國家自然科學(xué)基金(61976148)資助

2022-05-12;

2022-08-12

篇章約束的譯文質(zhì)量評(píng)估模型

馮勤 貢正仙?葉恒 周國棟

蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 蘇州 215000; ?通信作者, E-mail: zhxgong@suda.edu.cn

提出一種新的篇章約束輔助的譯文質(zhì)量評(píng)估模型, 不依賴參考譯文, 為源文篇章中的每條句子的譯文進(jìn)行打分。首先從句子級(jí)別的語義表示和詞級(jí)別的指代特征的角度建模源文和譯文上下文之間的差異, 然后設(shè)計(jì)額外的損失函數(shù), 使得模型在預(yù)測分?jǐn)?shù)的同時(shí), 盡可能地約束兩者之間的差異。實(shí)驗(yàn)結(jié)果表明, 所提方法能有效提高譯文質(zhì)量評(píng)估的性能, 在 Pearson 相關(guān)系數(shù)上較基線系統(tǒng)最高可提升 6.68 個(gè)百分點(diǎn)。

篇章; 語義差異; 指代差異; 譯文質(zhì)量評(píng)估

機(jī)器翻譯是計(jì)算機(jī)把一種源語言(source langu-age)翻譯成目標(biāo)語言(target language)的過程[1–3]。隨著深度學(xué)習(xí)的發(fā)展, 神經(jīng)機(jī)器翻譯(neural machine translation, NMT)依賴于大規(guī)模的雙語平行語料和復(fù)雜神經(jīng)網(wǎng)絡(luò), 成為目前機(jī)器翻譯領(lǐng)域的主流技 術(shù)[3]。然而, 受算法限制, 現(xiàn)有機(jī)器翻譯評(píng)價(jià)指標(biāo)BLEU[4]以及 METEOR[5]存在一些不足: 指標(biāo)計(jì)算需要將機(jī)器翻譯系統(tǒng)的輸出與人工參考譯文進(jìn)行比較, 導(dǎo)致人力資源的耗費(fèi); 并且在評(píng)價(jià)篇章機(jī)器翻譯系統(tǒng)的性能時(shí), 僅關(guān)注參考譯文和翻譯譯文的N-gram 匹配程度, 因而無法像人工一樣結(jié)合篇章語境評(píng)價(jià)翻譯結(jié)果。因此, 如何不依賴參考翻譯, 自動(dòng)地評(píng)價(jià)篇章級(jí)別的翻譯質(zhì)量是重要且有價(jià)值的。

質(zhì)量評(píng)估(quality estimation, QE)[6–7]不依賴人工標(biāo)注參考譯文, 是一項(xiàng)僅關(guān)注源端文本 S 和機(jī)器翻譯的輸出譯文 MT 來預(yù)測譯文的人工后編輯率(HTER)的技術(shù)。QE 分?jǐn)?shù)越高, 代表將 MT 修改成經(jīng)人工校正的后期編輯文本(post editing, PE)所需的編輯次數(shù)越多, 譯文質(zhì)量就越差, 反之亦然。目前, 相關(guān)研究主要圍繞基于神經(jīng)網(wǎng)絡(luò)的質(zhì)量評(píng)估模型, 并且根據(jù)評(píng)估任務(wù)的不同, 可以分別單詞級(jí)、句子級(jí)和篇章級(jí)。Kreutzer 等[8]為譯文中的每個(gè)位置設(shè)置大小固定的窗口, 然后將對(duì)齊源文同窗口中的譯文的表示拼接起來后送入到輸出層, 計(jì)算并預(yù)測每個(gè)位置的標(biāo)簽, 實(shí)現(xiàn)單詞級(jí)別的質(zhì)量評(píng)估模型QUETCH。類似地, Martins 等[9]提出 NuQE 模型, 擴(kuò)展了嵌入表示, 即在拼接源文和譯文上下文表示的同時(shí), 增加相應(yīng)的詞性(part-of-speech, POS)標(biāo)簽, 有效地增強(qiáng)了模型的表示能力。Kim 等[10–11]提出“預(yù)測器–評(píng)估器”模型, 預(yù)測器借助大規(guī)模的雙語平行語料訓(xùn)練, 抽取單詞的特征向量, 并將其輸入評(píng)估器, 生成不同(單詞/短語/句子)級(jí)別的質(zhì)量分?jǐn)?shù)。隨著多語言預(yù)訓(xùn)練模型的發(fā)展, 利用多語言預(yù)訓(xùn)練模型可以代替預(yù)測器, 進(jìn)而直接進(jìn)入 QE 模型的預(yù)測訓(xùn)練。除單詞級(jí)和句子級(jí)別的質(zhì)量評(píng)估, 篇章級(jí)別的質(zhì)量評(píng)估任務(wù)也逐漸被關(guān)注。相關(guān)研究表明, 篇章級(jí)別的信息對(duì)于評(píng)估翻譯的質(zhì)量也非常重要[12]。目前, 篇章級(jí)別的譯文質(zhì)量評(píng)估模型大概可分為兩類。第一類是預(yù)測篇章的翻譯分?jǐn)?shù)。Specia等[13]擴(kuò)展了句子級(jí)別的質(zhì)量評(píng)估工具包 QUEST, 提出一種可以同時(shí)提取單詞級(jí)、句子級(jí)和篇章級(jí)特征的 QUEST++開源工具包, 實(shí)現(xiàn)不同任務(wù)之間的交互。Ive 等[14]提出篇章級(jí)別的譯文質(zhì)量評(píng)估架構(gòu)Deepquest, 首先利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)編碼表示源文和譯文的單詞, 然后通過求和或平均的方式表示成句子向量, 最后利用注意力機(jī)制, 將同一篇章中所有句子向量進(jìn)行加權(quán)求和, 送入解碼層, 對(duì)篇章分?jǐn)?shù)進(jìn)行預(yù)測, 并在 WMT2008–2017 年的 4 個(gè)語言對(duì)(DE-EN, EN-ES, EN-FR和EN-RU)的篇章級(jí)翻譯語料上驗(yàn)證了實(shí)驗(yàn)性能。第二類是預(yù)測篇章中每條句子的翻譯分?jǐn)?shù): 針對(duì)句子級(jí)質(zhì)量評(píng)估任務(wù)不能捕捉與篇章相關(guān)的翻譯錯(cuò)誤問題, Chen 等[15]構(gòu)建了一個(gè)新的中文到英文的篇章級(jí)譯文質(zhì)量評(píng)估語料, 并提出一種基于中心理論(center theory)[16]的篇章級(jí)質(zhì)量評(píng)估模型, 實(shí)驗(yàn)證明, 該模型能有效地超過基線系統(tǒng)。

綜上所述, 我們發(fā)現(xiàn)篇章譯文質(zhì)量評(píng)估的研究主要圍繞搭建可為整個(gè)譯文打分的系統(tǒng)展開, 例如Deepquest 和 QUEST++等。然而, 這樣的自動(dòng)打分機(jī)制并不利于找到篇章中的翻譯錯(cuò)誤。因此, 本文延續(xù) Chen 等[15]的研究, 探究如何利用篇章信息評(píng)估源文篇章中的每條句子的譯文質(zhì)量, 提出一種新的可以利用篇章特征的質(zhì)量評(píng)估模型訓(xùn)練策略, 從上下文語義相關(guān)性和指代信息兩個(gè)方面來建模上下文之間的差異性, 在實(shí)現(xiàn)預(yù)測篇章中每條譯文翻譯分?jǐn)?shù)的同時(shí), 還可以約束源文和譯文上下文之間的差異。

1 基準(zhǔn)系統(tǒng)模型

Openkiwi是一個(gè)基于Pytorch實(shí)現(xiàn)的用于譯文質(zhì)量評(píng)估任務(wù)的框架[17], 支持不同語言對(duì)的單詞級(jí)和句子級(jí)質(zhì)量評(píng)估任務(wù)。基于該框架, 實(shí)現(xiàn)了QUETCH[8]、NUQE[9]、預(yù)測器–評(píng)估器(predictor-estimator)[10–11]和 APE-QE[9]等幾種當(dāng)前最流行的QE 模型。隨著預(yù)訓(xùn)練模型的出現(xiàn), 自然語言處理任務(wù)直接采用基于大規(guī)模語言預(yù)訓(xùn)練的語言模型進(jìn)行微調(diào), 即可達(dá)到很好的翻譯效果??紤]到中文到英文的篇章譯文質(zhì)量評(píng)估語料規(guī)模較小以及本文關(guān)注的是篇章內(nèi)每條譯文的質(zhì)量, 所以本文基線系統(tǒng)以及相關(guān)實(shí)驗(yàn)均基于 Moura 等[18]開源的 OpenKiwi 2.0框架①https://github.com/unbabel/openkiwi實(shí)現(xiàn), 如圖1所示。

圖 1 中, 支持預(yù)訓(xùn)練模型 XLM-R 的“特征提取器–評(píng)估器”的句子級(jí)質(zhì)量評(píng)估模型包含特征抽取(feature extractor)和質(zhì)量評(píng)估器模塊(quality esti-mator), 具體的訓(xùn)練過程如算法 1 所示??缯Z言預(yù)訓(xùn)練模型 XLM-R[19]的全稱為 XLM-RoBERTa, 是基于Transformer[20]的語言模型, 依賴于掩碼語言模型目標(biāo)函數(shù), 能夠處理 100 種不同語言的文本。使用大規(guī)模多語言預(yù)訓(xùn)練的模型可以顯著地提高跨語言遷移任務(wù)的性能[21]。

算法1 句子級(jí)譯文質(zhì)量評(píng)估訓(xùn)練算法

輸入 源文={1,…,x}, 譯文={1, …,y}, 其中和分別表示相應(yīng)句子單詞數(shù)

圖1 OpenKiwi2.0模型流程

輸出 預(yù)測譯文質(zhì)量分?jǐn)?shù)

1.利用特殊分隔符拼接源文和譯文={<>,1,…,x, , <>,1,…,y, }

2.借助預(yù)訓(xùn)練模型 XLM-R 編碼, 獲得隱層向量= {,h1, …,h,,,h1, …,h,}

3.抽取特征向量={[0];avg([+2:])}

4.對(duì)特征向量進(jìn)行處理, 得到新的特征表示'= FNN2(tanh(FNN1()))

5. 利用回歸器預(yù)測質(zhì)量分?jǐn)?shù)=FNN4(tanh(FNN3(' )))

算法 1 中的第 1 行屬于數(shù)據(jù)預(yù)處理。第 2~4 行對(duì)應(yīng)圖 1 的特征抽取層, 首先利用預(yù)訓(xùn)練模型獲得蘊(yùn)含上下文表示的隱層向量, 之后借助前饋神經(jīng)網(wǎng)絡(luò)層(feed-forward neural networks, FNN)和激活函數(shù) tanh(·), 對(duì)預(yù)先抽取的特征向量進(jìn)行加工, 得到新的特征向量, 第 5 行對(duì)應(yīng)圖 1 的譯文質(zhì)量評(píng)估器, 采用回歸器預(yù)測每個(gè)譯文的質(zhì)量分?jǐn)?shù)。訓(xùn)練過程采用均方誤差(mean squared error, MSE)來衡量預(yù)測分?jǐn)?shù)和 HTER 的分?jǐn)?shù)差距, 指導(dǎo)模型訓(xùn)練朝正確的方向進(jìn)行。

2 篇章約束下的譯文質(zhì)量評(píng)估模型

篇章通常使用指代和省略等手段去保證文本的一致性和連貫性。利用這些篇章現(xiàn)象, 可以更好地輔助篇章級(jí)譯文的質(zhì)量評(píng)估。Chen 等[15]以中心理論為基礎(chǔ), 通過流水線式的方法抽取源文和譯文的優(yōu)選中心詞, 并以優(yōu)選中心詞為核心, 對(duì)比源文與譯文的差異。這種方法依賴于優(yōu)選中心詞的抽取,受限于語料規(guī)模, 性能較低。此外, 篇章級(jí) QE 與句子級(jí) QE 較大的差別體現(xiàn)在指代現(xiàn)象, 所以我們猜想利用篇章譯文與源文之間的指代差異可以更好地提升篇章 QE 的性能。

如圖 2 所示, 借助指代消解技術(shù), 分別對(duì)源文(SRC)、人工后編輯譯文(PE)和機(jī)器翻譯譯文(MT)進(jìn)行指代消解, 并將抽取出的指代鏈用加粗字體表示, 其中, #代表篇章中的第條句子。

以圖 2 為例, 借助 PE 可以觀察到: 1)MT 的#3漏譯了 SRC 中的“經(jīng)表決”; 2)對(duì)于 SRC 的同一實(shí)體“張光軍”, MT 對(duì)應(yīng) 4 種不同的表述, 且存在翻譯錯(cuò)誤和上下文翻譯不一致的問題??梢园l(fā)現(xiàn), 要想找到翻譯的問題, 不僅需要橫向?qū)Ρ仍次暮妥g文, 還需要縱向?qū)Ρ壬舷挛闹g的差異。

通過上述實(shí)例分析, 我們認(rèn)為: 1)翻譯質(zhì)量越好的譯文, 與源文的語義差異越小, 反之則大; 2)源文和譯文通過指代表達(dá)出來的上下文連貫性的強(qiáng)度應(yīng)該盡可能保持一致。本文在基線系統(tǒng) Open-Kiwi2.0 的基礎(chǔ)上, 提出新的利用篇章特征的譯文質(zhì)量評(píng)估模型訓(xùn)練策略, 模型結(jié)構(gòu)如圖 3 所示。本文方法在實(shí)現(xiàn)預(yù)測分?jǐn)?shù)的同時(shí), 還增加了對(duì)上下文語義差異約束和指代信息差異約束。

2.1 上下文語義抽取

圖2 篇章級(jí)別質(zhì)量評(píng)估語料中的中英翻譯示例

圖3 篇章約束輔助的譯文質(zhì)量評(píng)估模型

如圖 3 所示, 輸入序列經(jīng)過 XLM-R 編碼表示后,分別抽取源文、譯文、源文上文和譯文上文部分的第一個(gè)子詞<>的隱層表示, 作為相應(yīng)部分的句子語義特征向量(如圖 3 中左側(cè)虛線框圖部分), 并分別記為sre,mt,sr_cx和mt_ctx。

2.2 指代信息抽取

計(jì)算機(jī)無法直接處理非結(jié)構(gòu)化的文本信息, 所以在模型學(xué)會(huì)區(qū)分不同類型的文本前, 需要先將文本轉(zhuǎn)化為一個(gè)個(gè)的向量。同樣, 要想利用篇章的指代信息, 也應(yīng)該將指代鏈轉(zhuǎn)化為向量表述。為此, 本文借助谷歌發(fā)布的預(yù)訓(xùn)練模型 BERT[22]幫助獲得指代鏈表征, 具體步驟如下。

1)獲取源文和譯文篇章的指代鏈。本文利用中文指代消解工具獲取源文篇章指代鏈, 利用英文指代消解工具獲取譯文篇章的指代鏈。具體地, 英文指代消解使用公開的 allennlp 消解工具②https://demo.allennlp.org/coreference-resolution, F1 值為79.6%; 中文指代消解模型的建立依賴 CoNLL 2012年發(fā)布的 OntoNotes 5.0 中文數(shù)據(jù)集③https://catalog.ldc.upenn.edu/LDC2013T19, 采用 Lee 等[23]開源的端到端模型, 應(yīng)用現(xiàn)有的計(jì)算資源進(jìn)行訓(xùn)練而獲得, F1值為65.39%。

2)生成源文和譯文篇章中的指代鏈表征。BERT 是一種利用 Transformer 結(jié)構(gòu)的預(yù)訓(xùn)練語言表示的方法, 可以實(shí)現(xiàn)上下文相關(guān)的單詞表征, 有效地捕獲一詞多義之類的明顯差異。本文先將源文和譯文送入相應(yīng)語言的預(yù)訓(xùn)練模型 BERT 中, 將輸出的最后一層的隱藏狀態(tài)作為單詞的嵌入向量, 最后將位于同一條指代鏈上的所有單詞向量求平均, 作為該指代鏈的向量表示。一個(gè)篇章有多少條指代鏈, 就對(duì)應(yīng)有多少個(gè)指代表征。

3)初始化輸入序列和的指代特征, 找到源文、譯文、源文上文和譯文上文中包含的指代鏈。由于一個(gè)序列中包含的指代鏈條數(shù)不同, 因此本文根據(jù)步驟 2 獲得的指代表征進(jìn)行池化或轉(zhuǎn)換④池化方法有平均池化和最大池化等方案, 本文采用平均池化方法。操作, 將獲得的向量作為序列的指代特征(如圖 3 中右側(cè)虛線框圖部分所示), 分別標(biāo)記為src,mt,src_ctx和mt_ctx。

2.3 篇章約束在譯文質(zhì)量評(píng)估模型中的應(yīng)用

2.3.1 上下文語義差異約束方案

篇章是由詞和句子以復(fù)雜的關(guān)系鏈接, 能夠完成一定交際任務(wù)的完整連貫的語義單元。高質(zhì)量的篇章譯文應(yīng)該能合理地組織翻譯結(jié)構(gòu), 保留源文文本塊之間的語義關(guān)系, 例如因果關(guān)系和轉(zhuǎn)折關(guān)系等。本文實(shí)驗(yàn)以上下文之間句子向量的歐式距離為度量上下文語義差異的標(biāo)準(zhǔn)。如圖 3 所示, 首先利用預(yù)訓(xùn)練模型 XLM-R 獲得輸入序列的編碼表示, 然后, 選取序列的第一個(gè)單詞<>的隱藏層向量表示作為句子向量, 之后通過分別計(jì)算源文和譯文上下文之間的歐式距離來約束源文和譯文上下文之間差異:

其中,(?)表示兩個(gè)向量的歐式距離; KL(?||?)表示兩個(gè)分布的 KL 散度, 描述源文上下文和譯文上下文之間歐式距離的差異, 兩者相似度越高, 則 KL 散度越小。

除采用第一個(gè)子詞的向量表示作為句子向量表示外, 本文還對(duì)源文以及譯文所有子詞的表示進(jìn)行平均池化和最大池化, 用來表示不同部分的句子 向量。

2.3.2 指代信息差異約束方案

從句子的角度出發(fā), 借助句子的語義表示, 可以描述源文和譯文上下文之間差異, 但不能關(guān)注到句子中詞級(jí)別的差異。作為篇章分析的核心技術(shù), 指代消解對(duì)篇章上下文銜接起著重要的作用, 并且這些位于篇章中的具有相同含義的實(shí)體特征恰好能在詞級(jí)別關(guān)注細(xì)粒度的差異。

本文實(shí)驗(yàn)借助全連接層, 將初始化的指代特征映射到新的多維空間, 利用 KL 散度建模上下文之間指代特征的差異:

其中,s和m∈REmodel表示線性映射的權(quán)重,model為模型的維度,E為初始化的指代特征向量的維度,s和m為偏置, 源文上文和譯文上文的src_ctx和mt_ctx計(jì)算過程與式(2)和(3)相同。

2.3.3 損失函數(shù)

本文實(shí)驗(yàn)在預(yù)測分?jǐn)?shù)的同時(shí), 增加源文和譯文上下文之間的兩個(gè)約束假設(shè), 并對(duì)基線系統(tǒng)的優(yōu)化目標(biāo)函數(shù)做如下更新:

其中, Lossscore與基線系統(tǒng)一致, 為預(yù)測分?jǐn)?shù)部分的均方誤差損失函數(shù),Losssent和 Losscoref分別對(duì)應(yīng)上述約束方案的損失函數(shù)。

通過實(shí)驗(yàn)可以發(fā)現(xiàn), 當(dāng)翻譯質(zhì)量較低時(shí), 上文出現(xiàn)的翻譯錯(cuò)誤會(huì)延續(xù)到當(dāng)前的句子, 導(dǎo)致經(jīng)常出現(xiàn)篇章翻譯的“錯(cuò)誤傳遞(error propagation)”現(xiàn)象。一味強(qiáng)調(diào)兩個(gè)約束假設(shè)的影響反而會(huì)產(chǎn)生誤判, 因此對(duì)于兩個(gè)約束假設(shè)的影響應(yīng)該設(shè)定合適的比例, 本文設(shè)置=0.1。

3 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證本文提出的模型的性能, 本文使用 Chen等[15]開源的中–英方向上的篇章譯文質(zhì)量評(píng)估數(shù)據(jù)集⑤https://github.com/ydc/cpqe。由于公開的數(shù)據(jù)集未劃分訓(xùn)練集、測試集和驗(yàn)證集, 故本文參考篇章的長度采用隨機(jī)劃分的方式來劃分?jǐn)?shù)據(jù)集。該語料包含 112 個(gè)篇章(共 1996條句子), 每個(gè)篇章分別對(duì)應(yīng)兩個(gè)不同的機(jī)器翻譯系統(tǒng)的結(jié)果(MT)、兩個(gè)機(jī)器翻譯的人工校正(PE)和兩個(gè) PE 文件對(duì)應(yīng)的人工后編輯率(HTER)。本文以篇章為單位劃分?jǐn)?shù)據(jù)集, 隨機(jī)挑選了 6 個(gè)篇章(102 條句子)作為驗(yàn)證集, 10 個(gè)篇章(154 條)作為測試集, 剩下的 97 個(gè)篇章作為訓(xùn)練集(1736 條)。

實(shí)驗(yàn)中的輸入序列均采用 Transformers 庫的XLM-Roberta-base 模型⑥https://huggingface.co/xlm-roberta-base。其中, XLM-Roberta-base編碼器層數(shù)為 12, 隱藏層維度為 768, 多頭注意力機(jī)制為 12 個(gè)頭; 初始化的指代鏈向量采用Transfor-mers 庫的 BERT-base 模型, 輸出維度為 768。Drop-out 率設(shè)置為 0.1, 優(yōu)化器為 AdamW, 學(xué)習(xí)率設(shè)置為 1×10?5, 批次大小為 8, 其余層的參數(shù)設(shè)置為基線系統(tǒng) OpenKiwi 的默認(rèn)參數(shù)。實(shí)驗(yàn)在一塊 GeForce GTX 1080 Ti 上完成。

根據(jù)是否使用大規(guī)模的句子級(jí)質(zhì)量評(píng)估語料, 本文定義兩個(gè)基線系統(tǒng)?;€系統(tǒng) 1 (Baseline1)采用兩階段訓(xùn)練法: 第一階段利用大規(guī)模 CCMT 競賽的中英句子級(jí)的質(zhì)量評(píng)估語料⑦該語料訓(xùn)練集、驗(yàn)證集和測試集分別包含10070, 1144和1385條句子。進(jìn)行預(yù)訓(xùn)練, 達(dá)到初始化模型的相關(guān)參數(shù)的目的; 第二階段在篇章級(jí)質(zhì)量評(píng)估語料上進(jìn)行模型的訓(xùn)練?;€系統(tǒng) 2 (Baseline2)僅利用篇章譯文語料單步訓(xùn)練得到句子的翻譯分?jǐn)?shù)預(yù)測。

為了評(píng)價(jià)篇章約束輔助的譯文質(zhì)量評(píng)估的性能, 分析預(yù)測值與真實(shí)值的相關(guān)性, 本文采用皮爾森相關(guān)系數(shù)(Pearson)和斯皮爾曼相關(guān)系數(shù)(Spear-man)。Pearson 用于反映預(yù)測值與真實(shí)值的線性相關(guān)性, Spearson 反映預(yù)測結(jié)果排名與真實(shí)值排名的線性相關(guān)性。指標(biāo)值越接近 1, 代表預(yù)測值越接近真實(shí)值, 模型預(yù)測的準(zhǔn)確性越高, 評(píng)估系統(tǒng)的性能越好。Pearson 和 Spearson 的計(jì)算方法分別如式(6)和(7)所示。

3.1 實(shí)驗(yàn)結(jié)果

本文在中英篇章質(zhì)量評(píng)估任務(wù)中的實(shí)驗(yàn)結(jié)果如表 1 所示。其中, Baseline1 包含兩部分, step1 和step2 分別對(duì)應(yīng)兩階段中模型在測試集上的性能, Baseline2 和 ours 分別表示單階段訓(xùn)練的基線系統(tǒng)和本文的模型。

對(duì)比 Baseline1 兩階段訓(xùn)練的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn), 未經(jīng)過篇章級(jí)質(zhì)量評(píng)估語料微調(diào)的實(shí)驗(yàn)性能較差。我們認(rèn)為, 篇章譯文的評(píng)分不僅取決于當(dāng)前句子的翻譯, 也取決于該譯文在篇章層面上的表現(xiàn), 同句子級(jí)的評(píng)價(jià)標(biāo)準(zhǔn)不同, 會(huì)導(dǎo)致即使經(jīng)過大規(guī)模句子級(jí)別數(shù)據(jù)的微調(diào), 也不能達(dá)到很好的效果。對(duì)比兩階段微調(diào)后的訓(xùn)練 Baseline1 (step2)和單階段訓(xùn)練Baseline2 的實(shí)驗(yàn)結(jié)果, 可以發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果較為相近, 這是由于編碼層采用了跨語言預(yù)訓(xùn)練模型XLM-R。相關(guān)研究也表明, 經(jīng)過大規(guī)模語料訓(xùn)練的 XLM-R 模型能有效地應(yīng)對(duì)多語言任務(wù), 尤其是小規(guī)模的訓(xùn)練語料, 在此基礎(chǔ)上增加少量下游參數(shù), 就可以達(dá)到不錯(cuò)的模型性能[19]?;谏鲜龇治? 其他實(shí)驗(yàn)都只在篇章譯文質(zhì)量評(píng)估語料上采用單步訓(xùn)練的方式。

從表 1 可以發(fā)現(xiàn), 本文提出的約束方案(Ours)應(yīng)用到基于預(yù)訓(xùn)練模型 XLM-R 的 OpenKiwi 質(zhì)量評(píng)估系統(tǒng)后, 性能比基線系統(tǒng)明顯提高, 比 Baseline2有 6.68 個(gè)百分點(diǎn)的提升, 表明本文方案在預(yù)測分?jǐn)?shù)的同時(shí)增加源文和譯文上下文之間的兩個(gè)約束, 能有效地提升分?jǐn)?shù)預(yù)測的性能。

3.2 實(shí)驗(yàn)分析

3.2.1 不同約束方案對(duì)模型性能的影響

為了分析不同約束方案對(duì)模型性能的影響, 本文開展了在預(yù)測質(zhì)量分?jǐn)?shù)的基礎(chǔ)上只增加一種約束的實(shí)驗(yàn), 結(jié)果如表 2 所示?!癝ent.”表示在預(yù)測翻譯分?jǐn)?shù)的同時(shí), 只增加對(duì)上下文的語義差異約束方案; “Coref.”表示在預(yù)測翻譯分?jǐn)?shù)的同時(shí), 只增加對(duì)指代信息差異的約束方案。

從表 2 可以看出, 只增加對(duì)上下文的語義差異約束方案(Sent.)比同時(shí)考慮兩種約束方案(Ours)低4.41 個(gè)百分點(diǎn); 只增加指代信息差異的約束方案(Coref.)比同時(shí)考慮兩種約束方案(Ours)低 8.36 個(gè)百分點(diǎn), 甚至低于基線系統(tǒng) Baseline2。實(shí)驗(yàn)結(jié)果表明, 上下文語義差異的約束(Sent.)是更重要的, 也進(jìn)一步說明, 只有整體質(zhì)量達(dá)到一定的水平, 由“錯(cuò)誤傳遞”得到的虛假一致性才能被有效地抑制。

表1 約束方案在中英譯文質(zhì)量評(píng)估測試集上的性能

說明: 粗體數(shù)字表示性能最佳, 下同。

表2 不同約束方案對(duì)模型性能的影響

3.2.2 不同句子級(jí)別語義特征表示對(duì)該實(shí)驗(yàn)結(jié)果的影響

受 Kim 等[24]啟發(fā), 基于預(yù)訓(xùn)練語言模型獲取句子表征, 可以通過“CLS 池化”、“平均池化”或“最大池化”反應(yīng)不同的句子特征。為了進(jìn)一步對(duì)比 3 種池化方式對(duì)模型性能的影響, 首先利用源文和譯文的第一個(gè)子詞的隱層表示作為句子語義特征向量, 然后分析不同的句子特征向量對(duì)實(shí)驗(yàn)性能的影響(圖3)。

實(shí)驗(yàn)結(jié)果如表 3 所示。其中, “Mean.”采取平均池化的方式來表示句子向量, 將輸入序列和中各部分的子詞的隱層表示的均值作為相應(yīng)部分的句子特征向量; “Max.”采用最大池化的方式來表示句子向量, 將輸入序列和中各部分的子詞的隱層表示的最大值作為相應(yīng)部分的句子特征向量。結(jié)果表明, 使用第一個(gè)子詞的隱層表示實(shí)驗(yàn)效果最好, 且其他方案相對(duì)于原始方案有大幅度的下降, 充分說明了本文方法的有效性。

3.2.3 實(shí)例分析

我們從測試集中選取一個(gè)篇章譯文質(zhì)量評(píng)估實(shí)例, 進(jìn)一步分析本文模型對(duì)質(zhì)量評(píng)估性能的改進(jìn)。

表3 不同句子級(jí)別語義特征表示對(duì)實(shí)驗(yàn)結(jié)果的影響

如圖 4 所示, 通過對(duì)比同一篇章(共包含 13 條句子)內(nèi)的句子的真實(shí)分?jǐn)?shù) HTER 與基線系統(tǒng) Baseline2和本文模型 Ours 的預(yù)測分?jǐn)?shù)可以看出, 本文模型Ours 預(yù)測的分?jǐn)?shù)整體上更接近真實(shí)值。如圖 4 所對(duì)應(yīng)的篇章中, 第 5 條、第 8 條和第 9 條句子上的變化最為明顯。

如表 4 所示, 本文選取性能差異較大的實(shí)例進(jìn)行直觀的展示。該實(shí)例為圖 4 對(duì)應(yīng)篇章的第 8 條句子。可以發(fā)現(xiàn), 相較于人工后編輯譯文 PE, 機(jī)器翻譯譯文 MT 存在明顯的翻譯錯(cuò)誤。比如, 在句子級(jí)別, 源文的“1991―1998”, MT 只翻譯了 1991 年; “室副主任”中的“室”翻譯位置錯(cuò)誤; 重復(fù)翻譯了“主任”等問題。在篇章級(jí)別, MT 未能直接翻譯出“he”, 存在漏譯的現(xiàn)象。相較于不考慮篇章信息訓(xùn)練的基線系統(tǒng), 本文提出的 QE 模型預(yù)測分?jǐn)?shù) 0.4537 更接近真實(shí)的 HTER 值 0.5000, 表明本文的模型能更好地捕捉到譯文的翻譯錯(cuò)誤程度。

4 結(jié)束語

本文提出一個(gè)篇章約束輔助的譯文質(zhì)量評(píng)估模型, 從句子級(jí)別的語義表示和詞級(jí)別的指代特征角度, 對(duì)源文和譯文上下文之間的差異進(jìn)行建模, 更新了訓(xùn)練目標(biāo), 提高了譯文質(zhì)量評(píng)估的性能。實(shí)驗(yàn)結(jié)果表明, 相較于基線模型, 本文模型有明顯的性能提升, 其中句子級(jí)別的差異約束對(duì)模型性能的提升更有效, 在此基礎(chǔ)上再引入指代約束可以進(jìn)一步提升系統(tǒng)的性能。最后, 借助篇章實(shí)例, 進(jìn)一步展示了本文模型的優(yōu)勢, 這將有利于從篇章角度找到細(xì)粒度的翻譯錯(cuò)誤, 例如是否使用了不符合上下文語義的單詞, 是否對(duì)省略進(jìn)行補(bǔ)全, 是否使用了正確的時(shí)態(tài), 等等。

表4 例子分析實(shí)驗(yàn)結(jié)果

圖4 不同模型預(yù)測分?jǐn)?shù)同真實(shí)分?jǐn)?shù)的對(duì)比

雖然本文提出的篇章約束輔助的訓(xùn)練方法能提高質(zhì)量評(píng)估的性能, 但是該方法只利用了相鄰句子的特征, 未來的研究中可以進(jìn)一步探索利用篇章更大范圍甚至全局的特征來輔助篇章譯文質(zhì)量評(píng)估任務(wù)。

致謝 研究工作得到蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院碩士研究生陳世男同學(xué)的幫助, 在此表示衷心感謝。

[1]趙鐵軍. 機(jī)器翻譯原理. 哈爾濱: 哈爾濱工業(yè)大學(xué)出版社, 2000

[2]Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate [EB/OL]. (2014–09–01) [2016–05–19]. https://arxiv. org/abs/1409.0473

[3]李亞超, 熊德意, 張民. 神經(jīng)機(jī)器翻譯綜述. 計(jì)算機(jī)學(xué)報(bào), 2018, 41(12): 2734–2755

[4]Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation // Proceedings of the 40th annual meeting of the Asso-ciation for Computational Linguistics. Philadelphia, 2002: 311–318

[5]Banerjee S, Lavie A. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments // Proceedings of the ACL work-shop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization. Prague, 2005: 65–72

[6]陳志明, 李茂西, 王明文. 基于神經(jīng)網(wǎng)絡(luò)特征的句子級(jí)別譯文質(zhì)量估計(jì). 計(jì)算機(jī)研究與發(fā)展, 2017, 54(8): 1804–1812

[7]Martins A F T, Junczys-Dowmunt M, Kepler F N, et al. Pushing the limits of translation quality estima-tion. Transactions of the Association for Computa-tional Linguistics, 2017, 5: 205–218

[8]Kreutzer J, Schamoni S, Riezler S. Quality estimation from scratch (QUETCH): deep learning for word-level translation quality estimation // Proceedings of the Tenth Workshop on Statistical Machine Transla-tion. Lisbon, 2015: 316–322

[9]Martins A F T, Kepler F, Monteiro J. Unbabel’s participation in the wmt17 translation quality estima-tion shared task // Proceedings of the Second Con-ference on Machine Translation. Copenhagen, 2017: 569–574

[10]Kim H, Jung H Y, Kwon H, et al. Predictor-estimator: neural quality estimation based on target word pre-diction for machine translation. ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP), 2017, 17(1): 1–22

[11]Kim H, Lee J H, Na S H. Predictor-estimator using multilevel task learning with stack propagation for neural quality estimation // Proceedings of the Second Conference on Machine Translation. Copenhagen, 2017: 562–568

[12]Voita E, Sennrich R, Titov I. When a good translation is wrong in context: context-aware machine transla-tion improves on deixis, ellipsis, and lexical cohesion // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, 2019: 1198–1212

[13]Specia L, Paetzold G, Scarton C. Multi-level transla-tion quality prediction with quest++ // Proceedings of ACL-IJCNLP 2015 system demonstrations. Beijing, 2015: 115–120

[14]Ive J, Blain F, Specia L. DeepQuest: a framework for neural-based quality estimation // Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, 2018: 3146–3157

[15]Chen Y, Zhong E, Tong Y, et al. A document-level machine translation quality estimation model based on centering theory // China Conference on Machine Translation. Singapore: Springer, 2021: 1–15

[16]Walker M A, Joshi A K, Prince E F. Centering in naturally-occurring discourse: an overview [EB/OL]. (2013–07–24) [2022–01–02]. https://www.researchga te.net/publication/2585846

[17]Kepler F, Trénous J, Treviso M, et al. OpenKiwi: an open source framework for quality estimation // Pro-ceedings of the 57th Annual Meeting of the Associa-tion for Computational Linguistics: System Demon-strations. Florence, 2019: 117–122

[18]Moura J, Vera M, van Stigt D, et al. IST-unbabel participation in the WMT20 quality estimation shared task // Proceedings of the Fifth Conference on Machine Translation. Online Meeting, 2020: 1029–1036

[19]Conneau A, Khandelwal K, Goyal N, et al. Unsuper-vised cross-lingual representation learning at scale // Proceedings of the 58th Annual Meeting of the Asso-ciation for Computational Linguistics. Online Mee-ting, 2020: 8440–8451

[20]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in Neural Information Pro-cessing Systems. Long Beach, 2017: 6000–6010

[21]Conneau A, Wu S, Li H, et al. Emerging cross-lingual structure in pretrained language models // Procee-dings of the 58th Annual Meeting of the Association for Computational Linguistics. Online Meeting, 2020: 6022–6034

[22]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for lan-guage understanding // Proceedings of the 2019 Con-ference of the North American Chapter of the Asso-ciation for Computational Linguistics. Minneapolis, 2019: 4171–4186

[23]Lee K, He L, Zettlemoyer L. Higher-order corefe-rence resolution with coarse-to-fine inference // Pro-ceedings of the 2018 Conference of the North Ame-rican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers). New Orleans, 2018: 687–692

[24]Kim T, Yoo K M, Lee S. Self-guided contrastive learning for BERT sentence representations // Procee-dings of the 59th Annual Meeting of the Associa- tion for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Online Meeting, 2021: 2528–2540

Document Constrained Translation Quality Estimation Model

FENG Qin, GONG Zhengxian?, YE Heng, ZHOU Guodong

Department of Computer Science and Technology, Soochow University, Soochow 215000; ? Corresponding author, E-mail: zhxgong@suda.edu.cn

This paper proposes a new translation quality estimation model that does not rely on the reference translation to score the translation of each sentence in the source language. The authors model the sentence-level semantic difference and word-level referential difference between the source and translation and design additional loss function to make the model constrain the differences as much as possible when predicting scores. The experimental results show that proposed method can effectively improve the performance of quality estimation model. Compared with the baseline system, the proposed method improves the Pearson correlation coefficient by up to 6.68 percentage points.

document; semantic difference; referential difference; translation quality estimation

猜你喜歡
指代譯文約束
Let’s Save Food To Fight Hunger
奧卡姆和布列丹對(duì)指代劃分的比較
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
“碳中和”約束下的路徑選擇
約束離散KP方程族的完全Virasoro對(duì)稱
譯文摘要
I Like Thinking
“不一而足”話討論
適當(dāng)放手能讓孩子更好地自我約束
人生十六七(2015年6期)2015-02-28 13:08:38
自然語言中的指代技術(shù)的研究
河南科技(2014年10期)2014-02-27 14:09:37
博乐市| 济阳县| 崇左市| 静海县| 绥宁县| 柘荣县| 太仆寺旗| 盖州市| 开江县| 西宁市| 防城港市| 丰原市| 龙里县| 鸡泽县| 兴宁市| 武隆县| 塔城市| 嘉义市| 元阳县| 迭部县| 长宁县| 德兴市| 胶州市| 五原县| 靖安县| 泸西县| 绥棱县| 城固县| 石城县| 观塘区| 海阳市| 吕梁市| 屯门区| 行唐县| 锡林郭勒盟| 延安市| 新疆| 和龙市| 博湖县| 屯留县| 凤庆县|