裘白蓮,王明文,李茂西,陳 聰,徐 凡
(1. 江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022;2. 華東交通大學(xué) 外國語學(xué)院,江西 南昌 330013)
機(jī)器翻譯質(zhì)量評(píng)價(jià)是機(jī)器翻譯研究的重要內(nèi)容。機(jī)器翻譯質(zhì)量評(píng)價(jià)主要有人工評(píng)價(jià)和自動(dòng)評(píng)價(jià)兩種方式。由于人工評(píng)價(jià)成本較高,周期較長,不易獲得,目前機(jī)器翻譯質(zhì)量評(píng)價(jià)大多采用自動(dòng)評(píng)價(jià)指標(biāo),如BLEU[1],METEOR[2]和TER[3]等。這些自動(dòng)評(píng)價(jià)指標(biāo)依據(jù)參考譯文對機(jī)器譯文給出整體得分,能夠反映機(jī)器翻譯質(zhì)量整體情況,但是無法反映機(jī)器譯文具體存在哪些問題,需要在哪些方面進(jìn)行改進(jìn)。為獲取存在問題的具體信息,就需要進(jìn)行機(jī)器翻譯錯(cuò)誤分析。錯(cuò)誤分析可以找出機(jī)器譯文中具體存在的問題,有助于了解機(jī)器翻譯系統(tǒng)的不足,找準(zhǔn)改進(jìn)的方向,還可以為機(jī)器翻譯質(zhì)量估計(jì)、錯(cuò)誤預(yù)測、自動(dòng)譯后編輯提供參考。近十幾年來,錯(cuò)誤分析在國外機(jī)器翻譯研究領(lǐng)域受到重視,出現(xiàn)很多相關(guān)的研究,例如,使用錯(cuò)誤分析評(píng)價(jià)機(jī)器翻譯質(zhì)量[4]、分析機(jī)器翻譯的錯(cuò)誤類型[5]、通過錯(cuò)誤分析對NMT和PBMT進(jìn)行細(xì)粒度的人工評(píng)價(jià)[6]。但國內(nèi)相關(guān)研究還較少,僅有一些針對機(jī)器譯文錯(cuò)誤進(jìn)行的語言學(xué)分析。例如,羅季美和李梅[7]將機(jī)器譯文錯(cuò)誤分為詞匯錯(cuò)譯、句法錯(cuò)譯、符號(hào)錯(cuò)譯三大類并展開分析,或從短語和句子層面分析機(jī)器翻譯的句法錯(cuò)誤[8]。這些研究僅使用獨(dú)立的人工譯文與機(jī)器譯文做對比展開分析,而且針對的是傳統(tǒng)的機(jī)器翻譯系統(tǒng)如RBMT,其錯(cuò)誤分析的結(jié)果已不能反映當(dāng)前機(jī)器翻譯的水平。孫逸群[9]對5篇海洋類論文摘要機(jī)輔翻譯中的錯(cuò)誤進(jìn)行了剖析,其錯(cuò)誤分析側(cè)重實(shí)例分析和改錯(cuò),而且語料規(guī)模小,不具代表性。據(jù)我們了解,目前還沒有專門針對英漢機(jī)器翻譯錯(cuò)誤分析可公開獲得的語料庫。值得注意的是,隨著神經(jīng)機(jī)器翻譯的發(fā)展,機(jī)器翻譯質(zhì)量極大提高,但是英漢翻譯方向神經(jīng)機(jī)器翻譯質(zhì)量究竟如何,還存在哪些具體問題,針對這些問題還鮮有專門的錯(cuò)誤分析,本文嘗試針對這些問題展開研究與探討。
錯(cuò)誤分析和譯后編輯是高度相關(guān)的工作,錯(cuò)誤分析是找出機(jī)器譯文的錯(cuò)誤,譯后編輯是改正機(jī)器譯文的錯(cuò)誤。錯(cuò)誤分析和譯后編輯都可以用來評(píng)價(jià)機(jī)器翻譯的質(zhì)量,但以往的研究大多把錯(cuò)誤分析和譯后編輯單獨(dú)使用或單獨(dú)作為研究對象,較少有把兩者結(jié)合起來的研究。我們將譯后編輯和錯(cuò)誤分析結(jié)合起來,先對機(jī)器譯文進(jìn)行譯后編輯,然后以譯后編輯譯文(PE譯文)作為參照,對機(jī)器譯文進(jìn)行錯(cuò)誤標(biāo)注。在此基礎(chǔ)上,構(gòu)建了一個(gè)細(xì)粒度英漢機(jī)器翻譯錯(cuò)誤分析語料庫(Fine-grained Error Analysis Corpus of English-Chinese Machine Translation, ErrAC)。PE譯文比參考譯文更適合作為錯(cuò)誤標(biāo)注參照的原因在于,翻譯本來就存在一文多譯的現(xiàn)象,同一個(gè)源語言句子可以有多種不同的正確譯文,而在機(jī)器譯文的基礎(chǔ)上進(jìn)行譯后編輯,力求PE譯文是最接近機(jī)器譯文的正確譯文,其編輯距離最短。因此,以PE譯文來衡量機(jī)器翻譯的質(zhì)量相對而言更客觀,更能準(zhǔn)確地找出機(jī)器翻譯真正存在的問題。文獻(xiàn)[3]表明,使用人工譯后編輯譯文得到的HTER值,相比最接近機(jī)器譯文的參考譯文的TER,更能準(zhǔn)確地衡量機(jī)器翻譯的質(zhì)量,而且,HTER與人工評(píng)價(jià)的相關(guān)性比BLEU與人工評(píng)價(jià)的相關(guān)性更高。下面給出了WMT19新聞機(jī)器翻譯測試集上的兩個(gè)實(shí)例,它們表明以人工參考譯文和PE譯文作為錯(cuò)誤分析參照的區(qū)別。
例1
源語言句子: It would be extremely ill advised to venture out into the desert on foot with the threat of tropical rainfall.機(jī)器譯文: 在 熱帶 降雨 的 威脅 下 , 徒步 冒險(xiǎn) 進(jìn)入 沙漠 是 極 不 明智 的。PE譯文: 在 熱帶 降雨 的 威脅 下 , 徒步 冒險(xiǎn) 進(jìn)入 沙漠 是 極 不 明智 的。參考譯文: 由于 熱帶 降雨 的 威脅 , 沙漠 冒險(xiǎn) 活動(dòng) 將 十分 危險(xiǎn)。PE譯文WER 0.00 參考譯文WER 76.92
例2
源語言句子: Do you think he’s telling the truth to the country?機(jī)器譯文: 你 認(rèn)為 他 對 國家 說 的 是 真話 嗎 ?PE譯文: 你 認(rèn)為 他 對 國人 說 的 是 真話 嗎 ?參考譯文: 你 覺得 他 對 國人 所 說 的 是 事實(shí) 嗎 ?PE譯文WER 8.33 參考譯文WER 35.71
從例1可見,機(jī)器譯文是正確的譯文,達(dá)到了對翻譯的忠實(shí)、通順的要求,但是與參考譯文有很大的差別。如果按照參考譯文來標(biāo)注錯(cuò)誤,那么會(huì)得出這一機(jī)器譯文質(zhì)量低劣的結(jié)果,其WER值(1)Word Error Rate,詞錯(cuò)誤率。高達(dá)76.92,這樣顯然無法準(zhǔn)確、有效地衡量機(jī)器譯文質(zhì)量。例2中,譯后編輯實(shí)際上只需要一次替換的編輯操作,即修改一處錯(cuò)詞,就可以達(dá)到忠實(shí)、通順的要求,PE譯文WER為8.33,但是機(jī)器譯文與參考譯文的差別較大,WER為35.71,把機(jī)器譯文修改成參考譯文需要三次替換操作和一次插入操作。由此可見,使用PE譯文作為參照對機(jī)器譯文進(jìn)行錯(cuò)誤標(biāo)注,比直接使用參考譯文更客觀,更能準(zhǔn)確地反映機(jī)器翻譯系統(tǒng)的問題。
本文工作的意義體現(xiàn)在以下三個(gè)方面: 1)獲得對神經(jīng)機(jī)器翻譯質(zhì)量更客觀、更準(zhǔn)確的評(píng)價(jià); 2)為機(jī)器翻譯系統(tǒng)開發(fā)、譯后編輯工作提供參考; 3)可以為機(jī)器翻譯質(zhì)量估計(jì)、錯(cuò)誤預(yù)測、自動(dòng)譯后編輯提供數(shù)據(jù)和參考。
本文組織結(jié)構(gòu)如下: 第1節(jié)介紹錯(cuò)誤分析和譯后編輯相關(guān)研究和相關(guān)語料庫建設(shè)情況;第2節(jié)介紹語料來源和語料庫構(gòu)建過程;第3節(jié)對錯(cuò)誤標(biāo)注結(jié)果進(jìn)行統(tǒng)計(jì)與分析;第4節(jié)總結(jié)全文。
錯(cuò)誤分析可以以人工和自動(dòng)兩種方式進(jìn)行。Vilar 等人[10]建立了人工錯(cuò)誤分析的框架,定義了錯(cuò)誤類型,根據(jù)錯(cuò)誤分類對機(jī)器譯文進(jìn)行錯(cuò)誤標(biāo)注。Popovic等人[11]提出基于屈折變化和句法信息的自動(dòng)錯(cuò)誤分析框架,自動(dòng)獲得錯(cuò)誤的細(xì)節(jié)信息。機(jī)器翻譯錯(cuò)誤分析主要有以下幾種應(yīng)用: 第一,用于評(píng)價(jià)某一機(jī)器翻譯系統(tǒng)的質(zhì)量[12],或比較幾種不同的機(jī)器翻譯系統(tǒng),通常是比較SMT和NMT等不同系統(tǒng)[13-15];第二,考察不同錯(cuò)誤類型對機(jī)器翻譯質(zhì)量的影響[16-17];第三,用于譯后編輯的相關(guān)研究,考察不同錯(cuò)誤類型對譯后編輯工作量不同方面的影響[18-19]。但是,這些研究或是在機(jī)器譯文上進(jìn)行錯(cuò)誤分析,或以參考譯文為參照進(jìn)行錯(cuò)誤分析,而不是以PE譯文為參考,這會(huì)導(dǎo)致錯(cuò)誤分析與實(shí)際情況存在偏差。
隨著譯后編輯在翻譯行業(yè)越來越普遍,逐漸出現(xiàn)了一些可公開獲得的譯后編輯語料[20]。 WMT從2012年開始質(zhì)量估計(jì)子任務(wù),從2015年開始自動(dòng)譯后編輯子任務(wù),這兩個(gè)子任務(wù)都提供了譯后編輯譯文語料。部分語料還有錯(cuò)誤標(biāo)注,包括基本的編輯距離操作,如替換、刪除、插入和移位,或者“好”“差”二元標(biāo)簽,其語言對涉及英德、英俄等。CWMT從2018年開始翻譯質(zhì)量估計(jì)任務(wù),提供英漢語言對機(jī)器翻譯譯后編輯譯文,部分語料有“好”“差”二元標(biāo)簽,部分語料有每個(gè)句子的HTER值。這些語料對機(jī)器翻譯質(zhì)量估計(jì)、錯(cuò)誤預(yù)測、自動(dòng)譯后編輯、譯后編輯人員培訓(xùn)都非常有用。
同時(shí),還出現(xiàn)了一些做了錯(cuò)誤標(biāo)注的譯后編輯語料庫。例如,TRACE語料庫[21]包含法英、英法譯后編輯譯文,其中有基本編輯距離錯(cuò)誤類型的標(biāo)注。Koponen[22]使用英西機(jī)器翻譯語料,提供譯后編輯譯文,對語料進(jìn)行錯(cuò)誤標(biāo)注,研究錯(cuò)誤類型與估計(jì)的譯后編輯工作量、實(shí)際編輯操作之間的關(guān)系,但是其語料不能公開獲得。
Terra語料庫[23]是可以公開獲得的人工錯(cuò)誤標(biāo)注語料庫,用于自動(dòng)錯(cuò)誤分類工具Addicter[24]和Hjerson[25]的評(píng)估。這個(gè)語料庫由不同研究小組獨(dú)立標(biāo)注,標(biāo)注策略各不相同,有的小組不使用參考譯文,有的小組使用參考譯文,這樣會(huì)導(dǎo)致錯(cuò)誤標(biāo)注一致性不高,因?yàn)闃?biāo)注策略不同,標(biāo)注的結(jié)果會(huì)有較大差異。而且,這項(xiàng)工作中的人工錯(cuò)誤分類和自動(dòng)錯(cuò)誤分類是完全獨(dú)立進(jìn)行的。TARAXü語料庫[26]也能夠公開獲得,該語料庫包含譯后編輯譯文和機(jī)器翻譯錯(cuò)誤標(biāo)注數(shù)據(jù),但是這兩項(xiàng)工作是完全獨(dú)立進(jìn)行的,并且不是在同一個(gè)數(shù)據(jù)集上進(jìn)行的。PE2rr語料庫[27]在譯后編輯譯文的基礎(chǔ)上進(jìn)行錯(cuò)誤標(biāo)注,更準(zhǔn)確地反映了機(jī)器譯文的錯(cuò)誤情況,可以公開獲得,但是該語料庫只包含英語、塞爾維亞語、德語、西班牙語語料。這些語言均屬于印歐語系,語言之間的差別相對較小,其錯(cuò)誤分析的數(shù)據(jù)可能無法一般化。英語和漢語分屬于不同的語系,差別較大。一些印歐語系語言之間機(jī)器翻譯常見的錯(cuò)誤,如屈折錯(cuò)誤,在英漢語言方向上并不存在,而有的錯(cuò)誤類型則可能比較突出,那么英漢機(jī)器翻譯與其它相同語系語言之間機(jī)器翻譯的錯(cuò)誤情況、錯(cuò)誤分布有沒有差異、有什么差異,就需要專門進(jìn)行英漢機(jī)器翻譯錯(cuò)誤分析,而目前英漢語言對機(jī)器翻譯質(zhì)量評(píng)價(jià)和錯(cuò)誤分析還缺少類似的語料庫。
本節(jié)介紹語料來源和語料庫構(gòu)建過程。語料庫構(gòu)建過程分為兩個(gè)階段: 譯后編輯和錯(cuò)誤標(biāo)注。首先由專業(yè)人士進(jìn)行譯后編輯,然后采用自動(dòng)錯(cuò)誤標(biāo)注加人工標(biāo)注的方式進(jìn)行錯(cuò)誤標(biāo)注。
我們的語料來源為WMT2019新聞機(jī)器翻譯測試集英中翻譯方向,該測試集包括源語言句子、機(jī)器譯文和人工翻譯的參考譯文。我們將測試集按照新聞內(nèi)容分為六類: 政治、經(jīng)濟(jì)、社會(huì)、體育、科教和文藝。我們使用的機(jī)器譯文是KSAI組(金山AI)提交的機(jī)器譯文,該小組在英中機(jī)器翻譯任務(wù)中人工打分排名第一。KSAI組提交的機(jī)器譯文是基于各種神經(jīng)機(jī)器翻譯模型,以Transformer作為基線系統(tǒng),使用了幾種數(shù)據(jù)過濾和回譯作為數(shù)據(jù)清潔和數(shù)據(jù)增強(qiáng)的方法。最終模型是經(jīng)過多模型集成、重排序、后處理的系統(tǒng)組合[28]。語料庫的統(tǒng)計(jì)信息見表1,句子數(shù)為1 997,源語言句子詞數(shù)為42 034,機(jī)器譯文詞數(shù)為51 693,編輯詞數(shù)為8 380。編輯詞數(shù)百分比是按照編輯詞數(shù)與機(jī)器譯文詞數(shù)加漏詞數(shù)量的百分比來計(jì)算的。
表1 源語言句子詞數(shù)、機(jī)器譯文詞數(shù)及編輯詞數(shù)
續(xù)表
進(jìn)行本次譯后編輯工作的譯后編輯人員為兩名翻譯專業(yè)教師,均精通英漢兩種語言,具有豐富的翻譯和譯審經(jīng)驗(yàn)。為保證譯后編輯質(zhì)量,在進(jìn)行譯后編輯之前,譯后編輯人員經(jīng)過多次討論和修改,知曉此次譯后編輯的目標(biāo)和原則。譯后編輯的目標(biāo)是修改機(jī)器譯文的錯(cuò)誤,使譯文達(dá)到忠實(shí)源語言句子、語句通順的要求,質(zhì)量適中即可。本次譯后編輯采取輕度譯后編輯的原則,即只進(jìn)行最少量的必要的編輯操作以達(dá)到譯文質(zhì)量可接受的效果,不考慮風(fēng)格、文采問題,也不考慮譯后編輯人員在用詞習(xí)慣、語法結(jié)構(gòu)等方面的個(gè)人喜好問題。針對本次譯后編輯制定五條具體指南: (1)力求譯文意思正確、語句通順; (2)確保沒有信息增加或遺漏; (3)盡可能多地使用機(jī)器譯文;(4)除非影響語義,否則不修改句子結(jié)構(gòu); (5)單純的風(fēng)格問題無需修改。
表1表明了語料庫句子數(shù)、源語言句子詞數(shù)、機(jī)器譯文詞數(shù),以及機(jī)器譯文經(jīng)過譯后編輯的編輯詞數(shù)。整體編輯詞數(shù)百分比為16.2%,需要進(jìn)行編輯修改的比例不是很大,這表明在新聞翻譯對質(zhì)量要求適中的應(yīng)用場景中,在領(lǐng)域語料比較豐富的基礎(chǔ)上,神經(jīng)機(jī)器翻譯質(zhì)量可接受程度高,機(jī)器譯文在很大程度上可用。在各種新聞?lì)悇e中,編輯詞數(shù)百分比最大的是體育新聞,達(dá)到25.7%,是出現(xiàn)錯(cuò)誤最多、需要譯后編輯量最大的新聞?lì)悇e。而編輯詞數(shù)百分比最小的是政治新聞,為12.5%,是需要譯后編輯量最小的新聞?lì)悇e??梢?,不同新聞?lì)悇e之間機(jī)器翻譯質(zhì)量的差別較大,其可能的原因在于相關(guān)領(lǐng)域訓(xùn)練語料規(guī)模的大小。
我們以WER表示機(jī)器譯文每個(gè)句子的編輯距離,按照編輯距離的大小將所需的譯后編輯工作量(體現(xiàn)為所進(jìn)行的實(shí)際編輯操作)分為四個(gè)等級(jí),結(jié)果見表2。從表2可以看出,有26%的句子已經(jīng)可接受,無需任何編輯操作,47.8%的句子只需要少量編輯操作即可達(dá)到質(zhì)量適中的要求,17.2%的句子需要中等編輯工作量,只有9%的句子需要進(jìn)行大量修改。ErrAC語料庫中也給出了每個(gè)句子的WER值。在不同新聞?lì)悇e中,體育類需要的譯后編輯工作量相對較高,不需要編輯操作的比例為14.4%,低于其他所有類別,而需要進(jìn)行大量譯后編輯操作的比例達(dá)到21%。
表2 譯后編輯工作量等級(jí)分布
錯(cuò)誤標(biāo)注工作分兩個(gè)階段進(jìn)行。首先,以PE譯文為參考,使用Hjerson自動(dòng)錯(cuò)誤標(biāo)注工具進(jìn)行錯(cuò)誤標(biāo)注;然后,將自動(dòng)錯(cuò)誤標(biāo)注的結(jié)果一一進(jìn)行人工核對和修改,并細(xì)化和擴(kuò)展錯(cuò)誤類型。
進(jìn)行錯(cuò)誤標(biāo)注之前先對中文語料進(jìn)行預(yù)處理,采用清華THULAC分詞工具進(jìn)行分詞。Hjerson工具以機(jī)器譯文和PE譯文作為輸入,以詞為單位進(jìn)行錯(cuò)誤標(biāo)注,輸出錯(cuò)誤標(biāo)注結(jié)果。Hjerson工具可以識(shí)別和標(biāo)注五種類型的錯(cuò)誤,即增詞、漏詞、錯(cuò)詞、詞序錯(cuò)誤和屈折錯(cuò)誤(動(dòng)詞時(shí)態(tài)/人稱/情態(tài)/格/性/數(shù))。Hjerson工具主要是針對英語、德語等印歐語系語言開發(fā)的,其中的屈折錯(cuò)誤常出現(xiàn)于印歐語系語言之間的翻譯中,而英漢機(jī)器翻譯的目的語為漢語,漢語不是屈折語言,沒有屈折錯(cuò)誤,因此Hjerson實(shí)際上標(biāo)注出來的錯(cuò)誤有四種,即增詞、漏詞、錯(cuò)詞和詞序錯(cuò)誤,在ErrAC語料庫中分別以ext、miss、lex和reord表示。除漏詞錯(cuò)誤,所有其他錯(cuò)誤均針對機(jī)器譯文做標(biāo)注。其中,在機(jī)器譯文中出現(xiàn)了而在PE譯文中沒有出現(xiàn)的詞標(biāo)注為增詞。在PE譯文中出現(xiàn)了而在機(jī)器譯文中沒有出現(xiàn)的詞標(biāo)注為漏詞。漏詞錯(cuò)誤需要針對PE譯文做標(biāo)注,因?yàn)槁┰~是機(jī)器譯文中沒有的詞,無法在機(jī)器譯文的標(biāo)注中體現(xiàn),在PE譯文上做標(biāo)注,才能體現(xiàn)漏詞錯(cuò)誤及漏詞的位置。
自動(dòng)標(biāo)注之后進(jìn)行人工標(biāo)注,標(biāo)注者為本文作者之一,知曉標(biāo)注規(guī)則和方法。在人工標(biāo)注階段,除核對和修改自動(dòng)錯(cuò)誤標(biāo)注,還對錯(cuò)誤類型進(jìn)行了細(xì)化和擴(kuò)展。細(xì)化針對增詞錯(cuò)誤類型,細(xì)化的標(biāo)注有兩種,一是數(shù)詞加量詞,二是人稱代詞加結(jié)構(gòu)助詞。由于英漢語言習(xí)慣的差別,這兩種增詞錯(cuò)誤是英漢翻譯中經(jīng)常出現(xiàn)的問題,在機(jī)器翻譯中更為明顯。英文中的冠詞a或an,在機(jī)器翻譯中常被譯為一個(gè)、一種、一名等,而很多情況下按照漢語的習(xí)慣用法這些是應(yīng)該省略的,如例3所示。數(shù)詞和量詞的增詞分別標(biāo)注為ext-num和ext-cla,其出現(xiàn)次數(shù)分別為81次和83次,占增詞總數(shù)的4.76%和4.87%。
例3
源語言句子: Thomas Bjorn, the European captain, knows from experience that a sizeable lead heading into the last-day sin-gles in the Ryder Cup can easily turn into an uncomfortable ride.機(jī)器譯文: 歐洲 隊(duì)長 托馬斯 · 比約恩 (Thomas Bjorn) 從 經(jīng)驗(yàn) 中 知道 , 在 萊德杯 最后 一 天 的 單打 比賽 中 , 一 個(gè) 相當(dāng) 大 的 領(lǐng)先 優(yōu)勢 很 容易 演變 成 一 場 不 舒服 的 比賽。PE譯文: 歐洲 隊(duì)長 托馬斯 · 比約恩 (Thomas Bjorn) 根據(jù) 經(jīng)驗(yàn) 知道 , 在 萊德杯 最后 一 天 的 單打 比賽 中 , 大比分 的 領(lǐng)先 優(yōu)勢 也 很 容易 變 成 不利 局面。機(jī)器譯文標(biāo)注: x x x x x x x x x lex x lex x x x x x x x x x x x x ext-num ext-cla lex lex x x x x x lex x ext-num ext-cla lex lex lex lex xPE譯文標(biāo)注: x x x x x x x x x lex x x x x x x x x x x x x x lex x x x miss x x lex x lex lex x
此外,英語中的人稱代詞we/he/she/they等及其相應(yīng)物主代詞our/his/her/their等,在機(jī)器翻譯中基本都按原本譯出,但是根據(jù)漢語使用習(xí)慣,很多時(shí)候在譯文中都應(yīng)該省略,否則譯文不自然、不通順,如例4所示。人稱代詞和結(jié)構(gòu)助詞增詞分別標(biāo)注為ext-pro和ext-aux,分別出現(xiàn)114次和84次,分別占增詞總數(shù)的6.69%和4.93%。
例4
源語言句子: We’ve transformed the look and feel of our beauty aisles to enhance the environment for our customers.機(jī)器譯文: 我們 已經(jīng) 改變 了 我們 美容 通道 的 外觀 和 感覺 , 為 我們 的 客戶 改善 了 環(huán)境。PE譯文: 我們 已經(jīng) 改變 了 美容 通道 的 外觀 和 氛圍 , 為 客戶 改善 環(huán)境。機(jī)器譯文標(biāo)注: x x x x ext-pro x x x x x lex x x ext-pro ext-aux x x ext x xPE譯文標(biāo)注: x x x x x x x x x lex x x x x x x
人工標(biāo)注階段擴(kuò)展的三種錯(cuò)誤類型為未譯、命名實(shí)體翻譯錯(cuò)誤和標(biāo)點(diǎn)符號(hào)錯(cuò)誤。機(jī)器譯文中出現(xiàn)了一些未經(jīng)翻譯的英文單詞,標(biāo)注為untr。機(jī)器譯文中還出現(xiàn)了一些命名實(shí)體翻譯錯(cuò)誤或命名實(shí)體翻譯前后不一致的問題,包括人名、地名、組織機(jī)構(gòu)名稱等。未譯的大多都是命名實(shí)體,但因?yàn)殄e(cuò)誤形式不同,所以做了區(qū)分。命名實(shí)體翻譯錯(cuò)誤標(biāo)注為nen。此外,還有標(biāo)點(diǎn)符號(hào)錯(cuò)誤、多余或遺漏的問題,這類問題全部歸類為標(biāo)點(diǎn)符號(hào)錯(cuò)誤,標(biāo)注為punc。
除了細(xì)化和擴(kuò)展錯(cuò)誤類型,在人工標(biāo)注階段還進(jìn)行了多標(biāo)簽錯(cuò)誤標(biāo)注。因?yàn)橛械脑~存在多種錯(cuò)誤,如錯(cuò)詞、未譯、命名實(shí)體翻譯錯(cuò)誤也可能出現(xiàn)在錯(cuò)誤的位置上,即同時(shí)也是詞序錯(cuò)誤。這種情況自動(dòng)錯(cuò)誤標(biāo)注工具無法標(biāo)注,在人工階段做了補(bǔ)充,針對疊加的詞序錯(cuò)誤標(biāo)注了多錯(cuò)誤標(biāo)簽,在語料庫中表示為+reord。
錯(cuò)誤標(biāo)注完成之后,為檢驗(yàn)標(biāo)注質(zhì)量,我們進(jìn)行了標(biāo)注者一致性分析。采用取樣的方法,取數(shù)據(jù)集中前100個(gè)句子,分別由A1和A2兩位標(biāo)注者獨(dú)立進(jìn)行標(biāo)注,兩位標(biāo)注者均經(jīng)過培訓(xùn),知曉標(biāo)注規(guī)則和方法。錯(cuò)誤標(biāo)注不是簡單地打分或排序,它涉及所標(biāo)注的錯(cuò)誤數(shù)量、錯(cuò)誤類型和標(biāo)注的位置,標(biāo)注者一致性不容易計(jì)算。我們采用關(guān)于錯(cuò)誤標(biāo)注不同標(biāo)注者一致性的計(jì)算方法[29],該計(jì)算方法關(guān)注所標(biāo)注錯(cuò)誤的共現(xiàn)情況,如式(1)所示。
(1)
其中,上標(biāo)all表示每位標(biāo)注者標(biāo)注的總數(shù),上標(biāo)agree表示兩位標(biāo)注者標(biāo)注錯(cuò)誤類型相同的數(shù)量。不同標(biāo)注者一致性詳見表3,整體一致性達(dá)90.6%。可見,在自動(dòng)標(biāo)注工具的基礎(chǔ)上進(jìn)行人工修改,不僅提高了錯(cuò)誤標(biāo)注效率,也有助于提高標(biāo)注者一致性。
表3 不同標(biāo)注者一致性 (單位: %)
該計(jì)算方法關(guān)注所標(biāo)注錯(cuò)誤的類型和數(shù)量,沒有考慮標(biāo)注錯(cuò)誤的位置。在ErrAC語料庫中,我們經(jīng)過觀察發(fā)現(xiàn),不同標(biāo)注者出現(xiàn)標(biāo)注位置不一致的主要是詞序錯(cuò)誤,即reord的標(biāo)注位置會(huì)有差異,其他錯(cuò)誤類型的標(biāo)注位置基本上差異不大。在各種錯(cuò)誤類型中,增詞的標(biāo)注者一致性相對較低,這是因?yàn)樵谟h翻譯中,詞與詞并不是一一對應(yīng)的,詞一對多、多對一的情況很常見,會(huì)造成標(biāo)注者對于某個(gè)詞是屬于增詞還是錯(cuò)詞的標(biāo)注產(chǎn)生差異。例如,源語言句子中“holiday homes”,機(jī)器譯文為“度假 之 家”,PE譯文為“度假屋”,標(biāo)注者A1標(biāo)注為“l(fā)ex lex lex”,標(biāo)注者A2標(biāo)注為“l(fā)ex ext lex”。兩者對“之”字的錯(cuò)誤類型標(biāo)注不一致,分歧的原因在于標(biāo)注者A1將“度假 之 家”三個(gè)詞理解為對應(yīng)源語言句子“holiday homes”兩個(gè)詞,而標(biāo)注者A2的理解是“度假”對應(yīng)源語言句子“holiday”,“家”對應(yīng)源語言句子“home”,那么“之”就理解為增詞。
采用同樣的計(jì)算方法,我們還計(jì)算了同一標(biāo)注者一致性。在標(biāo)注者A1完成第一次標(biāo)注之 后,間隔兩個(gè)月的時(shí)間,隨機(jī)取數(shù)據(jù)集中100個(gè)句子再次進(jìn)行標(biāo)注。經(jīng)過計(jì)算得出,同一標(biāo)注者一致性為93.6%。
我們對錯(cuò)誤標(biāo)注結(jié)果做了統(tǒng)計(jì),每種錯(cuò)誤類型的數(shù)量和錯(cuò)誤率見表4和表5。錯(cuò)誤率是錯(cuò)誤數(shù)量與文本總詞數(shù)的百分比,這樣方便對不同的機(jī)器譯文進(jìn)行錯(cuò)誤分析時(shí)相互比較。從表4可見,數(shù)量最多的錯(cuò)誤類型是錯(cuò)詞,即在機(jī)器翻譯中選擇了錯(cuò)誤的詞匯進(jìn)行翻譯,錯(cuò)詞數(shù)量為3 861,約占編輯詞數(shù)的46%。其次是增詞,數(shù)量為1 703,約占編輯詞數(shù)的20%。詞序錯(cuò)誤和漏詞分別約占16%和13%。
表4 錯(cuò)誤類型數(shù)量
表5 錯(cuò)誤率 (單位: %)
錯(cuò)誤分析對機(jī)器翻譯系統(tǒng)開發(fā)具有很好的參考價(jià)值,其主要意義在于,有助于了解機(jī)器翻譯系統(tǒng)存在的具體問題,了解系統(tǒng)的不足和短板,明確改進(jìn)的方向,為機(jī)器翻譯系統(tǒng)開發(fā)提供參考。我們對神經(jīng)機(jī)器翻譯譯文進(jìn)行錯(cuò)誤分析,根據(jù)所發(fā)現(xiàn)的主要問題,對機(jī)器翻譯系統(tǒng)開發(fā)提出如下建議。
第一,針對一詞多義問題。通過錯(cuò)誤分析可知,錯(cuò)詞問題是神經(jīng)機(jī)器翻譯的主要問題。機(jī)器譯文中錯(cuò)詞問題大多是因?yàn)樵凑Z言句子中一詞多義,而目前的神經(jīng)機(jī)器翻譯技術(shù)沒有對句子進(jìn)行真正的理解,無法根據(jù)領(lǐng)域和上下文信息來選擇正確的義項(xiàng),導(dǎo)致翻譯時(shí)選詞錯(cuò)誤。建議機(jī)器翻譯系統(tǒng)開發(fā)時(shí),一方面,通過引入外部的領(lǐng)域知識(shí)庫或知識(shí)圖譜,充分利用外部知識(shí);另一方面,通過大型單語語料庫訓(xùn)練準(zhǔn)確的語境詞向量進(jìn)行詞義消岐,充分利用上下文信息,來緩解一詞多義導(dǎo)致的錯(cuò)詞問題。
第二,針對增詞錯(cuò)誤。在ErrAC語料庫中,代詞加結(jié)構(gòu)助詞、數(shù)詞加量詞這兩種類型的增詞占增詞總數(shù)的21.25%。在機(jī)器翻譯系統(tǒng)開發(fā)時(shí),可以考慮對這些詞類的翻譯設(shè)置一定的約束。此外,還需要提高訓(xùn)練語料的質(zhì)量。如果訓(xùn)練語料在這些詞類的翻譯上處理得比較好,神經(jīng)機(jī)器翻譯在這方面也會(huì)有更好的表現(xiàn)。
第三,針對術(shù)語翻譯錯(cuò)誤。以體育類新聞為例,體育類新聞中錯(cuò)詞的數(shù)量多達(dá)1 131處,占語料庫中錯(cuò)詞總數(shù)(3 861)的29.3%,其錯(cuò)誤率為13.87%。原因在于,體育類新聞中很多詞是專業(yè)術(shù)語,這些術(shù)語在譯文中也需要對等地翻譯成專業(yè)術(shù)語,而機(jī)器翻譯往往把這些詞按照常用義項(xiàng)譯出,沒有根據(jù)領(lǐng)域來選擇合適的義項(xiàng),導(dǎo)致翻譯錯(cuò)誤。例如,The attempt sailed high above the box,句中的“box”,機(jī)器翻譯為“盒子”,而在足球術(shù)語中應(yīng)為“禁區(qū)”。建議開發(fā)機(jī)器翻譯系統(tǒng)時(shí),引入相關(guān)領(lǐng)域的術(shù)語詞典資源,并使系統(tǒng)在譯文本輸入時(shí)可以識(shí)別其所屬領(lǐng)域,即時(shí)調(diào)用相關(guān)領(lǐng)域術(shù)語資源,以緩解術(shù)語翻譯錯(cuò)誤的問題。
第四,針對代詞引起的翻譯錯(cuò)誤問題。機(jī)器翻譯中由于對代詞指代對象不明,導(dǎo)致出現(xiàn)翻譯錯(cuò)誤的情況很多,有時(shí)甚至引起整個(gè)句子的意思出現(xiàn)偏差。代詞指代不明有多種原因,比如句中代詞可指代的對象有多個(gè),導(dǎo)致代詞指代模糊;或者代詞的指代對象距離代詞很遠(yuǎn),跨越了單個(gè)句子。目前神經(jīng)機(jī)器翻譯模型大多是句子級(jí)別的,無法很好地利用篇章上下文信息解決跨越句子的指代問題。建議開發(fā)和改善以段落、篇章為輸入單元的翻譯模型,開發(fā)基于篇章級(jí)別的神經(jīng)機(jī)器翻譯系統(tǒng),這樣的系統(tǒng)還可以獲取句子之間的依賴關(guān)系,更連貫地翻譯整個(gè)篇章文本。
第五,針對缺乏訓(xùn)練語料問題。領(lǐng)域相關(guān)語料稀缺會(huì)直接影響翻譯質(zhì)量,比如體育類新聞中命名實(shí)體翻譯錯(cuò)誤多達(dá)124處,占語料庫中命名實(shí)體翻譯錯(cuò)誤總數(shù)(284)的43.7%。原因在于,體育類新聞中人名、球隊(duì)名、俱樂部名稱等出現(xiàn)的頻率比其他類新聞更高。在機(jī)器譯文中,這些命名實(shí)體翻譯出現(xiàn)譯錯(cuò)以及翻譯前后不一致的情況很多。這些命名實(shí)體不能正確翻譯的直接原因是相關(guān)領(lǐng)域的訓(xùn)練語料較少。針對這一問題,一方面是盡可能增加語料的數(shù)量,擴(kuò)大訓(xùn)練語料的覆蓋度;另一方面是提高訓(xùn)練語料的質(zhì)量。應(yīng)當(dāng)避免直接從網(wǎng)上爬取雙語語料作為訓(xùn)練語料,而要仔細(xì)甄別雙語語料的質(zhì)量,使用高質(zhì)量的雙語語料。獲得大量高質(zhì)量的雙語語料對于提高神經(jīng)機(jī)器翻譯質(zhì)量具有決定性作用。此外,針對命名實(shí)體翻譯問題,建議在機(jī)器翻譯系統(tǒng)中加入命名實(shí)體翻譯檢查機(jī)制,檢查并改正命名實(shí)體翻譯前后不一致的情況。
從ErrAC語料庫的數(shù)據(jù)中可以總結(jié)出一些經(jīng)驗(yàn)教訓(xùn)供譯后編輯人員參考。
第一,關(guān)注一詞多義引起的錯(cuò)詞問題。在各種類型的錯(cuò)誤中,錯(cuò)詞數(shù)量最多,達(dá)到3 861次,可見一詞多義仍然是機(jī)器翻譯的一個(gè)障礙,目前神經(jīng)機(jī)器翻譯系統(tǒng)還無法根據(jù)領(lǐng)域和上下文選擇正確的詞義進(jìn)行翻譯。因此,在譯后編輯過程中,需要關(guān)注一個(gè)詞在不同領(lǐng)域、不同上下文中表達(dá)的不同意義,應(yīng)關(guān)注詞義選擇的問題,以提高譯后編輯的準(zhǔn)確率和效率。
第二,善于發(fā)現(xiàn)和修改詞序錯(cuò)誤能有效提高譯后編輯效率。詞序錯(cuò)誤占編輯詞數(shù)的16%。研究發(fā)現(xiàn),詞序錯(cuò)誤是機(jī)器翻譯使用者最不喜歡的錯(cuò)誤類型[30]。其原因可能在于詞序錯(cuò)誤更難發(fā)現(xiàn)和修改,特別是長距離詞序錯(cuò)誤。Popovic等人[31]發(fā)現(xiàn),錯(cuò)詞和詞序錯(cuò)誤所需要的認(rèn)知努力最大。如果是錯(cuò)詞疊加詞序錯(cuò)誤,需要的譯后編輯認(rèn)知努力更大,需要的譯后編輯時(shí)間更多。因此,詞序錯(cuò)誤所需要的譯后編輯工作量可能相對較大,在譯后編輯過程中需要予以關(guān)注。譯后編輯人員應(yīng)該熟悉中英文在詞序方面的差異,增強(qiáng)對翻譯中詞序問題的敏感性。
第三,在ErrAC語料庫中,增詞錯(cuò)誤數(shù)量較多,但相對比較容易修改。刪除增詞的編輯操作所需要的譯后編輯認(rèn)知努力和時(shí)間最少[31]。而且,關(guān)于增詞錯(cuò)誤,還可以關(guān)注代詞加結(jié)構(gòu)助詞、數(shù)詞加量詞這樣的增詞,在本語料庫中,這幾種類型的增詞占增詞總數(shù)的21.25%。這樣有針對性地進(jìn)行譯后編輯,有助于提高譯后編輯的速度和效率。
第四,具備全局意識(shí),從篇章整體的角度修改錯(cuò)誤。在機(jī)器譯文中,經(jīng)常出現(xiàn)命名實(shí)體翻譯前后不一致的問題,影響篇章的連貫性,導(dǎo)致譯文讀者理解困難。雖然譯后編輯人員在篇章全局的理解和把握上有優(yōu)勢,但有時(shí)容易忽略篇章信息,更多關(guān)注單個(gè)句子的細(xì)節(jié)。因此,在譯后編輯過程中需要對該問題予以注意,修改譯名不一致的問題,保證命名實(shí)體翻譯前后一致,加強(qiáng)譯文篇章的連貫性和可讀性。
第五,適當(dāng)關(guān)注標(biāo)點(diǎn)符號(hào),根據(jù)中文習(xí)慣來修改。在英漢翻譯中,受英文句子結(jié)構(gòu)的影響,機(jī)器譯文常出現(xiàn)中文長句。在譯后編輯過程中,需要根據(jù)中文習(xí)慣合理斷句,插入標(biāo)點(diǎn)符號(hào),尤其是逗號(hào)。在ErrAC語料庫中,插入標(biāo)點(diǎn)符號(hào)的譯后編輯操作達(dá)165次,其中大多數(shù)是插入逗號(hào)。
最后,加強(qiáng)對機(jī)器翻譯的了解。譯后編輯人員除了需要具備扎實(shí)的雙語能力和翻譯能力,還需要對機(jī)器翻譯有較好的了解。他們需要了解機(jī)器翻譯系統(tǒng)的不足和問題,熟悉機(jī)器譯文中常出現(xiàn)的錯(cuò)誤,嘗試摸索總結(jié)其錯(cuò)誤模式,并掌握有針對性的糾錯(cuò)方法。只有在譯后編輯實(shí)踐中不斷積累經(jīng)驗(yàn),才能不斷提高譯后編輯的質(zhì)量和效率。譯后編輯人員可以充分利用機(jī)器翻譯提供的便利,同時(shí)發(fā)揮人工編輯的優(yōu)勢,促進(jìn)人機(jī)融合翻譯模式的發(fā)展。
我們構(gòu)建了一個(gè)可公開獲得的細(xì)粒度英漢機(jī)器翻譯錯(cuò)誤分析語料庫,語料庫中每一個(gè)標(biāo)注樣本包括源語言句子、機(jī)器譯文、參考譯文、PE譯文、詞錯(cuò)誤率,以及基于PE譯文所進(jìn)行的錯(cuò)誤標(biāo)注。錯(cuò)誤分析語料庫可以準(zhǔn)確、有效地評(píng)價(jià)機(jī)器翻譯質(zhì)量,獲得關(guān)于機(jī)器譯文錯(cuò)誤類型、錯(cuò)誤分布的數(shù)據(jù),有助于了解目前神經(jīng)機(jī)器翻譯存在的具體問題,為機(jī)器翻譯系統(tǒng)開發(fā)提供參考。我們將譯后編輯與錯(cuò)誤分析結(jié)合起來,對所進(jìn)行的譯后編輯操作進(jìn)行錯(cuò)誤標(biāo)注,這比使用參考譯文作為參照進(jìn)行錯(cuò)誤標(biāo)注,更能準(zhǔn)確地反映機(jī)器譯文的具體問題,更符合人對機(jī)器譯文錯(cuò)誤的認(rèn)知。錯(cuò)誤分析對機(jī)器翻譯系統(tǒng)的開發(fā)和譯后編輯工作都有很好的參考作用,還可以為機(jī)器翻譯質(zhì)量估計(jì)、錯(cuò)誤預(yù)測、自動(dòng)譯后編輯和譯后編輯教學(xué)提供數(shù)據(jù)基礎(chǔ)和參考作用。錯(cuò)誤分析語料庫中的數(shù)據(jù)可用于機(jī)器翻譯質(zhì)量估計(jì)實(shí)驗(yàn),可用于對機(jī)器譯文進(jìn)行錯(cuò)誤預(yù)測,結(jié)合錯(cuò)誤分析的譯后編輯數(shù)據(jù)在自動(dòng)譯后編輯研究中也非常有用。由于人工的限制,目前數(shù)據(jù)庫規(guī)模還比較有限,而且只針對神經(jīng)機(jī)器翻譯做了錯(cuò)誤分析,沒有涉及SMT等其他系統(tǒng)的錯(cuò)誤分析和相互比較。未來的工作除擴(kuò)大語料庫規(guī)模以涵蓋更多領(lǐng)域和不同機(jī)器翻譯系統(tǒng)的語料之外,還將基于該語料庫構(gòu)建初步的計(jì)算模型,用于機(jī)器翻譯質(zhì)量估計(jì)和自動(dòng)譯后編輯實(shí)驗(yàn)。