裘白蓮
(華東交通大學(xué) 外國語學(xué)院,南昌 330013)
近年來,隨著神經(jīng)機器翻譯(Neural Machine Translation,NMT)性能極大提升,機器翻譯從相對邊緣的地位逐漸成為翻譯研究中的熱點。為了解機器翻譯系統(tǒng)的性能,評估機器翻譯在多大程度上可用,需要對機器翻譯譯文質(zhì)量進行評估。機器翻譯質(zhì)量評價主要有人工評價和自動評價兩種方法。人工評價一般采用打分和排序的方法。自動評價是使用自動評價指標對機器譯文進行評價,一般需要有參考譯文。也有不需要參考譯文的自動評價方法,即機器翻譯質(zhì)量估計,近年來有不少研究。常用的自動評價指標包括基于n元文法準確率的BLEU、基于一元文法準確率召回率和額外語言知識的METEOR、基于編輯距離的TER等。人工評價的優(yōu)點是準確性好,但人力和時間成本較高,周期較長,不易獲得,不利于研究人員快速了解機器翻譯系統(tǒng)修改后質(zhì)量變化情況;此外,人工評價還存在評價者一致性不高的問題。自動評價的優(yōu)點是速度快、成本低,但其準確性依賴于參考譯文的質(zhì)量。
人工評價和自動評價都很重要,都為機器翻譯系統(tǒng)提供了有用的信息,幫助系統(tǒng)持續(xù)改善,但其都只是對機器翻譯系統(tǒng)的整體表現(xiàn)做整體評價,無法反映機器翻譯系統(tǒng)存在的具體問題,無法提供機器譯文中不同錯誤類型和錯誤性質(zhì)等的具體信息。而這些信息對于了解和改善機器翻譯系統(tǒng)大有裨益。要了解這些信息,就需要進行機器翻譯錯誤分析。錯誤分析可以找到機器翻譯系統(tǒng)存在的具體問題,了解其不足與短板,為其改進找準方向。近十幾年來,機器翻譯錯誤分析在國外機器翻譯研究領(lǐng)域受到重視,出現(xiàn)很多相關(guān)研究。本文通過搜集和梳理自然語言處理、機器翻譯等相關(guān)領(lǐng)域的期刊和會議論文,介紹錯誤分析相關(guān)研究的進展情況。機器翻譯研究成果往往在相關(guān)國際會議上發(fā)表,主要包括ACL、EMNLP、WMT、EAMT、AMTA、LREC等。本文搜集的文獻主要來源于這些會議以及其他相關(guān)期刊。本文擬從以下三方面介紹錯誤分析相關(guān)研究:錯誤分類框架、自動錯誤標注、錯誤分析應(yīng)用。
錯誤分析起源于20世紀60年代中介語相關(guān)研究,主要應(yīng)用于分析學(xué)習(xí)者語言,研究內(nèi)容包括錯誤的分類、錯誤的描述和解釋、錯誤產(chǎn)生的原因等。在機器翻譯研究領(lǐng)域中,錯誤分析指的是識別機器譯文中的錯誤并對錯誤進行分類。
錯誤分析的過程一般包括定義錯誤類型,識別錯誤并進行錯誤標注,依據(jù)錯誤標注結(jié)果進行分析。定義錯誤類型并不容易,原因在于:錯誤類型需要反映機器翻譯系統(tǒng)的優(yōu)缺點;需要考慮語言對,不同語言對機器翻譯的錯誤類型有很大不同;錯誤分類的粒度問題也很重要,粒度越細,提供的信息越多,但細粒度錯誤類型也更難區(qū)分;最后,錯誤類型既要覆蓋語言層面的問題,又要覆蓋翻譯層面的問題。在錯誤分類方面,研究者做了很多嘗試,定義了不同的錯誤類型。以往的研究中,錯誤分類主要基于三種方法:基于詞級別對比的分類、基于語言學(xué)知識的分類和基于譯后編輯操作的分類。
基于詞級別對比的錯誤分類建立在機器譯文與參考譯文在詞級別對比的基礎(chǔ)上。Vilar等首次專門進行錯誤分析研究,提出一個人工錯誤分類的框架,如表1。[1]該錯誤分類影響廣泛,后來很多研究者或直接使用,或在此基礎(chǔ)上修改和擴展。
表1 Vilar等提出的錯誤類型[1]
基于語言學(xué)知識的錯誤分類方法從語言學(xué)角度出發(fā),按照不同語言層次對錯誤進行分類。Farrús等提出語言學(xué)錯誤分類,包括正字法、屈折、詞匯、語義和句法錯誤,考察語言學(xué)質(zhì)量評價是否與感知質(zhì)量評價相一致。[2]Costa等按照錯誤所在的語言層次將錯誤分為五個級別:正字法、詞匯、語法、語義和語篇,提出一個基于語言學(xué)的細粒度錯誤分類,如表2。[3]
表2 Costa等提出的錯誤類型[3]
國內(nèi)錯誤分類通常采用基于語言學(xué)的方法,關(guān)注語言學(xué)層面的錯誤,包括詞匯、句法等。[4]羅季美、李梅通過華建英漢翻譯系統(tǒng)獲得汽車技術(shù)文獻的機器譯文,從近10萬個句對的機器譯文和人工譯文中,抽樣1000句,進行錯誤分類,分為詞匯、句法、符號三個一級錯誤,下面細分二級錯誤。[5]羅季美專門針對機器譯文中的句法錯誤進行標注和統(tǒng)計,包括名詞短語、動詞短語、介詞短語等。[6]
譯后編輯和錯誤分析是高度相關(guān)的工作,錯誤分析是識別錯誤,譯后編輯是糾正錯誤。每個譯后編輯操作實際上都是在糾正錯誤,因此可以把譯后編輯操作標注為一種錯誤類型或編輯類型。Blain等從譯后編輯實際操作的角度,將譯后編輯過程中所進行的一套最小的邏輯編輯單位定義為譯后編輯行為(PEA),其錯誤分類見表3,其研究發(fā)現(xiàn)大部分編輯操作產(chǎn)生于名詞意義。[7]
表3 Blain等提出的錯誤(編輯)類型[7]
還有一些研究使用綜合的錯誤分類,如崔啟亮、李聞等。[8]由于研究目的、分類基礎(chǔ)和應(yīng)用場景等不同,錯誤分類也有很大的不同。目前還沒有統(tǒng)一的、可以適用于各種語言對和各種應(yīng)用場景的分類框架。
和機器翻譯人工評價一樣,人工錯誤標注也耗時耗力,且存在標注者一致性不高的問題。因此不少研究者研究以自動的方法對錯誤進行分類和標注。自動錯誤標注是按照一定的錯誤分類,自動識別和標注錯誤類型。已有的自動錯誤分類工具主要基于兩種方法,一種是基于單詞錯誤率(WER)和位置無關(guān)單詞錯誤率(PER)的自動錯誤分類,另一種是基于機器譯文和參考譯文對比的自動錯誤分類。
Popovi?等通過WER和PER的差異獲得名詞、形容詞和動詞的詞序和屈折錯誤信息。[9]Popovi?&Ney 提出基于WER和PER的完全自動的錯誤分析框架,自動識別屈折錯誤、詞序錯誤、漏詞、增詞、不正確選詞等五種錯誤類型。[10]Popovi?開發(fā)自動錯誤分類和標注工具Hjerson,可以自動標注五種錯誤類型,屈折錯誤、詞序錯誤、漏詞、增詞和錯詞。[11]
將機器譯文和參考譯文在詞級別上對齊,將兩者做比較,可以自動獲得機器譯文錯誤的信息。Zemen等開發(fā)自動錯誤識別和標注工具Addicter,將機器譯文和參考譯文詞對詞對齊,發(fā)現(xiàn)其不同之處。[12]該工具可以自動檢測和標注六種錯誤類型,包括增詞、漏詞、形式錯誤、詞匯錯誤、標點符號錯誤、詞序錯誤。
還有一些從不同角度進行的自動錯誤標注的研究。Kirchhoff等提出半自動錯誤分析的方法,通過自動或人工的方法提取源文特征,如來源、體裁、風(fēng)格、方言等,在篇章層面計算源文特征與HTER之間的互信息,研究哪些源文特征更容易引起翻譯問題。[13]Stymne開發(fā)工具BLAST,提供方便使用的圖形界面,輔助人工進行錯誤標注。[14]其他用于錯誤標注的工具包括PET、Appraise、COSTA、MT-EQuAl等。
早期的自動錯誤分類只能對一個詞給予一個錯誤標簽,但實際上有時很難判定一個詞到底屬于什么錯誤類型,而且有時一個詞存在不止一種錯誤,比如錯詞可能同時也是詞序錯誤。鑒于此,Popovi?等擴展自動錯誤分類方法,對一個單詞標注多個錯誤類型標簽,提高自動錯誤分類的準確率。[15]
自動錯誤標注工具目前還不能識別細粒度的錯誤類型,而且容易混淆錯詞、漏詞和增詞錯誤。盡管有這些缺點,自動標注工具仍然很有用,使在短時間內(nèi)大規(guī)模地進行錯誤分析成為可能。可見,自動錯誤標注工具的研究具有很好的實用價值,在識別錯誤類型的粒度、精度等方面,還有很大的進步空間。
除了對錯誤的詞進行分類和標注,錯誤分析還可以以其他方式進行,如分析與參考譯文不匹配的詞、詞性或其他序列,對機器翻譯的時態(tài)、體和情態(tài)錯誤進行錯誤分析,定義語言學(xué)范疇并專門針對這些語言學(xué)范疇進行錯誤分析等。
錯誤分析產(chǎn)生于機器翻譯質(zhì)量評價,同時也被應(yīng)用于其他研究,如錯誤類型與人工評價相關(guān)性研究,譯后編輯相關(guān)研究等。
錯誤分析最初就是用于診斷目的,在不同語言對和不同領(lǐng)域,對機器譯文進行錯誤標注,根據(jù)錯誤數(shù)量和錯誤分布情況,評價機器翻譯系統(tǒng)的翻譯質(zhì)量。錯誤分析可以用來評價某一個機器翻譯系統(tǒng),也可以對幾個不同的機器翻譯系統(tǒng)進行對比和評價。
2016 年NMT 出現(xiàn)使機器翻譯性能極大提升,相比傳統(tǒng)的RBMT 和SMT 在哪些方面有提升,NMT 在哪些方面存在不足,這些問題引起了研究者的興趣。Bentivogli 等發(fā)現(xiàn),與PBMT 相比,NMT 整體上需要的譯后編輯努力更少,在詞匯、形態(tài)和詞序錯誤方面有了極大改進,但是其翻譯質(zhì)量隨著句長增加而快速下降。[16]Toral&Sanchez-Cartagena 使用WMT2016 的數(shù)據(jù),對NMT 和PBMT 進行多方面的對比和評價,包括六個語言對的九個翻譯方向。[17]他們在形態(tài)屈折和詞序方面得到類似的結(jié)論,發(fā)現(xiàn)隨著句長增加,NMT 性能急劇下降。Burchardt等通過人工構(gòu)建的、反映多種語言現(xiàn)象的測試集,對RBMT、PBMT和NMT進行比較和評估,發(fā)現(xiàn)NMT 相比于PBMT 有顯著改進。[18]Klubicka 等發(fā)現(xiàn),NMT 比表現(xiàn)最差的PBMT 系統(tǒng)錯誤減少54%。[19]Calixto&Liu對基于圖像的多模態(tài)神經(jīng)機器翻譯進行錯誤分析,發(fā)現(xiàn)多模態(tài)神經(jīng)機器翻譯相比純文本神經(jīng)機器翻譯,各種類型的錯誤都有減少。[20]Ye&Toral 針對英中翻譯方向,對基于Transformer 和RNN 兩種不同方法的NMT進行比較,對WMT2019新聞測試集進行細粒度錯誤分析。其研究表明,基于Transformer的NMT比基于RNN的NMT錯誤總數(shù)減少31%。[21]
在錯誤分析語料庫的建設(shè)方面也有不少進展,出現(xiàn)了一些可公開獲得的錯誤分析語料庫。例如,TRACE語料庫包含法英、英法譯后編輯譯文,其中有基本編輯距離錯誤類型的標注。還有Terra語料庫、TARAXü語料庫等。這些錯誤分析語料庫為相關(guān)研究提供了數(shù)據(jù)基礎(chǔ)。
錯誤分析比人工評價和自動評價提供更多細節(jié)的信息,能更直觀、準確地評價機器翻譯質(zhì)量,對于深入了解機器翻譯系統(tǒng)的性能和不同機器翻譯系統(tǒng)的差異有重要作用。
錯誤分析豐富了傳統(tǒng)的機器翻譯質(zhì)量評價框架,也產(chǎn)生了一些有趣的研究問題,包括錯誤類型與人工評價的關(guān)系,錯誤類型與自動評價指標敏感性的關(guān)系。人工評價和自動評價在很大程度上是“黑盒子”過程,人們對其評價的機制還不是很了解。比如,人工評價和自動評價主要受什么因素的影響,錯誤的頻率和錯誤的類型哪個對其影響更大,不同錯誤類型或各種錯誤組合對其產(chǎn)生什么影響等。
Farrús等將語言學(xué)質(zhì)量評價與傳統(tǒng)人工評價即感知質(zhì)量評價相比較,考察哪些語言錯誤類型對感知質(zhì)量評價有更多影響。[2]Popovi?&Ney分析了單個或所有錯誤頻率與自動評價分數(shù)之間的相關(guān)性。[10]這兩項研究使用兩種不同的錯誤分類,兩者都表明錯誤的總數(shù)與BLEU和TER值的相關(guān)性高。Kirchhoff等使用聯(lián)合分析法,將錯誤類型及其頻率作為特征,研究使用者對機器翻譯不同類型錯誤的直覺或情感偏好問題,研究結(jié)果發(fā)現(xiàn)詞序錯誤是最不受喜歡的錯誤類型,其次是詞義、形態(tài)和功能詞錯誤。[22]
Lommel 等(2014)從描述的角度探索了不同錯誤類型、頻率與人工質(zhì)量判斷之間的關(guān)系。[23]這兩項研究都基于一個假設(shè),即出現(xiàn)頻率最高的錯誤類型對人的質(zhì)量感知的影響最大,但是這種假設(shè)未經(jīng)證實。Federico等使用線性混合效應(yīng)模型,考察錯誤類型與人工質(zhì)量判斷的相關(guān)性。[24]其研究發(fā)現(xiàn),某種特定錯誤類型的頻率與人的偏好不相關(guān),漏詞對感知質(zhì)量評價的影響最大,每種自動評價指標對不同錯誤類型的敏感性具有顯著差異。
隨著機器翻譯的發(fā)展,機器翻譯得到普遍應(yīng)用,對機器譯文進行譯后編輯(MTPE)越來越成為人機合作翻譯的普遍形式。機器翻譯的質(zhì)量與譯后編輯努力直接相關(guān),一些研究試圖探究不同錯誤類型與譯后編輯努力不同層面的關(guān)系。Krings將譯后編輯努力(post-editing effort)分為三個層面:(1)時間努力;(2)認知努力;(3)技術(shù)努力。[25]時間是指譯后編輯所需的總時間。認知努力包括識別機器譯文中的錯誤、計劃如何改正錯誤的必要步驟。技術(shù)努力即實際編輯操作,指產(chǎn)生譯后編輯譯文所需的擊鍵操作和復(fù)制粘貼操作。譯后編輯時間是認知努力和技術(shù)努力的總和。這三者之間并不一定是一致的。有的錯誤容易識別,需要的認知努力少,但是需要較多技術(shù)努力才能改正。有的錯誤需要極大的認知努力,但需要的技術(shù)努力可能很少。Koponen使用編輯操作分類,考察各種錯誤類型所需譯后編輯技術(shù)努力和認知努力不一致的情況,研究發(fā)現(xiàn)句長影響認知努力,詞序錯誤更難修改,屈折錯誤容易修改。[26]
Popovi?等考察五種編輯操作類型(修改詞形錯誤、修改詞序錯誤、增加漏詞、刪除增詞、修改選詞錯誤)與認知努力和譯后編輯時間的關(guān)系。[27]研究發(fā)現(xiàn),修改錯詞和詞序錯誤的編輯操作需要的認知努力最多,修改錯詞所需要的譯后編輯時間最多,刪除增詞對譯后編輯認知努力和時間影響都很少。Zaretskaya等研究哪些錯誤類型更難進行譯后編輯,帶給譯后編輯者更多挑戰(zhàn)。[28]Daems 等使用基于產(chǎn)品的譯后編輯工作量指標HTER和基于過程的指標如注視時長、注視點數(shù)、(平均)停頓率、譯后編輯時長、產(chǎn)出單元,識別對譯后編輯努力影響最大的機器翻譯錯誤類型,發(fā)現(xiàn)不同錯誤類型影響不同的譯后編輯努力指標。[29]
還有一些研究關(guān)注到譯后編輯教學(xué)方面。Koponen&Salmi 分析翻譯專業(yè)學(xué)生在沒有源文情況下,對英芬機器翻譯進行譯后編輯的譯文,就PE譯文意思的正確性和語言的正確性進行分析。[30]Koponen&Salmi使用五位翻譯專業(yè)學(xué)生對英芬機器翻譯譯后編輯的譯文,分析譯后編輯操作的正確性和必要性,研究發(fā)現(xiàn),大部分編輯操作是正確的,但是34%的編輯操作是不必要的。[31]Koponen 等分析翻譯專業(yè)學(xué)生對NMT、SMT、RBMT 三種機器翻譯系統(tǒng)的機器譯文進行譯后編輯的譯文,考察不同機器翻譯系統(tǒng)所需的編輯操作的差異。[32]Yamada研究谷歌神經(jīng)機器翻譯對學(xué)生譯員譯后編輯的影響。[33]這些研究有助于了解學(xué)生譯員進行譯后編輯時面臨的問題和困難,提高譯后編輯教學(xué)的針對性。目前這方面的研究還不多,有必要進行更多、更深入的探討。
通過綜述近十幾年來國外機器翻譯錯誤分析相關(guān)研究成果,相關(guān)研究已經(jīng)初步形成了基本的分析框架,并在這些框架下對相關(guān)問題有了一定程度的研究。整體來看,相關(guān)研究角度多樣,研究內(nèi)容豐富,研究方法新穎,有諸多可借鑒之處,為進一步研究提供了很好的參考。但就錯誤分析的復(fù)雜性和多樣性而言,當前的相關(guān)研究整體上仍然處于探索階段,仍然存在一些不足之處:錯誤分析的數(shù)據(jù)有限導(dǎo)致其結(jié)論無法一般化,自動錯誤標注還無法識別細粒度錯誤類別,錯誤分析結(jié)合譯后編輯研究還不夠,對于翻譯教學(xué)的關(guān)注還遠遠不夠。通過比較思考,并聯(lián)系當下問題的特點,筆者認為,我們可以從以下四個方面做出新的探索和突破。
由于不同語言之間差異大小不同、雙語資源不均衡,不同語言對機器翻譯系統(tǒng)發(fā)展程度不同,導(dǎo)致不同語言對機器翻譯錯誤情況存在很大的差異,因此某一個語言對的錯誤分析結(jié)果不一定適用于其他語言對。此外,錯誤分析的數(shù)據(jù)通常比較有限,可能無法代表普遍性的問題。因此,后續(xù)研究需要在更豐富的語言對、更大數(shù)據(jù)上進行多方驗證。機器翻譯研究發(fā)展迅速,翻譯模型、翻譯技術(shù)更新很快,錯誤分析需要緊跟機器翻譯研究的發(fā)展,以提供及時、有效的反饋。
錯誤分析要及時為機器翻譯提供診斷和反饋,就需要提高效率,因此,自動錯誤識別和標注的研究很有必要。自動錯誤標注工具可以代替或輔助人工來進行錯誤標注,極大提高錯誤分析的效率。目前自動錯誤分析的研究還較少,自動識別和標注的錯誤類型比較有限,而且局限于對少數(shù)語言對機器翻譯的錯誤分析。未來在自動錯誤標注的粒度、語言對等方面的研究仍然有很大的發(fā)展空間。
錯誤分析和譯后編輯是高度相關(guān)的工作,譯后編輯所需的工作量與MT系統(tǒng)所產(chǎn)生的翻譯錯誤之間有明顯關(guān)聯(lián)。不同的MT錯誤類型對譯后編輯努力產(chǎn)生什么影響,其對譯后編輯時間、認知努力、技術(shù)努力的影響是否存在差異,不同錯誤類型對譯后編輯認知資源分配產(chǎn)生什么影響,哪些錯誤類型更難進行譯后編輯,MT錯誤對譯后編輯努力具有多大預(yù)測能力,等等。目前對于這些問題還沒有很充分的研究。
錯誤分析能找出機器譯文存在的問題,發(fā)現(xiàn)錯誤類型的數(shù)量和分布情況,有助于譯后編輯人員熟悉和了解機器翻譯系統(tǒng),總結(jié)錯誤模式,總結(jié)改正錯誤的技巧和方法,提高譯后編輯工作的效率。其同樣可以為譯后編輯教學(xué)提供參考,培養(yǎng)更了解機器翻譯的翻譯人員。目前的錯誤分析研究很少結(jié)合翻譯教學(xué),很少關(guān)注譯后編輯人員的培養(yǎng),而高校也鮮有專門的譯后編輯課程,造成譯后編輯人才培養(yǎng)與市場需求脫節(jié)。將錯誤分析研究的成果應(yīng)用于教學(xué)意義重大,對于培養(yǎng)譯后編輯人員具有很好的指導(dǎo)性,未來需要加強這方面的研究。
本文旨在通過對機器翻譯錯誤分析研究現(xiàn)狀的總結(jié)和發(fā)展趨勢的展望,為相關(guān)研究提供新視角新方法。與國外機器翻譯錯誤分析研究相比,國內(nèi)的錯誤分析研究的范圍和內(nèi)容相對較窄,具有以下幾個特點:通常采用基于語言學(xué)的錯誤分類方法;獨立于機器翻譯系統(tǒng);以實例分析、糾錯方法探討為主要內(nèi)容;數(shù)據(jù)量較小,觀察的樣本有限。錯誤分析是一種重要的機器翻譯質(zhì)量評價方法,為機器翻譯系統(tǒng)開發(fā)提供反饋,推動機器翻譯研究的發(fā)展,并在其他相關(guān)研究中具有很好的應(yīng)用價值。由于其復(fù)雜性和多樣性,錯誤分析研究存在多種發(fā)展和創(chuàng)新的可能,在機器翻譯研究和應(yīng)用中仍將發(fā)揮重要作用。