孟福永,唐旭日
華中科技大學 外國語學院,武漢430074
譯后編輯是近年來隨著機器翻譯(Machine Translation,MT)研究不斷發(fā)展而新興的計算機應(yīng)用研究領(lǐng)域。譯后編輯(Post-Editing),是指根據(jù)一定的目的對機器翻譯的原始產(chǎn)出進行加工與修改的過程,包括更改翻譯(語言)錯誤,提高MT 譯文的準確性與可讀性等[1]。盡管將人與機器翻譯結(jié)合起來完成翻譯任務(wù)的研究可以追溯到20 世紀50 年代,但那時譯后編輯工作在整個過程中微不足道,譯后編輯人員甚至不需要掌握源語。直到20 世紀80 年代,譯后編輯才逐漸成為翻譯流程的重要組成部分。1994年Hans Krings完成了譯后編輯的博士后研究報告,隨后Geoffrey Koby 等把該報告譯成英文,并于2001 年出版[2],這可能是譯后編輯領(lǐng)域最早的一本專著。此后隨著MT 技術(shù)與產(chǎn)品在翻譯行業(yè)中的應(yīng)用,越來越多的研究人員將目光投向了譯后編輯。2010年Tatsumi分析研究了業(yè)界譯后編輯人員在譯后編輯過程中影響編輯數(shù)量的因素、源文特征、譯后編輯行為、譯后編輯工作量[3]。崔啟亮在2014年引用行業(yè)數(shù)據(jù)說明,譯后編輯正越來越受到翻譯公司的重視[4]。在2017 年的《機器翻譯市場報告》中,TUAS 認為,新的翻譯模式,即“機器翻譯+譯后編輯”(MT+PE)模式有可能在未來5 年(即2022 年)內(nèi)成為翻譯行業(yè)首要的生產(chǎn)環(huán)境[5]。文獻[6]也預(yù)測,在可見的未來,在機器翻譯尚未完全具備可用性之前,“機器翻譯+譯后編輯”這種人機融合的翻譯模式將維持較長一段時間。
與諸多計算機輔助技術(shù)一樣,譯后編輯技術(shù)研究的主要目的是提高翻譯效率和質(zhì)量,即在給定MT輸出譯文和譯員水平的前提下,如何通過技術(shù)手段,提高譯后編輯的速度和最終譯文的質(zhì)量。為此,自然語言處理領(lǐng)域的研究人員嘗試將MT 領(lǐng)域的技術(shù)用于設(shè)計自動譯后編輯系統(tǒng),讓機器進一步分擔部分譯后工作量;此外,譯后編輯往往需要從多個MT 引擎給出的譯文中挑選出最佳結(jié)果作為譯后編輯的輸入,因而涉及MT譯文質(zhì)量評估研究;研究者還需考察和分析譯員的譯后編輯過程,以找出影響譯員工作效率的主要因素,為譯后編輯系統(tǒng)環(huán)境的設(shè)計提供理論依據(jù)。
本文綜合評述自動譯后編輯、自動譯文質(zhì)量評估以及譯后編輯人員工作效率這三個譯后編輯研究中的主要技術(shù)問題,為進一步開展機器翻譯譯后編輯研究提供參考。
自動譯后編輯(Automatic Post Editing,APE)指應(yīng)用機器學習等技術(shù)對MT譯文進行自動編輯。事實上,大多數(shù)自動譯后編輯系統(tǒng)使用的技術(shù)都來自MT 領(lǐng)域。那么,為什么還需要在MT 完成之后,增加一個自動譯后編輯環(huán)節(jié)呢,這主要是基于以下考慮[7-8]:
(1)只有當完整的MT 譯文給出后,才能對其進行質(zhì)量評測或是文本分析,從而進行自動修改,而這些評測與分析是無法在MT引擎內(nèi)部完成的。
(2)MT是從源語到目標語的映射,相同的輸入會導致相同的輸出。因此,一旦映射有誤,MT系統(tǒng)就會重復(fù)輸出有問題的譯文。當MT是“黑箱”式引擎時1對MT引擎內(nèi)部的工作原理一無所知,只能將源語文本輸入后獲得譯文。盡管將具體的MT引擎相關(guān)信息納入考量可能會提升APE系統(tǒng)的表現(xiàn),但同時也會使APE系統(tǒng)與某個MT引擎“綁死”,不再適用于其他MT引擎。因此2.2節(jié)介紹的技術(shù)均假設(shè)MT系統(tǒng)是“黑箱”式的。,只能對MT輸出的譯文進行重復(fù)修改。這種重復(fù)勞動會讓譯員覺得很枯燥,適合由機器完成。
(3)APE 系統(tǒng)能夠為譯員提供更高質(zhì)量的MT 譯文,降低其工作量。
(4)通用MT引擎給出的譯文在用詞和風格上不一定適應(yīng)具體任務(wù)需求,機器能夠代替人工完成這種調(diào)整。
APE本質(zhì)上與MT相同,都是文本間的映射。因此研究者們設(shè)計APE系統(tǒng)時使用的技術(shù)也隨著MT技術(shù)的發(fā)展,經(jīng)歷了基于規(guī)則、基于短語、神經(jīng)網(wǎng)絡(luò)這三個階段。
基于規(guī)則的系統(tǒng)采用針對具體語言現(xiàn)象的規(guī)則,因此能夠較好地糾正相應(yīng)的MT 錯誤。但實際的翻譯場景復(fù)雜多變,光靠事先制定的規(guī)則很難覆蓋所有的MT錯誤。而且每一種語言都需要獨特的規(guī)則,要求的人工和時間成本太高。因此近年來APE 系統(tǒng)大多采用數(shù)據(jù)驅(qū)動的方法自動學習糾錯規(guī)則。其基本思想是將MT譯文作為源語文本,將在MT譯文的基礎(chǔ)上經(jīng)人工編輯獲得的文本作為目的文本,應(yīng)用統(tǒng)計學習或是神經(jīng)網(wǎng)絡(luò)的方法訓練模型。這種思想可以形式化地表述為:給定源語句子s 和相應(yīng)的MT 譯文t ,APE 系統(tǒng)嘗試在所有可能的譯后編輯譯文集合C(e)中找到一個最優(yōu)的譯后編輯譯文e,如下所示:
Simard 等人于2007 年率先提出這一思路,用當時流行于MT 領(lǐng)域的基于短語的方法來訓練APE 系統(tǒng)[9]。但他們只利用了MT譯文和人工編輯譯文,未考慮源語文本的信息。Béchara等人在2011年采用對齊技術(shù)將源語文本和MT 譯文中的字/詞一一配對,共同作為APE系統(tǒng)的輸入[10]。文獻[7]對這兩種方法進行了對比,發(fā)現(xiàn)后者即包括源語信息的方法性能稍優(yōu)。
近年來,隨著深度學習技術(shù)在自然語言處理中的廣泛應(yīng)用,許多研究者將其應(yīng)用于譯文自動后編輯,如使用雙向遞歸神經(jīng)網(wǎng)絡(luò)編碼器-解碼器模型來訓練自動譯后編輯系統(tǒng)[11],以Transformer結(jié)構(gòu)作為自動譯后編輯系統(tǒng)的原型[12]等。最新一屆的機器翻譯研討會(WMT19)APE 子任務(wù)中,絕大多數(shù)模型使用的都是Transformer結(jié)構(gòu),利用源語、MT譯文、譯后編輯譯文、譯員編輯行為等多種信息訓練自動譯后編輯系統(tǒng)[13],本屆會議表現(xiàn)最好的Unbabel 系統(tǒng)則對預(yù)訓練模型BERT(Bidirectional Encoder Representations from Transformers)稍加改造,使之適用于APE任務(wù)。
不管是早期基于短語的方法,還是近年流行的神經(jīng)網(wǎng)絡(luò),自動譯后編輯系統(tǒng)的訓練都是在受控環(huán)境下進行的,也就是說訓練數(shù)據(jù)的來源、內(nèi)容都是統(tǒng)一的。這種數(shù)據(jù)的有限性使其只能反映部分MT 錯誤。但在真實場景中自動譯后編輯系統(tǒng)可能要接受來自于不同MT引擎,不同文本類型的輸入,受控訓練學習到的糾錯規(guī)則不一定適用所有場景,有時反而會降低MT譯文的質(zhì)量。為了更好地適應(yīng)現(xiàn)實場景,研究者們嘗試將在線學習與自動譯后編輯結(jié)合起來,實現(xiàn)譯員與自動譯后編輯系統(tǒng)的互動。流程如圖1所示[13-14]。
圖1 中,MT 系統(tǒng)將源語文本自動翻譯成目標語譯文,自動譯后編輯系統(tǒng)接受源語文本和相應(yīng)譯文作為輸入,輸出其預(yù)測的經(jīng)過編輯的譯文,交給譯后編輯人員進行最后的編輯。當譯員編輯完一段文本后,譯員的編輯操作會與相應(yīng)的原文和MT 譯文一起被添加進譯后編輯行為數(shù)據(jù)庫。數(shù)據(jù)庫更新后,自動譯后編輯系統(tǒng)也需要基于更新后的數(shù)據(jù)庫進行訓練與更新,更新后的自動譯后編輯系統(tǒng)接著處理下一段MT 譯文。具體的流程描述如下:
圖1 在線學習與自動譯后編輯結(jié)合的模式
(1)自動譯后編輯系統(tǒng)收到一個由源語文本srctest,MT譯文mttest組成的二元組(srctest,mttest);
(2)檢索由三元組(src,mt,hpe)組成的知識庫KB,其中hpe 指的是譯員在編輯(src,mt)時的操作,并計算各三元組中的(src,mt)與(srctest,mttest)的相似度,將相似度大于事先設(shè)定的閾值的三元組提取出來,記作(srctop,mttop,hpetop);
(3)用(srctop,mttop,hpetop)訓練并更新自動譯后編輯系統(tǒng)M ,獲得更新后的M*;
(4)用M*處理(srctest,mttest),給出其預(yù)測的編輯行為ape;
(5)譯員收到ape 后對其進行(或不加)修改,記作hpe;
(6)用(srctest,mttest,hpe)再對M*做一次訓練,更新為M**,并將這個三元組添加進KB。
在線學習和譯后編輯相結(jié)合的模式主要涉及兩個關(guān)鍵技術(shù):其一是第2 步二元組的相似度計算。文獻[14]使用TF-IDF(Term Frequency-Inverse Document Frequency)值,但隨著詞嵌入技術(shù)的發(fā)展,完全可以用預(yù)訓練好的詞向量來表示二元組的文本,計算其cosine值來表示彼此的相似度,文獻[15]采取的就是這樣的方法。其二是自動譯后編輯系統(tǒng)所采用的具體模型。文獻[14]與文獻[16]使用的是基于短語的方法,文獻[15]則使用神經(jīng)網(wǎng)絡(luò)的方法。在線學習的模式要求譯員進行一次編輯操作后,系統(tǒng)能夠很快地利用其進行訓練并做出反饋,因此文獻[8]認為在這一點上基于短語的方法要比神經(jīng)網(wǎng)絡(luò)模型更有優(yōu)勢。此外,在線學習模式中能夠獲取到的用于訓練的數(shù)據(jù)量往往很少,這也是神經(jīng)網(wǎng)絡(luò)模型不具備優(yōu)勢的另一個原因。
現(xiàn)代翻譯流程往往是從多個MT 引擎的輸出中挑選一個送往下游流程。那么如何挑選MT譯文呢,人工判斷固然準確,但速度太慢,與自動譯后編輯追求效率的目的相悖。而已有的一些MT質(zhì)量評價指標,如BLEU(Bilingual Evaluation Understudy)[17]和TER(Translation Error Rate)等需要參考人工譯文,也不適用于這里的場景。因此研究者們提出了一系列不需要參考人工譯文,由機器自動對MT譯文的質(zhì)量進行評估的方法,這些研究被稱為翻譯質(zhì)量評估(Translation Quality Estimation)。
最早的翻譯質(zhì)量評估系統(tǒng)只能對MT 譯文做出二元分類:好或是差。后來逐漸發(fā)展成能夠?qū)T譯文分為多種類別或是對其打分。而具體操作的對象也從字詞層面擴展到了句子層面,這也是將其應(yīng)用在MT+APE模式時最常用的層面[18]。而文件層面的MT質(zhì)量評估往往是對句子層面評估結(jié)果的一個平均[19]。
字詞層面的MT質(zhì)量評估需要為MT譯文中的每個詞,包括詞與詞之間的位置,以及原文本中的每個詞指定好或是差的標簽。其中詞與詞之間的位置如果被標記為差,說明此位置需要添加內(nèi)容。原文本中的詞如果被標記為差,說明該詞被錯譯或是漏譯。圖2給出從英語譯成德語的一個例子[20],英語原文在上,德語MT譯文在下,中間是對MT譯文進行人工編輯后的版本。句子層面的MT 質(zhì)量評估需要預(yù)測整句MT 譯文的質(zhì)量,通常要求系統(tǒng)預(yù)測人工編輯需要的時間,或是需要的編輯操作次數(shù)HTER(Human Translation Error Rate)[20]。值得注意的是,在句子層面上,雖然最終的MT 質(zhì)量評估系統(tǒng)不需要參考譯文,但其訓練過程還是用到了需要參考譯文的評價指標等數(shù)據(jù)。文件層面的MT 質(zhì)量評估需要對整個文件的質(zhì)量做出評分,并且標注出MT譯文中出錯的字詞和段落。訓練數(shù)據(jù)包括人工標注出的錯誤以及根據(jù)這些錯誤計算出的質(zhì)量評分,但并不要求最終的系統(tǒng)在這兩個指標之間保持一致,即系統(tǒng)預(yù)測的質(zhì)量評分可以與根據(jù)系統(tǒng)標注出的錯誤計算得到的質(zhì)量評分不一致。
圖2 WMT 2018字詞層面MT質(zhì)量評估訓練用例
在神經(jīng)網(wǎng)絡(luò)技術(shù)被應(yīng)用到這個領(lǐng)域之前,翻譯質(zhì)量評估系統(tǒng)大多由兩個模塊組成[21]:特征選擇模塊和機器學習模塊。前者從原文和譯文中提取特征,交給后者完成對MT 譯文的評分。特征主要有三類:復(fù)雜度、流暢度、忠實度。復(fù)雜度類特征包括原文本的字符數(shù)量以及原文本在語言模型上的概率等。流暢度類特征包括譯文的字符數(shù)量以及譯文在語言模型上的概率。忠實度類特征衡量原文本的結(jié)構(gòu)和語義有多少在譯文中得到了體現(xiàn),通常比較原文與譯文的字詞數(shù)量、實體數(shù)量等。機器學習模塊使用的技術(shù)包括支持向量機[21]、條件隨機場[22]等。
近年來,神經(jīng)網(wǎng)絡(luò)的方法被應(yīng)用于MT 質(zhì)量評估。與自動譯后編輯領(lǐng)域的發(fā)展類似,研究者們使用不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對文本進行編碼解碼,從雙向遞歸神經(jīng)網(wǎng)絡(luò)編碼器-解碼器[23]到Transformer[24]。最新一屆的WMT 2019 MT質(zhì)量評估子任務(wù)上,使用語境相關(guān)的預(yù)訓練詞向量如BERT 及XLM(Cross-lingual Language Models)等進行遷移學習成為了新的趨勢[25],比如在本屆會議大多數(shù)子任務(wù)上取得最好結(jié)果的Unbabel系統(tǒng)就使用了BERT以及XLM。
除了從眾多機翻引擎給出的譯文中挑出質(zhì)量最高的一個版本交給譯員,以節(jié)省其精力以外,自動MT 質(zhì)量評估還有很多其他的應(yīng)用。提高機翻譯文的質(zhì)量最有效的方法之一就是在訓練時提供大量的雙語文本,但通過人工翻譯的方式獲取這類數(shù)據(jù)成本太高,研究者們另辟蹊徑,嘗試選擇“最有用”的數(shù)據(jù)來訓練模型,這種方法通常被稱作主動學習。而挑選數(shù)據(jù)的標準就是一個句子或是一段文本對應(yīng)的MT質(zhì)量,如果一個句子已經(jīng)被翻譯得很好了,那么用它來訓練機翻模型可以想見不會有多大提升,但倘若一個句子被翻譯得很差,很可能這個句子中含有值得機翻模型學習的表達。Logacheva和Specia[26]就基于這一假設(shè),將被自動評估為較低質(zhì)量的機翻譯文所對應(yīng)的人工譯文添加進訓練數(shù)據(jù)。
翻譯質(zhì)量評估還可以與自動譯后編輯結(jié)合起來,提高機器翻譯的質(zhì)量。Chatterjee等人[27]對此進行了總結(jié):
(1)句子層面上,對MT 質(zhì)量的評估作為是否需要交由APE系統(tǒng)處理的標準,當一個句子的MT質(zhì)量低過閾值時,由APE系統(tǒng)對其進行修改。
(2)詞層面上,對詞的質(zhì)量評估結(jié)果(即好或是差)決定了APE系統(tǒng)是保留還是替換該詞。
(3)整體而言,對一段文本的質(zhì)量評估可用作在原始機翻譯文與經(jīng)APE 系統(tǒng)修改后的版本間進行選擇的標準。
Daems等人[28]認為,研究人工譯后編輯過程的終極目標是實現(xiàn)在譯員進行編輯之前,就能夠預(yù)測編輯所需投入的時間與精力(Post-Editing Effort)。在此基礎(chǔ)上譯員就能夠在譯后編輯和直接翻譯之間做出選擇。為實現(xiàn)這一目標,首先需要弄清譯員在編輯過程中做出了哪些努力以及如何測量它們,然后通過源語及MT譯文中的信息對其進行預(yù)測。
Krings 在2001 年將譯員在譯后編輯過程中的工作量按三個維度進行區(qū)分:時間(Temporal)維度、技術(shù)(Technical)維度、認知(Cognitive)維度[2]。本文分別將其譯為工作時間、技術(shù)操作、認知負荷。工作時間最容易理解,指譯員完成譯后編輯工作所花的時間,測量起來也很方便。技術(shù)操作統(tǒng)計的是譯員在譯后編輯過程中做出的具體操作,如刪除、插入、重新組織等。早期測量技術(shù)操作是計算HTER(Human-Targeted Edit Rate)2本節(jié)內(nèi)的HTER指的是人工編輯比率,而上一節(jié)中的HTER指的是人工譯文錯誤率,兩處雖然縮寫相同,但意義不同。值,但Koponen等人[29]認為譯員在實際編輯過程中很可能做出無用操作,如修改之后又撤銷,只計算最優(yōu)路線的HTER無法反映這些操作。文獻[28]也表達了類似的觀點,認為HTER 測量的是應(yīng)有的操作數(shù)量,而不是實際的操作數(shù)量。后來的研究大多通過軟件記錄譯員編輯過程中的擊鍵行為及鼠標操作[28,30]來測量譯員在技術(shù)操作上的工作量。
工作時間和技術(shù)操作可以被直接測量,而認知負荷則只能通過間接手段來測量。對譯后編輯工作量的研究也主要圍繞認知負荷展開。
認知負荷指的是譯后編輯過程中譯員完成推理與做出決策所承受的精神壓力。通俗地講,就是發(fā)現(xiàn)錯誤并改正錯誤所耗費的腦力。文獻[2]提出認知負荷與技術(shù)操作作為一個整體會影響工作時間,因此有研究嘗試通過測量工作時間與技術(shù)操作來反映認知負荷。文獻[28]測量了譯員更正不同難度的MT錯誤的工作時間,發(fā)現(xiàn)難度越高工作時間越長。由于難度與認知負荷是關(guān)聯(lián)的,因此他們認為工作時間可以作為測量認知負荷的指標。他們還指出技術(shù)操作并不能很好地反映認知負荷,因為較難的錯誤可能只需要較少的操作數(shù)量來修改。
除了通過工作時間、技術(shù)操作來反映認知負荷,研究者們還提出了其他方法和指標來測量認知負荷。早期的研究使用有聲思維(Think-Aloud Protocols,TAP)、選擇分析網(wǎng)絡(luò)(Choice-Network Analysis)、譯員評分等方法。有聲思維指讓譯員說出其編輯工作中的決策[2],缺點是難以形式化、再利用。選擇分析網(wǎng)絡(luò)[31]關(guān)注譯員們對MT譯文做出的修改方法的數(shù)量,同一個詞的不同修改方法的數(shù)量越多,譯員對該詞的認知負荷就越高。這種方法的缺點是并非所有譯員都能想到所有修改方法,也就是說一個詞的不同修改方法數(shù)量較少也可能是因為有些修改方法譯員未想到。近年來則更多使用可計算的指標,涉及停頓、生產(chǎn)單元、凝視等。其中生產(chǎn)單元的定義依賴于停頓,而凝視則是隨著眼追蹤技術(shù)的發(fā)展被提出的一種指標??捎嬎阒笜说氖褂迷谝欢ǔ潭壬咸岣吡苏J知負荷測量的科學性,避免了主觀性導致的誤差。以下分別介紹了停頓、生產(chǎn)單元和凝視三個指標的計算方式。
4.1.1 停頓
當譯員的兩次操作之間相隔的時長超過一定閾值時,這段時間被認作是一次停頓。閾值數(shù)值過大會導致漏掉對短時長停頓的統(tǒng)計,過小會導致將完整的編輯操作割裂。Lacruz等人將該閾值設(shè)置為300 ms[32],而文獻[28]則設(shè)置為1 000 ms。
2006年O’Brien在研究文本的機器可譯性(Machine Translatability)時嘗試將停頓率(Pause Ratio)與選擇網(wǎng)絡(luò)分析結(jié)合起來,作為測量認知負荷的指標,但并沒有找到有力的證據(jù)來證明這種關(guān)系[31]。文獻[31]認為這是因為停頓率未考慮每次暫停的平均長度,對認知負荷不夠敏感,并介紹了平均停頓率(Average Pause Ratio):
文獻[28]對實驗數(shù)據(jù)的分析顯示,MT 錯誤的增加會導致停頓率與平均停頓率減小。由此說明停頓率與平均停頓率在一定程度上反映了認知負荷。
此外,Lacruz等人[32]還提出了與停頓相關(guān)的另一種指標——停頓對詞比率(Pause to Word Ratio),其計算方式是:
并認為停頓對詞比率相對于停頓率和平均停頓率而言,更能精確反映認知負荷。
4.1.2 生產(chǎn)單元
譯員在兩次停頓之間進行的編輯操作被認為是一個生產(chǎn)單元(Production Unit)[28]。文獻[28]通過計算譯員在一段源語文本s 上的平均生產(chǎn)單元數(shù)來測量認知負荷:
文獻[30]從直覺上認為生產(chǎn)單元次數(shù)的增加反映的是認知負荷的提高,但文獻[28]對此持保留態(tài)度,因為像拼寫這種簡單的錯誤可能需要相當多的生產(chǎn)單元來更正,但對認知的要求并不高。他們的實驗也證明了認知負荷越高,平均生產(chǎn)單元數(shù)就越低。
4.1.3 凝視
根據(jù)Just和Carpenter于1980年提出的眼-大腦假說(Eye-Mind Hypothesis)[33],人的眼睛在看什么,大腦就在處理什么內(nèi)容。由此,研究人員假設(shè)凝視一段文本的時長反映了該文本對譯員認知負荷的要求。Doherty和O’Brien[34]將凝視定義為至少需要注視一段文本100 ms。Jakobsen 和Jensen[35]證明,當譯后編輯任務(wù)的復(fù)雜度上升,即由閱讀變?yōu)榉g時,平均凝視時長增加,凝視次數(shù)增多。Doherty 和O’Brien[34]發(fā)現(xiàn)差的MT 譯文比好的MT譯文需要更多的凝視次數(shù),但兩者所需的平均凝視時長并無顯著差異。譯員在一段文本s 上的平均凝視時長的計算方法如下:
綜上所述,停頓、生成單元以及凝視作為可計算指標,均能在一定程度上反映譯后編輯過程的認知負荷。然而譯后編輯本身是一個復(fù)雜的心理活動過程,涉及多種認知方式以及認知方式的轉(zhuǎn)換,僅依賴于一種指標難以測量認知負荷。但目前還缺乏綜合性的認知負荷測量研究。
MT領(lǐng)域的研究者對MT錯誤進行分類是為了改進MT 系統(tǒng),而譯后編輯領(lǐng)域的研究者研究MT 錯誤的分類是因為不同類型的錯誤對譯后編輯工作量的影響不一樣[2]。為了弄清楚哪些錯誤會要求最多的工作量,就需要對MT錯誤進行分類。
Vilar 等人[36]為了更好地評價MT 譯文,將英漢MT錯誤分為漏詞、詞序、詞語使用不當、未知詞、標點符號五類,這五類下面又有更細致的分類,如圖3所示。
圖3 Vilar等人(2006)對MT錯誤的分類
圖3 中的分類被很多譯后編輯研究領(lǐng)域的研究者參考并修改為適應(yīng)自己研究目的的版本,其中最有影響的一個版本是Temnikova 在2010 年[37]提出的。他按照譯員在譯后編輯時做出的具體操作對圖3 中的分類加以修改,并按譯者修改錯誤的難度對錯誤類型排序,排序結(jié)果如表1所示。表1中從1到10難度依次變高,1屬于形態(tài)類錯誤,2、3 屬于詞匯類錯誤,7~10 屬于句法類錯誤。
表1 Temnikova(2010)對MT錯誤的分類及排序
在國內(nèi),崔啟亮和李聞[38]基于自身從事譯后編輯工作的經(jīng)驗,以科技文本的英漢翻譯為例,將MT 錯誤分為11 類。具體包括術(shù)語翻譯錯誤、形式錯誤、格式錯誤、短語順序錯誤、欠譯和過譯、多譯和漏譯、冗余、詞性判斷錯誤、從句翻譯錯誤、短語順序錯誤、受英漢句子結(jié)構(gòu)的束縛等。
以上分類方法大多是根據(jù)語言學概念做出的分類,顯得具體而繁多,即使有些研究將某些類別合并,也沒能脫離這個框架。接下來介紹的分類方法在此基礎(chǔ)上從更抽象的角度,即按譯員從事譯后編輯工作時參考的信息來源對MT錯誤進行了分類。
文獻[32]從譯員修改機器譯文的依據(jù)這一角度對MT錯誤做出分類,不需要參考原文本就能修改的被稱作機械類(Mechanical)錯誤,需要參考原文才能修改的被稱作遷移類(Transfer)錯誤。在這一層次的分類下又分為五類:錯譯、省略或添加、句法、詞語形態(tài)、標點。需要注意的是這五類錯誤需視語境分為機械類或遷移類,比如大多數(shù)省略或添加類錯誤屬于遷移類,但當文本與食物有關(guān)且譯文包含短語fish chips 時,譯員不需要參考原文就能將其修改為fish and chips。文獻[32]認為前三類,即錯譯、省略或添加、句法類錯誤比后兩類對譯員要求的認知負荷更高。
Daems、Macken和Vandepitte[39]按照翻譯標準(Norms)將MT錯誤分為兩類:第一類是只需要觀察原文本就能發(fā)現(xiàn)的錯誤,稱作不通順(Acceptability)類錯誤,包括語法和句法、用詞不當、拼寫、語域風格、連貫;第二類是需要對比原文和譯文才能發(fā)現(xiàn)的錯誤,稱作不忠實(Adequacy)類錯誤,包括歧義、術(shù)語不一致等。Tezcan[40]提出了相似的分類方法,但使用了不同的術(shù)語Fluency 和Accuracy來描述。
很多研究者[37,40]都指出,由于語言、文本類型、翻譯目的等因素的影響,某些MT錯誤換個情景就可能不再被視作錯誤或是被分到不同的類別去,因此對MT錯誤的分類并無絕對的標準。
影響度量工作量的指標的因素有很多,比如說譯員差異[27],文本類型、主題的差異,翻譯目的的差異,MT系統(tǒng)的差異等,但大多數(shù)研究都是圍繞MT錯誤這項因素展開的。文獻[37]在對MT 錯誤進行分類時給出了各MT 錯誤的難度排序(見表1),此后的很多研究都參考了這種排序,也提出了一些修改建議,但對于具體任務(wù)中哪些語言現(xiàn)象的錯誤更難仍沒有一定之規(guī)。最近的研究多是匯報MT錯誤與各指標的聯(lián)系,因此這里主要從宏觀和微觀兩個角度介紹MT 錯誤對能夠反映認知負荷的各指標,即涉及時間、停頓、生產(chǎn)單元、凝視的指標的影響。
4.3.1 宏觀
文獻[32]認為轉(zhuǎn)移類MT錯誤比機械類的對認知負荷的要求更高。但文獻[37]分析認為,不忠實類MT 錯誤與譯后編輯工作量各指標的聯(lián)系不夠緊密,不通順類MT 錯誤能夠很好地預(yù)測各指標。盡管使用的術(shù)語不同,但在各自的定義中,轉(zhuǎn)移類MT錯誤和不忠實類MT錯誤可歸宿為同一種類型,而機械類MT錯誤與不通順類MT 錯誤相近。上述兩個研究在相似的分類上得出了相反的結(jié)論。文獻[37]對此的解釋是,雖然其對MT錯誤的分類與文獻[32]的分類非常相似,但終究不同。文獻[37]的分類依據(jù)是譯員發(fā)現(xiàn)錯誤所用到的信息,而文獻[32]的分類依據(jù)是譯員發(fā)現(xiàn)并修改錯誤所用到的信息,這種差異可能是導致不同結(jié)論的原因。
4.3.2 微觀
在微觀方面,文獻[32]發(fā)現(xiàn)作為平均停頓率的一種替代,停頓對詞比率與錯譯(Mistranslations)、結(jié)構(gòu)性錯誤、插入和刪除之間聯(lián)系緊密;文獻[29]將編輯操作與錯誤類型對應(yīng)起來,發(fā)現(xiàn)詞層面上的錯誤更花時間;依據(jù)文獻[37],MT 錯誤(尤其是不通順類)的增多會導致詞均工作時長的增加,連貫與結(jié)構(gòu)錯誤對其影響最大;對于生產(chǎn)單元,文獻[37]發(fā)現(xiàn)MT 錯誤(尤其是不通順類)的增多會導致生產(chǎn)單元數(shù)量的增加;對于凝視,文獻[37]發(fā)現(xiàn)對認知負載要求更高的錯誤類型,如連貫及錯譯對平均凝視時長、次數(shù)以及詞均工作時間的預(yù)測更好;錯譯會導致平均凝視時長顯著增加,而連貫會導致平均凝視次數(shù)顯著增加,這是因為修改連貫性問題需要譯者重復(fù)回看。
綜上所述,不同類型的MT錯誤與認知負荷之間的關(guān)聯(lián)還缺乏系統(tǒng)性的研究。這一方面是因為MT 錯誤分類的系統(tǒng)性缺乏,另一方面是認知負荷指標研究的系統(tǒng)性缺乏。
在機器翻譯譯文輸出的基礎(chǔ)上進行譯后編輯,其初衷是提高譯員的工作效率。本文綜述了機器翻譯譯后編輯所涉及的技術(shù)問題,主要討論了自動譯后編輯、自動MT 質(zhì)量評估以及譯后編輯人員工作量三方面。其中自動譯后編輯與自動MT質(zhì)量評估均應(yīng)用MT領(lǐng)域的技術(shù),試圖通過自動完成部分編輯及篩選工作來降低譯員的工作量,從而提高效率。對人工譯后編輯工作量的研究則考察分析不同MT錯誤類型對工作量的影響,為譯后編輯系統(tǒng)環(huán)境的設(shè)計提供理論依據(jù)。總體看來,譯后編輯的技術(shù)研究是以提高譯員工作效率,提高翻譯過程工作效率為主要目標。然而,譯后編輯作為一個新的研究領(lǐng)域,雖然其主要技術(shù)來源是MT 領(lǐng)域,但其主要特征是機器與人協(xié)作完成編輯任務(wù)。這方面的研究還處于萌芽狀態(tài),有待進一步系統(tǒng)研究。