葉 娜,張桂平,韓亞冬,蔡東風
(沈陽航空航天大學 知識工程研究中心, 遼寧 沈陽 110136)
機器翻譯是自然語言處理領域的重要研究課題。數(shù)十年來,從傳統(tǒng)的基于規(guī)則[1]和基于實例的機器翻譯方法[2]發(fā)展到今天以統(tǒng)計機器翻譯[3-4]為主流的翻譯方法,機器翻譯技術在消歧問題、代詞指代以及更多的慣用法生成等方面都由于語料庫技術的應用而有了解決的希望。然而,盡管機器翻譯的譯文質量比20世紀70年代有了長足的進步,卻仍然沒有達到實用水平。
在急速增加的翻譯需求的驅動下,機器翻譯思想發(fā)生了改變,即從全自動翻譯技術向輔助翻譯技術的轉變。計算機輔助翻譯系統(tǒng)(computer assisted translation, CAT)就是這種思想轉變的體現(xiàn)。輔助翻譯系統(tǒng)為用戶提供作為輔助譯文的自動翻譯譯文和用來對譯文進行修改的界面。輔助翻譯在質量和速度上都優(yōu)于人工翻譯。
在全自動機器翻譯系統(tǒng)中,系統(tǒng)只能單方面提供自動生成的翻譯結果,而無法得到反饋,系統(tǒng)所使用的知識也是靜態(tài)的。相比之下,在輔助翻譯系統(tǒng)中,用戶(即翻譯人員)可以對機器翻譯自動生成的輔助譯文進行篩選和整理,直至最終生成可用的譯文。這個后編輯過程實際上是對系統(tǒng)的一種反饋。然而,目前輔助翻譯系統(tǒng)[5-8]的機器翻譯引擎和用戶之間相互隔離,是簡單的分工關系,系統(tǒng)對用戶反饋的利用程度十分有限。因此,如何從用戶后編輯行為中自動學習出隱性的翻譯知識,并加以有效的利用,使得系統(tǒng)的翻譯能力隨著用戶使用時間的增長而同步增長,實時動態(tài)提高輔助譯文質量,是輔助翻譯技術中亟待解決的問題之一。
本文提出一種基于用戶行為模型的輔助翻譯方法,其中通過實時記錄和分析用戶對輔助譯文的后編輯過程,自動學習用戶的翻譯知識,構建用戶行為模型,為機器翻譯引擎提供指導,動態(tài)提高輔助譯文的質量。實驗結果表明,在同一篇測試語料的前30%文本的后編輯過程中建立的用戶行為模型,使余下70%文本的輔助譯文的BLEU值提高了 4.9%,用戶模型中翻譯知識的準確率達到94.1%。
一些研究人員在翻譯模型中考慮了用戶行為因素。Kay[9]最早研究了交互式翻譯(Interactive Machine Translation, IMT)技術,其中用戶的工作被限制為消除原語句子中的句法歧義,規(guī)則系統(tǒng)負責對經(jīng)過消歧處理的原文進行翻譯,用戶不必對目標語進行處理,甚至不需要具有任何關于目標語的語言知識。這種方法在某些特定應用中具有一定優(yōu)勢,但同時也存在著嚴重的不足,特別是用戶不能直接控制最終譯文的質量,以及對于熟練的翻譯人員來說消除歧義是否真的比直接翻譯更容易也存在疑問。為此,F(xiàn)oster等人提出使用文本預測(text prediction)技術[10-13]來實現(xiàn)交互式翻譯。雖然基于統(tǒng)計方法的文本預測技術具有很高的準確率,但這并不意味著用戶的翻譯效率會有同樣的提升。Langlais[11]通過實驗證明,雖然TransType系統(tǒng)[10]能夠準確預測超過70%的字符,但在一項實際的翻譯測試中,翻譯效率反而下降了17%。Foster[12]認為主要有兩個原因: 首先,用戶閱讀提示(proposals)需要時間,所以當提示的內容過短或有錯誤時,實際的翻譯速度會有所降低;其次,用戶對待提示并不總是“理性的”,用戶偶爾也會選擇錯誤的提示。這表示TransType系統(tǒng)為了學習翻譯知識,對用戶的翻譯過程產生了很大的干擾和影響,限制了輔助翻譯技術優(yōu)勢的發(fā)揮。實際上,上述方法都要求用戶對機器翻譯系統(tǒng)提供某種特殊指導,并非從真實的輔助翻譯后編輯過程中直接獲取翻譯知識。相比之下,本文記錄了用戶對輔助譯文的真實后編輯過程,并從中自動分析出用戶的翻譯決策,作為翻譯知識的來源。整個學習過程對用戶的翻譯過程影響很小。
近年來出現(xiàn)了一些從后編輯結果中自動學習翻譯知識的方法。2006年,Elming[14]提出,使用基于轉換的學習(transformation-based learning),從詞對齊后的機器譯文和正確譯文中自動獲取翻譯錯誤的修改規(guī)則。2007年,Simard[15]將機器譯文作為源語言,將正確譯文作為目標語言,訓練出一個統(tǒng)計機器翻譯系統(tǒng),對機器譯文進行自動后編輯。2009年,Groves[16]通過分析微軟Treelet機器翻譯系統(tǒng)的機器翻譯結果和人工后編輯結果,識別出一系列后編輯模板。但是這些方法忽略了用戶進行后編輯的中間過程,僅考察原始機器譯文和最終正確譯文,為了識別相互對應的修改單元,就需要對兩個譯文進行單元(詞或短語)對齊,而原始譯文和最終譯文之間往往差別很大,很難達到較好的對齊效果。事實上,為了得到譯文修改單元之間的對應關系,必須記錄和分析用戶對譯文的整個編輯過程。本文通過將用戶的復雜編輯過程分解為單步操作序列,并對比中間譯文結果,自動得到對應的修改單元,從中學習翻譯知識。
在本文的輔助翻譯系統(tǒng)中,通過建立用戶行為模型,從用戶的顯性后編輯操作中挖掘出隱含于用戶頭腦之中的隱性翻譯知識,實現(xiàn)輔助翻譯系統(tǒng)中語言知識層面的人機交互和人機知識的同步增長,從而改善輔助譯文的質量,提高翻譯系統(tǒng)中的人機協(xié)同工作的效率。圖1描述了基于用戶行為模型的輔助翻譯過程。
圖1中,用戶借助輔助翻譯平臺對系統(tǒng)提供的輔助譯文進行后編輯操作, 輔助翻譯平臺自動記錄整個編輯過程,通過自動學習系統(tǒng),將用戶行為轉換為翻譯知識,處理知識中的沖突,逐步建立用戶行為模型,進而優(yōu)化機器翻譯引擎輸出的自動譯文,提高用戶的翻譯效率。
圖1 基于用戶行為模型的輔助翻譯系統(tǒng)
用戶行為數(shù)據(jù)采集和分析系統(tǒng)可以看作是記錄用戶后編輯全過程的工具。該工具集成在輔助翻譯平臺中,由兩個部分組成: 1)“后編輯”模塊,2)數(shù)據(jù)采集模塊。如圖2所示。
圖2 用戶行為數(shù)據(jù)采集系統(tǒng)
“后編輯”模塊提供了用戶(即翻譯人員)對機器翻譯譯文編輯的環(huán)境,并由數(shù)據(jù)采集模塊進行記錄。該模塊記錄了用戶的后編輯全過程,用于實時動態(tài)挖掘翻譯知識。
為了降低翻譯知識學習的難度,本文的數(shù)據(jù)采集模塊要求用戶在每次完成一個相對完整的修改操作(操作包括“插入”、“刪除”、“替換”3種)后點擊提交,系統(tǒng)進行記錄,自動識別和去掉沒有意義的“中間無效修改”(本文規(guī)定5個詞以上的修改為無效修改)后,保存到數(shù)據(jù)庫。用戶行為數(shù)據(jù)庫中包含的信息是如下的二元組:
<原始譯文TO,修改譯文TM>
通過這種方式,在輔助譯文上進行的復雜后編輯過程被分解為一系列翻譯決策,其中每個操作代表用戶所做的一個決策。整個后編輯過程表示為一個翻譯決策序列:
決策分解策略的好處在于可以直接對齊用戶每次修改的譯文片段,降低翻譯知識獲取的難度,同時避免生成過于細化的規(guī)則,有助于提高規(guī)則的覆蓋率,且不會對用戶的翻譯過程帶來過多干擾。
從用戶行為采集系統(tǒng)記錄的后編輯過程中,自動學習用戶的翻譯知識,形成翻譯規(guī)則庫,作為用戶行為模型,來自動修改機器翻譯模型生成的輔助譯文中的翻譯錯誤,優(yōu)化輔助譯文。
系統(tǒng)所采集的用戶行為數(shù)據(jù)由一系列中間翻譯決策組成。每個翻譯決策Di僅包含對中間譯文Ti-1的一次編輯操作,得到新的中間譯文Ti。例如:
Dm->Tm-1:... in the fixed lock body ...
Tm:... in the immovable cylinder body ...
Dn->Tn-1:... perform the bamboo pole dance ...
Tn:... perform the bamboo dance ...
通過比較中間譯文Ti和Ti-1,提取被修改過的譯文片段,可以從中自動歸納出用于修正翻譯錯誤的翻譯規(guī)則。規(guī)則以三元組形式表示如下:
其中CONTEXT代表存在錯誤的譯文片段S的上下文,是一個以S為中心的窗口;T代表用于對S進行修改時的目標片段。規(guī)則的含義是,當片段S的上下文為CONTEXT時,將S修改為T。上下文窗口的大小對翻譯規(guī)則的性能有直接影響。窗口越大,所生成的規(guī)則越嚴格,準確性更高,但匹配上的概率越低,反之亦然。本文規(guī)定,當修改操作的類別為“替換”時,可忽略上下文;當修改操作的類別為“插入”或“刪除”時,選取上下文窗口為當前片段S的前一個詞Wpre和后一個詞Wnext。
另外,本文還對規(guī)則進行了以下限制:
1) 在CONTEXT中,若Wpre或Wnext為禁用詞,則去除該詞,若兩者均為禁用詞,則濾掉這條規(guī)則;
2) 片段S或CONTEXT中至少應含有一個名詞,否則過濾掉這條規(guī)則。
根據(jù)以上原則,上例中的翻譯決策Dm可生成規(guī)則如下:
< fixed lock, -, immovable cylinder >
翻譯決策Dn可生成規(guī)則如下:
輔助翻譯系統(tǒng)在用戶行為模型的指導下,利用學習出的翻譯規(guī)則,對機器翻譯引擎輸出的輔助譯文進行后處理,修正其中的翻譯錯誤。譯文優(yōu)化的具體過程如下:
假設有源語言文本Ts
STEP 1: 機器翻譯引擎將Ts翻譯成輔助譯文TR;
STEP 2: 對TR進行規(guī)則匹配,失敗則轉到STEP 4;
STEP 3: 按匹配規(guī)則修改TR,轉到STEP 2;
STEP 4: 輸出最終譯文TR。
在該過程中,對自動生成的輔助譯文進行規(guī)則循環(huán)匹配,直至沒有能夠匹配上的規(guī)則為止。用戶模型中記錄每條規(guī)則出現(xiàn)的位置,在發(fā)生規(guī)則沖突時,選擇與片段S距離最近的規(guī)則進行匹配。
為了評測基于用戶行為模型的輔助翻譯方法的有效性,本文從互聯(lián)網(wǎng)上下載了50篇中文文章(體裁包括新聞報道、科技說明文、評論性文章、小說、專利摘要等),組成評測語料。語料的具體情況如表1所示。
實驗選取Google機器翻譯系統(tǒng)作為輔助翻譯系統(tǒng)中的機器翻譯引擎,進行漢到英的自動翻譯,以生成輔助譯文。實驗采用BLEU值作為輔助譯文質量的評價指標,并用NIST(National Institute of Standards and Technology)官方網(wǎng)站發(fā)布的mteval-v11.pl來進行計算。
表1 評測語料
本文將用戶后編輯產生的最終正確譯文作為參考譯文,用于BLEU值的計算。在實驗中,每個測試句子只有一個參考譯文。
本系統(tǒng)中,對于每篇測試文檔,隨著用戶對輔助譯文后編輯比例的增加,用戶行為模型中的翻譯知識逐漸累積,對于該文檔余下句子的自動翻譯效果不斷提高。本文針對每篇測試文檔,對用戶模型的效果進行了封閉測試。測試方法是,讓用戶分別對每篇文檔從頭至尾進行后編輯,并在不同后編輯比例下,利用所生成的用戶模型對整篇文檔的輔助譯文進行修正,并評測輔助譯文的質量。實驗結果如圖3所示。
圖3 不同后編輯比例下輔助譯文質量評價結果
圖3為全部語料上的總體測試結果。機器翻譯引擎的初始輔助譯文BLEU評價值為0.157 2,當用戶完成對每篇文檔的后編輯時(比例為100%),利用此過程中建立的用戶行為模型,自動修改同一篇文檔的初始譯文,使得輔助譯文的BLEU值提高了14.7%,達到0.180 3。其中本文對用戶行為進行
有選擇的學習,主要針對名詞短語的選詞錯誤,未覆蓋全部翻譯知識,因此處理后的輔助譯文并非完全正確的。
從圖3可以看出,輔助譯文質量的提高呈非線性趨勢。當用戶完成對每篇文檔前30%文本的后編輯后,輔助譯文的BLEU值提高了8.7%,達到0.170 9,而余下70%文本的后編輯帶來的提高僅有6.0%。這是由于文檔的開頭一般會說明全文的主要內容,提出所涉及的重要實體或概念,因此從該部分的后編輯中學習到的翻譯知識對于同一篇文檔余下部分的翻譯具有很強的指導意義。而文檔中間部分往往是對于文章主旨的深入和展開論述,即便出現(xiàn)新的實體或概念,也較少在后文中反復提及,因此其翻譯知識的指導意義不如文檔開頭部分大。
由此可見,從文檔前30%文本的后編輯過程中建立起來的用戶模型中含有重要的翻譯知識。為了驗證這些翻譯知識對于提高文檔中其余文本翻譯質量的作用,本文進行了開放測試,即利用每篇文檔的前30%文本中建立的用戶模型,來修改同一篇文檔余下70%文本的輔助譯文,并對譯文質量進行評測。實驗結果如表2所示(其中原始輔助譯文由Google翻譯引擎生成)。
表2 機器翻譯系統(tǒng)對比實驗結果
對比實驗結果表明,使用了用戶模型后,輔助譯文的BLEU評價值提高了4.9%,說明用戶模型中的翻譯知識能夠有效提高輔助譯文質量。系統(tǒng)在用戶翻譯過程中自動獲取用戶的翻譯知識,彌補了自身知識的不足。
例如,通過3.3小節(jié)中的翻譯決策Dm所生成的規(guī)則,系統(tǒng)從用戶行為中學習到,“固定鎖頭”的原始譯文“fixed lock”是錯誤的,正確譯法應是“immovable cylinder”。那么,如果后文中再次出現(xiàn)“固定鎖頭”,系統(tǒng)就會將錯誤的輔助譯文自動修改為正確譯文。同理,從翻譯決策Dn所生成的規(guī)則中,系統(tǒng)學習到“竹竿舞”的正確譯法。
本文的用戶模型中翻譯知識主要以規(guī)則形式表示,表3列出了上文開放測試中建立的用戶模型的基本情況。
表3 用戶模型
如表3所示,在303個中文句子的后編輯過程中共記錄了2 069個中間譯文(平均每個句子產生6.8個中間譯文),從中生成了178條規(guī)則(平均每11.6個中間譯文生成1條規(guī)則)。規(guī)則生成的比例較低,這是由于本文對生成規(guī)則的控制較為嚴格。同時本系統(tǒng)對規(guī)則的上下文有一定限制,因此匹配的正確率較高,為94.1%。
通過分析錯誤實例,本文發(fā)現(xiàn),匹配錯誤主要是由于“替換”操作所生成的規(guī)則未充分考慮上下文造成的,且錯誤集中于單個名詞的修改中。
例如,“恒溫混水閥”的原始輔助譯文為“temperature mixing valve”,正確譯文是“thermostatic mixing valve”。本文的學習算法生成規(guī)則
本文還對測試語料中不同體裁的文章分別進行了開放測試,即用戶對每篇文章的前30%進行后編輯,利用該過程中建立的用戶模型對同一篇文章余下的70%文本的輔助譯文進行修改,并評價譯文質量。實驗結果如圖4所示。
圖4 不同體裁語料的對比實驗結果
實驗結果表明,對于新聞、科技、評論、小說和專利語料,用戶模型的建立使得輔助譯文的BLEU值分別提高了4.0%、4.0%、5.4%、3.0%和12.6%。其中專利語料的提高幅度最大。本文認為其原因是專利中含有較多的專業(yè)名詞,且這些名詞在全文中重復出現(xiàn)的概率較高,這使得系統(tǒng)從用戶的翻譯過程中學到的翻譯知識能夠更充分地發(fā)揮作用。小說語料的提高幅度相對較小,原因是小說中的實體和概念通常較為常見,機器翻譯引擎翻譯效果較好,系統(tǒng)學習到的翻譯知識較少,使得用戶模型的作用不如在其他體裁的語料上明顯。
本文從用戶翻譯行為角度出發(fā)研究輔助翻譯過程,通過實時記錄用戶對輔助譯文的后編輯過程,將整個過程分解為翻譯決策序列,據(jù)此學習出用戶的翻譯知識,建立用戶行為模型,實現(xiàn)輔助翻譯系統(tǒng)中翻譯知識的同步增長,進而動態(tài)優(yōu)化輔助譯文,提高輔助翻譯系統(tǒng)中人機交互的效率。實驗結果表明,該方法是有效的,通過對同一篇文檔的前30%文本進行輔助翻譯,在后編輯過程中建立的用戶行為模型可以使余下70%文本的輔助譯文BLEU值提高4.9%。
本文建立的用戶行為模型中,主要是選詞方面的翻譯知識,在下一步的工作中,我們將研究如何更深入地挖掘翻譯決策數(shù)據(jù),從中學習調序及其他更高層次的翻譯知識。另外,在記錄翻譯過程時,本文的方法對于用戶的翻譯行為有一些限制和要求,未來的工作中,我們將研究如何在完全不干擾用戶翻譯過程的情況下,采集用戶的行為。
[1] Nirenburg S. Machine Translation[M]. Cambridge University Press: 1987.
[2] Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle[J]. Artificial and Human Intelligence, 1984: 173-180.
[3] Brown PF, Pietra SD. The mathematics of machine translation: Parameter estimation[J]. Computational Linguistics, 1993: 263-311.
[4] Koehn P, Och FJ, Marcu D. Statistical phrase-based translation[C]//Proceedings of the NAACL 2003. 2003: 48-54.
[5] Trados. Trados Translators Workbench, product description[R]. 1997.
[6] Eurolang. Eurolang Optimizer, product description[R]. 1999.
[7] 張桂平, 蔡東風. 翻譯工作室[C]//2002年全國機器翻譯研討會論文集. 2002: 334-341.
[8] 姜柄圭, 張秦龍, 諶貽榮, 常寶寶. 面向機器輔助翻譯的漢語語塊自動抽取研究[J]. 中文信息學報, 2007, 21(1): 9-16.
[9] Martin Kay. The MIND system[J]. Natural Language Processing, 1973: 55-188.
[10] Langlais P, Foster G, and Lapalme G. TransType: a computer-aided translation typing system[C]//Workshop on Embedded Machine Translation Systems. 2000: 46-51.
[11] Langlais P, Sauvé S, Foster G, et al. Evaluation of TransType, a Computer-aided Translation Typing System: A comparison of theoretical- and user-oriented evaluation procedures[C]//Proceedings of Second International Conference on Language Resources and Evaluation. 2002: 641-648.
[12] Foster G, Langlais P, and Lapalme G. User friendly text prediction for translators[C]//Proceedings of EMNLP 2004, 2004: 148-155.
[13] Barrachina S, Bender O, Casacuberta F. Statistical approaches to computer-assisted translation[J]. Computational Linguistics, 2009, 35(1): 3-28.
[14] Elming J. Transformation-based corrections of rule-based MT[C]//Proceedings of the EAMT 11thAnnual Conference. 2002.
[15] Simard M, Goutte C, Isabelle P. Statistical Phrase-Based Post-Editing[C]//Proceedings of HLT-NAACL 2007. 2007: 508-515.
[16] Groves D. Identification and Analysis of Post-Editing Patterns for MT[C]//MT Summit XII. 2009.