張亞鵬,葉 娜,蔡東風
(沈陽航空航天大學 人機智能研究中心,遼寧 沈陽 110136)
利用句法信息改進交互式機器翻譯
張亞鵬,葉 娜,蔡東風
(沈陽航空航天大學 人機智能研究中心,遼寧 沈陽 110136)
在很多領域中,全自動機器翻譯的譯文質(zhì)量還無法達到令人滿意的程度。要想獲得正確無誤的譯文,往往需要翻譯人員對自動翻譯系統(tǒng)的輸出進行后處理。在交互式機器翻譯的框架內(nèi),翻譯系統(tǒng)和譯員協(xié)同工作,譯員確認系統(tǒng)提供的譯文中的最長正確前綴,系統(tǒng)據(jù)此對譯文后綴進行預測,共同完成翻譯任務。該文利用基于短語的翻譯模型,建立了交互式機器翻譯系統(tǒng),并結合交互式機器翻譯的特點,利用句法層面的子樹信息來指導翻譯假設的擴展。實驗表明,該方法可以有效地減少人機交互次數(shù)。
交互式機器翻譯;子樹信息;譯文前綴
盡管機器翻譯在最近的幾十年取得了很大的進展,但是,現(xiàn)有的自動機器翻譯系統(tǒng),只是在有限的領域里,可以輸出直接可用的高質(zhì)量的譯文。對于大部分領域,用戶所需要的直接可用的譯文,都必須由擁有翻譯知識的譯員,對機器翻譯系統(tǒng)輸出的譯文進行后處理,然后才能交付使用。在這種模式下,譯員可以利用翻譯系統(tǒng)推送的譯文完成翻譯任務,但是,機器翻譯系統(tǒng)卻不能利用譯員的翻譯知識。于是,一些研究人員提出了交互式機器翻譯框架,在此框架內(nèi),允許譯員人工干預翻譯過程。首先機器翻譯系統(tǒng)會對給定的待翻譯句子推送出可能的譯文,然后譯員可以對翻譯系統(tǒng)推送出的譯文做出接受、修改或舍棄等操作,最后機器翻譯系統(tǒng)會根據(jù)譯員當前的操作做出下一步的預測,循環(huán)進行此過程,直到譯員得到最終想要的譯文。圖1展示了一個經(jīng)典的交互式機器翻譯過程。
圖1 交互式機器翻譯實例
在這里我們要將一個漢語句子(source)“任何 不 屬 客船 的 船舶 。”翻譯為英文譯文(reference)“Any ship other than a passenger ship .”。在開始交互之前(interaction-0),系統(tǒng)首先推薦一個可能的譯文(或譯文后綴,ts)。在第一次交互(interaction-1)中,用戶挪動光標來接受譯文的前四個字符“Any ”(空格也包含在內(nèi)),并且用鍵盤輸入字符s(k),然后系統(tǒng)根據(jù)用戶修改后的譯文前綴立即給出新的譯文后綴“hip other than passenger ships .”第二次交互(interaction-2)的境況類似。在最后一次交互時用戶完全接受了系統(tǒng)當前推薦的譯文。
交互式翻譯系統(tǒng)的解碼原理與傳統(tǒng)全自動機器翻譯的解碼原理是一樣的,因此交互式的機器翻譯系統(tǒng)可以采用基于棧的解碼策略,利用多?;蛘呤侵阉鹘獯a算法。不同的地方在于,在交互式翻譯系統(tǒng)解碼時,會考察當前的翻譯假設是否符合譯文前綴,若不符合譯文前綴則不加入到待擴展假設中。然后一步步擴展,直至生成最終譯文。
本文在基于短語的機器翻譯模型的基礎上,建立交互式機器翻譯框架,并針對交互式機器翻譯中前綴信息的引入,提出了利用句法層面的子樹信息來指導翻譯假設擴展的方法。并且結合翻譯人員給予的譯文前綴,相比于傳統(tǒng)的機器翻譯系統(tǒng),交互式機器翻譯系統(tǒng)的特殊特征,用三種策略把子樹信息加入到交互式機器翻譯系統(tǒng)的解碼當中。第一種: 只在完全匹配譯文前綴之前的翻譯假設擴展時,使用子樹信息指導翻譯假設的擴展;第二種: 只在完全匹配譯文前綴之后的翻譯假設的擴展時使用子樹信息作為指導;第三種: 在整個翻譯假設擴展當中都使用子樹信息進行指導。實驗結果表明,三種策略相比于基線系統(tǒng),都能減少人機交互次數(shù),但是第三種策略的效果最好。
本文結構安排如下: 在第二部分,介紹與本文相關的研究;第三部分介紹子樹的抽取方法,以及如何將子樹信息嵌入交互式機器翻譯系統(tǒng)的解碼中;第四部分介紹實驗配置、實驗結果及分析;第五部分對本文進行總結,并給出未來的工作設想。
在這部分中,介紹一些交互式機器翻譯方面的其他研究人員的工作。
在早期的交互式機器翻譯研究中,研究人員主要的研究點集中在對源語言文本的解釋和消歧。Foster在1997年提出了TransType的基本系統(tǒng)[1],該系統(tǒng)第一次將交互式機器翻譯的關注點從對源語言文本的解釋分析轉移到目標語言文本的生成上,減輕了譯員的工作負擔提高了效率,并且使譯員可以控制翻譯系統(tǒng)輸出的譯文。之后的幾年當中,又有很多的研究人員對TransType系統(tǒng)進行了改進。Langlais等人在2000年對系統(tǒng)的用戶界面和詞的預測提出了改進[2]。2002年,由許多歐盟研究機構共同參與的TransType2項目,創(chuàng)新性的把一個完全的基于數(shù)據(jù)驅(qū)動的機器翻譯系統(tǒng)嵌入到交互式翻譯框架中,并且在每一次的交互過程中,翻譯系統(tǒng)都會根據(jù)翻譯人員給出的譯文前綴,預測出一個或者多個最好的后綴補全譯文,供翻譯人員選擇。在TransType2項目中,很多的研究人員對系統(tǒng)進行分析,并且提出很多種方法來解決這些問題。TransType的這兩個項目極大的推動了交互式機器翻譯技術的發(fā)展。2010年,Ortiz和Casacuberta等人,將在線學習的思想加入到了交互式機器翻譯技術當中。其主要思想是利用用戶的反饋信息來不斷的完善系統(tǒng)的底層模型[3]。González-Rubio和Ortiz等人,將機器譯文的置信度評價作為其是否需要和翻譯人員進行交互的衡量,從而有效地平衡了翻譯人員的工作量和系統(tǒng)翻譯結果的準確率[4]。2012年,González-Rubio和Ortiz等人[5],將動態(tài)學習的方法引入到交互式機器翻譯系統(tǒng)當中,使系統(tǒng)可以增量式的從已經(jīng)翻譯完的句子中學習,從而明顯地提高后續(xù)句子的翻譯準確率,有效減少了翻譯人員的工作量。2013年,Jesús González-Rubio和Daniel Ortíz-Martinez等人[6],將基于層次短語的翻譯模型應用到了交互式機器翻譯當中,并且采用了超圖作為機器和用戶之間的交互接口。
在之前的研究中,研究人員從對源語言的分析轉移到對目標語言的生成,并且把在線學習和動態(tài)學習的思想加入到模型中,但都沒有使用句法信息對翻譯系統(tǒng)進行改進。
這一部分,主要講述子樹信息的抽取及如何將子樹信息嵌入到翻譯系統(tǒng)的解碼中。
3.1 子樹信息抽取
句法樹采用短語結構樹。該句法結構把句子細分成更小的單位,然后通過短語連接起來。
子樹是一個句子中相對獨立的一部分,它可以是一個名詞短語或動詞短語。我們使用的子樹信息,是一個三元組,如式(1)所示,我們所用到的子樹并不包含整棵句法樹,因為整棵句法樹在本文中無任何意義。
(1)
N表示子樹名稱,In_s表示子樹開始詞在句子中的位置,In_e表示子樹結束詞在句子中的位置。
系統(tǒng)得到待翻譯的句子之后,我們首先用句法分析器對句子進行句法分析,生成短語結構句法樹,如圖2所示。經(jīng)圖3的偽代碼處理之后,我們得到句子的子樹信息。最終我們得到的子樹是(NP,0,1)、(VP,2,6)、(IP ,3 ,6)、(VP ,4 ,6)、(VP ,5,6)。
圖2 短語結構樹的示例
圖3 子樹抽取偽代碼
3.2 子樹信息的嵌入
對句子進行翻譯時,應該在完成對一個子樹的翻譯之后,才能對其他子樹進行翻譯,我們就把這個原則加入到交互式翻譯系統(tǒng)框架中。本文中,我們使用基于短語的交互式翻譯系統(tǒng)框架,利用多棧解碼算法對短語系統(tǒng)進行解碼。在每個代表當前翻譯假設覆蓋源語言詞個數(shù)的大棧中,有很多覆蓋不同位置但覆蓋源語言詞個數(shù)的小棧。當擴展翻譯假設時,我們會選取每個大棧里的每個小棧中最大分值的翻譯假設進行擴展。在這里我們使用子樹信息選擇更合適的翻譯假設,由于短語擴展存在調(diào)序現(xiàn)象,所以覆蓋相同源語言詞的翻譯假設可能是由不同的短語組成的,選取短語假設擴展時,在覆蓋源語言詞個數(shù)且源語言詞位置相同的多個翻譯假設中,若存在符合子樹限制的翻譯假設,則選擇此翻譯假設進行擴展,若不存在,我們按照傳統(tǒng)的翻譯假設選擇方法,選擇翻譯假設進行擴展,當出現(xiàn)多個符合子樹限制翻譯假設時,我們選擇分值最高的那個翻譯假設進行擴展。
符合子樹限制的定義是: 當前翻譯假設包含的上一個被翻譯的短語和最后一個被翻譯的短語所包含的詞在同一個子樹內(nèi)。為了更好的結合基于短語的翻譯模型,若當前所選擇的子樹只有一個連續(xù)的短語未被翻譯且這個連續(xù)的短語在子樹的邊界上,允許擴展當前子樹未包含的源語言詞,前提是,當前所擴展的短語完全包含當前子樹未翻譯的詞。例如,假設一個源語言句子有7個詞,已翻譯詞的標志數(shù)組為[1100100](標志位為1表示已經(jīng)被翻譯,標志位為0表示未被翻譯),當前翻譯的短語包含的詞在句子中的位置為<4,4>和選擇子樹(VP,3,5)來限制短語的擴展,那么符合子樹限制的短語有<3,3>、<5,5>、<5,6>,不符合子樹限制的短語有<2,2>、<2,3>、<6,6>。
在判斷翻譯假設是否符合子樹限制時,只使用翻譯假設的上一個被翻譯的短語和當前被翻譯的短語是一種軟策略,考慮到句法分析的性能,我們并不要求翻譯假設的每一次擴展都符合子樹限制,這樣能夠更好的利用原有系統(tǒng)短語擴展的優(yōu)勢。
然后結合交互式翻譯所特有的特征——譯文前綴,本文提出三種策略,第一種: 只把子樹信息應用到當前所選擇的翻譯假設未覆蓋譯文前綴時;第二種: 只把子樹信息應用到當前所選的翻譯假設覆蓋譯文前綴之后;第三種: 把前面兩種結合起來,在整個句子的翻譯中使用子樹信息。三種策略的偽代碼如圖4~圖6所示。
圖4 只在所選翻譯假設未覆蓋翻譯前綴時使用子樹信息偽代碼
圖5 只在所選翻譯假設已經(jīng)覆蓋翻譯前綴時使用子樹信息偽代碼
圖6 在整個翻譯過程中使用子樹信息偽代碼
子樹抽取時,抽取子樹之間會存在嵌套且僅僅對包含整個句子的子樹的特殊子樹限制抽取,會造成包含句子詞的個數(shù)過多的情況出現(xiàn),這將導致翻譯假設對子樹限制不敏感。針對子樹嵌套的情況,根據(jù)子樹包含句子中詞的個數(shù),我們提出了最大子樹策略(max_subtree)和最小子樹策略(min_subtree),當出現(xiàn)子樹嵌套情況時,根據(jù)策略不同,選取不同的子樹。為了避免出現(xiàn)包含句子中詞個數(shù)過多的子樹出現(xiàn),我們通過子樹包含詞的個數(shù)與整個句子詞的個數(shù)的比值(RatioSubtreeSentece)對所抽取子樹進行過濾。另外,在選取符合子樹限制的翻譯假設進行擴展時,我們還應該考慮將本方法所選擇的翻譯假設的分值與傳統(tǒng)方法所選擇的翻譯假設的分值進行比較,對一些分值過低但符合子樹限制的翻譯假設進行舍棄。因為如果分值過低,在下一步的剪枝策略時也會被舍棄。我們把這個因素定義為分值比(score_ratio),在實驗環(huán)節(jié),會對以上提出的可能影響到系統(tǒng)性能的參數(shù)進行單獨實驗。
在這一部分,對實驗語料的信息、評價標準和實驗結果進行描述,并對實驗結果進行分析。
4.1 語料信息
我們的實驗采用部分的漢英平行語料Hong Kong Laws Parallel Text(LDC2000T47)進行,該語料是來自香港的一些法律文本。我們使用了其中的20萬平行句對來作為訓練語料,并從這20萬平行句對之外的部分隨機選取了不重疊的1 000個和1 558個平行句對分別做開發(fā)集和測試集,并且考慮到模擬交互環(huán)境對參考譯文準確性的要求,開發(fā)集和測試集的平行句對都是經(jīng)過人工校正的。表1示出了所用語料的一些統(tǒng)計特性。
中文部分都采用ICTCLAS進行了分詞處理,并且所用語料的英文部分都經(jīng)過了詞形還原和小寫化處理。GIZA++[8]工具被用來進行訓練語料的詞對齊工作,而雙向詞對齊的融合采用Grow-Diag-Final策略。此外我們利用SRLIM[9]工具在訓練語料的英文單語語料上訓練了一個3-gram的語言模型。我們使用開源工具moses來訓練基于短語的統(tǒng)計翻譯模型。該短語模型使用了moses默認的14個特征,并且這些特征之間按照對數(shù)線性的方式進行結合,此外, 我們使用了最小錯誤率訓練[10](MERT)來對特征的參數(shù)進行優(yōu)化,并且優(yōu)化指標采用大小寫不敏感的BLEU-4指標。句法樹采用berkeley句法分析器生成[11],我們選用1-best句法樹來抽取子樹信息。
表1 語料統(tǒng)計特性
4.2 評價標準
在本文中,對交互式翻譯系統(tǒng)的性能評價我們采用了Key-stroke ratio(KSR)指標,該指標的計算方法為: 用要得到標準譯文(參考譯文)所需的鍵盤敲擊次數(shù)除以標準譯文(參考譯文)所包含的字符總數(shù)[7]。KSR的值越小,則交互式翻譯系統(tǒng)的性能也應該越好。
4.3 系統(tǒng)設置
基線系統(tǒng)(Baseline)是我們實現(xiàn)的傳統(tǒng)的交互式機器翻譯系統(tǒng),然后我們子樹信息通過三種策略加入到基線系統(tǒng)中。三種策略分別表示為(+ISIBCP : 在翻譯假設未覆蓋譯文前綴時使用子樹信息, +ISIACP : 在翻譯假設已經(jīng)覆蓋譯文前綴后使用子樹信息, +Both : 在整個翻譯過程中使用子樹信息)。為了更好的顯示系統(tǒng)性能,我們在不同的N-best列表上計算評價標準。
4.4 實驗結果及分析
表2的系統(tǒng)中,對于上一節(jié)我們所提到的三個影響因素設置是一致的。這里我們在使用子樹的選擇上使用min_subtree,對于另外的兩個可能影響系統(tǒng)性能的因素沒有考慮。通過表2的實驗結果,我們可以看到,把子樹信息嵌入到交互式翻譯系統(tǒng),無論是在覆蓋翻譯假設前,還是覆蓋翻譯假設后,都可以在一定程度上減少交互次數(shù),但在“+Both”系統(tǒng)中表現(xiàn)出比其他系統(tǒng)更好的性能。
表2 不同系統(tǒng)的實驗結果
表3是各個系統(tǒng)的在用1-best結果作為參考的情況下,翻譯速度方面的表現(xiàn),我們發(fā)現(xiàn)隨著系統(tǒng)性能提高,在可接受的范圍內(nèi),速度也會有所下降。
表3 不同系統(tǒng)的速度
在其他影響因素固定的情況下,使用不同的策略選擇子樹。通過表4中的實驗結果,我們知道,當子樹出現(xiàn)嵌套的情況時,選取不同的子樹來評價當前的翻譯假設,會對翻譯假設的選取有一定的影響,同時對翻譯系統(tǒng)的性能產(chǎn)生一定的影響。
表4 max_subtree和min_subtree的實驗結果
表5的結果是在其他影響因素固定的情況,根據(jù)RatioSubtreeSentence在抽取子樹時,對當前句子中所包含的子樹進行過濾,在遇到子樹嵌套的情況使用min_subtree策略選擇子樹。并在“+Both”系統(tǒng)上進行實驗,結果表明,在一定的情況下對子樹進行過濾會提高系統(tǒng)性能。
表5 RatioSubtreeSentece的實驗結果
表6的結果是我們在“+Both”系統(tǒng)基礎上,對所選擇符合子樹限制的翻譯假設的分值與當前的翻譯假設的分值比做了限制,我們可以看到隨著分值比的限制系統(tǒng)性能越來越差,這也從另一個方面顯示了,調(diào)序模型的簡單,未給出適當?shù)姆种怠?/p>
表6 score_ratio的實驗結果
我們可以看到,隨著分值比的限制提高,系統(tǒng)的性能逐步下降。這也從另一個角度證明了,傳統(tǒng)方法未能充分利用前綴的約束信息,對翻譯假設給出合理的分值。提出三種不同的策略把子樹信息加入到交互式翻譯系統(tǒng)中。另外,我們還發(fā)現(xiàn)了幾個影響系統(tǒng)性能的因素,如當子樹出現(xiàn)嵌套時,子樹的選擇;抽取子樹時子樹包含詞的個數(shù)與當前句子之間的比值;所選擇的符合子樹限制到翻譯假設與傳統(tǒng)的方法所選擇的翻譯假設之前的分值比。經(jīng)過實驗證明這些都會影響到系統(tǒng)的性能,本文只驗證了這些因素單獨使用時對系統(tǒng)性能的影響。在未來的工作中,我們會研究三種因素的綜合作用對系統(tǒng)性能的影響。而且,在此系統(tǒng)中,對于由于各種原因不能匹配用戶前綴的情況,系統(tǒng)會直接跳出解碼,不會給出翻譯后綴。因此,后面的研究也會涉及到在當前系統(tǒng)不能匹配用戶給出翻譯前綴時生成翻譯后綴的策略。當前我們的基線系統(tǒng)采用的是多棧的解碼策略,我們下一步將研究在柱搜索解碼策略中子樹信息的應用。
[1] Foster G, Isabelle P, Plamondon P. Target-text Mediated Interactive Machine Translation[J]. Machine Translation, 1997, 12(1): 175-194.
[2] Langlais P, Foster G, and Lapalme G. TransType: a Computer-aided Translation Typing System[C]//Proceedings of the NAACL/ANLP Workshop on Embedded Machine Translation Systems, 2000: 46-52.
[3] Ortiz-MartinezD, Garcia-Varea I, Casacuberta F. Online Learning for Interactive Statistical Machine Translation[C]//Proceedings of NAACL 2010, 2010: 546-554.
[4] Gonzalez-Rubio J, Ortiz-Martinez D, Casacuberta F. Balancing User Effort and Translation Error in Interactive Machine Translation Via Confidence Measures[C]//Proceedings of the 48th ACL, 2010: 173-177.
[5] Gonzalez-Rubio J,Ortiz-Martinez D, Casacuberta F. Active learning for interactive machine translation[C]//Proceedings of the 13th EACL, 2012: 245-254.
[6] Jesús González-Rubio, Daniel Ortiz-Martínez, José-Miguel Benedí, et al. Interactive Machine Translation using Hierarchical Translation Models[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 2013: 244-254.
[7] Och FJ, Zens R, Ney H. Efficient Search for Interactive Statistical Machine Translation[C]//Proceedings of EACL 2003, 2003: 287-293.
[8] Och F J, H Ney. A systematic comparison of various statistical alignment models[J]. Computational Linguistics, 2003, 29(1): 19-51.
[9] AndreasStolcke, Jing Zheng, Wen Wang, and Victor Abrash. SRILM at Sixteen: Update and Outlook[C]//Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop,2011.
[10] Franz Josef Och. Minimum error rate training in statistical machine translation[C]//Proceedings of ACL, 2003: 160-167.
[11] Petrov S, Barrett L, Thibaux R, et al. Learning accurate, compact, and interpretable tree annotation[C]//Proceedings of the 44th Association for Computational Linguistics, 2006: 433-440.
Using Syntactic Information to Improve InteractiveMachine Translation
ZHANG Yapeng,YE Na,CAI Dongfeng
(Human-Computer Intelligence Research Center, Shenyang Aerospace University,Shenyang,Liaoning 110136,China)
In many domains, the performance of fully automatic machine translation is still not satisfactory. In order to obtain error-free translation, human translators need to perform post-editing on the output of automatic translation systems. Under the framework of interactive machine translation, the translation system and the translator work collaboratively. The translator validates the longest correct prefix in the translation provided by the system, and the system predicts the suffix to complete the sentence. On the basis of phrase-based translation model, this paper built an interactive machine translation system. Considering the characteristics of interactive machine translation, syntactic subtree information is used to guide the extension of translation hypotheses. Experiments show that this method can effectively reduce the interaction time between human and the computer.
interactive machine translation; subtree information; translation prefix
張亞鵬(1988—),碩士研究生,通信作者,主要研究領域為交互式機器翻譯。E?mail:zhangyp_nlp@163.com葉娜(1981—),博士,講師,主要研究領域為輔助翻譯、文本挖掘。E?mail:yena_1@126.com蔡東風(1958—),博士,教授,主要研究領域為人工智能、自然語言處理。E?mail:caidf@vip.163.com
2015-01-10 定稿日期: 2015-03-10
國家自然科學基金(61402299)
1003-0077(2017)02-0042-07
TP391
A