馬永亮,趙鐵軍
(哈爾濱工業(yè)大學 教育部—微軟語言語音重點實驗室,黑龍江 哈爾濱 150001)
漢—英統(tǒng)計機器翻譯中:中文語料是由一個個以字為基本單位的句子組成。這與大多數(shù)歐洲語言不同,它們的句子是由自然切分的單詞組成的。有研究人員進行了實驗[1],基于單個字切分的漢語語料不能使統(tǒng)計機器翻譯獲得最好的性能。對于實際的漢—英統(tǒng)計機器翻譯系統(tǒng),常常需要使用中文分詞工具對漢語語料進行預處理。
中文分詞的方法較多, 最早有一些基于最大匹配或者基于詞典的方法 , 隨后出現(xiàn)了基于層次隱馬爾可夫的中文分詞方法[2]。最近,許多state-of-the-art 機器學習算法被廣泛應用在自然語言處理領域,比如最大熵,支持向量機,條件隨機域等?;谶@些機器學習算法,研究者提出了相應的中文分詞方法[3-5]。除了眾多的中文分詞方法,中文分詞還使用了幾種不同的中文分詞標準,比如CTB,PKU,MSR等等。這些標準定義了不同的分詞原則,這使得同樣的中文語料在使用不同標準的分詞工具處理后分詞結(jié)果也有較大的差別。例如,圖1給出一個簡單句對的兩個分詞結(jié)果和相應的詞對齊結(jié)果。
圖2 復雜句對的分詞結(jié)果和詞對齊
無疑這兩種分詞結(jié)果都是正確的,但是某些情況下我們更希望是第一個分詞結(jié)果。因為,在這種情況下我們能夠從句對中獲得詞對齊信息“煎—Fried”。再給出一個對中文分詞來說更加難以面面俱到的例子。我們的目標是翻譯“能把腰部弄短嗎?”,當翻譯結(jié)果是“Can you shorten the waist ?”,圖2(a)中的分詞和對齊結(jié)果沒有問題。但是,如果翻譯結(jié)果是“Can you make the waist a little shorter?”, 我們更傾向于使用圖2(b)中的中文分詞結(jié)果。我們認為基于不同方法和分詞標準的中文分詞工具產(chǎn)生的結(jié)果盡管不同,但是在特定的上下文和語義中他們都可能是正確而有用的。
這些通用中文分詞方法并不是為統(tǒng)計機器翻譯量身定做的,他們的分詞結(jié)果對統(tǒng)計機器翻譯而言也就不可能是優(yōu)化的。近些年許多研究者對中文分詞在統(tǒng)計機器翻譯中的影響進行了廣泛而深入的研究。文獻[1,6]將中文分詞集成到統(tǒng)計機器翻譯系統(tǒng)的模型訓練和解碼過程中,Chang[7]等的研究表明分詞的一致性和分詞的粒度對統(tǒng)計機器翻譯是重要的, 并且提出了一種直接針對統(tǒng)計機器翻譯對分詞的粒度進行優(yōu)化的方法。Zhang等[8]進行了比較綜合的研究。 在文獻[8]中, 作者對中文分詞和統(tǒng)計機器翻譯的關系進行了細致的分析, 包括分詞標準、未登錄詞、切分錯誤等對SMT的影響。
在文獻[1,6]和文獻[7]中,作者的主要目的是針對統(tǒng)計機器翻譯來優(yōu)化中文分詞方法??偟膩碚f,他們要找到單一的一種中文分詞方法,從而盡可能使分詞結(jié)果適合統(tǒng)計機器翻譯。但是從我們的觀點考慮,我們可以利用基于不同分詞方法和不同分詞標準的分詞工具的結(jié)果,從中獲得對統(tǒng)計機器翻譯而言有用的信息。我們研究的出發(fā)點與文獻[8]中融合多個不同分詞結(jié)果訓練的模型是一致的。通過進一步研究,我們給出了更一般的結(jié)論。
從Brown等人提出統(tǒng)計機器翻譯方法[9],統(tǒng)計機器翻譯已經(jīng)逐漸成為機器翻譯的主流技術。多年來,基于短語的統(tǒng)計機器翻譯[10]、log-linear模型[11]、最小錯誤率訓練[12]等較大地提高了統(tǒng)計機器翻譯系統(tǒng)的性能,基于句法的統(tǒng)計機器翻譯也逐漸發(fā)展起來。
本文使用的統(tǒng)計機器翻譯系統(tǒng)是新近興起的一種基于句法的統(tǒng)計機器翻譯系統(tǒng)[13]——層次短語翻譯模型,該模型建立在上下文無關文法的基礎之上。給定源語言句子f和一個同步上下文無關文法,則存在有多種推導得到源語言端的f,因此也就對應著會有多種可能的翻譯結(jié)果e。在log-linear模型框架下,可以對每種推導如下建模:
(1)
(2)
式中f(D)是推導D對應的源語言句子,e(D)是推導D對應的目標語言句子。
在我們的系統(tǒng)中,我們使用了7個特征,短語翻譯概率, 反向短語翻譯概率, 詞匯化權重, 反向詞匯化權重,詞匯懲罰,規(guī)則懲罰,Glue規(guī)則懲罰和目標語言語言模型。這些特征的權重通過最小錯誤率訓練進行優(yōu)化[12]。
HIT中文分詞系統(tǒng)[14]的基本方法是基于詞典的。為了獲得更高的分詞精度,HIT 中文分詞系統(tǒng)在全切分的基礎上加入了多步處理策略。ICTCLAS[3]是基于層次隱馬爾可夫模型的中文詞匯分析系統(tǒng)。ICTCLAS可以同時提供中文分詞,詞性標注,中文命名實體識別。Stanford Chinese Word Segmenter[7]是基于條件隨機域模型的中文分詞系統(tǒng)。模型除了使用字符、字形、字符復現(xiàn)等特征外,還加入了詞匯化特征。
我們將不同分詞結(jié)果對應的訓練語料看成訓練數(shù)據(jù)的幾個部分,然后對應每個部分訓練一個模型,最后根據(jù)目標調(diào)整各個模型的權重。通??梢酝ㄟ^兩種方式完成這樣的工作。
第一種方式是線性的,在實際應用中被廣泛采納,可以表示為:
p(x|h)=∑cλcpc(x|h)
(3)
式中p(x|h)是混合后的模型,pc(x|h)是從部分c上訓練的模型,λc是對應的權重。
第二種是log linear模型,可表示為:
(4)
式中ac可以通過全局優(yōu)化得到。本文使用了與Zhang等[7]相同的方法, 采用線性的方式對多分詞結(jié)果進行融合,稱為翻譯模型線性插值。
翻譯模型的特征插值就是對相同類型的特征進行線性插值計算。使用前面提到的3個中文分詞工具對漢英平行語料中的中文部分進行分詞處理,由此得到對應的3個經(jīng)過分詞的漢英平行語料。然后這3個平行語料分別用于訓練各自的層次短語翻譯模型。特征插值的計算可以描述如下:
λipi(x|h)
(5)
在文獻[8]中, 特征融合被用于與特征插值進行比較。特征融合首先要定義一個主模型,除主模型外的其他模型被定義為輔助模型。然后,將在輔助模型中的翻譯條目加入到主模型中。與特征插值不同的是,只有那些在主模型中沒有的翻譯條目才從輔助模型中加入到主模型中,并且每個翻譯條目的各個特征值不變。文獻[8]中的實驗結(jié)果顯示特征插值要比特征融合性能更好,但是并沒有進一步深入研究這一原因。本文繼續(xù)使用文獻[8]中對特征融合的定義,我們的研究重點是如何利用多分詞結(jié)果提高統(tǒng)計機器翻譯性能。我們認為翻譯模型的特征融合是比翻譯模型的特征插值更有潛力的方法,因為這種方法基于一個明顯的事實:更多的信息會有效地擴大模型的空間,如果能夠有效地控制模型空間增長帶來的噪聲問題,那么翻譯模型的特征融合技術就有希望獲得較好的性能。我們在文章中只探討兩個模型的特征融合。
除去翻譯模型中的特征值,模型中的翻譯條目由兩部分組成源語言部分f和對應的目標語言部分e。我們將輔助模型分為4部分:
?f|||e,f是源語言部分,e是對應的目標語言部分。它們已經(jīng)在主模型中成對出現(xiàn)。
此外,文獻[15]中提出將特征插值和特征融合的方法結(jié)合起來。實驗結(jié)果表明,將特征插值和特征融合結(jié)合并不能獲得更好的性能。
表1 特征融合的策略
我們的實驗平臺是一個用C++實現(xiàn)的層次短語翻譯系統(tǒng)[13]。訓練過程中使用GIZA++獲得詞對齊,使用SRI Language Modeling Tookit[16]訓練modified-KN平滑的3-gram語言模型。
我們在小規(guī)??谡Z漢英平行語料上進行了實驗。實驗的語料采用IWSLT2004的訓練集和測試集。實驗采用自動翻譯評價,使用了大小寫相關的BLEU-4自動翻譯評價指標[17]。 訓練集的英語部分用來訓練語言模型。為了優(yōu)化系統(tǒng)的特征權重,使用最小錯誤率訓練來最大化系統(tǒng)在開發(fā)集上的BLEU得分。最后,系統(tǒng)將使用不同的模型在測試集上進行測試。訓練集和測試集的詳細信息見表2。
表2 IWSLT2004語料
實驗中,我們使用沒有加入任何模型優(yōu)化方法的層次短語翻譯系統(tǒng)作為Baseline系統(tǒng)。在Baseline系統(tǒng)的實驗中,所有中文語料均使用HIT中文分詞系統(tǒng)進行分詞。表3給出了Baseline系統(tǒng)的實驗結(jié)果。表4給出了用Stanford和ICTCLAS分詞系統(tǒng)對所有中文語料進行分詞后系統(tǒng)的實驗結(jié)果。
表3 Baseline實驗結(jié)果
表4 Stanford和ICTCLAS實驗結(jié)果
我們對所有7個特征融合策略進行了兩組實驗。第一組實驗使用HIT中文分詞系統(tǒng)處理的訓練語料作為主模型的訓練語料,Stanford中文分詞系統(tǒng)處理的訓練語料作為輔助模型的訓練語料;第二組實驗使用HIT中文分詞系統(tǒng)處理的訓練語料作為主模型的訓練語料,ICTCLAS分詞系統(tǒng)處理的語料作為輔助模型的訓練語料。兩組實驗中的開發(fā)集和測試集均由HIT中文分詞系統(tǒng)進行分詞。表5給出了第一組實驗結(jié)果,表6給出了第二組實驗結(jié)果。
表5 HIT+Stanford實驗結(jié)果
表6 HIT+ICTCLAS實驗結(jié)果
最后,我們使用Paired Bootstrap Resampling[18]對系統(tǒng)性能差異的統(tǒng)計顯著性進行衡量。結(jié)果顯示,在p=0.05的條件下,HIT+Stanford組中的策略6和HIT+ICTCLAS組中的策略2對Baseline系統(tǒng)、特征差值策略、HPBT(Stanford)和HPBT(ICTCLAS)的BLEU分數(shù)提高都具有統(tǒng)計顯著性。
實驗結(jié)果顯示。相對于Baseline系統(tǒng),兩組實驗分別獲得了1.76和1.89的BLEU分數(shù)增長。
我們觀察Baseline系統(tǒng)和使用特征融合方法的系統(tǒng)的輸出,發(fā)現(xiàn)特征融合在改進系統(tǒng)性能方面最為顯著的表現(xiàn)就是將Baseline系統(tǒng)無法翻譯的未登錄詞進行了正確的翻譯,而這些翻譯知識正是從輔助模型中獲得的。例如,Baseline中的翻譯結(jié)果“I can’t see 屏幕.”改進為“I can’t see screen very well.”“How 按摩 脊背?”改進為“Have massage 脊背?”“一共 is 八十七 dollars.”改進為“八十七 is all together dollars.”等。
前面這種類型的改進可以通過融合多分詞結(jié)果中合適的分詞結(jié)果獲得正確的詞對齊并產(chǎn)生原本存在于漢—英句對中的對應翻譯項。借助正確的詞對齊,我們可以獲得更準確的短語翻譯。這些通過融合多分詞結(jié)果獲得的新翻譯知識是十分有意義的。這種改進可以通過觀察系統(tǒng)輸出、分析訓練和解碼過程方便的認識到,但是我們猜測翻譯模型融合方法不會只通過這種方式改進系統(tǒng)性能,其他復雜、深入的原理還不能通過我們的實驗直觀地反映出來。
因為輔助模型的各個部分之間以及輔助模型的各個部分與主模型之間的相互影響復雜,對應不同中文分詞系統(tǒng)的組合,對于固定的訓練和測試語料,最優(yōu)特征融合策略并不固定。因此,將這樣的方法應用到大規(guī)模語料的處理必須首先確定一個最優(yōu)的策略。在沒有好的、確定的方法前,這樣的工作比較耗時。
本文提出的方法直接利用已有的中文分詞系統(tǒng)的分詞結(jié)果,采用多策略特征融合技術得到復合的翻譯模型,使用復合翻譯模型的統(tǒng)計機器翻譯系統(tǒng)性能得到了顯著的提高。
我們的方法使用了多策略翻譯模型融合,每個策略對應使用輔助模型的一部分信息。這些策略并不能都在測試集上得到性能的顯著提高,但是一些策略在實驗中表現(xiàn)出了對Baseline系統(tǒng)較明顯的性能優(yōu)勢和對特征插值的優(yōu)勢。實驗結(jié)果顯示統(tǒng)計機器翻譯中有效地利用多分詞結(jié)果能夠顯著的提高漢英統(tǒng)計機器翻譯系統(tǒng)的性能。同時,我們也認識到我們提出的方法在處理大規(guī)模統(tǒng)計機器翻譯時存在效率問題。在未來的工作中,我們將進一步研究在我們提出的方法中融合策略選擇的問題,并且進一步深入發(fā)掘來自不同分詞結(jié)果的各個模型的內(nèi)部以及它們之間的作用機制,進一步減小噪聲在復合模型中的影響。希望更多的研究者能夠從中文分詞入手,解決中文分詞在統(tǒng)計機器翻譯中存在的問題,進一步提高與漢語相關的統(tǒng)計機器翻譯的性能。
[1] Jia Xu, Richard Zens, and Hermann Ney. Do we need Chinese word segmentation for statistical machine translation? [C]//ACL SIGHAN Workshop 2004, 2004:122-128.
[2] Hua-Ping Zhang, Hong-Kui Yu, De-Yi Xiong, and Qun Liu. HHmm-based chinese lexical analyzer ICTCLAS[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, 2003:184-187.
[3] Nianwen Xue and Libin Shen. Chinese word segmentation as LMR tagging[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, 2003:176-179.
[4] Taku Kudo and Yuji Matsumoto. Chunking with support vector machines[C]//Second meeting of the North American Chapter of the Association for Computational Linguistics on Language Technologies, 2001:1-8.
[5] Fuchun Peng, Fangfang Feng, and Andrew McCallum. Chinese segmentation and new word detection using conditional random fields[C]//Proceedings of COLING 2004, 2004:562-568.
[6] Jia Xu, Evgeny Matusov, Richard Zens, and Hermann Ney. Integrated Chinese word segmentation in statistical machine translation [C]//Proceedings of IWSLT 2005, 2005:141-147.
[7] Pi-Chuan Chang, Michel Galley, and Christopher D. Manning. Optimizing Chinese word segmentation for machine translation performance[C]//Proceedings of the Third Workshop on Statistical Machine Translation, 2008:224-232.
[8] Ruiqiang Zhang, Keiji Yasuda, and Eiichiro Sumita. Chinese word segmentation and statistical machine translation [J]. ACM Trans. Speech Lang.Process, 2008, 5(2):1-19.
[9] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, and Paul S. Roossin. A statistical approach to machine translation [J]. Computational Linguistics, 1990,16(2):79-85.
[10] Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation[C]//Proceedings of the 2003 Conference ofthe North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003:48-54.
[11] Franz Josef Och and Hermann Ney. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of 40th Annual Meeting of the Association for Computational Linguistics, 2002:295-302.
[12] Franz Josef Och. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics, 2003:160-167.
[13] David Chiang. Hierarchical phrase-based translation [J]. Computational Linguistics, 2007, 33(2):201-228.
[14] 趙鐵軍,等.提高漢語自動分詞精度的多步處理策略[J]. 中文信息學報, 2001, 15(1): 13-18.
[15] Yongliang Ma, Tiejun Zhao. Improving Chinese to English SMT with multiple CWS results[C]//International Conference on Asian Language Processing 2009.
[16] Andreas Stolcke. Srilm - an extensible language modeling tookit[C]//Proceedings of the International Conference on Spoken Language Processing, 2002:901-904.
[17] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2001:311-318.
[18] Philipp Koehn. Statistical significance tests for machine translation evaluation[C]//Proceedings of EMNLP 2004, 2004:388-395.