王斯日古楞,王春榮,斯琴圖,阿 榮,玉 霞
(1. 內(nèi)蒙古師范大學 計算機與信息工程學院,內(nèi)蒙古 呼和浩特 010022;2. 內(nèi)蒙古師范大學 網(wǎng)絡中心,內(nèi)蒙古 呼和浩特 010022)
漢蒙機器翻譯中譯文動詞后處理研究
王斯日古楞1,王春榮1,斯琴圖2,阿 榮1,玉 霞1
(1. 內(nèi)蒙古師范大學 計算機與信息工程學院,內(nèi)蒙古 呼和浩特 010022;2. 內(nèi)蒙古師范大學 網(wǎng)絡中心,內(nèi)蒙古 呼和浩特 010022)
蒙古文的形態(tài)變化非常豐富,在動詞詞類上該特點更為明顯。我們對蒙古文的動詞自動生成方法進行了系統(tǒng)的研究。該文利用生成的蒙古語動詞庫,給出了對基于層次短語的漢蒙統(tǒng)計機器翻譯譯文中句尾錯誤詞形動詞進行糾正處理的方法。實驗表明,該方法可以提高漢蒙機器翻譯的性能和流利度。
蒙古文動詞;漢蒙機器翻譯;后處理;錯誤詞形
蒙古語是黏著型語言,其形態(tài)變化非常豐富。這一特點在蒙古文動詞上更為明顯。我們在研究漢蒙統(tǒng)計機器翻譯過程中發(fā)現(xiàn),在機器翻譯譯文中,蒙古文動詞在句尾以句中形式出現(xiàn)的情況很多。
蒙古文動詞的形態(tài)變化非常豐富,原語言當中的一個漢語動詞對應很多不同詞形的蒙古語動詞,這嚴重影響了統(tǒng)計機器翻譯效果。研究人員在蒙古文的形態(tài)變化上做過一些研究,文獻[1]在基于規(guī)則的漢蒙機器翻譯研究中指出:蒙古文中的一個動詞可以有850個確定的變化形式,如果只考慮理論上的“詞”, 一個蒙古文動詞至少可以有1 710個不同選擇項,在機器翻譯中如何正確地選擇和生成這些形式,是蒙古文機器翻譯的關(guān)鍵所在。在統(tǒng)計機器翻譯研究中,研究人員[2-3]對蒙古文訓練語料進行詞法分析,在漢蒙統(tǒng)計機器翻譯中引入蒙古文形態(tài)信息,提高了漢蒙統(tǒng)計機器翻譯的性能。但是,目前還沒有研究在漢蒙統(tǒng)計機器翻譯中如何正確選擇蒙古文動詞詞形,使得生成的句子符合蒙古文的詞法句法規(guī)則,進一步提高漢蒙統(tǒng)計機器翻譯的譯文質(zhì)量。
我們對漢蒙機器翻譯譯文分析發(fā)現(xiàn),在400條句子的測試集當中,句尾出現(xiàn)的動詞比例約占10%,其中,漢蒙機器翻譯譯文中以錯誤形式出現(xiàn)的動詞約有20%。所以我們嘗試處理了蒙古文譯文中由于形態(tài)變化而出現(xiàn)的錯誤動詞。本文針對蒙古文譯文中句尾以句中形式出現(xiàn)的動詞,利用蒙古文動詞庫,將譯文中句尾以句中形式出現(xiàn)的動詞進行了糾正處理。
蒙古文的構(gòu)詞、構(gòu)形都是通過在詞干后綴接不同的詞尾而實現(xiàn),而且可以層層綴接,層層派生。文獻[4]中給出了297個蒙古文構(gòu)形附加成分。其中我們選擇了142個動詞構(gòu)形附加成分。 蒙古語動詞構(gòu)形附加成分分為三類,分別為:第一類:祈使式、陳述式、副動詞和形動詞附加成分,共113條;第二類:態(tài)附加成分,共20條;第三類:體附加成分,共9條。我們在蒙古文動詞詞干庫基礎(chǔ)上,按綴接規(guī)則,在詞干后面綴接動詞構(gòu)形附加成分,生成了蒙古文動詞庫。
針對句尾出現(xiàn)的錯誤詞形動詞,我們設(shè)計了動詞后處理算法。具體步驟如下。
(1) 利用自己開發(fā)的蒙古文動詞自動生成程序,生成蒙古文動詞庫,從中抽取出句尾形式動詞,得到句尾形式動詞庫;
(2) 利用蒙古文單語語料庫,統(tǒng)計出句尾形式動詞庫中每個詞在句尾出現(xiàn)的詞頻;
(3) 從機器翻譯譯文中找出句尾出現(xiàn)的錯誤詞形動詞,構(gòu)成錯誤形式動詞表;
(4) 切分錯誤形式動詞表中的每個詞,得到最小動詞詞干;
(5) 以頻率最高的句尾形式動詞,替換錯誤形式詞表中有共同最小動詞詞干的詞。下面介紹每一步的具體實現(xiàn)方法。
3.1 構(gòu)建句尾形式動詞庫
本文中使用的機器翻譯語料都是日常用語語料。我們選取了內(nèi)蒙古大學蒙古學學院研發(fā)的“蒙古語語法信息詞典動詞分庫”中的13 871條蒙古文動詞詞干構(gòu)成了基本動詞詞干庫,其包含了所有現(xiàn)代蒙古文動詞詞干。對譯文進行錯誤動詞后處理時,我們使用自己開發(fā)的基于規(guī)則的蒙古文動詞自動生成程序,在該動詞庫基礎(chǔ)上連接構(gòu)型附加成分生成了蒙古文動詞庫。從翻譯譯文中對句尾以句中形式出現(xiàn)的動詞糾正處理角度來看,我們需要從蒙古文動詞庫中抽取句尾形式動詞。
本文在13 871條蒙古文動詞詞干基礎(chǔ)上,生成了580MB規(guī)模的蒙古文動詞庫。從該動詞庫中抽取的蒙古文句尾詞形動詞庫的規(guī)模為39.2MB。
3.2 計算句尾形式動詞頻率
得到句尾形式動詞庫之后,需要計算其在蒙古語語料庫中句尾出現(xiàn)的頻率,生成句尾形式動詞頻率庫,以便為譯文中每個句尾錯誤詞形動詞找到與其對應的頻率最高的動詞。
3.3 找出句尾以句中形式出現(xiàn)的錯誤詞形動詞
對蒙古文譯文中句尾錯誤詞形動詞后處理時,需要從譯文中找出動詞,本文中即找出句尾以句中形式出現(xiàn)的動詞。查找錯誤詞形動詞流程如圖1所示。
根據(jù)蒙古文構(gòu)形附加成分庫中的動詞構(gòu)形附加成分,判斷一個蒙古文詞是否為動詞的方法,有時候可能將非動詞詞類也識別為動詞。為了減少錯誤識別情況,本文利用蒙古文詞性標注語料庫,統(tǒng)計識別錯誤詞形動詞的不同詞類標注情況。如果有多個詞類,則看是否按動詞類標注的情況最多;如果識別出的動詞在蒙古文詞性標注語料庫中僅標注成動詞或者標注成動詞的頻率比其他詞類標注頻率高,就可以確定該詞為動詞。
圖1 查找句尾以句中形式出現(xiàn)的錯誤詞形動詞的流程
3.4 獲取句尾錯誤詞形動詞的最小動詞詞干
從漢蒙機器翻譯譯文中找到句尾錯誤詞形動詞之后,對這些動詞進行切分,得到最小動詞詞干。最小動詞詞干指的是把一個蒙古文動詞的構(gòu)形附加成分切割后剩下的詞干。例如,“UILEDBURILEHU”,該詞的最小動詞詞干是“UILEDBURILE”,而不是“UILE”或“UILEDBURI”等。在該模塊中,利用動詞構(gòu)形附加成分及構(gòu)形附加成分綴接規(guī)則、重疊規(guī)則及還原規(guī)則,對動詞進行切分。匹配切分基本過程如圖2所示。
圖2 獲取錯誤詞形動詞的最小動詞詞干的流程
3.5 錯誤詞形動詞的替換
利用句尾形式動詞頻率庫,對每個句尾錯誤詞形動詞找到與之有相同最小動詞詞干的句尾形式動詞;然后,使用搜索到的頻率最高的句尾形式動詞,將譯文中對應的錯誤詞形動詞進行替換。
我們進行了兩組實驗,分別為基準實驗和句尾錯誤詞形動詞后處理實驗。
基準實驗進行了基于層次短語的漢蒙統(tǒng)計機器翻譯,其訓練數(shù)據(jù)為CWMT2009提供的語料,語言模型設(shè)置成4-gram,語言模型訓練語料庫使用100萬詞的蒙古文語料及訓練語料中67 288條句子的蒙古文語料組成的單語語料。兩組實驗的譯文評測結(jié)果如表1所示。
表1 評測結(jié)果
本文機器翻譯譯文中出現(xiàn)了五個句尾錯誤動詞,利用蒙古文動詞庫對基準實驗的譯文結(jié)果進行錯誤動詞后處理后,其評測結(jié)果在NIST值上提高了0.42%。在BLEU值上提高了0.02%。 我們從實驗結(jié)果看到BLEU值提高不多,主要原因是蒙古文動詞的詞形變化非常豐富,即使句尾詞形,對于同一個語義也有不同詞形可以對應,我們選取的詞形與參考答案不同的話對BLEU值提高不會有貢獻。我們對譯文進行錯誤動詞后處理之后,五個句尾錯誤動詞中,有一個錯誤動詞的處理與參考答案一致,其余錯誤動詞處理之后,雖然與四個參考答案不一致,但是我們看到對于譯文句末動詞校正后會明顯提高譯文句子的流利度。因此,從提高譯文可讀性角度來說,在漢蒙統(tǒng)計機器翻譯中譯文動詞的這種后處理是非常有意義的。
本文只對句尾以句中形式出現(xiàn)的錯誤詞形動詞進行了糾正處理,而沒有對句中錯誤詞形動詞進行處理。我們下一步將對漢蒙機器翻譯系統(tǒng)譯文中的句中錯誤詞形動詞進行后處理研究。
[1] 那順烏日圖,劉群,巴達瑪放德斯爾.面向機器翻譯的蒙古語生成,自然語言理解與機器翻譯[M].清華大學出版社,2001.
[2] 楊攀,張建,李淼等.漢蒙統(tǒng)計機器翻譯中的形態(tài)學方法研究[J].中文信息學報,2009,23(1):50-57.
[3] 寶美榮.融入形態(tài)學分析的漢蒙統(tǒng)計機器翻譯研究[D].內(nèi)蒙古師范大學,2012.
[4] 淑琴.《蒙古語語法信息詞典構(gòu)形附加成分庫》的設(shè)計與實現(xiàn)[D].內(nèi)蒙古大學,2005.
[5] 內(nèi)蒙古大學蒙古學學院蒙古語文研究所.現(xiàn)代蒙古語[M].內(nèi)蒙古人民出版社,1964.
[6] 內(nèi)蒙古大學蒙古學研究院蒙古語文研究所.蒙漢詞典(增訂版)[M].內(nèi)蒙古大學出版社,2011.
[7] 淑琴,艷花.蒙古語構(gòu)形附加成分重疊使用特征及其模型[C]//第十屆全國少數(shù)民族語言文字信息處理學術(shù)研討會論文集,2005.
Post-processing for Verbs in Chinese-Mongolian Machine Translation
Wangsiriguleng1,Wang Chunrong1,Siqintu2,Arong1,Yuxia1
(1. Computer and Information Engineering College, Inner Mongolia Normal University, Hohhot, Inner Mongolia 010022, China; 2. Network Center of Inner Mongolia Normal University, Hohhot,Inner Mongolia 010022, China)
Mongolian is rich in morphological variation, especially for the verb. Based on a given Mongolian verb dictionary, we corrected the wrong verb form appeared in the end of hierarchical phrase based Chinese-Mongolian machine translation sentence. The experiments show that this method can improve the translation quality.
Mongolian verbs; Chinese-Mongolian Machine Translation; post-processing; word’s wrong form
王斯日古楞(1970—),博士,教授,主要研究領(lǐng)域為蒙古文信息處理和機器翻譯。E?mail:siriguleng@imnu.edu.cn王春榮(1989—),碩士,助教,主要研究領(lǐng)域為自然語言信息處理。E?mail:wangchunrong.zmd@163.com斯琴圖(1972—),碩士,高級工程師,主要研究領(lǐng)域為蒙古文信息處理和計算機網(wǎng)絡。E?mail:siqintu@imnu.edu.cn
1003-0077(2016)02-0213-04
2013-11-14 定稿日期: 2014-05-15
國家自然科學基金(61063014);內(nèi)蒙古自治區(qū)自然科學基金(2012MS0918);內(nèi)蒙古師范大學計算機與信息工程學院科技創(chuàng)新團隊資助項目
TP391
A