穆妮熱·穆合塔爾,李 曉,楊雅婷
(1.中國科學(xué)院新疆理化技術(shù)研究所,烏魯木齊 830011; 2.中國科學(xué)院大學(xué),北京 100049;3.新疆民族語音語言信息處理實(shí)驗(yàn)室,烏魯木齊 830011)
維吾爾語是典型的黏著語,其詞匯是通過詞干(詞根)和詞綴連接而衍生的,該屬性使其生成大量的語素組合,呈現(xiàn)出豐富且復(fù)雜的形態(tài)變化,大幅增加了詞匯量的規(guī)模,從而在漢語與維吾爾語之間的機(jī)器翻譯中造成了未登錄詞的增多和統(tǒng)計(jì)模型的數(shù)據(jù)稀疏性問題,為降低數(shù)據(jù)稀疏度,詞干、詞尾分解后只保留詞干而無條件地丟棄詞尾會失去很多有用的信息,相反若保留所有的詞尾則導(dǎo)致句子過長,會被詞語對齊工具過濾掉[1]。對維吾爾語詞尾粒度的切分采取選擇性的保留方法,可以降低因不同形態(tài)帶來的數(shù)據(jù)稀疏性問題,盡可能地增加漢語到維吾爾語的詞對齊的數(shù)量來提高詞對齊的正確率,從而可以達(dá)到提高漢維機(jī)器翻譯的質(zhì)量的目的[2]。
本文搭建基于統(tǒng)計(jì)的漢維統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),通過詞語對齊質(zhì)量和語言模型困惑度等對不同粒度的維吾爾語與漢維機(jī)器翻譯質(zhì)量進(jìn)行對比,最終根據(jù)實(shí)驗(yàn)來選擇最佳粒度的維吾爾語語料。
維吾爾語詞類大致分為實(shí)詞、虛詞、感嘆詞等,而實(shí)詞分為動詞和靜詞,虛詞可分為后置詞、連詞、語氣詞等[5]。實(shí)詞包含具有表達(dá)意義和形態(tài)變化的詞類,虛詞包含沒有形態(tài)變化的詞類。維吾爾語中的名詞、形容詞、數(shù)詞等屬于靜詞范圍,在形態(tài)變化上具有一定的相似性。因?yàn)殪o詞與動詞是并列關(guān)系,靜詞與動詞形態(tài)系統(tǒng)的差異較大[6]。維吾爾語靜詞構(gòu)形詞綴有 65 個不同的詞綴,名詞有49 個詞綴,數(shù)詞有 57個詞綴,形容詞有55個詞綴,動詞有150個多詞綴。當(dāng)一個詞干綴接不同的詞尾時(shí)會表現(xiàn)出不同的語法功能,在漢語跟維吾爾之間互相翻譯時(shí)會出現(xiàn)一個維吾爾詞語對應(yīng)到漢語中一個短語的情況[7]。圖1是維吾爾語在沒有進(jìn)行形態(tài)分析前的漢維對齊的情況。
圖1 未進(jìn)行形態(tài)分析前漢維詞語對齊的情況
如果對維吾爾語詞本身進(jìn)行詞干與詞綴之間的切分,并且去除所有詞綴只保留詞干形式進(jìn)行漢維詞語對齊時(shí),其結(jié)果如圖2和圖3所示。
圖2 基于詞干的漢維詞語對齊情況
圖3 去掉詞尾后的詞干漢維詞語對齊情況
圖2和圖3顯示不同粒度的詞干詞語對齊結(jié)果,不同粒度的詞干指的是維吾爾語最小詞干(圖2)和去掉最后一個詞尾以后剩下的詞干部分(圖3),本文中均成最大詞干[9]。顯然基于不同粒度的詞干詞語對齊時(shí)沒有多對多的情況,能明顯降低數(shù)據(jù)稀疏性問題。當(dāng)然,去掉詞綴后的詞干對齊雖然沒有多對多的情況,但是會導(dǎo)致詞綴自帶的部分重要語法信息的丟失[10]。因此,下一步對不同粒度的詞干-詞綴進(jìn)行詞語對齊,如圖4(詞干+詞綴)和圖5(詞干+詞尾)所示。
圖4 基于詞干-詞綴的漢維詞語對齊情況
圖5 基于詞干-詞尾的漢維詞語對齊
本文使用開源的Moses翻譯解碼器中基于短語的加碼器分別以不同粒度的維吾爾語語料為目標(biāo)語言,并以漢語語料為源語言進(jìn)行基于雙語平行語料的漢維翻譯。圖6所示為翻譯系統(tǒng)基本框架[14]。
圖6 漢維翻譯訓(xùn)練及解碼流程
Fig.6Flowchart of Chinese-Uygher translation training and decoding
該系統(tǒng)由語料預(yù)處理、語言模型訓(xùn)練、翻譯模型訓(xùn)練和解碼等4個模塊組成。其中翻譯模型可以被Moses識別,一組特殊格式的文件集,其結(jié)構(gòu)復(fù)雜,但是整體描述的是從漢語的“某個短語”翻譯成維吾爾語的“某個詞或者短語”。語料的預(yù)處理和語言模型訓(xùn)練的過程將在3.1節(jié)介紹[15]。
在基于語料庫的漢維統(tǒng)計(jì)機(jī)器翻譯中進(jìn)行翻譯時(shí),由于語料的來源和獲取方式的不同,可以在訓(xùn)練和翻譯過程中使用的語料需得進(jìn)行預(yù)處理,除了用中科院計(jì)算技術(shù)研究所開發(fā)的分詞工具對漢語語料進(jìn)行分詞外,還可用其他的工具對維吾爾語語料進(jìn)行詞例化,本文用艾則孜等人開發(fā)出來的維吾爾語詞法分析工具,將維吾爾語語料進(jìn)行預(yù)處理并準(zhǔn)備了不同粒度的語料,如詞、詞干、詞干+詞綴、詞干+詞尾、最大詞干等5種不同粒度的維吾爾語語料以及已分詞好的漢語語料,2種語言語料是平行語料[16]。
對現(xiàn)有的語料進(jìn)行處理以后,訓(xùn)練雙語語料時(shí)利用GIZA++進(jìn)行無監(jiān)督的漢語維吾爾語對齊訓(xùn)練,在讀取要翻譯的輸入文件時(shí)GIZA++構(gòu)造IBM模型的各個模型,然后通過期望最大化算法(EM)進(jìn)行反復(fù)迭代訓(xùn)練,生成最有可能性的對齊信息結(jié)果供下一步規(guī)則抽出使用。EM算法是一種從不太完整的或者有數(shù)據(jù)丟失的數(shù)據(jù)集中求解概率模型參數(shù)的最大擬然估計(jì)方法,EM算法中循環(huán)E步驟是求在當(dāng)前參數(shù)值和樣本下的期望函數(shù)Q(隨機(jī)變量z的概率密度函數(shù)),M步驟是利用期望函數(shù)重新計(jì)算模型中新的估計(jì)值[17]。E步驟對于每一個i的計(jì)算公式如式(1)所示。
Qi(zi):=p(z(i)|x(i);θ)
(1)
M步驟是利用期望函數(shù)重新計(jì)算模型中新的估計(jì)值。M步驟計(jì)算公式如式(2)所示。
(2)
在統(tǒng)計(jì)機(jī)器翻譯中,語言模型對于整個翻譯系統(tǒng)而言是不可缺少的-部分,語言模型不僅能提高輸出句子的流利度,而且對詞匯順序和詞匯翻譯的決策過程也起著重要的作用。簡單來說,對本文語言模型函數(shù)的輸入是維吾爾語,而輸出是概率,最常用的語言模型建模方法是N-gram建模法,該模型是一個假設(shè),即第N個詞的出現(xiàn)只與前面N-1個詞相關(guān),整句的概率就是各個詞出現(xiàn)的乘積,例如,對一個由m個詞構(gòu)成的句子t=w1,w2,…,wm,它的概率計(jì)算公式如式(3)所示[18]。本文中使用語言模型工具SRILM對漢維平行語料庫的維吾爾語語料進(jìn)行訓(xùn)練。
p(w1,w2,…,wn)=
p(w1)p(w2|pw1)…p(wn|w1,w2,…,wn-1)
(3)
本文分別對不同粒度的維吾爾語在不同單位的語料建立語言模型。在建立語言模型時(shí),需要一個評價(jià)語言模型質(zhì)量的測度,即困惑度,困惑度在交叉熵上的基礎(chǔ)上進(jìn)行簡單變換。其基本思想是給測試集的句子賦予較高概率值,語言模型較好,當(dāng)語言模型訓(xùn)練完之后,測試集中的句子都是正常的句子,那么訓(xùn)練好的模型在測試集上的概率越高越好[19],計(jì)算公式如式(4)所示。
PPP=2H(PLM)
(4)
由式(4)可知,困惑度越小,句子概率越大,語言模型也越好。表1是不同粒度語料在不同單位的N-gram語言模型的困惑度[20]。
表1 不同級別語言模型N-gram的困惑度
Table 1N-gram perplexity degree of different levels of language model
困惑度詞詞干詞干-詞綴最大詞干詞干-詞尾1-gram2879.301003.10597.341619.97972.272-gram270.79145.3159.26198.6984.723-gram185.4693.9431.83132.8647.974-gram173.8985.6726.28122.7442.565-gram176.2486.4625.76124.2342.44
由表1數(shù)據(jù)可知,在不同粒度的語言模型中,基于詞干-詞綴粒度的4-gram 語言模型的困惑度最低,僅次于詞干-詞尾粒度的5-gram語言模型。其他粒度的語言模型性能隨著N-gram單位的增加而增高。圖7所示是不同語言模型的困惑度。
圖7 不同N-gram語言模型的困惑度
本文在Linux工作環(huán)境下搭建了基于短語的漢維機(jī)器翻譯系統(tǒng),分別在同樣規(guī)模和內(nèi)容但級別不同的漢語-維吾爾語平行語料庫上進(jìn)行實(shí)驗(yàn)。上述級別分別是基于詞的、基于詞干的、基于詞干-詞綴的、基于詞干詞尾的和基于最大詞干的語料,3種語料的漢語端完全相同,維語端是根據(jù)需要分成上述的3種級別供實(shí)驗(yàn)所用。實(shí)驗(yàn)數(shù)據(jù)規(guī)模如表2和表3所示。
表2 漢語端語料信息統(tǒng)計(jì)
表3 基于不同粒度的維吾爾語語料端信息統(tǒng)計(jì)
Table 3 Information statistics Uyghur corpus based on different granularities
粒度語料句子數(shù)單詞與詞素?cái)?shù)詞級訓(xùn)練集1050951797453開發(fā)集150027116測試集100017072詞干級訓(xùn)練集1050951784642開發(fā)集150027201測試集100016652最大詞干級訓(xùn)練集1050851801105開發(fā)集150027233測試集100016656詞干-詞綴級訓(xùn)練集1050843055782開發(fā)集150045195測試集100028729詞干-詞尾級訓(xùn)練集1050952625988開發(fā)集150039245測試集100024525
表4 不同粒度漢維機(jī)器翻譯實(shí)驗(yàn)結(jié)果
Table 4 Experimental results of Chinese-Uyghur machine translation with different granularities
粒度語料BLEU值詞級測試集20.34開發(fā)集23.88詞干級測試集21.73開發(fā)集26.66最大詞干級測試集17.60開發(fā)集20.30詞干-詞綴級測試集23.71開發(fā)集27.00詞干-詞尾級測試集20.03開發(fā)集23.20
圖8 不同粒度漢維機(jī)器翻譯BLEU值對比結(jié)果
Fig.8 Comparison results of BLEU values of Chinese-uyghur machine translation with different granularities
從表4和圖8可以看出,基于詞干的翻譯結(jié)果的BLUE值明顯高于基于詞級的翻譯結(jié)果,但是因?yàn)榛谠~干的維吾爾語中所有構(gòu)形詞尾都被去除,所以詞語對齊時(shí)訓(xùn)練不充分,導(dǎo)致一些重要的語法信息丟失,而基于詞干-詞綴級別的和基于詞干-詞尾級別粒度實(shí)驗(yàn)中漢語與維吾爾語詞語對齊效果較好,其翻譯質(zhì)量也明顯提升。
維吾爾語的復(fù)雜形態(tài)對基于統(tǒng)計(jì)的漢語與維吾爾語的詞語對齊及語言模型的質(zhì)量有較大影響,直接關(guān)系到兩種語言之間的翻譯結(jié)果。本文對比了不同粒度的5種維吾爾語漢語平行語料,維吾爾語詞綴切分粒度的不同,基于不同粒度的N-Gram語言模型對BLEU值的提高幅度也不同。實(shí)驗(yàn)結(jié)果表明,基于詞干的維吾爾語和基于詞干-詞尾的維吾爾語目標(biāo)端語料的翻譯質(zhì)量明顯高于其他3種語料。由于維吾爾語詞干詞綴自動切分工具功能的差異性影響最佳詞干-詞綴正確粒度的切分,導(dǎo)致部分的詞綴形態(tài)信息缺乏,下一步將采用相關(guān)維吾爾語形態(tài)還原方法得到帶有所需形態(tài)信息的完整句子,以保證翻譯結(jié)果的流利度。