李 文,李 淼,梁 青,朱 海,應玉龍,烏達巴拉
(1. 中國科學院 合肥智能機械研究所,安徽 合肥 230031;2. 中國科學技術大學 自動化系,安徽 合肥 230027;3. 大同電力高級技工學校,山西 大同 037039)
形態(tài)切分的目標是將詞切分為詞素(詞義基本單位,本文指的是詞干、詞綴的集合)。形態(tài)豐富的語言,例如蒙古語、土耳其語、俄語、西班牙語等,通常語言構形成分承載著大量的語法信息。形態(tài)切分成為自然語言處理中的很多領域,包括語音識別[1]、機器翻譯[2-3]、信息檢索[4]等重要研究方向,因而形態(tài)分析是蒙古文信息處理諸多應用系統(tǒng)的一個不可或缺的模塊。
蒙古文形態(tài)分析屬于序列標注問題,當前所采用的主要方法有: (1)詞典和規(guī)則相結(jié)合的分析方法[5];(2)統(tǒng)計和規(guī)則相結(jié)合的分析方法[5]?;谠~典的方法通過查詞典的方式查到一個詞是由哪些詞干和詞綴構成的,雖然對語料庫中詞切分準確率可以達到很高,但該方法受詞典的規(guī)模限制且存在二義性問題?;谝?guī)則的方法主要依據(jù)專家總結(jié)規(guī)則,存在規(guī)則總結(jié)不完全、切分錯誤和切分二義性問題?;诮y(tǒng)計和規(guī)則相結(jié)合的蒙古語形態(tài)切分方法[6],主要利用規(guī)則生成形態(tài)切分候選項,蒙古文詞素統(tǒng)計語言模型作為排歧依據(jù),分別有基于詞性的語言模型和Skip-N語言模型,其正確率與基于規(guī)則和詞典相結(jié)合的形態(tài)切分系統(tǒng)相比有較大的提高,然而該方法仍然受到規(guī)則的限制。
與上述方法不同,針對詞表詞切分存在二義性的問題,本文將蒙古文形態(tài)切分類比為機器翻譯問題,提出了基于短語統(tǒng)計機器翻譯形態(tài)切分模型(Phrase Based Statistical Machine Translation Morphological Segmentation, PSMTMS)。該模型的核心思想將切分前的序列視為源語言,切分后的序列視為目標語言,采用統(tǒng)計機器翻譯的方法達到形態(tài)切分的目的。由于采用了基于統(tǒng)計的短語機器翻譯系統(tǒng),形態(tài)分析是以短語為單位進行切分的。相對以單個詞為單位進行切分,短語更好地考慮了切分的上下文信息。
機器翻譯的思想也曾在自然語言的相關領域有應用,Quirk[7]將統(tǒng)計機器翻譯系統(tǒng)用于釋義生成系統(tǒng),Stefan Riezler[8]將統(tǒng)計機器翻譯技術用于問答系統(tǒng)的問題詢問擴展,Ming Zhou[9]將基于短語的統(tǒng)計機器翻譯系統(tǒng)用于對聯(lián)生成系統(tǒng)。由于基于短語的機器翻譯形態(tài)切分系統(tǒng)考慮了詞的上下文關系,系統(tǒng)不僅可以很好地處理詞的歧義切分問題,而且對語料庫中錯誤的人工標注具有很強的容錯能力。
對未登錄詞的切分,采用了最小上下文代價構成模型(Minimum Constituent - Context Cost Model, MCCCM),此模型主要考慮了詞的一元上下文切分信息。為了在切分過程中更全面地考慮切分上下文信息,融入了詞綴的N元上下文信息。
(1)
其中,hm(e,f)是e,f的特征函數(shù),λ1,…,λM是與這些特征分別對應的特征參數(shù)。
機器翻譯的思想與形態(tài)切分系統(tǒng)對應,源語言即為切分前表面詞形s。由于蒙古文形態(tài)切分存在切分歧義的問題,其切分后存在n種切分狀態(tài)s1s2…sn,為了消除切分歧義,找到s的最佳切分組合。本文以短語為單位,考慮s中詞切分的上下文特征。類似于基于短語的機器翻譯模型,本系統(tǒng)選取了反映切分忠實度的短語翻譯模型、反應短語有效性的詞匯化翻譯模型和反映切分流利度的語言模型等特征,具體見表1。
表1 特征選取
短語翻譯模型反映了切分忠實度, 并體現(xiàn)了原始表面詞形和切分后表面詞形的依賴關系??梢愿鶕?jù)如下公式通過計算相對頻率的方法計算短語翻譯概率:
(2)
Koehn等證實詞匯化翻譯模型[12]能夠體現(xiàn)短語翻譯對的有效性。為了保證切分前后,詞素序列的有效性,形態(tài)切分系統(tǒng)里也增加了詞匯化翻譯模型。
(3)
(4)
count(fj,ej)是詞fj和ej同時出現(xiàn)在F和E對齊語料中的次數(shù),與機器翻譯里的詞匯化模型類似,本文也考慮了逆向詞匯化模型。
形態(tài)切分后的結(jié)果是詞素序列,詞素的統(tǒng)計語言模型能夠衡量詞素序列的有效性,其公式為:
hlm=log∏ip(ei|ei-2,ei-1)
(5)
本模型的基本思想: 根據(jù)選取的特征定義切分代價,對任意待切分的詞,搜索使切分代價總和最小的切分狀態(tài),其核心是詞素上下文特征的選擇和構建, 解碼算法采用維特比算法。
上下文構成模型(Constituent-Context Model, CCM)最早由Klein和Manning[11]用作語法歸納。Hoifung在非監(jiān)督式的對數(shù)線性形態(tài)切分模型中借用該方法構建詞素環(huán)境模型[13],Klein考慮了一元上下文特征,Hoifung考慮了N-gram詞素上下文環(huán)境。因為本模型所處理的對象是未登錄詞,切分出來的詞干很多也是語料庫中未出現(xiàn)過的,所以本文不僅考慮了一元詞素上下文環(huán)境,而且也考慮了詞綴N-gram上下文環(huán)境。詞的形態(tài)切分可視作一棵樹,樹根表示詞,樹葉分別表示詞素。
例如: 拉丁蒙文$0G0DB0RILAGDAHV-ACA切分后,可以表示為圖1所示的一棵樹形圖。
圖1 詞切分樹結(jié)構
最小切分代價考慮了兩方面: 1. 詞匯一元上下文切分代價,即各詞綴構成整詞的代價;2. 詞綴N-gram上下文切分代價,即詞與詞間的詞綴的n元關系代價。D=m1m2…mn構成詞的詞素符號序列,蒙古文的詞綴可能有多個,本文考慮了詞綴n元語言模型信息Suf=s1s2…sl,以句子為輸入單元,句子總的代價C定義為:
(7)
訓練過程抽取得到詞綴一元詞典和詞綴的N元概率詞典設詞。根據(jù)一元詞典,枚舉出對待切分的詞的所有的切分狀態(tài),采用動態(tài)規(guī)劃算法搜索切分代價最小的最佳切分狀態(tài)。word長度為T,其字符序列word=a1a2…aT。設Cost(T)為長為T的詞切分代價,對于整個詞其切分代價由一元上下文切分代價和詞綴N-gram上下文切分代價組成,Min{Cost(T)}表示長度為T的詞最小切分代價。Cost(T,l)表示長度為T的字符串a(chǎn)1a2…aT切分成aT-laT-l+1aT和a1a2…al兩個子串的代價。Cost(T-l)表示長度為T-l的字符串切分代價,Suf(aT-laT-l+1aT)為詞綴aT-laT-l+1aTN-gram上下文切分代價。
Min{Cost(T)}=Min{Cost(T,l)+Cost(Suf(aT-laT-l+1…aT))}+Min{Cost(T-l)}
(8)
解碼算法采用維特比算法計算使切分代價C最小的狀態(tài),總體分為兩步: (1)遍歷各種切分狀態(tài)并保存切分代價和路徑;(2)回溯求解最小切分代價下的狀態(tài)組合。
本文所使用的訓練語料由內(nèi)蒙古大學提供,語料中的詞已經(jīng)被人工切分為詞干和構型詞綴,因而,本文的詞素特指詞干和構形詞綴的集合??紤]到蒙古語詞形還原的變化特點和機器翻譯的具體應用,本文研究了兩種形態(tài)切分方式,一種對詞干進行了還原變化處理,另一種則忽略了詞干還原這一現(xiàn)象,使詞干字符串序列與出現(xiàn)在詞中的字符串保持一致。
蒙古語的詞形變化是通過將構形詞綴黏附于詞干后來實現(xiàn)的,且一個詞干后可以層層附加多個構形詞綴以表達詞語之間復雜的語法關系。本文使用的原始語料庫是以拉丁轉(zhuǎn)寫形式錄入,利用內(nèi)蒙古大學的蒙古語詞法分析系統(tǒng)Darhan進行詞的切分和標注,得到蒙古語詞素及其標注信息,并通過人工校對來確保詞法分析結(jié)果的準確性[14]。蒙古語的詞法切分過程中,詞干的切分存在詞干還原的現(xiàn)象,如BAYIG_A切分為BAI+G_A,其詞干BAYI還原為了BAI,如上所述,除了保留詞干還原這一變化現(xiàn)象的切分方法以外,本文同時考慮了忽略詞干還原后的形態(tài)切分方法。因此本文將語料庫中還原的詞干轉(zhuǎn)換為表面詞形中存在的形式,即將BAYIG_A的切分結(jié)果轉(zhuǎn)換為BAYI+G_A。
語料庫中存在著大量的錯誤切分,依據(jù)切分后單個詞干、詞綴的長度不大于切分前詞的長度的原則,將錯誤的語料過濾掉。將語料劃分為形態(tài)切分訓練語料和測試語料,劃分比例為9∶1。訓練語料共34 171句、246 688詞,測試語料3 796句、27 332詞。劃分后,測試集的未登錄詞有1 901個,占測試集總詞數(shù)的7.0%。
同時,為了形象了解語料庫中的切分粒度,本文依據(jù)切分后構形詞綴的數(shù)目,統(tǒng)計了詞的概率分布。其中,切分后沒有構形詞綴的詞占51.69%,有一個構形詞綴詞占39.51%,有兩個及兩個以上數(shù)目構形詞綴詞占8.8%。
利用機器翻譯方法進行形態(tài)切分的基本思想是將切分前的表面詞形和切分后的詞分別看作機器翻譯的目標語言和源語言句子。將切分好的語料格式轉(zhuǎn)換為雙語語料的形式,源語言為切分前表面詞形,目標語言為切分后的表面詞形,示例如下:
蒙古文切分前源語料:
DVRALAL DAYIN H0YAR-TV ILADAG ARG_A BOHON-I HEREGLEJU B0L0N_A
蒙古文切分后目標語料:
DVRALAL DAYIN H0YAR+-TV ILA+DAG ARG_A BOHON+-I HEREGLE+JU B0L+0+N_A
本系統(tǒng)將開源的Moses[15]系統(tǒng)作為實驗平臺。本文利用開源語言模型訓練工具SRILM進行N-gram語言模型的訓練,平滑算法統(tǒng)一采用改進的 Kneser-Ney 平滑算法,本文對切分后的語料訓練了三元語言模型。語料庫中,在特定的上下文環(huán)境中一個詞只有一種切分結(jié)果,因而切分前后的語料是句子對齊的平行語料。為了充分利用Moses系統(tǒng)里的短語抽取及翻譯模型訓練工具,本文將切分前后的平行語料的對齊關系轉(zhuǎn)換為雙向GIZA++對齊格式。解碼使用了基于短語的解碼器Moses,特征選取了翻譯模型,語言模型,所有的模型特征參數(shù)值設定為均勻分布的概率值。
此模型考慮到了詞素的一元上下文信息,構形詞綴的N-gram上下文信息。對于詞素的一元上下文信息,訓練語料庫的每個詞只考慮一種切法。初始語料庫中一個詞可能有多種切法,其中不乏有錯誤的切分,因而對每種詞本文保留頻率最高的切分狀態(tài)。
詞綴的N-gram上下文信息用到了N-gram語言模型, 為了方便處理,直接采用語言模型訓練工具SRILM進行N-gram語言模型的訓練。本文訓練了詞綴五元語言模型,也采用了改進的 Kneser-Ney 平滑算法。
本文共設計了兩組實驗: PSMTMS 是基于短語的統(tǒng)計機器翻譯形態(tài)切分系統(tǒng),SMTMS+ MCCCM 先用基于短語的形態(tài)切分系統(tǒng)對詞表詞進行形態(tài)切分,然后采用MCMM對未登錄詞進行處理,忽略了詞干還原。PSMTMS+MCCCM +STEM則是在PSMTMS+ MCCCM上考慮了詞干還原這一語言現(xiàn)象。
本系統(tǒng)的評測以整詞為評測單元,對形態(tài)切分效果的評價,以準確率為評價指標, 切分結(jié)果統(tǒng)計見表2。
表2 切分結(jié)果
如表2所示,系統(tǒng)提出的基于短語統(tǒng)計機器翻譯形態(tài)切分系統(tǒng)總的切分正確率為92.38%,未登錄詞處理后總的正確率為96.94%。未考慮詞干還原的切分準確率略高于考慮詞干還原現(xiàn)象。
本文的切分考慮的是字符串層面上的切分,以未進行詞性標注的語料為輸入,對上下文信息的考慮以詞綴本身為主,故而與Kurimo[4], 那順烏日圖[14]不同,未對兼類詞和某種具體的詞性進行特殊的處理。在不考慮未登錄詞的切分情況下,而只對詞表詞進行切分,基于短語統(tǒng)計機器翻譯形態(tài)切分系統(tǒng)切分的準確率達到了99.71%。若只考慮未登錄詞的切分,最小代價模型主要考慮的詞的一元上下文信息及詞綴的N元語言語言模型信息,對未登錄詞的切分準確率為63.61%。測試語料中未登錄詞占7.0%,基于短語統(tǒng)計機器翻譯形態(tài)切分為對未登錄詞進行處理,未登錄詞處理之前準確率為92.38%,未登錄詞處理后總的形態(tài)切分準確率為96.94%,可見兩種模型的有機結(jié)合大大的提高了蒙古語形態(tài)切分準確率。
針對PSMTMS中形態(tài)切分特征選取問題,本文詳細分析了每個特征加入后對切分結(jié)果的影響,具體的特征選取實驗結(jié)果見表3。
表3 特征選取實驗結(jié)果
如表3所示,短語翻譯模型(TM)和語言模型(LM)對形態(tài)切分系統(tǒng)的影響最大,只有短語翻譯模型和語言模型時,準確率為92.13%,隨著模型的增多,系統(tǒng)的準確率也隨著增大,當加入短語翻譯模型、逆向短語翻譯模型(Inverted PTM)、詞匯化模型(Lexical Weight)、逆向詞匯化模型(Inverted LW)后準確率為92.38%。PSMTMS是通過增加特征模型來考慮上下文環(huán)境的,上述實驗顯示,逐漸的加入不同的特征模型后,PSMTMS系統(tǒng)的切分準確率也隨之增大。
詞表詞的形態(tài)切分主要是解決詞表詞切分歧義和錯誤切分問題。本實驗顯示,PSMTMS對詞表詞切分的準確率高達99.7%,足可證明,PSMTMS不僅有效地解決切分歧義問題,同時對語料庫中存在的錯誤切分問題可以很好的處理。
針對未登錄詞處理,本文采用了最小上下文構成代價模型對未登錄詞進行處理,模型中詞干和詞綴都視為詞素信息。然而在實際問題中,詞干、詞綴在長度、頻率等方面有一定差異,若是不將它們加以區(qū)分,會導致詞干過度切分。依據(jù)語料庫中每種詞切分后的詞素數(shù)量進行統(tǒng)計,由三個及三個以上詞素構成的詞占總數(shù)的8.8%,由一個和兩個詞素構成的詞占91.2%。在這樣的語料環(huán)境下,過度切分問題會進一步加重。因此,本文的未登錄詞的處理準確率很大程度上受過度切分影響。
本文的形態(tài)切分系統(tǒng)沒有考慮詞形的變換和標注,且測試集、訓練集存在較大差異,故測試結(jié)果與文獻[4,14]中的蒙古語形態(tài)分析方法沒有可比性,僅作為參考。
漢蒙機器翻譯系統(tǒng)中,漢語屬于非形態(tài)語言(孤立語),蒙古語屬于形態(tài)豐富(黏著語)的語言。由于語言形態(tài)信息不對稱,當從漢語向蒙古語進行翻譯時,經(jīng)常會遇到由于基本詞形變化(即形態(tài)特征)而導致的選擇歧義問題,從而造成譯文詞形變化上的錯誤(例如,數(shù)、格、人稱、性別的不一致以及動詞時態(tài)、語態(tài)不符合上下文等),加深了譯文在語法、語義、語用等多個層面的錯誤。同時,鑒于漢蒙雙語語料規(guī)模有限,語言形態(tài)的變化進一步加重了數(shù)據(jù)稀疏問題。鑒于此問題,本文將蒙古語形態(tài)切分結(jié)果用于機器翻譯系統(tǒng),通過機器翻譯的效果進一步驗證本文所提出的方法的有效性和實用性。
本文所采用的機器翻譯系統(tǒng)結(jié)構視為以詞素為軸的鏈式機器翻譯系統(tǒng)。采用文中所提出的形態(tài)切分方法,將蒙古語切分為詞素后,即可得到蒙古語-詞素的平行語料。 首先利用漢語蒙古語詞素訓練漢語到詞素的短語機器翻譯系統(tǒng)(SMT1),將漢語翻譯成蒙古語詞素,然后利用蒙古語詞素平行語料訓練詞素到蒙古語的短語機器翻譯系統(tǒng) (SMT2),以此將詞素翻譯成蒙古語表面詞形。具體的系統(tǒng)框圖請參考圖2。
圖2 鏈式機器翻譯系統(tǒng)
機器翻譯系統(tǒng)的訓練使用了第五屆全國機器翻譯研討會提供的67 255句對漢蒙雙語語料,本文將雙語的蒙古語部分統(tǒng)一轉(zhuǎn)換為拉丁轉(zhuǎn)寫形式。單一機器翻譯訓練借助了Moses開源平臺,測試集選用了訓練集之外的400句日常用語,由以蒙古語為母語的專業(yè)人員進行翻譯,每個漢語句子對應四種譯文。評測時,將拉丁轉(zhuǎn)寫的結(jié)果轉(zhuǎn)換為傳統(tǒng)蒙文的形式進行評測?;€系統(tǒng)(Baseline)是蒙古語未經(jīng)切分的基于短語的漢蒙統(tǒng)計機器翻譯系統(tǒng)。表4和表5分別是參數(shù)調(diào)整前和調(diào)整后的評測結(jié)果,其中,Chain1和Chain2均是利用了詞素信息的鏈式機器翻譯系統(tǒng),Chain1的形態(tài)切分方法考慮了詞干還原語言現(xiàn)象,Chain2的形態(tài)切分方法忽略了詞干切分還原的現(xiàn)象。
表4 調(diào)參前的評測結(jié)果
表5 調(diào)參后的評測結(jié)果
評測標準選用了N-gram匹配的方法BLEU[16]和NIST。BLEU評測方法主要是統(tǒng)計翻譯結(jié)果與參考譯文間共同出現(xiàn)的N-gram數(shù),再將N-gram數(shù)除以翻譯結(jié)果的單詞總數(shù),得到最終的評測結(jié)果。NIST評測方法是在BLEU的基礎上提出的一種不同的N-gram統(tǒng)計方法,BLEU中各種不同元數(shù)的N-gram的權值是一樣的,而NIST考慮了N-gram的信息量,對不同的N-gram賦予對應于信息量的不同權重。如果一個N-gram在參考譯文中出現(xiàn)次數(shù)越少,則其所包含的信息量越大,對應的權重也更高。
由表4和表5的機器翻譯評測結(jié)果可以看到,本文所提到的形態(tài)切分方法所切分的詞素均可以提高機器翻譯系統(tǒng)的性能。Chain1中考慮了詞干切分還原現(xiàn)象,Chain2中忽略了此變化,機器翻譯評測結(jié)果顯示,忽略詞干變化后的翻譯效果略優(yōu)于考慮了詞干還原現(xiàn)象的翻譯效果。產(chǎn)生此現(xiàn)象的原因可能源于考慮詞干還原后,詞干本身就以表面詞形的形式出現(xiàn)在語料庫中,導致切分出來的詞干無法與語料庫中的部分表面詞形區(qū)分開來。例如,Chain1考慮了詞干還原,BAYIGA會被切分為BAI+GA,而Chain2忽略了詞干還原,BAYIGA會被切分為BAYI+GA。與此同時,BAI在語料庫中也會以一個獨立的詞的形式出現(xiàn),因而,Chain1無法區(qū)分BAI究竟是詞素還是整詞。
本文借鑒了機器翻譯的思路,嘗試使用基于短語的統(tǒng)計機器翻譯系統(tǒng),解決蒙古文的形態(tài)切分問題。為了解決未登錄詞切分問題,引入了最小上下文構成切分代價模型,實驗表明,兩種模型的有機結(jié)合,使蒙古文的切分正確率達到很高。然而本文所提出的蒙古文形態(tài)切分系統(tǒng)仍存在一些問題有待進一步探索。本文所提出的短語機器翻譯切分系統(tǒng)對語料庫中出現(xiàn)的詞表詞的切分準確率較高,然而無法對未登錄詞進行處理,因而如何在PSMTMS中引入未登錄詞處理的特征模型還有待進一步研究。最小上下文構成代價模型,對未登錄詞的處理準確率不是特別高,因而對該模型的特征選取和相應的約束限制方法也需要更加深入的研究。將切分結(jié)果用于機器翻譯系統(tǒng)里,實驗評測結(jié)果顯示,機器翻譯的效果有了顯著的提高,間接的證實了本文方法的有效性。與此同時,測評結(jié)果顯示,切分過程中,忽略詞干變化后的翻譯效果略優(yōu)于考慮了詞干還原的翻譯效果。因而,在今后的研究工作中,除了考慮通用的切分方法,同時還要針對具體的應用探討新的形態(tài)切分方案。
[1] Creutz, Mathias.Induction of the Morphology of Natural Language: Unsupervised Morpheme Segmentation with Application to Automatic Speech Recognition[D].Ph.D.Thesis, Computer and Information Science, Report D13, Helsinki, University of Technology, Espoo, Finland,2006.
[2] 楊攀,張建,李淼,等.漢蒙統(tǒng)計機器翻譯中的形態(tài)學方法研究[J].中文信息學報,2009,23(1): 50-57.
[3] 駱凱,李淼,烏達巴拉,等.漢蒙翻譯模型中的依存語法與形態(tài)信息應用研究[J].中文信息學報,2009,23(6): 98-104.
[4] Kurimo, Mikko and Ville Turunen.2008.Unsupervised Morpheme Analysis Evaluation by IR Experiments-Morpho Challenge 2008[C]//Working Notes for the CLEF 2008 Workshop.
[5] 葉嘉明.基于規(guī)則的蒙古語詞法分析研究與實現(xiàn)[D].碩上學位論文.北京: 北京大學,信息科學技術學院,2005.
[6] 侯宏旭,劉群,那順烏日圖.基于統(tǒng)計語言模型的蒙古文詞切分[J].模式識別與人工智能,2009,22(1): 108-112.
[7] Chris QUIRK, Chris BROCKETT and William DOLAN.Monolingual Machine Translation for Paraphrase Generation[C]//Proceedings of EMNLP. 2004: 142-149.
[8] Stefan Riezler, Alexander Vasserman, Ioannis Tsochantaridis, Vibhu Mittal and Yi Liu. Statistical Machine Translation for Query Expansion in Answer Retrieval[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 2007: 464-471.
[9] Long Jiang, Ming Zhou. Generating Chinese Couplets using a Statistical MT Approach[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). 2008: 377-384.
[10] F.J. Och and H. Ney. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings o the 40th Annual Meeting of the Association for Computational Linguistics (ACL), 2002: 295-302.
[11] Dan Klein and Christopher D. Manning. Natural language grammar induction using a constituent context model[C]//Advances in Neural Information Processing Systems 14. 2001: 35-42.
[12] Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation[C]//Proceedings oHLT-NAACL, 2003: 127-133.
[13] Hoifung Poon, Colin Cherry, Kristina Toutanova. Unsupervised Morphological Segmentation with Log-Linear Models[C]//The 2009 Annual Conference of the North American Chapter of the ACL. 2009: 209-217.
[14] 那順烏日圖.蒙古文詞根、詞干、詞尾自動切分系統(tǒng)[J].內(nèi)蒙古大學學報: 人文社會科學版,1997,29(2): 53-57.
[15] P.Koehn, Hieu Hoang, Alexandra Birch et al. Moses: Open source toolkit for statistical machine translation[C]//Proceedings of the ACL 2007 Demo and Poster Sessions(ACL 2007). 2007: 177-180.
[16] Kishore Papieni, Salim Roukos,Todd Ward, et al. BLEU: A Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the ACL, 2002: 311-318.