飛 龍,高光來,王洪偉,路 敏
(內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院,內(nèi)蒙古 呼和浩特 010021)
基于規(guī)則和統(tǒng)計(jì)相結(jié)合的西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法
飛 龍,高光來,王洪偉,路 敏
(內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院,內(nèi)蒙古 呼和浩特 010021)
西里爾蒙古文與傳統(tǒng)蒙古文分別是蒙古國與中國使用的蒙古文,西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換工作不僅給兩國同胞的交流帶來更多的便利,而且對蒙古族的科學(xué)、文化和教育發(fā)展具有重要意義。本文結(jié)合規(guī)則與統(tǒng)計(jì)模型的優(yōu)點(diǎn),研究了西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換方法。本文首先采用基于規(guī)則的方法對西里爾蒙古文集內(nèi)詞進(jìn)行轉(zhuǎn)換,其次對集外詞的轉(zhuǎn)換采用了基于聯(lián)合序列模型的方法,并采用N-gram語言模型解決了一個西里爾蒙古文單詞對應(yīng)多個傳統(tǒng)蒙古文單詞的問題。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)單詞轉(zhuǎn)換錯誤率低至4.12%,基本達(dá)到了實(shí)用要求。
西里爾蒙古文;傳統(tǒng)蒙古文;轉(zhuǎn)換;規(guī)則;聯(lián)合序列模型
蒙古文是一種跨多國、多地區(qū)的語言,在世界上也是一種有廣泛影響的語言文字,使用者分布在中國、蒙古國和俄羅斯等國家。中國和蒙古國使用的蒙古語言文字是“語同文不同”,即語言相同,但文字不同,在蒙古國使用的蒙古文叫“西里爾蒙古文”(也稱為新蒙古文、基里爾蒙古文或斯拉夫蒙古文),中國使用的蒙古文叫“傳統(tǒng)蒙古文”(也稱為舊蒙古文),隨著中國和蒙古國兩國之間的文化、教育和經(jīng)濟(jì)合作與交流不斷深入,西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換工作就變得極其重要。西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換工作不僅給兩國同胞的語言交流帶來更多的便利,而且對兩國間科學(xué)、文化和教育發(fā)展同樣具有重要意義。
吉仁尼格、包薩日娜、烏日力嘎等人采用基于詞典和規(guī)則的方法對西里爾蒙古文與傳統(tǒng)蒙古文的相互轉(zhuǎn)換進(jìn)行了研究[1-5],飛龍等人采用統(tǒng)計(jì)模型的方法也對西里爾蒙古文與傳統(tǒng)蒙古文的相互轉(zhuǎn)換做了研究[6]。但是基于詞典和規(guī)則的系統(tǒng)與基于統(tǒng)計(jì)模型的系統(tǒng)都有自己的不足之處,蒙古文通過詞根綴接多個后綴的方式生成新詞,按照這種生成方式,可以構(gòu)成大規(guī)模的蒙古文單詞,詞典一般很難包含全部。而且,基于規(guī)則的方法很難歸納出所有的轉(zhuǎn)換規(guī)則,并且一部分單詞并不遵循轉(zhuǎn)換規(guī)則,所以基于詞典和規(guī)則的方法有一定局限性。而統(tǒng)計(jì)模型的性能與語料庫的規(guī)模、代表性、正確性及加工深度有密切關(guān)系,其過分依賴語料庫的質(zhì)量。
本文采用了基于規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,建立了高效的西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換(Cyrillic Mongolian To Traditional Mongolian Conversion,C2T)系統(tǒng),獲得了較好的實(shí)驗(yàn)效果。
蒙古文屬于黏著語,由詞根綴接多個后綴而生成新詞。西里爾蒙古文與傳統(tǒng)蒙古文之間有不可分割的聯(lián)系,西里爾蒙古文保留了傳統(tǒng)蒙古文的大多數(shù)語法特點(diǎn),二者在語法上保持一致,并且讀音基本相同。但是,西里爾蒙古文與傳統(tǒng)蒙古文之間仍存在著很多不同點(diǎn),具體的不同之處可以總結(jié)為以下四點(diǎn):
(1) 西里爾蒙古文與傳統(tǒng)蒙古文字母對照表如表1所示。西里爾蒙古文與傳統(tǒng)蒙古文均有35個字母,但是西里爾蒙古文有13個元音、20個輔音、1個硬化字母及1個軟化字母,而傳統(tǒng)蒙古文有8個元音和27個輔音。
(2) 西里爾蒙古文字母有大小寫之分,用法與英文相似,而傳統(tǒng)蒙古文字母沒有大小寫之分,其每個字母在詞中形式變化有很多,在一個傳統(tǒng)蒙古文單詞中,每個字母會因其處在單詞的上、中、下位置不同而導(dǎo)致寫法也不同。
西里爾蒙古文與傳統(tǒng)蒙古文之間存在的這些差異為C2T的轉(zhuǎn)換工作帶來了一定困難,本文采用了基于規(guī)則與統(tǒng)計(jì)模型相結(jié)合的方法研究了C2T轉(zhuǎn)換問題。
表1 西里爾蒙古文和傳統(tǒng)蒙古文字母對照表
西里爾蒙古文與傳統(tǒng)蒙古文同屬于黏著語,蒙古文單詞從構(gòu)造上可以分為: 詞根、詞干、附加成分。在形態(tài)學(xué)方面,其構(gòu)詞是以詞根或詞干為基礎(chǔ),后接詞綴來派生新詞和進(jìn)行詞形變化,而且變化復(fù)雜多樣。表示蒙古文單詞有意義的部分叫做詞干,詞干可以分為第一詞干、第二詞干、第三詞干等,詞根就是第一詞干。附加成分單獨(dú)沒有意義,只在詞干下附加后產(chǎn)生詞匯意義和語法意義。附加成分有構(gòu)形附加成分和構(gòu)詞附加成分: 詞干綴接構(gòu)形附加成分,詞匯意義沒有變化,只是語法意義發(fā)生變化,比如名詞等的性、數(shù)、格,還有動詞等的時(shí)、體、態(tài)等語法意義;詞干綴接構(gòu)詞附加成分,會發(fā)生詞匯意義的變化并產(chǎn)生新詞。本文僅處理構(gòu)形附加成分,它并沒有改變詞匯的意義,本文稱其為后綴。
基于規(guī)則的單詞級C2T轉(zhuǎn)換流程如圖1所示,主要分為三個步驟: 首先,對輸入的西里爾蒙古文進(jìn)行后綴切分;其次,分別對切分后的詞干及后綴部分根據(jù)規(guī)則轉(zhuǎn)換到對應(yīng)的傳統(tǒng)蒙古文詞干及后綴;最后,依據(jù)傳統(tǒng)蒙古文構(gòu)詞規(guī)則對傳統(tǒng)蒙文詞干及后綴進(jìn)行綴接得到傳統(tǒng)蒙古文單詞。
圖1 基于規(guī)則的單詞級C2T轉(zhuǎn)換流程圖
西里爾蒙古文后綴切分比較復(fù)雜,在西里爾蒙古文構(gòu)詞時(shí)會有元音及輔音的脫落、生成和變換等現(xiàn)象,所以對西里爾蒙古文單詞進(jìn)行后綴切分時(shí)就會有元音及輔音的恢復(fù)、脫落及還原過程。例如,西里爾蒙古文單詞“амрах”(拉丁轉(zhuǎn)寫是amrah)切分后得到的詞干及后綴分別是“амар”(拉丁轉(zhuǎn)寫是amar)和“ах”(拉丁轉(zhuǎn)寫是ah)。本文根據(jù)西里爾蒙古文構(gòu)詞特點(diǎn),參考《基立爾蒙古文學(xué)習(xí)讀本》[7]《蒙古語語法》[8],總結(jié)了共計(jì)30多條西里爾蒙文后綴切分規(guī)則。
西里爾蒙古文與傳統(tǒng)蒙文的詞干及后綴對應(yīng)轉(zhuǎn)換同樣需要遵循規(guī)則。本文參考《新蒙漢詞典》[9]、《蒙古文詞典》[10]《蒙古文基里爾文正字法比較研究》[11],總結(jié)并建立了C2T轉(zhuǎn)換詞干對照庫(包含63 501詞條)、動詞后綴對照庫(包含495條)、靜詞后綴對照庫(包含335條)及對照規(guī)則庫(包含130條對應(yīng)規(guī)則)。
基于規(guī)則的C2T轉(zhuǎn)換對于集內(nèi)詞的轉(zhuǎn)換獲得了較好的實(shí)驗(yàn)效果,但無法對集外詞進(jìn)行轉(zhuǎn)換,而且無法對一個西里爾蒙古文對應(yīng)多個傳統(tǒng)蒙古文單詞的情況進(jìn)行處理。
西里爾蒙古文與傳統(tǒng)蒙古文都是拼音文字,即用字母表示語音的文字,每個西里爾蒙古文與傳統(tǒng)蒙古文單詞都是一個字母序列,所以可以用數(shù)據(jù)來訓(xùn)練西里爾蒙古文與傳統(tǒng)蒙古文字母或者音節(jié)間的對應(yīng)關(guān)系,并通過拼接得到對應(yīng)的傳統(tǒng)蒙古文,所以可以使用統(tǒng)計(jì)模型來進(jìn)行C2T轉(zhuǎn)換。
假設(shè)G表示所有西里爾蒙古文字母串的集合,φ表示所有傳統(tǒng)蒙古文字母串的集合。C2T轉(zhuǎn)換過程可以描述為: 對于任意給定的西里爾蒙古文字母串g∈G,來尋找最優(yōu)的傳統(tǒng)蒙古文字母串φ∈φ,使得二者一一對應(yīng)。進(jìn)一步,可以使用貝葉斯決策規(guī)則形式化描述此問題,即
聯(lián)合概率p(g,φ)可以由與其相匹配的所有cytrone表示,即
其中,S(g,φ)是g和φ的所有聯(lián)合分割的集合,即
于是,聯(lián)合序列模型的形式化表示為
本文使用最大似然方法估計(jì)模型參數(shù),并使用Kneser-Ney平滑算法來做數(shù)據(jù)平滑。基于聯(lián)合序列模型的單詞級C2T可以很好地解決對集外詞的轉(zhuǎn)換。
C2T轉(zhuǎn)換系統(tǒng)框架如圖2所示。首先,對輸入的西里爾蒙古文預(yù)處理;其次,使用基于規(guī)則的方法完成單詞級C2T的轉(zhuǎn)換,轉(zhuǎn)換不成功的單詞則使用基于聯(lián)合序列模型的方法對其進(jìn)行轉(zhuǎn)換;最后,通過語言模型選擇詞序列,從西里爾蒙古文到傳統(tǒng)蒙古文會有單詞一對多的情況,需要使用語言模型進(jìn)行選擇最優(yōu)詞序列。
圖2 規(guī)則與統(tǒng)計(jì)相結(jié)合的C2T轉(zhuǎn)換系統(tǒng)框架
5.1 預(yù)處理
預(yù)處理分為四個主要部分: 首先,對西里爾蒙古文文章進(jìn)行分句并分詞處理;其次,對非西里爾蒙古文字母進(jìn)行處理,一方面識別并保留非西里爾蒙古文字符,另一方面完成對西里爾蒙古文普通標(biāo)點(diǎn)符號及數(shù)字符號等的對應(yīng)轉(zhuǎn)換;再次,對西里爾蒙古文的縮略語進(jìn)行識別并還原,縮略語在西里爾蒙古文中很常見,縮略語處理是C2T轉(zhuǎn)換工作中的主要難題之一,對其處理得當(dāng)與否將影響C2T轉(zhuǎn)換質(zhì)量,本文對縮略語的識別及還原是基于縮略語詞典(本文參考《新蒙漢詞典》[9]及《蒙漢縮略語及外來詞詞典》[15]整理總結(jié)了9 573條縮略語)的方法來完成的;最后,對西里爾蒙古文姓名進(jìn)行處理,姓名中的名字與普通單詞的轉(zhuǎn)換是一致的,但是姓氏通常由單個字母組成,我們使用西里爾蒙古文與傳統(tǒng)蒙古文姓氏對照表處理,西里爾蒙古文中的姓名通常有固定的格式,例如,“Т.Индра”(拉丁轉(zhuǎn)寫是t.indra)表示一個人的名字,其中姓氏由大寫字母構(gòu)成,名字首字母大寫,二者以字符“.”分隔,“Т”(拉丁轉(zhuǎn)寫是t)根據(jù)姓氏對照表可得到傳統(tǒng)蒙古文姓氏“”(拉丁轉(zhuǎn)寫是t),名字“Индра”(拉丁轉(zhuǎn)寫是indra)對應(yīng)的單詞是“”(拉丁轉(zhuǎn)寫是indar_a),傳統(tǒng)蒙古文姓名為“” (拉丁轉(zhuǎn)寫是t·indar_a)。
5.2 單詞級C2T轉(zhuǎn)換
經(jīng)過預(yù)處理后,對輸入的西里爾蒙古文集內(nèi)詞采用基于規(guī)則的方法進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換成功的單詞將給出所有對應(yīng)的候選傳統(tǒng)蒙古文單詞,對集外詞則使用聯(lián)合序列模型進(jìn)行轉(zhuǎn)換。
對輸入的西里爾蒙古文句子預(yù)處理后進(jìn)行單詞級的C2T轉(zhuǎn)換結(jié)果如圖3所示,西里爾蒙古文例句共包含12個單詞,其中十個單詞由規(guī)則進(jìn)行轉(zhuǎn)換,有兩個單詞由統(tǒng)計(jì)模型進(jìn)行轉(zhuǎn)換,分別是“хэмжээний”和“армяни”。
圖3 規(guī)則與統(tǒng)計(jì)結(jié)合的C2T轉(zhuǎn)換示例
5.3 語言模型選擇最佳詞序列[16]
一些西里爾蒙古文單詞會有多個與其對應(yīng)的傳統(tǒng)蒙古文單詞,如圖4所示,在進(jìn)行C2T轉(zhuǎn)換時(shí),必須給出一個符合上下文關(guān)系的對應(yīng)傳統(tǒng)蒙古文單詞,本文采用N-gram解決了此問題。
圖4 C2T轉(zhuǎn)換示例
C2T轉(zhuǎn)換的N元語言模型可以用以下條件概率公式形式化表示,即
其中,C表示西里爾蒙古文詞序列,T={t1t2…tL}表示傳統(tǒng)蒙古文詞序列,Q表示C對應(yīng)的所有傳統(tǒng)蒙古文詞序列的集合。
無論是使用規(guī)則還是聯(lián)合序列模型進(jìn)行單詞級C2T轉(zhuǎn)換時(shí)都會出現(xiàn)一個西里爾蒙古文單詞對應(yīng)多個傳統(tǒng)蒙古文單詞的情況,語言模型的使用可以很好地解決這一問題,其在C2T轉(zhuǎn)換系統(tǒng)中起著非常關(guān)鍵的作用。
6.1 實(shí)驗(yàn)數(shù)據(jù)
本文首先分別對基于規(guī)則和基于聯(lián)合序列模型的單詞級C2T做了實(shí)驗(yàn)并進(jìn)行對比分析,其次對基于規(guī)則與統(tǒng)計(jì)相結(jié)合的C2T系統(tǒng)做了相關(guān)實(shí)驗(yàn)。
本文采用的實(shí)驗(yàn)數(shù)據(jù)如表2所示,系統(tǒng)測試集為gonews100_data,共包含100篇西里爾蒙古文文章,詞匯量為47 261。對聯(lián)合序列模型將使用從《新蒙漢詞典》[9]中搜集的西里爾蒙古文與傳統(tǒng)蒙古文對應(yīng)詞對60 000對作為模型的訓(xùn)練及測試集(cytra60000_data),對語言模型的訓(xùn)練使用數(shù)據(jù)集Tranews624M_data,其中包含320萬句傳統(tǒng)蒙古文句子,大小為624MB。
表2 實(shí)驗(yàn)數(shù)據(jù)集
6.2 系統(tǒng)評價(jià)指標(biāo)
本文實(shí)驗(yàn)采用的系統(tǒng)性能評價(jià)指標(biāo)是單詞轉(zhuǎn)換錯誤率(word convert error rate,WER)、字母誤識率(letter error rate,LER)及句子絕對準(zhǔn)確率(sentence absolute accurate,SAA),即
其中,Ncorrect表示轉(zhuǎn)換正確的西里爾蒙古文單詞數(shù);Ntotal表示待轉(zhuǎn)換的西里爾蒙古文詞匯總數(shù);Nins為轉(zhuǎn)換時(shí)出現(xiàn)的字母插入錯誤個數(shù);Ndel為轉(zhuǎn)換時(shí)所有出現(xiàn)的字母刪除錯誤總合;Nsub為轉(zhuǎn)換時(shí)所有出現(xiàn)的字母替換錯誤總合;SNcorrect表示C2T轉(zhuǎn)換時(shí)完全被正確轉(zhuǎn)換的西里爾蒙古文句子數(shù),SNtotal為待轉(zhuǎn)換的西里爾蒙古文句子總數(shù)。
6.3 實(shí)驗(yàn)結(jié)果
6.3.1 基于規(guī)則的C2T轉(zhuǎn)換實(shí)驗(yàn)
在使用基于規(guī)則的方法時(shí),由于西里爾蒙古文與傳統(tǒng)蒙古文的對應(yīng)詞干或?qū)?yīng)詞綴覆蓋不全的問題會導(dǎo)致一些西里爾蒙古文單詞不能夠被轉(zhuǎn)換成對應(yīng)的傳統(tǒng)蒙古文。能夠被成功轉(zhuǎn)換的西里爾蒙古文單詞中: 一部分只有一個傳統(tǒng)蒙古文與其對應(yīng)(1-1);另一部分會有多個傳統(tǒng)蒙古文單詞與其對應(yīng)(1-m),而其中只有一個傳統(tǒng)蒙古文單詞滿足當(dāng)前上下文關(guān)系。
在測試集gonews100_data上,實(shí)驗(yàn)結(jié)果如表3所示,轉(zhuǎn)換失敗的單詞數(shù)占5.8%,轉(zhuǎn)換成功的單詞數(shù)占94.2%,其中88.9%是一對一(1-1)的情況,5.3%是一對多(1-m)的情況,使用基于規(guī)則的方法將西里爾蒙古文成功轉(zhuǎn)換且轉(zhuǎn)換準(zhǔn)確的單詞共有42 015個,即Ncorrect=42 015,轉(zhuǎn)換錯誤率WER=11.1%。
表3 使用基于規(guī)則的C2T轉(zhuǎn)換結(jié)果
實(shí)驗(yàn)表明,基于規(guī)則方法的單詞級C2T轉(zhuǎn)換有較低的轉(zhuǎn)換錯誤率,大部分單詞使用規(guī)則可以被轉(zhuǎn)換,但是仍有一部分不能夠被轉(zhuǎn)換,而且,被轉(zhuǎn)換出的單詞有相當(dāng)一部分是一對多的情況。
6.3.2 基于聯(lián)合序列模型的C2T轉(zhuǎn)換實(shí)驗(yàn)
將數(shù)據(jù)集cytra60000_data中隨機(jī)選取45 000詞對作為聯(lián)合序列模型的訓(xùn)練集train,剩余15 000詞對作為模型測試集test1,gonews100_data作為測試集test2。需要指出的是測試集test1與訓(xùn)練集train沒有重復(fù)的單詞,即對于使用訓(xùn)練集train訓(xùn)練出的聯(lián)合序列模型而言,測試集test1內(nèi)的單詞全部是集外詞。
在聯(lián)合序列模型中cytrone的長度上限L=1時(shí),不同N-gram階數(shù)N下所獲得的實(shí)驗(yàn)結(jié)果如表4所示,具體實(shí)驗(yàn)參數(shù)可參考文獻(xiàn)[6]。
表4 使用基于聯(lián)合序列模型的C2T轉(zhuǎn)換結(jié)果(L=1)
實(shí)驗(yàn)結(jié)果表明,隨著N的不斷增大,無論在訓(xùn)練集train還是測試集test1及測試集test2上,單詞的轉(zhuǎn)換錯誤率及字母誤識率都在不斷下降,而在N=8時(shí)模型獲得最佳性能,在全部是集外詞的測試集test1上的單詞轉(zhuǎn)換錯誤率WER=18.78%,字母誤識率LER=7.17%,在測試集test2上的單詞轉(zhuǎn)換錯誤率WER=7.43%,字母誤識率LER=1.24%。
6.3.3 基于規(guī)則與統(tǒng)計(jì)模型相結(jié)合的C2T轉(zhuǎn)換實(shí)驗(yàn)
本文將基于規(guī)則與基于聯(lián)合序列模型的方法結(jié)合,建立了C2T轉(zhuǎn)換系統(tǒng),并做了實(shí)驗(yàn)以評價(jià)系統(tǒng)性能。
如前所述,在C2T轉(zhuǎn)換時(shí)會有一個西里爾蒙古文單詞對應(yīng)多個傳統(tǒng)蒙古文單詞的情況,所以本文引入語言模型來挑選 最合適的傳 統(tǒng) 蒙古文詞序列,在這里我們使用的是三元語言模型,表5為對聯(lián)合序列模型解碼時(shí)選取N-best的C2T轉(zhuǎn)換實(shí)驗(yàn)結(jié)果。
表5 C2T轉(zhuǎn)換系統(tǒng)轉(zhuǎn)換結(jié)果
實(shí)驗(yàn)結(jié)果表明,隨著聯(lián)合序列模型中N-best的N不斷增大,系統(tǒng)性能逐漸提升。當(dāng)N=4時(shí)系統(tǒng)以單詞轉(zhuǎn)換錯誤率WER=4.12%及句子絕對準(zhǔn)確率SAA=27.42%取得最佳性能。并且基于規(guī)則與統(tǒng)計(jì)模型相結(jié)合的C2T轉(zhuǎn)換系統(tǒng)性能比單獨(dú)基于規(guī)則或者基于統(tǒng)計(jì)的C2T轉(zhuǎn)換效果都好。
本文首先分別介紹了基于規(guī)則和基于聯(lián)合序列模型的C2T的轉(zhuǎn)換方法,其次將基于規(guī)則的方法與基于聯(lián)合序列模型的方法相結(jié)合,并使用N元語言模型解決C2T中西里爾蒙古文到傳統(tǒng)蒙古文的一對多對應(yīng)的問題,提出了高效的西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,并建立了C2T轉(zhuǎn)換系統(tǒng)(系統(tǒng)網(wǎng)址是http://trans.mglip.com)。實(shí)驗(yàn)結(jié)果表明,C2T轉(zhuǎn)換系統(tǒng)的單詞轉(zhuǎn)換錯誤率低至4.12%,句子絕對準(zhǔn)確率為27.42%,本文所建立的基于規(guī)則與聯(lián)合序列模型相結(jié)合的C2T轉(zhuǎn)換系統(tǒng)獲得了很好的實(shí)驗(yàn)效果,已基本達(dá)到實(shí)用要求。
[1] 吉仁尼格. 蒙古文同形詞的統(tǒng)計(jì)法[C]. 第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集,2007.
[2] 包薩日娜. 傳統(tǒng)蒙古文到新蒙文轉(zhuǎn)換中名詞及其格附加成分轉(zhuǎn)換的研究[D]. 內(nèi)蒙古大學(xué)碩士學(xué)位論文, 2009.
[3] 烏日力嘎. 傳統(tǒng)蒙古文、西里爾蒙古文—漢文電子詞典的建立[D]. 內(nèi)蒙古大學(xué)碩士學(xué)位論文, 2009.
[4]HaoLi,BaoSarina.TheStudyofComparisonandConversionaboutTraditionalMongolianandCyrillicMongolian[C]//Processingsofthe2011 4thInternationalConferenceonIntelligentNetworksandIntelligentSystems, 2011: 199-202.
[5] 高紅霞,馬小蕾. 西里爾蒙古文網(wǎng)頁向傳統(tǒng)蒙古文自動轉(zhuǎn)換系統(tǒng)的文字轉(zhuǎn)換研究[J].內(nèi)蒙古民族大學(xué)學(xué)報(bào),2012,18(5): 17-18.
[6] 飛龍,高光來. 基于統(tǒng)計(jì)的傳統(tǒng)蒙古文和西里爾蒙古文相互轉(zhuǎn)換方法的研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2014,50(23): 206-211.
[7] 嘎拉桑朋斯格. 基立爾蒙古文學(xué)習(xí)讀本[M]. 呼和浩特: 內(nèi)蒙古教育出版社. 2006.
[8]Davaagiin,Battuul.MongolianGrammar[M].Mongolia:ADMON,Ltd, 2008.
[9] 張志忠. 新蒙漢詞典[M]. 北京: 商務(wù)印書館,2011.
[10] 巴雅爾賽罕. 蒙古文詞典(西里爾與傳統(tǒng)蒙古文對照詞典)[M]. 烏拉巴托: 索永布印刷出版社,2011.
[11] 舍·卻瑪. 蒙古文基里爾文正字法比較研究[M]. 呼和浩特: 內(nèi)蒙古教育出版社,2010.
[12] 清格爾泰. 蒙古語語法 [M]. 呼和浩特: 內(nèi)蒙古人民出版社,1991.
[13] 朝洛蒙. 現(xiàn)代蒙古語[M]. 呼和浩特: 內(nèi)蒙古大學(xué)出版社. 2009.
[14]BisaniM,NeyH.Joint-sequencemodelsforgrapheme-to-phonemeconversion[J].SpeechCommunication, 2008, 50(5): 434-451.
[15] 李繼學(xué). 蒙漢縮略語及外來詞詞典[M]. 呼和浩特: 內(nèi)蒙古人民出版社,2003.
[16]FeilongBao,GuanglaiGao.LanguageModelforCyrillicMongoliantoTraditionalMongolianConversion[C]//ProcessingsofThe2ndConferenceonNaturalLanguageProcessing&ChineseComputing(NLPCC2013),Chongqing,China,2013: 13-18.
CombiningofRulesandStatisticsforCyrillicMongoliantoTraditionalMongolianConversion
BAO Feilong, GAO Guanglai, WANG Hongwei, LU min
(College of Computer Science, Inner Mongolia University, Hohhot,Inner Mongolia 010021, China)
Cyrillic Mongolian and Traditional Mongolian are used in Mongolia and China, respectively. Cyrillic Mongolian to Traditional Mongolian conversion not only will bring more convenience to exchanges between the two countries, but also has great significance for scientific, cultural and educational development of Mongolian. This paper proposes a highly efficient Cyrillic Mongolian to Traditional Mongolian conversion method. It adopts the rule-based approach to convert the words in the vocabulary, and the statistical model to convert the out-of-vocabulary words. A large part of Cyrillic Mongolian words correspond more than one candidates in Traditional Mongolian, which is solved by the N-gram language model. Experimental results show that the word error rate is as low as 4.12%, meeting the practical requirement.
Cyrillic Mongolian; Traditional Mongolian; conversion; rules; joint sequence model
飛龍(1985—),博士,副教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)槊晒盼男畔⑻幚?、語音識別、語音合成。
高光來(1964—),碩士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)槟J阶R別、自然語言處理。
王洪偉(1989—),碩士研究生,主要研究領(lǐng)域?yàn)槊晒盼男畔⑻幚怼?/p>
1003-0077(2017)03-0156-07
2015-06-05定稿日期: 2016-03-20
國家自然科學(xué)基金(61563040);內(nèi)蒙古自然科學(xué)基金(2016D06);內(nèi)蒙古大學(xué)高層次人才引進(jìn)科研項(xiàng)目資助
TP391
: A