国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞典、規(guī)則的斯拉夫蒙古文詞切分系統(tǒng)的研究

2015-04-25 09:57史建國侯宏旭
中文信息學(xué)報 2015年1期
關(guān)鍵詞:斯拉夫蒙古文詞綴

史建國,侯宏旭,飛 龍

(內(nèi)蒙古大學(xué) 計算機學(xué)院,內(nèi)蒙古 呼和浩特 010021)

?

基于詞典、規(guī)則的斯拉夫蒙古文詞切分系統(tǒng)的研究

史建國,侯宏旭,飛 龍

(內(nèi)蒙古大學(xué) 計算機學(xué)院,內(nèi)蒙古 呼和浩特 010021)

斯拉夫蒙古文是蒙古國現(xiàn)行的文字,又稱為西里爾蒙古文或新蒙古文。蒙古文詞干和詞綴包含著大量信息,斯拉夫蒙古文詞切分是斯拉夫蒙古文信息處理眾多后續(xù)工作的基礎(chǔ)。該文嘗試了將詞典和規(guī)則結(jié)合的方法對斯拉夫蒙古文進(jìn)行詞切分。首先預(yù)處理部分蒙古文詞,然后基于詞典切分高頻和部分不符合規(guī)則的詞。最后對剩余的詞,用切分規(guī)則生成多個候選的詞切分方案,然后在這些方案中選出最優(yōu)方案。通過兩種方法的有機結(jié)合,發(fā)揮各自的優(yōu)點,得到了性能較好的斯拉夫蒙古文詞切分系統(tǒng)。

斯拉夫蒙古文;詞切分;詞典;規(guī)則

1 引言

蒙古語是黏著性語言,黏著語語言是一種有時態(tài)變化的語言類型,通過在單詞的詞尾綴接不同的詞綴來實現(xiàn)語法功能。蒙古語、維吾爾語、滿語、日語、韓語、芬蘭語、土耳其語、匈牙利語等為典型的黏著語。

蒙古語的構(gòu)詞和構(gòu)形都是以詞根、詞干上綴接不同詞綴來完成的。每一個詞的構(gòu)成和其語法意義的表示都是依賴于不同詞綴的綴接,所以只有正確切分詞干和詞綴才能揭示其詞類屬性和語法關(guān)系。另一方面,蒙古語中存在大量的構(gòu)詞、構(gòu)形詞綴,而且它們往往有同形或兼類現(xiàn)象,這使蒙古語詞干和詞綴的切分更加復(fù)雜化[1]。

每個黏著語言的形態(tài)結(jié)構(gòu)、構(gòu)形詞綴和詞綴連接規(guī)則具有較大的差異,因此詞切分必須針對每個具體語言來設(shè)計與實現(xiàn)。詞切分算法在黏著語言的自然語言處理技術(shù)中占重要地位,所以斯拉夫蒙古文詞切分是斯拉夫蒙古文信息處理眾多后續(xù)工作的基礎(chǔ)。其他的研究,例如,斯拉夫蒙古文機器翻譯、信息檢索、文本分類、篇章處理等都是在斯拉夫蒙古文詞切分的基礎(chǔ)上進(jìn)行的。所以設(shè)計一個高查準(zhǔn)率、高查全率、運行速度快的斯拉夫蒙古文詞切分系統(tǒng),對斯拉夫蒙古文信息處理的研究具有重要的意義。

詞切分長時間以來一直是被研究的課題,典型的詞切分方法有Porter[2]算法,基于詞典方法,有限狀態(tài)轉(zhuǎn)錄機,有限自動機,基于HMM的方法[3],基于同現(xiàn)概率的方法等。目前傳統(tǒng)蒙古文詞切分研究已經(jīng)做了很多工作,而且取得了比較好的結(jié)果,但是斯拉夫蒙古文的詞綴切分還沒取得很好的結(jié)果。傳統(tǒng)蒙古文詞切分方法一般有3種: (1)基于切分詞典的切分方法[4]; (2)基于規(guī)則的切分方法[5]; (3)基于統(tǒng)計的切分方法[6]。此外也有人嘗試了結(jié)合多種方法對傳統(tǒng)蒙古文切分[7]。和傳統(tǒng)蒙古文有很大的不同,斯拉夫蒙古文基本上怎么讀就怎么寫的,讀與寫統(tǒng)一,在傳統(tǒng)蒙古文中的一個詞綴可能對應(yīng)多種變形的詞綴,同時,詞庫、正字法等也存在混亂和無固定標(biāo)準(zhǔn)的現(xiàn)象,所以切分也相對較難,目前國內(nèi)外還沒有一部實用的斯拉夫蒙古文詞切分系統(tǒng)。本文對斯拉夫蒙古文構(gòu)詞從理論到實踐做了深入分析,提出了切合實際的切分方法,結(jié)合基于切分詞典的切分方法和基于規(guī)則的切分方法,對斯拉夫蒙古文詞進(jìn)行詞綴切分,取得了比較好的結(jié)果。

2 斯拉夫蒙古文詞切分的特點

蒙古國現(xiàn)行的斯拉夫蒙古文有35個字母,其中7個基本元音,6個輔助元音,7個帶元音輔音,4個借詞輔音,9個殘缺輔音,這些都屬于音素,還有1個隔音符號和1個前化符號。一個詞由一個或多個音節(jié)組成,一個音節(jié)一般由幾個音素組成,詞與詞之間用空格分開。

斯拉夫蒙古文是個語法信息特別豐富的語言文字。不僅存在著眾多規(guī)律和規(guī)則,而且每種規(guī)律或規(guī)則都有特殊的情況,除此之外還有違反規(guī)律規(guī)則及特殊規(guī)則的情況。這些使得斯拉夫蒙古文的語法變得更加復(fù)雜。

斯拉夫蒙古文在語音方面有嚴(yán)格的元音和諧律。蒙語詞的第一個音節(jié)的元音是要影響后續(xù)音節(jié)的元音。一般是第一個音節(jié)的元音是陽性,那么后續(xù)音節(jié)的元音只能是陽性,第一個音節(jié)的元音是陰性,那么后續(xù)音節(jié)的元音只能是陰性,只有中性元音不受這種限制,可以跟陽性元音或陰性元音同時出現(xiàn)在一個詞里[8]。

蒙語是一種連續(xù)語,因此,蒙古語詞從構(gòu)造上可以分為: 詞根、詞干、附加成分。在形態(tài)學(xué)方面以詞根或詞干為基礎(chǔ),后接詞綴派生新詞和進(jìn)行詞形變化。詞干上綴接詞綴時有時在其中間增加字符、有時減少字符,也有時增加一個音節(jié)。詞根,表示蒙古語詞的最基本意義的部分,也就是詞的原來詞素叫做詞根。詞干,表示蒙古語的有意義的部分叫做詞干,詞干可以分為第一詞干、第二詞干、第三詞干等,詞根就是第一詞干。附加成分,單獨沒有意義,只在詞干下附加后產(chǎn)生詞匯意義和語法意義的部分叫做附加成分[8]。例如,

Yйлдвэрлэл(生產(chǎn))這個詞由Yйл(行為)—Yйлд(制作)—Yйлдвэр(工廠)—Yйлдвэрлэ(生產(chǎn)<動>)—Yйлдвэрлэл(生產(chǎn)<名>)的順序構(gòu)成的。這里Yйл為詞根(第一詞干),它后面接加《д》之后產(chǎn)生第二詞干Yйлд,再接加《вэр》時產(chǎn)生第3詞干Yйлдвэр,后面再接加《лэ》產(chǎn)生第4詞干Yйлдвэрлэ,最后又接加《л》之后產(chǎn)生Yйлдвэрлэл這個詞。

附加成分有構(gòu)形附加成分和構(gòu)詞附加成分,我們在此處理構(gòu)形附加成分,它并沒有改變詞匯的意義,這在后續(xù)工作中都是很有用的,我們在此都稱為詞綴。

3 基于詞典的詞切分

這里說的基于詞典的切分只是對高頻和部分不符合規(guī)則的斯拉夫蒙古文詞進(jìn)行的切分,是用來提高本詞切分系統(tǒng)的效率和準(zhǔn)確率。

對訓(xùn)練語料進(jìn)行詞頻統(tǒng)計后分析發(fā)現(xiàn),有些高頻詞在短詞處理階段就能處理掉,所以不需要編入切分詞典。整理后得到出現(xiàn)頻率高的200個詞,對其進(jìn)行人工詞切分編入詞切分詞典,用來進(jìn)行基于詞典詞切分使用。高頻詞進(jìn)行基于詞典的詞切分對于斯拉夫蒙古文詞切分的準(zhǔn)確率和速度的提高有很大的幫助。此外,斯拉夫蒙古文中少量詞不符合切分規(guī)則,我們也把這些詞放入切分詞典中,可以避免詞切分的錯誤,提高切分的準(zhǔn)確率。

詞切分詞典格式為: 索引——原詞——切分結(jié)果。其中,索引指的是該詞的首字母。

從表1中看出這200個高頻詞在語料中共出現(xiàn)了55 719 379次,所占的比例為 22.44%。最高出現(xiàn)頻率為623 782次,最低也有28 941次。所以對這200個高頻詞的準(zhǔn)確處理意義非常大。

表1 高頻詞統(tǒng)計結(jié)果

4 基于規(guī)則的詞切分

雖然斯拉夫蒙古文和傳統(tǒng)蒙古文在形態(tài)分析方面并沒有本質(zhì)的差異,但兩者在綴接詞綴時有很多不同的地方,因此詞綴切分規(guī)則有很大區(qū)別,傳統(tǒng)蒙古文的切分規(guī)則很多并不適用于斯拉夫蒙古文,相對于傳統(tǒng)蒙古文,斯拉夫蒙古文詞綴切分要復(fù)雜的多。

斯拉夫蒙古文是一個語法規(guī)則特別豐富的文字,有構(gòu)詞詞綴和構(gòu)形詞綴。在詞干上綴接詞綴時,不是簡單的連接,詞干詞尾發(fā)生變化,詞干末尾部分從詞尾形式變?yōu)樵~中形式。有時二者之間還需要添加連接字符,而連接字符也分一般情況和特殊情況;有時二者之間還需要去掉字符,也分一般情況和特殊情況。斯拉夫蒙古文詞還分為陽性詞、陰性詞和中性詞。

завилгаа(盤腿坐)

該詞中гаа不是詞綴,不能切。

Байцаагаа

該詞中гаа是詞綴,切分結(jié)果為байцаагаа: байцаа(白菜)+гаа。

由于斯拉夫蒙古文詞綴情況非常復(fù)雜,所以處理好斯拉夫蒙古文的這些規(guī)則和變化對于蒙古文的詞綴切分意義重大。根據(jù)斯拉夫蒙古文的特點,我們總結(jié)出了下面一些規(guī)則,并設(shè)計了算法。

4.1 通用切分規(guī)則

斯拉夫蒙古文詞通用切分規(guī)則指切分詞干、詞綴時普遍的切分規(guī)則??梢远x如下,假設(shè)一個斯拉夫蒙古文詞“WS”,S∈Ts其中Ts為詞綴詞典,W為詞干,S為詞綴。如果S詞綴為某個詞綴表中的詞綴,且W詞干滿足該詞綴表對詞干的要求,那么可以直接切分為WS: W+S的形式。例如,

авьяастай: авьяас+тай

тай為詞綴詞典的詞綴表MK_AE_GEIGUULEGC_DSR中的詞綴,該詞綴表對詞干的要求是詞干為靜態(tài)詞詞干,且為AE(含有а、э、у、Y字母)型詞干,詞干以DSR(д、с、р)字母結(jié)尾。

авьяастай滿足該詞綴表的要求,所以可以直接切分為авьяас+тай。

應(yīng)用通用切分規(guī)則進(jìn)行詞切分時,我們切分的詞綴為多個詞綴的疊加,即,一個詞后面如果綴接了多個詞綴,那么我們將這多個詞綴看成一個整體,然后從單詞中切分。

4.2 脫落元音的恢復(fù)

斯拉夫蒙古文中有些情況單詞后綴加詞綴時會出現(xiàn)元音脫落現(xiàn)象,當(dāng)出現(xiàn)這樣的情況時,切分詞綴后要將脫落的字符恢復(fù)。例如,以輔音結(jié)尾的詞干后接加以長元音開頭的詞綴時該結(jié)尾輔音前面的元音要脫落。除и以外,其他元音結(jié)尾的詞干后接加以長元音開頭的詞綴時該結(jié)尾的元音要脫落。以輔音結(jié)尾的詞干后接加以輔音開頭的詞綴時需要加元音時,該輔音前面的元音要脫落。例如,

олон+оос: олноос

олон以輔音結(jié)尾的詞干,后面綴接以長元音開頭的詞綴оос時,脫落掉олон結(jié)尾輔音字符н前的元音о。

м?нг?+ийг: м?нгийг

м?нг?為非и的元音結(jié)尾的詞干,后面綴接以長元音開頭的詞綴ийг時,脫落掉м?нг?末尾的元音?。

боловсор+л: боловсрол

боловсор后面綴接л時,боловсор末尾需要加元音о,所以脫落掉боловсор結(jié)尾的輔音字符р前的元音о。

但是,有些情況下元音不能脫落,例如,不能把帶元音輔音脫落成沒有元音,不能把殘缺輔音后接加殘缺輔音時加寫的元音脫落等。

斯拉夫蒙古文的元音有陽性、陰性和中性之分。一個詞里邊存在前后元音之間互相制約關(guān)系的元音和諧律。元音和諧律可用表2表示。

表2 元音和諧律

脫落元音恢復(fù)時可以考慮元音和諧律,根據(jù)元音和諧律恢復(fù)脫落的元音。例如,上面例子中,олноос為原詞干綴接詞綴時脫落掉了元音,所以олноос切掉詞綴оос后,詞干為олн恢復(fù)元音,根據(jù)元音和諧律,олн第一個音節(jié)的元音為о,所以原來脫落掉的元音為о,所以олноос切掉詞綴оос后,詞干為олно。

4.3 前化符號的恢復(fù)

在斯拉夫蒙古文中詞首音節(jié)的陽性元音受其后續(xù)音節(jié)и的影響而前化,最后成為獨立音位的叫做前化元音。前化元音在斯拉夫蒙古文里用前化符號ь表示。換句話說前化元音是陽性詞第一音節(jié)的а、о、у受到前元音и的影響,發(fā)音部位逐漸前移,成為一種獨立的前元音。

有些情況,前化符號后面接加附加成分時把前化符號轉(zhuǎn)換成и,如,前化符號后面接加以帶元音輔音開頭的詞綴時把前化符號轉(zhuǎn)換成и,前化符號后面接加以元音開頭的附加成分時把前化符號轉(zhuǎn)換成и等等。對于這樣的詞,在詞切掉詞綴后,要將前后符號恢復(fù)。例如,

соль+вол: соливол

соль以前化符號ь結(jié)尾,后面綴接以帶元音輔音開頭的詞綴вол時,前化符號ь轉(zhuǎn)換成и,所以соль后綴接詞綴вол后為соливол。相應(yīng)的當(dāng)соливол切掉詞綴вол時,詞干為соль。

而有些情況前化符號不轉(zhuǎn)換成и,所以切分詞綴時,如果需要將前化符號恢復(fù)時就得恢復(fù)。而前化符號后面接加以殘缺輔音開頭的詞綴時把前化符號不轉(zhuǎn)換成и,前化符號后面接加第一人稱意愿式附加成分я、ё時前化符號不轉(zhuǎn)換成и等等。對于這些情況,我們對詞直接切掉詞綴即為詞干了,不用考慮前化符號的恢復(fù)。

4.4 基于規(guī)則的詞切分算法

(1) 將詞與詞綴詞典各詞綴表中的詞綴進(jìn)行匹配。

(2) 若沒有匹配,則返回結(jié)果;若有匹配且詞干符合該詞綴表中詞綴對其的要求,則轉(zhuǎn)入第(3)步。

(3) 若詞去掉詞綴后,剩下部分是否一個有意義詞或詞干,且可以綴接詞綴。若是真,則切分成功,若是假,則轉(zhuǎn)入第(4)步。

(4) 該詞是否屬于詞干綴接詞綴后脫落了元音情況,若不屬于,則轉(zhuǎn)入第(5)步,否則將脫落元音恢復(fù),然后看恢復(fù)后是否一個有意義詞或詞干,且可以綴接詞綴。若是真,則切分成功;若是假,則該詞不屬于“詞干和詞綴結(jié)構(gòu)”。

(5) 若不屬于第(4)步情況,則看該詞是否屬于詞干綴接詞綴后前化符號被轉(zhuǎn)換情況,若屬于,則將前化符號恢復(fù),然后看恢復(fù)后是否一個有意義詞或詞干,且可以綴接詞綴。若是真,則切分成功;若是假,則該詞不屬于“詞干和詞綴結(jié)構(gòu)”。

5 數(shù)據(jù)準(zhǔn)備

5.1 關(guān)于語料的說明

我們參閱了很多文獻(xiàn)和論文沒有發(fā)現(xiàn)公開公認(rèn)的斯拉夫蒙古文訓(xùn)練語料和測試語料,因此我們整理了一個訓(xùn)練語料和一個測試語料。其中,訓(xùn)練語料為我們整理網(wǎng)絡(luò)孔子學(xué)院等多個網(wǎng)站的斯拉夫蒙古文文本所得語料集,共1G多。訓(xùn)練語料沒有詞性信息,也沒有詞綴切分信息,如圖1所示。測試語料為我們精心挑選的具有代表性的200句斯拉夫蒙古文語料,對測試語料切分后進(jìn)行了人工校對。

5.2 人工編寫詞綴詞典

1. 詞綴

斯拉夫蒙古文和傳統(tǒng)蒙古文一樣,通過在詞干上綴接詞綴,有時層層綴接,變成一個結(jié)構(gòu)相當(dāng)復(fù)雜的蒙古文詞,所以構(gòu)建詞綴詞典是蒙古文切分必須完成且重要的任務(wù)。

圖1 斯拉夫蒙古文原始語料

2. 詞綴詞典的設(shè)計

根據(jù)情況的不同,我們對詞綴總結(jié)整理,共分為30類詞綴表,這些詞綴表之間存在重復(fù)詞綴,而且詞綴表中的詞綴不是斯拉夫蒙古文語法上的詞綴,而是多個詞綴的疊加,即,一個詞后面如果綴接了多個詞綴,那么我們將這多個詞綴看成一個整體作為詞綴。詞綴表分類的依據(jù)是前面詞干的不同,如詞干是靜態(tài)詞詞干,還是動態(tài)詞詞干,詞干的陰陽性、末尾元音等,每一個詞綴表對詞干都有相應(yīng)的要求,例如,MK_TYN_AE_GEIGUULEGC_DSR這個詞綴表要求詞干為靜態(tài)詞詞干,且為AE(含有а、э、у、Y字母)型詞干,詞干以DSR(д、с、р)字母結(jié)尾。

下面為詞綴表MK_TYN_AE_GEIGUULEGC_DSR的截圖如圖2所示。

圖2 詞綴表MK_TYN_AE_GEIGUULEGC_DSR

所有詞綴表統(tǒng)計如表3所示,其中,長度為斯拉夫蒙古文字母個數(shù)。

表3 詞綴詞典統(tǒng)計結(jié)果

5.2 人工編寫詞干詞典

我們統(tǒng)計并切分校正,生成5萬詞級的詞干詞典,其中有7千詞級的動態(tài)詞詞干。

6 詞切分流程

對語料進(jìn)行分析,發(fā)現(xiàn)斯拉夫蒙古文詞切分在真正開始切分之前,進(jìn)行詞信息分析工作,將會大幅度提高詞切分效率和準(zhǔn)確率。

6.1 切分過程

本系統(tǒng)對斯拉夫蒙古文詞切分的詞切分過程如圖3所示。

圖3 詞切分過程

首先,如果當(dāng)前為斯拉夫蒙古文詞標(biāo)點符號或非斯拉夫蒙古文詞,則直接輸出。

其次,第一步?jīng)]有得到處理的,如果該詞長度小于等于3,則直接輸出。

最后,前兩步中沒得到處理的,如果該詞在詞切分詞典中,則按詞典方法將該詞的切分結(jié)果輸出。剩余部分按后面介紹的基于規(guī)則的方法切分。如果都處理不掉,則直接輸出。

6.2 長度小于等于3的斯拉夫蒙古文詞

對于長度小于等于3的斯拉夫蒙古文詞的分析發(fā)現(xiàn)它們基本上為詞干。從表4中可以看到3 491個短詞在語料中占的比例高達(dá)17.93%。所以對這些詞的預(yù)處理,對詞切分的貢獻(xiàn)很大。

表4 訓(xùn)練語料中長度小于等于3的詞的統(tǒng)計結(jié)果

7 實驗

我們精心選取了200句具有代表性的斯拉夫蒙古文長句子,對其單詞進(jìn)行詞綴切分。實驗結(jié)果如表5所示。

表5 實驗結(jié)果

從上面結(jié)果看出,只是簡單基于切分詞典和通用切分規(guī)則的詞綴切分,準(zhǔn)確率不高,而加上其它規(guī)則和預(yù)處理,則明顯的提高了詞綴切分的準(zhǔn)確率。因為根據(jù)通用切分規(guī)則所得詞干,很多需恢復(fù)脫落的元音或前化符號等;預(yù)處理也會減少錯誤切分,如短詞,它們基本沒有詞綴,不需切分。另外,如果詞干詞典的覆蓋率比較小時會影響切分的準(zhǔn)確率。而且,當(dāng)出現(xiàn)多種滿足條件的情況時,就不能保證輸出正確結(jié)果了,例如,бартаа為“障礙、險阻、麻煩”的意思,沒有詞綴,但是在切分時卻切分成бар+таа了,詞干為бар,詞綴為таа,這是因為詞綴表MK_AE_GEIGUULEGC_DSR中含有詞綴таа,而且бар為AE型,以DSR(д、с、р)字符結(jié)尾,詞干詞典中存在,為靜態(tài)詞詞干,滿足了規(guī)則和設(shè)定的條件,所以切分得到的結(jié)果就不正確了。

8 總結(jié)及展望

本文對斯拉夫蒙古文詞采用基于詞典和規(guī)則結(jié)合的方法進(jìn)行詞綴切分,實現(xiàn)了一個實用的切分系統(tǒng)。實驗表明,通過詞典和規(guī)則兩方法的結(jié)合,對斯拉夫蒙古文詞切分取得了比較好的結(jié)果。但是,由于斯拉夫蒙古文是一個很靈活的語言,規(guī)則不能完全覆蓋所有的單詞,有些特殊情況,而且隨著新詞的不斷出現(xiàn),可能會出現(xiàn)更多的特殊情況,有些詞處理結(jié)果存在問題,系統(tǒng)還需要進(jìn)一步完善。接下來的工作,進(jìn)一步完善切分規(guī)則、詞綴詞典和詞干詞典,而且,我們考慮利用統(tǒng)計方法對大的詞切分語料根據(jù)斯拉夫蒙古文的特點進(jìn)行機器學(xué)習(xí),通過結(jié)合語言模型對該系統(tǒng)進(jìn)一步改進(jìn)。

[1] 那順烏日圖.蒙古文詞根、詞干、詞尾自動切分系統(tǒng)[J].內(nèi)蒙古大學(xué)學(xué)報,1997,29(2):53-67.

[2] M F Porter. An algorithm for suffix stripping [J].Program, 1980, 14(3): 130-137.

[3] Massimo M and Nicola O. A Novel Method for Stemmer Generation Based on Hidden Markov Models[C]//Conference on Information and Knowledge Management Archive Proceedings of the twelfth International Conference on Information and Knowledge Management, 2003: 131 134.

[4] 淑琴.“蒙古語語法信息詞典附加成分分庫”的設(shè)計與實現(xiàn)[D],內(nèi)蒙古大學(xué)碩士學(xué)位論文,2005.6.

[5] 葉嘉明,基于規(guī)則的蒙古語詞法分析研究與實現(xiàn)[D],北京: 北京大學(xué)碩士學(xué)位論文,2005.

[6] 侯宏旭,劉群,那順烏日圖等.基于統(tǒng)計語言模型的蒙古文詞切分[J].模式識別與人工智能,2009,22(1):108-112.

[7] 明玉.基于詞典、規(guī)則與統(tǒng)計的蒙古文詞切分系統(tǒng)的研究[D],內(nèi)蒙古大學(xué)碩士學(xué)位論文,2011.

[8] 薩仁都拉嘎.新蒙文自學(xué)入門[M],內(nèi)蒙古: 天馬出版有限公司,2005.1.

[9] 清格爾泰.蒙古語語法[M],內(nèi)蒙古: 內(nèi)蒙古人民出版社,1991.5.

[10] 嘎拉桑朋斯格.蒙古國基立爾蒙古文正字法[M],內(nèi)蒙古: 內(nèi)蒙古人民出版社,2001.11.

[11] 舍·卻瑪.蒙古文、基里爾文正字法比較研究[M],內(nèi)蒙古教育出版社,2010.9.

[12] 古麗拉·阿東別克,米吉提·阿布力米提. 維吾爾語詞切分方法初探[J]. 中文信息學(xué)報,2004,18:61-65.

[13] 那順烏日圖,雪艷,葉嘉明.現(xiàn)代蒙古文語料庫加工技術(shù)的新進(jìn)展——新一代蒙古文詞語自動切分與標(biāo)注系線[C]//第十屆少數(shù)民族語言文字信息處理學(xué)術(shù)研討會,2005

[14] 米海濤,熊德意,劉群. 中文詞法分析與句法分析融合策略研究[J]. 中文信息學(xué)報,2008,22:10-17.

[15] 包薩日娜. 傳統(tǒng)蒙古文到新蒙文轉(zhuǎn)換中名詞及其格附加成分轉(zhuǎn)換的研究[D]. 內(nèi)蒙古大學(xué)碩士學(xué)位論文,2009.6.

[16] 趙偉,侯宏旭,從偉,宋美娜.基于條件隨機場的蒙古語詞切分研究[J].中文信息學(xué)報,2010,24(5):31-35.

Research on Slavic Mongolian Word Segmentation Based on Dictionary and Rule

SHI Jianguo ,HOU Hongxu, BAO Feilong

(College of Computer Science, Inner Mongolia University, Hohhot, Inner Mongolia 010021,China)

Slavic Mongolian is the daily language in Mongolia, which is also known as Cyrillic Mongolian or new Mongolian. This paper explores the Slavic Mongolian word segmentation by combining the dictionary with rules. We first preprocess with the dictionary for the words of high-frequency or not consistent with rulesm then deal with the rest words with rules to generate n-best candidates for final decision We combine the two different methods, taking bothadvantages and achieving excellent performance in the Slavic Mongolian word segmentation.

Slavic Mongolian; word segmentation; dictionary; rule

史建國(1984—),碩士研究生,主要研究領(lǐng)域為中文信息處理。E?mail:tieshushjg@163.com飛龍(1985—),助教,主要研究領(lǐng)域為蒙古文信息處理、語音識別與合成。E?mail:csfeilong@imu.edu.cn侯宏旭(1972—),通訊作者,教授,博士生導(dǎo)師,主要研究領(lǐng)域為中文信息處理、信息檢索。E?mail:cshhx@imu.edu.cn

1003-0077(2015)01-0197-06

2012-10-08 定稿日期: 2013-02-03

工業(yè)與信息化部電子信息產(chǎn)業(yè)發(fā)展基金“蒙古文軟件開發(fā)和產(chǎn)業(yè)化”項目子課題“蒙古文輔助翻譯與電子辭典軟件”,內(nèi)蒙古自然科學(xué)基金項目(2010ZD18)

TP391

A

猜你喜歡
斯拉夫蒙古文詞綴
敖漢旗萬壽白塔蒙古文碑文新釋
從網(wǎng)絡(luò)語“X精”看“精”的類詞綴化
早期斯拉夫派宗教哲學(xué)家對德國唯心主義的闡釋與批判
詞尾與詞綴的區(qū)別研究
部分海外藏蒙古文文獻(xiàn)及其目錄
淺談現(xiàn)代漢語類詞綴
多出來的一只狗
多出來的一條狗
烏蘭察布蒙古文網(wǎng)站正式上線
釋西夏語詞綴wji2