王福釗 周雁
摘 ?要: 在藏文信息化處理中,藏文音節(jié)的正確拼寫(xiě)是一切工作的基礎(chǔ)。文章針對(duì)藏文文本中藏文音節(jié)的錯(cuò)誤自動(dòng)檢測(cè)技術(shù)進(jìn)行了研究,以包含62597個(gè)藏文音節(jié)的50篇新聞稿作為文本語(yǔ)料,研究比較了基于藏文音節(jié)構(gòu)件識(shí)別的構(gòu)件間約束限制匹配和基于全藏字列表的直接匹配這兩種方法的藏文音節(jié)檢錯(cuò)誤判率,進(jìn)而探討了不同的音節(jié)檢錯(cuò)方法適用的最佳范圍和情況。
關(guān)鍵詞: 藏文; 音節(jié); 錯(cuò)誤檢測(cè); 約束限制匹配; 直接匹配
中圖分類號(hào):TP391.4 ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ? 文章編號(hào):1006-8228(2020)01-05-05
Abstract: In the Tibetan information processing, the correct spelling of Tibetan syllables is the basis of all work. This paper studies the automatic error detection technology of Tibetan syllable in Tibetan text, and uses 50 news articles containing 62,597 Tibetan syllables as text corpus to study and compare the syllable error rate with two methods, i.e., the constraint limited matching between Tibetan syllable components method and the Tibetan syllable full-word list based direct matching method, and then explore the optimal range and situation for different syllable error detection methods to use.
Key words: Tibetan; syllable; error detection; constraint limited matching; direct matching
0 引言
本世紀(jì)初,國(guó)內(nèi)藏文信息化處理進(jìn)入了發(fā)展階段,以中央民族大學(xué)、西藏大學(xué)、西北民族大學(xué)等高校為首的研究機(jī)構(gòu)加大了藏文信息處理的研究,在藏文文字處理上取得了大量成果。藏文是具有悠久歷史的古老文字,其可追溯至上古象雄時(shí)期,后經(jīng)過(guò)中世紀(jì)的發(fā)展,至吐蕃王朝第三十三代贊普松贊干布時(shí)期,由該時(shí)期的著名大臣吐彌桑布扎結(jié)合梵文正式創(chuàng)制了這一獨(dú)特的文字[1]。藏文是藏族人民交流溝通的主要語(yǔ)言文字,是藏文文化傳播的重要載體,是經(jīng)過(guò)不斷修正完善的中華民族古老文字的重要組成部分。藏語(yǔ)是中華民族語(yǔ)言大家庭中的重要一員,在信息化發(fā)展的不斷推動(dòng)下,藏文信息化得到了快速發(fā)展。隨著藏文信息化的發(fā)展,計(jì)算機(jī)對(duì)藏文的處理顯得格外重要,計(jì)算機(jī)中藏文的正確表示和存儲(chǔ)是藏文信息處理的基礎(chǔ),是進(jìn)行藏文分詞、詞性標(biāo)注、詞頻統(tǒng)計(jì)等工作的基礎(chǔ)。本次研究是從藏文的文本基本組成單元——音節(jié)出發(fā),以西藏新聞網(wǎng)的新聞稿件為文本語(yǔ)料,從構(gòu)字規(guī)則上研究并編寫(xiě)計(jì)算機(jī)程序,實(shí)現(xiàn)了藏文音節(jié)的拼寫(xiě)錯(cuò)誤檢測(cè)。
1 研究基礎(chǔ)
1.1 藏文結(jié)構(gòu)
藏文類似于漢文屬于拼音型文字,屬于藏漢語(yǔ)系藏緬語(yǔ)族藏語(yǔ)支[2]。從狹義上講,藏文是指藏語(yǔ)的符號(hào);但就廣義上講,藏文除了符號(hào)外還包括藏文文法等[3]。藏文在組成上由30個(gè)輔音字母(共8組)和5個(gè)元音字母(其中?a為省略不寫(xiě))組成[1]。具體如表1-表2所示。
藏文的基本組成單元是字母,文本的基本組成單元是藏文音節(jié)。另外,藏文音節(jié)是字、詞、短語(yǔ)和句子的組成基本單元,音節(jié)間用隔音符“?”標(biāo)記隔開(kāi),句子分割使用單垂符“?”或雙垂符“??”標(biāo)記隔開(kāi)。每個(gè)藏文音節(jié)呈橫向-縱向雙重疊加的平面字,由30個(gè)輔音字母和4個(gè)元音字母按照構(gòu)字規(guī)則填補(bǔ)在基字、前加字、上加字、下加字、元音符號(hào)、后加字和再后加字中的1~7部分,來(lái)進(jìn)行構(gòu)成。其中基字必須存在,是整個(gè)音節(jié)的核心部分。30個(gè)輔音字母皆可作為基字。藏字基本結(jié)構(gòu)如圖1所示。
基字:30個(gè)輔音字母皆可作為基字。
前加字:?????共5個(gè)。
上加字:???共3個(gè)。
下加字:????共4個(gè)。
元音符號(hào):? ?? ?? ??共4個(gè)。
后加字:??????????共10個(gè)。
再后加字:??共2個(gè)。
前加字約束如表3,其中,? ?? ?? ?? ?? ?? 6個(gè)只能在疊加時(shí)才可添加前加字?,其余只需作為基字即可添加相應(yīng)前加字。對(duì)于上加字的添加限制如表4所示。
對(duì)于下加字的添加限制如表5所示。
對(duì)于再后加字的添加限制如表6所示。
對(duì)于后加字而言,? ? ? ?? ? ? ? ? ? ? 皆可加在所有的字丁后,但不同的后加字將限制再后加字的出現(xiàn)[1]。還有一些特殊情況,基字+下加字+再下加字的三重疊加體,如???等。
1.2 檢錯(cuò)原理
對(duì)于藏文音節(jié)的錯(cuò)誤檢測(cè),是根據(jù)其構(gòu)字規(guī)則進(jìn)行規(guī)則匹配,匹配與否就是錯(cuò)誤與否。對(duì)于整篇藏文文本而言,首先對(duì)文本進(jìn)行預(yù)處理操作,替換非藏文字符的其他所有符號(hào)及進(jìn)行藏文縮略詞的還原,后將文章按照隔音符“?”進(jìn)行單元隔開(kāi),最后通過(guò)音節(jié)匹配進(jìn)行錯(cuò)誤檢測(cè)[4-8]。其原理圖如圖2所示。