基于分段的藏字校對算法研究

2013-04-14 07:49安見才讓

中文信息學(xué)報(bào) 2013年2期

安見才讓

（青海民族大學(xué)計(jì)算機(jī)學(xué)院，青海西寧810007）

1 引言

信息社會(huì)的發(fā)展，使電子書、網(wǎng)上圖書館以及網(wǎng)頁等種類繁多的信息不斷出現(xiàn)，供人們使用。這些信息主要是通過鍵盤錄入、掃描等方式輸入到計(jì)算機(jī)的，但是，任何一種方式都無法保證存入的信息準(zhǔn)確無誤。文本校對技術(shù)正是解決準(zhǔn)確地輸入信息的一種專業(yè)性技術(shù)。

國外英文文本校對方面取得了一定的成果，部分成果實(shí)現(xiàn)了產(chǎn)品化。英文的校對分為兩部分，一是針對英語單詞內(nèi)部出現(xiàn)的拼寫錯(cuò)誤［1］，主要采用最小編輯距離技術(shù)、相似鍵技術(shù)等六種方法來實(shí)現(xiàn)；二是對句子中出現(xiàn)的單詞正確但用法錯(cuò)誤進(jìn)行校正，主要采用自然語言處理和統(tǒng)計(jì)語言模型技術(shù)（SLM）解決。由于漢語和少數(shù)民族語言與英語在語言本身及文本的輸入方式上均存在較大差異，因而漢語或少數(shù)民族語言的文本校對系統(tǒng)所采用的策略和技術(shù)與英文的校對系統(tǒng)有一定的差異?，F(xiàn)普遍采用的技術(shù)有詞切分技術(shù)［2］、最小編輯距離技術(shù)［2］、近似集模糊匹配技術(shù)［3－5］、語法分析及語義分析技術(shù)等［3，6］。國內(nèi)在文本校對方面的研究始于20世紀(jì)90年代初期，但發(fā)展速度較快，其中藏字的主要校對方法采用字典匹配的方法進(jìn)行。本文通過研究藏字的語法和構(gòu)字規(guī)律，提出了一種新的校對方法。

2 藏字語法

藏字是由元音和輔音通過一定的語法規(guī)則組合形成，其語法形式化地描述為：設(shè)B、O、Pr、Back、 FurthBack、Up和Lw分別表示輔音集、元音集、前加字集、后加字集、再后加字集、上加字集和上加字集，則，B＝｛｛，，，｝，｛，，，，｝，｛，，，｝，｛，，，｝，｛，，，｝，｛，，，，｝，｛，，，｝，｛，｝｝，輔音共有30個(gè)字母，共8組；O＝｛，，，｝，共有4個(gè)元音字母；Pr＝｛，，，，｝，共有5個(gè)字母；Back＝｛，，，，，，，，，｝，共有10個(gè)字母；FurthBack＝｛，｝，共有2個(gè)字母；Up＝｛，，｝，共有3個(gè)字母；Lw＝｛，，，｝，共有4個(gè)字母。藏字的構(gòu)成結(jié)構(gòu)如圖1所示。

圖1 藏字結(jié)構(gòu)

藏文字母按前加字＋上加字＋基字＋下加字＋元音＋后加字＋再后加字的順序進(jìn)行組合，前加字、上加字、基字、下加字、元音、后加字和再后加字可以省缺，但是，藏字不是前加字集合、上加字集合、基字集合、下加字集合、元音集合、后加字集合和再后加字集合中的各一個(gè)字母的簡單組合，而是需按字母的字性規(guī)范進(jìn)行組合，比較復(fù)雜。若以元音位置為中心，可以把藏字分成兩個(gè)部分：前段pretibet和后段backtibet。前段部分生成規(guī)則如表1所示。

表1 藏字前段生成規(guī)則

續(xù)表

另外，1998年頒布的中國國家標(biāo)準(zhǔn)《信息交換用藏文編碼字符集基本集》（GB16959－1997）只包括了41個(gè)藏文編碼字符（含藏文和梵音藏文），加上其他組合用字符及篇章裝飾或標(biāo)點(diǎn)類符號共計(jì)168個(gè)［7］。藏字的橫向和縱向疊置分別用藏文字母和藏文主字字符組合實(shí)現(xiàn)。所以，同一藏文字母有兩種字符（機(jī)內(nèi)）：藏文字母和藏文主字，如圖2所示。

圖2 藏文主字和藏文字母

將藏字分為兩類：無疊加字和有疊加字，每類又分為兩類：有元音和無元音。

3 Unicode編碼的藏字結(jié)構(gòu)特征

以Unicode為編碼的藏字以有無元音與主字以及主字的個(gè)數(shù)為對象，對藏字結(jié)構(gòu)進(jìn)行分析和研究，得到如表2所示結(jié)構(gòu)信息。

表2 藏字結(jié)構(gòu)信息

續(xù)表

對表2中藏字結(jié)構(gòu)進(jìn)行分析，得到合法藏字結(jié)構(gòu)及分段點(diǎn)位置的特征如下：

① 藏字中若有元音，則元音位置為分段點(diǎn)；

②無疊加字符和元音的藏字中：

若字長為1，該字的分段點(diǎn)位置為1；若字長為2，第一個(gè)字符是基字，第二個(gè)字符是后加字，分段點(diǎn)位置為1；字長為4，第二個(gè)字符是基字，分段點(diǎn)位置為2；

若字長等于3，第一、二、三位字符既滿足作前加字、基字、后加字的語法條件，又滿足作基字、后加字、再后加字的條件，這時(shí)要判斷第一個(gè)和第二個(gè)字符是否是同組，若是同組，則該藏字按基字＋后加字＋再后加字處理，分段點(diǎn)位置為1，否則按前加字＋基字＋后加字處理，分段點(diǎn)位置為2；

③有疊加字符而無元音的藏字中：

含有2個(gè)主字，第一個(gè)主字為基字，第二個(gè)主字為下加字，基字之前的字符為上加字，分段點(diǎn)的位置為第2個(gè)主字的位置；

④ 沒有疊加字符的藏字中，若有前加字，其肯定出現(xiàn)在基字之前，若有元音，元音肯定出現(xiàn)在基字后面，后加字肯定出現(xiàn)在元音之后，再后加字出現(xiàn)在后加字后面；

⑤ 有下加字的疊加藏字中，若有元音，元音出現(xiàn)在下加字之后，其次是后加字，再次是再后加字；若沒有元音，后加字出現(xiàn)在下加字之后，其次是再后加字。但后加字也可能被缺省；

⑥ 沒有后加字，就沒有再后加字，也就是說有再后加字，肯定有后加字；

⑦ 有上加字的藏字中，若有前加字，前加字出現(xiàn)在上加字之前；沒有上加字的藏字中，若有前加字，前加字出現(xiàn)在基字之前；

⑧有疊加字肯定有主字，主字?jǐn)?shù)為1或2；

通過藏字結(jié)構(gòu)中元音位置特征對藏字進(jìn)行分割，產(chǎn)生藏字的前段和后段。

4 藏字檢錯(cuò)算法描述

第七步：主字?jǐn)?shù)為2時(shí)，p＝第二個(gè)主字的位置；

第八步：對藏字字符串進(jìn)行分割。將p（包含p的位置上的字符）之前的字符串存入preword中，p之后的字符串存入backword中。

第九步：判斷preword是否存在于集合pretibet中，若不存在，報(bào)錯(cuò)，結(jié)束，否則，再繼續(xù)檢查backword是否存在于集合backtibet中，若不存在，報(bào)錯(cuò)，結(jié)束。

注：p是整型變量，記錄分段點(diǎn)的位置。

第一步：

（1）分字。按分字點(diǎn)和結(jié)束符號進(jìn)行分字。

（2）預(yù)處理。對各個(gè)字的語法單位進(jìn)行還原。

藏字在計(jì)算機(jī)中實(shí)現(xiàn)檢錯(cuò)時(shí)，主要通過分析有無主字和元音來確定分段點(diǎn)，分割并檢測藏字。

藏字檢錯(cuò)過程：

第一步：分字和預(yù)處理，計(jì)算字長，若字長＞7，報(bào)錯(cuò)，否則轉(zhuǎn)下一步；

第二步：判斷藏字中有無主字，若有轉(zhuǎn)第六步，否則轉(zhuǎn)下一步；

第三步：判斷藏字中有無元音，若有，轉(zhuǎn)第五步，否則轉(zhuǎn)下一步；

第四步：判斷藏字長度。若字長＞4，報(bào)錯(cuò)；若字長＝1，報(bào)對；若字長為2，p＝1；字長等于3，判斷第1個(gè)字符是否在集合pr中，若是，再判斷第1個(gè)字符和第2個(gè)字符是否為同組，若不是，則第1個(gè)字符是前加字，第2個(gè)字符是基字，p＝2，否則，第1個(gè)字符為基字，p＝1，轉(zhuǎn)第八步；字長為4，第2個(gè)字符為基字，p＝2，轉(zhuǎn)第八步。

第五步：計(jì)算元音的位置t。p＝t－1，轉(zhuǎn)第八步；

第六步：判斷有幾個(gè)藏文主字。若有1個(gè)主字，p＝主字位置，轉(zhuǎn)第八步，否則轉(zhuǎn)下一步；

第五步：字長為4，元音前的字符的位置為1，則p＝1，轉(zhuǎn)第八步。

第九步：經(jīng)判斷，preword在pretibet集合中，lastword在backtibet集合中。所以，符合語法。再回到第二步，檢查下一個(gè)藏字。

5 實(shí)驗(yàn)

實(shí)驗(yàn)時(shí)，我們將集合pretibet和lasttibet中的元素分別放入兩個(gè)數(shù)組pretibet和lastibet中，作了排序，檢索時(shí)用二分法，以提高算法性能。

我們選用了一段文字進(jìn)行實(shí)驗(yàn)，算法正確地檢索出6個(gè)錯(cuò)誤，并做了標(biāo)記，如下：

6 結(jié)束語

當(dāng)前，藏文信息處理技術(shù)落后于漢文信息處理技術(shù)，漢文的校對技術(shù)不能直接應(yīng)用于藏文信息處理。本文通過研究藏字的語法和構(gòu)字規(guī)律，提出了一種校對藏字的方法，可有效解決長期困擾藏字校對的困難。該方法可應(yīng)用于語料庫、文字識(shí)別［8］、語音識(shí)別和出版印刷等領(lǐng)域和行業(yè)的研究。

［1］瑪依熱·依布拉音，米吉提·阿不里米提，艾斯卡爾·艾木都拉.基于最小編輯距離的維語詞語檢錯(cuò)與糾錯(cuò)研究［J］.中文信息學(xué)報(bào)，2008，22（3）：110－114.

［2］陸玉清，洪宇，陸軍，等.基于上下文的真詞錯(cuò)誤檢查及校對方法［J］.中文信息學(xué)報(bào)，2011，25（1）：85－90.

［3］張磊，周明，黃昌寧，等.中文文本自動(dòng)校對［J］.語言文字應(yīng)用，2001，1：19－26.

［4］陳笑蓉，秦進(jìn)，汪維家，等.中文文本校對技術(shù)的研究與實(shí)現(xiàn)［J］.計(jì)算機(jī)科學(xué)，2003，30（11）：53－55.

［5］張仰森.中文校對系統(tǒng)中糾錯(cuò)知識(shí)庫的構(gòu)造及糾錯(cuò)建議的產(chǎn)生算法［J］.中文信息學(xué)報(bào)，2001，15（3）：33－39.

［6］于勐，姚天順.一種混合的中文文本校對方法［J］.中文信息學(xué)報(bào)，1998，12（2）：31－36.

［7］中華人民共和國國家標(biāo)準(zhǔn).信息交換用藏文編碼字符集基本集（GB16 959）［M］.中國標(biāo)準(zhǔn)出版社，1997.

［8］李元祥，劉長松，丁曉青.一種利用校對信息的漢字識(shí)別自適應(yīng)后處理方法［J］.中文信息學(xué)報(bào)，2001，15（1）：46－52.