安見才讓
(青海民族大學(xué)計(jì)算機(jī)學(xué)院,青海西寧810007)
信息社會(huì)的發(fā)展,使電子書、網(wǎng)上圖書館以及網(wǎng)頁等種類繁多的信息不斷出現(xiàn),供人們使用。這些信息主要是通過鍵盤錄入、掃描等方式輸入到計(jì)算機(jī)的,但是,任何一種方式都無法保證存入的信息準(zhǔn)確無誤。文本校對技術(shù)正是解決準(zhǔn)確地輸入信息的一種專業(yè)性技術(shù)。
國外英文文本校對方面取得了一定的成果,部分成果實(shí)現(xiàn)了產(chǎn)品化。英文的校對分為兩部分,一是針對英語單詞內(nèi)部出現(xiàn)的拼寫錯(cuò)誤[1],主要采用最小編輯距離技術(shù)、相似鍵技術(shù)等六種方法來實(shí)現(xiàn);二是對句子中出現(xiàn)的單詞正確但用法錯(cuò)誤進(jìn)行校正,主要采用自然語言處理和統(tǒng)計(jì)語言模型技術(shù)(SLM)解決。由于漢語和少數(shù)民族語言與英語在語言本身及文本的輸入方式上均存在較大差異,因而漢語或少數(shù)民族語言的文本校對系統(tǒng)所采用的策略和技術(shù)與英文的校對系統(tǒng)有一定的差異?,F(xiàn)普遍采用的技術(shù)有詞切分技術(shù)[2]、最小編輯距離技術(shù)[2]、近似集模糊匹配技術(shù)[3-5]、語法分析及語義分析技術(shù)等[3,6]。國內(nèi)在文本校對方面的研究始于20世紀(jì)90年代初期,但發(fā)展速度較快,其中藏字的主要校對方法采用字典匹配的方法進(jìn)行。本文通過研究藏字的語法和構(gòu)字規(guī)律,提出了一種新的校對方法。
藏字是由元音和輔音通過一定的語法規(guī)則組合形成,其語法形式化地描述為:設(shè)B、O、Pr、Back、 FurthBack、Up和Lw分別表示輔音集、元音集、前加字集、后加字集、再后加字集、上加字集和上加字集,則,B={{,,,},{,,,,},{,,,},{,,,},{,,,},{,,,,},{,,,},{,}},輔音共有30個(gè)字母,共8組;O={,,,},共有4個(gè)元音字母;Pr={,,,,},共有5個(gè)字母;Back={,,,,,,,,,},共有10個(gè)字母;FurthBack={,},共有2個(gè)字母;Up={,,},共有3個(gè)字母;Lw={,,,},共有4個(gè)字母。藏字的構(gòu)成結(jié)構(gòu)如圖1所示。
圖1 藏字結(jié)構(gòu)
藏文字母按前加字+上加字+基字+下加字+元音+后加字+再后加字的順序進(jìn)行組合,前加字、上加字、基字、下加字、元音、后加字和再后加字可以省缺,但是,藏字不是前加字集合、上加字集合、基字集合、下加字集合、元音集合、后加字集合和再后加字集合中的各一個(gè)字母的簡單組合,而是需按字母的字性規(guī)范進(jìn)行組合,比較復(fù)雜。若以元音位置為中心,可以把藏字分成兩個(gè)部分:前段pretibet和后段backtibet。前段部分生成規(guī)則如表1所示。
表1 藏字前段生成規(guī)則
續(xù)表
另外,1998年頒布的中國國家標(biāo)準(zhǔn)《信息交換用藏文編碼字符集基本集》(GB16959-1997)只包括了41個(gè)藏文編碼字符(含藏文和梵音藏文),加上其他組合用字符及篇章裝飾或標(biāo)點(diǎn)類符號共計(jì)168個(gè)[7]。藏字的橫向和縱向疊置分別用藏文字母和藏文主字字符組合實(shí)現(xiàn)。所以,同一藏文字母有兩種字符(機(jī)內(nèi)):藏文字母和藏文主字,如圖2所示。
圖2 藏文主字和藏文字母
將藏字分為兩類:無疊加字和有疊加字,每類又分為兩類:有元音和無元音。
以Unicode為編碼的藏字以有無元音與主字以及主字的個(gè)數(shù)為對象,對藏字結(jié)構(gòu)進(jìn)行分析和研究,得到如表2所示結(jié)構(gòu)信息。
表2 藏字結(jié)構(gòu)信息
續(xù)表
續(xù)表
對表2中藏字結(jié)構(gòu)進(jìn)行分析,得到合法藏字結(jié)構(gòu)及分段點(diǎn)位置的特征如下:
① 藏字中若有元音,則元音位置為分段點(diǎn);
②無疊加字符和元音的藏字中:
若字長為1,該字的分段點(diǎn)位置為1;若字長為2,第一個(gè)字符是基字,第二個(gè)字符是后加字,分段點(diǎn)位置為1;字長為4,第二個(gè)字符是基字,分段點(diǎn)位置為2;
若字長等于3,第一、二、三位字符既滿足作前加字、基字、后加字的語法條件,又滿足作基字、后加字、再后加字的條件,這時(shí)要判斷第一個(gè)和第二個(gè)字符是否是同組,若是同組,則該藏字按基字+后加字+再后加字處理,分段點(diǎn)位置為1,否則按前加字+基字+后加字處理,分段點(diǎn)位置為2;
③有疊加字符而無元音的藏字中:
含有2個(gè)主字,第一個(gè)主字為基字,第二個(gè)主字為下加字,基字之前的字符為上加字,分段點(diǎn)的位置為第2個(gè)主字的位置;
④ 沒有疊加字符的藏字中,若有前加字,其肯定出現(xiàn)在基字之前,若有元音,元音肯定出現(xiàn)在基字后面,后加字肯定出現(xiàn)在元音之后,再后加字出現(xiàn)在后加字后面;
⑤ 有下加字的疊加藏字中,若有元音,元音出現(xiàn)在下加字之后,其次是后加字,再次是再后加字;若沒有元音,后加字出現(xiàn)在下加字之后,其次是再后加字。但后加字也可能被缺省;
⑥ 沒有后加字,就沒有再后加字,也就是說有再后加字,肯定有后加字;
⑦ 有上加字的藏字中,若有前加字,前加字出現(xiàn)在上加字之前;沒有上加字的藏字中,若有前加字,前加字出現(xiàn)在基字之前;
⑧有疊加字肯定有主字,主字?jǐn)?shù)為1或2;
通過藏字結(jié)構(gòu)中元音位置特征對藏字進(jìn)行分割,產(chǎn)生藏字的前段和后段。
第七步:主字?jǐn)?shù)為2時(shí),p=第二個(gè)主字的位置;
第八步:對藏字字符串進(jìn)行分割。將p(包含p的位置上的字符)之前的字符串存入preword中,p之后的字符串存入backword中。
第九步:判斷preword是否存在于集合pretibet中,若不存在,報(bào)錯(cuò),結(jié)束,否則,再繼續(xù)檢查backword是否存在于集合backtibet中,若不存在,報(bào)錯(cuò),結(jié)束。
注:p是整型變量,記錄分段點(diǎn)的位置。
第一步:
(1)分字。按分字點(diǎn)和結(jié)束符號進(jìn)行分字。
(2)預(yù)處理。對各個(gè)字的語法單位進(jìn)行還原。
藏字在計(jì)算機(jī)中實(shí)現(xiàn)檢錯(cuò)時(shí),主要通過分析有無主字和元音來確定分段點(diǎn),分割并檢測藏字。
藏字檢錯(cuò)過程:
第一步:分字和預(yù)處理,計(jì)算字長,若字長>7,報(bào)錯(cuò),否則轉(zhuǎn)下一步;
第二步:判斷藏字中有無主字,若有轉(zhuǎn)第六步,否則轉(zhuǎn)下一步;
第三步:判斷藏字中有無元音,若有,轉(zhuǎn)第五步,否則轉(zhuǎn)下一步;
第四步:判斷藏字長度。若字長>4,報(bào)錯(cuò);若字長=1,報(bào)對;若字長為2,p=1;字長等于3,判斷第1個(gè)字符是否在集合pr中,若是,再判斷第1個(gè)字符和第2個(gè)字符是否為同組,若不是,則第1個(gè)字符是前加字,第2個(gè)字符是基字,p=2,否則,第1個(gè)字符為基字,p=1,轉(zhuǎn)第八步;字長為4,第2個(gè)字符為基字,p=2,轉(zhuǎn)第八步。
第五步:計(jì)算元音的位置t。p=t-1,轉(zhuǎn)第八步;
第六步:判斷有幾個(gè)藏文主字。若有1個(gè)主字,p=主字位置,轉(zhuǎn)第八步,否則轉(zhuǎn)下一步;
第五步:字長為4,元音前的字符的位置為1,則p=1,轉(zhuǎn)第八步。
第九步:經(jīng)判斷,preword在pretibet集合中,lastword在backtibet集合中。所以,符合語法。再回到第二步,檢查下一個(gè)藏字。
實(shí)驗(yàn)時(shí),我們將集合pretibet和lasttibet中的元素分別放入兩個(gè)數(shù)組pretibet和lastibet中,作了排序,檢索時(shí)用二分法,以提高算法性能。
我們選用了一段文字進(jìn)行實(shí)驗(yàn),算法正確地檢索出6個(gè)錯(cuò)誤,并做了標(biāo)記,如下:
當(dāng)前,藏文信息處理技術(shù)落后于漢文信息處理技術(shù),漢文的校對技術(shù)不能直接應(yīng)用于藏文信息處理。本文通過研究藏字的語法和構(gòu)字規(guī)律,提出了一種校對藏字的方法,可有效解決長期困擾藏字校對的困難。該方法可應(yīng)用于語料庫、文字識(shí)別[8]、語音識(shí)別和出版印刷等領(lǐng)域和行業(yè)的研究。
[1] 瑪依熱·依布拉音,米吉提·阿不里米提,艾斯卡爾·艾木都拉.基于最小編輯距離的維語詞語檢錯(cuò)與糾錯(cuò)研究[J].中文信息學(xué)報(bào),2008,22(3):110-114.
[2] 陸玉清,洪宇,陸軍,等.基于上下文的真詞錯(cuò)誤檢查及校對方法[J].中文信息學(xué)報(bào),2011,25(1):85-90.
[3] 張磊,周明,黃昌寧,等.中文文本自動(dòng)校對[J].語言文字應(yīng)用,2001,1:19-26.
[4] 陳笑蓉,秦進(jìn),汪維家,等.中文文本校對技術(shù)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)科學(xué),2003,30(11):53-55.
[5] 張仰森.中文校對系統(tǒng)中糾錯(cuò)知識(shí)庫的構(gòu)造及糾錯(cuò)建議的產(chǎn)生算法[J].中文信息學(xué)報(bào),2001,15(3):33-39.
[6] 于勐,姚天順.一種混合的中文文本校對方法[J].中文信息學(xué)報(bào),1998,12(2):31-36.
[7] 中華人民共和國國家標(biāo)準(zhǔn).信息交換用藏文編碼字符集基本集(GB16 959)[M].中國標(biāo)準(zhǔn)出版社,1997.
[8] 李元祥,劉長松,丁曉青.一種利用校對信息的漢字識(shí)別自適應(yīng)后處理方法[J].中文信息學(xué)報(bào),2001,15(1):46-52.