国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分段的藏字校對算法研究

2013-04-14 07:49安見才讓
中文信息學(xué)報(bào) 2013年2期
關(guān)鍵詞:藏文元音字符

安見才讓

(青海民族大學(xué)計(jì)算機(jī)學(xué)院,青海西寧810007)

1 引言

信息社會(huì)的發(fā)展,使電子書、網(wǎng)上圖書館以及網(wǎng)頁等種類繁多的信息不斷出現(xiàn),供人們使用。這些信息主要是通過鍵盤錄入、掃描等方式輸入到計(jì)算機(jī)的,但是,任何一種方式都無法保證存入的信息準(zhǔn)確無誤。文本校對技術(shù)正是解決準(zhǔn)確地輸入信息的一種專業(yè)性技術(shù)。

國外英文文本校對方面取得了一定的成果,部分成果實(shí)現(xiàn)了產(chǎn)品化。英文的校對分為兩部分,一是針對英語單詞內(nèi)部出現(xiàn)的拼寫錯(cuò)誤[1],主要采用最小編輯距離技術(shù)、相似鍵技術(shù)等六種方法來實(shí)現(xiàn);二是對句子中出現(xiàn)的單詞正確但用法錯(cuò)誤進(jìn)行校正,主要采用自然語言處理和統(tǒng)計(jì)語言模型技術(shù)(SLM)解決。由于漢語和少數(shù)民族語言與英語在語言本身及文本的輸入方式上均存在較大差異,因而漢語或少數(shù)民族語言的文本校對系統(tǒng)所采用的策略和技術(shù)與英文的校對系統(tǒng)有一定的差異?,F(xiàn)普遍采用的技術(shù)有詞切分技術(shù)[2]、最小編輯距離技術(shù)[2]、近似集模糊匹配技術(shù)[3-5]、語法分析及語義分析技術(shù)等[3,6]。國內(nèi)在文本校對方面的研究始于20世紀(jì)90年代初期,但發(fā)展速度較快,其中藏字的主要校對方法采用字典匹配的方法進(jìn)行。本文通過研究藏字的語法和構(gòu)字規(guī)律,提出了一種新的校對方法。

2 藏字語法

藏字是由元音和輔音通過一定的語法規(guī)則組合形成,其語法形式化地描述為:設(shè)B、O、Pr、Back、 FurthBack、Up和Lw分別表示輔音集、元音集、前加字集、后加字集、再后加字集、上加字集和上加字集,則,B={{,,,},{,,,,},{,,,},{,,,},{,,,},{,,,,},{,,,},{,}},輔音共有30個(gè)字母,共8組;O={,,,},共有4個(gè)元音字母;Pr={,,,,},共有5個(gè)字母;Back={,,,,,,,,,},共有10個(gè)字母;FurthBack={,},共有2個(gè)字母;Up={,,},共有3個(gè)字母;Lw={,,,},共有4個(gè)字母。藏字的構(gòu)成結(jié)構(gòu)如圖1所示。

圖1 藏字結(jié)構(gòu)

藏文字母按前加字+上加字+基字+下加字+元音+后加字+再后加字的順序進(jìn)行組合,前加字、上加字、基字、下加字、元音、后加字和再后加字可以省缺,但是,藏字不是前加字集合、上加字集合、基字集合、下加字集合、元音集合、后加字集合和再后加字集合中的各一個(gè)字母的簡單組合,而是需按字母的字性規(guī)范進(jìn)行組合,比較復(fù)雜。若以元音位置為中心,可以把藏字分成兩個(gè)部分:前段pretibet和后段backtibet。前段部分生成規(guī)則如表1所示。

表1 藏字前段生成規(guī)則

續(xù)表

另外,1998年頒布的中國國家標(biāo)準(zhǔn)《信息交換用藏文編碼字符集基本集》(GB16959-1997)只包括了41個(gè)藏文編碼字符(含藏文和梵音藏文),加上其他組合用字符及篇章裝飾或標(biāo)點(diǎn)類符號共計(jì)168個(gè)[7]。藏字的橫向和縱向疊置分別用藏文字母和藏文主字字符組合實(shí)現(xiàn)。所以,同一藏文字母有兩種字符(機(jī)內(nèi)):藏文字母和藏文主字,如圖2所示。

圖2 藏文主字和藏文字母

將藏字分為兩類:無疊加字和有疊加字,每類又分為兩類:有元音和無元音。

3 Unicode編碼的藏字結(jié)構(gòu)特征

以Unicode為編碼的藏字以有無元音與主字以及主字的個(gè)數(shù)為對象,對藏字結(jié)構(gòu)進(jìn)行分析和研究,得到如表2所示結(jié)構(gòu)信息。

表2 藏字結(jié)構(gòu)信息

續(xù)表

續(xù)表

對表2中藏字結(jié)構(gòu)進(jìn)行分析,得到合法藏字結(jié)構(gòu)及分段點(diǎn)位置的特征如下:

① 藏字中若有元音,則元音位置為分段點(diǎn);

②無疊加字符和元音的藏字中:

若字長為1,該字的分段點(diǎn)位置為1;若字長為2,第一個(gè)字符是基字,第二個(gè)字符是后加字,分段點(diǎn)位置為1;字長為4,第二個(gè)字符是基字,分段點(diǎn)位置為2;

若字長等于3,第一、二、三位字符既滿足作前加字、基字、后加字的語法條件,又滿足作基字、后加字、再后加字的條件,這時(shí)要判斷第一個(gè)和第二個(gè)字符是否是同組,若是同組,則該藏字按基字+后加字+再后加字處理,分段點(diǎn)位置為1,否則按前加字+基字+后加字處理,分段點(diǎn)位置為2;

③有疊加字符而無元音的藏字中:

含有2個(gè)主字,第一個(gè)主字為基字,第二個(gè)主字為下加字,基字之前的字符為上加字,分段點(diǎn)的位置為第2個(gè)主字的位置;

④ 沒有疊加字符的藏字中,若有前加字,其肯定出現(xiàn)在基字之前,若有元音,元音肯定出現(xiàn)在基字后面,后加字肯定出現(xiàn)在元音之后,再后加字出現(xiàn)在后加字后面;

⑤ 有下加字的疊加藏字中,若有元音,元音出現(xiàn)在下加字之后,其次是后加字,再次是再后加字;若沒有元音,后加字出現(xiàn)在下加字之后,其次是再后加字。但后加字也可能被缺省;

⑥ 沒有后加字,就沒有再后加字,也就是說有再后加字,肯定有后加字;

⑦ 有上加字的藏字中,若有前加字,前加字出現(xiàn)在上加字之前;沒有上加字的藏字中,若有前加字,前加字出現(xiàn)在基字之前;

⑧有疊加字肯定有主字,主字?jǐn)?shù)為1或2;

通過藏字結(jié)構(gòu)中元音位置特征對藏字進(jìn)行分割,產(chǎn)生藏字的前段和后段。

4 藏字檢錯(cuò)算法描述

第七步:主字?jǐn)?shù)為2時(shí),p=第二個(gè)主字的位置;

第八步:對藏字字符串進(jìn)行分割。將p(包含p的位置上的字符)之前的字符串存入preword中,p之后的字符串存入backword中。

第九步:判斷preword是否存在于集合pretibet中,若不存在,報(bào)錯(cuò),結(jié)束,否則,再繼續(xù)檢查backword是否存在于集合backtibet中,若不存在,報(bào)錯(cuò),結(jié)束。

注:p是整型變量,記錄分段點(diǎn)的位置。

第一步:

(1)分字。按分字點(diǎn)和結(jié)束符號進(jìn)行分字。

(2)預(yù)處理。對各個(gè)字的語法單位進(jìn)行還原。

藏字在計(jì)算機(jī)中實(shí)現(xiàn)檢錯(cuò)時(shí),主要通過分析有無主字和元音來確定分段點(diǎn),分割并檢測藏字。

藏字檢錯(cuò)過程:

第一步:分字和預(yù)處理,計(jì)算字長,若字長>7,報(bào)錯(cuò),否則轉(zhuǎn)下一步;

第二步:判斷藏字中有無主字,若有轉(zhuǎn)第六步,否則轉(zhuǎn)下一步;

第三步:判斷藏字中有無元音,若有,轉(zhuǎn)第五步,否則轉(zhuǎn)下一步;

第四步:判斷藏字長度。若字長>4,報(bào)錯(cuò);若字長=1,報(bào)對;若字長為2,p=1;字長等于3,判斷第1個(gè)字符是否在集合pr中,若是,再判斷第1個(gè)字符和第2個(gè)字符是否為同組,若不是,則第1個(gè)字符是前加字,第2個(gè)字符是基字,p=2,否則,第1個(gè)字符為基字,p=1,轉(zhuǎn)第八步;字長為4,第2個(gè)字符為基字,p=2,轉(zhuǎn)第八步。

第五步:計(jì)算元音的位置t。p=t-1,轉(zhuǎn)第八步;

第六步:判斷有幾個(gè)藏文主字。若有1個(gè)主字,p=主字位置,轉(zhuǎn)第八步,否則轉(zhuǎn)下一步;

第五步:字長為4,元音前的字符的位置為1,則p=1,轉(zhuǎn)第八步。

第九步:經(jīng)判斷,preword在pretibet集合中,lastword在backtibet集合中。所以,符合語法。再回到第二步,檢查下一個(gè)藏字。

5 實(shí)驗(yàn)

實(shí)驗(yàn)時(shí),我們將集合pretibet和lasttibet中的元素分別放入兩個(gè)數(shù)組pretibet和lastibet中,作了排序,檢索時(shí)用二分法,以提高算法性能。

我們選用了一段文字進(jìn)行實(shí)驗(yàn),算法正確地檢索出6個(gè)錯(cuò)誤,并做了標(biāo)記,如下:

6 結(jié)束語

當(dāng)前,藏文信息處理技術(shù)落后于漢文信息處理技術(shù),漢文的校對技術(shù)不能直接應(yīng)用于藏文信息處理。本文通過研究藏字的語法和構(gòu)字規(guī)律,提出了一種校對藏字的方法,可有效解決長期困擾藏字校對的困難。該方法可應(yīng)用于語料庫、文字識(shí)別[8]、語音識(shí)別和出版印刷等領(lǐng)域和行業(yè)的研究。

[1] 瑪依熱·依布拉音,米吉提·阿不里米提,艾斯卡爾·艾木都拉.基于最小編輯距離的維語詞語檢錯(cuò)與糾錯(cuò)研究[J].中文信息學(xué)報(bào),2008,22(3):110-114.

[2] 陸玉清,洪宇,陸軍,等.基于上下文的真詞錯(cuò)誤檢查及校對方法[J].中文信息學(xué)報(bào),2011,25(1):85-90.

[3] 張磊,周明,黃昌寧,等.中文文本自動(dòng)校對[J].語言文字應(yīng)用,2001,1:19-26.

[4] 陳笑蓉,秦進(jìn),汪維家,等.中文文本校對技術(shù)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)科學(xué),2003,30(11):53-55.

[5] 張仰森.中文校對系統(tǒng)中糾錯(cuò)知識(shí)庫的構(gòu)造及糾錯(cuò)建議的產(chǎn)生算法[J].中文信息學(xué)報(bào),2001,15(3):33-39.

[6] 于勐,姚天順.一種混合的中文文本校對方法[J].中文信息學(xué)報(bào),1998,12(2):31-36.

[7] 中華人民共和國國家標(biāo)準(zhǔn).信息交換用藏文編碼字符集基本集(GB16 959)[M].中國標(biāo)準(zhǔn)出版社,1997.

[8] 李元祥,劉長松,丁曉青.一種利用校對信息的漢字識(shí)別自適應(yīng)后處理方法[J].中文信息學(xué)報(bào),2001,15(1):46-52.

猜你喜歡
藏文元音字符
元音字母和元音字母組合的拼讀規(guī)則
敦煌本藏文算書九九表再探
元音字母和元音字母組合的拼讀規(guī)則
論高級用字階段漢字系統(tǒng)選擇字符的幾個(gè)原則
西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
字符代表幾
一種USB接口字符液晶控制器設(shè)計(jì)
圖片輕松變身ASCⅡ藝術(shù)畫
黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
基于條件隨機(jī)場的藏文人名識(shí)別研究
恩平市| 太和县| 嘉峪关市| 尚义县| 鄂托克前旗| 涡阳县| 柞水县| 宁波市| 临漳县| 凯里市| 怀来县| 株洲县| 敦煌市| 宁陵县| 都安| 顺平县| 铜山县| 隆回县| 那坡县| 新蔡县| 秭归县| 自治县| 永丰县| 海伦市| 柞水县| 宜宾市| 平顶山市| 金湖县| 大埔区| 威远县| 诸暨市| 日喀则市| 齐河县| 苗栗市| 清丰县| 潼关县| 固镇县| 博白县| 绥江县| 仁布县| 富蕴县|