国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

現(xiàn)代藏文中詞的自動(dòng)校對(duì)方法研究

2016-08-18 20:09劉芳關(guān)白
電腦知識(shí)與技術(shù) 2016年19期

劉芳 關(guān)白

摘要:藏文文本的自動(dòng)校對(duì)是藏文信息處理的主要應(yīng)用領(lǐng)域之一,現(xiàn)代藏文詞的自動(dòng)校對(duì)是其中重要的關(guān)鍵技術(shù)之一。本文根據(jù)藏文詞錯(cuò)誤的類型,分別提出了對(duì)應(yīng)的校對(duì)方法。對(duì)非詞錯(cuò)誤,采用分詞切分和散串匹配處理方法。對(duì)于真詞錯(cuò)誤,主要檢查詞的二元接續(xù)關(guān)系和詞性鄰接關(guān)系,均取得了較好的校對(duì)效果。

關(guān)鍵詞:藏文文本;自動(dòng)校對(duì);非詞;真詞

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)19-0200-02

Research for Modern Tibetan Word Automatic Proofreading Method

LIU Fang, GUAN Bai

(Tibetan Information Technology Research Center in Tibet University, Lasa 850000, China)

Abstract Tibetan text automatic proofreading is one of the main application fields of Tibetan information processing. Modern Tibetan word automatic proofreading is one of the important key technologies. This paper makes proofreading methods based on different types of Tibetan word error. Non word error proofreading could be done by word segmentation and string matching processing. True word error proofreading could be done by checking the binary relationship of words connection and adjacency relationship of words. Results of both proofreading methods are good.

Key words: Tibetan Text, Automatic Proofreading, Non Word, True Word

隨著藏區(qū)經(jīng)濟(jì)和網(wǎng)絡(luò)技術(shù)的發(fā)展,藏文信息處理技術(shù)得到了很大的發(fā)展,藏民族文化的傳播和發(fā)展也更迅速、手段更現(xiàn)代化。

文本自動(dòng)校對(duì)是較復(fù)雜的語言處理過程,也是自然語言處理的重要研究領(lǐng)域之一。目前,對(duì)于英語、漢語的文本自動(dòng)校對(duì)方法很多,所取得的研究成果也應(yīng)用在了較多的領(lǐng)域。從目前的研究現(xiàn)狀來看,針對(duì)藏文文本的自動(dòng)校對(duì)技術(shù)的研究文獻(xiàn)還不太多,對(duì)藏文化的快速傳播和發(fā)展帶來了一定的影響。

藏文文本的自動(dòng)校對(duì)技術(shù)除了應(yīng)用在藏文字的手寫識(shí)別和語音識(shí)別等方面,在藏文拼寫檢查、自動(dòng)分詞、語料庫制作等領(lǐng)域也有著很廣泛的應(yīng)用[1]。因此,藏文詞的自動(dòng)校對(duì)技術(shù)研究有很高的現(xiàn)實(shí)意義和實(shí)用價(jià)值。

目前,藏文文本的校對(duì)主要是基于語法、語義分析的方法[2]。該方法需要建立大量語料的詞庫、字符續(xù)接關(guān)系表、語法規(guī)則庫等。校對(duì)過程中需要將原始文本與詞庫和各種語法表進(jìn)行比對(duì),然后將疑似錯(cuò)誤的地方標(biāo)注出來。

本文主要針對(duì)現(xiàn)代藏文中出現(xiàn)的常見詞錯(cuò)誤,分別對(duì)非詞和真詞的偵錯(cuò)和糾錯(cuò)提出了自動(dòng)校對(duì)的方法。

1現(xiàn)代藏文詞的常見錯(cuò)誤類型

1.1 非詞錯(cuò)誤

1.2 真詞錯(cuò)誤

2 現(xiàn)代藏文詞校對(duì)的功能設(shè)計(jì)

要對(duì)詞進(jìn)行校對(duì)首先要對(duì)待校文本進(jìn)行分詞處理,一個(gè)好的分詞算法對(duì)文本校對(duì)的最終結(jié)果起著舉足輕重的作用,分詞的正確率的高低直接影響到校對(duì)質(zhì)量的高低。

如上圖所以,我們采用BCCF算法對(duì)待校文本進(jìn)行分詞。BCCF算法首先用單垂線或雙垂線()、空格、換行符等來斷句,即將一個(gè)單垂符或雙垂符前面的字符串看作是一個(gè)句子,之后利用句子內(nèi)的格助詞將句切分成塊兒,然后在用分詞詞表對(duì)塊兒進(jìn)行雙向匹配,得到分詞后的文本,同時(shí)對(duì)所得分詞單位進(jìn)行標(biāo)注,以備之后的依存關(guān)系分析。

3 非詞錯(cuò)誤自動(dòng)校對(duì)

由于此前已完成的音節(jié)字的校對(duì),因此此時(shí)的文本中不會(huì)再有非詞音節(jié)字。但在一些文本中,某一些真詞音節(jié)字組合在一起時(shí),形成的藏文詞并非現(xiàn)代藏文中的真詞,而是一個(gè)非詞錯(cuò)誤。非詞錯(cuò)誤會(huì)使我們?cè)趯?duì)待校文本進(jìn)行自動(dòng)分詞時(shí),切分后的文本中連續(xù)出現(xiàn)較多的單字詞或無法成詞的多個(gè)音節(jié)字,也就是所謂的散串。因此,散串的定位與處理便成為非詞錯(cuò)誤偵錯(cuò)的關(guān)鍵。

對(duì)非詞錯(cuò)誤將采用的校對(duì)方案如下:

1)對(duì)待校對(duì)藏文文本進(jìn)行分詞,得到分詞結(jié)果S=W1W2…Wn;

2)根據(jù)分詞結(jié)果,定位不成詞的音節(jié)字串或散串Wi;

3)將散串與詞的混淆集進(jìn)行最大逆向匹配,查詢是否有與WiWi+1…Wi+m字串完全匹配的,如果有,這個(gè)散串是錯(cuò)誤的,從混淆集中得到與其對(duì)應(yīng)的正確的詞;

4)若匹配不成功則采用最小編輯距離法,對(duì)該散串進(jìn)行糾錯(cuò)。

4 真詞錯(cuò)誤自動(dòng)校對(duì)

真詞錯(cuò)誤指的是現(xiàn)代藏文中有這樣的詞,但不是當(dāng)前語境中所需要的詞,它會(huì)導(dǎo)致該詞與上下文搭配不當(dāng),因此也把它稱之為上下文相關(guān)的文本錯(cuò)誤[4]。

對(duì)于真詞錯(cuò)誤我們將采用詞的二元接續(xù)關(guān)系和詞性鄰接關(guān)系檢查進(jìn)行偵錯(cuò)。

詞的二元接續(xù)關(guān)系是指有前后順序的詞之間的相鄰關(guān)系[5]。二元接續(xù)關(guān)系是指在考察詞W1W2…Wi-1WiWi+1…Wn中Wi和相鄰詞間的相鄰關(guān)系時(shí),根據(jù)語料庫語言學(xué)中的二元模型理論,只須考察詞Wi-1和Wi以及Wi和Wi+1之間的關(guān)系即可[5]。經(jīng)過對(duì)大規(guī)模語料的分析處理,如果發(fā)現(xiàn)從Wi-1到Wi的轉(zhuǎn)移概率P(Wi/Wi-1)滿足一定的閾值限制,我們即認(rèn)為Wi-1和Wi接續(xù)[4]。在自動(dòng)查錯(cuò)過程中,若要考察Wi是否出錯(cuò),首先檢查Wi-1和Wi是否接續(xù),如果不接續(xù),這時(shí)再檢查Wi和Wi+1的接續(xù)關(guān)系(即檢查從Wi到Wi+1的轉(zhuǎn)移概率P(Wi+1/Wi))[6],如果Wi和Wi+1也不接續(xù),則判定的詞Wi出錯(cuò)。

完成偵錯(cuò)后,便采用詞的混淆集對(duì)其進(jìn)行糾錯(cuò),若該音節(jié)字無法通過混淆集糾錯(cuò),則采用最小編輯距離法為該非詞錯(cuò)誤找可能的正確的候選詞,并對(duì)這些候選進(jìn)行排序,糾錯(cuò)時(shí)以第一候選音節(jié)字加以改正。

5 現(xiàn)代藏文詞的自動(dòng)校對(duì)實(shí)例說明

6 結(jié)束語

現(xiàn)代藏文詞的自動(dòng)校對(duì)是在完成藏文音節(jié)字的自動(dòng)校對(duì)以后進(jìn)行的。本文根據(jù)現(xiàn)代藏文詞中的非詞和真詞分別提出了對(duì)應(yīng)的自動(dòng)校對(duì)方法??偨Y(jié)來看,在現(xiàn)代藏文詞的自動(dòng)校對(duì)中,針對(duì)其錯(cuò)誤類型需要建立專門的字詞混淆集,偵測(cè)到疑似錯(cuò)誤的詞時(shí),首先采用此混淆集對(duì)其進(jìn)行糾錯(cuò)。無法用混淆集對(duì)其進(jìn)行糾錯(cuò)的則采用最小編輯距離法對(duì)其進(jìn)行糾錯(cuò)。

參考文獻(xiàn):

[1] 關(guān)白,才科扎西.現(xiàn)代藏文音節(jié)字自動(dòng)校對(duì)研究[J].計(jì)算機(jī)工程與應(yīng)用,2012(29):151-156.

[2] 才讓卓瑪,才智杰.藏文文本自動(dòng)校對(duì)系統(tǒng)開發(fā)研究[J].西北民族大學(xué)學(xué)報(bào):自然科學(xué)版,2009(1):25-28.

[3] 珠杰,李天瑞,劉勝久.藏文文本自動(dòng)校對(duì)方法及系統(tǒng)設(shè)計(jì)[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2014(1):142-148.

[4] 普布旦增,關(guān)白.基于統(tǒng)計(jì)的藏文音節(jié)字校對(duì)系統(tǒng)開發(fā)研究[J].西藏大學(xué)學(xué)報(bào):自然科學(xué)版,2015(1):74-78.

[5] 張仰森,丁冰青.基于二元接續(xù)關(guān)系檢查的字詞級(jí)自動(dòng)查錯(cuò)方法[J].中文信息學(xué)報(bào),2001(3):36-43.

[6] 于志恒.基于筆形相似的文本校對(duì)算法及其接口原型系統(tǒng)的研究[D].東北師范大學(xué),2007.

404 Not Found

404 Not Found


nginx
蚌埠市| 固始县| 云浮市| 建阳市| 静海县| 平乐县| 辽阳市| 广安市| 崇礼县| 涟源市| 容城县| 西吉县| 汪清县| 中牟县| 眉山市| 望都县| 双鸭山市| 攀枝花市| 大荔县| 兰坪| 斗六市| 礼泉县| 海口市| 咸丰县| 鹤岗市| 明溪县| 勃利县| 且末县| 甘肃省| 兰考县| 喀喇| 郸城县| 尚义县| 谷城县| 曲松县| 襄垣县| 板桥市| 逊克县| 根河市| 神池县| 佳木斯市|