国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

藏文字頻統(tǒng)計軟件的設(shè)計與實現(xiàn)

2016-04-11 15:00:37李苗苗高定國普次仁扎西倉覺
電腦知識與技術(shù) 2016年4期
關(guān)鍵詞:藏文統(tǒng)計

李苗苗+高定國+普次仁+扎西倉覺

摘要:藏字的頻度統(tǒng)計是藏文信息處理技術(shù)領(lǐng)域的一項基礎(chǔ)研究,對藏文拼寫檢查、字典建立等應(yīng)用有著重要的意義。該文根據(jù)藏文音節(jié)的特性,結(jié)合Unicode藏文基本集的編碼特征,提出了計算機(jī)統(tǒng)計藏文字頻的方法,設(shè)計實現(xiàn)了藏文字頻統(tǒng)計軟件,并在藏文樣本語料中進(jìn)行測試,證明了方法的正確性。

關(guān)鍵詞:藏文;字頻;統(tǒng)計

中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)04-0179-03

The Design and Implementation of Tibetan Word Frequency Statistics Software

LI Miao-miao, GAO Ding-guo, PU Tsering, TRASHI CangJue

(Tibetan Information Technology Engineering Research Center, Tibetan University, Lhasa 850000, China)

Abstract: Word frequency statistics,which has important significance to the Tibetan spell checking, Tibetan dictionary building and other suchlike applications , is a basic research in the field of Tibetan information processing technology . According to the characteristics of Tibetan syllables, combined with the features of encoding of Unicode Tibetan basic set, we proposed a method to statistic Tibetan word with computer ,and implemented the software ,which has been tested in a sample corpus, and achieved satisfactory result.

Key words: Tibetan; word frequency; statistics

1 背景

藏文字符是一種拼音性文種,由輔音和元音構(gòu)成藏文的一個音節(jié)。藏文音節(jié)以一個輔音字母為核心,此輔音字母為基礎(chǔ)在其前后或上下疊加其他輔音或元音構(gòu)成一個完整的藏文音節(jié)(簡稱為藏字)[1]。

藏文字頻的統(tǒng)計對研究藏文信息處理技術(shù)有著重要的意義,據(jù)統(tǒng)計,符合現(xiàn)代藏文書寫文法規(guī)則的藏字共有19380個[1] ,這是靜態(tài)統(tǒng)計的結(jié)果,包含了所有符合藏文文法書寫規(guī)則的藏字,但實際上并不都具有實際的意義,在藏文文本中也不會用到?jīng)]有意義的藏字。為了更好的統(tǒng)計實際應(yīng)用的現(xiàn)代藏字的數(shù)量,就要借助于大規(guī)模語料進(jìn)行動態(tài)統(tǒng)計。

本文在研究藏文文本結(jié)構(gòu)的基礎(chǔ)上,整理出藏文音節(jié)的分割符號,以這些符號為統(tǒng)計藏文音節(jié)的分割點,提出了統(tǒng)計藏文音節(jié)的方法,并用軟件實現(xiàn)了該方法,在藏文樣本語料中進(jìn)行測試,證明了方法的正確性。

2 藏字字頻統(tǒng)計的方法

藏文是一種拼音型文字,一般一個音節(jié)表示一個字。在文本中,藏文的音節(jié)主要以‘□(0x0F0B)、‘□(0x0F0D)和一些特殊符號分隔開[8],我們在統(tǒng)計時,逐個從文本中讀取字符,并將讀取的字符存入字符串中,當(dāng)讀取的字符為0x0F0B或0x0F0D或其他特殊符號(比如數(shù)字)等時,表示一個音節(jié)讀取結(jié)束,此時字符串中保存的就是當(dāng)前讀取到的音節(jié)。按照該方法掃描語料,每次取得一個音節(jié),就將該音節(jié)的頻度加1,最終就可以得到一個藏文音節(jié)的頻度統(tǒng)計結(jié)果。

參照Unicode藏文字符編碼集[4-5],共整理了91個藏文的分隔符、數(shù)字、特殊符號。表1是藏文的38個音節(jié)分隔符、標(biāo)點符號,表2是藏文的33個特殊符號和特殊字符,表3是藏文的20個數(shù)字符號。這些符號出現(xiàn)在文本中時,雖不是直接的隔字符號,但在文本中仍起到分隔音節(jié)的作用,因此在軟件設(shè)計中也被當(dāng)作音節(jié)分隔符進(jìn)行處理。

3 藏文字頻統(tǒng)計軟件的設(shè)計

藏文字頻統(tǒng)計軟件按其功能分為輸入、統(tǒng)計、輸出三個模塊,如圖1所示。

3.1 輸入模塊

輸入模塊實現(xiàn)的功能是:由用戶通過直觀的界面選擇待統(tǒng)計的藏文語料的存放路徑和統(tǒng)計結(jié)果輸出的路徑。

輸入模塊的流程圖如圖2所示。

3.2 字頻統(tǒng)計模塊

3.2.1 字頻統(tǒng)計的方法

為了提高統(tǒng)計過程中的存取效率,采用散列表存儲音節(jié)及其頻度,音節(jié)作為關(guān)鍵字,頻度作為值。散列表是根據(jù)關(guān)鍵碼值(Key value)而直接進(jìn)行訪問的數(shù)據(jù)結(jié)構(gòu),它通過把關(guān)鍵碼值映射到表中一個位置來訪問記錄,從而加快查找的速度[2]。

統(tǒng)計時,每讀取到一個完整的音節(jié),就將其存入散列表中。存入的方法如下[7]:

1)如果散列表中已存在以該音節(jié)為關(guān)鍵字的項,將該關(guān)鍵字對應(yīng)的值(頻度)加1;

2)如果散列表中不存在以該音節(jié)為關(guān)鍵字的項,則新建一個項,關(guān)鍵字為該音節(jié),值(頻度)為1。

針對非藏文字符、藏文特殊字符的處理:

1)當(dāng)前字符為非藏文字符,若字符串非空,首先將字符串中的音節(jié)頻度加1,然后跳過該字符,讀取下一個字符;

2)當(dāng)前字符為藏文分隔符、數(shù)字、特殊符號,若字符串非空,首先將字符串中的音節(jié)頻度加1,然后,將當(dāng)前讀取的特殊符號的頻度加1(這樣,統(tǒng)計的結(jié)果中包括了對分隔符、數(shù)字、特殊符號的統(tǒng)計),再讀取下一個字符。

字頻統(tǒng)計模塊的流程圖如圖3所示。

3.2.2 字頻統(tǒng)計主要偽代碼

字頻統(tǒng)計過程中最關(guān)鍵的部分是對非藏文編碼、藏文分隔符、特殊字符的處理,該部分偽代碼如下:

STATISTICS()

1 while ch>0

2 String s = null

3 if (ch>0x0FFF)||(ch<0x0F00)

4 //當(dāng)前字符為非藏文編碼

5 read next char

6 else if (ch is punc)

7 //ch為藏文的分隔符、數(shù)字、特殊符號

8 s+=ch;

9 read next char

10 else

11 s+=ch

12 while (ch<0x0FFF)&&(ch>0x0F00)&&(ch is not punc)

13 //當(dāng)前字符不是非藏文編碼、不是分隔符、數(shù)字、特殊符號

14 s+=ch

15 read next char

16 if s!=null

17 s.frequency ++

18 //將s這個音節(jié)的頻度加1

3.3 輸出模塊

輸出模塊實現(xiàn)的功能:將統(tǒng)計的結(jié)果輸出到文本文檔中。由于采用的是散列表的數(shù)據(jù)結(jié)構(gòu),輸出時,將散列表中每一項的關(guān)鍵字和值依次打印到指定的文檔中即可。

輸出模塊的流程圖如圖4所示。

4 結(jié)束語

藏文字頻統(tǒng)計軟件在3000個文本上進(jìn)行測試,共統(tǒng)計出12848個藏字,其中對數(shù)字、特殊符號、黏著詞、錯別字等進(jìn)行初步處理后,得出藏文常用字共8132個,經(jīng)測試證明本文提出的方法正確可行。

該軟件尚不能有效的識別藏文中的格助詞、黏著詞,對于這類詞,可以通過“統(tǒng)計+規(guī)則匹配”的方式進(jìn)行識別[3,6],下一步將在該功能上進(jìn)行完善。

參考文獻(xiàn):

[1] 高定國, 龔育昌. 現(xiàn)代藏字全集的屬性研究[J]. 中文信息學(xué)報, 2005(1).

[2] 高文利, 朱麗. 哈希表在計算語言學(xué)中的運用[J]. 現(xiàn)代語文, 2009(4).

[3] 關(guān)白, 才科扎西. 現(xiàn)代藏文音節(jié)字自動校對研究[J]. 計算機(jī)工程與應(yīng)用, 2012(29).

[4] The Unicode,Inc.The Unicode Standard,Version 8.0.[DB/OL]. (2015-06-17).http://www.unicode.org.

[5] 高定國, 珠杰. 藏文信息處理的原理與應(yīng)用[M]. 成都: 西南交通大學(xué)出版社, 2013: 65-82.

[6] 才智杰. 藏文自動分詞系統(tǒng)中緊縮詞的識別[J]. 中文信息學(xué)報, 2009(1).

[7] 李蓉蓉, 李鳴. 計算機(jī)信息處理的字表建立和字頻統(tǒng)計[J]. 南京冶金學(xué)院學(xué)報, 2005(1).

[8] 扎西次仁. 《中華大藏經(jīng).丹珠爾》藏文對勘本字頻統(tǒng)計分析[J]. 中國藏學(xué), 1997(2).

猜你喜歡
藏文統(tǒng)計
敦煌本藏文算書九九表再探
西藏研究(2021年1期)2021-06-09 08:09:38
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
布達(dá)拉(2020年3期)2020-04-13 10:00:07
黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
西夏學(xué)(2019年1期)2019-02-10 06:22:34
基于條件隨機(jī)場的藏文人名識別研究
藏文音節(jié)字的頻次統(tǒng)計
2008—2015我國健美操科研論文的統(tǒng)計與分析
人間(2016年27期)2016-11-11 17:33:19
山東省交通運輸投資計劃管理信息系統(tǒng)的設(shè)計
我國居民收入與消費關(guān)系的統(tǒng)計分析
市場經(jīng)濟(jì)背景下的會計統(tǒng)計發(fā)展探究
商(2016年27期)2016-10-17 05:50:19
現(xiàn)代語境下的藏文報刊
新聞傳播(2016年17期)2016-07-19 10:12:05
从江县| 汽车| 交城县| 兴文县| 昌都县| 射洪县| 平阴县| 汤原县| 台东市| 海南省| 商南县| 闽侯县| 富民县| 平湖市| 台东市| 敖汉旗| 潍坊市| 黎平县| 富民县| 花莲市| 灵武市| 昌平区| 衡阳市| 增城市| 广宁县| 县级市| 安徽省| 鄂伦春自治旗| 栾川县| 武宁县| 通州市| 昌邑市| 曲松县| 商水县| 苏尼特右旗| 东光县| 吴忠市| 崇礼县| 泰宁县| 道孚县| 敦煌市|