国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

藏文音節(jié)規(guī)則庫的建立與應(yīng)用分析

2013-04-23 13:02格桑多吉扎西加高紅梅
中文信息學(xué)報 2013年2期
關(guān)鍵詞:藏文元音字符

珠 杰, 歐 珠, 格桑多吉, 扎西加, 高紅梅

(1. 西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 610031;2. 西藏大學(xué) 工學(xué)院 計算機科學(xué)與技術(shù)系,西藏 拉薩 850000)

1 前言

隨著現(xiàn)代信息技術(shù)的發(fā)展和互連網(wǎng)的普及,藏文信息處理技術(shù)有了較快的進步。從藏文的屬性統(tǒng)計工作開始[1],許多專家通過幾十年的努力,從多格局編碼的狀況[2]到統(tǒng)一編碼的時代[3],從多鍵盤布局的設(shè)計到統(tǒng)一鍵盤布局的出臺[4],解決了藏文在計算機中的輸入、輸出,并在現(xiàn)代互聯(lián)網(wǎng)上實現(xiàn)了藏文信息的共享。現(xiàn)在不少高校和科研機構(gòu),在前人研究的基礎(chǔ)上不斷探索,開始在藏文語音識別[5]、文字識別[6-7]、分詞、詞類標記[8]、機器翻譯[9]等領(lǐng)域著手研究,并取得了一些研究進展。

隨著藏文信息處理技術(shù)的進一步發(fā)展,藏文文本處理成為藏語自然語言處理的研究內(nèi)容。藏文音節(jié)作為文本組成的重要成分,對其分析是一個基礎(chǔ)性工作。根據(jù)文獻[10]所述,從書面藏文的信源屬性來看,藏文文本中的音節(jié)有72%的冗余度,這說明3/4的藏文字母是保證依據(jù)語法規(guī)則來組合藏文音節(jié)的,只有28%是可自由選擇的[10]。根據(jù)此特點,本文以“預(yù)組合”的形式建立一個規(guī)則庫,并分析了在藏文信息處理研究領(lǐng)域中應(yīng)用的可能性。

本文的結(jié)構(gòu)如下: 第2節(jié)介紹了藏文音節(jié)的結(jié)構(gòu);第3節(jié)介紹了藏文音節(jié)規(guī)則庫的建設(shè)原則、規(guī)則庫建設(shè)、組合情況統(tǒng)計、該組合音節(jié)的頻率統(tǒng)計和歧義規(guī)則的處理內(nèi)容;第4節(jié)介紹了藏文音節(jié)規(guī)則庫的應(yīng)用范圍,包括自動拼寫藏文音節(jié)、拼寫檢查、藏文排序和信息提取等領(lǐng)域中的應(yīng)用;第5節(jié)是結(jié)論與展望。

2 藏文的結(jié)構(gòu)

藏文音節(jié)結(jié)構(gòu)是以基字為核心既有橫向拼寫又有縱向拼寫,前加字、基字、后加字、再后加字是橫向拼寫;上加字、基字、下加字和元音符是縱向拼寫。藏文音節(jié)結(jié)構(gòu)十分復(fù)雜,字符在音節(jié)中的特定位置可以稱為“構(gòu)造位”,根據(jù)藏文的文法,各個構(gòu)造位上出現(xiàn)的字符其性質(zhì)與數(shù)量均有一定的限制,相互之間也形成一種約束關(guān)系。

不包括梵音撰寫藏文,藏文音節(jié)結(jié)構(gòu)中的構(gòu)造位共有 7 個,例如圖1所示。

圖1 藏文音節(jié)基本結(jié)構(gòu)

每個構(gòu)造位在藏文字中的表示為: 1是前加位,2是上加位,3是基字位,4是下加位,5是元音位,6是后加位,7是再后加位,分別有前加字、上加字、基字、下加字、元音、后加字、再后加字來表示,在字中的位置如圖2所示。

圖2 構(gòu)造位

定義1: 構(gòu)造位上的字符稱為構(gòu)件,根據(jù)不同位置分別稱為前加字、上加字、基字、下加字、元音、后加字和再后加字。

3 藏文規(guī)則庫的建立

3.1 規(guī)則庫建立原則

首先,根據(jù)藏語的語音理論體系,藏語語音可以分為元音和輔音。藏文的語音特性中,對于30個輔音字母進行了字性分類,分為陽性、中性、陰性3種,其中陰性又分為準陰性、極陰性、純陰性3種,共計5種字性。輔音字母中提取出來的前加字、后加字構(gòu)件又進行了上述5種的分類。根據(jù)每個構(gòu)件的發(fā)音特性,字母組合上有很多限制,以這些限制條件為依據(jù),建立符合文法的藏文規(guī)則,本文主要依據(jù)前加字與基字、上下字與基字、疊加字符與前加字之間的組合關(guān)系來形成固定的字符串,建立藏文的規(guī)則庫。

其次,3個上加字和4個下加字與基字組合上,有它自身的組合規(guī)律,根據(jù)這些規(guī)律建立規(guī)則庫。

最后,選擇30個輔音字母和10個藏文數(shù)字作為規(guī)則庫的內(nèi)容之一。4個元音符號、10個后加字、2個再后加字作為動態(tài)組合的成分。

3.2 藏文規(guī)則庫

定義3: 根據(jù)藏文的組合關(guān)系能夠構(gòu)成一個音節(jié)的稱為音節(jié)字符。

定義4: 藏文30個字符為輔音字符。

定義5: 藏文數(shù)字符號為數(shù)字字符。

定義6: 藏文中的特殊符號為特殊字符。

定義7: 根據(jù)藏文的組合關(guān)系能夠構(gòu)成組合字符串,但不構(gòu)成一個音節(jié)的稱為規(guī)則字符。

根據(jù)規(guī)則庫建立的原則和“規(guī)則”的頻率統(tǒng)計,建立了規(guī)則表。規(guī)則表按藏文字母、上加字與基字組合、基字與下加字組合、上加字與基字與下加字組合、前加字與基字組合的分類方式建立了1到17個規(guī)則表,如表1至17所示。表的第一列為每個規(guī)則序列,第二列為藏文音節(jié)規(guī)則,第三列為規(guī)則組合形成的音節(jié)個數(shù),第四列為每個規(guī)則的統(tǒng)計頻率。在3.3節(jié)中介紹頻率統(tǒng)計的過程。

3.3 頻率和組合統(tǒng)計

為了得到藏文規(guī)則庫中字符的頻率統(tǒng)計,參考《藏漢大詞典》, 統(tǒng)計了每一個規(guī)則有多少種組合形式,該組合形式就是規(guī)則構(gòu)成的藏文音節(jié)個數(shù);參考《現(xiàn)代藏文頻率詞典》,統(tǒng)計每個規(guī)則組合形成的音節(jié)頻率,是規(guī)則庫中頻率數(shù)據(jù)來源的主要依據(jù)。

表1 輔音字母規(guī)則表

表2 高頻符號規(guī)則表

表3 元音字母規(guī)則表

表4 上加字規(guī)則表之“”

續(xù)表

表5 上加字規(guī)則表之“”

表6 上加字規(guī)則表之“”

表7 下加字規(guī)則表之“”

表8 下加字規(guī)則表之“”

表9 下加字規(guī)則表之“”

表10 下加字規(guī)則表之“”

續(xù)表

表11 前加字“”匹配規(guī)則表

表12 前加字“”匹配規(guī)則表

續(xù)表

表13 前加字“”匹配規(guī)則表

表13 前加字“”匹配規(guī)則表

序號字符音節(jié)數(shù)頻率/‰1232.44912120.338713190.73566440.0542570.386346241.08387720.203228310.96199960.0948510120.528391160.0948512130.772241310.1354814140.3522515152.059311630.2709617290.921291850.0541919130.1354920341.869652150.8535222100.4741923340.8806724231.1680725130.94835

續(xù)表

表15 前加字“”匹配規(guī)則表

表16 上下疊加匹配規(guī)則表

續(xù)表

表17 藏文數(shù)字字符表

藏文規(guī)則庫中的規(guī)則組合形成的音節(jié)數(shù)和頻率統(tǒng)計過程如下:

設(shè)A為藏文音節(jié)集合,B為《藏漢大詞典》中的音節(jié)集合,Cy為《現(xiàn)代藏文頻率詞典》中的音節(jié)集合,則:

圖3 藏文規(guī)則庫的集合關(guān)系

其中xk為第k個規(guī)則,k為規(guī)則數(shù),公式(1)就是第k個規(guī)則的頻率統(tǒng)計結(jié)果。

3.4 歧義規(guī)則處理

在具體應(yīng)用中針對這14個規(guī)則需要另加判斷條件,例如判斷這14個規(guī)則后面是否跟有音節(jié)點,若有則為一個音節(jié)而非規(guī)則;否則為規(guī)則。

4 規(guī)則庫的應(yīng)用

4.1 自動拼寫藏文音節(jié)

設(shè)基字擴展字符集合為Trule,其元素定義如下:

設(shè)歸并后的后加字集合為Tpostfix:

設(shè)元音字符集合:

根據(jù)如下的藏文文法,后加字與任何“基字”可以進行匹配,這里的“基字”可以包含Trule集中的任何“規(guī)則”。文法如下所示:

其笛卡爾乘積為:

Trule×Tvowel×Tpostfix={|b∈Trule,v∈Tvowel,s∈Tpostfix}

根據(jù)如上所述,自動拼寫藏文音節(jié)系統(tǒng)如圖4 所示。

通過自動拼寫藏文音節(jié)系統(tǒng),設(shè)計算法如下:

(1) 規(guī)則集Trule與Tvowel元音字符集進行組合,構(gòu)成藏文音節(jié)。

(2) 規(guī)則集Trule與Tvowel元音字符集、Tpostfix集合進行組合,構(gòu)成藏文音節(jié)。

經(jīng)過實驗測試,算法的第1部分產(chǎn)生1 045個音節(jié),算法的第2部分能夠產(chǎn)生17 765個音節(jié),共計18 810個藏文音節(jié)。但是所產(chǎn)生的音節(jié)中存在一些歧義現(xiàn)象,例如:

(4) 自動產(chǎn)生的一些生僻音節(jié),還需要語言學(xué)家的進一步論證。

4.2 拼寫檢查中的應(yīng)用

目前藏文音節(jié)校對(拼寫檢查)中,有些學(xué)者通過n-gram方法進行研究,有些學(xué)者詞典匹配模式進行校對,但未曾見到利用規(guī)則進行拼寫檢查的研究論文。

藏文拼寫檢查中把一個音節(jié)拆分成三個部分,即前綴、元音和后綴。在匹配模式中由于總計只有224個規(guī)則,比1萬8千多個音節(jié)中查找和匹配簡單的多。本文的拼寫檢查算法中,總體想法是一個音節(jié)的拼寫檢查歸結(jié)到局部規(guī)則的檢查,然后拓寬至整個音節(jié)的拼寫檢查,先進行前綴部分檢查、再進行元音和音節(jié)點的檢查、最后進行后綴部分的檢查。具體算法如下:

(1) 當(dāng)對文本進行拼寫檢查時,首先裝載文本,讀取一個音節(jié)內(nèi)容,讀取完畢結(jié)束循環(huán)。

(2) 識別一個音節(jié),若是音節(jié)進入(3);否則做錯誤標記,進入(1)讀取下一個音節(jié)內(nèi)容。

(3) 目標音節(jié)與規(guī)則集Trule進行匹配,若匹配不成功,認為拼寫有誤,做錯誤標記并進入(1)讀取一下個音節(jié)內(nèi)容;否則進入(4)。

(4) 后面的字符與Tvowel集合和Tpostfix集合中的元素匹配,若匹配不成功,做錯誤標記并進入(1)讀取下一個音節(jié)內(nèi)容;否則拼寫正確不做標記,進入(1)讀取一個音節(jié)內(nèi)容。

下面是算法的一個測試和實驗結(jié)果的數(shù)據(jù)分析:

語料1的測試結(jié)果:

語料2的測試結(jié)果:

語料3的測試結(jié)果:

從以上3個語料的實驗情況分析,首先,在音節(jié)識別當(dāng)中需要去除藏文符號、數(shù)字、其他語言符號的干擾,經(jīng)過預(yù)處理提取出藏文音節(jié);其次,對藏文音節(jié)進行拼寫檢查,檢查錯誤的拼寫情況。針對判斷失誤的31個規(guī)則需要在拼寫檢查算法中另加判斷條件,對于特殊藏文音節(jié)、梵音轉(zhuǎn)寫藏文音節(jié)需要在規(guī)則表中添加相應(yīng)的字符規(guī)則;然后,如果剔除干擾因素、不考慮梵音轉(zhuǎn)寫藏文音節(jié)和特殊藏文音節(jié),算法的檢錯能力可以達到99.8%(1-31/18810)。

4.3 藏文排序中的應(yīng)用

在文獻[11]中,江荻等人針對藏文的規(guī)則特性,提出了了藏文排序中的字符序、構(gòu)造序概念,并設(shè)計了計算機中實現(xiàn)的排序方案。在文獻[12]中,Ro-bert R Chilton利用藏文規(guī)則,對藏文編碼國際標準ISO/IEC 10646字符進行了排序。作者通過“collation element”的概念,建立一個“collation element”表,該表通過對藏文規(guī)則建立權(quán)重分級的藏文字符排序表,第一級由133個規(guī)則字符、4個元音字符和30個后置字符組成一個167個字符的排序表;第二級由9個特殊字符組成的字符表,剩余120個字符不涉及到字典序排序方法中,沒有列到權(quán)重分級列表中。作者較好地利用了藏文規(guī)則,設(shè)計了易于實現(xiàn)的排序算法。雖然需要排序的“字符”數(shù)量多了許多,但是算法簡單并易于實現(xiàn),該算法在Mysql和MIMER SQL中得到了應(yīng)用。

4.4 信息提取和文本挖掘中的應(yīng)用

在文獻[13]中,利用藏文音節(jié)點的高頻率特點,對藏文編碼進行了識別,在文獻[14]中利用了音節(jié)點的上述特點,提取藏文網(wǎng)頁中的主體信息。將來在藏文文本挖掘、Web挖掘等研究領(lǐng)域中將起到積極的作用。

4.5 其他領(lǐng)域中的應(yīng)用

在藏文的字庫設(shè)計、字符標準制定、語音標注、詞典編纂等領(lǐng)域中能夠提供參考依據(jù)。

5 結(jié)論

本文試圖從藏文音節(jié)的特征來解決藏文信息處理中的自動拼寫藏文音節(jié)、拼寫檢查、藏文排序等問題,并在自動拼寫藏文音節(jié)、拼寫檢查等研究內(nèi)容中提出了相應(yīng)的算法;在藏文排序、信息提取等研究內(nèi)容中通過舉例來說明藏文規(guī)則庫在實際應(yīng)用中的可行性。由于本文只考慮了符合藏文文法的現(xiàn)代藏文的規(guī)則,沒有涉及梵音轉(zhuǎn)寫、符號、數(shù)字等內(nèi)容,下一步考慮更多的因素,擴大藏文規(guī)則庫的解決問題的范圍。

[1] 江狄,董穎紅.藏文信息處理屬性統(tǒng)計研究[J].中文信息學(xué)報,1995,9(2): 37-44.

[2] 彭壽全,黃可,張義剛.藏文綜合編碼方案的研究與實現(xiàn)[J].中文信息學(xué)報,1996,10(4): 32-39.

[3] The Unicode Consortium.The Unicode Standard 4.0[S].2004.

[4] 國家技術(shù)監(jiān)督局. GB/T 22034-2008信息技術(shù) 藏文編碼字符集鍵盤字母數(shù)字區(qū)的布局[S].中國標準出版社,2008.

[5] Ngodrup, Dong Cai Zhao, De Qing Drorna. Research on Tibetan Lhasa Dialect Phonetic Feature Extraction Technology Based on LDA-MFCC[C]//IEEE ICIST, 2011, 5: 369-372.

[6] Yongzhong Li, Guang He. Research on Printed Tibetan Character Recognition Technology Based on Fractal Moments[C]//IEEE ICCSIT, 2010, 3: 57-60.

[7] Ngodrup, Dong Cai Zhao. Research on Wooden Blocked Tibetan Character Segmentation Based on Drop Penetration Algorithm[C]//IEEE CCPR, 2010: 1-5.

[8] 扎西加, 珠杰. 面向信息處理的藏文分詞規(guī)范研究[J]. 中文信息學(xué)報, 2009, 23(4): 113-117.

[9] Yauan Lu, Yang Liu, Qun Liu. Multilingual Machine Translation system[C]//IEEE IUCS, 2010: 401.

[10] 江荻.中文信息處理國際會議論文集(書面藏語的熵值及相關(guān)問題)[M].北京: 清華大學(xué)出版社.1998,01.

[11] 江荻,周季文.論藏文的序性及排序方法[J].中文信息學(xué)報,2004,(2):27-31.

[12] Robert R Chilton,Sorting Unicode Tibetan using a Multi-Weight Collation Algorithm[EB/OL]. https://collab.itc.virginia.edu/access/wiki/site/26a34146-33a6-48ce-001e-f16ce7908a6a/sorting%20tibetan.html.

[13] 劉匯丹,芮建武,吳建.藏文網(wǎng)頁的編碼識別與轉(zhuǎn)換[C]//中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議,2006: 573-580.北京: 西苑出版社.

[14] 珠杰,歐珠,格桑多吉.基于DOM修剪的藏文Web信息提取[J].計算機工程,2008,12(27):58-60.

猜你喜歡
藏文元音字符
元音字母和元音字母組合的拼讀規(guī)則
敦煌本藏文算書九九表再探
元音字母和元音字母組合的拼讀規(guī)則
論高級用字階段漢字系統(tǒng)選擇字符的幾個原則
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
字符代表幾
一種USB接口字符液晶控制器設(shè)計
圖片輕松變身ASCⅡ藝術(shù)畫
黑水城和額濟納出土藏文文獻簡介
基于條件隨機場的藏文人名識別研究
泰来县| 体育| 康马县| 巨鹿县| 马边| 丰顺县| 临汾市| 公安县| 玉树县| 孙吴县| 会同县| 德保县| 汉阴县| 忻州市| 怀远县| 永泰县| 闽侯县| 余干县| 日照市| 炎陵县| 兴业县| 宁乡县| 将乐县| 北安市| 三河市| 竹北市| 渝北区| 余姚市| 景洪市| 濉溪县| 江达县| 汶上县| 称多县| 武平县| 思茅市| 武强县| 沂源县| 桓台县| 友谊县| 南和县| 拉孜县|