国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于有限狀態(tài)自動機的藏文音節(jié)組織研究

2021-06-08 12:10更桑吉安見才讓
計算機時代 2021年1期
關鍵詞:藏文

更桑吉 安見才讓

摘? 要: 通過對藏文的字形特征、拼寫規(guī)律,以及文法規(guī)則的分析和研究,實現(xiàn)藏文詞語的實時檢錯。借助形式語言有限狀態(tài)自動機的方法,對藏文字結(jié)構中的基字、前加字、上加字、下加字、后加字、再后加字之間的搭配規(guī)則設計了狀態(tài)圖和鄰接矩陣。該方法提高了藏文文本質(zhì)量,使原本復雜的書面語法規(guī)則變得簡單直觀,從而使符合現(xiàn)代藏文音節(jié)組織結(jié)構的詞語能實時檢錯。該研究為實現(xiàn)藏文的自動校對提供了基礎。

關鍵詞: 藏文; 文法規(guī)則; 有限狀態(tài)自動機; 校對

中圖分類號:TP391.1????????? 文獻標識碼:A???? 文章編號:1006-8228(2021)01-65-03

Research on Tibetan syllable organization using finite state automata

Geng Sangji, Anjian Cairang

(School of computer, Qinghai University for Nationalities, Xining, Qinghai 810007, China)

Abstract: By analyzing and studying the characteristics of Tibetan character, the spelling rule and grammar rule, the real-time error detection of Tibetan words is realized. With the help of finite state automata of formal language, this paper designs the state diagram and adjacency matrix for the matching rules among the basic characters, prefix letters, superfixed letters, subjoined letters, suffixed letters and up-adding characters in the Tibetan character structure. This method improves the quality of Tibetan text, makes the complex original written grammar rules simple and intuitive, so that the words in line with the modern Tibetan syllable organization structure can be error detected in real time. This research provides a basis for the realization of Tibetan automatic proofreading.

Key words: Tibetan; grammar rules; finite state automata; proofreading

0 引言

隨著藏區(qū)人民對信息數(shù)字化需求的提高,學習和利用信息數(shù)字化的技術手段來記載和傳承民族文字顯得非常重要,而人工智能領域?qū)Σ卣Z信息研究發(fā)展有著不可忽略的重要性。通過研究藏文音節(jié)和字形結(jié)構[1-2],判斷基字所在位置、特殊音節(jié)的處理等步驟解決藏文構件元素的識別[3];基于規(guī)則和CNN模型、基字定位等方法實現(xiàn)檢錯[4-6],這些方法都各有利弊,因此本研究提出基于有限狀態(tài)自動機的藏文音節(jié)組織結(jié)構的研究方法處理檢錯。

研究藏文或文本校對的主要對象是語言單位,在藏語言中最小的語言單位是字母,其次是音節(jié),音節(jié)由字母組成。而字形是字的形狀和結(jié)構,藏文字形以一個輔音字母為核心其余字母以此為基礎前后附加和上下疊加組合成一個字的結(jié)構,因此人們都說藏文是由字母組合而成的一種拼音文字。藏文字母包括30個輔音字母和四個元音字母,藏文的音節(jié)分為七個構件,核心的輔音字符稱為基字,其余的字符按照相對于基字的位置來分別命名,加在基字前面的稱為前加字,基字的上方和下方的分別稱為上加字和下加字,基字后面的稱為后加字和再后加字,元音位置在基字的上或下、上下加字的上方或下方[7]。藏文音節(jié)的組合形式比較多樣化,但是總體的組合規(guī)則相對固定,藏文音節(jié)可以只包含一個輔音字母,也可以包含多個輔音字母(最多六個),由此可知藏文音節(jié)中基字是必不可少的一個構件,其他位置的構件都可以空缺。

1 藏文字形結(jié)構特點

藏文音節(jié)的組織結(jié)構或書寫順序是前加字、上加字、基字、下加字、元音、后加字和再后加字七種構件組成,藏文的一個音節(jié)最多可包含七個構件,每一種構件都有它不可代替代的作用和功能。藏文字是按照從左至右的順序進行書寫,因此它不僅具有線性結(jié)構(橫向拼寫性)同時也具有疊加結(jié)構(縱向拼寫性)的一種復雜文字,其中基字所在的水平方向上由前加字、基字、后加字、再后加字的橫向拼寫,基字所在的豎直方向上由上加字、基字、下加字和元音的縱向拼寫,如圖1-圖4所示。

本研究的依據(jù)或前提條件須滿足以下條件:

⑴ 藏文音節(jié)中所有音節(jié)的組合形式必須滿足現(xiàn)代藏文音節(jié)的結(jié)構;

⑵ 藏文音節(jié)結(jié)構中所有構件的組合要符合藏文拼寫規(guī)律或組合規(guī)則。

2 藏文音節(jié)組合的語法規(guī)則

2.1 基字與前加字

2.2 基字與上加字

上加字有三個(?????),不同的上加字做上置輔音時的基字不相同,組合規(guī)則如表2所示。

2.3 基字與下加字

下加字有四個(? ? ? ? ),不同的下加字做下置輔音時的基字也不同,組合規(guī)則如表3所示。

2.4 基字與后加字

后加字有十個(???????????????????)與基字的組合規(guī)則如表4。

后加字與基字之間的組合規(guī)則不像其他組合規(guī)則,它沒有明確一一對應的組合規(guī)則。

2.5 后加字與再后加字

再后加字是與后加字組合的,再后加字有兩個(???),與后加字的組合規(guī)則如表5。

3 基于有限狀態(tài)自動機的規(guī)則表示

3.1 狀態(tài)圖

有限狀態(tài)自動機也稱為有限狀態(tài)轉(zhuǎn)移網(wǎng)絡,通常采用狀態(tài)圖表示,圖中的每一個結(jié)點表示不同的狀態(tài),其中一個圓圈(○)的代表開始狀態(tài),雙圓圈(◎)的代表終止狀態(tài)即結(jié)束標志,狀態(tài)之間用有方向的弧線鏈接表示轉(zhuǎn)移狀態(tài),弧線上的標記表示轉(zhuǎn)移的條件,也可看作是輸入符號,轉(zhuǎn)移也可以是無條件的,即標記為空字符(N)。從狀態(tài)轉(zhuǎn)移網(wǎng)絡的起始狀態(tài)開始出發(fā),根據(jù)弧線上的條件決定向哪一個狀態(tài)轉(zhuǎn)移,這個過程一直持續(xù)下去,直到當前狀態(tài)是終止狀態(tài)(雙圓圈結(jié)點),則狀態(tài)過程可以結(jié)束[8-9],如圖5所示。

3.2 鄰接矩陣

鄰接矩陣是表示頂點之間相鄰關系的矩陣,用一個二位數(shù)組存放頂點之間關系(?。┑臄?shù)據(jù),鄰接矩陣分為有向圖鄰接矩陣和無向圖鄰接矩陣。

有向圖鄰接矩陣的特點是,矩陣中第i行非零元素的個數(shù)為第i個頂點的出度(下一個狀態(tài)),第i列非零元素的個數(shù)為第i個頂點的入度(開始狀態(tài)),直至遇到雙圓圈的頂點時結(jié)束,用鄰接矩陣表示圖,很容易確定圖中任意兩個頂點之間是否有邊(?。┫噙B,如表6所示。

4 實驗分析

藏文音節(jié)組織結(jié)構的檢錯研究在精度方面已經(jīng)達到一定的程度,本文主要在檢錯速度上做研究。選用900個常用的藏文詞語對此方法進行測試,符合現(xiàn)代藏文音節(jié)組織結(jié)構的詞語能達到實時的檢錯速度,以下是檢錯的流程。

選()字做實例講解,鄰接矩陣最左邊的列為狀態(tài),最上面的行為?。ㄞD(zhuǎn)移條件)。

⑴ 首先從S0開始,S0的下一個狀態(tài)有六個,分別是S1、S2、S3、S4、S5、S6本實驗所選例子第一個字母是(?)也是第一個轉(zhuǎn)移條件,尋找行為S0,列為S3。

⑵ 列S3做下一個開始狀態(tài)變?yōu)樾蠸3,下一個狀態(tài)有四個,分別是S15、S16、S17、S18第二個轉(zhuǎn)移條件是上加字(?),行為S3,列為S17。

⑶ 以此類推最后一個轉(zhuǎn)移條件是再后加字(?),行為S119,列為S131,雙圓圈結(jié)束。

5 結(jié)束語

音節(jié)是構成藏文字最基本的單位,也是文本校對的依據(jù)點,藏文音節(jié)具有獨特的構造方法,根據(jù)不同的組合方法構成了千變?nèi)f化的現(xiàn)代藏文,本文以音節(jié)為研究對象,借助語法規(guī)則描述和分析了音節(jié)結(jié)構,組成成分及組合規(guī)則,采用有限狀態(tài)自動機的方法對藏文音節(jié)的傳統(tǒng)搭配規(guī)則設計了狀態(tài)圖和鄰接矩陣,這不僅起到減小人、物力資源的作用,同時提高了文本質(zhì)量和工作效率,而且書面語法規(guī)則變得更加簡單直觀,使得文本校對技術不斷的提高,這對進一步處理藏文文本校對的研究具有重要的意義。但該方法還存在圖形復雜,鄰接矩陣偏長的問題,這在未來工作中仍需不斷優(yōu)化和改進,不斷突破新技術使得文本校對在精度和速度上得到進一步改善。

參考文獻(References):

[1] 陳小瑩.現(xiàn)代藏文音節(jié)結(jié)構分析研究[J].智能計算機與應用,2019.9(2).

[2] 才智杰,才讓卓瑪.藏文字形結(jié)構分布研究[J].中文信息學報,2016.30(4).

[3] 邊巴旺堆,卓嘎,陳延利,武強.藏文構件元素識別算法研究[J].中文信息學報,2014.28(3).

[4] 王文玲,王雙成.藏文基字定位實現(xiàn)方法與過程[J].中國藏學,2019.4.

[5] 才讓叁智,關白.基于規(guī)則的現(xiàn)代藏文音節(jié)字檢錯研究[J].西藏大學學報(自然科學版),2017.1.

[6] 色差甲,貢保才讓,才讓加.藏文音節(jié)拼寫檢查的CNN模型[J].中文信息學報,2019.33(1).

[7] 毛爾蓋·桑木旦.藏文語法明悅[M].青海民族出版社,2005.[8] 俞士汶.計算語言學概論[M].商務印書館,2003.

[9] 安見才讓.藏文信息處理原理與技術實現(xiàn)[M].青海民族出版社,2017.

收稿日期:2020-09-02

基金項目:國家自然科學基金項目(61862054); 青海省應用基礎研究項目(2019-ZJ-7066)

作者簡介:更桑吉(1994-),女,藏族,青海同德人,碩士研究生,主要研究方向:藏文信息處理及應用。

通訊作者:安見才讓(1969-),男,藏族,青海西寧人,教授,主要研究方向:藏文信息處理及應用。

猜你喜歡
藏文
敦煌本藏文算書九九表再探
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
黑水城和額濟納出土藏文文獻簡介
基于條件隨機場的藏文人名識別研究
談編譯出版《西藏七大藝術集成志書》藏文版的必要性
現(xiàn)代藏文基字識別的算法設計
藏文音節(jié)字的頻次統(tǒng)計
現(xiàn)代語境下的藏文報刊
新發(fā)現(xiàn)藏文史籍《王統(tǒng)日月寶串》評述
藏文古籍版本研究——以藏文古籍印本為中心