国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

藏文音節(jié)拼寫自動校對系統(tǒng)的設計

2014-03-12 19:57陳小瑩艾金勇
語文學刊 2014年7期
關鍵詞:助詞輔音藏文

○ 陳小瑩 艾金勇

(西藏民族學院,陜西 咸陽 712082)

一、引 言

在信息化時代,藏族文化要跟上時代的步伐,首先要解決的就是藏文的信息處理問題,藏文信息化和網絡化是藏民族發(fā)展的必然趨勢。從20世紀80年代起,隨著對藏文字符編碼、字符屬性和輸入技術等諸多領域不斷深入的研究,藏文信息處理技術已取得較好的成果。隨著藏文網絡信息時代的發(fā)展,藏文正在迅速與現(xiàn)代化、信息化以及世界文化接軌。[1]藏文信息處理已從字處理研究逐步向詞、短語、句法以及語義的研究發(fā)展。以藏字為媒介向世界介紹西藏文化是對西藏優(yōu)秀傳統(tǒng)文化的繼承,藏文報刊、電子書、網站、電子郵件及藏文辦公自動化的字處理等電子文本也越來越廣泛地應用于藏文信息處理多個領域,而這些都需要通過計算機進行處理,難免會出現(xiàn)錯誤。[2]如何保證這些電子文本的正確性,顯得越來越重要。這使得其中的校對環(huán)節(jié)工作量大大增加,對藏文文本的人工校對帶來了很大的壓力,這樣對其進行校正就顯得尤為重要。[3]所以對藏文音節(jié)拼寫自動校對的研究具有非常重要的現(xiàn)實意義。

國內藏文自動校對的研究工作是從20世紀80年代初的字處理研究起步的。自八十年代中后期起,北京、上海、西藏、甘肅、青海等地的一些院校及科研機構紛紛研制開發(fā)了許多藏文信息處理系統(tǒng),推動了藏文信息技術的發(fā)展,特別是計算機藏文文字處理技術的發(fā)展較快。很多藏文信息界的專家對此做了較多的研究。劉文香發(fā)表《藏文文本詞校對模型研究》一文,文中闡述了音勢約束理論和二元鄰接矩陣在藏文自動校對中的應用。[4]關白等人發(fā)表的《現(xiàn)代藏文音節(jié)字自動校對研究》一文,通過音節(jié)字預處理、字表匹配、混淆集匹配、二元接續(xù)關系、最小編輯距離法等方法對現(xiàn)代藏文音節(jié)字的自動校對進行了研究。[5]王維蘭等人發(fā)表的《印刷體現(xiàn)代藏文識別研究》一文,將藏文自動校對應用于藏文文字識別的后期處理,對識別后所形成文本中的單字進行了次校正。[6]多杰卓瑪發(fā)表《N元模型在藏文文本局部查錯中的應用研究》一文,提出將一個藏文音節(jié)字按其構件分成若干個字丁,利用N元模型對這些字丁建立模型,采用這一模型對音節(jié)字進行偵錯的方法。[7]黃小蘭等人發(fā)表的《現(xiàn)代藏文音節(jié)的劃分與確定》一文,通過應用程序對藏文編碼的占位和不占位的有效判定找出組合字符。對找出組合字符的藏文字符通過藏文正字法的限定對藏文音節(jié)進行有效的判定和音節(jié)組件的拆分。[8]

二、主要內容

藏文音節(jié)拼寫自動校對系統(tǒng)共分為四個模塊:

(1)藏文文本規(guī)范化處理模塊

藏文文本中除了包括正常的規(guī)范字符外,還常常出現(xiàn)各種不屬于藏文字符的其他字符,例如數(shù)字、日期、電話號碼等使用阿拉伯書寫的字符。這些不屬于藏文字符的其他字符會對后期音節(jié)的切分時發(fā)生錯誤,從而使整個音節(jié)拼寫校對系統(tǒng)的校正率降低,所以這些非規(guī)范的文本在進行音節(jié)切分之前應該要進行規(guī)范化處理,并給出它們對應的在規(guī)范化藏文詞表上的規(guī)范寫法。

(2)音節(jié)切分模塊

現(xiàn)代藏文的字符流是兩維呈現(xiàn)的,有一套嚴格而完整的字母組合排列規(guī)則,自左向右橫行書寫。傳統(tǒng)藏文文法根據(jù)字母在音節(jié)中的結構位置,將30個輔音字母分為分為基字、上加字、下加字、前加字、后加字、再后加字加上“元音”共7個構件,各個構造位上出現(xiàn)的字符其性質與數(shù)量均有一定的限制。藏文音節(jié)字是用音節(jié)點進行間隔的,在音節(jié)切分時,以音節(jié)點為標記對藏文音節(jié)進行切分。[9]

(3)黏著語的分離與還原模塊;

在現(xiàn)代藏文的實際文本中有些格助詞和接續(xù)詞、終結詞是黏著在后加字或者基字上,形成一個音節(jié)字的。這種具有黏著性的格助詞有:a.黏著性屬格助詞“ ”;b.黏著性接續(xù)詞“ ”;c.黏著性疑問助詞“ ”;d.黏著性終結詞“ ”;e.黏著性作格助詞“ ”;f.黏著性LA格助詞“ ”。這樣形成的音節(jié)字雖然可能不符合藏文的正字法結構,但是又是正確的書寫形式,因此需要對對待校文本中存在黏著現(xiàn)象的音節(jié)字進行分離和還原。具體過程如下:

①對“ ”的分離與還原:判斷字符串中可能黏著的格助詞或接續(xù)詞是否有“ ”等,如果有則對該音節(jié)進行黏著語分離和還原操作;否則不做任何處理讀取下一個音節(jié)字進行判斷。

②對“ ”的分離與還原:判斷字符串中可能黏著的格助詞是否有“ ”,因為“ ”還可能作為后加字成分存在,所以如果存在,還需要根據(jù)構字規(guī)則判斷其是否為后加字,如果不是則對該音節(jié)進行黏著語分離和還原;否則不做任何處理讀取下一個音節(jié)字進行判斷。

(4)音節(jié)校對模塊

現(xiàn)代藏文具有最多3個輔音和最多1個元音的垂直疊加形成的組合字符。藏文字符顯示時,一個組合字符只占據(jù)一個字母的寬度,這個寬度由第一層輔音決定,這個輔音稱為占位輔音,這個輔音的編碼也就稱為占位輔音編碼,其它字母只是疊加在占位輔音的上方或者下方而不單獨占據(jù)寬度,稱為不占位字母或不占位編碼。[10]項目實施中首先可以依據(jù)音節(jié)編碼中占位輔音編碼和非占位輔音編碼的順序來確定基字所在的組合字丁的位置,然后再根據(jù)前后編碼的序列確定前加字、后加字和再后加字;其次通過組合字符對應的編碼特點即一個占位編碼緊接著最多三個連續(xù)的不占位編碼確定 “上加字”、“下加字”;最后根據(jù)藏文正字法確立的構字規(guī)則對該藏文音節(jié)各部件進行判別校對。

三、結 語

通過對藏文文本規(guī)范化處理、音節(jié)切分、黏著語的分離與還原和音節(jié)校對四個部分內容的研究與分析,設計了藏文音節(jié)拼寫自動校對系統(tǒng)。該校對系統(tǒng)可以廣泛應用于藏文信息處理的其他領域。比如:藏文字識別和藏文語音識別、藏文拼寫檢查、文本編輯、自動分詞、語料庫制作、輔助教學等諸多的藏文信息處理的研究領域當中,可以減少人工校對帶來的壓力,從而大大提高校對環(huán)節(jié)的工作效率。所以對其的研究必將提升現(xiàn)有藏文信息處理研究的成果,具有非常重要的現(xiàn)實意義。

【參考文獻】

[1]關白,洛藏,才科扎西.現(xiàn)代藏文自動校對現(xiàn)狀分析[J].西藏科技,2011(8).

[2]張仰森,俞士汶.文本自動校對技術研究綜述[J].計算機應用研究,2006(6).

[3]扎西次仁.一個藏文拼寫檢查系統(tǒng)的設計[C]//中文信息處理國際會議論文集,1998.

[4]劉文香.藏文文本詞校對模型研究[J].西藏大學學報(自然科學版),2009(2).

[5]關白,才科扎西.現(xiàn)代藏文音節(jié)字自動校對研究[J].計算機過程與應用,2011(6).

[6]王維蘭,丁曉青,等.印刷體現(xiàn)代藏文識別研究[J].計算機工程,2003(3).

[7]多杰卓瑪.N元模型在藏文文本局部查錯中的應用研究[J].計算機工程與科學,2009(4).

[8]黃小蘭,黃鶴鳴,才科扎西.現(xiàn)代藏文音節(jié)的劃分與確定[J].計算機應用與軟件,2012(9).

[9]李永宏,孔江平,等.藏語文-音自動規(guī)則轉換及其實現(xiàn)[J].清華大學學報,2008(1).

[10]黃鶴鳴,達飛鵬.基于排序的藏文音節(jié)類型判定[J].計算機應用,2009(7).

猜你喜歡
助詞輔音藏文
失去爆破和不完全爆破
韓國語助詞的連續(xù)構成與復合助詞的區(qū)分
BR Sounds
英語的輔音連綴
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
高校朝鮮語專業(yè)學生助詞使用偏誤調查分析
黑水城和額濟納出土藏文文獻簡介
日語中“間投助詞”與“終助詞”在句中適用位置的對比考察
江永桃川土話的助詞
第二講 元音和輔音(下)
蒙山县| 巫山县| 石楼县| 卓资县| 肃北| 鹤峰县| 木里| 宜都市| 黑山县| 革吉县| 扎赉特旗| 奉新县| 进贤县| 嘉禾县| 横山县| 河北区| 淅川县| 绥江县| 志丹县| 乐业县| 万州区| 博兴县| 汕头市| 垦利县| 安图县| 石嘴山市| 张家界市| 长海县| 信宜市| 徐水县| 滕州市| 平定县| 十堰市| 蒲城县| 阳高县| 三台县| 堆龙德庆县| 集安市| 宁安市| 门源| 台北市|