国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于小字符集藏文拉丁轉(zhuǎn)寫系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2016-05-04 00:41:31陳小瑩艾金勇
中文信息學(xué)報(bào) 2016年3期
關(guān)鍵詞:字符集拉丁藏文

陳小瑩,艾金勇

(1.西藏民族大學(xué) 信息工程學(xué)院,陜西 咸陽 712082;2.西藏民族大學(xué)圖書館,陜西 咸陽 712082)

基于小字符集藏文拉丁轉(zhuǎn)寫系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

陳小瑩1,艾金勇2

(1.西藏民族大學(xué) 信息工程學(xué)院,陜西 咸陽 712082;2.西藏民族大學(xué)圖書館,陜西 咸陽 712082)

隨著藏語語言信息技術(shù)的迅速發(fā)展,藏文拉丁轉(zhuǎn)寫成為迫切需要解決的重要課題之一。該文在前人有關(guān)藏文拉丁轉(zhuǎn)寫研究的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)了基于小字符集方案的藏文拉丁轉(zhuǎn)寫系統(tǒng)。文章通過對(duì)小字符集編碼方案的特征分析,同時(shí)根據(jù)藏文正字法知識(shí),提出了基于小字符集編碼的藏文拉丁轉(zhuǎn)寫算法,并對(duì)具體算法策略進(jìn)行了分析和說明,最后在Windows平臺(tái)進(jìn)行了程序的實(shí)現(xiàn)。藏文拉丁轉(zhuǎn)寫方案的設(shè)計(jì)與實(shí)現(xiàn),可以解決藏文多編碼系統(tǒng)之間的兼容性問題。

藏文;拉丁轉(zhuǎn)寫;小字符集;占位輔音

1 引言

在國內(nèi)外藏學(xué)研究領(lǐng)域,藏文拉丁轉(zhuǎn)寫實(shí)現(xiàn)了現(xiàn)代藏文與拉丁轉(zhuǎn)寫之間的相互轉(zhuǎn)換。近年來,由于藏語語言信息技術(shù)的迅速發(fā)展,拉丁轉(zhuǎn)寫形式不僅可以作為多文種少數(shù)民族文字處理平臺(tái)上文字的識(shí)讀和研究工具,還可以解決藏文多編碼系統(tǒng)之間的兼容性問題,前期已經(jīng)有不少學(xué)者進(jìn)行了相關(guān)的研究。陳麗娜等在《藏文拉丁轉(zhuǎn)寫的研究與實(shí)現(xiàn)》一文中針對(duì)大字符集編碼的字符特征在OpenOffice.org中實(shí)現(xiàn)了藏文的拉丁轉(zhuǎn)寫[1]。民族所的江荻研究員在《藏文的拉丁字母轉(zhuǎn)寫方法》一文中系統(tǒng)的闡述了藏文的拉丁轉(zhuǎn)寫原則和目前拉丁轉(zhuǎn)寫方案,并歸納出比較全面的藏文拉丁字符字母轉(zhuǎn)寫的規(guī)則[2]。祁坤鈺等在2008年《基于國際標(biāo)準(zhǔn)編碼系統(tǒng)地藏文拉丁文轉(zhuǎn)寫規(guī)則模型》一文中針對(duì)基本集編碼體系,提出了藏文變長序列碼到拉丁文轉(zhuǎn)寫的轉(zhuǎn)換模型,文中并沒有涉及具體的算法[3]。康才畯等在《基于Unicode編碼的藏文轉(zhuǎn)寫拉丁文本的算法》中雖然提出了關(guān)于Unicode編碼的藏文拉丁轉(zhuǎn)寫算法,但是關(guān)于藏文黏寫字符等特殊現(xiàn)象并沒有針對(duì)性的處理,而在現(xiàn)代藏文中這種現(xiàn)象還是普遍存在的[4]。綜上所述,盡管在藏文拉丁轉(zhuǎn)寫方面前期已經(jīng)有了相當(dāng)多的成果,但是在小字符集編碼的藏文拉丁轉(zhuǎn)寫的具體實(shí)現(xiàn)上還有待進(jìn)一步的研究。基于此,本文基于小字符集編碼體系,提出藏文拉丁轉(zhuǎn)寫算法,并在Windows 平臺(tái)下設(shè)計(jì)實(shí)現(xiàn)了該算法。

2 現(xiàn)代藏文音節(jié)的結(jié)構(gòu)和編碼特點(diǎn)

2.1 現(xiàn)代藏文的結(jié)構(gòu)特點(diǎn)

書面藏語的“字”是由藏文字符和梵音藏文等字符構(gòu)成的,共有30個(gè)輔音字母,10個(gè)梵音藏文字母,5個(gè)元音符號(hào)和3個(gè)梵音藏文元音符號(hào),其中[a]為零位元音[5]。藏文的基本單位是音節(jié),音節(jié)與音節(jié)間用音節(jié)符“.”分隔,句子與句子之間用單垂符“|”分隔,段落與段落之間用雙垂符“||”分隔。每個(gè)藏文音節(jié)結(jié)構(gòu)上由“基字”、“上加字”、“下加字”、“前加字”、“后加字”、“重后加字”以及元音組成,它不僅具有橫向拼寫性,同時(shí)也具有縱向拼寫性,其中前加字、基字、后加字與重后加字橫向拼寫。而在縱向上可能有上加字、基字、下加字和元音的縱向拼寫。構(gòu)成藏文字的前加字、基字、上加字、下加字、后加字、重后加字和元音統(tǒng)稱為藏文字的部件。每個(gè)結(jié)構(gòu)位置上的部件都有固定的構(gòu)造規(guī)則,除開基字外所有結(jié)構(gòu)位置上的部件都可以空缺。

2.2 藏文的編碼特點(diǎn)

在藏文信息處理中存在兩種不同的字符集編碼和實(shí)現(xiàn)方案。一種是以藏文編碼字符集基本集為基礎(chǔ),以垂直預(yù)組合的方法顯示藏文,簡(jiǎn)稱大字符集法。另一種是基于ISO/IEC 10646(Tibetan)的藏文編碼方案,以動(dòng)態(tài)組合的方法顯示藏文,簡(jiǎn)稱小字符集法。大字符集主要是在計(jì)算機(jī)中以上下疊加的字母作為一個(gè)整體進(jìn)行編碼的,這種方法將需要?jiǎng)討B(tài)組合的上加字、基字、下加字和元音組合成為一個(gè)字丁,對(duì)每個(gè)字丁在藏文編碼字符集中進(jìn)行編碼。但是這種方式的處理會(huì)導(dǎo)致大量的兼容字符,從而增加了系統(tǒng)處理的復(fù)雜性。而且這種方式需要對(duì)現(xiàn)有的藏文數(shù)據(jù)的所有組合方式進(jìn)行預(yù)組合,難以實(shí)現(xiàn)所有系統(tǒng)的兼容。小字符集方法是將藏文完全按拼音文字處理,以其基本組成構(gòu)件,包括元音字符、輔音字符、上下加字等為基本編碼對(duì)象進(jìn)行編碼的方法,這是完全符合ISO的所有評(píng)估程序和批準(zhǔn)原則的一個(gè)方案,是目前國際上較為流行的一種藏文編碼方案。而且隨著計(jì)算機(jī)技術(shù)的進(jìn)一步發(fā)展,國際標(biāo)準(zhǔn)的小字符集可以勝任任何應(yīng)用,目前大字符集實(shí)際已經(jīng)被大多數(shù)系統(tǒng)放棄。

3 系統(tǒng)結(jié)構(gòu)

現(xiàn)代藏文拉丁轉(zhuǎn)寫系統(tǒng)的結(jié)構(gòu)如圖1所示。整個(gè)現(xiàn)代藏文拉丁轉(zhuǎn)寫系統(tǒng)從功能上可以分為知識(shí)庫管理與維護(hù)、藏文文本預(yù)處理、藏文字丁部件分解和拉丁轉(zhuǎn)寫四個(gè)主要模塊。下面分別介紹各個(gè)模塊的功能和實(shí)現(xiàn)方式。

3.1 藏文文本預(yù)處理

藏文文本預(yù)處理模塊主要有藏文特殊字符的規(guī)范化處理和藏文黏著詞的分離和還原兩個(gè)部分,針對(duì)現(xiàn)代藏文文本中出現(xiàn)的特殊現(xiàn)象進(jìn)行處理,以得到規(guī)范化的藏文音節(jié)字。

3.1.1 特殊字符的規(guī)范化處理

藏文文本中除了包括正常的規(guī)范字符外,還可能會(huì)出現(xiàn)英文縮略詞、簡(jiǎn)寫詞、數(shù)字、符號(hào)等一些不屬于藏文字符的其他字符,這些不屬于藏文字符的其他字符直接影響著文本信息處理的正確性,所以在拉丁轉(zhuǎn)寫之前應(yīng)該要進(jìn)行規(guī)范化處理。

處理方式主要是歸納現(xiàn)代藏文中出現(xiàn)的一些非規(guī)范字的類別,并給出它們?cè)谝?guī)范化藏文詞表上的規(guī)范寫法,提取出轉(zhuǎn)換規(guī)則,建立相應(yīng)的規(guī)則知識(shí)庫。在遇到此類特殊字符時(shí)只需要按照相應(yīng)的規(guī)則進(jìn)行轉(zhuǎn)換即可。

3.1.2 黏寫字符的處理

圖1 拉丁轉(zhuǎn)寫系統(tǒng)結(jié)構(gòu)圖

粘著詞實(shí)例分離還原(基字)—————

其中表中字母s表示此音節(jié)字是分離后得到的,sr表示此音節(jié)字是分離后對(duì)前一音節(jié)字做還原后得到的。

3.2 知識(shí)庫管理和維護(hù)

該模塊的主要功能是維護(hù)和管理拉丁轉(zhuǎn)寫系統(tǒng)中所設(shè)計(jì)的三個(gè)知識(shí)庫的規(guī)范和管理,即對(duì)系統(tǒng)中需要調(diào)用的藏文正字知識(shí)庫、特殊符號(hào)特征規(guī)則庫、拉丁轉(zhuǎn)換規(guī)則知識(shí)庫內(nèi)容的完善和維護(hù),以便數(shù)據(jù)的有效調(diào)用和管理。

3.3 藏文字丁部件分解3.3.1 小字符集編碼特點(diǎn)

3.3.2 藏文字丁部件的識(shí)別

藏文字丁部件分解根據(jù)藏文音節(jié)構(gòu)字規(guī)則及藏文小字符集編碼的特點(diǎn)分解各個(gè)位置上的字符。其核心在于尋找藏文的基字丁。

若令C表示藏文占位輔音編碼集合,V表示藏文元音字符編碼集合,NC表示藏文非占位輔音編碼的集合,同時(shí)根據(jù)藏文本身特征,設(shè)定下加字集合U,則U屬于NC,同時(shí)設(shè)定音節(jié)中編碼字符串為l1l2……ln(1=

1) 輸入音節(jié)字符串l1l2……ln,根據(jù)字符串匹配法找出其在集合C、V和NC中的字串C1C2……Cm、Vt和NC0NC2……NCk。k的值獲取后可根據(jù)以下幾種情況定位基字的位置并確定各部件字符。

2) 若k=2,則該音節(jié)中非占位輔音編碼串為NC1NC2,此時(shí)由小字符集編碼的特征判定此時(shí)組合字符中必定包含上加字和下加字,而按照藏文輸出順序,就可以確定出兩個(gè)非占位輔音NC0NC2分別為基字丁Ba和下加字Up,從而確定出基字丁位置。

4) 若k=0,則該音節(jié)中無非占位輔音編碼串,表明該藏文音節(jié)沒有上加字和下加字形式存在。此時(shí)判定基字位置需要依據(jù)元音字符進(jìn)行判定。若t>0,則可以判定元音前面的輔音字符必定為基字。如果t=0,則需要根據(jù)音節(jié)寬度進(jìn)行進(jìn)一步判別,判別時(shí)利用藏文正字法進(jìn)行分別討論得出對(duì)應(yīng)的基字Ba。

待基字編碼串Ba確定后,再根據(jù)Ba是否屬于集合NC進(jìn)一步來判定其他部件的位置。如果Ba屬于NC,則其后面的占位輔音依次為后加字和重后加字。前面緊挨著該輔音字符的必為上加字,若前面還有占位字符,則為前加字;否則該藏文音節(jié)中一定不存在上加字,其后的占位輔音依次為后加字和重后加字,其前面的占位輔音為前加字。最后根據(jù)得到的結(jié)果確定出各位置上的部件編碼。

3.4 轉(zhuǎn)寫規(guī)則

藏文拉丁字母轉(zhuǎn)寫是指在不必理解詞句語義的情況下,按照讀音將藏文字母轉(zhuǎn)換成拉丁字母的方法。對(duì)于藏語文字信息處理而言,拉丁轉(zhuǎn)寫更多的是作為現(xiàn)代藏語的識(shí)讀和研究工具,因此本文以藏文的音節(jié)為基本單位,依據(jù)音節(jié)的組織結(jié)構(gòu),對(duì)音節(jié)的各個(gè)部分分別進(jìn)行轉(zhuǎn)寫,實(shí)現(xiàn)了基于現(xiàn)代藏語語音的聲韻母轉(zhuǎn)化方案。

前面已經(jīng)確立了藏文音節(jié)的各部分部件,但是由于組合型梵音藏文字符的存在,所以還需要進(jìn)行特殊處理,首先判斷藏文音節(jié)中不帶音基字丁是否存在于文獻(xiàn)[11]所列舉的新創(chuàng)字符表中,若存在則將其作為一個(gè)整體進(jìn)行拉丁轉(zhuǎn)換。否則就根據(jù)藏文音節(jié)的聲韻母組合方式進(jìn)行組合就可以了。藏文單音節(jié)的聲母=前加字+不帶音基字丁,韻母=元音+后加字+重后加字。對(duì)照藏文拉丁轉(zhuǎn)寫規(guī)則知識(shí)庫后,得到藏文聲母和韻母各自對(duì)應(yīng)的拉丁字母串。則藏文對(duì)應(yīng)的拉丁轉(zhuǎn)寫=聲母拉丁轉(zhuǎn)寫+韻母拉丁轉(zhuǎn)寫。轉(zhuǎn)化過程中提出以下幾個(gè)規(guī)則。

規(guī)則1 按照聲韻母拼讀方式對(duì)藏文音節(jié)中各部件依次讀取,然后參照民族所江荻研究員文獻(xiàn)[11]中提出的藏文拉丁轉(zhuǎn)寫系統(tǒng)實(shí)現(xiàn)轉(zhuǎn)寫。

規(guī)則2 藏文轉(zhuǎn)寫成拉丁字母時(shí),轉(zhuǎn)寫后的符號(hào)一律使用小寫字母。

規(guī)則3 不帶元音符號(hào)的藏文音節(jié)字,則默認(rèn)被轉(zhuǎn)寫成包含元音“a”,該元音被放在韻母前邊。

4 轉(zhuǎn)寫結(jié)果測(cè)試

在計(jì)算機(jī)Windows平臺(tái)下,隨機(jī)選取了部分藏文文本進(jìn)行了拉丁轉(zhuǎn)寫測(cè)試,轉(zhuǎn)寫主要是藏文到拉丁文的轉(zhuǎn)寫。抽取的文本分別來自藏文主流網(wǎng)站的新聞和個(gè)人網(wǎng)頁中的藏文文章。圖2是測(cè)試樣例中截取的一部分。

圖2 藏文文本及轉(zhuǎn)換結(jié)果

測(cè)試結(jié)果表明,在轉(zhuǎn)換過程中會(huì)出現(xiàn)兩種錯(cuò)誤,一種是因?yàn)椴糠植匚奈谋静环犀F(xiàn)代藏文的構(gòu)字方法,所以在基字確定上出現(xiàn)錯(cuò)誤從而造成轉(zhuǎn)寫不正確,這種情況系統(tǒng)會(huì)在可能錯(cuò)誤的轉(zhuǎn)寫字符處高亮顯示出來以便人工修改;還有一種情況是由于黏寫字符以及文本規(guī)范化過程中的處理結(jié)果不準(zhǔn)確而造成的轉(zhuǎn)寫錯(cuò)誤,這種情況還需要人工針對(duì)新的文本情況進(jìn)行問題分析并修正相應(yīng)的規(guī)則。

5 結(jié)語

論文中主要討論了基于小字符集編碼的藏文音節(jié)拉丁轉(zhuǎn)寫的實(shí)現(xiàn)方法。本文采用的拉丁轉(zhuǎn)寫規(guī)則依據(jù)藏語聲韻母體系進(jìn)行,規(guī)則中只需要完善藏文聲母拉丁對(duì)照表和藏文韻母拉丁對(duì)照表,就可以轉(zhuǎn)換所有的藏字,所需要的庫很小,可移植性強(qiáng)。但是由于藏文本身存在一些梵文和外來的新造詞,這些詞語在基字判別上可能會(huì)出現(xiàn)錯(cuò)誤,因此需要在以后的工作中進(jìn)一步完善部件識(shí)別規(guī)則,最終實(shí)現(xiàn)一個(gè)完整的藏文轉(zhuǎn)寫拉丁字母系統(tǒng)。

[1] 陳麗娜.藏文拉丁轉(zhuǎn)寫的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2006,01: 15-17.

[2] 江荻.藏文的拉丁字母轉(zhuǎn)寫方法[J]. 民族語文,2006,01: 45-53.

[3] 祁坤鈺.基于國際標(biāo)準(zhǔn)編碼系統(tǒng)的藏文拉丁文轉(zhuǎn)寫規(guī)則模型[J]. 西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,03: 15-18.

[4] 康才畯,江荻. 基于Unicode編碼的藏文轉(zhuǎn)寫拉丁文本的算法[A].中國中文信息學(xué)會(huì).中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011).中國中文信息學(xué)會(huì),2011: 5.

[5] 江荻,周季文. 論藏文的序性及排序方法[J]. 中文信息學(xué)報(bào),2000,01: 56-64.

[6] 才旦夏茸.藏文文法詳解[M].西寧:青海民族出版社,1988.

[7] 關(guān)白,才科扎西.現(xiàn)代藏文音節(jié)字自動(dòng)校對(duì)研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2012,29: 151-156.

[8] 才智杰.藏文自動(dòng)分詞系統(tǒng)中緊縮詞的識(shí)別[J]. 中文信息學(xué)報(bào),2009,01: 35-37.

[9] 扎西次仁.國際標(biāo)準(zhǔn)藏文計(jì)算機(jī)編碼字符集的研究[J]. 中國藏學(xué),1995,02: 127-143.

[10] 周季文.藏文拼音教程[M],北京: 民族出版社,1983,10.

[11] 江荻,龍從軍.藏文字符研究: 字母、讀音、編碼、字頻、排序、圖形、拉丁字母轉(zhuǎn)寫[M],北京: 社會(huì)科學(xué)文獻(xiàn)出版社,2010,08.

Design and Implementation of the Tibetan Transcription SystemBased on Small Character Set

CHEN Xiaoying, AI Jinyong

(1. School of Information Engineering,Tibet University for Nationalities,Xianyang,Shanxi 712082,China;2. Library of Tibet University for Nationalities,Xianyang,Shanxi 712082,China)

With the rapid development of information technology in Tibetan language,Tibetan transcription into Latin becomes an important issue. This article designs and realizes such a transcription system that based on a small character set. According to the Tibetan orthography knowledge,the paper proposes the transcription algorithm according the characteristics of a small Tibetan/Latin character set encoding. The implementation of the Tibetan Latin transcription system can solve compatibility issues between the different Tibetan codes.

Tibetan; Latin transliteration; small character sets; placeholder consonant

陳小瑩(1983—),實(shí)驗(yàn)師,碩士,主要研究領(lǐng)域?yàn)閷?shí)驗(yàn)語音學(xué)及計(jì)算機(jī)應(yīng)用。E?mail:ajycyt@126.com艾金勇(1983—),館員,碩士,主要研究領(lǐng)域?yàn)椴匚男畔⑻幚?。E?mail:ajy0529@126.com

2014-05-20 定稿日期: 2014-11-06

西藏自治區(qū)科技廳項(xiàng)目(2015ZR-14-19)

1003-0077(2016)03-0074-05

TP391

A

猜你喜歡
字符集拉丁藏文
拉丁方秘密共享方案
西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
布達(dá)拉(2020年3期)2020-04-13 10:00:07
MySQL數(shù)據(jù)庫字符集的問題研究
ORACLE字符集問題的分析
拉丁新風(fēng)
黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
西夏學(xué)(2019年1期)2019-02-10 06:22:34
愛美的拉丁老師
ORACLE數(shù)據(jù)庫字符集問題及解決方法
醫(yī)院信息系統(tǒng)Oracle數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)中文亂碼的解決技術(shù)
藏文音節(jié)字的頻次統(tǒng)計(jì)
革吉县| 通城县| 林周县| 始兴县| 蒙城县| 平遥县| 和政县| 永顺县| 普兰店市| 鄄城县| 资源县| 馆陶县| 丹阳市| 京山县| 汤阴县| 石狮市| 江西省| 邵阳县| 襄樊市| 灵川县| 额尔古纳市| 乾安县| 枣强县| 会理县| 武平县| 突泉县| 黄龙县| 桂林市| 福建省| 惠水县| 双辽市| 来宾市| 法库县| 康定县| 阜城县| 莱阳市| 江津市| 营山县| 北海市| 霍山县| 吕梁市|