国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

藏文數(shù)詞自動檢錯研究

2020-01-16 06:51冷本杰高定國
電子技術(shù)與軟件工程 2019年21期
關(guān)鍵詞:詞法數(shù)詞藏文

文/冷本杰 高定國

1 引言

文本校對是自然語言處理領(lǐng)域重要的研究課題,在計算機自動生成語料、機器翻譯、文本檢索、版面分析、手寫體識別等研究領(lǐng)域和后期的文本編輯中有著廣闊的應(yīng)用前景。藏文數(shù)詞檢錯是藏文詞校對的一部分,也是錯誤出現(xiàn)頻率較高,且相對于藏文音節(jié)檢錯而言,檢錯需要觀察前后出現(xiàn)的字節(jié),根據(jù)音位環(huán)境的變形情況而檢錯的局部校對,所以藏文數(shù)詞檢錯實現(xiàn)難度較大。

藏文文本校對研究開始于20世紀90年代,目前文本校對方面的研究內(nèi)容有通過采用字典匹配法和根據(jù)藏文字母的構(gòu)建規(guī)則,應(yīng)用規(guī)則完成音節(jié)字拼寫檢錯;根據(jù)傳統(tǒng)文法中的藏文虛詞添接規(guī)則,生成一定規(guī)模的規(guī)則庫來檢查藏文虛詞(自由虛詞)的接續(xù)關(guān)系;再用以上藏文音節(jié)字和接續(xù)關(guān)系的檢查外,進行分詞,完成梵文轉(zhuǎn)寫藏文拼寫檢查、詞語錯誤檢查以及綜合校對的框架設(shè)計及實現(xiàn)等研究。藏文詞校對方面的研究成果大多屬于理論性研究,具體實現(xiàn)中所使用方法的是詞典匹配法,這就需要龐大的詞典作為校對系統(tǒng)的基礎(chǔ)。詞典中通常收錄的數(shù)詞有基礎(chǔ)的(一)到(十)、(百)、(千)、(萬)、(十萬)、(百萬)、(千萬)、(億)等數(shù)詞、特殊的變形詞以及有特殊含義或和其它詞性搭配的數(shù)詞。藏文數(shù)詞的組詞功能強大,變化多,導(dǎo)致詞典無法收錄文本中可能產(chǎn)生的所有數(shù)詞。

2 藏文數(shù)詞檢錯的理論依據(jù)

2.1 藏文數(shù)詞的詞法規(guī)范研究

2.1.1 文本表示藏文數(shù)詞

數(shù)詞顧名思義,就是表示數(shù)目的詞語,屬于語法概念。不同語言中對數(shù)字有特殊簡易的表示符號。比如常用的世界通用阿拉伯數(shù)字,羅馬數(shù)字等。藏文中也有特定的數(shù)字符號,如表1所示。如果在常用文本中都使用這些數(shù)字符號,數(shù)詞的詞法規(guī)范問題就很簡單,但是正規(guī)文檔和大多數(shù)傳統(tǒng)文本書籍中絕大多數(shù)都是以文本表示數(shù)詞。比如:

2.1.2 藏文數(shù)位表示

藏文數(shù)詞通常主要分為計數(shù)詞和序列詞。序列詞是表示次序的詞,在具體語言中通常會前面出現(xiàn)(第)、(數(shù))等詞,或后面會出現(xiàn)、等詞綴[9]。傳統(tǒng)的藏族天文歷算中計數(shù)詞可以列到六十位(),其中基礎(chǔ)的藏文計數(shù)詞有(一)、(二)、(三)、(四)、(五)、(六)、(七)、(八)、(九)、(十)、(百)、(千)、(萬)、(十萬)、(百萬)、(千萬)、(億)等,其余的很少使用,所以不在贅述。

表1:數(shù)字符號

表2:數(shù)詞變形規(guī)則表

2.1.3 藏文數(shù)詞和數(shù)位詞發(fā)生形變

藏文基本的計數(shù)詞合成形成其余數(shù)詞時,不能像漢語那樣直接搭配,而會根據(jù)具體的音位環(huán)境變形。比如:(十五)、(二十)、(二 十 一)、(三 十 三)、(七十六)。藏文數(shù)詞變形規(guī)則如表2所示。

藏文數(shù)詞的變形有如下規(guī)律:

(1)藏文數(shù)詞中表達個位數(shù)時,不論計數(shù)還是序數(shù)都會使用數(shù)詞原形。比如:(一束花)、(吉祥八寶)、(第二名);

(3)個位和十位數(shù)合成出現(xiàn)時,個位數(shù)的數(shù)詞會出現(xiàn)變形現(xiàn)象,會用(二)、(三)、(四)、(五)、(六)、(七)、(八)、(九)來代替數(shù)詞原形。比如:(二十一)、(三十三)、(四十五)、(五十六)、(六十七)、(八十九)、(九十一);

(5)藏文日期中通常表達二十至二十九號時,中間不會加變形體(二);而表示人的年齡、金錢余額等物質(zhì)數(shù)量時中間的(二)用來代替。比如:(今天是二十三號)(二十五歲男兒)。

2.2 藏文數(shù)詞的特性分析

藏文數(shù)詞出現(xiàn)在文本除了單純的數(shù)字表示之外大多數(shù)是在修飾名詞。修飾名詞時通常名詞出現(xiàn)在數(shù)詞前面,所修飾的名詞有所有復(fù)數(shù)可數(shù)名詞和方位詞或處所名詞,修飾方式有直接修飾和間接修飾名詞。直接修飾可數(shù)名詞例如:(五個人)、(六公里)、(17m2)、(一 千 斤)、(兩百畝)、(三天)、(兩個任務(wù));直接修飾方位詞或處所名詞例如:兩方)、(四方)、(兩面)、(兩岸);間接修飾名詞時通常名詞和數(shù)詞中間出現(xiàn)一些量詞(種)、(次)、(部)和其他特殊詞(數(shù))、(倍)、(各種)、(總共)、(一共)。

另外也有數(shù)詞和動詞組合在一起,形成一種語義獨立的詞匯來修飾名詞,這時數(shù)詞通常不會實指具體的數(shù)目,而是泛指多或少,統(tǒng)一或部分、連續(xù)或擴散等和數(shù)量有關(guān)的含義。比 如:(統(tǒng) 一)、(集 中) 、(專心致志)、(集中力量)、(連續(xù)不斷)、(九煞畢集)。數(shù)詞和動詞組合一起時也可以中間添加虛詞來連接一起。比如:(連接)、(集中)。

2.3 藏文數(shù)詞的常見詞法錯誤分析

通過遍歷大小為176MB的藏文新聞?wù)Z料,抽取數(shù)詞的前后共五個字節(jié),分析詞法錯誤情況,發(fā)現(xiàn)藏文數(shù)詞的詞法應(yīng)用錯誤主要是原形與變體混用導(dǎo)致錯誤。數(shù)詞中(一)、(二)、(三)和變形詞(一)、(二)、(三)的具體用法混淆,例如:(兩千年)寫成(兩千年)。數(shù)詞和變形詞在數(shù)詞合成中需要查看前一個音節(jié),而具體的應(yīng)用中常出現(xiàn)用法混淆現(xiàn)象。例如:(六十),(四十)。

3 藏文數(shù)詞自動檢錯算法設(shè)計

3.1 藏文數(shù)詞自動檢錯算法設(shè)計

藏文中基礎(chǔ)的數(shù)詞很少,但出現(xiàn)頻率較高,這些基礎(chǔ)數(shù)詞會通過內(nèi)部合成或和其它詞性搭配形成更多的詞。文本中出現(xiàn)的藏文數(shù)詞搭配錯誤種類少、有規(guī)則可循,所以按照一定規(guī)則可以完成常見錯誤的檢錯。

按照藏文數(shù)詞的規(guī)范、特征、設(shè)計的藏文數(shù)詞檢錯算法如下:

(1)讀取待檢錯的藏文文本內(nèi)容,以藏文音節(jié)點作為分隔符,將文本切分成音節(jié)字序列,然后每個字符存儲在字符串數(shù)組String[] str中,字符串str數(shù)組如T=Z1+Z2+……Zn-1+Zn來表示,其中Zn是一個藏文音節(jié)字。

(3)如果Zn與藏文基礎(chǔ)數(shù)詞匹配成功,則執(zhí)行(4),否則繼續(xù)匹配。

(4)判斷基礎(chǔ)數(shù)詞前后出現(xiàn)以下字符串數(shù)組時按變形規(guī)律檢錯。

圖1:藏文數(shù)詞檢錯流程

圖2:藏文數(shù)詞檢錯測試結(jié)果

按以上設(shè)計的算法和流程圖實現(xiàn)藏文檢錯過程如下:

3.2 藏文數(shù)詞自動檢錯算法測試

本次測試,為了體現(xiàn)檢錯算法的實際效果,測試文本主要選用詞法錯誤統(tǒng)計處理后的語料,內(nèi)容是基礎(chǔ)數(shù)詞以及前后共五個音節(jié)字符,每五個字節(jié)有單垂符隔開。將測試文本進行自動檢錯,檢錯完成的結(jié)果保存到一個新文本中,結(jié)果如圖2所示。

雖然以上算法可以完成簡單的常見藏文數(shù)詞詞法上的錯誤檢錯,但也有以下兩點缺陷:

(1)藏文基礎(chǔ)數(shù)詞的音節(jié)拼寫錯誤以及和音節(jié)錯誤合成的詞法錯誤無法檢錯,如(一)、(三千)等。

(2)藏文數(shù)詞中有兼類詞,這些兼類詞有時恰好和數(shù)詞連續(xù)出現(xiàn),雖然數(shù)量極少,但也有出現(xiàn)如(兩層寶座)、(空屋三頂)的可能,這時檢錯算法會檢錯失誤,出現(xiàn)錯誤糾正的現(xiàn)象。

4 結(jié)束語

藏文文本中數(shù)詞有嚴格的詞法合成規(guī)范,卻詞法錯誤出現(xiàn)頻繁。本文詳細分析了藏文數(shù)詞的變形情況、語法特征、搭配規(guī)律等知識,通過統(tǒng)計分析常見的詞法錯誤,提出了基于規(guī)則的數(shù)詞合成檢錯算法,利用該方法檢錯成功率達到100%。

猜你喜歡
詞法數(shù)詞藏文
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
數(shù)詞
黑水城和額濟納出土藏文文獻簡介
談對外漢語“詞法詞”教學
藏文音節(jié)字的頻次統(tǒng)計
現(xiàn)代語境下的藏文報刊
對聯(lián)中數(shù)詞的藝術(shù)運用(下)
2010年高考英語“相似”考題例析
英語數(shù)詞順口溜等
數(shù)詞專練