国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

烏茲別克語—維吾爾語雙語語料庫構(gòu)建平臺的設計與實現(xiàn)

2017-06-05 13:37阿西穆·托合提早克熱·卡德爾吐爾根·
電腦知識與技術 2017年7期
關鍵詞:維吾爾語

阿西穆·托合提 早克熱·卡德爾 吐爾根·依布拉音 艾山·吾買爾

摘要:在語言研究和機器翻譯中,創(chuàng)建對齊的語料庫是極其重要的基礎工作之一。由于烏茲別克語和維吾爾語之間存在著一定的相似性,待翻譯的烏茲別克語句子和轉(zhuǎn)換得到的維吾爾語句子的語法結(jié)構(gòu)和詞序是相似的。該文利用兩種語言之間的這種相似關系設計并實現(xiàn)了烏茲別克語一維吾爾語雙語語料庫構(gòu)建平臺,用該平臺可以簡單的轉(zhuǎn)換字母生成譯文,并對原文和譯文分詞,不僅實現(xiàn)句子級別的對齊任務,還能實現(xiàn)詞語級別的對齊任務。用該平臺已經(jīng)構(gòu)建了包含8124條句對的雙語對齊語料庫。

關鍵詞:鳥茲別克語;維吾爾語;雙語語料庫;轉(zhuǎn)換規(guī)則

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)07-0001-02

1背景

隨著一帶一路戰(zhàn)略的提出,中亞地區(qū)各國家之間的政治、經(jīng)濟、文化交流越來越深入,在這種廣泛交流中,語言成為最大的障礙。為解決語言溝通問題,需要研究并實現(xiàn)中亞主要語言之間的機器翻譯系統(tǒng)。維吾爾語和烏茲別克語都屬于阿爾泰語系突厥語族,這兩種語言的構(gòu)詞法和語法很相似,因此實現(xiàn)這兩種語言之間的機器翻譯系統(tǒng),比其他語言之間的機器翻譯系統(tǒng)更加簡單。烏茲別克語一維吾爾語機器翻譯系統(tǒng)不僅能解決這兩個民族之間的交流問題,還能為實現(xiàn)漢語和烏茲別克語機器翻譯提供基礎。機器翻譯系統(tǒng)中最關鍵的部分是雙語語料庫,雙語語料庫的質(zhì)量和規(guī)模直接影響最終的結(jié)果。雙語語料庫的構(gòu)建過程比較繁瑣,需要借助一定的工具才能實現(xiàn)高質(zhì)量的雙語語料庫。因此本文利用C#語言設計并實現(xiàn)了烏茲別克語一維吾爾語雙語語料庫構(gòu)建平臺。該平臺不僅可以存儲語料數(shù)據(jù),還能對雙語語料進行一定的加工處理,為機器翻譯做好基礎工作。

2工具設計與實現(xiàn)

2.1開發(fā)思路

烏茲別克語一維吾爾語雙語語料庫平臺的最終目標是為了更簡單的構(gòu)建對齊語料庫。為了能夠快速的構(gòu)建語料庫,首先要分析烏茲別克語和維吾爾語詞語、句子結(jié)構(gòu)和詞法形式并對比烏茲別克語和維吾爾語句子構(gòu)詞循序和和位置。平臺中烏茲別克語到維吾爾語系統(tǒng)翻譯和人工翻譯互相結(jié)合,然后再進行人工糾正,最后保存烏茲別克語一維吾爾語句對,完成句對庫的建設。同時,因兩種語言的句子結(jié)構(gòu)相同,詞數(shù)相同的句子按空格分詞,生成對齊的烏茲別克語一維吾爾語單詞對齊表并保存數(shù)據(jù)庫,建庫的同時不斷地擴展詞典,引用結(jié)合詞典和規(guī)則的方法更簡單更快的構(gòu)建雙語對齊的語料庫。

構(gòu)建語料庫步驟如下:

1)先將烏茲別克語文本輸入到工具的文本框;

2)然后對烏茲別克語按轉(zhuǎn)換規(guī)則進行轉(zhuǎn)換生成譯文并人工糾正句子;

3)再次把翻譯好的烏茲別克語和維吾爾語言平行句對進行分詞并保存數(shù)據(jù)庫。

2.1.1烏-維字母對應關系

烏茲別克語有29個字母,包括6個元音,23個輔音;維吾爾語有32個字母,8個元音,24個輔音。通過研究發(fā)現(xiàn)烏茲別克語和維吾爾語之間可以使用字母轉(zhuǎn)換能得到翻譯結(jié)果,雖然準確率沒有達到可以直接使用的程度,但有助于進行后續(xù)的機器翻譯。下面是烏茲別克語—維吾爾語語言字母對照表如下表1所示;

表1可以看出烏茲別克語跟維吾爾語的字母數(shù)量不同,字母之間存在一對一和一對多對應關系,本文考慮一對一的情況來翻譯烏茲別克語文本。

2.1.2平臺工作流程

首先輸入烏茲別克語文本,用規(guī)則或人工翻譯成維吾爾語文本,準備好句對后保存到數(shù)據(jù)庫。然后用簡單的分詞辦法把句對分詞,查看分詞結(jié)果是否正確,對齊的單詞是否合理,如果正確則保存數(shù)據(jù)庫。

2.2數(shù)據(jù)庫設計

用本文設計的平臺將待譯文本翻譯完成后,把所有預備的語料存到該數(shù)據(jù)庫中,然后進行句對的分詞和對齊后,可以從該表中瀏覽所有的句對并對它們進行相應的操作,比如刪除、修改、查詢等。數(shù)據(jù)庫是用mysql5.5完成的,下面是單詞和句子數(shù)據(jù)表的詳細設計:按照上述設計建立表后,把句子和分好的單詞保存在相應的數(shù)據(jù)表,以便后期操作。

2.3程序設計

程序的功能有查詢數(shù)據(jù)庫內(nèi)容、分頁、讀文件、保存文本、轉(zhuǎn)換文本得到譯文、分詞、分好的單詞保存數(shù)據(jù)庫和文件、清除信息、新詞添加和查看添加的新詞等。程序是用C#在visuat-studi02016環(huán)境下下開發(fā)的,C#開發(fā)語言是面向?qū)ο蟾呒夐_發(fā)語言,對于開發(fā)桌面應用上是最好的選擇,隨著信息技術的發(fā)展,廣泛引用在信息處理上。程序截面圖如下圖2所示:

下面是轉(zhuǎn)換功能偽代碼:

以上代碼中uzWord是句子里面的一個詞,UzUyDict是烏茲別克語一維吾爾語詞典,如果能找到匹配的單詞了,就不需要使用規(guī)則。UzUyRuleTable是轉(zhuǎn)換規(guī)則庫,在詞典里找不到匹配的單詞,則用規(guī)則來轉(zhuǎn)換字母生成翻譯。

分詞是譯文生成后按照烏茲別克語句子和維吾爾語句子按照空格來分詞,如果詞數(shù)相同表示每個維吾爾語單詞對應著同位置的烏茲別克語單詞,則可以直接分詞保存到數(shù)據(jù)庫,如果詞數(shù)不同,對分詞的結(jié)果做適當?shù)母恼4鏀?shù)據(jù)庫或可以用“其他新詞”窗口添加詞組。如果一個烏茲別克語單詞表示的意思是一個詞組,那應該做適當?shù)恼{(diào)整來保存到數(shù)據(jù)庫。

3結(jié)束語

烏茲別克語一維吾爾語雙語語料庫構(gòu)建平臺能夠幫助用戶簡單快速地建立雙語語料庫。通過該平臺把烏茲別克語句子翻譯成維吾爾語句子并保存數(shù)據(jù),同時也可以將句對分詞,快速地建立詞對并保存到詞典里。此系統(tǒng)不僅能引用于烏茲別克語一維吾爾語之間的雙語語料庫建立,還能使用在哈薩克語一維吾爾語,烏茲別克語一哈薩克語等突厥族的語言中,只需要建立一個字母對齊規(guī)則庫。

猜你喜歡
維吾爾語
淺析維吾爾語表可能語氣詞
統(tǒng)計與規(guī)則相結(jié)合的維吾爾語人名識別方法
維吾爾語指示詞的語用研究
維吾爾語話題的韻律表現(xiàn)
中國維吾爾語、塔吉克語親屬稱謂對比研究
指稱在維吾爾語語篇中的銜接方式及其功能
維吾爾語主謂句SV句的語義結(jié)構(gòu)分析
維吾爾語詞重音的形式判斷
漢語動結(jié)式在維吾爾語中的表現(xiàn)形式
現(xiàn)代維吾爾語中“-0wat-”的進行體特征