国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于規(guī)則的維吾爾語、哈薩克語機器翻譯?

2016-11-28 06:26:36如克燕木吾斯曼江買熱哈巴艾力吐爾根依布拉音
關(guān)鍵詞:詞干哈薩克語詞尾

如克燕木吾斯曼江,買熱哈巴艾力,吐爾根依布拉音

(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊830046;2.新疆大學(xué)新疆多語種信息技術(shù)重點實驗室,新疆烏魯木齊830046)

0 引言

機器翻譯又稱為自動翻譯,是利用計算機將一種自然語言轉(zhuǎn)換成另一種自然目標(biāo)語言的過程.機器翻譯的實現(xiàn)將克服使用不同語言者之間的語言障礙.機器翻譯的研究是建立在計算機科學(xué)、語言學(xué)、數(shù)學(xué)這三門學(xué)科的基礎(chǔ)上.自然語言的復(fù)雜性使得機器翻譯的實現(xiàn)極為困難,至今機器翻譯是一項非常具有挑戰(zhàn)性的課題.機器翻譯主要方法包括基于規(guī)則的方法、基于語料庫的方法、基于統(tǒng)計的方法與基于實例的方法.

維吾爾語和哈薩克語都屬于阿爾泰語系突厥語族,屬于接近語言.維吾爾語使用人口約有1 200萬.哈薩克語使用人口約1 740萬,在中國約150萬左右.由于維吾爾語、哈薩克語在詞結(jié)構(gòu)、構(gòu)形、語法、句法等方面有很多相同或相似之處,因此,實現(xiàn)維吾爾語、哈薩克語機器翻譯相對比較簡單.我們的目的是建立基于規(guī)則的維吾爾語、哈薩克語機器翻譯系統(tǒng).

1 相關(guān)工作

機器翻譯的研究不僅包括非接近(non-closed)語言之間的翻譯(如:英語和俄語之間),還包括接近(closed)語言之間的翻譯(如:土耳其語和克里米亞韃靼語之間).接近語言之間的機器翻譯研究從上世紀(jì)80年代開始.1987年Jan Haji開發(fā)了捷克俄羅斯機器翻譯系統(tǒng)RUSLAN,他們采用了基于規(guī)則的方法,翻譯準(zhǔn)確率達(dá)到了80%[1].2000年Jan Haji開發(fā)了兩個斯拉夫語之間語言:捷克語斯洛伐克語機器翻譯系統(tǒng),采用了基于規(guī)則的方法,準(zhǔn)確率達(dá)到了90%[2].2001年Kemal Alt?nta開發(fā)了土耳其語克里米亞韃靼語機器翻譯系統(tǒng),也是采用基于規(guī)則的方法,翻譯準(zhǔn)確率達(dá)到了80%[3].2003年Garrido Alenda開發(fā)了基于開源的淺轉(zhuǎn)移葡萄牙語西班牙語機器翻譯Apertium,并提出改進(jìn)系統(tǒng)架構(gòu)來提高翻譯質(zhì)量的方法[4].以后將機器翻譯工作廣大到其他一些斯拉夫語言,如波蘭、塞爾維亞和立陶宛(Jan Haji)[5].2005年M.Corbi開發(fā)的基于開源的淺轉(zhuǎn)移西班牙拉丁語機器翻譯系統(tǒng)已經(jīng)實現(xiàn),并提供給公眾使用[6].根據(jù)以上的研究,接近語言之間的翻譯采用規(guī)則的方法比較簡單和容易實現(xiàn).維吾爾語和哈薩克語屬于接近語言.由于維吾爾語、哈薩克語在詞結(jié)構(gòu)、構(gòu)形、句法等方面有很多相同或相似之處,因此,本文用基于規(guī)則的方法來實現(xiàn)維吾爾語、哈薩克語機器翻譯.

2 維吾爾語和哈薩克語的比較

維吾爾語(uyghur)屬于阿爾泰語系突厥語族葛邏祿分支,哈薩克語(kazak)屬于阿爾泰語系突厥語族欽察分支,都屬于黏著型語言[7].黏著型語言的特點體現(xiàn)在強大的派生能力及豐富的構(gòu)形上.粘著性語言的一個詞可連接不同的詞尾構(gòu)成不同的形態(tài),在句子中有不同的語法意義.維吾爾、哈薩克語兩種語言都具有黏著性語言的以上特性,但在語法方面有一定的差別.這兩種語言之間的主要的異同點可歸納為如下幾種:

1.字母方面:維吾爾語共有32個字母即8個元音和24個輔音,而哈薩克語有33個字母即9個元音和24個輔音.

2.音節(jié)方面:維吾爾語和哈薩克語一樣,每個詞都是由一個或一個以上的音節(jié)組成.音節(jié)由一個元音或一個元音和一個或多個輔音組成.維吾爾語和哈薩克語音節(jié)結(jié)構(gòu)大致上一樣,形式包括:A、AB、BA、BAB、ABB、BABB等,其中A表示元音,B表示輔音.

3.詞法方面:維吾爾、哈薩克兩種語言都有名詞的人稱、數(shù)、格范疇;動詞的否定、人稱、數(shù)、時、式、態(tài)、體范疇;形容詞的級范疇等.維吾爾、哈薩克語言都有豐富的詞尾,但屬于同一個范疇的詞尾數(shù)量互不相同.比如:維吾爾語名詞的復(fù)數(shù)詞尾有兩種“-ler/-lar”,而哈薩克語名詞的復(fù)數(shù)詞尾有“-lar/-ler/-tar/-ter/-dar/-der”.不管是哪一種語言,對于某個詞干綴接其中哪個復(fù)數(shù)詞尾完全取決于語音和諧規(guī)則[8].如表1所示.

表1 維吾爾語、哈薩克語詞尾綴接對比表

從表中可以看出,維吾爾語詞干需接復(fù)數(shù)詞尾只從“-lar或-ler”中選一即可,哈薩克語詞干需要從6個表示復(fù)數(shù)的詞尾中選一.同時,維吾爾語名詞復(fù)數(shù)詞尾“l(fā)ar”的連接規(guī)則與哈薩克語名詞復(fù)數(shù)詞尾“-lar,-tar,-der”相似;維吾爾語詞尾“-ler”的連接規(guī)則與哈薩克語詞尾“l(fā)er,-ter,-dar”相似.兩種語言詞尾之間的這種一對多或者多對多的映射情況非常普遍.

4.句法方面:維吾爾語和哈薩克語的句子結(jié)構(gòu)相同,都屬于SOV結(jié)構(gòu),并且句子中的詞序也相同.如圖1所示.

圖1 維吾爾、哈薩克語句子結(jié)構(gòu)

圖中上一行是一條維吾爾語句子,表示“車半小時后到”,下面是對應(yīng)的哈薩克語句子,可看出兩者句子中對應(yīng)詞在句子中的詞序幾乎是相同的.

根據(jù)以上分析可知,維吾爾、哈薩克語之間的機器翻譯利用規(guī)則的方法實現(xiàn)是完全可行的.從某種角度講,維吾爾、哈薩克語機器翻譯可以看成是對應(yīng)詞替換的結(jié)果,但實際上遠(yuǎn)比詞替換復(fù)雜得多,因為還得考慮以下幾點:(1)詞的不同形態(tài)問題.維吾爾語中一個詞有多種形態(tài),如:kitab(書),kitabim(我的書),kitabimizdin(從我們的書中),kitabning(書的),kitabi(她的書),kitablarim(我的幾本書),kitabingni(把你的書)等等.顯然給詞替換帶來困難,也會導(dǎo)致數(shù)據(jù)稀疏問題.為克服此問題,應(yīng)對維吾爾語詞進(jìn)行詞法分析并分出詞干和各詞尾;(2)維吾爾、哈薩克語詞干之間的對應(yīng)關(guān)系可利用維吾爾、哈薩克語詞典獲得,但需要處理維吾爾、哈薩克語詞尾之間的映射問題;(3)得到哈薩克語詞干和詞尾后需要根據(jù)哈薩克語的語音和諧規(guī)則,重新生成正確的哈薩克語詞.

根據(jù)以上分析,我們設(shè)計了維吾爾、哈薩克語機器翻譯系統(tǒng):首先對維吾爾語詞進(jìn)行詞法分析得到詞干和詞尾;其次,根據(jù)維吾爾、哈薩克語詞典以及維吾爾、哈薩克語詞尾映射表將維吾爾語詞尾轉(zhuǎn)換成哈薩克語詞尾;最后,將上步取得的哈薩克語詞干和詞尾結(jié)合生成哈薩克語詞.

3 維吾爾、哈薩克語機器翻譯系統(tǒng)的架構(gòu)

基于規(guī)則的維吾爾語、哈薩克語機器翻譯系統(tǒng)的架構(gòu)如圖2所示.

圖2 維吾爾、哈薩克語機器翻譯架構(gòu)圖

3.1 維吾爾語形態(tài)分析

維吾爾語形態(tài)分析是維吾爾、哈薩克語機器翻譯中需要完成的第一步且是最重要的部分[9],其目的是得到維吾爾語詞的詞干和詞尾,以便使用詞典找到維吾爾語詞對應(yīng)的哈薩克語詞.維吾爾、哈薩克語詞典收錄的詞項都是詞干,查找未經(jīng)過詞法分析的詞容易導(dǎo)致未登錄詞的出現(xiàn).以下面給出的維吾爾文句子以及相應(yīng)的形態(tài)結(jié)構(gòu)例句.

維吾爾文原句:men ingiliz tiliüginishni yaxshi k′orimen(我喜歡學(xué)英語).

形態(tài)分析后:men ingiliz til+i uginish+ni yaxshi k′or+I+men.

通過詞法分析后得到的詞干可從維吾爾、哈薩克語詞典中查找.為此,我們需要一部維吾爾、哈薩克語詞典.

3.2 維吾爾、哈薩克語詞典及維吾爾、哈薩克語詞尾映射表的構(gòu)建

維吾爾、哈薩克語機器翻譯中,詞典占據(jù)極其重要的地位.整個翻譯過程中,維吾爾語詞干是利用維吾爾、哈薩克語詞典將當(dāng)前維吾爾語詞干翻譯成相應(yīng)的哈薩克語詞干.詞典的覆蓋面直接影響翻譯質(zhì)量,也與未登錄詞的數(shù)量正相關(guān).目前,還未發(fā)現(xiàn)公開發(fā)布的維吾爾、哈薩克語機讀詞典.為提高翻譯質(zhì)量,我們構(gòu)建了一定規(guī)模的維吾爾、哈薩克語對應(yīng)詞典,目前詞典詞條數(shù)量達(dá)到了7 000個,主要以新聞領(lǐng)域詞條為主.同時構(gòu)建了維吾爾語詞尾和哈薩克語詞尾之間的映射表.維吾爾語與哈薩克語的詞尾數(shù)量雖不一樣,但它們所屬的范疇一樣,它們之間的映射是多對多的關(guān)系.根據(jù)此特性,我們構(gòu)建了分類的維吾爾、哈薩克語詞尾映射表,用于將當(dāng)前詞尾轉(zhuǎn)換成相應(yīng)的哈薩克語詞尾.由于資源的匱乏,我們只對動詞、名詞和形容詞的詞法范疇構(gòu)建詞尾映射表,見表2.

表2 維吾爾、哈薩克語詞尾映射表

3.3 哈薩克語詞干、詞尾結(jié)合規(guī)則庫的建立

建立結(jié)合規(guī)則庫的主要目的就是將以上步驟得到的哈薩克語詞干與詞尾重新組合成哈薩克語的自然詞.前面已分析,維吾爾、哈薩克語詞尾之間存在著多對多的關(guān)系,當(dāng)前哈薩克語詞干應(yīng)與同一類詞尾中哪個詞尾結(jié)合是根據(jù)結(jié)合規(guī)則庫來完成.為此,我們根據(jù)哈薩克語的語音和諧規(guī)律以及詞尾的連接規(guī)則,構(gòu)建了哈薩克語詞干、詞尾結(jié)合規(guī)則庫.下面以綴接名詞復(fù)數(shù)詞尾為例,介紹了規(guī)則庫的基本內(nèi)容.

哈薩克語名詞復(fù)數(shù)詞尾有{lar,ler,dar,der,tar,ter}對當(dāng)前詞干接其中哪個詞尾是通過以下規(guī)則來完成:

if(詞以元音“a,u,i,o”結(jié)尾或濁輔音“r,w,y”結(jié)尾詞的最后音節(jié)包括“a,u,i,o”);

then 詞干=詞干+ “l(fā)ar”;

else if(詞以元音“e,′u,′o,′?”結(jié)尾或清輔音“p,f,t,s,ch,sh,k,q,x,xh”結(jié)尾詞的最后音節(jié)包括“e,′u,′o,′?”);then 詞干=詞干+ “ter”;

else if(詞以元音“a,u,i,o”結(jié)尾或濁輔音“z,n,j,l,m,ng” 結(jié)尾詞的最后音節(jié)包括“a,u,i,o”);

then 詞干=詞干+ “dar”;

..................

3.4 目標(biāo)語言的生成

目標(biāo)語言生成,是維吾爾、哈薩克語機器翻譯系統(tǒng)的最后步驟.根據(jù)以上步驟得到相應(yīng)的哈薩克語詞,構(gòu)建當(dāng)前維吾爾語句子的哈薩克語譯文.如下圖3描述維吾爾語句子“xizmetke chiqidighan waqit boldi.”(上班時間到了)的翻譯過程:

圖3 維吾爾、哈薩克語機器翻譯過程圖

4 實驗

機器翻譯評價方法有兩種形式:自動評測和人工評測.本實驗中人工評測標(biāo)準(zhǔn)從“可懂度”和“忠實度”兩個方面進(jìn)行.首先從新疆大學(xué)自然語言處理實驗室構(gòu)建的維吾爾語語料庫中選500條句子,邀請5個即會維吾爾語、也會哈薩克語的評測人員.要求參加評測人員根據(jù)參考文對每一句子給出1到4之間的值.自動評測主要用的是BLEU方法.

先對動詞和名詞的詞法范疇構(gòu)建詞尾結(jié)合規(guī)則庫進(jìn)行實驗(詞典詞條數(shù)量5 000),實驗結(jié)果見表3.

表3 系統(tǒng)翻譯評價結(jié)果

然后對形容詞的詞法范疇構(gòu)建詞尾結(jié)合規(guī)則庫進(jìn)行實驗(詞典詞條數(shù)量7 000),實驗結(jié)果見表4.

表4 系統(tǒng)翻譯評價結(jié)果

實驗結(jié)果表明我們制定的維吾爾、哈薩克語機器翻譯方案可行,但翻譯質(zhì)量不夠理想.究其原因:第一,未能得到大規(guī)模維吾爾、哈薩克語詞典,需要我們自己建立.而我們?yōu)榇舜螌嶒灉?zhǔn)備的詞典規(guī)模非常小,導(dǎo)致翻譯結(jié)果出現(xiàn)很多未登錄詞.第二,維吾爾語中多詞表達(dá)及命名實體無法用詞典替換的方式獲得對應(yīng)的譯文.第三,因為詞典問題,只對維吾爾語中動詞、名詞與形容詞的詞法范疇構(gòu)建詞尾結(jié)合規(guī)則庫,所以在實驗中有些詞尾翻譯不出來詞,源語言中除了名詞和動詞之外其它詞性的都呈現(xiàn)為未登錄詞.

針對以上問題,首先需要增加詞典規(guī)模,以及構(gòu)建維吾爾、哈薩克語命名實體對應(yīng)表.同時抓緊構(gòu)建其它詞性之間的對應(yīng)規(guī)則庫來提高翻譯質(zhì)量.這也是我們今后工作的重要點.

5 總結(jié)

目前為止,本系統(tǒng)作為基于規(guī)則的機器翻譯方法首次設(shè)計并實現(xiàn)了維吾爾、哈薩克語之間的翻譯系統(tǒng),是維吾爾、哈薩克語機器翻譯系統(tǒng)的首例.我們開發(fā)的系統(tǒng)尚缺乏形態(tài)消除歧義器.因為維吾爾語、哈薩克語的有些詞表示不同的幾個意思.如:維吾爾語詞“at”可以是名詞,也可以是動詞.名詞時表示“馬”和“名字”的意思,動詞時表示“拋”的意思.哈薩克語也有相同的情況.另一個問題是,雖然語言是非常相似的,還有一些問題不能單用詞法分析來解決.維吾爾語和哈薩克語具有相同的詞序,句子組織在許多不同的方式有相同的含義.雖然系統(tǒng)還不完整,但我們提出的方案已經(jīng)證明是可行的,值得進(jìn)一步研究及完善.

猜你喜歡
詞干哈薩克語詞尾
-CK Sounds
論柯爾克孜語詞干提取方法
詞尾與詞綴的區(qū)別研究
維吾爾語詞綴變體搭配規(guī)則研究及算法實現(xiàn)
Playing with “g”
哈薩克語附加成分-A
融合多策略的維吾爾語詞干提取方法
基于維吾爾語詞干詞綴粒度的漢維機器翻譯
哈薩克語比喻及其文化特征
語言與翻譯(2014年2期)2014-07-12 15:49:28
“v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解
語言與翻譯(2014年2期)2014-07-12 15:49:13
永丰县| 保靖县| 陕西省| 长岛县| 和龙市| 崇明县| 德阳市| 博罗县| 久治县| 朝阳市| 轮台县| 济南市| 左贡县| 扬中市| 广河县| 汾阳市| 闻喜县| 饶河县| 武夷山市| 双桥区| 景泰县| 二手房| 吴忠市| 彩票| 白玉县| 宝丰县| 黄浦区| 平顶山市| 东方市| 瑞昌市| 涿州市| 新津县| 朝阳县| 彭州市| 太仆寺旗| 贵港市| 榕江县| 丰都县| 祁阳县| 全州县| 郸城县|