祖力克爾江+艾孜海爾江+艾孜爾古麗
摘要:漢哈機器翻譯指的是漢語和哈薩克語之間通過利用機器翻譯的一種翻譯方法。如今,在政府、學(xué)校等場所漢語和哈薩克語需要互相翻譯,而很多時候都是利用書面和人工方法來翻譯,這種傳統(tǒng)的方法既浪費時間又需要很多人的參與。該文章研究的漢哈機器翻譯是利用谷歌翻譯先把漢語翻譯成斯拉夫文字的哈薩克文再通過文字轉(zhuǎn)換功能把翻譯出來的結(jié)果轉(zhuǎn)換成新疆目前用的現(xiàn)行哈薩克文(以阿拉伯文字為基礎(chǔ)的哈薩克文),利用了優(yōu)秀的開發(fā)工具Microsoft VisualStudio 2010。漢哈機器翻譯系統(tǒng)的意義在于機器翻譯是計算機科學(xué)領(lǐng)域智能翻譯的一個重要方向,通過本系統(tǒng)可以很方便的把漢語翻譯成哈薩克文。
關(guān)鍵詞: 自然語言處理;漢哈翻譯;機器翻譯;哈薩克文翻譯
中圖分類號:TP18 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)05-0166-03
Abstract: Chinese (language)-Kazakh machine translation is one kind of translation month through the use of machine translation between Chinese language and Kazakh language. Nowadays, in the government, schools and other places ,Kazakh and Chinese need to translate to each other, but people always write and by using artificial methods to translation, this traditional approach is a waste of time and requires the participation of many people. This article research of Chinese (language)-Kazakh machine translation is to use Google translator to translate Chinese into Cyrillic text Kazakh first to make the text through the result of the conversion function to translate into xinjiang current with current Kazakh (the Kazakh article) on the basis of the Arabic script, takes advantage of the excellent development tools of Microsoft Visual Studio 2010. Chinese (language)-Kazakh translation systems is that machine translation is the meaning of intelligent translation of an important direction in the field of computer science, through this system can easily translate Chinese into Kazakh.
Key words:natural language processing; Chinese (language)-Kazakh translation; Machine translation; Kazakh translation;
1 概述
隨著現(xiàn)代計算機科學(xué)技術(shù)的快速發(fā)展,人類渴望利用機器翻譯而達(dá)到突破語言障礙的愿望已經(jīng)初步實現(xiàn)了,尤其是對雙語的研究越來越吸引了專家的重視和研究。研究成果證實了機器翻譯的重要性,利用電子計算機把一種語言翻譯成另一個目標(biāo)語言達(dá)到計算機,人們互相之間的語言障礙,使得溝通更加方便。機器翻譯可以通過電子計算機上的軟件,網(wǎng)頁可以實現(xiàn),其中,最典型的是目前最流行的谷歌在線翻譯(Google Translate),做到了90種語言的相互翻譯。
哈薩克語屬于突厥語系。文字有兩種,分別是現(xiàn)行哈薩克文和斯拉夫哈薩克文,現(xiàn)行哈薩克文與斯拉夫哈薩克文都是用于表達(dá)哈薩克語言的拼音文字,其中,國內(nèi)用的哈薩克文是以阿拉伯字母為基礎(chǔ)的現(xiàn)行哈薩克文。由于哈薩克語有黏著語的特殊性,單詞通過附加成分會改變意義,所以研究哈薩克語跟其他語言之間機器翻譯的研究較復(fù)雜。我國在上世紀(jì)九十年代啟動“少數(shù)民族文字處理技術(shù)開發(fā)”項目,針對少數(shù)民族語言的研究工作拉開序幕,雖然要實現(xiàn)真正意義上的遍及少數(shù)民族的機譯工作需要比較長的時間,但也欣喜地看到這方面的工作已陸續(xù)展開并不斷取得進展。目前國內(nèi)研究僅僅限于單詞,最多是詞組,但仍然有很多學(xué)者和愛好者對哈薩克語與其他語言之間機器翻譯沒有停止過研究,其中國內(nèi)最典型的是Kazakhsoft網(wǎng)頁版的在線漢哈翻譯。
在國外,因為哈薩克語是哈薩克斯坦的國語,對哈薩克語跟其他語言之間機器翻譯的研究比較突出,其中典型的是‘Google Translate + Kazakh'項目,谷歌翻譯(Google Translate)是谷歌公司提供的一項免費翻譯服務(wù),可實現(xiàn)90多種語言之間的即時翻譯。因為歷史的原因,哈薩克文字在不同國家,不同地區(qū)有了不同的文字,目前有兩種文字,一個是哈薩克斯坦用的斯拉夫字母為基礎(chǔ)的斯拉夫哈薩克文字,中國哈薩克文字是以阿拉伯字母為基礎(chǔ)的現(xiàn)行哈薩克文。因為文字不同語言相通,所以,可以用谷歌的在線翻譯,但需要轉(zhuǎn)換功能。
本研究是通過谷歌翻譯將漢語翻譯成斯拉夫哈薩克語,再通過現(xiàn)行哈薩克文與斯拉夫哈薩克文之間的字母轉(zhuǎn)換,最終實現(xiàn)漢語與新疆哈薩克文字的翻譯。
2 斯拉夫哈薩克文與現(xiàn)行哈薩克文轉(zhuǎn)換規(guī)則研究
2.1 斯拉夫哈薩克文
以斯拉夫字母為基礎(chǔ)的哈薩克文字。這種文字形式共有 37個音素,42個字母。除原有的斯拉夫字母之外,還增加了9個字母,這9個字母不出現(xiàn)在俄語詞里,是哈薩克語特有的字母。另外還有 13個字母用來拼寫外來語(俄語)借詞時使用。
2.2 現(xiàn)行哈薩克文
所謂的現(xiàn)行哈薩克文文字是以阿拉伯字母為基礎(chǔ)的哈薩克文文字。另外 1959 年設(shè)計了拉丁字母為基礎(chǔ)的新文字方案,1982年恢復(fù)原先的阿拉伯字母基礎(chǔ)上的哈薩克文文字。共有33個音(音位),其中9個是元音,24個是輔音,有些字母有兩種書寫形式,有些有四種書寫形式,根據(jù)詞里的位置,書寫形式發(fā)生變化。書寫方向是從右向左。
2.3 斯拉夫哈薩克文與現(xiàn)行哈薩克文轉(zhuǎn)換規(guī)則
如無特別說明,現(xiàn)行哈薩克文應(yīng)先轉(zhuǎn)換為對應(yīng)的斯拉夫哈薩克文的小寫形式,然后再根據(jù)斯拉夫哈薩克文的書寫規(guī)則進行必要的大小寫轉(zhuǎn)換。其中現(xiàn)代哈薩克文與斯拉夫哈薩克文字母進行一一對換非常重要,對應(yīng)情況表1--6所示。
3 漢哈機器翻譯關(guān)鍵技術(shù)研究
漢哈機器翻譯的原理是先利用谷歌在線翻譯將中文翻譯成斯拉夫文字的哈薩克文,再通過把斯拉夫文字的哈薩克文轉(zhuǎn)換成以阿拉伯為字母基礎(chǔ)的現(xiàn)行哈薩克文生成翻譯的結(jié)果。
3.1斯拉夫哈薩克文與現(xiàn)行哈薩克文轉(zhuǎn)換算法
(1)讀取一個原字符;
(2)根據(jù)字符檢查合法性;
(3)把斯拉夫哈薩克文字符轉(zhuǎn)換到對應(yīng)的現(xiàn)行哈薩克文字符;
(4)對現(xiàn)行哈薩克文字符進行選型;
(5)轉(zhuǎn)換過的現(xiàn)行哈薩克文字符來替換斯拉夫哈薩克文字符;
(6)如果轉(zhuǎn)換完,就退出過程否則重復(fù)(1) (6) 如果轉(zhuǎn)換完,就退出過程否則重復(fù)(1)。
3.2 研究工作及思路
漢哈機器翻譯軟件可以幫助利用計算機來翻譯中文與哈薩克文的一個軟件。比起傳統(tǒng)的人工方式翻譯,計算機機器翻譯通過轉(zhuǎn)換生成現(xiàn)行哈薩克文,速度快,方便,在很短的時間內(nèi)可以翻譯長篇文章并且導(dǎo)出成word。
根據(jù)漢哈機器翻譯的工作流程,完成了漢哈機器翻譯系統(tǒng)的設(shè)計和實現(xiàn)。
(1)系統(tǒng)通過輸入界面輸入翻譯的文字把翻譯結(jié)果輸出到另一個界面。
(2)系統(tǒng)在翻譯過程中先在后臺把中文翻譯成斯拉夫文字的哈薩克文再通過轉(zhuǎn)換功能把斯拉夫文字轉(zhuǎn)換成以阿拉伯文字為基礎(chǔ)的現(xiàn)行哈薩克文。
(3)導(dǎo)出成word并保存。
4 結(jié)束語
本文利用目前最流行的谷歌在線翻譯(Google Translate),漢語直接翻譯斯拉夫哈薩克文,然后翻譯斯拉夫哈薩克文轉(zhuǎn)換現(xiàn)代哈薩克文。本研究的關(guān)鍵問題,解決斯拉夫哈薩克文轉(zhuǎn)換現(xiàn)代哈薩克文。首先研究斯拉夫哈薩克文字母表與現(xiàn)代哈薩克文字母表進行比較、分析,總結(jié)對應(yīng)轉(zhuǎn)換規(guī)則。例如:表1—表6是一個轉(zhuǎn)換規(guī)則。語言角度考慮語言次序固定,沒有必要其他方面展開工作。經(jīng)過多年努力探討了基于谷歌在線翻譯器(Google Translate)的翻譯方法。但是本方法對谷歌在線翻譯器(Google Translate)的依賴性很強。需要進一步展開新的思路和方法。
參考文獻:
[1] 劉金龍,張巖,董軍.斯拉夫哈薩克文與現(xiàn)行哈薩克文編碼字符轉(zhuǎn)換規(guī)則的探究[J].電子測試, 2014(19).
[2] 薩合多拉·木巴拉克,古麗拉·阿東別克.哈薩克語阿拉伯文與斯拉夫文間的智能轉(zhuǎn)換[J].計算機工程與應(yīng)用, 2014(18):226-229.
[3] 新疆維吾爾自治區(qū)民語委.哈薩克語正音法基本規(guī)則[S],1997.
[4] 古麗扎達(dá)· 海沙,古麗拉· 阿東別克.我國哈薩克族詞匯與哈薩克斯坦詞匯間自動轉(zhuǎn)換的研究[J].計算機應(yīng)用與軟件, 計算機應(yīng)用與軟件,2012,29(7):3-5.
[5] 新疆維吾爾自治區(qū)民語委.現(xiàn)代哈薩克語[M].新疆人民出版社,2002:182-18.