張利峰 胡其吐
摘 要: 本文主要研究面向蒙語授課小學生學習的英蒙機器翻譯軟件的設計與實現。本研究試圖通過計算機自然語言處理技術給出解決方案,以期對蒙授學生的英語學習和輔導具有輔助支持作用。本軟件的實現為蒙古語授課小學生改進學習外語起到輔助作用。關于蒙古語授課學生學習方面的網絡資源很少,尤其是外語方面的,所以本翻譯系統豐富了蒙古語授課學生學習外語的渠道與方法。
關鍵詞: 機器翻譯;小學英語;蒙古語;教學
中圖分類號:TP391.2 文獻標識碼:A
本論文獲得內蒙古自治區(qū)蒙古語言文字信息化專項扶持項目"英蒙機器翻譯及教學平臺建設"資助,項目編號:MW-MGYWXXH-009
本項目獲得內蒙古自治區(qū)蒙古語言文字科研資助項目“蒙漢文牌匾翻譯標準與規(guī)范化網絡平臺研究”資助,項目編號:MW-YB-2016025
1 蒙英機器翻譯研究現狀:
因為國內蒙古文普遍使用的是傳統蒙古文,與蒙古國使用的蒙古文有所區(qū)另,因此本研究著眼于傳統蒙古文的英蒙翻譯軟件開發(fā)問題。相對中英機器翻譯系統研究而言,英蒙機器翻譯系統研究起步較晚,從業(yè)專業(yè)人員很少,但近年來也取得了一些重要的成果。2000年,以內蒙古大學敖其爾教授《英一蒙機器翻譯系統的研究》著作發(fā)表為標志,著作中,介紹了基于模板的英蒙機器翻譯相關理論,給出了基于模型的蒙古文生成方法。另外還有吉日木圖先生和王斯日古楞老師同樣使用基于模板的方法并綜合其它研究方法討論了英蒙機器翻譯系統相關問題。以上學者進行的研究及給出的解決方案主要針對的是一般的英蒙機器翻譯系統,所涉及的面較廣,語境的復雜度也相當高。從面向英語教學的專業(yè)翻譯角度上看,由于學習中有其需要考慮的一些特殊問題,這些研究對解決蒙語授課學生學習英語軟件的開發(fā)盡管有其重要的指導借鑒作用,但不能完全照搬。從發(fā)展水平上看,基于學習需求的英蒙機器翻譯軟件研制,國內開展的相關工作尚在起步階段,還有許多深入細致的研究工作要做。
本軟件旨在面向蒙語授課學生的英文學習提供工具性的支持,是學習者和指導者傳統的查閱詞典學習方式的一個補充。軟件開發(fā)先從面向蒙語授課小學生學習的英蒙機器翻譯工具的設計與實現(以小學三年級為例)起步,待積累經驗、試用評價、軟件成熟,可后繼研發(fā)面向蒙語授課其他學段學生的英蒙機器翻譯系統。
2 研究思路
基本思路:收集并查閱相關文獻;在課程專家的支持下,到蒙語授課小學進行現場調研;以小學生英語課程標準和學習需求為依據整理翻譯系統所需語料并開發(fā)軟件。軟件的研究和開發(fā)主要涉及三個組成部分,一是;語料整理部分,二是;機器翻譯研究部分,分別說明如下。
2.1 語料整理
語料的整理是機器翻譯研究中最基本也是最重要的工作,語料整理的質量直接影響下一步機器翻譯軟件開發(fā)的質量。語料的整理分為二步來完成:
①在具有多年英語教學經驗的教師(課程專家)的指導協助下,收集和整理所需課本、課外資料和相關信息,并將這些資料根據幼兒、小學各年級不同種類進行劃分。
②將劃分好的資料錄入計算機。
2.2 機器翻譯軟件
借鑒中英等其它大語種的機器翻譯理論和開發(fā)經驗,參考已有英蒙機器翻譯軟件的研究成果,規(guī)劃英蒙機器翻譯系統。具體實現方法。
①準備語料(此步在上一個工作中完成),對語料進行一些必要的處理。
②使用SRILM訓練語言模型。
③用Giza++生成翻譯模型:詞語對齊;詞典概率評分,既利用MLE計算詞語的翻譯概率;短語抽?。欢陶Z評分,既生成phrace-table,亦即翻譯模型。
④訓練重排序模型。
⑤訓練生成模型。
⑥創(chuàng)建解碼器所需的相應配置文件。
⑦使用Moses進行解碼,生成小學三年級英——蒙翻譯軟件。
3 雙語語料庫的結構設計
雙語平行語料庫是指用A語言寫成的源語文本和用B語言翻譯的譯文組成的文本集合。雙語對齊即“在雙語文本中找到互為翻譯的源文和譯文片斷”。語料庫的結構設計較為簡單,無需定義復雜的數據字段以及數據的約束、安全性與完整性,只需定義相互對齊的英語句子字段和蒙古語句子字段即可。
4 蒙古文相關關鍵技術
因為蒙古文是一種黏著性語言,其形態(tài)變化、動詞時態(tài)變化等都較豐富,構詞和構形基本上在詞根或詞干后加不同的附加成分來實現的,所以蒙語的詞匯量可以說是非常大的,因為同一個詞在不同上下文中可能會有十幾種甚至幾十種的形態(tài)變化。這對雙語語料的建立帶來了非常大的挑戰(zhàn),因為語料再多也不可能涵蓋蒙古文的所以詞匯,所以我們在建立雙語語料時也盡量考慮蒙語變形所帶來的影響及如何提高語料的使用率。另外,因為蒙語有第4,5元音和第6,7元音等的形相同音不同的現象,除了元音以外還有一些輔音也有這種情況,這導致了雖然某些詞外形看起來一樣,但實際上音不同的現象,而且這些音的機器內碼是不一樣的,這導致了計算機在識別這些詞時會認為是兩個詞,但實際上有可能就是一個詞。比如 這個詞輸入成urluge和orluge形都一樣,但是內碼確不同。這種現象因為錄入人員對蒙語正確讀音的掌握程度和錄入習慣不同而不同,尤其內蒙古東西部蒙古語的讀音差距較大也導致這種現象非常普遍。這也對語料庫建立產生很大的影響,而且在后續(xù)的查詢與翻譯當中也會產生非常大的影響而降低翻譯準確率。為此本文提出一些改善英蒙機器翻譯方法,以此可以提高翻譯的準確率,具體做法如下:
4.1 建立規(guī)范的英蒙對齊語料庫
標點符號的處理:將設計好的對齊語料庫中所有符號前后都要增加空格,以便于在訓練語料時能夠區(qū)分符號與前后詞是否為一個詞還是兩個詞。特別注意的是,有些字符是由兩個符號組成,如“《”,此類符號原則上不可拆分,所以對兩個挨著的字符不做空格增加處理。
空格的處理:對語料庫中多余的空格全部刪掉,保證語料中不會出現連續(xù)的兩個空格。另外,由于蒙文語料中可能會存在蒙文空格。蒙文空格是將蒙古文詞與各助詞相連接的一種符號,主要是為了表現蒙古文的詞與格助詞之間的空格不與詞與詞之間的空格不同。事實上,為了更準確的進行翻譯,保留蒙文空格存是一種正確的選擇,這樣的話匹配出來的文本更接近自然翻譯結果,但是由于蒙文格助詞眾多,如果接在蒙古文的所有符合條件的詞后面,那將大大地增加未登錄詞(因為每加一個格助詞即可認為是一種新的單詞),這樣一來將對語料庫量的要求將會非常的高所以在較少的語料庫下能夠獲得更高的翻譯質量需要將所有蒙文空格轉變成普通空格,之后再把全部的連續(xù)兩個空格簡化為單空格。
4.2 蒙古文的校對
因為本次針對的是較小范圍的語料庫,所以校對工作全部由人工完成。
4.3 蒙古文的音與形的統一化處理
為了在小的語料下獲得最大的翻譯能力,本文使用了蒙古文音形統一化處理方法來解決蒙古文形同音不同的問題。也就是把第4,5元音和第6,7元音等同形字全部統一成一種形,這樣處理后即有助于相對擴大語言模型量,也容易處理蒙古文的查詢問題。
4.4 語言模型的建立方法
語言模型對于一個基于統計規(guī)則的翻譯系統來說至關重要,所以具有豐富而涵蓋面廣的語言模型才能夠大力提高翻譯質量。語言模型的建立包括蒙古文語言模型的建立與英文語言模型的建立。因為英語的語料庫非常多,而且比較重要的語料庫均已開放,所以我們只要將此語料庫下載后使用訓練軟件進行訓練后生成英語語言模型即可,所以不作詳細介紹,本文中將較詳細地說明蒙古語言模型的相關理論基礎及建立方法。
本翻譯系統采用n-gram方法建立了蒙古文語言模型,n-gram方法又稱為N元模型。此方法適用廣泛且技術較為成熟。N元模型指的是在計算語言學領域和概率模型中使用的一種方法,N元就是在一條句子中連續(xù)的N個元素。一個N元可以是任何字符的組合。然而,我們蒙古語中所指的N元以一個詞為界限,也就是以空格為一個界限,獲取N個元素。此時獲取的N個元素不一定全部是詞,也可以是標點符號或格助詞等其它形式。N元一般都是從文本或語料中獲取。一個N元的元素值為1的可稱為“一元模型”,元素值為2的可稱為“二元模型”,元素值為3的可稱為“三元模型”,以此類推可有“四元模型”,“五元模型”,本系統選用了“三元模型”作為語言模型。
5 搭建英蒙互譯機器翻譯輔助教學系統
雖然基于短語的機器翻譯系統并不要求雙語語料中語言的特性,任何兩種語言均可被訓練成機器翻譯系統。但是由于蒙古文本身的特性,在建立語言模型和翻譯模型時均與其它語言有所不同。
軟件的搭建核心部分是利用了Moses機器翻譯軟件,Moses是法老軟件的升級版本,所以在原有版本的基礎上增加了許多新的功能。是由基于短語統計方法的機器翻譯系統,是由亞深工業(yè)大學(德國)、愛丁堡大學(英國)等八家單位合作開發(fā)的。2006年這八家單位在約翰霍普金斯大學召開研究會進行研討并且花費了六周的時間共同開發(fā)了這一系統。系統框架和核心部分全部用C++語言寫成,而且開發(fā)完后將軟件源代碼公開了,以便其它研究人員可以研究與利用,此軟件可以運行在Linux平臺和Windows平臺上,目前領導者是Philipp Koehn。Moses軟件最初是在Linux系統上開發(fā)的,但它可實現跨平臺運行。所以我們?yōu)榱说玫阶畲蟮募嫒菪?,將操作系統選用Linux內核的Ubuntu12系統。如果要在Windows上安裝,需要安裝Windows下的Cygwin系統,并在Cygwin下進行編譯即可獲得Wiindows下可運行的軟件。
5.1 語料的準備
雙料語料庫在建立翻譯平臺時使用,庫中文本必須是蒙文與英文對齊的句子。
此處我們將利用前面準備好的英蒙對齊語料庫。雖然語料庫已經錄入完成,但是為了適用于Moses軟件,我們還需要對這個語料庫進行相應的整理,具體整理過程為:
a)標記化:此步驟的功能是為詞和符號之間添加空格。雖然英文的標點符號很容易被判斷,但是蒙文的標點符號較難判斷,因為庫函數中均不存在標點符號判斷的函數,所以在開發(fā)標記化工具時需要對蒙文進行特殊處理,通過內碼一個字一個字地判斷其是否為標點符號,是否需要增加空格等。
b)大小字母的統一化:此步驟主要針對的是英文,因為蒙文沒有大小寫之分。大小寫統一化的目的是降低數據稀疏,以便從較小的數據中獲得更多的對齊短語等
c)清理數據:較長的句子和空的句子將被刪掉,因為它們在語料訓練中導致程序錯誤,另外將非對齊的句子也被刪掉。
5.2 訓練語言模型
語言模型是用于較流暢地輸出,所以要建立在目標語言上,此處為蒙古文。我們使用IRSTLM建立語言模型。但是由IRSTLM是面向大語種,或者可以說是研宄者或使用較多的語種的,但是由于使用傳統蒙古文的人較少,而且語料也較難獲得,所以此軟件中并沒有對傳統蒙古文進行優(yōu)化,所以我們需要對此軟件進行一定的修改,從而使語言模型的建立更為優(yōu)化。
5.3 訓練翻譯模型
翻譯系統的最核心工程是進行翻譯模型的訓練。翻譯模型必要通過“詞對齊”詞組抽取及評價” “創(chuàng)建詞匯化的重新排序表”和“建立Moses的配置文件”等過程后才能夠達到正常使用的程度。雖然這些過程比較多,但是我們可以通過GIZA++一步完成所有過程。
6 結論
(1)為蒙古語授課小學生改進學習外語習慣起到輔助作用。
(2)本翻譯系統實現了在線翻譯,所以豐富了蒙古語授課學生學習外語的網絡資源。因為關于蒙古語授課學生學習方面的網絡資源很少,尤其是外語方面的。
由于本人的理論水平有限,實踐經驗的不足,以及受研發(fā)時間的限制,本翻譯系統有待于補存與完善。本人將在以后的工作與學習中從以下幾點繼續(xù)迸行探討與研究:
(1)語料庫的局限性:語料庫的規(guī)模小。只可滿足小學三年級學生的學習范圍,且對于基于統計規(guī)則的翻譯模型而言,語料的規(guī)模會影響系統的翻譯質量。所以擴大語料庫是一項長期而基礎的工作,應將語料庫完善至可滿足小學其他年級、中學各年級、以至于到大學。
(2)軟件功能的局限性:翻譯系統實現了核心功能,即在線翻譯。在此基礎上軟件應增加以下提高學習質量與興趣的功能,如語音功能、游戲功能等,語音功能可使系統發(fā)出標準的讀音(包括蒙古語與英語),而增設一些猜字詞的小游戲可提高學生的學習興趣。
參考文獻
[1] 敖其爾,從英文到蒙文的機器翻譯.內蒙古大學學報(哲學版),1988,第三期:39-50.
[2] 王斯日古楞.基于混合策略的漢蒙機器翻譯及相關技術研究[D].呼和浩特:內蒙古大學(博士學位),2009.