申影利,包烏格德勒,趙小兵
1.中央民族大學中國少數(shù)民族語言文學學院,北京 100081
2.呼和浩特民族學院,呼和浩特 010051
3.中央民族大學信息工程學院,北京 100081
4.國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100081
傳統(tǒng)蒙古文(又稱回鶻式蒙古文)是一種黏著型拼音文字,包含“名義字符”和“變形顯現(xiàn)字符”。名義字符是蒙古文字符的獨立體存在形式,顯現(xiàn)字符則是字符居于詞首、詞中、詞尾時由于變形而產(chǎn)生的不同顯示形態(tài)[1]。蒙古文Unicode字符編碼“以音編碼”,其文本存在“形同音異”的現(xiàn)象,因而造成以國際標準編碼存儲的傳統(tǒng)蒙古文文本常常錯誤地錄入形狀相同,但讀音不同的變形顯現(xiàn)字符。從字形上看,該單詞是完全相同的,但其內(nèi)部編碼卻是不同的,這種文本拼寫錯誤對蒙古文信息處理研究造成重大障礙[2]。
蒙古文的文本校對工作是蒙古文信息處理的基礎性工作之一。早期的校正工作依賴于人工校對,準確性高,但耗時耗力,效率低下。很多學者針對傳統(tǒng)蒙古文的自動校對問題提出了可行的方案。華沙寶[3]依據(jù)蒙古文正字法規(guī)則開發(fā)MHAHP校對系統(tǒng),受限于詞典規(guī)模,該系統(tǒng)對動詞構(gòu)形附加成分、格附加成分之外的錯誤校對效果欠佳。蘇傳捷[4]等人利用機器翻譯模型來構(gòu)建拼寫校對模型,在小規(guī)模文本上糾錯后正確詞比例達到97.55%。蔡祝元[5]通過建立音節(jié)與真詞混淆集,實現(xiàn)了對蒙古文非詞錯誤與真詞錯誤的查錯與糾錯。
本文以第十七屆全國機器翻譯大會(The 17th China Conference on Machine Translation,CCMT 2021,網(wǎng)址見http://sc.cipsc.org.cn/mt/conference/2021/)蒙漢雙語翻譯項目公開評測數(shù)據(jù)集作為原始語料。根據(jù)分析,評測中提供的未經(jīng)處理的蒙文語料存在諸多文本錯誤,這將嚴重影響機器翻譯的性能。因此,本文開展蒙文自動校正工作,構(gòu)建面向機器翻譯任務的高質(zhì)量蒙漢雙語數(shù)據(jù)集。
原始數(shù)據(jù)來自第十七屆全國機器翻譯大會機器翻譯評測任務(CCMT 2021 MT Evaluation),CCMT 2021蒙漢雙語翻譯任務的評測訓練、開發(fā)語料數(shù)據(jù)的情況見表1。
表1 CCMT 2021蒙漢雙語翻譯任務數(shù)據(jù)情況Table 1 Data of CCMT 2021 Mongolian and Chinese bilingual translation task
1.2.1 噪聲數(shù)據(jù)清洗
在對蒙古文進行文本校正工作之前,我們發(fā)現(xiàn)原始評測集中蒙漢平行語料,存在源端、目標端語言混雜的情況。例如,在 IMU-CWMT2015文件夾中在源語言訓練語料中存在大量的目標端語言句子,反之亦然,如圖1所示。另外,訓練數(shù)據(jù)中的重復句子會增加模型的負擔,影響翻譯效果,因此在對蒙漢雙語句對中的蒙古文文本進行校正前,首先需要進行清洗、過濾蒙漢平行句對中的“噪聲”數(shù)據(jù)。這樣不但可以降低文本校正工作量,還能緩解低質(zhì)量語料引起的翻譯性能下降問題。針對以上情況,分別利用語種檢測技術(shù)刪除混雜語種、重復語句及空行,由實驗最初設定的262,458句對訓練語料得到經(jīng)過清洗后的248,438句對,共刪除14,020句對。
1.2.2 蒙文文本校正
(一)數(shù)字、英文、中文符號、蒙古文非Unicode字符的轉(zhuǎn)換處理
CCMT2021提供的蒙古文語料為Unicode編碼語料,因此,首先將蒙文語料中的數(shù)字、英文、符號及蒙古文非 Unicode 字符進行轉(zhuǎn)換處理。
(二)文本校對
(1)通過正則表達式對部分字符進行修正
連續(xù)的變形控制符(u180B,u180C,u180D)只保留第一個;對分寫的附加成分進行統(tǒng)一處理;對u182C(?)和u182D(?)字符進行修正;對混用的陽性元音和陰性元音進行修正;對u1836(?)字符進行修正。以上操作結(jié)束后把蒙古文語料轉(zhuǎn)換為拉丁轉(zhuǎn)寫形式,對拉丁轉(zhuǎn)寫語料進行校對。
(2)通過詞典和規(guī)則的方法對文本進行校正
采用基于詞典和規(guī)則的方式對蒙古文進行自動校正,使用國家語言資源監(jiān)測與研究少數(shù)民族語言中心(https://nmlr.muc.edu.cn/)構(gòu)建整理的20萬蒙古文的單詞詞典和構(gòu)形附加成分詞典。校正流程如圖2所示。
蒙文文本校正示例如表2所示。表2通過舉例說明CCMT 2021蒙漢評測數(shù)據(jù)中原始蒙文文本的錯誤形式以及經(jīng)過蒙文文本校正后的正確蒙文形式。從字形上看,錯誤蒙文文本、校正蒙文文本基本相同,但通過將二者進行相應的拉丁轉(zhuǎn)寫,就可以發(fā)現(xiàn)其內(nèi)部編碼的不同之處。在表2的例子中,我們將錯誤蒙文文本中的格錯誤部分進行標紅,該類型是指蒙古文單詞在連寫附加成分時由于陰陽性或者其他構(gòu)詞方面的語法原因?qū)е碌腻e誤;紫色及藍色標記單詞分別表示單音字、多音字錯誤。
表2 CCMT 2021蒙文文本錯誤及校正示例Table 2 Samples of CCMT 2021 Mongolian text errors and correction
本數(shù)據(jù)集為蒙漢機器翻譯雙語平行句對,共包含兩部分:5萬句校正后蒙文文本,文件名稱為:mn_correct.txt;5萬句中文文本,文件名稱為:zh.txt。如下圖3所示。
為驗證上述蒙文文本校正工作是否對下游機器翻譯質(zhì)量有提升作用,我們使用全部經(jīng)過蒙文校正的CCMT2021蒙漢評測集及原始蒙漢評測集,在當前主流的神經(jīng)機器翻譯框架Transformer[6]上進行對比實驗,使用BLEU[7]作為評測指標。由于CCMT2021主辦方未提供蒙漢雙語測試數(shù)據(jù),我們選取CWMT2017提供的蒙漢雙語測試集共1001句對。實驗結(jié)果如表3所示,其中2021_dev、2017_test分別表示CCMT2021驗證集和CWMT2017測試集。
表3 蒙漢雙向翻譯模型測試結(jié)果Table 3 Test results of Mongolian-Chinese bidirectional translation model
從表3中的實驗結(jié)果可以看出:經(jīng)過蒙文校正后的語料在蒙漢雙向翻譯任務中都獲得了最優(yōu)性能。在蒙語→漢語翻譯任務中,與校正前的蒙漢雙語數(shù)據(jù)在2021_dev驗證集和2017_test測試集上的BLEU值相比,分別提升了17.7和0.9個百分點。另一方面,漢語→蒙語翻譯BLEU提升均優(yōu)于蒙語→漢語翻譯任務,校正后分別提升了21.7%、6.4%。這是因為蒙語相比于漢語構(gòu)詞形態(tài)更加復雜,當翻譯為蒙語時,解碼端很難避免語法錯誤,所以高質(zhì)量蒙漢雙語數(shù)據(jù)訓練的模型對漢語→蒙語方向翻譯效果的提升優(yōu)于蒙語→漢語翻譯方向。實驗結(jié)果發(fā)現(xiàn),使用蒙文文字校正后的蒙漢語料在雙向翻譯任務上均能夠顯著提升翻譯效果。
數(shù)據(jù)稀疏是低資源語言神經(jīng)機器翻譯面臨的主要問題,針對蒙古文信息處理研究,蒙古文高質(zhì)量語料的獲取一直是亟待解決的難題。本文在蒙漢機器翻譯評測數(shù)據(jù)集的基礎上,進行蒙古文文本校正工作,實驗驗證發(fā)現(xiàn),經(jīng)過文本校正后的蒙漢雙語數(shù)據(jù)集,在下游機器翻譯任務中的翻譯質(zhì)量有明顯提升。本數(shù)據(jù)集除機器翻譯任務外,還可用于文本校正、命名實體識別、信息檢索等蒙古文自然語言處理工作。
致 謝
感謝全國機器翻譯大會主辦機構(gòu)提供的寶貴原始數(shù)據(jù)資源,感謝對本數(shù)據(jù)集進行蒙文校正工作的蒙語研究專家。
數(shù)據(jù)作者分工職責
申影利(1994—),女,安徽亳州人,在讀博士研究生,研究方向為自然語言處理、機器翻譯。主要承擔工作:數(shù)據(jù)篩選、處理、加工,數(shù)據(jù)集生成,論文的撰寫。
包烏格德勒(1979—),男,內(nèi)蒙古興安盟人,博士,副教授,研究方向為計算語言學、蒙古文信息處理。主要承擔工作:數(shù)據(jù)集設計和整理,數(shù)據(jù)校準。
趙小兵(1967—),女,內(nèi)蒙古呼和浩特人,博士,博士生導師,研究方向為自然語言處理、輿情分析等。主要承擔工作:研究思路設計與論文撰寫指導。