王路路 斯拉吉艾合麥提·如則麥麥提 艾山·吾買爾 吐爾根·依布拉音 買合木提·買買提 卡哈爾江·阿比的熱西提
關(guān)鍵詞: 人物簡歷; 漢維機(jī)器翻譯; 模板庫; 命名實(shí)體; 正則表達(dá)式; 句子結(jié)構(gòu)
中圖分類號: TN912.3?34; TP391 ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2018)24?0101?05
Design and implementation of Chinese?Uyghur machine translation
system for personage resumes
WANG Lulu1,2, Silajiaihemaiti Ruzemaimaiti1,2, Aishan Wumaier1,2, Tuergen Yibulayin1,2,
Maihemuti Maimaiti1,2, Kahaerjiang Abiderexiti1,2
(1. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China;
2. Xinjiang Laboratory of Multi?Language Information Technology, Urumqi 830046, China)
Abstract: A Chinese?Uyghur machine translation system based on the combination of templates and dictionaries is designed and implemented for personage resumes to resolve the problems of high cost and low efficiency of translating the Chinese personage resume into the Uyghur version. The named entities are generalized, and the Chinese resume templates are automatically created by analyzing the sentence structure characteristics of Chinese resumes. A Chinese?Uyghur template library is established by using regular expressions. The named entities are translated by combining with the method based on rules and dictionaries, so as to obtain the Uyghur personage resumes. The experimental results show that the system uses limited templates and dictionaries in the monolingual situation, its BLUE value can reach 0.38, and in comparison with the machine translation systems that require large?scale bilingual corpora training, the system has a better practical application value.
Keywords: personage resume; Chinese?Uyghur machine translation; template library; named entity; regular expression; sentence structure
新疆是多民族人民聚居區(qū)域,使用的語言主要有漢語、維吾爾語和哈薩克語等。其中維吾爾語和哈薩克語屬于黏著語,與漢語屬于不同語系?;ヂ?lián)網(wǎng)上的各界人物簡歷頻頻出現(xiàn),林娜等分析研究了簡歷受限漢語使用機(jī)器翻譯的重要性,而維吾爾語版本的人物簡歷不能實(shí)時(shí)地翻譯,如果人工翻譯,將會造成成本高、效率低,所以研究人物簡歷的漢維機(jī)器翻譯具有重大的研究意義[1]。機(jī)器翻譯是指使用機(jī)器自動(dòng)地將一種自然語言轉(zhuǎn)化為具有完全相同語義的另一種自然語言的過程[2]。機(jī)器翻譯可以分為基于規(guī)則的機(jī)器翻譯[3]和基于語料庫的機(jī)器翻譯,其中基于語料庫的機(jī)器翻譯分為基于記憶的機(jī)器翻譯[4]、基于實(shí)例的機(jī)器翻譯[5?6],基于模板的機(jī)器翻譯[7?8]、基于統(tǒng)計(jì)的機(jī)器翻譯[9?10]和基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯[11?13]等方法。國內(nèi)外對機(jī)器翻譯研究從未止步,機(jī)器翻譯在漢語、英語、法語等語料資源龐大的語種上的研究頗多;但是,在維吾爾語等語料資源匱乏的語種中研究仍然相對較少,還沒出現(xiàn)有關(guān)漢語?維吾爾語的人物簡歷翻譯系統(tǒng)的研究報(bào)道。本文針對人物簡歷的漢維機(jī)器翻譯問題,以體壇人物的簡歷為研究對象,提出了基于詞典與模板相結(jié)合的方法實(shí)現(xiàn)了人物簡歷漢維機(jī)器翻譯系統(tǒng)。首先采集并分析中文的簡歷信息,并對命名實(shí)體進(jìn)行統(tǒng)計(jì);然后構(gòu)建漢維時(shí)間表達(dá)式規(guī)則庫和模板庫,采用基于模板的方法實(shí)現(xiàn)人物簡歷的機(jī)器翻譯。
1.1 ?系統(tǒng)開發(fā)與運(yùn)行環(huán)境
本文使用3.2 GHz的CPU,10 GB的運(yùn)行內(nèi)存的硬件環(huán)境;軟件環(huán)境主要是Windows 10操作系統(tǒng)以及其自帶的IIS服務(wù)器、SQL Server 2014數(shù)據(jù)庫管理系統(tǒng),并使用實(shí)體框架(Entity Framework,EF)的相關(guān)技術(shù)進(jìn)行開發(fā),其中EF是一個(gè)對象/關(guān)系映射框架,支持3種開發(fā)模式,分別是數(shù)據(jù)庫優(yōu)先、模型優(yōu)先、代碼優(yōu)先。
1.2 ?系統(tǒng)的功能結(jié)構(gòu)
人物簡歷漢維機(jī)器翻譯系統(tǒng)的功能結(jié)構(gòu)分為數(shù)據(jù)采集與分析模塊、數(shù)據(jù)管理模塊、翻譯模塊三大模塊。數(shù)據(jù)采集與分析模塊主要包含爬蟲、分詞、抽取命名實(shí)體、統(tǒng)計(jì)等功能;數(shù)據(jù)管理模塊包含后臺用戶管理、詞典管理、詞匯統(tǒng)計(jì)、系統(tǒng)日志管理等功能;翻譯模塊包括基于模板的翻譯和基于詞典的翻譯等功能。系統(tǒng)功能結(jié)構(gòu)如圖1所示。
1.2.1 ?數(shù)據(jù)采集與分析模塊
數(shù)據(jù)采集與分析主要包括爬蟲、解析及抽取、中文分詞、命名實(shí)體識別、構(gòu)建漢維雙語命名實(shí)體詞典。本文從百度百科中爬蟲獲取體壇明星的簡歷信息網(wǎng)頁,采用正則表達(dá)式解析匹配HTML標(biāo)簽,抽取體壇任務(wù)的姓名、基本情況、重要經(jīng)歷;并使用可加入自定義詞典的開源工具jieba分詞進(jìn)行中文分詞。
簡歷存在諸多的命名實(shí)體,而這些命名實(shí)體部分可能是機(jī)器翻譯的未登錄詞,如果直接通過機(jī)器自動(dòng)翻譯成維語,在詞法、句法結(jié)構(gòu)等層面上存在諸多的不利因素,很難實(shí)現(xiàn)高質(zhì)量的漢維機(jī)器翻譯。若解決上述問題,首先建立特定領(lǐng)域(人物簡歷)中各種命名實(shí)體的詞典,然后建立命名實(shí)體漢維雙語語料庫。
為了構(gòu)建漢維雙語命名實(shí)體雙語語料庫,本文首先采用玻森中文語義開放平臺(BosonNLP) 以及哈工大的語言技術(shù)平臺(LTP)分別針對人名、地名、組織機(jī)構(gòu)名(例如:運(yùn)動(dòng)隊(duì))、職業(yè)名(例如:職業(yè)籃球運(yùn)動(dòng)員)等實(shí)體進(jìn)行識別并收集。
1.2.2 ?數(shù)據(jù)管理模塊
數(shù)據(jù)管理模塊主要包含用戶管理、詞典管理、詞匯統(tǒng)計(jì)、日志與反饋。其中詞典管理中包括待翻譯詞的詞典管理和已翻譯詞的詞典管理;詞匯統(tǒng)計(jì)主要是針對命名實(shí)體中人名、機(jī)構(gòu)名、地名等數(shù)據(jù)進(jìn)行統(tǒng)計(jì)并以餅狀圖進(jìn)行顯示;日志與反饋主要針對系統(tǒng)的日志文件和用戶反饋意見進(jìn)行管理。
1.2.3 ?翻譯模塊
1) 簡歷分析
本文通過對體壇人物基本簡歷的分析研究,發(fā)現(xiàn)簡歷信息中主要包含個(gè)人的基本信息和其運(yùn)動(dòng)生涯經(jīng)歷兩個(gè)部分。其中個(gè)人基本信息主要包括:姓名、性別、出生日期、出生地、職業(yè)、工作單位等基本信息;運(yùn)動(dòng)生涯經(jīng)歷主要是何年獲得了何種獎(jiǎng)項(xiàng)或者何年入選/加盟哪個(gè)運(yùn)動(dòng)隊(duì)。這些信息是相互獨(dú)立的并不需要通過與上下文的語義結(jié)構(gòu)和語境結(jié)合來進(jìn)行翻譯。
通過對簡歷的詞按照詞性進(jìn)行詞頻統(tǒng)計(jì),發(fā)現(xiàn)名詞出現(xiàn)頻率最高,主要包括:人名、地名和職業(yè)名等。除此之外,時(shí)間性詞語與動(dòng)詞也有較高的出現(xiàn)幾率,如:xxx年xx月xx日;參加、入選、奪得、加盟等。因此本文通過結(jié)合領(lǐng)域知識和規(guī)則模板,建立了人物簡歷模板和時(shí)間日期模板,通過模板匹配方法實(shí)現(xiàn)體壇人物簡歷的漢維機(jī)器翻譯。
2) 時(shí)間日期的抽取研究
簡歷信息中往往包含大量的時(shí)間日期信息,如何實(shí)現(xiàn)對時(shí)間日期的正確翻譯具有重要研究意義。通過對人物簡歷進(jìn)行分析,發(fā)現(xiàn)規(guī)范的任務(wù)簡歷文本中通常采用絕對時(shí)間日期,如“2017年1月15日,獲得2016年CCTV體壇風(fēng)云人物最佳女運(yùn)動(dòng)員”。因此,本文采用正則表達(dá)式創(chuàng)建漢語?維吾爾語時(shí)間表達(dá)式,從而構(gòu)建漢維時(shí)間表達(dá)式規(guī)則庫,漢維時(shí)間表達(dá)式的實(shí)例規(guī)則見表1。
時(shí)間表達(dá)式的識別與翻譯流程如圖2所示。
3) 簡歷模板的抽取及翻譯研究
所謂的模板可以認(rèn)為是一種顆粒度介于“翻譯規(guī)則”和“翻譯實(shí)例”之間的翻譯知識表示形式,基于模板的方法實(shí)際上是基于實(shí)例翻譯方法的延伸。模板是由變量和常量組成的字符串,兩種語言的翻譯模板中變量存在意義上的對應(yīng)關(guān)系。如簡歷中專有名詞如人名(RM)、地名(DM)、機(jī)構(gòu)名(JGM)、職業(yè)名(ZHY)、賽事名(SSH)等可以視作變量。因此本文首先泛化(符號化)專有名詞,自動(dòng)獲取句子模板;然后針對符號化后的字符串進(jìn)行相似性對比處理,建立適用于簡歷翻譯的漢維模板庫。
具有規(guī)則性的漢維模板庫如表2所示。
首先對待翻譯的簡歷文本進(jìn)行預(yù)處理,即分句、分詞,采用上文的符號化方法將文本進(jìn)行泛化,然后對泛化后的字符串進(jìn)行模板匹配。判斷模板是否匹配成功,如果成功匹配,直接返回翻譯結(jié)果,否則按詞典來翻譯。其中模板匹配使用長度優(yōu)先匹配算法,即模板長度決定匹配優(yōu)先級的高低。翻譯流程如圖3所示。
系統(tǒng)主要包括用戶、詞典、待翻譯詞典、日志、反饋與意見5個(gè)表。其中詞典表主要保存已翻譯的命名實(shí)體或者其他專有名詞,待翻譯詞典表主要保存使用者翻譯和查詢的過程中系統(tǒng)中沒有翻譯或者查詢不到的專有名詞,如表3、表4所示。
本文構(gòu)建人物簡歷中使用于主要經(jīng)歷的模板102對,時(shí)間日期模板15對,然后按照不同運(yùn)動(dòng)項(xiàng)目類型總計(jì)隨機(jī)抽取了50個(gè)運(yùn)動(dòng)員的簡歷作為測試集,總計(jì)是968條句子,每個(gè)測試句子僅有一個(gè)參考譯文。為評價(jià)人物簡歷的翻譯性能,本文以BLUE值作為評測指標(biāo)。實(shí)驗(yàn)結(jié)果如表5所示。
由表5可看出,本文的方法BLUE達(dá)到0.386 4,說明該系統(tǒng)在中文單語以及沒有訓(xùn)練集的情況下,相比于民族語文翻譯局翻譯系統(tǒng)訓(xùn)練語料規(guī)模在百萬級以上具有一定的可比性。為了充分分析系統(tǒng)的可靠性,本文進(jìn)一步對翻譯結(jié)果進(jìn)行分析,在句子與模板匹配時(shí)可以對其進(jìn)行準(zhǔn)確翻譯;然而如果模板庫中不存在與句子匹配的模板,則會丟失部分翻譯結(jié)果。例如:
待翻譯文本:1957年11月出生于岳普湖縣維吾爾族傳統(tǒng)摔跤繼承人
泛化結(jié)果:TIME 出生于 DM MZ 傳統(tǒng)摔跤繼承人
機(jī)器翻譯結(jié)果:1957?yili 11?ayda tughulghan uyghur 傳統(tǒng)摔跤繼承人
正確翻譯結(jié)果:1957?yili 11?ayda tughulghan uyghur eneniwiy chilishish warisi
由上可知,錯(cuò)誤原因是模板庫中未存在泛化后的模板,導(dǎo)致無法匹配模板,只能通過詞典翻譯部分內(nèi)容,從而使得翻譯結(jié)果不完整甚至錯(cuò)誤。
本文研究體壇領(lǐng)域的人物簡歷漢維機(jī)器翻譯問題,采用一種基于模板與詞典的機(jī)器翻譯方法,建立命名實(shí)體翻譯等價(jià)對,構(gòu)建翻譯模板庫,最終實(shí)現(xiàn)人物簡歷的漢維機(jī)器翻譯系統(tǒng)。由于模板庫存在局限性、維吾爾語語料規(guī)模較小以及維吾爾語的黏著性等特征,翻譯結(jié)果尚存在不足,在未來的工作中,會對進(jìn)一步的研究工作繼續(xù)改進(jìn)。
注:本文通訊作者為艾山·吾買爾。
參考文獻(xiàn)
[1] 林娜,唐躍勤,黎斌.談受限漢語在機(jī)器翻譯中的運(yùn)用:以中文簡歷英譯為例[J].西南交通大學(xué)學(xué)報(bào)(社會科學(xué)版),2012,13(5):49?53.
LIN N, TANG Yueqin, LI Bin. Machine translation and restricted Chinese: a case study of translating Chinese resume into English [J]. Journal of Southwest Jiaotong University (Social sciences), 2012, 13(5): 49?53.
[2] 菲利普·科恩.統(tǒng)計(jì)機(jī)器翻譯[M].宗成慶,張霄軍,譯.北京:電子工業(yè)出版社,2012.
KOEHN P. Statistical machine translation [M]. ZONG Chengqing, ZHANG Xiaojun, translation. Beijing: Publishing House of Electronics Industry, 2012.
[3] 如克燕木·吾斯曼江,買熱哈巴·艾力,吐爾根·依布拉音.基于規(guī)則的維吾爾語、哈薩克語機(jī)器翻譯[J].新疆大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,33(3):338?342.
Rukeyanmu Wusimanjiang, Maierhaba Aili, Tuergen Yibulayin. The rule?based Uygur Kazak machine translation [J]. Journal of Xinjiang University (Natural science edition), 2016, 33(3): 338?342.
[4] 解倩倩,艾山·吾買爾,吐爾根·依布拉音,等.混合策略的漢維輔助翻譯系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2017,40(20):5?9.
XIE Qianaian, Aishan Wumaier, Tuergen Yibulayin, et al. Design and implementation of Chinese and Uyghur computer?aided translation system based on hybrid strategy [J]. Modern electronics technique, 2017, 40(20): 5?9.
[5] ZHOU M, HUANG J X, HUANG C N, et al. Example based machine translation system: 7353165 [P]. 2008?04?01.
[6] 卡哈爾江·阿比的熱西提.基于實(shí)例的漢維?維漢雙向機(jī)器翻譯系統(tǒng)的研究[D].上海:上海交通大學(xué),2012.
Kahaerjiang Abiderexiti. Research on an example?based Chinese?Uyghur and Uyghur?Chinese bidirectional machine translation system [D]. Shanghai: Shanghai Jiao Tong University, 2012.
[7] 張冬梅,劉小蝶,晉耀紅.基于模板的漢英專利機(jī)器翻譯研究[J].計(jì)算機(jī)應(yīng)用研究,2013,30(7):2044?2046.
ZHANG Dongmei, LIU Xiaodie, JIN Yaohong. Chinese?English patent machine translation based on templates [J]. Application research of computers, 2013, 30(7): 2044?2046.
[8] 史建國.基于模板的斯拉夫蒙古文—漢文機(jī)器翻譯系統(tǒng)的研究與實(shí)現(xiàn)[D].呼和浩特:內(nèi)蒙古大學(xué),2013.
SHI Jianguo. Research and implementation of Slavic Mongolian?Chinese machine translation system based on template [D]. Hohhot: Inner Mongolia University, 2013.
[9] 徐春,楊勇,董興華.漢維/維漢統(tǒng)計(jì)機(jī)器翻譯中若干問題研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(35):150?154.
XU Chun, YANG Yong, DONG Xinghua. Research on aspects of statistical machine translation between Chinese and Uyghur [J]. Computer engineering and applications, 2011, 47(35): 150?154.
[10] BROWN P F, COCKE J, PIETRA S A D, et al. A statistical approach to machine translation [J]. Computational linguistics, 2002, 16(2): 79?85.
[11] CHO K, MERRI?NBOER B V, GULCEHRE C, et al. Learning phrase representations using RNN encoder?decoder for statistical machine translation [J/OL]. [2014?09?03]. https://arxiv.org/pdf/1406.1078.pdf.
[12] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [J/OL]. [2014?12?14]. https://arxiv.org/pdf/1409.3215.pdf.
[13] WU Y, SCHUSTER M, CHEN Z, et al. Google′s neural machine translation system: bridging the gap between human and machine translation [J/OL]. [2016?10?08]. https://arxiv.org/pdf/1609.08144.pdf.