李佳正,劉 凱,麥熱哈巴·艾力,,呂雅娟,劉 群,吐?tīng)柛ひ啦祭?/p>
(1. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 中國(guó)科學(xué)院智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
我國(guó)是一個(gè)統(tǒng)一的多民族、多語(yǔ)言的國(guó)家,除漢族外,少數(shù)民族有55個(gè),其中有語(yǔ)言80多種,40多種現(xiàn)行文字,其中22個(gè)民族使用28種文字。隨著社會(huì)的發(fā)展,無(wú)論是經(jīng)濟(jì)還是文化,各民族之間的交流越來(lái)越頻繁。而語(yǔ)言的差異,作為一個(gè)客觀現(xiàn)實(shí),在一定程度上制約了民族之間的文化交流、經(jīng)濟(jì)發(fā)展以及社會(huì)進(jìn)步。與此同時(shí),語(yǔ)言作為搭載民族文化的獨(dú)特因素,對(duì)于民族文化的保護(hù)、研究和開(kāi)發(fā),以及弘揚(yáng)本民族的傳統(tǒng)文化,都起著十分重要的作用。因此,對(duì)少數(shù)民族語(yǔ)言與漢語(yǔ)之間機(jī)器翻譯的研究是十分必要的。民族語(yǔ)言翻譯不僅對(duì)少數(shù)民族和民族地區(qū)的經(jīng)濟(jì)、文化發(fā)展起作用,更在維護(hù)祖國(guó)統(tǒng)一,增強(qiáng)民族團(tuán)結(jié)等方面發(fā)揮了不可替代的重要作用。
所謂的命名實(shí)體(Named Entity)主要包括實(shí)體(組織名、人名、地名)、時(shí)間表達(dá)式(時(shí)間、時(shí)間)、數(shù)字表達(dá)式(貨幣值、百分?jǐn)?shù))等。命名實(shí)體識(shí)別是對(duì)文本進(jìn)行理解的前提工作,屬于文本信息處理的基礎(chǔ)研究領(lǐng)域,它的研究成果將對(duì)后續(xù)的一系列工作產(chǎn)生影響。人名識(shí)別在命名實(shí)體識(shí)別中是一個(gè)富有挑戰(zhàn)的問(wèn)題,它在英文中已經(jīng)得到很好的研究。目前,人名識(shí)別的方法主要有基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。孫茂松,宋柔等,采用基于規(guī)則的方法識(shí)別中國(guó)人名[1];羅智勇,宋柔[2]從10萬(wàn)條人名庫(kù)、2億字的真實(shí)語(yǔ)料庫(kù)中將姓名用字分為了9類,并總結(jié)了21條識(shí)別規(guī)則。但是無(wú)論是收集規(guī)模巨大的人名庫(kù)與真實(shí)語(yǔ)料庫(kù),還是提煉識(shí)別規(guī)則,都是一個(gè)費(fèi)時(shí)費(fèi)力的工程。隨著技術(shù)的進(jìn)步,利用統(tǒng)計(jì)方法進(jìn)行人名識(shí)別成為主流。其中HMM[3]方法被認(rèn)為是更容易捕捉局部的語(yǔ)言對(duì)象,成為眾多研究者的選擇,尤其是已用于已有的漢語(yǔ)命名實(shí)體識(shí)別系統(tǒng)中,如: 張華平等[4]結(jié)合Viterbi算法實(shí)現(xiàn)角色的自動(dòng)標(biāo)注;呂雅娟[5]采用分解處理策略和動(dòng)態(tài)規(guī)劃方法識(shí)別中外人名和中國(guó)地名;Wu Youzheng[6]等提出了基于多特征相融合的漢語(yǔ)命名實(shí)體模型。
對(duì)于本文涉及到的維吾爾語(yǔ)人名的翻譯,衣馬木艾山·阿布都力克木在2010年提出了基于規(guī)則的維吾爾人名漢文機(jī)器翻譯算法[7]。而有關(guān)維語(yǔ)中的漢族名字該如何翻譯這個(gè)問(wèn)題,基本沒(méi)有相關(guān)研究工作。
本文提出一種維吾爾語(yǔ)中漢族人名識(shí)別及翻譯方法。在普通人名的翻譯上可以有很大的自主性和靈活性,但對(duì)于諸如國(guó)家領(lǐng)導(dǎo)人姓名這樣特殊的姓名集合,則必須要求精準(zhǔn)翻譯。因此,有必要建立一部包括國(guó)家領(lǐng)導(dǎo)人、藝術(shù)家等名人的人名庫(kù)。與此同時(shí),在進(jìn)行普通人名翻譯的時(shí)候,姓名各個(gè)單字的詞典也是必需的。在識(shí)別漢族人名的過(guò)程中,我們使用詞典和拉丁維語(yǔ)及漢語(yǔ)的語(yǔ)言模型進(jìn)行識(shí)別和翻譯。此外,針對(duì)維語(yǔ)中人名可以綴接名詞性后綴的特點(diǎn)以及拼寫特點(diǎn),我們添加了名詞詞綴識(shí)別預(yù)處理模塊,補(bǔ)充了維語(yǔ)字母到漢語(yǔ)拼音的映射規(guī)則,有效提高了人名識(shí)別的正確率及召回率。
由于不同民族的歷史、語(yǔ)言等方面的原因,維語(yǔ)人名與漢語(yǔ)人名有著一定的差異。漢語(yǔ)及維語(yǔ)人名都由兩部分組成[8]。漢族人名有名字有姓氏,由姓和名兩部分組成,有專用的姓;但是維語(yǔ)人名卻沒(méi)有專用的姓,采用父子連名制,用父名作姓,其全名由本名和父名組成。漢族及維族人名形式不同。漢族人名姓在前名在后,即姓+名,如“張偉”;維吾爾族人名排列次序恰好相反,本名在前,父名在后,即本名+父名,本名與父名之間用間隔號(hào), 如某人本名叫艾尼瓦爾,父名叫薩迪克,則其維語(yǔ)名字即為“艾尼瓦爾·薩迪克”。
基于維語(yǔ)人名組成的特殊性,在實(shí)際的翻譯系統(tǒng)里,對(duì)于維語(yǔ)本土的名字,我們采用詞典匹配的方法。但對(duì)于龐大的漢族人名來(lái)講,建立完整的字典難度是很大的。而且因?yàn)闈h語(yǔ)中存在多音字的關(guān)系,將維語(yǔ)翻譯成漢語(yǔ)的時(shí)候,如果僅依賴詞典會(huì)使翻譯結(jié)果非常單一,無(wú)法滿足靈活的需要。因此我們考慮,如果引入人名中每個(gè)字之間的統(tǒng)計(jì)關(guān)系,以及結(jié)合上下文的語(yǔ)境來(lái)進(jìn)行人名識(shí)別和翻譯,將會(huì)更加靈活和人性化。
需要注意的是,人名作為一種特殊的名詞,可以綴接名詞詞綴??梢灶A(yù)見(jiàn),這種情況會(huì)給人名識(shí)別帶來(lái)很大難度,而綴接了名詞詞綴人名的識(shí)別也會(huì)有很大的不同。本文后面將對(duì)這種情況展開(kāi)詳細(xì)研究,此處不再累述。
現(xiàn)在中國(guó)境內(nèi)的維吾爾語(yǔ)使用的文字是以阿拉伯字母為基礎(chǔ)的老維文(UEY)和拉丁字母為基礎(chǔ)的拉丁維文(ULY)。在研究中我們發(fā)現(xiàn),老維文可以無(wú)歧義地轉(zhuǎn)換成拉丁維文,因此本文僅對(duì)拉丁維文進(jìn)行處理?,F(xiàn)代拉丁維文共有32個(gè)字母,其中有8個(gè)元音,24個(gè)輔音。尤為重要的是,維吾爾語(yǔ)是一種拼音式文字。值得注意的是,維語(yǔ)的構(gòu)成與特征與漢語(yǔ)拼音有著一定的映射聯(lián)系(見(jiàn)表1)。
表1 漢語(yǔ)拼音與維語(yǔ)字母映射表
通過(guò)觀察維語(yǔ)語(yǔ)料中的漢族人名,我們發(fā)現(xiàn)漢語(yǔ)拼音(組合)到維語(yǔ)字母(組合)的映射并不是完全對(duì)應(yīng)了以上規(guī)則。通過(guò)查閱資料,我們了解到在維語(yǔ)發(fā)音中,根據(jù)不同人的不同習(xí)慣,同樣的發(fā)音可以有多種多樣的拼寫方式。在統(tǒng)計(jì)了大量維語(yǔ)漢族人名后,本文總結(jié)出了一些規(guī)則,共有7條(見(jiàn)表2)。
表2 補(bǔ)充的維語(yǔ)字母到漢語(yǔ)拼音的映射規(guī)則
本部分我們將詳細(xì)介紹維吾爾語(yǔ)中漢族人名的識(shí)別和翻譯方法,包括基于語(yǔ)言模型的漢族人名識(shí)別和翻譯、維吾爾語(yǔ)名詞詞綴兩個(gè)方面。
統(tǒng)計(jì)語(yǔ)言模型(Statistical language model)通過(guò)大量對(duì)文本文件的統(tǒng)計(jì),提取不同字、詞之間先后發(fā)生的統(tǒng)計(jì)關(guān)系。目前主要采用的是n元語(yǔ)法模型(N-gram model),這種模型構(gòu)建簡(jiǎn)單、直接。本文主要借助SRILM工具包來(lái)進(jìn)行語(yǔ)言模型的創(chuàng)建。SRILM是一個(gè)建立和使用統(tǒng)計(jì)語(yǔ)言模型的開(kāi)源工具包,在Cygwin的平臺(tái)上能實(shí)現(xiàn)訓(xùn)練、預(yù)測(cè)、計(jì)算的一系列操作。利用SRILM,我們可以方便地創(chuàng)建和運(yùn)用多種基于N-gram的統(tǒng)計(jì)語(yǔ)言模型。
本文搭建了兩個(gè)語(yǔ)言模型。分別用于維文中漢族人名的識(shí)別和翻譯。在識(shí)別方面,漢族人名的構(gòu)成與維語(yǔ)普通詞的構(gòu)成是有著一定差別的,這在統(tǒng)計(jì)信息上可以予以體現(xiàn)。利用這種不同,本文搭建拉丁維語(yǔ)語(yǔ)言模型來(lái)識(shí)別出維語(yǔ)中的漢族人名,由于維語(yǔ)中的漢族人名一般占用兩個(gè)維語(yǔ)單詞,所以采用維語(yǔ)二元語(yǔ)言模型。當(dāng)識(shí)別出的漢族人名是詞典中的人名時(shí),對(duì)其翻譯只需查找詞典即可。而翻譯的難點(diǎn)就在于那些不在詞典中的人名該如何翻譯。顯然,為不斷出現(xiàn)新的人名而建立豐富、全面的對(duì)照詞庫(kù)是不現(xiàn)實(shí)的。在漢語(yǔ)里,每個(gè)字在人名中出現(xiàn)的概率是不一樣的,甚至于有些字的組合出現(xiàn)的概率也是不同的。譬如,“志洋”二字在名中出現(xiàn)的概率就要大于其他“zhi yang”組合的概率。由于漢族人名長(zhǎng)度絕大多數(shù)為2和3,所以本文用漢語(yǔ)字符的三元語(yǔ)言模型選擇最符合漢族人習(xí)慣的中文人名。下面我們?cè)敿?xì)介紹如何識(shí)別及翻譯維語(yǔ)中的漢族人名。
識(shí)別的主要任務(wù)是要識(shí)別出文本中出現(xiàn)的拉丁維語(yǔ)中的漢族人名。由前文知,維語(yǔ)中的漢族人名在書寫上與漢語(yǔ)人名有相同的規(guī)則,均為“姓[空格]名”,即姓名之間用空格隔開(kāi)。但在實(shí)際情況中,我們發(fā)現(xiàn)由于書寫習(xí)慣的不同,在用維語(yǔ)書寫漢族人名時(shí),有可能寫成“姓名”的形式,即姓和名沒(méi)有用空格間隔開(kāi)。這就要求我們?cè)谧R(shí)別過(guò)程中要能區(qū)分并正確識(shí)別這兩種正常的拼寫形式。識(shí)別時(shí),我們先去查詢輸入的單詞是否為無(wú)空格間隔開(kāi)的人名,若不是則去查詢是否為姓氏,若為姓氏,則初步判定當(dāng)前輸入詞和下一輸入詞為人名,這時(shí)我們用拉丁維語(yǔ)的二元語(yǔ)言模型來(lái)判斷這兩個(gè)詞的組合概率是否在閾值控制的范圍內(nèi),以此來(lái)判斷輸入的兩個(gè)詞是否是真正可翻譯的人名。具體識(shí)別步驟見(jiàn)圖1。
翻譯的主要任務(wù)是對(duì)識(shí)別為人名的兩個(gè)單詞翻譯成中文人名。在翻譯的過(guò)程中要考慮一下三種情況: (1)“姓 名”為人名庫(kù)詞典中存在的詞條;(2)“名”為單字;(3)“名”為雙字。
翻譯時(shí),我們?cè)谛帐显~典里查詢輸入的第一個(gè)詞,再對(duì)第二個(gè)輸入詞進(jìn)行分析,判斷其是單字還是兩個(gè)字,若是兩個(gè)字則對(duì)其進(jìn)行拆分。這樣取出每一個(gè)單字后,我們用漢語(yǔ)的三元語(yǔ)言模型對(duì)每個(gè)單字的組合求概率,選擇概率最大的組合為最佳翻譯。具體翻譯步驟見(jiàn)圖2。
維吾爾語(yǔ)是一種形態(tài)變化很復(fù)雜的語(yǔ)言,其中名詞是一種形態(tài)變化復(fù)雜的詞類。維吾爾語(yǔ)屬于阿爾泰語(yǔ)系突厥語(yǔ)族,黏著型語(yǔ)言。黏著語(yǔ)語(yǔ)言是一種有時(shí)態(tài)變化的語(yǔ)言類型,通過(guò)在單詞的詞尾粘貼不同的詞綴來(lái)實(shí)現(xiàn)語(yǔ)法功能。維吾爾語(yǔ)中的名詞詞綴共有49個(gè)。在本文所搭建的人名翻譯系統(tǒng)中,人名作為一類特殊的名詞,其后也會(huì)綴接名詞詞綴。因此,在翻譯過(guò)程中,需要識(shí)別出詞綴才能截取出我們需要的人名,后續(xù)的翻譯等工作才能順利進(jìn)行。
圖1 識(shí)別主要流程
在圖1中,相鄰兩個(gè)單詞a、b作為輸入,判斷a是否為無(wú)空格間隔的人名,若非此種情況,則判斷a是否為姓氏,若非姓氏,則判斷“a空格b”是否為人名,若是人名則用拉丁維語(yǔ)二元語(yǔ)言模型計(jì)算a、b組合的概率,若小于固定閾值則識(shí)別成功,其余情況均視為失敗。
圖2 翻譯主要流程
在圖2中,相鄰單詞a、b作為輸入,若b不為單字,且可拆分成兩個(gè)字c、d,且用漢語(yǔ)三元語(yǔ)言模型計(jì)算姓和名各單字的組合概率,選取最大值組合為譯文;否則視為不可譯。
本文將對(duì)詞綴識(shí)別的改進(jìn)算法添加在對(duì)翻譯文件的預(yù)處理階段,即在人名的識(shí)別翻譯前先對(duì)詞綴進(jìn)行過(guò)濾。我們考慮輸入詞有以下幾種情況: (1)普通詞,即非人名的詞;(2)為無(wú)間隔空開(kāi)的人名庫(kù)中的姓名;(3)為姓氏;(4)為名;(5)為綴接詞綴的無(wú)空格間隔的人名庫(kù)中的姓名;(6)為綴接詞綴的人名中的名字部分,其中名字可以為單字名,亦可以為雙字名。識(shí)別詞綴時(shí),若是前四種種情況我們則不對(duì)輸入詞進(jìn)行處理,若是后兩者即綴接了詞綴的人名的情況,我們用反向最大匹配去識(shí)別詞綴,識(shí)別出詞綴后,為保證切割掉詞綴的部分可以正常翻譯,需要對(duì)切割掉詞綴的部分進(jìn)行單字或雙字的詞典匹配,若可以匹配成功,則表明綴接了詞綴的人名識(shí)別成功。其主要流程如圖3所示。
圖3 詞綴識(shí)別處理主要流程
在圖3中,依次判斷輸入詞是否為名人庫(kù)中的名字、是否為姓氏以及是否為單字或雙字名,若皆非,則用反向最大匹配識(shí)別輸入詞的詞綴,若詞綴是可識(shí)別的,繼續(xù)判斷去掉詞綴的部分是否為無(wú)空格間隔姓名、單字名或雙字名中的一種,若是其中一種,則詞綴識(shí)別成功,并將名字和詞綴分別輸出;其余情況視為識(shí)別不成功。
本文逐步實(shí)現(xiàn)了此前闡述的有關(guān)人名識(shí)別和翻譯的功能,并對(duì)維語(yǔ)中漢族人名翻譯進(jìn)行了測(cè)試。
本文所用的實(shí)驗(yàn)數(shù)據(jù)來(lái)自于新疆大學(xué)信息科學(xué)與工程學(xué)院的學(xué)者標(biāo)注的12萬(wàn)維吾爾語(yǔ)語(yǔ)料以及搜狗官方網(wǎng)站提供的人名語(yǔ)料*http://pinyin.sogou.com/,并在此基礎(chǔ)上根據(jù)我們需求做了一定處理。
5.1.1 人名詞典
我們從搜狗官方網(wǎng)站下載了國(guó)家領(lǐng)導(dǎo)人,名人以及常見(jiàn)人名細(xì)胞詞庫(kù)*http://pinyin.sogou.com/dict/,其中常見(jiàn)人名共120 620個(gè)詞條。本文選取了中國(guó)歷代國(guó)家領(lǐng)導(dǎo)人的姓名,名人的姓名作為名人人名庫(kù)(共3 720詞條)。在制作名人庫(kù)的時(shí)候,充分結(jié)合了中國(guó)歷史的特點(diǎn),利用百家姓對(duì)所有人名進(jìn)行了過(guò)濾,以保證所有的人名都是合乎中國(guó)文化及特點(diǎn)。在此基礎(chǔ)之上,根據(jù)建立的漢字與維語(yǔ)拼音的映射,將名人庫(kù)的姓名翻譯成拉丁維語(yǔ)。與此同時(shí),為了后面對(duì)人名進(jìn)行翻譯的時(shí)候有詞典可查,分別生成姓以及名的各單字的維漢詞典。
5.1.2 語(yǔ)言模型
新疆大學(xué)信息學(xué)院學(xué)者建立了一個(gè)規(guī)模為119 737句的維語(yǔ)語(yǔ)料庫(kù)。其中,含有人名的句子有5 874句;不含人名的句子有113 863句。
本文使用了其中不含人名的113 863句來(lái)訓(xùn)練拉丁維語(yǔ)二元語(yǔ)言模型,通過(guò)此模型來(lái)判斷輸入詞是以下哪種情況: (1)維語(yǔ)普通詞與普通詞;(2)維語(yǔ)普通詞與漢族人名的姓氏;(3)漢族人名姓氏與名字;(4)漢族人名的名字與維語(yǔ)普通詞。通過(guò)實(shí)驗(yàn)觀察數(shù)據(jù)得知,以上情況中,絕大部分漢族人名姓氏與名字相鄰的概率小于固定閾值。
本文同時(shí)使用了名人庫(kù)(共3 720詞條)以及常見(jiàn)人名(共120 620詞條)進(jìn)行分詞,來(lái)搭建漢語(yǔ)的三元語(yǔ)言模型,建立漢族人名使用的單字之間的統(tǒng)計(jì)關(guān)系。
5.1.3 測(cè)試數(shù)據(jù)
本文對(duì)維語(yǔ)里中文人名翻譯系統(tǒng)進(jìn)行了測(cè)試。所用的測(cè)試數(shù)據(jù)來(lái)自于12萬(wàn)維語(yǔ)語(yǔ)料中含有漢族人名的句子,共5 874句,隨機(jī)抽取其中1 000句進(jìn)行測(cè)試。
我們首先按照最初設(shè)計(jì)的識(shí)別及翻譯流程,即不使用人們常用的錯(cuò)誤的拼寫規(guī)則及詞綴識(shí)別,搭建了維語(yǔ)中漢族人名的翻譯系統(tǒng)。在測(cè)試數(shù)據(jù)上對(duì)系統(tǒng)進(jìn)行測(cè)試,并統(tǒng)計(jì)了識(shí)別的正確率及召回率。
接下來(lái),我們根據(jù)前面總結(jié)的漢語(yǔ)拼音(組合)到維語(yǔ)字母(組合)的映射補(bǔ)充規(guī)則來(lái)重新建立漢字與維語(yǔ)拼寫的映射,并創(chuàng)建詞典,包括名人庫(kù)的人名,姓氏及名字的詞典。在此基礎(chǔ)之上,用SRILM工具包重訓(xùn)拉丁維語(yǔ)二元語(yǔ)言模型以及漢語(yǔ)三元語(yǔ)言模型。用同樣的測(cè)試數(shù)據(jù)進(jìn)行測(cè)試,并統(tǒng)計(jì)結(jié)果。
最后,我們嘗試根據(jù)前文提出的名詞詞綴識(shí)別的算法再次改進(jìn)系統(tǒng),期望能夠在正確率提高的基礎(chǔ)上,進(jìn)一步提高召回率。
三次測(cè)試的結(jié)果對(duì)比如圖4所示。
圖4 三次人名識(shí)別測(cè)試結(jié)果對(duì)比圖
測(cè)試結(jié)果表明,在第一個(gè)人名識(shí)別及翻譯系統(tǒng)中,僅有超過(guò)一半的人名翻譯了。通過(guò)對(duì)比譯文,總結(jié)原因有兩點(diǎn): (1)由于維吾爾族人發(fā)音不同的原因,有些維語(yǔ)字母對(duì)漢語(yǔ)拼音的映射并不是一對(duì)一的,譬如: “yong”會(huì)拼寫成“yung”;(2)人名是名詞的一種特殊形式,而在維語(yǔ)里面有名詞詞綴,這些詞綴在拼接到人名后時(shí),會(huì)使人名無(wú)法識(shí)別和翻譯,如“wang bangjün”在綴接了詞綴“ning”后變成“wang bangjünning”,在識(shí)別過(guò)程中,第二個(gè)輸入詞就變成了“bangjünning”,由于詞綴的出現(xiàn),系統(tǒng)無(wú)法將其拆分成兩個(gè)單字,拆分不成功將導(dǎo)致系統(tǒng)無(wú)法將其識(shí)別為人名。
從圖4中可以看出,人名識(shí)別及翻譯系統(tǒng)在補(bǔ)充規(guī)則后,識(shí)別的正確率提高了15.5%,達(dá)到了69.4%,召回率則有20.1%的提高,達(dá)到84.3%;在添加了詞綴分析后,正確率在前者的基礎(chǔ)上又有了5.8%的提高,召回率有7.2%的提高,分別達(dá)到 75.2% 和91.5%。結(jié)果表明,人名識(shí)別及翻譯系統(tǒng)最初使用的規(guī)則是不夠全面的,補(bǔ)充了總結(jié)的漢語(yǔ)拼音(組合)到維語(yǔ)字母(組合)的映射規(guī)則后,識(shí)別及翻譯效果得到了較大提升。而添加了詞綴識(shí)別預(yù)處理模塊后,系統(tǒng)識(shí)別的正確率達(dá)到了75.2%,召回率更高達(dá)91.5%。
另外,通過(guò)對(duì)比譯文,我們發(fā)現(xiàn),在對(duì)測(cè)試語(yǔ)料對(duì)應(yīng)的中文譯文進(jìn)行詞法分析的時(shí)候,詞性標(biāo)注有誤,使人名翻譯的譯文存在噪聲,這是系統(tǒng)識(shí)別召回率無(wú)法提升的主要原因。例如,“谷歌”的拉丁維語(yǔ)拼寫為“gug?l”,中文分詞時(shí)將“谷歌”識(shí)別為人名,我們隨機(jī)抽取含有“谷歌”的句子作為測(cè)試句,而“gug?l”是無(wú)法識(shí)別和翻譯為漢族人名的。對(duì)于正確率,由于在拉丁維語(yǔ)中,有些單詞是與中文的姓氏拼寫相同的,例如“si”、“ni”等,而這些拉丁維語(yǔ)單詞出現(xiàn)的頻率是比較高的,在語(yǔ)言模型中擁有較高的概率值,因此在通過(guò)拉丁維語(yǔ)二元語(yǔ)言模型計(jì)算與前后詞的組合概率時(shí),與這些單詞拼寫相同的姓氏也會(huì)被當(dāng)做普通詞而不被識(shí)別,這是造成正確率不夠高的主要原因。
本文針對(duì)維吾爾語(yǔ)中漢族人名的識(shí)別和翻譯方法進(jìn)行了一定的研究和探索。設(shè)計(jì)了通過(guò)漢字與維語(yǔ)拼音的映射規(guī)則來(lái)構(gòu)造漢族人名的維語(yǔ)詞典,使用語(yǔ)言模型來(lái)計(jì)算輸入譯文是否為名字及名字如何翻譯。并采用添加規(guī)則和對(duì)人名詞綴進(jìn)行識(shí)別的方法來(lái)提高系統(tǒng)的翻譯精度。實(shí)驗(yàn)結(jié)果表明了上述方法的可行性和有效性。
為了進(jìn)一步提高維漢人名翻譯系統(tǒng)翻譯的質(zhì)量,還需要收集和整理更多有關(guān)維漢人名翻譯的資料,尤其是使用更為精準(zhǔn)的測(cè)試語(yǔ)料。另外,在進(jìn)行識(shí)別時(shí),我們可以調(diào)整閾值尋找更加合理的參數(shù)值以識(shí)別出更多的漢族人名,進(jìn)一步提高系統(tǒng)識(shí)別的正確率。
[1] 宋柔, 朱宏. 基于語(yǔ)料庫(kù)和規(guī)則庫(kù)的人名識(shí)別法[C]//陳力為. 計(jì)算語(yǔ)言研究與應(yīng)用. 北京: 北京語(yǔ)言學(xué)院出版社, 1993.
[2] 羅智勇, 宋柔. 現(xiàn)代漢語(yǔ)自動(dòng)分詞中專名的一體化、快速識(shí)別方法[C]//Ji Dong-Hong, 國(guó)際中文電腦學(xué)術(shù)會(huì)議, 新加坡, 2001: 323-328.
[3] 張華平,劉群. 基于角色標(biāo)注的中國(guó)人名自動(dòng)識(shí)別研究[J]. 計(jì)算機(jī)學(xué)報(bào),2004,27(1): 85-91.
[4] Zhang Huaping, Liu Qun, Yu Hongkui, et al. Chinese named entity recognition using role model[J]. The International Journal of Computational Linguistics and Chinese Language Processing, 2003, 8(2): 29-60.
[5] 呂雅娟, 趙鐵軍, 楊沐昀, 等. 基于分解與動(dòng)態(tài)規(guī)劃策略的漢語(yǔ)未登錄詞識(shí)別[J]. 中文信息學(xué)報(bào),2001, 15(1): 28-33.
[6] Wu Youzheng, Zhao Jun, Xu Bo, et al. Chinese named entity recognition based on multiple feature[C]//Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing(HLT/EMNLP), Vancouver, 2005: 427-434.
[7] 衣馬木艾山·阿布都力克木,吐?tīng)柕亍ね泻咸?艾斯卡爾·艾木都拉.基于規(guī)則的維吾爾人名漢文機(jī)器翻譯算法研究[J].計(jì)算機(jī)應(yīng)用與軟件, 2010: 86-87.
[8] 張秀玲. 漢維語(yǔ)人名文化異同之比較[J]. 新疆大學(xué)學(xué)報(bào), 2009, 37(6): 136-139.