国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于平行語(yǔ)料和翻譯概率的多語(yǔ)種詞對(duì)齊方法

2019-12-30 02:36楊飛揚(yáng)趙亞慧崔榮一易志偉
中文信息學(xué)報(bào) 2019年12期
關(guān)鍵詞:源語(yǔ)言目標(biāo)語(yǔ)言高頻詞

楊飛揚(yáng),趙亞慧,崔榮一,易志偉

(延邊大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 智能信息處理研究室,吉林 延吉 133002)

0 引言

統(tǒng)計(jì)機(jī)器翻譯的思想是從一個(gè)包含大量句子對(duì)齊的雙語(yǔ)平行語(yǔ)料中學(xué)習(xí)翻譯規(guī)則,實(shí)現(xiàn)從一種自然語(yǔ)言翻譯為另一種自然語(yǔ)言[1-2],詞對(duì)齊方法主要有: 基于統(tǒng)計(jì)方法、詞典的方法、語(yǔ)言特征的詞對(duì)齊方法等。找到單詞的翻譯是建立對(duì)齊關(guān)系的前提,而建立詞對(duì)齊關(guān)系是任何統(tǒng)計(jì)機(jī)器翻譯模型的基本步驟之一[3]。目前機(jī)器翻譯的性能很大程度上依賴于訓(xùn)練語(yǔ)料的規(guī)模和質(zhì)量,訓(xùn)練語(yǔ)料規(guī)模越大、質(zhì)量越好,則有效的翻譯知識(shí)越多,涵蓋的語(yǔ)言現(xiàn)象也越充分。然而在完成特定領(lǐng)域翻譯任務(wù)時(shí),機(jī)器翻譯的性能往往偏低[4],原因在于通用領(lǐng)域翻譯系統(tǒng)無(wú)法針對(duì)特定領(lǐng)域的翻譯知識(shí)、句子表達(dá)方式以及語(yǔ)言風(fēng)格等做出調(diào)整。因此針對(duì)特定領(lǐng)域以及低資源語(yǔ)言的翻譯,需要一種在沒(méi)有完整數(shù)據(jù)庫(kù)的情況下,能夠高效地做到詞的形式對(duì)應(yīng),做到有針對(duì)性的翻譯。IBM條件概率模型[5]采用句子級(jí)的劃分,用分?jǐn)?shù)計(jì)數(shù)克服長(zhǎng)短句帶來(lái)的誤差;用枚舉的方法降低對(duì)應(yīng)停用詞的數(shù)學(xué)期望,克服語(yǔ)料預(yù)處理的誤差,但在實(shí)驗(yàn)中發(fā)現(xiàn),預(yù)處理的權(quán)重是影響實(shí)驗(yàn)結(jié)果的主要原因。在IBM的對(duì)齊模型中,彌補(bǔ)一對(duì)多情況的方法是對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)稱化,從兩個(gè)方向進(jìn)行EM算法[6](expectation maximization)的訓(xùn)練,但進(jìn)行EM算法的訓(xùn)練需要大規(guī)模的語(yǔ)料才能使結(jié)果準(zhǔn)確。過(guò)去的幾年里,人們嘗試使用跨語(yǔ)言主題模型來(lái)獲得翻譯語(yǔ)料[7-8],構(gòu)建主題作為雙語(yǔ)匹配的分布,其中匹配先驗(yàn)可能來(lái)自不同的初始證據(jù),如機(jī)器可讀字典。

上述方法的主要缺點(diǎn)是需要引入了外部知識(shí)[9],本文在以往的研究基礎(chǔ)上,針對(duì)特定語(yǔ)料進(jìn)行改進(jìn),不依賴字典及外部知識(shí),不依賴大規(guī)模語(yǔ)料進(jìn)行訓(xùn)練,假設(shè)存在翻譯關(guān)系的詞之間具有明顯的共現(xiàn)關(guān)系,且在服從Zipf定律的低頻詞區(qū)域點(diǎn)互信息可以有效地被翻譯概率取代,通過(guò)對(duì)候選翻譯結(jié)果進(jìn)行優(yōu)化,以更高的效率確定特定的雙語(yǔ)對(duì)齊單詞,并通過(guò)實(shí)驗(yàn)驗(yàn)證了本方法的有效性。

1 相關(guān)工作

1.1 點(diǎn)互信息

點(diǎn)互信息(pointwise mutual information,PMI)度量?jī)蓚€(gè)隨機(jī)變量取特定值時(shí)的相互關(guān)聯(lián)程度[10-11]。在本文討論的單詞翻譯問(wèn)題中,漢語(yǔ)單詞tS和對(duì)應(yīng)的英文單詞tT之間的關(guān)聯(lián)強(qiáng)度可以用點(diǎn)互信息公式計(jì)算,如式(1)所示。

(1)

其中,P(tS,tT)是語(yǔ)料庫(kù)中源語(yǔ)言單詞tS及目標(biāo)語(yǔ)言單詞tT共現(xiàn)的概率(漢譯英情況下,tS是漢語(yǔ)單詞,tT是英語(yǔ)單詞);P(tS)和P(tT)分別是語(yǔ)料庫(kù)中源語(yǔ)言單詞tS及目標(biāo)語(yǔ)言單詞tT各自出現(xiàn)的概率。利用聯(lián)合概率的性質(zhì),式(1)可以寫(xiě)成:

(2)

由此可見(jiàn),PMI度量了當(dāng)確定源語(yǔ)言單詞tS時(shí),目標(biāo)語(yǔ)言單詞tT出現(xiàn)的概率相比該目標(biāo)語(yǔ)言單詞先驗(yàn)概率的變化情況。這里存在3種可能的情況:

(1) 如果源語(yǔ)言單詞tS與目標(biāo)語(yǔ)言單詞tT統(tǒng)計(jì)獨(dú)立,則tS的出現(xiàn)不會(huì)改變tT出現(xiàn)的概率,即:P(tT|tS)=P(tT),導(dǎo)致PMI(tS,tT)=0,從共現(xiàn)意義上這兩個(gè)詞之間沒(méi)有關(guān)聯(lián)性,不可能存在詞對(duì)齊關(guān)系。

(2) 當(dāng)源語(yǔ)言單詞tS出現(xiàn)時(shí)目標(biāo)語(yǔ)言單詞tT出現(xiàn)的概率減小,小于其先驗(yàn)概率,則PMI(tS,tT)<0,二者之間存在相互抑制關(guān)系,但不存在對(duì)齊關(guān)系[12]。

(3) 只有當(dāng)源語(yǔ)言單詞tS出現(xiàn)時(shí)目標(biāo)語(yǔ)言單詞tT出現(xiàn)的概率增加,大于其先驗(yàn)概率,則PMI(tS,tT)>0,二者之間才可能存在對(duì)齊關(guān)系。因此當(dāng)給定源語(yǔ)言單詞tS時(shí)可通過(guò)考察與其點(diǎn)互信息大于零且超過(guò)一定閾值的若干目標(biāo)語(yǔ)言單詞作為候選翻譯詞。

1.2 Zipf定律

Zipf定律表明在英語(yǔ)單詞中,只有極少數(shù)的詞被經(jīng)常使用,而絕大多數(shù)詞很少被使用。實(shí)際上,包括漢語(yǔ)、朝鮮語(yǔ)在內(nèi)的許多國(guó)家的語(yǔ)言都有這種特點(diǎn)[13]。在一個(gè)語(yǔ)料庫(kù)中,若將詞語(yǔ)出現(xiàn)的頻率(即詞頻)記作Pr,將該詞的詞頻排位記為r,則Zipf定律可表示為式(3):

C=Pr·r

(3)

其中,C為一個(gè)大于零的常數(shù)。式(3)表明某個(gè)詞匯出現(xiàn)的頻率和頻級(jí)的乘積是常數(shù)。這條定律說(shuō)明,人們一般偏好比較常用的詞匯,而不是生僻的詞匯。若將Pr和r的關(guān)系表示在雙對(duì)數(shù)坐標(biāo)系中,所繪制出的曲線幾乎為一條直線,并且斜率近似為-1。為了準(zhǔn)確求解這一斜率,Zipf定律還可以推廣為:

C=Pr·ra

(4)

其中,a為待定常數(shù),r為頻級(jí):r=1,2,…,n。對(duì)式(4)兩邊取對(duì)數(shù)后整理得式(5):

logPr=logC-alogr

(5)

這條定律說(shuō)明,人們一般偏好比較常用的詞匯而不是生僻的詞匯。以英文為例,詞頻分布具有“長(zhǎng)尾”特征,如圖1所示。本文將利用這一特性提出合理假設(shè),簡(jiǎn)化式(2)定義的單詞間關(guān)聯(lián)強(qiáng)度的計(jì)算方法。

圖1 文本詞匯頻次分布圖

2 基于翻譯概率的詞對(duì)齊算法

2.1 點(diǎn)互信息度量法可簡(jiǎn)化為翻譯概率

Zipf定律表示在文檔語(yǔ)料中極少數(shù)詞匯高頻出現(xiàn),大多數(shù)詞匯出現(xiàn)的頻率很低。如果我們考慮普通頻級(jí)區(qū)域單詞對(duì)齊問(wèn)題,源語(yǔ)言與目標(biāo)語(yǔ)言單詞之間相關(guān)程度的度量可由式(3)改進(jìn)為更高效的形式。從單詞對(duì)齊的目的和Zipf定律刻畫(huà)的普通頻級(jí)區(qū)域詞頻特性來(lái)看本文做如下假設(shè)是合理的。

假設(shè)1平行語(yǔ)料中不存在高頻詞;

假設(shè)2所考慮的目標(biāo)語(yǔ)言單詞近似服從均勻分布。

(6)

(7)

(8)

翻譯概率的算法如下:

算法1 翻譯概率

利用算法1,通過(guò)設(shè)定概率閾值可對(duì)給定源語(yǔ)言單詞獲得若干候選目標(biāo)單詞,這些單詞具有與源語(yǔ)言單詞對(duì)齊的可能性。對(duì)特定源語(yǔ)言單詞tS可按條件概率P(tT|tS)遞減方式給出候選目標(biāo)語(yǔ)言單詞tT1,tT2,…,tTm。為保證翻譯關(guān)系的可信性,翻譯概率須超過(guò)一定的閾值,即滿足:

P(tT1|tS)≥P(tT2|tS)≥…≥P(tTm|tS)≥PTS

(9)

其中,PTS稱為翻譯概率閾值,是為保證詞對(duì)齊可信度的翻譯概率的下限值,低于PTS的翻譯詞可視作當(dāng)前語(yǔ)料無(wú)法匹配到真正翻譯詞的情況,不納入計(jì)算。在滿足式(9)的m個(gè)目標(biāo)詞中選取前k個(gè)作為單詞tS的翻譯候選單詞,其中PTS的取值根據(jù)源語(yǔ)言語(yǔ)料質(zhì)量與規(guī)模實(shí)驗(yàn)確定。

源語(yǔ)言語(yǔ)料中出現(xiàn)次數(shù)過(guò)低的單詞,因?yàn)楦怕使烙?jì)缺乏數(shù)據(jù),不能通過(guò)式(7)和算法1有效地計(jì)算其翻譯概率。但可以通過(guò)算法1計(jì)算其翻譯概率的源語(yǔ)言單詞tS的概率P(tS),判斷其是否也超過(guò)一定的閾值,如式(10)所示。

P(tS)≥PS

(10)

其中,PS稱為有效概率閾值,是可以通過(guò)平行語(yǔ)料技術(shù)進(jìn)行詞對(duì)齊處理的源語(yǔ)言單詞在語(yǔ)料中應(yīng)出現(xiàn)的最低概率。在進(jìn)行單詞頻級(jí)計(jì)數(shù)時(shí)由高到低排序,根據(jù)語(yǔ)料規(guī)模視為低頻詞的單詞,不納入計(jì)算,滿足式(10)的源語(yǔ)言單詞tS稱為詞對(duì)齊有效源語(yǔ)言單詞。

2.2 詞對(duì)齊優(yōu)化處理

通過(guò)研究擴(kuò)大高頻詞的范圍發(fā)現(xiàn),在利用上述條件概率方法進(jìn)行跨語(yǔ)言詞對(duì)齊處理時(shí),通過(guò)以下措施可進(jìn)一步提高對(duì)齊效果。

(1) 去除預(yù)處理過(guò)程中出現(xiàn)的病態(tài)分詞結(jié)果;

(2) 去除當(dāng)前停用詞表中未登錄的停用詞;

(3) 對(duì)一詞多義(一個(gè)源語(yǔ)言單詞對(duì)應(yīng)于相同語(yǔ)義的多個(gè)目標(biāo)語(yǔ)言單詞)和組合詞(一個(gè)源語(yǔ)言單詞對(duì)應(yīng)于多個(gè)目標(biāo)語(yǔ)言單詞的組合)情況,進(jìn)行如下處理: 利用式(9)、式(10)調(diào)整閾值,對(duì)組合詞的情況進(jìn)行對(duì)稱化處理,使其重組成源語(yǔ)言對(duì)應(yīng)翻譯詞組。

該方法彌補(bǔ)了語(yǔ)料針對(duì)性、分詞細(xì)粒度和語(yǔ)料規(guī)模不足帶來(lái)的誤差,從而提升了詞對(duì)齊的準(zhǔn)確性。在分類一詞多義與組合詞時(shí)能夠完善特定語(yǔ)料的單詞義項(xiàng)。具體算法如下:

算法2 翻譯概率優(yōu)化算法

3 實(shí)驗(yàn)結(jié)果及分析

3.1 平行語(yǔ)料預(yù)處理

本文實(shí)驗(yàn)語(yǔ)料為延邊州科技信息服務(wù)中心數(shù)據(jù)庫(kù)中的30 827條中、英、朝語(yǔ)科技類平行語(yǔ)料,滿足形式對(duì)應(yīng)。語(yǔ)料預(yù)處理步驟如下:

(1) 使用jieba分詞工具對(duì)句子進(jìn)行分詞;

(2) 對(duì)多語(yǔ)種互譯句子進(jìn)行按行對(duì)齊,用|||符號(hào)隔開(kāi);

(3) 去除中、英、朝文本中的標(biāo)點(diǎn)符號(hào)、數(shù)字、特殊符號(hào)、多余的空格,統(tǒng)一英文大小寫(xiě)等;

(4) 對(duì)英語(yǔ)部分進(jìn)行詞干還原,還原動(dòng)詞原型,保留形容詞和副詞的詞根;

(5) 去除中、英、朝文本中的高頻停用詞。

3.2 中—英—朝平行語(yǔ)料詞對(duì)齊實(shí)驗(yàn)方案

因?yàn)檎Z(yǔ)料樣本有限,所以在平行語(yǔ)料中選擇出現(xiàn)概率最高的100個(gè)詞對(duì)齊有效源語(yǔ)言單詞,通過(guò)算法1計(jì)算,列出與源語(yǔ)言單詞相關(guān)度最大的5個(gè)目標(biāo)語(yǔ)言候選詞,并按翻譯概率從高到低排列[滿足式(9)];在此基礎(chǔ)上用優(yōu)化算法進(jìn)行優(yōu)化處理。翻譯的準(zhǔn)確率均達(dá)到94%以上,其中造成誤差的原因有預(yù)處理分詞的病態(tài)分詞、特定文本的停用詞無(wú)法去除、語(yǔ)料規(guī)模造成翻譯的局限性等。表1~表4是部分實(shí)驗(yàn)結(jié)果展示。

表1 漢譯英翻譯概率(部分結(jié)果)

表2 英譯漢翻譯概率(部分結(jié)果)

表3 漢譯朝翻譯概率(部分結(jié)果)

續(xù)表

表4 雙向翻譯時(shí)前100高頻詞準(zhǔn)確率對(duì)比

3.3 源語(yǔ)言單詞數(shù)量與語(yǔ)料規(guī)模對(duì)翻譯準(zhǔn)確率的影響

(1) 保持語(yǔ)料規(guī)模不變,將待處理源語(yǔ)言單詞范圍擴(kuò)展,觀察算法的有效性。

(2) 保持待處理源語(yǔ)言單詞范圍不變,改變語(yǔ)料規(guī)模,觀察準(zhǔn)確率的變化程度。

實(shí)驗(yàn)分別控制語(yǔ)料不變高頻詞范圍擴(kuò)展,觀察算法的有效性及可行域局限性;控制高頻詞范圍不變,改變語(yǔ)料規(guī)模,觀察準(zhǔn)確率的變化程度。通過(guò)以上實(shí)驗(yàn)過(guò)程,分析影響準(zhǔn)確率的權(quán)重高低、預(yù)測(cè)算法可行范圍,配合翻譯概率優(yōu)化算法并統(tǒng)計(jì),得出以下結(jié)論。

圖2 漢譯英、漢譯朝控制語(yǔ)料不變的翻譯準(zhǔn)確率

圖3 英譯漢、英譯朝控制語(yǔ)料不變的翻譯準(zhǔn)確率

圖4 朝譯漢、朝譯英控制語(yǔ)料規(guī)模不變的翻譯準(zhǔn)確率

由圖2~圖4可知,保持語(yǔ)料不變,通過(guò)改變?cè)凑Z(yǔ)言普通高頻單詞取值范圍,在有效范圍內(nèi),對(duì)漢、英、朝進(jìn)行翻譯時(shí)準(zhǔn)確率在94%以上,使用翻譯概率優(yōu)化算法對(duì)朝鮮語(yǔ)進(jìn)行翻譯,準(zhǔn)確率與未優(yōu)化前對(duì)比提升了15%。因?yàn)槌r語(yǔ)的分詞效果不如英語(yǔ)和漢語(yǔ)好,停用詞表的構(gòu)造不如英語(yǔ)和漢語(yǔ)成熟,所以優(yōu)化后提升效果最為明顯。

圖5 英譯漢、英譯朝控制高頻詞量不變的翻譯準(zhǔn)確率

圖6 漢譯英、漢譯朝控制高頻詞量不變的翻譯準(zhǔn)確率

圖7 朝譯英、朝譯漢控制高頻詞量不變的翻譯準(zhǔn)確率

由圖5~圖7可知,保持源語(yǔ)言普通高頻單詞取值范圍不變,改變?cè)凑Z(yǔ)言語(yǔ)料規(guī)模范圍,在有效范圍內(nèi)雙語(yǔ)互譯的準(zhǔn)確率均處于折線形上升的趨勢(shì)。實(shí)驗(yàn)結(jié)果也印證了語(yǔ)料規(guī)模越大,翻譯的準(zhǔn)確率越高這一特點(diǎn),漢譯英優(yōu)化效果前后對(duì)比提升了3%左右。英譯漢優(yōu)化效果前后對(duì)比提升了2%左右。整體上漢譯英、朝的準(zhǔn)確率高于其他情況,造成此情況的原因可能是因?yàn)闈h字的信息熵本身較其他語(yǔ)言高,也可能是原文作者是漢語(yǔ)的母語(yǔ)者,漢語(yǔ)翻譯成其他語(yǔ)言的準(zhǔn)確率最高,并且其他語(yǔ)言未優(yōu)化時(shí),很多正確翻譯詞對(duì)應(yīng)在翻譯概率第三列、第四列,而漢譯英、朝對(duì)應(yīng)在非最高翻譯概率的詞卻很少,翻譯會(huì)產(chǎn)生噪聲,在雙向翻譯信源經(jīng)過(guò)有損信道時(shí),降低了準(zhǔn)確率。

3.4 翻譯概率優(yōu)化算法針對(duì)一對(duì)多情況的區(qū)分

在使用翻譯概率優(yōu)化算法時(shí)針對(duì)一對(duì)多的情況,分為源語(yǔ)言對(duì)應(yīng)多個(gè)目標(biāo)語(yǔ)言正確詞、源語(yǔ)言單詞由多個(gè)目標(biāo)語(yǔ)言詞組成兩種情況,示例如表5、表6所示。

表5 源語(yǔ)言對(duì)應(yīng)多個(gè)正確詞

表6 一個(gè)詞由多個(gè)詞組成

4 結(jié)論及下一步工作

本文研究了一種基于共現(xiàn)關(guān)聯(lián)強(qiáng)度的單詞跨語(yǔ)言映射方法,以漢、英、朝語(yǔ)平行語(yǔ)料為素材,以簡(jiǎn)化的點(diǎn)互信息準(zhǔn)則即翻譯概率為核心算法,以實(shí)踐中總結(jié)歸納的翻譯概率優(yōu)化算法為后處理方法,可以在一個(gè)小規(guī)模語(yǔ)料中做到詞對(duì)齊。從實(shí)驗(yàn)結(jié)果可看出,三種語(yǔ)言互譯優(yōu)化后都有較高的準(zhǔn)確率,在實(shí)驗(yàn)中發(fā)現(xiàn)了影響準(zhǔn)確率的3個(gè)因素,按重要程度由高到低依次是:

(1) 分詞預(yù)處理的細(xì)粒度劃分(造成病態(tài)分詞是導(dǎo)致誤差的一個(gè)主要原因);

(2) 語(yǔ)料規(guī)模的大??;

(3) 選用的高頻詞數(shù)量。

語(yǔ)料規(guī)模越大,翻譯的準(zhǔn)確率會(huì)越高,對(duì)應(yīng)的準(zhǔn)確翻譯詞也會(huì)越多,由于語(yǔ)料種類的不同,語(yǔ)料規(guī)模的不同會(huì)導(dǎo)致該閾值不具有普遍性,如需計(jì)算,應(yīng)對(duì)語(yǔ)料進(jìn)行分類,不同類別的語(yǔ)料有不同的高頻詞翻譯可行域,即不同的有效性閾值。

該方法對(duì)語(yǔ)料中部分法語(yǔ)、西班牙語(yǔ)詞也能夠做到詞對(duì)應(yīng),下一步工作將對(duì)其他語(yǔ)種進(jìn)行實(shí)驗(yàn),以驗(yàn)證準(zhǔn)確性并加以推廣。

猜你喜歡
源語(yǔ)言目標(biāo)語(yǔ)言高頻詞
30份政府工作報(bào)告中的高頻詞
省級(jí)兩會(huì)上的高頻詞
28份政府工作報(bào)告中的高頻詞
省級(jí)兩會(huì)上的高頻詞
中國(guó)大學(xué)生對(duì)越南語(yǔ)虛詞的誤用
林巍《知識(shí)與智慧》英譯分析
淺析日語(yǔ)口譯譯員素質(zhì)
教材插圖在英語(yǔ)課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
以口譯實(shí)例談雙語(yǔ)知識(shí)的必要性
從目的論角度看《紅高粱》中文化負(fù)載詞的翻譯
巍山| 唐山市| 龙泉市| 绍兴县| 佛学| 西安市| 周口市| 新疆| 石台县| 武乡县| 广丰县| 海南省| 淳化县| 曲麻莱县| 吕梁市| 秀山| 清河县| 桦川县| 辽阳县| 青田县| 大厂| 大埔县| 寻乌县| 深州市| 博客| 盐边县| 余干县| 伊宁县| 莆田市| 西昌市| 清水河县| 红安县| 疏勒县| 南昌县| 清镇市| 永德县| 托克逊县| 广饶县| 仪征市| 新营市| 吴堡县|