基于平行語(yǔ)料和翻譯概率的多語(yǔ)種詞對(duì)齊方法

2019-12-30 02:36楊飛揚(yáng)趙亞慧崔榮一易志偉

中文信息學(xué)報(bào) 2019年12期

楊飛揚(yáng)，趙亞慧，崔榮一，易志偉

(延邊大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院智能信息處理研究室，吉林延吉 133002)

0 引言

統(tǒng)計(jì)機(jī)器翻譯的思想是從一個(gè)包含大量句子對(duì)齊的雙語(yǔ)平行語(yǔ)料中學(xué)習(xí)翻譯規(guī)則，實(shí)現(xiàn)從一種自然語(yǔ)言翻譯為另一種自然語(yǔ)言[1-2]，詞對(duì)齊方法主要有：基于統(tǒng)計(jì)方法、詞典的方法、語(yǔ)言特征的詞對(duì)齊方法等。找到單詞的翻譯是建立對(duì)齊關(guān)系的前提，而建立詞對(duì)齊關(guān)系是任何統(tǒng)計(jì)機(jī)器翻譯模型的基本步驟之一[3]。目前機(jī)器翻譯的性能很大程度上依賴于訓(xùn)練語(yǔ)料的規(guī)模和質(zhì)量，訓(xùn)練語(yǔ)料規(guī)模越大、質(zhì)量越好，則有效的翻譯知識(shí)越多，涵蓋的語(yǔ)言現(xiàn)象也越充分。然而在完成特定領(lǐng)域翻譯任務(wù)時(shí)，機(jī)器翻譯的性能往往偏低[4]，原因在于通用領(lǐng)域翻譯系統(tǒng)無(wú)法針對(duì)特定領(lǐng)域的翻譯知識(shí)、句子表達(dá)方式以及語(yǔ)言風(fēng)格等做出調(diào)整。因此針對(duì)特定領(lǐng)域以及低資源語(yǔ)言的翻譯，需要一種在沒(méi)有完整數(shù)據(jù)庫(kù)的情況下，能夠高效地做到詞的形式對(duì)應(yīng)，做到有針對(duì)性的翻譯。IBM條件概率模型[5]采用句子級(jí)的劃分，用分?jǐn)?shù)計(jì)數(shù)克服長(zhǎng)短句帶來(lái)的誤差；用枚舉的方法降低對(duì)應(yīng)停用詞的數(shù)學(xué)期望，克服語(yǔ)料預(yù)處理的誤差，但在實(shí)驗(yàn)中發(fā)現(xiàn)，預(yù)處理的權(quán)重是影響實(shí)驗(yàn)結(jié)果的主要原因。在IBM的對(duì)齊模型中，彌補(bǔ)一對(duì)多情況的方法是對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)稱化，從兩個(gè)方向進(jìn)行EM算法[6](expectation maximization)的訓(xùn)練，但進(jìn)行EM算法的訓(xùn)練需要大規(guī)模的語(yǔ)料才能使結(jié)果準(zhǔn)確。過(guò)去的幾年里，人們嘗試使用跨語(yǔ)言主題模型來(lái)獲得翻譯語(yǔ)料[7-8]，構(gòu)建主題作為雙語(yǔ)匹配的分布，其中匹配先驗(yàn)可能來(lái)自不同的初始證據(jù)，如機(jī)器可讀字典。

上述方法的主要缺點(diǎn)是需要引入了外部知識(shí)[9]，本文在以往的研究基礎(chǔ)上，針對(duì)特定語(yǔ)料進(jìn)行改進(jìn)，不依賴字典及外部知識(shí)，不依賴大規(guī)模語(yǔ)料進(jìn)行訓(xùn)練，假設(shè)存在翻譯關(guān)系的詞之間具有明顯的共現(xiàn)關(guān)系，且在服從Zipf定律的低頻詞區(qū)域點(diǎn)互信息可以有效地被翻譯概率取代，通過(guò)對(duì)候選翻譯結(jié)果進(jìn)行優(yōu)化，以更高的效率確定特定的雙語(yǔ)對(duì)齊單詞，并通過(guò)實(shí)驗(yàn)驗(yàn)證了本方法的有效性。

1 相關(guān)工作

1.1 點(diǎn)互信息

點(diǎn)互信息(pointwise mutual information，PMI)度量?jī)蓚€(gè)隨機(jī)變量取特定值時(shí)的相互關(guān)聯(lián)程度[10-11]。在本文討論的單詞翻譯問(wèn)題中，漢語(yǔ)單詞tS和對(duì)應(yīng)的英文單詞tT之間的關(guān)聯(lián)強(qiáng)度可以用點(diǎn)互信息公式計(jì)算，如式(1)所示。

(1)

其中，P(tS,tT)是語(yǔ)料庫(kù)中源語(yǔ)言單詞tS及目標(biāo)語(yǔ)言單詞tT共現(xiàn)的概率(漢譯英情況下，tS是漢語(yǔ)單詞，tT是英語(yǔ)單詞)；P(tS)和P(tT)分別是語(yǔ)料庫(kù)中源語(yǔ)言單詞tS及目標(biāo)語(yǔ)言單詞tT各自出現(xiàn)的概率。利用聯(lián)合概率的性質(zhì)，式(1)可以寫(xiě)成：

(2)

由此可見(jiàn)，PMI度量了當(dāng)確定源語(yǔ)言單詞tS時(shí)，目標(biāo)語(yǔ)言單詞tT出現(xiàn)的概率相比該目標(biāo)語(yǔ)言單詞先驗(yàn)概率的變化情況。這里存在3種可能的情況：

(1) 如果源語(yǔ)言單詞tS與目標(biāo)語(yǔ)言單詞tT統(tǒng)計(jì)獨(dú)立，則tS的出現(xiàn)不會(huì)改變tT出現(xiàn)的概率，即：P(tT|tS)=P(tT)，導(dǎo)致PMI(tS,tT)=0，從共現(xiàn)意義上這兩個(gè)詞之間沒(méi)有關(guān)聯(lián)性，不可能存在詞對(duì)齊關(guān)系。

(2) 當(dāng)源語(yǔ)言單詞tS出現(xiàn)時(shí)目標(biāo)語(yǔ)言單詞tT出現(xiàn)的概率減小，小于其先驗(yàn)概率，則PMI(tS,tT)<0，二者之間存在相互抑制關(guān)系，但不存在對(duì)齊關(guān)系[12]。

(3) 只有當(dāng)源語(yǔ)言單詞tS出現(xiàn)時(shí)目標(biāo)語(yǔ)言單詞tT出現(xiàn)的概率增加，大于其先驗(yàn)概率，則PMI(tS,tT)>0，二者之間才可能存在對(duì)齊關(guān)系。因此當(dāng)給定源語(yǔ)言單詞tS時(shí)可通過(guò)考察與其點(diǎn)互信息大于零且超過(guò)一定閾值的若干目標(biāo)語(yǔ)言單詞作為候選翻譯詞。

1.2 Zipf定律

Zipf定律表明在英語(yǔ)單詞中，只有極少數(shù)的詞被經(jīng)常使用，而絕大多數(shù)詞很少被使用。實(shí)際上，包括漢語(yǔ)、朝鮮語(yǔ)在內(nèi)的許多國(guó)家的語(yǔ)言都有這種特點(diǎn)[13]。在一個(gè)語(yǔ)料庫(kù)中，若將詞語(yǔ)出現(xiàn)的頻率(即詞頻)記作Pr，將該詞的詞頻排位記為r，則Zipf定律可表示為式(3)：

C=Pr·r

(3)

其中，C為一個(gè)大于零的常數(shù)。式(3)表明某個(gè)詞匯出現(xiàn)的頻率和頻級(jí)的乘積是常數(shù)。這條定律說(shuō)明，人們一般偏好比較常用的詞匯，而不是生僻的詞匯。若將Pr和r的關(guān)系表示在雙對(duì)數(shù)坐標(biāo)系中，所繪制出的曲線幾乎為一條直線，并且斜率近似為-1。為了準(zhǔn)確求解這一斜率，Zipf定律還可以推廣為：

C=Pr·ra

(4)

其中，a為待定常數(shù)，r為頻級(jí)：r=1,2,…，n。對(duì)式(4)兩邊取對(duì)數(shù)后整理得式(5)：

logPr=logC-alogr

(5)

這條定律說(shuō)明，人們一般偏好比較常用的詞匯而不是生僻的詞匯。以英文為例，詞頻分布具有“長(zhǎng)尾”特征，如圖1所示。本文將利用這一特性提出合理假設(shè)，簡(jiǎn)化式(2)定義的單詞間關(guān)聯(lián)強(qiáng)度的計(jì)算方法。

圖1 文本詞匯頻次分布圖

2 基于翻譯概率的詞對(duì)齊算法

2.1 點(diǎn)互信息度量法可簡(jiǎn)化為翻譯概率

Zipf定律表示在文檔語(yǔ)料中極少數(shù)詞匯高頻出現(xiàn)，大多數(shù)詞匯出現(xiàn)的頻率很低。如果我們考慮普通頻級(jí)區(qū)域單詞對(duì)齊問(wèn)題，源語(yǔ)言與目標(biāo)語(yǔ)言單詞之間相關(guān)程度的度量可由式(3)改進(jìn)為更高效的形式。從單詞對(duì)齊的目的和Zipf定律刻畫(huà)的普通頻級(jí)區(qū)域詞頻特性來(lái)看本文做如下假設(shè)是合理的。

假設(shè)1平行語(yǔ)料中不存在高頻詞；

假設(shè)2所考慮的目標(biāo)語(yǔ)言單詞近似服從均勻分布。

(6)

(7)

(8)

翻譯概率的算法如下：

算法1 翻譯概率

利用算法1，通過(guò)設(shè)定概率閾值可對(duì)給定源語(yǔ)言單詞獲得若干候選目標(biāo)單詞，這些單詞具有與源語(yǔ)言單詞對(duì)齊的可能性。對(duì)特定源語(yǔ)言單詞tS可按條件概率P(tT|tS)遞減方式給出候選目標(biāo)語(yǔ)言單詞tT1,tT2,…,tTm。為保證翻譯關(guān)系的可信性，翻譯概率須超過(guò)一定的閾值，即滿足：

P(tT1|tS)≥P(tT2|tS)≥…≥P(tTm|tS)≥PTS

(9)

其中，PTS稱為翻譯概率閾值，是為保證詞對(duì)齊可信度的翻譯概率的下限值，低于PTS的翻譯詞可視作當(dāng)前語(yǔ)料無(wú)法匹配到真正翻譯詞的情況，不納入計(jì)算。在滿足式(9)的m個(gè)目標(biāo)詞中選取前k個(gè)作為單詞tS的翻譯候選單詞，其中PTS的取值根據(jù)源語(yǔ)言語(yǔ)料質(zhì)量與規(guī)模實(shí)驗(yàn)確定。

源語(yǔ)言語(yǔ)料中出現(xiàn)次數(shù)過(guò)低的單詞，因?yàn)楦怕使烙?jì)缺乏數(shù)據(jù)，不能通過(guò)式(7)和算法1有效地計(jì)算其翻譯概率。但可以通過(guò)算法1計(jì)算其翻譯概率的源語(yǔ)言單詞tS的概率P(tS)，判斷其是否也超過(guò)一定的閾值，如式(10)所示。

P(tS)≥PS

(10)

其中，PS稱為有效概率閾值，是可以通過(guò)平行語(yǔ)料技術(shù)進(jìn)行詞對(duì)齊處理的源語(yǔ)言單詞在語(yǔ)料中應(yīng)出現(xiàn)的最低概率。在進(jìn)行單詞頻級(jí)計(jì)數(shù)時(shí)由高到低排序，根據(jù)語(yǔ)料規(guī)模視為低頻詞的單詞，不納入計(jì)算，滿足式(10)的源語(yǔ)言單詞tS稱為詞對(duì)齊有效源語(yǔ)言單詞。

2.2 詞對(duì)齊優(yōu)化處理

通過(guò)研究擴(kuò)大高頻詞的范圍發(fā)現(xiàn)，在利用上述條件概率方法進(jìn)行跨語(yǔ)言詞對(duì)齊處理時(shí)，通過(guò)以下措施可進(jìn)一步提高對(duì)齊效果。

(1) 去除預(yù)處理過(guò)程中出現(xiàn)的病態(tài)分詞結(jié)果；

(2) 去除當(dāng)前停用詞表中未登錄的停用詞；

(3) 對(duì)一詞多義(一個(gè)源語(yǔ)言單詞對(duì)應(yīng)于相同語(yǔ)義的多個(gè)目標(biāo)語(yǔ)言單詞)和組合詞(一個(gè)源語(yǔ)言單詞對(duì)應(yīng)于多個(gè)目標(biāo)語(yǔ)言單詞的組合)情況，進(jìn)行如下處理：利用式(9)、式(10)調(diào)整閾值，對(duì)組合詞的情況進(jìn)行對(duì)稱化處理，使其重組成源語(yǔ)言對(duì)應(yīng)翻譯詞組。

該方法彌補(bǔ)了語(yǔ)料針對(duì)性、分詞細(xì)粒度和語(yǔ)料規(guī)模不足帶來(lái)的誤差，從而提升了詞對(duì)齊的準(zhǔn)確性。在分類一詞多義與組合詞時(shí)能夠完善特定語(yǔ)料的單詞義項(xiàng)。具體算法如下：

算法2 翻譯概率優(yōu)化算法

3 實(shí)驗(yàn)結(jié)果及分析

3.1 平行語(yǔ)料預(yù)處理

本文實(shí)驗(yàn)語(yǔ)料為延邊州科技信息服務(wù)中心數(shù)據(jù)庫(kù)中的30 827條中、英、朝語(yǔ)科技類平行語(yǔ)料，滿足形式對(duì)應(yīng)。語(yǔ)料預(yù)處理步驟如下：

(1) 使用jieba分詞工具對(duì)句子進(jìn)行分詞；

(2) 對(duì)多語(yǔ)種互譯句子進(jìn)行按行對(duì)齊，用|||符號(hào)隔開(kāi)；

(3) 去除中、英、朝文本中的標(biāo)點(diǎn)符號(hào)、數(shù)字、特殊符號(hào)、多余的空格，統(tǒng)一英文大小寫(xiě)等；

(4) 對(duì)英語(yǔ)部分進(jìn)行詞干還原，還原動(dòng)詞原型，保留形容詞和副詞的詞根；

(5) 去除中、英、朝文本中的高頻停用詞。

3.2 中—英—朝平行語(yǔ)料詞對(duì)齊實(shí)驗(yàn)方案

因?yàn)檎Z(yǔ)料樣本有限，所以在平行語(yǔ)料中選擇出現(xiàn)概率最高的100個(gè)詞對(duì)齊有效源語(yǔ)言單詞，通過(guò)算法1計(jì)算，列出與源語(yǔ)言單詞相關(guān)度最大的5個(gè)目標(biāo)語(yǔ)言候選詞，并按翻譯概率從高到低排列[滿足式(9)]；在此基礎(chǔ)上用優(yōu)化算法進(jìn)行優(yōu)化處理。翻譯的準(zhǔn)確率均達(dá)到94%以上，其中造成誤差的原因有預(yù)處理分詞的病態(tài)分詞、特定文本的停用詞無(wú)法去除、語(yǔ)料規(guī)模造成翻譯的局限性等。表1～表4是部分實(shí)驗(yàn)結(jié)果展示。

表1 漢譯英翻譯概率(部分結(jié)果)

表2 英譯漢翻譯概率(部分結(jié)果)

表3 漢譯朝翻譯概率(部分結(jié)果)

續(xù)表

表4 雙向翻譯時(shí)前100高頻詞準(zhǔn)確率對(duì)比

3.3 源語(yǔ)言單詞數(shù)量與語(yǔ)料規(guī)模對(duì)翻譯準(zhǔn)確率的影響

(1) 保持語(yǔ)料規(guī)模不變，將待處理源語(yǔ)言單詞范圍擴(kuò)展，觀察算法的有效性。

(2) 保持待處理源語(yǔ)言單詞范圍不變，改變語(yǔ)料規(guī)模，觀察準(zhǔn)確率的變化程度。

實(shí)驗(yàn)分別控制語(yǔ)料不變高頻詞范圍擴(kuò)展，觀察算法的有效性及可行域局限性；控制高頻詞范圍不變，改變語(yǔ)料規(guī)模，觀察準(zhǔn)確率的變化程度。通過(guò)以上實(shí)驗(yàn)過(guò)程，分析影響準(zhǔn)確率的權(quán)重高低、預(yù)測(cè)算法可行范圍，配合翻譯概率優(yōu)化算法并統(tǒng)計(jì)，得出以下結(jié)論。

圖2 漢譯英、漢譯朝控制語(yǔ)料不變的翻譯準(zhǔn)確率

圖3 英譯漢、英譯朝控制語(yǔ)料不變的翻譯準(zhǔn)確率

圖4 朝譯漢、朝譯英控制語(yǔ)料規(guī)模不變的翻譯準(zhǔn)確率

由圖2～圖4可知，保持語(yǔ)料不變，通過(guò)改變?cè)凑Z(yǔ)言普通高頻單詞取值范圍，在有效范圍內(nèi)，對(duì)漢、英、朝進(jìn)行翻譯時(shí)準(zhǔn)確率在94%以上，使用翻譯概率優(yōu)化算法對(duì)朝鮮語(yǔ)進(jìn)行翻譯，準(zhǔn)確率與未優(yōu)化前對(duì)比提升了15%。因?yàn)槌r語(yǔ)的分詞效果不如英語(yǔ)和漢語(yǔ)好，停用詞表的構(gòu)造不如英語(yǔ)和漢語(yǔ)成熟，所以優(yōu)化后提升效果最為明顯。

圖5 英譯漢、英譯朝控制高頻詞量不變的翻譯準(zhǔn)確率

圖6 漢譯英、漢譯朝控制高頻詞量不變的翻譯準(zhǔn)確率

圖7 朝譯英、朝譯漢控制高頻詞量不變的翻譯準(zhǔn)確率

由圖5～圖7可知，保持源語(yǔ)言普通高頻單詞取值范圍不變，改變?cè)凑Z(yǔ)言語(yǔ)料規(guī)模范圍，在有效范圍內(nèi)雙語(yǔ)互譯的準(zhǔn)確率均處于折線形上升的趨勢(shì)。實(shí)驗(yàn)結(jié)果也印證了語(yǔ)料規(guī)模越大，翻譯的準(zhǔn)確率越高這一特點(diǎn)，漢譯英優(yōu)化效果前后對(duì)比提升了3%左右。英譯漢優(yōu)化效果前后對(duì)比提升了2%左右。整體上漢譯英、朝的準(zhǔn)確率高于其他情況，造成此情況的原因可能是因?yàn)闈h字的信息熵本身較其他語(yǔ)言高，也可能是原文作者是漢語(yǔ)的母語(yǔ)者，漢語(yǔ)翻譯成其他語(yǔ)言的準(zhǔn)確率最高，并且其他語(yǔ)言未優(yōu)化時(shí)，很多正確翻譯詞對(duì)應(yīng)在翻譯概率第三列、第四列，而漢譯英、朝對(duì)應(yīng)在非最高翻譯概率的詞卻很少，翻譯會(huì)產(chǎn)生噪聲，在雙向翻譯信源經(jīng)過(guò)有損信道時(shí)，降低了準(zhǔn)確率。

3.4 翻譯概率優(yōu)化算法針對(duì)一對(duì)多情況的區(qū)分

在使用翻譯概率優(yōu)化算法時(shí)針對(duì)一對(duì)多的情況，分為源語(yǔ)言對(duì)應(yīng)多個(gè)目標(biāo)語(yǔ)言正確詞、源語(yǔ)言單詞由多個(gè)目標(biāo)語(yǔ)言詞組成兩種情況，示例如表5、表6所示。

表5 源語(yǔ)言對(duì)應(yīng)多個(gè)正確詞

表6 一個(gè)詞由多個(gè)詞組成

4 結(jié)論及下一步工作

本文研究了一種基于共現(xiàn)關(guān)聯(lián)強(qiáng)度的單詞跨語(yǔ)言映射方法，以漢、英、朝語(yǔ)平行語(yǔ)料為素材，以簡(jiǎn)化的點(diǎn)互信息準(zhǔn)則即翻譯概率為核心算法，以實(shí)踐中總結(jié)歸納的翻譯概率優(yōu)化算法為后處理方法，可以在一個(gè)小規(guī)模語(yǔ)料中做到詞對(duì)齊。從實(shí)驗(yàn)結(jié)果可看出，三種語(yǔ)言互譯優(yōu)化后都有較高的準(zhǔn)確率，在實(shí)驗(yàn)中發(fā)現(xiàn)了影響準(zhǔn)確率的3個(gè)因素，按重要程度由高到低依次是：

(1) 分詞預(yù)處理的細(xì)粒度劃分(造成病態(tài)分詞是導(dǎo)致誤差的一個(gè)主要原因)；

(2) 語(yǔ)料規(guī)模的大??；

(3) 選用的高頻詞數(shù)量。

語(yǔ)料規(guī)模越大，翻譯的準(zhǔn)確率會(huì)越高，對(duì)應(yīng)的準(zhǔn)確翻譯詞也會(huì)越多，由于語(yǔ)料種類的不同，語(yǔ)料規(guī)模的不同會(huì)導(dǎo)致該閾值不具有普遍性，如需計(jì)算，應(yīng)對(duì)語(yǔ)料進(jìn)行分類，不同類別的語(yǔ)料有不同的高頻詞翻譯可行域，即不同的有效性閾值。

該方法對(duì)語(yǔ)料中部分法語(yǔ)、西班牙語(yǔ)詞也能夠做到詞對(duì)應(yīng)，下一步工作將對(duì)其他語(yǔ)種進(jìn)行實(shí)驗(yàn)，以驗(yàn)證準(zhǔn)確性并加以推廣。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡