楊飛揚(yáng),趙亞慧,崔榮一,易志偉
(延邊大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 智能信息處理研究室,吉林 延吉 133002)
統(tǒng)計(jì)機(jī)器翻譯的思想是從一個(gè)包含大量句子對(duì)齊的雙語(yǔ)平行語(yǔ)料中學(xué)習(xí)翻譯規(guī)則,實(shí)現(xiàn)從一種自然語(yǔ)言翻譯為另一種自然語(yǔ)言[1-2],詞對(duì)齊方法主要有: 基于統(tǒng)計(jì)方法、詞典的方法、語(yǔ)言特征的詞對(duì)齊方法等。找到單詞的翻譯是建立對(duì)齊關(guān)系的前提,而建立詞對(duì)齊關(guān)系是任何統(tǒng)計(jì)機(jī)器翻譯模型的基本步驟之一[3]。目前機(jī)器翻譯的性能很大程度上依賴于訓(xùn)練語(yǔ)料的規(guī)模和質(zhì)量,訓(xùn)練語(yǔ)料規(guī)模越大、質(zhì)量越好,則有效的翻譯知識(shí)越多,涵蓋的語(yǔ)言現(xiàn)象也越充分。然而在完成特定領(lǐng)域翻譯任務(wù)時(shí),機(jī)器翻譯的性能往往偏低[4],原因在于通用領(lǐng)域翻譯系統(tǒng)無(wú)法針對(duì)特定領(lǐng)域的翻譯知識(shí)、句子表達(dá)方式以及語(yǔ)言風(fēng)格等做出調(diào)整。因此針對(duì)特定領(lǐng)域以及低資源語(yǔ)言的翻譯,需要一種在沒(méi)有完整數(shù)據(jù)庫(kù)的情況下,能夠高效地做到詞的形式對(duì)應(yīng),做到有針對(duì)性的翻譯。IBM條件概率模型[5]采用句子級(jí)的劃分,用分?jǐn)?shù)計(jì)數(shù)克服長(zhǎng)短句帶來(lái)的誤差;用枚舉的方法降低對(duì)應(yīng)停用詞的數(shù)學(xué)期望,克服語(yǔ)料預(yù)處理的誤差,但在實(shí)驗(yàn)中發(fā)現(xiàn),預(yù)處理的權(quán)重是影響實(shí)驗(yàn)結(jié)果的主要原因。在IBM的對(duì)齊模型中,彌補(bǔ)一對(duì)多情況的方法是對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)稱化,從兩個(gè)方向進(jìn)行EM算法[6](expectation maximization)的訓(xùn)練,但進(jìn)行EM算法的訓(xùn)練需要大規(guī)模的語(yǔ)料才能使結(jié)果準(zhǔn)確。過(guò)去的幾年里,人們嘗試使用跨語(yǔ)言主題模型來(lái)獲得翻譯語(yǔ)料[7-8],構(gòu)建主題作為雙語(yǔ)匹配的分布,其中匹配先驗(yàn)可能來(lái)自不同的初始證據(jù),如機(jī)器可讀字典。
上述方法的主要缺點(diǎn)是需要引入了外部知識(shí)[9],本文在以往的研究基礎(chǔ)上,針對(duì)特定語(yǔ)料進(jìn)行改進(jìn),不依賴字典及外部知識(shí),不依賴大規(guī)模語(yǔ)料進(jìn)行訓(xùn)練,假設(shè)存在翻譯關(guān)系的詞之間具有明顯的共現(xiàn)關(guān)系,且在服從Zipf定律的低頻詞區(qū)域點(diǎn)互信息可以有效地被翻譯概率取代,通過(guò)對(duì)候選翻譯結(jié)果進(jìn)行優(yōu)化,以更高的效率確定特定的雙語(yǔ)對(duì)齊單詞,并通過(guò)實(shí)驗(yàn)驗(yàn)證了本方法的有效性。
點(diǎn)互信息(pointwise mutual information,PMI)度量?jī)蓚€(gè)隨機(jī)變量取特定值時(shí)的相互關(guān)聯(lián)程度[10-11]。在本文討論的單詞翻譯問(wèn)題中,漢語(yǔ)單詞tS和對(duì)應(yīng)的英文單詞tT之間的關(guān)聯(lián)強(qiáng)度可以用點(diǎn)互信息公式計(jì)算,如式(1)所示。
(1)
其中,P(tS,tT)是語(yǔ)料庫(kù)中源語(yǔ)言單詞tS及目標(biāo)語(yǔ)言單詞tT共現(xiàn)的概率(漢譯英情況下,tS是漢語(yǔ)單詞,tT是英語(yǔ)單詞);P(tS)和P(tT)分別是語(yǔ)料庫(kù)中源語(yǔ)言單詞tS及目標(biāo)語(yǔ)言單詞tT各自出現(xiàn)的概率。利用聯(lián)合概率的性質(zhì),式(1)可以寫(xiě)成:
(2)
由此可見(jiàn),PMI度量了當(dāng)確定源語(yǔ)言單詞tS時(shí),目標(biāo)語(yǔ)言單詞tT出現(xiàn)的概率相比該目標(biāo)語(yǔ)言單詞先驗(yàn)概率的變化情況。這里存在3種可能的情況:
(1) 如果源語(yǔ)言單詞tS與目標(biāo)語(yǔ)言單詞tT統(tǒng)計(jì)獨(dú)立,則tS的出現(xiàn)不會(huì)改變tT出現(xiàn)的概率,即:P(tT|tS)=P(tT),導(dǎo)致PMI(tS,tT)=0,從共現(xiàn)意義上這兩個(gè)詞之間沒(méi)有關(guān)聯(lián)性,不可能存在詞對(duì)齊關(guān)系。
(2) 當(dāng)源語(yǔ)言單詞tS出現(xiàn)時(shí)目標(biāo)語(yǔ)言單詞tT出現(xiàn)的概率減小,小于其先驗(yàn)概率,則PMI(tS,tT)<0,二者之間存在相互抑制關(guān)系,但不存在對(duì)齊關(guān)系[12]。
(3) 只有當(dāng)源語(yǔ)言單詞tS出現(xiàn)時(shí)目標(biāo)語(yǔ)言單詞tT出現(xiàn)的概率增加,大于其先驗(yàn)概率,則PMI(tS,tT)>0,二者之間才可能存在對(duì)齊關(guān)系。因此當(dāng)給定源語(yǔ)言單詞tS時(shí)可通過(guò)考察與其點(diǎn)互信息大于零且超過(guò)一定閾值的若干目標(biāo)語(yǔ)言單詞作為候選翻譯詞。
Zipf定律表明在英語(yǔ)單詞中,只有極少數(shù)的詞被經(jīng)常使用,而絕大多數(shù)詞很少被使用。實(shí)際上,包括漢語(yǔ)、朝鮮語(yǔ)在內(nèi)的許多國(guó)家的語(yǔ)言都有這種特點(diǎn)[13]。在一個(gè)語(yǔ)料庫(kù)中,若將詞語(yǔ)出現(xiàn)的頻率(即詞頻)記作Pr,將該詞的詞頻排位記為r,則Zipf定律可表示為式(3):
C=Pr·r
(3)
其中,C為一個(gè)大于零的常數(shù)。式(3)表明某個(gè)詞匯出現(xiàn)的頻率和頻級(jí)的乘積是常數(shù)。這條定律說(shuō)明,人們一般偏好比較常用的詞匯,而不是生僻的詞匯。若將Pr和r的關(guān)系表示在雙對(duì)數(shù)坐標(biāo)系中,所繪制出的曲線幾乎為一條直線,并且斜率近似為-1。為了準(zhǔn)確求解這一斜率,Zipf定律還可以推廣為:
C=Pr·ra
(4)
其中,a為待定常數(shù),r為頻級(jí):r=1,2,…,n。對(duì)式(4)兩邊取對(duì)數(shù)后整理得式(5):
logPr=logC-alogr
(5)
這條定律說(shuō)明,人們一般偏好比較常用的詞匯而不是生僻的詞匯。以英文為例,詞頻分布具有“長(zhǎng)尾”特征,如圖1所示。本文將利用這一特性提出合理假設(shè),簡(jiǎn)化式(2)定義的單詞間關(guān)聯(lián)強(qiáng)度的計(jì)算方法。
圖1 文本詞匯頻次分布圖
Zipf定律表示在文檔語(yǔ)料中極少數(shù)詞匯高頻出現(xiàn),大多數(shù)詞匯出現(xiàn)的頻率很低。如果我們考慮普通頻級(jí)區(qū)域單詞對(duì)齊問(wèn)題,源語(yǔ)言與目標(biāo)語(yǔ)言單詞之間相關(guān)程度的度量可由式(3)改進(jìn)為更高效的形式。從單詞對(duì)齊的目的和Zipf定律刻畫(huà)的普通頻級(jí)區(qū)域詞頻特性來(lái)看本文做如下假設(shè)是合理的。
假設(shè)1平行語(yǔ)料中不存在高頻詞;
假設(shè)2所考慮的目標(biāo)語(yǔ)言單詞近似服從均勻分布。
(6)
(7)
(8)
翻譯概率的算法如下:
算法1 翻譯概率
利用算法1,通過(guò)設(shè)定概率閾值可對(duì)給定源語(yǔ)言單詞獲得若干候選目標(biāo)單詞,這些單詞具有與源語(yǔ)言單詞對(duì)齊的可能性。對(duì)特定源語(yǔ)言單詞tS可按條件概率P(tT|tS)遞減方式給出候選目標(biāo)語(yǔ)言單詞tT1,tT2,…,tTm。為保證翻譯關(guān)系的可信性,翻譯概率須超過(guò)一定的閾值,即滿足:
P(tT1|tS)≥P(tT2|tS)≥…≥P(tTm|tS)≥PTS
(9)
其中,PTS稱為翻譯概率閾值,是為保證詞對(duì)齊可信度的翻譯概率的下限值,低于PTS的翻譯詞可視作當(dāng)前語(yǔ)料無(wú)法匹配到真正翻譯詞的情況,不納入計(jì)算。在滿足式(9)的m個(gè)目標(biāo)詞中選取前k個(gè)作為單詞tS的翻譯候選單詞,其中PTS的取值根據(jù)源語(yǔ)言語(yǔ)料質(zhì)量與規(guī)模實(shí)驗(yàn)確定。
源語(yǔ)言語(yǔ)料中出現(xiàn)次數(shù)過(guò)低的單詞,因?yàn)楦怕使烙?jì)缺乏數(shù)據(jù),不能通過(guò)式(7)和算法1有效地計(jì)算其翻譯概率。但可以通過(guò)算法1計(jì)算其翻譯概率的源語(yǔ)言單詞tS的概率P(tS),判斷其是否也超過(guò)一定的閾值,如式(10)所示。
P(tS)≥PS
(10)
其中,PS稱為有效概率閾值,是可以通過(guò)平行語(yǔ)料技術(shù)進(jìn)行詞對(duì)齊處理的源語(yǔ)言單詞在語(yǔ)料中應(yīng)出現(xiàn)的最低概率。在進(jìn)行單詞頻級(jí)計(jì)數(shù)時(shí)由高到低排序,根據(jù)語(yǔ)料規(guī)模視為低頻詞的單詞,不納入計(jì)算,滿足式(10)的源語(yǔ)言單詞tS稱為詞對(duì)齊有效源語(yǔ)言單詞。
通過(guò)研究擴(kuò)大高頻詞的范圍發(fā)現(xiàn),在利用上述條件概率方法進(jìn)行跨語(yǔ)言詞對(duì)齊處理時(shí),通過(guò)以下措施可進(jìn)一步提高對(duì)齊效果。
(1) 去除預(yù)處理過(guò)程中出現(xiàn)的病態(tài)分詞結(jié)果;
(2) 去除當(dāng)前停用詞表中未登錄的停用詞;
(3) 對(duì)一詞多義(一個(gè)源語(yǔ)言單詞對(duì)應(yīng)于相同語(yǔ)義的多個(gè)目標(biāo)語(yǔ)言單詞)和組合詞(一個(gè)源語(yǔ)言單詞對(duì)應(yīng)于多個(gè)目標(biāo)語(yǔ)言單詞的組合)情況,進(jìn)行如下處理: 利用式(9)、式(10)調(diào)整閾值,對(duì)組合詞的情況進(jìn)行對(duì)稱化處理,使其重組成源語(yǔ)言對(duì)應(yīng)翻譯詞組。
該方法彌補(bǔ)了語(yǔ)料針對(duì)性、分詞細(xì)粒度和語(yǔ)料規(guī)模不足帶來(lái)的誤差,從而提升了詞對(duì)齊的準(zhǔn)確性。在分類一詞多義與組合詞時(shí)能夠完善特定語(yǔ)料的單詞義項(xiàng)。具體算法如下:
算法2 翻譯概率優(yōu)化算法
本文實(shí)驗(yàn)語(yǔ)料為延邊州科技信息服務(wù)中心數(shù)據(jù)庫(kù)中的30 827條中、英、朝語(yǔ)科技類平行語(yǔ)料,滿足形式對(duì)應(yīng)。語(yǔ)料預(yù)處理步驟如下:
(1) 使用jieba分詞工具對(duì)句子進(jìn)行分詞;
(2) 對(duì)多語(yǔ)種互譯句子進(jìn)行按行對(duì)齊,用|||符號(hào)隔開(kāi);
(3) 去除中、英、朝文本中的標(biāo)點(diǎn)符號(hào)、數(shù)字、特殊符號(hào)、多余的空格,統(tǒng)一英文大小寫(xiě)等;
(4) 對(duì)英語(yǔ)部分進(jìn)行詞干還原,還原動(dòng)詞原型,保留形容詞和副詞的詞根;
(5) 去除中、英、朝文本中的高頻停用詞。
因?yàn)檎Z(yǔ)料樣本有限,所以在平行語(yǔ)料中選擇出現(xiàn)概率最高的100個(gè)詞對(duì)齊有效源語(yǔ)言單詞,通過(guò)算法1計(jì)算,列出與源語(yǔ)言單詞相關(guān)度最大的5個(gè)目標(biāo)語(yǔ)言候選詞,并按翻譯概率從高到低排列[滿足式(9)];在此基礎(chǔ)上用優(yōu)化算法進(jìn)行優(yōu)化處理。翻譯的準(zhǔn)確率均達(dá)到94%以上,其中造成誤差的原因有預(yù)處理分詞的病態(tài)分詞、特定文本的停用詞無(wú)法去除、語(yǔ)料規(guī)模造成翻譯的局限性等。表1~表4是部分實(shí)驗(yàn)結(jié)果展示。
表1 漢譯英翻譯概率(部分結(jié)果)
表2 英譯漢翻譯概率(部分結(jié)果)
表3 漢譯朝翻譯概率(部分結(jié)果)
續(xù)表
表4 雙向翻譯時(shí)前100高頻詞準(zhǔn)確率對(duì)比
(1) 保持語(yǔ)料規(guī)模不變,將待處理源語(yǔ)言單詞范圍擴(kuò)展,觀察算法的有效性。
(2) 保持待處理源語(yǔ)言單詞范圍不變,改變語(yǔ)料規(guī)模,觀察準(zhǔn)確率的變化程度。
實(shí)驗(yàn)分別控制語(yǔ)料不變高頻詞范圍擴(kuò)展,觀察算法的有效性及可行域局限性;控制高頻詞范圍不變,改變語(yǔ)料規(guī)模,觀察準(zhǔn)確率的變化程度。通過(guò)以上實(shí)驗(yàn)過(guò)程,分析影響準(zhǔn)確率的權(quán)重高低、預(yù)測(cè)算法可行范圍,配合翻譯概率優(yōu)化算法并統(tǒng)計(jì),得出以下結(jié)論。
圖2 漢譯英、漢譯朝控制語(yǔ)料不變的翻譯準(zhǔn)確率
圖3 英譯漢、英譯朝控制語(yǔ)料不變的翻譯準(zhǔn)確率
圖4 朝譯漢、朝譯英控制語(yǔ)料規(guī)模不變的翻譯準(zhǔn)確率
由圖2~圖4可知,保持語(yǔ)料不變,通過(guò)改變?cè)凑Z(yǔ)言普通高頻單詞取值范圍,在有效范圍內(nèi),對(duì)漢、英、朝進(jìn)行翻譯時(shí)準(zhǔn)確率在94%以上,使用翻譯概率優(yōu)化算法對(duì)朝鮮語(yǔ)進(jìn)行翻譯,準(zhǔn)確率與未優(yōu)化前對(duì)比提升了15%。因?yàn)槌r語(yǔ)的分詞效果不如英語(yǔ)和漢語(yǔ)好,停用詞表的構(gòu)造不如英語(yǔ)和漢語(yǔ)成熟,所以優(yōu)化后提升效果最為明顯。
圖5 英譯漢、英譯朝控制高頻詞量不變的翻譯準(zhǔn)確率
圖6 漢譯英、漢譯朝控制高頻詞量不變的翻譯準(zhǔn)確率
圖7 朝譯英、朝譯漢控制高頻詞量不變的翻譯準(zhǔn)確率
由圖5~圖7可知,保持源語(yǔ)言普通高頻單詞取值范圍不變,改變?cè)凑Z(yǔ)言語(yǔ)料規(guī)模范圍,在有效范圍內(nèi)雙語(yǔ)互譯的準(zhǔn)確率均處于折線形上升的趨勢(shì)。實(shí)驗(yàn)結(jié)果也印證了語(yǔ)料規(guī)模越大,翻譯的準(zhǔn)確率越高這一特點(diǎn),漢譯英優(yōu)化效果前后對(duì)比提升了3%左右。英譯漢優(yōu)化效果前后對(duì)比提升了2%左右。整體上漢譯英、朝的準(zhǔn)確率高于其他情況,造成此情況的原因可能是因?yàn)闈h字的信息熵本身較其他語(yǔ)言高,也可能是原文作者是漢語(yǔ)的母語(yǔ)者,漢語(yǔ)翻譯成其他語(yǔ)言的準(zhǔn)確率最高,并且其他語(yǔ)言未優(yōu)化時(shí),很多正確翻譯詞對(duì)應(yīng)在翻譯概率第三列、第四列,而漢譯英、朝對(duì)應(yīng)在非最高翻譯概率的詞卻很少,翻譯會(huì)產(chǎn)生噪聲,在雙向翻譯信源經(jīng)過(guò)有損信道時(shí),降低了準(zhǔn)確率。
在使用翻譯概率優(yōu)化算法時(shí)針對(duì)一對(duì)多的情況,分為源語(yǔ)言對(duì)應(yīng)多個(gè)目標(biāo)語(yǔ)言正確詞、源語(yǔ)言單詞由多個(gè)目標(biāo)語(yǔ)言詞組成兩種情況,示例如表5、表6所示。
表5 源語(yǔ)言對(duì)應(yīng)多個(gè)正確詞
表6 一個(gè)詞由多個(gè)詞組成
本文研究了一種基于共現(xiàn)關(guān)聯(lián)強(qiáng)度的單詞跨語(yǔ)言映射方法,以漢、英、朝語(yǔ)平行語(yǔ)料為素材,以簡(jiǎn)化的點(diǎn)互信息準(zhǔn)則即翻譯概率為核心算法,以實(shí)踐中總結(jié)歸納的翻譯概率優(yōu)化算法為后處理方法,可以在一個(gè)小規(guī)模語(yǔ)料中做到詞對(duì)齊。從實(shí)驗(yàn)結(jié)果可看出,三種語(yǔ)言互譯優(yōu)化后都有較高的準(zhǔn)確率,在實(shí)驗(yàn)中發(fā)現(xiàn)了影響準(zhǔn)確率的3個(gè)因素,按重要程度由高到低依次是:
(1) 分詞預(yù)處理的細(xì)粒度劃分(造成病態(tài)分詞是導(dǎo)致誤差的一個(gè)主要原因);
(2) 語(yǔ)料規(guī)模的大??;
(3) 選用的高頻詞數(shù)量。
語(yǔ)料規(guī)模越大,翻譯的準(zhǔn)確率會(huì)越高,對(duì)應(yīng)的準(zhǔn)確翻譯詞也會(huì)越多,由于語(yǔ)料種類的不同,語(yǔ)料規(guī)模的不同會(huì)導(dǎo)致該閾值不具有普遍性,如需計(jì)算,應(yīng)對(duì)語(yǔ)料進(jìn)行分類,不同類別的語(yǔ)料有不同的高頻詞翻譯可行域,即不同的有效性閾值。
該方法對(duì)語(yǔ)料中部分法語(yǔ)、西班牙語(yǔ)詞也能夠做到詞對(duì)應(yīng),下一步工作將對(duì)其他語(yǔ)種進(jìn)行實(shí)驗(yàn),以驗(yàn)證準(zhǔn)確性并加以推廣。