肖 桐,李天寧,陳如山,朱靖波,王會珍
(東北大學(xué) 自然語言處理實(shí)驗(yàn)室,遼寧 沈陽 110004)
詞對齊是統(tǒng)計(jì)機(jī)器翻譯的重要組成部分[1]。通常情況下高質(zhì)量的詞對齊結(jié)果可以帶來統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)翻譯性能的提高[2-3]?,F(xiàn)在大多數(shù)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)都是利用IBM models[4]來進(jìn)行詞對齊。但是在IBM models中一個(gè)源語言單詞最多只允許對應(yīng)一個(gè)目標(biāo)語單詞。因此IBM models生成的詞對齊一般也被稱作非對稱的詞對齊。為了獲得對稱的詞對齊,需要利用IBM models得到源語言→目標(biāo)語言(正向)和目標(biāo)語言→源語言(反向)雙向?qū)R的結(jié)果,之后在雙向?qū)R的基礎(chǔ)上自動得到對稱的詞對齊結(jié)果。在這個(gè)過程中,一個(gè)關(guān)鍵的問題就是解決雙向?qū)R的不一致性。圖1展示了一個(gè)在真實(shí)數(shù)據(jù)中由IBM models生成的雙向詞對齊的實(shí)例。在這個(gè)實(shí)例中,源語言單詞“歐盟”和目標(biāo)語單詞“Europe”在正反雙向詞對齊中均被對應(yīng)上,于是我們稱雙向詞對齊在“歐盟”和“Europe”之間的對齊上是相交的或一致的。相反,“歐盟”和“Union”在反向詞對齊中被對應(yīng)上,而在正向詞對齊中卻沒有被對應(yīng)上。這時(shí)我們稱雙向詞對齊在“歐盟”和“Union”之間的對齊上是有歧義的或不一致的。對于這種情況,我們需要判斷“歐盟”和“Union”是否在最終的詞對齊結(jié)果中被對齊。在本文中,我們稱片斷對(“歐盟”, “Europe Union”)有相交型歧義,而(“歐盟”, “Europe Union”)被稱為相交型歧義塊。
圖1 正反雙向詞對齊實(shí)例
通常情況下,不一致的詞對齊是頻繁出現(xiàn)的(比如在我們的漢英翻譯實(shí)驗(yàn)中有超過50%的詞對齊鏈接在雙向詞對齊中是不一致的),因此提高相交型歧義塊中的詞對齊的準(zhǔn)確率將會有助于最終詞對齊準(zhǔn)確率的提高。對于這個(gè)問題,現(xiàn)在廣泛采用的解決辦法是,利用啟發(fā)信息來判斷有歧義的對齊的正確性[1-2]。但是由于這個(gè)方法只考慮了錨點(diǎn)(比如:雙向?qū)R的交集部分)和對齊點(diǎn)的相對位置信息,它更適用于翻譯順序相對一致的語言對,如:法語英語。而在語序差異極大的語言之間,經(jīng)常會出現(xiàn)翻譯的遠(yuǎn)距離調(diào)序現(xiàn)象,比如:漢語英語之間的遠(yuǎn)距離調(diào)續(xù)。這時(shí)僅使用啟發(fā)信息并不能得到很好的對齊結(jié)果。針對這個(gè)問題,本文提出了一個(gè)對相交型歧義塊進(jìn)行重新對齊的方法。它使用了翻譯概率,扭曲度概率和產(chǎn)出率概率等多個(gè)特征共同作用來得到對稱化的詞對齊結(jié)果。此外,本文還對這個(gè)方法進(jìn)行了改進(jìn),使它能夠利用大規(guī)模單語語料得到更好的詞對齊結(jié)果。
為了檢驗(yàn)本文提出的方法的有效性,我們把它應(yīng)用到基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中。在漢英翻譯任務(wù)上的實(shí)驗(yàn)結(jié)果表明,本文提出方法要優(yōu)于現(xiàn)在廣泛使用的基于啟發(fā)信息的方法。此外,我們的實(shí)驗(yàn)結(jié)果還表明使用單語語料有助于進(jìn)一步提高詞對齊的性能。
假設(shè)f=f1f2…fJ和e=e1e2…eI分別表示源語和目標(biāo)語詞序列,其中J和I表示序列長度。f和e之間的詞對齊可以表示為一個(gè)函數(shù)a:J×I?(0,1),對于任意(j,i) (1≤j≤J∧1≤i≤I)有:當(dāng)fj和ei之間有對齊關(guān)系,a(j,i)=1;否則a(j,i)=0。在本文中我們稱a(j,i)為對齊函數(shù)。對于任意一個(gè)(j,i),如果a(j,i)=1,我們稱(j,i)為一個(gè)對齊鏈接。如果有兩個(gè)對齊函數(shù)a1和a2滿足對任意的(j,i),都有a1(j,i)≤a2(j,i),我們稱a1?a2*這里我們借用了集合的飽含關(guān)系的表示方法。這里我們把一個(gè)對齊函數(shù)中滿足a(j, i)=1的所有(j, i)看成一個(gè)集合。。考慮詞對齊的方向,我們使用af→e(j,i)表示從f到e的詞對齊函數(shù)(正向詞對齊),ae→f(j,i)表示從e到f的詞對齊函數(shù)(反向詞對齊)。在此基礎(chǔ)上,我們定義正反雙向詞對齊的并集為aunion,它滿足aunion(j,i)= 1 iffaf→e(j,i) = 1∨ae→f(j,i)=1;正反雙向詞對齊的交集為ainter,它滿足ainter(j,i)=1 iffaf→e(j,i)=1∧ae→f(j,i)=1。
在給出相交型歧義塊的定義之前,我們先給出塊(block)的定義。假設(shè)fj1…fj2和ei1…ei2分別是f和e中的兩個(gè)詞序列,aunion為(f,e)之間正反雙向詞對齊的并集,如果
(1)
我們稱序偶(fj1…fj2,ei1…ei2)是一個(gè)翻譯對或塊,并把它表示成B(fj1…fj2,ei1…ei2)。這個(gè)定義意味著(fj1…fj2,ei1…ei2)中沒有詞被對齊到(fj1…fj2,ei1…ei2)以外??梢钥闯鲞@個(gè)定義本質(zhì)上與基于短語的統(tǒng)計(jì)機(jī)器翻譯[1]中的短語對的定義是一致的。
給定正反雙向詞對齊af→e,ae→f和一個(gè)塊B(fj1…fj2,ei1…ei2),如果有一個(gè)(j,i) (j1≤j≤j2∧i1≤i≤i2)滿足af→e(j,i)=1∧ae→f(j,i)=1,我們稱af→e(j,i)和ae→f(j,i)在(j,i)上是相交的或一致的。如果af→e(j,i)≠ae→f(j,i),我們稱fj和ei之間的對齊鏈接有(相交型)歧義。如果B(fj1…fj2,ei1…ei2)包含歧義鏈接,而且B(fj1…fj2,ei1…ei2)中沒有其他塊包含歧義鏈接,我們就稱B(fj1…fj2,ei1…ei2)為相交型歧義塊(Overlapping Ambiguous Block,OAB),并把它記為OAB(fj1…fj2,ei1…ei2)。實(shí)際上,OAB的定義保證了任意一個(gè)OAB不能嵌套地包含其他OAB,而且與其他任何OAB都不相交。例如,在圖1中所示的對齊實(shí)例中包含兩個(gè)OAB:OAB(“歐盟”,“Europe Union”)和OAB(“盧森堡市”, “Luxembourg”)。
在本文中,重對齊是指根據(jù)正反雙向詞對齊的結(jié)果重新對雙語句對進(jìn)行對齊,以得到完整的對稱化的詞對齊結(jié)果。顯然,對于雙語句對中的非OAB的部分來說重對齊是比較簡單的,因?yàn)槲覀冎恍璋央p向詞對齊的交集部分作為最終的對齊結(jié)果即可。而對于OAB來說,重對齊任務(wù)要難得多,因?yàn)槲覀円獙ζ渲械拿總€(gè)歧義鏈接進(jìn)行消歧。而本文的工作也正是集中在對OAB的重對齊任務(wù)上。在這個(gè)任務(wù)中有如下兩個(gè)問題需要解決:
a) 給定雙語句對(f,e)和它們之間的正反雙向詞對齊結(jié)果,如何得到所有的OAB。
b) 如何定義OAB上最優(yōu)的詞對齊,如何高效地搜索最優(yōu)詞對齊。
我們把第一個(gè)問題稱作相交歧義塊識別問題,把第二個(gè)問題稱作OAB的重對齊問題。
根據(jù)OAB的定義,我們給出了一個(gè)能夠得到所有OAB的OAB快速識別算法。
輸入: 雙語句對(f, e)和正反雙向詞對齊結(jié)果af→e和ae→f輸出: (f, e)包含的所有OABStep1: 得到所有歧義鏈接,把它們保存在ambilink[0…l]中Step2: fork=0 to l-1 do if Checked(f[ambilink[k].j]) do next FSegStart=FSegEnd=ambilink[k].j ESegStart=ESegEnd=ambilink[k].i FoundOABFlag=false while notFoundOABFlagdo Step2.1: 根據(jù)ae→f,ESegStart,ESegEnd和e更新FSegStart和FSegEnd Step2.2: 根據(jù)af→e,FSegStart,FSegEnd和f更新ESegStart和ESegEnd Step2.3: 如果無更新,把FoundOABFlag設(shè)為true 把B(FSegStart, FSegEnd, ESegStart, ESegEnd)存入OABList 把f[FSegStart...FSegEnd] 標(biāo)記為“checked”Step3: fori=0 to OABList.length-1 do if OABList[i]沒有被OABList中的其他元素覆蓋do輸出OABList[i]
這個(gè)算法的核心思想是,根據(jù)每個(gè)歧義鏈接進(jìn)行擴(kuò)展,直到得到包含它的OAB。算法中的Step2.1和Step2.2實(shí)際上就是對當(dāng)前得到的含有歧義鏈接的塊進(jìn)行判斷,如果在這個(gè)塊的外部仍有歧義鏈接對應(yīng)到塊中的某些詞(源語詞或者目標(biāo)語詞)就更新塊的范圍使其包含這個(gè)歧義鏈接。當(dāng)這個(gè)塊無法被更新時(shí),表示得到OAB,退出循環(huán)。這個(gè)算法的時(shí)間復(fù)雜度為Θ(I·J)。相比最直接的遍歷方法(時(shí)間復(fù)雜度為Θ(I2·J2)),它具有更高的運(yùn)行效率。
首先,為了簡化OAB的重對齊問題,我們假設(shè):
a)OAB中的詞對齊是上下文無關(guān)的。對于一個(gè)OAB,其他OAB不會影響它的對齊結(jié)果。
b)OAB中的詞對齊 與雙向詞對齊的并集aunion是兼容的,即a?aunion。
根據(jù)這兩個(gè)假設(shè),我們定義OAB(fj1…fj2,ei1…ei2)上最優(yōu)的詞對齊為:
abest=arg maxa?aunionScore(a,OAB)
(2)
其中Score(a,OAB)是一個(gè)函數(shù)用來評價(jià)對齊a的好壞程度。由于直接在整體上對OAB中的詞對齊進(jìn)行評價(jià)是比較困難的,我們把Score(a,OAB)定義為如下形式:
(3)
其中{factor1(a,OAB),…,factorK(a,OAB)}表示影響詞對齊的各個(gè)因素的集合。沿用經(jīng)典的IBM models[4]的思路,本文定義了三個(gè)影響OAB中的詞對齊的因素,它們是:翻譯概率(Translation Equivalent Probabilities),扭曲度概率(Distortion Probabilities)和產(chǎn)出率概率(Fertility Probabilities)。于是我們得到,
(4)
其中,
(5)
(6)
(7)
這里Score(link(a,OAB))表示整個(gè)詞對齊所對應(yīng)的翻譯概率, 表示fj和ei互為翻譯的聯(lián)合概率。Score(fertility(a,OAB))表示OAB生成一定數(shù)量鏈接的概率,這里n(φw|w)表示一個(gè)單詞w對應(yīng)φw條鏈接的概率。Score(distortion(a,OAB))表示詞對齊所對應(yīng)的整體調(diào)序概率,這里d(j,i)表示源語言第j個(gè)詞與目標(biāo)語上第i個(gè)詞之間有鏈接的概率。
對于模型的參數(shù)估計(jì),我們直接使用IBM model 3得到n(φw|w)的估計(jì)。而對于t(fj,ei),我們在訓(xùn)練語料的aunion上,使用極大似然估計(jì)(Maximum Likelihood Estimation, MLE)的方法對其進(jìn)行估計(jì),即:t(fj,ei)=count(fj和ei之間有鏈接)/count(fj和ei共現(xiàn))。對于d(j,i),我們采用了一個(gè)簡單的估計(jì)方法(或者說定義),d(j,i)=α|i-I·j/J|。這里|i-I·j/J|表示在對齊矩陣中(j,i)與對角線的相對距離,距離越遠(yuǎn)表示調(diào)序的程度越大。α<1.0是調(diào)解因子,在本文中我們通過實(shí)驗(yàn)的方法得到α的最優(yōu)值0.9。
在語言的使用中,我們常常會用多個(gè)連續(xù)的詞來表達(dá)一個(gè)概念,比如漢語和英語中的名詞短語。如果一個(gè)連續(xù)的詞序列頻繁地共現(xiàn),那它們很有可能在集中描述一個(gè)概念,在對齊中被作為一個(gè)單元的可能性就越大。比如,如果源語言句子中的某個(gè)詞序列中的每個(gè)詞都對應(yīng)到目標(biāo)語句子的相同部分,這個(gè)詞序列就很有可能構(gòu)成一個(gè)對齊單元。如果我們能很好的度量一個(gè)詞或詞序列表達(dá)同一個(gè)概念的可能性大小,那么這個(gè)信息就可以幫助我們得到更好的詞對齊結(jié)果?;谶@個(gè)想法,我們在模型1的基礎(chǔ)上引進(jìn)了一個(gè)新的單語特征,用它來度量在對齊中每個(gè)對齊單元的好壞程度。定義如下:
(8)
其中,
(9)
這里a(w)表示所有與w有對齊關(guān)系的詞的集合,|a(w)|表示與w有對齊關(guān)系的詞的數(shù)量。m(a(w))是對a(w)作為一個(gè)對齊單元可靠性的度量。本文中,我們把m(a(w))定義為(以m(a(fj))作為實(shí)例,對于m(a(ei))可以同理推得),
(10)
這里Pr(ek)和Pr(ep…eq)表示ek和ep…eq在單語(目標(biāo)語)中出現(xiàn)的概率,它們可以直接通過MLE方法在單語語料上進(jìn)行估計(jì)。
對于一個(gè)OAB,如果它包含l個(gè)aunion的鏈接,那么搜索最優(yōu)對齊的搜索空間為2l。對于大部分OAB來說,l都是一個(gè)比較小的值,這時(shí)我們可以直接使用全搜索的方法來得到abest。而對于l比較大的情況(l≥lmax),我們使用了一個(gè)基于棧的解碼器來搜索abest。它聯(lián)合使用了翻譯概率和扭曲度概率作為啟發(fā)函數(shù)來對abest進(jìn)行搜索。這里lmax是一個(gè)閾值,我們用它來限定需要剪枝處理的鏈接數(shù)的下限。
此外,還可以利用ainter來進(jìn)一步縮小搜索空間。通常ainter包含的都是準(zhǔn)確的詞對齊,因此可以把它作為對齊錨點(diǎn)。這樣,在提高搜索效率的同時(shí),可能會進(jìn)一步提高性能。利用ainter作為錨點(diǎn)后搜索空間可以被進(jìn)一步限制在ainter?a?aunion范圍內(nèi)。
我們把本文提出的方法應(yīng)用到實(shí)際的漢英統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中來驗(yàn)證它的有效性,并使用大小寫不敏感的BLUE4做為翻譯質(zhì)量的評價(jià)指標(biāo)。
實(shí)驗(yàn)所使用的訓(xùn)練和測試數(shù)據(jù)是SSMT2007官方提供漢英機(jī)器翻譯任務(wù)用數(shù)據(jù),包括:訓(xùn)練語料約80萬句對,開發(fā)集500句(每句4個(gè)參考譯文),測試集1 002句(每句4個(gè)參考譯文)。在使用前,我們首先用東北大學(xué)自然語言處理實(shí)驗(yàn)室所開發(fā)的中文分詞工具*http://www.nlplab.com/對中文句子進(jìn)行分詞,并用一個(gè)基于規(guī)則的tokenizer對英文句子進(jìn)行切分,此外我們還去掉了英文單詞的大小寫信息。我們使用了部分LDC提供的語料作為訓(xùn)練重對齊模型2所使用的源語和目標(biāo)語的單語語料,包括大約180萬句的中文和180萬句英文單語語料。
本文采用基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)moses*http://www.statmt.org/moses/作為實(shí)驗(yàn)的基準(zhǔn)系統(tǒng)。其中,我們用基于IBM models的GIZA++*http://www.fjoch.com/GIZA++.html獲得了正反雙向詞對齊結(jié)果。為了對比本文提出的方法,我們采用了三種基于啟發(fā)信息的詞對齊對稱化方法“intersection”,“union”和“refined”作為從正反雙向詞對齊獲得對稱的詞對齊的baseline方法[2]。這里“intersection”“union”和“refined”分別是指:雙向?qū)R的交集,雙向?qū)R的并集,在雙向?qū)R的交集的基礎(chǔ)上利用啟發(fā)信息進(jìn)行擴(kuò)展并考慮對齊矩陣中對角線位置的信息這三種方法*“refined”方法是moses工具包所使用的缺省方法。它也被稱作“intersect-diag-grow”方法。。此外我們利用SRLIM工具在實(shí)驗(yàn)用的英文單語語料上訓(xùn)練了5-gram語言模型。對于短語抽取和decoder,我們都使用了moses工具包所提供的程序,并采用缺省設(shè)置。此外,我們使用了最小錯(cuò)誤率訓(xùn)練來對參數(shù)進(jìn)行優(yōu)化。
在進(jìn)行重對齊之前,我們首先進(jìn)行了雙向詞對齊,之后識別出了訓(xùn)練語料中所有的OAB。表1給出了相關(guān)的統(tǒng)計(jì)信息??梢钥闯觯骄總€(gè)句對包含大約1.65個(gè)OAB。這表明OAB在漢—英機(jī)器翻譯中的詞對齊任務(wù)中是很常見的。此外我們在實(shí)驗(yàn)中還發(fā)現(xiàn)絕大多數(shù)的OAB(>80%)包含的鏈接數(shù)小于等于15。因此,在隨后的所有實(shí)驗(yàn)中我們均設(shè)置lmax=15來對包含鏈接數(shù)大于15的搜索進(jìn)行剪枝。
在識別OAB之后我們分別利用本文提出的重對齊模型1和模型2進(jìn)行了重對齊,并把得到的對齊結(jié)果用于基準(zhǔn)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中。在實(shí)驗(yàn)中,我們并沒有利用錨點(diǎn)ainter對搜索進(jìn)行剪枝。實(shí)驗(yàn)結(jié)果如表2所示??梢钥闯鲈谌NBaseline方法中,“refined”方法取得了最好的性能,其次是“union”方法。不過,“intersection”方法卻取得了比前兩種方法差很多的性能。這主要是由于,“intersection”方法會產(chǎn)生非常稀疏的對齊結(jié)果,這會導(dǎo)致短語表中噪聲的增加,并最終降低翻譯質(zhì)量。相比Baseline方法,本文提出的方法得到了更高的BLUE值。重對齊模型1和模型2比最高的Baseline方法分別高出0.59和0.68個(gè)點(diǎn)。這說明了本文提出的方法的有效性。此外,模型2比模型1取得了更好的性能,這也說明了使用單語語料也可以進(jìn)一步改善詞對齊的質(zhì)量,并間接提高統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能。
表1 詞對齊統(tǒng)計(jì)信息
表2 Baseline及重對齊模型性能
表3 使用錨點(diǎn)信息后的性能
根據(jù)4.3節(jié)的論述,我們可以使用ainter作為錨點(diǎn)來縮小搜索空間。表3給出了模型1和模型2使用錨點(diǎn)信息后的翻譯性能。有趣的是,對于模型1,錨點(diǎn)信息的使用帶來了翻譯性能的進(jìn)一步提高,相比5.3節(jié)的實(shí)驗(yàn)結(jié)果又提高了0.09個(gè)點(diǎn)。而模型2在使用錨點(diǎn)信息之后翻譯性能卻下降了0.02個(gè)點(diǎn)。這個(gè)實(shí)驗(yàn)結(jié)果說明,在OAB中,模型的最優(yōu)解abest不一定總包含ainter。雖然在整體上ainter中的對齊準(zhǔn)確率較高,但它并不一定能帶來OAB重對齊性能的提高。
在最后一組實(shí)驗(yàn)中,我們對單語語料規(guī)模大小對重對齊模型2的性能的影響進(jìn)行了研究。我們分別用20%,40%,60%,80%和100%的單語語料訓(xùn)練,得到了模型2的對齊結(jié)果。除了在40%時(shí)性能略有下降外,翻譯性能基本上是隨著單語語料數(shù)量的增大而提高。但最大的提高只有0.2個(gè)點(diǎn)。這說明雖然我們可以利用單語語料來提高模型2的性能,但性能提高的幅度有限。我們還發(fā)現(xiàn),當(dāng)單語語料規(guī)模達(dá)到一定大小后(比如實(shí)驗(yàn)用單語語料的80%)翻譯性能趨于平穩(wěn)。這表明,在我們的方法中,單純地增大單語語料規(guī)模并不能有效地提高翻譯翻譯準(zhǔn)確性。
Koehn等人[1]以及Och和Ney[2]研究了利用雙向非對稱的詞對齊得到對稱的詞對齊的方法。在他們的方法中,首先把正反雙向詞對齊的交集部分固定,之后利用啟發(fā)信息來擴(kuò)展固定部分。但是這種基于啟發(fā)信息的方法更傾向于含有局部調(diào)序的對齊,而對于語序相差很大的語言間的對齊的性能并不是很好。Liang等人[5]提出了一種利用最大化正反雙向?qū)R的一致部分的似然概率的方法來得到更好的詞對齊結(jié)果。與Liang等人工作不同,我們的工作集中在正反雙向?qū)R不一致的部分。也就是說我們更關(guān)心重新對齊那些正反雙向訓(xùn)練下IBM modes不能達(dá)成一致的對齊。
還有其他一些工作主要集中在利用判別模型來進(jìn)行詞對齊[6-9]。他們把詞對齊轉(zhuǎn)化為有指導(dǎo)或半指導(dǎo)的分類任務(wù),并利用多個(gè)特征共同作用得到對齊結(jié)果。不過,這些方法均需要人工標(biāo)注的詞對齊的訓(xùn)練語料,訓(xùn)練數(shù)據(jù)的構(gòu)造代價(jià)比較昂貴。
此外,本文工作與其他相關(guān)工作的另一個(gè)重要不同是,我們提出的重對齊方法可以利用單語語料來進(jìn)一步提高性能。而這個(gè)問題在以前的工作中并沒有被很好地討論過。
在模型的參數(shù)估計(jì)方面,本文分別對不同的參數(shù)采用了不同的估計(jì)方法。這么做的好處在于方法簡單,而且系統(tǒng)易于實(shí)現(xiàn)。實(shí)際上,也可以考慮利用EM等無指導(dǎo)的學(xué)習(xí)方法,來最大化詞對齊在整個(gè)訓(xùn)練集上的似然概率(可以把目標(biāo)函數(shù)看做詞對齊的可能性的度量),同時(shí)得到更好的參數(shù)估計(jì)結(jié)果。
此外,在本文提出的模型中,我們使用了多個(gè)特征得分的乘積(或者說是log線形加)的形式來表示一個(gè)詞對齊的得分。但是這些特征的權(quán)重都是相等的(都為1)。實(shí)際上,也可以通過調(diào)整特征的權(quán)重使模型取得更好的性能。不過,我們需要使用少量帶有人工標(biāo)注詞對齊的開發(fā)集來優(yōu)化這些權(quán)重。
本文提出了一種重對齊方法,它在IBM models生成正反雙向詞對齊的基礎(chǔ)上,對雙向?qū)R有歧義的部分進(jìn)行重新對齊,最終得到完整的對稱的詞對齊結(jié)果。此外,這個(gè)方法可以利用單語語料來進(jìn)一步改進(jìn)詞對齊結(jié)果,不過性能提高的幅度有限。相比在統(tǒng)計(jì)機(jī)器翻譯中廣泛使用的基于啟發(fā)信息的詞對齊對稱化方法,文本提出方法可以使統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)得到更高的翻譯準(zhǔn)確率。在以后的工作中,我們會對重對齊模型的參數(shù)估計(jì)和模型最優(yōu)解的搜索等問題做進(jìn)一步研究。
[1] Philipp Koehn, Franz Josef Och ,and Daniel Marcu. Statistical Phrase-Based Translation [C]//Proc. of HLT/NAACL2003. 2003: 48-54.
[2] Franz Josef Och and Hermann Ney. A systematic comparison of various statistical alignment models [J]. Computational Linguistics, 2003, 29(1):19-51.
[3] Alexander Fraer and Daniel Marcu. Measuring word alignment quality for statistical machine translation [R]. Technical Report ISI-TR-616. ISI/University of Southern California, 2006.
[4] Peter F. Brown, Stephen A. Della Piatra, Vincent J. Della Pietra, and R. L. Mercer. The mathematics of statistical machine translation: Parameter estimation [J]. Computational Linguistics. 1993, 19(2):263-311.
[5] Percy Liang, Ben Taskar, and Dan Klein. Alignment by agreement [C]//Proc. of HLT/NAACL2006. 2006: 104-111.
[6] Yang Liu, Qun Liu, and Shouxin Lin. Log-linear models for word alignment [C]//Proc. of ACL2005. 2005: 459-466.
[7] Alexander Fraer and Daniel Marcu. Semi-Supervised Training for Statistical Word Alignment [C]//Proc. of ACL2006. 2006: 769-776.
[8] Abraham Ittycheriah and Salim Roukos. A maximum entropoy word aligner for Arabic-English machine translation [C]//Proc. of HLT/EMNLP2005. 2005: 89-96.
[9] Ben Taskar, Simon Lacoste-Julien, and Dan Klein. A discriminative matching approach to word alignment [C]//Proc. of HLT/EMNLP2005. 2005: 73-80.