姚樹杰,肖 桐,朱靖波
(1. 東北大學(xué) 自然語言處理實(shí)驗(yàn)室,遼寧 沈陽 110004;2. 醫(yī)學(xué)影像計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室(東北大學(xué)),遼寧 沈陽 110819)
在統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation,簡寫為SMT)領(lǐng)域[1-2],系統(tǒng)的訓(xùn)練需要有大規(guī)模的高質(zhì)量雙語句對語料庫的支持。一般來說增加訓(xùn)練語料規(guī)模有助于獲得穩(wěn)定的模型參數(shù)和SMT系統(tǒng)翻譯性能的提高。但是訓(xùn)練語料越多,訓(xùn)練和解碼需要的時(shí)間越長,并且平行語料中存在的一些噪聲數(shù)據(jù),也會(huì)影響到訓(xùn)練的可靠性。
呂雅娟[1,3]等人曾提出一種基于信息檢索模型的統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練數(shù)據(jù)選擇與優(yōu)化方法,她們通過選擇現(xiàn)有訓(xùn)練數(shù)據(jù)資源中與待翻譯文本相似的句子組成訓(xùn)練子集,在不增加計(jì)算資源的情況下獲得與使用全部數(shù)據(jù)相當(dāng)甚至更好的機(jī)器翻譯結(jié)果。
但是,在實(shí)際應(yīng)用中,待翻譯文本往往是未知的,Eck等[4]對不依賴于待翻譯文本的訓(xùn)練語料選取技術(shù)進(jìn)行了研究。他們提出一種基于N-gram的覆蓋度的方法來構(gòu)建一個(gè)較小規(guī)模的訓(xùn)練語料子集,并且用這個(gè)子集達(dá)到了一個(gè)和原始全部語料相比可觀的翻譯性能。
此外,多數(shù)平行語料庫包含著錯(cuò)誤或噪音,它們也會(huì)對統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能產(chǎn)生影響。如果能對雙語語料(句對)進(jìn)行有效地評價(jià),也會(huì)有助于除去噪聲,選擇更加優(yōu)質(zhì)的數(shù)據(jù)來訓(xùn)練統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。針對雙語語料的質(zhì)量評價(jià)的問題,陳毅東,史曉東[5]等曾研究了一種面向處理平行語料庫的篩選的排序模型。這個(gè)模型利用預(yù)先設(shè)定的特征將已有的平行語料進(jìn)行打分排序,之后選取分?jǐn)?shù)靠前的部分組成訓(xùn)練語料。
為了更有效地對統(tǒng)計(jì)機(jī)器翻譯語料進(jìn)行篩選來降低SMT系統(tǒng)訓(xùn)練和解碼的代價(jià),本文提出了一種從大規(guī)模訓(xùn)練語料中選取小規(guī)模高質(zhì)量子集的方法。該方法同時(shí)考慮了語料本身的質(zhì)量和整體的覆蓋度因素來選取訓(xùn)練語料。實(shí)驗(yàn)結(jié)果表明本文的方法在近百萬規(guī)模訓(xùn)練語料上取得了明顯的效果,使用選取的小規(guī)模(原始語料的20%)數(shù)據(jù)即達(dá)到了與使用全部數(shù)據(jù)時(shí)相接近的翻譯性能。
本文提出方法的基本框架為:輸入原始大規(guī)模訓(xùn)練語料;首先對每一句對的質(zhì)量進(jìn)行自動(dòng)評價(jià)并給出一個(gè)分?jǐn)?shù);然后,按質(zhì)量評價(jià)分?jǐn)?shù)的高低對句對排序;在句對按質(zhì)量排序的基礎(chǔ)上考慮覆蓋度的因素,動(dòng)態(tài)選取一個(gè)子集;輸出從原始語料中選取的子集作為SMT系統(tǒng)的訓(xùn)練語料。
圖1 基于句對質(zhì)量評價(jià)和覆蓋度的訓(xùn)練語料子集選取框架
整個(gè)框架大致分為兩個(gè)部分:句對質(zhì)量的評價(jià)和基于覆蓋度的訓(xùn)練語料選取。利用②整合不同的特征來綜合評價(jià)句對質(zhì)量(見第3節(jié))。③整個(gè)語料的候選句對按質(zhì)量評價(jià)分?jǐn)?shù)的高低排序;④考慮覆蓋度選取語料的一個(gè)子集作為訓(xùn)練數(shù)據(jù)(基于覆蓋度選取訓(xùn)練語料的流程在第4節(jié)做詳細(xì)描述)。下面對句對質(zhì)量的評價(jià)和基于覆蓋度的訓(xùn)練語料選取技術(shù)進(jìn)行討論。
從現(xiàn)有語料中選取一個(gè)高質(zhì)量的相對規(guī)模較小的訓(xùn)練子集,就單個(gè)句對來講,我們希望優(yōu)先考慮的是那種質(zhì)量較好的個(gè)體。假定質(zhì)量高的句對需滿足以下條件:①構(gòu)成句對的源語句和目標(biāo)語句都是比較流暢的句子。②源語句和目標(biāo)語句的互譯比較準(zhǔn)確?;谶@樣的考慮,本文提出一種線性模型整合不同特征來綜合評價(jià)句對的質(zhì)量,后面將詳細(xì)介紹。
為描述雙語句對的好壞本文引入三類特征:基于雙語詞典的翻譯質(zhì)量,語言模型,翻譯模型概率。最后,在3.1.4中本文提出一種線性模型整合這些特征來綜合評價(jià)句對質(zhì)量。
3.1.1 特征一:基于雙語翻譯詞典的翻譯質(zhì)量
利用現(xiàn)有雙語翻譯詞典,本文給出下式來評價(jià)句對翻譯質(zhì)量:
(1)
其中,s是表示源語言句子,t表示目標(biāo)語句子;ws和wt分別表示雙語句對源語句中的詞和目標(biāo)句的詞;length(s)和length(t)分別表示源語句和目標(biāo)語句的長度(即包含的詞的個(gè)數(shù));ΣwsTranslate(ws)表示源語句中所有在目標(biāo)句能找到譯文的詞的總數(shù);ΣwtTranslate(wt)表示目標(biāo)句中所有在源語句能找到譯文的詞的總數(shù)。對于Translate(w),如果詞在它對應(yīng)的目標(biāo)與句子中存在翻譯項(xiàng)則為1,否則為0。
3.1.2 特征二:語言模型
引入語言模型的目的是考察每一句對的單語部分是否流暢。本文把候選訓(xùn)練語料句對的源語句語言模型和目標(biāo)語句的語言模型作為兩個(gè)特征加入到句對質(zhì)量評價(jià)線性模型中。假設(shè)句子中單詞的出現(xiàn)概率僅與其前面的N-1個(gè)單詞有關(guān),句長為n的句子用語言模型概率來考察候選句的流暢度表示如下:
(2)
其中PLM(w)的下標(biāo)LM是Language Model的簡寫。語言模型參數(shù)在大規(guī)模雙語訓(xùn)練語料上訓(xùn)練得到。實(shí)驗(yàn)中對句對的中文句和英文句分別計(jì)算其五元語言模型(N=5),每個(gè)句子的語言模型按句子長度進(jìn)行了歸一化處理。
3.1.3 特征三:翻譯模型概率
本文對IBM model 1 翻譯模型在假設(shè)基礎(chǔ)上進(jìn)行了進(jìn)一步簡化,并計(jì)算句對源語言到目標(biāo)語和目標(biāo)語到源語句翻譯概率作為衡量一個(gè)句對翻譯質(zhì)量的特征。
對于句對(f,e),假定源語句f有m個(gè)詞,目標(biāo)語句e有l(wèi)個(gè)詞。假設(shè)所有源語句的詞至多有一個(gè)目標(biāo)語詞對齊,對齊概率只依賴于t(fj|ei),對于每一個(gè)源語單詞我們在目標(biāo)語中尋找一個(gè)最能解釋它的目標(biāo)語詞;每個(gè)源語句中的詞僅由和它對齊的那個(gè)目標(biāo)語詞生成;忠誠度不依賴于目標(biāo)語和源語句的長度。在此基礎(chǔ)上,用下面的式子表示每一句對目標(biāo)語對源語翻譯的忠誠度。
(3)
其中,t(fj|ei)表示句子e的第i個(gè)詞到句f第j個(gè)詞的翻譯概率。PTM(w)的下標(biāo)TM是Translate Model的簡寫。源語句對目標(biāo)語句的忠誠度也類似表示。
3.1.4 句對質(zhì)量評價(jià)線性模型
怎樣考慮前述的特征來綜合評價(jià)句對質(zhì)量的好壞?用Q(f,e)來表示句對(f,e)的質(zhì)量,本文通過下面的表達(dá)形式整合以上提到的特征:
(4)
k表示該模型整合的特征的個(gè)數(shù)。e與f分別表示句對的源語句和目標(biāo)語句;這里wi分別表示每個(gè)對應(yīng)特征的權(quán)重,每個(gè)權(quán)重可在人工構(gòu)造的少量訓(xùn)練集上通過自動(dòng)或人工的方法得到。為實(shí)現(xiàn)的方便,本文暫時(shí)采用了人工的方法。
本文相關(guān)實(shí)驗(yàn)k=5,P1到P5依次指Pdic(f,e),PLM(e),PLM(f),PTM(f|e),PTM(e|f)。
從原始語料中選取一個(gè)子集作為訓(xùn)練語料,是要用有限的語料覆蓋盡可能多的語言現(xiàn)象,句對之間也不應(yīng)該存在太多冗余。假如說句對質(zhì)量評價(jià)是考慮這種語言現(xiàn)象的可靠性,那么覆蓋度就是要保證要包含廣泛的語言現(xiàn)象。本文認(rèn)為一個(gè)較好的訓(xùn)練子集要有足夠的覆蓋度,并且本文的有關(guān)實(shí)驗(yàn)也表明,相同規(guī)模的數(shù)據(jù),高的冗余會(huì)導(dǎo)致不好的訓(xùn)練效果,這也是本文在選取訓(xùn)練子集時(shí)考慮覆蓋度的一個(gè)原因。
本文比較了包括N-gram在內(nèi)的三種不同覆蓋度,采用一種動(dòng)態(tài)的考慮覆蓋度的方法來重新分布訓(xùn)練語料,最后從重新分布的語料中取前N個(gè)句對構(gòu)成一個(gè)子集作為訓(xùn)練語料。
覆蓋度大小的衡量分別比較三個(gè)參考指標(biāo):①詞的覆蓋;②N-gram(包括Unigram Bigram Trigram)的覆蓋;③短語翻譯對的覆蓋。
參照覆蓋度選取訓(xùn)練語料子集:用候選訓(xùn)練語料的第一個(gè)句對作為所選出的訓(xùn)練語料子集的第一個(gè)元素,然后依次向后掃描候選語料,如果當(dāng)前的句對對增加已選訓(xùn)練語料子集覆蓋度有貢獻(xiàn)(比如包含新的短語翻譯對),則優(yōu)先選擇這個(gè)句對添加到訓(xùn)練語料子集。
本文的平行語料選取框架綜合考慮了句對質(zhì)量和覆蓋度,利用句對質(zhì)量評價(jià)線性模型將候選語料的全部句對按質(zhì)量打分排序,之后按4.2節(jié)所述的考慮覆蓋度選取訓(xùn)練子集的方法從按句對質(zhì)量排序的語料中選出一個(gè)子集作為訓(xùn)練語料,具體如算法1所示。
算法1基于句對質(zhì)量和覆蓋度的訓(xùn)練語料選取
輸入:候選平行語料D={(s1,t1),(s2,t2),…}
輸出:選出的小規(guī)模的訓(xùn)練語料
算法:
step1. 循環(huán)Forifrom 1 ton//i表示句對編號(hào),用句對質(zhì)量評價(jià)線性模型給句對(si,ti)打分;
step2. 所有句對按step1得到的句對按質(zhì)量分?jǐn)?shù)高低排序,得到重排序的訓(xùn)練語料集Dq;
step3. 從前往后掃描Dq,按優(yōu)先考慮覆蓋度的方法選出一個(gè)子集,輸出這個(gè)子集作為所選訓(xùn)練語料。
Baseline系統(tǒng)描述:本文實(shí)驗(yàn)所使用的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)為東北大學(xué)自然語言處理實(shí)驗(yàn)室開發(fā)的基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)[6-7],系統(tǒng)實(shí)現(xiàn)采用對數(shù)線性模型。分詞采用東北大學(xué)自然語言處理實(shí)驗(yàn)室分詞系統(tǒng);詞對齊使用GIZA++工具。實(shí)驗(yàn)數(shù)據(jù)使用CWMT2008語料預(yù)處理后的70萬,將句對的分布先后順序隨機(jī)排列,從首句對起順次分別取1%,5%,10%,20%,(30%),40%,60%,80%和100%作為Baseline訓(xùn)練語料,利用SMT系統(tǒng)的BLEU值來估計(jì)這些不同規(guī)模訓(xùn)練數(shù)據(jù)的質(zhì)量。另外的一些實(shí)驗(yàn)相關(guān)信息如表1所示。
表1 一些實(shí)驗(yàn)相關(guān)信息
只考慮覆蓋度,用4.2節(jié)提到的方法分別以詞,N-gram和短語翻譯對(Phrase pair)為覆蓋度指標(biāo),從原始未經(jīng)句對質(zhì)量評價(jià)的語料中選取不同規(guī)模子集作為訓(xùn)練語料,其效果與Baseline做了比較。需要注意的是:詞是指源語言出現(xiàn)的詞(Unigram除去禁用詞);短語翻譯對從候選的平行句對獲得,參考了文獻(xiàn)[8]中的方法;N-gram實(shí)驗(yàn)中n=1,2,3,同時(shí)包含Unigram Bigram 和Trigram。
實(shí)驗(yàn)結(jié)果如圖2,縱坐標(biāo)表示選取不同規(guī)模語料作為訓(xùn)練數(shù)據(jù)所達(dá)到的機(jī)器翻譯性能(用BLEU值表示),橫坐標(biāo)表示所用數(shù)據(jù)占整個(gè)原始語料的百分比。不難發(fā)現(xiàn)在選取的語料規(guī)模比較小時(shí),優(yōu)先考慮語料的覆蓋度,能夠很大程度上影響SMT系統(tǒng)的訓(xùn)練效果,并且相同規(guī)模上用短語翻譯對(Phrase pair)作為覆蓋度指標(biāo)選取的語料訓(xùn)練效果要好于基于詞(unigram)和基于N-gram(unigram~trigram),三個(gè)指標(biāo)中使用短語翻譯對達(dá)到的效果最明顯。
圖2 依不同覆蓋度指標(biāo)選取的語料的訓(xùn)練效果比較
Baseline不考慮覆蓋度隨機(jī)選取數(shù)據(jù)作為訓(xùn)練語料,至少用60%訓(xùn)練語料達(dá)到BLEU值(0.239 8)與用全部語料時(shí)的BLEU值(0.242 4)相接近。而通過考慮覆蓋度來選取,基于詞(Unigram)選取40%語料達(dá)到0.241 1,N-gram(unigram~trigram)選取40%達(dá)到0.239 6,而以短語翻譯對覆蓋度選取僅占全部候選語料20%的數(shù)據(jù)就達(dá)到了0.240 4,與使用全部語料的水平(0.242 4)相接近。而Baseline用20%的數(shù)據(jù)達(dá)到的性能僅為0.227 7。實(shí)驗(yàn)結(jié)果表明訓(xùn)練語料的覆蓋度對訓(xùn)練效果有很大影響,尤其當(dāng)要選取的語料規(guī)模較小時(shí)覆蓋度就顯得更加重要。
通過這個(gè)實(shí)驗(yàn)的結(jié)果,也不難看到考慮覆蓋度來選取語料子集要比隨機(jī)選取的相同規(guī)模的語料的訓(xùn)練效果好;另外分析所用的三個(gè)覆蓋度指標(biāo),詞或N-gram作為覆蓋度指標(biāo)僅考慮了單語,而短語翻譯對覆蓋度指標(biāo)是在詞對齊基礎(chǔ)上同時(shí)考慮雙語信息,相比其他兩個(gè)對選取高質(zhì)量SMT平行訓(xùn)練語料的影響更大。
用3.1.4節(jié)中提到的句對質(zhì)量評價(jià)線性模型來評價(jià)候選句對的質(zhì)量。實(shí)驗(yàn)中本文暫時(shí)采用了人工的方法來設(shè)定各個(gè)特征的權(quán)重:權(quán)值開始設(shè)置為1,然后人工觀察在較小訓(xùn)練集合上的自動(dòng)句對質(zhì)量評價(jià)結(jié)果,之后再根據(jù)這個(gè)結(jié)果的合理性,對權(quán)值進(jìn)行調(diào)整,如此反復(fù)多次,最后每一個(gè)特征的權(quán)重由人工給定一個(gè)認(rèn)為合理的經(jīng)驗(yàn)值。
實(shí)驗(yàn)中分別為0.1,0.5,0.5,0.5,0.5。另外,實(shí)驗(yàn)中選用短語翻譯對作為覆蓋度指標(biāo)。綜合考慮句對質(zhì)量和覆蓋度,按照圖1所示整個(gè)框架流程來選取訓(xùn)練語料。選取的訓(xùn)練語料子集分別為全部原始語料規(guī)模的1%,5%,10%,20%,30%,40%,60%,80%,100%,并與Baseline做對比。圖3 中our method曲線表示利用本文提到的框架,綜合考慮句對質(zhì)量和覆蓋度選取的訓(xùn)練語料所達(dá)到的翻譯性能??梢钥闯觯帽疚牡姆椒◤妮^大規(guī)模平行語料中選取較小的子集作為訓(xùn)練語料能使機(jī)器翻譯性能明顯高于Baseline,甚至用20%的句對就到達(dá)了與用全部訓(xùn)練語料時(shí)相接近的性能。實(shí)驗(yàn)表明本文所提出的方法用在高質(zhì)量訓(xùn)練語料子集的選取上是有效的。
圖3 本文方法選取的不同規(guī)模訓(xùn)練語料訓(xùn)練與Baseline的比較
評價(jià)本文句對質(zhì)量評價(jià)模型不是件很容易的事,我們通過比較引入句對翻譯質(zhì)量評價(jià)前后所選取的相等規(guī)模的數(shù)據(jù)的訓(xùn)練效果來間接考察句對質(zhì)量評價(jià)方法的有效性。
通過比較兩組實(shí)驗(yàn)的數(shù)據(jù)可以發(fā)現(xiàn),在句對質(zhì)量評價(jià)基礎(chǔ)上考慮覆蓋度選取訓(xùn)練語料子集的效果要優(yōu)于單純考慮覆蓋度;反映在BLEU值上如表2(這里的覆蓋度僅指短語翻譯對的覆蓋)。可以看出,綜合考慮句對質(zhì)量和覆蓋度來選取小規(guī)模的訓(xùn)練語料能夠比單純考慮覆蓋度更好些,盡管在本文目前所用數(shù)據(jù)的實(shí)驗(yàn)結(jié)果上并不是很明顯。
表2 引入句對質(zhì)量評價(jià)前后按覆蓋度選取的訓(xùn)練語料的訓(xùn)練效果比較
統(tǒng)計(jì)機(jī)器翻譯所用的雙語平行語料不同于單語語料,其句對中源語句和目標(biāo)語句有著緊密的關(guān)系。比較幾種不同的覆蓋度指標(biāo)的實(shí)驗(yàn)表明在用雙語特征(短語翻譯對)作為覆蓋度指標(biāo)時(shí)選取訓(xùn)練語料子集效果最好,20%的數(shù)據(jù)規(guī)模即達(dá)到接近Baseline用全部數(shù)據(jù)時(shí)的訓(xùn)練效果。而同時(shí)考慮Unigram Bigram和Trigram在40%左右達(dá)到相當(dāng)?shù)男阅堋T趯?shí)驗(yàn)基礎(chǔ)上,本文認(rèn)為在選取SMT雙語訓(xùn)練語料時(shí)采用雙語的特征(比如短語翻譯對)來衡量覆蓋度這一指標(biāo)更合理。
同時(shí),句對的質(zhì)量好壞也是影響訓(xùn)練效果的因素,為評價(jià)句對的質(zhì)量本文考慮多種特征提出一種線性模型,這些特征包括:基于雙語詞典的句對翻譯質(zhì)量,語言模型,翻譯模型概率等。將句對質(zhì)量評價(jià)引入到訓(xùn)練語料子集的選取框架中,發(fā)現(xiàn)在選取的語料規(guī)模較小的時(shí)候有微弱提升。雖然效果不夠明顯,但這也間接說明句對質(zhì)量評價(jià)起到了一定作用。分析本文實(shí)驗(yàn)中單句質(zhì)量評價(jià)對選取的訓(xùn)練子集質(zhì)量影響微弱的原因,可能是因?yàn)楹蜻x語料本身規(guī)模就比較小,低質(zhì)量句對的比例也較低。究竟單句對的質(zhì)量對選取高質(zhì)量的SMT訓(xùn)練語料的影響有多大本文還不能給出定論。
總之,本文提出了一種綜合考慮句對質(zhì)量和覆蓋度選取統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練語料的方法,利用該方法從大規(guī)模平行語料中選取高質(zhì)量的小規(guī)模的子集作為訓(xùn)練語料,在不明顯損失機(jī)器翻譯性能的前提下降低訓(xùn)練和解碼的代價(jià)。從70萬句對中選取其中20%的語料即達(dá)到了與用整個(gè)語料相當(dāng)?shù)臋C(jī)器翻譯性能,通過實(shí)驗(yàn)驗(yàn)證了本文方法的有效性。
本文當(dāng)前的實(shí)驗(yàn)中句對質(zhì)量評價(jià)線性模型中各個(gè)特征的權(quán)重是還只是由人工在較小訓(xùn)練集上調(diào)整,給出的一個(gè)經(jīng)驗(yàn)值,后面的工作中我們將考慮采用自動(dòng)的方式來訓(xùn)練得到各特征的權(quán)重。
下一步,我們還將進(jìn)一步完善本文的訓(xùn)練語料選取框架,并在千萬級(jí)規(guī)模的平行語料上進(jìn)行相關(guān)實(shí)驗(yàn)以進(jìn)一步驗(yàn)證句對質(zhì)量評價(jià)方法在過濾噪聲數(shù)據(jù)方面的功能是否顯著。
[1] 黃瑾,呂雅娟,劉群. 基于信息檢索方法的統(tǒng)計(jì)翻譯系統(tǒng)訓(xùn)練數(shù)據(jù)選擇與優(yōu)化[J]. 中文信息學(xué)報(bào), 2008,22(2):40-46.
[2] Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation[C]//Proc. of HLT-NAACL, 2003. May: 127-133.
[3] Yajuan Lü, Jin Huang and Qun Liu. Improving Statistical Machine Translation Performance by Training Data Selection and Optimization[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2007:343-350.
[4] Matthias Eck, Stephan Vogel, Alex Waibel Low cost portability for statistical machine translation based on n-gram coverage[C]//MT Summit X: 2005:227-234.
[5] 陳毅東,史曉東,周昌樂.平行語料處理初探:一種排序模型[J]. 中文信息學(xué)報(bào),2006,增刊:66-70.
[6] Tong Xiao, Rushan Chen, Tianning Li, Muhua Zhu, Jingbo Zhu, Huizhen Wang and Feiliang Ren. NEUTrans: a Phrase-Based SMT System for CWMT2009[C]//5th China workshop on Machine Translation (CWMT), Nanjing, China, 2009: 40-46.
[7] Deyi Xiong, Qun Liu and Shouxun Lin. Maximum Entropy Based Phrase Reordering Model for Statistical Machine Translation[C]//Proc. of ACL Sydney, 2006: 521-528.
[8] Franz Josef Och Hermann Ney. The Alignment Template Approach to Statistical Machine Translation[C]//Association for Computational Linguistics. 2004.