摘要:隨著自然語言處理研究的不斷深入,人們不但迫切需要挖掘文本更多的潛在語言學(xué)信息,而且還力圖通過機(jī)器學(xué)習(xí)預(yù)測這些潛在的語言學(xué)知識,以便更加有效地提高機(jī)器翻譯的性能,同時(shí)為計(jì)算語言學(xué)服務(wù)。韻律作為語音學(xué)方面的知識,已經(jīng)廣泛用于到語音合成、文音轉(zhuǎn)換、語音翻譯各個(gè)語音方面,對基于語音的自然語言處理起到不可替代的作用。該文對韻律信息如何,并以何種方式改進(jìn)機(jī)器翻譯進(jìn)行了介紹,并通過實(shí)驗(yàn)驗(yàn)證韻律信息對層次短語模型有改進(jìn)。
關(guān)鍵詞: 統(tǒng)計(jì)機(jī)器翻譯;層次短語模型;韻律結(jié)構(gòu)信息;計(jì)算語言學(xué);語音學(xué)
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2013)12-2860-04
隨著統(tǒng)計(jì)機(jī)器翻譯的不斷發(fā)展,翻譯模型經(jīng)歷了從最初的基于詞的翻譯模型,到基于短語的翻譯模型,一直到基于句法甚至語義的翻譯模型的演變。其中層次短語模型[1][2]是當(dāng)今最好的基于句法的模型之一。層次短語模型脫胎于傳統(tǒng)的短語模型[3],繼承了短語模型魯棒的優(yōu)點(diǎn),同時(shí)又具備較強(qiáng)的長距離重排序能力。然而,現(xiàn)有的層次短語模型存在嚴(yán)重的規(guī)則冗余問題。例如,給定漢英句對如下:
這星期它特價(jià)一百二十美元。
it's on sale this week for one hundred twenty dollars.
句對對齊結(jié)果由GIZA++從語料庫訓(xùn)練得到。現(xiàn)給出平行句對的對齊矩陣,如圖1所示:
根據(jù)該對齊矩陣,我們可以得到初始短語<一 百 二 十 美元;one hundred twenty>(為簡潔,此處省略了對齊信息,下同),根據(jù)蔣偉的層次抽取算法,我們可以進(jìn)一步得到如下含變量的規(guī)則集:
1.X→
2.X→< X1 二 十 美元,X1 twenty dollars>
3.X→< X1 美元,X1 dollars>
4.X→<一 X1 二 十 美元,one X1 hundred twenty dollars>
5.X→<一 X1 美元,one X1 dollars>
6.X→<一 X1,one X1>
7.X→<一 百 X1 美元,one hundred X1 dollars>
8.X→<一 百 X1,one hundred X1>
9.X→<一 百 二 十X1,one hundred twenty X2>
10.X→< X1 百 二 十 X2,X1 hundred twenty X2>
11.X→< X1 百 X2,X1 hundred X2>
12.X→< X1 百 X2 美元,X1 hundred X2 dollars>
13.X→< X1 二 十 X2,X1 twenty X2>
14.X→<一 X1 二 十 X2,one X1 twenty X2>
通過對上述規(guī)則集進(jìn)行分析,我們發(fā)現(xiàn)規(guī)則集中存在大量冗余。冗余規(guī)則的的形式如下:
X→< X1 美元,X1 dollars>
X→<一 百 X1,one hundred X1>
X→< X1 百 X2,X1 hundred X2>
X→< X1 百 二 十 X2,X1 hundred twenty X2>
為什么這些規(guī)則是不合理的?如果我們把原句的韻律結(jié)構(gòu)信息考慮近來就比較清楚了。假設(shè)現(xiàn)有句對源端的韻律結(jié)構(gòu),如下所示:
這 y 星期 y 它 y 特價(jià) y 一 n 百 n 二 n 十 y 美元 y 。y
可以看到這些不合理的規(guī)則絕大多數(shù)其規(guī)則變量與兩邊終結(jié)符的邊界,并不是韻律切分邊界??梢婍嵚山Y(jié)構(gòu)信息將可能對層次規(guī)則泛化通過指導(dǎo)性信息。
為此,該文將研究利用韻律信息對層次短語模型的改進(jìn)。本章將從兩個(gè)角度改進(jìn)層次短語模型。首先利用韻律結(jié)構(gòu)邊界信息約束層次短語模型的抽取。另一種角度,增加模型的特征函數(shù)[5],利用韻律信息,改進(jìn)層次短語模型的翻譯模型,生成最優(yōu)的譯文。
1 層次短語模型
在層次短語模型中,對任意給定的源語言句子f,一般會(huì)存在多個(gè)推導(dǎo)得到f,從而得到許多可能的翻譯候選項(xiàng)e。層次短語翻譯模型通過計(jì)算推導(dǎo)過程的概率值確定最終的翻譯結(jié)果,使用對數(shù)線性模型來進(jìn)行推導(dǎo),模型如下:
[P(D)∝i?i(D)λi] (1)
這里,[?i]是定義在推導(dǎo)的特征值,[λi]為這些特征值的權(quán)重。除了m元語言模型P(m),剩余的特征定義為上下文無關(guān)文法的推導(dǎo)過程中使用的規(guī)則的特征上:
[?i(D)=(X→<γ,α>)∈D?i(X→<γ,α>)] (2)
進(jìn)一步地,可以推導(dǎo)出[P(D)]:
[P(D)∝PLM(e)λLMi≠LM(X→<γ,α>)∈D?i(X→<γ,α>)λi] (3)
除了語言模型,將其他因子放在一起表示,如下表示:
[W(D)=(X→<γ,α>)∈DW(X→<γ,α>)] (4)
且定義:
[W(X→<γ,α>)=i≠LM?i(X→<γ,α>)λi] (5)
由以上公式,可以得到模型的最后表示:
[P(D)∝PLM(e)λLM×W(D)] (6)
而層次短語模型的規(guī)則集D是在訓(xùn)練過程中,從對齊的平行句對中抽取出來的,規(guī)則形式如下:
X → <γ, α, ~, w>
其中,X是N集合中的某個(gè)非終結(jié)符;γ, α分別為源語言端、目標(biāo)語言端的終結(jié)符與N中的非終結(jié)符組成的串;~為γ, α中非終結(jié)符之間的對齊關(guān)系,在實(shí)際規(guī)則中可以通過變量的下標(biāo)表示;w為規(guī)則的權(quán)值。
且短語規(guī)則利用了類似于Pharaoh的默認(rèn)特征集相似的特征:目標(biāo)語言與源語言之間的雙向短語翻譯概率、短語規(guī)則中詞相互翻譯的貼切度、每個(gè)短語規(guī)則的懲罰、膠水規(guī)則懲罰以及詞懲罰。使用最小錯(cuò)誤率對對數(shù)線性模型各特征的權(quán)值調(diào)整,并通過對數(shù)線性模型把上述特征組合起來。
層次翻譯模型的解碼器是一個(gè)CKY句法分析器,用CKY形式的算法使用學(xué)習(xí)得到的同步上下文無關(guān)文法的源端,對目標(biāo)端進(jìn)行同步句法分析,同時(shí)生成譯文。
2 基于韻律的層次翻譯模型改進(jìn)
因改進(jìn)需要用到韻律邊界信息,因此本節(jié)首先介紹韻律邊界的預(yù)測。然后根據(jù)概述,分析有效的韻律約束。本節(jié)最后一部分介紹韻律信息以特征的方式改進(jìn)機(jī)器翻譯模型。
2.1韻律邊界預(yù)測
韻律層次結(jié)構(gòu)主要分為三個(gè)基本層級:韻律詞、韻律短語和語調(diào)短語。從形式句法來看,語調(diào)短語往往可以被認(rèn)為是由標(biāo)點(diǎn)符號分開,比較容易識別。因此對韻律結(jié)構(gòu)的預(yù)測問題可以認(rèn)為是對韻律詞和韻律短語的預(yù)測。而韻律層次的預(yù)測主要有兩類[6],一類是基于規(guī)則的方法,另一類是基于統(tǒng)計(jì)學(xué)習(xí)的方法。因此韻律邊界的預(yù)測可以利用韻律層次結(jié)構(gòu)的預(yù)測方法。該文采用基于CRF的方法[7],預(yù)測韻律邊界。
實(shí)驗(yàn)工具為CRF++工具包[8],實(shí)驗(yàn)的訓(xùn)練集和測試集來自于TH-CoSS[9],其中隨機(jī)抽取80%為訓(xùn)練集,剩余20%為測試集。TH-CoSS為清華的語音合成語料,TH-CoSS包含韻律標(biāo)記。訓(xùn)練數(shù)據(jù)格式如下:
其中第一列為語法詞,第二列表示語法詞的詞長,第三列其詞性,最后一列為韻律邊界標(biāo)識。所采用的特征模板是“4+1”的模板,即選取當(dāng)前詞的詞性,當(dāng)前詞前面的兩個(gè)詞和后面兩個(gè)詞作為特征。因此特征模板的個(gè)數(shù)有15個(gè)一元特征和31個(gè)一元組合特征,共46個(gè)特征,詳細(xì)特征列表請參考文獻(xiàn)[4]。
韻律邊界預(yù)測為分類問題,對其評價(jià),不僅僅考慮精確率和召回率,還要考慮F值,通過CRF++訓(xùn)練,得到預(yù)測模型,再由測試集測試,測試結(jié)果為:準(zhǔn)確率95.04%、召回率94.97%以及F值為95.00%。
2.2基于韻律邊界的規(guī)則抽取約束
與傳統(tǒng)的短語模型相比,層次短語模型保留了傳統(tǒng)的短語模型優(yōu)勢,又克服了傳統(tǒng)短語模型的調(diào)序問題。但是層次短語模型帶來了很大的計(jì)算代價(jià),存在大量的冗余。對于解決規(guī)則冗余,其主要方法是利用語言知識約束規(guī)則抽取,比如利用淺層句法分析[10]的結(jié)果作為規(guī)則抽取的出發(fā)點(diǎn)、利用高頻詞短語搭配[11]約束規(guī)則抽取等。
由概述分析可知,韻律層次結(jié)構(gòu)會(huì)對規(guī)則抽取起到約束作用,進(jìn)而能解決層次短語模型的冗余問題。根據(jù)概述所發(fā)現(xiàn)的、不好的規(guī)則,與其變量的位置、韻律邊界存在一定的關(guān)系。因此,利用變量的位置和韻律邊界信息,制定如下約束策略:
1)規(guī)則含一個(gè)變量,考慮兩邊有終結(jié)符,若都不在韻律邊界處,過濾此規(guī)則。
2)規(guī)則含一個(gè)變量,且位于末端,且變量前面的終結(jié)符不在韻律邊界處,則過濾規(guī)則。
3)規(guī)則含一個(gè)變量,且位于首端,且變量后面終的結(jié)符不在韻律邊界處,則過濾規(guī)則。
4)規(guī)則含兩個(gè)變量,若變量位于規(guī)則的兩端,過濾規(guī)則。
5)規(guī)則含兩個(gè)變量,兩個(gè)變量規(guī)則兩邊的非終結(jié)符都不在韻律邊界處,則過濾規(guī)則;
其中約束2、3和4用于約束概述所總結(jié)的規(guī)則;而約束1和5,用于約束韻律切分比較嚴(yán)重的規(guī)則,因?yàn)檫@些規(guī)則的概率比較低、泛化能力不強(qiáng),但又有可能過濾掉好的規(guī)則。
通過對上述五種約束的分析,從理論上來講,約束2、3,和4會(huì)對規(guī)則過濾起到優(yōu)化作用;而約束1和5需要通過實(shí)驗(yàn)證明;
2.3基于韻律切分懲罰的機(jī)器翻譯模型改進(jìn)
文章2.2采用規(guī)則過濾的方式改進(jìn)基于層次短語模型的翻譯系統(tǒng),這種方式是存在一定的風(fēng)險(xiǎn),因此本節(jié)考慮增加特征函數(shù)的方式,將韻律信息添加到翻譯模型中。現(xiàn)考慮對每條規(guī)則增加特征,懲罰規(guī)則中韻律切分的程度。而基本的層次短語模型使用了Pharaoh的默認(rèn)特征集相似的特征。從雙語訓(xùn)練語料中抽取到的規(guī)則有如下特征形式:
1)[P(γ|α)]和[P(α|γ)]是目標(biāo)語言到源語言和源語言到目標(biāo)語言的短語翻譯概率。
2)[Pw(γ|α)]和[Pw(α|γ)]這兩個(gè)特征是估計(jì)[γ]和[α]中詞相互翻譯的貼切度。
3)對每個(gè)抽取的短語規(guī)則的懲罰exp(-1),與Koehn's短語懲罰相似,可以使得模型學(xué)習(xí)到是長的推導(dǎo)還是短的推導(dǎo)。
4)對膠水規(guī)則的懲罰exp(-1),使模型學(xué)習(xí)到使用是使用傳統(tǒng)的短語的順序組合還是層次短語的順序組合。
5)對每一個(gè)短語規(guī)則進(jìn)行詞懲罰exp(-#T(a)),其中#T(a)是對規(guī)則中的終結(jié)符的計(jì)數(shù),這個(gè)特征來指導(dǎo)模型選擇短的翻譯還是長的翻譯,控制翻譯的長度。
增加特征-韻律切分懲罰,特征函數(shù)形式如下:
[Fp=#TS(X→<γ,α>)] (7)
函數(shù)#TS表示規(guī)則[X→<γ,α>]中的源端變量與其兩邊非終結(jié)符之間的韻律切分次數(shù),比如本文示例的規(guī)則表中的一條規(guī)則:
X→ < X1 百 X2,X1 hundred X2>
因變量X1和X2抽取時(shí),與“百”之間的分割不在韻律邊界處,因此規(guī)則的韻律切分次數(shù)為2。因增加特征方式引入韻律信息,同樣也可用于傳統(tǒng)的短語模型,所以這里同時(shí)給出基于韻律特征的短語模型改進(jìn)。
3 實(shí)驗(yàn)與分析
3.1實(shí)驗(yàn)設(shè)置
本節(jié)實(shí)驗(yàn)主要用到的語料來自IWSLT2006中的數(shù)據(jù)和2005年863評測任務(wù)的數(shù)據(jù),其中IWSLT2006中的訓(xùn)練集和開發(fā)集(Dev1到Dev3)來自于BTEC。BTEC(the Basic Travel Expression Corpus)是多語言的平行語料,并且是旅游領(lǐng)域的對話語料。
其中訓(xùn)練集以IWSLT2006的訓(xùn)練集和從2005年 863 MT評測中選取的100425句對作為實(shí)驗(yàn)的訓(xùn)練集,該數(shù)據(jù)共140378句對;以IWSLT2006中的測試集與開發(fā)集4分別為實(shí)驗(yàn)的測試集和開發(fā)集。所有數(shù)據(jù)的漢語句子經(jīng)廈大自然語言處理實(shí)驗(yàn)室的分詞工具分詞,訓(xùn)練集的英語部分由moses自帶的工具進(jìn)行tokenize,大小寫轉(zhuǎn)換,最后再過濾長句;開發(fā)集合的英文部分需要tokenize,大小寫轉(zhuǎn)換;測試集英語部分tokenize。
使用開源工具IRSTLM工具訓(xùn)練5元的語言模型,使用改進(jìn)的Kneser-Ney平滑策略;使用開源工具GIZA++工具訓(xùn)練處雙語的詞對齊,并采用“grow-diag-final-and”的啟發(fā)式策略獲得詞對齊;翻譯模型的權(quán)重參數(shù)使用moses自帶的工具進(jìn)行自動(dòng)調(diào)參;評測方法使用moses自帶的評測工具multi-bleu.perl進(jìn)行Blue計(jì)算。
3.2實(shí)驗(yàn)結(jié)果與分析
本節(jié)的實(shí)驗(yàn)主要是針對訓(xùn)練時(shí)加入韻律約束對規(guī)則規(guī)模的影響和對翻譯性能的影響。文章所涉及的翻譯模型有基本的短語翻譯模型(PBTM)、層次短語翻譯模型(HPBTM)、基于韻律約束策略2、3和4的層次翻譯模型(HPBTM1)、基于韻律約束策略1、2、3、4和5的層次翻譯模型(HPBTM2),添加韻律切分懲罰的短語翻譯模型(PBTM+)和層次短語翻譯模型(HPBTM+)。其中基本的短語翻譯系統(tǒng)和層次短語翻譯系統(tǒng)作為baseline。兩個(gè)baseline系統(tǒng)即開源的moses系統(tǒng),其余系統(tǒng)是在開源的moses系統(tǒng)上的改進(jìn)。
表2給出加入韻律約束前后的短語表規(guī)模的對比;表3給出各個(gè)模型系統(tǒng)對翻譯的質(zhì)量進(jìn)行了對比。
從表2、表3可以看出:加入限制2、3和4之后的層次短語模型,抽取到的規(guī)則表規(guī)模降低了40%多,但是Blue值相對于baseline2,降低了0.36個(gè)點(diǎn);加入限制1、2、3、4和5之后,規(guī)則表規(guī)模大幅度降低50%多,同時(shí)Blue值相對于basline2降低了0.59.然而,加入韻律切分懲罰的短語模型和層次短語模型,相對于baseline1、baseline2,Blue值分別提高了0.23和0.19個(gè)點(diǎn)。
由此可以得出:雖然采用韻律信息約束層次短語模型的規(guī)則抽取,存在一定的風(fēng)險(xiǎn),但是從運(yùn)行代價(jià)上來講,降低了層次短語模型的冗余問題;若在翻譯模型中引入韻律信息特征,模型的翻譯質(zhì)量有一定的提高。因此從總體上來講,引入韻律信息是有助于提高系統(tǒng)的翻譯性能。
4 總結(jié)
本文針對韻律邊界與句法邊界之間的關(guān)系,通過理論和實(shí)驗(yàn)分析討論了韻律的結(jié)構(gòu)與層次短語模型規(guī)則之間的關(guān)系。實(shí)驗(yàn)證明,該文在只對翻譯質(zhì)量做了稍微犧牲的情況下,大幅度降低了層次短語模型的規(guī)則數(shù),因此韻律信息有益于解決層次短語模型的冗余問題;而且以韻律切分懲罰的方式,增加規(guī)則的特征,模型的翻譯質(zhì)量得到了提升。該文最為重要的意義是,在現(xiàn)有的比較有限的語言學(xué)知識下,利用語言學(xué)知識,并且是語音學(xué)的韻律知識,改善翻譯系統(tǒng)的性能。
因此本文的內(nèi)容僅僅說明韻律對非語音領(lǐng)域的自然語言處理有一定的作用,邁出了第一步,還有很多不足和探討的地方,比如韻律邊界預(yù)測的準(zhǔn)確率還有待改進(jìn);翻譯模型中的韻律特征函數(shù)考慮的比較粗糙,是否可以根據(jù)具體的韻律層次結(jié)構(gòu)類型,選擇相應(yīng)的特征函數(shù);甚至研究利用韻律結(jié)構(gòu)信息來指導(dǎo)機(jī)器翻譯的解碼過程。
參考文獻(xiàn):
[1] Chiang D. A hierarchical phrase-based model for statistic machine translation[J]. In Proceedings of ACL 2005: 263-270.
[2] Chiang D. Hierarchical phrase-based translation[J]. Computational Linguistics,2007,33(2): 201-228.
[3] Koelhn P. Statistical Phrase-Based Translation[C]. In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics(HLT/NAACL), Edmonton, Canada, 2003:127-133.
[4] 方李成. 基于層次短語的統(tǒng)計(jì)翻譯系統(tǒng)中規(guī)則冗余的高效約束方法[C]. 西安: 2008: 303-309.
[5] Richard Zens. Improvements in phrase-based statistical machine translation[J]. In Proceedings of HLT-NAACL 2004: 257–264.
[6 ] 包森成. 基于統(tǒng)計(jì)模型的韻律結(jié)構(gòu)預(yù)測研究[D]. 北京:北京郵電大學(xué), 2009.
[7] Lafferty. Conditional Random Field: Probabilistic Models for Segmenting and Labeling Sequence Data. In ICML 18. 2001.
[8] http://sourceforge.net/projects/crfpp/.
[9] 蔡連紅. 漢語普通話語音合成語料庫TH-CoSS的建設(shè)和分析[J]. 中文信息學(xué)報(bào), 2007(2).
[10] W. Wei. Hierarchical chunking phrase based translation. Natural Language Processing and Knowledge Engineering, 2007. NLP-KE 2007. International Conference on, pages 268-273.
[11] 蘇勁松. 一種基于短語搭配和高頻骨干詞的層次短語約束抽取方法[J]. 中文信息學(xué)報(bào), 2011(3):118-122.