国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

模糊匹配在樹(shù)到串翻譯模型中的應(yīng)用

2011-06-28 01:55皓,劉洋,劉
中文信息學(xué)報(bào) 2011年2期
關(guān)鍵詞:卷積葉子規(guī)則

熊 皓,劉 洋,劉 群

(中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗(yàn)室, 北京 100190)

1 導(dǎo)論

最近幾年來(lái),基于樹(shù)的翻譯模型受到了越來(lái)越多的關(guān)注,并且在近幾年的NIST翻譯評(píng)測(cè)中取得了不錯(cuò)的成績(jī)。根據(jù)輸入的不同,基于樹(shù)的模型可以分為以下兩類:串輸入模型[1-4]和樹(shù)輸入模型[5-6]。串輸入模型使用上下文同步文法對(duì)輸入的文本串同時(shí)進(jìn)行句法分析和翻譯;而樹(shù)輸入模型則直接將輸入的句法樹(shù)轉(zhuǎn)換成目標(biāo)翻譯或者目標(biāo)句法樹(shù)。

樹(shù)輸入的模型主要包括樹(shù)到串翻譯模型[7-8]和樹(shù)到樹(shù)翻譯模型[9-11]。這兩種模型都將解碼部分分為兩個(gè)步驟:句法分析和翻譯。首先使用句法分析器將輸入的源文本串分析成一棵句法分析樹(shù),然后利用解碼器將句法樹(shù)轉(zhuǎn)換成目標(biāo)翻譯。然而對(duì)于某些語(yǔ)言來(lái)說(shuō),比如中文,句法分析的準(zhǔn)確率遠(yuǎn)沒(méi)有達(dá)到令人滿意的結(jié)果。因此,解碼器的性能不可避免的要受句法分析錯(cuò)誤的影響[12]。

為了減輕句法分析錯(cuò)誤對(duì)翻譯性能的影響,一種可行的方法是在源端使用句法分析森林來(lái)替代單棵最優(yōu)句法樹(shù)[13-14]。上述文獻(xiàn)也表明使用森林技術(shù)可以在很大程度上提高翻譯的質(zhì)量。但是不管是使用單棵句法分析樹(shù)還是使用森林,以往的工作都是將規(guī)則表示為文本串,然后使用字符串匹配技術(shù)從規(guī)則表中搜索可用的規(guī)則。但是有些規(guī)則所含的節(jié)點(diǎn)數(shù)目非常多,如果使用字符串匹配技術(shù)進(jìn)行完全匹配,從規(guī)則表中很難找到可用的規(guī)則。例如,對(duì)于如下兩條規(guī)則:

( NP-B ( NR (中國(guó))NN(打擊) NN (走私) NN (工作) NN (會(huì)議) )

( NP-B ( NR (中國(guó))VV(打擊) NN (走私) NN (工作) NN (會(huì)議) )

由于句法分析的錯(cuò)誤,第二條規(guī)則中“打擊”的詞性被標(biāo)注成了“VV”,按照字符串匹配算法,這兩條規(guī)則是無(wú)法匹配的。從上面這個(gè)例子可以看出,使用完全的字符串匹配技術(shù)將潛在地減小可匹配的規(guī)則數(shù)量,特別對(duì)于一些節(jié)點(diǎn)數(shù)目比較大的規(guī)則來(lái)說(shuō),能夠成功匹配的規(guī)則數(shù)量將非常稀少。

因此本文提出了一種基于樹(shù)核的模糊匹配技術(shù),我們將一條規(guī)則表示成一個(gè)特征向量,通過(guò)卷積樹(shù)核[15]來(lái)計(jì)算不同規(guī)則之間的相似度。由于規(guī)則表中規(guī)則數(shù)量巨大,完全計(jì)算所有規(guī)則之間的相似度是不可行的,因此我們首先通過(guò)一些限制生成一個(gè)候選規(guī)則集合,然后在集合內(nèi)部通過(guò)卷積樹(shù)核計(jì)算相似度。在NIST 2005漢英翻譯的實(shí)驗(yàn)表明,使用模糊匹配技術(shù)顯著的提高了1.3個(gè)BLEU值,并且在森林模型中使用模糊匹配技術(shù)仍然取得了0.7個(gè)BLEU值的提升。

本文將在第2節(jié)簡(jiǎn)要介紹樹(shù)到串翻譯模型,然后在第3節(jié)介紹卷積樹(shù)核以及本文提出的模糊匹配技術(shù),在第4節(jié)本文將給出所有的實(shí)驗(yàn)結(jié)果,最后在第5節(jié)將對(duì)本文進(jìn)行總結(jié)。

2 樹(shù)到串翻譯模型

樹(shù)到串翻譯模型[7-8]將翻譯過(guò)程分成兩個(gè)步驟:句法分析和翻譯。假定源語(yǔ)言是中文,目標(biāo)語(yǔ)言是英文,圖1給出了一個(gè)樹(shù)到串翻譯模型中常見(jiàn)的例子,其中包括源句法分析樹(shù),目標(biāo)串以及源端和目標(biāo)端文本串之間的對(duì)齊信息。

圖1 樹(shù)到串翻譯模型中的常見(jiàn)例子,其中包括源句法分析樹(shù),目標(biāo)串以及源端和目標(biāo)端之間的對(duì)齊信息

使用GHKM算法[16],我們可以從圖1中的對(duì)齊結(jié)構(gòu)中抽取出樹(shù)到串翻譯規(guī)則。表1給出了圖1例子中抽取出的規(guī)則樣例。其中規(guī)則的左半部分表示的是一棵樹(shù)片段(x表示非終結(jié)符);右半部分是對(duì)應(yīng)的翻譯信息。由于樹(shù)到串規(guī)則包含了豐富的層次信息,因此其表達(dá)能力也強(qiáng)于同步上下文文法。

表1 規(guī)則表

在以往相關(guān)的工作中,表1中的規(guī)則(4)和規(guī)則(7)是兩條完全不同的規(guī)則,因?yàn)樗麄兊淖蟀氩糠植荒芡耆ヅ洹5俏覀兛梢园l(fā)現(xiàn)他們表達(dá)的翻譯信息是相同的,都是將源端的詞匯化節(jié)點(diǎn)“shalong” 翻譯成目標(biāo)端的“Sharon”。因此我們提出了一種模糊匹配技術(shù),我們只考察規(guī)則中的邊緣節(jié)點(diǎn)(規(guī)則中的葉子節(jié)點(diǎn))相同的規(guī)則,然后使用樹(shù)核計(jì)算規(guī)則之間的相似度并作為一個(gè)判別特征加入到判別模型中去。在下面一節(jié)中我們將詳細(xì)介紹基于樹(shù)核的模糊匹配技術(shù)。

3 模糊匹配

在我們的系統(tǒng)中,一條規(guī)則不再表示成字符串,而是將其視為一個(gè)結(jié)構(gòu)體,然后計(jì)算不同規(guī)則之間的相似度。為了計(jì)算相似度我們引入了卷積樹(shù)核技術(shù)。本節(jié)我們首先簡(jiǎn)要介紹卷積樹(shù)核的基本概念,然后介紹如何將卷積樹(shù)核技術(shù)引入到模糊匹配模型中。

3.1 卷積樹(shù)核

不同于樹(shù)結(jié)構(gòu)的字符串表示形式,卷積樹(shù)核[15]通過(guò)特征向量來(lái)表示不同的句法樹(shù)。一般來(lái)說(shuō),一棵句法樹(shù)t可以使用特征向量f來(lái)表示,f具有如下形式:f(t)=(…,sti(t),…),其中sti(t)表示的是句法樹(shù)t中第ith棵子樹(shù)出現(xiàn)的次數(shù)。由于一棵句法樹(shù)中的子樹(shù)個(gè)數(shù)有可能非常多,直接枚舉是不可能的,因此Collins and Duffy 提出了使用卷積樹(shù)核來(lái)高效計(jì)算高維向量點(diǎn)積的方法[15]:

其中N1和N2分別是句法樹(shù)t1和t2的節(jié)點(diǎn)集合,Ii(n)表示句法樹(shù)的子樹(shù)是否以n作為根節(jié)點(diǎn),是則為1,反之為0;C(n1,n2)表示兩棵句法樹(shù)中分別以n1和n2作為根節(jié)點(diǎn)的子樹(shù)個(gè)數(shù)。并且C(n1,n2)可以通過(guò)下面的定義在多項(xiàng)式時(shí)間內(nèi)計(jì)算出來(lái):

1) 如果節(jié)點(diǎn)n1和n2的推導(dǎo)不同,則C(n1,n2)=0;

2) 如果節(jié)點(diǎn)n1和n2為葉子節(jié)點(diǎn)并且具有相同的標(biāo)簽,則C(n1,n2)=λ;

3) 如果節(jié)點(diǎn)n1和n2的推導(dǎo)相同并且n1和n2不是葉子節(jié)點(diǎn),則

其中nc(n1)表示節(jié)點(diǎn)n1包含的推導(dǎo)中子節(jié)點(diǎn)個(gè)數(shù),由于節(jié)點(diǎn)n1和n2的推導(dǎo)相同,所以nc(n1)=nc(n2),此外ch(n1,j)表示n1包含的推導(dǎo)中第j個(gè)子節(jié)點(diǎn)。λ(0≤λ≤1)是一個(gè)懲罰因子,用來(lái)降低子樹(shù)規(guī)模對(duì)C(n1,n2)大小的影響。

3.2 規(guī)則匹配

在以往的方法中,規(guī)則必須通過(guò)精確匹配來(lái)選取,以圖2為例,假定圖中表示的是輸入句法樹(shù)中的兩棵不同子樹(shù)片段。通過(guò)規(guī)則匹配,我們發(fā)現(xiàn)表1中的規(guī)則(5)可以用來(lái)生成子樹(shù)a的翻譯,而子樹(shù)b無(wú)法從表1的規(guī)則表中找到合適的翻譯,因?yàn)楸?包含的所有規(guī)則表中沒(méi)有任何一條規(guī)則的左半部分包含子樹(shù)片段 “VPB(VV(juxing) AS(le) x1:NP)”。

圖2 樹(shù)到串翻譯模型中輸入句法樹(shù)中的兩棵子樹(shù)片段及其在模糊匹配模型中的表示形式

但是通過(guò)分析我們發(fā)現(xiàn),子樹(shù)a和子樹(shù)b的翻譯僅由葉子節(jié)點(diǎn)“juxing”,“l(fā)e”,“NPB”和“NP”的翻譯譯文組成,而與中間節(jié)點(diǎn)“VV”和“AS”無(wú)關(guān)?;谶@個(gè)直覺(jué),我們忽略子樹(shù)的中間結(jié)構(gòu),僅考察子樹(shù)的葉子節(jié)點(diǎn)是否相似,并且對(duì)于非終結(jié)符節(jié)點(diǎn)進(jìn)行泛化處理。例如圖2中子樹(shù)a和子樹(shù)b的“NBP”和“NP”節(jié)點(diǎn)都泛化為名詞詞性“NNx”。同樣地,對(duì)于規(guī)則表中的規(guī)則,我們匹配時(shí)也僅考慮規(guī)則中的葉子節(jié)點(diǎn),以表1中的規(guī)則(5)為例,其對(duì)應(yīng)的葉子節(jié)點(diǎn)為“juxing”,“l(fā)e”和“NP”,由于“NP”為非終結(jié)符名詞節(jié)點(diǎn),我們將其泛化為“NNx”。因此規(guī)則(5)在模糊匹配的定義下適用于圖2中的兩棵子樹(shù)。

然而對(duì)于規(guī)則表中的規(guī)則來(lái)說(shuō),我們只考察葉子節(jié)點(diǎn)是否相似,而忽略中間節(jié)點(diǎn)的不同。但是對(duì)于一條和源端子樹(shù)完全匹配的規(guī)則來(lái)說(shuō),規(guī)則的可信度要高于不完全匹配的規(guī)則。因此對(duì)于不同的匹配規(guī)則,我們使用上一小節(jié)介紹的卷積樹(shù)核來(lái)計(jì)算輸入子樹(shù)片段和規(guī)則表中規(guī)則之間的相似度,并在解碼時(shí)將相似度作為一個(gè)特征引入到對(duì)數(shù)線性模型中去,通過(guò)最小錯(cuò)誤率訓(xùn)練來(lái)訓(xùn)練出合適的權(quán)重。在實(shí)驗(yàn)中我們也發(fā)現(xiàn)模糊匹配的權(quán)重為正值,也就意味著越相似的規(guī)則對(duì)BLEU值貢獻(xiàn)越大。

此外由于計(jì)算樹(shù)核相似度需要耗費(fèi)一定的計(jì)算時(shí)間,而對(duì)于解碼器來(lái)說(shuō)性能是很重要的。因此為了提高解碼時(shí)的運(yùn)行速度,我們將規(guī)則表中葉子節(jié)點(diǎn)相同的規(guī)則形成一個(gè)小集合,并且利用樹(shù)核公式預(yù)先計(jì)算出集合內(nèi)規(guī)則之間的相似度,這樣在解碼時(shí)就可以快速獲取子樹(shù)和匹配規(guī)則之間的相似度,省去了在線計(jì)算樹(shù)核的時(shí)間。

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)設(shè)置

我們選用FBIS語(yǔ)料(共239 416平行句對(duì))作為訓(xùn)練集,利用SRI語(yǔ)言模型工具包[17],并且使用Kneser-Ney 平滑[18]技術(shù)在GigaXinHua上面訓(xùn)練了一個(gè)四元語(yǔ)言模型。

對(duì)于源端的漢語(yǔ)句子,我們使用中文句法分析器[19]生成了對(duì)應(yīng)的中文句法樹(shù)。此外我們選用NIST2002 漢英測(cè)試集作為實(shí)驗(yàn)的開(kāi)發(fā)集,NIST2005漢英測(cè)試集作為測(cè)試集,使用大小寫不敏感的BLEU4作為實(shí)驗(yàn)衡量標(biāo)準(zhǔn)。

4.2 實(shí)驗(yàn)結(jié)果

由于使用了模糊匹配,對(duì)于源端的句法樹(shù)來(lái)說(shuō),可候選的規(guī)則數(shù)量相比于精確匹配增加12%左右,表2列出了精確匹配和模糊匹配對(duì)應(yīng)的候選規(guī)則數(shù)量。

表2 精確匹配和模糊匹配模型過(guò)濾后規(guī)則表大小

我們?cè)陂_(kāi)發(fā)集中對(duì)3.1節(jié)中相似度公式中的懲罰因子λ進(jìn)行插值計(jì)算,圖3給出了開(kāi)發(fā)集BLEU值受λ值的影響,從圖中可以看出當(dāng)λ=0.8時(shí)我們?nèi)〉昧俗顑?yōu)的BLEU值,但是可以看出樹(shù)核函數(shù)的計(jì)算方法對(duì)最后的性能影響并不是很大,主要原因是在對(duì)數(shù)線性模型中,規(guī)則的選取取決于多個(gè)特征的判別作用。相對(duì)于翻譯概率以及詞匯化概率來(lái)說(shuō),相似度特征的作用并不是很大。但是從表3、表4中我們發(fā)現(xiàn)僅考慮葉子節(jié)點(diǎn)的匹配策略對(duì)于BLEU的提升很有效。

圖3 不同的λ值對(duì)開(kāi)發(fā)集BLEU值的影響

表3樹(shù)模型和森林模型在測(cè)試集上的對(duì)比實(shí)驗(yàn)結(jié)果

測(cè)試集05 (BLEU)樹(shù)模型精確匹配(Baseline)28.76樹(shù)模型模糊匹配 30.06++(p<0.01)森林模型精確匹配(Baseline)30.7森林模型模糊匹配 31.4++(p<0.05)

最后我們測(cè)試了模糊匹配在測(cè)試集上面的效果,表3給出了對(duì)比實(shí)驗(yàn)結(jié)果。從表3中我們可以發(fā)現(xiàn)模糊匹配相對(duì)于精確匹配取得了1.3個(gè)BLEU值的顯著提升。提升的很大原因在于樹(shù)到串翻譯模型的源端是句法樹(shù),而在目前句法分析準(zhǔn)確率不高的情況下,傳統(tǒng)的精確匹配方法無(wú)法減輕句法分析錯(cuò)誤對(duì)規(guī)則無(wú)法匹配造成的影響。

此外,我們?cè)诨谏值臉?shù)到串模型[13]中引入了模糊匹配技術(shù),從表3中可以看出基于模糊匹配的技術(shù)仍然取得了0.7個(gè)BLEU值的提升。從表3對(duì)比結(jié)果中我們可以發(fā)現(xiàn)使用模糊匹配技術(shù)能夠顯著的提高機(jī)器翻譯的性能。

5 結(jié)論與未來(lái)工作

本文提出了一種基于樹(shù)核的規(guī)則模糊匹配技術(shù),在NIST05的測(cè)試集合上的實(shí)驗(yàn)結(jié)果表明:相比于傳統(tǒng)的精確匹配方法,使用模糊匹配技術(shù)顯著的提高了1.3個(gè)BLEU值;此外,在基于森林的翻譯模型上使用模糊匹配技術(shù),我們?nèi)匀蝗〉昧?.7個(gè)BLEU值的提升。

在未來(lái)的工作中我們將繼續(xù)測(cè)試模糊匹配技術(shù)在樹(shù)到樹(shù)翻譯模型中的效果,相比于樹(shù)到串模型,樹(shù)到樹(shù)模型目前的翻譯效果仍然有很大潛力需要挖掘,因此我們希望通過(guò)使用模糊匹配技術(shù)來(lái)增加可用規(guī)則表大小,進(jìn)而提高翻譯的質(zhì)量。

[1] David Chiang.A hierarchical phrase-based model for statistical machine translation[C]//Association for Computational Linguistics.Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics.Michigan State, USA:ACL Publication Chairs,2005:263-270.

[2] Dekai Wu.Stochastic inversion transduction grammars and bilingual parsing of parallel corpora[J].Computational Linguistics,1997,23:377-403.

[3] Michel Galley, Jonathan Graehl, Kevin Knight, Daniel Marcu, Steve DeNeefe, Wei Wang, Ignacio Thayer.Scalable inference and training of context-rich syntactic translation models[C]//Association for Computational Linguistics.Proceedings of the 44rd Annual Meeting on Association for Computational Linguistics.Sydney, Australia:ACL Publication Chairs,2006:961-968.

[4] Daniel Marcu, Wei Wang, Abdessamad Echihabi, Kevin Knight.SPMT: Statistical machine translation with syntactified target language phrases[C]//Association for Computational Linguistics.Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing.Sydney, Australia:ACL Publication Chairs,2006:44-52.

[5] Dekang Lin.A path-based transfer model for machine translation[C]//Association for Computational Linguistics.Proceedings of the 20th international conference on Computational Linguistics.Geneva, Switzerland:ACL Publication Chairs,2004:625-633.

[6] Yuan Ding and Martha Palmer.Machine translation using probabilistic synchronous dependency insertion grammars[C]//Association for Computational Linguistics.Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics.Michigan State, USA:ACL Publication Chairs,2005:541-548.

[7] Yang Liu, Qun Liu, and Shouxun Lin.Tree-to-string alignment template for statistical machine translation[C]//Association for Computational Linguistics.Proceedings of the 44th Annual Meeting on Association for Computational Linguistics.Sydney, Australia:ACL Publication Chairs,2006:609-617.

[8] Liang Huang, Kevin Knight, Aravind Joshi.A syntax-directed translator with extended domain of locality[C]//Association for Computational Linguistics.Proceedings of the Workshop on Computationally Hard Problems and Joint Inference in Speech and Language Processing.New York, USA:ACL Publication Chairs,2005:1-8.

[9] Jason Eisne.Learning non-isomorphic tree mappings for machine translation[C]//Association for Computational Linguistics.Proceedings of the 41st Annual Meeting on Association for Computational Linguistics.Sapporo, Japan:ACL Publication Chairs,2003:205-208.

[10] Brooke Cowan.A discriminative model for tree-to-tree translation[C]//Association for Computational Linguistics.Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing.Sydney, Australia:ACL Publication Chairs,2006:232-241.

[11] Min Zhang, Hongfei Jiang, Aiti Aw, Haizhou Li, Chew Lim Tan, Sheng Li. A tree sequence alignment-based tree-to-tree translation model[C]//Association for Computational Linguistics.Proceedings of the 46th Annual Meeting on Association for Computational Linguistics.Oho, USA:ACL Publication Chairs,2008:559-567.

[12] Quirk and Corston-Oliver.The impact of parse quality on syntactically-informed statistical machine translation[C]//Association for Computational Linguistics.Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing.Sydney, Australia:ACL Publication Chairs,2006:62-69.

[13] Haitao Mi, Liang Huang, and Qun Liu.Forest-based translation[C]//Association for Computational Linguistics.Proceedings of the 46th Annual Meeting on Association for Computational Linguistics.Oho, USA:ACL Publication Chairs,2008:192-199.

[14] Yang Liu, Yajuan Lv, and Qun Liu[C]//Association for Computational Linguistics.Proceedings of the 47th Annual Meeting on Association for Computational Linguistics.Suntec, Singapore:ACL Publication Chairs,2009:558-566.

[15] Michael Collins and Nigel Duffy.Convolution kernels for natural language[C]//Advances in neural information processing systems.Fifteen Annual Conference on Neural Information Processing Systems.British Columbia, Canada:NIPS Publication Chairs,2001:625-632.

[16] Michel Galley, Mark Hopkins, Kevin Knight, Daniel Marcu.What is in a translation rule?[C]//Association for Computational Linguistics.Proceedings of the 2nd Human Language Technologies and North American Association for Computational Linguistics annual meetings.USA:ACL Publication Chairs,2004:273-280.

[17] Andreas Stolcke. Srilm—an extensible language modeling toolkit[C]//ICSLP.Proceedings of the Seventh International Conference on Spoken Language Processing.Denver, Colorado, USA:ICSLP Publication Chairs,2002:901-904.

[18] Stanley Chen and Joshua Goodman.An empirical study of smoothing techniques for language modeling[C]//Association for Computational Linguistics.Proceedings of the 34th Annual Meeting on Association for Computational Linguistics.California, USA:ACL Publication Chairs,1996:310-318.

[19] Deyi Xiong, Shuanglong Li, Qun Liu, Shouxun Lin, Yueliang Qian.Parsing the penn Chinese treebank with semantic knowledge[C]//Association for Computational Linguistics.Proceedings of the Natural Language Processing-IJCNLP 2005.USA:Springer,2005:70-81.

猜你喜歡
卷積葉子規(guī)則
撐竿跳規(guī)則的制定
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
數(shù)獨(dú)的規(guī)則和演變
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
從濾波器理解卷積
葉子
最后一片葉子(節(jié)選)
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
讓規(guī)則不規(guī)則
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
凌云县| 孝感市| 玉林市| 彭水| 克拉玛依市| 沽源县| 海南省| 万载县| 灵石县| 屏山县| 宕昌县| 电白县| 博罗县| 梁平县| 安岳县| 井研县| 清镇市| 天柱县| 威海市| 靖西县| 宜丰县| 常山县| 温州市| 饶阳县| 定日县| 台山市| 鄂托克旗| 福海县| 望江县| 盐源县| 翼城县| 襄城县| 德令哈市| 固始县| 建水县| 崇文区| 临猗县| 宿州市| 嵊泗县| 新巴尔虎左旗| 金湖县|