国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融入雙語(yǔ)最大名詞組塊的樹-串統(tǒng)計(jì)機(jī)器翻譯模型

2015-04-18 07:18李業(yè)剛
關(guān)鍵詞:中心詞組塊漢英

李業(yè)剛,解 紅,周 潔,李 艷

(山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255049)

融入雙語(yǔ)最大名詞組塊的樹-串統(tǒng)計(jì)機(jī)器翻譯模型

李業(yè)剛,解 紅,周 潔,李 艷

(山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255049)

在統(tǒng)計(jì)機(jī)器翻譯中融入語(yǔ)言學(xué)知識(shí)具有重要的理論研究和應(yīng)用價(jià)值.在考察了具有豐富的句法和語(yǔ)義信息的雙語(yǔ)最大名詞組塊后,提出和實(shí)現(xiàn)了在樹-串統(tǒng)計(jì)翻譯模型中融入雙語(yǔ)最大名詞短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯框架.通過(guò)在漢-英測(cè)試集的實(shí)驗(yàn)證明:相比基線模型,采用所述框架的翻譯模型的BLEU值提高了1.66%,而且翻譯速度也得到了提高.

統(tǒng)計(jì)機(jī)器翻譯;樹-串翻譯模型;雙語(yǔ)最大名詞組塊;句子骨架

樹-串統(tǒng)計(jì)機(jī)器翻譯模型在源語(yǔ)言中引入句法結(jié)構(gòu),以此限制翻譯路徑,約束詞語(yǔ)的活動(dòng)范圍.但是完全句法分析也是一個(gè)復(fù)雜度很高的自然語(yǔ)言處理任務(wù),自身遠(yuǎn)遠(yuǎn)沒有達(dá)到完美的程度.以漢語(yǔ)為例,在賓州中文樹庫(kù)上,采用自動(dòng)詞性標(biāo)注結(jié)果,漢語(yǔ)的分析精度達(dá)不到80%.這是基于語(yǔ)言學(xué)語(yǔ)法的翻譯系統(tǒng)性能提升的最大瓶頸.雖然N-BEST[1]、句法森林[2-3]等[4-5]方法通過(guò)擴(kuò)大搜索空間,增強(qiáng)了對(duì)句法知識(shí)的容錯(cuò)能力,但是翻譯模型要通過(guò)計(jì)算機(jī)實(shí)現(xiàn).隨著語(yǔ)料庫(kù)的規(guī)模越來(lái)越大,更大的搜索空間,更高的計(jì)算復(fù)雜性,最終將造成翻譯時(shí)間越來(lái)越長(zhǎng),翻譯性能提高的代價(jià)是翻譯時(shí)間倍增.因此,保證樹-串統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)對(duì)句法知識(shí)的容錯(cuò)能力,有效地融入合適的句法知識(shí),就成了統(tǒng)計(jì)翻譯模型要解決的主要問(wèn)題.

為了句子中的降句法分析中嵌套短語(yǔ)帶來(lái)的干擾,提高句法分析的性能,從而提高機(jī)器翻譯的譯文質(zhì)量.本文提出了一種分而治之的策略,利用一體化的BMNC識(shí)別對(duì)齊算法獲取高質(zhì)量的BMNC,在此基礎(chǔ)上,把翻譯模型分成雙語(yǔ)最大名詞組塊(bilingual maximal length noun chunk,BMNC)翻譯子模型和句子骨架(Skeleton)翻譯子模型.

1 BMNC的定義及特性

最大名詞短語(yǔ)[6](Maximal-length Noun Phrase, MNP)指的是不被其它任何名詞短語(yǔ)所包含的名詞短語(yǔ),如果能夠高質(zhì)量的識(shí)別出句子中的MNP,可以剔除MNP中的嵌套短語(yǔ)等復(fù)雜結(jié)構(gòu)給句子結(jié)構(gòu)分析帶來(lái)的結(jié)構(gòu)歧義,有利于更好的把握句子結(jié)構(gòu).

在漢英平行語(yǔ)料中,漢英MNP經(jīng)常會(huì)存在不完全互譯的情況,例如:

上海浦東開發(fā)與法制建設(shè)同步.

The development of Shanghai 's Pudong is in step with the establishment of its legal system.

在漢語(yǔ)句子中,“上海 浦東 開發(fā) 與 法制 建設(shè)”被識(shí)別為一個(gè)最大名詞短語(yǔ),而其互譯的成分,在英語(yǔ)句子中識(shí)別為“The development of Shanghai 's Pudong”和“the establishment of its legal system”兩個(gè)不連續(xù)的名詞短語(yǔ).

在這種情況,傳統(tǒng)定義的MNP在雙語(yǔ)中出現(xiàn)了偏差,不完全互譯,無(wú)法滿足機(jī)器翻譯的需求.因此我們?cè)趥鹘y(tǒng)MNP定義的基礎(chǔ)上,提出了雙語(yǔ)最大名詞組塊(Bilingual Maximal-length Noun Chunks, BMNC),它不僅具備傳統(tǒng)MNP的特性:是一個(gè)完整的句法單元和語(yǔ)義單元,有穩(wěn)定的外部修飾結(jié)構(gòu),而且要具備雙語(yǔ)間的互譯性和識(shí)別的一致性.因此,BMNC不同于傳統(tǒng)的MNP,在單語(yǔ)句子中它有可能被其它名詞短語(yǔ)包含,但是它不能被可互譯的其它名詞短語(yǔ)所包含.定義1描述了漢英BMNC的形式化定義.

定義1 存在漢英句對(duì)SP=,其中:S:ws1,ws2,…,wsns表示漢語(yǔ)句子序列,T:wt1,wt2,…,wtnt表示英語(yǔ)句子序列.對(duì)于序列對(duì),其中,MNCc?S,MNCe?T,如果滿足以下條件,則稱為漢英雙語(yǔ)最大名詞組塊.

{|MNCc=

ws0,ws1,…,wsm,MNCe=wt0,wt1,…,wtn;

MNCc?MNCe;m

(1)非空.MNCc≠null,MNCe≠null

(2)互譯.MNCc?MNCe,MNCe和MNCc在翻譯上的具有充分轉(zhuǎn)換性.

(3)繼承.MNCc和MNCe的語(yǔ)義核心均有一個(gè)名詞或者名詞短語(yǔ)組成,且其成分特征決定了MNCc和MNCe短語(yǔ)結(jié)構(gòu)的特征.

根據(jù)BMNC定義,漢語(yǔ)句子“上海 浦東 開發(fā) 與 法制 建設(shè)”中,“上海 浦東 開發(fā)”(對(duì)應(yīng)英語(yǔ)BMNC“The development of Shanghai 's Pudong”)和“法制 建設(shè)”(對(duì)應(yīng)英語(yǔ)BMNC“the establishment of its legal system”)被識(shí)別為兩個(gè)雙語(yǔ)對(duì)齊的BMNC.

2 BMNC&Skeleton翻譯模型框架

在樹-串統(tǒng)計(jì)機(jī)器翻譯模型中,句法分析錯(cuò)誤會(huì)傳遞到解碼過(guò)程,影響譯文的質(zhì)量.為了降低句法分析錯(cuò)誤對(duì)譯文質(zhì)量的影響,我們提出了融入BMNC的樹-串統(tǒng)計(jì)翻譯模型(BMNC & Skeleton),模型框架如圖1所示.該模型把句子翻譯轉(zhuǎn)化為BMNC翻譯和句子骨架(Skeleton)翻譯.首先,在源語(yǔ)言端進(jìn)行BMNC識(shí)別,把所有BMNC抽取出來(lái)組成BMNC集合;在原來(lái)的句子中用BMNC的中心詞或者詞性來(lái)代替BMNC短語(yǔ)整體,形成Skeleton.然后分別訓(xùn)練翻譯模型,把BMNC集合和Skeleton翻譯成目標(biāo)語(yǔ)言.最后,在目標(biāo)語(yǔ)言端,組合獨(dú)立翻譯的BMNC和Skeleton,形成最終的翻譯結(jié)果.

圖1 融入MNC的翻譯框架

用中心詞來(lái)代替短語(yǔ)整體要滿足兩個(gè)約束條件:其一,源語(yǔ)言端和目標(biāo)語(yǔ)言端語(yǔ)義上相對(duì)應(yīng)的兩個(gè)短語(yǔ)是句法獨(dú)立的,不存在一端短語(yǔ)連續(xù),另一端不連續(xù)的現(xiàn)象;其二,在各自的句子中句法功能相同,一端是名詞短語(yǔ),另一端也應(yīng)具有名詞的功能.因?yàn)椴煌Z(yǔ)言之間存在結(jié)構(gòu)差異,這一前提不一定能夠滿足.為此,我們統(tǒng)計(jì)分析了雙語(yǔ)對(duì)照樹庫(kù)CTB1.0(English Chinese Translation Treebank)的4175個(gè)句子.分析發(fā)現(xiàn),BMNC具有較好的穩(wěn)定性,98%以上的BMNC都符合上述約束.

我們統(tǒng)計(jì)了CTB5.0《新華日?qǐng)?bào)》語(yǔ)料中所有的9,493漢語(yǔ)句子,共含有24,436個(gè)BMNC,占所有詞的57.4%.BMNC的平均長(zhǎng)度5.4詞,其中,長(zhǎng)度大于7的占了22.9%.把BMNC用中心詞代替后,漢語(yǔ)句子的平均長(zhǎng)度降低將近一半,由24.2個(gè)詞縮減到12.9個(gè)詞.在樹-串翻譯中,翻譯時(shí)間主要包含解碼時(shí)間和源語(yǔ)言句法分析耗費(fèi)的時(shí)間,翻譯時(shí)間復(fù)雜度是句子長(zhǎng)度的三次方,顯而易見,用中心詞代替BMNC,將大幅度的降低翻譯時(shí)間耗費(fèi).

在識(shí)別出MNC后,把句子中的BMNC用其中心詞代替,形成句子骨架,可以有效降低翻譯時(shí)間.但是,實(shí)際情況中,漢語(yǔ)詞和英語(yǔ)單詞并不是完全一一對(duì)齊的,還會(huì)存在一對(duì)多、多對(duì)一,甚至是多對(duì)多的情況.也就是說(shuō)中心詞會(huì)存在不完全互譯的情況,這就會(huì)造成句子骨架并不是充分互譯的.例如:

[新區(qū)/n BS 管委會(huì)/ n IH]

[the/DT BS new/JJ IS region/NN IS 's/POS IS management/NN IS committee/NN IH]

漢語(yǔ)端BMNC的中心詞“管委會(huì)”對(duì)應(yīng)的英語(yǔ)翻譯是“management committee”,而不只是英語(yǔ)端的BMNC中心詞“committee”,如果只是用中心詞BMNC,就會(huì)形成兩個(gè)并不是完全互譯的英漢句子骨架,給后續(xù)的翻譯帶來(lái)衍生錯(cuò)誤.為了避免這樣的錯(cuò)誤,我們的策略是用中心詞的詞性代替原來(lái)的中心詞.

3 BMNC獲取

BMNC對(duì)齊雖然是識(shí)別的后續(xù)過(guò)程,但對(duì)齊信息卻能輔助BMNC的識(shí)別,修正已有的識(shí)別錯(cuò)誤.因此,將對(duì)齊信息反饋給識(shí)別過(guò)程會(huì)提高識(shí)別的質(zhì)量.針對(duì)漢英雙語(yǔ)語(yǔ)料,我們建立起B(yǎng)MNC識(shí)別與對(duì)齊相結(jié)合的整體框架,提出一種漢英BMNC一體化識(shí)別對(duì)齊模型,使雙語(yǔ)實(shí)體對(duì)齊具有修正識(shí)別的功能,實(shí)現(xiàn)二者性能的同時(shí)提高.

Align_Conf(MNPci,MNPej)=

(1)

式中:count(MNPci,MNPej)表示MNPci和MNPej之間對(duì)齊的詞的數(shù)量,count(MNPci),count(MNPej)分別表示MNPci和MNPej中包含的詞的數(shù)量.

(2)

(3)

其中,ti,ti-1,ti+1表示wi的詞性,wi前一個(gè)詞的詞性和wi的后一個(gè)詞的詞性;count(*,*,*)表示詞性組合出現(xiàn)的次數(shù).

(4)

我們采用詞性組合共現(xiàn)、互為翻譯和長(zhǎng)度關(guān)聯(lián)3個(gè)特征來(lái)對(duì)雙語(yǔ)對(duì)齊置信度進(jìn)行建模.

詞性組合共現(xiàn)特征指的是組成BMNC的詞的詞性組合在整個(gè)語(yǔ)料庫(kù)中的共現(xiàn)頻率.具體計(jì)算如公式(5)所示.

(5)

(6)

(7)

其中:

count(x)表示x包含的字符數(shù).

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)使用了北京市海量語(yǔ)言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心提供的100,000句子級(jí)對(duì)齊的漢英平行語(yǔ)料作為樹-串翻譯模型的訓(xùn)練語(yǔ)料,東北大學(xué)NiuTrans開源統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的訓(xùn)練語(yǔ)料作為最大熵特征參數(shù)訓(xùn)練語(yǔ)料.測(cè)試語(yǔ)料使用了2002 NIST機(jī)器翻譯漢英測(cè)試集.我們用基于IBM models的GIZA++[8]獲得了漢英和英漢兩個(gè)方向的詞對(duì)齊.

4.2 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)選用了東北大學(xué)開發(fā)的NiuTrans中的tree-to-string模型作為翻譯基線模型.分別考察了金本位和自動(dòng)識(shí)別的BMNC兩種不同的情況在測(cè)試集的表現(xiàn)(表1).其中:Model1表示NiuTrans的tree-to-string模型,Model2表示金本位的BMNC識(shí)別的BMNC&Skeleton翻譯模型,Model3表示自動(dòng)識(shí)別的BMNC基礎(chǔ)上的BMNC&Skeleton翻譯模型.

表1 不同模型的翻譯性能比較

模型MNPs正確率/%BLEU/%Model1-24.37Model210025.2Model382.124.64

從實(shí)驗(yàn)結(jié)果可以看出,基于金本位的BMNC識(shí)別的Model2的BLEU值比基線翻譯模型Model1提高了0.83%.由于識(shí)別錯(cuò)誤的累積,基于自動(dòng)識(shí)別的BMNC翻譯模型Model3的BLEU值雖然比Model1高了0.27%,但是相比Mode2,則低了0.56%.也就是說(shuō),BMNC的識(shí)別性能對(duì)翻譯的結(jié)果是有影響的,進(jìn)一步提高BMNC的質(zhì)量可以提升機(jī)器翻譯的性能.

為了進(jìn)一步的探討B(tài)MNC&Skeleton翻譯模型的翻譯性能,我們測(cè)試集上進(jìn)行了進(jìn)一步的實(shí)驗(yàn),把整個(gè)測(cè)試集分為10詞以下,10到20詞和20詞以上三個(gè)不同的測(cè)試集,分別進(jìn)行翻譯實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示.

表2 不同句長(zhǎng)測(cè)試集上的翻譯性能比較

模型BLEU/%<10[10,20)≥20Model129.1224.8120.35Model328.9325.3822.01

從實(shí)驗(yàn)結(jié)果來(lái)看,雖然隨著句子長(zhǎng)度的增加,兩個(gè)模型的翻譯性能都表現(xiàn)除了降低的趨勢(shì),但是Model3降低的幅度要低于Model1,尤其是在句子長(zhǎng)度超過(guò)20的測(cè)試集上,Model3的BLEU值比Model1提高了1.66%,這說(shuō)明了我們提出的翻譯框架是有效的.但是,我們也看到在10詞以下的測(cè)試集中,Model3的表現(xiàn)差強(qiáng)人意,這可以歸結(jié)為短句中含有BMNC的可能行比較小,這時(shí)Model3的優(yōu)勢(shì)無(wú)法體現(xiàn).

樹-串翻譯模型的翻譯時(shí)間主要有兩大部分,源語(yǔ)言句法分析時(shí)間和翻譯解碼時(shí)間.對(duì)于翻譯系統(tǒng)來(lái)說(shuō),翻譯時(shí)間也是一個(gè)重要的衡量指標(biāo).不同句長(zhǎng)的模型的翻譯時(shí)間比較見表3.從表3可以看出,Model3的時(shí)間耗費(fèi)遠(yuǎn)遠(yuǎn)低于Model1,在長(zhǎng)句翻譯中尤其明顯.

表3 不同句長(zhǎng)的翻譯時(shí)間比較

模型句法分析時(shí)間/s·每句翻譯解碼時(shí)間/s·每句<10[10,20)≥20<10[10,20)≥20Model10.310.480.630.610.971.32Model30.290.390.490.590.750.98

5 結(jié)束語(yǔ)

本文提出了在樹-串翻譯模型中引入雙語(yǔ)最大名詞組塊的統(tǒng)計(jì)機(jī)器翻譯框架.首先利用BMNC識(shí)別對(duì)齊一體化模型從雙語(yǔ)對(duì)齊語(yǔ)料中獲取高質(zhì)量的BMNC;然后采用分而治之的策略,把翻譯分成BMNC翻譯子模型和句子骨架翻譯子模型,分別訓(xùn)練翻譯模型,把BMNC集合和句子骨架翻譯成目標(biāo)語(yǔ)言;最后,在目標(biāo)語(yǔ)言端,組合獨(dú)立翻譯的BMNC和句子骨架形成最終的翻譯結(jié)果.實(shí)驗(yàn)結(jié)果表明,使用我們的方法,在測(cè)試集上提升了樹-串翻譯模型的BLEU值,在較長(zhǎng)的句子中效果更明顯.另外,BMNC和句子骨架分治的思想對(duì)諸多依賴句法分析結(jié)果的自然語(yǔ)言處理任務(wù)都有一定的參考價(jià)值.

[1] Xiao T, Zhu J B, Zhang H,etal. An empirical study of translation rule extraction with multiple parsers [C]// Huang C R, Dan Jurafsky. Proceedings of 23th InternationalConference on Computational Linguistics. Beijing, China: Coling 2010 Organizing Committee, 2010: 1345-1353.

[2] Mi H T, Huang L, Liu Q. Forest-based translation[C]// Moore J D, Teufels, Allan J,etal. Proceedings of Association for Computational Linguistics. Columbus, Ohio: Association for Computational Linguistics, 2008:192-199.

[3] Zhang H, Zhang M, Li H Z,etal. Forest-based tree sequence to string translation model[C]// Su K Y, Su J,Wiebe J,etal. Proceedings of Association for Computational Linguistics IJCNLP, Suntec. Singapore: Association for Computational Linguistics, 2009:172-180.

[4] Zhu J B, Xiao T. Improving decoding generalization for tree-to-string translation[C]// Matsumoto Y, Mihalcea R. In Proceedings of Association for Computational Linguistics. Portland: Association for Computational Linguistics, 2011: 418-423.

[5] Xiao T, Gispert Adrià de, Zhu J B,etal. Effective incorporation of source syntax into hierarchical phrase-based translation[C]// Tsujii, Jan Hajic. Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. Dublin Dublin City University and Association for Computational Linguistics, 2014: 2064-2074.

[6] 周強(qiáng),孫茂松,黃昌寧.漢語(yǔ)最長(zhǎng)名詞短語(yǔ)的自動(dòng)識(shí)別[J].軟件學(xué)報(bào),2000,11(2):195-201.

[7] Li Y G, Huang H Y. Automatic identifying of maximal length noun phrase[C]// Li E Y, Yang F C. Proceedings of 2nd IEEE CCIS. Hangzhou: Institute of Electrical and Electronics Engineers, Inc., 2012:1445-1448.

[8] Och F J, Ney H. Improved statistical alignment models[C]// Brennan S E. Proceedings of the 38th Annual Meeting on Association for Computational Linguistics. Hong Kong: Association for Computational Linguistics, 2000: 440-447.

(編輯:姚佳良)

Tree-to-string model integrated with bilingual maximal-length noun chunk

LI Ye-gang, XIE Hong, ZHOU Jie, LI Yan

(School of Computer Science and Technology, Shangdong University of Technology, Zibo 255049, China)

It has important theoretical and application value to promote the statistical machine translation by integrating meaningful linguistic knowledge effectively. After inspected structural characteristics of maximal-length noun chunks with rich syntactic and semantic information, we proposed a statistical machine translation model which integrated with bilingual maximal-length noun chunks for improving an existing tree-to-string machine translation system. Under this scenario, we experimented on a Chinese-English corpus and achieved an improvement of 1.66 BLEU percentage point over a non-adapted state-of-the-art tree-to-string baseline system, and had a significant improvement over the baseline method on decoding speed in practice.

statistical machine translation; tree-to-string translation model; bilingual maximal-length noun chunk; sentence skeleton

2014-12-07

國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(2013CB329303); 國(guó)家自然科學(xué)基金資助項(xiàng)目(61132009)

李業(yè)剛,男,lyg8256@bit.edu.cn

1672-6197(2015)06-0011-05

TP391

A

猜你喜歡
中心詞組塊漢英
橫浪作用下大型上部組塊雙船浮托安裝動(dòng)力響應(yīng)特性試驗(yàn)研究
Why I ride
組塊理論的解讀及啟示
漢英倍數(shù)表達(dá)形式比較及其類型學(xué)考察
話題鏈在漢英篇章翻譯中的統(tǒng)攝作用
陸豐7-2油田導(dǎo)管架平臺(tái)上部組塊低位浮托安裝關(guān)鍵技術(shù)
基于頻繁依存子樹模式的中心詞提取方法研究
漢英文字的幽默修辭功能淺探
英語(yǔ)詞匯組塊學(xué)習(xí)路徑研究——組塊法
漢英機(jī)器翻譯中的意譯和直譯應(yīng)用