国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

依存樹到串模型中引入雙語短語的三種方法

2014-04-14 07:50謝軍劉群
中文信息學(xué)報 2014年2期
關(guān)鍵詞:源語言中心詞句法

謝軍,劉群

(中國科學(xué)院計算技術(shù)研究所,北京100190)

1 引言

依存樹旨在描述句子中各個成分之間的語法關(guān)系,兼有句法和語義知識,也被視為語言學(xué)從句法表示向語義表示邁進(jìn)的一種過渡形式。與成分樹相比,依存樹具有以下特點:1)完全由詞匯化元素構(gòu)成,更加簡潔;2)同時包含了句法和語義知識;3)具有更好的跨語言短語聚合(phrasal cohesion)性質(zhì)[1]。因此,依存樹是一種非常適合構(gòu)建統(tǒng)計機器翻譯模型的知識源。

不過,依存樹缺乏類似于短語結(jié)構(gòu)文法的生成式文法體系,構(gòu)建基于依存樹的翻譯模型時,需要首先定義合適的樹分解方式或形式化文法來描述依存樹的生成過程,這也使得這方面的研究工作相對更加困難。

在基于源語言依存樹的模型研究方面,研究人員從不同的角度進(jìn)行嘗試,提出了多種不同的樹分解方式。Lin[2]以路徑為基本結(jié)構(gòu)單元、合并為基本操作,提出了基于路徑轉(zhuǎn)換的模型。Quirk[3]等人擴展了Lin的工作,將基本結(jié)構(gòu)單元由路徑擴展為樹杈(Treelet),提出了依存樹杈模型;其中,樹杈指依存樹中的任意連通子樹,可以捕捉更大范圍的語言學(xué)知識。熊德意等人[4]提出的依存樹杈-串(DTSC)對應(yīng)模型,也以樹杈作為基本單元,不過使用了與依存樹杈模型不同的泛化處理方式,并定義了替換和粘接兩種操作。Xie等人[5]以中心詞及其所有依存節(jié)點組成的樹片段(簡稱HDR片段)為基本結(jié)構(gòu)單元,以替換為基本操作,提出了一種依存樹到串模型。相對于上述模型,該模型更加簡潔,不再需要啟發(fā)式或調(diào)序模型輔助翻譯過程。該模型在大規(guī)模實驗上表現(xiàn)出比當(dāng)前主流的成分樹到串模型[6]和層次短語模型[7]更好的性能和長距離調(diào)序能力,是第一個性能超過主流模型水平的基于源語言依存樹的翻譯模型。

依存樹到串模型使用的基于HDR片段的翻譯規(guī)則擅長捕捉源語言中的句子模式和短語模式(即句子或短語的組成方式),不過由于依存樹完全由詞匯化元素構(gòu)成、且結(jié)構(gòu)相對扁平的特點,這種翻譯規(guī)則表示在捕捉語言中的非組合現(xiàn)象(如習(xí)慣用語或固定搭配)方面存在明顯不足(詳見第3節(jié)的說明)。而這類非組合現(xiàn)象可以很容易被短語捕捉。為了緩解這一問題,本文提出了三種引入短語的方法,除了傳統(tǒng)的引入句法短語的方法外,還探索了以下兩種新的方法:對句法短語進(jìn)行適度泛化以擴大具有特定上下文的句法短語的適用性;通過構(gòu)造新的翻譯規(guī)則以使翻譯規(guī)則更好地兼容非句法短語。實驗結(jié)果表明,同時引入句法短語、泛化的句法短語和非句法短語時,可以使依存樹到串模型的性能提升約1.0BLEU。

本文以下內(nèi)容中,首先簡要介紹依存語言模型,然后說明基于HDR片段的翻譯規(guī)則的缺點,隨后詳細(xì)說明引入句法短語、泛化的句法短語和非句法短語的方法,并給出相應(yīng)的實驗結(jié)果。

2 依存樹到串模型

Xie等人[5]提出依存樹到串模型,以HDR片段作為依存樹的基本結(jié)構(gòu)單元、替換為基本操作來描述依存樹的生成過程,將翻譯規(guī)則表示為:源語言端為適度泛化的HDR片段、目標(biāo)端為目標(biāo)語言詞和變量組成的串。

HDR片段是由中心詞及其所有依存節(jié)點組成的樹片段,高度為1。每個HDR片段與源語言中的一個句子模式或短語模式相對應(yīng)。因此,該模型使用的基于HDR片段的翻譯規(guī)則可以較好地描述源語言中的句子模式或短語模式的翻譯方式。這種類型的翻譯規(guī)則被稱為HDR翻譯規(guī)則。

為了保證翻譯的順利進(jìn)行,該模型還使用了另一類中心詞翻譯規(guī)則,用于完成單個節(jié)點的翻譯。

圖1示例了三個HDR翻譯規(guī)則(a)、(b)、(c)和一個中心詞翻譯規(guī)則(d)。圖中,“*”指示的節(jié)點為替換節(jié)點。需要說明的是,三個HDR翻譯規(guī)則描述的是同一個句子模式(名詞短語+介詞短語+副詞+動詞”組成的句子模式)的翻譯方式。不同之處是,三條規(guī)則所描述的上下文環(huán)境。規(guī)則(a)清楚地指定了適用的上下文,規(guī)則(b)部分指定了適用的上下文,規(guī)則(c)則未對上下文做任何約束。

圖1 HDR翻譯規(guī)則和中心詞翻譯規(guī)則示例

該模型的解碼算法基于自底向上的chart-parsing算法。解碼器后序遍歷輸入的依存樹,對于訪問到的每個節(jié)點,使用HDR翻譯規(guī)則和中心詞翻譯規(guī)則,利用Cube Pruning算法[6]為該節(jié)點生成n-best翻譯假設(shè)。重復(fù)此過程直至處理完依存樹的根節(jié)點,算法結(jié)束。

3 HDR翻譯規(guī)則的缺點

HDR翻譯規(guī)則可以較好地捕捉源語言的句子和短語模式這類組合現(xiàn)象,但在處理習(xí)慣用語或固定搭配這類非組合現(xiàn)象時存在明顯不足。例如,在圖2給出的兩個示例中,HDR翻譯規(guī)則為陰影指示的習(xí)慣用語或固定搭配難以給出準(zhǔn)確的翻譯。圖2(a)中“發(fā)射 升空”為一個常見的固定搭配,通常翻譯為“l(fā)auch/lauched/lift up”;圖2(b)中“中華人民共和國”為一個命名實體,有固定的翻譯方式“the People's Republic of China”。

由于依存結(jié)構(gòu)的特點,習(xí)慣用語和固定搭配通常作為HDR片段的一部分出現(xiàn),如圖2(a)中的“發(fā)射升空”和圖2(b)中“中華人民共和國”。對于這類非組合現(xiàn)象,使用HDR翻譯規(guī)則進(jìn)行翻譯時,將會非常低效(如圖2(b)),甚至完全無法得到理想的譯文(如圖2(a))。

圖2 HDR翻譯規(guī)則難以捕捉的短語示例

4 引入短語的三種方法

對于習(xí)慣用語或固定搭配這類非組合現(xiàn)象,可以很容易地使用短語來捕捉。因此,可以通過引入短語來彌補HDR翻譯規(guī)則在處理非組合現(xiàn)象方面的不足,從而進(jìn)一步提高依存樹到串模型的性能。本文嘗試了三種引入短語的方法,除了借鑒成分樹到串模型,為依存樹到串模型引入句法短語外,還探索了引入泛化的句法短語和引入非句法短語的方法。

4.1 引入句法短語

句法短語是指依存樹中由一棵完整的子樹所覆蓋的短語。例如,圖2(b)所示的依存樹片段中,包含兩個句法短語,分別為:“偉大 的”和“偉大 的 中華人民共和國”。

4.1.1 雙語句法短語的獲取

雙語句法短語的獲取相對比較簡單。類似于成分樹到串模型,本文直接利用基于短語的模型[6]的規(guī)則抽取模塊來獲取雙語短語。

4.1.2 雙語句法短語的使用

在引入雙語句法短語方面,依存樹到串模型借鑒了成分樹到串模型[6]的方法。

具體來說,解碼過程中,對于訪問到的每個內(nèi)部節(jié)點n,翻譯假設(shè)的生成將包含兩個步驟:

1)查找短語表,獲取與以n為根的子樹覆蓋的句法短語匹配的雙語短語,使用匹配到的雙語短語,為節(jié)點n生成翻譯假設(shè);

2)根據(jù)以n為中心詞的HDR片段,生成HDR片段所包含句子模式或短語模式的實例,查找規(guī)則表,獲取匹配的HDR翻譯規(guī)則及必須的中心詞翻譯規(guī)則,利用Cube Pruing算法為節(jié)點n生成新的翻譯假設(shè)。

4.2 引入泛化句法短語

泛化句法短語是通過對句法短語的某些部分進(jìn)行泛化得到的,用以擴大具有特定上下文的句法短語的適用性。本質(zhì)上,泛化的句法短語與HDR翻譯規(guī)則類似,不過泛化的句法短語的對應(yīng)的樹片段高度≥1。

4.2.1 泛化句法短語的獲取

由于句法短語涉及樹高≥1,泛化不像HDR翻譯規(guī)則那樣直接。作為初步嘗試,本文使用了簡單的啟發(fā)式,僅對包含時間詞和數(shù)詞的句法短語做了泛化處理。之所以選擇包含時間詞或數(shù)詞的句法短語作為處理對象,是因為時間詞和數(shù)詞是未登錄詞的主要組成部分。

句法短語的泛化處理中,將滿足下述條件的節(jié)點替換為變量:

·節(jié)點的中心詞跨度(head span)[4]是對齊一致的;

·節(jié)點的詞性標(biāo)記屬于集合{CD,OD,NT},即該節(jié)點為基數(shù)詞、序數(shù)詞或時間詞。

為了獲取泛化的句法短語,對于依存樹中的每個節(jié)點,除了標(biāo)記中心詞跨度和依存跨度(dependency span)[4]外,我們還標(biāo)記一個新的屬性——短語跨度(phrase span)[2],以說明以該節(jié)點為根的子樹覆蓋的句法短語的對齊情況。

圖3給出了一個標(biāo)記有中心詞跨度、依存跨度和短語跨度的依存樹片段示例。為了清晰起見,圖中只顯示了與泛化句法短語相關(guān)的樹片段,只在相關(guān)節(jié)點標(biāo)記了三個跨度;不再給出陰影覆蓋的部分詳細(xì)對齊信息。其中,節(jié)點“占”和“25.5%”上標(biāo)記的三個集合依次為中心詞跨度、依存跨度和短語跨度。

圖3(b)給出了一個泛化句法短語的翻譯規(guī)則示例。

圖3 樹標(biāo)記及泛化句法短語示例

完成依存樹標(biāo)記后,獲取泛化的句法短語只需要對依存樹到串模型的翻譯規(guī)則抽取算法做簡單修改。具體來說,對于訪問到每個內(nèi)部節(jié)點,除了按照原有的規(guī)則抽取過程生成HDR翻譯規(guī)則和中心詞翻譯規(guī)則外,短語跨度對齊一致時,且存在滿足上述約束的節(jié)點,則可以生成泛化的句法短語。需要說明的是,短語跨度的對齊一致性與基于短語模型的雙語短語對齊一致性是等價的,可以直接利用雙語短語的對齊一致性來判斷短語跨度的對齊一致性。

4.2.2 泛化句法短語的使用

解碼過程中,泛化句法短語的使用與HDR翻譯規(guī)則的使用類似。

具體來說,在后序遍歷源語言依存樹的過程中,對于訪問到的每個內(nèi)部節(jié)點n,使用兩個步驟為n生成n-best翻譯假設(shè):

1.根據(jù)以n為根的子樹,生成泛化句法短語的源語言端,查找翻譯規(guī)則表獲取匹配的泛化句法短語,利用Cube Pruning算法,為n生成翻譯假設(shè);

2.根據(jù)以n為中心詞的HDR片段,生成HDR片段所包含的句子模式或短語模式實例,查找規(guī)則表,獲取匹配的HDR翻譯規(guī)則及必須的中心詞翻譯規(guī)則,利用Cube Pruning算法為節(jié)點n生成新的翻譯假設(shè)。

4.3 非句法短語

非句法短語是指不能夠被依存樹中的一棵完整的子樹所覆蓋的短語。也就是說,非句法短語涉及的節(jié)點或者是子樹的一部分,或者跨越多棵子樹。引入非句法短語的目的是為了進(jìn)一步改善依存樹到串模型的短語覆蓋度。

4.3.1 非句法短語的獲取

由于基于短語的模型的短語規(guī)則獲取中,不涉及句法樹的約束,因此可以利用基于短語的模型的短語規(guī)則抽取算法來獲取非句法短語。

4.3.2 非句法短語的使用

非句法短語的使用是通過構(gòu)建新的HDR翻譯規(guī)則來實現(xiàn)的。

具體來說,在后序遍歷源語言依存樹的過程中,對于訪問到的每個內(nèi)部節(jié)點n,將按照以下兩個步驟來為n生成n-best翻譯假設(shè):

1.根據(jù)以n為中心詞的HDR片段,生成HDR片段所包含的句子模式或短語模式實例,查找規(guī)則表,獲取匹配的HDR翻譯規(guī)則及必須的中心詞翻譯規(guī)則,利用Cube Pruning算法為節(jié)點n生成翻譯假設(shè);

2.對于每個匹配的HDR翻譯規(guī)則,按照如下過程生成新的HDR翻譯規(guī)則:

1)查找翻譯規(guī)則中不發(fā)生調(diào)序的、且長度>1的片段(可能有多個);

2)對于步驟1)得到的片段,生成片段覆蓋的源語言短語,查找規(guī)則表獲取匹配的雙語短語;

3)若存在匹配的雙語短語,則將該片段設(shè)置為對應(yīng)的源語言端和目標(biāo)語言端替換為一個新的變量;

4)按照步驟2)和3)依次處理所有片段,即生成一條新的HDR翻譯規(guī)則,該規(guī)則將使用原HDR翻譯規(guī)則的概率;

根據(jù)新生成的HDR翻譯規(guī)則和雙語短語,利用Cube Pruning算法為節(jié)點n生成新的翻譯假設(shè)。

圖4 生成新的HDR翻譯規(guī)則示例

圖4示例說明了根據(jù)雙語短語和HDR翻譯規(guī)則生成新的HDR翻譯規(guī)則的過程。假設(shè)目前訪問的節(jié)點為陰影指示的節(jié)點“升空”。

根據(jù)以“升空”為中心詞的HDR片段,生成對應(yīng)句子模式的所有實例,如(b)所示;查找翻譯規(guī)則表獲得匹配的HDR翻譯規(guī)則,假設(shè)只有一條匹配的HDR翻譯規(guī)則(c);確定HDR翻譯規(guī)則(c)不發(fā)生調(diào)序的片段“VV3VV4”;根據(jù)“VV3VV4”所覆蓋的源語言短語“發(fā)射 升空”查找短語表,得到匹配的翻譯規(guī)則;將“VV3VV4”及其在目標(biāo)語言端的對應(yīng)部分分別替換為新的變量“VV3_VV4”和“X34”,從而得到新的HDR翻譯規(guī)則。

5 實驗部分

為了驗證這三種引入短語的方法在改善依存樹到串模型性能方面的作用,我們以不引入任何短語的依存樹到串模型作為基準(zhǔn)系統(tǒng)進(jìn)行了漢—英翻譯實驗。

5.1 實驗數(shù)據(jù)及工具說明

實驗使用的開發(fā)集為NIST 2002,測試集為NIST 2005;訓(xùn)練語料來自LDC語料,雙語平行語料包括27萬句對①包括LDC2002E18,LDC2003E07,LDC2003E14,LDC2004T07,LDC2005T06.,英語單語語料為LDC單語語料Gigaword Xinhua部分。

上述語料的漢語部分使用Stanford Word Segmenter[8]②http://nlp.stanford.edu/software/segmenter.shtml進(jìn)行分詞處理。

使用GIZA++[9]對雙語平行句對進(jìn)行雙向?qū)R,并借助“grow-diag-and”啟發(fā)式來優(yōu)化對齊結(jié)果。

使用Stanford Parser[10]對雙語平行句對的中文句子進(jìn)行句法分析得到投射性(projective)的依存句法樹。其中,依存樹的每個節(jié)點都標(biāo)記有詞性標(biāo)記。

使用SRI語言模型工具包[11]在英語單語語料上訓(xùn)練得到三元的語言模型。

使用MERT[12]進(jìn)行調(diào)參以最大化依存樹到串模型在開發(fā)集上的BLEU值。

使用大小寫不敏感的BLEU-4指標(biāo)[13]對于翻譯結(jié)果進(jìn)行評價,實驗使用腳本為mteval-v11b.pl①ftp://jaguar.ncsl.nist.gov/mt/resources/mteval-v11b.pl。

5.2 實驗結(jié)果

表1給出了實驗結(jié)果。其中,“dep2str”為不引入任何短語的基準(zhǔn)系統(tǒng),“dep2str+bp”為引入雙語句法短語的系統(tǒng),“dep2str+bp+gbp”為引入雙語句法短語及泛化句法短語的系統(tǒng),“dep2str+bp+gbp+nsbp”為引入雙語句法短語、泛化句法短語和非句法短語的系統(tǒng)。

從表中可以看到,依次引入句法短語、泛化句法短語和非句法短語,依存樹到串模型的性能也逐漸升高。其中,雙語句法短語的引入使系統(tǒng)的性能提升了0.52BLEU,泛化的句法短語的引入使系統(tǒng)性能進(jìn)一步提高0.14BLEU,非句法短語的引入使系統(tǒng)的性能再度提升0.31BLEU。最終,同時引入句法短語、泛化的句法短語和非句法短語使得依存樹到串模型的性能比基準(zhǔn)系統(tǒng)提升了0.97BLEU值。

表1 依次引入句法短語、泛化句法短語和非句法短語后的性能比較

6 結(jié)語

Xie等人[4]提出的依存樹到串模型使用基于HDR片段的翻譯規(guī)則,這種翻譯規(guī)則可以較好地捕捉源語言的句子模式和短語模式等組合現(xiàn)象,但在處理如習(xí)慣用語或固定搭配等非組合現(xiàn)象方面存在不足。為了緩解這一問題,改善依存樹到串模型的性能,本文針對HDR翻譯規(guī)則的特點,提出了三種不同的引入短語的方法,分別為:引入句法短語的方法、引入泛化的句法短語方法和引入非句法短語的方法。實驗結(jié)果表明,同時引入句法短語、泛化句法短語和非句法短語可以將依存樹到串模型的性能顯著提高約1.0BLEU。

本文工作是對依存樹到串模型引入短語方法的初步探索,還有很多工作需要進(jìn)一步改進(jìn)和優(yōu)化。比如,泛化的句法短語的處理仍比較簡單,目前僅能處理時間詞和數(shù)詞等,覆蓋度比較有限。今后的工作中我們將探索更加有效的方法,以提高泛化句法短語的適用性。引入非句法短語方面,本文的方法可以較好地處理HDR翻譯規(guī)則中的不發(fā)生調(diào)序的片段,可以有效處理圖2(a)中“發(fā)射升空”這類非句法短語。不過對于圖2(b)中“中華人民共護國”這類非句法短語的翻譯需要調(diào)序的情形仍無法有效處理,這將是我們今后研究工作的重要內(nèi)容。

[1] Heidi J.Phrasal cohesion and statistical machine translation[C]//Proceedings of EMNLP 2002:304-311.

[2] Dekang Lin.A path-based transfer model for machine translation[C]//Proceedings of COLING 2004:625-630.

[3] Chris Quirk,Arul Menezes,Colin Cherry.Dependency treelet translation:Syntactically informed phrasal smt[C]//Proceedings of ACL 2005:271-279.

[4] Deyi Xiong,Qun Liu,Shouxun Lin.A dependency treelet string correspondence model for statistical machine translation[C]//Proceedings of the second workshop on Statistical Machine Translation.Assocication for Computational Linguistics,2007:40-47.

[5] Jun Xie,Haitao Mi,Qun Liu.A novel dependency-tostring model for statistical machine translation[C]//Proceedings of EMNLP 2011:216-226.

[6] Yang Liu,Qun Liu,Shouxun Lin.Tree-to-string alignment template for statistical machine translation[C]//Proceedings of ACL 2006:609-616.

[7] David Chiang.Hierarchical phrase-based translation[J].Computational Linguistics,2007,33(2):201-228.

[8] Huihsin Tseng,Pichuan Chang,Galen Andrew,et al.A Conditional Random Field Word Segmenter[C]//Proceedings of Fourth SIGHAN Workshop on Chinese Language Processing.

[9] Franz Josef Och,Hermann Ney.A systematic comparison of various statistical alignment models[J].Computational Linguistics,2003,29(1):19-51.

[10] Dan Klein,Christopher D.Manning.Fast exact inference with a factored model for natural language parsing[C]//Proceedings of Advances in Neural Information Processing Systems 15NIPS,2003:3-10.

[11] Andreas Stolcke.Srilm—an extensible language modeling toolkit[C]//Proceedings of ICSLP,2002,30:901-904.

[12] Franz Josef Och.Minimum error rate training instatistical machine translation[C]//Proceedings of ACL 2003:160-167.

[13] Kishore Papineni,SalimRoukos,Todd Ward,Wei Jing Zhu.Bleu:a method for automatic evaluation of machine translation[C]//Proceedings of ACL 2002:311-318.

猜你喜歡
源語言中心詞句法
述謂結(jié)構(gòu)與英語句法配置
Why I ride
林巍《知識與智慧》英譯分析
淺析日語口譯譯員素質(zhì)
句法二題
詩詞聯(lián)句句法梳理
俄漢語定語對比
以口譯實例談雙語知識的必要性
發(fā)揮學(xué)生主體作用 提升復(fù)習(xí)效率
從目的論角度看《紅高粱》中文化負(fù)載詞的翻譯