層次短語(yǔ)翻譯模型的介詞短語(yǔ)調(diào)序

2012-10-15 01:51張冬冬

中文信息學(xué)報(bào) 2012年1期

馮洋，張冬冬，劉群

（1.中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室，北京100190；2.微軟亞洲研究院，北京100190）

1 引言

不同語(yǔ)言之間的異構(gòu)性，導(dǎo)致了機(jī)器翻譯中源語(yǔ)言和目標(biāo)語(yǔ)言的詞語(yǔ)順序不同，詞語(yǔ)調(diào)序成為機(jī)器翻譯中的關(guān)鍵問(wèn)題。一個(gè)句法成分覆蓋的詞語(yǔ)在經(jīng)過(guò)翻譯之后，其對(duì)應(yīng)的譯文通常也是相鄰的［1］，這就是所謂的句法黏著性。于是，詞語(yǔ)順序的不同通常表現(xiàn)為在不同的語(yǔ)言中，句法成分的相對(duì)位置往往不同。在所有的句法成分中，介詞短語(yǔ)表現(xiàn)地尤為明顯。以中英文為例，在中文中，介詞短語(yǔ)通常在所修飾成分的前面，而在英文中，介詞短語(yǔ)通常在所修飾成分的后面，例如，英文句子“Bush held a talk with Sharon”，介詞短語(yǔ)“with Sharon”在“held a talk”的后面，而在其對(duì)應(yīng)的中文句子“布什與沙龍舉行了會(huì)談”中，介詞短語(yǔ)“與沙龍”就在“舉行了會(huì)談”的前面。因此，要得到高質(zhì)量的譯文，不但要保證介詞短語(yǔ)的譯文不能被分開(kāi)，還要保證譯文被放在正確的位置上。

層次短語(yǔ)模型［2］可以從雙語(yǔ)句對(duì)中自動(dòng)地抽取形式語(yǔ)法，而不需要語(yǔ)言學(xué)上的標(biāo)注和假設(shè)，所以使用方便，目前被廣泛地應(yīng)用于機(jī)器翻譯中。其形式語(yǔ)法信息的載體為層次短語(yǔ)（規(guī)則），它不僅可以利用短語(yǔ)來(lái)捕捉一些局部翻譯，而且還可以利用層次短語(yǔ)來(lái)捕捉子短語(yǔ)之間的調(diào)序，所以層次短語(yǔ)模型對(duì)長(zhǎng)距離的調(diào)序具有一定的處理能力。但是形式語(yǔ)法也存在一定的問(wèn)題，它沒(méi)有對(duì)子短語(yǔ)覆蓋的成分進(jìn)行區(qū)分，這導(dǎo)致了子短語(yǔ)可以匹配任何的句法成分，這往往會(huì)帶來(lái)翻譯錯(cuò)誤。例如，層次短語(yǔ)＜held a talk X，X舉行了會(huì)談＞，既可以被應(yīng)用在“held a talk with Sharon”，也可以被應(yīng)用在“held a talk and reached an agreement”上，但是對(duì)于后者，調(diào)序發(fā)生了錯(cuò)誤。所以，利用語(yǔ)言學(xué)信息來(lái)對(duì)非終結(jié)符覆蓋的句法成分進(jìn)行區(qū)分還是很有必要的。

本文我們?cè)趯哟味陶Z(yǔ)模型的基礎(chǔ)上，以介詞短語(yǔ)的形式引入語(yǔ)言學(xué)句法信息。一方面，我們利用層次短語(yǔ)來(lái)捕捉長(zhǎng)距離調(diào)序，另一方面我們對(duì)介詞短語(yǔ)進(jìn)行重點(diǎn)處理，以保證介詞短語(yǔ)被正確的調(diào)序，并滿足句法黏著性。我們把介詞短語(yǔ)的識(shí)別看成是一個(gè)序列標(biāo)注問(wèn)題，用條件隨機(jī)場(chǎng)（Conditional RandomField，CRF）進(jìn)行標(biāo)注，然后基于已被識(shí)別的介詞短語(yǔ)抽取規(guī)則，將抽取的包含介詞短語(yǔ)的規(guī)則和層次短語(yǔ)模型的規(guī)則進(jìn)行合并，得到一個(gè)大的規(guī)則表。然后在測(cè)試句子已被標(biāo)注出介詞短語(yǔ)的情況，用大的規(guī)則表對(duì)其進(jìn)行匹配，得到最終的譯文。

本文的組織結(jié)構(gòu)如下：首先介紹添加介詞短語(yǔ)的層次短語(yǔ)模型，再介紹如何利用條件隨機(jī)場(chǎng)識(shí)別介詞短語(yǔ)，接著介紹規(guī)則抽取以及如何解碼，最后是實(shí)驗(yàn)結(jié)果和結(jié)論。

2 模型

我們?cè)趯哟味陶Z(yǔ)模型的基礎(chǔ)上對(duì)介詞短語(yǔ)進(jìn)行重點(diǎn)處理，因?yàn)榻樵~短語(yǔ)的位置在不同語(yǔ)言中可能會(huì)差異很大。相對(duì)于層次短語(yǔ)模型中，普通規(guī)則只采用一個(gè)非終結(jié)符X，我們特地為介詞短語(yǔ)引進(jìn)一個(gè)非終結(jié)符Y。于是，對(duì)于圖1中所示例子，其包含兩個(gè)介詞短語(yǔ)“with Sharon'”和“in US'”，其可以匹配的規(guī)則包括：

我們除了還需要層次短語(yǔ)模型的粘貼規(guī)則r7、r8之外，還需要一條規(guī)則r9，來(lái)實(shí)現(xiàn)非終結(jié)符Y到非終結(jié)符X的轉(zhuǎn)變：

于是，對(duì)于圖1所示的例子，其對(duì)應(yīng)的翻譯過(guò)程如圖2所示。

圖1 一個(gè)英漢句對(duì)

圖2 翻譯過(guò)程

我們將模型形式化為對(duì)數(shù)線性模型，在規(guī)則上采用的特征以及整個(gè)推導(dǎo)上的特征與層次短語(yǔ)模型相同。其中，對(duì)于r7，其權(quán)重設(shè)為1。

3 介詞短語(yǔ)識(shí)別

標(biāo)注介詞短語(yǔ)，相當(dāng)于為句子中的每個(gè)詞打上一個(gè)標(biāo)簽，來(lái)表示該詞是一個(gè)介詞短語(yǔ)的開(kāi)始詞（標(biāo)記為B），或者屬于一個(gè)介詞短語(yǔ)但不是其第一個(gè)詞（標(biāo)記為I），或者不屬于任何一個(gè)介詞短語(yǔ)（標(biāo)記為O）。因此，我們把識(shí)別介詞短語(yǔ)看成是一個(gè)序列標(biāo)注問(wèn)題。

為了克服label bias，并且采用盡可能多的統(tǒng)計(jì)信息，我們用條件隨機(jī)場(chǎng)來(lái)進(jìn)行序列標(biāo)注。我們用x＝x1…xn表示輸入句子，y＝y(tǒng)1…yn表示相應(yīng)的標(biāo)記序列，一個(gè)條件隨機(jī)場(chǎng)可以用一個(gè)局部特征變量f和一個(gè)特征權(quán)重向量λ來(lái)表示。每個(gè)局部特征可以是以下兩類(lèi)中的一類(lèi)：狀態(tài)特征s（y，x，i）；轉(zhuǎn)換特征t（y，y′，x，i）。所以，條件隨機(jī)場(chǎng)的全局特征可以表示為：

于是，條件隨機(jī)場(chǎng)定義的條件概率可以表示為

一個(gè)句子可以對(duì)應(yīng)多個(gè)標(biāo)注序列，我們只選取其中概率最大的標(biāo)注序列作為最終的標(biāo)注結(jié)果

關(guān)于條件隨機(jī)場(chǎng)的更多細(xì)節(jié)可以參照文獻(xiàn)［3－5］。

識(shí)別介詞短語(yǔ)的時(shí)候，對(duì)于每個(gè)位置i，我們用l＝l1…ln表示輸入句子對(duì)應(yīng)的詞性標(biāo)注序列，采用的特征如表1所示。

表1 識(shí)別介詞短語(yǔ)采用的特征

續(xù)表

由于采用了詞性標(biāo)記作為特征，所以在識(shí)別介詞短語(yǔ)之前，需要得到每個(gè)詞的詞性。同樣，我們也采用條件隨機(jī)場(chǎng)來(lái)進(jìn)行詞性標(biāo)注，采用的特征如表2所示。除此之外，我們還采用了一些詞匯拼寫(xiě)方面的特征，包括：一個(gè)單詞是否以數(shù)字或者大寫(xiě)字母開(kāi)頭，是否包括連字符，其后綴是否包括－ing，－ed，－ogy，－s，－ly，－ion，－tion，－ity，－ies。

表2 詞性標(biāo)注采用的特征

4 訓(xùn)練

引入介詞短語(yǔ)的層次短語(yǔ)模型的訓(xùn)練過(guò)程與層次短語(yǔ)模型相同，只是抽取規(guī)則的時(shí)候有所不同。我們的模型抽取規(guī)則的時(shí)候分為兩步：第一步，不考慮介詞短語(yǔ)，采用層次短語(yǔ)的方法抽取規(guī)則；第二步，抽取包含介詞短語(yǔ)的規(guī)則。抽取包含介詞短語(yǔ)的規(guī)則也分兩步進(jìn)行：首先抽取初始短語(yǔ)和介詞短語(yǔ)，然后在此基礎(chǔ)上抽取包含介詞短語(yǔ)的層次化短語(yǔ)。

·ci＝B；

·cj＝I；

·fj是源句子的最后一個(gè)詞，或者cj＋1≠I(mǎi)。

句對(duì)＜f，e＞的包含介詞短語(yǔ)的規(guī)則的抽取方法如下：

同樣，我們得到的規(guī)則數(shù)量很大，對(duì)于不包含介詞短語(yǔ)的規(guī)則，按照層次短語(yǔ)模型的方法進(jìn)行過(guò)濾，對(duì)于包含介詞短語(yǔ)的規(guī)則，為了加快解碼速度以及避免歧義性，我們添加了以下限制。

1）每個(gè)規(guī)則在源端和目標(biāo)端的邊界詞均不能對(duì)齊到空；

2）初始短語(yǔ)所包含的源端詞的個(gè)數(shù)不超過(guò)10，而層次短語(yǔ)在源端的符號(hào)數(shù)（包括非終結(jié)符和終結(jié)符）不超過(guò)5個(gè)；

3）每條規(guī)則在源端不能為空，且至少要包含一個(gè)終結(jié)符；

4）每條規(guī)則最多可以有兩個(gè)非終結(jié)符；

5）每條規(guī)則在源端和目標(biāo)端的詞語(yǔ)之間至少要有一條對(duì)齊。

以上限制和層次短語(yǔ)的主要區(qū)別在于，我們?cè)试S包含介詞短語(yǔ)的規(guī)則的兩個(gè)非終結(jié)符相鄰，這主要是因?yàn)榫渲械慕樵~短語(yǔ)已經(jīng)確定，兩個(gè)非終結(jié)符相鄰不會(huì)引起很多模棱兩可組合的情況。

我們將包含介詞短語(yǔ)的規(guī)則和層次短語(yǔ)模型的規(guī)則分開(kāi)估計(jì)概率，概率的估計(jì)方法和層次短語(yǔ)模型相同。

5 解碼

與層次短語(yǔ)模型相同，我們采用CKY算法來(lái)搜索概率最大的推導(dǎo)，并將其對(duì)應(yīng)的譯文作為最終的譯文。我們采用柱搜索來(lái)減小搜索空間，采用的剪枝策略為：每個(gè)區(qū)間最多可以匹配的規(guī)則限制為c個(gè)；每個(gè)柱對(duì)應(yīng)的棧中保留的譯文的個(gè)數(shù)最多為b個(gè)；每個(gè)柱對(duì)應(yīng)的棧中保留譯文的分?jǐn)?shù)必須大于棧中當(dāng)前最好譯文的分?jǐn)?shù)的β倍。與此同時(shí)，采用cube pruning［6］來(lái)加快解碼速度，并限制每個(gè)規(guī)則最多可以匹配的源端詞語(yǔ)個(gè)數(shù)不超過(guò)10。于是，整個(gè)解碼過(guò)程的時(shí)間復(fù)雜度為O（10ncb2），與句子長(zhǎng)度n成線性關(guān)系。

我們的模型在解碼的過(guò)程中，只有規(guī)則的匹配方法與層次短語(yǔ)模型不同。對(duì)于每個(gè)測(cè)試句子，我們采用兩部分規(guī)則：一部分是不考慮介詞短語(yǔ)的規(guī)則，其匹配方法與層次短語(yǔ)模型相同；一部分是包含介詞短語(yǔ)的規(guī)則。我們首先枚舉出句中的所有包含介詞短語(yǔ)的規(guī)則的源端部分，然后去規(guī)則表中查找相應(yīng)的規(guī)則。

6 實(shí)驗(yàn)

我們首先測(cè)試采用CRF進(jìn)行詞性標(biāo)注和介詞短語(yǔ)識(shí)別的效果，因?yàn)榻樵~短語(yǔ)識(shí)別的準(zhǔn)確率直接影響到解碼效果，然后我們測(cè)試一下引入介詞短語(yǔ)的情況下解碼的性能。

6.1 介詞短語(yǔ)識(shí)別效果

我們將標(biāo)準(zhǔn)賓州樹(shù)庫(kù)的英語(yǔ)句法分析任務(wù)數(shù)據(jù)的1～22節(jié)的39 832個(gè)句子分成兩部分，前面的38 832個(gè)句子作為訓(xùn)練集，后面的1 000個(gè)句子作為測(cè)試集。對(duì)于訓(xùn)練集語(yǔ)料的獲得，我們采用后序遍歷的方法來(lái)識(shí)別介詞短語(yǔ)，對(duì)于標(biāo)注為PP的節(jié)點(diǎn)覆蓋的源語(yǔ)言串則標(biāo)注為介詞短語(yǔ)，且一旦一個(gè)節(jié)點(diǎn)被我們識(shí)別為介詞短語(yǔ)，我們不再遍歷其祖先節(jié)點(diǎn)，這樣保證我們得到的介詞短語(yǔ)均為最小的介詞短語(yǔ)。為了保證與機(jī)器翻譯語(yǔ)料的一致性，我們將賓州樹(shù)庫(kù)中的｀和"用”來(lái)替換。CRF采用L2方法來(lái)訓(xùn)練。

我們采用序列標(biāo)注問(wèn)題中通用的標(biāo)準(zhǔn)——準(zhǔn)確率（P），召回率（R），F(xiàn)1值，來(lái)評(píng)估介詞短語(yǔ)識(shí)別的結(jié)果。我們還采用正確率（A）來(lái)評(píng)估每個(gè)詞的標(biāo)注結(jié)果。對(duì)于介詞短語(yǔ)標(biāo)注，準(zhǔn)確率P和正確率A是不同的。例如，下面的標(biāo)注序列

參考序列： O O B I O O B I

標(biāo)注序列： O O B I I O B I

其準(zhǔn)確率P為50%，正確率A為87.5%。詞性標(biāo)注的結(jié)果如表3所示，介詞短語(yǔ)識(shí)別的結(jié)果如表4所示。

從以上實(shí)驗(yàn)結(jié)果可以看出，詞形標(biāo)注的正確率比介詞短語(yǔ)識(shí)別的正確率要高很多，這主要是因?yàn)椋覀冏R(shí)別介詞短語(yǔ)的時(shí)候，窗口的大小只有3，而有的介詞短語(yǔ)的長(zhǎng)度超過(guò)3，對(duì)于這一部分介詞短語(yǔ)的識(shí)別會(huì)比較吃力。另外，由于識(shí)別介詞短語(yǔ)的時(shí)候用詞性作為特征，而詞性識(shí)別的時(shí)候會(huì)引入一部分錯(cuò)誤，這部分錯(cuò)誤會(huì)累加到介詞短語(yǔ)識(shí)別上來(lái)，導(dǎo)致最后的正確率降低。

表3 詞性標(biāo)注結(jié)果

表4 介詞短語(yǔ)識(shí)別結(jié)果

6.1 機(jī)器翻譯性能

我們接下來(lái)比較引入介詞短語(yǔ)的模型和層次短語(yǔ)模型的性能。我們采用的開(kāi)發(fā)集為NIST2008英漢雙語(yǔ)訓(xùn)練語(yǔ)料，除去其中的香港法律和香港會(huì)議記錄部分，大約剩下49萬(wàn)句對(duì)。對(duì)于訓(xùn)練語(yǔ)料，我們先用GIZAC＋＋工具包［7］進(jìn)行雙向?qū)R，然后采用“final－and”策略將雙向?qū)R合并成一個(gè)多到多對(duì)齊。采用的語(yǔ)言模型為在GIGA語(yǔ)料的新華部分上訓(xùn)練的一個(gè)五元語(yǔ)言模型，并采用KN方法進(jìn)行平滑。我們的實(shí)驗(yàn)結(jié)果都進(jìn)行了顯著性測(cè)試［8］。

我們采用的開(kāi)發(fā)集為微軟亞洲研究院內(nèi)部的英漢新聞測(cè)試集，包括1 010個(gè)句子，分別在兩個(gè)測(cè)試集上比較兩個(gè)解碼器的性能：一個(gè)是NIST 2008英漢機(jī)器翻譯測(cè)試集，包括1 859個(gè)句子，另一個(gè)是我們內(nèi)部的另一個(gè)英漢新聞測(cè)試集，包括966個(gè)句子。翻譯結(jié)果的評(píng)測(cè)標(biāo)準(zhǔn)采用基于字的BLEU值［9］，最高進(jìn)行四元的n－gram匹配取。我們?cè)陂_(kāi)發(fā)集上采用最小錯(cuò)誤率［10］來(lái)進(jìn)行參數(shù)訓(xùn)練，訓(xùn)練的目標(biāo)為使得開(kāi)發(fā)集上的BLEU值最大。

表5 機(jī)器翻譯性能比較

表5給出了實(shí)驗(yàn)結(jié)果，“＊＊”表示在顯著性測(cè)試中ρ＜0.01。從實(shí)驗(yàn)結(jié)果可以看出，引入介詞短語(yǔ)之后，在我們內(nèi)部的測(cè)試集上，BLEU值提高0.8個(gè)點(diǎn)，在NIST 2008上提高了0.5個(gè)點(diǎn)。性能提高的原因在于通過(guò)引入介詞短語(yǔ)，可以針對(duì)介詞短語(yǔ)選擇更好的規(guī)則，從而減輕引言中提到的由于X可以匹配任何短語(yǔ)而導(dǎo)致規(guī)則使用不恰當(dāng)?shù)那闆r。

7 結(jié)論

層次短語(yǔ)模型在短語(yǔ)模型的基礎(chǔ)上，引入在雙語(yǔ)句對(duì)上自動(dòng)學(xué)習(xí)得到的形式語(yǔ)法信息，這些形式句法信息不需要基于語(yǔ)言學(xué)的標(biāo)注和假設(shè)，使得形式短語(yǔ)模型用起來(lái)很方便，所以現(xiàn)在層次短語(yǔ)模型使用很廣泛。在層次短語(yǔ)模型中，形式句法信息是以層次短語(yǔ)為載體的。而層次短語(yǔ)由詞和短語(yǔ)組成，所以層次短語(yǔ)模型一方面可以通過(guò)短語(yǔ)來(lái)學(xué)習(xí)局部翻譯，一方面可以利用層次短語(yǔ)來(lái)掌握短語(yǔ)之間的調(diào)序，所以層次短語(yǔ)具有一定的捕捉長(zhǎng)距離調(diào)序的能力。由于形式語(yǔ)法并不對(duì)每個(gè)短語(yǔ)的句法成分進(jìn)行細(xì)化，這導(dǎo)致了層次短語(yǔ)在規(guī)則匹配的時(shí)候可能會(huì)被用在不恰當(dāng)?shù)牡胤?，所以?duì)層次短語(yǔ)的短語(yǔ)進(jìn)行句法標(biāo)注還是很有必要的。我們嘗試在層次短語(yǔ)模型的基礎(chǔ)上，以介詞短語(yǔ)的形式來(lái)引入語(yǔ)言學(xué)句法信息，并對(duì)介詞短語(yǔ)的調(diào)序進(jìn)行重點(diǎn)處理。由于介詞短語(yǔ)在不同語(yǔ)言中相對(duì)位置差異很大，如此可以以較小的代價(jià)來(lái)獲得翻譯性能的較大提高。

對(duì)于介詞短語(yǔ)的識(shí)別，我們采用序列標(biāo)注的方法，通過(guò)對(duì)賓州樹(shù)庫(kù)中的句法分析樹(shù)進(jìn)行處理來(lái)得到短語(yǔ)識(shí)別的訓(xùn)練語(yǔ)料，來(lái)訓(xùn)練得到一個(gè)條件隨機(jī)場(chǎng)（CRF）。然后用訓(xùn)練得到的CRF在機(jī)器翻譯任務(wù)的訓(xùn)練集上識(shí)別介詞短語(yǔ)，對(duì)于規(guī)則抽取，除了抽取層次短語(yǔ)模型的規(guī)則，還抽取一些包含介詞短語(yǔ)的規(guī)則。在訓(xùn)練和解碼的時(shí)候，也是先識(shí)別介詞短語(yǔ)，然后一起應(yīng)用兩部分規(guī)則，一部分是層次短語(yǔ)模型的規(guī)則，一部分是包含介詞短語(yǔ)的規(guī)則。實(shí)際上，抽取出來(lái)的介詞短語(yǔ)并不多，對(duì)解碼器的速度影響不大，卻能取得顯著的效果，在我們內(nèi)部的英漢翻譯數(shù)據(jù)集上可以提高0.8個(gè)BLEU值，在NIST2008英漢機(jī)器翻譯測(cè)試集上可以提高0.5個(gè)點(diǎn)。這充分說(shuō)明語(yǔ)言學(xué)句法信息對(duì)提高機(jī)器翻譯性能還是很有幫助的。

［1］Heidi Fox.Phrasal Cohesion and Statistical Machine Translation［C］／／Proceedings of EMNLP，2002：304－311.

［2］David Chiang.Hierarchical phrase－based translation［J］.Computational Linguistics，2007：201－228.

［3］John Lafferty，Andrew McCallum，F(xiàn)ernando Pereira.Conditional Random Fields：Probabilistic Models for Segmenting and Labeling Sequence Data ［C］／／Proceedings of ICML，2001：282－289.

［4］Ben Taskar， Pieter Abbeel， Daphne Koller.Discriminative Probabilistic Models for Relational Data［C］／／Proceedings of Eighteenth Conference on Uncertainty in Artificial Intelligence，2002.

［5］Fei Sha，F(xiàn)ernando Pereira.Shallow Parsing with Conditional Random Fields［C］／／Proceedings of HLTNAACL，2003：134－141.

［6］Liang Huang and David Chiang.Better k－best parsing［C］／／Proceeding of IWPT，2005：53－64.

［7］Franz Josef Och，Hermann Ney.Improved Statistical Alignment Models［C］／／Proceedings of the 38th ACL，2000.

［8］Michael Collins，Philipp Koehn，Ivona Kucerova.Clause restructuring for statistical machine translation［C］／／Proceeding of ACL，2005：531－540.

［9］Kishore Papineni，Salim Roukos，Todd Ward，et al..Bleu：a Method for Automatic Evaluation of Machine Translation［C］／／Proceedings of the 40th ACL，2002：311－318.

［10］Frans J. Och. Minimum error rate training in statistical machine translation ［C］／／Proceeding of ACL，2003：160－167.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡