国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

層次短語(yǔ)翻譯模型的介詞短語(yǔ)調(diào)序

2012-10-15 01:51張冬冬
中文信息學(xué)報(bào) 2012年1期
關(guān)鍵詞:句法介詞短語(yǔ)

馮 洋,張冬冬,劉 群

(1.中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京100190;2.微軟亞洲研究院,北京100190)

1 引言

不同語(yǔ)言之間的異構(gòu)性,導(dǎo)致了機(jī)器翻譯中源語(yǔ)言和目標(biāo)語(yǔ)言的詞語(yǔ)順序不同,詞語(yǔ)調(diào)序成為機(jī)器翻譯中的關(guān)鍵問(wèn)題。一個(gè)句法成分覆蓋的詞語(yǔ)在經(jīng)過(guò)翻譯之后,其對(duì)應(yīng)的譯文通常也是相鄰的[1],這就是所謂的句法黏著性。于是,詞語(yǔ)順序的不同通常表現(xiàn)為在不同的語(yǔ)言中,句法成分的相對(duì)位置往往不同。在所有的句法成分中,介詞短語(yǔ)表現(xiàn)地尤為明顯。以中英文為例,在中文中,介詞短語(yǔ)通常在所修飾成分的前面,而在英文中,介詞短語(yǔ)通常在所修飾成分的后面,例如,英文句子“Bush held a talk with Sharon”,介詞短語(yǔ)“with Sharon”在“held a talk”的后面,而在其對(duì)應(yīng)的中文句子“布什 與 沙龍舉行 了 會(huì)談”中,介詞短語(yǔ)“與沙龍”就在“舉行 了會(huì)談”的前面。因此,要得到高質(zhì)量的譯文,不但要保證介詞短語(yǔ)的譯文不能被分開(kāi),還要保證譯文被放在正確的位置上。

層次短語(yǔ)模型[2]可以從雙語(yǔ)句對(duì)中自動(dòng)地抽取形式語(yǔ)法,而不需要語(yǔ)言學(xué)上的標(biāo)注和假設(shè),所以使用方便,目前被廣泛地應(yīng)用于機(jī)器翻譯中。其形式語(yǔ)法信息的載體為層次短語(yǔ)(規(guī)則),它不僅可以利用短語(yǔ)來(lái)捕捉一些局部翻譯,而且還可以利用層次短語(yǔ)來(lái)捕捉子短語(yǔ)之間的調(diào)序,所以層次短語(yǔ)模型對(duì)長(zhǎng)距離的調(diào)序具有一定的處理能力。但是形式語(yǔ)法也存在一定的問(wèn)題,它沒(méi)有對(duì)子短語(yǔ)覆蓋的成分進(jìn)行區(qū)分,這導(dǎo)致了子短語(yǔ)可以匹配任何的句法成分,這往往會(huì)帶來(lái)翻譯錯(cuò)誤。例如,層次短語(yǔ)<held a talk X,X舉行 了 會(huì)談>,既可以被應(yīng)用在“held a talk with Sharon”,也可以被應(yīng)用在“held a talk and reached an agreement”上,但是對(duì)于后者,調(diào)序發(fā)生了錯(cuò)誤。所以,利用語(yǔ)言學(xué)信息來(lái)對(duì)非終結(jié)符覆蓋的句法成分進(jìn)行區(qū)分還是很有必要的。

本文我們?cè)趯哟味陶Z(yǔ)模型的基礎(chǔ)上,以介詞短語(yǔ)的形式引入語(yǔ)言學(xué)句法信息。一方面,我們利用層次短語(yǔ)來(lái)捕捉長(zhǎng)距離調(diào)序,另一方面我們對(duì)介詞短語(yǔ)進(jìn)行重點(diǎn)處理,以保證介詞短語(yǔ)被正確的調(diào)序,并滿足句法黏著性。我們把介詞短語(yǔ)的識(shí)別看成是一個(gè)序列標(biāo)注問(wèn)題,用條件隨機(jī)場(chǎng)(Conditional RandomField,CRF)進(jìn)行標(biāo)注,然后基于已被識(shí)別的介詞短語(yǔ)抽取規(guī)則,將抽取的包含介詞短語(yǔ)的規(guī)則和層次短語(yǔ)模型的規(guī)則進(jìn)行合并,得到一個(gè)大的規(guī)則表。然后在測(cè)試句子已被標(biāo)注出介詞短語(yǔ)的情況,用大的規(guī)則表對(duì)其進(jìn)行匹配,得到最終的譯文。

本文的組織結(jié)構(gòu)如下:首先介紹添加介詞短語(yǔ)的層次短語(yǔ)模型,再介紹如何利用條件隨機(jī)場(chǎng)識(shí)別介詞短語(yǔ),接著介紹規(guī)則抽取以及如何解碼,最后是實(shí)驗(yàn)結(jié)果和結(jié)論。

2 模型

我們?cè)趯哟味陶Z(yǔ)模型的基礎(chǔ)上對(duì)介詞短語(yǔ)進(jìn)行重點(diǎn)處理,因?yàn)榻樵~短語(yǔ)的位置在不同語(yǔ)言中可能會(huì)差異很大。相對(duì)于層次短語(yǔ)模型中,普通規(guī)則只采用一個(gè)非終結(jié)符X,我們特地為介詞短語(yǔ)引進(jìn)一個(gè)非終結(jié)符Y。于是,對(duì)于圖1中所示例子,其包含兩個(gè)介詞短語(yǔ)“with Sharon'”和“in US'”,其可以匹配的規(guī)則包括:

我們除了還需要層次短語(yǔ)模型的粘貼規(guī)則r7、r8之外,還需要一條規(guī)則r9,來(lái)實(shí)現(xiàn)非終結(jié)符Y到非終結(jié)符X的轉(zhuǎn)變:

于是,對(duì)于圖1所示的例子,其對(duì)應(yīng)的翻譯過(guò)程如圖2所示。

圖1 一個(gè)英漢句對(duì)

圖2 翻譯過(guò)程

我們將模型形式化為對(duì)數(shù)線性模型,在規(guī)則上采用的特征以及整個(gè)推導(dǎo)上的特征與層次短語(yǔ)模型相同。其中,對(duì)于r7,其權(quán)重設(shè)為1。

3 介詞短語(yǔ)識(shí)別

標(biāo)注介詞短語(yǔ),相當(dāng)于為句子中的每個(gè)詞打上一個(gè)標(biāo)簽,來(lái)表示該詞是一個(gè)介詞短語(yǔ)的開(kāi)始詞(標(biāo)記為B),或者屬于一個(gè)介詞短語(yǔ)但不是其第一個(gè)詞(標(biāo)記為I),或者不屬于任何一個(gè)介詞短語(yǔ)(標(biāo)記為O)。因此,我們把識(shí)別介詞短語(yǔ)看成是一個(gè)序列標(biāo)注問(wèn)題。

為了克服label bias,并且采用盡可能多的統(tǒng)計(jì)信息,我們用條件隨機(jī)場(chǎng)來(lái)進(jìn)行序列標(biāo)注。我們用x=x1…xn表示輸入句子,y=y(tǒng)1…yn表示相應(yīng)的標(biāo)記序列,一個(gè)條件隨機(jī)場(chǎng)可以用一個(gè)局部特征變量f和一個(gè)特征權(quán)重向量λ來(lái)表示。每個(gè)局部特征可以是以下兩類(lèi)中的一類(lèi):狀態(tài)特征s(y,x,i);轉(zhuǎn)換特征t(y,y′,x,i)。所以,條件隨機(jī)場(chǎng)的全局特征可以表示為:

于是,條件隨機(jī)場(chǎng)定義的條件概率可以表示為

一個(gè)句子可以對(duì)應(yīng)多個(gè)標(biāo)注序列,我們只選取其中概率最大的標(biāo)注序列作為最終的標(biāo)注結(jié)果

關(guān)于條件隨機(jī)場(chǎng)的更多細(xì)節(jié)可以參照文獻(xiàn)[3-5]。

識(shí)別介詞短語(yǔ)的時(shí)候,對(duì)于每個(gè)位置i,我們用l=l1…ln表示輸入句子對(duì)應(yīng)的詞性標(biāo)注序列,采用的特征如表1所示。

表1 識(shí)別介詞短語(yǔ)采用的特征

續(xù)表

由于采用了詞性標(biāo)記作為特征,所以在識(shí)別介詞短語(yǔ)之前,需要得到每個(gè)詞的詞性。同樣,我們也采用條件隨機(jī)場(chǎng)來(lái)進(jìn)行詞性標(biāo)注,采用的特征如表2所示。除此之外,我們還采用了一些詞匯拼寫(xiě)方面的特征,包括:一個(gè)單詞是否以數(shù)字或者大寫(xiě)字母開(kāi)頭,是否包括連字符,其后綴是否包括-ing,-ed,-ogy,-s,-ly,-ion,-tion,-ity,-ies。

表2 詞性標(biāo)注采用的特征

4 訓(xùn)練

引入介詞短語(yǔ)的層次短語(yǔ)模型的訓(xùn)練過(guò)程與層次短語(yǔ)模型相同,只是抽取規(guī)則的時(shí)候有所不同。我們的模型抽取規(guī)則的時(shí)候分為兩步:第一步,不考慮介詞短語(yǔ),采用層次短語(yǔ)的方法抽取規(guī)則;第二步,抽取包含介詞短語(yǔ)的規(guī)則。抽取包含介詞短語(yǔ)的規(guī)則也分兩步進(jìn)行:首先抽取初始短語(yǔ)和介詞短語(yǔ),然后在此基礎(chǔ)上抽取包含介詞短語(yǔ)的層次化短語(yǔ)。

·ci=B;

·cj=I;

·fj是源句子的最后一個(gè)詞,或者cj+1≠I(mǎi)。

句對(duì)<f,e>的包含介詞短語(yǔ)的規(guī)則的抽取方法如下:

同樣,我們得到的規(guī)則數(shù)量很大,對(duì)于不包含介詞短語(yǔ)的規(guī)則,按照層次短語(yǔ)模型的方法進(jìn)行過(guò)濾,對(duì)于包含介詞短語(yǔ)的規(guī)則,為了加快解碼速度以及避免歧義性,我們添加了以下限制。

1)每個(gè)規(guī)則在源端和目標(biāo)端的邊界詞均不能對(duì)齊到空;

2)初始短語(yǔ)所包含的源端詞的個(gè)數(shù)不超過(guò)10,而層次短語(yǔ)在源端的符號(hào)數(shù)(包括非終結(jié)符和終結(jié)符)不超過(guò)5個(gè);

3)每條規(guī)則在源端不能為空,且至少要包含一個(gè)終結(jié)符;

4)每條規(guī)則最多可以有兩個(gè)非終結(jié)符;

5)每條規(guī)則在源端和目標(biāo)端的詞語(yǔ)之間至少要有一條對(duì)齊。

以上限制和層次短語(yǔ)的主要區(qū)別在于,我們?cè)试S包含介詞短語(yǔ)的規(guī)則的兩個(gè)非終結(jié)符相鄰,這主要是因?yàn)榫渲械慕樵~短語(yǔ)已經(jīng)確定,兩個(gè)非終結(jié)符相鄰不會(huì)引起很多模棱兩可組合的情況。

我們將包含介詞短語(yǔ)的規(guī)則和層次短語(yǔ)模型的規(guī)則分開(kāi)估計(jì)概率,概率的估計(jì)方法和層次短語(yǔ)模型相同。

5 解碼

與層次短語(yǔ)模型相同,我們采用CKY算法來(lái)搜索概率最大的推導(dǎo),并將其對(duì)應(yīng)的譯文作為最終的譯文。我們采用柱搜索來(lái)減小搜索空間,采用的剪枝策略為:每個(gè)區(qū)間最多可以匹配的規(guī)則限制為c個(gè);每個(gè)柱對(duì)應(yīng)的棧中保留的譯文的個(gè)數(shù)最多為b個(gè);每個(gè)柱對(duì)應(yīng)的棧中保留譯文的分?jǐn)?shù)必須大于棧中當(dāng)前最好譯文的分?jǐn)?shù)的β倍。與此同時(shí),采用cube pruning[6]來(lái)加快解碼速度,并限制每個(gè)規(guī)則最多可以匹配的源端詞語(yǔ)個(gè)數(shù)不超過(guò)10。于是,整個(gè)解碼過(guò)程的時(shí)間復(fù)雜度為O(10ncb2),與句子長(zhǎng)度n成線性關(guān)系。

我們的模型在解碼的過(guò)程中,只有規(guī)則的匹配方法與層次短語(yǔ)模型不同。對(duì)于每個(gè)測(cè)試句子,我們采用兩部分規(guī)則:一部分是不考慮介詞短語(yǔ)的規(guī)則,其匹配方法與層次短語(yǔ)模型相同;一部分是包含介詞短語(yǔ)的規(guī)則。我們首先枚舉出句中的所有包含介詞短語(yǔ)的規(guī)則的源端部分,然后去規(guī)則表中查找相應(yīng)的規(guī)則。

6 實(shí)驗(yàn)

我們首先測(cè)試采用CRF進(jìn)行詞性標(biāo)注和介詞短語(yǔ)識(shí)別的效果,因?yàn)榻樵~短語(yǔ)識(shí)別的準(zhǔn)確率直接影響到解碼效果,然后我們測(cè)試一下引入介詞短語(yǔ)的情況下解碼的性能。

6.1 介詞短語(yǔ)識(shí)別效果

我們將標(biāo)準(zhǔn)賓州樹(shù)庫(kù)的英語(yǔ)句法分析任務(wù)數(shù)據(jù)的1~22節(jié)的39 832個(gè)句子分成兩部分,前面的38 832個(gè)句子作為訓(xùn)練集,后面的1 000個(gè)句子作為測(cè)試集。對(duì)于訓(xùn)練集語(yǔ)料的獲得,我們采用后序遍歷的方法來(lái)識(shí)別介詞短語(yǔ),對(duì)于標(biāo)注為PP的節(jié)點(diǎn)覆蓋的源語(yǔ)言串則標(biāo)注為介詞短語(yǔ),且一旦一個(gè)節(jié)點(diǎn)被我們識(shí)別為介詞短語(yǔ),我們不再遍歷其祖先節(jié)點(diǎn),這樣保證我們得到的介詞短語(yǔ)均為最小的介詞短語(yǔ)。為了保證與機(jī)器翻譯語(yǔ)料的一致性,我們將賓州樹(shù)庫(kù)中的`和"用”來(lái)替換。CRF采用L2方法來(lái)訓(xùn)練。

我們采用序列標(biāo)注問(wèn)題中通用的標(biāo)準(zhǔn)——準(zhǔn)確率(P),召回率(R),F(xiàn)1值,來(lái)評(píng)估介詞短語(yǔ)識(shí)別的結(jié)果。我們還采用正確率(A)來(lái)評(píng)估每個(gè)詞的標(biāo)注結(jié)果。對(duì)于介詞短語(yǔ)標(biāo)注,準(zhǔn)確率P和正確率A是不同的。例如,下面的標(biāo)注序列

參考序列: O O B I O O B I

標(biāo)注序列: O O B I I O B I

其準(zhǔn)確率P為50%,正確率A為87.5%。詞性標(biāo)注的結(jié)果如表3所示,介詞短語(yǔ)識(shí)別的結(jié)果如表4所示。

從以上實(shí)驗(yàn)結(jié)果可以看出,詞形標(biāo)注的正確率比介詞短語(yǔ)識(shí)別的正確率要高很多,這主要是因?yàn)椋覀冏R(shí)別介詞短語(yǔ)的時(shí)候,窗口的大小只有3,而有的介詞短語(yǔ)的長(zhǎng)度超過(guò)3,對(duì)于這一部分介詞短語(yǔ)的識(shí)別會(huì)比較吃力。另外,由于識(shí)別介詞短語(yǔ)的時(shí)候用詞性作為特征,而詞性識(shí)別的時(shí)候會(huì)引入一部分錯(cuò)誤,這部分錯(cuò)誤會(huì)累加到介詞短語(yǔ)識(shí)別上來(lái),導(dǎo)致最后的正確率降低。

表3 詞性標(biāo)注結(jié)果

表4 介詞短語(yǔ)識(shí)別結(jié)果

6.1 機(jī)器翻譯性能

我們接下來(lái)比較引入介詞短語(yǔ)的模型和層次短語(yǔ)模型的性能。我們采用的開(kāi)發(fā)集為NIST2008英漢雙語(yǔ)訓(xùn)練語(yǔ)料,除去其中的香港法律和香港會(huì)議記錄部分,大約剩下49萬(wàn)句對(duì)。對(duì)于訓(xùn)練語(yǔ)料,我們先用GIZAC++工具包[7]進(jìn)行雙向?qū)R,然后采用“final-and”策略將雙向?qū)R合并成一個(gè)多到多對(duì)齊。采用的語(yǔ)言模型為在GIGA語(yǔ)料的新華部分上訓(xùn)練的一個(gè)五元語(yǔ)言模型,并采用KN方法進(jìn)行平滑。我們的實(shí)驗(yàn)結(jié)果都進(jìn)行了顯著性測(cè)試[8]。

我們采用的開(kāi)發(fā)集為微軟亞洲研究院內(nèi)部的英漢新聞測(cè)試集,包括1 010個(gè)句子,分別在兩個(gè)測(cè)試集上比較兩個(gè)解碼器的性能:一個(gè)是NIST 2008英漢機(jī)器翻譯測(cè)試集,包括1 859個(gè)句子,另一個(gè)是我們內(nèi)部的另一個(gè)英漢新聞測(cè)試集,包括966個(gè)句子。翻譯結(jié)果的評(píng)測(cè)標(biāo)準(zhǔn)采用基于字的BLEU值[9],最高進(jìn)行四元的n-gram匹配取。我們?cè)陂_(kāi)發(fā)集上采用最小錯(cuò)誤率[10]來(lái)進(jìn)行參數(shù)訓(xùn)練,訓(xùn)練的目標(biāo)為使得開(kāi)發(fā)集上的BLEU值最大。

表5 機(jī)器翻譯性能比較

表5給出了實(shí)驗(yàn)結(jié)果,“**”表示在顯著性測(cè)試中ρ<0.01。從實(shí)驗(yàn)結(jié)果可以看出,引入介詞短語(yǔ)之后,在我們內(nèi)部的測(cè)試集上,BLEU值提高0.8個(gè)點(diǎn),在NIST 2008上提高了0.5個(gè)點(diǎn)。性能提高的原因在于通過(guò)引入介詞短語(yǔ),可以針對(duì)介詞短語(yǔ)選擇更好的規(guī)則,從而減輕引言中提到的由于X可以匹配任何短語(yǔ)而導(dǎo)致規(guī)則使用不恰當(dāng)?shù)那闆r。

7 結(jié)論

層次短語(yǔ)模型在短語(yǔ)模型的基礎(chǔ)上,引入在雙語(yǔ)句對(duì)上自動(dòng)學(xué)習(xí)得到的形式語(yǔ)法信息,這些形式句法信息不需要基于語(yǔ)言學(xué)的標(biāo)注和假設(shè),使得形式短語(yǔ)模型用起來(lái)很方便,所以現(xiàn)在層次短語(yǔ)模型使用很廣泛。在層次短語(yǔ)模型中,形式句法信息是以層次短語(yǔ)為載體的。而層次短語(yǔ)由詞和短語(yǔ)組成,所以層次短語(yǔ)模型一方面可以通過(guò)短語(yǔ)來(lái)學(xué)習(xí)局部翻譯,一方面可以利用層次短語(yǔ)來(lái)掌握短語(yǔ)之間的調(diào)序,所以層次短語(yǔ)具有一定的捕捉長(zhǎng)距離調(diào)序的能力。由于形式語(yǔ)法并不對(duì)每個(gè)短語(yǔ)的句法成分進(jìn)行細(xì)化,這導(dǎo)致了層次短語(yǔ)在規(guī)則匹配的時(shí)候可能會(huì)被用在不恰當(dāng)?shù)牡胤?,所以?duì)層次短語(yǔ)的短語(yǔ)進(jìn)行句法標(biāo)注還是很有必要的。我們嘗試在層次短語(yǔ)模型的基礎(chǔ)上,以介詞短語(yǔ)的形式來(lái)引入語(yǔ)言學(xué)句法信息,并對(duì)介詞短語(yǔ)的調(diào)序進(jìn)行重點(diǎn)處理。由于介詞短語(yǔ)在不同語(yǔ)言中相對(duì)位置差異很大,如此可以以較小的代價(jià)來(lái)獲得翻譯性能的較大提高。

對(duì)于介詞短語(yǔ)的識(shí)別,我們采用序列標(biāo)注的方法,通過(guò)對(duì)賓州樹(shù)庫(kù)中的句法分析樹(shù)進(jìn)行處理來(lái)得到短語(yǔ)識(shí)別的訓(xùn)練語(yǔ)料,來(lái)訓(xùn)練得到一個(gè)條件隨機(jī)場(chǎng)(CRF)。然后用訓(xùn)練得到的CRF在機(jī)器翻譯任務(wù)的訓(xùn)練集上識(shí)別介詞短語(yǔ),對(duì)于規(guī)則抽取,除了抽取層次短語(yǔ)模型的規(guī)則,還抽取一些包含介詞短語(yǔ)的規(guī)則。在訓(xùn)練和解碼的時(shí)候,也是先識(shí)別介詞短語(yǔ),然后一起應(yīng)用兩部分規(guī)則,一部分是層次短語(yǔ)模型的規(guī)則,一部分是包含介詞短語(yǔ)的規(guī)則。實(shí)際上,抽取出來(lái)的介詞短語(yǔ)并不多,對(duì)解碼器的速度影響不大,卻能取得顯著的效果,在我們內(nèi)部的英漢翻譯數(shù)據(jù)集上可以提高0.8個(gè)BLEU值,在NIST2008英漢機(jī)器翻譯測(cè)試集上可以提高0.5個(gè)點(diǎn)。這充分說(shuō)明語(yǔ)言學(xué)句法信息對(duì)提高機(jī)器翻譯性能還是很有幫助的。

[1]Heidi Fox.Phrasal Cohesion and Statistical Machine Translation[C]//Proceedings of EMNLP,2002:304-311.

[2]David Chiang.Hierarchical phrase-based translation[J].Computational Linguistics,2007:201-228.

[3]John Lafferty,Andrew McCallum,F(xiàn)ernando Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data [C]//Proceedings of ICML,2001:282-289.

[4]Ben Taskar, Pieter Abbeel, Daphne Koller.Discriminative Probabilistic Models for Relational Data[C]//Proceedings of Eighteenth Conference on Uncertainty in Artificial Intelligence,2002.

[5]Fei Sha,F(xiàn)ernando Pereira.Shallow Parsing with Conditional Random Fields[C]//Proceedings of HLTNAACL,2003:134-141.

[6]Liang Huang and David Chiang.Better k-best parsing[C]//Proceeding of IWPT,2005:53-64.

[7]Franz Josef Och,Hermann Ney.Improved Statistical Alignment Models[C]//Proceedings of the 38th ACL,2000.

[8]Michael Collins,Philipp Koehn,Ivona Kucerova.Clause restructuring for statistical machine translation[C]//Proceeding of ACL,2005:531-540.

[9]Kishore Papineni,Salim Roukos,Todd Ward,et al..Bleu:a Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the 40th ACL,2002:311-318.

[10]Frans J. Och. Minimum error rate training in statistical machine translation [C]//Proceeding of ACL,2003:160-167.

猜你喜歡
句法介詞短語(yǔ)
介詞和介詞短語(yǔ)
述謂結(jié)構(gòu)與英語(yǔ)句法配置
句法二題
介詞不能這樣用
詩(shī)詞聯(lián)句句法梳理
《健民短語(yǔ)》一則
信息結(jié)構(gòu)與句法異位
看圖填寫(xiě)介詞