国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

英語功能名詞短語研究及其應(yīng)用

2012-05-31 08:42軍,
關(guān)鍵詞:組塊歧義介詞

馬 建 軍, 黃 德 根

(1.大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2.大連理工大學(xué) 外國語學(xué)院,遼寧 大連 116024)

0 引 言

在英語語言中,名詞短語的結(jié)構(gòu)非常復(fù)雜.英語名詞短語結(jié)構(gòu)中可以包含多個(gè)修飾語和中心詞,結(jié)構(gòu)關(guān)系具有可變性、不確定性,因而極易產(chǎn)生歧義.根據(jù)傳統(tǒng)語法對名詞短語的定義,名詞短語可以是一個(gè)名詞,也可包括名詞之前名詞的限定詞、形容詞或其他修飾語,還包括名詞之后的介詞短語或關(guān)系從句,還可以是一個(gè)代詞[1].同時(shí),名詞短語在句子中具有豐富的句法功能:可以作主語;可以作動(dòng)詞賓語;可以放在小品詞后,作介詞賓語;可以作補(bǔ)足語,補(bǔ)充說明主語或賓語;可以與介詞搭配作狀語.Halliday的系統(tǒng)功能語法[2]將這些句法功能概括為主語(subject)、補(bǔ)語(complement)和狀語(adjunct).另外,名詞短語還與動(dòng)詞構(gòu)成搭配,如take part in(參加)等,成為謂語動(dòng)詞不可分割的一部分.若能確定這些句法功能,就能提高句法分析的正確率,提高機(jī)器翻譯的質(zhì)量.但是目前的英語名詞短語研究主要以名詞短語的結(jié)構(gòu)來定義名詞短語,而沒有考慮名詞短語的句法功能.

Church[3]利用統(tǒng)計(jì)方法進(jìn)行名詞短語的識別,Voutilainen[4]設(shè) 計(jì) 了 名 詞 短 語 識 別 系 統(tǒng)NPtool,但是這兩種方法識別的名詞短語非常簡單,甚至不包括名詞前的修飾成分;Ramshaw等[5]提出了基本名詞短語(以下簡稱baseNP)的概念,把名詞之前的修飾語包含在名詞短語中.baseNP指非嵌套名詞短語,即不包含其他任何名詞短語的名詞短語.Ramshaw等采用了Abney[6]關(guān)于組塊的定義,將組塊分為名詞類組塊(即基本名詞短語)和動(dòng)詞類組塊兩大類,把介詞及其賓語構(gòu)成的介詞短語歸為名詞類組塊.CoNLL-2000[7]將組塊識別作為共享任務(wù),定義了英語中11種基本組塊,其中名詞短語組塊與baseNP的定義十分類似,主要將修飾名詞的形容詞短語歸入名詞短語組塊,但是不包括名詞的后置定語.同時(shí),介詞短語(PP)作為單獨(dú)的組塊列出.值得一提的是,這里的PP并不是Halliday所定義的介詞短語(prepositional phrase)(介詞+名詞),而是介詞詞組(preposition group)[2],即指介詞本身,或由多個(gè)介詞組成的介詞短語,如because of,such as,due to,或由副詞修飾的介詞短語,如well above,just after,even in.此外,還將動(dòng)詞小品詞作為單獨(dú)的組塊列出,與介詞進(jìn)行了區(qū)分.

Koehn等[8]在研究德英機(jī)器翻譯時(shí),提出了一種面向統(tǒng)計(jì)機(jī)器翻譯的最長名詞短語(本文以下簡稱maxNP)的定義,把名詞后的修飾語包含在名詞短語中.其定義如下:給定一個(gè)句子s和它的句法分析樹t,一個(gè)名詞短語是t的一棵子樹,它至少包含一個(gè)名詞而不包含動(dòng)詞,并且不被更大的包含名詞并且不包含動(dòng)詞的子樹包含.實(shí)際上,maxNP是名詞短語和介詞短語的組合,將名詞短語之后的介詞短語合并到名詞短語中.這里的介詞短語是真正意義的介詞短語,即介詞+名詞.與baseNP相比,maxNP將名詞的后置定語與名詞結(jié)合起來,簡化了翻譯過程;但是卻沒有將介詞和結(jié)構(gòu)詞區(qū)分開來.baseNP和maxNP都沒有將“介詞+名詞”作狀語的結(jié)構(gòu)區(qū)分出來.

國內(nèi)對英語名詞短語的研究主要集中在基本名詞短語的自動(dòng)識別[9~11],而最長名詞短語的識別研究多以漢語為主[12~14].

本文根據(jù)名詞短語的句法功能,提出一種新的名詞短語——功能名詞短語(以下簡稱funNP).首先闡述名詞短語引起的結(jié)構(gòu)歧義問題,提出功能名詞短語的定義,同時(shí)與基本名詞短語和最長名詞短語相比較;應(yīng)用Google在線翻譯系統(tǒng)對英語商務(wù)信函語料翻譯,分析其譯文,對其中的功能名詞短語進(jìn)行處理,以解決結(jié)構(gòu)歧義引起的翻譯錯(cuò)誤.

1 名詞短語結(jié)構(gòu)歧義問題

文獻(xiàn)[15]研究了英漢機(jī)器翻譯中的歧義問題,發(fā)現(xiàn)動(dòng)詞與介詞搭配、介詞與名詞搭配做定語或狀語,極易引起歧義.這些結(jié)構(gòu)歧義都是由一個(gè)結(jié)構(gòu)引起的,即“baseNP1+介詞+baseNP2”結(jié)構(gòu).

本文將名詞短語結(jié)構(gòu)歧義概括如下:

(1)baseNP1與前面的動(dòng)詞是否構(gòu)成固定搭配?

例1 How many countries took part in the last Olympic Games?(文獻(xiàn)[16]的P922)(參考譯文:多少個(gè)國家參加了上屆奧林匹克運(yùn)動(dòng)會?)

在該句中,take part in是固定搭配,構(gòu)成句子的謂語動(dòng)詞.因此不能將part in the last Olympic Games識別為NP來理解.

(2)介詞是否與動(dòng)詞構(gòu)成固定搭配,成為小品詞?

例2 You tie the rope in knots.(文獻(xiàn)[17]的P381)(參考譯文:你把繩子系成結(jié).)

在該句中,in是由動(dòng)詞tie決定,是小品詞(particle),knots是介詞in的補(bǔ)語,in knots表明結(jié)果.

(3)介詞+baseNP2是baseNP1的后置定語還是句子的狀語?

例3 He is getting pains in his back.(文獻(xiàn)[1]的P169)(參考譯文:他后背疼.)

在該句中,in his back作后置定語(post modifier),表明疼痛的部位.

例4 I have described this case in detail.(文獻(xiàn)[1]的P286)(參考譯文:我詳細(xì)地?cái)⑹隽诉@件事.)

在該句中,in detail作狀語(adjunct),表示方式.

2 功能名詞短語的定義

2.1 功能名詞短語

基于系統(tǒng)功能語法[2],本文將功能名詞短語的句法功能歸納為主語、補(bǔ)語和狀語.

功能名詞短語定義如下:功能名詞短語是指在句中作主語、補(bǔ)語和狀語,且至少含有一個(gè)名詞但不包含動(dòng)詞的短語.即功能名詞短語含有可嵌套的結(jié)構(gòu),主要包括名詞詞組(nominal group)、介詞短語(prepositional phrase)和“形容詞+介詞”短語3種結(jié)構(gòu).

其邏輯結(jié)構(gòu)如下:

(1)名詞詞組:“前置修飾語 + 名詞 + 后置修飾語”。其中:前置修飾語可以是限定詞、數(shù)詞、形容詞或名詞;名詞包括普通名詞或代詞或?qū)S忻~;后置修飾語可以是介詞+名詞詞組結(jié)構(gòu)或形容詞;前置修飾語和后置修飾語不是必須的結(jié)構(gòu).

(2)介詞短語:“介詞+名詞詞組”.

(3)“形容詞+介詞”短語:“形容詞+介詞+名詞詞組”.

該定義不包括與動(dòng)詞構(gòu)成固定搭配的名詞短語,從翻譯角度,將與動(dòng)詞構(gòu)成固定搭配的名詞歸入動(dòng)詞短語(VP)會更合適.如“take part in+n(參加)”中的part不是名詞短語,take part in構(gòu)成動(dòng)詞短語,定義為VP.如果將part in+n定義為NP,則往往會譯為“…的一部分”,而引起歧義.

同理,在“be+adj+prep+n”結(jié)構(gòu)中,如be interested in+n(對…感興趣),be interested in的句法功能相當(dāng)于謂語動(dòng)詞,本文將be interested in定義為VP,其后的n才定義為NP.其他情況的adj+prep+n結(jié)構(gòu),如free from charge(免費(fèi)),往往在句子中作補(bǔ)語,則定義為NP.

上述例1~4的funNP識別、功能塊表達(dá)式、句法功能表達(dá)式見表1.

2.2 功能名詞短語與基本名詞短語和最長名詞短語的關(guān)系

表2從介詞、小品詞、“介詞+名詞”作定語、“介詞+名詞”作狀語和與動(dòng)詞構(gòu)成固定搭配的名詞5個(gè)方面概括了3個(gè)定義的主要區(qū)別,表3比較了3種方法的識別結(jié)果.結(jié)果表明,funNP不同于baseNP和maxNP,是介于baseNP和maxNP的一個(gè)短語概念;funNP識別在理論上能解決上述結(jié)構(gòu)歧義問題,且效果優(yōu)于baseNP和maxNP識別.

表2表明,baseNP和maxNP都沒有將“介詞+名詞”作狀語和與動(dòng)詞構(gòu)成固定搭配的名詞區(qū)分出來,這對機(jī)器翻譯造成了一定的難度.

表3表明,funNP識別能夠在識別階段區(qū)分4種歧義情況,而baseNP和maxNP識別則不能完全區(qū)分這4種情況.

根據(jù)表3,funNP識別針對4個(gè)例句有3種不同句法功能表達(dá)式,所識別的名詞短語模式也不同,且不同于baseNP和maxNP識別.例1表明take part in是固定搭配;例2表明in是動(dòng)詞tie的小品詞;例3將in歸入到名詞詞組中而例4將maxNP識別中的NP拆分成2個(gè)短語,并且表明in不是動(dòng)詞describe的小品詞,成功地區(qū)分了動(dòng)詞+名詞固定搭配、小品詞、后置定語和狀語.這些都將大大簡化之后的翻譯過程.

表1 funNP分析Tab.1 The analysis of funNP

表2 baseNP、maxNP和funNP的定義比較Tab.2 The definition comparison of baseNP,maxNP and funNP

表3 baseNP、maxNP和funNP識別比較Tab.3 The recognition comparison between baseNP,maxNP and funNP

而baseNP識別只區(qū)分出小品詞,至于介詞+名詞作后置定語還是狀語,在識別階段還不明確,需要在翻譯過程中進(jìn)行大量的組塊重組.maxNP識別對于4個(gè)例子句法功能表達(dá)式一模一樣,尤其未能區(qū)分固定搭配、介詞和小品詞.這會引起歧義,以例2為例,若將例2中the rope in knots翻譯成短語,很可能得到“結(jié)繩”或“結(jié)的繩索”,造成翻譯錯(cuò)誤.

3 從譯文質(zhì)量分析funNP識別

名詞短語識別只是機(jī)器翻譯的一個(gè)子系統(tǒng),識別效果還是要通過具體的翻譯結(jié)果才能體現(xiàn).因此本文選擇Google機(jī)譯系統(tǒng)來進(jìn)行譯文質(zhì)量分析.Google是基于統(tǒng)計(jì)機(jī)器翻譯的代表性機(jī)譯系統(tǒng).2005年NIST機(jī)器翻譯評測結(jié)果表明,Google在所有4項(xiàng)測評中均名列第一[18].

所選擇的語料來自自建的有3 000個(gè)雙語句對的商務(wù)信函雙語語料庫.對譯文質(zhì)量從兩個(gè)方面進(jìn)行分析:一是與動(dòng)詞構(gòu)成固定搭配的名詞歧義問題,二是“介詞+名詞”作狀語的歧義問題.這兩個(gè)問題是baseNP和maxNP識別未能處理的問題,也是funNP識別試圖解決的關(guān)鍵問題.

采用funNP的定義進(jìn)行消歧處理,比較消歧前后的結(jié)果.正確率A=翻譯正確的句子數(shù)/句子總數(shù)×100%,每個(gè)句子只觀察一個(gè)歧義問題.

3.1 實(shí)驗(yàn)1:與動(dòng)詞構(gòu)成固定搭配的名詞的歧義問題及處理

本文選擇沒有確切意義的3個(gè)動(dòng)詞make、take、place進(jìn)行分析.對商務(wù)信函雙語語料庫進(jìn)行搜索,找出所有含有3個(gè)動(dòng)詞的固定搭配,并進(jìn)行分類,共得出74種不同搭配,具體分類見表4.

表4 動(dòng)詞固定搭配測試語料Tab.4 Testing data of VP pattern

將74個(gè)句子輸入到Google在線翻譯系統(tǒng),人工統(tǒng)計(jì)固定搭配的翻譯結(jié)果,發(fā)現(xiàn)問題主要在于與動(dòng)詞形成固定搭配的名詞沒有被識別出來,卻與之后的介詞短語合并,形成名詞短語,引起歧義.如:

句子:One of our clients takes interest in your products.

Google譯文:我們的一位客戶發(fā)生在你的產(chǎn)品的興趣.

參考譯文:我們的一位客戶對你們的產(chǎn)品感興趣.

在該句中,take interest in本是固定搭配,意為“對…感興趣”,take interest相當(dāng)于動(dòng)詞,in是動(dòng)詞結(jié)構(gòu)詞,無意義.而在Google譯文中,卻將interest并入in your products,將take譯成“發(fā)生”,將“interest in your products”譯成“在你的產(chǎn)品的興趣”,造成翻譯錯(cuò)誤.這是個(gè)很常見的固定搭配,對機(jī)器翻譯卻形成困擾.

因此,funNP識別將這種搭配中的名詞定義為VP的一部分,而不單獨(dú)形成NP.據(jù)此,本文設(shè)計(jì)了5種消歧方法,其目的就是實(shí)現(xiàn)這種搭配的VP識別.

(a)取名詞的動(dòng)詞形式替代短語.如:arrange make arrangements.

(b)取名詞的形容詞形式替代短語.如:be interested in take interest in.

(c)取同義的動(dòng)詞替代短語.如:examine take a look at.

(d)取同義的動(dòng)詞短語替代短語.如:order the goods place an order.(注:消歧時(shí),必須將其后的介詞短語等成分刪去,否則又變成名詞+介詞,造成結(jié)構(gòu)歧義.該方法最適合具有許多語義的動(dòng)詞多義詞,如order.沒有名詞作賓語,很難判斷動(dòng)詞的含義,會引起新的歧義問題.)

(e)在名詞后加分隔符“,”將短語與其他部分隔開.如:place the order,on the understanding that place the order on the understanding that.

譯文質(zhì)量和消歧結(jié)果見表5.

表5 動(dòng)詞固定搭配消歧結(jié)果Tab.5 Disambiguation results of VP pattern

表5表明,應(yīng)用funNP的定義,大幅度地提高了譯文質(zhì)量,正確率從之前的39.2%提高到93.2%.在3個(gè)動(dòng)詞中,place+n是難點(diǎn),尤其是place+order,如:place regular orders,place a trial order,place a further order,place a substantial order,place a large order,place a first order,place an order,place orders,place a further and large order,place another order等.沒有解決的問題主要包含下列5個(gè)名詞:make offers,make shipment,make an allowance on,make an order for,place insurance中的“offer,shipment,allowance,order,insurance”.這些名詞是多義詞,且所對應(yīng)的動(dòng)詞“offer,ship,allow,order,insure”也是多義詞,且很難找到具有相同用法的同義動(dòng)詞或動(dòng)詞短語,因此在實(shí)驗(yàn)中沒能消解歧義.

3.2 實(shí)驗(yàn)2:“介詞+名詞”作狀語的歧義問題及處理

本文選擇介詞in進(jìn)行分析.“in+n”結(jié)構(gòu),既可能作之前名詞的后置定語,也可能作狀語,很容易引起結(jié)構(gòu)歧義.本文對商務(wù)信函雙語語料庫進(jìn)行搜索,找出所有含有“n+in+n”結(jié)構(gòu),且“in+n”作狀語的句子,并進(jìn)行分類,得出表示地點(diǎn)、時(shí)間、情況、方式和目的等5類狀語,合計(jì)92個(gè)測試句子,具體信息見表6.

表6 “n+in+n”測試語料Tab.6 Testing data of″n+in+n″pattern

將92個(gè)句子輸入到Google在線翻譯系統(tǒng),人工統(tǒng)計(jì)“in+n”的翻譯結(jié)果,發(fā)現(xiàn)問題主要在于“in+n”作狀語沒有被識別出來,卻被當(dāng)作后置定語,修飾之前的名詞,造成歧義.如:

句子:We look forward to hearing a favorable reply from you in due course.

Google譯文:我們期待著聽到您在適當(dāng)?shù)臅r(shí)候有利的答復(fù).

參考譯文:希望在適當(dāng)?shù)臅r(shí)候聽到貴方的好消息.

可以看出,Google在翻譯該句時(shí),將a favorable reply from you in due course作為一個(gè)NP進(jìn)行翻譯,將in due course看做reply的定語,譯成“在適當(dāng)?shù)臅r(shí)候有利的答復(fù)”,而沒有考慮到in due course是狀語,修飾動(dòng)詞hear,應(yīng)譯為“在適當(dāng)?shù)臅r(shí)候聽到”.

因此,本文采取以下消歧策略,將“in+n”作狀語同之前的名詞短語區(qū)分開來:

在in前加分隔符“,”將“in+n”與其他部分隔開.如:We have pioneered your new product,

in our market. We have pioneered your new product in our market.消歧結(jié)果見表7.

表7表明,將“in+n”作狀語識別出之后,可以提高機(jī)譯的質(zhì)量(消歧前正確率為22.8%,而消歧后為75.0%).根據(jù)表7,“in+n”表示情況時(shí),是翻譯的難點(diǎn),消歧后的準(zhǔn)確率也只有64.7%.

表7 “n+in+n”消歧結(jié)果Tab.7 Disambiguation results of″n+in+n″pattern

仍有23個(gè)句子,占25%,沒有消解歧義,問題主要有兩種:

(1)所采用的消歧策略對譯文無影響.即采用消歧策略后,得到的譯文與消歧前一致,占總數(shù)的13%.

(2)消歧后,譯文仍錯(cuò),占12%.原因主要在于“in+n”為固定搭配,對機(jī)器翻譯造成困難,如:in the spirit of(本著…的精神),in the absence of(在沒有…的情況下),in the hope of(希望…),in the most effective manner(最有效地)等.

4 結(jié) 論

本文基于系統(tǒng)功能語法,提出了功能名詞短語的概念,并運(yùn)用該功能名詞短語,對英文商務(wù)信函語料進(jìn)行處理.結(jié)果表明,功能名詞短語能夠在名詞短語識別階段消解兩種主要結(jié)構(gòu)歧義:與動(dòng)詞構(gòu)成固定搭配的名詞引起的歧義和“介詞+名詞”結(jié)構(gòu)作狀語引起的歧義.消解這兩種歧義后,機(jī)器翻譯的譯文質(zhì)量有較大提高.實(shí)際上,名詞短語的結(jié)構(gòu)歧義消解問題轉(zhuǎn)化為了功能名詞短語的識別問題.而功能名詞短語的識別,既要考慮名詞短語的結(jié)構(gòu),又要考慮名詞短語的句法功能,限于篇幅將另文深入闡述英語功能名詞短語的自動(dòng)識別.

[1] SINCLAIR J.柯林斯COBUILD英語語法句型2:名詞與形容詞[M].上海:上海外語教育出版社,2000

[2] HALLIDAY M A K.功能語法導(dǎo)論[M].北京:外語教學(xué)研究出版社,2000:106-214

[3] CHURCH K.A stochastic parts program and noun phrase parser for unrestricted text[C]//Proceedings of Second Conference on Applied Natural Language Processing.Austin:Association for Computational Linguistics,1988:136-143

[4] VOUTILAINEN A.NPtool,a detector of English noun phrases[C]//Proceedings of the Workshop on Very Large Corpora:Academic and Industrial Perspectives. Columbus: Association for Computational Linguistics,1993:48-57

[5] RAMSHAW L,MARCUS R.Text chunking using transformation-based learning [C]//Proceedings of the Fourth Workshop on Very Large Corpora.Copenhagen:University of Copenhagen,1995:82-94

[6] ABNEY S.Parsing by chunks[C]//Principal-Based Parsing.Dordrecht:Kluwer Academic Publishers,1991:1-18

[7] SANG E F T K,BUCHHOLZ S.Introduction to the CoNLL-2000shared task:chunking[C]//Proceedings of CoNLL-2000and LLL-2000.Lisbon:Association for Computational Linguistics,2000:127-132

[8] KOEHN P,KNIGHT K.Feature-rich statistical translation of noun phrases[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics.Sapporo:Association for Computational Linguistics,2003:311-318

[9] 周雅倩,郭以昆,黃萱菁,等.基于最大熵方法的中英文基本名詞短語識別[J].計(jì)算機(jī)研究與發(fā)展,2003,40(3):440-446

[10] 梁穎紅,趙鐵軍,岳 琪.英語基本名詞短語識別技術(shù)研究[J].信息技術(shù),2004,28(12):22-24

[11] 呂 琳,劉玉樹.最大熵和Brill方法結(jié)合識別英語BaseNP[J].北京理工大學(xué)學(xué)報(bào),2006,26(6):500-503

[12] 馮 沖,陳肇雄,黃河燕,等.基于條件隨機(jī)域的復(fù)雜最長名詞短語識別[J].小型微型計(jì)算機(jī)系統(tǒng),2006,27(6):1134-1139

[13] 代 翠,周俏麗,蔡東風(fēng),等.統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語最長名詞短語自動(dòng)識別[J].中文信息學(xué)報(bào),2008,22(6):110-115

[14] 錢小飛.以“的”字結(jié)構(gòu)為核心的最長名詞短語識別研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(18):138-141

[15] 馬建軍.英漢機(jī)器翻譯歧義問題分析[J].大連理工大學(xué)學(xué)報(bào)(社會科學(xué)版),2010,31(3):114-119

[16] HORNBY A S. Oxford Advanced Learner′s Dictionary[M].Oxford:Oxford University Press,2000

[17] SINCLAIR J.柯林斯COBUILD英語語法句型1:動(dòng)詞[M].上海:上海外語教育出版社,2000

[18] GEER D.Statistical machine translation gains respect[J].IEEE Computer,2005,38(10):18-21

猜你喜歡
組塊歧義介詞
介詞和介詞短語
組塊理論的解讀及啟示
融入注意力機(jī)制的越南語組塊識別方法
eUCP條款歧義剖析
介詞不能這樣用
組塊構(gòu)詞法研究
English Jokes: Homonyms
陸豐7-2油田導(dǎo)管架平臺上部組塊低位浮托安裝關(guān)鍵技術(shù)
基于關(guān)聯(lián)理論的歧義消除研究
“那么大”的語義模糊與歧義分析
宣城市| 诏安县| 汉寿县| 固镇县| 繁峙县| 疏勒县| 额尔古纳市| 特克斯县| 淄博市| 前郭尔| 屏南县| 兴安盟| 临武县| 改则县| 清河县| 金山区| 苍南县| 青田县| 贵溪市| 勃利县| 浙江省| 双鸭山市| 永康市| 赤峰市| 元阳县| 祁东县| 新沂市| 临洮县| 宝兴县| 舒城县| 昌吉市| 晋江市| 基隆市| 黄石市| 香港 | 惠来县| 泌阳县| 东乌| 彰化县| 九龙城区| 抚顺市|