馬 建 軍, 黃 德 根
(1.大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2.大連理工大學(xué) 外國語學(xué)院,遼寧 大連 116024)
在英語語言中,名詞短語的結(jié)構(gòu)非常復(fù)雜.英語名詞短語結(jié)構(gòu)中可以包含多個(gè)修飾語和中心詞,結(jié)構(gòu)關(guān)系具有可變性、不確定性,因而極易產(chǎn)生歧義.根據(jù)傳統(tǒng)語法對名詞短語的定義,名詞短語可以是一個(gè)名詞,也可包括名詞之前名詞的限定詞、形容詞或其他修飾語,還包括名詞之后的介詞短語或關(guān)系從句,還可以是一個(gè)代詞[1].同時(shí),名詞短語在句子中具有豐富的句法功能:可以作主語;可以作動(dòng)詞賓語;可以放在小品詞后,作介詞賓語;可以作補(bǔ)足語,補(bǔ)充說明主語或賓語;可以與介詞搭配作狀語.Halliday的系統(tǒng)功能語法[2]將這些句法功能概括為主語(subject)、補(bǔ)語(complement)和狀語(adjunct).另外,名詞短語還與動(dòng)詞構(gòu)成搭配,如take part in(參加)等,成為謂語動(dòng)詞不可分割的一部分.若能確定這些句法功能,就能提高句法分析的正確率,提高機(jī)器翻譯的質(zhì)量.但是目前的英語名詞短語研究主要以名詞短語的結(jié)構(gòu)來定義名詞短語,而沒有考慮名詞短語的句法功能.
Church[3]利用統(tǒng)計(jì)方法進(jìn)行名詞短語的識別,Voutilainen[4]設(shè) 計(jì) 了 名 詞 短 語 識 別 系 統(tǒng)NPtool,但是這兩種方法識別的名詞短語非常簡單,甚至不包括名詞前的修飾成分;Ramshaw等[5]提出了基本名詞短語(以下簡稱baseNP)的概念,把名詞之前的修飾語包含在名詞短語中.baseNP指非嵌套名詞短語,即不包含其他任何名詞短語的名詞短語.Ramshaw等采用了Abney[6]關(guān)于組塊的定義,將組塊分為名詞類組塊(即基本名詞短語)和動(dòng)詞類組塊兩大類,把介詞及其賓語構(gòu)成的介詞短語歸為名詞類組塊.CoNLL-2000[7]將組塊識別作為共享任務(wù),定義了英語中11種基本組塊,其中名詞短語組塊與baseNP的定義十分類似,主要將修飾名詞的形容詞短語歸入名詞短語組塊,但是不包括名詞的后置定語.同時(shí),介詞短語(PP)作為單獨(dú)的組塊列出.值得一提的是,這里的PP并不是Halliday所定義的介詞短語(prepositional phrase)(介詞+名詞),而是介詞詞組(preposition group)[2],即指介詞本身,或由多個(gè)介詞組成的介詞短語,如because of,such as,due to,或由副詞修飾的介詞短語,如well above,just after,even in.此外,還將動(dòng)詞小品詞作為單獨(dú)的組塊列出,與介詞進(jìn)行了區(qū)分.
Koehn等[8]在研究德英機(jī)器翻譯時(shí),提出了一種面向統(tǒng)計(jì)機(jī)器翻譯的最長名詞短語(本文以下簡稱maxNP)的定義,把名詞后的修飾語包含在名詞短語中.其定義如下:給定一個(gè)句子s和它的句法分析樹t,一個(gè)名詞短語是t的一棵子樹,它至少包含一個(gè)名詞而不包含動(dòng)詞,并且不被更大的包含名詞并且不包含動(dòng)詞的子樹包含.實(shí)際上,maxNP是名詞短語和介詞短語的組合,將名詞短語之后的介詞短語合并到名詞短語中.這里的介詞短語是真正意義的介詞短語,即介詞+名詞.與baseNP相比,maxNP將名詞的后置定語與名詞結(jié)合起來,簡化了翻譯過程;但是卻沒有將介詞和結(jié)構(gòu)詞區(qū)分開來.baseNP和maxNP都沒有將“介詞+名詞”作狀語的結(jié)構(gòu)區(qū)分出來.
國內(nèi)對英語名詞短語的研究主要集中在基本名詞短語的自動(dòng)識別[9~11],而最長名詞短語的識別研究多以漢語為主[12~14].
本文根據(jù)名詞短語的句法功能,提出一種新的名詞短語——功能名詞短語(以下簡稱funNP).首先闡述名詞短語引起的結(jié)構(gòu)歧義問題,提出功能名詞短語的定義,同時(shí)與基本名詞短語和最長名詞短語相比較;應(yīng)用Google在線翻譯系統(tǒng)對英語商務(wù)信函語料翻譯,分析其譯文,對其中的功能名詞短語進(jìn)行處理,以解決結(jié)構(gòu)歧義引起的翻譯錯(cuò)誤.
文獻(xiàn)[15]研究了英漢機(jī)器翻譯中的歧義問題,發(fā)現(xiàn)動(dòng)詞與介詞搭配、介詞與名詞搭配做定語或狀語,極易引起歧義.這些結(jié)構(gòu)歧義都是由一個(gè)結(jié)構(gòu)引起的,即“baseNP1+介詞+baseNP2”結(jié)構(gòu).
本文將名詞短語結(jié)構(gòu)歧義概括如下:
(1)baseNP1與前面的動(dòng)詞是否構(gòu)成固定搭配?
例1 How many countries took part in the last Olympic Games?(文獻(xiàn)[16]的P922)(參考譯文:多少個(gè)國家參加了上屆奧林匹克運(yùn)動(dòng)會?)
在該句中,take part in是固定搭配,構(gòu)成句子的謂語動(dòng)詞.因此不能將part in the last Olympic Games識別為NP來理解.
(2)介詞是否與動(dòng)詞構(gòu)成固定搭配,成為小品詞?
例2 You tie the rope in knots.(文獻(xiàn)[17]的P381)(參考譯文:你把繩子系成結(jié).)
在該句中,in是由動(dòng)詞tie決定,是小品詞(particle),knots是介詞in的補(bǔ)語,in knots表明結(jié)果.
(3)介詞+baseNP2是baseNP1的后置定語還是句子的狀語?
例3 He is getting pains in his back.(文獻(xiàn)[1]的P169)(參考譯文:他后背疼.)
在該句中,in his back作后置定語(post modifier),表明疼痛的部位.
例4 I have described this case in detail.(文獻(xiàn)[1]的P286)(參考譯文:我詳細(xì)地?cái)⑹隽诉@件事.)
在該句中,in detail作狀語(adjunct),表示方式.
基于系統(tǒng)功能語法[2],本文將功能名詞短語的句法功能歸納為主語、補(bǔ)語和狀語.
功能名詞短語定義如下:功能名詞短語是指在句中作主語、補(bǔ)語和狀語,且至少含有一個(gè)名詞但不包含動(dòng)詞的短語.即功能名詞短語含有可嵌套的結(jié)構(gòu),主要包括名詞詞組(nominal group)、介詞短語(prepositional phrase)和“形容詞+介詞”短語3種結(jié)構(gòu).
其邏輯結(jié)構(gòu)如下:
(1)名詞詞組:“前置修飾語 + 名詞 + 后置修飾語”。其中:前置修飾語可以是限定詞、數(shù)詞、形容詞或名詞;名詞包括普通名詞或代詞或?qū)S忻~;后置修飾語可以是介詞+名詞詞組結(jié)構(gòu)或形容詞;前置修飾語和后置修飾語不是必須的結(jié)構(gòu).
(2)介詞短語:“介詞+名詞詞組”.
(3)“形容詞+介詞”短語:“形容詞+介詞+名詞詞組”.
該定義不包括與動(dòng)詞構(gòu)成固定搭配的名詞短語,從翻譯角度,將與動(dòng)詞構(gòu)成固定搭配的名詞歸入動(dòng)詞短語(VP)會更合適.如“take part in+n(參加)”中的part不是名詞短語,take part in構(gòu)成動(dòng)詞短語,定義為VP.如果將part in+n定義為NP,則往往會譯為“…的一部分”,而引起歧義.
同理,在“be+adj+prep+n”結(jié)構(gòu)中,如be interested in+n(對…感興趣),be interested in的句法功能相當(dāng)于謂語動(dòng)詞,本文將be interested in定義為VP,其后的n才定義為NP.其他情況的adj+prep+n結(jié)構(gòu),如free from charge(免費(fèi)),往往在句子中作補(bǔ)語,則定義為NP.
上述例1~4的funNP識別、功能塊表達(dá)式、句法功能表達(dá)式見表1.
表2從介詞、小品詞、“介詞+名詞”作定語、“介詞+名詞”作狀語和與動(dòng)詞構(gòu)成固定搭配的名詞5個(gè)方面概括了3個(gè)定義的主要區(qū)別,表3比較了3種方法的識別結(jié)果.結(jié)果表明,funNP不同于baseNP和maxNP,是介于baseNP和maxNP的一個(gè)短語概念;funNP識別在理論上能解決上述結(jié)構(gòu)歧義問題,且效果優(yōu)于baseNP和maxNP識別.
表2表明,baseNP和maxNP都沒有將“介詞+名詞”作狀語和與動(dòng)詞構(gòu)成固定搭配的名詞區(qū)分出來,這對機(jī)器翻譯造成了一定的難度.
表3表明,funNP識別能夠在識別階段區(qū)分4種歧義情況,而baseNP和maxNP識別則不能完全區(qū)分這4種情況.
根據(jù)表3,funNP識別針對4個(gè)例句有3種不同句法功能表達(dá)式,所識別的名詞短語模式也不同,且不同于baseNP和maxNP識別.例1表明take part in是固定搭配;例2表明in是動(dòng)詞tie的小品詞;例3將in歸入到名詞詞組中而例4將maxNP識別中的NP拆分成2個(gè)短語,并且表明in不是動(dòng)詞describe的小品詞,成功地區(qū)分了動(dòng)詞+名詞固定搭配、小品詞、后置定語和狀語.這些都將大大簡化之后的翻譯過程.
表1 funNP分析Tab.1 The analysis of funNP
表2 baseNP、maxNP和funNP的定義比較Tab.2 The definition comparison of baseNP,maxNP and funNP
表3 baseNP、maxNP和funNP識別比較Tab.3 The recognition comparison between baseNP,maxNP and funNP
而baseNP識別只區(qū)分出小品詞,至于介詞+名詞作后置定語還是狀語,在識別階段還不明確,需要在翻譯過程中進(jìn)行大量的組塊重組.maxNP識別對于4個(gè)例子句法功能表達(dá)式一模一樣,尤其未能區(qū)分固定搭配、介詞和小品詞.這會引起歧義,以例2為例,若將例2中the rope in knots翻譯成短語,很可能得到“結(jié)繩”或“結(jié)的繩索”,造成翻譯錯(cuò)誤.
名詞短語識別只是機(jī)器翻譯的一個(gè)子系統(tǒng),識別效果還是要通過具體的翻譯結(jié)果才能體現(xiàn).因此本文選擇Google機(jī)譯系統(tǒng)來進(jìn)行譯文質(zhì)量分析.Google是基于統(tǒng)計(jì)機(jī)器翻譯的代表性機(jī)譯系統(tǒng).2005年NIST機(jī)器翻譯評測結(jié)果表明,Google在所有4項(xiàng)測評中均名列第一[18].
所選擇的語料來自自建的有3 000個(gè)雙語句對的商務(wù)信函雙語語料庫.對譯文質(zhì)量從兩個(gè)方面進(jìn)行分析:一是與動(dòng)詞構(gòu)成固定搭配的名詞歧義問題,二是“介詞+名詞”作狀語的歧義問題.這兩個(gè)問題是baseNP和maxNP識別未能處理的問題,也是funNP識別試圖解決的關(guān)鍵問題.
采用funNP的定義進(jìn)行消歧處理,比較消歧前后的結(jié)果.正確率A=翻譯正確的句子數(shù)/句子總數(shù)×100%,每個(gè)句子只觀察一個(gè)歧義問題.
本文選擇沒有確切意義的3個(gè)動(dòng)詞make、take、place進(jìn)行分析.對商務(wù)信函雙語語料庫進(jìn)行搜索,找出所有含有3個(gè)動(dòng)詞的固定搭配,并進(jìn)行分類,共得出74種不同搭配,具體分類見表4.
表4 動(dòng)詞固定搭配測試語料Tab.4 Testing data of VP pattern
將74個(gè)句子輸入到Google在線翻譯系統(tǒng),人工統(tǒng)計(jì)固定搭配的翻譯結(jié)果,發(fā)現(xiàn)問題主要在于與動(dòng)詞形成固定搭配的名詞沒有被識別出來,卻與之后的介詞短語合并,形成名詞短語,引起歧義.如:
句子:One of our clients takes interest in your products.
Google譯文:我們的一位客戶發(fā)生在你的產(chǎn)品的興趣.
參考譯文:我們的一位客戶對你們的產(chǎn)品感興趣.
在該句中,take interest in本是固定搭配,意為“對…感興趣”,take interest相當(dāng)于動(dòng)詞,in是動(dòng)詞結(jié)構(gòu)詞,無意義.而在Google譯文中,卻將interest并入in your products,將take譯成“發(fā)生”,將“interest in your products”譯成“在你的產(chǎn)品的興趣”,造成翻譯錯(cuò)誤.這是個(gè)很常見的固定搭配,對機(jī)器翻譯卻形成困擾.
因此,funNP識別將這種搭配中的名詞定義為VP的一部分,而不單獨(dú)形成NP.據(jù)此,本文設(shè)計(jì)了5種消歧方法,其目的就是實(shí)現(xiàn)這種搭配的VP識別.
(a)取名詞的動(dòng)詞形式替代短語.如:arrange make arrangements.
(b)取名詞的形容詞形式替代短語.如:be interested in take interest in.
(c)取同義的動(dòng)詞替代短語.如:examine take a look at.
(d)取同義的動(dòng)詞短語替代短語.如:order the goods place an order.(注:消歧時(shí),必須將其后的介詞短語等成分刪去,否則又變成名詞+介詞,造成結(jié)構(gòu)歧義.該方法最適合具有許多語義的動(dòng)詞多義詞,如order.沒有名詞作賓語,很難判斷動(dòng)詞的含義,會引起新的歧義問題.)
(e)在名詞后加分隔符“,”將短語與其他部分隔開.如:place the order,on the understanding that place the order on the understanding that.
譯文質(zhì)量和消歧結(jié)果見表5.
表5 動(dòng)詞固定搭配消歧結(jié)果Tab.5 Disambiguation results of VP pattern
表5表明,應(yīng)用funNP的定義,大幅度地提高了譯文質(zhì)量,正確率從之前的39.2%提高到93.2%.在3個(gè)動(dòng)詞中,place+n是難點(diǎn),尤其是place+order,如:place regular orders,place a trial order,place a further order,place a substantial order,place a large order,place a first order,place an order,place orders,place a further and large order,place another order等.沒有解決的問題主要包含下列5個(gè)名詞:make offers,make shipment,make an allowance on,make an order for,place insurance中的“offer,shipment,allowance,order,insurance”.這些名詞是多義詞,且所對應(yīng)的動(dòng)詞“offer,ship,allow,order,insure”也是多義詞,且很難找到具有相同用法的同義動(dòng)詞或動(dòng)詞短語,因此在實(shí)驗(yàn)中沒能消解歧義.
本文選擇介詞in進(jìn)行分析.“in+n”結(jié)構(gòu),既可能作之前名詞的后置定語,也可能作狀語,很容易引起結(jié)構(gòu)歧義.本文對商務(wù)信函雙語語料庫進(jìn)行搜索,找出所有含有“n+in+n”結(jié)構(gòu),且“in+n”作狀語的句子,并進(jìn)行分類,得出表示地點(diǎn)、時(shí)間、情況、方式和目的等5類狀語,合計(jì)92個(gè)測試句子,具體信息見表6.
表6 “n+in+n”測試語料Tab.6 Testing data of″n+in+n″pattern
將92個(gè)句子輸入到Google在線翻譯系統(tǒng),人工統(tǒng)計(jì)“in+n”的翻譯結(jié)果,發(fā)現(xiàn)問題主要在于“in+n”作狀語沒有被識別出來,卻被當(dāng)作后置定語,修飾之前的名詞,造成歧義.如:
句子:We look forward to hearing a favorable reply from you in due course.
Google譯文:我們期待著聽到您在適當(dāng)?shù)臅r(shí)候有利的答復(fù).
參考譯文:希望在適當(dāng)?shù)臅r(shí)候聽到貴方的好消息.
可以看出,Google在翻譯該句時(shí),將a favorable reply from you in due course作為一個(gè)NP進(jìn)行翻譯,將in due course看做reply的定語,譯成“在適當(dāng)?shù)臅r(shí)候有利的答復(fù)”,而沒有考慮到in due course是狀語,修飾動(dòng)詞hear,應(yīng)譯為“在適當(dāng)?shù)臅r(shí)候聽到”.
因此,本文采取以下消歧策略,將“in+n”作狀語同之前的名詞短語區(qū)分開來:
在in前加分隔符“,”將“in+n”與其他部分隔開.如:We have pioneered your new product,
in our market. We have pioneered your new product in our market.消歧結(jié)果見表7.
表7表明,將“in+n”作狀語識別出之后,可以提高機(jī)譯的質(zhì)量(消歧前正確率為22.8%,而消歧后為75.0%).根據(jù)表7,“in+n”表示情況時(shí),是翻譯的難點(diǎn),消歧后的準(zhǔn)確率也只有64.7%.
表7 “n+in+n”消歧結(jié)果Tab.7 Disambiguation results of″n+in+n″pattern
仍有23個(gè)句子,占25%,沒有消解歧義,問題主要有兩種:
(1)所采用的消歧策略對譯文無影響.即采用消歧策略后,得到的譯文與消歧前一致,占總數(shù)的13%.
(2)消歧后,譯文仍錯(cuò),占12%.原因主要在于“in+n”為固定搭配,對機(jī)器翻譯造成困難,如:in the spirit of(本著…的精神),in the absence of(在沒有…的情況下),in the hope of(希望…),in the most effective manner(最有效地)等.
本文基于系統(tǒng)功能語法,提出了功能名詞短語的概念,并運(yùn)用該功能名詞短語,對英文商務(wù)信函語料進(jìn)行處理.結(jié)果表明,功能名詞短語能夠在名詞短語識別階段消解兩種主要結(jié)構(gòu)歧義:與動(dòng)詞構(gòu)成固定搭配的名詞引起的歧義和“介詞+名詞”結(jié)構(gòu)作狀語引起的歧義.消解這兩種歧義后,機(jī)器翻譯的譯文質(zhì)量有較大提高.實(shí)際上,名詞短語的結(jié)構(gòu)歧義消解問題轉(zhuǎn)化為了功能名詞短語的識別問題.而功能名詞短語的識別,既要考慮名詞短語的結(jié)構(gòu),又要考慮名詞短語的句法功能,限于篇幅將另文深入闡述英語功能名詞短語的自動(dòng)識別.
[1] SINCLAIR J.柯林斯COBUILD英語語法句型2:名詞與形容詞[M].上海:上海外語教育出版社,2000
[2] HALLIDAY M A K.功能語法導(dǎo)論[M].北京:外語教學(xué)研究出版社,2000:106-214
[3] CHURCH K.A stochastic parts program and noun phrase parser for unrestricted text[C]//Proceedings of Second Conference on Applied Natural Language Processing.Austin:Association for Computational Linguistics,1988:136-143
[4] VOUTILAINEN A.NPtool,a detector of English noun phrases[C]//Proceedings of the Workshop on Very Large Corpora:Academic and Industrial Perspectives. Columbus: Association for Computational Linguistics,1993:48-57
[5] RAMSHAW L,MARCUS R.Text chunking using transformation-based learning [C]//Proceedings of the Fourth Workshop on Very Large Corpora.Copenhagen:University of Copenhagen,1995:82-94
[6] ABNEY S.Parsing by chunks[C]//Principal-Based Parsing.Dordrecht:Kluwer Academic Publishers,1991:1-18
[7] SANG E F T K,BUCHHOLZ S.Introduction to the CoNLL-2000shared task:chunking[C]//Proceedings of CoNLL-2000and LLL-2000.Lisbon:Association for Computational Linguistics,2000:127-132
[8] KOEHN P,KNIGHT K.Feature-rich statistical translation of noun phrases[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics.Sapporo:Association for Computational Linguistics,2003:311-318
[9] 周雅倩,郭以昆,黃萱菁,等.基于最大熵方法的中英文基本名詞短語識別[J].計(jì)算機(jī)研究與發(fā)展,2003,40(3):440-446
[10] 梁穎紅,趙鐵軍,岳 琪.英語基本名詞短語識別技術(shù)研究[J].信息技術(shù),2004,28(12):22-24
[11] 呂 琳,劉玉樹.最大熵和Brill方法結(jié)合識別英語BaseNP[J].北京理工大學(xué)學(xué)報(bào),2006,26(6):500-503
[12] 馮 沖,陳肇雄,黃河燕,等.基于條件隨機(jī)域的復(fù)雜最長名詞短語識別[J].小型微型計(jì)算機(jī)系統(tǒng),2006,27(6):1134-1139
[13] 代 翠,周俏麗,蔡東風(fēng),等.統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語最長名詞短語自動(dòng)識別[J].中文信息學(xué)報(bào),2008,22(6):110-115
[14] 錢小飛.以“的”字結(jié)構(gòu)為核心的最長名詞短語識別研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(18):138-141
[15] 馬建軍.英漢機(jī)器翻譯歧義問題分析[J].大連理工大學(xué)學(xué)報(bào)(社會科學(xué)版),2010,31(3):114-119
[16] HORNBY A S. Oxford Advanced Learner′s Dictionary[M].Oxford:Oxford University Press,2000
[17] SINCLAIR J.柯林斯COBUILD英語語法句型1:動(dòng)詞[M].上海:上海外語教育出版社,2000
[18] GEER D.Statistical machine translation gains respect[J].IEEE Computer,2005,38(10):18-21