摘 要: 本文介紹了外貿(mào)函電平行語(yǔ)料庫(kù)的構(gòu)建,重點(diǎn)探討了外貿(mào)函電平行語(yǔ)料庫(kù)中的語(yǔ)塊提取和并列結(jié)構(gòu)處理,使平行語(yǔ)料庫(kù)的外貿(mào)函電機(jī)器翻譯的質(zhì)量得到提高。
關(guān)鍵詞: 平行語(yǔ)料庫(kù) 外貿(mào)函電 機(jī)器翻譯 應(yīng)用
“平行語(yǔ)料”(Parallel Texts)是指使用不同語(yǔ)言撰寫、相互間具有“翻譯關(guān)系”的文本。在計(jì)算語(yǔ)言學(xué)界,它有別于“對(duì)比語(yǔ)料”(Comparable Texts),后者也使用不同的語(yǔ)言撰寫,并且針對(duì)同一主題,但相互之間卻不存在直接的“翻譯關(guān)系”。人類歷史上曾有過各式各樣的平行語(yǔ)料。埃及出土的羅塞塔石碑,其碑文用兩種語(yǔ)言、三種文字刻成,是頗具盛名的古代的平行語(yǔ)料。通過比較石碑上的文字,法國(guó)古代語(yǔ)學(xué)者商博良解讀了古埃及的象形文字。此外,用不同語(yǔ)言對(duì)照書寫的契約協(xié)議、宗教經(jīng)典、文學(xué)作品也在不同的時(shí)期和不同的領(lǐng)域影響著人們的生活。20世紀(jì)50年代末,平行語(yǔ)料開始出現(xiàn)在機(jī)器翻譯研究中。由于當(dāng)時(shí)計(jì)算機(jī)的存儲(chǔ)空間和計(jì)算能力有限,而大量文本數(shù)據(jù)的輸入又相當(dāng)困難,所以平行語(yǔ)料庫(kù)的作用并沒有得到太多的關(guān)注。70年代末期,翻譯資源的收集工作在Xerox PARC、Brigham Young 等研究中心廣泛地開展起來。1987年,Martin Kay 和 Martin Roscheisen 提出了最早的平行語(yǔ)料自動(dòng)對(duì)齊算法。之后各種對(duì)齊方法層出不窮,對(duì)齊后的平行語(yǔ)料也被系統(tǒng)地應(yīng)用到自然語(yǔ)言處理中,包括建立翻譯記憶、編纂詞典和雙語(yǔ)術(shù)語(yǔ)表、跨語(yǔ)言信息檢索、計(jì)算機(jī)輔助教學(xué)、語(yǔ)言對(duì)比研究等。
外貿(mào)函電是國(guó)際貿(mào)易中進(jìn)行業(yè)務(wù)往來的重要工具,屬于專門用途英語(yǔ)的范疇。機(jī)器翻譯(MT)是一項(xiàng)技術(shù),它允許我們用某種語(yǔ)言輸入文本然后由計(jì)算機(jī)將其翻譯為(從其自身的字典資源)另外一種語(yǔ)言。MT的目標(biāo)不是完美的翻譯,事實(shí)上沒有計(jì)算機(jī)能夠做到這一點(diǎn);而是盡可能地向用戶提供其閱讀內(nèi)容的大意。面對(duì)海量的外貿(mào)信函文件,傳統(tǒng)的人工翻譯已不能滿足時(shí)代需要。以Google為典型代表機(jī)器翻譯作為突破語(yǔ)言障礙的重要技術(shù)手段,因其較高的建設(shè)效率和翻譯質(zhì)量得到了越來越多的重視,成為當(dāng)前研究的熱點(diǎn)之一。
1.外貿(mào)函電平行語(yǔ)料庫(kù)的構(gòu)建
外貿(mào)函電是一種相對(duì)比較正式的公務(wù)文書,其一般目的是建立和保持良好的業(yè)務(wù)關(guān)系、獲得或發(fā)布供求信息、達(dá)成合作和交易等。我們構(gòu)建的商務(wù)信函平行語(yǔ)料庫(kù)的語(yǔ)料收集范圍為商務(wù)業(yè)務(wù)信函,分為建立業(yè)務(wù)關(guān)系函、產(chǎn)品推銷函、資信調(diào)查函、詢盤函、發(fā)盤函、還盤函、訂購(gòu)函、銷售確認(rèn)函、簽約函、催證審證函、裝運(yùn)通知函、付款方式函、索賠函、保險(xiǎn)函等,這些信函涉及外貿(mào)活動(dòng)的全過程。在語(yǔ)料庫(kù)語(yǔ)言學(xué)理論的指導(dǎo)下,我們通過初步建立一個(gè)100萬詞次的英漢雙語(yǔ)商務(wù)信函平行語(yǔ)料庫(kù)(包括兩個(gè)子庫(kù):英漢商務(wù)信函平行語(yǔ)料庫(kù),漢英商務(wù)信函平行語(yǔ)料庫(kù))。該庫(kù)為動(dòng)態(tài)的、開放的,可以自動(dòng)獲取服務(wù)于機(jī)器翻譯的知識(shí)資源。
2.外貿(mào)函電平行語(yǔ)料庫(kù)中的語(yǔ)塊提取
語(yǔ)塊提取是近年來語(yǔ)料庫(kù)語(yǔ)言學(xué)和機(jī)器翻譯研究領(lǐng)域的重點(diǎn)課題。濮建忠教授(2003)把“語(yǔ)塊”(chunks)定義為:“語(yǔ)塊(詞塊)是以詞形或詞為基本單位,由連續(xù)或非連續(xù)的兩個(gè)或多個(gè)詞形或詞組合而成的,允許抽象度高于詞的單位出現(xiàn)的,有一定使用頻率、結(jié)構(gòu)相對(duì)完整、能表達(dá)一定意義的,有心理現(xiàn)實(shí)性的語(yǔ)言形式,以整體形式儲(chǔ)存在大腦中,并可作為預(yù)制組塊供人們提取使用的多詞單位。”外貿(mào)函電中的語(yǔ)言大多是具有一定的言語(yǔ)程式或行話,如:Enclosed please find...(隨函附寄……,請(qǐng)查收),cash on delivery(貨到付款)等。Sinclair(1991)認(rèn)為:那些出現(xiàn)頻率高的詞匯串成了英語(yǔ)中基本的語(yǔ)言單位,大約70%的英語(yǔ)語(yǔ)言由存儲(chǔ)于人體大腦的語(yǔ)言板塊構(gòu)成。確定一個(gè)多詞單位是否為語(yǔ)塊,可以從語(yǔ)塊的三個(gè)重要特征加以界定和區(qū)分,即語(yǔ)塊共現(xiàn)的頻率性、語(yǔ)塊儲(chǔ)存和提取的整體性、語(yǔ)塊可記憶的韻律性。我們?cè)谡Z(yǔ)塊理論的指導(dǎo)下,從結(jié)構(gòu)和功能上明確英漢外貿(mào)函電中的語(yǔ)塊特征,從而確定提取的具體對(duì)象。商務(wù)信函語(yǔ)塊可分為4種情況:
(1)多詞詞匯,如:buy cheap and sell dear,firm offer等。
?。?)習(xí)慣搭配,如:...for your reference,an offer subject to...等。
?。?)慣用表達(dá)式,如:As requested,...,Enclosed please find...等。
?。?)句型框架,如:We look forward to hearing from you...等。
為了進(jìn)行商務(wù)信函平行語(yǔ)料庫(kù)中的語(yǔ)塊提取,我們提出了一套特有的提取方法——外貿(mào)函電語(yǔ)塊提取法。
外貿(mào)函電平行語(yǔ)料庫(kù)中的語(yǔ)塊提取是基于實(shí)例的外貿(mào)函電機(jī)器翻譯的重要方法,為進(jìn)一步對(duì)大規(guī)模各種專業(yè)的雙語(yǔ)語(yǔ)料利用計(jì)算機(jī)自動(dòng)提取語(yǔ)塊提出思路和設(shè)想。
3.基于平行語(yǔ)料庫(kù)的外貿(mào)函電機(jī)器翻譯中并列結(jié)構(gòu)的處理
在外貿(mào)函電機(jī)器翻譯研究的探索實(shí)踐中,我們逐漸認(rèn)識(shí)到,單純使用一種方法難以處理自然語(yǔ)言中各種復(fù)雜現(xiàn)象。所以,我們提出了在統(tǒng)計(jì)機(jī)器翻譯基礎(chǔ)上引入特定語(yǔ)法結(jié)構(gòu)的一種方法——并列結(jié)構(gòu)的英漢翻譯轉(zhuǎn)換方法?;谏虅?wù)信函平行語(yǔ)料庫(kù),通過句法分析研究并列結(jié)構(gòu)的形式化構(gòu)成、連接詞的前后管轄范圍、內(nèi)部嵌套情況及并列結(jié)構(gòu)前后臨界搭配的情況,并制定可行句法轉(zhuǎn)換規(guī)則。
并列結(jié)構(gòu)是最普遍的一種復(fù)雜結(jié)構(gòu),它推動(dòng)了句子復(fù)雜化和簡(jiǎn)單化的雙向活動(dòng),但目前的算法對(duì)并列結(jié)構(gòu)的處理錯(cuò)誤比較嚴(yán)重。英語(yǔ)有許多復(fù)雜的句子,它們往往有許多嵌套或者不嵌套的并列結(jié)構(gòu),翻譯系統(tǒng)如果將并列的轄域和層次關(guān)系及前后界限分析錯(cuò)誤,就會(huì)嚴(yán)重影響翻譯的結(jié)果。例如,帶有連接詞“and”的并列結(jié)構(gòu),通過Google翻譯系統(tǒng)的測(cè)試,得到如下譯文:
原文:We all understand that Chinese slippers are very popular in your market for the superior quality and competitive price of their products and service.
譯文:大家都明白,中國(guó)拖鞋在您的市場(chǎng)很受歡迎的高品質(zhì)及他們的產(chǎn)品和服務(wù)競(jìng)爭(zhēng)力的價(jià)格。
分析:該譯句第一個(gè)and的后半部分轄域判斷過長(zhǎng),造成錯(cuò)誤。可以看出統(tǒng)計(jì)機(jī)器翻譯對(duì)并列結(jié)構(gòu)等復(fù)雜結(jié)構(gòu)的處理并不理想。即便是在局部翻譯處理正確的情況下,結(jié)構(gòu)翻譯錯(cuò)誤往往會(huì)造成整體譯文不知所云。我們的研究方法:(1)參照北大雙語(yǔ)語(yǔ)料庫(kù)加工標(biāo)注規(guī)范,利用雙語(yǔ)對(duì)齊軟件及人工校正達(dá)到外貿(mào)函電平行語(yǔ)料庫(kù)的句子級(jí)對(duì)齊。(2)通過基于統(tǒng)計(jì)學(xué)手段尋找測(cè)試語(yǔ)料中的并列結(jié)構(gòu),確定相當(dāng)數(shù)目的測(cè)試集,并按照當(dāng)代語(yǔ)言學(xué)理論及形式化理論對(duì)其分類。(3)將各類測(cè)試集送入Google統(tǒng)計(jì)翻譯系統(tǒng)進(jìn)行翻譯,得出譯文,分析錯(cuò)誤原因,進(jìn)行錯(cuò)誤歸類。(4)將各類測(cè)試集送入基于統(tǒng)計(jì)的句法分析系統(tǒng),分析結(jié)果,制定規(guī)則。
經(jīng)過Standard Parser(經(jīng)典統(tǒng)計(jì)句法分析器)的分析,例句的分析結(jié)果如下:
……
?。≒P (IN for)
?。∟P
(NP (DT the) (JJ superior)
?。ˋDJP (NN quality)
(CC and)
?。↗J competitive))
?。∟N price))
(PP (IN of)
?。∟P (PRP$ their) (NNS products)
(CC and)
?。∟N service)))))……
通過基于統(tǒng)計(jì)的句法分析器進(jìn)行分析,例句中的并列結(jié)構(gòu)分析完全正確。
4.結(jié)語(yǔ)
綜上所述,平行語(yǔ)料庫(kù)在外貿(mào)函電機(jī)器翻譯中的應(yīng)用研究具有多方面的意義。
(1)它是國(guó)家科技支撐子課題HNC機(jī)器翻譯引擎轉(zhuǎn)換處理研究的組成部分,為研制HNC經(jīng)貿(mào)機(jī)器翻譯系統(tǒng)創(chuàng)造必需的條件。
(2)它構(gòu)建的外貿(mào)平行語(yǔ)料庫(kù)為英漢雙語(yǔ)外貿(mào)函電學(xué)習(xí)者、翻譯學(xué)習(xí)者及工作者的研究與學(xué)習(xí)起到輔助作用。
?。?)它構(gòu)建的外貿(mào)函電平行語(yǔ)料庫(kù)中的語(yǔ)塊提取方法,為進(jìn)一步對(duì)大規(guī)模各種專業(yè)的雙語(yǔ)語(yǔ)料利用計(jì)算機(jī)自動(dòng)提取語(yǔ)塊提出思路和設(shè)想。
?。?)語(yǔ)塊提取與并列結(jié)構(gòu)處理為英漢統(tǒng)計(jì)機(jī)器翻譯和機(jī)器輔助翻譯的譯準(zhǔn)率提高起到重要作用。
參考文獻(xiàn):
?。?]馮志偉.機(jī)器翻譯研究[M].北京:中國(guó)對(duì)外翻譯出版公司,2004.
?。?]濮建忠.英語(yǔ)詞匯教學(xué)中的類聯(lián)接、搭配與詞塊[J].外語(yǔ)教學(xué)與研究,2003.6.
?。?]張新紅,李明.商務(wù)英語(yǔ)翻譯[M].北京:高等教育出版社,2003.