張翼翼 董淑欣 楊會(huì)蘭
(中國(guó)地質(zhì)大學(xué),北京100083)
優(yōu)化地學(xué)詞匯標(biāo)注方案 奠定完善地質(zhì)語(yǔ)料庫(kù)基礎(chǔ)*
張翼翼 董淑欣 楊會(huì)蘭
(中國(guó)地質(zhì)大學(xué),北京100083)
在地學(xué)文獻(xiàn)翻譯實(shí)踐過(guò)程中,筆者通過(guò)Google在線翻譯提供的譯文,結(jié)合地質(zhì)專業(yè)詞匯的特點(diǎn),分析基于語(yǔ)料庫(kù)的機(jī)器翻譯系統(tǒng)存在的一些典型問(wèn)題。同時(shí),從優(yōu)化詞匯標(biāo)注方案角度對(duì)語(yǔ)料處理提出建議,借此提升地學(xué)文獻(xiàn)的機(jī)器翻譯質(zhì)量,為構(gòu)建地學(xué)領(lǐng)域的專用型語(yǔ)料庫(kù)奠定基礎(chǔ)。
語(yǔ)料庫(kù);詞匯;標(biāo)注
關(guān)于語(yǔ)料庫(kù)的定義,Atkins 和Clear認(rèn)為,語(yǔ)料庫(kù)是為專門(mén)目的、按照明確設(shè)計(jì)標(biāo)準(zhǔn)收集的文章集合(Granger 1998:7)。該定義包含3個(gè)方面:(1)建構(gòu)語(yǔ)料庫(kù)具有專門(mén)的目的;(2)語(yǔ)料庫(kù)具有明確的設(shè)計(jì)標(biāo)準(zhǔn);(3)語(yǔ)料庫(kù)是由文章組成的集合(王建新 2005:16)。也就是說(shuō),語(yǔ)料庫(kù)由自然出現(xiàn)的語(yǔ)言樣本匯集而成,是為語(yǔ)言研究而收集并用電子形式保存的語(yǔ)言材料。
計(jì)算機(jī)技術(shù)迅速發(fā)展,使包含廣泛自然語(yǔ)料的語(yǔ)料庫(kù)得以建立。語(yǔ)料庫(kù)不僅對(duì)詞匯學(xué)、翻譯、語(yǔ)言教學(xué)等研究有巨大促進(jìn)作用,而且對(duì)機(jī)器翻譯軟件、信息提取軟件、拼寫(xiě)檢查軟件的發(fā)展具有重大的推動(dòng)作用,語(yǔ)料庫(kù)方法也因此成為自然語(yǔ)言處理的重要方法(王建新2005:4)。
近年來(lái),計(jì)算機(jī)語(yǔ)料庫(kù)對(duì)自然語(yǔ)言處理的各個(gè)不同方面(如話語(yǔ)識(shí)別、人機(jī)對(duì)話、信息提取、網(wǎng)頁(yè)分類、機(jī)器翻譯、文字處理等)都顯得極為重要,而且極具潛力,這已經(jīng)得到國(guó)際計(jì)算語(yǔ)言學(xué)界的廣泛認(rèn)可(王建新 2005:3)。但是,基于語(yǔ)料庫(kù)的機(jī)器翻譯的效果仍然不夠理想,尤其是涉及到具有專業(yè)背景和行業(yè)特色的相關(guān)文獻(xiàn)時(shí),這種不理想體現(xiàn)得更加明顯。
目前,地學(xué)領(lǐng)域的中英文語(yǔ)料庫(kù)還未完全建立,作為專用型語(yǔ)料庫(kù),地質(zhì)語(yǔ)料庫(kù)是專門(mén)為地學(xué)領(lǐng)域的科研、教學(xué)、教材編寫(xiě)以及語(yǔ)言比較研究而收集的文章集合,其取樣的文本應(yīng)該力求代表地學(xué)環(huán)境中的英語(yǔ)語(yǔ)言及其變體。語(yǔ)料庫(kù)中除了大量地學(xué)信息有助于提升機(jī)器翻譯質(zhì)量之外,相應(yīng)語(yǔ)料處理尤其是詞匯標(biāo)注(附碼)在很大程度上決定著翻譯質(zhì)量的高低。因此,本文以節(jié)選自Long-termpersistenceofoilfromtheExxonValdezspillintwo-layerbeaches(NatureGeoscience)的片段為例,說(shuō)明如何通過(guò)優(yōu)化語(yǔ)料庫(kù)詞匯的標(biāo)注方案,提升地學(xué)文獻(xiàn)的機(jī)器翻譯質(zhì)量,為完善地學(xué)領(lǐng)域的專用型語(yǔ)料庫(kù)奠定基礎(chǔ)。
原文:Oil spilled from the tanker Exxon Valdez in 1989 (refs 1, 2) persists in the subsurface of gravel beaches in Prince William Sound, Alaska. / The contamination includes considerable amounts of chemicals that are harmful to the local fauna 3. / However, remediation of the beaches was stopped in 1992, because it was assumed that the disappearance rate of oil was large enough to ensure a complete removal of oil within a few years. / Here we present field data and numerical simulations of a two-layered beach with a small freshwater recharge in the contaminated area, where a high-permeability upper layer is underlain by a low-permeability lower layer.
利用Google 提供的在線翻譯譯文:石油從油輪,??松驹?989年瓦爾迪茲(文獻(xiàn)1,2)瀉堅(jiān)持在阿拉斯加州威廉王子灣,礫石的海灘地下。/ 污染向當(dāng)?shù)貏?dòng)物都是有害的化學(xué)物質(zhì),包括相當(dāng)數(shù)量。/ 然而,泳灘的整治是在1992年停止,因?yàn)樗羌僭O(shè)石油的消失率足夠大,以確保在幾年之內(nèi)徹底清除的石油。這里我們提出一個(gè)兩層的海灘,在污染區(qū),其中一個(gè)高滲透率的上層是由一個(gè)低滲透率較低層之下的小淡水補(bǔ)給領(lǐng)域的數(shù)據(jù)和數(shù)值模擬。
在討論之前,首先看機(jī)器翻譯的基本模式(巢文涵 2008:9):
從圖中可以看出,處理語(yǔ)料庫(kù)中的詞匯在機(jī)器翻譯中扮演著重要角色。Google提供的在線翻譯將remediation,removal分別譯為“整治”、“清除”,這說(shuō)明機(jī)器翻譯系統(tǒng)針對(duì)某些詞匯能根據(jù)整個(gè)語(yǔ)篇進(jìn)行意義層面的對(duì)齊,然而對(duì)另外一些詞匯的釋義卻不夠理想。例如,將persist譯為“堅(jiān)持”,是由于受到后面介詞in的影響。英文單詞persist既有 “堅(jiān)持做某事”的釋義,也有“持續(xù)/存留”的釋義。Google在線翻譯使用的翻譯系統(tǒng)對(duì)語(yǔ)料庫(kù)中persist進(jìn)行詞類自動(dòng)標(biāo)注時(shí),依據(jù)局部上下文線索(王建新 2005:180)區(qū)分persist的兩種含義,致使in及其后面單詞的詞性成為區(qū)分兩種不同意義的關(guān)鍵。其實(shí),原文中的in是地點(diǎn)狀語(yǔ)的一部分,與后面的名詞關(guān)系密切,與前面的動(dòng)詞關(guān)系松散,并不代表persist in doing sth中的in,因此persist應(yīng)該翻譯為“存留”而非“堅(jiān)持”。有鑒于此,標(biāo)注詞匯時(shí)是將詞組拆開(kāi)還是另覓其他組合方式,有賴于句法規(guī)則和出現(xiàn)頻率。
受到固定搭配影響的例子還包括將assumed錯(cuò)誤地翻譯為“假設(shè)”,而沒(méi)有視其為常常出現(xiàn)在科技文章中的習(xí)慣性用法,正確地將it is assumed that翻譯成“人們認(rèn)為”。語(yǔ)料庫(kù)中的詞匯大部分是一個(gè)一個(gè)被標(biāo)注的,而特定語(yǔ)言環(huán)境要求靈活地將幾個(gè)單詞標(biāo)注為一個(gè)整體,這往往成為機(jī)器翻譯的死角。
再如,由于忽略地質(zhì)英語(yǔ)詞匯的特點(diǎn),將field data直譯為“領(lǐng)域上的數(shù)據(jù)”。這說(shuō)明現(xiàn)有語(yǔ)料庫(kù)對(duì)地學(xué)領(lǐng)域的語(yǔ)料收集不足,單詞釋義也缺乏融合專業(yè)背景的詳盡標(biāo)注。許多術(shù)語(yǔ)雖然由日常詞匯構(gòu)成,卻有別于常規(guī)用法,不可“望詞生義”,更不能將兩個(gè)單詞的詞義簡(jiǎn)單疊加:field data 應(yīng)該譯為“野外數(shù)據(jù)”,field moisture 應(yīng)該譯為“土壤水分”,field capacity 應(yīng)該譯為“田間持水量”,oil field 應(yīng)該譯為“油田”。其他的例子還包括:ground water不是“地上的水”而是“地下水”,guide fossil不是“指導(dǎo)化石”而是“標(biāo)準(zhǔn)化石”,induced fracture 不是“引導(dǎo)裂縫”而是“次生裂縫”,oil recovery 不是“油恢復(fù)”而是“采油”,pressure buildup 不是“壓力增加”而是“壓力恢復(fù)”(何大順 2007)。
高璞等(2009)認(rèn)為,地質(zhì)英語(yǔ)詞匯的特點(diǎn)按照構(gòu)成方式的不同可以分為:(1)本專業(yè)特有的詞匯,如geology(地質(zhì)學(xué))、mineral (礦石) 和dinosaur(恐龍);(2)與其他專業(yè)共有的詞匯,如reservoir(水力專業(yè))譯為“水庫(kù)”、plat form (交通專業(yè))譯為“站臺(tái)”;(3)與日常生活共用的詞匯,如fault (平時(shí)譯為“缺點(diǎn)”,地質(zhì)含義為“斷層”)、basin(平時(shí)譯為“盆或者臉盆”,地質(zhì)含義為“盆地或者流域”)、shear(平時(shí)譯為“剪切”,地質(zhì)含義為“受剪切破壞的面或者帶”)、graduate(平時(shí)譯為“畢業(yè)或者畢業(yè)生”,地質(zhì)含義為“刻度”)、envelope(平時(shí)譯為“封皮”,地質(zhì)含義為“圍巖”)、horizon(平時(shí)譯為“地平線”,地質(zhì)含義為“層位”)、joint(平時(shí)譯為“接頭”,地質(zhì)含義為“節(jié)理”)。顯然,上述因素會(huì)加大語(yǔ)料庫(kù)構(gòu)建過(guò)程中詞匯的標(biāo)注難度。
即便都是地學(xué)的相關(guān)文獻(xiàn),由于細(xì)分的專業(yè)不同,同一單詞會(huì)呈現(xiàn)出不同含義,這使得詞匯的標(biāo)注過(guò)程更加復(fù)雜。例如,earth core 在普通地質(zhì)學(xué)中譯為“地核”,rare earth在能源地質(zhì)學(xué)中譯為“稀有金屬”,earth slide在工程地質(zhì)學(xué)中譯為“滑坡”(林徹 1983)。有時(shí)候,同一詞匯的含義在不同學(xué)科的地質(zhì)著作中大相徑庭。例如,當(dāng)trap與地層、構(gòu)造、沉積作用有關(guān)時(shí),譯為“圈閉”;與石油有關(guān)時(shí),譯為“油捕”;與火山巖有關(guān)時(shí),則譯為“暗色巖”。又如,deposit與各種礦產(chǎn)、礦床類型的術(shù)語(yǔ)以及專有名詞Noranda,Quemont,Jerome 等連用時(shí),通常譯為“礦床”,而與表示各種沉積巖類型的術(shù)語(yǔ)聯(lián)用時(shí)則譯為“沉積”。不僅如此,某些詞的單、復(fù)數(shù)形式也影響單詞的含義,例如,單數(shù)compass 譯為“羅盤(pán)”,復(fù)數(shù)compasses 則譯為“圓規(guī)”;單數(shù)earth譯為“地球”,復(fù)數(shù)earths譯為“土族金屬”;單數(shù)fold譯為“褶曲”,復(fù)數(shù)folds譯為“褶皺”;單數(shù)scale譯為“比例尺”,復(fù)數(shù)scales譯為“天平”(尹麗莉 2009)。遺憾的是,目前機(jī)器翻譯系統(tǒng)尚不能識(shí)別、區(qū)分這些詞匯及其形式所表意義上的細(xì)微差別。
綜上所述,我們應(yīng)該加大帶有行業(yè)背景的專業(yè)語(yǔ)料的收集力度,為完善地學(xué)領(lǐng)域的專用型語(yǔ)料庫(kù)奠定堅(jiān)實(shí)的“物質(zhì)基礎(chǔ)”。而語(yǔ)料庫(kù)中的詞匯是否能夠被合理地標(biāo)注,則成為語(yǔ)料庫(kù)構(gòu)建的重中之重。筆者認(rèn)為,對(duì)于經(jīng)常用到的固定搭配,要根據(jù)科技文獻(xiàn)的寫(xiě)作特點(diǎn),用整體標(biāo)注替代分別標(biāo)注;若通過(guò)機(jī)器翻譯系統(tǒng)的自動(dòng)標(biāo)注軟件難以實(shí)現(xiàn)詞間“整合”,則在必要時(shí)采取自動(dòng)標(biāo)注后的人工核對(duì)或者人工標(biāo)注;對(duì)于容易產(chǎn)生歧義的詞匯,要基于規(guī)則和概率結(jié)合的方法,根據(jù)上下文和專業(yè)排除可能的歧義。
實(shí)際上,除了可以通過(guò)改進(jìn)詞匯的標(biāo)注方式來(lái)實(shí)現(xiàn)語(yǔ)料庫(kù)的維護(hù)和升級(jí)外,語(yǔ)料本身的質(zhì)量也決定著機(jī)器翻譯的質(zhì)量。這要求在收集語(yǔ)料時(shí),既要保證收錄高質(zhì)量的源語(yǔ)言語(yǔ)料,又要保證收錄相應(yīng)的高質(zhì)量譯文,如此,才能為語(yǔ)料的后期處理提供更多方便。
巢文涵.基于雙語(yǔ)語(yǔ)料庫(kù)的機(jī)器翻譯關(guān)鍵技術(shù)研究[D]. 國(guó)防科學(xué)技術(shù)大學(xué)博士學(xué)位論文, 2008.
陳群秀.計(jì)算機(jī)輔助翻譯系統(tǒng)漫談[Z].第十一屆全國(guó)民族語(yǔ)言文字信息研討會(huì), 2007.
馮志偉.機(jī)器翻譯研究[M].北京:中國(guó)對(duì)外翻譯出版公司, 2004.
馮志偉.基于語(yǔ)料庫(kù)的機(jī)器翻譯系統(tǒng)[J].術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù), 2010(1).
高璞等.石油地質(zhì)英語(yǔ)詞匯教學(xué)方法探析[J].中國(guó)地質(zhì)教育, 2009(4).
何大順 何 春. 論地學(xué)專業(yè)文獻(xiàn)的英漢翻譯[J].成都理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2007(4).
林 徹.地質(zhì)翻譯參考[M].北京:地質(zhì)出版社, 1983.
曲江秀 譚麗娟.地質(zhì)專業(yè)英語(yǔ)的特點(diǎn)和教學(xué)方法探討[J].中國(guó)科教創(chuàng)新導(dǎo)刊, 2008(19).
王建新.計(jì)算機(jī)語(yǔ)料庫(kù)的建設(shè)與應(yīng)用[M].北京:清華大學(xué)出版社, 2005.
肖維青.平行語(yǔ)料庫(kù)與應(yīng)用翻譯研究[J].中國(guó)科技翻譯, 2007(3).
尹麗莉.地質(zhì)英語(yǔ)的詞匯特點(diǎn)探析[J].吉林地質(zhì), 2009(3).
Granger, S.TheComputerLearnerCorpus:AVersatileNewSourceofDataforSLAResearch[M]. London/New York: Longman, 1998.
Mona, B.CorpusLinguisticsandTranslationStudies:ImplicationsandApplications[M]. Amsterdam: John Benjamins Publishing Company, 1993.
OnWord-processingBasedupontheAnnotatedCorpus
Zhang Yi-yi Dong Shu-xin Yang Hui-lan
(China University of Geosciences, Beijing 100083, China)
This study is done by the Work-shop of English for Geology, an academic group under the Department of Foreign Languages at China University of Geosciences (Beijing). According to a piece of Chinese episode translated into English by Google on the Internet, this paper focuses on how to make computer-aid-translation better in light of word-processing based upon the annotated corpus, by means of correcting the translations with problems and analyzing the features of writing in Geological field.
corpus; word; annotated
*本文系中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目“基于我國(guó)世界地質(zhì)公園的中英文公示語(yǔ)研究雙語(yǔ)平行對(duì)譯語(yǔ)料庫(kù)的構(gòu)建”(2-9-2012-04)的階段性成果。
H314
A
1000-0100(2013)04-0122-3
2013-03-31
【責(zé)任編輯王松鶴】