王華鑫
摘 要 旅游英語語料庫旨在收集旅游文本,并應(yīng)用于旅游翻譯。本文首先回顧了旅游英語語料庫建立的背景,繼而從語料的采集、語料文本的數(shù)字化、語料的對(duì)齊、語料的標(biāo)注四個(gè)方面闡述了語料庫創(chuàng)建的具體流程。
關(guān)鍵詞 旅游英語 語料庫 標(biāo)示語翻譯 教學(xué)
0引言
南太行地區(qū)的旅游資源具有豐富的地方特色和文化多樣性。這些特點(diǎn)一方面凸顯了南太行旅游資源其獨(dú)特性,另一方面,也為旅游資源的翻譯問題增加了難度,假使景區(qū)標(biāo)示語和景點(diǎn)翻譯過于隨意,則無法準(zhǔn)確傳遞南太行景區(qū)的文化內(nèi)涵。20世紀(jì)90年代一個(gè)新的翻譯研究范式應(yīng)運(yùn)而生,即語料庫翻譯研究。語料庫翻譯研究是通過建設(shè)平行語料庫的方法對(duì)翻譯進(jìn)行研究,北京外國語大學(xué)王克非教授支持建立的英漢雙語語料庫是國內(nèi)較有影響的英漢漢英平行語料庫。經(jīng)調(diào)查,我們發(fā)現(xiàn)目前的通用型語料庫無法十分準(zhǔn)確地反映南太行旅游景區(qū)的特征,因此,亟需建立一個(gè)標(biāo)準(zhǔn)旅游英語語料庫使之能夠應(yīng)用于南太行景區(qū)。
1旅游英語語料庫的創(chuàng)建
本語料庫的具體創(chuàng)建,首先需要采集語料并將語料數(shù)字化,之后對(duì)語料進(jìn)行標(biāo)注、對(duì)齊等一系列操作。
1.1采集語料
本語料庫屬于專用、同質(zhì)型語料庫,只收集與旅游景區(qū)相關(guān)的中英文原生性文本,雖然局限了該語料庫的文本收集,但確保收集到的語料符合建庫目的和標(biāo)準(zhǔn)。本語料庫在建設(shè)中除采用研究小組多成員把關(guān)措施之外,還另外邀請(qǐng)我院語料庫研發(fā)中心的多名資深專業(yè)教師和旅游管理領(lǐng)域的專業(yè)人士進(jìn)行文本的審核、確定,確保采集文本的適合性和代表性。此外,在部分介紹較多的旅游景點(diǎn)文本材料選擇方面,該語料庫依據(jù)三角驗(yàn)證法,反復(fù)核對(duì)入庫文本。確保旅游英語語料庫庫具有較好的準(zhǔn)確性。
1.2文本數(shù)字化
一般而言,創(chuàng)建語料庫大多需要在線的電子網(wǎng)絡(luò)文本作為原材料,收集旅游標(biāo)示語或景點(diǎn)介紹相關(guān)的翻譯用語等信息的圖片以及其他正式旅游出版物等,最終將這些材料以txt文本格式儲(chǔ)存在語料庫中,此時(shí)就需要語料文本的數(shù)字化處理技術(shù)。
根據(jù)該語料庫的文本來源的不同,可將語料文本數(shù)字化處理技術(shù)大致分為掃描識(shí)別、文本轉(zhuǎn)化、手工錄入等幾大類型。如對(duì)于以圖片形式儲(chǔ)存的語料文本,可借助掃描儀制成高清圖片,并將其轉(zhuǎn)化成PDF文件,再利用文本轉(zhuǎn)換器工具,將圖片上的文字轉(zhuǎn)換成文本進(jìn)行采集,必要時(shí)可對(duì)模糊不清的圖片進(jìn)行修復(fù);對(duì)于已經(jīng)出版的涉及旅游景區(qū)或景點(diǎn)介紹的翻譯用語的書籍資料,可通過機(jī)器掃描等技術(shù)將其錄入語料庫。
1.3對(duì)齊語料
語料的切分與對(duì)齊是建設(shè)平行語料庫的一個(gè)關(guān)鍵。本語料庫采用了人工切分對(duì)齊與使用軟件切分對(duì)齊兩種方法。通過ParaConc或AntConc等軟件來可以對(duì)語料庫進(jìn)行檢索和分析,但必須要對(duì)語料庫的語料文本進(jìn)行雙語對(duì)齊。目前,語料句式對(duì)齊是創(chuàng)建語料庫的重點(diǎn)和難點(diǎn)。國外已經(jīng)擁有較為先進(jìn)的應(yīng)用工具,能夠?qū)φZ料文本進(jìn)行高精度的句式對(duì)齊處理,譬如Multiconcord。但由于英語是形合語,漢語為意合語,兩種語言差異較大,而且在標(biāo)點(diǎn)、句式等方面存在諸多不同,特別是在旅游景區(qū)或景點(diǎn)的翻譯方面,標(biāo)示語或景點(diǎn)翻譯并未完全采取句式的標(biāo)準(zhǔn),存在擴(kuò)譯、省譯或摘譯等現(xiàn)象。所以,利用軟件進(jìn)行語料文本自動(dòng)對(duì)齊處理并不能完全滿足實(shí)際需求,還需人工對(duì)齊語料。
1.4標(biāo)注語料
標(biāo)注加工,首先做到英漢雙語在句子層級(jí)上對(duì)齊,可鏈接檢索,以方便各種研究需要。之后進(jìn)行初步的分詞處理和詞性的標(biāo)注,并預(yù)留今后在句法、語義等層面上深加工的余地。
語料對(duì)齊之后需要標(biāo)注語料,通過對(duì)語料進(jìn)行標(biāo)注,可以更好地檢索分析。語料標(biāo)注的模式多種多樣,本語料庫應(yīng)用的是TEI標(biāo)注模式。
語料標(biāo)注包括語料文本信息、詞性、語義、句法分析等。其中,文件名即能反映出語料文本的部分信息,如south.eng 表示是與南太行景區(qū)英文翻譯有關(guān)的文件。然而,僅憑文件名只能提供很少信息,不足以滿足實(shí)際需求,還需要補(bǔ)充標(biāo)題、作者信息、語料來源、內(nèi)容格式以及類型等方面信息。本文僅以詞性賦碼(POS)為例,今后如有其他方面需求再另行補(bǔ)充。詞性賦碼是將詞的類別標(biāo)注出來,如名詞、動(dòng)詞等,其目的是令讀者明晰單詞的詞性。作為語料標(biāo)注最基礎(chǔ)的詞性標(biāo)注,對(duì)于語料庫中文本的句法分析和文本分析方面具有重要價(jià)值。該語料庫的中文語料采用中科院中文分詞程序ICTCLAS對(duì)文本詞性進(jìn)行標(biāo)注;英文語料則應(yīng)用德國斯圖加特大學(xué)計(jì)算語言學(xué)研究所Helmut Schmidt開發(fā)的Treetagger工具進(jìn)行詞性標(biāo)注。
2結(jié)語
本文借鑒了前人創(chuàng)建語料庫的寶貴經(jīng)驗(yàn),因此,在語料庫的設(shè)計(jì)、語料的收集、數(shù)字化、對(duì)齊以及標(biāo)注等環(huán)節(jié)都較為慎重?;谡Z料庫的翻譯和語言實(shí)踐日益受到了國內(nèi)外研究者的重視,而完成高質(zhì)量的語料庫創(chuàng)建則是翻譯和語言實(shí)踐的前提條件。本文簡(jiǎn)要分析了旅游英語語料庫創(chuàng)建的方法和流程,但仍有部分問題有待完善,如雙語文本在句子層面的對(duì)齊、語義標(biāo)準(zhǔn)技術(shù)革新等。但在可預(yù)計(jì)的情形下,隨著語料庫翻譯學(xué)的研究及旅游業(yè)的不斷發(fā)展,語料庫這一方法在旅游景區(qū)的應(yīng)用必將發(fā)揮更大優(yōu)勢(shì)。
參考文獻(xiàn)
[1] Anthony,L.AntConc Version 3.2.2 Tokyo[D].Japan: Waseda University,2011.
[2] Barlow,M.ParaConc: Concordance software for multilingual parallel corpora[J].Language Resources for Translation Work and Research,2002.
[3] Ide,N.& J. V閞onis,(Eds.). Text encoding initiative: Background and contexts [M]. Springer Science & Business Media,1995.
[4] Li, Defeng. 2004.Trustworthiness of think-aloud protocols in the study of translation processes[J].International Journal of Applied Linguistics,2004(03):301-313.
[5] Mason,I.Translator behavior and language usage: Some constraints on contrastive studies [J]. Hermes,2001(26): 65-80.
[6] Schmid,H.TC project at the Institute for Computational Linguistics of the University of Stuttgart[J].Treetagger,1994.
[7] Woolls,D.Multiconcord version 1.5.Birmingham[J].CFL Software Development,1997.
[8] 黃昌寧.語料庫語言學(xué)[M].北京:商務(wù)印書館,2002.
[9] 李德超,王克非.新型雙語旅游語料庫的研制和應(yīng)用[J].現(xiàn)代外語,2010(02):46-54.
[10] 梁茂成,李文中,許家金.語料庫應(yīng)用教程[M].北京:外語教學(xué)與研究出版社,2010.
[11] 王克非.新型雙語對(duì)應(yīng)語料庫的設(shè)計(jì)與構(gòu)建[J].中國翻譯,2004(06):73-75.