戴麗琴
摘要:隨著語料庫的普及與發(fā)展,專門用途語料庫已經(jīng)成為外語教育與翻譯的重要工具。中醫(yī)雙語小型語料庫的建立為本校中醫(yī)教學(xué)與中醫(yī)的對外交流提供一個重要平臺。中醫(yī)英語語料庫的建立要從語料庫的目標入手,確定其規(guī)模與用途、進行初步的設(shè)計和規(guī)劃以及解決相關(guān)技術(shù)問題。
關(guān)鍵詞:中醫(yī)英語;雙語語料庫;中醫(yī)英語教學(xué);中醫(yī)翻譯
在高度信息化的當今世界,翻譯已成為了解全球信息、擴大對外交流、獲取國際資源的重要手段。雙語平行語料庫,則為外語教學(xué)、翻譯研究、跨語言信息檢索、詞典編撰等提供了最好的平臺,具有廣闊的應(yīng)前景。
近十多年來,國內(nèi)雙語平行語料庫的建設(shè)取得了很大進步,如漢英平行語料庫(北京大學(xué)計算語言學(xué)研究所)、英漢雙語語料庫(哈爾濱工業(yè)大學(xué))。國內(nèi)近年來也建成些專用語料庫,如莎士比亞戲劇英漢平行語料庫(上海交通大學(xué))、《紅樓夢》譯本平行語料庫(燕山大學(xué))等,這些語料庫規(guī)模小但是各有特色各有重點。
一、中醫(yī)英語語料庫建設(shè)的意義
1.1 在中醫(yī)英語教學(xué)方面的意義
中醫(yī)英語語料庫在中醫(yī)英語教學(xué)的師資培訓(xùn)、教材建設(shè)等方面都可以發(fā)揮充分作用。通過雙語平行語料庫,可以對中醫(yī)英語教學(xué)中的常用語言結(jié)構(gòu)、教學(xué)中的難點、對難點的分級排列(gradation)等問題做出梳理和判斷。
1.2在中醫(yī)英語翻譯研究方面的意義
1.2.1語料庫不僅為翻譯批評研究提供了新的工具,而且擴展了翻譯批評的研究范圍,提出了新的研究思路。
1.2.2中醫(yī)雙語語料庫為中醫(yī)英譯翻譯批評提供了諸多可能性,對這些可能性予以充分開發(fā)利用,有助于翻譯批評的“審美評價”和“科學(xué)判斷”跳出經(jīng)驗和直覺的內(nèi)省栓桔,達到有機的統(tǒng)一。
1.2.3基于語料庫的中醫(yī)翻譯研究以哲學(xué)上的經(jīng)驗主義和理性主義為認識論基礎(chǔ),把經(jīng)驗主義的量化描寫和理性主義的推理解釋相結(jié)合,以客觀的語言現(xiàn)象為依據(jù),揭示語言內(nèi)在的本質(zhì)和規(guī)律。
二、語料庫的設(shè)計與建立
2.1 語料庫的設(shè)計
語料庫的設(shè)計與規(guī)劃是直接影響語料庫質(zhì)量和功能的重大環(huán)節(jié),在此階段,設(shè)計者需要考慮建庫的規(guī)模、語料選擇等方面。
2.1.1 就本語料庫的規(guī)模而言,需要考慮建庫目的能否實現(xiàn)及語料是否容易獲得等,并不是越大越好。一般來說,專門語料庫要比通用語料庫的規(guī)模要小。根據(jù)本庫自身的特點,50萬字左右的規(guī)模即可滿足教學(xué)與翻譯的需要,但是語料的篩選很重要,要求建庫者和管理員有較高的專業(yè)知識,并且熟悉中醫(yī)醫(yī)學(xué)相關(guān)領(lǐng)域。
2.1.2本庫中醫(yī)英語的語料可以從可靠的網(wǎng)站、電子掃描儀、現(xiàn)有的中醫(yī)英語語料庫(如:《新編使用中醫(yī)文庫》)等途徑收集。中醫(yī)英語語料庫的收集以醫(yī)學(xué)教材和醫(yī)學(xué)論文為主,文本選用的標準為國外權(quán)威出版機構(gòu)出版的英語醫(yī)學(xué)教材或國內(nèi)影印的英語醫(yī)學(xué)教材,論文從國際流行的一流期刊中收集。中醫(yī)英語語料庫的文本收集按學(xué)科、的種類等進行,涵蓋中醫(yī)基礎(chǔ)理論、中醫(yī)診斷學(xué)、中藥學(xué)、方劑學(xué)、中醫(yī)內(nèi)科學(xué)、中醫(yī)外科學(xué)、中醫(yī)兒科學(xué)、中醫(yī)針灸、中醫(yī)推拿等學(xué)科。參照《新編實用中醫(yī)文庫》建設(shè)的平行語料庫,在建庫過程中參考 T.McEneryA.Hardie(2012)的做法,收集的數(shù)據(jù)主要用于科學(xué)研究,要防止語料泄露和侵權(quán)現(xiàn)象出現(xiàn)。
2.2語料庫的建立
2.2.1語料處理
在選取了合適的語料后,要將語料轉(zhuǎn)化為TXT文檔保存,本庫由英漢兩個句級對齊文本組成,分別命名為“中醫(yī).EN.txt”和“中醫(yī).CH.txt”。期間要審核并修改原始文檔中存在的一些錯誤與冗余信息,以免影響隨后標注和檢索的準確性。我們使用PowerGREP為檢索軟件,運用文本整理器對單個文本進行整理。
2.2.2標注
標注指對語料進行分類與詞類劃分,分為詞性標注與篇頭標注。英語文本可以通過CLAWS軟件完成,中文文本則通過中科院計算所的ICTCLAS軟件完成。篇頭標注能夠提供文本的基本信息。本庫中,篇頭標注包含出版信息、譯者信息、文本字數(shù)和所屬等內(nèi)容。
2.2.3 對齊
在完成對語料的數(shù)字化、中文文本的分詞、去噪等相關(guān)整理后,可用Paraconc軟件實現(xiàn)漢英文本的句級粗略對齊,然后再進行人工檢查調(diào)整對齊,最后確定并保存。
三、雙語語料庫建設(shè)中碰到的困難與對策
3.1.國內(nèi)英語語料與西方英語語料的選擇問題。中醫(yī)英語資料包括西方英語語料與國內(nèi)英語語料,兩種語料各有不足與優(yōu)勢。結(jié)合本語料庫的功能與特點,本庫應(yīng)該從中國國內(nèi)英語語料與西方英語語料分界,其比例各為百分之五十。只有如此,中
醫(yī)英語在中西方的差異點及差異的規(guī)律性才有可能反映出來。
此外,為了對比分析具有統(tǒng)一的基礎(chǔ),中西方資料應(yīng)盡量做到一致,也就是說,同一中醫(yī)資料,在中西方各具備一份英語語料,此時從理論上講,中西語料應(yīng)該在數(shù)量上相等、結(jié)構(gòu)上相同。
3.2平行語料庫的建立可能非常耗時耗力。在標注的過程中,受研究者的主觀影響比較多, 甚至可能會出現(xiàn)標注錯誤, 從而影響到語料庫的統(tǒng)計分析結(jié)果。為了彌補這些不足,需要研究者不斷探索努力,統(tǒng)一語料庫的標注, 提高語料庫的通用性以節(jié)省重新建庫的時間和精力。
[參考文獻]
[1]Koehn,P.Europarl:Aparallel corpus for statistical machine translation [A]. MT Summit 2005.
[2]Lüdeling, A. & M. Kyt. Corpus linguistics :An International Handbook [C]. New York:Walter deGruyter, 2008.
[3]德超, 王克非. 新型雙語旅游語料庫的研制和運用 [J]. 現(xiàn)代外語,2010(1): 46-54.
[4]秦洪武, 王克非. 基于語料的翻譯語言考察 [J].現(xiàn)代外語, 2004(1):44-52.
[5〕桂詩春. 發(fā)展我國應(yīng)用語言學(xué)的幾點想法[J].語言文字應(yīng)用,1998,(7)4-6.
[6]李文中. 語料庫索引工具[A].楊慧中語料庫語言學(xué)導(dǎo)論[C].上海:上海外語教育出版社,2002,67-68.