李毅鵬
(東莞職業(yè)技術(shù)學(xué)院 應(yīng)用外語(yǔ)系,廣東 東莞 523808)
汽車(chē)專(zhuān)業(yè)雙語(yǔ)平行語(yǔ)料庫(kù)之建設(shè)
李毅鵬
(東莞職業(yè)技術(shù)學(xué)院 應(yīng)用外語(yǔ)系,廣東 東莞 523808)
建立汽車(chē)專(zhuān)業(yè)雙語(yǔ)平行語(yǔ)料庫(kù)有利于促進(jìn)國(guó)內(nèi)外汽車(chē)技術(shù)的交流,有助于提高汽車(chē)行業(yè)從業(yè)人員的素質(zhì),為汽車(chē)專(zhuān)業(yè)英語(yǔ)教學(xué)提供許多便利條件。對(duì)汽車(chē)專(zhuān)業(yè)雙語(yǔ)平行語(yǔ)料庫(kù)的建設(shè)過(guò)程進(jìn)行重點(diǎn)討論,望能為專(zhuān)業(yè)平行語(yǔ)料庫(kù)的建設(shè)人員和使用者提供一些啟發(fā)。
雙語(yǔ)平行語(yǔ)料庫(kù);汽車(chē)專(zhuān)業(yè)英語(yǔ);翻譯實(shí)踐
語(yǔ)料庫(kù)是按照一定的語(yǔ)言規(guī)則,運(yùn)用隨機(jī)抽樣方法,收集自然出現(xiàn)的連續(xù)語(yǔ)言,運(yùn)用文本或話語(yǔ)片斷建成的具有一定容量的大型電子文本庫(kù)。[1]53依據(jù) Mona Baker的理論,語(yǔ)料庫(kù)可分為三類(lèi):可比語(yǔ)料庫(kù)、多語(yǔ)語(yǔ)料庫(kù)和平行語(yǔ)料庫(kù)??杀日Z(yǔ)料庫(kù)收集某種語(yǔ)言,如法語(yǔ)的原文文本,同時(shí)也收集從其他語(yǔ)言翻譯成該語(yǔ)的文本;多語(yǔ)語(yǔ)料庫(kù)是根據(jù)類(lèi)似設(shè)計(jì)標(biāo)準(zhǔn)建立起來(lái)的兩個(gè)或多個(gè)不同語(yǔ)言的單語(yǔ)種語(yǔ)料文本組成的復(fù)合語(yǔ)料庫(kù);平行語(yǔ)料庫(kù)收集某種語(yǔ)言的原創(chuàng)文本和其被翻譯成另一種文字的對(duì)應(yīng)文本。[2]230-236自語(yǔ)料庫(kù)語(yǔ)言學(xué)和語(yǔ)料庫(kù)翻譯學(xué)興起以來(lái),國(guó)內(nèi)外許多科研機(jī)構(gòu)和個(gè)人都根據(jù)科研和實(shí)踐的需要,積極建立各種語(yǔ)料庫(kù)。
目前,國(guó)內(nèi)建成的語(yǔ)料庫(kù)主要集中于文商領(lǐng)域,關(guān)于理工科的語(yǔ)料庫(kù)數(shù)量很少,而雙語(yǔ)平行的理工類(lèi)語(yǔ)料庫(kù)就更為稀少。據(jù)調(diào)查,國(guó)內(nèi)尚未建成初具規(guī)模和實(shí)用性的汽車(chē)雙語(yǔ)平行語(yǔ)料庫(kù),而許多汽車(chē)行業(yè)翻譯人員和汽車(chē)專(zhuān)業(yè)英語(yǔ)教師都在努力尋找此類(lèi)語(yǔ)料庫(kù)。我國(guó)汽車(chē)行業(yè)起步晚,仍未掌握關(guān)鍵部件的核心技術(shù),許多技術(shù)都需向國(guó)外學(xué)習(xí)。需要培養(yǎng)大量既懂汽車(chē)行業(yè)又精通英語(yǔ)的專(zhuān)業(yè)人士,同時(shí)需要精確翻譯大量的英語(yǔ)技術(shù)文件。
建設(shè)雙語(yǔ)平行語(yǔ)料庫(kù)要比建設(shè)一般的單語(yǔ)語(yǔ)料庫(kù)困難得多。需要對(duì)其規(guī)模、內(nèi)容、語(yǔ)料樣本的選擇進(jìn)行更加細(xì)致、嚴(yán)謹(jǐn)、精確的分析和規(guī)劃。實(shí)踐表明50萬(wàn)到100萬(wàn)詞次的語(yǔ)料庫(kù)即可滿足。[3]187因此,根據(jù)實(shí)際翻譯和研究需要,此語(yǔ)料庫(kù)設(shè)計(jì)規(guī)模為100余萬(wàn)詞次,并合理分配詞次、庫(kù)文本數(shù)量、樣本數(shù)量和層次樣本數(shù)量四個(gè)層次的比例。
3.1 確定所需軟件
建立平行語(yǔ)料庫(kù)所需的技術(shù)和軟件有別于一般語(yǔ)料庫(kù)。除了一般的文本處理、格式轉(zhuǎn)換、內(nèi)碼轉(zhuǎn)換、語(yǔ)料標(biāo)注、檢索軟件外,還需要語(yǔ)料對(duì)齊軟件。基于對(duì)軟件操作的熟練程度和對(duì)建庫(kù)成本的考慮,我們選取Office Word 2007作為文本處理軟件。在衡量了適用性和實(shí)用性后,筆者選用了Paraconc作為此語(yǔ)料庫(kù)的檢索軟件。當(dāng)前計(jì)算機(jī)輔助翻譯軟件Trados中附帶的Winalign語(yǔ)料對(duì)齊軟件中英文對(duì)齊功能全面,準(zhǔn)確性高,為了節(jié)約語(yǔ)料對(duì)齊中人工參與的工作量,同時(shí)考慮到建庫(kù)后對(duì)已對(duì)齊語(yǔ)料的二次利用,此語(yǔ)料庫(kù)將運(yùn)用Winalign完成語(yǔ)料對(duì)齊工作。
3.2 收集語(yǔ)料
汽車(chē)專(zhuān)業(yè)雙語(yǔ)平行語(yǔ)料庫(kù)的語(yǔ)料一律保存為“純文本”格式,并以適應(yīng)性,代表性,時(shí)效性為原則,通過(guò)人工錄入,網(wǎng)絡(luò)下載,網(wǎng)絡(luò)機(jī)器人搜索,文本掃描等途徑進(jìn)行收集。庫(kù)中的文本主要按汽車(chē)設(shè)計(jì)、部件、制造工藝、駕駛技術(shù)歸類(lèi),對(duì)各類(lèi)別所占比例進(jìn)行精確計(jì)算和規(guī)劃。收集的文本以汽車(chē)專(zhuān)業(yè)英語(yǔ)教程、中英汽車(chē)制造技術(shù)文件、雙語(yǔ)汽車(chē)介紹和有關(guān)汽車(chē)的論文為主。
在規(guī)劃語(yǔ)料收集過(guò)程中,筆者重點(diǎn)考慮了代表性問(wèn)題和概率抽樣問(wèn)題。[4]33充分接納了Biber等人提出的“比例取樣”概念。在通用語(yǔ)料庫(kù)領(lǐng)域,Brown語(yǔ)料庫(kù)和LOB語(yǔ)料庫(kù)的代表性較好,但與Biber的要求仍相差甚遠(yuǎn)。按照Biber概念的要求,通用語(yǔ)料庫(kù)研究人員需要時(shí)刻關(guān)注庫(kù)中的語(yǔ)料變化,在必要時(shí)候需往庫(kù)中加入大量語(yǔ)料,以解決語(yǔ)料庫(kù)出現(xiàn)的不平衡問(wèn)題,或直接建立專(zhuān)門(mén)用途語(yǔ)料庫(kù)解決此問(wèn)題。汽車(chē)專(zhuān)業(yè)雙語(yǔ)平行語(yǔ)料庫(kù)采用的就是后者。
3.3 語(yǔ)料處理
所有采集的文本均通過(guò)文檔處理軟件保存為“純文本”格式,這是為了使全庫(kù)語(yǔ)料和對(duì)齊后的語(yǔ)料有更強(qiáng)通用性。由于掃描軟件精度不高和被掃描文本清晰度不足、格式轉(zhuǎn)換出現(xiàn)的錯(cuò)碼、人工錄入中的人為疏忽,格式轉(zhuǎn)換后和錄入后的文本常常會(huì)出現(xiàn)的信息缺失或冗余,如錯(cuò)別字、錯(cuò)別符號(hào)、多余空格、多余隔行、多余項(xiàng)目符號(hào)等,都必須予以糾正,否則將影響到對(duì)齊和標(biāo)注的準(zhǔn)確性。在預(yù)處理階段,筆者對(duì)每個(gè)文檔進(jìn)行歸類(lèi),添加文本頭標(biāo)記和結(jié)構(gòu)標(biāo)記。其中文本頭包括六項(xiàng):語(yǔ)言,主題,類(lèi)別,長(zhǎng)度,來(lái)源,采集時(shí)間;結(jié)構(gòu)標(biāo)記采用<s></s>標(biāo)記完整句子和<p></p>標(biāo)記完整段落,以方便檢索和對(duì)齊。
語(yǔ)料對(duì)齊是此語(yǔ)料庫(kù)建設(shè)的重點(diǎn)和難點(diǎn)。語(yǔ)料對(duì)齊是指通過(guò)軟件或人工手段,將源語(yǔ)文本中的每個(gè)段落或每個(gè)句子與譯語(yǔ)文本中其對(duì)應(yīng)的段落或句子進(jìn)行配對(duì)。段段對(duì)齊的難度較低,對(duì)齊正確率較高,對(duì)齊速度快,但其不利于檢索后的雙語(yǔ)對(duì)比和翻譯實(shí)踐及教學(xué)應(yīng)用。句句對(duì)齊是目前大多雙語(yǔ)平行語(yǔ)料庫(kù)所采用的語(yǔ)料對(duì)齊方式,其在翻譯實(shí)踐中應(yīng)用十分廣泛。現(xiàn)在,語(yǔ)料庫(kù)建設(shè)者可直接使用專(zhuān)門(mén)的句句對(duì)齊軟件,如Trados中的 Winalign,對(duì)語(yǔ)料進(jìn)行句句對(duì)齊。由于中英之間語(yǔ)法、句法、標(biāo)點(diǎn)和語(yǔ)篇等存在明顯差異,軟件對(duì)齊不可能100%準(zhǔn)確,目前,句句對(duì)齊軟件的自動(dòng)對(duì)齊準(zhǔn)確率大概為75%左右,因此,對(duì)齊結(jié)果必須經(jīng)過(guò)人工檢查糾正才能入庫(kù)。
在對(duì)齊過(guò)程中,通過(guò)將Winalign中的對(duì)齊標(biāo)記顯著屬性、數(shù)字顯著屬性、特殊字符顯著屬性和格式顯著屬性調(diào)至最高,以提高自動(dòng)對(duì)齊的準(zhǔn)確度,但部分對(duì)齊結(jié)果仍需人工糾正。對(duì)于大部分的錯(cuò)誤,可通過(guò)軟件自帶的拆分和合并功能解決;對(duì)于出現(xiàn)信息缺失、冗余或錯(cuò)譯的句子,則只能通過(guò)人工重譯給予修正;而對(duì)于少數(shù)出現(xiàn)對(duì)齊嚴(yán)重混亂的文檔,則需在軟件中解除所有句子配對(duì),重新檢查源語(yǔ)文本和譯語(yǔ)文本中段落標(biāo)記符和句子標(biāo)記符是否出錯(cuò)。由于中英文差異,英文的長(zhǎng)句子要比中文的多很多,某些英文長(zhǎng)句會(huì)出現(xiàn)過(guò)長(zhǎng)現(xiàn)象,而句子過(guò)長(zhǎng)不利于檢索,因此對(duì)于一些特殊的句子需采用特殊處理手段,如將過(guò)長(zhǎng)的英語(yǔ)句子適當(dāng)?shù)夭鸱譃槿舾煞志洌诓挥绊懺湟馑记闆r下,對(duì)原句進(jìn)行重組處理。
建立語(yǔ)料庫(kù)的一個(gè)重要環(huán)節(jié)是對(duì)語(yǔ)料進(jìn)行標(biāo)注。未經(jīng)標(biāo)注的語(yǔ)料庫(kù)都屬于生語(yǔ)料庫(kù),難以發(fā)揮語(yǔ)料庫(kù)在語(yǔ)言研究領(lǐng)域的潛能。目前,世界流行的標(biāo)注有兩種:詞性標(biāo)注和句法標(biāo)注,其中前者已可使用軟件完成,精確率達(dá)95%以上,但尚沒(méi)有軟件能對(duì)句法做出具實(shí)用性的標(biāo)注,要對(duì)語(yǔ)料進(jìn)行有實(shí)用價(jià)值的句法標(biāo)注,必須采取人機(jī)協(xié)作的辦法。為了使此雙語(yǔ)平行語(yǔ)料庫(kù)更具研究?jī)r(jià)值和實(shí)用價(jià)值,同時(shí),考慮到汽車(chē)專(zhuān)業(yè)英語(yǔ)的特性——語(yǔ)言規(guī)范、詞匯問(wèn)題突出,筆者決定重點(diǎn)對(duì)其進(jìn)行詞性標(biāo)注。通過(guò)調(diào)查、比較和綜合考慮,決定采用英國(guó)蘭開(kāi)斯特大學(xué)研發(fā)的基于概率統(tǒng)計(jì)的標(biāo)注系統(tǒng)(CLAWS),其標(biāo)注速度快,準(zhǔn)確率高,經(jīng)其標(biāo)注過(guò)的語(yǔ)料庫(kù)可直接用于詞性研究。完成標(biāo)注后,經(jīng)抽樣統(tǒng)計(jì)計(jì)算,語(yǔ)料庫(kù)詞性準(zhǔn)確率達(dá)到了98%以上,對(duì)于個(gè)別詞性標(biāo)注有誤的詞語(yǔ),需對(duì)照權(quán)威字典對(duì)其進(jìn)行校正。
3.4 語(yǔ)料庫(kù)的更新
考慮到上述的代表性問(wèn)題和汽車(chē)專(zhuān)業(yè)的特點(diǎn),此語(yǔ)料庫(kù)設(shè)計(jì)為一個(gè)沒(méi)有詞次上限的開(kāi)放式語(yǔ)料庫(kù)。汽車(chē)技術(shù)日新月異,每項(xiàng)技術(shù)出現(xiàn)都會(huì)帶來(lái)許多新詞匯,同時(shí),隨著新技術(shù)發(fā)展,許多落后技術(shù)會(huì)被淘汰,其伴隨的詞匯也會(huì)漸漸消失。為了使語(yǔ)料庫(kù)更加貼近迅猛發(fā)展的汽車(chē)科技,保持其活力和時(shí)效性,必須定時(shí)為其進(jìn)行更新和升級(jí),添加新語(yǔ)料,刪除過(guò)時(shí)的文本。語(yǔ)料庫(kù)的更新需要大量人力物力,從實(shí)際出發(fā),其更新頻率不能過(guò)于頻繁,汽車(chē)技術(shù)有自身發(fā)展的周期和步伐,參考了國(guó)外與汽車(chē)技術(shù)相關(guān)語(yǔ)料庫(kù)的更新經(jīng)驗(yàn)和語(yǔ)料庫(kù)相關(guān)軟件的發(fā)展速度,筆者將此語(yǔ)料庫(kù)的更新和升級(jí)周期定為1.5年。
[1]楊惠中.語(yǔ)料庫(kù)語(yǔ)言學(xué)導(dǎo)論[M].上海:上海外語(yǔ)教育出版社,2002.
[2]Mona Baker.Corpora in Translation Studies:An O-verview and Some Suggestions for Future Research[J].Target,1995(2).
[3]Kennedy,Graeme.An Introduction to Corpus Linguistics[M].New York:Longman,1998.
[4]Meyer C F.English Corpus Linguistics An introduction[M].Cambridge University Press,2002.
Construction of an Automotive Bilingual Parallel Corpus
LI Yi-peng
The establishment of an automotive bilingual parallel corpus will accelerate the technical exchanges between domestic and foreign automobile industries.It will also help improve the quality of employees working in automobile industries and offer a great numbers of benefits and conveniences to the teaching of automotive English.The paper concentrates on the whole construction process of the corpus so as to provide some inspiration and new knowledge to professionals and the users of the corpus.
bilingual parallel corpus;automotive English;translation practice
H059
A
1671-8275(2011)06-0117-02
2011-10-15
李毅鵬(1985-),男,廣東東莞人,東莞職業(yè)技術(shù)學(xué)院講師,碩士。研究方向:語(yǔ)料庫(kù)翻譯學(xué)、計(jì)算機(jī)輔助翻譯。
責(zé)任編輯:文 月