平行語料庫設(shè)計及對應(yīng)單位識別

2010-12-07 02:12:02李文中

當代外語研究 2010年9期

李文中

(河南師范大學(xué)語料庫研發(fā)中心,新鄉(xiāng),453007)

本研究屬于國家社科基金項目“基于語料庫英語本土化研究及應(yīng)用,編號:07BYY022”及“平行語料庫對應(yīng)意義單位研究,編號:07BYY002”研究。本文基于李文中2006年在“上海交通大學(xué)慶賀楊惠中先生執(zhí)教50周年暨應(yīng)用語言學(xué)研討會”的演講“From Translation Units to Corresponding Units: a Corpus-driven Approach”,以及李文中在2007年“第五屆中國英語教學(xué)國際研討會暨第一屆中國應(yīng)用語言學(xué)大會”主題研討會“Corpus-based Language Research”上的主題發(fā)言:“Corresponding Units: Identification and Application”。

1. 作為翻譯數(shù)據(jù)源的平行語料庫

語料庫語言學(xué)研究的出發(fā)點是自然語言,其研究成果的應(yīng)用也應(yīng)回歸到自然語言,研究的基本目的和任務(wù)是探索語言中的意義。在一個自然文本中,任何一個意義單位的識別和理解都不能脫離其共生的語境,也不能脫離文本中該意義單位與其他意義單位構(gòu)成的復(fù)雜同義解釋關(guān)系。同理,任何文本也不是孤立的,理解一個文本需要借助其他同義文本或已知信息的參照。翻譯是一個高度依賴語境的過程,在翻譯過程中,譯者交互的對象包括文本、讀者,以及其他譯者?！昂玫姆g”是指那些在譯者社團中通過談判交際不斷被重復(fù)的翻譯,并通過重復(fù)應(yīng)用得以確立。因此,當前的翻譯文本不僅僅是一種終端產(chǎn)品,還是聯(lián)接前后翻譯文本的重要環(huán)節(jié),繼承了以往翻譯文本中大量的翻譯特征?；谄叫姓Z料庫的對應(yīng)單位翻譯轉(zhuǎn)換對比分析,其主要意義在于充分尊重語言事實,尊重翻譯事實。

對應(yīng)單位指對應(yīng)源文本和目的文本中任何可識別的文本塊或片段。對應(yīng)單位具有意義的完整性和相同性,并且具有各自的句法結(jié)構(gòu)特征。由于其對語境高度敏感,并在結(jié)構(gòu)上動態(tài)變化,對應(yīng)單位可逆或不可逆。我們研究的問題是:1)在平行語料庫中如何界定等值性,如何在操作層面測量它？2)如何在平行語料庫處理中體現(xiàn)語料庫驅(qū)動原則？3)雙語視角對識別對應(yīng)單位有何意義？本研究的目的是通過開發(fā)平行語料庫,確定對應(yīng)單位識別程序,并建立對應(yīng)單位數(shù)據(jù)庫。本研究的主要目標為:1)建立一定規(guī)模的平行語料庫,其語料應(yīng)范圍廣泛,包括政治、經(jīng)濟、科技等領(lǐng)域的現(xiàn)存中英文互譯文本。2)開發(fā)語料庫處理軟件,包括平行語料庫雙語對應(yīng)單位的提取、儲存、記憶及檢索工具。3)漢英翻譯研究:基于所建平行語料庫,以初期在有限領(lǐng)域建立的模型為基礎(chǔ),深入研究雙語文本的翻譯對應(yīng)關(guān)系,并建立動態(tài)開放的對應(yīng)單位數(shù)據(jù)系統(tǒng)。4)漢英對比研究:在雙語語料庫的基礎(chǔ)上進行文本的平行、對應(yīng)及關(guān)聯(lián)研究,分析兩種語言的意義屬性、評價體系及批評價值。研究方法主要包括:1)利用網(wǎng)絡(luò)等手段,搜集平行文本語料,建立包括廣泛均衡語料的平行語料庫。2)對應(yīng)單位識別:前期通過大量人工干預(yù),在有限領(lǐng)域內(nèi)建立初始模型,通過對應(yīng)的識別單位數(shù)確認句子對應(yīng),利用后臺數(shù)據(jù)庫計算對應(yīng)單位的頻率,再通過文類、體裁等參數(shù)確定對應(yīng)單位的分布及頻率。3)對應(yīng)單位分析。4)基于建成的平行語料庫和開發(fā)的軟件開展相關(guān)研究。

Teubert認為,正如自然語言運用一樣,翻譯實踐中譯者群體構(gòu)成了一個特殊的語用話語社團,一切翻譯活動和行為都在這一特定的話語內(nèi)進行。譯者通過翻譯活動,實現(xiàn)交互和談判,并促生和確立源語言和目的語之間的意義對應(yīng)和翻譯轉(zhuǎn)換(Lecture,2004)。在這里,翻譯的過程不是簡單的詞語或句子對等,也不像Weaver所說的那樣,是一種信息的編碼和解碼過程(1949,轉(zhuǎn)引自馮志偉2003)。翻譯是一項復(fù)雜的社會活動和語用事件,是一種語言交際行為。翻譯中意義的轉(zhuǎn)換和對應(yīng)產(chǎn)生于譯者內(nèi)部的交流和溝通,并實現(xiàn)于譯語文本。在這一交互過程中,“正確的翻譯被采用并重復(fù),錯誤的翻譯被淘汰”(Teubert 2005)。所以說,翻譯知識既不來自詞典,也不來自預(yù)設(shè)的規(guī)則和知識原型,而是存在于翻譯文本中的翻譯事實。平行語料庫通過收集大量的雙語對應(yīng)文本,通過對翻譯事實的系統(tǒng)描述,利用概率統(tǒng)計發(fā)現(xiàn)重復(fù)出現(xiàn)的翻譯對應(yīng)單位,以確立翻譯的對應(yīng)性。

與基于語料庫實例研究不同的是,我們所說的平行語料庫不是作為類比和推理的基礎(chǔ)數(shù)據(jù),而是作為翻譯知識庫;平行語料庫的作用也不僅僅是為了提取翻譯實例,而是把翻譯文本與數(shù)據(jù)庫作為一個交互處理的整體。在構(gòu)建平行語料庫時,我們提出以下幾個基本原則:1)平行文本的來源和領(lǐng)域必須嚴格界定。領(lǐng)域越廣闊,文本翻譯的對應(yīng)性變異就越大。能適應(yīng)所有文本的翻譯對應(yīng)非常少,如人名、地名、機構(gòu)名稱等,有時甚至這些普遍被認為無歧義的名稱,在不同領(lǐng)域的文本中也會表達不同的含義,從而產(chǎn)生獨特的對應(yīng)。在語料庫處理中,盡可能劃分一個大領(lǐng)域內(nèi)部的層級關(guān)系,并應(yīng)用XML標準進行標注。2)選取的文本類型應(yīng)從科技領(lǐng)域及對應(yīng)關(guān)系相對單純的平行文本開始。語用結(jié)構(gòu)復(fù)雜、話題多元、且對應(yīng)相對自由的平行文本一般不作為初始研究的對象,如虛構(gòu)性文本。文學(xué)文本的自動翻譯幾乎難以逾越。3)平行文本的對齊是分析的結(jié)果,而不是前提。僅僅追求文本結(jié)構(gòu)形態(tài)的對齊,如通過人工介入或通過概率計算達到對齊的目的,仍需人工對句子進行分析和判斷,這是由于對齊后的文本要么單位過大,如段落和句子,要么過小,如單詞,都難以得到有效利用。4)文本應(yīng)保持整體性和原貌,與標注信息分開(Sinclair 2005:1-16)。標注系統(tǒng)應(yīng)動態(tài)開放,允許定制并多層多次標注。

2. 對應(yīng)單位的界定及工作原則

Sinclair(2005)在提出“意義單位”這個概念時,主要考慮的是為語言分析確立一個基本的分析單位,這個單位必須是構(gòu)成文本最小的意義單位,它由核心詞(core)和搭配詞構(gòu)成,所以又稱作“詞項”(lexical item)。意義單位的單義性通過詞項內(nèi)部的微型語境得到保證。意義單位可以作擴展分析,或稱為“擴展的意義單位”,在抽象度上依次分析其類聯(lián)結(jié)結(jié)構(gòu)特征、語義傾向以及語義韻(參見李文中2010)。意義單位這一概念體現(xiàn)了Sinclair的學(xué)術(shù)思想,即1)意義在多詞序列(搭配)中得到呈現(xiàn)①,多詞序列體現(xiàn)了真實的語用環(huán)境,并框定其意義取向;2)意義、形態(tài)、結(jié)構(gòu)模式甚至語用意向是一個相互依存的統(tǒng)一體,任何一個構(gòu)成元素都不可分割和抽離。3)意義單位確立的基礎(chǔ)是復(fù)現(xiàn)頻率(frequency of recurrence)。其基本理據(jù)是,在詞語層面,單個或多個詞共現(xiàn),并呈線性組合,順序固定,結(jié)構(gòu)相對穩(wěn)定,或只允許部分變異;該單位具有復(fù)現(xiàn)概率,在文本中表現(xiàn)為固定詞語序列或詞塊;在語義層面,詞語組合表達意義完整,具有單義性;在發(fā)生學(xué)層面,意義單位的選擇大多不是單個詞語的多次選擇,而是同時選擇的,是一連串說出來的;在語音學(xué)層面,該單位表現(xiàn)為一個連續(xù)的語音流,與其它意義單位具有明顯的界限。該單位在文本中具有可預(yù)測性,使文本理解從分析走向綜合。意義單位的提出為多詞序列(或稱詞塊、多詞組合)分析提供了理論基礎(chǔ),具有重要的語言學(xué)意義。但意義單位是一種單語理論,其統(tǒng)計基礎(chǔ)是復(fù)現(xiàn)頻率,且必須通過人工分析才可以獲得。在此基礎(chǔ)上,針對雙語平行文本,Teubert(2004)進一步提出“翻譯單位”概念,即“源語言表達由一個節(jié)點詞加上所有搭配詞構(gòu)成,并且在目的語文本中只有一個無歧義的等值表達,如果存在多個等值表達,則這些表達具有同義關(guān)系”。Teubert認為翻譯單位是平行文本中可識別的最小的等值單位,具有單義性,不能被進一步分析,并且具有可逆性(reversibility)。

我們注意到,翻譯單位這一概念雖然基于雙語視角,但在平行文本處理中仍存在難題:1)由于強調(diào)“最小分析單位”和“可逆性”,翻譯單位與詞語對等這兩個概念幾乎沒什么區(qū)分;有些單位在平行文本中對應(yīng)嚴謹,卻不一定是最小的;翻譯單位確立后,其意義仍然極不穩(wěn)定,其“無歧義”屬性很難得到保證②。如以下對應(yīng)包含多個翻譯單位(用中括號“[]”隔開):

表1 對應(yīng)及翻譯單位

2) “可逆性”標準忽視了不同源語言文本翻譯視角的差異及語言具體運用語境的差異。如漢語源文本“打白條”的對應(yīng)是“issue IOU”,但英語源文本中的“issue IOU”就不一定對應(yīng)“打白條”,因為“IOU”和“白條”的文化含義和運用語境不一樣。“大換血”的例子亦是如此。3)翻譯單位與意義單位一樣,是一種分析理論,而不能用于識別操作。因此,我們提出“對應(yīng)單位”這一概念,即“平行文本中意義對應(yīng)完整、并具有清晰邊界的任何片段或序列”(李文中2006)。對應(yīng)單位是平行文本雙語視角下確切對應(yīng)的片段,其序列可擴展,其意義在抽離語境后仍能保持相對穩(wěn)定；在大型平行語料庫中,可以通過計算同現(xiàn)對應(yīng)單位的閾值,擴展對應(yīng)單位的序列；對應(yīng)單位具有可逆性或不可逆性,這要取決于翻譯文本的具體語境。與翻譯單位不同,對應(yīng)單位是針對平行文本處理的操作概念,用于對應(yīng)片段(或?qū)?yīng)塊)的識別和提取,是對以后分析的文本準備。對應(yīng)單位的識別標準是對應(yīng)邊界的適當性和確切性。在此原則下,表1中“安家費”作為一個整體與“settling-in allowance”構(gòu)成對應(yīng)單位,因為“安家”與“settling-in”、“費”與“allowance”的對應(yīng)邊界并不清晰。下表中所列都被看作是單一的對應(yīng)單位,其內(nèi)部不再分割:

表2 對應(yīng)單位的邊界

對應(yīng)單位識別的工作原則為:1)人工識別與智能識別相結(jié)合原則。對翻譯的對應(yīng)性判斷依賴雙語語言文化及行業(yè)知識的運用,這是計算機不可能做到的,所以初始階段需要人工判斷和識別文本中的對應(yīng)單位,軟件系統(tǒng)對識別出的對應(yīng)單位自動提取和標注,并利用數(shù)據(jù)庫管理起來。之后,軟件應(yīng)用對應(yīng)單位數(shù)據(jù)庫對新入庫文本進行智能識別和提取,剩余部分仍由人工完成。2)最優(yōu)邊界原則。由于對應(yīng)單位的定義非常靈活,所以人工識別對應(yīng)單位時較難把握其邊界。最優(yōu)邊界原則即是在保證對應(yīng)完整、邊界清晰的前提下,對對應(yīng)單位做最小劃分。如“中國社會各階級”(the classes in Chinese society)可以進一步分為“中國社會”(in Chinese society)和“各階級”(the classes)。人工劃分的大小并不是一個關(guān)鍵問題,但如果劃分的對應(yīng)單位太大,其在語料庫中的復(fù)現(xiàn)頻率就越低,這可能對系統(tǒng)后續(xù)的智能翻譯構(gòu)成風(fēng)險。3)窮盡原則。盡可能匹配最大量單位,使剩余非匹配文本片段減到最少。所以,不同源語言的對應(yīng)單位應(yīng)分別標注。4)區(qū)分連續(xù)性單位和非連續(xù)性單位,標記并提取非對應(yīng)單位。如表2中“以……為代表的”在源語言中是一個非連續(xù)性單位,而對應(yīng)的目的語卻是一個連續(xù)的單位③。對應(yīng)單位識別完成后,系統(tǒng)對平行文本進行檢查,并把非對應(yīng)單位標注起來。實際上,非對應(yīng)單位標注后,也作為一個序列看待,這是因為數(shù)據(jù)庫要與文本不斷交換數(shù)據(jù),平行文本應(yīng)保持完整并與數(shù)據(jù)庫對應(yīng)起來。

3. 系統(tǒng)設(shè)計與開發(fā)

我們在設(shè)計系統(tǒng)時,主要考慮到以下需求:1)基于網(wǎng)絡(luò)服務(wù)器,面向多用戶群開放的動態(tài)交互平臺,體現(xiàn)“用戶既是享用者,又是參與者和貢獻者”的思想。一方面,多家單位需要分工合作,需要系統(tǒng)對數(shù)據(jù)實時匯總和發(fā)布。另一方面,用戶群共同使用并識別平行文本中的對應(yīng)單位,分享和交流對應(yīng)單位的識別和判斷經(jīng)驗與知識,系統(tǒng)追蹤和記錄參與者識別與判斷行為,并通過系統(tǒng)智能匹配體現(xiàn)出來。2)把建庫、分析及識別翻譯看作一個動態(tài)的過程,并整合這幾大模塊,使軟件系統(tǒng)在學(xué)習(xí)和訓(xùn)練中成長。以往的平行語料庫建庫、分析及應(yīng)用被分為多個相互獨立的階段,平行文本庫和數(shù)據(jù)庫完成后成為封閉系統(tǒng),個別系統(tǒng)甚至把文本庫棄之不用,只保留數(shù)據(jù)庫,這可能會導(dǎo)致數(shù)據(jù)衰老,不堪應(yīng)對日益變化的語言運用。3)人工介入遞減原則。在初始階段,需要大量人工介入,隨著平行庫及數(shù)據(jù)庫的壯大和成長,系統(tǒng)智能匹配能力增強,人工介入應(yīng)逐步減少,在以后階段,人工只對系統(tǒng)析出的非對應(yīng)塊進行判斷和識別。4)模塊化管理及軟件熱插拔思想。平行語料庫系統(tǒng)內(nèi)部各個模塊應(yīng)相對獨立,并且可定制。軟件一次開發(fā)完成后,不需要重復(fù)開發(fā)。

系統(tǒng)的基本工作流程可分為:1)平行文本的導(dǎo)入與預(yù)處理,包括文本清理、段落和句子XML自動標注和管理。2)對應(yīng)單位智能識別和人工識別。3)對應(yīng)單位自動提取及入庫管理。4)處理后平行語料庫入庫及數(shù)據(jù)庫關(guān)聯(lián)(見下圖)。

圖1 平行語料庫建庫及對應(yīng)單位識別流程示意圖

圖2 軟件系統(tǒng)對平行文本的預(yù)處理

在智能匹配時,軟件在目的語文本制定區(qū)域內(nèi)查找,并根據(jù)頻率顯示最佳選擇,由人工判斷是否接受。為便于人工觀察,智能匹配在一個獨立窗口顯示匹配的單位和語境。智能匹配可以隨時中斷,開始人工識別和匹配。識別者在源語言文本和目的語文本中通過“點擊選中”或“拖拉選中”選擇對應(yīng)單位,并點擊入庫④。

圖3 對應(yīng)單位智能匹配

平行語料庫統(tǒng)計和檢索分析分為兩大模塊:1)對應(yīng)單位檢索和基本信息統(tǒng)計。2)全文檢索及索引分析。在這里,檢索詞及語境信息都是可以定制的,所以我們把它稱作“語境中的自適應(yīng)單位”(Self-adapted Unit in Context,SUIT),以和傳統(tǒng)語料庫中的KWIC區(qū)別開來。

圖4 對應(yīng)單位檢索及基本信息統(tǒng)計

圖5 對應(yīng)單位的索引分析

在平行文本索引檢索中,實現(xiàn)對應(yīng)單位的平行檢索,這時對齊的基本依據(jù)是各個對應(yīng)塊,在進一步計算對應(yīng)單位的共現(xiàn)搭配,只計算所檢索的對應(yīng)單位左右位置的線性序列。

圖6 對應(yīng)單位的搭配統(tǒng)計

4. 翻譯對應(yīng)的復(fù)雜性

盡管目前該平行語料庫尚未完全建成,但初始檢索和統(tǒng)計顯示的翻譯對應(yīng)復(fù)雜性,卻遠遠超出我們最大膽的想象。從呈現(xiàn)的對應(yīng)關(guān)系上,我們發(fā)現(xiàn)以下幾種情況:1)一對多或多對一對應(yīng),即一個源語言表達在目的語文本中具有多種翻譯,詞語序列越短,翻譯的變異性越強。如“發(fā)展”一詞僅在政治領(lǐng)域文本中就有十余種不同的譯法,使用的詞語(歸元處理后)包括“develop,accelerate,advance,cultivate,promote,evolution,expand,furthering,improve,introduce,move,progress,grow”；作為對比,以英語為源語言文本中的“develop”一詞分別被譯為“發(fā)展、建設(shè)、開拓、加強、樹立、形成、產(chǎn)生、開發(fā)、建立、拓寬、搞上去、闡明、推動”等。2)零對一或零對多對應(yīng)。由于兩種語言語境應(yīng)用及語體運用特征不同,源語言中通過語境指涉或預(yù)示的意義,在目的語文本中得到重構(gòu),或者在源語言文本中顯性表達的意義,在目的語文本中通過指涉進行隱性表達。此外源語言中的贅詞在翻譯過程中被濾除,如漢語中的“X+水平、問題、情況”結(jié)構(gòu),后加的詞語如不表達實際意義一般不被譯出。3)簡對繁或繁對簡對應(yīng)。源語言的習(xí)語、略語或成套的表達在目的語中往往被展開或解釋,如“米袋子省長負責(zé)制”(譯語:provincial governors assuming responsibility for the rice bag (grain supply))中對“米袋子”,“打破‘三鐵’”(譯語:break the Three Irons: iron armchairs (life-time posts), iron rice bowl (life-time employment) and iron wages (guaranteed pay))中對“三鐵”的解釋等。與上述對應(yīng)關(guān)系相比,功能詞的翻譯對應(yīng)更加復(fù)雜多變。這表明,以詞語為依據(jù)進行形態(tài)、結(jié)構(gòu)和意義分析及轉(zhuǎn)換十分靠不住。也有人把這種翻譯的變異性歸結(jié)為缺乏規(guī)范和標準,對翻譯研究表現(xiàn)出一種規(guī)約性態(tài)度。我們認為,翻譯研究應(yīng)該是描述性的,研究者不應(yīng)該凌駕于翻譯實踐之上,而隨意對翻譯事實作出價值性判斷。

5. 結(jié)語:難題與討論

在對應(yīng)單位識別及應(yīng)用中,我們發(fā)現(xiàn)尚存在以下難題:1)對應(yīng)單位的邊界問題與人工判斷的可靠性問題。從表面來看,每個識別者在判斷對應(yīng)單位時,依靠的是個人知識經(jīng)驗以及對語境的把握,似乎是以直覺和經(jīng)驗為主,且每個人判斷的標準及標注的邊界不盡一致,這樣很容易得出結(jié)論:對應(yīng)單位的判斷僅僅是實驗性的,結(jié)果并不可靠。此外,人工判斷某一個單位時,添加了XML標簽,似乎是對文本進行了人工干預(yù),使用了預(yù)定義的框架,不符合“干凈文本”原則和語料庫驅(qū)動思想。這是一種誤解甚至是曲解。理由如下:

(1) 人工判斷不是憑空作出的,必須以雙語視角及對應(yīng)邊界為依據(jù),對文本中的對應(yīng)單位進行判斷,判斷的結(jié)果可能存在長度上的差異(即對應(yīng)單位的大小),而不會產(chǎn)生對應(yīng)移位或非對應(yīng)錯誤。

(2) 人工判斷錯誤不可避免,因而有可能產(chǎn)生非對應(yīng)性錯誤,但該錯誤被重復(fù)的幾率很小。當另一個識別者(在智能識別過程中)看到這種不得當?shù)膶?yīng)單位時,會拒絕接受,并重新作出判斷。我們可以把識別者看成是一個社團,其互相溝通的基本平臺是動態(tài)數(shù)據(jù)庫支持的對應(yīng)界面,以及對數(shù)據(jù)庫中對應(yīng)單位的多次重復(fù)判斷。一個對應(yīng)單位的每一次被認可和接受,不僅增加了該單位的頻數(shù),也使得該單位的地位逐步得到確立。可接受性強的對應(yīng)單位總是會被接受,反之得到拒絕。群體行為的重復(fù)構(gòu)成了對應(yīng)單位的概率基礎(chǔ)。這種多人多次的判斷,實際上就是對某一單位的多重驗證,這種驗證不僅來自人工,還來自實際的文本,其過程可表述為:

a) 當前文本中必須有完全匹配的序列；

b) 識別者依據(jù)自己的經(jīng)驗和直覺認可這種對應(yīng)。

以上二者缺一不可。

(3) 反過來說,假定一個“錯誤”的判斷也被多次重復(fù)和接受,且有很高的復(fù)現(xiàn)率,那么需要重新評價的不是數(shù)據(jù)庫中對應(yīng)單位,而是該單位是“錯誤”的說法本身就有問題。

(4) 關(guān)于可靠性。當我們說什么東西是否可靠時,必須有一個基本指向和參照,任何事物本身無所謂可靠與不可靠,可靠性是一種主觀認知。也就是說,當我們說某個數(shù)據(jù)是否可靠時,實際上是參照某種理論和框架體系而言的。說直白一些,就是想拿數(shù)據(jù)做什么:當研究者有一個具體目標框架體系時,才會產(chǎn)生所使用數(shù)據(jù)是否可靠的問題。以后的研究者可以完全拋開對應(yīng)單位這種數(shù)據(jù),直接到原文本中去爬梳；目前的對應(yīng)單位實際上只是一種經(jīng)過組織的底層數(shù)據(jù)。對應(yīng)單位的識別與標注與任何先入為主的語言學(xué)研究無關(guān)。但如果研究者的目的是觀察雙語文本,研究翻譯事實,對應(yīng)單位的提取改進了數(shù)據(jù)呈現(xiàn)的方式,同時也提高了數(shù)據(jù)的可用性。當然,對應(yīng)單位本身是一個操作概念,是一種處理和呈現(xiàn)數(shù)據(jù)的方法,但可以從對應(yīng)單位中生發(fā)理論或驗證某個理論。2)進一步限制平行文本的領(lǐng)域和文類問題。在設(shè)計平行語料庫初始階段,應(yīng)盡量避免大而全,避免虛構(gòu)性作品,盡量限定一個特定領(lǐng)域并選擇翻譯對應(yīng)較為嚴謹?shù)奈谋尽?)對應(yīng)單位的分類和分析。對應(yīng)單位不是一個預(yù)先設(shè)定的理論概念,所以對它的分類和分析是后延的。同時,也不能在對應(yīng)單位識別過程中就建立分類框架。

在平行語料庫系統(tǒng)進一步開發(fā)中,我們將充分利用網(wǎng)絡(luò)數(shù)據(jù)庫資源,進行給定文本中對應(yīng)單位的識別和判斷,提高系統(tǒng)的可操作性,也為平行語料庫的應(yīng)用開發(fā)奠定基礎(chǔ)。

附注:

① Sinclair也提到，單個的詞也可能構(gòu)成意義單位，但屬于個別現(xiàn)象(Sinclairetal. 2004)。

② 一個翻譯單位在原語境中是無歧義的，但抽離以后就難說了。

③ 2007年12月與衛(wèi)乃興、濮建忠共同修訂了操作原則，并通過“上海交大國家課題研討——平行文本對應(yīng)單位識別Workshop”討論確定如下：1)基本原則。A.區(qū)分源語文本和目的語文本；B.雙語視角原則：以平行文本相互參照確定對應(yīng)單位的邊界，要求邊界清晰對應(yīng)；C.預(yù)測原則：確立一個對應(yīng)單位時，預(yù)測其將來的應(yīng)用性價值。2)操作原則。A.習(xí)語原則：優(yōu)先判斷源語文本中習(xí)語、成語、熟語等成套出現(xiàn)的單位；B.專指名稱原則：判斷源語言文本中的專指名稱，如人名、地名、機構(gòu)組織名稱、術(shù)語等，作為對應(yīng)單位的依據(jù)；C.自由判斷原則：對一些詞語的自由組合，是否進一步拆分，個人判斷不一。應(yīng)用自由判斷原則，即操作者根據(jù)自己的判斷，確定對應(yīng)單位的邊界，如“真正的朋友”(“real friends”)是一個單位還是兩個單位，由個人判定。D.虛詞處理原則：對一些獨立使用的虛詞，如冠詞、介詞、連詞以及代詞或含有話語指代的詞語，不進行對應(yīng)處理。E.非連續(xù)性對應(yīng)單位的處理原則：對一些非連續(xù)性對應(yīng)單位，使用不同的標簽標記；軟件界面作出響應(yīng)。

④ 該系統(tǒng)的技術(shù)開發(fā)由河南師范大學(xué)語料庫應(yīng)用研發(fā)團隊軟件工程師韓朝陽負責(zé)。

Sinclair, J. M., S. Jones & R. Daley. 2004.EnglishCollocationStudies:TheOSTIReport[M]. London/New York: Continuum.

Sinclair, J. 2005. Corpus and text—Basic principles [A]. In M. Wynne (ed.).DevelopingLinguisticCorpora:AGuidetoGoodPractice[C]. Oxford: Oxbow Books: 1-16. Available online from http:∥ahds.ac.uk/linguisitc-corpora [Accessed 2009-05-12].

Teubert. W. 2004. Translation Unit [R].新鄉(xiāng):河南師范大學(xué).

Teubert, W. 2005. My version of corpus linguistics [J].InternationalJournalofCorpusLinguistics10(1): 1-14.

馮志偉.2003.機器翻譯的現(xiàn)狀和問題[A].徐波,孫茂松、靳光瑾主編.中文信息處理若干重要問題[C].北京:科學(xué)出版社:353-377.

李文中.2010.語料庫語言學(xué)的研究視野[J].解放軍外國語學(xué)院學(xué)報(3):37-40.