基于語料庫的漢英商務二元詞塊翻譯共性研究

2022-02-15 02:19李銀花

運城學院學報 2022年6期

李銀花

(運城學院國際教育學院，山西運城 044000)

一、引言

翻譯共性(translation universals)假設是描寫語言學中一個重要的研究領域。這一概念最初由Mona Baker[1]提出，她將其定義為“翻譯文本而不是源語文本中出現(xiàn)的典型語言特征，這些特征不是特定語言系統(tǒng)干擾的結果”，即翻譯文本中呈現(xiàn)出的相對于母語固有的規(guī)律性語言特征，通常包括簡化(simplification)、明晰化(explicitation)和規(guī)范化(normalization)等。翻譯語言這種變體的固有特征可以通過比較翻譯文本與目的語母語文本進行發(fā)現(xiàn)、描寫、挖掘，為翻譯過程提供參考[2]，亦為凝結翻譯規(guī)則及深入“第三語碼”[3]研究提供證據(jù)。

十幾年來，利用語料庫語言學方法實證翻譯共性這一假設已經(jīng)成為了重要的研究方向，并為描寫翻譯學帶來了巨大生機[4]。其研究途徑是比較翻譯文本語料庫和目標語母語語料庫，并通過某些語言標志(linguistic indicator)試圖提供實驗性依據(jù)來驗證Baker[1]提出的翻譯共性假設及其他假設。許多學者都從不同角度對翻譯共性進行了系統(tǒng)的闡述和檢驗(如Baker[1，5];Laviosa[6];Xiao[2])。Laviosa[6]以詞頻為語言標志，發(fā)現(xiàn)了翻譯語言中實意詞與功能詞的比率較低，高頻詞重復率高以及常用詞詞形變化少等特點。Xiao[2]以詞匯密度、連接詞和被動結構等為語言標志，在很大程度上驗證了Laviosa[6]的研究結果，并發(fā)現(xiàn)英譯漢中漢語譯文較母語漢語使用了更多的連接詞和被動結構，為明晰化和規(guī)范化的假設提供了依據(jù)。

但是，大多數(shù)先前的翻譯共性研究沒有考慮到搭配也可能導致譯文的明晰化、簡化和規(guī)范化。自Firth[7]提出“由詞之結伴可知其詞”這一著名論斷，并將搭配作為一個術語正式引入語言學研究已有五十多年。盡管如此，如Gries[8]所述，詞匯搭配的研究迄今并沒有走到盡頭，在語言研究中仍具有較強的生命力。從這個意義上講，詞匯搭配研究不僅可以著眼于其界定方式、研究范疇、計量手段、方向性(directionality)等，而且還可以在更大維度(dimensionality)的數(shù)據(jù)中探討搭配在語言輸出中所起的作用。Feng et al.[9]對Ellis[10]和Wray[11]提出的母語(L1)搭配和二語(L2)搭配習得的差異性研究作了綜述，并在Paradis[12]對隱性知識與顯性知識區(qū)分的基礎上，提出了翻譯文本中搭配作用的理論模型。

該模型從形態(tài)和語義等角度顯示了詞匯搭配與翻譯共性的辯證關系，并根據(jù)這個理論模型推導出了如下公式：

該公式表明在母語源語文本轉化為非母語目標語文本的翻譯過程中，合理使用目標語中的詞匯搭配，有利于形成結構、意義完整的翻譯單元(translation unit)，從而降低翻譯共性的約束，使譯文更加貼近母語目標語的表達。反之，搭配使用不恰當則不利于形成有效的翻譯單元，以至于將翻譯共性帶進譯文，使譯文讀起來生搬硬套。此外，F(xiàn)eng et al.[9]強調搭配的使用受語域(register)制約，不同語域可能顯現(xiàn)出不同詞匯搭配分布模式。

圖1 翻譯文本中詞匯搭配作用[9]

二元詞塊(Bigram)這一術語源于N元語法(N-gram)模型，是自然語言處理研究領域中的一個重要概念。在N-gram模型中，第N個詞出現(xiàn)的概率條件及語境意義取決于前面N-1個詞所提供的詞匯信息，對第N個詞的出現(xiàn)及詞性界定具有強大的約束作用。當N取值為2時，即為二元語法模型。換言之，二元詞塊也可以理解為兩個詞項之間的連續(xù)性搭配，其形態(tài)構成可以表示為s=w1w2，故文本中所有可能的二元組集合可以概括為如下公式：

公式2：S={s1,s2,s3,…sn}。

研究二元詞塊形態(tài)分布特征同樣有可能找到翻譯共性的實驗性依據(jù)。因此，本文主要根據(jù)Feng et al.[9]提出的翻譯文本中詞匯搭配作用理論模型，采用基于語料庫的研究方法，以二元詞塊為研究對象，以文體為控制變量，通過語際對比(Contrastive Interlanguage Analysis)對兩個自建商務英語語料庫(The Translational English Corpus of Commercial Translation from Chinese，漢英商務翻譯英語語料庫，以下簡稱TECCTC；The Native English Corpus of Commercial Discourse，母語商務英語語料庫，以下簡稱NECCD)中二元詞塊的不同形式分布模式進行分析，并試圖揭示出漢英商務翻譯文本與母語商務英語文本相比，二元詞塊使用上搭配強度較弱，呈現(xiàn)出“簡化”的趨勢，從而發(fā)現(xiàn)搭配強度(collocability)與翻譯共性假設中譯文簡化之間的關系。

二、研究設計

1. 二元詞塊搭配強度的界定

二元詞塊的形態(tài)研究以詞項之間的線性共現(xiàn)為界定標準(參見Sinclair 1991)，考查的是詞項之間的組合(syntagmatic)關系[13]，通常以“組合穩(wěn)固性”作為不同搭配強度(collocability)二元詞塊的區(qū)分依據(jù)。因此，本研究以搭配強度為語言標志對比研究漢英商務翻譯英語語料庫和母語商務英語語料庫之間二元詞塊形態(tài)分布的區(qū)別性特征，從而發(fā)現(xiàn)翻譯文本中搭配行為的特點。

根據(jù)Sinclair[14]的研究框架，從搭配強度角度將二元詞塊分為自由組合(free combination)、粘著搭配(bound collocation)和成語(idiom)，并逐一對其進行界定：

自由組合(free combination)：其意義等于組成單詞字面意義的機械相加，搭配強度最弱，允許組成單詞最大限度地相互選擇(例如check details、do things)；

粘著搭配(bound collocation)：其意義等于組成單詞字面意義的機械相加，搭配強度較強，允許組成單詞在有限的范圍相互選擇(例如promote growth、budget deficit)；

成語(idiom)：其意義不等于組成單詞字面意義的機械相加，搭配強度最強，不允許組成單詞相互選擇(例如catch up、bull market)。

語料庫中二元詞塊在語言標志中不同類別的比例顯示出該語料庫的搭配分布特征。從形態(tài)角度講，如在譯文中過多使用自由組合而較少使用粘著搭配或成語，則表明詞匯搭配的習得及使用是以單個詞為單位[11]，區(qū)別于母語者“程式化”(formulaic)使用搭配的方式，可能會造成譯文簡化[9]。因此，翻譯語言中所呈現(xiàn)出搭配分布的區(qū)別性特征就是造成翻譯共性的重要因素。

2. 語料來源

目前已建成的商務英語語料庫包括CANBEC(the Cambridge and Nottingham Spoken Business English Corpus)，WCWBE(the Wolverhampton Corpus of Written Business English)以及BNC(the British National Corpus)的商務文本部分等。諸如此類的語料庫(及子庫)在一定程度上滿足了學術研究的需要，為自然語言處理提供了大量真實語言數(shù)據(jù)。然而，就本研究而言，這些商務英語語料庫存在三方面弊端：a.沒有提供翻譯語料；b.收集年限以及語料庫規(guī)模有限；c.某些語料庫不公開或為有償使用。因此，本文采用兩個自建商務英語語料庫，即TECCTC和NECCD。漢英商務翻譯英語語料庫TECCTC作為目標語料庫，其語料收集自2000年到2010年間在中國大陸地區(qū)發(fā)表的權威商務文件、期刊、條例、新聞等的英文譯文。其出處為中國商務部、中國證監(jiān)會、國家外匯管理局、中國日報、新華社等權威機構和媒體。母語商務英語語料庫NECCD作為參照語料庫，其語料收集自2000年到2010年間發(fā)表的商務英文文獻、期刊、條例、新聞等，出處為美國商會、英國商會、紐約時報、路透社等權威機構和媒體，語料收集覆蓋了英語的主要地理和國家變體。這兩個語料庫在長度、語料類型、語料收集期限、語料保密性等方面都具有較強可比性。所用語料為了研究需要均無賦碼，兩個語料庫具體統(tǒng)計數(shù)據(jù)見表1：

表1 NECCD和TECCTC具體統(tǒng)計數(shù)據(jù)

3. 數(shù)據(jù)收集及語料分析

本研究采用Perl(5.16.3.1604版本)軟件進行編程來提取語料庫中的二元詞塊。Perl是基于文本且適合詞塊提取及處理的計算機語言，為語言研究人員提供了一個強大的、自由靈活的語言數(shù)據(jù)處理平臺，在自然語言處理方面可滿足不同研究的需要[15]。數(shù)據(jù)提取采用統(tǒng)計手段，即只提取顯示出統(tǒng)計顯著性的詞對。因此，編程過程中將互信息(Mutual Information)和似然率(Log-likelihood)計算公式導入程序，只有同時滿足互信息值≥3，似然率值≥3.84的二元詞塊才被程序提取并作為研究對象。此外，還設計了兩個過濾方案，即形態(tài)過濾和語義過濾，去除了一些句法或者語義不完整的詞對，如in a，yuan and，be dropping等。最終得到NECCD中二元詞塊形符(bigram token)數(shù)為101,932，二元詞塊類符(bigram type)數(shù)為6,363。TECCTC中搭配形符為111,447個，搭配類符為3,869個。

三、結果分析：漢英商務翻譯中二元詞塊形態(tài)分布特征

本文根據(jù)搭配強度采用“由強至弱”的方法提取不同強度的搭配，即先找出搭配強度最大的成語，其次找出相對強度大的粘著搭配，最后剩下的即為自由組合。兩個語料庫中二元詞塊形態(tài)分布結果列于下表中：

表2 二元詞塊形態(tài)分布

表2顯示，兩個語料庫中二元詞塊形態(tài)分布模式差異很大。從形符角度看，NECCD中的粘著搭配為74021個，占總搭配形符的72.62%；而TECCTC中的粘著搭配為56847，占51.01%。自由組合的使用情況則正好相反，NECCD為23497個，占23.05%；而TECCTC為51194，占45.94%。從類符角度看，兩個語料庫中搭配分布的區(qū)別則更加明顯。NECCD中的粘著搭配為5196個，占總搭配類符的81.64%；而TECCTC僅為1,818，占46.98%。NECCD中的自由組合為992個，占15.6%；而TECCTC為1950，占50.39%。實驗結果表明，相對母語商務英語文本中的搭配使用情況而言，漢英商務翻譯文本中呈現(xiàn)出過多的自由組合，而粘著搭配和成語則表現(xiàn)為輸出不足。為了加強比較結果的可靠性，分別對三組數(shù)據(jù)進行了卡方檢驗(自由度=1，信度95%)，結果列于表3。

表3 TECCTC和NECCD中三類二元詞塊的卡方檢驗

表3顯示，從形符角度看，所得卡方值分別為1.224e4、1.047e4和2.447e2，均大于臨界值3.84(參見Manning & Schütze[16])；從類符角度看，卡方值分別為1.421e3、1.342e3和0.156，自由組合和粘著搭配所得值大于臨界值。該結果表明漢英商務翻譯與母語商務英語比較中，除了成語類符，其余類別均表現(xiàn)出顯著性差異。但需要注意的是，成語類符在兩個語料庫中占比率較小(≤3%)，基本不影響整體比較結果。此外，NECCD中出現(xiàn)的搭配類型總體上也少于TECCTC(3869-6363)。本研究借鑒了Biber et al.[17]計算語篇詞匯密度時采用的語篇形符-類符比(type-token ratio，簡稱TTR)的公式TTR=100×形符/類符，并用此公式計算搭配密度：

根據(jù)公式3，分別計算了TECCTC和NECCD兩個語料庫中的搭配密度，發(fā)現(xiàn)漢英翻譯文本中的比值為3.47，遠低于母語英語文本中的比值6.25。加之，漢英商務翻譯文本中的搭配輸出較母語商務英語文本，呈現(xiàn)出過多使用自由組合、粘著搭配和成語則輸出不足的趨勢。綜合以上結果，漢英商務翻譯文本中的搭配輸出過多依賴、重復使用了自由組合，即搭配使用仍是以單個詞的形態(tài)與意義為驅動，在很大程度上沒有將搭配視為形態(tài)與意義的統(tǒng)一體，因而沒有像母語者一樣以‘程式化序列’(formulaic sequence)的方式進行搭配輸出。這一發(fā)現(xiàn)驗證了Wray[11]的研究結論，第二語言使用者的搭配使用依賴于“組詞成對”，而母語者的搭配使用則是“程式化序列的整體輸出”。從翻譯共性的角度來說，這也為譯文趨簡化的共性提供了依據(jù)。為了更加直觀反映出兩個語料庫的對比結果，利用SPSS(SPSS 19.0版本)統(tǒng)計分析軟件對三組搭配數(shù)據(jù)做了對應分析(correspondence analysis)，其結果如下：

圖2 兩個語料庫中二元詞塊搭配強度對應分析

圖2清晰反映出二元詞塊類別與形符數(shù)目及類符數(shù)目在不同語料庫之間的關系，即相關則近，非相關則遠。TECCTC中二元詞塊輸出無論是形符還是類符都非常接近自由組合；而NECCD中的詞塊輸出則離自由組合較遠，反而接近粘著搭配和成語。該結果再次驗證了如上卡方檢驗的有效性。因此，依據(jù)Baker[1]提出的譯文簡化假設以及Feng et al.[9]提出的譯文中詞匯搭配作用理論模型，可以得出以下結論：與母語商務英語文本相比，漢英商務翻譯文本中的搭配輸出過多依賴、重復使用了自由組合，而粘著搭配及成語的使用尚顯不足，因此使譯文呈簡化的趨勢，進而使得漢英商務翻譯文本中顯現(xiàn)出翻譯共性。

四、應用舉例與討論

統(tǒng)計結果表明導致簡化原因之一，在于翻譯文本中較低的二元詞塊形符-類符比。為了提供更多譯文簡化的依據(jù)，筆者又對兩個語料庫中高-低頻詞塊比做了進一步調查。本研究借鑒了Laviosa[6]和Xiao[2]等研究中對高頻詞匯的界定，采用0.1%作為臨界值來提取高頻詞塊。其結果如下：

表4 NECCD和TECCTC高-低頻詞塊比

表4顯示出TECCTC中高頻詞塊的數(shù)目遠大于NECCD，因而其累計比例也遠高于NECCD。統(tǒng)計高頻詞塊重復率是考量詞塊類型的單一性程度，從其結果可以清楚看到，漢英商務翻譯文本中重復使用的二元詞塊類型比率較母語商務英語文本高出28.45%。高-低頻詞塊比例是考量詞塊類型多樣性的程度，兩個語料庫之間的差異尤為顯著，說明漢英商務翻譯中二元詞塊輸出不僅依靠某個類別的搭配，而且在很大程度上忽視了一些母語者在商務英語中常用的搭配。本研究考查了兩個語料庫中所有包含call一詞的搭配來例證以上結果。

TECCTC中包含call一詞的二元詞塊只有call auction這1個類符，共計8個頻次，例句如下：

(1)…the actual opening price formed aftercall auctionwill be higher than [the]ex-rights price,and vice versa.

TECCTC中其余包含call的搭配都沒有顯示出統(tǒng)計顯著性(例如call on和call for)，因而沒有列入研究對象。

與之相比，NECCD中含call一詞的二元詞塊有12個類符，共計225個頻次，包括call option、call centre、call conference、covered call、naked call、duty call、bull call、margin call等。在這些搭配中，call的意義有時只能通過搭配關系才能體現(xiàn)，例如bull call、call option、covered call、margin call等，例句如下：

(2)Using cash as acall optionin this case generated an extra 26%of return.

(3)...have recommended creating abull callspread position in Microsoft and writingcovered callson GameStop.

諸如此類的詞塊是構成粘著搭配和成語的重要組成部分，在母語商務英語中使用頻率較高。顯然，從此例可見漢英商務翻譯中缺乏此類的搭配，換言之，沒有達到母語的水平，因而導致在該研究中某些詞塊沒有出現(xiàn)統(tǒng)計顯著性，進而體現(xiàn)在詞塊類型單一化、簡單化。這一發(fā)現(xiàn)不僅對翻譯共性研究中的簡化假設提供了支持性依據(jù)，而且暗示了導致譯文簡化的原因在于搭配的作用，即漢英商務翻譯文本中英語詞匯搭配的使用，注重詞匯而忽視詞塊的形態(tài)、意義的整體性，并割裂了詞塊學習與語境的關系，導致詞匯搭配往往是“拼湊”而成。這不僅降低了目標語文本中搭配使用的有效性，而且使譯文中的搭配偏離母語規(guī)則，使目標文本帶有一些偏離母語目標語的區(qū)別性特征。

五、結束語

翻譯共性引起了國內(nèi)外眾多語言學和翻譯學研究人員的密切關注，他們從多個角度加以論述來支持或反對這一假設，特別是近年來利用語料庫語言學的研究方法在平均句長、被動結構等方面做出了很多有益的嘗試。本文采用基于語料庫的研究方法，從二元詞塊形態(tài)分布的角度，為支持翻譯共性這一假設提供了實驗性依據(jù)。通過對比漢英商務翻譯語料庫和母語商務英語語料庫中的詞塊分布模式，得出如下結論：a.與母語商務英語相比，漢英商務翻譯中過多使用了自由組合，造成粘著搭配或者成語的輸出不足；b.詞塊形符-類符比值較低，造成搭配類型整體上單一化，使譯文呈現(xiàn)簡單化趨勢；c.實驗數(shù)據(jù)支持了Baker[1]的翻譯共性假設，并在一定程度上驗證了Feng et al.[9]提出的翻譯文本中詞匯搭配作用理論模型的有效性、可行性及準確度。

本文研究結果對漢英翻譯、英語學習者語料，以及英語教學等多方面都具有一定的理論與實踐意義。本文揭示出非母語英語使用者在詞塊使用上，仍然存在較大的問題，主要體現(xiàn)在使用詞塊靠“拼湊”單詞，忽視詞塊的形式和意義等特征，在一定程度上沒有合理地將詞塊用于合理的語境。這反映出漢英譯者往往片面追求詞匯量，而忽視詞與詞之間的搭配關系，并且割裂了詞匯搭配與語境之間的關系。因此，對比分析翻譯語言和母語中的詞塊使用情況，有助于二語英語使用者認識到搭配在翻譯語言中的一些特征，并參照相應母語搭配分布模式盡可能規(guī)避翻譯共性，使英語譯文更加貼近其母語目標語表達。基于二元語法模型的研究還有利于教師改進詞匯教學模式、注重詞塊輸出和數(shù)據(jù)挖掘，從而更好地指導英語教學及翻譯培訓。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于語料庫的漢英商務二元詞塊翻譯共性研究

一、引言

二、研究設計

三、結果分析：漢英商務翻譯中二元詞塊形態(tài)分布特征

四、應用舉例與討論

五、結束語

一、引言

二、研究設計

三、結果分析：漢英商務翻譯中二元詞塊形態(tài)分布特征

五、結束語