馬換娜
(鄭州大學外語學院,河南 鄭州 450001)
基于語料庫的中外英文景點介紹詞匯特征研究
馬換娜
(鄭州大學外語學院,河南 鄭州 450001)
語料庫研究方法是一種自上而下的、基于大量數(shù)據(jù)、以概率統(tǒng)計為方法的實證性研究方法。利用AntConc 3.2.3,Range和Readability Analyzer 1.0等語料庫分析檢索軟件對自建中外英文景點介紹語料庫進行定量和定性分析,通過比較中國英文景點介紹和英國英語原生文本在詞匯特征方面的差異。發(fā)現(xiàn)中國英文景點介紹的類符/形符比低于英國英文景點介紹,但是在實詞比,平均句長,形容詞和連詞的使用等方面高于英國英文景點介紹,而且中國英文景點介紹難度較大。
語料庫;景點介紹;詞匯特征
旅游文本作為一種專門用途型語言形式,是語言學領域專家和學者研究的主要對象之一。旅游文本在宏觀上可以概括為一切旅游語言文字資料,包括旅游景點介紹、旅游告示牌、旅游宣傳廣告、導游解說詞、民俗風景畫冊等各方面的內容[1]。其中景點介紹最具有旅游特色,最易被選取為研究語料,此方面的研究一直未間斷。郭歡歡等[2]在順應論的視角下對比了溫州地區(qū)景點介紹以及其英譯文的語用效果。朱兵艷等[3]以海南國際旅游島景點介紹英譯文為例,分析了景點介紹英譯文的文本特點,并提出相應的翻譯策略。林菲[4]基于漢英語言的修辭差異對比了漢英景點介紹在話語內容、構建方式和美學手段等方面的差異。
語料庫是基于計算機用來儲存大量語言信息材料的資料庫。20世紀70年代末80年代初“語料庫語言學”這一名稱真正得到使用,并贏得語言學界的尊重[5]。語料庫語言學作為一種新的研究方法,能夠提取、利用自然真實的語料,是收集數(shù)據(jù)的重要手段?!罢Z料庫語言學作為一種研究方法,今天沒有人懷疑,事實上眾多研究領域已經離不開基于語料庫的研究方法,比如社會語言學、語用學、會話分析、語體分析、兒童語言發(fā)展研究等等”[6]。
隨著語料庫語言學的興起,眾多綠色免費分析統(tǒng)計工具的開發(fā),學者在研究景點介紹或其他旅游文本時,也引入了基于語料庫的研究方法。李德超等[7]基于自建百萬字旅游文本對應語料庫和類比語料庫,根據(jù)語料庫比較和檢索結果,探討了數(shù)據(jù)驅動學習方式在旅游翻譯教學中應用。張淑靜[8]基于自建微型國外著名景點介紹語料庫,分析了中國英語景點介紹的詞簇模式和文類特征。熊兵[9]基于自建旅游文本平行語料庫和可比語料庫對旅游文本英譯文的文本特征及特定旅游語用的漢英翻譯問題進行了探討。本研究旨在基于自建單語語料庫,對比中外英文景點介紹的詞匯特征,擴充旅游景點介紹的研究廣度,為這方面的研究添磚加瓦。
研究語料來源為中外官方旅游網(wǎng)站。從中國旅游網(wǎng)站(www.travelchina.gov.cn)和英國旅游網(wǎng)站(www.tourist-information-uk.com)分別隨機抽取40篇中國英文景點介紹和40篇英國英文景點介紹,自建兩個語料庫:中國英文景點介紹語料庫和英國英文景點介紹語料庫。然后利用文本整理器對兩個語料庫文本進行清潔,主要是刪除文本中多余的空格空行,整理標點符號,修正亂碼等等,并進行人工復查,保證文本干凈整潔,增加之后統(tǒng)計分析結果的可信度。
研究工具主要是TreeTagger for Windows 3.0,AntConc 3.2.3,Range,Readability Analyzer 1.0。TreeTagger for Windows 3.0和Readability Analyzer 1.0是由北京外國語大學語料庫團隊成員開發(fā),本研究利用TreeTagger for Windows 3.0對兩個英文本進行自動詞性標注,利用Readability Analyzer 1.0計算文本的易讀性(Flesch Reading Ease)、困難程度(Text Difficulty)、平均句長(Average Sentence Length)、平均詞長(Average Word Length)等進而測量文本的難易程度。利用日本早稻田大學Laurence Anthony編寫的文本檢索軟件AntConc 3.2.3,獲取文本中的形符數(shù)、類符數(shù)、名詞數(shù)、實義動詞數(shù)、形容詞數(shù)、副詞數(shù)等等。Range工具是由新西蘭維多利亞大學語言學家P.Nation 和A. Coxhead設計,A. Heatley編寫,用來檢索詞匯廣度和深度的統(tǒng)計分析軟件。Ranger內置了三個詞匯表,這三級詞匯表代表了英語中出現(xiàn)頻率較高的詞匯,每一級的詞匯難度遞增。本研究利用該軟件測量不同等級詞匯在兩個文本中的分布情況。
(一)詞匯密度
1. 類符/形符比
類符(Type)指文本中任何一個獨立的、不同于其他詞的詞。形符(Token)是一個語言單位,指文本中所有出現(xiàn)的詞,即文本中有多少詞就有多少形符。類符/形符比是衡量語料庫文本中詞匯密度的常用方法,可輔助說明文本的詞匯難度,也可以用來衡量語篇的信息量[10]。運用AntConc 3.2.3分別統(tǒng)計了中國英文景點介紹語料庫和英國英文景點介紹語料庫的類符數(shù)和形符數(shù),并計算出各自的類符/形符比,得到如表1所示信息:
表1 類符/形符比
從表1可以看出,中國英文景點介紹的類符/形符比小于(26.32% < 31.58%)英國英文景點介紹的類符/形符比。Baker[11]指出類符/形符比比值的高低與寫作者詞匯使用的豐富度和多樣性成正比,可以在一定程度上反應文本作者使用的詞匯量大小和遣詞的變化性。通常比值越小,詞匯應用就越簡單;比值越高,作者用詞的變化性越大。由此可見,與英國英文景點介紹相比,中國英文景點介紹用詞變化性較小,重復率較大,詞匯豐富程度較低。
2. 實詞/總詞數(shù)之比
另一個測量詞匯密度的方法是統(tǒng)計實詞形符在總形符數(shù)中的比例,該方法是文本信息量大小的一個衡量標準。根據(jù)Biber et al的論述,英語實詞主要包括名詞、實義動詞、形容詞和副詞四類[10]。首先利用TreeTagger for Windows 3.0對兩個英文語料庫文本進行詞性標注,利用PatternBuilder獲取統(tǒng)計任意名詞、實義動詞、形容詞和副詞的正則表達式,然后運用這些正則表達式在AntConc 3.2.3中檢索所有的名詞、實義動詞、形容詞和副詞的數(shù)目,并計算實詞/總詞數(shù)之比,統(tǒng)計結果如表2:
表2數(shù)據(jù)顯示,中國英文景點介紹篇幅較長、實詞/總詞數(shù)比較大,說明中國景點介紹信息量較大。因為中國景點介紹常常利用大量篇幅描述景點,包括其風光景色、人文特色、歷史發(fā)展、社會影響等等,而英文景點介紹重在對地理環(huán)境、服務設施等信息的傳遞,對風光景色的描述性篇幅則著筆不多[12]。在分析英國文本時,發(fā)現(xiàn)英國景點介紹偏于簡明寫實,詳細信息多以鏈接的形式呈現(xiàn),由讀者自由選擇是否點開鏈接閱讀更多詳細內容。而中國英文景點介紹與中文文本相似,更傾向于將全部相關信息呈現(xiàn)出來。
表2 實詞/總詞數(shù)之比
(二)詞長與句長
平均句長是文本中句子的平均長度。平均詞長指的是在語料庫文本中的類符平均長度。平均詞長越長說明該文本中較長的詞越多,所以文本內容顯得較復雜; 反之,如果詞長較小,證明該文本內容越簡單,內容自然越淺顯易懂。利用軟件Readability Analyzer 1.0計算兩個文本的平均句長和平均詞長。計算結果顯示,兩個文本的平均詞長相同,均為4.90個字母。但是,中國英文景點介紹的平均句長為28.20,英國英文景點介紹的平均句長為19.80,即中國的景點介紹中長句子較多??赡茉蚴菫榱耸刮谋緮⑹龈忧逦袊⑽木包c介紹的寫作者采用長句完整表達意思。也可能是因為寫作者為了表現(xiàn)自己的英文水平,或者說中國人整體的英文水平,特意采用復雜長句。
(三)形容詞的使用
根據(jù)上文統(tǒng)計出的兩個文本各自的總形容詞數(shù),計算兩個文本使用形容詞的比例。中國英文景點介紹中總形容詞數(shù)是969,占文本總詞數(shù)的11.30%。英國英文景點介紹共使用530個形容詞,比例為8.55%??梢钥闯?,中國景點介紹使用形容詞更頻繁,11.30% > 8.55%,說明中國景點介紹的寫作者更傾向于使用華麗的言辭。孫紅梅[13]對比漢英旅游景點介紹文本時,發(fā)現(xiàn)漢英民族不同的文化背景、價值觀念及思維方式表現(xiàn)在英漢旅游景點介紹中,漢語表達的華麗溢美和英語表達的直觀明快形成了鮮明的對比。典型的中文旅游文本在傳遞信息時往往用字凝練含蓄、言辭華麗,追求客觀景物與主觀情感的和諧交融之美,大量使用形容詞和四字成語,景點簡介都非常有文采。英語景點介紹文本大多風格簡約,表達直觀通俗,注重信息的準確性和語言的實用性,常常用客觀的具象羅列來傳達景物之美。這些統(tǒng)計數(shù)據(jù)準確地反映出這一對比,中國景點介紹雖是英文的,但與中文文本卻有極大相似之處,言辭華美。英國英文景點介紹則較少使用形容詞,語言樸實,簡潔明快。
(四)高頻連詞的使用
連詞是語料庫中一種語法功能詞,其占總詞符數(shù)的比例,可以反映出文本的語法連接手段。利用AntConc 3.2.3檢索文本中的高頻(頻率大于0.10%)連詞,并計算不同連詞在文本中使用的比例,結果如表3所示:
表3 高頻連詞的使用情況
通過表3可知,中國英文景點介紹中高頻連詞有and,as,that,which四種,合計頻率為6.34%,英國英文景點介紹中高頻連詞有and,as,or,that,which五種,總頻率為6.06%。與英國景點介紹相比,中國景點介紹使用連詞較多,這也是上文顯示中國景點介紹平均句長較長的原因。這表明中國英文景點介紹的寫作者意識到了英語重形合的表達習慣,有意增加連詞的使用,使文本的語法層次更分明。
(五)詞匯難易程度
利用Range軟件對兩個文本的用詞進行檢索統(tǒng)計,將文本中的詞匯與其提供的三級常用詞匯表做比較,用以衡量文本的詞匯難度,以對比中國英文景點介紹和英國英文景點介紹的難易程度。Range軟件檢索結果如表4:
表4 Range檢索結果
對比兩欄數(shù)據(jù)可知,與英國英文景點介紹相比,中國的英文景點介紹中第一級詞匯較少(65.9% < 69.3%),第二級詞匯較少(6.3% < 7.6%),第三級詞匯較多(5.6% > 4.1%),詞表外詞匯較多(22.2% > 19.0%)?!叭壴~表中,第三級和詞表外詞匯,特別是第三級詞表對文本整體的詞匯難度有較好的判別能力”[14]。所以中國英文景點介紹文本的詞匯難度在一定程度上超過了英國英文景點介紹文本。雖然英語并非中國人的母語,但隨著英語國際地位的提升,越來越多的中國人開始學習英語,中國人也越來越希望展現(xiàn)自己的英語水平。
為了更加準確地說明兩個文本的難易程度,本研究利用專門計算文本易讀性的軟件Readability Analyzer 1.0對比兩個文本的困難程度。分析結果如表5所示:
表5 Readability Analyzer 1.0分析結果
從表5可以看出,與英國景點介紹相比,中國英文景點介紹易讀性較低(38.1 < 48.00),困難程度較高(61.90 > 52.00),對讀者受教育水平要求較高(14.60 > 11.40),這足以說明中國英文景點介紹確實比英國英文景點介紹難度高。綜合本研究可以發(fā)現(xiàn),上文中出現(xiàn)中國英文景點介紹的實詞比較大、平均句長較長、連詞使用較多等研究結果都是導致中國英文景點介紹相對較難的原因。
本研究基于自建中國英文景點介紹語料庫和英國英文景點介紹語料,對中外英文景點介紹的詞匯特征進行了探討,重點考察了景點介紹的類符/形符比,實詞/總詞數(shù)之比,平均句長,平均詞長,形容詞的使用,高頻連詞的使用,不同難度詞匯分布等情況。研究發(fā)現(xiàn),中國英文景點介紹的類符/形符比低于英國原生文本,但是在實詞比,平均句長,形容詞和連詞的使用等方面高于英國英文景點介紹。對比相關研究發(fā)現(xiàn),中國英文景點介紹受漢語影響,與中文景點介紹文本存在很大相似之處,言辭華美,描述性語言較多。同時,中國英文景點介紹也顯示出英語的影響,例如較多連詞的使用。另外,在中國英文景點介紹中高頻低難度詞匯分布較少,低頻高難度詞分布較多,即中國英文景點介紹的難度在一定程度上比英國原生文本還要大,顯示出中國人英文水平的提升或展現(xiàn)英文水平的意愿。語料庫研究方法方興未艾,未來的研究應該擴大語料庫庫容,并且增加中文景點介紹。同時還應增加旅游告示牌、旅游宣傳廣告、導游解說詞、民俗風景畫冊等內容,建立旅游文本專門語料庫,為以后各方面的研究分析做準備。
[1] 王治奎.大學漢英翻譯教程[M]. 濟南:山東大學出版社,2001:434.
[2] 郭歡歡,葉苗. 溫州地區(qū)漢英旅游景點介紹語篇翻譯的語用順應研究[J]. 溫州大學學報(社會科學版),2009,22(4):67-72.
[3] 朱兵艷,劉士祥. 旅游景點文本特點與英譯策略——以海南國際旅游島景點介紹英譯為例[J]. 內蒙古農業(yè)大學學報(社會科學版),2012,14(2):316-318.
[4] 林菲. 新修辭理論視域下的漢英旅游網(wǎng)站文本的修辭對比與翻譯[J]. 西華大學學報(哲學社會科學版),2015,34(4):81-86.
[5] 李文中. 語料庫語言學的研究視野[J]. 解放軍外國語學院學報,2010,33(2):37-40.
[6] 楊惠中. 語料庫語言學與中國外語教學[J]. 現(xiàn)代外語(季刊),2010,33(4):421-422.
[7] 李德超、王克非. 基于雙語旅游語料庫的DDL翻譯教學[J]. 外語電化教學,2011,(1):20-26.
[8] 張淑靜. 中國英語景點介紹中的詞塊研究. 中南民族大學學報(人文社會科學版)[J].2012,32(6):173-176.
[9] 熊兵. 基于語料庫的旅游文本英譯文詞匯特征及翻譯研究[J]. 華中師范大學學報(人文社會科學版),2016,55(5):94-103.
[10] 牛桂玲.中外學術論文中英文摘要語料庫的創(chuàng)建及應用[M]. 北京:知識產權出版社,2013:69-71.
[11] Baker, Mona.Corpus Linguistics and Translation Studies: Implications and Applications[M]. Amsterdam:John Benjamins Publishing Company, 1993.
[12] 楊雪.中英文旅游資料對比分析[J].科教文匯(下旬刊),2008,(8):237-238.
[13] 孫紅梅. 功能翻譯理論視角下漢英旅游景點介紹文本的對比研究[J]. 中國礦業(yè)大學學報(社會科學版),2010,(3):140-144.
[14] 梁茂成,李文中,許家金. 語料庫應用教程[M]. 北京:外語教學與研究出版社,2010:138.
[編校:楊英偉]
A Corpus-based Study on Lexical Features of English Scenic Spot Texts From Domestic and Foreign Tourism Sites
MA Huan-na
(School of Foreign languages, Zhengzhou University, Zhengzhou Henan450001)
The corpus research method is a top-down empirical method which is based on a large number of data and uses the knowledge of statistics. Using the software AntConc 3.2.3, Range and Readability Analyzer 1.0 to carry on qualitative and quantitative analyses of the self-built corpora of English scenic spot texts from Chinese and British tourism sites, it aims to contrast the lexical features of English scenic spot texts in China and original English scenic spot texts in Britain. It is found that the Type/Token Ratio of English scenic spot texts from Chinese tourism sites is lower than that from British tourism sites, that the Content Word Ratio,Average Sentence Length, the number of adjectives and conjunctions are higher in English scenic spot texts from Chinese tourism sites, and that English scenic spot texts from Chinese tourism sites are more difficult than those from British sites to some degree.
corpus; scenic spot texts; lexical features
H031
A
1671-9654(2017)03-0112-05
10.13829/j.cnki.issn.1671-9654.2017.03.022
2017-06-09
馬換娜(1991- ),女,河南安陽人,在讀碩士研究生,研究方向為應用英語教學。