国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中美旅游網(wǎng)站英語文本語料庫的建設(shè)及應(yīng)用

2016-05-07 03:44:15谷慧娟
周口師范學院學報 2016年1期
關(guān)鍵詞:語料庫英語

谷慧娟

(周口師范學院外國語學院,河南周口466001)

?

中美旅游網(wǎng)站英語文本語料庫的建設(shè)及應(yīng)用

谷慧娟

(周口師范學院外國語學院,河南周口466001)

摘要:旅游網(wǎng)站的英語文本是專門用途英語研究的重要內(nèi)容,語料庫方法是切入旅游文本研究的一種實用方法。對自建小型中美旅游網(wǎng)站英語文本語料庫的建設(shè)過程做了回顧,介紹語料來源、選取和分類標準、賦碼過程;概述該語料庫的整體情況,即平均詞長、類符形符比、平均句長;討論該語料庫的應(yīng)用前景,對促進網(wǎng)絡(luò)旅游文本研究,提升旅游網(wǎng)站文本翻譯質(zhì)量的作用和意義。

關(guān)鍵詞:網(wǎng)絡(luò)旅游文本;語料庫;英語

經(jīng)濟、文化的全球化帶動旅游業(yè)的發(fā)展。2012年,旅游業(yè)收入占世界服務(wù)產(chǎn)業(yè)總額的30%[1],旅游業(yè)經(jīng)營的是經(jīng)過開發(fā)的自然風光、人文景觀和各種旅游產(chǎn)品及服務(wù)等,被稱為綠色產(chǎn)業(yè),已成為許多國家的主要收入來源,受到重視。對于旅游業(yè)而言,人們是否購買旅游商品很大程度上取決于能否事先有所了解,因而針對旅游資源和配套服務(wù)的宣傳十分重要。當今,網(wǎng)絡(luò)成為世界各國的旅游者查找獲取旅游目的地信息的便捷途徑,作為國際通用語的英語,成為網(wǎng)絡(luò)旅游資料文本創(chuàng)作和翻譯的主要語言。英語版的旅游網(wǎng)站或主頁對于推介我國的旅游資源,擴大信息在網(wǎng)絡(luò)上的傳播,吸引更多的境外游客到中國旅游起著不可忽視的作用。因此,旅游網(wǎng)站的英語文本,逐漸成為一個專門的研究領(lǐng)域,受到多方面的關(guān)注。

語料庫將大量真實語料匯聚起來,側(cè)重語言使用的實際,被用來研究各類語言現(xiàn)象。與主要依賴研究者個體的語言直覺經(jīng)驗加上零星的語言實例的傳統(tǒng)方法相比,更有助于揭示語言運作的深層機制。在旅游語言研究領(lǐng)域,研究者們利用語料庫的優(yōu)勢分析英語旅游文本。李德超、王克非介紹了香港理工大學的雙語旅游語料庫的建設(shè),該語料庫屬于較大類型,目前以收錄香港地區(qū)旅游文本語料為主,既有網(wǎng)絡(luò)文本,也有書面文本[2]??祵幾越擞⒄Z旅游文本類比語料庫,用于研究中國旅游網(wǎng)站的英語文本與以英語為本族語的旅游文本在語言層面上的差異,但他對于文本語料的來源、內(nèi)容構(gòu)成、賦碼過程等沒有做詳細說明[3]。侯晉榮用自建類比語料庫來分析旅游文本的語篇及語言特征,她以表格形式簡要介紹了人文和自然兩類語料所占比例,而對語料庫的其他情況沒有加以說明[4]。本文將介紹中美旅游網(wǎng)站英語文本語料庫的建設(shè)過程以及整體概況,并對其應(yīng)用前景加以探討。

一、中美旅游網(wǎng)站英語文本語料庫建設(shè)

英語旅游文本通常提供關(guān)于目的地的食、住、行、游、購、娛信息,以及自然、地理、文化、風俗等知識,主要在于激發(fā)潛在游客的旅游行為,保障旅游活動的順利實施。為了全面了解英語旅游文本的詞匯、語言、文體等特征,我們選定網(wǎng)絡(luò)文本為研究對象,并從2012年開始了小型語料庫的建設(shè)。

研究所建的語料庫為單語類比語料庫,包括兩個組成部分,一類是美國旅游網(wǎng)站英語文本,另一類是中國旅游網(wǎng)站英語文本。建設(shè)美國旅游網(wǎng)站英語文本時,根據(jù)2012年美國國際貿(mào)易管理局下屬的旅游業(yè)管理辦公室( Office of Travel and Tourism Industries)發(fā)布的境外旅游者到訪美國本土的統(tǒng)計數(shù)字[5],優(yōu)先選取接待量排名在前22位的州,利用美國官方網(wǎng)站提供的推介旅游資源的平臺,搜集下載信息。目前美國旅游網(wǎng)站英語文本的容量已達130 438個單詞。中國網(wǎng)站英語旅游文本,選取境外游客接待量高的大陸知名旅游省市,利用各級政府旅游局官方網(wǎng)站,從其英文界面下載匯總文本作為語料來源。目前,中國旅游網(wǎng)站英文文本規(guī)模已達126 074個單詞。

為保證語料的可比性,兩類文本的取樣框架趨于一致,語料的類別、內(nèi)容、構(gòu)成均相同。仿照Maia的做法[6]45,根據(jù)社會語域標準,旅游語料庫文本的選取遵循分層抽樣、結(jié)合均衡抽樣原則,使入庫語料具有一定的代表性,盡量同質(zhì),不致影響處理結(jié)果。內(nèi)容包括旅游目的地的地理區(qū)劃及簡介,自然風光、歷史古跡及典型旅游景點,風土習俗,美食購物娛樂,出入交通等,分別歸入六個類別,即景點概貌、文化風俗、游覽觀光、購物餐飲、氣候、交通,幾乎涵蓋旅游活動的各個方面,目前每個類別有2萬~3萬個單詞。

然后,對已建成的語料使用英國蘭卡斯特大學UCREL研究小組開發(fā)的CLAWS5(輸出格式為:Horizontal)詞性標注工具進行自動賦碼。CLAWS5標注集共包含62類詞性,完全能夠滿足后期研究的需要。自動賦碼完成后,針對中美旅游文本特點以及中英語言差異,進行了人工檢查,修改錯誤賦碼。對于中國網(wǎng)站英語旅游文本的詞性標注,重點關(guān)注以-ng,-n,-an等為結(jié)尾的專有名詞的賦碼。因為在英語中,-ing是現(xiàn)在分詞的詞尾,有些過去分詞會以-n結(jié)尾,一些國名、地名之后加詞尾-an可以構(gòu)成形容詞,所以,中國網(wǎng)站旅游文本中含有-ng,-n,-an的專有名詞往往會被錯誤地標注為英語中的原形動詞、不定式、分詞或形容詞。對美國網(wǎng)站旅游文本的詞性標注檢查,主要關(guān)注多義詞的賦碼,如CLAWS TAGGER把美國英語中的fall全部標注為原形動詞-VVB,而fall在美式英語中可做名詞,有“秋天”的意思,這時就需要人工介入,把詞性賦碼改為單數(shù)名詞-NN1。以上兩道步驟提高了詞性標注的準確性,使語料庫賦碼的準確率達到96%~97%,保證了后期研究的需要。

二、中美旅游網(wǎng)站英語文本語料庫的總體特征

在完成了語料匯總和詞性賦碼之后,利用Wordsmith 5.0和Antconc 3.2.4w統(tǒng)計了兩個部分文本的詞長、類符形符比和平均句長,對文本的整體構(gòu)成有一個概括性了解。

(一)詞長

單詞的長短與文本的詞匯難易度有一定關(guān)聯(lián)性。利用Wordsmith 5.0,以字母個數(shù)為單位,統(tǒng)計語料庫里不同長度單詞的頻率和總體平均詞長,結(jié)果如表1所示。

由表1可知,中國網(wǎng)站2字母詞、7字母詞和8字母詞出現(xiàn)的頻率較高,而4字母詞、5字母詞和6字母詞在美國網(wǎng)站文本的出現(xiàn)頻率顯著偏高。其中長度在2~7字母之間的詞匯在美國網(wǎng)站文本中占81.06%,在中國網(wǎng)站文本中占80.87%。根據(jù)Peter Norvig對谷歌圖書數(shù)據(jù)資源所做的統(tǒng)計,文本里英語單詞的平均詞長是4.79個字母,其中80%單詞的詞長在2~7個字母之間[7],自建語料庫的平均詞長與Peter Norvig的統(tǒng)計結(jié)果一致,可以用來研究英語旅游文本。

經(jīng)過統(tǒng)計,中國網(wǎng)站英語旅游文本的平均詞長是4.85個字母,美國網(wǎng)站文本是4.89個字母,僅從數(shù)值判斷,美國文本的單詞平均略長于中國網(wǎng)站文本。又計算了詞匯密度,即文本的實詞數(shù)量在詞匯總量中所占的比率。結(jié)果顯示中國旅游文本的詞匯密度是0.59648,略低于美國文本的0.59897。這兩組數(shù)值說明美國網(wǎng)站文本的詞匯難度要略高于中國網(wǎng)站文本。兩位日本學者的研究指出,大英百科全書在線的平均詞長是4.32,而維基百科為4.34[8],他們結(jié)合其他易讀性指標,認為大英百科全書在線的文本要比維基百科的文本簡單。

(二)類符形符比

類符形符比反映了文本的詞匯豐富程度,比值越高,用詞越豐富多樣;反之,用詞較貧乏單調(diào)。由于兩個子庫所選文本主題類似,因此,其整體類符形符的比值可以反映中美旅游文本的詞匯豐富程度。如表2所示,美國網(wǎng)站的類符形符比為10.55,標準化類符形符比為45.00,中國網(wǎng)站分別為9.76和40.82,標準化類符形符比值反映出中國網(wǎng)站旅游文本的類符形符離散程度要大于美國文本。從這組數(shù)值判斷,美國網(wǎng)站文本的詞匯重復(fù)率少,相比較而言,中國網(wǎng)站文本的詞匯重復(fù)率略高,用詞表現(xiàn)得相對單調(diào)貧乏。

表2 中美網(wǎng)站文本的類符形符比

(三)平均句長

Butler按長度把句子分為3類:1~9個詞長的為短句,10~25個詞的為中等長度句,25個詞以上的是長句[9]121。CLAWS5詞性標注工具有自動斷句功能,因此,可以利用AntConc3.2.4索引工具有效統(tǒng)計文本的句子總數(shù),進而計算平均句長。從統(tǒng)計結(jié)果觀察,美國網(wǎng)站旅游文本的句長是20.53,略大于20詞,中國網(wǎng)站是19.97,接近于20詞。另外,Wordsmith所計算的中美旅游文本平均句長分別是17.66和16.67。據(jù)此判斷語料庫中所收錄的旅游文本以中等長度句為主,美國旅游文本句子的平均長度要大于中國旅游文本。

綜合觀察比較單詞長度、平均詞長、詞匯密度、類符形符比、平均句長這些指標,中國網(wǎng)站英語旅游文本表現(xiàn)出翻譯文本的語言簡化傾向,具體特征是詞匯密度偏低,類符形符比的比值較小,句子較短[10]。相比較而言,語料庫中所收集的美國網(wǎng)站英語旅游文本的用詞更富于變化而多樣,句子也相對更長一些。

三、中美旅游網(wǎng)站英語文本語料庫的應(yīng)用前景

目前,中國許多省市旅游局網(wǎng)站上英語旅游文本的語言質(zhì)量亟待提高。通常中國網(wǎng)站的英語旅游文本是以漢語為源語翻譯而來,網(wǎng)頁中語言表述不地道、不恰當?shù)睦颖缺冉允?,錯誤頻現(xiàn)。當潛在的海外游客通過互聯(lián)網(wǎng)打開這些介紹中國旅游資源的網(wǎng)頁,查找相關(guān)信息時,英語文本生澀難懂的語言難以激發(fā)閱讀興趣,將阻礙他們順暢地瀏覽相關(guān)內(nèi)容和獲取資訊。而語言地道、生動、易讀的旅游文本不僅能夠有效地傳播旅游資訊和中華文化,而且有利于旅游者獲取相關(guān)信息,進而激起旅游興趣,觸發(fā)旅游行為。鑒于網(wǎng)站在宣傳旅游資源中所起的重要作用,我國各級旅游部門應(yīng)該重視網(wǎng)站英文版文本的質(zhì)量,使旅游資訊得到有效的傳播,促進涉外旅游業(yè)的發(fā)展。

本研究所建設(shè)的小型語料庫可以用來幫助解決旅游文本漢英翻譯中的語言質(zhì)量問題,為改善和促進國內(nèi)網(wǎng)站英語旅游文本的創(chuàng)作和翻譯提供參考。

首先,網(wǎng)絡(luò)中美英語旅游文本語料庫建成后,可以利用Wordsmith 5.0或AntConc3.2.4等語料庫統(tǒng)計軟件,實現(xiàn)對文本的多角度定量分析。例如,生成旅游文本常用單詞表,特別是中國歷史文化常用詞匯的恰當通用英語表達;描述、比較中美旅游文本的詞類分布頻率等。然后,以量化數(shù)據(jù)為依據(jù)展開定性討論。例如,對詞類的量化統(tǒng)計,有助于發(fā)現(xiàn)文本的詞語運用模式和規(guī)律。其次,網(wǎng)站英語旅游文本的創(chuàng)作和翻譯是一種特殊的文化交流活動,在英語旅游文本的翻譯創(chuàng)作中,為達到等效的信息交流目的,既要保證中英兩種語言的恰當準確轉(zhuǎn)換,重視表達的連貫性和清晰性,又要兼顧旅游語言獨特文體風格的傳達。因此,要細致分析語料庫里的美國網(wǎng)站英語旅游文本,考察其在詞匯用法、句式結(jié)構(gòu)、語篇模式等方面的特點,探討旅游文本與文學文本或應(yīng)用文文本在文體上的差異,總結(jié)旅游文本的文體風格特征。最后,網(wǎng)絡(luò)旅游文本語料庫可以用作培訓涉外旅游從業(yè)人員英語的資源庫,還能為旅游英語教材的編寫提供豐富多樣的素材,促進專門用途英語的研究。

今后,要對所建語料庫開展多方位的定量定性研究,為提升旅游資源的外宣翻譯質(zhì)量提供參考依據(jù)。翻譯人員可以通過借鑒這些語料庫研究的發(fā)現(xiàn)和結(jié)果,努力實現(xiàn)網(wǎng)站旅游文本措辭恰當,詞匯搭配合乎英語的模式,少犯語法錯誤,減少用詞冗余的現(xiàn)象,擺脫明顯的翻譯腔,盡量避免跨文化交際失誤的產(chǎn)生。要想有效合理利用語料庫,還要對之不斷完善更新,將其建設(shè)成動態(tài)的語言。

參考文獻:

[1]UNWTO.International tourism receipts surpass US $ 1 trillion in 2011[EB/OL].[2015-05-07].http://media.unwto.org/en/press-release/2012-05-07/international-tourismreceipts-surpass-us-1-trillion-2011.

[2]李德超,王克非.新型雙語旅游語料庫的研制和應(yīng)用[J].現(xiàn)代外語,2010,33( 1) :46-54.

[3]Kang Ning.Corpus-based stylistic analysis of tourism English[J].Journal of Language Teaching and Research,2011,2 ( 1) :129-136.

[4]侯晉榮.基于語料庫的旅游文本語言特征及語篇分析[J].菏澤學院學報,2011,33( 6) :124-128.

[5]Office of travel and tourism industries[EB/OL].[2015-06-30].http://travel.trade.gov/.

[6]Maia B.Some languages are more equal than others:Training translators in terminology and information retrieval using comparable and parallel corpora[C]//In F.Zanettin,S.Bernardini&D.Stewart ( eds.).Corpora in Translator Education.Manchester:St.Jerome,2003:66-80.

[7]Peter Norvig.English letter frequency counts:Mayzner revisited[EB/OL].[2015-09-30].http://norvig.com/mayzner.html.

[8]Adam Jatowt,Katsumi Tanaka.Is wikipedia too difficult?:comparative analysis of readability of wikipedia,simple wikipedia and Britannica,Proceedings of the 21st ACM international conference on Information and knowledge management[C].New York,2012:2607-2610.

[9]Butler Christopher.Statistics in linguistic[M].Beijing:World Publishing Corporation,1991:121.

[10]Mauranen A.&Kuyamaki P.Translation Universals:Do they exist?[M].Amsterdam:Benjamins,2004:183-199.

On the construction and application of corpus of English texts from Chinese and American tourism websites

GU Huijuan
( College of Foreign Languages,Zhoukou Normal University,Zhoukou 466001,China)

Abstract:English texts from tourism websites are an important part of the study on English for special purposes.Corpus method is a practical way to approach the study of tourism texts.This paper reviewed the process of constructing a small-scale corpus of English texts from Chinese and American tourism websites,and introduced the source of texts,criteria of selection and classification,and tagging.The overall characteristics of the corpus,like average word length,type-token ratio,and average sentence length were investigated.Finally prospects for applying the corpus were discussed.The corpus will enhance the study on website tourism texts and help to improve the quality of translation.

Key words:website tourism texts; corpus; English

作者簡介:谷慧娟( 1974-),女,河南扶溝人,副教授,碩士,研究方向為語言學。

基金項目:河南省教育廳2013年度科學技術(shù)研究重點項目指導計劃“跨文化視角下河南省旅游資源的外宣翻譯研究”( 13B740272) ; 2014年度河南省科技廳軟科學研究項目“跨文化交際視閾下河南旅游資源的外宣翻譯研究”( 142400411152) ; 2014年度河南省教育廳教師教育課程改革研究項目“高師英語專業(yè)基礎(chǔ)階段CBI教學模式研究及實踐”( 2014-JSJYLX-055)。

收稿日期:2015-08-20;修回日期:2015-12-04

DOI:10.13450/j.cnki.jzknu.2016.01.011

中圖分類號:H31

文獻標志碼:A

文章編號:1671-9476( 2016) 01-0044-04

猜你喜歡
語料庫英語
《語料庫翻譯文體學》評介
基于語料庫“隱秘”的詞類標注初步探究
玩轉(zhuǎn)2017年高考英語中的“熟詞僻義”
把課文的優(yōu)美表達存進語料庫
讀英語
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
酷酷英語林
基于網(wǎng)絡(luò)語料庫的“給力”研究
當代修辭學(2011年3期)2011-01-23 06:40:18
語料庫語言學未來發(fā)展趨勢
新竹市| 含山县| 杂多县| 新河县| 垣曲县| 安康市| 湖南省| 平谷区| 会昌县| 会东县| 乐平市| 嘉鱼县| 壤塘县| 宁强县| 出国| 阳原县| 北辰区| 汾西县| 皋兰县| 桑日县| 黄石市| 连云港市| 黎川县| 香河县| 连平县| 呼和浩特市| 阜宁县| 大关县| 常德市| 山阳县| 开化县| 筠连县| 呼图壁县| 贵定县| 西乌| 将乐县| 吉木乃县| 崇礼县| 灵台县| 金塔县| 遵义县|