王仁強(qiáng)
Routledge是一家享譽(yù)全球、歷史悠久的人文社會(huì)科學(xué)類圖書、期刊和在線資源出版公司。自2005年以來,該公司陸續(xù)推出系列頻率詞典——Routledge Frequency Dictionaries。目前已出版德語、西班牙語、葡萄牙語、法語、漢語和美國英語等六個(gè)語種的頻率詞典,即 A Frequency Dictionary of German:Core Vocabulary f or Learners(Randall Jones&Erwin Tschirner,2005),A Frequency Dictionary of Spanish:Core Vocabulary for Learners(Mark Davies,2005),A Frequency Dictionary of Portuguese:Core Vocabulary for Learners(Mark Davies&Ana Maria de Oliveira Preto-Bay,2009),A Frequency Dictionary of French:Core Vocabulary f or Learners(Deryle Lonsdale&Yvon Le Bras,2009),A Frequency Dictionary of Mandarin Chinese:Core Vocabulary f or Learners(Richard Xiao,Paul Rayson&Tony McEnery,2009),以及A Frequency Dictionary of Contemporary American English:Word Sketches,Collocates,and Thematic Lists(Mark Davies&Dee Gardner,2010)。即將在2010年內(nèi)出版的還有阿拉伯語和捷克語兩個(gè)語種的頻率詞典。Routledge系列頻率詞典的主編是英國 Lancaster University的Paul Rayson教授和美國Brigham Young University的Mark Davies教授。編委會(huì)成員包括Geoffrey Leech、Michael Barlow 、Adam Kilgarriff、Barbara Lewandowska-Tomaszczyk 、Josef Schmied 、Andrew Wilson、Hongying Tao和 Chris T ribble等來自英國 、美國、德國 、波蘭和新西蘭的著名外語教育和語料庫語言學(xué)專家,可謂陣容強(qiáng)大。由此可見,Routledge系列頻率詞典是一個(gè)多語種(涵蓋聯(lián)合國六大工作語言)、跨學(xué)科的國際合作項(xiàng)目,及時(shí)評介其編纂特色(包括其理論基礎(chǔ)和技術(shù)實(shí)現(xiàn))以及可能存在的問題與不足,不僅有助于編者進(jìn)一步改進(jìn)詞典,便于用戶更好地使用詞典,同時(shí)也有助于詞典學(xué)學(xué)科建設(shè)。
頻率詞典通常作為一種相對客觀的語言描寫工具書,廣泛應(yīng)用于語言教育(尤其是外語教育)、心理語言學(xué)研究和自然語言處理等領(lǐng)域[1]。Routledge系列頻率詞典在目標(biāo)定位上顯然有些獨(dú)出心裁:其基本定位是可供語言學(xué)習(xí)者直接使用的頻率詞典,并在宏觀結(jié)構(gòu)和微觀結(jié)構(gòu)的處理上盡量滿足學(xué)習(xí)者的需要,具有鮮明的個(gè)性特征。
Routledge系列頻率詞典有一個(gè)非常醒目的副標(biāo)題“Core Vocabulary for Learners”(供學(xué)習(xí)者使用的核心詞匯),明確揭示其目標(biāo)定位:在收詞立目方面,并不像其他頻率詞典一樣,試圖收錄一門語言的全部詞匯或者絕大多數(shù)常用詞匯(比如2008年11月國家語言文字工作委員會(huì)發(fā)布、商務(wù)印書館出版的《現(xiàn)代漢語常用詞表》就提供了56008個(gè)現(xiàn)代漢語常用詞的頻率信息),而只收錄(中初級)學(xué)習(xí)者急需的5000個(gè)左右的核心詞匯。
那么,這個(gè)學(xué)習(xí)型系列頻率詞典的定位是否科學(xué)?其收錄5000個(gè)左右核心詞的理論依據(jù)是什么?系列頻率詞典在總序中明確指出,其主要依據(jù)就是著名的語言習(xí)得理論專家Nation的研究結(jié)果。Nation的研究表明,英語中最常用的4000~5000個(gè)單詞可以覆蓋書面語篇詞匯的95%,而最常用的1000個(gè)單詞可以覆蓋口頭交際語篇詞匯的85%。[2]Nation還強(qiáng)調(diào),優(yōu)先學(xué)習(xí)英語高頻詞對于二語或外語詞匯學(xué)習(xí)特別關(guān)鍵。[3]Nation的研究結(jié)果也得到基于其他語種研究結(jié)果的支持。比如,Jones的研究表明,最常用的3000個(gè)德語核心詞就能夠涵蓋各種語域的德語文本中75%至90%的內(nèi)容。[4]簡言之,集中精力學(xué)好5000個(gè)左右的常用詞,對于中初級外語學(xué)習(xí)者解決“費(fèi)時(shí)低效”的問題顯得尤為重要。有鑒于此,本系列詞典除了德語篩選了4034個(gè)核心詞(其中涵蓋部分兼類詞條)之外,其他詞典都選擇了5000個(gè)核心詞作為收錄對象。這種收詞定位使得Routledge系列詞典不僅有助于外語學(xué)習(xí)者高效使用該系列詞典,而且對于教學(xué)大綱和教材編寫、中初級學(xué)習(xí)詞典編纂以及語言學(xué)研究(包括心理語言學(xué)、二語習(xí)得等)都有重要的指導(dǎo)意義。
正是由于高頻詞對于外語學(xué)習(xí)者的重要性,實(shí)際上早在20世紀(jì)20年代就有學(xué)者開始了詞頻表的研制工作,較有影響的如Thorndike在 1921年編寫的 Teacher’s Word Book 和 West在1953年編制的General Service List of English Words,等等。但是,正如Ljung的研究所指出的那樣,早期詞頻表因?yàn)闅v史局限大多是基于教材或者經(jīng)典讀物進(jìn)行篩選的,跟實(shí)際語言應(yīng)用中的詞頻信息存在一定偏差。[5]
Routledge系列頻率詞典全部都是基于最新研制的各個(gè)語種大型平衡語料庫編寫的(詳見表1)。其中,2006年出版的A Frequency Dictionary of Spanish采用的是 Mark Davies教授在2001年獲得的美國國家人文基金會(huì)(National Endowment for the Humanities)資助下于2002年完成的“Corpus del Espa?ol”(西班牙語語料庫)。該語料庫涵蓋了12世紀(jì)到20世紀(jì)的語料,共計(jì)1億詞,其中20世紀(jì)的2000萬詞被用于常用詞表的篩選,包括口語和書面語(其中前者占三分之一,后者占三分之二),而書面語又對小說和非小說作出區(qū)分。2006年出版的A Frequency Dictionary of German采用的是“Leipzig/BYU Corpus of Contemporary German”(萊比錫-楊百翰大學(xué)當(dāng)代德語語料庫),該語料庫共有420萬詞,其中口語、文學(xué)、新聞和學(xué)術(shù)語料各占100萬詞,此外還包括課堂教學(xué)話語20萬詞,該語料庫力爭做到在語域、體裁、地域和年齡等方面具有代表性。2008年出版的A Frequency Dictionary of Portuguese采用的是Mark Davies教授在2004年獲得的美國國家人文基金會(huì)資助下研制的“Corpus do Portuguüs”(葡萄牙語語料庫)。該語料庫涵蓋了13世紀(jì)到20世紀(jì)的語料,共計(jì)4500萬詞,其中20世紀(jì)(尤其是20世紀(jì)70年代以來)的2000萬詞被用于常用詞表的篩選,包括口語和書面語(其中前者占10%,后者占90%),而書面語又對學(xué)術(shù)、新聞和小說語料作出區(qū)分,同時(shí)還注意爭取做到葡萄牙和巴西語料的地域均衡。2009年出版的A Frequency Dictionary of French采用的是最新研制的2300萬詞的法語口筆語語料庫,全部是20世紀(jì)50年代以來的語料,其中口語和書面語語料各占 50%。2009年出版的 A Frequency Dictionary of Mandarin Chinese采用的是最新研制的5000萬詞的現(xiàn)代漢語語料庫,主要收錄20世紀(jì)80年代以來的語料,包括口語、小說、非小說和新聞?wù)Z篇四個(gè)子庫,其中口語子庫包含340萬詞。而2010年最新出版的A Frequency Dictionary of Contemporary American English采用的則是4億多詞的“The Corpus of Contemporary American English”(當(dāng)代美語語料庫),該語料庫收錄的是1990年至2009年每年2000萬詞的語料,并均分為口語、小說、通俗雜志、新聞和學(xué)術(shù)語篇五個(gè)子庫。
表1 各個(gè)語種語料庫對比
Martin曾經(jīng)指出,在語料庫建設(shè)中對實(shí)際運(yùn)用的語言進(jìn)行分層抽樣(即考慮語域、體裁、地域、時(shí)間等參數(shù))并有效揭示詞匯使用頻率是頻率詞典編纂所面臨的兩大技術(shù)難題。如表1所示,Routledge系列頻率詞典所采用的大型平衡語料庫在設(shè)計(jì)理念和技術(shù)實(shí)現(xiàn)方面與前人相比都有所突破。而且,每個(gè)語種的最終詞表都不是直接采用語料庫中的絕對使用頻率進(jìn)行篩選,而是采用的標(biāo)準(zhǔn)化頻率(normalized frequency)。標(biāo)準(zhǔn)化頻率有助于對不同規(guī)模的子庫進(jìn)行科學(xué)對比,計(jì)算離散系數(shù)和使用頻率。與此同時(shí),在頻率詞典中也給出總體的標(biāo)準(zhǔn)化頻率。顯然,通過這種方式篩選的頻率詞表才是真正能夠滿足學(xué)習(xí)者需要的詞表。
從總觀結(jié)構(gòu)上看,系列詞典至少包含了以下內(nèi)容:頻率索引、字母順序索引、詞類索引和分類主題詞表。我們不妨以 A Frequency Dictionary of Mandarin Chinese(2009)為例,說明頻率索引的微觀結(jié)構(gòu):
1599 人士[人士]/rénsh ì/(3)n person,personage,public figure好幾位社會(huì)知名人士出席了這位政治家的追悼儀式。Several noted public figures were present at the statesman’s memorial service.
442 0.48 212 w
頻率索引包括詞頻、詞目、詞類、英語釋義、一個(gè)典型例證、例證英語譯文、使用語域范圍等內(nèi)容。詞頻1599是“人士”這個(gè)詞的詞頻,方括號“[ ]”內(nèi)是它的繁體漢字形式,雙斜線“∥”內(nèi)是拼音,“(3)”表明這個(gè)詞在HSK(漢語水平考試)中屬于3級詞匯,“n”是它的詞類標(biāo)注,“person,personage,public figure”是該詞的英語釋義,“好幾位社會(huì)知名人士出席了這位政治家的追悼儀式”是典型例證,“Several noted public figures were present at the statesman’s memorial service”是例證的英語譯文 ,數(shù)字“442”是該詞的標(biāo)準(zhǔn)化頻率,“0.48”是其離散系數(shù)(離散度范圍在0~1),數(shù)字“212”是使用率,“w”表明它的凸顯使用域是書面語(該詞典只標(biāo)注口語和書面語)。
字母順序索引的微觀結(jié)構(gòu)通常包括詞目、詞類、英語釋義和詞頻信息,從而方便學(xué)習(xí)者根據(jù)拼寫(或拼音)查詢相關(guān)信息。為方便對比,再以“人士”為例:
人士/rénsh ì/n person,personage,public figure1599
詞類索引包括主頻率索引和字母順序索引中收錄的全部詞目,同時(shí)在每個(gè)詞類中的條目則按照頻率降序排列。詞類詞表索引方便學(xué)習(xí)者針對特定詞類進(jìn)行學(xué)習(xí)。
而分類主題詞表則穿插在作為詞典主體內(nèi)容的頻率索引中,數(shù)量在21~31個(gè),并以內(nèi)容表達(dá)和使用頻率有機(jī)結(jié)合的方式進(jìn)一步豐富和拓展頻率詞典信息容量。主題內(nèi)容既包括天氣、食品、家庭、運(yùn)動(dòng)、身體、職業(yè)、時(shí)間、動(dòng)物、交通、顏色等語義域頻率詞表,又包括各門語言中初級學(xué)習(xí)者常見的語法難點(diǎn)項(xiàng)目,還包括不同語域中的常用詞(其中部分詞超出頻率索引5000常用詞范圍,方便學(xué)習(xí)者拓展詞匯量)。比如,A Frequency Dictionary of Mandarin Chinese就包括水果、飲料、食品、服裝、顏色、天氣與裝備、城市設(shè)施與商店、旅游、方向位置、城市、房屋、家用電器、電腦網(wǎng)絡(luò)、校園生活與課程、職業(yè)、體育活動(dòng)、人體(包括外貌、部位、頭部細(xì)節(jié)和感覺官能)、數(shù)字系統(tǒng)、時(shí)間表達(dá)(包括星期、月份、季節(jié)、時(shí)辰)、中國節(jié)日、十二生肖、動(dòng)物、親屬與家庭關(guān)系、心情、英語外來詞、語言學(xué)習(xí)(包括句子分析和標(biāo)點(diǎn)符號應(yīng)用)、口語常用詞、小說常用詞、非小說常用詞和新聞常用詞,共計(jì)30個(gè)主題詞表。表2就是該詞典中按照使用頻率高低排列的“fruits”主題詞表,其中只有“蘋果”、“西瓜”和“葡萄”三個(gè)詞在5000常用詞范圍以內(nèi),其他均為擴(kuò)展詞匯。主題詞表既可以作為教師延伸課堂詞匯教學(xué)的絕佳材料,也可以方便學(xué)習(xí)者課余自學(xué)。
表2 A Frequency Dictionary of Mandarin Chinese中的“Fruits”主題詞表
(續(xù)表)
ˇCermák&Kˇren在對世界各國頻率詞典編纂的歷史和現(xiàn)狀進(jìn)行梳理之后發(fā)現(xiàn),很少有頻率詞典在提供降序詞頻表的同時(shí)還提供字母順序詞表。[6]令人感到欣慰的是,Routledge系列頻率詞典同時(shí)提供了三個(gè)相互關(guān)聯(lián)的索引:不僅提供降序排列的詞頻索引,而且還提供了詞類索引和字母順序索引。詞類索引可以說是Routledge系列頻率詞典的重要?jiǎng)?chuàng)新之一。比如,A Frequency Dictionary of Mandarin Chinese的詞類索引中分別羅列了5000常用詞中的1798個(gè)名詞,1611個(gè)動(dòng)詞,562個(gè)形容詞和342個(gè)副詞等,這樣的詞類索引就非常方便學(xué)習(xí)者有選擇地集中學(xué)習(xí)特定詞類中的高頻詞。此外,分類主題詞表雖然穿插在主詞頻索引中,但在詞典前頁材料中設(shè)有目錄,而各個(gè)分類主題詞表內(nèi)部一般也按使用頻率排序。檢索路徑的多樣化可以大大提高檢索效率和學(xué)習(xí)效率。
如上所述,Routledge系列頻率詞典是一個(gè)跨語種、跨學(xué)科的國際合作項(xiàng)目。由于各種主客觀原因,Routledge系列詞典存在如下問題:
首先,盡管作為系列詞典編纂基礎(chǔ)的語料庫就某個(gè)語種而言都是最新的大型平衡語料庫,但是正如表1所示,各個(gè)語料庫在規(guī)模、子庫分類(口筆語子庫/語域子庫)和語料的時(shí)間跨度等方面存在較大差異。比如,在語料庫規(guī)模方面,最大的當(dāng)代美語語料庫有4億詞,小的如德語語料庫只有420萬詞,前者的規(guī)模差不多是后者的100倍。對單部詞典而言,即使是規(guī)模最小的德語語料庫對于5000個(gè)核心詞的合理篩選也不存在多大問題:Martin的研究表明,常用詞頻率詞典編纂所依據(jù)的語料庫在規(guī)模上不得低于50萬詞次。[7]盡管如此,這種規(guī)模和結(jié)構(gòu)不一致的情況可能會(huì)在一定程度上影響基于系列詞典所進(jìn)行的跨語言對比研究的效度。
其次,在主頻率索引的宏觀結(jié)構(gòu)和微觀結(jié)構(gòu)中,雖然單部詞典作到了體例一致,但系列詞典在是否提供例證英語翻譯、離散系數(shù)和凸顯語域的表現(xiàn)方式以及兼類詞的處理等方面卻存在不統(tǒng)一的情況。下面不妨以兼類詞的處理為例。鑒于在傾向于分析性的語言中,詞項(xiàng)的語法兼類與詞頻通常成正相關(guān),因而頻率詞典無法回避的問題就是詞項(xiàng)兼類問題的處理。研究表明,系列詞典在兼類問題的處理上存在差異。比如,在漢語和當(dāng)代美語頻率詞典中,兼類詞按照其所屬詞類使用頻率高低分立詞項(xiàng),即在宏觀結(jié)構(gòu)層面上處理兼類詞問題。比如,現(xiàn)代漢語“過”在宏觀結(jié)構(gòu)上處理為助動(dòng)詞(詞頻為“75”)和動(dòng)詞(詞頻為“289”)兩個(gè)條目:
0075 過[過]/gu ò/(1)aux[aspect marker indicating experience]
你去過迪斯尼樂園嗎?Have you ever been to Disneyland?
5631 0.79 4464
0289 過[過]/guò/(1)v cross(road);spend(holiday,etc.);go beyond(time);go through;exceed過馬路要小心。Be careful when crossing the street.
1511 0.77 1161
但是,法語、德語和葡萄牙語頻率詞典在微觀結(jié)構(gòu)上均把類似情況處理為兼類條目,但這三部詞典內(nèi)部處理策略也不一樣。法語和葡萄牙語頻率詞典標(biāo)注相關(guān)詞目的不同詞類,但不分詞類進(jìn)行釋義。例如,在 A Frequency Dictionary of French中,詞頻序號為94的“bon”兼屬形容詞、副詞、感嘆詞和陽性名詞,但只提供了其形容詞用法的英文釋義:
94 bon adj,adv,intj,nm good
· Ce n’est pas le bon moment-it’s not a good time.
81 18375
而《A Frequency Dictionary of German》則把兼類詞項(xiàng)的詞類差異作為其微觀結(jié)構(gòu)內(nèi)部的一級劃分,為兼類詞分別標(biāo)注詞類、釋義和配例,如詞頻序號為5的“ein”兼屬冠詞和代詞兩個(gè)詞類,于是在微觀結(jié)構(gòu)中進(jìn)行二分后再分別釋義和配例:
5 ein
1 art a
·In dem Auto sitzen eine Frau,ein Mann und ein Kind.
2 pron one(of)
·Der Kunstler ist einer der bekanntesten Deutschlands.
26,608
雖然兩部詞典對這個(gè)問題的處理各有利弊,但是比較而言,《A Frequency Dictionary of German》的處理似乎利大于弊,更具推廣意義。
再者,主題詞表雖然豐富實(shí)用,但從系列詞典的角度看,依然存在兩個(gè)方面的問題。一是主題詞表的數(shù)量和范圍不統(tǒng)一:在數(shù)量上,多的有31個(gè)主題詞表,少的只有21個(gè)主題詞表,讓人不得不懷疑其選擇標(biāo)準(zhǔn)。如果說語法難點(diǎn)項(xiàng)目主題詞表的選擇存在差別情有可原,但是在語義類別主題詞表的選擇上就不應(yīng)該存在如此大的差異。二是主題詞表內(nèi)部成員的頻率信息排序標(biāo)準(zhǔn)不一。比如A Frequency Dictionary of Contemporary American English采用的是語料庫中相關(guān)詞項(xiàng)的絕對頻次高低,數(shù)字越大的頻率越高,位置越靠前;而 A Frequency Dictionary of Mandarin Chinese則按相關(guān)詞項(xiàng)在語料庫相對頻率高低順序排列,數(shù)字越小的頻率越高,位置越靠前。雖然單部詞典自成體系,不存在問題,但從系列詞典來看,就顯得體例不一了。
最后,雖然Routledge系列頻率詞典定位是學(xué)習(xí)型頻率詞典,并具有廣泛的應(yīng)用價(jià)值,但由于其沒有進(jìn)行義項(xiàng)劃分以及缺少豐富的例證,因而不論是系列詞典主編還是具體的編者都不得不承認(rèn),它們既無意取代也無法取代普通學(xué)習(xí)詞典,但無疑是有益的補(bǔ)充。
附 注
[1][7]Martin W.T he Frequency Dictionary.∥Hausmann F J.et al.An International Encyclopedia of Lexicography,1990(2).
[2]Nation I S P.Teaching and Learning Vocabulary.Boston:Heinle&Heinle,1990.
[3]Nation I S P.Learning Vocabulary in Another Language.Cambridge:Cambridge University Press,2001.
[4]Jones R L.An Analysis of Lexical Text Coverage in Contemporary German.∥Wilson A,A rcher D,Rayson P.(Eds.)Corpus Linguistics around the World.Amsterdam/New York:Editions Rodopi B.V.,2006:115-120.
[5]Ljung M.A Study of TEFL Vocabulary.Stockholm:Almqvist&Wiksell International,1990.