趙小東,胡賽兒
(大連海事大學(xué) 外國語學(xué)院,遼寧 大連 116026)
國內(nèi)外許多學(xué)者,如Baayen[1]、Brunet[2]、Fan[3-5]、Tuldava[6]等都研究過詞匯量與篇章長度的關(guān)系。他們或設(shè)計不同的量化模型來描述詞匯量與語篇長度的關(guān)系,或運用不同的語言數(shù)據(jù)去驗證這些模型。也有學(xué)者對實詞進行了研究,如Francis等[7]、Johansson 等[8]通過計算LLC、Brown 和LOB語料庫中的實詞比率對實詞進行了靜態(tài)的分析。對詞匯重復(fù)率的研究主要為國內(nèi)學(xué)者,如Fan[4-5]、羅衛(wèi)華等[9-10]。但目前卻沒有對各類實詞的動態(tài)的詞匯量與篇章長度關(guān)系的研究。因此本文擬利用計量的方法,對普通英語和科技英語中的實詞按4000詞切分,對其進行詞匯增長的動態(tài)分析,對比研究兩個語料庫中實詞的詞匯增長、詞匯重復(fù)情況。
本文中實詞包括名詞、動詞、形容詞和副詞。對介詞、連詞、冠詞、代詞等虛詞不作研究,這是因為英語中虛詞總量非常有限,增長模式不明顯。實詞詞匯增長是通過各實詞詞類的累積類符數(shù)除以該詞類的累積形符數(shù)計算的。
許多語言學(xué)家都注意到類符/形符比(Type/Token Ratio,簡稱TTR)跟形符總數(shù)的關(guān)系。而且類符/形符比還通常用來測算詞匯多樣性(lexical variation 或lexical diversity)[11-12]。但計算TTR 的方法不盡相同。本文采用公式“TTR =各詞類累積類符數(shù)/各詞類累積形符數(shù)”來計算隨著英語篇章長度,即累積形符數(shù)(4000)的增加,普通英語和科技英語的各類實詞TTR 的變化規(guī)律;各類實詞標(biāo)準(zhǔn)類符/形符比采用每4000 詞(形符數(shù))的TTR:每4000 詞時各類實詞的類符數(shù)除以4000。
本研究中,英語單詞的形符包括以空格斷開的英文單詞、字母、縮略等,但不包括標(biāo)點符號。形符數(shù)也稱詞次??傇~數(shù)即總詞次。類符指單詞的詞元(lemma)形式,即把詞類相同、意義相同,但詞尾變化不同的詞歸納為同一詞元。如think、thinks、thought 和thinking 統(tǒng)一歸并為一個詞元think。本文中的詞匯即為詞元或類符,詞匯數(shù)或詞匯量即為詞元數(shù)或類符數(shù)。歸并詞元時,剔除標(biāo)點符號、阿拉伯?dāng)?shù)字以及其他各種非字母字符。
本文中科技英語語料采用JDEST 語料庫,JDEST 為上海交通大學(xué)建立的國內(nèi)權(quán)威科技英語語料庫,總?cè)萘繛? 079 649;普通英語語料采用BNC(英國國家語料庫)的筆語部分抽樣。在對BNC 進行抽樣時,先運用FoxPro 程序?qū)NC 筆語語料庫的所有賦碼文本(tagged texts)中的標(biāo)注碼去掉。然后運用另一FoxPro 程序從BNC 筆語庫中隨機抽取28個文本,總詞次為1 136 347。以下將此抽樣文本稱為SBNC。接著運用CLAWS4 對JDEST 和SBNC 兩個語料庫進行詞類(POS)標(biāo)注。然后運用另一FoxPro程序?qū)蓚€語料庫進行分詞處理,并根據(jù)POS 賦碼,即以N(名詞)、V(動詞)、J(形容詞)和R(副詞)開頭的標(biāo)注碼,提取各類實詞。接著將各類實詞中的詞類標(biāo)注、標(biāo)點符號、特殊符號以及其他非字母字符去除。
然后再運用兩個FoxPro 程序分別處理經(jīng)過分詞處理的SBNC 和JDEST 語料庫。這兩個程序分別將SBNC 隨機分為284個4000 詞(形符)的文本塊(chunks),共113 600 詞次;JDEST 分為247個4000詞的文本塊,共988 000 詞次。由于Biber[13]認(rèn)為2000 至5000 詞的抽樣文本(text samples)足以代表文本范疇(text categories),因此本文按4000 詞對SBNC 和JDEST 進行切分。接著,程序會分別計算出各語料庫的每4000 詞文本塊的各類實詞類符數(shù)以及隨著兩個語料庫按4000 詞(形符)增長時累積形符總數(shù)、累積各類實詞類符數(shù)、累積各類實詞形符數(shù)、各類實詞的TTR 及各類實詞的累積重復(fù)數(shù)、累積重復(fù)率等。
其中,累積各類實詞類符數(shù)即各類實詞的累積詞匯量。下面以名詞為例說明累積實詞重復(fù)數(shù)及重復(fù)率的計算。累積名詞重復(fù)數(shù)的計算公式為:累積名詞重復(fù)數(shù)=累積名詞數(shù)-累積名詞量。公式中累積名詞數(shù)為各4000 詞的文本塊的名詞類符數(shù),即名詞詞匯數(shù)之和。比如科技英語JDEST 語料中前兩個4000 詞文本塊各自名詞詞匯數(shù)為760 和767,則累積名詞數(shù)為1527。但如果將這兩個文本塊相加,變?yōu)?000 詞,這兩個文本塊的名詞詞匯數(shù)760 和767中就會有重復(fù)的名詞,將重復(fù)的名詞合并,這樣就可計算出累積名詞量,為1221。因此,JDEST 中前兩個文本塊的累積名詞重復(fù)數(shù)為1527-1221 =306,名詞累積重復(fù)率為0.1268。而第一個文本塊的名詞重復(fù)數(shù)和重復(fù)率都為0。表1為JDEST 語料庫中名詞部分?jǐn)?shù)據(jù)。
表1 JDEST 語料庫中累計詞次32 000 詞前名詞部分?jǐn)?shù)據(jù)
表1中,t_cu 表示累積形符總數(shù)(累計詞次),n_type 為每4000 詞中名詞類符數(shù),n_cu 為累積名詞類符數(shù)(累積名詞量),n_cutok 為累積名詞形符數(shù),n_ttr 為名詞類符/形符比,n_curep 為累積名詞重復(fù)數(shù),n_cureprate 為名詞累積重復(fù)率。
結(jié)果顯示:284個SBNC 文本塊的名詞、動詞、形容詞和副詞累積詞匯量分別為24 440、4601、9050和1632;247個JDEST 文本塊的各類實詞累積詞匯量依次為14 754、3481、8961 和1152。SBNC 的284個文本塊各實詞的平均詞匯量依次為851、284、245、118,JDEST 的247個文本塊各實詞平均詞匯量依次為756、250、292、110。表明普通英語各文本塊的名詞、動詞和副詞詞匯量大于科技英語。普通英語的累積形容詞詞匯量在第247個文本塊時為8441,形容詞總詞量小于科技英語,而且普通英語各文本塊的平均形容詞詞匯量245 也遠(yuǎn)小于科技英語各文本塊的平均形容詞詞匯量292。觀察科技英語語料庫發(fā)現(xiàn),除少量常用形容詞外,如other、high、large、small 等,其中有大量的科技方面的形容詞,用于正式或客觀的學(xué)術(shù)表達,描寫事物的特征,如magnetic(475)、hermal(406)、nuclear(375)、chemical(356)、conventional(331)、mechanical(314)、electric(297)、vertical(216)等。圖1為SBNC 和JDEST實詞增長曲線。
圖1顯示,在SBNC 和JDEST 中,四種實詞的累積詞匯量呈類似增長態(tài)勢:開始都急劇增長,隨后變緩。只是名詞累積詞匯量增長得最快、最急劇;形容詞次之;動詞的累積詞匯量增長幅度位于第三;副詞累積詞匯量的增長最不明顯,其增長曲線幾乎與x軸平行。同時,圖1表明兩個語料庫中,詞匯量大多集中于名詞,然后是形容詞、動詞和副詞。
程序運行結(jié)果顯示SBNC 的名詞、動詞、形容詞和副詞的平均標(biāo)準(zhǔn)TTR 依次為0.2128、0.0709、0.0613和0.0296,JDEST 的各類實詞平均標(biāo)準(zhǔn)TTR依次為0.1889、0.0626、0.0731 和0.0275。這說明普通英語各4000詞(形符)文本塊的名詞和動詞多樣性大于科技英語,但其形容詞多樣性卻低于科技英語,副詞多樣性大體相當(dāng)。換言之,科技英語的某語篇內(nèi)名詞和動詞重復(fù)較多,即形符數(shù)較多,類符數(shù)較少;但普通英語的篇內(nèi)(每4000 詞次)形容詞重復(fù)性大,0.0613 <0.0731。下面分析兩個語料庫的累積TTR 曲線,如圖2所示。
圖1 SBNC 和JDEST 實詞增長曲線
圖2 SBNC 和JDEST 中各類實詞TTR 下降曲線
圖2中實線為SBNC 的TTR 曲線,虛線為JDEST 的TTR 曲線。圖2顯示SBNC 的名詞、動詞和形容詞累積TTR 都高于JDEST。說明隨著總詞次以每4000 詞增加,普通英語的名詞、動詞和形容詞的詞匯多樣性一直高于科技英語。即普通英語的名詞、動詞和形容詞(形符)篇際(累積語篇)重復(fù)性較小,科技英語的名詞、動詞和形容詞的篇際重復(fù)性較大。兩者的副詞TTR 曲線大體相同。
因此可得出如下結(jié)論:普通英語中名詞和動詞的篇內(nèi)和篇際重復(fù)性都小于科技英語;但其形容詞的篇內(nèi)重復(fù)性大,篇際重復(fù)性則小于科技英語。
計算出兩個語料庫的累積實詞重復(fù)數(shù)后發(fā)現(xiàn),兩個語料庫中的累積實詞重復(fù)數(shù)都呈類似線性的增長模式。SBNC 中名詞、動詞和副詞的累積重復(fù)數(shù)一直高于JDEST。SBNC 中名詞累積重復(fù)數(shù)在0 ~210 000 之間,動詞累積重復(fù)數(shù)在0 ~76 000 之間,副詞累積重復(fù)數(shù)在0 ~32 000 之間。而JDEST 中的名詞、動詞和副詞累積重復(fù)數(shù)分別在0 ~170 000、0~58 000 和0 ~26 000 之間。不同之處在于SBNC的形容詞累積重復(fù)數(shù)一直小于JDEST,兩者的最終重復(fù)數(shù)相當(dāng)。為進一步揭示各類實詞累積重復(fù)數(shù)和其累積形符數(shù)的關(guān)系,算出了兩個語料庫中各類實詞的累計重復(fù)率,如圖3所示。
圖3 SBNC 和JDEST 中各實詞累積重復(fù)率
圖3顯示SBNC 語料庫中的名詞累積重復(fù)率最高,達到68.49%,其次是SBNC 中的形容詞累積重復(fù)率。而且在曲線末端,形容詞的累積重復(fù)率甚至超過了名詞累積重復(fù)率,為68.72%。JDEST 中形容詞累積重復(fù)率最高,達到64.69%,其次為名詞,為58.58%。在SBNC 和JDEST 兩個語料庫中,副詞累積重復(fù)率都位于第三位;最后是動詞,其累積重復(fù)率最低,分別為38.49%和36.48%。進一步觀察發(fā)現(xiàn),SBNC 的名詞、形容詞、副詞和動詞累積重復(fù)率都高于JDEST。
通過對SBNC 和JDEST 中的實詞對比分析,得出如下結(jié)論:(1)普通英語和科技英語的名詞、形容詞和動詞呈類似的增長態(tài)勢:先是急劇增加,然后變緩。(2)普通英語的名詞和動詞多樣性大于科技英語,但其形容詞多樣性卻低于科技英語。(3)普通英語中名詞和動詞的篇內(nèi)重復(fù)性以及名詞、動詞和形容詞的篇際重復(fù)性都小于科技英語,但其形容詞的篇內(nèi)重復(fù)性較大。(4)普通英語和科技英語中累積實詞重復(fù)數(shù)都呈類似線性的增長模式。普通英語中名詞累積重復(fù)率最高,科技英語中形容詞累積重復(fù)率最高。但科技英語的名詞、形容詞、副詞和動詞累積重復(fù)率都低于普通英語。本研究結(jié)果有利于對英語語篇、英語學(xué)習(xí)者的實詞詞匯量進行評估。由于英語中虛詞數(shù)量十分有限,英語語篇的復(fù)雜度和多樣性主要依賴于語篇中的實詞詞匯量。只要能估計某語篇的實詞詞匯量,就可預(yù)測其詞匯多樣性。這在教材編撰及選擇不同層次水平的閱讀材料時有重要意義。
[1]BAAYEN R H.Word frequency distribution[M].Dordrecht:Kluwer Academic Publishers,2001.
[2]BRUNET E.Le vocabulaire de Jean Giraudoux.Structure et évelution[M].Genève:Slatkine,1978.
[3]FAN Fengxiang.Models for dynamic inter-textual type-token relationship[J].Glottometrics,2006,12(1):1-10.
[4]FAN Fengxiang.A corpus-based study on random textual vocabulary coverage[J].Corpus Linguistics and Linguistic Theory,2008,4(1):1-17.
[5]FAN Fengxiang.An asymptotic model for the English hapax/vocabulary ratio[J].Computational Linguistics,2010,36(4):631-637.
[6]TULDAVA J.Methods in quantitative linguistics[M].Trier:WVT,1995.
[7]FRANCIS W N,KUCERA H.Frequency analysis of English usage:lexicon and grammar[M].Boston:Houghton Mifflin,1982.
[8]JOHANSSON S,HOFLAND K.Frequency analysis of English vocabulary and grammar 2 vols[M].Oxford:Clarendon Press,1989.
[9]羅衛(wèi)華,鄧耀臣.基于BNC 語料庫的英語篇際詞匯重復(fù)模式研究[J].外語教學(xué)與研究,2009(3):224-229.
[10]羅衛(wèi)華,佟大明.篇際零重復(fù)詞分布和增長模式實證研究[J].中國外語,2011(6):59-64.
[11]MALVERN D,BRIAN R,NGONI C,et al.Lexical diversity and language development:quantification and assessment[M].New York:Palgrave Macmillan,2004.
[12]READ J.Assessing vocabulary[M].Cambridge:Cambridge University Press,2000.
[13]BIBER D.Methodological issues regarding corpus-based analyses of linguistic variation[J].Literary and Linguistic Computing,1990,5(4):261.