英語實詞動態(tài)增長與重復(fù)分析

2013-01-31 05:01趙小東胡賽兒

大連海事大學(xué)學(xué)報（社會科學(xué)版） 2013年4期

趙小東，胡賽兒

(大連海事大學(xué) 外國語學(xué)院，遼寧大連 116026)

國內(nèi)外許多學(xué)者，如Baayen［1］、Brunet［2］、Fan［3－5］、Tuldava［6］等都研究過詞匯量與篇章長度的關(guān)系。他們或設(shè)計不同的量化模型來描述詞匯量與語篇長度的關(guān)系，或運用不同的語言數(shù)據(jù)去驗證這些模型。也有學(xué)者對實詞進行了研究，如Francis等［7］、Johansson 等［8］通過計算LLC、Brown 和LOB語料庫中的實詞比率對實詞進行了靜態(tài)的分析。對詞匯重復(fù)率的研究主要為國內(nèi)學(xué)者，如Fan［4－5］、羅衛(wèi)華等［9－10］。但目前卻沒有對各類實詞的動態(tài)的詞匯量與篇章長度關(guān)系的研究。因此本文擬利用計量的方法，對普通英語和科技英語中的實詞按4000詞切分，對其進行詞匯增長的動態(tài)分析，對比研究兩個語料庫中實詞的詞匯增長、詞匯重復(fù)情況。

一、基本定義

本文中實詞包括名詞、動詞、形容詞和副詞。對介詞、連詞、冠詞、代詞等虛詞不作研究，這是因為英語中虛詞總量非常有限，增長模式不明顯。實詞詞匯增長是通過各實詞詞類的累積類符數(shù)除以該詞類的累積形符數(shù)計算的。

許多語言學(xué)家都注意到類符/形符比(Type/Token Ratio，簡稱TTR)跟形符總數(shù)的關(guān)系。而且類符/形符比還通常用來測算詞匯多樣性(lexical variation 或lexical diversity)［11－12］。但計算TTR 的方法不盡相同。本文采用公式“TTR =各詞類累積類符數(shù)/各詞類累積形符數(shù)”來計算隨著英語篇章長度，即累積形符數(shù)(4000)的增加，普通英語和科技英語的各類實詞TTR 的變化規(guī)律;各類實詞標(biāo)準(zhǔn)類符/形符比采用每4000 詞(形符數(shù))的TTR:每4000 詞時各類實詞的類符數(shù)除以4000。

本研究中，英語單詞的形符包括以空格斷開的英文單詞、字母、縮略等，但不包括標(biāo)點符號。形符數(shù)也稱詞次?？傇~數(shù)即總詞次。類符指單詞的詞元(lemma)形式，即把詞類相同、意義相同，但詞尾變化不同的詞歸納為同一詞元。如think、thinks、thought 和thinking 統(tǒng)一歸并為一個詞元think。本文中的詞匯即為詞元或類符，詞匯數(shù)或詞匯量即為詞元數(shù)或類符數(shù)。歸并詞元時，剔除標(biāo)點符號、阿拉伯?dāng)?shù)字以及其他各種非字母字符。

二、研究設(shè)計

本文中科技英語語料采用JDEST 語料庫，JDEST 為上海交通大學(xué)建立的國內(nèi)權(quán)威科技英語語料庫，總?cè)萘繛? 079 649;普通英語語料采用BNC(英國國家語料庫)的筆語部分抽樣。在對BNC 進行抽樣時，先運用FoxPro 程序?qū)NC 筆語語料庫的所有賦碼文本(tagged texts)中的標(biāo)注碼去掉。然后運用另一FoxPro 程序從BNC 筆語庫中隨機抽取28個文本，總詞次為1 136 347。以下將此抽樣文本稱為SBNC。接著運用CLAWS4 對JDEST 和SBNC 兩個語料庫進行詞類(POS)標(biāo)注。然后運用另一FoxPro程序?qū)蓚€語料庫進行分詞處理，并根據(jù)POS 賦碼，即以N(名詞)、V(動詞)、J(形容詞)和R(副詞)開頭的標(biāo)注碼，提取各類實詞。接著將各類實詞中的詞類標(biāo)注、標(biāo)點符號、特殊符號以及其他非字母字符去除。

然后再運用兩個FoxPro 程序分別處理經(jīng)過分詞處理的SBNC 和JDEST 語料庫。這兩個程序分別將SBNC 隨機分為284個4000 詞(形符)的文本塊(chunks)，共113 600 詞次;JDEST 分為247個4000詞的文本塊，共988 000 詞次。由于Biber［13］認(rèn)為2000 至5000 詞的抽樣文本(text samples)足以代表文本范疇(text categories)，因此本文按4000 詞對SBNC 和JDEST 進行切分。接著，程序會分別計算出各語料庫的每4000 詞文本塊的各類實詞類符數(shù)以及隨著兩個語料庫按4000 詞(形符)增長時累積形符總數(shù)、累積各類實詞類符數(shù)、累積各類實詞形符數(shù)、各類實詞的TTR 及各類實詞的累積重復(fù)數(shù)、累積重復(fù)率等。

其中，累積各類實詞類符數(shù)即各類實詞的累積詞匯量。下面以名詞為例說明累積實詞重復(fù)數(shù)及重復(fù)率的計算。累積名詞重復(fù)數(shù)的計算公式為:累積名詞重復(fù)數(shù)=累積名詞數(shù)－累積名詞量。公式中累積名詞數(shù)為各4000 詞的文本塊的名詞類符數(shù)，即名詞詞匯數(shù)之和。比如科技英語JDEST 語料中前兩個4000 詞文本塊各自名詞詞匯數(shù)為760 和767，則累積名詞數(shù)為1527。但如果將這兩個文本塊相加，變?yōu)?000 詞，這兩個文本塊的名詞詞匯數(shù)760 和767中就會有重復(fù)的名詞，將重復(fù)的名詞合并，這樣就可計算出累積名詞量，為1221。因此，JDEST 中前兩個文本塊的累積名詞重復(fù)數(shù)為1527－1221 =306，名詞累積重復(fù)率為0.1268。而第一個文本塊的名詞重復(fù)數(shù)和重復(fù)率都為0。表1為JDEST 語料庫中名詞部分?jǐn)?shù)據(jù)。

表1 JDEST 語料庫中累計詞次32 000 詞前名詞部分?jǐn)?shù)據(jù)

表1中，t_cu 表示累積形符總數(shù)(累計詞次)，n_type 為每4000 詞中名詞類符數(shù)，n_cu 為累積名詞類符數(shù)(累積名詞量)，n_cutok 為累積名詞形符數(shù)，n_ttr 為名詞類符/形符比，n_curep 為累積名詞重復(fù)數(shù)，n_cureprate 為名詞累積重復(fù)率。

三、結(jié)果分析

1.實詞增長分析

結(jié)果顯示:284個SBNC 文本塊的名詞、動詞、形容詞和副詞累積詞匯量分別為24 440、4601、9050和1632;247個JDEST 文本塊的各類實詞累積詞匯量依次為14 754、3481、8961 和1152。SBNC 的284個文本塊各實詞的平均詞匯量依次為851、284、245、118，JDEST 的247個文本塊各實詞平均詞匯量依次為756、250、292、110。表明普通英語各文本塊的名詞、動詞和副詞詞匯量大于科技英語。普通英語的累積形容詞詞匯量在第247個文本塊時為8441，形容詞總詞量小于科技英語，而且普通英語各文本塊的平均形容詞詞匯量245 也遠(yuǎn)小于科技英語各文本塊的平均形容詞詞匯量292。觀察科技英語語料庫發(fā)現(xiàn)，除少量常用形容詞外，如other、high、large、small 等，其中有大量的科技方面的形容詞，用于正式或客觀的學(xué)術(shù)表達，描寫事物的特征，如magnetic(475)、hermal(406)、nuclear(375)、chemical(356)、conventional(331)、mechanical(314)、electric(297)、vertical(216)等。圖1為SBNC 和JDEST實詞增長曲線。

圖1顯示，在SBNC 和JDEST 中，四種實詞的累積詞匯量呈類似增長態(tài)勢:開始都急劇增長，隨后變緩。只是名詞累積詞匯量增長得最快、最急劇;形容詞次之;動詞的累積詞匯量增長幅度位于第三;副詞累積詞匯量的增長最不明顯，其增長曲線幾乎與x軸平行。同時，圖1表明兩個語料庫中，詞匯量大多集中于名詞，然后是形容詞、動詞和副詞。

2.實詞TTR 分析

程序運行結(jié)果顯示SBNC 的名詞、動詞、形容詞和副詞的平均標(biāo)準(zhǔn)TTR 依次為0.2128、0.0709、0.0613和0.0296，JDEST 的各類實詞平均標(biāo)準(zhǔn)TTR依次為0.1889、0.0626、0.0731 和0.0275。這說明普通英語各4000詞(形符)文本塊的名詞和動詞多樣性大于科技英語，但其形容詞多樣性卻低于科技英語，副詞多樣性大體相當(dāng)。換言之，科技英語的某語篇內(nèi)名詞和動詞重復(fù)較多，即形符數(shù)較多，類符數(shù)較少;但普通英語的篇內(nèi)(每4000 詞次)形容詞重復(fù)性大，0.0613 ＜0.0731。下面分析兩個語料庫的累積TTR 曲線，如圖2所示。

圖1 SBNC 和JDEST 實詞增長曲線

圖2 SBNC 和JDEST 中各類實詞TTR 下降曲線

圖2中實線為SBNC 的TTR 曲線，虛線為JDEST 的TTR 曲線。圖2顯示SBNC 的名詞、動詞和形容詞累積TTR 都高于JDEST。說明隨著總詞次以每4000 詞增加，普通英語的名詞、動詞和形容詞的詞匯多樣性一直高于科技英語。即普通英語的名詞、動詞和形容詞(形符)篇際(累積語篇)重復(fù)性較小，科技英語的名詞、動詞和形容詞的篇際重復(fù)性較大。兩者的副詞TTR 曲線大體相同。

因此可得出如下結(jié)論:普通英語中名詞和動詞的篇內(nèi)和篇際重復(fù)性都小于科技英語;但其形容詞的篇內(nèi)重復(fù)性大，篇際重復(fù)性則小于科技英語。

3.實詞重復(fù)分析

計算出兩個語料庫的累積實詞重復(fù)數(shù)后發(fā)現(xiàn)，兩個語料庫中的累積實詞重復(fù)數(shù)都呈類似線性的增長模式。SBNC 中名詞、動詞和副詞的累積重復(fù)數(shù)一直高于JDEST。SBNC 中名詞累積重復(fù)數(shù)在0 ～210 000 之間，動詞累積重復(fù)數(shù)在0 ～76 000 之間，副詞累積重復(fù)數(shù)在0 ～32 000 之間。而JDEST 中的名詞、動詞和副詞累積重復(fù)數(shù)分別在0 ～170 000、0～58 000 和0 ～26 000 之間。不同之處在于SBNC的形容詞累積重復(fù)數(shù)一直小于JDEST，兩者的最終重復(fù)數(shù)相當(dāng)。為進一步揭示各類實詞累積重復(fù)數(shù)和其累積形符數(shù)的關(guān)系，算出了兩個語料庫中各類實詞的累計重復(fù)率，如圖3所示。

圖3 SBNC 和JDEST 中各實詞累積重復(fù)率

圖3顯示SBNC 語料庫中的名詞累積重復(fù)率最高，達到68.49%，其次是SBNC 中的形容詞累積重復(fù)率。而且在曲線末端，形容詞的累積重復(fù)率甚至超過了名詞累積重復(fù)率，為68.72%。JDEST 中形容詞累積重復(fù)率最高，達到64.69%，其次為名詞，為58.58%。在SBNC 和JDEST 兩個語料庫中，副詞累積重復(fù)率都位于第三位;最后是動詞，其累積重復(fù)率最低，分別為38.49%和36.48%。進一步觀察發(fā)現(xiàn)，SBNC 的名詞、形容詞、副詞和動詞累積重復(fù)率都高于JDEST。

四、結(jié) 語

通過對SBNC 和JDEST 中的實詞對比分析，得出如下結(jié)論:(1)普通英語和科技英語的名詞、形容詞和動詞呈類似的增長態(tài)勢:先是急劇增加，然后變緩。(2)普通英語的名詞和動詞多樣性大于科技英語，但其形容詞多樣性卻低于科技英語。(3)普通英語中名詞和動詞的篇內(nèi)重復(fù)性以及名詞、動詞和形容詞的篇際重復(fù)性都小于科技英語，但其形容詞的篇內(nèi)重復(fù)性較大。(4)普通英語和科技英語中累積實詞重復(fù)數(shù)都呈類似線性的增長模式。普通英語中名詞累積重復(fù)率最高，科技英語中形容詞累積重復(fù)率最高。但科技英語的名詞、形容詞、副詞和動詞累積重復(fù)率都低于普通英語。本研究結(jié)果有利于對英語語篇、英語學(xué)習(xí)者的實詞詞匯量進行評估。由于英語中虛詞數(shù)量十分有限，英語語篇的復(fù)雜度和多樣性主要依賴于語篇中的實詞詞匯量。只要能估計某語篇的實詞詞匯量，就可預(yù)測其詞匯多樣性。這在教材編撰及選擇不同層次水平的閱讀材料時有重要意義。

［1］BAAYEN R H.Word frequency distribution［M］.Dordrecht:Kluwer Academic Publishers，2001.

［2］BRUNET E.Le vocabulaire de Jean Giraudoux.Structure et évelution［M］.Genève:Slatkine，1978.

［3］FAN Fengxiang.Models for dynamic inter-textual type-token relationship［J］.Glottometrics，2006，12(1):1－10.

［4］FAN Fengxiang.A corpus-based study on random textual vocabulary coverage［J］.Corpus Linguistics and Linguistic Theory，2008，4(1):1－17.

［5］FAN Fengxiang.An asymptotic model for the English hapax/vocabulary ratio［J］.Computational Linguistics，2010，36(4):631－637.

［6］TULDAVA J.Methods in quantitative linguistics［M］.Trier:WVT，1995.

［7］FRANCIS W N，KUCERA H.Frequency analysis of English usage:lexicon and grammar［M］.Boston:Houghton Mifflin，1982.

［8］JOHANSSON S，HOFLAND K.Frequency analysis of English vocabulary and grammar 2 vols［M］.Oxford:Clarendon Press，1989.

［9］羅衛(wèi)華，鄧耀臣.基于BNC 語料庫的英語篇際詞匯重復(fù)模式研究［J］.外語教學(xué)與研究，2009(3):224－229.

［10］羅衛(wèi)華，佟大明.篇際零重復(fù)詞分布和增長模式實證研究［J］.中國外語，2011(6):59－64.

［11］MALVERN D，BRIAN R，NGONI C，et al.Lexical diversity and language development:quantification and assessment［M］.New York:Palgrave Macmillan，2004.

［12］READ J.Assessing vocabulary［M］.Cambridge:Cambridge University Press，2000.

［13］BIBER D.Methodological issues regarding corpus-based analyses of linguistic variation［J］.Literary and Linguistic Computing，1990，5(4):261.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡