楊秀珍 續(xù) 娜 劉美瑜(天津科技大學(xué)外國語學(xué)院,天津,300222)
基于語料庫的《暮光之城》系列小說詞匯特點(diǎn)初探
楊秀珍 續(xù) 娜 劉美瑜(天津科技大學(xué)外國語學(xué)院,天津,300222)
借助語料庫檢索工具WordSmith,對(duì)比分析了由《暮光之城》系列小說組成的自建語料庫與BROWN文學(xué)語料庫BROWN(K-R)。通過對(duì)比兩庫中詞長、詞匯密度、詞頻等層面的特征,試圖闡釋《暮光之城》系列小說的詞匯特征。
語料庫;《暮光之城》;BROWN(K-R)文學(xué)語料庫;詞匯特征
《暮光之城》是近年來風(fēng)靡全球的熱銷系列小說,共包括《暮色》、《新月》、《月食》以及《破曉》等四部,在40個(gè)國家發(fā)行,銷量超過1000萬冊(cè),連續(xù)152周登上《紐約時(shí)報(bào)》最暢銷書排行榜,被譽(yù)為繼“哈利·波特”系列之后最受年輕人歡迎的小說。美國總統(tǒng)奧巴馬曾提到他和女兒都是不折不扣的“暮迷”。小說中纏綿悱惻的愛情故事固然吸引了許多來自不同文化及不同年齡層讀者的目光,而對(duì)于語言學(xué)者們來說,構(gòu)成小說重要部分的詞匯特征也具有著不可忽視的研究價(jià)值。語言研究者借助語料庫檢索工具對(duì)來自語料庫的數(shù)據(jù)進(jìn)行量化分析,可以觀察到用傳統(tǒng)方法無法發(fā)現(xiàn)的很多語言事實(shí),從而對(duì)語言本身進(jìn)行更加客觀的描寫和解釋。語料庫語言學(xué)同詞匯特征研究相結(jié)合,則為研究提供了更加科學(xué)的數(shù)據(jù)支撐,從而使結(jié)果更具客觀性,繼而增加了解釋的說服力。因此,借助語料庫及檢索工具的定量分析方法,對(duì)《暮光之城》系列小說組成的自建語料庫(約61萬詞)以及Brown語料庫中文學(xué)類文本,即BROWN(K-R)(共計(jì)約25萬詞)中的詞匯做了對(duì)比和分析。通過對(duì)比兩庫中詞長、詞匯密度、詞匯分布等層面的特征,試圖闡釋《暮光之城》系列小說的詞匯特征。
所謂語料庫語言學(xué)是指:“以語料庫為基礎(chǔ)的語言研究和語言分析?;谡Z料庫的分析具有其他傳統(tǒng)分析方法難以比擬的優(yōu)越性。這一優(yōu)越性在很大程度上得益于計(jì)算機(jī)的使用。計(jì)算機(jī)使得辨別、分析語言使用的復(fù)雜模式及存儲(chǔ)和分析大宗自然語料成為可能?;谡Z料庫的分析具有如下基本特征:(1)它是經(jīng)驗(yàn)性的,分析的是自然語篇中語言的真實(shí)使用模式。(2)它利用大型的、在一定原則指導(dǎo)下收集而來的自然語篇作為其分析基礎(chǔ)。(3)它廣泛利用計(jì)算機(jī)的自動(dòng)和互動(dòng)技術(shù)作為分析工具。(4)它既要求定量分析技巧,又要求定性分析技巧。語料庫語言學(xué)主要有兩個(gè)研究目標(biāo):其一,描述語言結(jié)構(gòu)及其變體;其二,描述某些語篇群?!彼裕诓煌膱龊暇倪x擇詞匯和語法結(jié)構(gòu)以實(shí)現(xiàn)表達(dá)得體是文學(xué)文體學(xué)研究的重要方面。對(duì)于外語學(xué)習(xí)者來說,運(yùn)用語料庫手段分析文學(xué)作品詞匯的方法有助于提高學(xué)習(xí)外語的效率,增強(qiáng)選詞、用詞的能力,從而提高對(duì)外國語言文化的欣賞水平。
Leech和Short提出語言文體特征主要包含:詞匯特征、語法特征、修辭格、語境、銜接五大類(張德祿,1998:49)。由于這些分析方法都需要首先對(duì)語言特征進(jìn)行描述,隨著計(jì)算機(jī)在語料庫分析中的介入,這種描寫的精確性和有效性得到了很大的提高。目前,基于語料庫的文本詞匯研究主要在以下方面展開:(1)基于詞匯的研究:從出現(xiàn)及出現(xiàn)頻率的角度探索詞匯的出現(xiàn)語境;(2)研究有語法標(biāo)注的詞匯共現(xiàn),看這些詞匯如何組成句型并為句法應(yīng)用的量化分析提供基礎(chǔ)。由此,依據(jù)此模式對(duì)《暮光之城》全系詞匯特征試做分析。
經(jīng)過wordlist功能對(duì)《暮光之城》全系及BROWN(K-R)文本中詞匯分布對(duì)比,數(shù)據(jù)見圖1:
圖1 兩類語料庫單詞分布圖
經(jīng)觀察得知,BROWN(K-R)語料庫中所占比例最大的單詞詞長為3個(gè)字母,占總詞匯的32.93%,4字母單詞次之,占27.30%,兩者共占總詞匯量的60.23%。而《暮光之城》中詞長3字母的單詞占比例的20.03%,詞長為4字母單詞次之,占比例的19.07%,數(shù)值十分相近,二者共占總詞匯量的39.1%。詞長5字母和6字母的單詞分別占11.21%、8.89%,2字母單詞所占比例16.61%。BROWN(K-R)文學(xué)語料庫中詞長2字母單詞所占比例15.64%,詞長5字母和6字母的單詞分別占11.85%,8.97%。通過卡方檢驗(yàn)得知:兩類語料庫2字母單詞p<0.01,有顯著性差異。詞長是決定文本難易程度的一個(gè)重要指標(biāo)。由2-5個(gè)字母組成的詞看作是小詞或常見詞,這些詞在整個(gè)語料庫中的比例越高,近似地反映出該語料庫中的語料使用的小詞或常見詞越多,文章就越淺顯。單詞越短小,文本越易理解,難度越低,文本的正式程度就越低;反之,單詞越長,文本越不易理解,難度越大,文本越正式。以上結(jié)果表明盡管作者用詞難度趨近Brown,但總體詞匯經(jīng)計(jì)算詞長得出結(jié)論偏簡單,與一般的文學(xué)作品相比閱讀起來更容易。為了進(jìn)一步說明這一特征,作者引入詞匯密度,通過計(jì)算文本中實(shí)義詞所占總體詞匯比例說明文本難易程度的指標(biāo)。作者選用UCREL開發(fā)的CLAWS自動(dòng)附碼系統(tǒng)對(duì)兩類語料庫做了詞性附碼(POS tagging)處理,采用的是分類詳細(xì)的CLAWS7附碼集,CLAWS自動(dòng)附碼系統(tǒng)的準(zhǔn)確率可以達(dá)到96%以上,因此能夠保證研究結(jié)果的可靠性①關(guān)于CLAWS自動(dòng)詞性附碼系統(tǒng)和CLAWS7BROWN(K-R)附碼集的詳細(xì)情況可參見http://ucrel.lancs.ac.uk/claws/。經(jīng)過CLAWS自動(dòng)詞性賦碼后的語料庫,詞性賦碼指識(shí)別并標(biāo)注語料庫中所有詞匯的詞性,通過觀察計(jì)算不同詞性詞匯的分布,統(tǒng)計(jì)文本詞匯密度說明文本難易程度。
詞匯密度(Lexical Density)在一定程度上反映了文本的某種本質(zhì)特征,即用詞的多樣性。測量詞匯密度的主要工具是類符/形符比(Type/Token Ratio,簡稱TTR),不同容量的語料庫類符/形符比不具可比性,故一般用標(biāo)準(zhǔn)化類符/形符比(Std.TTR)來衡量語料庫的詞匯密度。表1為WordSmith提供的 WordList功能分別統(tǒng)計(jì)的《暮光之城》系列小說和BROWN(K-R)語料庫的類符、形符、類符形符/比以及標(biāo)準(zhǔn)化類符/形符比。
表1 兩個(gè)語料庫類符、形符的相關(guān)統(tǒng)計(jì)
從表1中可以看出BROWN(K-R)的std TTR值略高于《暮光之城》。需要說明的是Std.TTR統(tǒng)計(jì)的類符包括實(shí)義詞和功能詞,過度修飾的篇章由于功能詞的增多也可能造成Std. TTR的數(shù)值提高,而不意味著語篇信息量的加大。因此,為了更嚴(yán)格地進(jìn)行用詞變化的計(jì)算,需要運(yùn)用Ure(1971)提出的詞匯密度公式:
詞匯密度=實(shí)詞數(shù)÷總詞數(shù)×100%
英語中的詞匯密度(lexicaldensity)也有助于我們認(rèn)識(shí)英語書面語體的正式程度。詞匯密度指的是一個(gè)語篇中實(shí)義詞的平均值。Ure(1969)指出,詞匯密度是區(qū)別語體正式程度的一個(gè)標(biāo)準(zhǔn),語體越正式,詞匯密度越高;相對(duì)的詞匯越口語化,密度越低。為了更清楚認(rèn)識(shí)這一點(diǎn),我們必須辨清實(shí)義詞和虛詞的定義。英語詞匯分為兩類:實(shí)義詞(content word)和虛詞(grammaticalword或functionword)。實(shí)義詞包括名詞、動(dòng)詞、形容詞、大部分副詞等;虛詞包括限定詞、介詞、代詞、連詞、關(guān)連副詞、助動(dòng)詞等。表2為通過WordSmith工具統(tǒng)計(jì)出的兩類語料庫中名詞、動(dòng)詞、形容詞詞性碼所占比例。
表2 兩類語料庫詞性碼所占比例
表2中列出了《暮光之城》全系中名詞、動(dòng)詞、形容詞、副詞各占全文的百分比和BROWN(K-R)文學(xué)語料庫中名詞、動(dòng)詞、形容詞,副詞各占總文本的百分比。所以,《暮光之城》系列小說的詞匯密度(即實(shí)詞比率)是名詞、動(dòng)詞、形容詞、副詞所占總文本的百分比之和,也就是《暮光之城》的詞匯密度是54.35%,同理得出BROWN(K-R)文學(xué)語料庫詞匯密度為59.96%。運(yùn)用統(tǒng)計(jì)學(xué)有關(guān)原理對(duì)上述兩個(gè)語料庫的詞匯密度進(jìn)行卡方檢驗(yàn),檢測兩個(gè)語料庫的詞匯密度是否存在顯著性差異,進(jìn)而分析成因及其詞匯特點(diǎn)。經(jīng)計(jì)算得出顯著性 p值<0.01,也就是說兩類語料庫的詞匯密度存在顯著性差異,《暮光之城》全系的詞匯密度不及BROWN(K-R)文學(xué)語料庫詞匯密度高。Halliday曾對(duì)英語口語體和書面語體材料做了對(duì)比分析,他發(fā)現(xiàn)正式語體的詞匯密度高,并具有名詞化(nominalization)特征,而非正式語體詞匯密度較低,名詞化傾向較弱。書面語就可以經(jīng)過一番的思考和推敲,顯得更加正式、嚴(yán)謹(jǐn)。語篇氛圍越嚴(yán)肅,作者對(duì)所使用的詞匯就越精雕細(xì)琢。Halliday(1985:91)認(rèn)為,非正式的語體,特別是口語體,在呈現(xiàn)經(jīng)驗(yàn)和現(xiàn)象時(shí),講話人是在說話,在用語言講述所發(fā)生的事件或所做的事情,把經(jīng)驗(yàn)和現(xiàn)象當(dāng)做動(dòng)作來描述,因此多采用動(dòng)詞。非正式書面語體的詞匯密度低,書面語詞匯密度高,信息量大;而口語詞匯密度低,包含信息量小,但是句子結(jié)構(gòu)靈活多變、復(fù)雜。賦碼后的文本不但為計(jì)算詞匯密度提供便利,同時(shí)也使不同詞性詞匯分布如形容詞、副詞使用情況一目了然,如例1所示。
例1:Charlie was waiting for me with the cruiser.This I was expecting,too.Charlie is Police Chief Swan to the good people of Forks.My primary motivation behind buying a car,despite the scarcity of my funds,was that I refused to be driven around town in a car with red and blue lights on top.Nothing slows down traffic like a cop.
在本段中共有4句,描述主人Bella的父親Charlie是一位警察,作者僅用了4個(gè)形容詞good,primary,red and blue。上述四個(gè)形容詞是最常見的形容詞,表意模糊,涵蓋的范圍較廣。作者較少選用形容詞,且僅用最常見的詞匯描述作為主人公之一的父親,這一文體特征離不開作者的宗教背景。Stephanie Meyer畢業(yè)于全美最大的教會(huì)大學(xué)Brigham Young University,主修英國文學(xué),是篤信后基督教(即摩門教)教義的教徒,這使得她的作品中不會(huì)有任何吸毒、性愛或者暴力情節(jié)出現(xiàn),甚至連一句臟話也難尋。鑒于上述,《暮光之城》系列簡潔明快,沒有冗余的形容詞和副詞修飾,讀后給讀者以一目了然、脈絡(luò)清晰的質(zhì)感。
《暮光之城》系列主要是以人類女孩伊莎貝拉·斯旺(Isabella Swan)和吸血鬼少年愛德華·庫倫(Edward Cullen)纏綿悱惻的愛情故事為主線,整合了吸血鬼傳說、狼人故事、校園生活、恐怖懸念、喜劇冒險(xiǎn)元素的長篇小說,適合青少年閱讀。《時(shí)代》周刊(Times)曾如此評(píng)價(jià):“充滿著愛恨情仇的張力,但又優(yōu)雅精致如簡·奧斯汀,達(dá)到了浪漫小說的一種極致。”下面就作品是否以圍繞Bella和Edward為主題,是否適合青少年閱讀做一考證。表3為經(jīng)Wordlist功能得出的《暮光之城》和BROWN(K-R)的詞頻表及高頻詞,因篇幅所限,本文僅列出前20詞。
詞頻表反映的是上述兩類語料庫中出現(xiàn)頻率依次排序的詞匯。通常高頻詞是功能詞,但是《暮光之城》出現(xiàn)頻率最高的是實(shí)義詞第一人稱代詞“I”。是否因小說是第一人稱敘述,所以“I”頻率最高,那么其他第一人稱敘述的小說高頻詞中是否“I”也是排序第一呢?是否第一人稱敘事小說中“I”都是第一高頻詞,還是僅此一例?作者對(duì)三部以第一人稱為敘事角度的英文小說做了詞頻統(tǒng)計(jì),分別是《Black Beauty》、《Oliver Twist》、《RobinsonCrosio》。在《Black Beauty》中,“I”是第三高頻詞,在《Oliver Twist》中位于第二,在《Robinson Crosio》中也是第二高頻詞。經(jīng)過對(duì)比得出結(jié)論,在以第一人稱為敘述角度的小說中,“I”確實(shí)屬高頻詞這點(diǎn)與其他文體小說不同。但是“I”列位第一是《暮光之城》獨(dú)有的特點(diǎn),屬于這一文本的獨(dú)到之處,說明作者格外強(qiáng)調(diào)“I”(我)的感受,引領(lǐng)讀者從“我”的角度參與故事情節(jié),增強(qiáng)作品感染力。
表3 兩類語料庫詞頻表及高頻詞
不同的是“was”在《暮光之城》詞表中排名第四,遠(yuǎn)高于BROWN(K-R)的第七位。經(jīng)過卡方檢驗(yàn)0.01
通過對(duì)熱銷英文系列小說《暮光之城》自建語料庫與BROWN文學(xué)語料庫BROWN(K-R)對(duì)比,就詞匯分布、詞匯密度等詞匯特征進(jìn)行了分析,得出《暮光之城》系列小說所用詞匯普遍短小,詞匯密度較高,口語化特征明顯,多采用動(dòng)詞,句子簡短,敘事簡潔、平實(shí),可讀性強(qiáng),適合青少年閱讀。動(dòng)詞中一般過去時(shí)的高頻使用突出小說神秘感,與吸血鬼和人類相戀的主題不謀而合,增強(qiáng)了小說的趣味性和可讀性。
語料庫是一種新興的語言處理技術(shù),其特點(diǎn)是對(duì)大規(guī)模的真實(shí)語言進(jìn)行科學(xué)的統(tǒng)計(jì)分析,通過采用對(duì)比詞頻表、賦碼計(jì)算詞匯密度等來自語料庫的數(shù)據(jù)對(duì)語言系統(tǒng)進(jìn)行量化分析,從而發(fā)現(xiàn)語言規(guī)律。語言研究者借助語料庫檢索工具對(duì)來自語料庫的數(shù)據(jù)進(jìn)行量化分析,可以觀察到用傳統(tǒng)方法無法發(fā)現(xiàn)的很多語言事實(shí),從而對(duì)語言本身進(jìn)行更加客觀地描寫和解釋。通過語料庫手段對(duì)文學(xué)作品詞匯的分析為進(jìn)一步研究提供了更加科學(xué)的數(shù)據(jù)支撐,從而使結(jié)果更具客觀性和準(zhǔn)確性,繼而增加了解釋的說服力。然而,其缺點(diǎn)是語料庫的建立比較費(fèi)時(shí)費(fèi)力,語料庫研究方法也比較復(fù)雜,不易在短時(shí)間內(nèi)普及。
[1] Palmer F R.The English Verb[M].London:Longman Group Ltd,1974:94-95.
[2] Stephanie Meyer.Twilight[M].New York:Little,Brown and Company Hachette Book Group,USA.
[3] Stephanie Meyer.New Moon[M].New York:Little,Brown and Company Hachette Book Group,USA.
[4] Stephanie Meyer.Eclipse[M].New York:Little,Brown and Company Hachette Book Group,USA.
[5] Stephanie Meyer.Breaking Dawn[M].New York:Little,Brown and Company Hachette Book Group,USA.
[6] 劉建強(qiáng),張化麗.科技英語中被動(dòng)語態(tài)的特點(diǎn)及翻譯方法[J].科技信息:科學(xué)教研,2008(4).
[7] 曾衛(wèi)軍.文藝語體中的短句修辭[J].現(xiàn)代語文:語言應(yīng)用研究版,2007(7).
[8] 郝雁南.談?wù)劽绹﹂T教及其文化[J].山東師大外國語學(xué)院學(xué)報(bào),2000(2).
[9] 楊信彰.英語書面語體中的詞匯密度特征[J].解放軍外語學(xué)院學(xué)報(bào),1995(3).
[10] 吳義勤.中國當(dāng)代新潮小說論[M].南京:江蘇人民出版社,1997.
[11] 馬廣惠.基于語料庫的小說文體學(xué)研究[J].常熟理工學(xué)院學(xué)報(bào),2005(5).
[12] 劉世生.文學(xué)文體學(xué):理論與方法[J].外語教學(xué)與研究:外國語文雙月刊,2002(3).
[13] 申丹.文學(xué)文體學(xué)的分析模式及其面臨的挑戰(zhàn)[J].外語教學(xué)與研究,1994(3).
[14] 慈繼偉.小說對(duì)文學(xué)文體學(xué)的挑戰(zhàn)[J].外語教學(xué)與研究,1985(2).
[15] 李濤,王菊麗.語料庫文體學(xué):計(jì)算機(jī)輔助文學(xué)語篇的文體分析[J].外語電化教學(xué),2009(1).
[16] 劉世生.文學(xué)文體學(xué):文學(xué)與語言學(xué)的交叉與融會(huì)[J].清華大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2003(6).
[17] 趙秀鳳,訾纓.文學(xué)文體學(xué)的回顧與展望[J].北京林業(yè)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2005,4(1).
[18] 杜琳.西方現(xiàn)代文體學(xué)的沿革及其主要流派[J].濟(jì)南職業(yè)學(xué)院學(xué)報(bào),2007(3).
[19] 閆書穎.詞匯密度在語料庫中的統(tǒng)計(jì)[D].大連海事大學(xué)碩士學(xué)位論文,2001.
[20] 韓國崇.基于語料庫的歐內(nèi)斯特·海明威作品文體學(xué)分析[D].大連海事大學(xué)碩士學(xué)位論文,2008.
[21] 易仲良.論英語動(dòng)詞過去時(shí)態(tài)的實(shí)質(zhì)[J].上海外國語學(xué)院學(xué)報(bào),1987(1):2.
[22] 易仲良.論英語中“說話時(shí)刻”的移位[J].外語與外語教學(xué),1998(11):1.
[23] 許偉.平行語料庫在翻譯批評(píng)中的應(yīng)用--以培根Of Studies的不同譯本為例[J].外語研究,2006.
[24] 段晉麗,李英杰.基于語料庫的文體研究-以《圍城》珍妮英譯本為例[J].黃石理工學(xué)院學(xué)報(bào),2007(3).
[25] 高彩虹.英語一般過去時(shí)非過去用法的認(rèn)知闡釋[J].重慶工學(xué)院學(xué)報(bào):社會(huì)科學(xué),2009(1).
[26] 楊惠中.語料庫語言學(xué)導(dǎo)論[M].上海外語教學(xué)出版社,2002.
[27] 王馥芳,羅敏莉.語料庫詞典學(xué)的興起與發(fā)展[J].辭書研究,2004(5).
A Corpus-based Lexical Analysis of Twilight Series
Yang Xiuzhen,Xu Na,Liu Meiyu
This paper,with the assistance of corpus retrieval tool called WordSmith,makes a comparative analysis of the self-established corpus composed of the Twilight Series and the BROWN(K-R)literary corpus.It tries to illustrate the lexical characteristics of Twilight series from three aspects:word length,lexical density and high-frequency words by combining quantitative findings with qualitative analyses.
corpus;Twilight series;BROWN(K-R)literary corpus;lexical characteristics
H313
A
楊秀珍(1950-),女,教授,碩士生導(dǎo)師,研究方向?yàn)橛⒄Z教學(xué)法。