摘 要:Heaps定律無(wú)疑是揭示人類文獻(xiàn)內(nèi)在規(guī)律的有力武器。本文運(yùn)用R語(yǔ)言和SPSS程序。通過(guò)對(duì)“20世紀(jì)百大英文小說(shuō)”——讀者票選名單中的16個(gè)文本進(jìn)行統(tǒng)計(jì)分析以驗(yàn)證Heaps定律魯棒性。
關(guān)鍵詞:Heaps定律;魯棒性;Heaps指數(shù);新詞進(jìn)入率
1 Heap定律
作為復(fù)雜系統(tǒng)中的經(jīng)驗(yàn)法則,Heaps定律是揭示人類文獻(xiàn)內(nèi)在規(guī)律的有力武器。設(shè)為文本總詞數(shù)達(dá)到時(shí)的詞匯量,Heaps定律可以用公式表示為,其中和為經(jīng)驗(yàn)系數(shù),即隨著文本長(zhǎng)度的增加,文本不斷地生成,文本詞匯量的增加率隨之邊際遞減,[1]Heaps指數(shù)因此也常常被稱為“新詞進(jìn)入率”。本文在英文文本背景中驗(yàn)證Heaps定律的魯棒性。
2 Heaps定律魯棒性在文本中的統(tǒng)計(jì)驗(yàn)證
2.1 動(dòng)蕩與多元的語(yǔ)言文學(xué)背景下的Heaps定律
所謂魯棒性,一般認(rèn)為是系統(tǒng)的健壯性。是系統(tǒng)在擾動(dòng)或不確定的情況下仍能保持其特征行為。本文所提Heaps定律的魯棒性指在動(dòng)蕩和多元的語(yǔ)言文學(xué)背景下,文本中的新詞進(jìn)入率,即heaps指數(shù),是否仍能保持其特征值。Heaps定律可以用公式表示為,其中和為經(jīng)驗(yàn)系數(shù)。介于當(dāng)時(shí),的值必然也為1,本文取以方便計(jì)算處理。
20世紀(jì)是人類歷史上最為動(dòng)蕩和多元的世紀(jì)。20世紀(jì)的文學(xué),亦相應(yīng)地呈現(xiàn)繽紛瑰麗的異彩,印證著百年來(lái)人類精神的坎坷征程。文學(xué)諸賢已先于我們對(duì)20世紀(jì)做出了極富洞見的解讀。[2]本文選取了“20世紀(jì)百大英文小說(shuō)”——讀者票選名單中的16個(gè)文本(按年份排列,每十年中隨機(jī)抽取兩個(gè)文本做統(tǒng)計(jì)分析),以衡量Heaps定律的魯棒性。這16個(gè)文本均為英文文本,按照篇幅可分為短篇小說(shuō)、中篇小說(shuō)、長(zhǎng)篇小說(shuō)。統(tǒng)計(jì)文本涵蓋了各種類型,按照年代依次列表(見表1)。此外,本文使用C語(yǔ)言、SPSS程序來(lái)對(duì)文本進(jìn)行處理和統(tǒng)計(jì),考察一百年間英文文本中詞匯量隨著文本長(zhǎng)度的增加的變化規(guī)律。
可以看出,上述英文文本的heaps指數(shù)穩(wěn)定在0.790.05,判定系數(shù)R2都不小于86%。由此可見,Heaps指數(shù)并沒(méi)有因世界環(huán)境,特殊國(guó)情而產(chǎn)生很大的波動(dòng),Heaps定律及Heaps指數(shù)在描述人類所使用的詞匯量—總詞量關(guān)系上具有魯棒性和普適性規(guī)律。
2.2 文本的排列順序?qū)ζ淇傮wHeaps指數(shù)的影響
表2展示了三個(gè)英文文本《Pride and Prejudice》《Iliad》《the Old Man and the Sea》各自的總詞量、詞匯量及其經(jīng)過(guò)SPSS程序統(tǒng)計(jì)分析所得的Heaps指數(shù)和判定系數(shù)R2。三個(gè)文本的Heaps指數(shù)仍穩(wěn)定在0.790.05的范圍內(nèi)。下面我們討論,調(diào)整三個(gè)文本的排列順序,觀察三個(gè)文本作為整體時(shí)其Heaps指數(shù)是否會(huì)發(fā)生較大波動(dòng),以衡量Heaps定律的魯棒性。
由表3可見,不論《Pride and Prejudice》《Iliad》《the Old Man and the Sea》三個(gè)文本的先后順序如何排列,若將三個(gè)文本作為一個(gè)整體來(lái)看,其希普斯指標(biāo)僅從0.750變化到了0.753。因而我們可以得出結(jié)論,幾個(gè)文本之間的排列順序幾乎不會(huì)影響到這幾個(gè)文本作為一個(gè)總體時(shí)的Heaps指數(shù)。
此外,三個(gè)文本作為一個(gè)整體而言,其heaps指數(shù)略小于每一部單獨(dú)文本的heaps指數(shù)。這一方面是因?yàn)殡S著文本長(zhǎng)度的增加(三個(gè)文本的總詞量明顯大于其中任意一單獨(dú)文本的總詞量),文本中已出現(xiàn)過(guò)的詞也在增加,因而其整體上的新詞進(jìn)入率會(huì)減低;另一方面,三個(gè)文本中有大量的詞匯重復(fù),這些重復(fù)的詞匯在單獨(dú)一個(gè)文本中可能是作為新詞出現(xiàn),但在三個(gè)文本形成的整體中,其所謂新詞即不再為新詞,已在前文中出現(xiàn)過(guò)。
3 結(jié)語(yǔ)
本文統(tǒng)計(jì)分析了20世紀(jì)16個(gè)英文小說(shuō)的Heaps指數(shù)(新詞進(jìn)入率)數(shù)據(jù)。盡管所選取的研究范圍時(shí)間跨度較大。但是從根本上,Heaps指數(shù)并沒(méi)有因世界環(huán)境,特殊國(guó)情而產(chǎn)生很大的波動(dòng)。本文還嘗試研究了將幾個(gè)文本作為一個(gè)整體以闡述heaps定律的魯棒性時(shí),內(nèi)部文本間的排列順序幾乎不會(huì)影響到這幾個(gè)文本作為一個(gè)總體時(shí)的新詞進(jìn)入率。本文的研究反映了人類文學(xué)文獻(xiàn)的冪率特性,Heaps定律在描述人類所使用的詞匯量—總詞量關(guān)系上具有魯棒性和普適性規(guī)律。
參考文獻(xiàn):
[1] 張翼飛. Heaps定律在中英文文本中的統(tǒng)計(jì)驗(yàn)證與分析[J].中國(guó)外資,2011(10):272.
[2] 吳元邁,陶潔,王守仁,何寧. 20世紀(jì)外國(guó)文學(xué)簡(jiǎn)史[M].譯林出版社,2013.
作者簡(jiǎn)介:王彩燕,上海大學(xué)圖書情報(bào)檔案系情報(bào)學(xué)專業(yè)研究生。