国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Heaps定律魯棒性在文本中統(tǒng)計(jì)驗(yàn)證與分析

2016-05-30 10:25王彩燕
藝術(shù)科技 2016年2期
關(guān)鍵詞:魯棒性

摘 要:Heaps定律無(wú)疑是揭示人類文獻(xiàn)內(nèi)在規(guī)律的有力武器。本文運(yùn)用R語(yǔ)言和SPSS程序。通過(guò)對(duì)“20世紀(jì)百大英文小說(shuō)”——讀者票選名單中的16個(gè)文本進(jìn)行統(tǒng)計(jì)分析以驗(yàn)證Heaps定律魯棒性。

關(guān)鍵詞:Heaps定律;魯棒性;Heaps指數(shù);新詞進(jìn)入率

1 Heap定律

作為復(fù)雜系統(tǒng)中的經(jīng)驗(yàn)法則,Heaps定律是揭示人類文獻(xiàn)內(nèi)在規(guī)律的有力武器。設(shè)為文本總詞數(shù)達(dá)到時(shí)的詞匯量,Heaps定律可以用公式表示為,其中和為經(jīng)驗(yàn)系數(shù),即隨著文本長(zhǎng)度的增加,文本不斷地生成,文本詞匯量的增加率隨之邊際遞減,[1]Heaps指數(shù)因此也常常被稱為“新詞進(jìn)入率”。本文在英文文本背景中驗(yàn)證Heaps定律的魯棒性。

2 Heaps定律魯棒性在文本中的統(tǒng)計(jì)驗(yàn)證

2.1 動(dòng)蕩與多元的語(yǔ)言文學(xué)背景下的Heaps定律

所謂魯棒性,一般認(rèn)為是系統(tǒng)的健壯性。是系統(tǒng)在擾動(dòng)或不確定的情況下仍能保持其特征行為。本文所提Heaps定律的魯棒性指在動(dòng)蕩和多元的語(yǔ)言文學(xué)背景下,文本中的新詞進(jìn)入率,即heaps指數(shù),是否仍能保持其特征值。Heaps定律可以用公式表示為,其中和為經(jīng)驗(yàn)系數(shù)。介于當(dāng)時(shí),的值必然也為1,本文取以方便計(jì)算處理。

20世紀(jì)是人類歷史上最為動(dòng)蕩和多元的世紀(jì)。20世紀(jì)的文學(xué),亦相應(yīng)地呈現(xiàn)繽紛瑰麗的異彩,印證著百年來(lái)人類精神的坎坷征程。文學(xué)諸賢已先于我們對(duì)20世紀(jì)做出了極富洞見的解讀。[2]本文選取了“20世紀(jì)百大英文小說(shuō)”——讀者票選名單中的16個(gè)文本(按年份排列,每十年中隨機(jī)抽取兩個(gè)文本做統(tǒng)計(jì)分析),以衡量Heaps定律的魯棒性。這16個(gè)文本均為英文文本,按照篇幅可分為短篇小說(shuō)、中篇小說(shuō)、長(zhǎng)篇小說(shuō)。統(tǒng)計(jì)文本涵蓋了各種類型,按照年代依次列表(見表1)。此外,本文使用C語(yǔ)言、SPSS程序來(lái)對(duì)文本進(jìn)行處理和統(tǒng)計(jì),考察一百年間英文文本中詞匯量隨著文本長(zhǎng)度的增加的變化規(guī)律。

可以看出,上述英文文本的heaps指數(shù)穩(wěn)定在0.790.05,判定系數(shù)R2都不小于86%。由此可見,Heaps指數(shù)并沒(méi)有因世界環(huán)境,特殊國(guó)情而產(chǎn)生很大的波動(dòng),Heaps定律及Heaps指數(shù)在描述人類所使用的詞匯量—總詞量關(guān)系上具有魯棒性和普適性規(guī)律。

2.2 文本的排列順序?qū)ζ淇傮wHeaps指數(shù)的影響

表2展示了三個(gè)英文文本《Pride and Prejudice》《Iliad》《the Old Man and the Sea》各自的總詞量、詞匯量及其經(jīng)過(guò)SPSS程序統(tǒng)計(jì)分析所得的Heaps指數(shù)和判定系數(shù)R2。三個(gè)文本的Heaps指數(shù)仍穩(wěn)定在0.790.05的范圍內(nèi)。下面我們討論,調(diào)整三個(gè)文本的排列順序,觀察三個(gè)文本作為整體時(shí)其Heaps指數(shù)是否會(huì)發(fā)生較大波動(dòng),以衡量Heaps定律的魯棒性。

由表3可見,不論《Pride and Prejudice》《Iliad》《the Old Man and the Sea》三個(gè)文本的先后順序如何排列,若將三個(gè)文本作為一個(gè)整體來(lái)看,其希普斯指標(biāo)僅從0.750變化到了0.753。因而我們可以得出結(jié)論,幾個(gè)文本之間的排列順序幾乎不會(huì)影響到這幾個(gè)文本作為一個(gè)總體時(shí)的Heaps指數(shù)。

此外,三個(gè)文本作為一個(gè)整體而言,其heaps指數(shù)略小于每一部單獨(dú)文本的heaps指數(shù)。這一方面是因?yàn)殡S著文本長(zhǎng)度的增加(三個(gè)文本的總詞量明顯大于其中任意一單獨(dú)文本的總詞量),文本中已出現(xiàn)過(guò)的詞也在增加,因而其整體上的新詞進(jìn)入率會(huì)減低;另一方面,三個(gè)文本中有大量的詞匯重復(fù),這些重復(fù)的詞匯在單獨(dú)一個(gè)文本中可能是作為新詞出現(xiàn),但在三個(gè)文本形成的整體中,其所謂新詞即不再為新詞,已在前文中出現(xiàn)過(guò)。

3 結(jié)語(yǔ)

本文統(tǒng)計(jì)分析了20世紀(jì)16個(gè)英文小說(shuō)的Heaps指數(shù)(新詞進(jìn)入率)數(shù)據(jù)。盡管所選取的研究范圍時(shí)間跨度較大。但是從根本上,Heaps指數(shù)并沒(méi)有因世界環(huán)境,特殊國(guó)情而產(chǎn)生很大的波動(dòng)。本文還嘗試研究了將幾個(gè)文本作為一個(gè)整體以闡述heaps定律的魯棒性時(shí),內(nèi)部文本間的排列順序幾乎不會(huì)影響到這幾個(gè)文本作為一個(gè)總體時(shí)的新詞進(jìn)入率。本文的研究反映了人類文學(xué)文獻(xiàn)的冪率特性,Heaps定律在描述人類所使用的詞匯量—總詞量關(guān)系上具有魯棒性和普適性規(guī)律。

參考文獻(xiàn):

[1] 張翼飛. Heaps定律在中英文文本中的統(tǒng)計(jì)驗(yàn)證與分析[J].中國(guó)外資,2011(10):272.

[2] 吳元邁,陶潔,王守仁,何寧. 20世紀(jì)外國(guó)文學(xué)簡(jiǎn)史[M].譯林出版社,2013.

作者簡(jiǎn)介:王彩燕,上海大學(xué)圖書情報(bào)檔案系情報(bào)學(xué)專業(yè)研究生。

猜你喜歡
魯棒性
考慮恒功率負(fù)載的直流微電網(wǎng)穩(wěn)定性與魯棒性控制策略
武漢軌道交通重點(diǎn)車站識(shí)別及網(wǎng)絡(luò)魯棒性研究
荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評(píng)價(jià)
基于時(shí)差效用的雙目標(biāo)資源約束型魯棒性項(xiàng)目調(diào)度優(yōu)化
一種基于三維小波變換的魯棒視頻水印方案
一種基于奇異值分解的魯棒水印算法
基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性優(yōu)化
基于遺傳算法的數(shù)字水印嵌入位置的優(yōu)化算法
西南交通大學(xué)學(xué)報(bào)(2016年6期)2016-05-04