国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

運用基于統(tǒng)計學建立的數(shù)學模型解決《紅樓夢》作者之謎

2019-04-29 00:14陳城鈺于欣雨蘇世杰
數(shù)學學習與研究 2019年7期
關(guān)鍵詞:線性回歸紅樓夢

陳城鈺 于欣雨 蘇世杰

【摘要】本文借助數(shù)學知識建立一元線性回歸模型,利用最小二乘法來擬合出虛詞頻率直線,通過分析虛詞頻率的差異,來推斷《紅樓夢》作者的問題.根據(jù)建模分析,得出前80回與后40回不是同一個作者的結(jié)論.

【關(guān)鍵詞】紅樓夢;線性回歸;詞向量

《紅樓夢》是具有高度思想性和藝術(shù)性的偉大作品,因某些歷史原因,在傳播過程中出現(xiàn)了增補、修訂的現(xiàn)象.本文借助數(shù)學模型,對《紅樓夢》前80回與后40回作者是否為同一人進行了研究.

一、問題的分析

本文作者在前期研究中發(fā)現(xiàn),《紅樓夢》主要人物出現(xiàn)的頻率受小說情節(jié)的影響較大,雖能在一定程度上體現(xiàn)出作者的差異,但并不明顯.

現(xiàn)代漢語言文學研究認為,虛詞的使用更能夠體現(xiàn)出作者的寫作習慣與語言風格.因此,通過大規(guī)模的統(tǒng)計與合理地建模,對不同章回中相同的虛詞進行頻率分析,得出每章回作者的語言習慣,在誤差范圍內(nèi)進行比較和判斷,可判斷不同章回之間作者的異同.

二、模型假設

1.同一個作者,認為他對詞、句法的使用習慣基本保持不變,作品中的虛詞出現(xiàn)頻率幾乎沒有差別;

2.不同的作者之間,詞匯的使用習慣、詞與詞的相關(guān)性處理、長短句的偏好有較大的差別;

3.本次所用《紅樓夢》版本為作者成書時原貌,成書后,除去遺失的原稿外,在傳播過程中無其他人的修訂.

三、數(shù)據(jù)概覽

在使用模型對虛詞詞頻進行分析之前,使用MATLAB語言對虛詞在前后章節(jié)中出現(xiàn)的次數(shù)差異進行了統(tǒng)計,為模型的建立及其結(jié)果提供有力論據(jù).

采用Python語言及Jieba分詞插件進行詞頻統(tǒng)計,挑選了“再、可、別、為、之、啊、咧、嗎、呀、仍、要、也、尚、偏、很、比、越、往、向、讓、故、皆”22個在一般古漢語中高頻出現(xiàn)的虛詞進行統(tǒng)計比對,發(fā)現(xiàn)對虛詞的使用偏好在前后兩部分出現(xiàn)了巨大差異,如“嗎”在前半部分出現(xiàn)頻率0.0375次/回,而在后半部分出現(xiàn)頻率1.875次/回,驗證了前后部分是由語言習慣相差明顯的兩位作者分別完成的推論.之后的模型求解均基于該理念完成.

四、模型的建立

本文通過建立一元回歸方程,對虛詞頻率位次的分析來估計不同文本之間虛詞的頻率異同.作者取樣同一部小說中的大量虛詞,根據(jù)虛詞的頻率從小到大排列,視其位次為自變量x1,x2,…,xn.以虛詞對應的頻率為因變量,記y1,y2,…,yn,并在直角坐標系上制得散點圖,并用最小二乘法擬合出詞頻——虛詞序次直線.其中,b為該直線在y軸上的斜率,a為該直線在x軸上的截距,且滿足方程如下:

b=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2=∑ni=1xiyi-nx y∑ni=1x2i-nx2,

a=y-bx.

線性相關(guān)系數(shù)(R2):由于之后的線性回歸模型需要以一個同類隨機樣本虛詞的順序為基準,因此,兩個變量之間的關(guān)系強度無法得到保證.此時需要計算每條擬合直線的線性相關(guān)系數(shù),即R2來判斷兩個變量之間的線性關(guān)系密切程度,在該問題中表現(xiàn)為虛詞的位次與頻率是否大致與隨機樣本一致.

觀測數(shù)據(jù)(xi,yi),i=1,2,…,n的樣本相關(guān)系數(shù)

R=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2∑ni=1(yi-y)2

=∑ni=1xiyi-nx y∑ni=1x2i-nx2∑ni=1y2i-ny2 .

根據(jù)統(tǒng)計學知識,在本數(shù)學模型中規(guī)定:當0.75

由假設可知,同一作者作品中虛詞詞頻是一致的.因此,如果各章節(jié)作者相同,那么相同的一組虛詞按照不變的排序后,所擬合出的直線近似一致.并且,由于相同虛詞在不同作者作品中詞頻不同,所以一組虛詞按照不變的順序排序后,擬合出的詞頻-虛詞直線一般不同,且擬合效果一般較差.同時,相關(guān)系數(shù)也與擬合直線的斜率一同作為判斷依據(jù):當斜率相差小且擬合效果好時,認為匹配成功;否則,認為匹配失敗.

五、標準數(shù)據(jù)設立

為了論證虛詞詞頻的異同能夠體現(xiàn)作者的異同,首要任務是建立各線性回歸方程斜率之間的可承受誤差區(qū)間,即標準數(shù)據(jù).本文選用已確認由唯一作者書寫的《西游記》為參數(shù)來源.

數(shù)據(jù)獲得步驟:將100回的《西游記》平均分為前后各50回兩個部分;通過Python語言及Jieba分詞插件得出總出現(xiàn)頻率較高的虛詞:嗎、仍、越、讓、其、比、但、可;使用MATLAB語言對這8個虛詞的出現(xiàn)次數(shù)及頻率進行統(tǒng)計;以前50回中8個虛詞的頻率升序為基準,將前后兩部分的數(shù)據(jù)制作成散點圖,并繪制出各自的線性回歸方程.兩方程斜率的差即為該問題中可接受的誤差,即在該范圍內(nèi)可認為兩篇文本出自同一作者.

進行多組數(shù)據(jù)比對,作者認為以1±0.1為標準數(shù)據(jù)具有適用性.

六、模型的求解

為使數(shù)據(jù)盡量可控、精細,將《紅樓夢》以每10回劃分為1節(jié),分別從前8節(jié)和后4節(jié)中各抽出1節(jié)作為順序基準.求解過程中21~30回和101~110回被隨機選中.剩余10節(jié)分別以這兩節(jié)的順序為基準,構(gòu)建一元線性回歸方程,通過對線性相關(guān)系數(shù)及斜率的比較,將剩余10節(jié)歸入到誤差較小即在標準數(shù)據(jù)內(nèi)的那組,由此確認120回中哪幾回屬于同一個作者.

使用盲眼測試法,即將章回數(shù)當作未知數(shù)據(jù),通過將該小節(jié)以兩個數(shù)據(jù)基準數(shù)據(jù)得出的散點圖及線性回歸方程與其基準進行比較,得出更接近基準的該組即為該小節(jié)所屬部分.

以31~40回小節(jié)為例進行歸類,將兩組數(shù)據(jù)的相對差距進行比較:

以21~30回為基準時,線性相關(guān)系數(shù)為0.765 223 92,擬合效果出色,適合進行方程截距比較;截距與基準之比為0.765 223 920.810 458 30=0.944 186 666,將該比值與標準數(shù)據(jù)1±01進行絕對差距比較,發(fā)現(xiàn)在可承受范圍內(nèi).

以101~110回為基準時,該小節(jié)線性相關(guān)系數(shù)為0392 719 34,擬合效果偏差,不宜進行方程截距比較;為使得結(jié)果更合理、有力,進一步進行截距比較:截距與基準之比為0.392 719 340.855 150 40=0.459 240 082.再將比值與標準數(shù)據(jù)1±01進行絕對差距比較,發(fā)現(xiàn)遠超出可承受范圍.

由于第31~40回與21~30回擬合效果出色,比值在合理范圍內(nèi);與101~110回擬合效果較差,比值超出范圍.因而,可以得出31~40回小節(jié)屬于前80回.

將剩余9小節(jié)按照如上方法進行比對,結(jié)果顯示前80回在以21~30回為基準的可接受范圍內(nèi);后40回在以101~110回為基準的可接受范圍內(nèi).

七、結(jié) 論

綜上所述,通過虛詞詞頻的一元線性回歸模型,可以得出《紅樓夢》前80回與后40回分別由兩位作者撰寫的結(jié)論.

【參考文獻】

[1]李賢平.《紅樓夢》成書新說[J].復旦大學學報社科版,1987(5):3-16.

[2]韋博成.紅樓夢前80回與后40回某些文風差異的統(tǒng)計分析[J].應用概率統(tǒng)計,2009(4):441-448.

[3]吳軍.數(shù)學之美:第2版[M].北京:人民郵電出版社,2014.

[4]韋博成.漫談統(tǒng)計學的應用與發(fā)展[J].數(shù)理統(tǒng)計與管理,2011(1):85-97.

猜你喜歡
線性回歸紅樓夢
《紅樓夢》處處都是慈悲
論《紅樓夢》中的賭博之風
從《紅樓夢》看養(yǎng)生
話中話:《紅樓夢》直接引語中的元話語分析
《〈紅樓夢〉寫作之美》序
別樣解讀《紅樓夢》
國道公路養(yǎng)護管理與規(guī)劃研究
投資者情緒與股票市場收益的相互影響分析
影響上市公司股票價格的微觀因素分析
企業(yè)退休金收支平衡的研究