摘 要:統(tǒng)計規(guī)律性是概率論與數(shù)理統(tǒng)計的一個基本定義,對其的探索貫穿于統(tǒng)計研究的始終。本研究通過對某項研究中父母、子女身高的歷史真實數(shù)據(jù)進行科學(xué)分析,對統(tǒng)計規(guī)律性進行了探索,并結(jié)合數(shù)據(jù)的處理過程強化了對統(tǒng)計規(guī)律性的認識,從而做到理論與實踐相結(jié)合,更好實現(xiàn)了課程教學(xué)目標。
關(guān)鍵詞:統(tǒng)計規(guī)律性;概率統(tǒng)計;身高數(shù)據(jù)
統(tǒng)計學(xué)是研究隨機現(xiàn)象統(tǒng)計規(guī)律性的一門科學(xué)與藝術(shù),該學(xué)科不僅要求掌握基本知識和基本理論,還要有統(tǒng)計的思想和藝術(shù)。概率論與數(shù)理統(tǒng)計(以下簡稱“概率統(tǒng)計”)作為統(tǒng)計學(xué)科的一門基礎(chǔ)課程,已成為理工、農(nóng)醫(yī)、經(jīng)濟、管理等專業(yè)本科階段的必修課。如何基于概率統(tǒng)計的課程內(nèi)容,在傳授基本知識和基本理論的同時,培養(yǎng)學(xué)生的統(tǒng)計思想與藝術(shù)能力,使他們具備探索隨機現(xiàn)象的統(tǒng)計規(guī)律性的綜合素養(yǎng),是統(tǒng)計教育工作者在教學(xué)中一直積極探索的內(nèi)容。
筆者基于R語言包HistData中的父母、子女身高數(shù)據(jù),結(jié)合數(shù)據(jù)收集的目的,在對數(shù)據(jù)進行加工的同時探討其統(tǒng)計規(guī)律性,強化了對概率統(tǒng)計相關(guān)概念的認知和應(yīng)用。
一、數(shù)據(jù)背景
英國生物學(xué)家查爾斯·羅伯特·達爾文(Charles Robert Darwin)于1859年在其著作《物種起源》中提出了生物進化論學(xué)說,并將其作為適者生存理論的基礎(chǔ)。達爾文的表弟弗朗西斯·高爾頓(Francis Galton)對進化論產(chǎn)生興趣后,決定對“天賦的遺傳”開展研究。受條件所限,他選擇了更容易測量的遺傳特征——身高。他收集了205個家庭的成員的身高、體重、特定骨骼數(shù)據(jù)以及其他特征,并將這些數(shù)據(jù)制成表格反復(fù)研究,希望找到一種以父母身高預(yù)測子女身高的統(tǒng)計方法。
R語言包HistData中給出了這個調(diào)查結(jié)果,并將其命名為GaltonFamilies,同時還給出了名為Galton的數(shù)據(jù)。Galton是GaltonFamilies的簡化,只包含“parent”(父母身高)和“child”(子女身高)兩個變量。Galton有928個觀測值,即來自205個家庭的928個成年子女的身高(單位:英寸,1英寸=2.54厘米)數(shù)據(jù)。數(shù)據(jù)中,父母的身高數(shù)據(jù)為父親身高和母親身高的平均值。
要基于Galton數(shù)據(jù)探討統(tǒng)計規(guī)律性,就需要理解統(tǒng)計規(guī)律性的概念。統(tǒng)計規(guī)律性是進行大量重復(fù)性試驗和觀測時試驗結(jié)果呈現(xiàn)出的規(guī)律性,如拋擲質(zhì)地均勻的硬幣,出現(xiàn)帶幣值的一面朝上的次數(shù)約占拋擲總次數(shù)的一半。《統(tǒng)計大辭典》將統(tǒng)計規(guī)律性定義為“大量隨機現(xiàn)象在多次重復(fù)出現(xiàn)時所呈現(xiàn)的各種規(guī)律性”“其主要表現(xiàn)是:在隨機現(xiàn)象大量重復(fù)出現(xiàn)時,它的每種可能結(jié)果出現(xiàn)的頻率的穩(wěn)定性,以及各種數(shù)量特征的平均水平的穩(wěn)定性。如,對一批產(chǎn)品進行還原抽樣,各次抽樣的結(jié)果具有隨機性,但是多次重復(fù)抽樣中不合格產(chǎn)品出現(xiàn)的頻率穩(wěn)定在整批產(chǎn)品的不合格率附近;在分析天平上稱量一件物品,各稱量的結(jié)果具有隨機性,但是多次重復(fù)稱量結(jié)果的平均值穩(wěn)定在被稱物品的質(zhì)量附近……這種穩(wěn)定性就是統(tǒng)計規(guī)律性的典型表現(xiàn)”。從上述定義可以看出,統(tǒng)計規(guī)律性是對大量的觀測進行有效信息提取的過程,而有效提取信息則要基于實際問題。為此,筆者結(jié)合高爾頓收集的Galton數(shù)據(jù)及收集目標,探討了Galton數(shù)據(jù)中隱含的統(tǒng)計規(guī)律性。
二、數(shù)據(jù)的描述性統(tǒng)計規(guī)律
描述性統(tǒng)計是指對調(diào)查樣本中的大量數(shù)據(jù)資料進行整理、分析和計算,從而得到數(shù)據(jù)分布特性的概況。描述性統(tǒng)計分析的方法有很多,其中統(tǒng)計圖形方法具有直觀、形象的特點,可以給出數(shù)據(jù)的整體分布情況。為此,筆者首先執(zhí)行R語句命令:
library(HistData)#加載包,如果沒有安裝,需要運行語句:install.packages(“HistData”)
plot(child~parent,data=Galton,xlab=“父母身高(英寸)”,ylab=“子女身高(英寸)”)#作圖
執(zhí)行命令后得到圖1:
圖1是以父母身高(parent)為x軸、子女身高(child)為y軸的散點圖,可以看出父母身高與子女身高的整體分布情況。觀察者可以沿著x軸觀測y軸的取值變化,比如父母身高在64英寸附近時,子女身高值有的低于62英寸,有的接近70英寸,這說明有的子女身高比父母低,有的比父母高,但比父母高的子女更多。同樣,高個子父母的子女身高也較高,但也有不少子女身高比父母矮。這正如高爾頓和其助手在研究中指出的那樣,“高個子的父母更容易擁有高個子的后代,但其子女往往比父母矮,而矮個子的父母其子女往往比父母高”。高爾頓將這種現(xiàn)象形象地稱為“均值回歸”,這就是圖1所給出的Galton數(shù)據(jù)的統(tǒng)計規(guī)律性。
雖然統(tǒng)計圖形具有直觀、形象的特點,但不同的觀察視角往往導(dǎo)致統(tǒng)計圖方法產(chǎn)生一定的主觀性。因此,可以基于特定的問題或特定的角度,對這些數(shù)據(jù)進行加工,提取某方面的信息以展示其統(tǒng)計規(guī)律性。如要了解19世紀的倫敦居民的平均身高,則可以對Galton數(shù)據(jù)中的“parent”和“child”變量求均值,運行下面的語句:
apply(Galton,2,mean)#對Galton數(shù)據(jù)變量求均值
得到父母身高的均值為68.31英寸,子女身高為68.09英寸,子女與父母平均身高相差不大,從而可以認為當?shù)鼐用竦钠骄砀呒s為68英寸(172.72cm),這就是當時倫敦居民平均身高的統(tǒng)計規(guī)律性。該統(tǒng)計規(guī)律性是對來自205個家庭的928名成年子女的身高數(shù)據(jù)進行平均而得到的,所以68英寸這個身高值有可能比實際值高或低,這取決于樣本是否具有代表性。如果樣本具有良好的代表性,那么這個值就能夠反映當時倫敦居民的平均身高情況,這就是統(tǒng)計規(guī)律性。
若要了解當時倫敦居民身高的差異情況,則可以計算身高數(shù)據(jù)的方差(標準差)。方差(標準差)越大,說明居民之間身高的差別越大,反之則越小。運行下面語句:
apply(Galton,2,var)#對Galton數(shù)據(jù)變量求方差
apply(Galton,2,sd)#對Galton數(shù)據(jù)變量求標準差
得到父母、子女身高的樣本方差分別為3.19和6.34,父母、子女身高的標準差分別為1.79和2.52。基于正態(tài)分布的“3σ”法則,區(qū)間(60.53, 75.65)(=(68.09-3×2.52,68.09+3×2.52))應(yīng)以0.9973的概率包含倫敦居民的身高。對于Galton數(shù)據(jù),父母、子女身高的最大值分別為73和73.7(運行代碼:apply(Galton,2,max)),最小值分別為64和61.7(運行代碼:apply(Galton,2,min)),均落在“3σ”區(qū)間內(nèi)。由此可見,均值、方差、標準差以及“3σ”區(qū)間等值,均從不同角度展示了Galton數(shù)據(jù)的統(tǒng)計規(guī)律性。
上述結(jié)論中,子女身高的方差(標準差)比父母身高的方差(標準差)大,說明子女身高的離散程度大,這在數(shù)據(jù)中也有所體現(xiàn)——子女身高的最小值61.7比父母身高的最小值64小,而最大值73.7比父母的73大。但這個結(jié)論似乎與高爾頓“均值回歸”相矛盾,這種假象的產(chǎn)生與樣本的采集有關(guān):一是因為父母的身高是父親與母親身高的平均值;二是因為928名成年子女來自205個家庭,父母身高的數(shù)據(jù)也只有205個不同的值。以上兩個因素導(dǎo)致了父母身高方差變小,這也是Galton數(shù)據(jù)的統(tǒng)計規(guī)律性所在。
三、數(shù)據(jù)的推斷統(tǒng)計規(guī)律
高爾頓采集數(shù)據(jù)的目的是想找到一個統(tǒng)計模型,在已知父母身高的條件下預(yù)測其子女的身高。概率統(tǒng)計課程中的回歸分析是一個常用的統(tǒng)計預(yù)測工具,那么回歸分析又是如何體現(xiàn)統(tǒng)計規(guī)律性的呢?
首先,基于R軟件包stats中的lm函數(shù),運行語句
galton.lm=lm(child~parent,data=Galton)#建立父母身高對子女身高的線性回歸模型
summary(galton.lm)
由summary(galton.lm)輸出,給出的回歸模型為:子女身高=23.94+0.65×父母身高。(1)
模型(1)將928名子女和205個父母的身高數(shù)據(jù)統(tǒng)計提取為兩個數(shù)值:截距項23.94和斜率0.65。顯然,父母身高對子女身高具有正向作用,因為斜率0.65為正值,但0.65<1,說明父母身高對子女身高的影響并不是1∶1的。在父母身高已知的條件下,基于模型(1)可以給出子女身高的預(yù)測。比如父母身高是68英寸,代入模型(1)給出子女身高為68.14英寸,基本與父母身高持平;如果父母身高為62英寸,則子女身高64.24英寸,有增高的趨勢;如果父母身高為75英寸,則子女身高為72.69英寸,有降低的趨勢。這就是高爾頓給出的“均值回歸”現(xiàn)象,而截距項23.94和斜率0.65就是Galton數(shù)據(jù)的線性回歸模型的統(tǒng)計規(guī)律性。
筆者基于Galton數(shù)據(jù),從統(tǒng)計圖、均值、方差和“3σ”區(qū)間等角度給出了統(tǒng)計規(guī)律性的描述性分析,有助于加深學(xué)生對統(tǒng)計規(guī)律性的認識,幫助他們進一步理解統(tǒng)計推斷的統(tǒng)計規(guī)律性。
參考文獻:
[1]袁衛(wèi),劉超.統(tǒng)計學(xué)教材建設(shè)的問題與思考[J].統(tǒng)計研究,2011(9).
[2](美)L·迪·芬克.創(chuàng)造有意義的學(xué)習(xí)經(jīng)歷:綜合性大學(xué)課程設(shè)計原則[M].胡美馨,劉穎,譯.杭州:浙江大學(xué)出版社,2006.
[3]常艷芳.讓學(xué)生獲得有意義的學(xué)習(xí)經(jīng)歷:現(xiàn)代大學(xué)教育的承諾[J].江蘇高教,2019(1).
[4]王秀芝.案例教學(xué)中需要研究的幾個問題[J].中國高等教育,2006(12).
[5](美)戴維·薩爾斯伯格著.女士品茶:統(tǒng)計學(xué)如何變革了科學(xué)和生活[M].劉清山,譯.南昌:江西人民出版社,2016.
[6]王松桂,張忠占,程維虎,等.概率論與數(shù)理統(tǒng)計[M].北京:科學(xué)出版社,2011.
[7]鄭家亨.統(tǒng)計大辭典[M].北京:中國統(tǒng)計出版社,1995.
責編:文 墨
基金項目:河南工業(yè)大學(xué)首批特色課程(編號:PX-41211821)
作者簡介:郭念國(1976— ),男,河南工業(yè)大學(xué)副教授,研究方向為應(yīng)用數(shù)理統(tǒng)計。