◎郭朝會(huì)
(重慶師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,重慶 401331)
R軟件在正態(tài)總體假設(shè)檢驗(yàn)教學(xué)中的應(yīng)用探討
◎郭朝會(huì)
(重慶師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,重慶 401331)
本文介紹了R軟件在正態(tài)總體假設(shè)檢驗(yàn)教學(xué)中的一些應(yīng)用.通過(guò)教學(xué)實(shí)例闡述如何利用R軟件進(jìn)行直觀教學(xué),提高學(xué)生對(duì)假設(shè)檢驗(yàn)原理的理解,從而培養(yǎng)學(xué)生的學(xué)習(xí)興趣以及提高學(xué)生探索問(wèn)題、解決問(wèn)題的能力.
數(shù)理統(tǒng)計(jì);假設(shè)檢驗(yàn);R軟件
數(shù)理統(tǒng)計(jì)[1,2]是理工科高等院校的基礎(chǔ)必修課程,在高等教育課程中占有舉足輕重的地位.假設(shè)檢驗(yàn)作為統(tǒng)計(jì)推斷的三大內(nèi)容之一,貫穿于數(shù)理統(tǒng)計(jì)學(xué)的始終.因此,它在數(shù)理統(tǒng)計(jì)這門課程中占有非常重要的位置.如何提高假設(shè)檢驗(yàn)的教學(xué),讓學(xué)生深刻理解假設(shè)檢驗(yàn)的統(tǒng)計(jì)原理是數(shù)理統(tǒng)計(jì)教學(xué)的重點(diǎn)和難點(diǎn).而傳統(tǒng)的教學(xué)方法,很難形象直觀地展現(xiàn)假設(shè)檢驗(yàn)的統(tǒng)計(jì)原理,使得學(xué)生對(duì)假設(shè)檢驗(yàn)原理的理解有一定的難度.隨著現(xiàn)代科技的飛速發(fā)展,許多現(xiàn)代教學(xué)手段可以運(yùn)用到學(xué)生學(xué)習(xí)以及教師教學(xué)中來(lái).最流行的方法之一就是使用教學(xué)軟件來(lái)輔助教學(xué),展現(xiàn)統(tǒng)計(jì)的思想和方法,提高統(tǒng)計(jì)教學(xué)的效率.目前應(yīng)用最廣泛的教學(xué)軟件工具無(wú)疑是MATLAB、SPSS、SAS等商業(yè)軟件.由于在大學(xué)教育中我國(guó)越來(lái)越重視知識(shí)產(chǎn)權(quán),因此,教學(xué)單位若想將上述商業(yè)軟件應(yīng)用于日常教學(xué),必須有足夠的經(jīng)費(fèi)支持.然而,這對(duì)于自主學(xué)習(xí)的學(xué)生或教師來(lái)說(shuō)帶來(lái)了一定的困難.R軟件是由奧克蘭大學(xué)統(tǒng)計(jì)學(xué)系的Ross Ihaka和Robert Gentleman共同創(chuàng)立,它功能強(qiáng)大、操作簡(jiǎn)單,更重要的是它是一款完全免費(fèi)的統(tǒng)計(jì)分析軟件.R軟件提供了有彈性的、互動(dòng)的環(huán)境來(lái)分析和展示數(shù)據(jù),它一般用于統(tǒng)計(jì)建模、統(tǒng)計(jì)計(jì)算、數(shù)據(jù)處理等.R軟件還有一項(xiàng)很重要的功能,就是它包含了許多有用的程序包,到目前為止,R軟件官方網(wǎng)站就已經(jīng)提供了超過(guò)七千個(gè)程序包,涵蓋數(shù)理統(tǒng)計(jì)學(xué)、金融統(tǒng)計(jì)學(xué)、生物統(tǒng)計(jì)、經(jīng)濟(jì)管理、社會(huì)學(xué)等.其次,通過(guò)加載這些程序包可以讀取源代碼,并可以根據(jù)自己的需求改寫其源代碼得到適合新問(wèn)題的程序.因此,相比于商業(yè)軟件,R軟件在數(shù)據(jù)分析和統(tǒng)計(jì)建模等方面毫不遜色.因此,正是由于R軟件的獨(dú)特之處使得它特別適合輔助數(shù)理統(tǒng)計(jì)教學(xué)[3,4].
在實(shí)際問(wèn)題中大多數(shù)數(shù)據(jù)都服從或近似服從正態(tài)分布,所以,本文重點(diǎn)考慮如何利用R軟件實(shí)現(xiàn)單個(gè)正態(tài)總體均值的假設(shè)檢驗(yàn)直觀教學(xué)以及提高學(xué)生動(dòng)手操作的能力.
首先,我們回顧一下單個(gè)正態(tài)總體均值假設(shè)檢驗(yàn)的統(tǒng)計(jì)理論.根據(jù)假設(shè)檢驗(yàn)思想:若原假設(shè)成立導(dǎo)致了不合理的現(xiàn)象發(fā)生,則我們就應(yīng)該拒絕原假設(shè)否則接受原假設(shè),即通過(guò)限制犯第一類錯(cuò)誤的概率來(lái)求得拒絕域.設(shè)X1,…,Xn是來(lái)自N(μ,σ2)的一組獨(dú)立同分布樣本,現(xiàn)我們考慮如下的雙邊檢驗(yàn)問(wèn)題H0:μ=μ0,H1:μ≠μ0.
① 若方差σ2已知,因此,根據(jù)假設(shè)檢驗(yàn)的思想,我們有
(1)
(2)
② 若方差σ2未知,統(tǒng)計(jì)量Z中包含未知參數(shù)σ,因此,需要構(gòu)造新的統(tǒng)計(jì)量.根據(jù)抽樣分布定理,我們可知
再由t分布的定義知
下面我們通過(guò)一個(gè)例子來(lái)闡述單個(gè)正態(tài)總體均值的假設(shè)檢驗(yàn)問(wèn)題.
例1[5]正常男子血小板計(jì)數(shù)均值為225×109/L,今測(cè)得20名男性油漆作業(yè)工人的血小板計(jì)數(shù)值(單位:109/L)如下:220,188,162,230,145,160,238,188,247,113,126,245,164,231,256,183,190,158,224,175,問(wèn)油漆工人的血小板計(jì)數(shù)與正常成年男子有無(wú)差異?
解 根據(jù)題意需檢驗(yàn)
H0:μ=μ0=225,H1:μ≠μ0.
我們首先需要判定此組數(shù)據(jù)是否來(lái)自于正態(tài)分布,因此,我們采用Shapiro-Wilk(夏皮羅-威爾克)W統(tǒng)計(jì)量做正態(tài)性檢驗(yàn),相應(yīng)理論可參考文獻(xiàn)[5].在R軟件中可用shapiro.test命令來(lái)做檢測(cè),檢測(cè)結(jié)果如下:
shapiro.test(x)#x代表此組數(shù)據(jù)所構(gòu)成的向量
Shapiro-Wilk normality test
data:x
W=0.95063,p-value=0.3768
根據(jù)結(jié)果可知p-value=0.3 768>α=0.05,則可判定此組樣本來(lái)自于正態(tài)總體.又因?yàn)榇私M數(shù)據(jù)的方差未知,因此,采用t檢驗(yàn).針對(duì)這個(gè)檢驗(yàn)問(wèn)題本文編寫了一個(gè)程序來(lái)實(shí)現(xiàn),相應(yīng)的代碼和結(jié)果如下:
##編寫的單個(gè)正態(tài)總體均值假設(shè)檢驗(yàn)的代碼
normal.mean.test=function(x,mu0,sigma,alpha){
#x樣本觀測(cè)值;mu0均值;sigma標(biāo)準(zhǔn)差;alpha顯著性水平
n=length(x)#待測(cè)樣本個(gè)數(shù)
x.mean=mean(x)#計(jì)算樣本的均值
if(sigma=="known"){#判定總體方差是否已知,若已知?jiǎng)t做如下命令
Z=(x.mean-mu0)/(sigma/sqrt(n))#計(jì)算Z統(tǒng)計(jì)量
result=abs(Z)>qnorm(1-alpha)#計(jì)算拒絕域
if(pnorm(Z)<0.5){p.value=2*pnorm(Z)}else{
p.value=2*(1-pnorm(Z))}#計(jì)算p值
if(result=="TRUE")print("拒絕原假設(shè)")
list(Z=Z,p.value=p.value)#輸出結(jié)果
}else{#總體方差未知,做如下命令
x.var=sd(x)#計(jì)算樣本標(biāo)準(zhǔn)差
T=(x.mean-mu0)/(x.var/sqrt(n))#計(jì)算T統(tǒng)計(jì)量的值
if(pt(T,n-1)<0.5){p.value=2*pt(T,n-1)}else{
p.value=2*(1-pt(T,n-1))}#計(jì)算p值
result=abs(T)>qt(1-alpha,n-1)##計(jì)算拒絕域
if(result=="TRUE")print("拒絕原假設(shè)")
list(T=T,p.value=p.value)#輸出結(jié)果 }}
normal.mean.test(x,mu0=225,sigma="unknown",alpha=0.05)##調(diào)用所編寫的函數(shù)結(jié)果如下:
[1]"拒絕原假設(shè)"
$T
[1]-3.478262
$p.value
[1]0.002516436
一方面,從第一條結(jié)果可知我們應(yīng)該拒絕原假設(shè),即油漆工人的血小板計(jì)數(shù)與正常成年男子有顯著差異.另一方面,在顯著性水平是α=0.05的情況下,p-value=0.002 516 436<α=0.05,此結(jié)果也說(shuō)明應(yīng)該拒絕原假設(shè).另外,在R軟件中可以利用命令t.test來(lái)檢驗(yàn)方差未知的正態(tài)總體的均值檢驗(yàn),針對(duì)此例題調(diào)用t.test函數(shù)結(jié)果如下:
t.test(x,alternative="two.sided",mu=225)
One Sample t-test
data:x
t=-3.4783,df=19,p-value=0.002516
alternative hypothesis:true mean is not equal to 225
95 percent confidence interval:
172.3827 211.9173
sample estimates:
mean of x 192.15
此結(jié)果跟我們編寫normal.mean.test函數(shù)所得結(jié)果一致,即油漆工人的血小板計(jì)數(shù)與正常成年男子有顯著差異.
目前數(shù)理統(tǒng)計(jì)教學(xué)的理論抽象、公式復(fù)雜,因此,很多學(xué)生在學(xué)習(xí)這門課程時(shí)存在很多問(wèn)題,尤其對(duì)于假設(shè)檢驗(yàn)這一節(jié)的內(nèi)容.如能將R軟件引入假設(shè)檢驗(yàn)的教學(xué)中,不僅可以加深學(xué)生對(duì)假設(shè)檢驗(yàn)知識(shí)的理解,還可以使學(xué)生擺脫煩瑣的計(jì)算,從而很大程度上提高了學(xué)生處理數(shù)據(jù)的能力.本文結(jié)合實(shí)例,介紹了R軟件在單個(gè)正態(tài)總體的均值假設(shè)檢驗(yàn)中的具體應(yīng)用.首先,R軟件能夠直觀地畫(huà)出統(tǒng)計(jì)量的密度函數(shù)曲線圖,從而高效地解決假設(shè)檢驗(yàn)中很多教與學(xué)的問(wèn)題.其次,R軟件給我們提供了很多經(jīng)典的統(tǒng)計(jì)命令(如本文介紹的shapiro.test、t.test等),通過(guò)直接調(diào)用就能獲得相應(yīng)的統(tǒng)計(jì)分析結(jié)果.最后,當(dāng)代教師不僅要會(huì)講授教材上的理論知識(shí),還需利用統(tǒng)計(jì)軟件將理論知識(shí)與實(shí)踐相結(jié)合,從而促進(jìn)教師自身的學(xué)術(shù)造詣和實(shí)踐教學(xué)能力的提升.
[1]孫榮恒.應(yīng)用數(shù)理統(tǒng)計(jì)(第二版)[M].北京:科學(xué)出版社,2003.
[2]劉瓊蓀,鐘波,榮騰中,李曼曼.概率論與數(shù)理統(tǒng)計(jì)[M].北京:高等教育出版社,2014.
[3]趙軍,楊琳.R軟件在大學(xué)數(shù)學(xué)教學(xué)中的應(yīng)用探討[J].高教學(xué)刊,2016(7):93-95.
[4]程勝.R統(tǒng)計(jì)軟件及其在《時(shí)間序列分析》實(shí)踐教學(xué)中的應(yīng)用[J].教育教學(xué)論壇,2014(41):173-175.
[5]薛毅,陳立萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2007.
重慶師范大學(xué)基金項(xiàng)目資助(16XLB019).