黃新 王夢(mèng)賢 周密
[摘 要] 在信息化和大數(shù)據(jù)背景下,統(tǒng)計(jì)學(xué)實(shí)驗(yàn)教學(xué)中引入一種合適的統(tǒng)計(jì)軟件就變得十分重要。針對(duì)R軟件的優(yōu)勢(shì)和統(tǒng)計(jì)學(xué)課程的特點(diǎn),結(jié)合具體案例,探討了R軟件在統(tǒng)計(jì)實(shí)驗(yàn)教學(xué)實(shí)踐中的應(yīng)用,以此激發(fā)學(xué)生學(xué)習(xí)和使用R軟件的興趣,提高統(tǒng)計(jì)學(xué)的教學(xué)質(zhì)量。
[關(guān) 鍵 詞] R軟件;統(tǒng)計(jì)學(xué);實(shí)驗(yàn)教學(xué)
[中圖分類號(hào)] G642 [文獻(xiàn)標(biāo)志碼] A [文章編號(hào)] 2096-0603(2018)13-0068-02
統(tǒng)計(jì)學(xué)是高等學(xué)校許多專業(yè)的一門重要專業(yè)基礎(chǔ)課,結(jié)合近年我們統(tǒng)計(jì)學(xué)實(shí)驗(yàn)教學(xué)經(jīng)驗(yàn),以自由免費(fèi)的R軟件為工具,使用案例式教學(xué),讓學(xué)生從案例中真正體驗(yàn)統(tǒng)計(jì)分析數(shù)據(jù)的整個(gè)過程,提高統(tǒng)計(jì)學(xué)的教學(xué)質(zhì)量。
一、統(tǒng)計(jì)學(xué)課程
統(tǒng)計(jì)學(xué)是一門關(guān)于數(shù)據(jù)的搜集、分析、展示和解釋的科學(xué),其研究?jī)?nèi)容包括描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)兩大類。描述統(tǒng)計(jì)主要是對(duì)現(xiàn)象進(jìn)行調(diào)查,將得到的大量數(shù)據(jù)加以整理、簡(jiǎn)縮,制成統(tǒng)計(jì)圖表,并就這些數(shù)據(jù)的分布特征計(jì)算出一些概括性的數(shù)字。推斷統(tǒng)計(jì)是指利用樣本資料推斷總體特征的技術(shù)和方法,是在觀察資料的基礎(chǔ)上深入地分析、研究和推斷,以推知資料本身以外的情況和數(shù)量關(guān)系,為進(jìn)行決策提供數(shù)據(jù)依據(jù)。主要有參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩種類型。
二、R軟件的優(yōu)勢(shì)
R軟件屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件,由新西蘭奧克蘭大學(xué)的Robert Gentleman 和Ross Ihaka及志愿者共同開發(fā)的一種計(jì)算環(huán)境。R軟件在網(wǎng)站上可以自由下載,安裝簡(jiǎn)單。R軟件擁有大量的統(tǒng)計(jì)程序包和統(tǒng)計(jì)計(jì)算函數(shù),更新速度快,具有強(qiáng)大的數(shù)據(jù)處理能力和豐富的圖形展示功能。許多統(tǒng)計(jì)方法和技術(shù)都可以在R軟件中實(shí)現(xiàn),如參數(shù)估計(jì)、假設(shè)檢驗(yàn)、多元統(tǒng)計(jì)分析等。學(xué)生只需要根據(jù)實(shí)際問題,編寫和調(diào)用相應(yīng)的函數(shù),便可靈活地進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,甚至創(chuàng)造出新的統(tǒng)計(jì)計(jì)算方法。
三、R軟件的統(tǒng)計(jì)學(xué)實(shí)驗(yàn)教學(xué)案例分析
R軟件是模擬實(shí)驗(yàn)與統(tǒng)計(jì)計(jì)算的有力工具,把R軟件引入統(tǒng)計(jì)學(xué)教學(xué)中,將那些枯燥難懂的統(tǒng)計(jì)理論與有趣的統(tǒng)計(jì)實(shí)踐工作聯(lián)系起來(lái),使統(tǒng)計(jì)理論教學(xué)變得妙趣橫生,從而大大提高學(xué)生的學(xué)習(xí)積極性和教學(xué)效率。
(一)R軟件在數(shù)據(jù)描述統(tǒng)計(jì)實(shí)驗(yàn)教學(xué)中的應(yīng)用
數(shù)據(jù)描述統(tǒng)計(jì)是通過計(jì)算統(tǒng)計(jì)量與繪制統(tǒng)計(jì)圖表等方法,可以更加直觀、方便地表述數(shù)據(jù)的分布特征。
1.產(chǎn)生模擬100名學(xué)生統(tǒng)計(jì)學(xué)(Score1)、線性代數(shù)(Score2)兩門課程的期末考試成績(jī)。
>Xuehao=seq(1609001,1609100)# 生成100名學(xué)生的學(xué)號(hào)(1609001至1609100)
>set.seed()#用于設(shè)定隨機(jī)數(shù)種子
>Score1=round(rnorm(100,mean=70,sd=15))#生成均值為80,標(biāo)準(zhǔn)差為5的100個(gè)正態(tài)分布的隨機(jī)整數(shù) 48 94 56 56 40 66 65 61 68 …… 55 83 72 86 65 77 60 66 55
>Score2=round(runif(100,min=40,max=100))#生成區(qū)間為[40,100]的100個(gè)均勻分布的隨機(jī)整數(shù) 54 70 49 47 80 88 94 65 86 80 ……75 60 84 57 44 41 88 77 52
>X=data.frame(Xuehao,Score1,Score2)#將期末考試成績(jī)匯總,生成數(shù)據(jù)框
>Zmean=colMeans(X)[c(“Score1”,“Score2”)]#求兩門課程期末考試的平均成績(jī)
>Zmean Score1 69.52 Score2 68.76
>Zscore=apply(X[c(“Score1”,“Score2”)],1,sum)#求每位學(xué)生三門課程成績(jī)的總分
>Zscore 92 183 153 112 90 108 116 139 1 ……134 161 135 163 122 125 116。
2.數(shù)據(jù)描述統(tǒng)計(jì)中的幾種常用圖形
(1)直方圖 >par(mfrow=c(1,2))如圖1。
>Tjx=hist(X$Score1,main=“統(tǒng)計(jì)學(xué)期末考試成績(jī)”,col=“12”,xlab=“分?jǐn)?shù)”)
>Xxds=hist(X$Score2,main=“線性代數(shù)期末考試成績(jī)”,col=“12”,xlab=“分?jǐn)?shù)”)
統(tǒng)計(jì)學(xué)期末考試成績(jī) 線性代數(shù)期末考試成績(jī)
(2)餅圖 >par(mfrow=c(1,2))
>lab=c(“40以下”,“40~50”,“50~60”,“60~70”,“70~80”,“80~90”,“90以上”)
>pct1=round(Tjx$counts/sum(Tjx$counts)*100)>label1=paste(lab,“ ”,pct1,“%”,sep=“ ”)>pie (Tjx$counts,col=rainbow(length(lab)),labels=label1, ,cex=0.6)
>pct2=round(Xxds$counts/sum(Xxds$counts)*100) > lab3=c(“50以下”,“50~60”,“60~70”,“70~80”,“80~90”,“90以上”)>label2=paste(lab3,“ ”,pct2,“%”,sep=“ ”)
>pie(Xxds$counts,col=rainbow(length(lab)),labels=lab-el2,cex=0.6),如圖2。
(3)箱線圖 >boxplot(X$Score1,X$Score2,names=c(“統(tǒng)計(jì)學(xué)期末考試成績(jī)”,“線性代數(shù)期末考試成績(jī)”),col=c(2,3))如圖3。
(二)R軟件在推斷統(tǒng)計(jì)實(shí)驗(yàn)教學(xué)中的應(yīng)用
推斷統(tǒng)計(jì)是根據(jù)樣本資料以推斷總體特征的技術(shù)和方法,主要有參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩種類型。在R中包含了許多常用參數(shù)及非參數(shù)檢驗(yàn)方法。例如,某學(xué)生12次測(cè)量自己的身高(單位:cm)為172,170,173,172,174,170,171,173,172,175,172,171。
希望估計(jì)一下他的身高,求身高的置信水平為95%的置信區(qū)間。
這是一個(gè)區(qū)間估計(jì)問題,利用R軟件中的t.test()檢驗(yàn)函數(shù)可以很快求得結(jié)果。
>X=c(172,170,173,172,174,170,171,173,172,175,172,171)
>t.test(X)輸出One Sample t-test t = 396.08,df = 11,p-value < 2.2e-16
95 percent confidence interval: 171.1271 173.0396 mean of x 172.0833
因此,身高的置信水平為95%的置信區(qū)間為(171.13,173.04)。
例如,有15個(gè)地區(qū)某種食物年需求量(X,單位:10噸)與地區(qū)人口增加量(Y,單位:千人)的資料,請(qǐng)對(duì)數(shù)據(jù)資料進(jìn)行統(tǒng)計(jì)分析。
分析過程如下:輸入數(shù)據(jù),畫出散點(diǎn)圖,觀察數(shù)據(jù)的分布趨勢(shì)。
>X=c(274,180,375,205,86,265,98,330,195,53,430,362,
236,157,370)
>Y=c(162,120,223,131,67,169,81,192,116,55,252,234,
144,103,212)
>Data= data.frame(X,Y) > plot(Data$X, Data$Y, pch=19, col = “blue”, xlab=“X”, ylab=“Y”)。從運(yùn)行結(jié)果來(lái)看(圖4),這些點(diǎn)基本上在一條直線附近波動(dòng)。于是利用R軟件中的lm()函數(shù)進(jìn)行回歸分析。
>model=lm(Y~X) > abline(model) > summary(model)
Estimate Std. Error tvalue Pr(>|t)
(Intercept) 22.31158 4.53720 4.917 0.000281 ***
X 0.53272 0.01707 31.216 1.3e-13 ***
Signif. codes: 0 ‘*** 0.001 ‘** 0.01 ‘* 0.05 ‘. 0.1 ‘ 1
Multiple R-squared: 0.9868, Adjusted R-squared: 0.9858
F-statistic: 974.4 on 1 and 13 DF, p-value: 1.304e-13
這樣求得了回歸直線方程Y=22.31158+0.53272,由相關(guān)系數(shù)的平方R2,和F分布的p值為1.304x10-13,表明回歸方程是非常顯著的。
四、結(jié)語(yǔ)
通過幾個(gè)R軟件的實(shí)驗(yàn)教學(xué)案例,可以看出R軟件簡(jiǎn)單易學(xué),統(tǒng)計(jì)功能強(qiáng)大。R軟件能夠?qū)⒊橄蟮慕y(tǒng)計(jì)概念轉(zhuǎn)化為具體的圖形,增加了教學(xué)的直觀性,利用R軟件豐富的擴(kuò)展資源進(jìn)行案例教學(xué),切實(shí)提高了學(xué)生統(tǒng)計(jì)分析處理數(shù)據(jù)的能力,從而培養(yǎng)適應(yīng)大數(shù)據(jù)時(shí)代的綜合性和應(yīng)用型統(tǒng)計(jì)人才。