国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

R語言在衛(wèi)生統(tǒng)計(jì)學(xué)均數(shù)抽樣分布教學(xué)中的應(yīng)用

2017-12-06 03:46高啟勝
浙江醫(yī)學(xué)教育 2017年4期
關(guān)鍵詞:均數(shù)樣本量標(biāo)準(zhǔn)差

高啟勝

(杭州醫(yī)學(xué)院,浙江 杭州 310053)

·教學(xué)研究與管理·

R語言在衛(wèi)生統(tǒng)計(jì)學(xué)均數(shù)抽樣分布教學(xué)中的應(yīng)用

高啟勝

(杭州醫(yī)學(xué)院,浙江 杭州 310053)

抽樣誤差和中心極限定理是衛(wèi)生統(tǒng)計(jì)學(xué)教學(xué)中的重點(diǎn)和難點(diǎn),純理論講授學(xué)生理解較為困難。利用Excel、SPSS、SAS等軟件雖然可以進(jìn)行隨機(jī)抽樣模擬試驗(yàn),但編程語言較為復(fù)雜。R語言能夠生動(dòng)形象地展現(xiàn)從不同總體中進(jìn)行隨機(jī)抽樣樣本均數(shù)的分布規(guī)律,有助于學(xué)生理解均數(shù)抽樣分布規(guī)律,提高教學(xué)效果。R語言具有豐富的統(tǒng)計(jì)函數(shù)和強(qiáng)大的繪圖功能等優(yōu)點(diǎn),在衛(wèi)生統(tǒng)計(jì)學(xué)各類常用統(tǒng)計(jì)量抽樣分布教學(xué)中有重要應(yīng)用價(jià)值。

R語言;衛(wèi)生統(tǒng)計(jì)學(xué);抽樣分布

由于個(gè)體變異的存在,在抽樣研究中產(chǎn)生樣本統(tǒng)計(jì)量和總體參數(shù)之間的差異或各樣本統(tǒng)計(jì)量之間的差異,稱為抽樣誤差。假設(shè)一個(gè)已知總體,從該總體中抽樣,對每個(gè)樣本計(jì)算統(tǒng)計(jì)量(均數(shù)、標(biāo)準(zhǔn)差等),觀察樣本統(tǒng)計(jì)量的分布規(guī)律稱為抽樣分布規(guī)律。抽樣誤差和抽樣分布是統(tǒng)計(jì)推斷的重要基礎(chǔ)理論,由于這一內(nèi)容比較抽象,也成為衛(wèi)生統(tǒng)計(jì)學(xué)教學(xué)的難點(diǎn)。近年來,R語言因其開源免費(fèi)、豐富的統(tǒng)計(jì)函數(shù)和模塊、靈活強(qiáng)大的繪圖功能等優(yōu)點(diǎn),在國內(nèi)外大學(xué)統(tǒng)計(jì)教學(xué)和科研中獲得廣泛應(yīng)用[1-3]。本文嘗試?yán)肦語言進(jìn)行樣本均數(shù)的隨機(jī)抽樣模擬試驗(yàn),形象地展示抽樣分布的規(guī)律以提高衛(wèi)生統(tǒng)計(jì)學(xué)教學(xué)效果。

1 函數(shù)模擬及程序

1.1 均數(shù)抽樣分布

分別設(shè)隨機(jī)變量X服從總體均數(shù)為5,標(biāo)準(zhǔn)差為2的正態(tài)分布,X~N(5,22);隨機(jī)變量Y服從總體均數(shù)和總體標(biāo)準(zhǔn)差為5的指數(shù)分布,Y~E(1/5); 隨機(jī)變量Z服從區(qū)間[1,9]上總體均數(shù)為5,總體標(biāo)準(zhǔn)差為2.3的均勻分布,Z~U(1,32)。運(yùn)用R語言編程進(jìn)行隨機(jī)抽樣實(shí)驗(yàn),參考程序如下:

表1 函數(shù)模擬參考程序

程序第1行設(shè)定圖形布局,按列順序繪圖,為4行3列。程序2-9行為編寫泛式sim.fun函數(shù),其中,m為模擬樣本次數(shù),X代表需模擬的多個(gè)函數(shù)。第10行定義函數(shù)X為從總體均數(shù)為5,標(biāo)準(zhǔn)差為2的正態(tài)分布中隨機(jī)抽樣的樣本均數(shù)。第15行定義函數(shù)Y為從總體均數(shù)和標(biāo)準(zhǔn)差為5的指數(shù)分布中隨機(jī)抽樣的樣本均數(shù)。第20號定義函數(shù)Z為從總體均數(shù)為5,標(biāo)準(zhǔn)差為2.3的均勻分布中隨機(jī)抽樣的樣本均數(shù)。第11-14行、16-19行、21-24行分別為按樣本含量為1、5、10、30模擬抽樣1000次的樣本均數(shù)的直方圖,結(jié)果見圖1。

抽樣實(shí)驗(yàn)小結(jié):當(dāng)n=1時(shí)抽樣分布可看作從總體中抽取的樣本量為1000的一個(gè)樣本,其頻數(shù)分布接近總體分布。從正態(tài)總體中隨機(jī)抽樣時(shí),樣本均數(shù)的分布仍呈現(xiàn)正態(tài)分布;從非正態(tài)總體中隨機(jī)抽樣(指數(shù)分布、均勻分布等),當(dāng)樣本含量足夠大時(shí),其樣本均數(shù)的分布逐漸逼近正態(tài)分布;樣本均數(shù)的均數(shù)位置始終在總體均數(shù)附近;隨著樣本量的增加,樣本均數(shù)的離散程度越來越小,表現(xiàn)為樣本均數(shù)的分布范圍越來越窄,其高峰越來越尖。

1.2 中心極限定理

圖1 從3個(gè)總體中抽取樣本量分別為1、5、10和30時(shí)樣本均數(shù)的分布

表2 從不同總體中以不同樣本量抽樣時(shí)樣本均數(shù)和樣本標(biāo)準(zhǔn)差的描述結(jié)果

表3 以相同樣本量從不同正態(tài)總體中抽樣時(shí)樣本均數(shù)和樣本標(biāo)準(zhǔn)差的描述結(jié)果

2 動(dòng)畫模擬及程序

在R語言中還可以運(yùn)用animation擴(kuò)展包進(jìn)行中心極限定理的動(dòng)畫模擬實(shí)驗(yàn)[4]。默認(rèn)從總體均數(shù)和標(biāo)準(zhǔn)差為1的指數(shù)總體分布中按給定的樣本量(n=1,…,100)重復(fù)抽樣300次分別計(jì)算樣本均數(shù),畫出樣本均數(shù)的直方圖和相應(yīng)的核密度估計(jì)曲線,同時(shí)運(yùn)用shapiro.test對均數(shù)分布進(jìn)行正態(tài)性檢驗(yàn),并把P值取出來畫在下半幅圖中。程序第1、2行為安裝和載入animation包。第3行為設(shè)置時(shí)間間隔0.1秒和模擬的最大樣本量100。第4行為設(shè)定下邊距和左邊距為4行,上邊距和右邊距分別為1行和0.5行。第5行為默認(rèn)進(jìn)行指數(shù)分布動(dòng)畫模擬,結(jié)果見圖2??梢姡?dāng)樣本量n超過20之后,P值會(huì)普遍偏大,可以認(rèn)為樣本均值的分布和正態(tài)分布比較接近。此外,可以通過修改clt.ani()函數(shù)的參數(shù),設(shè)定抽樣次數(shù)和總體分布。如模擬1000次總體均數(shù)為5,標(biāo)準(zhǔn)差為2的正態(tài)分布的抽樣實(shí)驗(yàn),可設(shè)定clt.ani(obs=1000,FUN=rnorm,mean=5,sd=2);模擬1000次總體均數(shù)為5,標(biāo)準(zhǔn)差為2.3的均勻分布的抽樣實(shí)驗(yàn),可設(shè)定clt.ani(obs=1000,FUN=runif,mean=5,sd=2.3)等。

表4 中心極限定理動(dòng)畫模擬參考程序

圖2 R語言動(dòng)畫模擬中心極限定理

3 討論

運(yùn)用R語言模擬樣本均數(shù)抽樣分布和中心極限定理的程序關(guān)鍵在于編寫一個(gè)隨機(jī)抽樣循環(huán)函數(shù),隨后則可以同時(shí)納入多個(gè)不同的總體分布。與以往運(yùn)用SPSS、SAS等商業(yè)統(tǒng)計(jì)軟件進(jìn)行模擬教學(xué)相比,運(yùn)用R語言主要有以下優(yōu)勢:(1)R語言為免費(fèi)開源軟件,不會(huì)引起版權(quán)爭議;(2)R編程有強(qiáng)大的繪圖功能,語言更加簡潔高效;(3)R語言除了圖形展示外,還定量地驗(yàn)證了樣本均數(shù)和標(biāo)準(zhǔn)差的變化規(guī)律;(4)利用R語言擴(kuò)展包可以動(dòng)態(tài)模擬并給出正態(tài)性檢驗(yàn)的P值。此外,R語言能夠繪制常用連續(xù)性分布和離散性分布概率密度和累計(jì)概率曲線,每一種分布均有4個(gè)函數(shù):d為密度函數(shù),p為累積概率密度函數(shù),q為分位數(shù)函數(shù),r為隨機(jī)數(shù)函數(shù)。利用隨機(jī)數(shù)函數(shù)可以從對應(yīng)分布總體中產(chǎn)生隨機(jī)樣本,進(jìn)行模擬抽樣實(shí)驗(yàn)??梢姡琑語言模擬抽樣分布在衛(wèi)生統(tǒng)計(jì)學(xué)教學(xué)中對幫助學(xué)生理解各類常用統(tǒng)計(jì)量的抽樣分布具有重要應(yīng)用價(jià)值。

[1]商豪,楊策平. 淺議 R 軟件在概率論與數(shù)理統(tǒng)計(jì)教學(xué)中的運(yùn)用[J].考試周刊, 2016,(4): 56-57.

[2]熊炳忠.基于R軟件的概率統(tǒng)計(jì)課程實(shí)驗(yàn)教學(xué)探析[J].學(xué)園,2015,(34): 52-54.

[3]張哲,張豪.淺談R語言在生物統(tǒng)計(jì)學(xué)教學(xué)中的應(yīng)用[J].教育教學(xué)論壇,2013, (27): 54-55.

[4]趙軍,楊琳.R 軟件在大學(xué)數(shù)學(xué)教學(xué)中的應(yīng)用探討[J].高教學(xué)刊,2016, (7): 93-95.

TheapplicationofRprogramminglanguageinthemeansampling

GAOQisheng

(Hangzhou Medical College, Hangzhou 310053, China)

Sampling error and central-limit theorem are the important and difficult points in Health Statistics teaching, and it is difficult for students to understand by spoon-feed teaching. Though random sampling simulation tests can be developed by Excel, SPSS, SAS, the programming language is relatively complex. The R programming language can vividly shows sample mean distribution pattern from different population at the same time, which can help stimulate students’ interests in leaning and improve classroom teaching effects. The R programming language provides a wealth of statistic functions and powerful drawing functions, which has important application value in the teaching process of different commonly used statistics sampling distribution of health statistics.

R programming; health statistics; sampling distribution

高啟勝(1984-),男,江西鄱陽人,碩士,講師。研究方向:社會(huì)醫(yī)學(xué)與衛(wèi)生統(tǒng)計(jì)學(xué)教學(xué)和研究

G642.0

B

1672-0024(2017)04-0001-05

distributionteachingofHealthStatistics

猜你喜歡
均數(shù)樣本量標(biāo)準(zhǔn)差
醫(yī)學(xué)研究中樣本量的選擇
訂正
樣本量估計(jì)及其在nQuery和SAS軟件上的實(shí)現(xiàn)*——均數(shù)比較(十一)
樣本量估計(jì)及其在nQuery和SAS軟件上的實(shí)現(xiàn)*——均數(shù)比較(十)
更 正
關(guān)于均數(shù)與偏差
關(guān)于均數(shù)與偏差
醫(yī)學(xué)科技論文中有效數(shù)字的確定
樣本量估計(jì)及其在nQuery和SAS軟件上的實(shí)現(xiàn)——均數(shù)比較(二)
談數(shù)據(jù)的變化對方差、標(biāo)準(zhǔn)差的影響