国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于R語言的 “統(tǒng)計學(xué)” 交互式教學(xué)探索

2022-12-02 04:59:44逵,譚
科教導(dǎo)刊 2022年27期
關(guān)鍵詞:樣本容量正態(tài)分布均值

潘 逵,譚 瑩

(華南農(nóng)業(yè)大學(xué)經(jīng)濟管理學(xué)院 廣東 廣州 510642)

統(tǒng)計學(xué)是經(jīng)濟管理類各專業(yè)的必修課程,隨著大數(shù)據(jù)時代的來臨,統(tǒng)計學(xué)作為理論基礎(chǔ)模塊地位越來越重要。對于高校而言,如何跟緊時代步伐,把握技術(shù)的脈搏,調(diào)整統(tǒng)計學(xué)的課程設(shè)計和教學(xué)方法,提升統(tǒng)計學(xué)課程的教學(xué)質(zhì)量,值得深入討論。

我院經(jīng)管類專業(yè)教師一般會根據(jù)個人特長選擇excel、spss、Eviews、stata等軟件之一進行教學(xué)。這樣在同一個學(xué)院選用不同的統(tǒng)計軟件進行教學(xué)不利于統(tǒng)計學(xué)和計量經(jīng)濟學(xué)課程教研活動的開展。而且傳統(tǒng)的軟件或者傳統(tǒng)的教學(xué)方式可能并不適合大數(shù)據(jù)環(huán)境下的統(tǒng)計學(xué)教學(xué)。統(tǒng)一使用一種流行且實用的統(tǒng)計軟件勢在必行。

相對于Eviews、Stata等購置成本較高的商業(yè)軟件,R軟件可以免費獲取。R是一個面向統(tǒng)計計算和圖形可視化的自由GNU軟件[1]。它提供了各種各樣的統(tǒng)計(線性和非線性模型,經(jīng)典統(tǒng)計測試,時間序列分析,分類,聚類等)和可視化方法,且高度可擴展,擁有大量可在線安裝使用的功能包,統(tǒng)計方法相對于商業(yè)軟件更新速度更快,還可以編寫實現(xiàn)自己的統(tǒng)計方法,有商業(yè)軟件不具備的靈活性[2]。

國外大學(xué)和科研機構(gòu)有相當一部分選擇R語言進行數(shù)據(jù)的分析處理。在2022年5月編程語言排行榜TIOBE中,R語言排第13位,高于MATLAB,SAS等統(tǒng)計學(xué)語言[3]。

基于以上因素,R語言適合融入統(tǒng)計學(xué)的教學(xué)中。我院也在綜合考察國內(nèi)外同類院校的教學(xué)方式和方法后,明確從2022年開始,統(tǒng)計學(xué)和計量經(jīng)濟學(xué)課程使用R語言進行教學(xué)。

1 R語言的shiny包

Shiny是R中的一個開源web開發(fā)框架,集成了bootstrap,ajax等特性。它將R的數(shù)據(jù)分析處理能力、可視化工作和web技術(shù)有機結(jié)合,用戶不需要精通前端知識,只需要了解基本的網(wǎng)頁知識即可以使用Shiny包快速搭建交互式的web應(yīng)用[4],進行數(shù)據(jù)可視化工作,展現(xiàn)自己的想法。

相對于其他統(tǒng)計軟件運行代碼,展示分析結(jié)果,Shiny應(yīng)用程序會自動刷新計算結(jié)果,這與電子鐘表的實時刷新類似。當用戶通過Shiny包提供的滑動條、單選框、文本輸入框等輸入控件修改輸入時,即可以改變函數(shù)或模型的輸入?yún)?shù),實時動態(tài)地刷新網(wǎng)頁,觀察不同輸入情況下的代碼運行結(jié)果;甚至可以動態(tài)模擬輸入輸出,展示動畫效果。

2 交互式教學(xué)平臺設(shè)計

統(tǒng)計學(xué)課程涉及較多概率論和數(shù)理統(tǒng)計的知識,對于經(jīng)濟管理類專業(yè)的文科背景學(xué)生而言,學(xué)習(xí)相關(guān)知識比較吃力[5]。這里基于Shiny的交互性特點,使用R的Shiny包搭建交互式教學(xué)平臺,實現(xiàn)統(tǒng)計學(xué)各個知識點,展示統(tǒng)計學(xué)的抽象理論和分析流程,更利于加深學(xué)生對知識的理解。

統(tǒng)計學(xué)課程主要分為描述性統(tǒng)計和推斷性統(tǒng)計兩大部分。描述性統(tǒng)計是對總體特征的概括,包括平均值、中位數(shù)、分位數(shù)、眾數(shù)、極差和方差等,學(xué)生理解起來相對容易。推斷性統(tǒng)計是現(xiàn)代統(tǒng)計學(xué)的主要研究組成,是通過分析樣本的特征來推斷總體特征情況的方法,特別是基本的理論和定理比較晦澀,難以理解需要轉(zhuǎn)變傳統(tǒng)思維方式來處理問題。我們對統(tǒng)計學(xué)各個知識點進行梳理,把難以理解的推斷統(tǒng)計的部分內(nèi)容進行了交互式實現(xiàn),讓學(xué)生可以直觀感受,加深理解。

交互式平臺的具體內(nèi)容包括抽樣分布理論、參數(shù)估計、假設(shè)檢驗、簡單線性回歸四個組成部分。抽樣分布理論是推斷統(tǒng)計的基礎(chǔ),而抽樣分布理論的基石是大數(shù)定律和中心極限定理。本文以這兩個知識點為例,介紹如何開展統(tǒng)計學(xué)課程的交互式教學(xué)。

2.1 大數(shù)定律的交互式仿真實現(xiàn)

大數(shù)定律是研究隨機現(xiàn)象統(tǒng)計性規(guī)律的一類定理。描述在隨機事件的大量重復(fù)試驗中,呈現(xiàn)出的幾乎必然的統(tǒng)計規(guī)律。當我們大量重復(fù)相同的實驗時,其最后的結(jié)果穩(wěn)定在某一數(shù)值附近。以伯努利大數(shù)定律為例,設(shè)k為n重伯努利實驗中事件A發(fā)生的次數(shù),p為事件A在每次實驗中發(fā)生的概率,則對任意給定的實數(shù)>0,有 成立。即n趨向于無窮大時,事件A在n重伯努利事件中發(fā)生的頻率k/n無限接近于事件A在一次實驗中發(fā)生的概率p[6]。通俗地說,這個定律是指在試驗前提不變的條件下,隨著試驗次數(shù)的增加,隨機事件的頻率慢慢趨于穩(wěn)定,最后穩(wěn)定在它的概率附近。因為隨機事件的概率往往無法準確測量,但我們可以通過大量試驗計算得到的頻率來估計概率。為了讓學(xué)生對大數(shù)定律有直觀印象,在講解定義和理論的同時通過交互式平臺模擬投擲硬幣和投擲骰子兩個隨機試驗。投擲硬幣試驗中,1代表硬幣正面,2代表硬幣反面。根據(jù)古典概型知道正反面出現(xiàn)的概率各為50%,系統(tǒng)對投擲硬幣進行概率為50%的隨機抽樣,通過調(diào)節(jié)滑動條選擇試驗次數(shù)n,模擬多次投擲硬幣并計算不同投擲次數(shù)下 “1” 出現(xiàn)的頻率,關(guān)鍵代碼為:

在交互式仿真平臺中我們通過滑動條選擇不同的投擲次數(shù),觀察試驗結(jié)果。從圖1中(p119)可以看到,曲線為頻率的連接線,直線為頻率的線性回歸擬合線,當選擇試驗次數(shù)為200次時,由于試驗次數(shù)較少,出現(xiàn)正面的頻率波動較大,頻率并沒有收斂到概率;實驗次數(shù)少于30次時,出現(xiàn)為正面的頻率甚至超過65%,與出現(xiàn)正面概率的差異較大。從圖2中可以看到,當選擇進行10000次投擲硬幣試驗時,圖形顯示投擲次數(shù)大于2500次后,出現(xiàn)正面的頻率波動就變得較小,在0.5附近波動,投擲次數(shù)超過5000次后,頻率在0.5上下小幅度波動,可以認為頻率開始慢慢收斂,當超過7500次時基本穩(wěn)定在50%,可以認為出現(xiàn)正面的頻率約等于出現(xiàn)正面的概率。此外,點擊滑動條右側(cè)的播放按鈕可以生成動畫,展示隨著試驗次數(shù)增加頻率變動的情況。通過上述交互式過程,學(xué)生可以直觀體驗到大數(shù)定律的含義;也可以自行操作,選擇不同的輸入?yún)?shù),觀察大量試驗下的必然事件,頻率會慢慢收斂到概率。

2.2 中心極限定理的交互式仿真實現(xiàn)

中心極限定理是討論相互獨立的n個隨機變量組合成的統(tǒng)計量正態(tài)或近視正態(tài)分布的性質(zhì)[7]。它指出不論隨機變量x是連續(xù)型還是離散型,也不論x服從何種分布,一般只要樣本容量大于30,當抽樣次數(shù)趨于無窮時,就可認為x均值的抽樣分布服從正態(tài)分布或近似服從正態(tài)分布。與大數(shù)定律描述隨機變量均值和頻率的期望不同,中心極限定理描述的是隨機變量均值的抽樣分布。本文根據(jù)總體分布的不同,進行k次樣本容量為n的隨機抽樣,繪制樣本均值的分布直方圖和擬合密度曲線,計算抽樣分布的均值和方差,檢驗樣本均值的正態(tài)性。隨機抽樣和樣本均值計算函數(shù)如下:

利用R的ggplot2包繪制直方圖和擬合密度曲線:

ggplot(data=df,mapping=aes(x=xbar,y=..density..))+geom_histogram(bins=50,alpha=0.5)+geom_density(color="red")

通過三個輸入控件,我們選擇不同的參數(shù)進行模擬。從圖3中可以觀察到樣本均值分布的直方圖,黑色線條為擬合的密度曲線;當選擇均值為1的指數(shù)分布總體、樣本容量為30,抽樣100次時,產(chǎn)生100個樣本均值數(shù)據(jù),對數(shù)據(jù)分布進行可視化和正態(tài)QQ圖驗證,其分布存在兩個波峰并不服從正態(tài)分布。當選擇均值為1的指數(shù)分布總體、樣本容量為75、抽樣2600次時,詳見圖4(p121),產(chǎn)生2600個樣本均值數(shù)據(jù),可以認為數(shù)據(jù)量較大,這時樣本均值的均值為0.9962247,與總體均值1非常接近;從正態(tài)QQ圖中看出樣本均值數(shù)據(jù)基本服從正態(tài)分布;樣本均值的分布曲線近似均值為1正態(tài)分布。所以可以得出從指數(shù)分布總體中抽樣,在大樣本容量和大量抽樣的前提下,樣本均值的分布是正態(tài)分布。

通過交互式平臺可以選擇指數(shù)分布、均勻分布、標準正態(tài)分布、柯西分布、邏輯分布五類不同的總體分布數(shù)據(jù)。再通過滑動輸入條指定不同的樣本容量和抽樣次數(shù)進行試驗,觀察不同輸入組合條件下樣本均值的抽樣分布是否服從正態(tài)分布,得以驗證中心極限定理的特性。

3 結(jié)語

傳統(tǒng)講授統(tǒng)計學(xué)知識的方式一般是講定理與舉例子,主角是教師。與傳統(tǒng)講授統(tǒng)計量理論教學(xué)方式不同,本文探索了一種新的交互式教學(xué)方法,利用R的shiny包實現(xiàn)的教學(xué)平臺在教師講解理論知識的同時,可以同步進行知識的演示;同時學(xué)生根據(jù)各自理解的不同進行不同的操作,觀察結(jié)果的變化,加深對知識的理解。該平臺涵蓋了推斷統(tǒng)計的主要內(nèi)容,實現(xiàn)師生的互動,為相關(guān)知識點的教學(xué)提供了新的方法和手段。

由于該平臺是用R語言實現(xiàn)的,與統(tǒng)計學(xué)課程所采用的教學(xué)語言是統(tǒng)一的,教師可以選擇公開底層源代碼供學(xué)生學(xué)習(xí)。這樣學(xué)生不但可以獲得學(xué)習(xí)R語言知識的機會,還可以把統(tǒng)計理論知識和R語言融會貫通。此外,R的Shiny包提供的是一種數(shù)據(jù)可視化和交互性方法,學(xué)生學(xué)習(xí)掌握后可以在項目實踐和工作中向第三方展示自己的分析成果。

猜你喜歡
樣本容量正態(tài)分布均值
采用無核密度儀檢測壓實度的樣本容量確定方法
基于對數(shù)正態(tài)分布的出行時長可靠性計算
正態(tài)分布及其應(yīng)用
均值不等式失效時的解決方法
均值與方差在生活中的應(yīng)用
正態(tài)分布題型剖析
χ2分布、t 分布、F 分布與正態(tài)分布間的關(guān)系
關(guān)于均值有界變差函數(shù)的重要不等式
對偶均值積分的Marcus-Lopes不等式
廣義高斯分布參數(shù)估值與樣本容量關(guān)系
測繪通報(2013年2期)2013-12-11 07:27:44
绥中县| 麟游县| 天津市| 吕梁市| 昌宁县| 娄底市| 大连市| 南宁市| 政和县| 三原县| 霸州市| 芦溪县| 泸水县| 东港市| 永兴县| 马关县| 平安县| 丰城市| 建平县| 顺义区| 安图县| 星子县| 永福县| 连州市| 普宁市| 永泰县| 仁布县| 资溪县| 化德县| 阿瓦提县| 汽车| 措勤县| 齐河县| 依兰县| 双峰县| 呼图壁县| 濮阳县| 黄大仙区| 海兴县| 二连浩特市| 海淀区|