李麗潔 潘偉權 尹譽銘
摘要:概率論理解的關鍵在于理解各個概念之中的隨機性,本文借助于統(tǒng)計學中最常用的R軟件,把概率論中的最基本的幾個概念進行可視化,揭示這些概念中隨機性的本質(zhì),使學生能更容易理解并掌握,減少概率論學習的困難程度,激發(fā)學習者學習概率論的興趣,提高學習效率。
關鍵詞:R語言;可視化;概率論
1引言
概率論是一門研究隨機現(xiàn)象的數(shù)學學科[1],無論是自然科學、社會經(jīng)濟學、工程技術學還是與之密切相關的統(tǒng)計學等相關專業(yè)的學生都需要進行概率論這門課程的學習。因此探討如何在教學過程中將概率論的理論知識以一簡明易懂的方式進行教學具有十分重要的現(xiàn)實意義[2]。R 語言是一款免費、開源的程序軟件。它由新西蘭奧克蘭大學的Robert Gentleman和Ross Ihaka及其他志愿人員共同開發(fā)。它主要用于統(tǒng)計分析、數(shù)據(jù)挖掘以及數(shù)據(jù)可視化[3]。相對其他同類軟件,它的特色在于: 有效的數(shù)據(jù)處理和保存機制,完整的數(shù)組和矩陣計算操作符,連貫而又完整的數(shù)據(jù)分析工具,圖形工具可以對數(shù)據(jù)直接進行分析和展示,同時可用于多種圖形設備。它不僅擁有在數(shù)據(jù)分析方面的多種算法,復雜數(shù)據(jù)分析方面的速度相較于其他同類軟件也毫不遜色,而且其語言也十分簡明易懂,十分利于學生學習[4]。因此利用R語言把概率論中重要的概念可視化,具有重要的現(xiàn)實意義。
因為概率論的知識點較多,本文只介紹最具代表性的大數(shù)定律和中心極限定理來介紹R語言用于可視化這些概念的作用。
2 大數(shù)定律R語言可視化
大數(shù)定律可以簡單理解為通過大量的重復試驗,事物出現(xiàn)的頻率就能無限逼近其出現(xiàn)的概率的法則[5]。根據(jù)大數(shù)定律我們可以知道,實驗只有重復的次數(shù)足夠多才能反映真實的概率,樣本數(shù)量越多,事物出現(xiàn)的頻率就越有機會接近其期望值。大數(shù)定律可分為強大數(shù)定律與弱大數(shù)定律。所謂強大數(shù)定律,就是說在極限情況下可以完全肯定的知道樣本的概率平均值可以收斂到預期值。而弱大數(shù)定律是說明在極限條件下,我們所得到的樣本概率平均值無限逼近于總體期望值,但不會等于總體的期望值,而在總體期望值的極小范圍內(nèi)波動。
以拋硬幣為例,記正面在上為事件A,在n次同條件的試驗中,事件A發(fā)生的總次數(shù)為,那么事件A發(fā)生的頻率就是。當試驗重復的次數(shù)n足夠多時,如下圖:
可以看出,在試驗次數(shù)小于的時候,事件A發(fā)生的頻率波動大,當重復試驗次數(shù)達到后,事件A發(fā)生的頻率趨于穩(wěn)定,達到0。5的穩(wěn)定值,而0。5就是基于伯努利試驗的事件A發(fā)生的概率,因此可以知道,當實驗次數(shù)很大時,可以用事件發(fā)生的頻率來代替事件的概率,辛欽大數(shù)定律[6] 假設為獨立同分布的隨機變量序列,若的數(shù)學期望存在,則服從大數(shù)定律,即對任意的,成立。容易得知服從柯西分布的隨機數(shù)列的期望不存在。以柯西分布為例:
可以看出,隨著試驗次數(shù)的增加,服從柯西分布的隨機數(shù)列并沒有明顯的收斂趨勢。且其波動性也比較大。相對的以期望存在的泊松分布、正態(tài)分布作為對比:
可以看出,服從泊松分布的隨機數(shù)列隨著樣本數(shù)量的增加,樣本均值逐漸向其總體均值靠近的趨勢。接下來看正態(tài)分布的均值情況:
可以看出,正態(tài)分布的均值也是服從辛欽大數(shù)定律的。在三種分布中,柯西分布由于期望不存在而不服從辛欽大數(shù)定律。由此我們可以知道,大數(shù)定律不意味著樣本數(shù)據(jù)量足夠大就一定服從,在隨機數(shù)列分布不存在的情況下,是否服從大數(shù)定律還需要進一步討論。
3 中心極限定律可視化
所謂中心極限定理,就是指隨機變量的序列部分與分布逐漸趨近于正態(tài)分布的定理。根據(jù)中心極限定理,我們可以知道隨機變量趨近于正態(tài)分布的條件。中心極限定理分為獨立同分布的中心極限定理以及獨立不同分布的中心極限定理[6]。
所謂獨立同分布是指各隨機變量(,……)獨立同分布,具有有限的數(shù)學期望與方差:E()=,D()=(k=1,2。。。。),則對任意函數(shù),其分布函數(shù):
該定理說明,當n很大時,隨機變量近似地服從標準正態(tài)分布N(0,1)。因此,近似地服從正態(tài)分布N(,n).該定理是中心極限定理最簡單又最常用的一種形式,在實際工作中,只要n足夠大,便可以把獨立同分布的隨機變量之和當作正態(tài)變量。這種方法在數(shù)理統(tǒng)計中用得很普遍,當處理大樣本時,它是重要工具。 為證明這一理論,可以先用一個簡單的例子來對中心極限定理進行一個輪廓上的理解。首先產(chǎn)生一個總體,如圖所示:
從圖中我們可以知道,這是一個均值為1.14,方差為0.61,呈右偏分布的總體。其次,為使對比能更加明顯,先從中抽取數(shù)據(jù)量較少的樣本數(shù)據(jù):2個樣本數(shù)量,每個樣本中有25個數(shù)據(jù)。
此時的樣本分布形態(tài)不明顯,雜亂無章,均值為1.23,方差為0.4。再加大樣本量:選擇110個樣本數(shù)量,每個樣本中有241個數(shù)據(jù):
可以看出,此時的樣本分布形態(tài)已經(jīng)初步有了正態(tài)分布的形態(tài),均值為1。13。
為了更好的理解,再選擇一個總體:
可以看出,總體是一個呈左偏的分布形態(tài),其均值為0.71,方差為0.16。從該總體中抽出30個樣本,其中每個樣本有100個數(shù)據(jù),查看此時的分布形態(tài):
可以看出,此時該樣本逐漸有了正態(tài)分布的形態(tài)。均值為0,72,方差為0.05再加大樣本量:
可以發(fā)現(xiàn),樣本的分布形態(tài)和正態(tài)分布越來越接近,而在樣本數(shù)據(jù)量逐漸增多的過程中,樣本均值與總體均值的誤差也始終在總體均值附近浮動,而樣本方差也在逐漸減小。通過以上兩個來自不同總體的抽樣分布,可以看出,無論總體服從什么分布,樣本的均值總在總體均值的附件浮動。
4 結(jié)語
隨著大數(shù)據(jù)時代的快速發(fā)展,社會對統(tǒng)計分析人員的數(shù)據(jù)處理能力提出了越來越高的要求。在目前的大數(shù)據(jù)行業(yè),盛行的模型以及框架等越來越多,對于結(jié)果的預測精度要求也越來越高,這使得相關專業(yè)的學生學習好概率論成為勢在必行的事情。而基于概率論的的數(shù)據(jù)分析模型、框架等越來越細密、繁復。書本里的理論知識可以為學生提供的大量信息的基礎,卻缺乏可以提供的圖形表達和模擬來增強理解與動手實踐能力。簡單的技術和傳統(tǒng)的黑板教學無法再滿足學生未來發(fā)展的需求。因此,使用R語言的可視化模塊來幫助概率論的教學或許能為學習概率論的學生開辟一條更富有效率的捷徑。利用R語言的可視化模塊將抽象概念轉(zhuǎn)化為簡潔的形象,可提高課堂效率,拓寬師生之間的溝通平臺。在概率論教學中,展示實驗過程和近似過程的動態(tài)過程可以加深對學生知識的理解,激發(fā)他們的想象力。從而促進反思,最終掌握知識,也為未來的進一步學習提供靈感的來源與動力。
參考文獻:
[1]茆詩松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計教程[M].北京:高等教育出版社,2011:93-117,229-246.
[2]樊亞莉.應用數(shù)學專業(yè)概率論實驗課程的教學設計與思考[J].上海理工大學學報:社會科學版,2018(04):89-92.
[3]安麗霞,盧丑麗,燕揚.初探R軟件在獨立院校概率論與數(shù)理統(tǒng)計教學中的應用[J].大學教育,2018(09):102-104.
[4]曹麗,張莉.基于R的概率統(tǒng)計直觀教學展示[J].大學數(shù)學,2017(04):33-47.
[5]拉窮.論獨立隨機序列的大數(shù)定律與中心極限定理及其應用[D].西南交通大學,2007.
[6]何江妮.淺談中心極限定理及其應用[J].數(shù)學學習與研究,2014(17):93.