黃詩哲 黃孝祥 覃秦
摘 要 本文通過對(duì)正態(tài)分布的起源、發(fā)展和不同學(xué)者的推導(dǎo)等三個(gè)方面,對(duì)正態(tài)分布進(jìn)行詳細(xì)的介紹,因?yàn)檎龖B(tài)分布作為具有劃時(shí)代意義的一個(gè)分布,現(xiàn)在很多的學(xué)生對(duì)它并不了解,很多有統(tǒng)計(jì)背景的專業(yè)的學(xué)生對(duì)正態(tài)分布的推導(dǎo)只知其然,而不知其所以然,這里有必要對(duì)該分布進(jìn)行一個(gè)詳細(xì)的介紹。
關(guān)鍵詞 正態(tài)分布 誤差分布 最小二乘法
中圖分類號(hào):O212.1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? DOI:10.16400/j.cnki.kjdks.2020.05.021
Abstract In this paper, the origin, development and derivation of normal distribution are introduced in detail, because normal distribution is a landmark distribution. Now many students don't know about it. Many students with statistical background only know the derivation of normal distribution, but don't know why. It is necessary to introduce the distribution in detail.
Keywords normal distribution; error distribution; least square method
如若向在大學(xué)里學(xué)過數(shù)理統(tǒng)計(jì)的學(xué)生或者大學(xué)里的老師、學(xué)者提出這樣一個(gè)問題:你認(rèn)為數(shù)理統(tǒng)計(jì)學(xué)中,哪一個(gè)概率分布是最重要的?那他們的回答一定是比較一致的:正態(tài)分布。不論是從它在實(shí)際應(yīng)用中作為描述數(shù)據(jù)的統(tǒng)計(jì)模型來說,還是從在理論上的作用來說,都很明顯的體現(xiàn)了這一點(diǎn)。從19世紀(jì)的統(tǒng)計(jì)學(xué)發(fā)展來看,正態(tài)分布一直處于主導(dǎo)地位,不同性質(zhì)和不同類型的數(shù)據(jù)均服從這個(gè)分布,使得許多學(xué)者在后期的研究中,感覺從混亂里找到了秩序和方向。這個(gè)分布的鐘型曲線形狀優(yōu)美、對(duì)稱,密度充滿了美感,進(jìn)行標(biāo)準(zhǔn)化以后的密度函數(shù)更加簡(jiǎn)潔,含有數(shù)學(xué)中的兩個(gè)重要常量。正態(tài)分布又稱高斯分析,所以人們很自然的認(rèn)為這個(gè)分布是由高斯發(fā)現(xiàn)的,但回顧歷史,我們不僅可以學(xué)習(xí)這個(gè)分布的詳細(xì)內(nèi)容,還可以從中找到這個(gè)分布的發(fā)展和推導(dǎo)過程,除了高斯,其它的很多有名的統(tǒng)計(jì)學(xué)家均做出了他們的貢獻(xiàn)。整個(gè)正態(tài)分布的發(fā)現(xiàn)完全可以看作是一篇跌宕起伏的歷史故事,下面一起來揭開它的真實(shí)面目。
1 正態(tài)分布的雛形
從棣莫弗推導(dǎo)的上式很明顯的可以看到,積分中的被積函數(shù)正是后世的標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù),這個(gè)結(jié)論也說明了二項(xiàng)分布近似等于正態(tài)分布,這種函數(shù)形式第一次被數(shù)學(xué)家以概率的二項(xiàng)分布推導(dǎo)出來。
不過在上述的公式中,棣莫弗只解決了在的情況,這個(gè)結(jié)果顯然太片面,這個(gè)公式發(fā)現(xiàn)40年后,拉普拉斯對(duì)進(jìn)行了研究,將這種二項(xiàng)分布近似于正態(tài)分布的情況推廣到了取任意值的時(shí)候,并得到了后來著名的棣莫弗-拉普拉斯中心極限定理,設(shè)隨機(jī)變量,則對(duì)任意的,總有
學(xué)習(xí)過概率統(tǒng)計(jì)的同學(xué)看到這里肯定會(huì)很奇怪,中心極限定理不是在正態(tài)分布講完以后才學(xué)習(xí)的嗎,都認(rèn)為沒有正態(tài)分布就沒有這個(gè)定理,但實(shí)際上,我們?cè)趯W(xué)習(xí)正態(tài)分布的時(shí)候,是直接給出的正態(tài)分布的密度函數(shù),有心的讀者應(yīng)該會(huì)對(duì)這個(gè)密度函數(shù)的由來比較好奇,而這個(gè)中心極限定理中出現(xiàn)的積分被積函數(shù)給出了正態(tài)分布發(fā)展到最終形態(tài)的雛形。既然是這樣,那正態(tài)分布怎么沒有以棣莫弗或者拉普拉斯的名字進(jìn)行命名呢?而是以高斯或者正態(tài)分布來稱呼,我們繼續(xù)進(jìn)行分析和推導(dǎo)。
2 正態(tài)分布的發(fā)展:誤差分布與最小二乘法
在上節(jié)中推導(dǎo)出的中心極限定理,已得到了正態(tài)分布的雛形,但是這個(gè)定理卻并沒有在統(tǒng)計(jì)學(xué)的應(yīng)用中發(fā)揮作用,只被認(rèn)為是一種數(shù)學(xué)表達(dá)式,而不是概率分布,從而沒有引起統(tǒng)計(jì)學(xué)界的重視。在18世紀(jì)末之前,天文學(xué)是應(yīng)用數(shù)學(xué)中最發(fā)達(dá)的領(lǐng)域,在天文學(xué)中,涉及到大量數(shù)據(jù)的測(cè)量和計(jì)算,而在計(jì)算和測(cè)量中產(chǎn)生誤差不可避免,天文學(xué)家為了解決誤差問題,一般是采用多次測(cè)量取平均的方式,這種方式因?yàn)槠渲庇^有效被使用了上百年。但是因?yàn)樘煳膶W(xué)家在不同環(huán)境、設(shè)備、人員進(jìn)行數(shù)據(jù)觀測(cè),差異在所難免,算術(shù)平均的合理性得到了很多學(xué)者的質(zhì)疑。辛普森(Thomas Simpson,1755)指出,在天文學(xué)界,很多學(xué)者算術(shù)平均并不可靠,而是應(yīng)該選擇那個(gè)“謹(jǐn)慎的觀測(cè)”所得到的值。不過他仍從數(shù)學(xué)方法上出發(fā),證明取算術(shù)平均這種方法具有更大的可信度。
這個(gè)公式可以看到正態(tài)密度函數(shù)的雛形,但在當(dāng)時(shí),對(duì)誤差的分析并沒有起到什么作用,尋找誤差分布的進(jìn)展甚微。
到1809年,高斯為了解決天體力學(xué)中的行星軌道計(jì)算問題,發(fā)表了數(shù)學(xué)與天體力學(xué)的名著《繞日天體運(yùn)動(dòng)的理論》,系統(tǒng)地給出了計(jì)算的數(shù)學(xué)方法,這個(gè)方法正是以正態(tài)誤差分布為基礎(chǔ)的最小二乘法。
高斯在這個(gè)過程中主要有兩個(gè)貢獻(xiàn),一是設(shè)被測(cè)量的變量真值為,變量的次觀測(cè)值為,概率;,其中為要求的誤差分布的密度函數(shù),然后求解使達(dá)到最大的作為的估計(jì)值,稱為樣本的似然函數(shù),稱為最大似然估計(jì)。
第二個(gè)貢獻(xiàn)是,高斯假設(shè)算術(shù)平均值作為的估計(jì),然后返回去再求概率分布函數(shù),而此時(shí)求得的,,才能使他的假設(shè)成立,這就是正態(tài)分布。
另外,使用這個(gè)正態(tài)誤差分布,分析誤差函數(shù),其中為觀測(cè)樣本數(shù)據(jù),根據(jù)高斯的最大似然估計(jì),求誤差密度的概率為,要使此概率為最大,只需式中的達(dá)到最小,這樣就得到了的最小二乘法。
高斯的這兩項(xiàng)創(chuàng)新對(duì)整個(gè)統(tǒng)計(jì)學(xué)的重要性不言而喻,不僅讓正態(tài)分布正式的以他名字命名,而且最小二乘法的發(fā)現(xiàn)也歸屬了高斯。拉普拉斯得到高斯的結(jié)論以后,對(duì)中心極限定理 進(jìn)行優(yōu)化,得到上面的最優(yōu)化形式,并對(duì)自己發(fā)表的論文進(jìn)行了補(bǔ)充,認(rèn)為誤差是很多原因產(chǎn)生的元誤差疊加而成,根據(jù)他的中心極限定理,高斯分析(正態(tài)分布)也成了所有其它分布在趨向無窮時(shí)的落腳點(diǎn)。在整個(gè)正態(tài)分布被發(fā)現(xiàn)的過程中,棣莫弗、拉普拉斯,高斯都做出了他們的貢獻(xiàn),他們的研究相互連接,使統(tǒng)計(jì)學(xué)成為一門和諧的整體,意義重大。
3 正態(tài)分布的不同推導(dǎo)
要了解正態(tài)分布的內(nèi)涵,必需有很深的概率論知識(shí),從棣莫弗和拉普拉斯以中心極限定理為路徑,把統(tǒng)計(jì)學(xué)領(lǐng)到正態(tài)分布的門口以后,很多的學(xué)者、統(tǒng)計(jì)學(xué)家、數(shù)學(xué)家、物理學(xué)家都通過不同的方法和路徑對(duì)正態(tài)分布進(jìn)行了推導(dǎo),下面我們就從三位具有影響力的學(xué)者的推導(dǎo)中體現(xiàn)正態(tài)分布的魅力。
3.1 高斯的推導(dǎo)
Maxwell在1860年,通過類似的假設(shè)和推導(dǎo)過程推出了氣體分子速率分布定律,這個(gè)定律中正好是三個(gè)正態(tài)分布的乘積,,Herschel-Maxwell的推導(dǎo)過程不同之處在于他們沒有依賴概率論,只是根據(jù)空間幾何的旋轉(zhuǎn)對(duì)稱性,而推導(dǎo)過程中的正是分布密度中的。
4 總結(jié)
算術(shù)平均公式作為統(tǒng)計(jì)計(jì)算的起點(diǎn),被使用了千百年,在這個(gè)公式的背后隱藏著一個(gè)宏大而美麗的世界,偉大的數(shù)學(xué)家們一代接一代不停歇的對(duì)它和它背后的世界進(jìn)行研究。在某個(gè)時(shí)間段,這個(gè)世界里的中心極限定理被發(fā)現(xiàn),棣莫弗和拉普拉斯是它的挖掘者,而這個(gè)定理最初只是滄海中的一粒沙塵,不過當(dāng)數(shù)學(xué)家們通過對(duì)它的精雕細(xì)琢,它最終顯現(xiàn)出它的光芒。算術(shù)平均的秘密被高斯在最大似然估計(jì)中實(shí)現(xiàn),從而推導(dǎo)出正態(tài)分布,這個(gè)分布的出現(xiàn)是數(shù)理統(tǒng)計(jì)史上具有里程碑意義的時(shí)刻,高斯的成就讓他有了數(shù)學(xué)之神的美譽(yù),后世的德國(guó)鈔票和鋼镚上通過印有正態(tài)密度曲線的圖形來紀(jì)念他,高爾頓曾說:我不曾見過像誤差正態(tài)分布這么美麗的曲線,它激發(fā)了人們無窮的想象力,它是無理性世界中的最高法律,當(dāng)我們從混亂的總體中抽取大量樣本,從小到大排序后,這個(gè)規(guī)律總會(huì)潛伏其中。這樣一個(gè)來自經(jīng)驗(yàn)直方圖和賭博游戲的規(guī)律,成了我們?nèi)粘I钪械囊徊糠?,無論在哪里,都能感受到他的存在,在大數(shù)據(jù)時(shí)代愈發(fā)明顯。
資助項(xiàng)目:長(zhǎng)江大學(xué)教學(xué)研究項(xiàng)目(JY2018030)
參考文獻(xiàn)
[1] 陳希孺.數(shù)理統(tǒng)計(jì)學(xué)簡(jiǎn)史[M].2002.
[2] 靳志輝.正態(tài)分布的前世今生,https://cosx.org/2013/01/story-of-normal-distribution-1
[3] 吳江霞.正態(tài)分布進(jìn)入統(tǒng)計(jì)學(xué)的歷史演化[D].河北師范大學(xué),2008.
[4] Kiseon Kim, Shevlyakov, G. Why Gaussianity?[J].Signal Processing Magazine IEEE,25(2):102-113.
[5] Bhattacharya R. A history of the central limit theorem: from classical to modern probability theory [book review of MR2743162][J].Magyar Seb閟zet,1956.
[6] Doob J L.[The Central Limit Theorem Around 1935]:Comment[J].1986.1(1):93-94.