(廣東財經(jīng)大學 廣東 廣州 510320)
以往的所有課程中,對于參數(shù)統(tǒng)計我們有著詳細的方法去估計,參數(shù)估計,假設(shè)檢驗,大樣本正態(tài)分布,計算它的一系列樣本參數(shù)來推斷信息。例如,我們首先假設(shè)收入是服從正態(tài)分布的,于是我們就去計算樣本的期望、方差、峰度等來以此此來刻畫這一數(shù)據(jù),再通過這些收集到的數(shù)據(jù)去做推斷。但是現(xiàn)實中的統(tǒng)計工作我們是不知道怎么分布情況的,不是t檢驗,方差分析也做不了,線性回歸也不行,時間序列分析等等都不行,簡單來說,我們對于分布一無所知,甚至數(shù)據(jù)是殘缺的,不完整的,這時候我們就只能用非參數(shù)統(tǒng)計方法去處理這些處理不了的問題。常用的非參數(shù)統(tǒng)計方法有:符號檢驗,Wilcoxon秩和檢驗。
(一)符號檢驗
符號檢驗是最基本的非參數(shù)統(tǒng)計方法,獲取到樣本X1,…Xn之后,不知道這是不是正態(tài)分布,因而就用不了t檢驗。在非參數(shù)檢驗里,用符號檢驗要熟知分位點以及廣義的分位點性質(zhì)意義。簡單的二項分布,與分位點結(jié)合就形成了符號檢驗。對于符號二字的理解呢,則是這樣定義的:
檢驗原假設(shè)是H0:Qπ=q0(Qπ是針對連續(xù)變量的π分位點)
備擇假設(shè)則可以是大于也可以是小于,或者是不等,隨統(tǒng)計問題的具體而定。
假設(shè)都已經(jīng)做好的,樣本收集過來,記大于樣本的點數(shù)為N+,小于的則記為N-,用小寫的n+和n-代表對應(yīng)的實現(xiàn)值。n=n++ n-。如果此時零假設(shè)是成立的,則應(yīng)該有n-與n之比約為π,或者說n-是大約nπ。于是這樣就得到了,在零假設(shè)成立的情況下,N-是服從二項分布Bin(n,π)的(要么是大于,要么是小于,于是是二項分布)。這里的符號意思N+就是樣本中所有減去q0之后的,這個差值還是為正的個數(shù),同理,負號就是差值為負值的個數(shù)。更加深入一點可以構(gòu)建卡方統(tǒng)計量:(|n_+-n_- |-1)2/(n++n-) 。這就是符號檢驗,不需要知道分布,只需要計算所謂的“符號”即可了,是非參數(shù)統(tǒng)計中最基本的一個方法。
(二)Wilcoxon秩和檢驗
用于多組數(shù)據(jù)的比較,對樣本數(shù)據(jù)進行統(tǒng)一的編秩,求出備組秩和,再以各組秩和的平方與例子推算的比值求得的總和來計算z值,類似的,在符號檢驗基礎(chǔ)上更加利用信息,減去要檢驗的數(shù)值,得到差值,再對其取絕對值,再排序,求秩(相同的取一樣的秩),令W+為差值為正的秩和,W-為差值為負的秩和。再去計算p值或者查詢臨界值。比符號檢驗更加高明的是利用到了差值多少的信息,符號檢驗只區(qū)分了正負,秩和檢驗可以理解為對不同距離的差值賦予了不同的權(quán)數(shù)。
1.減少模型誤差是必然的,用到了更多樣本中的信息,傳統(tǒng)的參數(shù)發(fā)放就是基于分布的假定上,然而實際統(tǒng)計工作往往是滿足不了這些分布形式的,導致傳統(tǒng)模型與現(xiàn)實相背離產(chǎn)生模型上的偏差。而非參數(shù)估計的則是完全更多的,盡可能的去利用樣本數(shù)據(jù)的信息,不需要總體分布強加條件??梢匀ミx擇與數(shù)據(jù)匹配的模型,而不是摁死了模型去讓數(shù)據(jù)削足適履,具有較好的穩(wěn)健性。
2.適用范圍廣。從數(shù)據(jù)的角度來看的話,可以處理定距、定比數(shù)據(jù),也可以處理定類、定序數(shù)據(jù)。而實際上呢,定類和定序則是大量存在社會科學和計算機科學領(lǐng)域的,應(yīng)用范圍更加廣。從模型角度來看,假定條件沒有那么苛刻,適用范圍更加廣闊。
3.簡單易操作。秩在非參數(shù)統(tǒng)計來說是最關(guān)鍵的一個東西,我們在不知道樣本分布情況下,秩就是唯一我們能夠依靠從樣本里面提取出來的信息,從小到大排列,也非常易于理解。
十二大國家制定的控制人口目標是本實際末人口總量不超過12個億,雖然已經(jīng)在很早的計劃生育國策下,人口還是增長,為此,我們需要做出預測趨勢是否會達到人口目標。其《綱要》指出人口的自然增長率控制在12.5%以內(nèi),可以用Wilcoxon秩和檢驗。
注:數(shù)據(jù)來源國家統(tǒng)計局(人口資料).中國統(tǒng)計年鑒.
基于兩個假設(shè):1)總體分布連續(xù) 2)總體是對其中位數(shù)是對稱的
zi=|xi-q0|,自然的,q0是目標值,對z做秩和檢驗。在這里以正秩和檢驗統(tǒng)計量。
H0:人口自然增長率為12.5% H1:人口自然增長率小于12.5%
檢驗結(jié)果,這是1978年到1989年的
差值-0.5-0.89-0.632.051.99-0.96絕對值0.50.890.632.051.990.96符號秩-1-3-21211-4差值-1.69-1.271.581.891.71.83絕對值1.691.271.581.891.71.83符號秩-7-561089
正秩和為56,當n12時候,取顯著性水平為0.005時候,查表得知道臨界值為17,故拒絕原假設(shè)。不認為由足夠的證據(jù)證明可以控制人口自然增長率可以控制在12.5%之內(nèi),人口目標需要重新調(diào)整,人口政策需要重新規(guī)劃。
非參數(shù)統(tǒng)計方法與參數(shù)統(tǒng)計很大不同就是假定的基礎(chǔ)不一樣,或者說條件更加的寬松,參數(shù)化更加的書本化,非參數(shù)統(tǒng)計在實際統(tǒng)計工作往往用的比參數(shù)統(tǒng)計多太多了。但是兩者的核心思想是一樣的,做出檢驗統(tǒng)計量去進行檢驗。這是至關(guān)重要的,兩者的長短處不同,應(yīng)用范圍也是不同的。在解決不知道總體分布情況下,對總體信息知道的不是非常明確條件下,非參數(shù)統(tǒng)計無疑是好過參數(shù)統(tǒng)計的。