程志明,韓兆洲
(暨南大學 經(jīng)濟學院,廣州 510632)
在推斷統(tǒng)計學中,許多統(tǒng)計檢驗都會涉及到自由度的概念。然而大多數(shù)統(tǒng)計學教材介紹自由度時,往往一筆帶過,沒有給出明確的定義或足夠的解釋。正如一位學者所說的那樣:自由度,統(tǒng)計學中一個難以捉摸的概念。對于初學者來說,自由度就像是一個黑箱子,很難知道里面究竟是什么。本文將對自由度的定義作一個較全面的綜述,在此基礎(chǔ)上,給出自由度的科學定義。通過列舉自由度在統(tǒng)計學中的應用,旨在全面認識自由度。
關(guān)于自由度的定義,大多數(shù)統(tǒng)計學教材中解釋很少,僅有的文獻對自由度的定義也顯得晦澀難懂。
(1)從獨立性方面出發(fā)的定義
James和Glenn(1976)定義自由度為:確定一個幾何體或系統(tǒng)所必需的獨立的坐標或參數(shù)的個數(shù)。這個定義是從幾何和物理的角度出發(fā)的。Mill、Harlow和Essex(1990)指出自由度在統(tǒng)計中有幾種不同的意思,自由度被Fisher引入統(tǒng)計學中,F(xiàn)isher將它看作類似于動態(tài)系統(tǒng)中的自由度的概念,在這種情況下一組樣本的自由度就是系統(tǒng)結(jié)構(gòu)中可以任意指定數(shù)值的變量的個數(shù)。Gravetter和Wallnau(2008)認為:自由度是指樣本中有多少個數(shù)是獨立的,并可以自由變換的。謝啟南、韓兆洲(1991)認為自由度是指在一組數(shù)據(jù)中可以自由取值的個數(shù)。賈俊平(2007)指出,自由度可以解釋為獨立變量的個數(shù),還可以解釋為二次型的秩。顯然,上述五種定義都強調(diào)了自由度的“獨立性”。
(2)從樣本量方面出發(fā)的定義
Mayhew(2004)則從樣本量和顯著性方面說明自由度,他認為在統(tǒng)計檢驗中自由度有時直接等于樣本容量,有時卻要根據(jù)樣本容量來計算;對不同的顯著性檢驗,自由度的計算是不一樣的,正確地計算自由度是進行顯著性檢驗的基礎(chǔ)。Everett(2002)解釋說,當樣本被用來估計總體參數(shù)或計算統(tǒng)計量時,實質(zhì)上自由度是指樣本中獨立信息的數(shù)量。例如,給出一個2×2列聯(lián)表的行和與列和,這時四個頻數(shù)只有一個是可以自由變化的,所以該列聯(lián)表只有一個自由度。Glenn和Littler(1984)給出了更好的定義,因為他們同時考慮到了獨立性和樣本大小。他們定義:在統(tǒng)計量中,自由度就是所提供的數(shù)據(jù)中獨立的信息的數(shù)量,自由度等于總樣本容量減去相關(guān)總體參數(shù)或約束的個數(shù)。例如,獨立地從總體中抽取n個個體作為樣本,這些樣本的自由度為n;如果樣本均值x已知,樣本的自由度就為n-1了,因為一個觀察值可以由其他的觀察值來確定。如果總體均值μ已知,這時樣本的自由度仍是n,因為一個xi無法由其他觀察值確定。自由度是一個很重要的概念,它確定了樣本的有效容量。
(3)關(guān)于自由度的一般定義
Joseph(2008)認為:自由度是在不違背約束條件前提下可以隨意變化信息的數(shù)量。
(4)關(guān)于自由度取值的不同觀點
Kotz和Johnson(1982)認為,自由度一般是正整數(shù),但有時它會被近似為一個小數(shù),還有一個偏卡方分布的自由度為零。但是,Spiegel和Stephens(1999)將統(tǒng)計量的自由度V定義為樣本中獨立觀察值的個數(shù)N減去要用樣本來估計的總體參數(shù)的個數(shù)K,V=N-K,要求V一定是正整數(shù),不能取非正整數(shù)。
(5)關(guān)于自由度計算方法
張宏廣和郝慧瑋(2006)總結(jié)了自由度計算的四個方法:①利用自由度的定義求自由度的個數(shù);②自由度的個數(shù)等于樣本容量減去限制因子的個數(shù);③看總體參數(shù)估計量中運用了幾個樣本統(tǒng)計量,其自由度就等于樣本容量減去幾;④自由度等于統(tǒng)計量二次型的秩。
上述從不同角度對自由度的概念與定義進行了闡述,我們認為,在推斷統(tǒng)計學中,自由度是建立在統(tǒng)計量之上的概念,它是統(tǒng)計量的數(shù)學特征。至此,我們可以給出推斷統(tǒng)計學中自由度的科學定義:自由度是指在一組樣本數(shù)據(jù)中,能夠自由取值且不違反給定約束條件的樣本數(shù)值的個數(shù)。這樣,我們就較科學地將實際樣本容量和自由度區(qū)別開來。下面將進一步舉例說明自由度在不同方面的應用。
(1)幾何中的自由度
我們從熟悉的幾何知識入手,可以對自由度的概念有一個直覺上的認識。平面上的點(x,y),其中x和y的取值是可以隨意變化的,要在平面坐標上找到一個點,我們需要知道兩個信息:橫坐標x和縱坐標y的值。所以平面上的點的自由度為2。曲線y=3x+1上的點(x,y),此時x和y的取值是不能同時隨意變化的,只要給定了其中一個值,另一個值也就確定下來。也就是說,要確定曲線y=3x+1上的一個點,我們只要知道一個信息就已足夠:x的值或y的值。于是曲線y=3x+1上的點的自由度為1。類似地,平面x+2y+3z=9上點的自由度為2。
(2)樣本方差的自由度
許多教科書在列出樣本方差的計算公式時都沒有說明分子n-1(n為樣本容量)就是自由度,也很少解釋清楚為什么是除以n-1而不是n。
假設(shè)一個容量為10的樣本,如果沒有其他關(guān)于該樣本的信息或約束的話,任意從總體中抽取的10個觀察值都可以形成這樣的樣本。也就是說,這10個觀察值可以任意地被從總體中抽取的其他觀察值所取代。當我們想要計算樣本方差時,必須先算出樣本均值,設(shè)=35。此時,這10個觀察值就不能任意地被總體中抽取的其他觀察值所取代了。因為n=350,10個觀察值的總和必須等于350。這樣一來,樣本中只有9個觀察值可以隨意改變,因為如果任意9個觀察值確定了,第10個觀察值也被這9個值確定了。因此在計算樣本方差時自由度等于9。有效樣本容量被減少為n-1,在此基礎(chǔ)上,我們可以很好地理解為什么作為均方差的樣本方差計算時,要用自由度來平均而非用n平均。這也說明了如果從樣本數(shù)據(jù)中估計了一個總體參數(shù),自由度就會減少一個。
因為樣本方差的自由度為n-1,所以在比較兩個獨立總體的均值大小的t檢驗中,合并方差的自由度等于n1+n2-2= (n1-1)+(n2-1);在比較兩個獨立總體的方差大小的F檢驗中,F(xiàn)統(tǒng)計量的自由度為(n1-1,n2-1),其中n1,n2分別為兩個樣本的容量。
(3)方差分析和回歸中的自由度
因為殘差平方和SSE等于K個處理的組內(nèi)離差平方和,所以殘差的均方差有(n1-1)+(n2-1)+…+(nk-1)=n-k個自由度,這里運用了自由度的可加性。值得注意的是,總自由度n-1=(k-1)+(n-k),它被分解成組間均方差的自由度與殘差均方差的自由度的和。
類似地,自由度也出現(xiàn)在多元回歸分析的相關(guān)內(nèi)容中。假設(shè)k為解釋變量(包括常數(shù)項)的個數(shù),調(diào)整R2=1-(SSE/nk)/(SST/n-1),SSE和SST分別用各自的有效樣就可以確定整張表的信息內(nèi)容。也就是說列聯(lián)表有(r-1)(c-1)=(2-1)(3-1)=2個自由度??梢韵胂螅粡坮行c列的列聯(lián)表,在各行和與列和給定的情況下,我們只要填上任意(r-1)行(c-1)列的頻數(shù),表中其他的頻數(shù)也會隨之確定下來,樣本容量來平均。
(4)獨立性檢驗中的自由度
在獨立性的卡方檢驗中,列聯(lián)表是必不可少的。我們運用列聯(lián)表來說明其中自由度的思想。見表1,一張2×3的列聯(lián)表,它的行和與列和已經(jīng)給定了。如果不能給出更多的頻數(shù),這張表是有空缺的。如果填入一個頻數(shù),如(n2,m2)=45,另一個頻數(shù)(n1,m2)就可以被確定(n1,m2)=45。倘若再給出一個頻數(shù),那么整個列聯(lián)表就填列完整了。如令(n1,m1)=15,則(n2,m1)= 5,(n2,m3)=20,(n1,m3)=20。對于2行3列的列聯(lián)表,只要給出2個獨立的必要的信息,我們就可以確定整張表的信息內(nèi)容。也就是說列聯(lián)表有(r-1)(c-1)=(2-1)(3-1)=2個自由度。可以想象,一張r行c列的列聯(lián)表,在各行和與列和給定的情況下,我們只要填上任意(r-1)行(c-1)列的頻數(shù),表中其他的頻數(shù)也會隨之確定下來,所以列聯(lián)表有(r-1)(c-1)個自由度。
表1:
(5)擬合優(yōu)度檢驗中的自由度
最后,我們來考慮一個卡方擬合優(yōu)度檢驗。假設(shè)從一個服從二項分布B(n,p)的總體中抽取50個獨立個體作為樣本,已知n=6,p=0.7,于是總體均值μ=np=4.2。因為n=6,所以樣本數(shù)據(jù)可以分為7類,xi=0,1,2,3,4,5,6。每一類子樣本的頻數(shù)代表著卡方檢驗中的一個信息。但是,因為這7個頻數(shù)的總和必須等于50,所以其中只有6個頻數(shù)可以自由變化,而第7個頻數(shù)取決與其他6個頻數(shù)的值。因此,卡方統(tǒng)計量的自由度為k-1=7-1=6。
現(xiàn)在假設(shè)事件成功概率p是未知的,總體均值μ也就不知道了。這種情況下我們就需要根據(jù)樣本數(shù)據(jù)來估計μ,總體參數(shù)的估計會損耗一個自由度。假設(shè)樣本的均值計算得x=4.4。于是這7類的頻數(shù)不僅其總和要等于50即f1+f2+…+ f7=50,而且還要使得0f1+1f2+2f3+…+6f7=4.4*50=220。7個頻數(shù)必須滿足這兩個等式,因此自由度就減少為7-2=5。這個例子有助于我們理解一個原則:每從樣本中估計一個總體參數(shù),自由度就會減少一個。
本文給出了自由度的科學定義:自由度是指在一組樣本數(shù)據(jù)中,能夠自由取值且不違反給定約束條件的樣本數(shù)值的個數(shù)。同時指出自由度就是有效樣本容量,強調(diào)實際樣本容量與有效樣本容量的區(qū)別。最后列舉出自由度在不同方面的應用。本文在認識自由度方面,希望對讀者有所裨益。
[1]黃學梁.淺談“數(shù)理統(tǒng)計”中的自由度[J].咸寧學院學報.1982(S1).
[2]謝啟南,韓兆洲.統(tǒng)計學原理[M].廣州:暨南大學出版社,1991.
[3]張宏廣,郝慧瑋.自由度的求法[J].承德民族師專學報.2006(2).
[4]賈俊平,統(tǒng)計學(第三版)[M].北京:中國人民大學出版社,2007.
[5]Gravetter and Wallnau.行為科學統(tǒng)計(第七版)[M].北京:中國輕工業(yè)出版社,2008.
[6]Everett.The Cambridge Dictionary of Statistics(2ndEdition)[M]. Cambridge,UK:Cambridge University Press,2002.
[7]Glenn,Littler.A Dictionary ofMathematics[M].Totowa,NJ:Barnes and Noble Books,1984.
[8]James,Glenn.Mathematics Dictionary(4thEdition).New York:Van Nostrand Reinhold,1976.
[9]Joseph.Degrees of Freedom[J].Teaching Statistics,2008,30(3).
[10]Mayhew.A Dictionary of Geography(3rdEdition)[M].Oxford,UK: Oxford University Press,2004.
[11]Mill、Harlow,Essex.A Dictionary of Statistical Terms(5thEdition) [M].New York:Wiley.
[12]Kotz,Johnson.Encyclopedia of Statistical Sciences[M].New York: John Wiley and Sons,1982.
[13]Spiegel,Stephens.Schaum’s Outline of Theory and Problems of Statistics(3rdEdition)[M].USA:McGraw-hill,1999.