呂付華
(1.云南民族大學(xué) 社會(huì)學(xué)系,云南 昆明 650223;2.云南大學(xué) 公共管理學(xué)院,云南 昆明 650223)
可作為σ的最佳估值使用。費(fèi)歇爾卻
什么是自由度?在Fisher與Pearson(以下稱(chēng)費(fèi)歇爾、皮爾遜)關(guān)于自由度的激烈爭(zhēng)論塵埃落定80多年后[1-5],追問(wèn)這一問(wèn)題似乎有些不合時(shí)宜,但事實(shí)上直到現(xiàn)在,它仍是一個(gè)極為基本卻在統(tǒng)計(jì)學(xué)教科書(shū)、專(zhuān)著以至相關(guān)論文中沒(méi)有得到圓滿(mǎn)回答的問(wèn)題。在統(tǒng)計(jì)學(xué)三大分布(χ2、t、F分布)中,自由度是決定這些分布特征、性質(zhì)最重要的參數(shù)。在列聯(lián)表、回歸與方差分析等統(tǒng)計(jì)方法中,自由度也是決定統(tǒng)計(jì)結(jié)果的關(guān)鍵變量之一。假若沒(méi)有自由度概念,那么從樣本統(tǒng)計(jì)量估計(jì)總體參數(shù)的統(tǒng)計(jì)過(guò)程必將在邏輯上缺失關(guān)鍵環(huán)節(jié),在準(zhǔn)確性上出現(xiàn)巨大偏差。而一旦弄錯(cuò)自由度的數(shù)目,則從三大分布的概率分布表中得到的將是錯(cuò)誤的概率值,從而也必將錯(cuò)誤解釋相應(yīng)假設(shè)檢驗(yàn)的顯著性。
費(fèi)歇爾提出自由度概念之后,國(guó)外統(tǒng)計(jì)學(xué)界一直就如何一般化解釋自由度進(jìn)行探討。Walker借助n維幾何工具把自由度理解為樣本統(tǒng)計(jì)量中觀(guān)察值數(shù)目減去約束條件數(shù)目后的結(jié)果,但Good批評(píng)Walker不能在復(fù)雜情形下把所謂的約束條件解釋清楚[6-7]。Cramer把自由度定義為二次型統(tǒng)計(jì)量的秩,但是因?yàn)檫@一定義涉及極為艱深的數(shù)學(xué)推理,它并不為一般統(tǒng)計(jì)學(xué)者所采用[8]379-381。即使 Good站在Walker與Cramer肩膀上提出了對(duì)自由度的簡(jiǎn)化理解,即自由度就是假設(shè)檢驗(yàn)中檢驗(yàn)包含于K中的假設(shè)H時(shí)的參數(shù)空間維度差異d(K)-d(H),后來(lái)事實(shí)也證明,它只不過(guò)是訓(xùn)練學(xué)生快速寫(xiě)出自由度的工具而已[7]。所以,一方面有學(xué)者如Pandey和Bright等抱怨教科書(shū)中充斥著各種各樣使學(xué)生備感疑惑的自由度解釋?zhuān)?];另一方面,Good等學(xué)者也不得不承認(rèn)無(wú)論針對(duì)學(xué)生還是統(tǒng)計(jì)學(xué)專(zhuān)家,自由度都是一個(gè)非常難于解釋清楚的概念[7]。
相比國(guó)外,在國(guó)內(nèi)有代表性的教科書(shū)中,陳希孺把自由度解釋為三大分布中能夠隨意變化的變量值個(gè)數(shù),并在附錄中指出,若相關(guān)變量中有n個(gè)約束則自由度相應(yīng)減少n個(gè)[10]95-104;陳家鼎等則只在有關(guān)定義、定理中提到自由度及其算法而未作特別解釋?zhuān)?1]43-59。在極為有限的幾篇專(zhuān)門(mén)討論自由度的論文中,李友平認(rèn)為自由度指一組數(shù)據(jù)中可以自由取值的個(gè)數(shù),并以為統(tǒng)計(jì)量的“確定性”限制了與之相關(guān)的一組數(shù)據(jù)的“自由度”[12]。實(shí)踐中,這些解釋或能應(yīng)用于簡(jiǎn)單條件下,可一旦涉及較復(fù)雜情形,如列聯(lián)表中自由度的計(jì)算和理解,或者追問(wèn)自由度與待估參數(shù)的本質(zhì)關(guān)系,再或深究自由度的統(tǒng)計(jì)意義時(shí),不難發(fā)現(xiàn):以上解釋不僅不能從根本上回答這些問(wèn)題,而且往往導(dǎo)致相關(guān)專(zhuān)業(yè)師生對(duì)自由度的理解流于形式,以致自由度實(shí)際上成為了統(tǒng)計(jì)學(xué)中一個(gè)時(shí)??梢?jiàn)卻又格外陌生的概念。
針對(duì)上述局面,F(xiàn)ienberg就皮爾遜與費(fèi)歇爾在分類(lèi)數(shù)據(jù)擬合優(yōu)度檢驗(yàn)上主要分歧的歷史探討為梳理自由度問(wèn)題提供了基本線(xiàn)索[13]。Stigler對(duì)皮爾遜卡方檢驗(yàn)推理邏輯和其理論錯(cuò)誤以及費(fèi)歇爾修正該錯(cuò)誤的統(tǒng)計(jì)學(xué)史研究,則指出了深入理解自由度概念的根本路徑[14]。陳希孺關(guān)于皮爾遜、費(fèi)歇爾的統(tǒng)計(jì)學(xué)史研究也提供了有關(guān)自由度問(wèn)題的廣博數(shù)理知識(shí)和具體歷史背景[15]213-246。借鑒這些成果,本文從統(tǒng)計(jì)學(xué)史角度,通過(guò)研究皮爾遜、費(fèi)歇爾等人與自由度問(wèn)題相關(guān)的原始文獻(xiàn),系統(tǒng)、深入、全面地拓展了已有相關(guān)解釋?zhuān)赋隽薋ienberg、Stigler論證過(guò)程中的不足之處,彌補(bǔ)了陳希孺主要依賴(lài)于Fienberg、Stigler及E.S.Pearson等人提供的二手資料以及論述不夠清楚的缺陷。具體而言,本文包含了以下三個(gè)方面的分析:第一,皮爾遜是怎樣論證卡方檢驗(yàn)的理論邏輯,論證過(guò)程中出現(xiàn)了什么樣的錯(cuò)誤判斷;第二,皮爾遜的錯(cuò)誤判斷是如何在統(tǒng)計(jì)實(shí)踐中被發(fā)現(xiàn)的;第三,費(fèi)歇爾通過(guò)自由度修正皮爾遜錯(cuò)誤的理論、方法根據(jù)何在,怎么理解并以當(dāng)代術(shù)語(yǔ)闡釋這些根據(jù)。
皮爾遜卡方檢驗(yàn)曾被美國(guó)統(tǒng)計(jì)學(xué)史專(zhuān)家Hacking評(píng)為20世紀(jì)科學(xué)技術(shù)所有分支中20個(gè)主要發(fā)現(xiàn)之一,因?yàn)樗粌H在實(shí)用上提供了檢驗(yàn)已知數(shù)據(jù)和某個(gè)給定假設(shè)是否一致的極其簡(jiǎn)便的標(biāo)準(zhǔn),還在理論方面成為了后繼相似檢驗(yàn)的先驅(qū)[16]。不過(guò),在皮爾遜這一對(duì)現(xiàn)代統(tǒng)計(jì)學(xué)里程碑式貢獻(xiàn)的原始論證中,卻存在著一個(gè)不小的錯(cuò)誤。
1900年,皮爾遜在其標(biāo)志性論文中提出[4]:假設(shè)對(duì)一個(gè)呈多項(xiàng)分布的k維正態(tài)總體進(jìn)行隨機(jī)抽樣實(shí)驗(yàn),得到的所有樣本的頻次分布在n+1個(gè)間格內(nèi),如果每個(gè)間格分別有變 量 值m1′,m2′,…,mn′,mn+1′;變量值m1,m2,…,mn,mn+1;以及變量值ms1,ms2,…,msn,msn+1。其中m′= 每個(gè)間格的 觀(guān) 測(cè) 頻次;m=每個(gè)間格預(yù)先假定理論頻次;ms= 每個(gè)間格從樣本數(shù)據(jù)中推斷出的理論頻次。
皮爾遜認(rèn)為,在上述頻次分布中,只存在著一個(gè)限制,即:∑m′=∑m=∑ms=N=樣本大小。尤其重要的是,如果誤差e=m′-m,則有e1+e2+…+en+en+1=0。因此他認(rèn)為,n+1個(gè)誤差中只有n個(gè)是自由變量,當(dāng)前面的n個(gè)變量已知時(shí)第n+1個(gè)就能確定。由此,經(jīng)過(guò)一系列推理,皮爾遜得到:
作為刻畫(huà)n+1個(gè)間格中的實(shí)際觀(guān)測(cè)頻次和預(yù)先假定理論頻次擬合程度的統(tǒng)計(jì)量,顯然,χ2越小,說(shuō)明觀(guān)測(cè)頻次與理論頻次越一致。
進(jìn)一步,皮爾遜證明,如果預(yù)先假定的理論頻次是正確的,那么,隨著樣本大小N的無(wú)限增長(zhǎng),用式(1)得到的χ2統(tǒng)計(jì)量的抽樣分布將完全獨(dú)立于假定理論頻次的概率分布,從而服從皮爾遜Ⅲ型分布(Γ分布),記為:
其中n′=n+1是樣本間格數(shù),并且該分布除χ2統(tǒng)計(jì)量外唯一決定因素就是n′。
皮爾遜隨后斷定,如果記大樣本條件下由隨機(jī)抽樣導(dǎo)致的χ2為χn2′,由樣本實(shí)際觀(guān)測(cè)值與理論值算出的χ2為χ20,那么統(tǒng)計(jì)學(xué)家能夠得到的樣本由于隨機(jī)抽樣原因?qū)е鲁闃诱`差大于或等于實(shí)際觀(guān)測(cè)中觀(guān)測(cè)值與理論值之間差異的概率將為:
鑒于式(3)不易計(jì)算,經(jīng)由簡(jiǎn)化,皮爾遜又導(dǎo)出了兩個(gè)更為當(dāng)時(shí)的統(tǒng)計(jì)學(xué)者頻繁使用的公式,即如果n′=n+1為奇數(shù),將有:
如果n′=n+1為偶數(shù),則有:
因此,實(shí)際操作中只需通過(guò)式(1)計(jì)算出χ20,再由n′的奇偶選擇相應(yīng)式(4)或式(5)代入χ0算出p值,就能得到在預(yù)先假定的理論頻次正確條件下,隨機(jī)抽樣出現(xiàn)χ20這么大差異或更大差異的可能性有多大的判斷。毋庸置疑,p值就是皮爾遜所謂的衡量樣本觀(guān)測(cè)頻次與其假定理論頻次之間擬合優(yōu)度的標(biāo)準(zhǔn),它介于(0,1)之間,并與χ20成反比,χ20越小,則p值越大,說(shuō)明樣本觀(guān)測(cè)頻次與理論頻次之間的擬合度愈好,也說(shuō)明預(yù)先假定的理論頻次愈為可靠。所以,它也被稱(chēng)為皮爾遜(χ2,p)檢驗(yàn)。
按當(dāng)時(shí)慣例,皮爾遜還以實(shí)例對(duì)上述思路進(jìn)行了具體說(shuō)明。以同事 Weldon實(shí)際觀(guān)察到的骰子投擲實(shí)驗(yàn)結(jié)果為例,經(jīng)整理他得到表1數(shù)據(jù)[4]。
表1 皮爾遜卡方檢驗(yàn)數(shù)據(jù)表
表1中,理論頻次m1按Weldon最初設(shè)想的二項(xiàng)式理論分布26 306×(1/3+2/3)12算出。而在皮爾遜對(duì)實(shí)驗(yàn)結(jié)果檢查之后,他發(fā)現(xiàn)12顆骰子同時(shí)擲26 306次,5點(diǎn)或6點(diǎn)出現(xiàn)的總和值是106 602次。于是,皮爾遜用106 602取代用概率1/3得到的理論值105 224,得到新概率值0.337 7,然后用26 306×(0.337 7+0.662 2)12的二項(xiàng)式理論分布算出理論頻次m2
。因?yàn)閚′=n+1=13,通過(guò)式(1)和式(4),可輕易得到:按理 論頻次m1,χ2= 43.872 41,p=0.000 016;而按理論頻次m2,χ2=17.775 755 5,p=0.122 7。皮爾遜這樣表述實(shí)驗(yàn)結(jié)果:對(duì)于前者,p=0.000 016=1/62 550說(shuō)明,如果作62 550次隨機(jī)實(shí)驗(yàn),只有1次實(shí)驗(yàn)由于隨機(jī)原因?qū)е碌南到y(tǒng)偏差會(huì)大于或等于實(shí)驗(yàn)觀(guān)測(cè)到的樣本觀(guān)測(cè)頻次與理論頻次的偏差,其余62 549次實(shí)驗(yàn)所得系統(tǒng)偏差都將小于實(shí)驗(yàn)觀(guān)測(cè)偏差,這是一個(gè)極少見(jiàn)的小概率事件,它在實(shí)驗(yàn)中出現(xiàn)將使人們不得不懷疑由26 306×(1/3+2/3)12所得理論頻次的正確性;對(duì)于后者,p=0.122 7≈1/8表明,8次隨機(jī)實(shí)驗(yàn)中就有1次實(shí)驗(yàn)由于隨機(jī)原因?qū)е碌南到y(tǒng)偏差大于或等于實(shí)驗(yàn)觀(guān)測(cè)到的偏差,這已經(jīng)在可以接受的范圍內(nèi)。因而,實(shí)驗(yàn)結(jié)果證明,使用二項(xiàng)分布(0.337 7+0.662 2)12去擬合實(shí)際觀(guān)測(cè)數(shù)據(jù)將比(1/3+2/3)12更可靠。這也說(shuō)明,可以否定實(shí)驗(yàn)中骰子是均勻的,其每面出現(xiàn)的概率均為1/6,而接受骰子均勻度有偏差的假設(shè)。
考慮到卡方檢驗(yàn)的應(yīng)用前景,皮爾遜和他的學(xué)生Elderton還制作了現(xiàn)代統(tǒng)計(jì)學(xué)史上第一張標(biāo)準(zhǔn)的χ2分布表[17]28。
表2 Elderton標(biāo)準(zhǔn)χ2分布表
可明顯看出,在假定隨機(jī)抽樣所得樣本的理論頻次已知(即抽樣總體的分布已知)條件下,(χ2,p)檢驗(yàn)的決定因素在于n′的數(shù)量,且n′=n+1。
在皮爾遜卡方檢驗(yàn)構(gòu)想中,總體的理論概率都是假定預(yù)先已知的,但實(shí)際中很多案例并不如此,總體理論分布未知并需要從樣本中進(jìn)行推斷反而更常見(jiàn)。皮爾遜也意識(shí)到了這個(gè)問(wèn)題,但遺憾的是,他做出了一個(gè)錯(cuò)誤判斷。
上文提到,皮爾遜視隨機(jī)樣本中的m′為每個(gè)間格的觀(guān)測(cè)頻次,m為每個(gè)間格預(yù)先假定的理論頻次,ms為每個(gè)間格從樣本數(shù)據(jù)中推斷出的理論頻次。他特別聲明,如果記m=ms+u,則在大樣本條件下,原則上,比率u/ms將很?。?]。
皮爾遜對(duì)式(6)有兩個(gè)重要判斷:第一,等式后左邊第一項(xiàng)要么是負(fù)的(因而可以與第二項(xiàng)部分抵消),要么是很小的正數(shù)。第二,等式后第二項(xiàng)雖然為正,但在任何情況下它都將很小,因?yàn)樗嗣恳粋€(gè)被加總的)2。因此,在這兩個(gè)判斷支撐下,皮爾遜斷言,χ2與χs2相差不大,在大樣本條件下,χ2與χs2應(yīng)有同一極限分布。
客觀(guān)而言,皮爾遜錯(cuò)誤判斷的后果并非微不足道。在 Weldon骰子實(shí)驗(yàn)中,n′=13與n′=12意味著p值接近0.05的差異,這已經(jīng)非常顯著了。而在列聯(lián)表中,皮爾遜錯(cuò)誤判斷的影響更為突出,如后文所述,皮爾遜認(rèn)為2×2列聯(lián)表的n′=4而非2,3×3列聯(lián)表的n′=9而非5,在假設(shè)檢驗(yàn)中這必將導(dǎo)致災(zāi)難性的結(jié)果。
客觀(guān)地說(shuō),皮爾遜卡方檢驗(yàn)仍是現(xiàn)代統(tǒng)計(jì)學(xué)史上最偉大的發(fā)現(xiàn)之一,它是第一個(gè)也是最重要的一個(gè)溝通了描述數(shù)據(jù)分析與推斷數(shù)據(jù)分析的檢驗(yàn)準(zhǔn)則。皮爾遜用公式分離、表達(dá)出了另一個(gè)重要問(wèn)題,以至于20年后另一個(gè)天才用他自己簡(jiǎn)單的方法做出了一個(gè)巨大發(fā)現(xiàn) —— 自由度。
或許是皮爾遜對(duì)χ2與χ2s相差不大的論證過(guò)于隱晦,在卡方檢驗(yàn)提出后的20多年里,大多數(shù)統(tǒng)計(jì)學(xué)家即使錯(cuò)誤地使用了卡方檢驗(yàn)也往往毫無(wú)察覺(jué)。但也有例外,Greenwood與Yule就在反復(fù)檢查、比對(duì)收集到的大量數(shù)據(jù)后,對(duì)卡方檢驗(yàn)的準(zhǔn)確性產(chǎn)生了疑問(wèn),這種疑問(wèn)在他們對(duì)四格表(2×2列聯(lián)表)的分析中更是達(dá)到了頂點(diǎn),并成為了費(fèi)歇爾討論自由度問(wèn)題時(shí)最重要的論據(jù)。然而,Stigler對(duì)此僅一筆帶過(guò),F(xiàn)ienberg也對(duì)細(xì)節(jié)囫圇吞棗、含糊其辭[13-14],所以,對(duì)此問(wèn)題有必要重新細(xì)致梳理。
按皮爾遜的看法,如果對(duì)形式為表3的四格表中兩屬性相關(guān)問(wèn)題進(jìn)行研究,首先必須利用χ2統(tǒng)計(jì)量考察p值,以檢驗(yàn)兩屬性間是否相互獨(dú)立[17]27-30。
表3 一般形式的四格表
具體而言,皮爾遜認(rèn)為,最好的方法就是應(yīng)用統(tǒng)計(jì)量:
代入Elderton表找到相應(yīng)p值,如果p值很大,則說(shuō)明觀(guān)測(cè)頻次與預(yù)先假設(shè)的兩屬性間相互獨(dú)立的理論頻次相當(dāng)擬合,也就表明兩屬性相互獨(dú)立的假設(shè)成立。不過(guò),皮爾遜認(rèn)為,雖然四格表中的理論頻次是由樣本觀(guān)測(cè)頻次推斷而得,但在卡方檢驗(yàn)中,它和理論頻次事前已知差異不大,所以代入Elderton表匹配相應(yīng)p值時(shí),n′=2×2=4。
Yule作為皮爾遜的學(xué)生,他對(duì)皮爾遜卡方檢驗(yàn)的思路十分熟悉,在1906年對(duì)一個(gè)3×3列聯(lián)表進(jìn)行檢驗(yàn)時(shí),他依然使用n′=3×3作為(χ2,p)檢驗(yàn)的n′值。直到1915年,他才在對(duì)四格表的分析中透露出了自己的不同看法。
這一年,Greenwood與Yule考察了歐洲大陸針對(duì)傷寒和霍亂進(jìn)行接種預(yù)防的大量數(shù)據(jù)[18]。為了弄清楚接種是否能夠預(yù)防霍亂和傷寒,他們把收集到的數(shù)據(jù)整理為表4的形式。
表4 歐洲傷寒、霍亂接種實(shí)際數(shù)據(jù)表
如果依照皮爾遜的方法,則首先應(yīng)用式(9)算出χ2統(tǒng)計(jì)量,再按n′=4,找到相應(yīng)p值,就可以判斷接種和感染之間是否相互獨(dú)立。例如表4中可得χ2=56.23,p小于0.000 1,說(shuō)明接種與感染之間有顯著相關(guān)。不過(guò),雖然Greenwood與Yule有保留地承認(rèn)皮爾遜(χ2,p)方法能夠?yàn)檫@些數(shù)據(jù)提供有效的判定標(biāo)準(zhǔn),但在反復(fù)檢驗(yàn)和比較后他們發(fā)現(xiàn),如果按照皮爾遜的方法,四格表中的χ2統(tǒng)計(jì)量必然服從n′=4的卡方分布,也即必然有:
而按照他們的理解,設(shè)p1=a/(a+b)= 接種感染的人/所有接種的人,p2=c/(c+d)=未接種感染的人/所有未接種的人,那么統(tǒng)計(jì)量(p1-p2)/σp1-p2也能夠?yàn)榕卸▋蓪傩灾g相互獨(dú)立提供同樣標(biāo)準(zhǔn)。進(jìn)而,假設(shè)表3中A、B兩因素相互獨(dú)立,則必然有p1=p2= (a+c)/N,這樣一來(lái),他們發(fā)現(xiàn):當(dāng)四格表中的N充分大時(shí),按棣莫弗 — 拉普拉斯中心極限定理,統(tǒng)計(jì)量
必將漸進(jìn)于標(biāo)準(zhǔn)正態(tài)N(0,1)。而使他們疑惑的是,如果對(duì)式(11)取平方,則有:
顯然,由于式(11)中統(tǒng)計(jì)量服從N(0,1),則式(12)中χ2統(tǒng)計(jì)量的分布必服從以下公式:
毫無(wú)疑問(wèn),式(13)等價(jià)于把n′=2代入皮爾遜卡方檢驗(yàn)所得之結(jié)果,而非式(10)代入n′=4的結(jié)果。所以,Greenwood與Yule在文中多次指出,他們和皮爾遜之間就列聯(lián)表的獨(dú)立性檢驗(yàn)存在著不同的看法[18]。
但是,Greenwood與Yule在1915年并未意識(shí)到他們上述發(fā)現(xiàn)的意義,也沒(méi)有對(duì)他們和皮爾遜在列聯(lián)表卡方檢驗(yàn)上的分歧實(shí)質(zhì)給出進(jìn)一步說(shuō)明。他們僅僅宣稱(chēng),用皮爾遜卡方檢驗(yàn)得出的因?yàn)殡S機(jī)抽樣導(dǎo)致的任何可能事件或不可能事件的概率,總是大于用其他方法檢驗(yàn)出的概率,因此,必須謹(jǐn)慎使用卡方檢驗(yàn)??傊?,他們?cè)诋?dāng)時(shí)回避了困難,這種局面直到費(fèi)歇爾提出自由度概念以后才得以徹底改觀(guān)。
在現(xiàn)代統(tǒng)計(jì)學(xué)史上,費(fèi)歇爾是繼皮爾遜之后的又一個(gè)巨人,費(fèi)歇爾對(duì)現(xiàn)代統(tǒng)計(jì)學(xué)有著多方面的貢獻(xiàn),其中就包括他利用自由度概念對(duì)皮爾遜卡方檢驗(yàn)錯(cuò)誤的修正。費(fèi)歇爾的修正過(guò)程,不僅集中體現(xiàn)了其出色的數(shù)學(xué)直覺(jué)與通過(guò)個(gè)案一般化重要問(wèn)題的思想風(fēng)格,也使自由度的本質(zhì)含義和其蘊(yùn)含的統(tǒng)計(jì)思想淋漓盡致地體現(xiàn)出來(lái)。
可作為σ的最佳估值使用。費(fèi)歇爾卻
費(fèi)歇爾認(rèn)為,利用n維幾何的直觀(guān)方法,可以把樣本(x1,x2,…,xn)視為n維歐幾里得空間Rn中的一點(diǎn),統(tǒng)計(jì)量的除數(shù)之所以為n,在于確定珚x時(shí),由于沒(méi)有任何獨(dú)立約束,點(diǎn)(x1,x2,…,xn)可以在n維空間中自由活動(dòng)。而統(tǒng)計(jì)量s的除數(shù)應(yīng)為n-1的理由在于,確定s的前提是珚x已經(jīng)確定,這意味著點(diǎn)(x1,x2,…,xn)將受到一個(gè)獨(dú)立約束(xi-)=0。因此,點(diǎn)(x1,x2,…,xn)就只能在一個(gè)通過(guò)點(diǎn)(x珚,x珚,…,x珚)的n-1維超平面上活動(dòng),統(tǒng)計(jì)量s只有n-1個(gè)自由度。以三維為例,樣本(x1,x2,x3)可以看成是以總體均值為原點(diǎn)的3維空間中的一點(diǎn),確定x珚時(shí),由于沒(méi)有任何限制,點(diǎn)(x1,x2,x3)可在3維空間中任意活動(dòng),而一旦確定,也就意味著3維空間中必存在一點(diǎn)A(),使得(xi-)=0。顯然,一旦有了這個(gè)獨(dú)立約束,點(diǎn)(x1,x2,x3)就不可能再在3維空間中自由活動(dòng),而只能在一個(gè)2維平面上活動(dòng)了,因此,計(jì)算統(tǒng)計(jì)量s時(shí)就只有2個(gè)自由度了。
有了自由度與n維幾何工具,費(fèi)歇爾對(duì)Greenwood與Yule在列聯(lián)表卡方檢驗(yàn)中發(fā)現(xiàn)的問(wèn)題進(jìn)行了新的思考[1]。他開(kāi)宗明義地宣稱(chēng):在每個(gè)間格的觀(guān)察值都很大的條件下,卡方檢驗(yàn)毫無(wú)疑問(wèn)具有普遍效力,不過(guò),當(dāng)列聯(lián)表卡方檢驗(yàn)的理論頻次需要從樣本觀(guān)察頻次中推斷出時(shí),必須對(duì)n′的取值進(jìn)行修正。進(jìn)一步,費(fèi)歇爾認(rèn)為,在r×c列聯(lián)表中,Elderton表雖仍然適用,不過(guò),必須用自由度的數(shù)目加1,即n′= (r-1)(c-1)+1取代皮爾遜認(rèn)為的n′=rc代入列聯(lián)表進(jìn)行卡方檢驗(yàn)。
由度。而且,因?yàn)橛衑ij=0,i=1,2,…,r以及=0,j=1,2,…,c,故還有r+c個(gè)約束條件,但由于行誤差總和為零與列誤差總和為零的限制,其中只有r+c-2個(gè)是獨(dú)立的。因此,r×c列聯(lián)表獨(dú)立性檢驗(yàn)中的χ2統(tǒng)計(jì)量的自由度應(yīng)為rc-1-(r+c-2)= (r-1)(c-1)。
不料,費(fèi)歇爾的文章一經(jīng)發(fā)表,就遭到了來(lái)自各方的猛烈攻擊。不僅皮爾遜曾輕蔑地說(shuō):“我希望我的批評(píng)者原諒我把他比作與風(fēng)車(chē)作戰(zhàn)的堂吉訶德”[5]。而且很多批評(píng)者認(rèn)為,費(fèi)歇爾對(duì)n′=2的修正適用的是這樣的四格表[19]:牌局中甲、乙兩選手各拿由26張紅花色牌和26張黑花色牌組成的52張牌中一半,在紅花色牌和黑花色牌期望頻次均等條件下,問(wèn)實(shí)際觀(guān)察中出現(xiàn)如下頻次(表5)的概率是多少?
表5 由挑選樣本構(gòu)成的四格表
顯然,利用式(1)可得χ2=16/13,又因?yàn)楸?中有獨(dú)立約束條件m1=m2=m3=m4=13,以及e1=2=e4、e2=2=e3,所以有1個(gè)自由度。把n′=2代入式(5),最終可得p=0.27。
批評(píng)者認(rèn)為,只有出現(xiàn)表5這樣的非隨機(jī)樣本,卡方檢驗(yàn)中的n′才需加以修正,而在表4那樣他們稱(chēng)之為可疑個(gè)案的四格表中,無(wú)需修正n′=4。
針對(duì)這一批評(píng),費(fèi)歇爾指出了暗含于卡方檢驗(yàn)中的三種假設(shè)前提(見(jiàn)表6)[2]。
表6 卡方檢驗(yàn)的三種假設(shè)前提表
表6中,A代表著卡方檢驗(yàn)中的理論頻次在檢驗(yàn)前預(yù)先已知的類(lèi)型,在這樣的前提下,1900年皮爾遜定義的、被多數(shù)統(tǒng)計(jì)學(xué)家代入Elderton表的n′無(wú)需做任何修正。皮爾遜利用預(yù)先已知的理論概率1/3對(duì)骰子實(shí)驗(yàn)結(jié)果的證明就屬于這種類(lèi)型。
B代表雖然總體的理論頻次預(yù)先已知,但樣本卻非隨機(jī)樣本而是挑選樣本,因此,代入Elderton表的n′需要修正。批評(píng)者對(duì)如表5那樣的個(gè)案的討論屬于這個(gè)類(lèi)型。
在費(fèi)歇爾看來(lái),卡方檢驗(yàn)中真正重要的是C所代表的類(lèi)型,它是實(shí)驗(yàn)、觀(guān)察中最頻繁出現(xiàn)的類(lèi)型。其中理論頻次必須依靠樣本的邊緣和進(jìn)行人為計(jì)算,所以和B一樣,必須對(duì)n′加以修正,Greenwood與Yule對(duì)四格表的檢驗(yàn)就是典型。
費(fèi)歇爾指出,就表3而言,他和皮爾遜分歧的實(shí)質(zhì)在于:若設(shè)a,b,c,d所對(duì)應(yīng)的概率為p1,p2,p3,p4,則必有p1+p2+p3+p4=1,如果兩變量間相互獨(dú)立,則p1p4=p2p3,假設(shè)從總體中抽取了N個(gè)樣本,那么a,b,c,d必然服從如下多項(xiàng)分布:
顯然,只要知道p1,p2,p3,p4和N,a,b,c,d的聯(lián)合分布就將確定,任何關(guān)于a,b,c,d關(guān)系的函數(shù)分布也將確定。依皮爾遜的思路,在p1,p2,p3,p4預(yù)先已知的前提假設(shè)下,a,b,c,d相應(yīng)的函數(shù)關(guān)系應(yīng)為:
此時(shí),必須把代入獨(dú)立性卡方檢驗(yàn)的n′修正為n′=2。其實(shí),對(duì)費(fèi)歇爾最有利的是Yule的實(shí)驗(yàn)結(jié)果。根據(jù)隨機(jī)模擬方法,Yule獲得了350個(gè)四格表的實(shí)驗(yàn)結(jié)果[20]。費(fèi)歇爾把這些數(shù)據(jù)加以整理得到表7。得到函數(shù)關(guān)系為:
表7 Yule實(shí)驗(yàn)數(shù)據(jù)表
表中第2列得到的結(jié)果表示χ2值落入相應(yīng)標(biāo)示區(qū)間的實(shí)際觀(guān)察頻數(shù),第3和第4列表示χ2值服從n′=2、n′=4的卡方分布時(shí)應(yīng)有的理論頻數(shù)。一目了然,n′=2時(shí)觀(guān)察值與理論值的符合程度遠(yuǎn)勝n′=4,這證實(shí)了費(fèi)歇爾的判斷。
費(fèi)歇爾認(rèn)為,無(wú)論是基于直覺(jué)的n維幾何證明,還是對(duì)不同前提假設(shè)的分析,都缺乏堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)。于是,利用其1922年提出的最大似然估計(jì)方法,費(fèi)歇爾對(duì)自由度問(wèn)題做出了總結(jié)性的分析[3]。
然而,當(dāng)研究目的不在于直接得到m(),而是要對(duì)包含有m(θ)的χ2統(tǒng)計(jì)量的有效性進(jìn)行判斷時(shí),情況又有所不同。此時(shí),應(yīng)該取什么樣的χ2估計(jì)量作為含有參數(shù)真值的χ2的最佳估計(jì)呢?費(fèi)歇爾以為,在這種情形下,應(yīng)該以最小χ2為原則,取使
最小的χ2()作為最佳估計(jì)。理由很明顯,作為刻畫(huà)由于隨機(jī)原因?qū)е聦?shí)際觀(guān)察值與其理論概率值偏差程度的統(tǒng)計(jì)量,當(dāng)取得最小χ2值時(shí),說(shuō)明此時(shí)χ2值中包含的m(θ)將最接近總體真值。因而,在諸多χ2(θ)的估計(jì)中,如果χ2()是其最佳估計(jì),那它必然是關(guān)于θ的函數(shù)χ2(θ)的最小值點(diǎn)。又根據(jù)可微函數(shù)達(dá)極值的必要條件可得:
回到實(shí)際案例中,事實(shí)將更為明顯。在1925年首版的《研究工作者用的統(tǒng)計(jì)方法》中,費(fèi)歇爾對(duì)表1進(jìn)行了新的解釋。已知在表1中,皮爾遜利用樣本觀(guān)測(cè)數(shù)據(jù)估計(jì)了5點(diǎn)或6點(diǎn)出現(xiàn)的概率為0.337 7后,其代入卡方檢驗(yàn)的n′仍然是n′=n+1=13。而費(fèi)歇爾認(rèn)為,因?yàn)?.337 7是從樣本中估計(jì)出來(lái)的一個(gè)總體未知參數(shù),因此代入卡方檢驗(yàn)的n′必將失去一個(gè)自由度,也即應(yīng)該用n′=12進(jìn)行同樣的檢驗(yàn)。
3.小結(jié)。同一時(shí)期,費(fèi)歇爾還利用自由度概念詳細(xì)討論了t分布和F分布(當(dāng)時(shí)費(fèi)歇爾考慮的是統(tǒng)計(jì)量logF的分布,即z分布),初步奠立了三大分布的數(shù)理邏輯基礎(chǔ)。這些工作不僅在數(shù)理統(tǒng)計(jì)學(xué)界影響巨大,它們還成為了經(jīng)濟(jì)學(xué)、社會(huì)學(xué)等社會(huì)科學(xué)學(xué)科定量研究思想、方法的重要源泉,自由度概念也由于三大分布的廣泛使用深入人心。隨著20世紀(jì)30年代后統(tǒng)計(jì)學(xué)的高速發(fā)展,對(duì)那些不熟悉現(xiàn)代統(tǒng)計(jì)理論的基礎(chǔ)文獻(xiàn),或者是從教科書(shū)中了解它們的人來(lái)說(shuō),自由度概念的實(shí)質(zhì)及其蘊(yùn)涵的統(tǒng)計(jì)思想?yún)s變得越來(lái)越陌生和難于理解。
基于第一手文獻(xiàn)資料,從統(tǒng)計(jì)學(xué)史角度,本文厘清了皮爾遜在其卡方檢驗(yàn)原初構(gòu)想中的判斷錯(cuò)誤,探討了這一錯(cuò)誤的發(fā)現(xiàn)過(guò)程,細(xì)致闡釋了費(fèi)歇爾創(chuàng)造自由度概念修正該錯(cuò)誤的數(shù)理邏輯。研究表明:
第一,Walker、Cramer與Good提出的三個(gè)被廣泛引用的一般化經(jīng)典解釋?zhuān)瑢?shí)際來(lái)源于他們對(duì)費(fèi)歇爾原始論證的理解和抽象,但這三個(gè)解釋都只選取了費(fèi)歇爾全面論證中的一個(gè)方面。
第二,本質(zhì)上,自由度是從樣本統(tǒng)計(jì)量估計(jì)總體參數(shù)時(shí)的一次邏輯飛躍。因此,自由度可理解為樣本統(tǒng)計(jì)量中排除了待估總體參數(shù)影響后仍能自由取值的隨機(jī)變量個(gè)數(shù)。所謂獨(dú)立約束條件,本質(zhì)上就是待估總體參數(shù)。
第三,費(fèi)歇爾與皮爾遜的自由度之爭(zhēng),并不是簡(jiǎn)單的概念爭(zhēng)論,背后體現(xiàn)的是那個(gè)時(shí)代人們從描述統(tǒng)計(jì)走向推斷統(tǒng)計(jì)時(shí),對(duì)現(xiàn)代統(tǒng)計(jì)方法的創(chuàng)造性發(fā)明,以及圍繞這些方法進(jìn)行嚴(yán)格邏輯推導(dǎo)、實(shí)驗(yàn)說(shuō)明和數(shù)學(xué)論證,從而奠定統(tǒng)計(jì)學(xué)沿用至今的理論基礎(chǔ)的思維過(guò)程。
最后,在當(dāng)前有關(guān)數(shù)理統(tǒng)計(jì)學(xué)史的中文專(zhuān)著、論文極為稀缺,而相關(guān)學(xué)科師生迫切希望了解統(tǒng)計(jì)學(xué)中一些基本概念、方法與思想的歷史源流和演變發(fā)展背景下,筆者期望本文能拋磚引玉,以使統(tǒng)計(jì)學(xué)史研究引起人們更多重視。
[1] Fisher R A.On the Interpretation ofχ2from Contingency Tables,and the Calculation[J].Journal of the Royal Statistical Society,1922,85(1).
[2] Fisher R A.Statistical Tests of Agreement between Observation and Hypothesis[J].Economica,1923(8).
[3] Fisher R A.The Conditions Under Whichχ2Measures the Discrepancy between Observation and Hypothesis[J].Journal of the Royal Statistical Society,1924,87(3).
[4] Pearson K.On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is Such that It can be Reasonably Supposed to have Arisen from Random Sampling[J].Philosophical Magazine,1900,50(5).
[5] Pearson K.On theχ2Test of Goodness of Fit[J].Biometrika,1922,14(1/2).
[6] Walker H M.Degrees of Freedom [J].Journal of Educational Psychology,1940,31(4).
[7] Good I J.What are Degrees of Freedom[J].The American Statistician,1973,27(5).
[8] Cramer H.Mathematical Methods of Statistics[M].New Jersey:Princeton University Press,1961.
[9] Pandey S,Bright C L.What are Degrees of Freedom [J].Social Work Research,2008,32(2).
[10]陳希孺.概率論與數(shù)理統(tǒng)計(jì)[M].北京:科學(xué)出版社,2000.
[11]陳家鼎,孫山澤.?dāng)?shù)理統(tǒng)計(jì)學(xué)講義[M].2nd.北京:高等教育出版社,2006.
[12]李友平.關(guān)于社會(huì)統(tǒng)計(jì)中"自由度"概念的解析[J].統(tǒng)計(jì)與決策,2007(12).
[13]Fienberge S E.Fisher's Contributions to the Analysis of Categorical Data[C]∥Fienberg S E,Hinkley D V R A Fisher,An Appreciation.New York:Springer,1980.
[14]Stigler S M.Karl Pearson's Theoretical Errors and the Advances they Inspired[J].Statistical Science,2008,23(2).
[15]陳希孺.?dāng)?shù)理統(tǒng)計(jì)學(xué)簡(jiǎn)史[M].長(zhǎng)沙:湖南教育出版社,2002.
[16]Hacking I.Trial by Number[J].Science,1984,84(5).
[17]Pearson K.Tables for Statisticians and Biometricians[M].London:Cambridge University Press,1914.
[18]Greenwood M,Yule G U.The Statistics of Anti-cholera and Anti-typhoid Inoculations,and the Interpretation of such Statistics in General[J].Proceedings of Royal Society,Medicine(Epidemiology),1915(8).
[19]Bowley A L,Connor L R.Tests of Correspondence between Statistical Grouping and Formulae[J].Economica,1923(7).
[20]Yule G U.On the Application of theχ2Method to Association and Contingency Tables,with Experimental Illustrations[J].Journal of the Royal Statistical Society,1922,85(1).