国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

社會統(tǒng)計(jì)分析中的悖論與變換問題

2011-10-18 10:32程中興
統(tǒng)計(jì)與決策 2011年6期
關(guān)鍵詞:辛普森悖論線性

程中興

(復(fù)旦大學(xué)社會學(xué)系,上海200433;廣西師范大學(xué)社會學(xué)系,桂林541004)

社會統(tǒng)計(jì)分析中的悖論與變換問題

程中興

(復(fù)旦大學(xué)社會學(xué)系,上海200433;廣西師范大學(xué)社會學(xué)系,桂林541004)

如何解釋隱現(xiàn)于列聯(lián)表中的辛普森悖論,如何區(qū)分回歸中l(wèi)ogit變換與probit變換的內(nèi)在差異與背后假定,是社會統(tǒng)計(jì)分析中兩大應(yīng)用性問題。文章從社會統(tǒng)計(jì)對象的獨(dú)特特征出發(fā),認(rèn)為辛普森悖論與其說是“悖論”,不如說是反映了分類數(shù)據(jù)的非線性特征,反映了列聯(lián)表從高維壓縮至低維時的統(tǒng)計(jì)信息差異,實(shí)質(zhì)上是歐氏空間的降維問題。同理,在回歸分析中,由于分類數(shù)據(jù)的非線性特征,無論logit變換,還是probit變換,實(shí)際上只有在0.2~0.8之間才基本呈現(xiàn)線性,在這個范圍之外,兩個函數(shù)都是高度非線性的。

辛普森悖論;分類數(shù)據(jù)非線性特征;logit變換;probit變換

0 引言

社會統(tǒng)計(jì)分析的數(shù)據(jù)絕大數(shù)是分類意義上的。它們要么是定性的定類、定序數(shù)據(jù),要么是定量的離散數(shù)據(jù)[1],并不具備嚴(yán)格意義上的“+、-、×、÷”等數(shù)學(xué)運(yùn)算特性[2]。

社會研究對象的這一“分類”特征,使得列聯(lián)表成為社會統(tǒng)計(jì)分析中應(yīng)用最為廣泛的首選統(tǒng)計(jì)工具之一。因?yàn)榱新?lián)表是非參數(shù)的或僅要求很弱的參數(shù)(分布)假定。但在列聯(lián)表分析中,如何解釋隱現(xiàn)其中的辛普森悖論一直是一個重要問題。

此外,由于分類數(shù)據(jù)的非線性特征,回歸函數(shù)不可能是線性的,需要尋找一個鏈接函數(shù),將分類變量的期望值變換成自變量的一個線性函數(shù)。然而,在實(shí)際應(yīng)用中,logit變換與probit變換的內(nèi)在差異與背后假定問題常為人們所忽視,進(jìn)而影響了參數(shù)解釋。

1 辛普森悖論問題

辛普森悖論最早于1899年由卡爾·皮爾森(Karl Pearson)提出,但一直到1951年E.H.辛普森才正式描述并解釋這一現(xiàn)象,后來就以他的名字命名該悖論。關(guān)于辛普森悖論,國內(nèi)學(xué)者關(guān)注不多,只有李思一(1984)、王軼豪(1986)、倪加勛(1992)、吳素萍(2000)、耿直(2000)、史希來(2006)、王?。?008)等人作過介紹性研究。

辛普森悖論是指,在分組比較中都占優(yōu)勢的一方,在總體評價中卻并不占優(yōu)勢。我們先來看一個源自真實(shí)生活的案例。1979年初,《美國歷史畫報》雜志對讀者類型和獲得期刊的方式進(jìn)行了統(tǒng)計(jì)[3]。見表1。

表1 《美國歷史畫報》統(tǒng)計(jì)

從表1可以看出,五種訂閱方式中,老訂戶1月份的續(xù)訂率要高于2月份,但合計(jì)后總的續(xù)訂率卻要低于2月份。除了上述案例外,還有其他很多真實(shí)的數(shù)據(jù)表現(xiàn)出了辛普森悖論現(xiàn)象,如Bickel等(1975),Wagner(1982),Neufeld(1995)。總之,辛普森悖論不是虛幻的,而是客觀存在的。問題是如何解釋辛普森悖論的產(chǎn)生原因。

由于統(tǒng)計(jì)的基礎(chǔ)在于概率,于是人們就從概率論加以解釋。辛普森悖論可定義為以下三種情況同時發(fā)生:

(1)P(I|A,B)>P(I|A,B');(2)P(I|A',B)>P(I|A'B');(3)P(I|B)

式(1)表示A在B下發(fā)生的概率大于A在B’下發(fā)生的概率。式(2)表示A’在B下發(fā)生的概率大于A在B’下發(fā)生的概率。式(3)表示B發(fā)生的概率小于B’發(fā)生的概率。

可以證明,如果保持試驗(yàn)的結(jié)構(gòu)相同,即P(A|B)=P(A|B')成立時,就可以避免辛普森悖論的出現(xiàn)(證明參見倪加勛,1992)。

雖然從概率角度可以詮釋辛普森悖論問題,但在筆者看來,這種詮釋具有柏拉圖“理念論”的色彩。因?yàn)檫@里遵從的是概率的頻率定義(列聯(lián)表中表征的是頻率),即

語文教師課堂主導(dǎo)地位的基石應(yīng)該是教師對文本的理解和認(rèn)識。我們要把握文本的定性解讀,但一個有一定教齡的語文教師應(yīng)該警惕與文本對話環(huán)節(jié)的僵化少變,經(jīng)典文本是常讀常新的。正如德國的接受理論先驅(qū)漢斯·羅伯特·姚斯所指出的,“一部文學(xué)作品,并不是一個自身獨(dú)立、向每一個時代的每個讀者均提供同樣觀點(diǎn)的客體,它不是一尊紀(jì)念碑,形而上學(xué)地展示其超時代的本質(zhì),它更多像一部管弦樂譜,在其演奏中不斷獲得讀者新的反響……使文本成為一種當(dāng)代的存在?!蔽覀儜?yīng)該在和文本對話的過程中賦予它超越時空的生命力,讓它成為一種“當(dāng)代的存在”。

事實(shí)上,由于試驗(yàn)或觀測次數(shù)N為∞是做不到的,因此,列聯(lián)表中的相對頻率只能說是對概率的一種柏拉圖意義上的“理念”摹本,近似到何種程度仍然是有疑問的。

如果從“現(xiàn)象”出發(fā),就會發(fā)現(xiàn):辛普森悖論與其說是悖論,不如說反映了社會統(tǒng)計(jì)分析對象的獨(dú)特特征,即分類數(shù)據(jù)的非線性特征。正是因?yàn)榉蔷€性,使得列聯(lián)表在不同的結(jié)構(gòu)維度,表征了不可還原的不同統(tǒng)計(jì)信息。在上例中,由于將原始數(shù)據(jù)從三維結(jié)構(gòu)壓縮成二維結(jié)構(gòu),自然就失去了另一維的信息,分析結(jié)構(gòu)的不一致恰恰是不同維度統(tǒng)計(jì)信息的反映。因此,列聯(lián)表中的辛普森悖論實(shí)質(zhì)上是一個將高維空間降到低維空間的產(chǎn)物[4]。

事實(shí)上,這種由于降維而丟失信息在其他統(tǒng)計(jì)分析方法中也會發(fā)生。例如,因子分析,雖然在理論上可以有無數(shù)個因子載荷矩陣,且每一個因子載荷矩陣對于一組潛在因子。但只有通過變換得出或組合出更合理、更便于解釋的潛在因子時,因子分析才可以說是成功的。整個分析過程實(shí)際上是一個歐氏空間降維和坐標(biāo)變換(相當(dāng)于坐標(biāo)軸的剛性旋轉(zhuǎn))的過程;又如,聚類分析,實(shí)際上是將分布在歐氏空間的觀測數(shù)據(jù),投影到超橢球的方差最大方向和方差次大方向所形成的二維空間的平面上,然后按該平面上投影點(diǎn)之間的距離來直觀地劃分類別(相當(dāng)于對應(yīng)分析)。這也是一個歐氏空間的坐標(biāo)變換和降維過程。

總之,列聯(lián)表在“高保真”地表征分類數(shù)據(jù)信息的同時,由于分類數(shù)據(jù)的非線性特征,在降維的過程中自然而然會帶來“辛普森悖論”問題?!靶疗丈U摗钡膶?shí)質(zhì)是“結(jié)構(gòu)性”的,是不同列聯(lián)表結(jié)構(gòu)維度的統(tǒng)計(jì)信息差異。

2 變換問題

列聯(lián)表在本質(zhì)上是對稱的。當(dāng)社會統(tǒng)計(jì)分析的范圍拓展到不對稱的回歸分析時,考慮到因變量的分類屬性(categorical nature),回歸函數(shù)不可能是線性的,為此需要尋找一個鏈接函數(shù)(link functions),將分類變量的期望值變換成自變量的一個線性函數(shù)。在這里,有個常見的問題,即人們常常對鏈接函數(shù)logit與probit的內(nèi)在差異與背后假定不做辨析,進(jìn)而忽視這些差異與假定對于社會統(tǒng)計(jì)分析的參數(shù)解釋所具有的重要意義。

在回歸模型中納入分類變量作為自變量并不存在任何特別的難處,因?yàn)樗饕婕敖⑴c自變量不同類別相對應(yīng)的虛擬變量,所有已知回歸模型的性質(zhì)都可以直接推廣到方差和協(xié)方差分析模型。但對于因變量是分類變量時,情況就徹底改變了,線性回歸的許多知識都無法簡單地加以運(yùn)用。例如,對一個一二分因變量y,它的取值在[0,1]之間,一個自變量x,可以任意取值。我們知道,一個y對x的線性回歸意味著,x取任何值,預(yù)測線(predicted line)將不可避免地落在[0,1]之外,顯然這是不合理的。為此,我們需要尋找一個鏈接函數(shù)(link functions),將分類變量的期望值變換成自變量的一個線性函數(shù)。logit變換和probit變換就是其中最為典型的兩種變換。

先說logit變換。一般來說,logit變換可以解釋為成功對失敗之發(fā)生比率的對數(shù)。成功概率P的logit變換可以表示為:

Probit變換是logit變換的一個替代選擇。用數(shù)學(xué)公式表示為:

從上式可以看出,logit和probit兩種分布函數(shù)的公式很相似,實(shí)際上,函數(shù)值相差也并不大,且都繞著p=0.5對稱(圖1)。

無論是probit變換,還是logit變換,在社會統(tǒng)計(jì)分析中并沒有實(shí)質(zhì)上的理由確認(rèn)哪一種更優(yōu)。一些研究者基于中心極限定理往往傾向于probit變換,但在實(shí)際操作中,logit分布因概率分布和密度函數(shù)的簡單性而更受歡迎。

需要進(jìn)一步指出的是,區(qū)分兩種變換的內(nèi)在差異與背后假定是相當(dāng)重要的:

首先,就分布來說,logit函數(shù)假設(shè)隨機(jī)變量服從邏輯概率分布,而probit函數(shù)則假設(shè)隨機(jī)變量服從正態(tài)分布。標(biāo)準(zhǔn)邏輯概率分布和標(biāo)準(zhǔn)正態(tài)分布的均值都為0,但方差不同,前者的方差為π2/3,后者的方差為0。這一差別進(jìn)一步體現(xiàn)為logit模型的系數(shù)比可比的probit系數(shù)年要大。從理論上來講,一個probit模型系數(shù)大約乘以1.81就應(yīng)當(dāng)?shù)玫揭粋€接近于logit系數(shù)的值。同理,logit估計(jì)值乘上大約0.55就可以得到一個近似的probit估計(jì)值。在實(shí)際操作中,有研究者建議以1.61和0.625作為乘數(shù)以得到更接近的近似值[7]。

其次,無論logit變換還是probit變換在0.2~0.8之間基本呈現(xiàn)線性。在這個范圍之外,兩個函數(shù)都是高度非線性的。這意味著,如果P被作為一個連續(xù)解釋變量(x)的函數(shù)進(jìn)行統(tǒng)計(jì)建模,x對p的影響就不是常數(shù),而會隨x的變化而變化。例如,我們發(fā)現(xiàn)當(dāng)probit(pi)=logit(pi)=β0+β1xi=0時,x變化所帶來的變化比probit(pi)<0,logit(pi)<0或probit(pi)>0,logit(pi)> 0時要更大。這一點(diǎn)在對logit和probit系數(shù)進(jìn)行解釋時要特別注意其特定的含義。

3 結(jié)語

社會統(tǒng)計(jì)分析就其對象的數(shù)學(xué)形式來說與其他統(tǒng)計(jì)分析并無差異,都可用統(tǒng)一的矩陣表示:

但由于社會統(tǒng)計(jì)分析的數(shù)據(jù)絕大數(shù)是分類意義上的,使得列聯(lián)表分析、尋找鏈接函數(shù)成為突出的兩大應(yīng)用性問題。

本文探討了隱現(xiàn)于列聯(lián)表分析中辛普森悖論問題,分析了回歸分析中l(wèi)ogit變換與probit變換的內(nèi)在差異與相關(guān)假定。認(rèn)為,辛普森悖論誠然可以通過全概公式加以解釋,但實(shí)質(zhì)上是歐氏空間的降維問題,是列聯(lián)表不同維度數(shù)據(jù)結(jié)構(gòu)的統(tǒng)計(jì)信息差異性反映;無論logit與probit函數(shù)只有在0.2~0.8之間才基本呈現(xiàn)線性,在這個范圍之外,兩個函數(shù)都是高度非線性的。上述兩個應(yīng)用性問題無疑對于社會統(tǒng)計(jì)分析的參數(shù)解釋有著特殊的意義。

[1]丹尼爾A鮑威斯(Daniel A.Powers),謝宇.分類數(shù)據(jù)分析的統(tǒng)計(jì)方法[M].北京:社會科學(xué)文獻(xiàn)出版社,2009.

[2]S.S.Stevens.On the Theory of Scales of Measurement[J].Science. New Series,1946,(103).

[3]Glifford,H W.Simpson’s Paradox in Real Life[J].The American Statistician,1982,(36).

[4]史希來.屬性數(shù)據(jù)分析引論[M].北京:北京大學(xué)出版社,2006.

[5]Thurstone,L.L.A Law of Comparative Judgment[J].Psychological Review,1927,(34).

[6]Cox,D.R.The Analysis of Binary Data[M].London:Chapman and Hall, 1970.Finey,D.J.Probit Analysis(3rdEdition)[M].Cambridge:Cambridge University Press.

[7]Amemiya,T.Qualitative Response Models:A Survey[J].Journal of Economic Literature,1991,(19).

[8]Maddala,G.S.Limited-Dependent and Qualitative Variables in Economics[M].Cambridge:Cambridge University Press.

(責(zé)任編輯/亦民)

C81

A

1002-6487(2011)06-0024-02

教育部人文社會科學(xué)研究青年基金資助項(xiàng)目(10YJC840014);中國博士后科學(xué)基金資助項(xiàng)目(20100470620)

程中興(1975-),男,安徽懷寧人,博士后,副教授,研究方向:社會研究方法。

猜你喜歡
辛普森悖論線性
視神經(jīng)炎的悖論
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
海島悖論
線性回歸方程的求解與應(yīng)用
數(shù)學(xué)中的似是而非——辛普森悖論
“帽子悖論”
二階線性微分方程的解法
美妝悖論
基于線性正則變換的 LMS 自適應(yīng)濾波
賽跑