国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

方差分析與回歸分析的整合:虛擬變量與設計矩陣

2018-07-12 08:36郭少陽鄭蟬金陳彥壘
統(tǒng)計與決策 2018年12期
關鍵詞:回歸系數(shù)均值效應

郭少陽,鄭蟬金,陳彥壘

(1.江西師范大學 心理學院,南昌 330022;2.聊城大學 教育科學學院,山東 聊城 252059)

0 引言

方差分析與回歸分析同質(zhì)么?面對這一理論問題,不少初學者甚至教學者都難以給出準確的答案。近年來,隨著各類統(tǒng)計方法愈加多樣復雜,如何掌握這些新興方法成為了統(tǒng)計學習的一大難題,這既不符合統(tǒng)計學起源的初衷,也不利于實證科學的發(fā)展進步。為了加深對統(tǒng)計方法本身的理解,提高統(tǒng)計學習的效率,方法統(tǒng)一與模型整合日益成為當前統(tǒng)計學研究的一大熱點[1-3]。

在社會科學的實證研究中,方差分析與回歸分析作為最實用的統(tǒng)計方法,已被廣泛應用于各個領域的數(shù)據(jù)分析當中。一般來講,方差分析主要用于檢驗多個樣本均值之間是否存在顯著性差異,進而以樣本推斷總體;而回歸分析的目的則是建立自變量與因變量間的作用模型,以便對未來做出理論預測[4]。表面上來看,這兩種方法之間似乎并無關聯(lián),大多數(shù)統(tǒng)計教材也傾向于將這兩種方法按照相互獨立的章節(jié)分別論述,并未探討二者的本質(zhì)關系;但實質(zhì)上,二者都在利用方差的可分解性,從總變異中分解出所需的目標變異及誤差變異,其解決問題的方法及思路是一致的,這種內(nèi)在聯(lián)系天然蘊含在兩種方法當中。正如t檢驗可以看作是F檢驗的一個特例,本文認為,方差分析也可以看作是回歸分析的一個特例,通過虛擬變量及設計矩陣,可令方差分析與回歸分析實現(xiàn)統(tǒng)一。

1 方差分析與回歸分析的統(tǒng)計模型

首先,以單因素方差分析為例,其統(tǒng)計模型與虛無假設為:

其中Yij表示第j個處理水平上第i個被試的得分,μ表示總體均值,μ1至μj表示各組均值,αj表示第j個水平的處理效應,eij是一個服從正態(tài)分布的隨機誤差。方差分析假定任意被試只受其所在處理水平的影響,那么,便可將模型改寫為另一種等價形式:

即:

其中U=,E為隨機誤差。

同時,多元回歸分析的基礎統(tǒng)計模型為:

顯然,改寫后的方差分析模型(3)與多元回歸模型(4)非常相似,這就意味著,可以嘗試對回歸分析的自變量矩陣X進行改造,來使兩種方法得以整合,也就是所謂的“以回歸的方式做方差分析”。

2 虛擬變量與設計矩陣

虛擬變量,又稱啞變量,是對客觀事物進行量化處理的一種人工編碼形式,虛擬變量的引入雖然會令回歸模型更加復雜,但卻極大地簡化了模型解釋的問題[5]。要整合方差分析與回歸分析,首要問題便是如何使用虛擬變量令回歸截距等于總體均值(即處理效應之和,回歸系數(shù)代表組與總體均值之差(即αj=μj-μ)。舉例來說,通常使用二分法(1,0)對自變量性別進行虛擬編碼,以0表示參照組(如女性),1表示觀察組(如男性),假設以月收入作為因變量進行一元回歸分析,得到回歸方程:月收入=3000-500×性別。此時,截距3000即為女性月收入,-500則是男女月收入之差。顯然,這種編碼方式著重考察組間差異,其截距等于參照組的組均值,回歸系數(shù)代表組間收入差值,適用于進行事后檢驗或簡單效應檢驗,但卻不符合方差分析整體檢驗的基本要求。要解決這一問題,最簡單的方式便是將參照組的0轉(zhuǎn)碼為-1,使虛擬變量的均值為0,重新進行回歸,便可使截距及回歸系數(shù)的含義與方差分析一致:截距等于總體均值,斜率等于處理效應。若將這種二分法的編碼思路擴展到多組比較之中,便可得到回歸分析的設計矩陣。

所謂設計矩陣,是一種由觀測結果中的所有解釋變量的值構成的矩陣,能夠形象簡練地表示理論假設或?qū)嶒炋幚碇械脑O計構想,在回歸分析中,可用于處理自變量為分類變量時的建模問題。為了方便論述設計矩陣的構造方法及實例分析,本文援引舒華[6]在論述兩因素完全隨機設計時使用的實驗數(shù)據(jù),如表1所示,該數(shù)據(jù)包含24名被試在A(a1,a2)×B(b1,b2,b3)6種處理水平上的實驗結果。

表1 實驗數(shù)據(jù)

3 單因素方差分析及其設計矩陣

將虛擬變量擴展為適用于多組比較的設計矩陣較為復雜,本文將以單因素三水平方差分析為例(僅考慮表1中的B因素)進行論述。首先,若某個因素有三個水平(b1,b2,b3),使用二分法判斷任意單個被試是否接受任意處理的水平時,其判斷結果將以列向量的形式保留。例如,(1,0,0)T,(0,1,0)T,(0,0,1)T分別表示某被試僅接受了 b1,b2或b3水平的處理,觀察三個向量可以發(fā)現(xiàn),末尾列向量(0,0,1)T的判斷結果完全受制于其他向量,它所包含的信息是重復且多余的,故而可將其直接舍棄,換言之,判斷結果的自由度為處理水平數(shù)減1,本例中即為2個自由度。其次,在多組比較時,二分法以在所有水平編碼均為0的組作為參照組,并以參照組均值作為多組比較的基線,正如前文所述,要以總體均值作為基線,需要將參照組進行轉(zhuǎn)碼,即(1,0,-1)T,(0,1,-1)T。最后,將被試按照處理水平進行排序,擴展包含虛擬編碼的列向量,便可得到一個包含全部被試及其處理情況的設計矩陣:

其中,角標為該處理水平擁有的被試數(shù)量,本例中代表包含8個相同主元素的列向量。若使用該設計矩陣對因變量Y進行回歸,得到回歸方程:

其中β1表示b1水平的處理效應,也就是b1水平組均值與總體均值之差;β2表示b2水平的處理效應,b3水平的處理效應β3可由回歸方程推導得出,即:β3=-β1-β2;與此同時,回歸系數(shù)的有效性檢驗也等價于檢驗處理效應是否顯著。為了驗證推導結果是否正確,本文使用SPSS 20.0分別對表1中的數(shù)據(jù)進行方差分析及回歸分析(自變量為設計矩陣),對比兩種分析的處理結果。

表2 單因素方差分析表(*p<0.05)

表3 單因素設計矩陣回歸分析表(*p<0.05)

如表2和表3所示,兩種方法所得到的處理效應、F值,以及效果量(η2與R2)完全一致,至此,本文便以設計矩陣為中介,實現(xiàn)了回歸分析與單因素方差分析的統(tǒng)一。

4 兩因素方差分析及其簡單效應檢驗

4.1 綜合的F檢驗

相較于其他統(tǒng)計方法,方差分析的最大優(yōu)勢便是可以用于處理多變量間復雜的交互作用,那么,能否利用設計矩陣在回歸方程中實現(xiàn)交互作用分析呢?本文首先借鑒一下回歸分析中調(diào)節(jié)效應檢驗的基本方法[7]。所謂調(diào)節(jié)效應,就是考察自變量何時影響因變量或自變量何時對因變量的影響最大,其基本的統(tǒng)計模型為[8]:Y=U+γ1X+γ2M+其中X,M均為中心化連續(xù)變量,MX的乘積表示調(diào)節(jié)效應,回歸系數(shù)γ3表示調(diào)節(jié)效應大小。溫忠麟等[8]認為,調(diào)節(jié)效應可以看做是交互作用的一個特例,故而可以嘗試將這種乘積法的思路推廣到設計矩陣的構造中。

如公式(7)所示,首先,依據(jù)表1中A,B兩個因素各自的處理水平,分別構造兩個獨立的單因素設計矩陣(使用相同的數(shù)據(jù)排序方式);之后,將XA中各列向量所屬元素依次與XB中各列向量對應元素兩兩相乘,由此可得到乘積矩陣;最后,將三個矩陣依次合并,便得到了完整的設計矩陣,其對應的回歸方程為:

其中α1表示a1水平的處理效應,也就是a1水平組均值與總體均值之差;β1,β2分別表示b1和b2水平的處理效應;λ11和λ12表示a1b1,a1b2與總體均值之差。同理,可由方程α2,β3,以及相應的交互作用λ13,λ21,λ22和λ23。為驗證推導結果,本文同樣使用SPSS對表1中的數(shù)據(jù)進行二因素方差分析及相應回歸分析。

如表4和表5所示,如使用完整的設計矩陣進行回歸,則僅能得到一個整體的回歸及殘差平方和,也就是相當于方差分析中的組間及組內(nèi)效應,要得到每個因素單獨的平方和,需要將各因素的設計矩陣分別獨立的進行回歸,并使用統(tǒng)一的整體殘差平方和計算F值。當然,這僅僅是理論上二者相互轉(zhuǎn)化的一種關系,在實際應用中,研究者無需額外關注回歸分析中各因素的回歸平方和,僅需要通過回歸系數(shù)的有效性檢驗,便可以直接判斷主效應及交互作用是否顯著。

表 4 兩因素方差分析表 (***p<0.001)

4.2 簡單效應檢驗

至于簡單效應檢驗,由于其虛無假設發(fā)生改變,故而設計矩陣也要加以變化。事實上,簡單效應檢驗是一種邊際化的交互作用分析,以B因素在a1的簡單效應檢驗為例,統(tǒng)計分析的核心由兩因素的整體關系變?yōu)榱四骋凰脚c另一因素的關系。因此,需要邊際化交互作用矩陣XAB,排除A因素中其他水平的作用,如a2。如公式(9)所示,要實現(xiàn)這一目的,僅需將A因素的設計矩陣復原為(1,0)編碼,其中1表示待檢驗處理水平,0表示其他水平,然后與B因素設計矩陣對應相乘,就得到了簡單效應檢驗的設計矩陣。從表4和表5中可知,兩種方法產(chǎn)生的簡單效應平方和完全一致,至此,多因素方差分析與回歸分析的模型統(tǒng)一得以實現(xiàn)。

表5 兩因素設計矩陣回歸分析表 (***p<0.001)

4.3 事后檢驗與多重比較

正如前文所述,方差分析是一種綜合的整體檢驗,在研究者拒絕原假設之后,數(shù)據(jù)分析的關注點也從處理效應與均值之間的差異轉(zhuǎn)變?yōu)楦鹘M之間是否存在顯著差異,也就是方差分析體系下的事后檢驗及多重比較。嚴格來說,這些后續(xù)的步驟已經(jīng)超出了方差分析的檢驗范疇,普遍使用諸如LSD,S-N-K等方法對各個水平進行兩兩比較。事實上,這些兩兩比較在回歸分析的框架下,通過對回歸系數(shù)的有效性檢驗,可以直接得到。

在綜合的F檢驗中,本文將參照組的編碼設置為-1以保障回歸截距等于總體均值,使回歸系數(shù)等于處理效應,其檢驗結果代表組均值與總體均值之間是否存在顯著差異。在進行多重比較時,本文的關注點不再是組與總體,而是組與組之間的差異。因此,需要令回歸截距等于參照組的組均值,即將-1轉(zhuǎn)碼為0,使回歸系數(shù)代表觀察組與參照組的離均差,于是,回歸系數(shù)的檢驗結果便等價于事后檢驗的結果了。

5 討論

5.1 方差分析與回歸分析的本質(zhì)關系

直觀上來講,回歸分析的自變量通常為連續(xù)型數(shù)據(jù),而方差分析的自變量則是分類數(shù)據(jù),這種數(shù)據(jù)驅(qū)動所導致的刻板印象使統(tǒng)計學習者模糊了方差分析與回歸分析的本質(zhì)關系,將二者視為截然不同的兩類統(tǒng)計方法。事實上,分類數(shù)據(jù)與連續(xù)數(shù)據(jù)之間存在一種遞推的關系,研究者往往可以通過對詳盡的連續(xù)數(shù)據(jù)進行人工劃分來得到分類數(shù)據(jù)。反之,卻無法由分類數(shù)據(jù)得到完整連續(xù)變量,也就是說,分類數(shù)據(jù)可以看作是連續(xù)數(shù)據(jù)的一個特例,本文使用虛擬變量及設計矩陣便是起到了數(shù)據(jù)轉(zhuǎn)化的作用。正如皮爾遜積差相關與點二列相關在處理二分變量時結果一致,適用于處理連續(xù)變量的統(tǒng)計方法往往可以同時處理分類數(shù)據(jù),這也是方差分析可由回歸分析遞推而來的底層因素。

就模型本身來看,方差分析與回歸分析同屬一般線性模型,其模型的基本形式都可表達為Y=XB+E,這就使得兩種方法在本源上是相通的,使模型等價成為可能。在數(shù)據(jù)處理的層面,二者均采用平方和分解的形式進行分析,有所不同的是,方差分析致力于層層分解各個因素所導致的變異,而回歸分析卻通常僅考慮全部的預測源所帶來的效應,即組間平方和等于回歸平方和。因此,研究者需要使各因素分別獨立地對因變量進行回歸,得到各自的回歸平方和,便可實現(xiàn)二者的統(tǒng)一了。綜上所述,方差分析可以看作是回歸分析的一個特例,其分析結果全部可由回歸分析進行遞推。

5.2 簡練的計算過程

傳統(tǒng)的方差分析具有一整套完備龐大的計算體系[6],變量的增加和水平的變化都會影響到計算過程,使統(tǒng)計初學者備受困擾。雖然現(xiàn)階段介紹方差分析的統(tǒng)計教材、專著非常豐富,但這并不能減少方差分析計算過程本身的復雜性。相比之下,回歸分析幾乎在任何情況下都可以使用統(tǒng)一的公式(最小二乘法,公式)得到計算結果,不受自變量或設計矩陣X變化的影響,計算過程簡單明確,易于理解。因此,采用回歸的方法做方差分析既有利于簡化統(tǒng)計學習的難度,也有利于快速得到計算結果。

5.3 更具解釋力的統(tǒng)計結果

方差分析所得到的統(tǒng)計結果通常是具有結論性質(zhì)的,例如,組A與組B的均值存在顯著差異;水平a1在B因素上不存在顯著差異,這種單調(diào)乏味的統(tǒng)計結果往往很難給人以直觀的感受,也不難從總整體的角度給出一個宏觀的結果解釋。相比之下,回歸分析建立的統(tǒng)計模型更具解釋效力,以前文中兩因素實驗設計為例(X兩因素),其回歸模型為:

其中α1,β1,α1β1達到顯著性水平。

通過這個回歸模型,可以用簡單代數(shù)的方式(1,0,-1)得到各組的處理均值,同時,由回歸系數(shù)顯著性檢驗的結果判斷各處理效應是否有效。顯然,回歸分析在模型解釋上比方差分析更為簡練、直觀,在復雜實驗條件下更有利于研究者理解和把握統(tǒng)計結果。

猜你喜歡
回歸系數(shù)均值效應
鈾對大型溞的急性毒性效應
懶馬效應
均值—方差分析及CAPM模型的運用
均值—方差分析及CAPM模型的運用
多元線性回歸的估值漂移及其判定方法
電導法協(xié)同Logistic方程進行6種蘋果砧木抗寒性的比較
電導法協(xié)同Logistic方程進行6種蘋果砧木抗寒性的比較
應變效應及其應用
關于均值有界變差函數(shù)的重要不等式
城鎮(zhèn)居民收入差距主要因素回歸分析
衡东县| 繁昌县| 江北区| 顺昌县| 特克斯县| 惠水县| 锦州市| 凤凰县| 英吉沙县| 嘉善县| 济南市| 钟山县| 遵义县| 拜城县| 古浪县| 凯里市| 湖南省| 乐昌市| 平邑县| 周口市| 淳安县| 卢龙县| 西林县| 南汇区| 千阳县| 鄂伦春自治旗| 陈巴尔虎旗| 五台县| 清新县| 高尔夫| 淮阳县| 阿勒泰市| 宁国市| 江北区| 手游| 敦化市| 毕节市| 玉龙| 文安县| 沙雅县| 桑植县|