李育冬,吳 昊,夏蘇清
(1新疆大學(xué) 經(jīng)濟(jì)與管理學(xué)院,新疆 烏魯木齊830046;2解放軍69081部隊(duì),新疆 烏魯木齊830000)
在經(jīng)濟(jì)學(xué)構(gòu)建回歸模型分析時(shí),經(jīng)典的簡單最小二乘估計(jì)(OLS),必須滿足高斯假設(shè)等苛刻的假設(shè)條件,而在實(shí)際分析經(jīng)濟(jì)學(xué)問題的時(shí)候,解釋變量之間完全不相關(guān)的情形是十分少見的,由于經(jīng)濟(jì)學(xué)分析的社會(huì)問題往往涉及面廣泛,考察的自變量多,當(dāng)研究時(shí)間序列數(shù)據(jù)時(shí)候,大多數(shù)自變量隨著時(shí)間變化往往存在共同的變化趨勢,使得它們之間在某種程度上存在著一定的共線性;而對(duì)于截面數(shù)據(jù)常常也存在自變量高度自相關(guān)的情況,而存在著共線性會(huì)給模型帶來許多不確定性的結(jié)果。
(一)多重共線性的定義
設(shè)回歸模型y=β0+β1x1+β2x2+…+βpxp+ε如果矩陣X的列向量存在一組不全為零的p+1個(gè)數(shù)k0,k1,k2…kp使得k0+k1xi1+k2xi2+…+kpxip=0,i=1,2,…n,則稱其存在完全共線性,如果k0+k1xi1+k2xi2+…+kpxip≈0,i=1,2,…n,則稱其存在多重共線性,也稱復(fù)共線性。
(二)多重共線性的后果
多重共線性其實(shí)是由樣本容量太小所造成的后果,當(dāng)樣本容量n很小的時(shí)候,多重共線性才是非常嚴(yán)重的。在不同口徑下有關(guān)的許多變量,變量太多不但會(huì)增加計(jì)算的復(fù)雜性,而且也給全面合理地分析問題和解決問題帶來很大困難,雖然每個(gè)變量都提供了一定的信息,但每個(gè)變量的重要性有所不同。當(dāng)存在多重共線性時(shí),自變量用來解釋因變量所提供的信息出現(xiàn)重疊,多重共線性導(dǎo)致模型回歸系數(shù)參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差變大,置信區(qū)間變寬,利用OLS估計(jì)得到的回歸參數(shù)估計(jì)值很不穩(wěn)定,回歸系數(shù)的方差隨著隨著多重共線性強(qiáng)度的增加而加速增長,常常會(huì)出現(xiàn)在回歸方程高度顯著的情況之下,有些回歸系數(shù)通不過顯著性檢驗(yàn),還常常會(huì)出現(xiàn)回歸系數(shù)正負(fù)號(hào)得不到合理的經(jīng)濟(jì)學(xué)解釋。因此,在經(jīng)濟(jì)學(xué)研究之中構(gòu)建多元回歸模型考察因變量時(shí)要消除多重共線性的影響。[1]180-183
多重共線性的常見影響有:
(1)在存在多重共線性的情況下,得到的OLS估計(jì)結(jié)果是最優(yōu)線性無偏估計(jì)的,但有較大的方差和協(xié)方差,估計(jì)精度不高,最突出的就是參數(shù)估計(jì)值的方差增大;
當(dāng)r23增大時(shí),Var()也增大。
(2)對(duì)參數(shù)區(qū)間估計(jì)時(shí),置信區(qū)間趨于變大,使得接受原假設(shè)H0的概率更大;
(3)假設(shè)檢驗(yàn)容易作出錯(cuò)誤的判斷;
(4)可能造成擬合優(yōu)度R2較高,但對(duì)各個(gè)參數(shù)單獨(dú)的t檢驗(yàn)卻可能不顯著,甚至可能使估計(jì)的回歸系數(shù)符號(hào)相反,得出完全錯(cuò)誤的結(jié)論,得不出合理的經(jīng)濟(jì)學(xué)解釋。
(5)OLS估計(jì)量及其標(biāo)準(zhǔn)誤對(duì)數(shù)據(jù)微小的變化也會(huì)很敏感。
(三)多重共線性產(chǎn)生的原因
(1)經(jīng)濟(jì)變量之間具有共同變化趨勢。由于考察的自變量隨時(shí)間變化往往有共同的變化趨勢,往往受到共同因素的影響,各個(gè)自變量之間存在著共線性。例如當(dāng)經(jīng)濟(jì)出現(xiàn)大繁榮時(shí),反映經(jīng)濟(jì)情況的指標(biāo)都有可能按著某種比例關(guān)系增長。
(2)模型中包含滯后變量。滯后變量的引入也會(huì)產(chǎn)生多重共線行,例如本期的消費(fèi)水平除了受本期的收因素入影響之外,還有可能受前期的收入因素影響,建立模型時(shí),本期的收入水平就有可能和前期的收入水平存在著共線性。
(3)利用截面數(shù)據(jù)建立模型也可能出現(xiàn)多重共線性。在經(jīng)濟(jì)學(xué)研究建立多元回歸模型時(shí)利用的截面數(shù)據(jù)本身就有可能存在自相關(guān)性,如果沒有進(jìn)行處理建立的模型就有可能存在著共線性。
(4)樣本數(shù)據(jù)采集方法的原因。
(四)多重共線性的識(shí)別
1.簡單觀察法
(1)在自變量的相關(guān)系數(shù)矩陣中,一些自變量的相關(guān)系數(shù)值比較大;
(2)回歸系數(shù)的符號(hào)與經(jīng)濟(jì)學(xué)常識(shí)相反或者難以解釋;
(3)重要考察的自變量的置信區(qū)間過大;
(4)如果增加一個(gè)變量或刪除一個(gè)變量,回歸系數(shù)的估計(jì)值發(fā)生了很大的變化;
(5)對(duì)重要的自變量的回歸系數(shù)進(jìn)行t檢驗(yàn),其結(jié)果不顯著,但是F檢驗(yàn)確得到了顯著的通過。
2.方差擴(kuò)大因子法(VIF)
3.特征根判定法
由于矩陣行列式的值等于其特征根的連乘積,因此當(dāng)行列式|X′X|≈0時(shí),至少有一個(gè)特征根為零,反過來,可以證明矩陣至少有一個(gè)特征根近似為零時(shí),X的列向量必存在多重共線性,同樣也可證明X′X有多少個(gè)特征根近似為零矩陣,X就有多少個(gè)多重共線性。根據(jù)條件數(shù)其中λ為最大的特征根,λ為其mi他的特征根,通常認(rèn)為0<K<10,沒有多重共線性,100>K>10存在著一般多重共線性,K>100存在著嚴(yán)重多重共線性。
(五)多重共線性的處理方法
1.增加樣本容量
當(dāng)多重共線性出現(xiàn)是由于測量誤差引起的,而不存在于總體樣本時(shí),通過增加樣本容量可以減少或是避免線性重合,但是在現(xiàn)實(shí)的生活中,由于受到各種統(tǒng)計(jì)數(shù)據(jù)不足的限制,增加樣本容量有時(shí)又是不現(xiàn)實(shí)的。
2.剔除法
當(dāng)面當(dāng)面臨嚴(yán)重的共線性時(shí),一種最簡單的方法就是剔除掉一些不太重要的自變量,主要有向前法和后退法,逐步回歸法。但決定保留或剔除哪些自變量并不是一件容易的事。因此,如何判斷某個(gè)變量是否重要,是此方法的關(guān)鍵。從模型中刪除一個(gè)變量,還可能導(dǎo)致設(shè)定偏誤。此外,在一些經(jīng)濟(jì)模型中,要求一些很重要變量必須包含在里面,這時(shí)如果貿(mào)然的刪除就不符合現(xiàn)實(shí)的經(jīng)濟(jì)意義。
3.主成分分析法
主成分分析一種處理嚴(yán)重共線性的有偏估計(jì)方法。當(dāng)自變量間有較強(qiáng)的線性相關(guān)性時(shí),利用p個(gè)變量的主成分,所具有的性質(zhì),如果他們是互不相關(guān)的,可由前m個(gè)主成Z1,Z2,…Zm來建立回歸模型。
由原始變量的觀測數(shù)據(jù)計(jì)算前m個(gè)主成分的得分值,將其作為主成分的觀測值,建立Y與主成分的回歸模型即得回歸方程。這時(shí)p元降為m元,這樣既簡化了回歸方程的結(jié)構(gòu),且消除了變量間相關(guān)性帶來的影響。然而,主成分估計(jì)提取的主成分與因變量關(guān)系也不密切,使模型的擬合效果降低;而且以此同時(shí)主成分的實(shí)際含義也不明確。[2-3]
4.偏最小二乘法(PLS)
PLS法是由H.Wold在1966年提出的PLS是由Wold(1966)提出的,PLS≈主成分估計(jì)+典型相關(guān)分析。PLS吸取了主成分估計(jì)的思想,提取的主成分考慮了對(duì)因變量的解釋能力,使估計(jì)值優(yōu)于主成分估計(jì)值??墒牵c此同時(shí)PLS也繼承了主成分估計(jì)的一些缺點(diǎn),如主成分含義也不明確、信息重疊等現(xiàn)象。
5.嶺回歸法
嶺回歸分析是由Heer首先提出的,他與肯納德合作,進(jìn)一步發(fā)展了該方法,在多元線性回歸模型的矩陣形式Y(jié)=Xβ+ε,參數(shù)β的普通最小二乘估計(jì)為β=(X′X)-1X′Y,嶺回歸當(dāng)自變量存在多重共線性|X′X|≈0時(shí),給矩陣加上一個(gè)正常系數(shù)矩陣kI,那么β=(X′X+kI)-1X′Y,當(dāng)時(shí)就是普通最小二乘估計(jì)。嶺回歸也是有偏估計(jì)方法。當(dāng)出現(xiàn)嚴(yán)重共線性時(shí),嶺估計(jì)往往比OLS估計(jì)量更穩(wěn)定,以及更小的協(xié)方差矩陣。嶺估計(jì)的最大困難是最優(yōu)k值的選擇。盡管人們提出了許多確定k值的原則和方法,但理論上還未得到滿意答案。此外,在實(shí)際應(yīng)用中k值必須通過樣本來確定,存在明顯的主觀性。[4]
根據(jù)烏魯木齊市統(tǒng)計(jì)年鑒[5],選取烏魯木齊市2000年至2012年的物流產(chǎn)業(yè)相關(guān)統(tǒng)計(jì)數(shù)據(jù)做一個(gè)多元回歸模型,選取烏魯木齊市的貨運(yùn)量周轉(zhuǎn)量(Y)為因變量,進(jìn)出口總額(X1)、社會(huì)消費(fèi)品零售總額(X2)、物流業(yè)就業(yè)人數(shù)(X3)、公路里程(X4)、郵電業(yè)務(wù)收入(X5)5個(gè)變量為自變量,將所有變量加以對(duì)數(shù)化處理。構(gòu)建多元回歸模型為LNY=β1LNX1+β2LNX2+β3LNX3+β4LNX4+β5LNX5+ε……(3.1);其中ε為隨機(jī)干擾項(xiàng)。
1.簡單最小二乘估計(jì)法
運(yùn)用SPSS統(tǒng)計(jì)軟件進(jìn)行分析,從簡單二乘法估計(jì)結(jié)果可以看到,調(diào)整的擬合優(yōu)度R2=1,F(xiàn)=34880.71,在置信水平為95%,自由度4,方程通過了顯著性的檢驗(yàn),從整體上來說方程得到了很好的擬合,通過篩選方程剔除了自變量LNX2,同時(shí)變量LNX1,LNX3不顯著,LNX1系數(shù)為負(fù),和經(jīng)濟(jì)學(xué)的原理相反。方差擴(kuò)大因子VIF1=2649.482,VIF2=659.07917,VIF3=1463.4738,VIF4=1585.8618.均大于10說明存在多重共線性。再由多重共線性診斷結(jié)果可以看到,特征值有兩個(gè)接近于零,最大條件數(shù)為120.408,且直觀可以看出,第四個(gè)特征值的方差既可以解釋LNX1方差的98%,也可以解釋LNX3方差的86%,說明自變量間存在著嚴(yán)重的多重共線性。
2.運(yùn)用嶺回歸解決多重共線性
用SPSS軟件采用嶺回歸法做出的結(jié)果如下:
表1 嶺參數(shù)K值表
從嶺跡圖上看,最小二乘的穩(wěn)定性很差,當(dāng)K稍微增大時(shí),系數(shù)有較大的變化。對(duì)各個(gè)變量分別來看,當(dāng)K=0,LNX2、LNX3、LNX4、LNX5對(duì)于變量有顯著性正的影響,LNX1對(duì)于變量有負(fù)的影響,從嶺回歸的角度來看,自變量LNX2,LNX3,LNX4隨 K的增大其系數(shù)值迅速減小最終趨于穩(wěn)定,LNX1隨K的增大其系數(shù)值迅速增加最終趨于穩(wěn)定,當(dāng)K逐漸增大時(shí),LNX1由負(fù)的影響迅速變?yōu)檎挠绊懖⑶亿呄蛴诜€(wěn)定,由此決定用5個(gè)變量做嶺回歸。把嶺參數(shù)步長改為0.02,范圍縮小到0.2,在SPSS中用命令生成得到如下結(jié)果:
表2 調(diào)嶺參數(shù)步長=0.02后嶺參數(shù)K值表
從嶺參數(shù)K值表結(jié)果看,當(dāng)嶺參數(shù)K在0.06-0.10之間已經(jīng)基本穩(wěn)定,當(dāng)K=0.08時(shí)候,R2=0.98322仍然很大,因而可以選取嶺參數(shù)K=0.08,給定K=0.08再次做嶺回歸,得到輸出結(jié)果如表3所示。
表3 K=0.08時(shí)嶺回歸輸出結(jié)果
由嶺回歸輸出結(jié)果可以得到LNY對(duì)于LNX1,LNX2,LNX3,LNX4,LNX5標(biāo)準(zhǔn)化嶺回歸方程為:
由此我們可以看出,通過標(biāo)準(zhǔn)化嶺回歸得到的T統(tǒng)計(jì)量比OLS估計(jì)顯著,各個(gè)變量的系數(shù)經(jīng)濟(jì)意義也更加合理,可以看到各個(gè)變量對(duì)烏魯木齊貨運(yùn)量不同程度的影響。
3.主成分分析法
用SPSS軟件采用主成分分析法可以得到前兩個(gè)因子的累積貢獻(xiàn)率已經(jīng)達(dá)到91%以上,故取因子數(shù)m=2。提取出公共因子,為了使因子便于解釋,使用方差極大法將因子旋轉(zhuǎn),采用回歸法估計(jì)因子得分系數(shù),得出函數(shù)如下:
進(jìn)而可以得出,
由上面的分析我們看到嶺回歸和主成分的所得到的結(jié)果比較接近,得出的各個(gè)系數(shù)比較簡單二乘法也更加的合理,更加符合現(xiàn)實(shí)意義。
主成分分析法和嶺回歸法所估計(jì)的參數(shù),都已經(jīng)不是無偏的估計(jì),主成分分析法作為多元統(tǒng)計(jì)分析的一種常用方法在處理多變量問題時(shí)具有其一定的優(yōu)越性,其降維的優(yōu)勢是明顯的,主成分回歸方法對(duì)于一般的多重共線性問題還是適用的,尤其是對(duì)共線性較強(qiáng)的變量之間.嶺回歸法估計(jì)是通過最小二乘法的改進(jìn)允許回歸系數(shù)的有偏估計(jì)量存在而補(bǔ)救多重共線性的方法,采用它可以通過允許小的誤差而換取高于無偏估計(jì)量的精度,因此它接近真實(shí)值的可能性較大,但k值的選取具有主觀性,選取不當(dāng)可能造成很大誤差。作為統(tǒng)計(jì)方法,每種方法都有其適用范圍,沒有一種統(tǒng)計(jì)方法具有超過其他方法的特殊優(yōu)勢,在實(shí)際計(jì)量統(tǒng)計(jì)分析需要依據(jù)考察因變量、自變量的特點(diǎn)和數(shù)據(jù)特征靈活加以運(yùn)用。
[1]何曉群.應(yīng)用回歸分析[M].北京:中國人民大學(xué)出版社,2007.
[2]白雪梅,趙松山.更深入地認(rèn)識(shí)多重共線性[J].東北財(cái)經(jīng)大學(xué)學(xué)報(bào),2005(2):8-12.
[3]劉羅曼.用主成分回歸分析解決回歸模型中復(fù)共線性問題[J].沈陽師范大學(xué)學(xué)報(bào):自然科學(xué)版,2008(1):42-44.
[4]劉國旗.多重共線性的產(chǎn)生原因及其診斷處理[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2001(4):607-610.
[5]烏魯木齊統(tǒng)計(jì)局.烏魯木齊統(tǒng)計(jì)年鑒2012[M].北京:中國統(tǒng)計(jì)出版社,2012.
東南大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)2013年2期