周鑫
內(nèi)容提要:文章介紹了處理多元線性回歸模型中多重共線性問(wèn)題的有偏回歸方法——嶺回歸和偏最小二乘回歸,并通過(guò)實(shí)例比較了兩種方法建立的回歸方程的擬合效果,而偏最小二乘回歸方法相對(duì)嶺回歸方法要更優(yōu).
【關(guān)鍵詞】多重共線性;嶺回歸;偏最小二乘回歸
【中圖分類號(hào)】O212.4 【文獻(xiàn)標(biāo)識(shí)碼】A
一、問(wèn)題提出
在多元線性回歸模型中,如果解釋變量之間存在著密切的線性相關(guān)關(guān)系,就稱它們之間存在著多重共線性.在出現(xiàn)多重共線性情形時(shí),普通最小二乘估計(jì)不再適用;回歸參數(shù)的估計(jì)值方差會(huì)很大,從而影響自變量對(duì)因變量的解釋;估計(jì)的精度會(huì)降低;估計(jì)的效果也會(huì)變壞.在實(shí)際經(jīng)濟(jì)問(wèn)題的多元回歸分析中,多重共線性的現(xiàn)象很多,這時(shí)我們就應(yīng)該尋找另外的回歸方法對(duì)參數(shù)進(jìn)行估計(jì).
二、方法介紹
如果在實(shí)際問(wèn)題中出現(xiàn)了多重共線性的現(xiàn)象,我們可以選擇用有偏回歸方法——嶺回歸(RR)和偏最小二乘回歸(PLS)來(lái)處理.嶺回歸是利用嶺估計(jì)(X′X+kI)-1X′Y來(lái)替代普通最小二乘估計(jì)(X′X)-1X′Y,從而消除了普通最小二乘估計(jì)中矩陣X′X無(wú)法求逆的問(wèn)題.偏最小二乘回歸是先在自變量集和因變量集中分別提取第一潛在因子t1與u1,其中t1與u1分別是自變量與因變量的線性組合,要求t1與u1盡可能多地提取所在變量組的變異信息,且t1與u1的相關(guān)程度達(dá)最大,然后建立因變量與t1的回歸方程,若回歸方程不能達(dá)到滿意的精度,則繼續(xù)提取第二潛在因子,否則停止.
三、實(shí)例比較
根據(jù)理論及對(duì)現(xiàn)實(shí)情況的認(rèn)識(shí),擬建立以我國(guó)國(guó)民總收入(單位:億元)為因變量y,以就業(yè)人員數(shù)(單位:萬(wàn)人)、財(cái)政收入(單位:億元)、能源生產(chǎn)總量(單位:萬(wàn)噸標(biāo)準(zhǔn)煤)、國(guó)有單位工資總額(單位:億元)和城鎮(zhèn)集體工資總額(單位:億元)分別為自變量x1,x2,x3,x4,x5的線性回歸模型.由《中國(guó)統(tǒng)計(jì)年鑒》查得相關(guān)數(shù)據(jù)如下:
在SAS軟件上使用REG過(guò)程來(lái)建立最小二乘回歸方程,所有自變量的方差膨脹因子都大于100,診斷出模型中存在非常嚴(yán)重的多重共線性問(wèn)題.用最小二乘法所得到的回歸方程為
y=-431189+6.13224x1-0.18088x2+0.44051x3+5.69125x4-13.63786x5.
可以看到方程中,自變量x2,x5的系數(shù)為負(fù),這顯然與事實(shí)不符,這正是由多重共線性所導(dǎo)致,因此最小二乘回歸求出的回歸方程不利于模型的解釋,下面改用嶺回歸方法來(lái)建模.
用SAS軟件中的REG過(guò)程,求解嶺回歸方程.由嶺跡圖可以看出,當(dāng)嶺參數(shù)k≥0.02后,嶺跡曲線趨于穩(wěn)定,因此,取k=0.02的嶺回歸估計(jì)來(lái)建立嶺回歸方程為
y=-305467.46+4.315x1+1.50x2+0.264x3+4.535x4+1.388x5.
這時(shí),回歸系數(shù)的符號(hào)符合實(shí)際意義.
現(xiàn)在用偏最小二乘回歸方法來(lái)進(jìn)行處理,用SAS軟件中的PLS過(guò)程建立偏最小二乘回
歸方程,用最常用的舍一交叉驗(yàn)證法來(lái)抽取偏最小二乘的成分,結(jié)果抽取了3個(gè)偏最小二乘成分,得到偏最小二乘回歸方程為
y=-309489.7954+4.4234x1+1.5336x2+0.2272x3+4.6856x4+1.2270x5,
這時(shí),回歸方程中的回歸系數(shù)的符號(hào)也都符合實(shí)際意義.
根據(jù)前面得出的嶺回歸方程和偏最小二乘回歸方程,計(jì)算出衡量模型擬合效果好壞的平均絕對(duì)百分誤差和復(fù)測(cè)定系數(shù),得到相應(yīng)的數(shù)值如下:
四、總 結(jié)
從上例可以看出,在多元線性回歸模型中出現(xiàn)共線性問(wèn)題時(shí),最小二乘回歸方法已經(jīng)不再適用,而用嶺回歸和偏最小二乘回歸這兩種有偏回歸方法都可以處理多重共線性問(wèn)題,且從表2的結(jié)果可知,兩種方法建立的回歸方程擬合的效果都不錯(cuò),而偏最小二乘回歸方法相對(duì)嶺回歸方法要更優(yōu).
【參考文獻(xiàn)】
[1]高惠璇.實(shí)用統(tǒng)計(jì)方法與SAS系統(tǒng)[M].北京:北京大學(xué)出版社,2001.
[2]何曉群.現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用[M].北京:中國(guó)人民大學(xué)出版社,1998.
[3]王惠文,偏最小二乘回歸方法及其應(yīng)用[M].北京:國(guó)防工業(yè)出版社,1999.
數(shù)學(xué)學(xué)習(xí)與研究2015年3期