劉 明,王仁曾
(1.蘭州商學(xué)院 統(tǒng)計(jì)學(xué)院,蘭州 730020;2.華南理工大學(xué) 經(jīng)濟(jì)貿(mào)易學(xué)院,廣州 510006)
逐步回歸是線性回歸分析中重要的一種分析方法,主要用來(lái)解決多元線性回歸模型中解釋變量個(gè)數(shù)較多時(shí)如何選擇解釋變量,以使得在回歸方程中包含所有對(duì)被解釋變量影響顯著的解釋變量而不包含影響不顯著的解釋變量的問(wèn)題。逐步回歸正是為解決這類問(wèn)題而設(shè)計(jì)的一種回歸方法。它的主要思路是在所考慮的全部解釋變量中按對(duì)被解釋變量的貢獻(xiàn)大小逐個(gè)引入回歸方程,己被引入回歸方程的變量在引入新變量后也可能失去重要性,而需要從回歸方程中剔除出去。引入一個(gè)變量或者從回歸方程中剔除一個(gè)變量都要進(jìn)行F檢驗(yàn),以保證在引入新變量前回歸方程中只含有對(duì)被解釋變量影響顯著的變量,而不顯著的變量已被剔除[1]。
在逐步回歸中每剔除和引入一個(gè)變量都需要計(jì)算F統(tǒng)計(jì)量的值,這需要一定的工作量。同時(shí),逐步回歸中所用的F檢驗(yàn)對(duì)于眾多初學(xué)者和應(yīng)用者來(lái)說(shuō)也難以理解和把握,而單個(gè)參數(shù)顯著性t檢驗(yàn)是人們所熟知的。筆者通過(guò)研究發(fā)現(xiàn),F(xiàn)統(tǒng)計(jì)量和t統(tǒng)計(jì)量存在緊密的聯(lián)系,逐步回歸中的F檢驗(yàn)和參數(shù)顯著性t檢驗(yàn)是等價(jià)的,因此可以轉(zhuǎn)而考慮使用t檢驗(yàn)。相比較而言,t統(tǒng)計(jì)量的計(jì)算要比F統(tǒng)計(jì)量的計(jì)算簡(jiǎn)便得多,F(xiàn)統(tǒng)計(jì)量需要計(jì)算復(fù)雜的偏回歸平方和及剩余平方和,而t統(tǒng)計(jì)量只需要計(jì)算回歸系數(shù)的估計(jì)值及其估計(jì)量的標(biāo)準(zhǔn)差的古計(jì)量即可?,F(xiàn)代常用的統(tǒng)計(jì)軟件一般都會(huì)計(jì)算顯示回歸模型參數(shù)的t檢驗(yàn)值,而很少會(huì)給出用于逐步回歸的F檢驗(yàn)值,即便使用計(jì)算機(jī),F(xiàn)統(tǒng)計(jì)量也不易計(jì)算。本文考慮用t檢驗(yàn)準(zhǔn)則替代F檢驗(yàn)準(zhǔn)則對(duì)多元線性模型進(jìn)行逐步回歸,以簡(jiǎn)化逐步回歸的計(jì)算過(guò)程。要實(shí)現(xiàn)這一目標(biāo),需分析逐步回歸中的F檢驗(yàn),并完成其與t檢驗(yàn)的等價(jià)性的證明。
考慮含有k個(gè)解釋變量的線性總體回歸模型式(1)和普通最小二乘法(本文均在普通最小二乘法下討論樣本回歸模型)下的樣本回歸模型式(2):
首先定義總離差平方和TSS(Total Sum of Squares)、可解釋的平方和ESS(Explained Sum of Squares)和剩余平方和RSS(Residual Sum of Squares):
其中y^i=yi-μ^i為樣本擬合值,?為樣本均值,n為樣本容量。
再定義偏回歸平方和。不含xk的樣本回歸模型(為方便分析,在每一步對(duì)解釋變量的考察中,本文均以xk為研究代表)
設(shè)式(3)的可解釋的平方和為ESS*,剩余平方和為RSS*,則xk的偏回歸平方和定義為:
按此法即可定義其他解釋變量的偏回歸平方和。不難看出,ESSPk=RSS*-RSS。
逐步回歸中引入(剔除)解釋變量的標(biāo)準(zhǔn)是偏回歸平方和最大(最?。?。在某一引入步驟中,設(shè)模型中已含有k-1個(gè)解釋變量(全部顯著),需引入第k個(gè)解釋變量,原模型和引入變量之后的樣本模型即可分別表示為式(3)和式(2)。
這樣由第k個(gè)解釋變量xk的偏回歸平方和ESSPk構(gòu)造的F統(tǒng)計(jì)量為:
ESS和RSS分別是包含k個(gè)解釋變量xk的回歸模型的可解釋的平方和和剩余平方和,RSS*即為未引入新變量的原回歸模型的剩余平方和。接下來(lái)進(jìn)行F檢驗(yàn),以判斷解釋變量xk是否該引入到回歸模型中,檢驗(yàn)過(guò)程不再詳述。
在某一剔除步驟中,設(shè)模型中已含有k個(gè)解釋變量(可能存在不顯著的解釋變量),找到偏回歸平方和最小的亦即最可能被剔除這個(gè)解釋變量,不妨設(shè)為xk,原模型和剔除變量之后的樣本模型即可表示為式(2)和式(3)。不難發(fā)現(xiàn),由xk的偏回歸平方和ESSPk構(gòu)造的F統(tǒng)計(jì)量與引入解釋變量過(guò)程中的F統(tǒng)計(jì)量(4)相同。和引入變量過(guò)程一樣,接下來(lái)進(jìn)行F檢驗(yàn),以判斷解釋變量xk是否該從回歸模型中剔除。
顯然,若能證明逐步回歸中的F檢驗(yàn)與t檢驗(yàn)是等價(jià)的,就可以將t檢驗(yàn)引入到逐步回歸過(guò)程中?,F(xiàn)在討論t檢驗(yàn)。
以解釋變量xk的顯著性檢驗(yàn)為例,由其系數(shù)βk構(gòu)造的t統(tǒng)計(jì)量為:
命題1普通最小二乘法下,用于檢驗(yàn)?zāi)匙兞匡@著性所構(gòu)造的t統(tǒng)計(jì)量的平方等于逐步回歸中用于判斷是否應(yīng)剔除(或引入)該變量的F檢驗(yàn)所構(gòu)造的F統(tǒng)計(jì)量,即t2=F。
證明:仍以解釋變量xk為考察對(duì)象。利用OLS法得到xk的系數(shù)βk的估計(jì)量為[2]:
其方差估計(jì)量是:
rk是根據(jù)OLS法構(gòu)造的輔助回歸模型的殘差項(xiàng)。R2k是輔助回歸模型的樣本可決系數(shù):
考慮在模型中將xk剔除(或在只包含前(k-1)個(gè)解釋變量情形下引入),此時(shí)構(gòu)造的F統(tǒng)計(jì)量為:
再考慮關(guān)于xk的顯著性t檢驗(yàn)。在βk=0的假設(shè)下有:
證畢。
由命題1即可得出下述命題2。
命題2 t統(tǒng)計(jì)量的平方服從第一自由度為1、第二自由度為n-k-1的F分布,即t2~F(1,n-k-1)。
在檢驗(yàn)?zāi)骋粎?shù)的顯著性時(shí),t檢驗(yàn)進(jìn)行的是雙尾檢驗(yàn)而F檢驗(yàn)進(jìn)行的是右單尾檢驗(yàn),雖然兩類檢驗(yàn)的拒絕域不同,但檢驗(yàn)結(jié)論一致,這由命題3表述。
命題3當(dāng)t檢驗(yàn)的臨界值取tα?xí)r,由命題1,F(xiàn)檢驗(yàn)的臨界值當(dāng)取,此時(shí)兩類檢驗(yàn)拒絕原假設(shè)的概率是相同的,即,其中t~t(n),F~F(1,n)。
證明:自由度為n的t分布的密度函數(shù)為[4]:
第一自由度為1,第二自由度為n的F分布的密度函數(shù)為:因此可得
證畢。
綜合命題1、2、3,不難得出結(jié)論:在普通最小二乘估計(jì)下,線性回歸模型的逐步回歸中的F檢驗(yàn)與顯著性t檢驗(yàn)是等價(jià)的。該結(jié)論是用t檢驗(yàn)替代F檢驗(yàn)來(lái)完成逐步回歸的依據(jù)。
依據(jù)以上所證明的結(jié)論——逐步回歸中所用到的F檢驗(yàn)和參數(shù)顯著性t檢驗(yàn)是等價(jià)的,可以考慮在逐步回歸中使用更便于計(jì)算的t檢驗(yàn)。使用方法非常簡(jiǎn)單,只需將逐步回歸中作為引入、剔除變量準(zhǔn)則的F檢驗(yàn)替換為t檢驗(yàn)即可。逐步回歸的參數(shù)求解方法在數(shù)學(xué)上稱為“求解求逆緊湊變化法”,其本質(zhì)仍是普通最小二乘法,只是在計(jì)算過(guò)程中考慮了引入、剔除變量的過(guò)程,將參數(shù)估計(jì)的每一步都通過(guò)矩陣運(yùn)算實(shí)現(xiàn)了。如果將原來(lái)的F檢驗(yàn)替換成t檢驗(yàn),對(duì)“求解求逆緊湊變化法”計(jì)算原理和方法均無(wú)影響,模型參數(shù)估計(jì)可順利實(shí)現(xiàn)。在原逐步回歸中,引入或剔除變量的依據(jù)是變量的偏回歸平方和的大小,在同一引入或剔除的步驟中,偏回歸平方和的大小和F統(tǒng)計(jì)量的大小是一致的,即偏回歸平方和越大,F(xiàn)值越大,偏回歸平方和越小,F(xiàn)值越小。由于F統(tǒng)計(jì)量和t統(tǒng)計(jì)量存在對(duì)應(yīng)關(guān)系F=t2,因此t統(tǒng)計(jì)量的絕對(duì)值 ||t與偏回歸平方和也具有同向變動(dòng)關(guān)系: ||t越大,偏回歸平方和越大, ||t越小偏回歸平方和越小。因此可以把 ||t作為引入和剔除變量的標(biāo)準(zhǔn)。原逐步回歸過(guò)程中構(gòu)造的第一個(gè)回歸模型是只引入一個(gè)解釋變量的一元回歸模型,當(dāng)改用t統(tǒng)計(jì)量作為變量引入、剔除的準(zhǔn)則后,為簡(jiǎn)化計(jì)算步驟,首先構(gòu)造的是一個(gè)包含所有解釋變量的線性回歸模型,在該模型中尋找被剔除的變量,其標(biāo)準(zhǔn)是未通過(guò)顯著性t檢驗(yàn)統(tǒng)計(jì)值的絕對(duì)值 ||t大小——選擇最小的一個(gè)剔除。剔除后重新構(gòu)造回歸模型,若仍有未通過(guò)t檢驗(yàn)的變量,則繼續(xù)按上述標(biāo)準(zhǔn)剔除相應(yīng)的解釋變量,重新構(gòu)建模型——仿照原逐步回歸的思想重復(fù)引入、剔除的步驟,直到?jīng)]有變量被剔除、也沒(méi)有變量被引入為此。實(shí)踐證明,這種方法更簡(jiǎn)便,更清晰。下面以“中國(guó)經(jīng)濟(jì)增長(zhǎng)的影響因素分析”為例,說(shuō)明這一實(shí)現(xiàn)過(guò)程。
根據(jù)經(jīng)濟(jì)理論,影響經(jīng)濟(jì)增長(zhǎng)的主要因素有投資、消費(fèi)、進(jìn)出口等,還有一些影響因素如價(jià)格指數(shù)、能源消耗量、匯率等。筆者收集到了1990~2009年各年度的宏觀經(jīng)濟(jì)數(shù)據(jù),它們是:國(guó)內(nèi)生產(chǎn)總值(GDP)、居民消費(fèi)支出(REC)、財(cái)政支出(GC)、固定資產(chǎn)投資(INV)、出口總額(TTR)以及能源消耗量(POWER)、匯率(EXC)、居民消費(fèi)價(jià)格指數(shù)(CPI)等。為消除數(shù)據(jù)波動(dòng)性和量綱不同的影響,將數(shù)據(jù)全部取自然底數(shù)對(duì)數(shù),以ln(GDP)為被解釋變量構(gòu)建對(duì)數(shù)回歸模型。
首先利用F檢驗(yàn)下的逐步回歸法構(gòu)建出模型,這一步可以利用SPSS軟件完成。逐步回歸得到的最優(yōu)模型為:
模型中的s和t分別是對(duì)應(yīng)參數(shù)估計(jì)量的標(biāo)準(zhǔn)差和t檢驗(yàn)統(tǒng)計(jì)量值。
下面以t檢驗(yàn)方法對(duì)模型進(jìn)行逐步回歸。上述逐步回歸過(guò)程設(shè)置引入變量的F臨界值為3.84,剔除變量的F臨界值為2.71,因此以t檢驗(yàn)為準(zhǔn)則的引入和剔除變量的臨界值分別為tentry==1.96,tremoval==1.65,即當(dāng)新引入的變量回歸系數(shù)的t統(tǒng)計(jì)量絕對(duì)值在所有新引入變量中最大且大于tentry=1.96時(shí),則引入該變量,否則不引入;當(dāng)模型中存在回歸系數(shù)的t統(tǒng)計(jì)量絕對(duì)值最小且小于tremoval=1.65時(shí),則剔除該回歸系數(shù)對(duì)應(yīng)的變量。首先將所有變量引入模型運(yùn)用EViews5.0估計(jì)模型參數(shù)得:
表1 1990~2009年中國(guó)部分宏觀經(jīng)濟(jì)數(shù)據(jù)
為節(jié)省篇幅,模型只寫(xiě)出了t統(tǒng)計(jì)值??梢钥闯?,匯率對(duì)數(shù)ln(EXC)的t檢驗(yàn)統(tǒng)計(jì)量-1.16為最小,其絕對(duì)值小于1.65,因此剔除該變量,重新估計(jì)回歸模型為:
顯然在這一步要剔除的變量為ln(POWER)。接下來(lái)是引入先前已被剔除的變量ln(EXC),引入后發(fā)現(xiàn)其t統(tǒng)計(jì)量絕對(duì)值仍是最小的,且小于剔除的臨界值1.65,因此不予引入。這樣構(gòu)造的回歸模型為:
該模型中應(yīng)該剔除的變量為ln(TTR)。再繼續(xù)引入已被剔除的模型,引入中發(fā)現(xiàn),任一被剔除的變量重新被引入后仍是不顯著的、需要再次剔除的變量。經(jīng)過(guò)引入、剔除等步驟后(具體模型略),最終得到無(wú)須引入也無(wú)須剔除變量的模型是:
顯然,這和F檢驗(yàn)下的逐步回歸結(jié)果是一致的,說(shuō)明了在實(shí)際應(yīng)用中運(yùn)用t檢驗(yàn)準(zhǔn)則同樣可以完成逐步回歸。這個(gè)結(jié)果和經(jīng)濟(jì)理論中關(guān)于經(jīng)濟(jì)增長(zhǎng)的三駕馬車的論點(diǎn)是不一致的,即理論上認(rèn)為影響經(jīng)濟(jì)增長(zhǎng)的三大動(dòng)力是消費(fèi)、投資、進(jìn)出口,而上述回歸結(jié)果卻顯示中國(guó)經(jīng)濟(jì)增長(zhǎng)未受到進(jìn)出口的影響。這個(gè)結(jié)論顯然有悖于現(xiàn)實(shí),究其原因,是由于逐步回歸計(jì)算過(guò)程的僵化——只通過(guò)所設(shè)置的臨界值(或顯著性水平)作為引入和剔除變量的唯一標(biāo)準(zhǔn),而忽視了現(xiàn)實(shí)的經(jīng)濟(jì)理論。t檢驗(yàn)的逐步回歸雖然也存在同樣問(wèn)題,但它也具有靈活性,可以及時(shí)更改錯(cuò)誤信息。本例中在進(jìn)行t檢驗(yàn)的逐步回歸時(shí)就發(fā)現(xiàn),進(jìn)出口也是一個(gè)重要影響因素,當(dāng)引入進(jìn)出口后,須剔除變量ln(CPI)。模型構(gòu)建如下:
其中l(wèi)n(TTR)回歸系數(shù)t檢驗(yàn)的相伴概率僅為7.22%,相對(duì)較小。從各檢驗(yàn)結(jié)果來(lái)看,該模型并無(wú)瑕疵,說(shuō)明了影響GDP的主要因素有居民消費(fèi)、政府消費(fèi)、固定資產(chǎn)投資、進(jìn)出口。其中居民消費(fèi)的影響作用最大:居民消費(fèi)每增加1個(gè)百分點(diǎn),GDP平均增加0.79個(gè)百分點(diǎn);進(jìn)出口的影響作用最?。哼M(jìn)出口每增加1個(gè)百分點(diǎn),GDP平均增加0.04個(gè)百分點(diǎn)。從經(jīng)濟(jì)理論的角度來(lái)說(shuō),此模型比逐步回歸所構(gòu)造的模型更具說(shuō)服力。因此,t檢驗(yàn)下的逐步回歸較F檢驗(yàn)下的逐步回歸更具靈活性。
F檢驗(yàn)和t檢驗(yàn)是經(jīng)典線性回歸模型中兩種重要的統(tǒng)計(jì)檢驗(yàn)方法,根據(jù)文中所作研究可知,對(duì)逐步回歸過(guò)程中引入或剔除變量的檢驗(yàn)標(biāo)準(zhǔn),可以使用t統(tǒng)計(jì)量,也可以構(gòu)造F統(tǒng)計(jì)量進(jìn)行F檢驗(yàn)。論證發(fā)現(xiàn)這兩種檢驗(yàn)方法是等價(jià)的。但相比較而言,t檢驗(yàn)更直觀、便于理解,t統(tǒng)計(jì)量的計(jì)算較F統(tǒng)計(jì)量亦更簡(jiǎn)單。由于逐步回歸中引入和剔除變量的依據(jù)是F檢驗(yàn),根據(jù)F檢驗(yàn)和t檢驗(yàn)的等價(jià)性,逐步回歸同樣可以使用t檢驗(yàn)標(biāo)準(zhǔn)來(lái)完成,此時(shí)模型參數(shù)的求解方法仍使用“求解求逆緊湊變換法”。通常可借助于計(jì)算機(jī)來(lái)計(jì)算顯著性檢驗(yàn)t值,據(jù)此即可直接判定是否引入或剔除變量。通過(guò)研究中國(guó)經(jīng)濟(jì)增長(zhǎng)的影響因素,在驗(yàn)證了t檢驗(yàn)下的逐步回歸可行性的同時(shí)還發(fā)現(xiàn),傳統(tǒng)的F檢驗(yàn)下的逐步回歸較為僵化,僅依據(jù)數(shù)字信息來(lái)判斷是否引入或剔除變量,忽略了經(jīng)濟(jì)理論的指導(dǎo)作用,從而可能得出有悖于現(xiàn)實(shí)的結(jié)論。而基于t檢驗(yàn)的逐步回歸由于在每一步都需要構(gòu)造模型,因而更易發(fā)現(xiàn)模型可能存在的問(wèn)題,能結(jié)合實(shí)際理論對(duì)模型進(jìn)行必要的修改和補(bǔ)充,更具靈活性。
[1] 周紀(jì)薌.實(shí)用回歸分析方法[M].上海:上海科學(xué)技術(shù)出版社,1990.
[2] 伍德里奇.計(jì)量經(jīng)濟(jì)學(xué)導(dǎo)論:現(xiàn)代觀點(diǎn)[M].北京:清華大學(xué)出版社,2007.
[3] 何曉群.應(yīng)用回歸分析[M].北京:中國(guó)人民大學(xué)出版社,2007.
[4] 陳希孺,倪國(guó)熙.數(shù)理統(tǒng)計(jì)學(xué)教程[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2009.