李慧菁
[摘要]該篇文章就是運(yùn)用探索性數(shù)據(jù)分析的方法定量地分析消費(fèi)對(duì)于經(jīng)濟(jì)增長的拉動(dòng)作用。本文分別運(yùn)用三組耐抗線法和最小二乘法對(duì)它們的樣本點(diǎn)進(jìn)行回歸擬合。在最小二乘法的求解過程中運(yùn)用了4種判斷異常點(diǎn)的方法,其中包括將原始?xì)埐钸M(jìn)行3種尺度下的殘差轉(zhuǎn)換以及對(duì)每個(gè)樣本杠桿率的計(jì)算,綜合以上4種殘差分析后找出異常點(diǎn),將去掉異常點(diǎn)后的數(shù)據(jù)再次進(jìn)行最小二乘法的求解,得到擬合直線,最終分別求出兩種方法下的均方誤差并進(jìn)行模型優(yōu)劣的比較。
[關(guān)鍵詞]最小二乘法;三組耐抗線;異常點(diǎn);最終消費(fèi)支出;生產(chǎn)總值
[中圖分類號(hào)]F832[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1005-6432(2014)21-0118-03
1數(shù)據(jù)來源
為了定量地研究消費(fèi)與經(jīng)濟(jì)增長的關(guān)系,筆者選擇了被公認(rèn)為衡量國家經(jīng)濟(jì)狀況最佳指標(biāo)的生產(chǎn)總值以及被認(rèn)為衡量消費(fèi)需求最佳指標(biāo)的最終消費(fèi)支出。選取的樣本為2011年中國31省的各地區(qū)最終消費(fèi)支出與其對(duì)應(yīng)的生產(chǎn)總值。相關(guān)數(shù)據(jù)來源于統(tǒng)計(jì)局發(fā)行的《2012年國家統(tǒng)計(jì)年鑒》,31省的生產(chǎn)總值在“統(tǒng)計(jì)年鑒”中“國民經(jīng)濟(jì)核算”下的“地區(qū)生產(chǎn)總值和指數(shù)”中,對(duì)應(yīng)的最終消費(fèi)支出在“國民經(jīng)濟(jì)核算”下的“各地區(qū)最終消費(fèi)支出及構(gòu)成(2011年)”中。
2三組耐抗線分析
對(duì)于數(shù)據(jù)(x,y),首先把x的值按升序排序使得x1≤…≤xi≤…xn。然后將(xi,yi)平均分為左、中、右三組,使得每組的個(gè)數(shù)盡可能相等。在三個(gè)組中我們分別求出x和y的中位數(shù),分別得到三個(gè)組的總括點(diǎn)(xL,yL),(xM,yM)以及(xR,yR)。組內(nèi)總括點(diǎn)使得擬合線具有耐抗性。為了更好地?cái)M合數(shù)據(jù),我們以斜率b0和中心值xm來進(jìn)行擬合:
=a*0+b0(x-xM)(式1)
a*0=13{[yL-b0(xL-xM)]+yM+[yR-b0(xR-xM)]}(式2)
計(jì)算各點(diǎn)的初始?xì)埐睿?/p>
ri=yi-[a*0+b0(x-xM)](式3)
用(xi,ri)代替(xi,yi),重復(fù)擬合過程,得到斜率與水平的調(diào)整值δ1,γ1。調(diào)整后的斜率和水平值為b0+δ1,a*0+γ1,新殘差為
r(1)i=r(0)i-{y1-[]a*0+b0(xi-xM)]}(式4)
繼續(xù)不斷地進(jìn)行迭代過程,直到斜率的調(diào)整值不超過b0的絕對(duì)值的001%,得到最后的水平a和斜率b。[3]
將2011年31省的31個(gè)截面數(shù)據(jù)運(yùn)用該方法計(jì)算得出該擬合直線為
=19483+29184(x-82679)=29184x-4646(式5)
三組耐抗性方法下各地區(qū)生產(chǎn)總值與最終消費(fèi)支出的散點(diǎn)圖和擬合直線見圖1、圖2所示。
圖1三組耐抗線下擬合直線
圖2最小二乘法下擬合直線
3最小二乘法分析
31模型初步求解
=a+bx(式6)
該方法即為了使得(-yi)2平方和最小,由此可求得
b=(xi-)(yi-)(xi-)2(式7)
a=-b(式8)
由MATLAB可求得回歸方程為:
=22280x-3951193(式9)
最小二乘法下各地區(qū)生產(chǎn)總值與最終消費(fèi)支出的散點(diǎn)圖和擬合直線見圖2所示。
32異常點(diǎn)分析
321殘差圖
r=yi-i(式10)
將各省的最終消費(fèi)與其殘差畫圖分析,見圖3、圖4。
圖3原始?xì)埐顖D
圖4杠桿率圖
由此圖可看到有一個(gè)點(diǎn)明顯超出4000的范圍,而另三個(gè)點(diǎn)也略超出4000,則可判定有異常值的存在。嚴(yán)重超出4000的樣本為第15個(gè),即山東,略超出4000的有1、9、19號(hào)城市,即北京、上海、廣東。
322杠桿率圖
hij=1n+(xi-)(xj-)秐k=1(xk-)2(式11)
杠桿率用h表示。hii即表示如果給yi一個(gè)改變量Δyi,hiiΔyi就是它在i中造成的改變。因此,在最小二乘法中,yi的任何改變,都會(huì)對(duì)i有成正比的影響。這也是非耐抗性的集中體現(xiàn)。對(duì)于hij有這樣的規(guī)律:它們在1n到1之間,且和必須等于模型中的參數(shù)的個(gè)數(shù)。
在本實(shí)例分析,即各地區(qū)GDP與各地區(qū)最終消費(fèi)支出的探索性分析中,由于此模型為一元線性回歸模型,只有兩個(gè)參數(shù),截距與斜率,又共有31個(gè)樣本數(shù)據(jù),因此這31個(gè)殘差的平均杠桿率為2/31,即00645。而從圖中可以看出有3個(gè)殘差的杠桿率遠(yuǎn)遠(yuǎn)大于其平均杠桿率,找出這三個(gè)異常數(shù)據(jù)點(diǎn)。在MATLAB中可以找到這三個(gè)異常值,分別為第10、15、19個(gè)省份出現(xiàn)了異常點(diǎn),即江蘇、山東、廣東三省。
33標(biāo)準(zhǔn)化殘差圖
第i個(gè)殘差的方差為:
var(ri)=σ2(1-hii)(式12)
則調(diào)整方差為:
rai=ri1-hii(式13)
估計(jì)σ2為
σ2=1n-2秐i=1ri2(式14)
則第i個(gè)標(biāo)準(zhǔn)化殘差為
rsi=ris1-hii(式15)
圖5標(biāo)準(zhǔn)化殘差圖
圖6除以四分展布后的殘差圖
從圖5可以看出,由于標(biāo)準(zhǔn)化后的殘差消除了異方差,且服從正態(tài)分布,則其標(biāo)準(zhǔn)化殘差的絕對(duì)值超過Zα2(196)的概率為5%,而由圖可看出有2個(gè)值明顯超出了2,又從MATLAB中可找到超過196的異常值分別為9、15、19號(hào)城市,即上海、山東、廣東三地,但其中上海的標(biāo)準(zhǔn)化殘差為-19723,其絕對(duì)值僅僅略大于196。
34除以四分展布后的殘差圖
rdF=(r-XM)(XU-XL)(式16)
其中,XM為X,即最終消費(fèi)支出的中位數(shù),XU為X的上四分位數(shù),XL為X的下四分位數(shù)。用四分展布定義離群值截?cái)帱c(diǎn)時(shí),定義的是離上、下四分位數(shù)超過32dF的值,對(duì)應(yīng)此處的殘差即為超過正負(fù)2的點(diǎn)即為離群截?cái)帱c(diǎn),如圖6所示?;蛑苯赢嫵鰵埐畹南渚€圖也可一目了然地發(fā)現(xiàn)離群點(diǎn),如圖7、圖8所示。而通過MATLAB可求出僅僅第15號(hào)城市,即山東為離群截?cái)帱c(diǎn)。
圖7殘差的箱線圖
圖8改進(jìn)后的散點(diǎn)圖和擬合直線
綜上對(duì)于異常點(diǎn)的分析,包括了進(jìn)行三種尺度劃分的殘差分析,以及對(duì)杠桿率的計(jì)算可看出第15號(hào)城市在4種異常點(diǎn)判斷時(shí)均被列入其中,而19號(hào)城市在三種分析中均被視為殘差。9號(hào)城市雖然出現(xiàn)了兩次,但每次都是剛剛超出標(biāo)準(zhǔn)而被選為異常點(diǎn),其余的1號(hào)與10號(hào)也僅僅出現(xiàn)了一次,綜合以上分析,筆者認(rèn)為應(yīng)將15號(hào)與19號(hào)城市剔除,以避免異常值對(duì)于回歸擬合的影響。
35模型優(yōu)化
根據(jù)以上分析,將15號(hào)與19號(hào)城市剔除,再次進(jìn)行最小二乘法,得到如下擬合直線。擬合圖形如圖8所示。
=22734x-7337587(式17)
36優(yōu)化效果評(píng)價(jià)
直接用最小二乘法擬合直線與通過分析異常點(diǎn)而將其剔除的改進(jìn)后的最小二乘法進(jìn)行的直線擬合的效果可用均方誤差來比較優(yōu)劣。
MSE=秐i=1e2in(式18)
首先計(jì)算優(yōu)化后的最小二乘法算得的均方誤差為37216×106,然后計(jì)算最初的直接最小二乘法得來的均方誤差為51240×106。由此明顯看出去掉兩個(gè)離群點(diǎn)后的擬合偏誤要小得多,模型的優(yōu)化是有效的。
4三組耐抗線與最小二乘法的比較
將原始樣本數(shù)據(jù)所進(jìn)行的三組耐抗線計(jì)算與最小二乘法計(jì)算所得到的殘差畫在一張圖中,得到圖8。其中綠色的圈代表運(yùn)用最小二乘法得到的殘差,紅色的圈表示運(yùn)用三組耐抗線進(jìn)行擬合后得到的殘差。用肉眼觀察我們發(fā)現(xiàn)運(yùn)用三組耐抗線時(shí)有距離均值非常遠(yuǎn)的點(diǎn),而最小二乘法得到的殘差離中心基本都不遠(yuǎn)。由此可以看出三組耐抗線本身具有的耐抗性,它不因個(gè)別的偏離較大的點(diǎn)而劇烈變動(dòng)自己的擬合參數(shù)值,因此即便有離異很大的點(diǎn),它會(huì)將離群點(diǎn)對(duì)它的影響降到很小,因此在殘差圖上就可能出現(xiàn)某些離群點(diǎn)距離擬合直線上對(duì)應(yīng)點(diǎn)的距離很大的情況了。而最小二乘法就基本上不會(huì)出現(xiàn)此種情況,因?yàn)樗沟脷埐钇椒胶妥钚?因而考慮到了所有的數(shù),包括異常點(diǎn),而對(duì)于離群值越大的點(diǎn)來說,最小二乘法的擬合效果便越不好,因?yàn)樗鼮榱耸沟脷埐钇椒胶妥钚?有可能犧牲掉其他的較好的擬合效果,而為了使得這個(gè)離群的殘差平方小而越靠近此離群點(diǎn)。因此對(duì)于異常值較大或較多的情況下,三組耐抗線的方法一定比最小二乘法的方法可靠。但在此實(shí)例中,由于僅有兩個(gè)離群點(diǎn),并且兩個(gè)離群點(diǎn)離群的程度都很小,因此由三組耐抗線算得的均方誤差為21752×107,而最小二乘法算出的均方誤差僅為51240×106(見圖9)。
圖9原始數(shù)據(jù)下三組耐抗線與
最小二乘法殘差的比較
5結(jié)論
根據(jù)以上三組耐抗線、最小二乘法、剔除異常值的最小二乘法三種方法所進(jìn)行的殘差的比較,得到的MSE(均方誤差)中最小的為剔除異常值的最小二乘法。因此此實(shí)例的最終擬合直線為=22734x-7337587,并且擬合的優(yōu)度較高。由此可以看出,消費(fèi)這輛拉動(dòng)經(jīng)濟(jì)增長的馬車對(duì)于經(jīng)濟(jì)的發(fā)展確實(shí)是有非常穩(wěn)定的影響的。由此來說,《中共中央關(guān)于制定國民經(jīng)濟(jì)和社會(huì)發(fā)展第十二個(gè)五年規(guī)劃的建議》中對(duì)于促進(jìn)消費(fèi)擬定的三條建議對(duì)經(jīng)濟(jì)的促進(jìn)是很有積極作用的。
參考文獻(xiàn):
[1]許光建幣隕罨改革和擴(kuò)大內(nèi)需為抓手努力保持經(jīng)濟(jì)穩(wěn)定增長——當(dāng)前我國宏觀經(jīng)濟(jì)形勢和政策分析[EB/OL](2013-09-09)県ttp://www眂nki眓et/kcms/detail/111010盕201309091203010県tml,last visited at 2013-09-09.
[2]謝偉東,洪文峰蔽夜當(dāng)前經(jīng)濟(jì)條件下如何擴(kuò)大國內(nèi)消費(fèi)需求[J]苯鶉誥濟(jì),2010(9):23-24.
[3]劉俊卿,楊軍,強(qiáng)德厚毖芯科溫變化趨勢的新方法——三組耐抗線[J]備珊燈象,2007(5):79-82.