呂林靜
(海南大學金融統(tǒng)計系, 海口570228)
地區(qū)生產總值與固定資產投資額的數據分析
呂林靜
(海南大學金融統(tǒng)計系, ???70228)
運用探索性數據分析的方法定量地分析各地全社會固定資產投資對于地區(qū)經濟增長的拉動作用;分別運用最小二乘法和三組耐抗線的方法進行回歸擬合,并且通過將原始殘差進行不同尺度下的轉換、對每個樣本杠桿率進行計算以及殘差箱線圖判斷異常值點,綜合分析之后找出異常值,然后對去掉異常值點后的數據進行最小二乘法的回歸,求出擬合直線,最后分別求出兩種方法下的均方誤差并對擬合模型的優(yōu)劣進行評價。
地區(qū)生產總值; OLS; 三組耐抗線; 異常值
國內生產總值是指在一定時期內一個國家或地區(qū)的經濟中所生產出的全部最終產品和勞務的價值,是衡量國家經濟狀況的最佳指標,不但可反映一個國家的經濟表現,更可以反映一國的國力與財富。實際統(tǒng)計中,一般以支出法為標準來計算國內生產總值。在支出法中,投資支出直接構成了國內生產總值的一部分,而固定資產投資又是投資支出的重要組成部分。地區(qū)生產總值是指本地區(qū)所有常住單位在一定時期內生產活動的最終成果,是國內生產總值在不同地區(qū)的具體化。因此,研究地區(qū)生產總值與固定資產投資的關系是有必要的,本文主要對地區(qū)生產總值和固定資產投資總額的關系進行研究。
為了定量地研究地區(qū)生產總值與固定資產投資額的關系,筆者選擇了地區(qū)生產總值以及各地區(qū)全社會固定資產投資額作為研究對象,選取的樣本為2014年中國 31 個省市的地區(qū)生產總值與全社會固定資產投資額。相關數據來源于統(tǒng)計局發(fā)行的 《中國統(tǒng)計年鑒——2015》。其中,31個省市的生產總值在《中國統(tǒng)計年鑒——2015》“國民經濟核算”下的 “地區(qū)生產總值和指數”中,全社會固定資產投資在《中國固定資產投資統(tǒng)計年鑒——2015》“固定資產投資”下的“各地區(qū)全社會固定資產投資”中。
為了便于分析,把各地區(qū)的地區(qū)生產總值記作Y,各地區(qū)全社會固定資產投資記作X。為了初步分析地區(qū)生產總值(Y)與全社會固定資產投資額(X)的關系,可以作出以X為橫坐標,Y為縱坐標的散點圖。通過對散點圖的觀察可以發(fā)現兩者間存在著某種線性關系,于是假設地區(qū)生產總值與全社會固定資產投資額有著密切聯系,下文進一步探討與研究。
3.1 圖形分析
通過繪制地區(qū)生產總值和全社會固定資產投資額這兩個箱線圖,如圖1、圖2所示。對比可得知,地區(qū)生產總值和全社會固定資產投資額數據的中位數離下四分位數比離上四分位數近得多,數據均呈現出左偏分布,并且地區(qū)生產總值有三個明顯的離群值。三個離群值分別為廣東省,江蘇省和山東省的地區(qū)生產總值,筆者認為,是由于上述三省為沿海省份,經濟更為發(fā)達而導致的。
圖1 各地區(qū)生產總值與全社會固定資產投資額的散點圖
圖2 各地區(qū)生產總值與全社會固定資產投資額的箱線圖
通過對各地區(qū)生產總值和全社會固定資產投資額莖葉圖的繪制,如圖3、圖4所示,可以直觀地看出,這兩個批的分布均是偏斜的,且各地生產總值還有三個邊遠數據點。與從箱線圖中得出的結論一致。
圖3 地區(qū)生產總值莖葉圖
圖4 全社會固定資產投資莖葉圖
3.2 線性分析——最小二乘法
通過對地區(qū)生產總值與全社會固定資產投資額的簡單線性分析可知,地區(qū)生產總值與全社會固定資產投資額之間的相關系數為0.777 854,調整后的相關系數為0.770 194,且通過了t檢驗和F檢驗,符合假設檢驗的條件。但由于調整后的相關系數只有0.770 194,故擬合效果不是很理想。
表2 最小二乘法回歸結果
根據相關數據進行最小二乘回歸分析,可以得到的最小二乘法模型為:
(1)
(2726.172) (0.141 014)
t=(-0.406 127) (10.076 95)
R2=0.777 854F=101.545 0n=31
圖5 最小二乘法下擬合直線
由于原始數據具有一定的非對稱性,并且在地區(qū)生產總值數據右側的尾部有離群值存在,無法正確判斷兩者的數據分布情況,考慮到嚴謹性,我們嘗試進行數據變換。
霍格林指出:數據變換可以保持批中數據的次序;可以保持一個批的字母值,不計由于數據點之間作內插造成的小差異;保證了原始批中非??拷狞c,在重新表達后批中也非??拷?,至少相對于新尺度很靠近;保證函數沒有尖銳的拐角;并且由初等函數來規(guī)定,以便差不多用最簡單的手持計算器就可以快而方便地做重新表達。因此數據變換可以達到令人滿意的效果,下面進行一系列的數據變換,以期將不對稱的數據變?yōu)閷ΨQ的數據,并且消除異常值。
4.1 以10為底的對數尺度數據變換
將地區(qū)生產總值和全社會固定資產投資額進行對數變換后,分別對數據做出箱線圖,如圖6所示。
圖6 分別對地區(qū)生產總值和全社會固定 資產投資額進行對數變換后的箱線圖
通過箱線圖可以看出,經過對數變換后,這兩個批的數據與變換前相比較為對稱,但是離群值變多。由于最小二乘回歸線不提供耐抗性,一個野的數據點就可以支配控制擬合線,若用這兩個新的數據批,估計出的參數就不穩(wěn)定,顯然,對數變換的效果不理想。
4.2 平方根變換
為方便表示,記A=Y^1/2,B=X^1/2,做出箱線圖,如圖7所示。
圖7 分別對地區(qū)生產總值和全社會固定 資產投資額開平方根后的箱線圖
通過箱線圖可以看出,經過平方根變換后,這兩個批的數據均比較對稱,且對全社會固定資產投資額進行平方根變換后,沒有離群值的存在,但地區(qū)生產總值經平方根變換后存在三個異常值。因此,平方根變換的效果不夠理想。
4.3 四次方根變換
為方便表示,記M=Y^1/4,N=X^1/4。對數據做出箱線圖,如圖8所示。
圖8 分別對地區(qū)生產總值和全社會固定 資產投資額開四次方根后的箱線圖
觀察箱線圖,可以發(fā)現經過四次方根變換后,這兩個批的數據均比較對稱,但地區(qū)生產總值經四次方根變換后存在兩個異常值,全社會固定資產投資額經四次方根變換后存在一個離群值。因此,經過四次方根變換后,這兩個批的異常值并不能消失,由于野值使OLS法估計出的參數不穩(wěn)定,因此,四次方根變換同樣不能達到理想的效果。
經過上述數據變換,這兩個批中的異常值并不能被消除,考慮到對經濟意義的解釋,我們不再繼續(xù)進行數據變換。由于最小二乘回歸線不提供耐抗性,一個野的數據點就可以支配控制擬合線,使它給出一個完全引入歧途的Y和X之間關系的概括公式,而三組耐抗線則避免了這個困難,因此我們采用三組耐抗線的方法對各地區(qū)生產總值(Y)和全社會固定資產投資額(X)的關系進行探索。
對于數據(x,y),首先把x的值按升序排序使得x1≤x2≤…≤xn,然后在這些排過序的值的基礎上,將(xi,yi)分割成三個組(左組,中組,右組),使組的大小盡可能的相等,見表3。
表3 分組后數據
在三個組中,我們分別求出x和y的中位數,得到三個組的總括點(XL,XL),(XM,XM), 以及(XR,YR)。組內總括點使得擬合線具有耐抗性,為了更好地擬合數據,我們以斜率b0和中心值XM來進行擬合。求得的(XL,YL),(XM,YM),(XR,YR),分別為(6 470.33,8 051.605),(13 843.22,15 714.63),(25 512.365,32 179.695)。因此初始斜率為:
(2)
(3)
數據點分成的三個組以及初始線的殘差,見表4。
表4 地區(qū)生產總值和全社會固定資產投資額——三個組和初始殘差
(4)
(5)
因此,一次調整后的斜率為:
(6)
(7)
可以看到,δ1按絕對值大小比b0小得多,但超過了b0絕對值的1 %,還不是可以忽略不計的。于是,做第二步迭代。分別求出X和R(1)的中位數,得到三個組的總括點:(6 470.33,133.475 271 3),(13 843.22,-534.939 879 3),(25 512.365,178.002 558 6),通過計算可以得出:
(8)
(9)
因此,二次迭代后斜率為:
(10)
(11)
可以看到,δ2的絕對值比b0的絕對值小得多,且小于b0絕對值的1 %(0.012 671),于是停止迭代。因此,結果的擬合線為:
(12)
圖9 三組耐抗線下擬合直線
離這條線的殘差對全社會固定資產投資額(X)的散點圖如圖10所示。
圖10 擬合耐抗線后地區(qū)生產總值殘差 對全社會固定資產投資額散點圖
總體來看,除去在外值之后,散點圖較為平坦。可以看出,稍微異常的數據點幾乎對于概括了數據主體部分的直線沒有影響。
圖11 最小二乘回歸殘差對全社會固定資產投資額散點圖
上圖為最小二乘殘差對全社會固定資產總額的散點圖,可以看出它與圖10很相似,但是這個圖提示一個略微向下的趨勢。這就是說,如果去掉一個稍微負斜率的直線后,最小二乘殘差看起來會更水平一些。
6.1 異常點分析
6.1.1 殘差圖
(13)
將各省的全社會固定資產投資(X)與其殘差(ri)畫圖分析,見圖12。
圖12 最小二乘回歸原始殘差圖
由圖12可看到有一個點明顯超出10 000的范圍,而另兩個點也略超出10 000,則可判定有異常值的存在。嚴重超出1 000的樣本為廣東,略超出10 000的有上海、北京。
6.1.2 杠桿率圖
(14)
圖13 杠桿率圖
在本實例中,由于此模型為一元線性回歸模型,只有截距與斜率兩個參數,又因為一共有31個樣本數據,因此這31個殘差的平均杠桿率為2 /31,即0. 064 5。而從圖中可以看出有兩個殘差的杠桿率遠遠大于其平均杠桿率,即山東和江蘇,有一個殘差的杠桿率略微大于其平均杠桿率,為西藏。
6.1.3 標準化殘差圖
(15)
(16)
(17)
(18)
從圖14可以看出,由于標準化后的殘差消除了異方差,且服從正態(tài)分布,則其標準化殘差的絕對值超過Za/2(1.96)的概率為0.05,而由圖看出有一個值明顯超出了1.96,還有一個值略微超過1.96,可找到超過1.96的異常值分別為廣東、上海。
圖14 標準化殘差圖
6.1.4.殘差箱線圖
從上四分數Fu向上跨出dF的3/2倍,從下四分數向下跨出dF的3/2倍,得到兩個截斷點,把這兩個截斷點之外的觀測值當作離群值。根據這一定義,直接畫出殘差的箱線圖即可一目了然地發(fā)現離群值,即廣東、上海、北京、浙江四地,如圖15所示。
圖15 殘差箱線圖
通過以上對于異常點的不同分析,可看出廣東、上海在4種方式的異常點判斷中均出現了三次,但廣東每次都是遠遠超出標準,而上海有兩次都是超出標準不多;北京出現了兩次,且每次都是稍微超出標準而被選為異常點;山東、江蘇、浙江、西藏僅僅出現了一次。綜合以上分析,筆者認為應將廣東省剔除,以避免異常值對于回歸擬合的影響。
6.2 模型優(yōu)化
將廣東省對應的數據剔除之后,再次進行最小二乘回歸,回歸結果如下:
表5 改進后的最小二乘法回歸結果
(19)
(185 9.479) (0.097 576)
t=(-0.295 814) (13.531 30)
R2=0.867 359 F=183.096 1 n=30
圖16 改進后的散點圖和擬合直線
6.3 模型優(yōu)化效果評價
用均方誤差來比較直接用最小二乘法擬合的直線與剔除異常點后用最小二乘法擬合的直線效果的優(yōu)劣。
通過計算得出最初的最小二乘回歸的均方誤差為6.193 5×107,優(yōu)化后的均方誤差為2.873 3×107,由此明顯看出去掉一個離群點后的擬合偏誤要小得多,模型的優(yōu)化是有效的。
由三組耐抗線算得的均方誤差為7.332 9×107,大于用最初的最小二乘法算出的均方誤差6.193 5×107。
圖17 原始數據下三組耐抗線與最小二乘法殘差的比較
將原始樣本數據的最小二乘法計算于三組耐抗線計算所得到的殘差畫在一張圖中,得到圖17。其中藍色的圈代表運用最小二乘法擬合得到的殘差,綠色的圈表示運用三組耐抗線進行擬合后得到的殘差。
通過觀察殘差對X(全社會固定資產投資額)的散點圖可以發(fā)現,運用三組耐抗線方法得到的殘差中有距離均值非常遠的點,而最小二乘法得到的殘差到中心的距離則沒有三組耐抗線的殘差距中心遠。由此可以看出,三組耐抗線本身具有耐抗性,它不因個別偏離較大的點而劇烈影響所擬合的參數值。因此即便有差異很大的點,它也會將離群點對擬合參數的影響降到很小,因此在殘差圖上就可能出現某些離群點距離擬合直線上對應點的距離很大的情況。而最小二乘法則不然,因為它要使得殘差平方和最小,因而考慮到了包括異常值在內的所有的數。對于越偏遠的點,最小二乘法的擬合效果越差,因為它為了使殘差的平方和最小,可能會舍去其他擬合效果較好的模型。因此對于異常值較多或者偏離較遠的情況下,三組耐抗線的方法相對于最小二乘法更加可靠。但在上述數據中,由于僅有一個野值,并且其離群的程度不是很大,因此由三組耐抗線算得的均方誤差要大于最小二乘法算出的均方誤差。
[1] (美)(D.C.霍格林)David C.Hoaglin. 探索性數據分析[M].陳忠璉,郭德媛,譯.北京:中國統(tǒng)計出版社, 1998.
[2] 江克寧.地區(qū)生產總值與固定資產投資關系的實證分析[J].統(tǒng)計與決策,2015(17):97-100.
[3] 吳建群.探索性數據分析在能源消費中的應用探討——人均生活能源消費和人均GDP的關系研究[J].現代商貿工業(yè),2011(17):46-47.
2017-03-14
呂林靜(1997-),女,海南海口人,研究方向為經濟學,電話:17889982336。
F127;P224
A
1671-4733(2017)04-0118-05