陳文青
(安徽大學 經(jīng)濟學院,安徽 合肥,230601)
2020年是全面建成小康社會和“十三五”規(guī)劃的收官之年,在突如其來的新冠肺炎疫情影響下,如何快速恢復經(jīng)濟增速,保持經(jīng)濟穩(wěn)中向好、長期向好的發(fā)展局面,對推動經(jīng)濟高質(zhì)量發(fā)展提出了更高要求。從經(jīng)濟周期角度來看,我國經(jīng)濟目前正處于一個較長周期的收縮階段,經(jīng)濟是否持續(xù)回落、何時到達轉(zhuǎn)折點也成為了社會各界熱切討論的話題。為更好地抵御風險,開展高效的宏觀經(jīng)濟管理與調(diào)控,對當前經(jīng)濟狀態(tài)的清晰了解、對未來經(jīng)濟發(fā)展的準確預測就成為最基礎卻重要的工作。我國經(jīng)濟已呈現(xiàn)“新常態(tài)”,增速放緩、經(jīng)濟結(jié)構(gòu)改革、驅(qū)動轉(zhuǎn)向,在獨特的經(jīng)濟體制作用下,我國經(jīng)濟運行存在著特有的復雜性與不確定性。因此,對當前經(jīng)濟周期狀態(tài)準確劃分有助于加強對整個經(jīng)濟運行態(tài)勢的了解,對影響經(jīng)濟周期狀態(tài)劃分的影響因素及其重要性分析,可以為預測經(jīng)濟形勢及經(jīng)濟周期轉(zhuǎn)折點提供有利幫助,對政府和投資者來說都具有重要的意義。對于宏觀經(jīng)濟政策來說,經(jīng)濟周期狀態(tài)劃分影響因素的研究結(jié)果可以成為其調(diào)整的理論依據(jù)。
經(jīng)濟周期狀態(tài)劃分,即判斷該時點經(jīng)濟運行狀態(tài)處于經(jīng)濟周期中哪個階段,由此來確定和預測經(jīng)濟周期轉(zhuǎn)折點,同時一旦確定經(jīng)濟周期轉(zhuǎn)折點,也可以完成對經(jīng)濟狀態(tài)的劃分。對于經(jīng)濟周期轉(zhuǎn)折點的預測研究最早是由美國國民經(jīng)濟研究局(NBER)提出的,他們提出的先行指標方法具有較大的局限性,存在主觀性和嚴重滯后性,且不具有可復制性。鑒于此,Bry和Boschan(1971)提出的經(jīng)濟周期的非參數(shù)劃分方法(簡稱B-B法),成為最常用的確定經(jīng)濟周期波動峰、谷日期的傳統(tǒng)方法[1]。該方法對于確定經(jīng)濟周期轉(zhuǎn)折點提出兩個約束條件:第一,谷到峰或峰到谷的持續(xù)時間在兩個季度以上;第二,兩個相同的轉(zhuǎn)折點即一個波動周期的持續(xù)時間至少為五個季度。
在由經(jīng)濟周期階段性劃分來預測經(jīng)濟周期轉(zhuǎn)折點的研究中,有兩種較為典型的研究方法,一為利用馬爾科夫狀態(tài)轉(zhuǎn)換模型,二是利用二元變量模型。Hamilton(1989, 1990)提出并發(fā)展完善的馬爾科夫狀態(tài)轉(zhuǎn)換模型,該模型包含一個離散的狀態(tài)變量,可將經(jīng)濟處于不同狀態(tài)的概率估算出來[2,3]。王建軍(2007)在傳統(tǒng)馬爾科夫狀態(tài)轉(zhuǎn)換模型的基礎上,引入了新的虛擬變量,該變量能夠較好的反映我國經(jīng)濟增長周期模式的改變和狀態(tài)轉(zhuǎn)移機制的變遷,由此解決了將馬爾科夫模型應用于中國年度宏觀經(jīng)濟數(shù)據(jù)研究中國經(jīng)濟周期問題的難題[4]。鄭挺國(2017)在馬爾科夫區(qū)制轉(zhuǎn)移動態(tài)因子模型的基礎上使用混頻數(shù)據(jù),構(gòu)造了一種能夠綜合利用不規(guī)則數(shù)據(jù)的經(jīng)濟周期計量模型,較好的刻畫出我國經(jīng)濟周期波動及階段性變化[5]?;诙x擇模型的預測研究是以一系列宏觀經(jīng)濟指標為基礎,結(jié)合傳統(tǒng)的二元選擇模型來預測未來一段時間衰退發(fā)生的可能性。石柱鮮等(2007)應用Logistic回歸模型構(gòu)建了我國先行3個月的經(jīng)濟周期狀態(tài)預測模型,同時結(jié)合小波方法對2007年主要經(jīng)濟指標發(fā)展趨勢進行預測,取得較好的預測效果[6]。
隨著人工智能的興起,機器學習(Machine Learning)方法在各個領域迅速崛起,為解決互聯(lián)網(wǎng)時代經(jīng)濟研究提供了新的研究方法。Lapedes et al(1987)首次將人工神經(jīng)網(wǎng)絡用于經(jīng)濟預測,確定了人工神經(jīng)網(wǎng)絡在經(jīng)濟預測中具有較高的準確性和有效性,此后,人工神經(jīng)網(wǎng)絡等大數(shù)據(jù)方法就成為經(jīng)濟預測領域的研究熱點[7]。陳夢根等(2020)通過對比分析利用傳統(tǒng)方法和利用機器學習方法所得的居民消費價格指數(shù)預測結(jié)果,發(fā)現(xiàn)相比傳統(tǒng)的回歸方法和時間序列預測方法,神經(jīng)網(wǎng)絡等機器學習方法對預測結(jié)果具有明顯優(yōu)勢[8]。
整體上看,目前對于經(jīng)濟周期狀態(tài)劃分的相關研究極為豐富,其中傳統(tǒng)的非參數(shù)方法B-B法對于經(jīng)濟周期轉(zhuǎn)折點的判定結(jié)果已成為世界各國對于經(jīng)濟周期階段劃分及轉(zhuǎn)折點預測時的重要參照,然而該方法無法實現(xiàn)經(jīng)濟狀態(tài)的預測,且無法體現(xiàn)各經(jīng)濟指標對經(jīng)濟周期的影響。另一種被廣泛運用的思路是通過對經(jīng)濟擴張期和收縮期狀態(tài)的劃分來確定和預測經(jīng)濟周期轉(zhuǎn)折點,馬爾可夫狀態(tài)轉(zhuǎn)換模型和二元變量模型是其中較為典型的研究方法。機器學習方法作為一種較新的人工智能方法,其應用在經(jīng)濟問題上的研究還比較少,在已有的對于經(jīng)濟周期相關問題上的應用也更多偏向于對轉(zhuǎn)折點的預測及經(jīng)濟狀態(tài)的劃分,方向較為單一。因此,本文在前人豐富的研究基礎上,應用機器學習方法探究經(jīng)濟周期狀態(tài)劃分及其影響因素,相比已有成果更偏重于對于影響因素及其重要性的分析。
2.1.1 邏輯回歸模型 邏輯回歸(Logistic Regression)是一種廣義的線性回歸分析模型,可以用于估計某事件發(fā)生的可能性,本文使用的是二分類的邏輯回歸。邏輯回歸實現(xiàn)分類問題的處理是通過Sigmoid函數(shù)引入了非線性因素,將函數(shù)的輸入范圍(∞,-∞)映射到了輸出的(0, 1)之間且具有概率意義。對于輸入x,在給定參數(shù)θ條件下分類結(jié)果為1或0的概率分別為:
(1)
(2)
邏輯回歸模型實現(xiàn)簡單,可以較為便利的觀測樣本概率分數(shù),但容易欠擬合,影響分類結(jié)果準確率。
2.1.2 決策樹模型 決策樹是在分類問題中經(jīng)常使用到的一種監(jiān)督型學習算法,可以根據(jù)輸入變量中最顯著的分裂點將總體或樣本劃分為兩類或多類。本文采用的是決策樹中的 CART 分類樹算法(Classification And Regression Tree)。該算法是一種二分遞歸分割技術(shù),把當前樣本劃分為兩個子樣本,使得生成的每個非葉子結(jié)點都有兩個分支,即它在每一步的決策都只能是“yes”和“no”,因此 CART分類樹算法生成的決策樹是結(jié)構(gòu)簡潔的二叉樹。
CART分類樹算法使用基尼系數(shù)Gini(p)作為劃分函數(shù),基尼系數(shù)代表模型的不純度,基尼系數(shù)越小,模型純度越高,特征越好。對于二分類問題,假設第一類輸出的概率為p,則
Gini(p)=2p(1-p)
(3)
對于樣本D,個數(shù)為|D|,根據(jù)特征A的某個值a,把D分成|D1|和|D2|,則在特征A的條件下,樣本D的基尼系數(shù)表達式為:
(4)
CART 算法主要由決策樹的生成和剪枝兩個步驟組成。
決策樹的輸出結(jié)果比較直觀,易于理解,可以處理多維度輸出的分類問題,但樣本的微小改動可能導致樹結(jié)構(gòu)的劇烈改變,該問題可以通過集成學習里面的隨機森林等方法解決。
2.1.3 隨機森林模型 隨機森林是利用多棵樹對樣本進行訓練并預測,其基本思路為:(1)從樣本集中隨機選取n個樣本;(2)從所有屬性中隨機選取K個屬性,選擇最佳分割屬性作為節(jié)點建立CART決策樹;(3)重復以上兩步m次,即建立了m棵CART決策樹;(4)這m個CART形成隨機森林,通過投票表決結(jié)果,決定數(shù)據(jù)屬于哪一類。
隨機森林對于高維數(shù)據(jù)的處理較為理想,在樣本特征維度很高時仍然能高效的訓練模型,且在訓練后可以給出各個特征對于輸出的重要性。
分類模型的構(gòu)建需要目標變量與解釋變量,目標變量是描述某時點經(jīng)濟狀態(tài)的二分類變量,它的確定需要我們先對經(jīng)濟周期進行階段劃分。解釋變量是在大量的宏觀經(jīng)濟指標中篩選出的能夠全面、及時反應經(jīng)濟運行態(tài)勢的指標,它的確立需要經(jīng)濟周期轉(zhuǎn)折點的基準指標作為主要選取標準。
2.2.1 目標變量的確定 本文根據(jù)國家統(tǒng)計局公布的一致合成指數(shù),基于B-B算法得到1995年以來我國經(jīng)濟周期波動的轉(zhuǎn)折點日期,如表1所列:
表1 經(jīng)濟周期波動的峰谷日期
圖1 一致合成指數(shù)(月度)曲線圖
依據(jù)經(jīng)濟周期波動轉(zhuǎn)折點判定的約束條件及圖1(圖1中陰影部分區(qū)域為依據(jù)約束條件所確定的經(jīng)濟周期收縮期)進一步判斷,表1中帶下劃線的時間為經(jīng)濟周期的谷底。據(jù)此,構(gòu)造一個描述經(jīng)濟周期階段的二元序列,其中0表示收縮階段,1表示擴張階段,轉(zhuǎn)折點日期的值與其前期相同,狀態(tài)取值的變化從轉(zhuǎn)折點日期下個月開始。
2.2.2 解釋變量的確定 宏觀經(jīng)濟指標的選取應能如實、全面和及時地反映當前的經(jīng)濟形勢,需綜合考慮生產(chǎn)、消費、投資、進出口等方面的經(jīng)濟活動,最終綜合考慮數(shù)據(jù)的全面性和可得性。本文在前人研究的基礎上,使用時差相關分析、K-L信息量法、峰谷對應法等多種計量方法,對經(jīng)濟預測指標組進行選取,從不同的領域選出了10個指標,分別是:進出口總額、居民消費價格指數(shù)、貨幣供應量(M1)、社會消費品零售總額、固定資產(chǎn)投資完成額、工業(yè)增加值、進口總值、出口總值、發(fā)電量月度數(shù)據(jù)作為實施識別的基礎數(shù)據(jù)。
本文選取的數(shù)據(jù)期間為1995年1月至2019年12月,所用數(shù)據(jù)均來自中經(jīng)網(wǎng)統(tǒng)計數(shù)據(jù)庫公布的月度數(shù)據(jù)。除居民消費價格指數(shù)外,其余各指標均使用增長率數(shù)據(jù),其中固定資產(chǎn)投資完成額使用累計增速,其余各變量使用當期同比增速。補充數(shù)據(jù)缺失值后使用X-12-ARIMA模型進行季節(jié)調(diào)整,提取各指標趨勢循環(huán)項并檢驗序列平穩(wěn)性,最后對數(shù)據(jù)進行標準化處理。
3.1.1 邏輯回歸模型構(gòu)建 通過前期的指標選取和對數(shù)據(jù)的預處理,本文利用R語言作為經(jīng)濟周期轉(zhuǎn)折點研究的邏輯回歸實現(xiàn)工具。在數(shù)據(jù)集中選取1995年1月-2012年5月共計210條數(shù)據(jù)作為訓練集,2012年6月-2019年12月共計90條數(shù)據(jù)作為測試集。本文綜合模型的復雜程度和預測精度,采用逐步回歸方法,依據(jù)BIC標準進行模型篩選,模型回歸結(jié)果如表2所示。
表2 BIC 準則下的模型回歸結(jié)果
注:***為0.001 顯著 **為0.01 顯著 *為0.05 顯著
為評估模型分類效果,分別對訓練集與測試集繪制混淆矩陣圖和ROC曲線圖,結(jié)果如下表3、表4、圖2所示。
表3 邏輯回歸訓練集混淆矩陣
表4 邏輯回歸測試練集混淆矩陣
依照混淆矩陣得該模型訓練集準確率為0.9143,測試集的準確率為 0.8778,計算得出基于測試集的F值為0.8991,AUC的值為0.879,說明建立的邏輯回歸模型效果良好。因此,用邏輯回歸模型解釋經(jīng)濟周期狀態(tài)的劃分與各影響因素之間的關系是合理的。
圖2 邏輯回歸的ROC曲線
3.1.2 基于邏輯回歸模型的影響因素分析 觀察表2中各指標對應的回歸系數(shù),系數(shù)絕對值越大可以理解為變量的重要性相對越高。因此,依據(jù)邏輯回歸模型的分類結(jié)果,在控制其他因素不變時,貨幣供應量(M1)、貨運量、工業(yè)增加值越大,該時點處于經(jīng)濟周期擴張狀態(tài)的概率越大。反之,進口總值、社會消費品零售總額、居民消費價格指數(shù)越大,該時點處于經(jīng)濟周期收縮狀態(tài)的概率越大,而出口總值、固定資產(chǎn)投資完成額、進出口總額、發(fā)電量指標的變動對判斷該時點經(jīng)濟狀態(tài)沒有顯著的影響。
3.2.1 決策樹模型構(gòu)建 本文選取1995年1月至2013年12月的宏觀經(jīng)濟數(shù)據(jù)建立決策樹模型的訓練集,2014年1月至2019年12月的數(shù)據(jù)作為測試集。首先利用CART算法建立決策樹模型,其生成的決策樹如圖3所示。
其次,需要對樹進行剪枝來提高其泛化能力,剪枝后的決策樹如圖4所示。
圖3 決策樹模型分類結(jié)果 圖4 剪枝后的決策樹模型分類結(jié)果
為檢測該模型的分類效果,計算該模型訓練集和測試集的混淆矩陣如表5、表6所示:
表5 決策樹模型訓練集混淆矩陣
表6 決策樹模型測試集混淆矩陣
由混淆矩陣計算可得,該決策樹模型在測試集上的準確率為 0.8556,基于測試集的F值為0.8889,由圖5的ROC曲線知AUC=0.832,因此模型分類效果良好。
圖5 決策樹模型的ROC曲線
3.2.2 基于決策樹模型的影響因素分析 根據(jù)圖4剪枝后的決策樹模型的分類結(jié)果,模型共進行六輪判斷,生成7個終端節(jié)點,方框內(nèi)第一行為經(jīng)濟周期狀態(tài)分類標記,“0”代表收縮狀態(tài),“1”代表擴張狀態(tài),第二行為決策概率,第三行為該類標記占總樣本比例。從決策樹的第一層,即居民消費價格指數(shù)這一指標來看,當CPI_tc大于等于101.2時,y指標進入圖的左側(cè),CPI_tc小于101.2時,y指標進入圖的右側(cè)。觀察決策樹的右側(cè),第二層依然是以CPI_tc為依據(jù)進行劃分,此次劃分的標準為CPI_tc是否超過99.4,若CPI_tc小于99.4,則進入樹的右側(cè),此時判斷該時點經(jīng)濟狀態(tài)為擴張階段,否則進入樹的左側(cè),開始下一輪判斷。由此可見,經(jīng)濟周期狀態(tài)的判斷與居民消費價格指數(shù)波動有較大關系,CPI值越小,該時點處于經(jīng)濟周期擴張狀態(tài)的可能性越大,這與上一節(jié)邏輯回歸的結(jié)果是一致的。決策樹右側(cè)的第三層是以出口總額為父節(jié)點進一步劃分,出口_tc小于23.12時,進入樹的左側(cè),判斷該時間經(jīng)濟狀態(tài)為擴張階段的概率為21%,收縮階段的概率為79%,在本文的判斷中,取閾值為0.5,則最后判斷該時點的經(jīng)濟狀態(tài)為收縮狀態(tài)。反之,若出口_tc大于等于23.12,則判斷此時經(jīng)濟狀態(tài)為擴張狀態(tài)。同樣的,我們可以對其他節(jié)點的分裂結(jié)果進行判斷,當CPI_tc不小于101.9,發(fā)電量_tc不小于14.33時,判斷經(jīng)濟狀態(tài)為擴張階段;否則,若固定資產(chǎn)投資完成額_tc不小于9.98,判斷經(jīng)濟狀態(tài)為收縮狀態(tài),;若固定資產(chǎn)投資完成額_tc小于9.98,則根據(jù)M1進一步劃分,若M1_tc小于7.45,判斷經(jīng)濟狀態(tài)為收縮狀態(tài),否則為擴張狀態(tài)。
與邏輯回歸的結(jié)果相比,決策樹模型除能夠反映出影響因素之外,對經(jīng)濟周期狀態(tài)劃分的條件的解釋能力更強。
3.3.1 隨機森林模型構(gòu)建 基于決策樹模型的分類原理,單棵決策樹的預測受樣本波動的影響較大,預測效果較不穩(wěn)定,因此,本文考慮用多棵樹投票決定的隨機森林模型進行改進。本文利用R語言工具,將所有變量納入到隨機森林模型進行建模,決策樹數(shù)量選擇400。表7、表8分別為訓練集數(shù)據(jù)和測試集數(shù)據(jù)的混淆矩陣。
表7 隨機森林訓練集混淆矩陣
表8 隨機森林測試集混淆矩陣
圖6 隨機森林模型的ROC曲線
根據(jù)混淆矩陣計算得出該隨機森林模型訓練集準確率為0.9956,測試集的準確率為0.9778,基于測試集的F值為0.9818,由圖6 ROC曲線知AUC值為0.9821429,說明該隨機森林模型分類效果非常好,其相對決策樹模型的準確率有了大幅度提升。
3.3.2 基于隨機森林模型的影響因素分析 隨機森林模型能夠直觀的描述各變量對分類結(jié)果影響的重要性,在圖7中,各經(jīng)濟變量分別以精確度平均減少值以及節(jié)點不純度平均減少值進行降序排列,位置越高的變量被認為對于模型的重要程度越大。對精確度平均減少值來說,居民消費價格指數(shù)、貨幣供應量(M1)、社會消費品零售總額、固定資產(chǎn)投資完成額、發(fā)電量是對其影響相對較大的重要變量。對節(jié)點不純度減少平均值來說,居民消費價格指數(shù)、貨幣供應量(M1)、社會消費品零售總額、固定資產(chǎn)投資完成額、工業(yè)增加值可以看作是對其影響較大的重要變量。
圖7 各變量影響程度
本文以模型在測試集上的準確率、AUC值、F值為參照來比較三種模型的分類效果,如表9所示,隨機森林模型在測試集上的準確率、AUC值和F值均最高,表示其分類效果最好,可以認定為最優(yōu)模型。
表9 模型評估
三種模型對于經(jīng)濟周期狀態(tài)劃分的影響因素及其重要性的判斷結(jié)果并不完全相同,但綜合來看,居民消費價格指數(shù)對于經(jīng)濟周期狀態(tài)劃分具有非常重要的影響。結(jié)合經(jīng)濟實際,在經(jīng)濟“新常態(tài)”背景下,我國經(jīng)濟更多依賴國內(nèi)消費需求的拉動,而消費者購買力卻在逐年下降。因此,對居民消費價格變動進行準確預測,對于采取合適的宏觀調(diào)控政策、穩(wěn)定我國經(jīng)濟發(fā)展態(tài)勢具有非常重大的意義。