国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Lasso-XGBoost的財政收入預測方法研究

2023-02-08 06:35:46張雨乾
天津經(jīng)濟 2023年1期
關(guān)鍵詞:財政收入預測值變量

◎文/張雨乾

一、引言

財政是國家治理的基礎(chǔ)和重要支柱,財政收入作為財政管理的重要內(nèi)容,地區(qū)財政收入的增加或減少對于財政支出有極其重要的影響,穩(wěn)定的、可預期的財政收入對于政府機構(gòu)運轉(zhuǎn)、教育醫(yī)療養(yǎng)老等社會民生領(lǐng)域有著極其重要的作用。2015年國務院就印發(fā) 《關(guān)于實行中期財政規(guī)劃管理的意見》,要求加快建立現(xiàn)代財政制度、改進預算管理和控制,全面推進中期財政規(guī)劃管理,研究未來三年涉及財政收支的重大改革和政策事項,并測算收支數(shù)額??茖W合理地對財政收入進行預測,有助于準確把握未來的財政收入,建立合理的預期,可以更加合理、有效地安排財政支出計劃,實現(xiàn)財政業(yè)務的精細化管理,有效促進跨年度的預算平衡。

鑒于財政收入對于國計民生的重要性,不少學者都對此進行了研究,取得了不少成果。謝珊、汪盧?。?015)將當前財政收入預測方法歸納為三類:一是利用宏觀經(jīng)濟數(shù)據(jù)與財政收入數(shù)據(jù)構(gòu)建的線性回歸模型。二是采用當前先進的灰色關(guān)聯(lián)模型、BP神經(jīng)網(wǎng)絡(luò)、支持向量機等模型進行預測。三是利用財政收入數(shù)據(jù)進行預測的時間序列模型。除此之外,還指出對中期預算框架下我國財政收入預測應充分考慮可能存在的非線性模型。王華春、劉清杰(2017)運用格蘭杰因果檢驗發(fā)現(xiàn)中國的財政收支存在長期均衡并且收入引起支出,符合以收定支的預算編制原則,利用ARIMA模型對中國財政收入進行了預測。安秀梅、肖堯(2017)采用主成分分析、時間序列、組合預測模型等模型對北京市的財政收入進行了預測。蔣鋒、張婷、 周琰玲 (2018) 運用Lasso-GRNN神經(jīng)網(wǎng)絡(luò)模型對青海省海西州的財政收入進行實證分析,首先運用Lasso選取自變量,之后運用GRNN神經(jīng)網(wǎng)絡(luò)模型進行預測,取得了較好的預測效果。

綜合上述文獻,本文通過Lasso方法選取影響天津市財政收入的主要變量,采用XGBboost模型進行財政收入預測。

二、實證分析

(一)數(shù)據(jù)來源及描述性統(tǒng)計

本文使用數(shù)據(jù)來源于國家統(tǒng)計局主要城市年度數(shù)據(jù)以及2021年天津統(tǒng)計年鑒,其中地方一般公共預算收入(income)數(shù)據(jù)時間范圍為2002—2021年,其他變量的時間范圍為2001—2020年。表1為變量統(tǒng)計性描述。

表1 變量統(tǒng)計性描述

(二)Lasso選取變量

Lasso方法是一種壓縮估計,Lasso回歸可以使得一些變量系數(shù)變小,甚至一些絕對值較小的系數(shù)變?yōu)?,可以較好地解決變量間的多重共線性,特別適合變量篩選。因此本文采用Lasso回歸方法來選擇自變量,減少變量個數(shù),解決變量間的多重共線性問題。

表2為Lasso回歸的結(jié)果,去除Lasso回歸系數(shù)小于等于0.01的變量,選取其中13個變量作為影響天津市財政收入的主要影響因素,分別是國內(nèi)生產(chǎn)總值、常住年末總?cè)丝?、在崗職工平均工資、房地產(chǎn)開發(fā)投資額、地方一般公共預算支出、城鄉(xiāng)居民儲蓄年末余額、郵政局(所)數(shù)、固定電話用戶數(shù)、社會商品零售總額、貨物進出口總額、普通本專科學生、居民消費價格指數(shù)、R&D經(jīng)費支出。

表2 Lasso回歸系數(shù)

(三)模型構(gòu)建

XGBoost基于梯度提升決策樹,是一個優(yōu)化的分布式梯度增強庫,可以快速準確地解決許多數(shù)據(jù)科學問題,主要是用來解決監(jiān)督學習問題,目前已經(jīng)在眾多機器學習和數(shù)據(jù)挖掘比賽中得到廣泛認可(ChenT,Guestrin C,2016)。

XGBoost的目標函數(shù):

目標函數(shù)包含兩個部分:訓練誤差和正則化。第一部分訓練誤差 l是一個可導的凸損失函數(shù),測量預測值與實際值yi之間的差。為模型對訓練樣本的預測值,yi為訓練樣本的真實值。第二部分Ω為正則化項,定義了模型的復雜程度。其中,γ和λ為人工設(shè)置的參數(shù),ω為決策樹所有葉子節(jié)點值形成的向量,T為葉子節(jié)點數(shù)。

(四)XGBoost模型預測

首先將樣本數(shù)據(jù)分為兩部分,一部分為訓練數(shù)據(jù),一部分為測試數(shù)據(jù)。之所以將樣本數(shù)據(jù)分為兩部分,原因在于防止出現(xiàn)過度擬合現(xiàn)象。如果將全部樣本都用XGBoost算法進行迭代訓練,得出的預測模型對于樣本數(shù)據(jù)當然是最優(yōu)的預測也是最準確的,但是如果將樣本之外新的數(shù)據(jù)代入這一預測模型,得到的財政收入預測值是否接近真實數(shù)據(jù),則是值得懷疑的。因此通過提取一部分樣本作為訓練數(shù)據(jù),經(jīng)過算法迭代得到最佳的財政收入預測模型,再通過測試數(shù)據(jù)代入模型來驗證財政收入預測模型的有效性,可以極大地提高財政收入預測模型的可信性和適用性。

訓練數(shù)據(jù)主要目的是通過XGBoost算法進行迭代訓練得到財政收入預測模型。選取2001—2017年自變量數(shù)據(jù)以及 2002—2018年財政收入數(shù)據(jù)作為訓練數(shù)據(jù),通過訓練得到財政收入的預測模型。由于模型主要目標是財政收入預測,如果同時使用同一年的自變量和因變量進行模型訓練,無法實現(xiàn)預測下一年財政收入的作用,除此之外部分自變量還缺少2021年數(shù)據(jù),因此對財政收入變量采取滯后一期進行分析。比如使用2018年財政收入代替原來樣本中的2017年財政收入數(shù)據(jù)作為因變量,而自變量還是使用2017年數(shù)據(jù);2017年財政數(shù)據(jù)代替2016年財政收入數(shù)據(jù),以此類推,這樣通過訓練得到的模型可以進行下一年度的財政收入預測。

訓練數(shù)據(jù)使用XGBoost算法進行迭代訓練,訓練目標是使得模型預測值最接近實際的財政收入。

表3為當財政收入的預測模型為最優(yōu)時,XGBoost算法得到的模型預測值和財政收入的實際值,可以看出實際值與預測值兩者之間已經(jīng)十分接近,說明訓練結(jié)果比較準確可靠。

表3 2002—2018年財政收入的模型訓練結(jié)果

測試數(shù)據(jù)用來模擬在真實環(huán)境下,財政收入預測模型的準確性、可靠性。將2018—2020年自變量數(shù)據(jù)測試數(shù)據(jù)代入預測模型中,得到模型的收入預測值,再通過比較模型收入預測值與真實收入數(shù)據(jù)差別,可以驗證在真實環(huán)境下財政收入預測模型的有效性,如果預測值和真實值差別越小,則說明模型的預測值越準確,模型越可靠。

從表4中可以看出,使用XGBoost模型得到的2019—2021年之間的財政收入預測值與真實值比較接近,尤其是考慮到近年來在疫情影響下天津市財政收入波動明顯,但2019—2021年的財政收入預測值還能比較接近真實值的數(shù)據(jù)。這充分說明了基于Lasso-XGBoost的財政收入預測模型可以在實際應用中取得良好的效果。

除此之外,使用Sequential模型(Keras中的一種神經(jīng)網(wǎng)絡(luò)框架)進行財政收入的預測,得到的預測結(jié)果詳見表4。通過分別比較Sequential模型和XGBoost模型的預測結(jié)果與真實值之間的差別,可以明顯看出XGBoost模型得到的預測結(jié)果更加精準,誤差更小。

表4 2019—2021年財政收入預測值

三、結(jié)論

在實際經(jīng)濟生活中影響地方財政收入的因素較多,并且可能存在變量之間的多重共線性問題以及變量的非線性關(guān)系。本文通過Lasso回歸方法得到變量的系數(shù),從眾多變量中選取影響財政收入的主要變量,在此基礎(chǔ)之上使用XGBoost模型得到財政收入的預測值,之后通過比較XGBoost模型和Sequencial模型與真實值的差別,發(fā)現(xiàn)XGBoost模型可以比較可靠的、精準的實現(xiàn)對天津市財政收入的預測。

通過分析Lasso回歸變量的系數(shù)(表2)可以看出常住年末總?cè)丝趯τ谔旖蚴胸斦杖刖哂凶钪匾挠绊?。常住人口?shù)量的增加,往往代表著有更多的人來該地定居、工作和生活,促進消費增長,同時人口的增加也意味著勞動力資源更加豐富,可以促進當?shù)亟?jīng)濟發(fā)展和財政收入的增長。因此吸引更多外來人口來天津,增加本地常住人口數(shù)量可能會對天津市財政收入增長產(chǎn)生比較好的正向作用。

固定電話用戶數(shù)這一變量對于天津市財政收入也有比較重要的正向作用,這一點初看可能有些出人意料,因為就個體日常生活中的體驗可以發(fā)現(xiàn)個人及家庭用戶已經(jīng)很少使用固定電話,造成這一現(xiàn)象的深層原因可能在于固定電話數(shù)量在一定程度上代表了企業(yè)的數(shù)量。當固定電話數(shù)量越多,一定程度上意味著企業(yè)數(shù)量越多,說明經(jīng)濟越具有活力,也會產(chǎn)生更多的稅收等財政收入,當然會對地方財政收入有重要的正向影響。

本文采用 Lasso-XGBoost組合方法開展財政收入預測,具有較高的實用性和精準性,可以為以后財政部門開展財政收入預測以及編制中期財政規(guī)劃管理提供一定的幫助,也可以為今后的財政收入預測相關(guān)研究提供一定的參考。

猜你喜歡
財政收入預測值變量
IMF上調(diào)今年全球經(jīng)濟增長預期
企業(yè)界(2024年8期)2024-07-05 10:59:04
加拿大農(nóng)業(yè)部下調(diào)2021/22年度油菜籽和小麥產(chǎn)量預測值
±800kV直流輸電工程合成電場夏季實測值與預測值比對分析
抓住不變量解題
一季度全國財政收入恢復性增長
山西財稅(2021年4期)2021-01-30 15:09:55
也談分離變量
法電再次修訂2020年核發(fā)電量預測值
國外核新聞(2020年8期)2020-03-14 02:09:19
我國財政收入運行持續(xù)向好一季度稅收同比增長17.3%
消費導刊(2018年7期)2018-08-22 03:28:26
中國財政收入走勢圖
財經(jīng)(2017年10期)2017-05-17 07:54:15
SL(3,3n)和SU(3,3n)的第一Cartan不變量
邹平县| 麻城市| 宜都市| 新沂市| 泸水县| 阆中市| 义乌市| 杭锦旗| 岳普湖县| 富源县| 普宁市| 浮山县| 休宁县| 新晃| 延庆县| 永德县| 定日县| 玉山县| 沂南县| 福鼎市| 县级市| 邳州市| 集贤县| 张北县| 鄯善县| 丽江市| 大悟县| 拜泉县| 浪卡子县| 青州市| 安庆市| 依兰县| 东乡县| 桃园县| 青浦区| 上蔡县| 衡阳市| 宜阳县| 临夏市| 女性| 永和县|