王佳欣 韓越 劉思佳 董思源 王雪艷 周煥明
近年來隨著計算機、通信技術(shù)及互聯(lián)網(wǎng)的普及,各行各業(yè)存儲了大量數(shù)據(jù),而在大量的數(shù)據(jù)中挖掘出有效信息的手段是使用機器學(xué)習(xí)算法。機器學(xué)習(xí)算法通過歸納和綜合數(shù)據(jù)建立模型來解決預(yù)測問題,能夠為各行業(yè)的決策及快速發(fā)展提供數(shù)據(jù)支持。另一方面,隨著社會的高速發(fā)展,我國人口老齡化形勢較為嚴(yán)峻,65 歲以上老齡人口占比由1999年的6.72%增長到2021年的14.2%。即將面臨著“未富先老”的一系列問題。本研究基于國家統(tǒng)計局?jǐn)?shù)據(jù)利用機器學(xué)習(xí)算法構(gòu)建灰色預(yù)測模型GM(1,1)和支持向量回歸模型(SVR)進行老年人口數(shù)量的預(yù)測,為解決我國的養(yǎng)老問題、基礎(chǔ)設(shè)施建設(shè)和公共事業(yè)發(fā)展提供有利的數(shù)據(jù)支持。
(一)資料來源
本研究使用的數(shù)據(jù)來源于1999~2022年的《中國統(tǒng)計年鑒》和《中國衛(wèi)生統(tǒng)計年鑒》。
(二)研究方法
使用Pearson相關(guān)系數(shù)法分析10個影響因素與老齡人口數(shù)量的相關(guān)性。通過Lasso回歸去掉影響因素之間的共線性問題,提取出影響預(yù)測結(jié)果的關(guān)鍵特征。根據(jù)本研究數(shù)據(jù)集不大的情況,選用灰色模型GM(1,1)預(yù)測關(guān)鍵特征的值,可具有優(yōu)良性能。本研究屬于高維非線性問題,用關(guān)鍵特征構(gòu)成的數(shù)據(jù)子集構(gòu)建支持向量回歸模型(SVR)預(yù)測我國老齡人口數(shù)據(jù)。
本研究首先在統(tǒng)計年鑒中獲取數(shù)據(jù);其次,進行特征的相關(guān)性分析;再次,通過Lasso回歸篩選變量;最后,使用GM(1,1)和SVR模型進行預(yù)測。
(一)老齡人口數(shù)量的影響因素及相關(guān)性分析
影響老齡人口數(shù)量(y)的因素很多,本研究將與老齡人口關(guān)系密切且直觀上有線性關(guān)系的10個屬性作為自變量,分析各特征之間及各特征與y之間的關(guān)系,這些屬性為老齡化指數(shù)(x1),生育率(x2),全國人口出生率(x3),人均GDP(x5),自然增長率(x6),性別比(x7),城鎮(zhèn)化率(x8),醫(yī)院衛(wèi)生機構(gòu)床位(x9),人均可支配收入(x10)。
通過編寫Python代碼對各特征之間及各特征與y之間進行相關(guān)性分析,得到x7與y為極弱相關(guān),x2與y為中等程度相關(guān),x3、x4與y為強相關(guān),其他屬性與y為極強相關(guān),因此,除x7外其他屬性均可用作老齡人口預(yù)測分析的關(guān)鍵屬性,但這些屬性之間存在著信息的重復(fù),需要對關(guān)鍵特征進一步篩選。
(二)老齡人口預(yù)測的關(guān)鍵特征提取
考慮到傳統(tǒng)的特征選擇方法具有一定的局限性,本研究采用Lasso回歸方法老齡人口預(yù)測的關(guān)鍵特征提取,得出x5、x9和x10系數(shù)分別為-0.0899、-11.2996和0.7834,其余屬性系數(shù)均為0,因此影響老齡人口預(yù)測的關(guān)鍵影響因素為x5、x9和x10。
本研究首先通過灰色預(yù)測函數(shù)——灰色模型G(1,1)得出2023~2027年的人均x5、x9和x10的預(yù)測值。
使用預(yù)處理后的數(shù)據(jù)集,調(diào)用s k l e a r n庫的LinearSVR函數(shù)構(gòu)建我國老齡人口預(yù)測模型,函數(shù)參數(shù)采用默認(rèn)值,得出2023~2027年老齡人口數(shù)(單位為:萬人)依次為:19495.1、22767.4、24300.2、26628.2和28645.2。
將1999~2022年的預(yù)測值與真實值,以及2023~2027年的預(yù)測值繪制出折線圖1,其中紅色折線是預(yù)測模型得出的數(shù)據(jù),藍色曲線為實際老齡人口數(shù)據(jù)??煽闯霰狙芯拷⒌哪P涂珊芎玫臄M合實際老齡人口變化情況,且模型具有很高的精度,可以用來預(yù)測未來5年的老齡人口數(shù)據(jù)。
(一)結(jié)論
本研究預(yù)測數(shù)據(jù)表明我國人口老齡化速度明顯加快,老齡人口數(shù)量由1999年的8679萬增長為2022年的20978萬,未來5年預(yù)計將達到28645多萬。
(二)本研究的局限性
本研究采用Lasso回歸方法能有效甄別出具有多重共線性、篩選變量并減少模型復(fù)雜程度,但影響老齡人口數(shù)量的因素較多且不能全部覆蓋,因此該模型的預(yù)測結(jié)果可能存在偏差。
本文中采用的灰色模型和SVR模型組合預(yù)測,對短期預(yù)測效果較好,中長期預(yù)測偏差可能較大。
(三)建議
根據(jù)上述預(yù)測的數(shù)據(jù)結(jié)果,為更好的應(yīng)對人口老齡化的加速態(tài)勢,特提出以下三點建議。
1.養(yǎng)老服務(wù)體系建設(shè)
我國應(yīng)盡快建立健全養(yǎng)老服務(wù)體系,創(chuàng)新養(yǎng)老服務(wù)模式,加快養(yǎng)老服務(wù)產(chǎn)業(yè)發(fā)展。一方面,可有效應(yīng)對人口老齡化問題,提高老年人生活質(zhì)量和壽命、維護老年人能尊嚴(yán)和權(quán)利,增進社會和諧。另一方面,老年群體蘊含著很大的市場需求,大力開發(fā)老年服務(wù)市場,可促進經(jīng)濟發(fā)展。
2.延遲退休政策及早落地
延遲退休有利于積極應(yīng)對老齡化,不僅可以解決勞動力供求不平衡,而且可以支持社會經(jīng)濟的可持續(xù)運行,增加老年勞動力供給,降低老年撫養(yǎng)比,有效緩解政府財政負擔(dān)。
3.全面放開生育政策
全面放開生育政策是應(yīng)對人口老齡化的國家戰(zhàn)略。全面放開生育政策有助于促進人口長期均衡發(fā)展,緩解未來勞動力短缺,改善我國人口結(jié)構(gòu),保持我國人力資源的稟賦優(yōu)勢。
作者單位:王佳欣、韓越、劉思佳、董思源、王雪艷牡丹江醫(yī)學(xué)院衛(wèi)生管理學(xué)院
周煥明 牡丹江醫(yī)學(xué)院圖書館
基金項目:牡丹江醫(yī)學(xué)院第十二屆大學(xué)生科研項目“基于灰色模型GM(1.1)和支持向量回歸模型SVR的我國老齡人口數(shù)量預(yù)測研究”,項目編號:2022016;牡丹江市應(yīng)用技術(shù)研究與開發(fā)計劃項目“基于機器學(xué)習(xí)組合算法的牡丹江市人口預(yù)測研究”,項目編號HT2022JG129;2022年度黑龍江省省屬高等學(xué)?;究蒲袠I(yè)務(wù)費科研項目“基于灰色預(yù)測和支持向量回歸模型的黑龍江省居家養(yǎng)老服務(wù)需求的預(yù)測研究”,項目編號:2022-KYYWF-0725;黑龍江省教育科學(xué)十四五規(guī)劃2022年度重點課題,項目編號:GJB1422274。