国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中國老年人口死亡率的建模分析

2017-11-01 09:47:56黃佩佩
關(guān)鍵詞:余弦死亡率聚類

黃佩佩,鄭 靜

(杭州電子科技大學(xué)理學(xué)院,浙江 杭州 310018)

中國老年人口死亡率的建模分析

黃佩佩,鄭 靜

(杭州電子科技大學(xué)理學(xué)院,浙江 杭州 310018)

基于1963—2014年60歲到110歲人口死亡率,采用k-means聚類方法,以余弦相似度為距離函數(shù),將其聚為3類,針對每類采用時間序列分析的方法進行建模.每類中分別選取62歲,86歲和94歲的死亡率數(shù)據(jù),利用1963—2006年數(shù)據(jù)進行建模,并用2007—2014年數(shù)據(jù)進行驗證,其樣本內(nèi)擬合精度和檢驗樣本預(yù)測精度都比較好,從而驗證了所建模型的有效性和可行性.最后用該模型預(yù)測了2015—2020年62歲,86歲和94歲的人口死亡率.

死亡率;K-means聚類;ARIMA模型

0 引 言

人口死亡率一直是社會關(guān)注的一個焦點問題.隨著生活水平的提高和醫(yī)療衛(wèi)生條件的改善,人類死亡率呈下降趨勢,壽命不斷延長.1981—2010年,根據(jù)《中國統(tǒng)計年鑒》數(shù)據(jù)顯示,我國人均壽命從66.77歲上升至74.83歲,如果按同樣的速度增長,到2100年,我國的人均壽命將超過95歲.老年人口死亡率的準確預(yù)測為我國社會養(yǎng)老及醫(yī)療衛(wèi)生預(yù)算提供了一定的理論依據(jù).

目前,人類死亡率預(yù)測模型主要有2類,分別為Lee-Carter模型及其改進和時間序列模型.Lee-Carter模型給出了不同年齡的對數(shù)死亡率關(guān)于時間的函數(shù)關(guān)系,其得到了廣泛的應(yīng)用,是當今世界上最流行的死亡率預(yù)測模型.但其也有一定缺陷,用一個模型來模擬所有年齡人口死亡率,只能有局部代表意義,一些年齡模型的誤差較大,其人口死亡率預(yù)測不準確.文獻[1]以中國人口生命表為基礎(chǔ),對2010年的人口按齡死亡模式進行修正,研究發(fā)現(xiàn)2010年中國人口死亡率下降至5.58‰.文獻[2]介紹了預(yù)測死亡率常用的Lee-Carter模型的應(yīng)用,估計其方法及預(yù)測原理,并選用該模型對我國未來人口死亡率進行了預(yù)測,結(jié)果表明未來人口死亡率將持續(xù)降低.文獻[3]對Lee-Carter模型進行了完整的理論研究,并給出了完整的Lee-Carter模型理論分布和區(qū)間預(yù)測表達式,相比于傳統(tǒng)Lee-Carter預(yù)測方法,得到的預(yù)測區(qū)間較寬,長壽風險評估更為準確.基于以上討論并結(jié)合以往國內(nèi)外學(xué)者對人口死亡率的研究,本文采用時間序列分析的方法對60~110歲老年人口死亡率進行了研究.首先對原序列采用k-means聚類的方法,利用余弦相似度對不同年齡死亡率進行分類,進而對每一類分別進行分析建立模型,彌補了直接建模帶來的不足.相對以往研究,此方法建立的模型誤差較小,預(yù)測結(jié)果更為精確.

1 原時間序列的聚類分析

1.1 k-means聚類的基本思想

聚類分析是直接比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,性質(zhì)差別較大的歸為不同的類,以使簇內(nèi)有較高相似度,而簇間相似度較低[4].本文聚類采用k-means聚類,其基本思想是:從n個數(shù)據(jù)中任意選取c個對象用來作初始聚類中心,每個對象初始的代表一個簇的平均值或者中心,剩余n-c個對象,根據(jù)其到各個簇的距離,將它們歸類到距離最小的簇中心,然后重新計算每個簇的平均值,重復(fù)此過程,直至聚類準則函數(shù)收斂;準則函數(shù)通常為平方誤差準則:

(1)

1.2 余弦相似度

本文k-means聚類中距離采用余弦相似度度量.余弦相似度是用向量空間中2個向量的夾角余弦作為衡量2個向量之間的貼合程度,其相似度度量為:

(2)

其中,x1k,x2k為2個向量第k維的值,n為向量的個數(shù),且cosθ的取值范圍為[0,1].余弦值越大,對象間的相似度越大;余弦值越小,對象間的相似度越小.

2 自回歸移動平均模型

本文選用自回歸移動平均模型即ARMA模型[5],它是由自回歸模型AR和移動平均模型MA組成,其基本公式為:

yt=φ1yt-1+φ2yt-2+…+φpyt-p+et-θ1et-1-…-θqet-q

(3)

其中,p為自回歸模型的階數(shù),φi為自回歸系數(shù),yt-i為時間序列在t-i期的觀察值,et為不能用模型說明的隨機擾動,q為移動平均模型的階數(shù),θi為移動平均系數(shù),et-i為第t-i個時期進入系統(tǒng)的隨機擾動.建立ARMA模型要求時間序列具有平穩(wěn)性.原序列是不平穩(wěn)的,通過差分使序列達到平穩(wěn);經(jīng)過差分后建立的ARMA(p,q)模型稱為求和自回歸移動平均模型即ARIMA(p,d,q).

3 人口死亡率建模分析

3.1 數(shù)據(jù)分析與處理

本文研究的老年人口死亡率數(shù)據(jù)從http://www.mortality.org/下載,數(shù)據(jù)為1963—2014年60~110歲人口死亡率,文中所有算法實現(xiàn)都是由R語言來實現(xiàn).數(shù)據(jù)較多,首先對數(shù)據(jù)采用k-means聚類方法.由于考慮到人口死亡率的走勢圖,將1963—2014年死亡率走勢相近的年齡聚為一類.這樣,每類建立一個模型,并用該模型預(yù)測該類中其他年齡死亡率.基于以上特點,聚類中的距離采用余弦相似度,將數(shù)據(jù)聚為3類,分別為60~80歲、81~90歲、91~110歲.

分別對3類數(shù)據(jù)采用時間序列方法進行分析.分別選取62歲、86歲和94歲數(shù)據(jù)作為每一類的代表序列進行建模,選取1963—2006年數(shù)據(jù)作為建模樣本,2007—2014年數(shù)據(jù)作為測試樣本來評估模型的優(yōu)劣,并由模型預(yù)測2015—2020年老年人口死亡率.由R軟件的單位根檢驗函數(shù)adf.test知,62歲、86歲和94歲死亡率數(shù)據(jù)的置信水平P值依次為0.838 8,0.380 7和0.539 5,從而數(shù)據(jù)為非平穩(wěn)序列.接著對序列進行一階差分得到的新序列Yt的P值依次為0.021 2,0.202 5和0.156 0,從而得到62歲的一階差分序列為平穩(wěn)序列,但86歲和94歲的一階差分序列為非平穩(wěn)序列.然后再對86歲和94歲數(shù)據(jù)進行二階差分,得到序列的P值均為0.010 0,則其為平穩(wěn)序列.

3.2 模型建立與檢驗

3.2.1 模型診斷

模型診斷主要包括顯著性檢驗和殘差分析等[6].參數(shù)顯著性檢驗就是檢驗參數(shù)是否顯著異于零.如果參數(shù)不顯著,說明影響不明顯,將其從模型中刪除;如果參數(shù)顯著異于零,則將其保留在最終模型中.對于ARMA(p,q)模型,標準化殘差為:

(4)

H0:ARMA(p,q)是充分的.

H1:ARMA(p,q)是不充分的.

3.2.2 模型建立與檢驗

經(jīng)過差分并由ADF檢驗得到62歲為一階平穩(wěn)序列,86歲和94歲為二階平穩(wěn)序列,即62歲、86歲和94歲序列的d分別為1,2,2,且新序列的ACF和PACF如圖1所示.

圖1 ACF圖

圖2 PACF圖

由圖1、圖2可以看出,新序列的自相關(guān)函數(shù)和偏自相關(guān)函數(shù)都是拖尾的[7],因此可建立ARMA模型,計算所有模型的AIC值,記下AIC最小時所對應(yīng)的p,q.對62歲序列,當p=1,q=2時,AIC值最小,故此模型為ARIMA(1,1,2);而86歲和94歲序列都是當p=1,q=1時,AIC值最小,故這2類模型均為ARIMA(1,2,1).對模型的參數(shù)進行最小二乘估計,得到估計參數(shù)結(jié)果如表1所示.

表1 3個模型的參數(shù)估計

在表1中,ARIMA(1,1,2)62,ARIMA(1,2,1)86和ARIMA(1,2,1)94分別為62歲、86歲和94歲老年人口死亡率模型的參數(shù)估計,從數(shù)值中可以看出,對于任一模型,參數(shù)都顯著異于零,則由參數(shù)顯著性檢驗知參數(shù)對模型影響顯著.

然后用這3類模型分別預(yù)測2007—2014年62歲,86歲和94歲老年人口死亡率,預(yù)測結(jié)果如圖3所示.

圖3 老年人口死亡率預(yù)測值、真實值及擬合值

從圖3中可以看出,3個模型對于2007—2014年數(shù)據(jù)擬合效果較好,預(yù)測值與真實值在誤差允許的范圍內(nèi)幾乎接近一致.進一步通過sarima函數(shù)檢驗3類模型的殘差自相關(guān)性,3類模型的白噪聲方差估計值分別為0.001 8,0.078 2,0.460 4.Ljung-Box統(tǒng)計量結(jié)果表明,3類模型均在自由度為6的情況下,殘差已經(jīng)不存在自相關(guān)性,且P值分別為0.216 8,0.140 6和0.151 0,所有值遠遠大于5%,則殘差有很好的獨立性.由模型診斷的理論可知,這3類模型都是正確設(shè)定的.其中94歲模型的死亡率出現(xiàn)突然上升的情況,并且上升的時間正好處于2003年附近,這與此時間段內(nèi)發(fā)生的非典疫情相吻合,而該年齡的人口基數(shù)小導(dǎo)致上升的最為明顯.

3.2.3 類模型的誤差分析

對上述所建3類模型進行誤差分析,分別用R軟件計算出模型誤差與檢驗誤差,來檢驗?zāi)P偷膬?yōu)劣.3類模型的模型誤差與檢驗誤差如表2所示.

表2 3個模型的模型誤差與檢驗誤差

從表2可以看出,3類模型中,模型誤差和檢驗誤差都比較小,則表明樣本內(nèi)擬合精度和檢驗樣本預(yù)測精度都比較高,進一步說明所建模型是正確的.

3.3 老年人口死亡率預(yù)測值

由以上分析,3類模型樣本內(nèi)擬合精度和檢驗樣本預(yù)測精度都比較好,實驗結(jié)果表明該模型構(gòu)造是充分的,所以其可用于預(yù)測.分別用此模型預(yù)測2015—2020年老年人口死亡率,如表3所示.

表3 2015—2020年老年人口死亡率預(yù)測值 %

由于聚類所選距離設(shè)定為余弦相似度,因此,其他年齡人口死亡率可代入相關(guān)參數(shù)來預(yù)測.由于模型樣本內(nèi)擬合精度和檢驗樣本預(yù)測精度都比較高,所以此預(yù)測值具有一定的參考意義.

4 結(jié)束語

本文提出了用ARIMA模型預(yù)測老年人口死亡率.通過研究表明,所建立的模型能較為準確地描述老年人口死亡率所呈現(xiàn)的特征,為保險公司企業(yè)退休金及商業(yè)保險提供了理論依據(jù),對其制定決策有一定的參考價值;其次,預(yù)測值對國家社會養(yǎng)老保險及醫(yī)療衛(wèi)生預(yù)算也有重大意義.

[1] 張文娟,魏蒙.中國人口的死亡水平及預(yù)期壽命評估——基于第六次人口普查數(shù)據(jù)的分析[J].人口學(xué)刊,2016,38(3):18-28.

[2] 蘇華,趙文.我國死亡率預(yù)測與長壽風險[J].經(jīng)營管理者,2016,31(6):3-4.

[3] 王志剛,王曉軍,張學(xué)斌.Lee—Carter模型的理論分布和區(qū)間預(yù)測[J].數(shù)理統(tǒng)計與管理,2016,35(3):484-493.

[4] TAN P N,STEINBACH M,KUMAR V.數(shù)據(jù)挖掘?qū)д?完整版)[M].北京:人民郵電出版社,2011:310-314.

[5] Cryer J D,Chan K S.時間序列分析及應(yīng)用[M].潘紅宇,譯.北京:機械工業(yè)出版社,2011:63-133.

[6] 趙華.時間序列數(shù)據(jù)分析:R軟件應(yīng)用[M].北京:清華大學(xué)出版社,2016:58-88.

[7] 于寧莉,易東云,涂先勤.時間序列中自相關(guān)與偏相關(guān)函數(shù)分析[J].數(shù)學(xué)理論與應(yīng)用,2007,27(1):54-57.

ModelingandAnalysisoftheMortalityoftheElderlyPopulation

HUANG Peipei, ZHENG Jing

(SchoolofScience,HangzhouDianziUniversity,HangzhouZhejiang310018,China)

From 1963 to 2014 at the age of 60 to 110 year old population mortality based on the K-means clustering method, the cosine similarity as the distance function, which will be grouped into 3 categories, each kind of modeling method based on time series analysis. In each class was selected at the age of 62, 86 and 94 year old mortality data, the data from 1963 to 2006 were used to model and test the model with the data from 2007 to 2014. The fitting precision and prediction accuracy of test samples are good, which verifies the effectiveness and feasibility of the model. This model is also used to predict the class of 2015 to 2020 the elderly population mortality.

mortality; K-means clustering; ARIMA model

O213

A

1001-9146(2017)05-0092-05

2016-12-14

黃佩佩(1992-),女,山東濟寧人,碩士研究生,統(tǒng)計學(xué).通信作者:鄭靜副教授,E-mail:zhengjing@hdu.edu.cn.

10.13954/j.cnki.hdu.2017.05.017

猜你喜歡
余弦死亡率聚類
走路可以降低死亡率
中老年保健(2021年4期)2021-08-22 07:07:02
春季養(yǎng)雞這樣降低死亡率
新冠肺炎的死亡率為何難確定?
急性爛鰓、套腸、敗血癥…一旦治療不及時,死亡率或高達90%,叉尾鮰真的值得養(yǎng)嗎?
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
兩個含余弦函數(shù)的三角母不等式及其推論
分數(shù)階余弦變換的卷積定理
圖像壓縮感知在分數(shù)階Fourier域、分數(shù)階余弦域的性能比較
基于改進的遺傳算法的模糊聚類算法
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
九寨沟县| 团风县| 科尔| 栾城县| 灵川县| 万全县| 密山市| 县级市| 卓资县| 古田县| 鹤峰县| 赫章县| 江达县| 曲沃县| 秦皇岛市| 敖汉旗| 呼玛县| 房产| 乐业县| 开原市| 台北市| 蕲春县| 屏东县| 长葛市| 虹口区| 海原县| 潜江市| 浪卡子县| 金寨县| 琼结县| 新民市| 东至县| 阳新县| 黄陵县| 类乌齐县| 深水埗区| 武强县| 晋州市| 扎囊县| 习水县| 平邑县|