樊 毅,張 寧
(1.中南林業(yè)科技大學(xué) 經(jīng)濟(jì)學(xué)院,長(zhǎng)沙 410004;2.湖南大學(xué) 金融與統(tǒng)計(jì)學(xué)院,長(zhǎng)沙 410006)
近些年來(lái),死亡率的持續(xù)下降帶來(lái)的平均預(yù)期壽命的提高成為了世界各國(guó)人口發(fā)展的重要特征,我國(guó)也不例外。根據(jù)國(guó)家統(tǒng)計(jì)局發(fā)布的數(shù)據(jù),我國(guó)人口的人均預(yù)期壽命已經(jīng)從建國(guó)初期的40歲左右增加到了2015年的76.34歲。人的預(yù)期壽命的不確定性也會(huì)因人們?cè)谏罘绞缴系淖兓⑨t(yī)療技術(shù)上的創(chuàng)新等因素而增加。預(yù)期壽命變動(dòng)的隨機(jī)性不利于養(yǎng)老金成本的核算,并在很大程度上影響到各種養(yǎng)老金計(jì)劃的可持續(xù)發(fā)展,從而很可能會(huì)對(duì)壽險(xiǎn)公司和養(yǎng)老金機(jī)構(gòu)造成損失。綜上所述,在與歷史數(shù)據(jù)進(jìn)行比較的基礎(chǔ)上,選擇與我國(guó)人口死亡率分布狀況擬合效果較好的隨機(jī)死亡率模型,可以使得死亡率預(yù)測(cè)的精準(zhǔn)性得以大大改善,這為我國(guó)壽險(xiǎn)企業(yè)和養(yǎng)老金機(jī)構(gòu)的實(shí)踐提供了理論支持。
近二十年來(lái),國(guó)內(nèi)外學(xué)者對(duì)隨機(jī)死亡率模型進(jìn)行了一系列的研究。其中隨機(jī)死亡率模型同時(shí)考慮了年齡因素和時(shí)間因素對(duì)死亡率的影響,使得其預(yù)測(cè)值更接近實(shí)際。目前為止,由Lee和Carter(1992)[1]提出的Lee-Carter(LC)系模型和由Cairns等(2006)[2]提出的CBD系模型是較為經(jīng)典且運(yùn)用廣泛的模型。
國(guó)內(nèi)學(xué)者雖然有利用死亡率模型對(duì)中國(guó)人口死亡率進(jìn)行預(yù)測(cè),但是將不同死亡率模型對(duì)中國(guó)人口的擬合效果進(jìn)行比較分析的研究相對(duì)較少。王曉軍和蔡正高(2008)[3]在全面綜述了各類(lèi)死亡率模型的基礎(chǔ)上,為中國(guó)的死亡率模型選擇提供了合理建議。王曉軍和黃順林(2011)[4]比較分析了幾個(gè)較為常用的隨機(jī)死亡率模型對(duì)我國(guó)男性人口死亡率歷史數(shù)據(jù)的擬合效果,發(fā)現(xiàn)在CBD模型基礎(chǔ)上拓展而來(lái)的一個(gè)模型對(duì)中國(guó)男性人口死亡率經(jīng)驗(yàn)數(shù)據(jù)的擬合效果最好。段白鴿和石磊(2015)[5]在動(dòng)態(tài)死亡率模型的構(gòu)建中考慮了超高齡人口死亡率的因素,建立了超高齡人口動(dòng)態(tài)死亡率分層模型,分析了我國(guó)人口死亡率的變化狀況和該模型預(yù)測(cè)的效果。張志強(qiáng)和楊帆(2017)[6]首次在人口死亡率預(yù)測(cè)中運(yùn)用了多變點(diǎn)檢測(cè)方法,其將Lee-Carter模型與在主成分分析基礎(chǔ)上建立的死亡率模型對(duì)多個(gè)國(guó)家數(shù)據(jù)進(jìn)行擬合,發(fā)現(xiàn)采用多變點(diǎn)檢測(cè)的基于主成分分析的死亡率模型對(duì)人口死亡率預(yù)測(cè)的精確度和穩(wěn)定性更優(yōu)。
本文在全面綜述各類(lèi)死亡率模型的基礎(chǔ)上,選擇了8個(gè)運(yùn)用較為廣泛的隨機(jī)死亡率模型,以此對(duì)中國(guó)1994—2013年總?cè)丝谒劳雎实慕?jīng)驗(yàn)數(shù)據(jù)(0~89歲)進(jìn)行比較分析,并在綜合考慮擬合效果的基礎(chǔ)上作出評(píng)價(jià),以此得出最優(yōu)模型。
死亡率模型主要?jiǎng)澐譃榇_定型和隨機(jī)型兩種。其中確定型死亡率模型不考慮時(shí)間因素和死亡率未來(lái)趨勢(shì)對(duì)其造成的影響,只假設(shè)死亡率與年齡相關(guān),且該種模型的參數(shù)由死亡率的經(jīng)驗(yàn)數(shù)據(jù)確定。目前,隨機(jī)死亡率模型可劃分為L(zhǎng)C系和CBD系死亡率模型。
在有關(guān)隨機(jī)死亡率的研究中,比較著名的是由Lee和Carter于1992年提出的Lee-Carter模型:
其中,αx,βx指年齡因素,kt指隨機(jī)時(shí)間因素。m(x,t)指在t時(shí)刻年齡為x歲的人的中心死亡率,αx指不同年齡段死亡率對(duì)數(shù)變動(dòng)的基數(shù);βx指不同年齡段死亡率對(duì)數(shù)變動(dòng)的趨勢(shì)。kx指時(shí)間因素變量,可當(dāng)作一個(gè)隨機(jī)游走過(guò)程或一個(gè)ARIMA過(guò)程,表示在t時(shí)刻死亡率的變動(dòng)情況。
如今進(jìn)行參數(shù)估計(jì)的方法有許多。Lee和Carter(1992)[1]提出的SVD法 (Singular Value Decomposition)是最早進(jìn)行參數(shù)估計(jì)的方法。之后,統(tǒng)計(jì)方法更加標(biāo)準(zhǔn)化,注重對(duì)全部數(shù)據(jù)的擬合程度[7,8]。但 Lee和 Miller(2001)[9]認(rèn)為,應(yīng)更加注重對(duì)數(shù)據(jù)集最后一年的擬合,因?yàn)樽詈笠荒甑臄?shù)據(jù)對(duì)未來(lái)死亡率預(yù)測(cè)的影響要大于其他年份數(shù)據(jù)。
2006年,Renshaw和Haberman[10]第一次將出生年效應(yīng)納入人口死亡率模型:
其中,kt指隨機(jī)時(shí)間因素,γt-x指隨機(jī)的出生年效應(yīng),是(近似)出生年份(t-x)的函數(shù)。Renshaw和Haberman(2006)[10]將英格蘭和威爾士的數(shù)據(jù)進(jìn)行分析后,發(fā)現(xiàn)相較之前的Lee-Carter模型,加入出生年效應(yīng)會(huì)使人口死亡率模型更加完善,但該模型(RH模型)的穩(wěn)定性不佳。CMI(2006)[11]發(fā)現(xiàn)模型的參數(shù)估計(jì)值會(huì)隨著死亡率數(shù)據(jù)的年齡范圍變化而變化;Cairns等(2008)[12]用不同時(shí)間范圍去擬合模型的過(guò)程中也意識(shí)到了這個(gè)缺陷,他們還進(jìn)一步意識(shí)到用該模型擬合的出生年效應(yīng)大致存在一個(gè)確定的線性趨勢(shì)或二次趨勢(shì),這或許會(huì)對(duì)模型的擬合效果造成影響。
Haberman和Renshaw(2011)[13]令RH模型中的=1以解決其穩(wěn)定性問(wèn)題,具體簡(jiǎn)化形式如下:
Currie等(2006)[14]在簡(jiǎn)化了RH模型后,建立了APC模型:
該模型能夠很好地?cái)M合美國(guó)的歷史數(shù)據(jù),也能解決RH模型在上文中提到的穩(wěn)定性問(wèn)題[11]。
針對(duì)高齡人群,Cairns等(2006)[2]提出了一個(gè)基于Logistic轉(zhuǎn)換的CBD模型:
其中,q(x,t)=1-exp(-m(x,t)),指在t年內(nèi)x歲的人死亡的概率,-x為樣本年齡均值,為具有漂移項(xiàng)的雙變量隨機(jī)游走kt=kt-1+μ+cZt,因此該模型也被稱為雙因素死亡率模型。此外,他們?cè)诜治鲋羞€詳細(xì)說(shuō)明了如何利用貝葉斯方法在模擬中包含參數(shù)的不確定性。
之后,Cairns等(2007)[15]進(jìn)一步拓展了CBD雙因素模型:
Cairns等(2008)[12]將原始模型進(jìn)一步簡(jiǎn)化,建立了兩個(gè)模型,一個(gè)模型是令=0,見(jiàn)公式(7);另一個(gè)模型是令是零,用更復(fù)雜的年齡-出生年效應(yīng)因子替換,見(jiàn)公式(8):
Plat(2009)[16]在審查和分析LC系和CBD系等死亡率模型后,建立了四因素死亡率預(yù)測(cè)模型:
其中,αx與Lee-Carter模型中的類(lèi)似;代表各年齡死亡率隨時(shí)間的變化程度;指各年齡段的人死亡率改善水平的差別;是指由于濫用藥物、暴力或酗酒等原因而使低齡人群的死亡率出現(xiàn)波動(dòng),此處用(-x)+=max(-x,0)來(lái)代替-x),目的是使死亡率-年齡曲線變動(dòng)趨勢(shì)與以往數(shù)據(jù)相吻合。若僅僅預(yù)測(cè)高年齡組人群死亡率,可剔除,使模型更加簡(jiǎn)化:
γt-x指出生年效應(yīng),與前文模型所指意義類(lèi)似。
下頁(yè)表1將前文提到的隨機(jī)死亡率模型進(jìn)行了匯總。其中,LC模型是出現(xiàn)最早的隨機(jī)死亡率模型且該模型不包含出生年效應(yīng);RH模型和APC模型把LC模型進(jìn)一步拓展,但APC模型比RH模型更穩(wěn)定。CBD模型是針對(duì)高齡人群、基于Logistic轉(zhuǎn)換的雙因素模型;將M7模型進(jìn)一步簡(jiǎn)化,可得到M6模型和M8模型;因納入二次年齡效應(yīng)和出生年效應(yīng)兩個(gè)成分,使得M7模型穩(wěn)定性更強(qiáng);M8模型同為CBD系拓展模型,它包含了年齡-出生年效應(yīng)因子;Plat模型即四因素死亡率預(yù)測(cè)模型。
本文在進(jìn)行參數(shù)估計(jì)時(shí),假設(shè)死亡人數(shù)D(x,t)近似服從Poisson,即:
其中,D(x,t)指在t年時(shí)x歲的人的死亡數(shù)量,用E(x,t)指在t年時(shí)x歲的人平均死亡風(fēng)險(xiǎn)暴露人數(shù),m(x,t)與之前模型類(lèi)似。為了避免空缺數(shù)據(jù)單位對(duì)參數(shù)估計(jì)的影響,本文將提前擬定權(quán)數(shù)而準(zhǔn)許數(shù)據(jù)過(guò)度離散。Yxt指在t年時(shí)年齡為x歲的人的死亡數(shù)量?;赮xt的一階矩和二階矩,可得到關(guān)系式如下:
表1 8個(gè)隨機(jī)死亡率模型
其中,Φ為比例參數(shù),wxt為權(quán)重函數(shù),V[E(Yxt)]=E(Yxt)為方差函數(shù)。令數(shù)據(jù)缺失時(shí)的權(quán)數(shù)等于0,反之等于1。為了使模型之間的比較基礎(chǔ)一致,本文將使用死亡率q(x,t)的模型轉(zhuǎn)換成m(x,t),如下:m(x,t)=-log[1-q(x,ty)]。這樣能夠?qū)Ρ?中的8個(gè)模型都使用m(x,t)來(lái)計(jì)算模型的極大似然估計(jì)值。
對(duì)于一個(gè)給定的模型,要將符號(hào)m(x,t)擴(kuò)展成m(x,t,θ)來(lái)代表參數(shù)之間的依賴性,其中θ表示待估計(jì)的參數(shù)向量,同樣地:
對(duì)上述8個(gè)模型進(jìn)行參數(shù)估計(jì)時(shí),使用的是極大似然估計(jì)法,具體形式如下:
最后,為了得到各參數(shù)的估計(jì)值,使用牛頓迭代法,其公式如下:
2.3.1 殘差圖檢驗(yàn)
本文使用了中國(guó)1994—2013年0~89歲的綜合死亡人數(shù)和平均死亡風(fēng)險(xiǎn)暴露人數(shù)數(shù)據(jù),來(lái)更好地比較所選取的8個(gè)模型的擬合效果。圖2和圖3以殘差圖的形式,在泊松誤差結(jié)構(gòu)假設(shè)下,分別反映了年齡、日歷年和出生年對(duì)死亡率的影響。通常按照殘差分布來(lái)選擇模型。依據(jù)圖2和圖3,可看出8個(gè)模型都捕捉到了時(shí)間效應(yīng),但是僅僅只有RH、APC、M6、M7、M8以及Plat模型反映出了出生年效應(yīng)。此外,從CBD模型殘差圖中能夠得知,其年齡殘差圖以及出生年殘差圖都呈現(xiàn)了波動(dòng)劇烈的特征,這在一定程度上表明了年齡效應(yīng)以及出生年效應(yīng)并沒(méi)有在其中得到反映,但是從其時(shí)間殘差圖得知,時(shí)間效應(yīng)能夠在該模型中得到有效地反映,因?yàn)槠鋾r(shí)間殘差圖是均勻分布在零軸兩側(cè);LC模型也未能較好地捕捉出生年效益,因其對(duì)應(yīng)的殘差有輕微的波動(dòng),但該模型卻很好地捕捉了年齡效應(yīng)和時(shí)間效應(yīng);從殘差圖可看出,RH模型和APC模型的擬合程度很高,三個(gè)成分的殘差在零軸兩側(cè)均勻分布,但是RH模型的擬合效果的穩(wěn)定性優(yōu)于APC模型。M7模型的殘差圖分布均勻且最接近零軸,因此該模型的擬合程度較高,優(yōu)于M6模型和M8模型;與M7模型相比,雖然Plat模型的殘差分布均勻,但在零軸附近的偏移程度較大,因此該模型對(duì)數(shù)據(jù)的擬合存在一定的偏差。
圖3 M6、M8、M7與Plat模型的殘差圖
2.3.2 AIC和BIC比較法
通常,極大似然估計(jì)值的大小受模型中參數(shù)個(gè)數(shù)多少的影響,參數(shù)個(gè)數(shù)越多估計(jì)值越大,則會(huì)使模型過(guò)度參數(shù)化,可以通過(guò)懲罰過(guò)度參數(shù)化的模型來(lái)避免該問(wèn)題。本文將運(yùn)用貝葉斯信息準(zhǔn)則(BIC)和赤池信息量準(zhǔn)則(AIC)來(lái)觀察添加的每一個(gè)參數(shù)對(duì)模型的極大似然估計(jì)值的影響。就比較標(biāo)準(zhǔn)而言,AIC和BIC考慮到了模型的擬合質(zhì)量和簡(jiǎn)潔度,同時(shí)在比較時(shí)不必考慮模型之間有無(wú)相互嵌套關(guān)系,此外,BIC沒(méi)有假設(shè)先驗(yàn)?zāi)P偷呐判?。通過(guò)得出表1中的8個(gè)模型的AIC值和BIC值及其大小順序(見(jiàn)表2),能夠發(fā)現(xiàn)RH模型對(duì)中國(guó)的死亡數(shù)據(jù)的擬合程度最高,其次是Plat模型,再次是APC模型。
表2 8個(gè)隨機(jī)死亡率模型的AIC和BIC值及其大小順序(括號(hào)中)
2.3.3 嵌套模型的似然比檢驗(yàn)
嵌套模型是一般模型的特殊形式。例如,在簡(jiǎn)化RH模型基礎(chǔ)上提出的APC模型是其嵌套模型。對(duì)于嵌套模型,通常采用似然比檢驗(yàn)的方法,該檢驗(yàn)的原假設(shè)為嵌套模型的擬合效果好,備擇假設(shè)為更一般的模型擬合效果更優(yōu)。就APC和RH模型而言,設(shè)APC和RH模型的極大似然估計(jì)值分別為和,其參數(shù)估計(jì)個(gè)數(shù)分別為v1=214,v2=304。假設(shè)原假設(shè)成立,極大似然比統(tǒng)計(jì)量是2(-l1),可知它近似服從卡方分布,自由度d.f.為α 為置信水平),那么拒絕原假設(shè),得出RH模型的擬合效果更優(yōu)的結(jié)論。
如表3所示,表2中的嵌套模式的模型總共有6對(duì)。通過(guò)表3可以明顯發(fā)現(xiàn)P值都小于α,因而拒絕原假設(shè),得出一般模型的擬合效果優(yōu)于嵌套模型的結(jié)論。
表3 一般模型與嵌套模型的似然比檢驗(yàn)
2.3.4 參數(shù)的穩(wěn)定性檢驗(yàn)
本文選取了RH模型、APC模型和Plat模型,上述三模型均為BIC值較大的死亡率模型,并使用極大似然估計(jì)法對(duì)年齡0~89歲的人進(jìn)行參數(shù)估計(jì),然后分別作出參數(shù)分布圖,如圖4所示。本文選取了1994—2013年和1997—2013年的中國(guó)綜合死亡人口數(shù)據(jù)和綜合平均死亡風(fēng)險(xiǎn)暴露數(shù)據(jù)來(lái)對(duì)上述三個(gè)模型進(jìn)行參數(shù)估計(jì)。1994—2013年以及1997—2013年的數(shù)據(jù)擬合的模型中每一項(xiàng)的分布見(jiàn)圖3,其中,散點(diǎn)使用的是1994—2013年的數(shù)據(jù),折線使用的數(shù)據(jù)為1997—2013年。令年齡在[0,89]內(nèi)取值,日歷年分別在[1994,2013]和[1997,2013]內(nèi)取值。
圖4 RH、APC、Plat模型的擬合穩(wěn)定性檢驗(yàn)圖
從上述三個(gè)模型的檢驗(yàn)圖中看到它們出生年效應(yīng)顯著,其出生年效應(yīng)曲線在t-x≥1970時(shí)均呈現(xiàn)出下降趨勢(shì)。
參數(shù)是否具有穩(wěn)定性是衡量模型優(yōu)劣的重要指標(biāo)。若模型的穩(wěn)定性較好,則該模型在使用不同時(shí)間段數(shù)據(jù)的情況下,得到的兩組估計(jì)值曲線相吻合。對(duì)于APC、RH和Plat模型,它們的參數(shù)估計(jì)圖在年齡項(xiàng)的擬合上較為接近,且相對(duì)穩(wěn)定,即使在擬合模型參數(shù)時(shí)使用的時(shí)間段較短,其參數(shù)圖也改變不大。RH模型對(duì)于出生年效應(yīng)的擬合效果相對(duì)較差:1997—2013年數(shù)據(jù)擬合的出生年指數(shù)圖是先上升后下降的,而1994—2013年數(shù)據(jù)擬合的指數(shù)圖卻有下降趨勢(shì)。不同于RH模型,APC模型和Plat模型在時(shí)間段較短的情況下,其預(yù)測(cè)趨勢(shì)與原圖線大致吻合,故其擬合效果較優(yōu),但出生年指數(shù)因數(shù)據(jù)變少,方差變大而擴(kuò)大了其取值范圍。Plat模型出生年指數(shù)范圍由原來(lái)的(-0.2,0.2)擴(kuò)大至(-0.6,0.6)。
本文對(duì)所選取的8個(gè)隨機(jī)死亡率預(yù)測(cè)模型的擬合效果進(jìn)行比較與分析。發(fā)現(xiàn)當(dāng)以殘差圖的形式,在泊松誤差結(jié)構(gòu)假設(shè)下,每個(gè)模型都捕捉到了時(shí)間效應(yīng),且除了LC模型和CBD模型外都捕捉到了出生年效應(yīng)。研究表明RH模型、APC模型和M7模型擬合程度最優(yōu),而LC模型和CBD模型擬合程度較弱。就BIC檢驗(yàn)而言,能夠發(fā)現(xiàn)RH模型對(duì)中國(guó)的死亡數(shù)據(jù)的擬合程度最優(yōu),其次分別是Plat模型和APC模型。就參數(shù)穩(wěn)定性而言,APC模型、RH模型和Plat模型的參數(shù)估計(jì)圖在年齡項(xiàng)的擬合上較為接近,且相對(duì)穩(wěn)定,預(yù)測(cè)結(jié)果較為準(zhǔn)確。因此,在綜合考慮所有的死亡率模型擬合效果后可以得出,APC模型與我國(guó)的人口死亡狀況最相適應(yīng)。
從以上結(jié)果能夠得出,并不存在一個(gè)可以有效解決我國(guó)人口死亡狀況擬合中存在的各種問(wèn)題的隨機(jī)死亡率模型。這不僅在一定程度上反映出難以獲取人的死亡狀況的發(fā)展變化規(guī)律;同時(shí)也提出了進(jìn)一步的要求,需要對(duì)現(xiàn)有的關(guān)于人口死亡率預(yù)測(cè)的方法及模型進(jìn)行優(yōu)化。