李雨欣
(南開大學(xué)金融學(xué)院, 天津 300350)
得益于社會(huì)經(jīng)濟(jì)發(fā)展與醫(yī)療條件的不斷改善,人類壽命不斷延長(zhǎng)。據(jù)國(guó)家統(tǒng)計(jì)局政府公開信息,截至2022年末,全國(guó)60歲及以上人口28 004萬(wàn)人,占總?cè)丝诘?9.8%。其中65歲及以上人口為20 978萬(wàn)人,占14.9%。人口增長(zhǎng)與經(jīng)濟(jì)發(fā)展之間存在著密切聯(lián)系,既可以具有相互促進(jìn)的關(guān)系,也可能形成相互制約的局面。人口死亡率關(guān)乎社會(huì)養(yǎng)老保障、商業(yè)養(yǎng)老年金、長(zhǎng)壽風(fēng)險(xiǎn)等的管理。隨著我國(guó)人口老齡化程度的進(jìn)一步加深,對(duì)于人口死亡率的建模尤為重要。而當(dāng)前較為流行的對(duì)死亡率歷史演變的大部分模型都是使用按年齡、時(shí)期和隊(duì)列(或出生年份)分解死亡率進(jìn)行的。這3個(gè)變量形成了一種自然的方法,可以分析個(gè)人的死亡率如何隨著年齡的增長(zhǎng)而變化、醫(yī)療和社會(huì)進(jìn)步隨時(shí)間的影響,以及個(gè)人從出生起對(duì)終身死亡率的影響。本文在年齡-時(shí)期-隊(duì)列(age-period-cohort,APC)模型的估計(jì)方式上進(jìn)行推廣,在廣義線性模型(general liner model,GLM)的基礎(chǔ)上使用嶺回歸改進(jìn)APC模型,以解決APC模型所存在的共線性問題,并對(duì)日本總?cè)丝跀?shù)據(jù)進(jìn)行建模分析、評(píng)價(jià)與預(yù)測(cè)。
當(dāng)前國(guó)內(nèi)外學(xué)者對(duì)于模型的選擇多采用動(dòng)態(tài)死亡率模型,即隨機(jī)死亡率模型。隨機(jī)死亡率模型的研究起源于Lee-Carter模型,該模型使用包含年齡與日歷年的死亡率數(shù)據(jù),根據(jù)這兩個(gè)變量建立死亡率模型,將日歷年作為一個(gè)時(shí)間序列進(jìn)行預(yù)測(cè),從而獲得對(duì)死亡率的未來(lái)預(yù)測(cè)結(jié)果。Lee-Carter模型隨后衍生出許多變體并得到了廣泛應(yīng)用,RH(Renshaw-Haberman)模型就是其中之一,RH模型向Lee-Carter模型中引入描述了出生年效應(yīng)的參數(shù),通過將時(shí)期和隊(duì)列參數(shù)作為時(shí)間序列,進(jìn)行預(yù)測(cè)后可以進(jìn)一步獲得死亡率的預(yù)測(cè)結(jié)果。這一改進(jìn)顯著提高了模型的擬合與預(yù)測(cè)效果。隨后,為解決RH模型的穩(wěn)健性,Currie等[1]對(duì)模型進(jìn)行了簡(jiǎn)化,形成了僅包含年齡、時(shí)期、隊(duì)列效應(yīng),而不包含交互項(xiàng)的年齡-時(shí)期-隊(duì)列(APC)模型,該模型對(duì)美國(guó)歷史數(shù)據(jù)有很高的擬合度。在應(yīng)用于隨機(jī)死亡率估計(jì)之前,APC模型已在人口學(xué)和醫(yī)學(xué)的領(lǐng)域中得到了廣泛的應(yīng)用。然而,APC模型具有完全的多重共線性。Fosse和Winship[2]對(duì)APC模型的點(diǎn)估計(jì)進(jìn)行了總結(jié),認(rèn)為解決APC模型完全的多重共線性的方法可分為兩大類:一類是使用明確的約束,如將兩個(gè)類別相關(guān)的效果設(shè)置為彼此相等;另一類是使用機(jī)械約束,如嶺回歸、偏最小二乘回歸和主成分回歸等。Olaniran和Moyosola[3]對(duì)APC模型進(jìn)行了嶺回歸改進(jìn)后,結(jié)合蒙特卡洛模擬法對(duì)法國(guó)總?cè)丝谒劳雎蔬M(jìn)行模擬,證明了嶺回歸改進(jìn)具有良好的效果。Hunt和Blake[4]對(duì)APC模型的可識(shí)別性問題進(jìn)行了全面分析,并討論了如何預(yù)測(cè)死亡率模型,認(rèn)為可識(shí)別性問題涉及確定性趨勢(shì),這些趨勢(shì)必須通過額外的任意可識(shí)別性限制在3種效應(yīng)中進(jìn)行分配。Hunt和Blake[5]隨后回顧了迄今為止提出的APC模型,分析了APC死亡率模型的結(jié)構(gòu),列出了使用這些模型構(gòu)建時(shí)應(yīng)考慮的關(guān)鍵原則。
相較之下,國(guó)內(nèi)對(duì)于人口死亡率的研究相對(duì)較少。曠開金等[6]運(yùn)用灰色預(yù)測(cè)模型GM(1,1)以及3層BP(back propagation)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型,分別對(duì)福建省人口死亡率進(jìn)行建模預(yù)測(cè)。趙明等[7]使用灰色預(yù)測(cè)模型,改進(jìn)了Double-Gap方法對(duì)壽命差距進(jìn)行建模,并將預(yù)測(cè)結(jié)果與傳統(tǒng) Double-Gap 方法、Lee-Carter模型和貝葉斯分層模型進(jìn)行比較。趙明[8]采用多人口Li-Lee模型對(duì)人口死亡率進(jìn)行聯(lián)合預(yù)測(cè),并將預(yù)測(cè)結(jié)果與單人口Lee-Carter模型進(jìn)行比較,以探尋適合中國(guó)人口死亡率預(yù)測(cè)的模型方法。周華林等[9]采用ACF(0)模型、 多人口Lee-Carter交叉分類可信度模型和單人口Lee-Carter模型預(yù)測(cè)人口死亡率,并運(yùn)用人口-發(fā)展-環(huán)境(population-development-environment ,PDE)分析模型預(yù)測(cè)我國(guó)人口老齡化變動(dòng)趨勢(shì)。
(1)
(2)
Lee和Carter在1992年提出的隨機(jī)死亡率模型的構(gòu)成如下:
lnmx,t=αx+βxκt
(3)
式中:mx,t為年齡為x的人在日歷年t的死亡人數(shù);αx為對(duì)數(shù)死亡率隨年齡x的變動(dòng);κt為對(duì)數(shù)死亡率隨日歷年t的變動(dòng);βx為年齡對(duì)日歷年的敏感度。通過對(duì)κt進(jìn)行時(shí)間序列預(yù)測(cè)可以對(duì)模型進(jìn)行外推。
Renshaw和Haberman[10]向Lee-Carter模型引入了隊(duì)列效應(yīng),將模型拓展為包含出生年參數(shù)γt-x的隨機(jī)死亡率模型:
(4)
該模型除年齡、時(shí)期以及隊(duì)列效應(yīng)參數(shù)以外,還包含了年齡隨時(shí)期、隊(duì)列的交叉項(xiàng),計(jì)算相對(duì)復(fù)雜。Currie等[1]對(duì)RH(Renshaw-Haberman)模型進(jìn)行了簡(jiǎn)化,使模型變?yōu)閮H包含的年齡、時(shí)期、隊(duì)列效應(yīng)的APC模型:
lnmx,t=αx+κt+γt-x
(5)
以上隨機(jī)死亡率模型的估計(jì)與預(yù)測(cè)均可分為兩步,首先是對(duì)模型參數(shù)進(jìn)行估計(jì),即使用數(shù)據(jù)進(jìn)行擬合,隨后對(duì)包含時(shí)期效應(yīng)與隊(duì)列效應(yīng)模型的兩種參數(shù)使用時(shí)間序列的方法進(jìn)行預(yù)測(cè),從而得到預(yù)測(cè)的死亡率。
使用泊松分布的廣義線性模型對(duì)APC模型進(jìn)行擬合較為常見,但由于存在多重共線性問題,需另外添加約束條件以使模型可被識(shí)別。假設(shè)擬合模型包含na個(gè)年齡,ny個(gè)日歷年,因此有n=nany個(gè)觀測(cè)值。
設(shè)X=[Xa:Xy:Xc],其中Xa為代表年齡效應(yīng)的n×na維的矩陣,由ny個(gè)na維的單位矩陣堆疊而成;Xy為代表時(shí)期效應(yīng)的n×ny維的矩陣,由na個(gè)ny維的單位矩陣堆疊而成;Xc為表示隊(duì)列效應(yīng)的n×nc維的矩陣,該矩陣的列為隊(duì)列效應(yīng)的nc個(gè)出生年,則對(duì)于第n個(gè)觀測(cè)值,即該矩陣的第n行,除該觀測(cè)值的出生年所在列的位置為1外其余元素為0。此外,定義1p為由p維元素均為1的列向量,Iq為維度為q的單位矩陣。因此X矩陣可以表示為克羅內(nèi)克爾積的形式:X=[1ny?Ina:1na?Iny:Xc]。易知矩陣X的秩比其行數(shù)少3,模型是不可被識(shí)別的。
將對(duì)應(yīng)于矩陣Xa的系數(shù)列向量設(shè)為α,對(duì)應(yīng)于矩陣Xy的系數(shù)列向量設(shè)為κ,對(duì)應(yīng)于矩陣Xc的系數(shù)列向量設(shè)為γ,則廣義線性模型估計(jì)式的系數(shù)列向量為θ=(αT,κT,γT)T。為使用最大似然估計(jì)法,需要為這個(gè)估計(jì)式添加限制條件。Currie[11]提供了下列方式:
(6)
將這3個(gè)限制條件寫為類似于X的矩陣形式,即
(7)
將表示限制條件的矩陣H作為限制矩陣,并入到矩陣X中,即
(8)
式中:Xaug為得到的增廣矩陣,Hθ=0。因此如果Xaug是滿秩矩陣時(shí),θ有唯一解。
然而R語(yǔ)言中的gnm函數(shù)無(wú)法對(duì)參數(shù)的相互關(guān)系進(jìn)行設(shè)定,只能夠設(shè)定某幾個(gè)參數(shù)的限制條件,因此使用一種不同的設(shè)定,κ1=γ1=γnc=0,它的限制矩陣為
(9)
(10)
(11)
這樣即可得到符合限制條件的系數(shù)值。
泊松嶺回歸估計(jì)(Poisson Ridge regression,PRR)能夠消除模型存在的多重共線性。在解的矩陣中添加一個(gè)k倍的單位矩陣,盡管會(huì)使模型發(fā)生偏移,但可以很好地消除其多重共線性。PRR估計(jì)量在死亡率模型中可以定義為
(12)
式中:W為由死力μx,t構(gòu)成的對(duì)角矩陣;k為一個(gè)非負(fù)的常值;I為單位矩陣。當(dāng)k=0時(shí)嶺回歸估計(jì)量將會(huì)變回為最大似然估計(jì)量,k值越大,模型的方差越小,偏差越大。此時(shí)的回歸系數(shù)可以表示為
(13)
本文主要使用均方根誤差、似然函數(shù)和貝葉斯信息準(zhǔn)則進(jìn)行評(píng)價(jià)。
(1)均方根誤差(RMSE)的計(jì)算公式為
(14)
(2)似然函數(shù)的計(jì)算公式為
(15)
式中:L(θ)為似然函數(shù)的估計(jì)值。通常來(lái)說,似然函數(shù)的值越大,模型擬合效果越好。
(3)貝葉斯信息準(zhǔn)則(BIC)的計(jì)算公式為
BIC=-2ln[L(θ)]+klnN
(16)
式中:k為模型中所使用的參數(shù)的個(gè)數(shù);N為觀測(cè)樣本的個(gè)數(shù)。BIC的值越小,表明模型的擬合效果越好。
鑒于我國(guó)僅有1994—2021年共計(jì)28年的數(shù)據(jù),時(shí)期跨度很小,且1996年日歷年數(shù)據(jù)末組為“85+,”1995—2015年的隔5年全國(guó)1%人口抽樣調(diào)查數(shù)據(jù)末組為“100+”,其余年份均為“90+”。部分死亡人口數(shù)據(jù)存在空缺值,同時(shí)文獻(xiàn)[8,12]指出人口普查在低齡和高齡期存在不同程度漏報(bào),尤其是新生兒死亡數(shù)據(jù)漏報(bào)嚴(yán)重。因此本文選取1980—2020年日本兩性人口0~95歲數(shù)據(jù)、使用1980—1999年的死亡數(shù)據(jù)作為訓(xùn)練集進(jìn)行建模并擬合,使用2000—2020年數(shù)據(jù)作為測(cè)試集進(jìn)行預(yù)測(cè),數(shù)據(jù)來(lái)源于人類死亡率數(shù)據(jù)庫(kù)(Human Mortality Database,HMD),數(shù)據(jù)時(shí)間跨度達(dá)40年,且缺失值較少。
分別使用Currie[11]帶限制條件的廣義線性模型與附加嶺回歸的改進(jìn)模型對(duì)數(shù)據(jù)進(jìn)行擬合并對(duì)比其效果。
首先,應(yīng)用R語(yǔ)言中的gnm(廣義非線性模型)包中的gnm函數(shù)來(lái)對(duì)APC模型進(jìn)行估計(jì),并設(shè)定死亡人口數(shù)服從泊松分布、總?cè)丝诒┞稊?shù)為偏移量、連接函數(shù)為對(duì)數(shù)函數(shù)。當(dāng)形式為線性的模型進(jìn)入gnm函數(shù)中,gnm函數(shù)退化為glm函數(shù),即廣義線性模型函數(shù)。但gnm函數(shù)的優(yōu)勢(shì)在于可以添加單個(gè)參數(shù)的限制條件,即上述理論模型中的3個(gè)參數(shù)為零。在使用gnm函數(shù)時(shí),需添加constrain ="[?]"的參數(shù)以彈出窗口對(duì)κ1=γ1=γnc=0的條件進(jìn)行設(shè)定。
隨后將最大似然估計(jì)得到的系數(shù)進(jìn)行矩陣運(yùn)算以得到預(yù)測(cè)的死亡率、RMSE,并將系數(shù)分解為3種效應(yīng)。使用交叉驗(yàn)證的方式得到k值,設(shè)定k值的區(qū)間為0~1,對(duì)步長(zhǎng)為0.001的k值進(jìn)行計(jì)算,得到使RMSE最小的k值作為最優(yōu)值,隨后代入到模型中得到總體死亡率的擬合。為提高計(jì)算效率,使用網(wǎng)格搜索的方式對(duì)k值進(jìn)行求解:在(0,1)的區(qū)間內(nèi)首先設(shè)定步長(zhǎng)為0.1計(jì)算RMSE,選取使RMSE最小的k值,記為k(1),隨后,可在(k(1)-0.1,k(1)+0.1)的區(qū)間內(nèi),設(shè)置步長(zhǎng)為0.01進(jìn)行搜索,得到使RMSE最小的k值,記為k(2)……依次類推,直到得到滿足精度下的k值。
表1中為改進(jìn)模型與原模型評(píng)價(jià)準(zhǔn)則的對(duì)比,均方根誤差、似然函數(shù)、貝葉斯信息準(zhǔn)則3個(gè)評(píng)價(jià)準(zhǔn)則中嶺回歸改進(jìn)的模型相較于廣義線性模型均表現(xiàn)良好,可見嶺回歸模型在擬合效果上起到了改進(jìn)的作用。
表1 模型擬合效果比較
分別對(duì)兩種方法的參數(shù)κt與γc進(jìn)行時(shí)間序列預(yù)測(cè)。圖1給出了75、80、85、90歲總?cè)丝诘乃劳雎省膱D1中能夠看出,對(duì)于高齡數(shù)據(jù),嶺回歸方法的預(yù)測(cè)效果明顯優(yōu)于最大似然方法。且隨著估計(jì)年齡的提高,越來(lái)越接近真實(shí)的粗死亡率數(shù)據(jù)。而對(duì)于每一選取年齡的預(yù)測(cè),嶺回歸估計(jì)的預(yù)測(cè)結(jié)果都要優(yōu)于廣義線性模型的估計(jì)。
圖1 1980—2020年日本75、80、85、90歲人口死亡率
對(duì)隨機(jī)死亡率APC模型的估計(jì)方式進(jìn)行改進(jìn),引入嶺回歸估計(jì)模型,并基于日本1980—1999年0~95歲人口死亡率,分別使用廣義線性泊松回歸模型,與改進(jìn)的嶺回歸模型進(jìn)行死亡率的擬合,隨后對(duì)2000—2020年的0~95隨人口死亡率進(jìn)行預(yù)測(cè),并與真實(shí)值進(jìn)行模型評(píng)估準(zhǔn)則比較。實(shí)證分析結(jié)果表明,在擬合效果與預(yù)測(cè)結(jié)果上,改進(jìn)的嶺回歸模型優(yōu)于使用最大似然估計(jì)的GLM模型,盡管會(huì)造成一定的估計(jì)偏移,但會(huì)使模型均方根誤差、似然函數(shù)與貝葉斯信息準(zhǔn)則得到顯著改進(jìn)。本文的不足之處在于,對(duì)于死亡率的擬合除假設(shè)死亡率服從泊松分布以外,還可能假設(shè)死亡率服從二項(xiàng)分布,是否能夠提出該方式的嶺回歸改進(jìn)模型尚待進(jìn)一步研究。