羅丹娜, 王達布希拉圖
(廣州大學(xué) 經(jīng)濟與統(tǒng)計學(xué)院, 廣東 廣州 510006)
在非壽險中,對保單總損失進行估計是一項重要的精算任務(wù).一方面,非壽險產(chǎn)品的保費由保單的期望損失來制定,對損失估計的準確與否將給保險費率的厘定帶來直接影響.另一方面,保險準備金的計提也與保單的期望損失有關(guān).因此,保單損失的估計對保險公司的風(fēng)險管理也具有至關(guān)重要的意義.
在傳統(tǒng)的總損失預(yù)測模型中,通常對索賠頻率和索賠強度分別進行預(yù)測,即常見的頻率-強度模型,將索賠頻率和索賠強度的預(yù)測值相乘即得總損失的預(yù)測值.對索賠頻率和索賠強度分別建立預(yù)測模型可以揭示索賠頻率和索賠強度的不同影響因素,從而有利于風(fēng)險的識別和管理.然而,該方法隱含著一個重要的假設(shè),即索賠頻率和索賠強度是相互獨立的[1],而這種獨立性假設(shè)并不可能總是成立.例如,Gschl??l等[2]使用完整的貝葉斯方法分析了綜合的汽車保險數(shù)據(jù)集,并檢測到索賠強度與索賠次數(shù)有一定的相依關(guān)系.此外,獨立性的假設(shè)過于嚴格,會導(dǎo)致對保單損失的系統(tǒng)性高估或低估,這顯然影響了保險組合損失估計的準確性.
盡管如此,現(xiàn)有的關(guān)于放松獨立性假設(shè)的研究仍然很少.截至目前,關(guān)于索賠頻率和索賠強度相依關(guān)系的模型可以分為四類:Copula相依模型[3]、條件相依模型[2,4-5]、共同隨機效應(yīng)模型[6-7]以及相依性調(diào)整模型[8].
關(guān)于索賠變量間的相依性度量研究中,Czado等[9]及Kr?mer等[3]利用Copula回歸模型使索賠相依性深入到復(fù)雜協(xié)變量中,但其對變量的邊際分布往往主觀直取,缺乏一定的客觀性.為進一步完善其建模方法,本文基于一組實際數(shù)據(jù),用變量篩選和模型選擇的相關(guān)方法對邊際分布做出客觀選擇.本文選擇二元Frank Copula函數(shù)聯(lián)合索賠次數(shù)和索賠強度的邊際分布,給出保單總損失的擬合分布,并進行相應(yīng)的實證分析.
Copula是具有均勻邊際的多元分布函數(shù),為構(gòu)造多元分布提供了自然的方法.其中,一個二元Copula C:[0,1]×[0,1]→[0,1]是[0,1]×[0,1]上具有均勻邊際分布函數(shù)的二元累積分布函數(shù)[3]. Sklar[10]證明了Copula的存在性.
Sklar定理(在二元情況下) 對于具有一元邊際分布函數(shù)FX和FY的二元隨機變量(X,Y)的每個聯(lián)合分布函數(shù)FX,Y,都存在一個二元Copula C,使得
FX,Y(x,y)=C(FX(x),FY(y))
(1)
如果X和Y是連續(xù)隨機變量,則Copula C是唯一的.反之,如果C是Copula,則上式定義具有邊際分布函數(shù)FX和FY的二元聯(lián)合分布.
依Sklar定理,Copula模型的建立主要分為兩步:①確定邊際分布;②選取一個適當(dāng)?shù)腃opula函數(shù)C,以便建立隨機變量間的聯(lián)合分布.
本文考慮索賠強度X和索賠次數(shù)Y的聯(lián)合分布,由索賠變量本身的特點可知(X,Y)是一對取值均為正值的連續(xù)-離散型隨機變量.
對索賠強度X,本文初步假定服從某分布,如對數(shù)正態(tài)分布LOGNO(μ,σ2),其密度函數(shù)為
fX(x|μ,σ)=
其中,x>0,μ>0,σ>0.分布的期望和方差分別為
Var(X)=(eσ2-1)e2μ+σ2.
而對索賠次數(shù)Y,本文初步假定服從某分布,如零截斷泊松分布ZTP(λ),其密度函數(shù)為
其中,y=1,2,…,λ>0.零截斷泊松分布的期望和方差分別為
沿用文獻[3,9]的做法,引入廣義線性模型.設(shè)μi=h(xi)為對數(shù)正態(tài)分布的均值參數(shù),λi=λ(xi)vi為零截斷泊松分布的均值參數(shù),i(i=1,2,…)表示第i個保單持有人,vi為第i個保單持有人的風(fēng)險暴露量,對特征空間ri∈p,si∈q,定義回歸函數(shù)h:X→+,λ:X→+,則
(2)
(3)
協(xié)變量矩陣ri和si在兩個模型中可以不同.
所謂Copula回歸模型,即基于一組協(xié)變量,將廣義線性模型應(yīng)用于邊際分布的均值回歸中,再用Copula函數(shù)對邊際分布進行連接.
注意到在作者及相關(guān)文獻中鮮有研究邊際分布選擇方法的報道,本文對此缺失進行補充,從而在客觀上分別給出較為合適的索賠強度和索賠次數(shù)的擬合分布.具體做法有以下兩點.
(1)回歸變量的篩選
結(jié)合特征成分的相關(guān)性分析以及逐步回歸法對回歸變量進行篩選,根據(jù)AIC準則,選取關(guān)鍵的變量以減少模型的多重共線性.
(2)回歸模型的選擇
根據(jù)索賠強度和索賠次數(shù)各自分布的特點,本文分別考慮常用的幾種分布來對回歸模型(2)和(3)進行擬合.為了檢驗?zāi)P偷念A(yù)測性能,首先將數(shù)據(jù)集劃分為兩個集合:用D表示訓(xùn)練數(shù)據(jù)集(90%)、用T表示測試數(shù)據(jù)集(10%).
為了擬合單個模型,本文只使用訓(xùn)練數(shù)據(jù)集.通常情況下,這是通過最小化樣本內(nèi)損失(in-sample loss)來實現(xiàn)的.由于樣本內(nèi)損失容易過擬合,故本文綜合計算測試數(shù)據(jù)集的樣本外損失(out-of-sample loss)來進行模型比較和性能分析.樣本內(nèi)損失和樣本外損失的明確定義見式(4)和式(5)[11].
(4)
(5)
最后,綜合考慮AIC、樣本內(nèi)損失和樣本外損失這三個統(tǒng)計量,確定索賠強度X和索賠次數(shù)Y的邊際分布.
在常用的阿基米德Copula函數(shù)中,F(xiàn)rank Copula的密度分布呈“U”字形,可以用于描述具有對稱厚尾結(jié)構(gòu)變量的耦合關(guān)系, 并且囊括正負相關(guān)結(jié)構(gòu).Frank Copula函數(shù)如下:
C(u,v|θ)=
(6)
由Sklar定理,索賠強度X和索賠次數(shù)Y的聯(lián)合分布可以通過含有參數(shù)θ的Copula函數(shù)C(·,·|θ)來定義,即索賠強度和索賠次數(shù)(X,Y)的聯(lián)合分布為
FX,Y|θ(x,y)=C(FX(x),FY(y)|θ)
(7)
fX,Y(x,y|θ)=fX(x)(D1(FX(x),FY(y)|θ)-
D1(FX(x),FY(y-1)|θ))
(8)
為簡便,將二維隨機變量記為(L,Y)T∈+×{1,2,…}.由X=L/Y得
(9)
對聯(lián)合密度函數(shù)fL,Y(l,y)求L的邊際分布函數(shù),最終保單總損失的密度函數(shù)為
fL(l|μ,σ,λ,θ)=
(10)
(1)構(gòu)造對數(shù)似然函數(shù)
(11)
這里x=(x1,…,xn)T∈n,y=(y1,…,yn)T∈n.
(2)極大化對數(shù)似然函數(shù)
極大似然估計量可以由下式給出:
(12)
本文基于一組法國汽車第三者責(zé)任保險數(shù)據(jù)進行實證分析.該數(shù)據(jù)來源于R包CASdatasets中的freMTPL2freq和freMTPL2sev兩個數(shù)據(jù)集,見文獻[12].其主要收集了678 013份汽車第三者責(zé)任保單的風(fēng)險特征(主要觀察期為一年).由于本文對非零索賠的保單數(shù)據(jù)進行建模,所以首先根據(jù)保單ID將這兩個數(shù)據(jù)集進行合并(此操作剔除了零索賠的保單數(shù)據(jù)),合并后的數(shù)據(jù)集含有26 444份非零索賠的保單,每份保單含有13個變量,變量描述如表1所示.
表1 法國汽車第三者責(zé)任保險數(shù)據(jù)集變量
首先,為保證模型的穩(wěn)健性,將索賠金額大于10萬的41份保單數(shù)據(jù)作為異常值刪除,最終保留26 403份非零索賠保單數(shù)據(jù).其次,由圖2,索賠次數(shù)不小于4的保單數(shù)甚少,可以考慮將這些保單歸為一類,即“索賠次數(shù)=4”這一類.圖3提供了風(fēng)險暴露量的柱狀圖,可以發(fā)現(xiàn),許多風(fēng)險暴露量小于1年,實際上只有54份保單的風(fēng)險暴露量大于1年,最小值為1天.筆者認為所有觀察結(jié)果都應(yīng)在一個會計年度內(nèi),對超過一年的Exposure進行修正(將其設(shè)置為1).最后,本文根據(jù)圖1對法國地區(qū)代號進行簡化,例如用R24表示“Centre”,R93表示“Provence-Alpes-Cotes-D’Azur”.
圖1 法國22個地區(qū)
圖2 索賠次數(shù)直方圖
圖3 風(fēng)險暴露量柱狀圖
若不考慮協(xié)變量的影響,在索賠發(fā)生的條件下,索賠次數(shù)觀察值與索賠強度觀察值之間的Pearson相關(guān)系數(shù)為-0.058 5,Kendall秩相關(guān)系數(shù)為-0.206,Spearman等級相關(guān)系數(shù)為-0.248,相關(guān)性檢驗的P值都顯著不為0.這就意味著,該組數(shù)據(jù)的索賠次數(shù)與索賠強度之間確實存在一定程度的負相關(guān)關(guān)系,但相關(guān)系數(shù)的絕對值較小.表2給出部分特征成分相應(yīng)的Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù).該部分可為下文的變量選擇提供參考.
表2 數(shù)值特征成分的相關(guān)性*
(1)索賠次數(shù)
首先,用逐步回歸的思想來挑選用于索賠次數(shù)擬合的變量.通過選擇最小的AIC信息統(tǒng)計量,最終得到索賠次數(shù)的協(xié)變量:VehPowerGLM、VehAgeGLM、VehGas、Region、DrivAgeGLM、BonusMalusGLM、VehBrand和AreaGLM.
由于索賠次數(shù)是計數(shù)數(shù)據(jù),因此,本文主要考慮常用的泊松分布、負二項分布、零截斷泊松分布以及零截斷負二項分布,分別對模型(5)進行擬合,擬合結(jié)果如表3所示.
表3 不同分布假設(shè)的擬合結(jié)果
從表3中AIC及樣本內(nèi)、外損失三個統(tǒng)計量來看,零截斷泊松分布對索賠次數(shù)的擬合效果最優(yōu).原因如下:
①該數(shù)據(jù)集只考慮非零索賠的保單,因此,索賠次數(shù)數(shù)據(jù)取值范圍為正值,故從本質(zhì)上講采用零截斷分布來擬合更合適.
②從E(ClaimNb)=1.122 5>var(ClaimNb)=0.142 32的角度看,該索賠次數(shù)數(shù)據(jù)不存在過離散現(xiàn)象,因此,使用零截斷泊松分布的擬合效果略優(yōu)于零截斷負二項分布.
(2)索賠強度
同樣地,用逐步回歸的思想來挑選用于索賠強度擬合的變量.最終在所有變量的基礎(chǔ)上剔除VehPowerGLM、AreaGLM及Region這三個變量.
圖4的直方圖描述了非零索賠保單在保險期間的索賠金額.為使圖示更加清晰,該圖僅呈現(xiàn)索賠金額小于15 000元的數(shù)據(jù).可以看出,經(jīng)驗索賠金額呈現(xiàn)出明顯的右偏特性.圖5表明索賠金額的對數(shù)存在比較明顯的對稱特性.
圖4 索賠金額直方圖
圖5 對數(shù)索賠次數(shù)直方圖
表4給出了非零索賠的26 403份保單索賠強度的描述性統(tǒng)計.該表顯示,個體保單的平均索賠強度為1 599,觀察到的最大索賠強度為96 422,該值遠遠大于所有個體保單索賠強度之和的0.01%.因此,索賠強度的分布初步判定為厚尾分布, 如伽馬分布和對數(shù)正態(tài)分布.
表4 索賠強度的數(shù)字特征
不同分布假設(shè)的擬合結(jié)果見表5.
表5 不同分布假設(shè)的擬合結(jié)果
從表5的擬合結(jié)果來看,伽馬分布的樣本內(nèi)損失略小于對數(shù)正態(tài)分布,但對數(shù)正態(tài)分布卻在AIC及樣本外損失這兩個統(tǒng)計量上表現(xiàn)出對索賠強度較好的擬合效果.原因如下:
①無論是索賠金額(ClaimAmount)還是索賠強度(ClaimSize),它們的直方圖都呈現(xiàn)明顯的右偏、尖峰厚尾的特性,對它們?nèi)?shù)后的直方圖都較為對稱.此外,本文計算得出的索賠強度的偏度和峰度分別為12.18和196.51,也佐證了右偏和尖峰厚尾的結(jié)論.
②資料顯示,對數(shù)正態(tài)分布適用于右偏數(shù)據(jù)[13].因此,最終采用對數(shù)正態(tài)分布來擬合索賠強度數(shù)據(jù).
至此,本文分別選取零截斷泊松分布(ZTP)以及對數(shù)正態(tài)分布(LOGNO)為索賠次數(shù)和索賠強度的擬合邊際分布.
圖6 ClaimNb=1時保單總損失的擬合分布
由圖6可看出,保單總損失的擬合密度函數(shù)呈現(xiàn)右偏、尖峰厚尾的特點.這一結(jié)論與前文關(guān)于索賠強度的數(shù)據(jù)描述相吻合.為了更加直觀地展示該擬合結(jié)果的準確性,本文選取了與圖6來自同批數(shù)據(jù)的ClaimAmount變量作直方圖,如圖7所示.可以看出,兩者具有一定的相似性:①兩者都呈現(xiàn)右偏、尖峰厚尾的特點;②從擬合的密度函數(shù)來看,保單的總損失主要集中在[0,5 000]區(qū)間上,與圖7的索賠總額區(qū)間大體一致.這在一定程度上體現(xiàn)了基于零截斷泊松-對數(shù)正態(tài)分布的Frank Copula回歸模型的總損失估計的準確性.特別指出的是,考慮索賠次數(shù)和索賠強度相依性的擬合密度函數(shù)對保單的總損失做出了較為保守的估計,這主要體現(xiàn)在擬合分布的尾部特征上.因此,有理由認為,考慮相依性的保單總損失Copula回歸模型可以較為正確地評估汽車保險中某些從人、從車等風(fēng)險,從而產(chǎn)生更為合理的保費評級,這也是對該數(shù)據(jù)集進行研究的初衷.
圖7 索賠總額≤15 000的直方圖
在非壽險損失預(yù)測模型中,傳統(tǒng)的定價方法通常假定索賠次數(shù)和索賠強度相互獨立.然而,本文從理論以及實證兩個角度出發(fā),推斷出法國第三者責(zé)任保險數(shù)據(jù)中索賠次數(shù)與索賠強度存在一定的負相依關(guān)系.
基于Copula回歸模型對保單總損失進行估計的方法其優(yōu)勢是能夠?qū)⒁恍┲匾娘L(fēng)險管理信息考慮進模型中,且用一種靈活的相依結(jié)構(gòu)來刻畫變量間的相依性.本文主要從選取邊際分布的角度出發(fā),結(jié)合變量篩選和模型選擇的相關(guān)方法對索賠次數(shù)和索賠強度的邊際分布進行選取,并利用Frank Copula的特性對邊際分布函數(shù)進行連接,最終給出保單總損失的擬合分布.
事實證明,考慮索賠強度與索賠次數(shù)客觀邊際分布及兩者間相依結(jié)構(gòu)特點的保單總損失估計模型將產(chǎn)生更為保守的保費,對保險公司制定合理的費率有一定的參考意義.這也是遵從精算謹慎原則,使保險公司減少遭受過大損失甚至破產(chǎn)的風(fēng)險.