◇重慶工商大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院 楊小藜 孫 榮
本文針對(duì)一組具有過(guò)離散特征的保險(xiǎn)索賠數(shù)據(jù),采用對(duì)比分析的研究方法分別對(duì)泊松回歸、負(fù)二項(xiàng)回歸模型、泊松-逆高斯模型以及零膨脹泊松模型和零膨脹負(fù)二項(xiàng)模型進(jìn)行探討,主要采用AIC和BIC信息準(zhǔn)則對(duì)模型加以比較。最終擬合結(jié)果顯示,負(fù)二項(xiàng)回歸模型和泊松-逆高斯對(duì)過(guò)離散型索賠數(shù)據(jù)的擬合效果相當(dāng),且兩者均比泊松回歸和零膨脹模型更佳;綜合看泊松-逆高斯模型的效果表現(xiàn)為最佳。
根據(jù)某一屬性或類別先分組計(jì)數(shù),再匯總后得到的信息稱為計(jì)數(shù)型數(shù)據(jù),它的變量值是定性的而且取值常常是非負(fù)的整數(shù);日常生活中,像保險(xiǎn)索賠次數(shù)、車流量、旅游景區(qū)數(shù)、訪問(wèn)人數(shù)等等都可當(dāng)作計(jì)數(shù)型數(shù)據(jù)研究分析。對(duì)于計(jì)數(shù)型數(shù)據(jù),線性回歸是最早使用的領(lǐng)域,但因?yàn)樵撃P鸵笠蜃兞糠倪B續(xù)型或至少為準(zhǔn)連續(xù)型而造成它的運(yùn)用受到限制;后來(lái)泊松回歸模型逐漸走入人們的視野,該模型要求方差與均值相等;特別是在精算領(lǐng)域,關(guān)于風(fēng)險(xiǎn)費(fèi)率厘定方面的問(wèn)題,泊松回歸模型一度受到歡迎。盡管如此,由于保險(xiǎn)公司在劃分保單類型時(shí),被歸為同一類的保單并非沒(méi)有差別,往往存在異質(zhì)性,說(shuō)明在實(shí)際應(yīng)用中的確存在方差大于均值的情況,也就是過(guò)離散現(xiàn)象。如果在存在過(guò)離散問(wèn)題的情況下仍然采用泊松回歸模型,那么從擬合結(jié)果能夠明顯發(fā)現(xiàn)參數(shù)的標(biāo)準(zhǔn)誤差被低估,顯著性水平被過(guò)高估計(jì)的問(wèn)題,最終就會(huì)影響模型的準(zhǔn)確與客觀性。對(duì)于這樣的過(guò)離散現(xiàn)象,楊肇(2003年)[1]等人在logistic回歸分析中提出了通過(guò)Pearson和Deviance統(tǒng)計(jì)量以及Williams法進(jìn)行糾正;Noriszura Ismail和Abdul Aziz Jemain(2007年)[2]提出可以處理過(guò)離散問(wèn)題的負(fù)二項(xiàng)和廣義泊松模型,并在三組不同的索賠頻率數(shù)據(jù)上通過(guò)擬合、檢驗(yàn),比較了Poisson、負(fù)二項(xiàng)和廣義Poisson的乘法與加性回歸模型。Richard Berk 和 John M.MacDonald(2008年)[3]討論了回歸模型在計(jì)數(shù)型數(shù)據(jù)中的應(yīng)用,而且證明了在犯罪學(xué)應(yīng)用中,只有在特殊情況下使用負(fù)二項(xiàng)分布才能解決過(guò)離散問(wèn)題。徐飛(2009年)[4]針對(duì)具有過(guò)離散現(xiàn)象的一組車險(xiǎn)數(shù)據(jù)討論并應(yīng)用了兩種分布形式的負(fù)二項(xiàng)分布模型。徐昕(2010年)[5]等人基于車險(xiǎn)損失數(shù)據(jù)推出的三參數(shù)負(fù)二項(xiàng)回歸模型有效地改善了擬合效果,但是參數(shù)越多計(jì)算量會(huì)越復(fù)雜。曾平(2011年)等[6]總結(jié)對(duì)比了可以檢驗(yàn)是否存在過(guò)離散現(xiàn)象的四種方法。喬艦(2016年)[7]等人對(duì)過(guò)離散問(wèn)題形成的原因進(jìn)行了論證,即根本問(wèn)題是類內(nèi)樣本數(shù)據(jù)具有非齊次性和正相關(guān)性。
文章的主要工作是針對(duì)一家保險(xiǎn)公司的索賠次數(shù)數(shù)據(jù),對(duì)僅含主效應(yīng)和含有交互效應(yīng)的不同方程分別采用泊松回歸模型、負(fù)二項(xiàng)回歸模型、泊松-逆高斯模型以及零膨脹泊松、零膨脹負(fù)二項(xiàng)模型加以擬合,最終的擬合結(jié)果說(shuō)明泊松-逆高斯模型的表現(xiàn)最佳,負(fù)二項(xiàng)模型的效果與之近似,兩個(gè)模型相較于泊松回歸模型和零膨脹模型更適合用于擬合具有過(guò)離散特征的索賠數(shù)據(jù)。
(1)在車險(xiǎn)索賠數(shù)據(jù)中,對(duì)于索賠次數(shù)的分析最常用的是泊松回歸模型,而對(duì)于過(guò)離散的問(wèn)題,我們有相應(yīng)的負(fù)二項(xiàng)分布和泊松-逆高斯分布,這兩者都是混合泊松分布,負(fù)二項(xiàng)分布是泊松與伽馬分布的混合分布;泊松-逆高斯分布是泊松與逆高斯的混合分布。
(2)零膨脹模型是指:當(dāng)觀測(cè)值有零膨脹現(xiàn)象且因變量服從相應(yīng)分布時(shí)的零膨脹回歸模型。
(3)概率密度函數(shù)為:
(4)在醫(yī)療、精算等領(lǐng)域,當(dāng)人們對(duì)此類數(shù)據(jù)進(jìn)行研究之前通常會(huì)做過(guò)離散檢驗(yàn)。2011年曾平[6]在文章中總結(jié)出了過(guò)離散檢驗(yàn)的幾種方法,分別是O檢驗(yàn)、殘差檢驗(yàn)、得分檢驗(yàn)以及拉格朗日乘數(shù)檢驗(yàn)。文中所用的五個(gè)模型中,只有泊松回歸模型的均值與方差相等,其它幾個(gè)模型均滿足方差大于均值的條件,在實(shí)證分析中將通過(guò)比較這五個(gè)模型來(lái)選擇出最適宜擬合過(guò)離散車險(xiǎn)數(shù)據(jù)的模型。
當(dāng)模型的樣本量差異不大時(shí),所用的AIC和BIC信息準(zhǔn)則為:
對(duì)于因變量的不同類型,通常分為連續(xù)型和離散型,相應(yīng)的分位殘差是不同的,離散型因變量的分位殘差表現(xiàn)為隨機(jī)性,故稱為隨機(jī)分位殘差圖。由于分位殘差和隨機(jī)分位殘差近似服從標(biāo)準(zhǔn)正態(tài)分布,所以相應(yīng)圖形與正態(tài)分布的貼合程度能夠體現(xiàn)出模型的擬合效果。QQ圖即標(biāo)準(zhǔn)化殘差QQ圖,當(dāng)QQ圖的分布近似表現(xiàn)為一條直線時(shí),說(shuō)明了正態(tài)性假設(shè)得以滿足,也即模型的擬合結(jié)果比較理想。
文章使用的索賠次數(shù)數(shù)據(jù)來(lái)自某汽車保險(xiǎn)公司[8],影響因素共涉及三個(gè)因素,分別是:
汽車類型(type)分為4個(gè)水平:A、B、C、D;
車齡(vage)分為4個(gè)水平:0-3、4-7、8-9、10+;
投保人年齡(age)分為8個(gè)水平:17-20、21-23、25-29、30-34、35-39、40-49、50-59、60+[9]。
按照以上三個(gè)因素可以設(shè)置128個(gè)風(fēng)險(xiǎn)單元,將車齡和年齡兩個(gè)變量都當(dāng)做分類變量處理,將汽車類型A、車齡0-3年以及年齡17-20歲設(shè)為基準(zhǔn)水平。
根據(jù)以上要求來(lái)定義如下回歸方程:
考慮含有交互效應(yīng)的情況:
對(duì)索賠次數(shù)初步分析知,該保險(xiǎn)索賠次數(shù)的均值為71.1484,方差為9260.7258,方差遠(yuǎn)大于均值,可以看出該類數(shù)據(jù)具有明顯的過(guò)離散現(xiàn)象。
表1
圖1 模型擬合值
圖2 泊松回歸模型
圖3 負(fù)二項(xiàng)回歸模型
圖4 泊松逆高斯模型
實(shí)證結(jié)果表明,首先是考慮了含有交互效應(yīng)的模型的AIC和BIC值明顯優(yōu)于不含交互效應(yīng)的模型;而且在所有含有交互效應(yīng)的模型中,效果最優(yōu)的是含有車型(type)與車齡(vage)的乘積因素以及三個(gè)主效應(yīng)因素的回歸模型。其次從對(duì)比各個(gè)模型來(lái)看,零膨脹泊松、零膨脹負(fù)二項(xiàng)模型都沒(méi)有體現(xiàn)出本身的優(yōu)越性,因此可以排除該類索賠數(shù)據(jù)存在零膨脹現(xiàn)象的可能性;也可以說(shuō)明雖然以上兩個(gè)模型的分布都具有過(guò)離散特征,但是并不適用于此類數(shù)據(jù)。
在考慮了車型和車齡的交互效應(yīng)之后,可以看到索賠風(fēng)險(xiǎn)降低,其中風(fēng)險(xiǎn)最小的是車齡在10年以上的D型車,最高的是車齡為4-7年的B型車。單通過(guò)車型的估計(jì)結(jié)果來(lái)看,B型車存在的索賠風(fēng)險(xiǎn)最大,D型車的風(fēng)險(xiǎn)最低。通過(guò)比較車齡的估計(jì)結(jié)果知,車齡越小的車具有越高的索賠風(fēng)險(xiǎn),而越老的車風(fēng)險(xiǎn)越低,這有可能是因?yàn)閷?duì)于越老的車司機(jī)越重視其安全系數(shù)以及更加注重汽車維修保養(yǎng)等從而降低了保險(xiǎn)索賠次數(shù)。從投保人年齡來(lái)看,索賠風(fēng)險(xiǎn)最高的是40-49歲之間的投保人,且對(duì)于小于50歲的投保人存在年齡越大風(fēng)險(xiǎn)越高的趨勢(shì),也就是說(shuō)隨著年齡增加,有可能因?yàn)榉磻?yīng)變慢、安全意識(shí)降低等因素增大了事故發(fā)生可能性。
比照泊松回歸模型與負(fù)二項(xiàng)回歸模型和泊松-逆高斯回歸模型,泊松回歸模型的標(biāo)準(zhǔn)誤差明顯低于后兩者模型,也可以說(shuō)參數(shù)的標(biāo)準(zhǔn)誤差在泊松回歸模型中被低估,而參數(shù)的顯著性被過(guò)高估計(jì),這就導(dǎo)致模型其實(shí)有失準(zhǔn)確性與客觀性;反之,負(fù)二項(xiàng)回歸模型與泊松-逆高斯模型的AIC和BIC值雖然不相同但兩者并沒(méi)有特別突出的差異,并且和泊松回歸模型比較發(fā)現(xiàn)它們的擬合效果更優(yōu)。再?gòu)娜齻€(gè)模型的擬合值來(lái)看,也反映出泊松回歸模型的擬合效果相對(duì)較差;最后通過(guò)隨機(jī)分位殘差圖和QQ圖更是能區(qū)別出泊松回歸模型的擬合結(jié)果比其余兩模型都差一些。綜上,負(fù)二項(xiàng)回歸模型和泊松-逆高斯模型相較于泊松回歸模型更適合用于擬合存在過(guò)離散問(wèn)題的車險(xiǎn)索賠數(shù)據(jù)。
本文首先通過(guò)一組汽車索賠次數(shù)數(shù)據(jù),對(duì)比了在考慮交互效應(yīng)和不考慮交互效應(yīng)下,模型的優(yōu)良性;針對(duì)此次索賠數(shù)據(jù),零膨脹泊松模型、零膨脹負(fù)二項(xiàng)模型雖然具有過(guò)離散特征,但并沒(méi)有展現(xiàn)很好的擬合效果,說(shuō)明數(shù)據(jù)不存在零膨脹特征;對(duì)比分析了當(dāng)存在過(guò)離散現(xiàn)象時(shí),負(fù)二項(xiàng)回歸模型與泊松-逆高斯模型的擬合效果差異不突出,并且兩者都比泊松回歸模型更加準(zhǔn)確、客觀,綜合看表現(xiàn)最好的為泊松-逆高斯模型,所以可以優(yōu)先考慮該模型。