張連增 王皎
摘 要:精算師在進行車險凈保費信度厘定時可采用關(guān)于面板數(shù)據(jù)的線性混合模型,本文采用每次交通事故平均損失額和事故發(fā)生頻率作為車險凈保費的計算指標。利用2008~2012年31個省、市、自治區(qū)5年的數(shù)據(jù),建立面板數(shù)據(jù)下的線性混合模型,選取人均地區(qū)生產(chǎn)總值、每平方公里人口數(shù)、民用汽車擁有量作為解釋變量,得到每次交通事故平均損失額和事故發(fā)生頻率的估計模型,進而得到純保費估計。這一研究可為車險費率市場化提供一定的理論支持和參考。
關(guān)鍵詞: 面板數(shù)據(jù);費率厘定;車險;費率市場化
中圖分類號:F840.65 文獻標識碼: A 文章編號:1003-7217(2016)03-0022-08
一、引 言
在精算學中,一個基本問題是利用關(guān)于某個風險的已知歷史索賠及相關(guān)外部信息來預(yù)測該風險的未來索賠,這就是經(jīng)驗費率厘定問題,因為它與信度理論有密切的聯(lián)系,所以有時也稱為信度厘定問題。車險費率厘定應(yīng)該根據(jù)保險標的風險狀況來確定,由于車輛類型、車輛使用者、車輛使用范圍、長期行駛線路等不同,風險就存在很大的差異。對單個被保險人來說,理論上講保險公司要考慮到可獲得的被保險人信息,如車型、車輛用途、行駛區(qū)域、行駛里程數(shù)、性別、駕駛?cè)四挲g、交通肇事記錄及駕駛行為等因素,從中選出合適的費率厘定變量,進而得到車險凈保費。
當前在國際上廣義線性模型已被充分應(yīng)用于車險定價中。國內(nèi)學者對車險定價的研究也主要集中在廣義線性模型方面,較少探討線性混合模型在車險費率厘定中的應(yīng)用。孟生旺(2007)簡要分析了傳統(tǒng)定價方法存在的缺陷,并通過汽車第三者責任保險的損失數(shù)據(jù)說明了廣義線性模型在非壽險產(chǎn)品定價中的具體應(yīng)用[1]。曾理斌(2007)指出廣義線性模型是在風險等級分類基礎(chǔ)上的一種非壽險費率厘定方法,可以考慮到各種已識別的風險因素[2]。趙慧卿、王漢章(2011)從索賠頻率和索賠額度兩個方面利用廣義線性模型估計保險費率,分析了從車、從人、從地三個因素的變動對索賠頻率和索賠額度的影響[3]。孫維偉、張連增(2013)采用Frees(2010)中汽車第三者責任保險的一組損失數(shù)據(jù),在介紹廣義線性模型的定義、算法和模型實現(xiàn)的基礎(chǔ)上,討論零調(diào)整逆高斯回歸模型在汽車保險定價中的具體應(yīng)用[4]。孫維偉(2014)分析了廣義線性模型和廣義可加模型的基礎(chǔ)和特點,并從Tweedie類分布的視角分析保險索賠額數(shù)據(jù)的分布[5]。
線性混合模型是線性模型的另一個擴展,尤其適合處理面板數(shù)據(jù)下的回歸問題。一般來說,對面板數(shù)據(jù)的每個組內(nèi),觀測量不再有獨立性假設(shè)。為此通常的線性模型和廣義線性模型就不再適用,這就需要采用線性混合模型和廣義線性混合模型。因此,線性混合模型與廣義線性混合模型在車險定價中的應(yīng)用研究,必將受到國內(nèi)外學者的更多關(guān)注。
二、面板數(shù)據(jù)下的線性混合模型
(一)線性混合模型
時間序列數(shù)據(jù)和截面數(shù)據(jù)都是一維數(shù)據(jù),時間序列是變量按時間先后得到的一組數(shù)據(jù),截面數(shù)據(jù)是變量在給定的時點的一組數(shù)據(jù)。面板數(shù)據(jù)兼有時間序列數(shù)據(jù)與截面數(shù)據(jù)的特征,可以理解為截面上的個體在不同時點的重復(fù)觀測數(shù)據(jù)。與截面數(shù)據(jù)或時間序列相比,面板數(shù)據(jù)包含了更多的信息,相應(yīng)的參數(shù)估計更有效;而且在面板數(shù)據(jù)下,可多層次地分析問題,能夠更好地識別出時間序列數(shù)據(jù)或截面數(shù)據(jù)不能體現(xiàn)出的特征。
(三)面板數(shù)據(jù)下的信度模型
信度模型是非壽險定價中經(jīng)驗費率厘定的理論依據(jù)。信度理論充分利用已獲得的信息,其中包括先驗信息和樣本信息。設(shè)來自先驗信息的估計量為M,來自樣本信息的估計量為樣本均值,信度估計量是對兩者的加權(quán)平均,即Pc=ζ+(1-ζ)M,其中ζ是信度因子,ζ越大則樣本信息更可信。
三、數(shù)據(jù)來源及模型選定
(一)數(shù)據(jù)來源及描述
1.數(shù)據(jù)來源。
本文數(shù)據(jù)來源于2009~2013年《中國統(tǒng)計年鑒》,樣本為我國 2008~2012 年31個省、市、自治區(qū)的年度數(shù)據(jù)。車險費率模型分為兩大類:索賠頻率模型和索賠金額模型。為了對車險進行費率厘定,選擇平均每次事故的損失額(AVE_LOSS)和每輛車每年的出險率(FREQ)為被解釋變量,選擇人均地區(qū)生產(chǎn)總值(PGDP)、民用汽車擁有量(NOC)和人口密度即平均每平方公里人口數(shù)(PPSM)作為可供選擇的解釋變量,每次事故的損失額、人均地區(qū)生產(chǎn)總值都與價格指數(shù)均有密切聯(lián)系,因此為了使各年的數(shù)據(jù)有可比性,絕對數(shù)值都以2008年為基年進行了消費指數(shù)的平減,剔除了通貨膨脹的影響①。
2.數(shù)據(jù)特征。使用R軟件的nlme軟件包對面板數(shù)據(jù)進行分析和建模。表1描述了基本的變量隨時間變化的特性,可見平均每次事故的損失金額、人均地區(qū)生產(chǎn)總值、人口密度、民用汽車擁有量是隨時間增長的,每輛汽車發(fā)生事故的頻率是隨時間遞減的。標準差和極值表現(xiàn)出在不同的省、市或自治區(qū)之間有實質(zhì)性的差異。
由于實際的宏觀經(jīng)濟變量序列一般呈現(xiàn)出如下特征:隨著解釋變量值的變化,被解釋變量值的差異性一般會越來越大。為了消除可能產(chǎn)生的遞增型異方差的影響,本文對31個地區(qū)的平均每次事故的損失額(AVE_LOSS)、人均地區(qū)生產(chǎn)總值(PGDP)、平均每平方公里人口數(shù)(PPSM)數(shù)據(jù)取自然對數(shù)進行處理,分別得到各地區(qū)的LN_AVE_LOSS、LN_PGDP、LN_PPSM的面板數(shù)據(jù)序列,取對數(shù)后解釋變量的系數(shù)表明如果解釋變量數(shù)值增加1%,導(dǎo)致被解釋變量的變化百分比。
圖1和圖2分別是平均每次事故的損失額(AVE_LOSS)和對數(shù)化后的平均每次事故的損失額(LN_AVE_LOSS)隨時間變化的散點圖,圖1和圖2的每一條線連接著一個省、市或自治區(qū)的時間序列數(shù)據(jù),從圖1可見每一個省、市或自治區(qū)的AVE_LOSS變化有較大差別,而從圖2可見,對數(shù)化后的數(shù)據(jù)在不同省、市或者自治區(qū)的變化差別較小。因此,下面選用對數(shù)化的宏觀經(jīng)濟數(shù)據(jù), 表2描述了對數(shù)化后的平均每次事故的損失金額、人均地區(qū)生產(chǎn)總值、人口密度、民用汽車擁有量隨時間變化的特性。
圖3 表示對數(shù)化后的平均每次事故的損失金額與人均地區(qū)生產(chǎn)總值隨時間變化的散點圖,每一條連線表示一個省、市和自治區(qū)在2008~2012年隨時間變化的情況。由圖3可以看出來幾乎每個省、市和自治區(qū)的平均每次事故的損失金額與人均地區(qū)生產(chǎn)總值都是正向關(guān)系,平均每次事故的損失金額與人均地區(qū)生產(chǎn)總值隨時間遞增,斜率在各個省、市和自治區(qū)幾乎是相同的。圖4表示對數(shù)化后的平均每次事故的損失金額與人口密度隨時間變化的散點圖,圖5表示對數(shù)化后的平均每次事故的損失金額與民用汽車擁有量隨時間變化的散點圖,每一條連線表示一個省、市和自治區(qū)在2008~2012年之間的隨時間變化的情況。
由于每輛車每年的出險率(FREQ)數(shù)值很小,為了方便研究,我們將研究每千輛車每年的出險率。圖6表示每千輛車每年的出險率隨時間變化的散點圖,由圖6可以看出每千輛車每年的出險率隨時間是逐漸遞減的,2008年每個省、市和自治區(qū)的每千輛車出險率差異比較大,各省的出險率差異逐年遞減。
圖7和圖8分別表示每千輛車每年的出險率與對數(shù)化的人均地區(qū)生產(chǎn)總值、人口密度隨時間變化的散點圖,每一條連線表示一個省、市和自治區(qū)在2008~2012年之間的隨時間變化的情況,由圖7可以看出來幾乎每個省、市和自治區(qū)的事故發(fā)生頻率與對數(shù)化人均地區(qū)生產(chǎn)總值成負相關(guān)系,人均地區(qū)生產(chǎn)總值越高則出險的頻率越低。
圖9表示的是對數(shù)化的平均每次事故的損失金額隨時間的增加變量圖(added variable plot),增加變量圖也稱為部分回歸圖,是在控制了其它潛在變量的影響之后評價一個變量對另一個變量影響的圖形工具。增加變量圖可以使我們在控制其它解釋變量之后觀測被解釋變量和一個解釋變量之間的關(guān)系,使分析者不用關(guān)注由其它變量引起的差異性,而僅關(guān)注被解釋變量y和某個解釋變量xj的關(guān)系。圖9表示對數(shù)化的平均每次事故的損失金額隨時間的增長在每個省、市、自治區(qū)是基本一致的,有一個省的增長率相比于其他省、市、自治區(qū)的增長率比較大。
圖10和圖11分別為對數(shù)化的平均每次事故的損失金額和事故發(fā)生頻率隨時間變化的格架圖(trellis plot)。格架圖把多個面板數(shù)據(jù)在一個矩陣列中表示出來。圖10和圖11中的每個面板圖都是相似的,但是每一個面板圖基于不同的省、市、自治區(qū),這種圖形結(jié)構(gòu)的便于驗證每一個省、市、自治區(qū)對數(shù)化后平均每次事故的損失金額的增加和事故發(fā)生頻率的遞減,并從中觀測到每一個省、市、自治對數(shù)化后平均每次事故的損失金額和事故發(fā)生頻率的總體水平和斜率。
(二)模型選定及參數(shù)估計
根據(jù)關(guān)于數(shù)據(jù)特征的描述和基本分析,選用如下線性混合效應(yīng)模型來擬合平均每次事故的損失金額和事故發(fā)生頻率,模型選定如下:
四、總結(jié)
與時間序列數(shù)據(jù)模型和截面數(shù)據(jù)模型進行比較,可見使用線性混合模型分析面板數(shù)據(jù)時,包含的樣本數(shù)量更多,對模型參數(shù)的估計效果更理想,該模型既能描述總體的一般特征,又能體現(xiàn)出不同個體之間的差異。本文利用散點圖、增加變量圖等圖形工具直觀地描述出平均每次事故損失額與人口密度、人均地區(qū)生產(chǎn)總值、民用汽車擁有量的關(guān)系,及事故發(fā)生頻率與人口密度、人均地區(qū)生產(chǎn)總值的關(guān)系,便于精算人員進行模型分析和模型診斷,為研究索賠金額和索賠頻率提供了參考。
同時,平均每次事故損失額和事故發(fā)生頻率的估計可以使用面板數(shù)據(jù)下的線性混合模型得到,進一步凈保費可以用索賠金額與索賠頻率的乘積求得。面板數(shù)據(jù)下的線性混合模型有以下幾個優(yōu)點:有更多的備選模型可供選擇,不限于信度模型;統(tǒng)計軟件(如R軟件)使數(shù)據(jù)分析更簡便;精算人員有另一種解釋費率厘定的方法;精算人員可用圖形或診斷工具來選擇模型并且評價它的適用性。
注釋:
①省份按照《中國統(tǒng)計年鑒》的順序,分別為北京、天津、河北、山西、內(nèi)蒙古、遼寧、吉林、黑龍江、上海、江蘇、浙江、安徽、福建、江西、山東、河南、湖北、湖南、廣東、廣西、海南、重慶、四川、貴州、云南、西藏、陜西、甘肅、青海、寧夏、新疆。
參考文獻:
[1]孟生旺.廣義線性模型在汽車保險定價的應(yīng)用[J].數(shù)理統(tǒng)計與管理,2007,(1):24-29.
[2]曾理斌.廣義線性模型在非壽險費率厘定中的運用[J].金融經(jīng)濟, 2007,(18): 60-61.
[3]趙慧卿,王漢章.我國車險費率厘定的實證研究——基于廣義線性模型的分析[J].天津商業(yè)大學學報, 2011,(5): 8-12.
[4]孫維偉,張連增.ZAIG模型在車險定價中的應(yīng)用研究[J].保險研究, 2013,(4): 43-51.
[5]孫維偉.基于Tweedie類分布的廣義可加模型在車險費率厘定中的應(yīng)用[J].天津商業(yè)大學學報,2014,(1):60-66.
[6]Frees E W,Young V R, Luo Yu.Case studies using panel data models [J].North American Actuarial Journal, 2001,(4): 24-42.
(責任編輯:寧曉青)