国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)學(xué)統(tǒng)計(jì)的保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)模型設(shè)計(jì)

2020-12-07 06:14:15溫曉楠董立偉朱亞培劉艷敏
現(xiàn)代電子技術(shù) 2020年22期

溫曉楠 董立偉 朱亞培 劉艷敏

摘? 要: 設(shè)計(jì)基于數(shù)學(xué)統(tǒng)計(jì)的保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)模型,分別從使用量、駕駛表現(xiàn)、危險(xiǎn)駕駛、出行習(xí)慣四個(gè)方面選取能夠反映駕駛行為的20個(gè)風(fēng)險(xiǎn)因子構(gòu)建指標(biāo)體系,利用數(shù)學(xué)統(tǒng)計(jì)中的因子分析法從上述指標(biāo)體系內(nèi)選取6個(gè)能代表駕駛行為風(fēng)險(xiǎn)情況的典型風(fēng)險(xiǎn)因子;以選取的典型風(fēng)險(xiǎn)因子為基礎(chǔ)結(jié)合二分類隨機(jī)變量,利用具有優(yōu)秀分類與回歸性能的XGBoost模型構(gòu)建保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)模型,預(yù)測(cè)變量所屬類別與概率分布。實(shí)證分析結(jié)果顯示,該模型迭代速度較快,AUC值與F值相較于傳統(tǒng)Logistic模型分別上升67.4%和2.3%,顯著高于對(duì)比模型。

關(guān)鍵詞: 保險(xiǎn)賠付; 風(fēng)險(xiǎn)預(yù)測(cè)模型; 數(shù)學(xué)統(tǒng)計(jì); 駕駛行為; 風(fēng)險(xiǎn)因子選取; 指標(biāo)體系構(gòu)建

中圖分類號(hào): TN919?34; F222.3? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)22?0086?04

Abstract: A risk prediction model for the insurance compensation is designed on the basis of mathematical statistics, and 20 risk factors that can reflect driving behavior are selected in four aspects of usage amount, driving expression, dangerous driving and traveling habit to construct the index system. Six typical risk factors that can represent the risk situation of driving behavior are selected from the above index system by means of the factor analysis method in mathematical statistics. On the basis of typical risk factors, the XGBoost model with excellent classification and regression performance is used to build the insurance claim risk prediction model in combination with two dichotomy random variables for the prediction of the variables′ category and probability distribution. The results of empirical analysis show that the iteration speed of the model is faster, and AUC value and F value are increased by 67.4% and 2.3% respectively in comparison with the traditional Logistic model, which are significantly higher than those of the compared model.

Keywords: insurance compensation; risk prediction model; mathematical statistics; driving behavior; risk factor selection; index system construction

0? 引? 言

隨著社會(huì)經(jīng)濟(jì)與汽車制造行業(yè)的快速發(fā)展,保險(xiǎn)公司中汽車保險(xiǎn)業(yè)務(wù)占據(jù)比例逐漸增大[1]。相關(guān)研究資料中數(shù)據(jù)統(tǒng)計(jì)結(jié)果顯示,2018年我國(guó)汽車保險(xiǎn)業(yè)務(wù)原保費(fèi)占保險(xiǎn)公司總原保費(fèi)收入的72%以上[2],金額高達(dá)7 632.18億元。但基于保險(xiǎn)公司盈利角度分析,70%以上具有汽車保險(xiǎn)業(yè)務(wù)的保險(xiǎn)公司在汽車保險(xiǎn)賠付方面均出現(xiàn)不同程度的虧損現(xiàn)象[3]。數(shù)據(jù)統(tǒng)計(jì)結(jié)果顯示,2018年保險(xiǎn)公司車險(xiǎn)賠付虧損額度高達(dá)65億元,與上一年度相比車險(xiǎn)賠付虧損額度呈現(xiàn)上升趨勢(shì)。研究總結(jié)發(fā)現(xiàn),保險(xiǎn)公司車險(xiǎn)賠付虧損的主要原因在于車險(xiǎn)保費(fèi)與賠付風(fēng)險(xiǎn)不匹配[4]。由此可知準(zhǔn)確的保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)是改善保險(xiǎn)公司經(jīng)濟(jì)管理,提升保險(xiǎn)公司利益收入的基礎(chǔ)。

數(shù)學(xué)統(tǒng)計(jì)是預(yù)測(cè)保險(xiǎn)賠付風(fēng)險(xiǎn)過(guò)程中的主要環(huán)節(jié),常用的數(shù)學(xué)統(tǒng)計(jì)方法包括回歸分析、方差分析、因子分析、Logistic分析、聚類分析等[5]。

利用數(shù)學(xué)統(tǒng)計(jì)法設(shè)計(jì)保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)模型,將因子分析法與聚類分析、回歸分析相結(jié)合,實(shí)現(xiàn)高性能的保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)[6]。

1? 保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)模型

1.1? 研究樣本及指標(biāo)體系構(gòu)建

選取我國(guó)60家保險(xiǎn)公司作為研究樣本,其中訓(xùn)練樣本與測(cè)試樣本各為30家。

以能夠全方位描述駕駛行為風(fēng)險(xiǎn)為原則,分別從使用量、駕駛表現(xiàn)、危險(xiǎn)駕駛、出行習(xí)慣四個(gè)方面選取能夠反映駕駛行為的20個(gè)風(fēng)險(xiǎn)因子構(gòu)建指標(biāo)體系[7]。表1為指標(biāo)選取結(jié)果。

1.2? 指標(biāo)體系處理

由于上述風(fēng)險(xiǎn)因子指標(biāo)中不同指標(biāo)間可能具有相關(guān)性,導(dǎo)致指標(biāo)體系存在信息重復(fù)問(wèn)題[8],對(duì)保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)產(chǎn)生不利影響。因此,需通過(guò)因子分析法在20個(gè)風(fēng)險(xiǎn)因子中選取出最能全面體現(xiàn)駕駛行為狀態(tài)的指標(biāo)。

采用SPSS軟件對(duì)選取的60家保險(xiǎn)公司實(shí)施因子分析獲取的KMO(Kaiser Meyer Olkin)檢驗(yàn)統(tǒng)計(jì)量、Bartlett球形度檢驗(yàn)近似卡方值以及相應(yīng)的概率P值分別為0.683,1 582.821和0.00,由此可知所選風(fēng)險(xiǎn)因子內(nèi)存在共同因子,能夠?qū)嵤┮蜃臃治?。選取特征值大于1的因子,由此獲取的前6個(gè)因子方差累計(jì)貢獻(xiàn)率達(dá)到95%以上,這表示前6個(gè)因子能夠描述95%以上的方差,如表2所示。所以前6個(gè)因子可以基本表示原始數(shù)據(jù)信息。

1.3? XGBoost模型

用[M]和[hi,zi]分別表示車險(xiǎn)保單數(shù)量和各車險(xiǎn)保單對(duì)應(yīng)的觀察值,其中,[hi]和[zi]分別表示的是單個(gè)保單是否賠付的二分類隨機(jī)變量和第[i]份保單的風(fēng)險(xiǎn)因子。[hi]服從伯努利分布[10],其值為1或0時(shí)分別表示第[i]份保單賠付和未賠付。設(shè)[zi]為[p]維向量,在其給定的基礎(chǔ)上,利用XGBoost模型預(yù)測(cè)因變量[hi]所屬類別與概率分布,即為保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)模型。

優(yōu)化并拓展梯度提升決策樹(shù)模型后得到的集成學(xué)習(xí)模型XGBoost(eXtreme Gradinet Boosting),針對(duì)數(shù)據(jù)分類與回歸問(wèn)題的分析求解具有十分突出的表現(xiàn)[11],在當(dāng)前諸多數(shù)學(xué)競(jìng)賽中許多獲獎(jiǎng)方案均采用該模型。

XGBoost模型同隨機(jī)森林模型相同的是均由一系列決策樹(shù)集合而成,兩者有所差異的是XGBoost模型屬于提升樹(shù)模型,其中決策樹(shù)在根據(jù)輸入樣本進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè)時(shí),是以上一輪預(yù)測(cè)結(jié)果為基礎(chǔ)的學(xué)習(xí)預(yù)測(cè)誤差[12],以此提升模型的風(fēng)險(xiǎn)預(yù)測(cè)精度。用[hit]和[ftzi]分別描述第[t]輪迭代后模型對(duì)第[i]個(gè)樣本的預(yù)測(cè)結(jié)果和第[t]棵決策樹(shù)對(duì)第[i]個(gè)樣本的預(yù)測(cè)分?jǐn)?shù),那么式(1)為[hit]的描述形式:

基于式(2)和式(3),XGBoost模型在[hit-1]處利用泰勒級(jí)數(shù)將損失函數(shù)展開(kāi)至二次項(xiàng),同時(shí)利用了誤差函數(shù)的一階導(dǎo)數(shù)與二階導(dǎo)數(shù),因此該模型預(yù)測(cè)結(jié)果同梯度提升決策樹(shù)模型相比,決策精度更高。在給定決策樹(shù)結(jié)構(gòu)的基礎(chǔ)上,目標(biāo)函數(shù)展開(kāi)并進(jìn)行相關(guān)變換后能夠以一元二次函數(shù)最小值求解問(wèn)題替代最優(yōu)化目標(biāo)問(wèn)題[15]。利用貪心算法持續(xù)劃分現(xiàn)有的葉子節(jié)點(diǎn),同時(shí)對(duì)比劃分前后目標(biāo)函數(shù)的增益,直至確定第t輪迭代的最優(yōu)決策樹(shù)模型。通過(guò)上述過(guò)程獲取準(zhǔn)確的保單賠付風(fēng)險(xiǎn)預(yù)測(cè)值。XGBoost模型內(nèi)風(fēng)險(xiǎn)因子的關(guān)鍵度可利用不同方法實(shí)施判斷,例如確定全部決策樹(shù)內(nèi)風(fēng)險(xiǎn)因子作為分裂特征的次數(shù)、確定全部基于該特征實(shí)施分裂的節(jié)點(diǎn)基尼系數(shù)降低值、信息增益總和的確定。將全部風(fēng)險(xiǎn)因子的關(guān)鍵度依次排列,由此確定XGBoost模型內(nèi)風(fēng)險(xiǎn)因子的關(guān)鍵度排列順序。

2? 實(shí)驗(yàn)分析

實(shí)驗(yàn)為驗(yàn)證本文所設(shè)計(jì)基于數(shù)學(xué)統(tǒng)計(jì)的保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)模型的應(yīng)用性能,利用某保險(xiǎn)公司數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行實(shí)證分析,實(shí)驗(yàn)數(shù)據(jù)中包含該保險(xiǎn)公司2018年期間全部車險(xiǎn)保單的承保、賠付信息和保單有效期內(nèi)承保車輛駕駛員的駕駛行為信息。實(shí)驗(yàn)數(shù)據(jù)內(nèi)賠付保單共718份,占總保單數(shù)量的36%左右。駕駛行為數(shù)據(jù)內(nèi)包含車險(xiǎn)保單對(duì)應(yīng)車輛固定時(shí)間區(qū)域內(nèi)不同時(shí)刻的行駛狀態(tài)。

采用本文模型預(yù)測(cè)該保險(xiǎn)公司賠付風(fēng)險(xiǎn),預(yù)測(cè)過(guò)程中本文模型迭代過(guò)程如圖1所示。

由圖1可知,采用本文模型預(yù)測(cè)保險(xiǎn)公司賠付風(fēng)險(xiǎn)過(guò)程中,通過(guò)173步迭代可完成模型訓(xùn)練,與傳統(tǒng)Logistic模型通過(guò)316步迭代完成模型訓(xùn)練相比,本文模型具有較快的收斂速度,由此也能說(shuō)明本文模型具有優(yōu)異的預(yù)測(cè)效率。

為驗(yàn)證本文模型對(duì)于保險(xiǎn)賠付風(fēng)險(xiǎn)的預(yù)測(cè)性能,選取十折交叉驗(yàn)證法。將全部實(shí)驗(yàn)數(shù)據(jù)分成10個(gè)數(shù)據(jù)子集,各數(shù)據(jù)子集均不重合,以其中9個(gè)數(shù)據(jù)集和剩余1個(gè)數(shù)據(jù)集分別為訓(xùn)練集和測(cè)試集。保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)是一個(gè)二分類問(wèn)題,普遍使用的評(píng)價(jià)指標(biāo)有F值與AUC值,二者是評(píng)估預(yù)測(cè)模型預(yù)測(cè)性能的指標(biāo),其值越靠近1,說(shuō)明預(yù)測(cè)真實(shí)性越好。在計(jì)算這2個(gè)值時(shí)均以描述樣本實(shí)際類別與模型預(yù)測(cè)類別交叉統(tǒng)計(jì)結(jié)果的混淆矩陣為基礎(chǔ)。通過(guò)混淆矩陣評(píng)估預(yù)測(cè)模型的預(yù)測(cè)性能。表4為混淆矩陣針對(duì)保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)模型的基本結(jié)構(gòu)。

1) 在利用F值與AUC值評(píng)價(jià)模型預(yù)測(cè)性能過(guò)程中,只選取車輛使用量情況作為風(fēng)險(xiǎn)因子構(gòu)建預(yù)測(cè)模型時(shí),模型的預(yù)測(cè)精度相對(duì)較低。由此可知,當(dāng)前市面上部分保險(xiǎn)公司僅以被保汽車使用量情況為基礎(chǔ)預(yù)測(cè)保險(xiǎn)賠付風(fēng)險(xiǎn)的精度還有待提高。

2) 相較于只利用駕駛表現(xiàn)情況作為風(fēng)險(xiǎn)因子構(gòu)建預(yù)測(cè)模型相比,危險(xiǎn)駕駛情況對(duì)于保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)更為重要。在上述四個(gè)模型內(nèi),僅使用危險(xiǎn)駕駛情況構(gòu)建的模型AUC值均高于使用車輛使用量情況作為風(fēng)險(xiǎn)因子構(gòu)建的模型;除梯度決策樹(shù)模型外,利用危險(xiǎn)駕駛情況構(gòu)建的模型的F值也高于使用車輛使用量情況構(gòu)建的模型。

3) 將全部風(fēng)險(xiǎn)因子相結(jié)合構(gòu)建預(yù)測(cè)模型,則全部模型的預(yù)測(cè)能力都有不同程度的上漲。由此可知,利用駕駛行為風(fēng)險(xiǎn)因子構(gòu)建保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)模型能夠獲取較好的風(fēng)險(xiǎn)預(yù)測(cè)性能。

以全部風(fēng)險(xiǎn)因子構(gòu)建保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)模型,以傳統(tǒng)Logistic模型為標(biāo)準(zhǔn),將本文模型、神經(jīng)網(wǎng)絡(luò)模型和梯度決策樹(shù)模型預(yù)測(cè)性能與標(biāo)準(zhǔn)模型相對(duì)比,如表5所示。

3? 結(jié)? 論

汽車保險(xiǎn)是當(dāng)前保險(xiǎn)公司的主要業(yè)務(wù),在汽車保險(xiǎn)中主要依照駕駛員對(duì)于汽車的駕駛行為預(yù)測(cè)車保賠付風(fēng)險(xiǎn),由于駕駛行為與車輛賠付風(fēng)險(xiǎn)之間具有相關(guān)性,因此本文設(shè)計(jì)基于數(shù)學(xué)統(tǒng)計(jì)的保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)模型。選取20個(gè)駕駛行為風(fēng)險(xiǎn)因子構(gòu)建評(píng)價(jià)指標(biāo)體系,利用XGBoost模型分析駕駛行為風(fēng)險(xiǎn)因子在保險(xiǎn)賠付風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用。分析結(jié)果顯示本文模型的預(yù)測(cè)性能顯著高于對(duì)比模型。

注:本文通訊作者為董立偉。

參考文獻(xiàn)

[1] 趙玉,嚴(yán)武,李佳.基于混合Copula模型的水稻保險(xiǎn)費(fèi)率厘定[J].統(tǒng)計(jì)與信息論壇,2019,34(8):66?74.

[2] 王艷,袁宏俊,張煥明.基于C?UPWG算子的區(qū)間組合預(yù)測(cè)模型及其應(yīng)用[J].統(tǒng)計(jì)與決策,2019(9):63?66.

[3] 熊鴻斌,陸瑩.基于Bow?Tie模型的中小型電鍍廠退役搬遷環(huán)境風(fēng)險(xiǎn)分析[J].安全與環(huán)境學(xué)報(bào),2018,18(4):1615?1622.

[4] 劉展.基于傾向得分廣義線性模型的非概率抽樣統(tǒng)計(jì)推斷研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2018,48(16):175?184.

[5] 汪威.最優(yōu)組合預(yù)測(cè)線性模型在旅游需求預(yù)測(cè)中的應(yīng)用:以中國(guó)大陸赴澳門(mén)游客量預(yù)測(cè)為例[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2018,48(12):49?58.

[6] 王潤(rùn)東,莢衛(wèi)東,葛勇勝,等.加速康復(fù)外科方案在肝細(xì)胞癌手術(shù)的失敗因素分析及風(fēng)險(xiǎn)預(yù)測(cè)模型的建立[J].中華外科雜志,2018,56(9):693?700.

[7] 張文杰,袁紅平.基于灰色馬爾可夫模型的節(jié)能設(shè)備故障預(yù)測(cè)研究[J].系統(tǒng)科學(xué)與數(shù)學(xué),2019,39(1):65?75.

[8] 杜康,袁宏俊,鄭亞男.基于三角模糊數(shù)及GIOWA算子的區(qū)間型組合預(yù)測(cè)模型[J].統(tǒng)計(jì)與決策,2019(16):22?28.

[9] 高偉,馮海林.競(jìng)爭(zhēng)風(fēng)險(xiǎn)下右刪失數(shù)據(jù)的剩余壽命分位數(shù)回歸預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2018(21):19?22.

[10] 文江平,郝潔,陶麗新,等.成年人2型糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型的建立[J].中華檢驗(yàn)醫(yī)學(xué)雜志,2017(40):706.

[11] 于輝,吳騰飛.供應(yīng)風(fēng)險(xiǎn)下?tīng)I(yíng)業(yè)中斷保險(xiǎn)的供應(yīng)鏈模型分析[J].中國(guó)管理科學(xué),2017(12):39?47.

[12] 楊鵬,楊志江,孔祥鑫.Poisson?Geometric模型下時(shí)間一致的最優(yōu)再保險(xiǎn)?投資策略選擇[J].應(yīng)用數(shù)學(xué),2019,32(4):729?738.

[13] 武海濱,李康,楊麗,等.非平衡分類技術(shù)在人群糖尿病疾病風(fēng)險(xiǎn)預(yù)測(cè)模型中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2019,36(4):502?506.

[14] 任義方,趙艷霞,張旭暉,等.江蘇水稻高溫?zé)岷庀笾笖?shù)保險(xiǎn)風(fēng)險(xiǎn)綜合區(qū)劃[J].中國(guó)農(nóng)業(yè)氣象,2019,40(6):391?401.

[15] 王真,馬建華.基于PLoS開(kāi)放獲取數(shù)據(jù)的單篇論文網(wǎng)絡(luò)瀏覽量累積規(guī)律的數(shù)理統(tǒng)計(jì)及分析[J].圖書(shū)情報(bào)工作,2018,62(12):72?83.

尼勒克县| 伊春市| 永年县| 衡阳市| 宜阳县| 绥芬河市| 太保市| 利辛县| 昌平区| 九龙县| 额尔古纳市| 鸡泽县| 东乌珠穆沁旗| 银川市| 尖扎县| 阜平县| 北川| 应用必备| 敦化市| 宝丰县| 四平市| 呼玛县| 芜湖县| 晋中市| 蒲江县| 都昌县| 邢台县| 新蔡县| 青田县| 临朐县| 化德县| 钟山县| 临江市| 娱乐| 佛山市| 舒兰市| 大邑县| 习水县| 康马县| 成武县| 大安市|