国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Apriori算法的機(jī)動(dòng)車保險(xiǎn)欺詐索賠的關(guān)聯(lián)度分析

2023-05-22 21:25:51金慧楊涵予崔浩浩
時(shí)代汽車 2023年9期
關(guān)鍵詞:Apriori算法關(guān)聯(lián)分析

金慧 楊涵予 崔浩浩

摘 要:在保險(xiǎn)行業(yè)中,保險(xiǎn)欺詐是當(dāng)前存在的普遍現(xiàn)象。然而,在保險(xiǎn)的全部險(xiǎn)種里面,機(jī)動(dòng)車車險(xiǎn)欺詐是保險(xiǎn)欺詐的高發(fā)區(qū)之一。本文基于25項(xiàng)特征指標(biāo),應(yīng)用車險(xiǎn)欺詐關(guān)聯(lián)分析模型對(duì)某保險(xiǎn)公司欺詐識(shí)別系統(tǒng)數(shù)據(jù)進(jìn)行了分析,得出黑色樣本的頻繁項(xiàng)集,并且在白色樣本中進(jìn)行驗(yàn)證,確定了它們之間的具體關(guān)聯(lián)規(guī)則,識(shí)別出欺詐索賠事件,得到灰色樣本的欺詐率。研究結(jié)果表明,總理賠樣本的欺詐率為37.527%。

關(guān)鍵詞:車險(xiǎn)欺詐 關(guān)聯(lián)分析 Apriori算法 欺詐率

1 引言

2019年6月中國保險(xiǎn)學(xué)會(huì)與金融壹賬通聯(lián)合發(fā)布了《2019年中國保險(xiǎn)行業(yè)智能風(fēng)控白皮書》,文中說明就目前我國的所有保險(xiǎn)行業(yè)里面,車險(xiǎn)欺詐滲透約占理賠金額比例高達(dá)20%,相應(yīng)的年損失竟有200多億元,可謂是觸目驚心[5]。在近幾年來,我國車險(xiǎn)行業(yè)發(fā)展迅速,然而當(dāng)前車險(xiǎn)欺詐一直伴隨著汽車保險(xiǎn)的發(fā)展,高速的發(fā)展帶來的結(jié)果是保險(xiǎn)的經(jīng)營(yíng)成本一直在增加,隨著當(dāng)前欺詐手段和欺詐形式的多樣化,其車險(xiǎn)欺詐分別給保險(xiǎn)公司、合法投保人以及車險(xiǎn)行業(yè)的穩(wěn)定發(fā)展帶來了極大的危害[1]。為確保保險(xiǎn)行業(yè)健康并且相對(duì)穩(wěn)定的發(fā)展,減少一些大眾化的保險(xiǎn)欺詐,維護(hù)一些誠實(shí)投保人的利益,保險(xiǎn)反欺詐技術(shù)研究具有一定的現(xiàn)實(shí)意義[4]。

2 建立Apriori算法模型

Apriori算法有兩個(gè)重要性質(zhì)。性質(zhì)1,頻繁項(xiàng)集的一切子集則均為頻繁項(xiàng)集;性質(zhì)2,非頻繁集項(xiàng)的超集則必然為非頻繁的[2]。

可以將其整個(gè)發(fā)現(xiàn)頻繁項(xiàng)集的過程簡(jiǎn)述見圖1。首先,我們將頻繁項(xiàng)集中的“1項(xiàng)集”所有的集合尋找出來,標(biāo)號(hào)為L(zhǎng)1,在此“1項(xiàng)集”的基礎(chǔ)上,找出頻繁項(xiàng)集中的“2項(xiàng)集”,標(biāo)號(hào)為L(zhǎng)2,同樣的道理,依次找出文中所需的頻繁項(xiàng)集的其他項(xiàng)集;但其間,每一次尋找項(xiàng)集時(shí)都必須掃描一次數(shù)據(jù)庫。核心是連接步以及剪枝步兩個(gè)內(nèi)容;連接步就是將其自行連接,但前提條件是前面的“K2”項(xiàng)必須要相同,它們按照26個(gè)英文字母的順序依次連接;剪枝步的目的是讓其隨便一項(xiàng)頻繁項(xiàng)集的一切非空子集都必須遵循頻繁的原則[3,6]。

重復(fù)上述5個(gè)步驟,一直到頻繁項(xiàng)集不出現(xiàn)時(shí)即可結(jié)束。

3 車險(xiǎn)欺詐關(guān)聯(lián)分析及欺詐率估計(jì)

3.1 數(shù)據(jù)的收集和數(shù)據(jù)的處理

將國內(nèi)某保險(xiǎn)公司某年的59627例索賠樣本由保險(xiǎn)公司內(nèi)部的理賠管理系統(tǒng)做出初步的篩選;其中將所有的車險(xiǎn)理賠樣本分為兩類,高風(fēng)險(xiǎn)子集樣本(欺詐樣本)和低風(fēng)險(xiǎn)子集樣本(合理索賠樣本)。表1為具體的數(shù)據(jù)量。

在表1中將索賠樣本占有量做出具體分組,本公司針對(duì)是否為車險(xiǎn)欺詐一共利用25個(gè)特征指標(biāo)(如表2所示)對(duì)其所有理賠樣本進(jìn)行識(shí)別,最終識(shí)別是否為欺詐索賠,其中任何一項(xiàng)特征指標(biāo)都針對(duì)某一方面車險(xiǎn)欺詐與正常索賠的具體特征的差異[7-8]。

通過以下的步驟對(duì)將樣本進(jìn)行分類。

(1)將高風(fēng)險(xiǎn)的子集進(jìn)行排序并從中篩選出高嫌疑和占比與高風(fēng)險(xiǎn)的子集欺詐率相等的欺詐樣本的一部分;(2)對(duì)樣本所有數(shù)據(jù)進(jìn)行排序,接著篩選出占比和總樣本的欺詐率相同的欺詐樣本;(3)將上述1與2做交集,將得到文中所需要的黑色樣本數(shù)量;(4)低風(fēng)險(xiǎn)子集按照需要排序?qū)⑵渲械臎]有嫌疑與占比(1-低風(fēng)險(xiǎn)的欺詐率)相等的樣本篩選出來;(5)總樣本按照所需排序?qū)⑵渲姓急扰c(1-總樣本的欺詐率)相等的樣本篩選出來;(6)將上述的4與5做交集,將得到文中所需要的白色樣本的數(shù)量。用總樣本數(shù)量減去黑色樣本數(shù)量和白色樣本數(shù)量將得到灰色樣本數(shù)量。最后得出的各類樣本數(shù)量如表3所示。

3.2 欺詐模式與非欺詐模式兩者區(qū)別

3.2.1 欺詐樣本的頻繁項(xiàng)集

最初,我們需要找出頻繁項(xiàng)集(此處頻繁項(xiàng)集指的是欺詐樣本與非欺詐樣本兩者的具體頻繁項(xiàng)集)。25項(xiàng)特征指標(biāo)記為i,如果滿足,則i=1,如果不滿足,則i=0。

在本文的研究中將最小的支持度以及最小置信度分別預(yù)設(shè)為0.3與0.7,也就是說當(dāng)同時(shí)滿足兩個(gè)條件,一最小支持度>0.3;二最小置信度>0.7。接著對(duì)二、三、四項(xiàng)集進(jìn)行同樣的分析。在欺詐樣本的二頻繁項(xiàng)集中,0.8323為二項(xiàng)頻繁項(xiàng)集里面的最高支持度,對(duì)應(yīng)的二項(xiàng)集為{19,20},這也說明當(dāng)兩個(gè)指標(biāo)同一時(shí)間同時(shí)出西現(xiàn)時(shí),有80%的把握可以認(rèn)定此樣本為欺詐樣本,表中的頻繁項(xiàng)集{10,20},{10,19},{20,5}同樣認(rèn)為是較高的支持度,對(duì)應(yīng)支持度是0.77,0.64,0.64。

將上述的13項(xiàng)頻繁項(xiàng)集算出的支持度依次排序,順序按降序排列,如下表4所示,將其對(duì)應(yīng)的支持度做出適當(dāng)?shù)恼{(diào)整,為后面的頻繁項(xiàng)集用于灰色樣本的一些預(yù)測(cè)做鋪墊。

3.2.2 非欺詐樣本的頻繁項(xiàng)集

在表4里面結(jié)果可以顯示,將其最小支持度具體設(shè)為0.5的時(shí)候,可以得出其中的13項(xiàng)是頻繁項(xiàng)集,然而非欺詐樣本與欺詐樣本存在著明顯的差異;將其最小支持度設(shè)為0.4的時(shí)候,僅包含其中的兩項(xiàng)頻繁項(xiàng)集為非欺詐的樣本,它們?yōu)轫?xiàng)集{5}和項(xiàng)集{10},得出的結(jié)果均在正常的范圍之內(nèi),因?yàn)橹笜?biāo)選擇它們都指向欺詐。

3.3 關(guān)聯(lián)規(guī)則的分析

在挖掘關(guān)聯(lián)規(guī)則時(shí)應(yīng)該注意它們的有效性,對(duì)前文篩選后所得到的13項(xiàng)黑色樣本的頻繁項(xiàng)集在白色樣本里面都要進(jìn)行具體的驗(yàn)證,看是否是有效的,在驗(yàn)證之前需要將前文的13個(gè)頻繁項(xiàng)集分別做出標(biāo)記,方便進(jìn)行操作,如表4所示。

驗(yàn)證頻繁項(xiàng)集是否為有效的,需要滿足以下條件:

黑色樣本是基礎(chǔ),對(duì)于Ai的支持度有一定的滿足條件見式1,假如滿足,則視為有效。

支持度(Ai黑)>支持度(Ai白)(1)

得出結(jié)果如表5所示,其上述的13個(gè)頻繁項(xiàng)集均為有效的。

接下來需要將各個(gè)項(xiàng)集之間的關(guān)聯(lián)規(guī)則挖掘出來。隨便一項(xiàng)以頻繁項(xiàng)集為基礎(chǔ)的黑色樣本的概率均可以由貝葉斯公式計(jì)算得出,運(yùn)用式2得出所有頻繁項(xiàng)集下對(duì)應(yīng)的欺詐率。

P(黑|Ai)=

(2)

將P(F|Ai)記作P1,2,3,……,13。

頻繁項(xiàng)集以及欺詐率將通過表6列舉出來。

由上述的欺詐率可以將每個(gè)頻繁項(xiàng)集的關(guān)聯(lián)規(guī)則全部找出,將高欺詐率頻繁項(xiàng)集{19},{22},{10},{5}等4個(gè)項(xiàng)集的相關(guān)的關(guān)聯(lián)規(guī)則分別做出列舉。

如圖2所示,指標(biāo)19出現(xiàn)時(shí),欺詐率為0.940295,當(dāng)指標(biāo)10與19同時(shí)出現(xiàn),欺詐率為0.976921,還有當(dāng)指標(biāo)19與20同時(shí)出現(xiàn)時(shí),欺詐率變?yōu)?.962684(指標(biāo)19與指標(biāo)5同時(shí)出現(xiàn)時(shí)欺詐率變?yōu)?.941999),

如指標(biāo)10、19、20出現(xiàn),索賠中含有欺詐的概率為97.69%;指標(biāo)19、20、5出現(xiàn),此時(shí)索賠中含有的欺詐概率為94.19%。

如圖3,指標(biāo)22出現(xiàn)時(shí)的欺詐概率。

如圖4,指標(biāo)20出現(xiàn)時(shí)的欺詐率。

如圖5,指標(biāo)10出現(xiàn)時(shí)的欺詐率。

如圖6,指標(biāo)5出現(xiàn)時(shí)的欺詐率。

4 欺詐識(shí)別

上文中得出的顯著關(guān)聯(lián)規(guī)則有三個(gè),最終結(jié)果顯示為項(xiàng)集{20,22},項(xiàng)集{10,19,20}和項(xiàng)集{19,20,5},它們對(duì)應(yīng)的欺詐率分別為98.00%,97.69%和94.20%。因此,用上述的三個(gè)項(xiàng)集用作欺詐識(shí)別?;疑珮颖镜木唧w占比識(shí)別詳見表7。

4.1 樣本預(yù)測(cè)

在標(biāo)記的13項(xiàng)頻繁項(xiàng)集里面,只有滿足條件P(黑|Ai)>0.8時(shí),才能將其作為預(yù)測(cè)對(duì)象,最后符合條件的較為顯著的頻繁項(xiàng)集共計(jì)11項(xiàng),將支持度從0.5調(diào)升至0.8,將置信度由0.85提升至0.95,再分別做出預(yù)測(cè)觀察結(jié)果。預(yù)測(cè)結(jié)果如表9所示。

表8中的欺詐率計(jì)算見式3。

pi=P(F|Ai) (3)

4.2 估計(jì)灰色樣本的欺詐率

根據(jù)從B1至B13有無交集,將對(duì)灰色的樣本欺詐率進(jìn)行估計(jì)分為兩種情況。

第一種情況,假如B1至B13沒有交集,則可用公式4將總的欺詐率算出來。

(4)

其中,X=23085為灰色樣本的總數(shù)

第二種情況,假如B1至B13有交集。將P1至P13的大小進(jìn)行比較,用科學(xué)的方法,將交集的部分分到概率大的集合中,假如只有四個(gè)頻繁項(xiàng)集并且滿足P1>P2>P3>P4。

因?yàn)锽1+B2+B3+B4+B5+B6+B7+B8+B9+B10+B11+B12+B13相加之和遠(yuǎn)遠(yuǎn)大于23085,所有樣本之間存在著交集,因此運(yùn)用第二種情況來計(jì)算。由前文的表格中可以得出:

P(F|A11)>P(F|A9)≥P(F|A8)>P(F|A3)>P(F|A5)>P(F|A13)≥P(F|A12)>P(F|A2)>P(F|A10)>P(F|A7)>P(F|A1)

上面所述的13項(xiàng)的頻繁項(xiàng)集的區(qū)分度都是一致的。而且將它們的全部支持度都按照大小進(jìn)行相關(guān)順序排列,假如它們的支持度與區(qū)分度的大小兩者之間是相同的,就要用它們頻繁項(xiàng)集的具體個(gè)數(shù)將其進(jìn)行排列順序;灰色樣本的欺詐率計(jì)算大致為三步。

(1)首先將排序后的第一個(gè)B11與(B9,B8,B3,B5,B13,B12,B2,B10,B7,B1)做交集,其交集的結(jié)果屬于B11,然后計(jì)算,S11=B11*P(F|A11);

(2)去掉計(jì)算過的B11,將B9與剩下的幾項(xiàng)(B8,B3,B5,B13,B12,B2,B10,B7,B1)做交集,同樣交集的結(jié)果屬于B9,接著計(jì)算,S9=B9*P(F|A9);

(3)循環(huán)1和2步驟,計(jì)算到所有的樣本沒有交集為止。最后用公式4計(jì)算出灰色樣本的欺詐率:

(5)

調(diào)整支持度與置信度,由小向大調(diào),從而預(yù)測(cè)灰色樣本的最終欺詐率見表9;其取值越大,那么結(jié)果也就也接近真實(shí)數(shù)據(jù),得出灰色樣本的具體欺詐率達(dá)到51.1%時(shí),對(duì)應(yīng)它們的支持度與區(qū)分度兩個(gè)數(shù)據(jù)分別為0.8與0.95。

由此可以得出,灰色樣本的欺詐率為0.5110,灰色樣本中的欺詐個(gè)數(shù)為(23085*0.5110)11796個(gè),黑色樣本為10580個(gè),最終的欺詐樣本個(gè)數(shù)(10580+11796)為22376個(gè);結(jié)果得出的總體欺詐率為:

5 結(jié)語

本文以國內(nèi)某保險(xiǎn)公司車險(xiǎn)理賠數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,運(yùn)用相關(guān)的25項(xiàng)特征指標(biāo)將所有具有明顯欺詐行為特征的頻繁項(xiàng)集全部挖掘出來,最終用于欺詐索賠的識(shí)別。

(1)本文基于Apriori算法,對(duì)保險(xiǎn)公司已知的黑色樣本做出關(guān)聯(lián)分析,運(yùn)用算法得出研究所需的13項(xiàng)頻繁項(xiàng)集,接著在白色樣本中對(duì)比驗(yàn)證,結(jié)果發(fā)現(xiàn)均有效,將所有頻繁項(xiàng)集各項(xiàng)之間的關(guān)聯(lián)規(guī)則進(jìn)行具體的挖掘,用于灰色樣本部分的欺詐識(shí)別。結(jié)果顯示,當(dāng)項(xiàng)集{20,22}、{10,19,20}和{19,20,5}分別出現(xiàn)時(shí),識(shí)別的欺詐個(gè)數(shù)分別為7960、5894和3294,對(duì)應(yīng)的灰色樣本占比分別為34.48%、25.53%和14.72%,灰色樣本預(yù)測(cè)欺詐結(jié)果顯示,在不確定的索賠樣本中約有50%的樣本為欺詐樣本。

(2)灰色樣本最終得出的欺詐率預(yù)計(jì)結(jié)果將直接受到頻繁項(xiàng)集支持度的影響,隨支持度的升高,其預(yù)計(jì)結(jié)果越接近真實(shí)的數(shù)據(jù),文中將支持度與置信度做出調(diào)整(支持度由0.5調(diào)至0.8,置信度由0.85調(diào)至0.95)后得出灰色樣本欺詐率的預(yù)測(cè)結(jié)果是0.5110,此時(shí)計(jì)算出的總理賠樣本的欺詐率為37.527%;保監(jiān)局公布的一些調(diào)查數(shù)據(jù)中顯示,國內(nèi)的車險(xiǎn)欺詐索賠金額占據(jù)整個(gè)車險(xiǎn)索賠金額的30%之多,所以符合車險(xiǎn)欺詐的預(yù)測(cè)范圍。

基金項(xiàng)目:甘肅省教育廳創(chuàng)新能力提升項(xiàng)目(2021B-315)。

參考文獻(xiàn):

[1]何奇龍,唐煦韓,唐娟紅.基于演化博弈的機(jī)動(dòng)車保險(xiǎn)欺詐問題研究[J].保險(xiǎn)職業(yè)學(xué)院學(xué)報(bào),2022,36(02):51-59.

[2]張輝. 基于改進(jìn)Apriori算法的典型民航不安全事件影響因素關(guān)聯(lián)分析[D].中國民用航空飛行學(xué)院,2022.

[3]張碩. 基于數(shù)據(jù)挖掘的告警關(guān)聯(lián)規(guī)則研究與設(shè)計(jì)[D].貴州大學(xué),2021.

[4]車險(xiǎn)反欺詐聯(lián)合課題組.車險(xiǎn)欺詐與反欺詐問題研究及監(jiān)管建議[J].保險(xiǎn)研究,2021(06):3-10.

[5]陳秀娟.國內(nèi)車險(xiǎn)欺詐滲漏率達(dá)20%[J]. 汽車觀察,2019(7):1.

[6]楊洋.機(jī)動(dòng)車輛保險(xiǎn)欺詐風(fēng)險(xiǎn)評(píng)估模型構(gòu)建及其應(yīng)用研究[D].重慶理工大學(xué),2022.

[7]盧冰潔,李煒卓,那崇寧,牛作堯,陳奎.機(jī)器學(xué)習(xí)模型在車險(xiǎn)欺詐檢測(cè)的研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(05):34-49.

[8]楚宵瑩.基于機(jī)器學(xué)習(xí)的機(jī)動(dòng)車輛保險(xiǎn)的欺詐識(shí)別研究[D].山東大學(xué),2021.

猜你喜歡
Apriori算法關(guān)聯(lián)分析
玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
基于Hadoop平臺(tái)的并行DHP數(shù)據(jù)分析方法
基于隨機(jī)函數(shù)Petri網(wǎng)的系統(tǒng)動(dòng)力學(xué)關(guān)聯(lián)分析模型
基于Apriori算法的高校學(xué)生成績(jī)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
關(guān)聯(lián)分析技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用
基于云平臺(tái)MapReduce的Apriori算法研究
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
基于關(guān)聯(lián)分析的學(xué)生活動(dòng)參與度與高校社團(tuán)管理實(shí)證研究
科技視界(2016年15期)2016-06-30 12:43:00
不同的數(shù)據(jù)挖掘方法分類對(duì)比研究
利辛县| 黎川县| 湘阴县| 自治县| 青川县| 仙桃市| 阳原县| 红安县| 山东| 鄄城县| 白河县| 保定市| 鱼台县| 德令哈市| 长乐市| 宾川县| 罗甸县| 石泉县| 历史| 拜城县| 平塘县| 尼玛县| 西充县| 浪卡子县| 楚雄市| 兴义市| 枣庄市| 互助| 潼南县| 即墨市| 南皮县| 望城县| 涞水县| 东方市| 平安县| 龙海市| 南澳县| 楚雄市| 琼结县| 江北区| 江达县|