王飛躍 黃 濤 黃 磊 中國太平洋人壽保險股份有限公司
《反保險欺詐指引》實施以來,要求保險公司建立欺詐風(fēng)險識別機制,通過欺詐因子篩選、要素分析、風(fēng)險調(diào)查等方法,發(fā)現(xiàn)風(fēng)險因素。如何對欺詐風(fēng)險進行及時識別,是保險行業(yè)實踐中亟待探討解決的問題和挑戰(zhàn)。本文通過探討綜合運用探索性數(shù)據(jù)分析(EDA)和梯度提升決策樹(GBDT)方法,在已知問題賠案數(shù)據(jù)較少的情況下,可以較為有效地識別人身保險領(lǐng)域欺詐案件,為行業(yè)和同業(yè)公司保險欺詐風(fēng)險識別提供參考。
保險欺詐(Insurance Fraud)是指故意制造保險事故、謊稱發(fā)生保險事故或夸大索賠以騙取保險金的行為,它以不當(dāng)?shù)美麨槟康?,?yán)重?fù)p害保險公司利益。欺詐導(dǎo)致的額外成本最終將通過后續(xù)保費上漲轉(zhuǎn)嫁給誠實投保人,嚴(yán)重侵蝕保險市場賴以運作的公平保費理論。近年來,保險欺詐團伙化、專業(yè)化、職業(yè)化特點愈發(fā)突出,不僅損害誠實守信的保險消費者利益,侵蝕保險公司經(jīng)營成本,甚至影響保險業(yè)的健康穩(wěn)定發(fā)展及社會誠信體系的構(gòu)建。《反保險欺詐指引》第二十六條明確要求,保險機構(gòu)應(yīng)建立欺詐風(fēng)險識別機制,對關(guān)鍵業(yè)務(wù)單元面臨的欺詐風(fēng)險進行收集、發(fā)現(xiàn)、辨識和描述,形成風(fēng)險清單。其中包括通過欺詐因子篩選、要素分析、風(fēng)險調(diào)查等方法,發(fā)現(xiàn)風(fēng)險因素。如何對人身保險欺詐領(lǐng)域開展有效的識別和預(yù)警,是保險公司保險欺詐研究的核心內(nèi)容。
目前保險公司傳統(tǒng)的反欺詐分析依賴相關(guān)人員的經(jīng)驗和其能獲取數(shù)據(jù)的程度。受人力、物力所限,保險欺詐案件大多憑借理賠人員和風(fēng)險監(jiān)測人員的直覺從大量的案件中抽取出來進行分析。識別規(guī)則主要依靠一些固定標(biāo)準(zhǔn)和人員的長期經(jīng)驗篩選可疑案例,調(diào)查的質(zhì)量主要依賴于理賠人員的個人素質(zhì)以及與業(yè)內(nèi)其他公司、部門的個人關(guān)系。在保險業(yè)信息化發(fā)展的大背景下,客戶各種信息的數(shù)字化、業(yè)務(wù)電子商務(wù)化、理賠流程系統(tǒng)化、事故現(xiàn)場的影像化,一方面為保險公司積累了大量的數(shù)據(jù),另一方面也使傳統(tǒng)的以實物為基礎(chǔ)的反保險欺詐模式受到極大的挑戰(zhàn),因此迫切需要建立以大數(shù)據(jù)為基礎(chǔ)的反保險欺詐的新模式,提高對保險欺詐風(fēng)險識別的技術(shù)水平。
反保險欺詐的大數(shù)據(jù)分析流程主要包括五個層面的工作流程:風(fēng)險分析、構(gòu)建規(guī)則模型、篩選可疑數(shù)據(jù)、進行驗證核實、后續(xù)優(yōu)化等,形成完整的、閉環(huán)運作的反保險欺詐數(shù)據(jù)分析體系。關(guān)于模型選擇目前存在定性分析法、決策樹/風(fēng)險樹、評分卡、復(fù)制模型、人工智能和知識圖譜等方法,但都難以單獨解決在已知較小樣本基礎(chǔ)上準(zhǔn)確識別未知欺詐案件。
探索性數(shù)據(jù)分析(EDA)是指對現(xiàn)有數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗假定下進行探索,通過作圖、制表、方程擬合、計算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)、規(guī)律或異常值的一種數(shù)據(jù)分析方法。梯度提升決策樹(GBDT)是一種集成學(xué)習(xí)的方法,通過集成多個學(xué)習(xí)器來構(gòu)建最終預(yù)測模型,即對于一個復(fù)雜任務(wù)來說,將多個學(xué)習(xí)器(專家)的判斷進行適當(dāng)綜合所得出的判斷,比其中任何一個學(xué)習(xí)器(專家)單獨做出的判斷要好。梯度提升決策樹算法經(jīng)過多輪迭代,每次迭代生成一棵新的決策樹,并將新的決策樹添加到模型中匯總,不斷提升預(yù)測模型的精度,并形成最終的模型。本次已知問題賠案數(shù)量較少,共28條,待檢查的賠案數(shù)據(jù)為4000條。因此,擬首先運用探索性數(shù)據(jù)分析(EDA)對已知人身保險欺詐案件特征進行分析;其次運用梯度提升決策樹(GBDT)建立大數(shù)據(jù)分析模型,通過對比各個賠案的評分,分析評分相近的賠案,對比賠案之間的特征,發(fā)現(xiàn)疑似案件;最后通過現(xiàn)場復(fù)勘評估風(fēng)險識別的準(zhǔn)確性。
以賠案號為唯一標(biāo)識將“問題賠案數(shù)據(jù)”和“待核實賠案數(shù)據(jù)”兩部分?jǐn)?shù)據(jù)進行整合。結(jié)合保險欺詐案件的常規(guī)特征和本次問題賠案的特點,初步選擇出一些典型的字段,并通過分析,明確字段對應(yīng)的規(guī)則。從業(yè)務(wù)的角度對選取字段和規(guī)則的合理性進行初步驗證。
?表1 字段、規(guī)則、業(yè)務(wù)場景梳理結(jié)果
運用探索性數(shù)據(jù)分析方法對整合數(shù)據(jù)進行分析,發(fā)現(xiàn)問題賠案的特征變量與待核實賠案有顯著差別,包括保費、賠款總額、賠款總額與保費比例、被保險人年齡、被保人身份證所在地區(qū)與銷售地點等特征變量等,最終確定將保費總額、賠款總額、被保險人年齡、醫(yī)院、疾病、賠款總額與保費比例、被保人身份證所在地區(qū)與銷售地點是否一致等作為用于后續(xù)測算的特征變量。分析方法如下:
(一)利用關(guān)系網(wǎng)絡(luò)進行分析,發(fā)現(xiàn)業(yè)務(wù)員、上級主管、醫(yī)院和疾病之間存在關(guān)聯(lián)關(guān)系。在圖1中,線條的粗細(xì)代表關(guān)聯(lián)關(guān)系的強弱。在問題賠案中,有多個業(yè)務(wù)員的上級主管均為“石XX”,而“石XX”和醫(yī)院“A省B市醫(yī)院”有非常強的關(guān)聯(lián)關(guān)系;醫(yī)院“A省B市醫(yī)院”和兩種疾病“腦梗塞”和“腔隙性腦梗塞”有較強的關(guān)聯(lián)性(詳見圖1)。
(二)問題賠案的保費多集中在1000—4000元之間,而待核實賠案的保費主要集中在1400—7000元之間,并且問題賠案的保費普遍較低(詳見圖2)。
(三)問題賠案的賠款總額多集中在25000—60000元之間,而待核實賠案的賠款總額主要集中在0—35000元之間,并且問題賠案的賠款總額更為集中(詳見圖3)。
?圖1 業(yè)務(wù)員、上級主管、醫(yī)院及疾病的關(guān)系網(wǎng)絡(luò)圖
(四)問題賠案的賠款總額與保費比例趨勢線(紅線)呈上升趨勢,即問題賠案的賠款總額與保費比例隨著賠款總額的上升而上升,主要由于問題賠案的保費較低、繳費次數(shù)較少,且不隨賠款總額的變化而變化(詳見圖4)。
(五)經(jīng)過分析對比待核實賠案中被保險人身份證所在地區(qū)與銷售網(wǎng)點所在地區(qū)發(fā)現(xiàn),大部分賠案的被保險人的身份證與銷售網(wǎng)點在同一地區(qū)(黑色直線劃出部分),同時也存在被保險人的身份證與銷售網(wǎng)點不在同一區(qū)域(異地投保)的現(xiàn)象。在異地投保中,有五處較為集中的異地投保區(qū)域包括1號區(qū)域、2號區(qū)域、3號區(qū)域、4號區(qū)域、5號區(qū)域(詳見圖5)。
(六)從被保險人年齡段來看,35歲—40歲年齡段的問題賠案件數(shù)占比最高,50歲—55歲年齡段的問題賠案件數(shù)最多。在待核實賠案中,被保險人年齡超過65歲的賠案有376件(詳見圖6)。
?圖2 保費對比分析
?圖4 賠款總額與保費比例的對比分析
?圖3 賠款總額對比分析
?圖5 被保人身份證所在地區(qū)與銷售地點對比分析散點圖
?圖6 在不同被保險人年齡段的問題賠案在待核實賠案中的件數(shù)占比
首先,運用梯度提升決策樹方法對特征變量進行測算分析并得到對每一個賠案的評分,發(fā)現(xiàn)醫(yī)院和疾病是兩個具有顯著影響的特征變量,對本次評分起到?jīng)Q定性作用,賠款總額與保費的比例、被保人身份證所在地區(qū)與銷售地點是否一致、保費總額、賠款總額和被保險人年齡等特征變量均會對評分,發(fā)現(xiàn)醫(yī)院和疾病是兩個具有顯著影響的特征變量,對本次評分起到?jīng)Q定性作用,賠款總額與保費比例、被保人身份證所在地區(qū)與銷售地點是否一致、保費總額、賠款總額和被保險人年齡等特征變量均會對評分產(chǎn)生影響。
其次,根據(jù)評分對待核實賠案進行分組,評分結(jié)果相近的分在一組,在每組內(nèi)通過對比問題賠案和待核實賠案的特征,分析出在待核實賠案中的疑似問題賠案。通過對比待核實賠案信息(特征)和問題賠案信息(特征)之間的相似程度,從醫(yī)院、疾病、地域、保費、賠付金額等角度進行分析,發(fā)現(xiàn)以下賠案與問題賠案高度相似(后稱此類賠案為“疑似問題賠案”)。通過對比各個賠案的評分,分析評分相近的賠案,對比賠案之間的特征,發(fā)現(xiàn)疑似案件:WUH****00015940、WUH****00015940、 WUH****00015940、WUH****00006798、 WUH****00017324、WUH****00005689、 WUH****00020195、WUH****00006301、WUH****0000526等上述疑似問題賠案的醫(yī)院名、疾病名與問題賠案完全一致,被保險人身份證所在區(qū)域與部分問題賠案的區(qū)域相同,符合問題賠案保費金額低并且賠款總金額不高的特征;其余五個賠案與問題賠案的醫(yī)院名、疾病名、所在地區(qū)等特征相似(詳見圖7)。
?圖7 疑似問題賠案分析結(jié)果
最后,將上述可疑賠案發(fā)送至分公司進行復(fù)勘。經(jīng)核實,除賠案號WUH****00005260外,其余8件賠案均確認(rèn)為欺詐案件,準(zhǔn)確率為88.9%。
本文探索了在已知問題賠案數(shù)據(jù)較少的情況下對人身保險領(lǐng)域未知欺詐風(fēng)險的一種識別方法。首先運用探索性數(shù)據(jù)分析(EDA)對已知人身保險欺詐案件特征進行分析,其次運用檢驗梯度提升決策樹(GBDT)建立大數(shù)據(jù)分析模型,通過對比待核實賠案信息(特征)和問題賠案信息(特征)之間的相似程度,從醫(yī)院、疾病、地域、保費、賠付金額等角度對待核實欺詐數(shù)據(jù)進行分析,發(fā)現(xiàn)可疑賠案,最后針對重點可疑賠案進行復(fù)勘確認(rèn),得到了較好的識別效果。
?表2 特征變量對篩選問題賠案的貢獻度分析結(jié)果
?表3 疑似問題賠案分析結(jié)果