国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于人工智能技術(shù)的壽險(xiǎn)客戶(hù)細(xì)分研究

2020-07-22 06:10:20
關(guān)鍵詞:細(xì)分決策樹(shù)均值

(國(guó)聯(lián)人壽保險(xiǎn)股份有限公司信息技術(shù)部,江蘇無(wú)錫214002)

一、引言

“客戶(hù)細(xì)分”是20世紀(jì)50年代中期由美國(guó)學(xué)者溫德?tīng)枴な访芩固岢龅模淅碚撘罁?jù)是客戶(hù)需求異質(zhì)性使得企業(yè)必須利用有限資源進(jìn)行有效的市場(chǎng)競(jìng)爭(zhēng),即企業(yè)根據(jù)客戶(hù)屬性、行為、需求、偏好以及價(jià)值觀等因素對(duì)客戶(hù)進(jìn)行分類(lèi),并針對(duì)不同特征的客戶(hù)提供與之相匹配的產(chǎn)品、服務(wù)和銷(xiāo)售模式。從研究范疇來(lái)看,壽險(xiǎn)行業(yè)的客戶(hù)細(xì)分屬于消費(fèi)者行為、市場(chǎng)細(xì)分和人工智能機(jī)器學(xué)習(xí)算法的交叉研究地帶,因此可從客戶(hù)需求、客戶(hù)價(jià)值、公司資源與能力三個(gè)角度考慮客戶(hù)細(xì)分(呂延杰和尹濤,2012)。

在買(mǎi)方市場(chǎng)環(huán)境下,由于壽險(xiǎn)公司缺乏對(duì)客戶(hù)需求的深入分析,導(dǎo)致保險(xiǎn)產(chǎn)品設(shè)計(jì)缺乏針對(duì)性,同質(zhì)化程度較高??蛻?hù)需求的差異性是絕對(duì)的,相似性是相對(duì)的。為了在競(jìng)爭(zhēng)中脫穎而出,壽險(xiǎn)公司必須進(jìn)行客戶(hù)細(xì)分,結(jié)合自身戰(zhàn)略定位,集中企業(yè)資源制定有效的營(yíng)銷(xiāo)策略。通過(guò)為特定人群量身定制保險(xiǎn)產(chǎn)品并提供相應(yīng)的服務(wù),壽險(xiǎn)公司可以打造專(zhuān)業(yè)的品牌形象和良好的公司聲譽(yù)(孟慶良等,2005)。例如,華貴人壽針對(duì)85后尤其是90后人群,結(jié)合大數(shù)據(jù)推出了獨(dú)具特色的“國(guó)民定壽”產(chǎn)品——擎天柱定期壽險(xiǎn)。

二、人工智能技術(shù)的應(yīng)用

2012年后,得益于運(yùn)算力的提升,大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)新算法的出現(xiàn),人工智能(Artificial Intelligence,簡(jiǎn)稱(chēng)AI)技術(shù)得到爆發(fā)式的推廣與應(yīng)用?;诖髷?shù)據(jù)的AI技術(shù)可以將客戶(hù)歷史交易數(shù)據(jù)、行為軌跡與機(jī)器學(xué)習(xí)算法相結(jié)合,通過(guò)快速建模與分析,發(fā)現(xiàn)數(shù)據(jù)中的隱藏信息,最終提供更具針對(duì)性的客戶(hù)細(xì)分和客戶(hù)需求預(yù)測(cè)、營(yíng)銷(xiāo)機(jī)會(huì)預(yù)測(cè)及客戶(hù)流失預(yù)警等研究結(jié)論,使客戶(hù)服務(wù)與運(yùn)營(yíng)管理更加智能化、精準(zhǔn)化(程瑞芬,2013)。

(一)AI機(jī)器學(xué)習(xí)算法

當(dāng)前人工智能的研究領(lǐng)域正在不斷擴(kuò)大。其中,機(jī)器學(xué)習(xí)主要使用算法解析數(shù)據(jù),并對(duì)真實(shí)事件做出預(yù)測(cè)和決策。與傳統(tǒng)的硬編碼軟件不同,機(jī)器學(xué)習(xí)主要通過(guò)各種算法從數(shù)據(jù)中學(xué)習(xí)如何完成任務(wù)。如圖1所示,機(jī)器學(xué)習(xí)可以分為監(jiān)督學(xué)習(xí)(如分類(lèi)模型和回歸模型)和無(wú)監(jiān)督學(xué)習(xí)(如聚類(lèi)模型)。通過(guò)機(jī)器學(xué)習(xí),可以從大量數(shù)據(jù)中獲取見(jiàn)解,提高業(yè)務(wù)敏感性和競(jìng)爭(zhēng)優(yōu)勢(shì)。

圖1 人工智能的研究分支

(二)AI技術(shù)與業(yè)務(wù)場(chǎng)景的雙向匹配

不同算法有不同的業(yè)務(wù)適用范圍。例如,聚類(lèi)模型會(huì)根據(jù)個(gè)體相似性對(duì)客戶(hù)群體進(jìn)行分組,回歸模型可以預(yù)測(cè)交叉銷(xiāo)售和二次營(yíng)銷(xiāo)的收入提升,分類(lèi)模型可以預(yù)測(cè)營(yíng)銷(xiāo)績(jī)效和潛在客戶(hù)轉(zhuǎn)化成為真實(shí)客戶(hù)的可能性。AI智能水平的提升需要大量訓(xùn)練,這離不開(kāi)高質(zhì)量的真實(shí)業(yè)務(wù)場(chǎng)景,而其中的數(shù)據(jù)收集、整理、清洗和轉(zhuǎn)換環(huán)節(jié)將會(huì)消耗整個(gè)項(xiàng)目2/3左右的時(shí)間,這對(duì)企業(yè)的數(shù)據(jù)管理能力提出了更高的要求。因此,AI技術(shù)得到有效應(yīng)用的前提是業(yè)務(wù)人員必須參與其中,并根據(jù)業(yè)務(wù)流程和結(jié)果評(píng)估AI技術(shù)的實(shí)用性和適用性。

三、客戶(hù)細(xì)分現(xiàn)狀與指標(biāo)選取

(一)壽險(xiǎn)公司客戶(hù)細(xì)分現(xiàn)狀

對(duì)國(guó)聯(lián)人壽保險(xiǎn)公司總公司運(yùn)營(yíng)部門(mén)工作人員進(jìn)行一對(duì)一面談,通過(guò)填寫(xiě)調(diào)研問(wèn)卷,對(duì)目前客戶(hù)細(xì)分操作情況進(jìn)行調(diào)查。調(diào)查結(jié)果如下:

客戶(hù)服務(wù)部的客服人員希望在客戶(hù)嘉年華活動(dòng)中,獲得精準(zhǔn)的客戶(hù)分類(lèi)數(shù)據(jù),以便開(kāi)展有針對(duì)性的客戶(hù)營(yíng)銷(xiāo)活動(dòng),達(dá)到二次挖掘老客戶(hù)需求、開(kāi)拓新客戶(hù)的目的。同時(shí),希望通過(guò)柜面、電話中心、微信等渠道,將收集到的標(biāo)簽數(shù)據(jù)進(jìn)行客戶(hù)歸類(lèi),結(jié)合客戶(hù)職業(yè)、年齡、收入和家庭關(guān)系,繪制出以家庭或夫妻關(guān)系為單位的客戶(hù)畫(huà)像。

客戶(hù)服務(wù)部的續(xù)期人員希望將客戶(hù)基本信息與客戶(hù)行為習(xí)慣進(jìn)行關(guān)聯(lián),形成客戶(hù)續(xù)收畫(huà)像,以此辨別客戶(hù)的交費(fèi)習(xí)慣和長(zhǎng)期品質(zhì),方便進(jìn)行存量客戶(hù)的持續(xù)維護(hù)和深度開(kāi)發(fā)。

核保核賠部根據(jù)客戶(hù)的基本信息評(píng)估重疾發(fā)生率、死亡率等,通過(guò)手工分群劃分風(fēng)險(xiǎn)等級(jí),進(jìn)行快速核保及理賠。該部門(mén)工作人員希望引入征信系統(tǒng),以及醫(yī)院、體檢中心、醫(yī)保中心等與客戶(hù)相關(guān)的外部結(jié)論性數(shù)據(jù),在不觸及客戶(hù)隱私的情況下,更好地對(duì)客戶(hù)風(fēng)險(xiǎn)等級(jí)進(jìn)行細(xì)分,以實(shí)現(xiàn)系統(tǒng)智能核保和核賠。

此次問(wèn)卷調(diào)查發(fā)現(xiàn)運(yùn)營(yíng)部門(mén)存在較強(qiáng)烈的客戶(hù)細(xì)分需求,希望將客戶(hù)細(xì)分結(jié)果運(yùn)用到日常工作中,達(dá)到提高工作效率、提升客戶(hù)滿(mǎn)意度及更好地預(yù)測(cè)風(fēng)險(xiǎn)等目的。

(二)客戶(hù)細(xì)分指標(biāo)

有效的客戶(hù)細(xì)分首先需要構(gòu)建多維客戶(hù)特征指標(biāo),這些指標(biāo)并不是越復(fù)雜越好,而是要具備一定的穩(wěn)定性和顯性特征。根據(jù)公司內(nèi)部問(wèn)卷調(diào)查結(jié)果,并結(jié)合專(zhuān)業(yè)部門(mén)的評(píng)估意見(jiàn),得出如下適合公司業(yè)務(wù)場(chǎng)景的客戶(hù)細(xì)分指標(biāo):

投被保人基礎(chǔ)信息,包括性別、年齡、學(xué)歷、職業(yè)類(lèi)別、婚姻狀況、工資、家庭收入、家庭住址所屬區(qū)域等。

保單信息,包括總保單件數(shù)、總保費(fèi)、險(xiǎn)種結(jié)構(gòu)分布、產(chǎn)品結(jié)構(gòu)分布等。

風(fēng)險(xiǎn)信息,包括退保保費(fèi)、退保件數(shù)、猶豫期退保保費(fèi)、猶豫期退保件數(shù)、理賠次數(shù)、理賠金額、逾期次數(shù)、出單總數(shù)、回訪次數(shù)、猶豫期內(nèi)退保率(契撤率)、猶豫期后退保率(退保率)、失效率等。

投訴及黑名單記錄,包括投訴記錄、黑名單列表、客戶(hù)風(fēng)險(xiǎn)等級(jí)等。

(三)機(jī)器學(xué)習(xí)過(guò)程

確認(rèn)客戶(hù)細(xì)分在劃分投保人客戶(hù)價(jià)值方面的應(yīng)用方向與智能核保預(yù)測(cè)的期望業(yè)務(wù)場(chǎng)景后,可采集公司客戶(hù)承保的業(yè)務(wù)數(shù)據(jù)。通過(guò)數(shù)據(jù)倉(cāng)庫(kù)和ETL工具進(jìn)行數(shù)據(jù)清洗和轉(zhuǎn)換,使用Python語(yǔ)言和機(jī)器學(xué)習(xí)項(xiàng)目庫(kù)搭建客戶(hù)細(xì)分模型,并用處理后的數(shù)據(jù)進(jìn)行模型訓(xùn)練和模型參數(shù)調(diào)優(yōu)。運(yùn)用測(cè)試數(shù)據(jù)在訓(xùn)練后得到的模型上進(jìn)行實(shí)驗(yàn),查看模型使用效果,以達(dá)到檢驗(yàn)?zāi)P偷哪康模∕üller和Guido,2018;Raschka和Mirjalili,2017)。機(jī)器學(xué)習(xí)過(guò)程見(jiàn)圖2。

圖2 機(jī)器學(xué)習(xí)過(guò)程

四、模型構(gòu)建

(一)數(shù)據(jù)準(zhǔn)備

將調(diào)研結(jié)果進(jìn)行匯總分析,梳理關(guān)鍵指標(biāo)并把指標(biāo)轉(zhuǎn)換為數(shù)據(jù)庫(kù)語(yǔ)言。由于數(shù)據(jù)質(zhì)量受各種因素的影響,因此數(shù)據(jù)采集前需要做數(shù)據(jù)探查,剔除臟數(shù)據(jù),并使用Kettle工具進(jìn)行數(shù)據(jù)預(yù)處理。該工具可以對(duì)數(shù)據(jù)進(jìn)行加載、抽取和清洗,并將數(shù)據(jù)作為數(shù)據(jù)流處理后生成不同類(lèi)型的數(shù)據(jù)。

1.變量篩選

變量篩選主要通過(guò)相關(guān)性分析,將相關(guān)性較高的變量組成一類(lèi),并根據(jù)分析人員經(jīng)驗(yàn)在每一類(lèi)變量中選取1~2個(gè)代表性指標(biāo),再對(duì)數(shù)據(jù)的取值和分布進(jìn)行數(shù)據(jù)探查,初步篩選出適合進(jìn)行分類(lèi)的2大類(lèi)29個(gè)變量(見(jiàn)表1)。

表1 變量篩選

2.數(shù)據(jù)采集

使用Kettle工具抽取核心業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)中所有個(gè)險(xiǎn)投保和個(gè)險(xiǎn)核保數(shù)據(jù),共計(jì)29個(gè)字段,約13萬(wàn)條投保數(shù)據(jù)和12萬(wàn)條核保數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)中創(chuàng)建相同結(jié)構(gòu)的表格,用于保存抽取的基礎(chǔ)數(shù)據(jù),供數(shù)據(jù)清洗使用。

3.數(shù)據(jù)清洗

根據(jù)字段類(lèi)型,對(duì)字符型字段采用分布分析,對(duì)數(shù)值型字段采用集中度和離散度分析,并查看輸入變量是否有缺失值、單一值、單類(lèi)別取值過(guò)大、極值等問(wèn)題。本文主要采用平均數(shù)填充、極值剔除等方法對(duì)數(shù)據(jù)進(jìn)行清洗。例如,投保人年收入字段缺失值較多,同時(shí)存在較多的極值。根據(jù)數(shù)值分布情況,對(duì)極值數(shù)據(jù)進(jìn)行過(guò)濾剔除,并在相對(duì)合理范圍內(nèi),取年收入均值進(jìn)行填充。另外,總保費(fèi)和總件數(shù)有一些過(guò)大的數(shù)值,可能影響數(shù)據(jù)的分布狀態(tài),也對(duì)其進(jìn)行過(guò)濾剔除。被保險(xiǎn)人身高、體重?cái)?shù)據(jù)缺失較多,無(wú)法按照經(jīng)驗(yàn)進(jìn)行填充,所以直接剔除該字段。

(二)客戶(hù)細(xì)分模型搭建

本文使用Python語(yǔ)言進(jìn)行機(jī)器學(xué)習(xí)模型的搭建,搭建過(guò)程中用到了Scikitlearn項(xiàng)目庫(kù)以及Numpy、Pandas、Matplotlib 等一些通用的科學(xué)計(jì)算、數(shù)據(jù)分析和繪圖庫(kù)。

1.客戶(hù)按綜合價(jià)值分群

信息時(shí)代的到來(lái)使壽險(xiǎn)公司的營(yíng)銷(xiāo)焦點(diǎn)從產(chǎn)品中心轉(zhuǎn)變?yōu)榭蛻?hù)中心,客戶(hù)關(guān)系管理成為公司面臨的核心問(wèn)題。客戶(hù)關(guān)系管理的關(guān)鍵是客戶(hù)分類(lèi),即針對(duì)不同類(lèi)型的客戶(hù)制定個(gè)性化營(yíng)銷(xiāo)策略和服務(wù),使得有限資源得到最優(yōu)分配,進(jìn)而實(shí)現(xiàn)公司利潤(rùn)最大化。聚類(lèi)分析是對(duì)客戶(hù)進(jìn)行分類(lèi)的通用方法,而最常用的聚類(lèi)算法為K均值聚類(lèi)。K均值聚類(lèi)通過(guò)迭代算法找到代表數(shù)據(jù)特定區(qū)域的簇中心。算法交替執(zhí)行兩個(gè)步驟:第一步,將每個(gè)數(shù)據(jù)點(diǎn)分配給最近的簇中心;第二步,將每個(gè)簇中心設(shè)置為所分配數(shù)據(jù)的平均值。如果簇分配不再發(fā)生變化,那么算法結(jié)束。使用K均值聚類(lèi)可以在選擇合適屬性的前提下,實(shí)現(xiàn)客戶(hù)群體的自動(dòng)分類(lèi)。K均值聚類(lèi)模型的參數(shù)選取情況見(jiàn)表2。

表2 K均值聚類(lèi)模型參數(shù)

K均值聚類(lèi)模型搭建方法為:讀取數(shù)據(jù),選擇模型所需的參數(shù)值;對(duì)數(shù)據(jù)進(jìn)行最大、最小縮放,使數(shù)據(jù)值分布在0~1;使用Scikit-learn項(xiàng)目庫(kù)提供的KMeans模型創(chuàng)建K均值聚類(lèi)模型,對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)分析;將輸出結(jié)果返回至原始數(shù)據(jù),增加標(biāo)簽項(xiàng),并輸出分類(lèi)結(jié)果的二維散點(diǎn)圖。

2.智能核保預(yù)測(cè)

隨著AI技術(shù)的發(fā)展,智能核保逐漸進(jìn)入市場(chǎng)應(yīng)用。保險(xiǎn)公司列出一系列問(wèn)題后,投保人根據(jù)自身情況完成選擇,實(shí)時(shí)給出核保結(jié)論。要實(shí)現(xiàn)智能核保預(yù)測(cè),可以使用監(jiān)督學(xué)習(xí)模型。決策樹(shù)是一種廣泛用于分類(lèi)和回歸任務(wù)的監(jiān)督學(xué)習(xí)模型,本質(zhì)上,該模型從一層層的if/else問(wèn)題中學(xué)習(xí),并得出結(jié)論。經(jīng)過(guò)前期的用戶(hù)調(diào)研及綜合評(píng)估,選取適合作為決策樹(shù)模型參數(shù)的字段及目標(biāo)值(見(jiàn)表3和表4)。

表3 決策樹(shù)模型參數(shù)

表4 決策樹(shù)模型目標(biāo)值

決策樹(shù)模型搭建方法為:選取模型參數(shù)及目標(biāo)值,按照默認(rèn)3:1的比例,將樣本數(shù)據(jù)隨機(jī)劃分成訓(xùn)練集和測(cè)試集。訓(xùn)練集用于模型訓(xùn)練,使模型預(yù)測(cè)結(jié)果接近訓(xùn)練集的目標(biāo)值輸出。測(cè)試集用于評(píng)估模型分類(lèi)的準(zhǔn)確率,將測(cè)試集的參數(shù)值傳遞給決策樹(shù)模型,驗(yàn)證模型預(yù)測(cè)的準(zhǔn)確率。本文通過(guò)Scikit-learn項(xiàng)目庫(kù)中的Decision Tree Classifier模型構(gòu)建決策樹(shù)模型,使用訓(xùn)練集對(duì)決策樹(shù)模型進(jìn)行訓(xùn)練,并輸出訓(xùn)練集和測(cè)試集預(yù)測(cè)精度和參數(shù)重要性等指標(biāo),最終輸出決策參數(shù)重要性柱狀圖。

決策樹(shù)的主要缺點(diǎn)是存在過(guò)度擬合問(wèn)題,而隨機(jī)森林是解決該問(wèn)題的有效方法。隨機(jī)森林本質(zhì)上是許多決策樹(shù)的集合,其中每棵樹(shù)都和其他樹(shù)略有不同。隨機(jī)森林模型的主要思想是:對(duì)預(yù)測(cè)效果良好且存在過(guò)度擬合的決策樹(shù),可對(duì)其預(yù)測(cè)結(jié)果取平均值來(lái)降低過(guò)度擬合,以保證決策樹(shù)的預(yù)測(cè)能力。要搭建隨機(jī)森林模型,首先需要選擇模型參數(shù)及目標(biāo)值數(shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練集和測(cè)試集的劃分。通過(guò)Scikit-learn項(xiàng)目庫(kù)提供的Random Forest Classifier模型構(gòu)造隨機(jī)森林模型并對(duì)模型進(jìn)行訓(xùn)練,得到隨機(jī)森林模型的訓(xùn)練集和測(cè)試集預(yù)測(cè)精度等指標(biāo),最終輸出決策參數(shù)重要性柱狀圖。

五、模型應(yīng)用

完成模型搭建后,需要根據(jù)輸出結(jié)果調(diào)整模型參數(shù),以構(gòu)建更好的機(jī)器學(xué)習(xí)模型(周世兵,2011)。而參數(shù)調(diào)優(yōu)需要對(duì)生成的模型進(jìn)行觀察和調(diào)整,這里更依賴(lài)數(shù)據(jù)科學(xué)應(yīng)用人員對(duì)模型算法的了解及參數(shù)調(diào)優(yōu)經(jīng)驗(yàn)。

(一)K均值分類(lèi)模型參數(shù)調(diào)優(yōu)

首先選取聚類(lèi)數(shù)量為3。圖3顯示,數(shù)據(jù)在中心點(diǎn)周?chē)环譃檩^均勻的3個(gè)簇,左右邊界的數(shù)據(jù)分布較集中,總體分布均勻,因此3個(gè)簇劃分效果較好。

圖3 聚類(lèi)數(shù)量為3的散點(diǎn)圖

嘗試選取聚類(lèi)數(shù)量為4。圖4顯示,所有數(shù)據(jù)以多條直線為劃分邊界,左右兩邊的邊界數(shù)據(jù)較集中,客戶(hù)劃分同一簇中相似性偏少,難以從業(yè)務(wù)角度解釋不同的客戶(hù)分類(lèi)。因此,以3個(gè)簇為參數(shù)進(jìn)行K均值分類(lèi)是可接受的分類(lèi)模型。

圖4 聚類(lèi)數(shù)量為4的散點(diǎn)圖

(二)決策樹(shù)分類(lèi)模型參數(shù)調(diào)優(yōu)

分別構(gòu)建最大高度為3、4、5的決策樹(shù)分類(lèi)模型①由于篇幅限制,本文未列出最大高度為4和5的決策樹(shù)模型圖,有興趣的讀者可與作者聯(lián)系。,繪制決策樹(shù)模型參數(shù)重要性柱狀圖。圖5為最大高度為3的決策樹(shù)模型,可以看出決策樹(shù)分類(lèi)較少,且沒(méi)有在樹(shù)的葉節(jié)點(diǎn)區(qū)分出不同的種類(lèi);觀察參數(shù)重要性柱狀圖(見(jiàn)圖6),發(fā)現(xiàn)該決策樹(shù)模型僅使用了體檢、健康告知異常和投保時(shí)年齡3個(gè)參數(shù)進(jìn)行決策,存在欠擬合的情況。決策樹(shù)最大高度為4時(shí),生成的決策樹(shù)分類(lèi)較多,可在樹(shù)的葉節(jié)點(diǎn)上區(qū)分出不同的分類(lèi);圖6顯示,該決策樹(shù)模型使用了體檢、健康告知異常、投保時(shí)年齡、契調(diào)記錄、殘疾告知、年收入、性別7個(gè)屬性值,以健康告知異常、體檢、投保時(shí)年齡共3個(gè)參數(shù)進(jìn)行決策,總體來(lái)看決策模型較好。決策樹(shù)最大高度為5時(shí),生成的決策樹(shù)葉節(jié)點(diǎn)過(guò)多,造成分類(lèi)過(guò)于細(xì)化;圖6顯示,該決策樹(shù)模型使用了與前一決策模型相同的7個(gè)參數(shù)進(jìn)行決策,但可能存在過(guò)度擬合。綜合考慮,以最大高度為4來(lái)構(gòu)造決策樹(shù)可以得到較好的決策樹(shù)模型。鑒于隨機(jī)森林模型通??梢蕴峁└玫念A(yù)測(cè),嘗試使用該模型進(jìn)行核保預(yù)測(cè)的優(yōu)化。

圖5 最大高度為3的決策樹(shù)模型圖

圖6 決策樹(shù)模型參數(shù)重要性柱狀圖

(三)隨機(jī)森林模型評(píng)估

使用5棵決策樹(shù)設(shè)置隨機(jī)森林模型,得到參數(shù)重要性柱狀圖(見(jiàn)圖7)。隨機(jī)森林模型使用了9個(gè)屬性值對(duì)被保險(xiǎn)人數(shù)據(jù)進(jìn)行分類(lèi)預(yù)測(cè),其中以健康告知異常、體檢、投保時(shí)年齡、年收入為主要分類(lèi)依據(jù),分類(lèi)參數(shù)較多。相對(duì)于單棵決策樹(shù)來(lái)說(shuō),使用更多決策參數(shù)通常有更好的泛化性能,適用性更好。但隨機(jī)森林算法對(duì)于模型的計(jì)算有更高的要求,訓(xùn)練時(shí)間更長(zhǎng)。因此,在單棵決策樹(shù)模型就可以取得較好預(yù)測(cè)結(jié)果的情況下,無(wú)須使用更復(fù)雜的隨機(jī)森林模型。

圖7 隨機(jī)森林模型參數(shù)重要性柱狀圖

(四)模型檢驗(yàn)

檢驗(yàn)?zāi)P偷男阅芎蜏?zhǔn)確性是機(jī)器學(xué)習(xí)的最終步驟。將模型應(yīng)用到測(cè)試集數(shù)據(jù)上查看效果,是判斷模型是否準(zhǔn)確有效的實(shí)踐標(biāo)準(zhǔn)。

1.K均值聚類(lèi)模型檢驗(yàn)

從數(shù)據(jù)層面查看輸出數(shù)據(jù)標(biāo)簽結(jié)果,分析同一標(biāo)簽數(shù)據(jù)內(nèi)的統(tǒng)計(jì)分布,對(duì)比不同標(biāo)簽數(shù)據(jù)的不同取值,對(duì)模型進(jìn)行業(yè)務(wù)解讀和模型校驗(yàn)。查看K均值聚類(lèi)模型聚類(lèi)數(shù)量為3的輸出數(shù)據(jù),每條客戶(hù)數(shù)據(jù)都被打上了I、II或III的分類(lèi)標(biāo)簽及每類(lèi)標(biāo)簽的客戶(hù)群特征(見(jiàn)表5)。

表5 K均值聚類(lèi)模型檢驗(yàn)

觀察期交比例,I類(lèi)客戶(hù)期交為0的較多,而II類(lèi)和III類(lèi)期交為1的較多;觀察初次購(gòu)買(mǎi)時(shí)間,I類(lèi)和II類(lèi)距今時(shí)間較短,III類(lèi)距今時(shí)間較長(zhǎng);觀察退保數(shù)據(jù),I類(lèi)和II類(lèi)退保率較低,III類(lèi)較多;計(jì)算保費(fèi)均值,III類(lèi)最高,其次為I類(lèi)。上述結(jié)果的分類(lèi)界限較清晰,因此該客戶(hù)細(xì)分模型是有效的。

2.決策樹(shù)分類(lèi)模型檢驗(yàn)

根據(jù)測(cè)試集評(píng)估分類(lèi)的準(zhǔn)確率,將測(cè)試集的參數(shù)值傳遞給決策樹(shù)模型,驗(yàn)證預(yù)測(cè)的準(zhǔn)確率。決策樹(shù)最大高度為4時(shí),訓(xùn)練集精度為94.8%,測(cè)試集精度為94.3%,預(yù)測(cè)正確率較高。但要得到更好的分類(lèi)模型,還需要收集更多的數(shù)據(jù)并細(xì)化參數(shù),進(jìn)一步觀察目標(biāo)值分布情況。

3.隨機(jī)森林分類(lèi)模型檢驗(yàn)

本次隨機(jī)森林模型訓(xùn)練集的訓(xùn)練精度為96.8%,測(cè)試集的測(cè)試精度為93.1%。在當(dāng)前數(shù)據(jù)收集情況下,隨機(jī)森林模型訓(xùn)練集的精度高于決策樹(shù)模型,而測(cè)試集的精度低于決策樹(shù)模型,很可能存在過(guò)度擬合。

六、用戶(hù)驗(yàn)證與反饋

(一)模型結(jié)果輸出

客戶(hù)細(xì)分模型根據(jù)總保費(fèi)、期交保費(fèi)占比、首次購(gòu)買(mǎi)時(shí)間、最近活躍記錄、退保保費(fèi)等屬性值對(duì)投??蛻?hù)進(jìn)行了分類(lèi),三類(lèi)客戶(hù)特征分別為:

I類(lèi)——占比26.3%,期交保費(fèi)占比較低、退??蛻?hù)較少、保費(fèi)均值5.5萬(wàn)元,近期客戶(hù)活躍記錄較多,屬于新客戶(hù)且客戶(hù)價(jià)值較高。

II類(lèi)——占比45.7%,期交保費(fèi)占比較高、退??蛻?hù)較少、保費(fèi)均值3.9萬(wàn)元,近期客戶(hù)活躍記錄較多,屬于新客戶(hù),但客戶(hù)價(jià)值低于I類(lèi),高于III類(lèi)。

III類(lèi)——占比28.0%,期交保費(fèi)占比較高、退??蛻?hù)較多、保費(fèi)均值8.6萬(wàn)元,近期客戶(hù)活躍記錄較少,屬于老客戶(hù)且客戶(hù)價(jià)值較低。

智能核保模型中,是否有體檢記錄、健康告知是否異常、投保時(shí)年齡等屬性,對(duì)于核保結(jié)論影響較大;殘疾告知情況、是否有契調(diào)記錄、被保險(xiǎn)人年收入等屬性,對(duì)核保結(jié)論也有影響。決策樹(shù)模型實(shí)證結(jié)果顯示,健康告知無(wú)異常的投保人,標(biāo)準(zhǔn)核保通過(guò)的比例較高;有健康告知異常、沒(méi)有體檢且投保年齡43歲以上的投保人,延期情況較多;有健康告知異常、有體檢記錄的投保人,條件承保較多。隨機(jī)森林算法判斷屬性較多(僅有3 項(xiàng)沒(méi)有使用),訓(xùn)練集、測(cè)試集整體精度較高,但存在過(guò)度擬合的情況。

(二)業(yè)務(wù)部門(mén)驗(yàn)證與反饋

客戶(hù)服務(wù)部門(mén)對(duì)模型輸出結(jié)果提出的意見(jiàn)包括:用價(jià)值保費(fèi)代替規(guī)模保費(fèi)屬性;分析分類(lèi)后的年齡指標(biāo),考慮年齡分層;分類(lèi)時(shí)區(qū)分產(chǎn)品類(lèi)別;觀察投保人是否為家人購(gòu)買(mǎi)保險(xiǎn)。在智能核保決策樹(shù)模型中,主要問(wèn)題是數(shù)據(jù)總量偏少。在增加數(shù)據(jù)量的情況下,模型可以得到不斷改進(jìn)和優(yōu)化。

重新調(diào)整客戶(hù)細(xì)分模型的參數(shù)(見(jiàn)表6),并重新進(jìn)行數(shù)據(jù)準(zhǔn)備、模型搭建、模型測(cè)試和模型檢驗(yàn),形成閉環(huán)的模型校正過(guò)程,最終得到K均值模型聚類(lèi)結(jié)果的散點(diǎn)圖(見(jiàn)圖8)。對(duì)輸出結(jié)果進(jìn)行檢驗(yàn),模型將數(shù)據(jù)集分為3類(lèi)(見(jiàn)表7)。

表6 調(diào)整后參數(shù)

圖8 K均值模型聚類(lèi)散點(diǎn)圖

表7 數(shù)據(jù)集分類(lèi)情況

七、研究結(jié)論與展望

(一)研究結(jié)論

建模過(guò)程需要注意以下三個(gè)問(wèn)題:

第一,分析目標(biāo)需明確。壽險(xiǎn)公司應(yīng)針對(duì)不同類(lèi)型的客戶(hù)進(jìn)行問(wèn)題分類(lèi),并針對(duì)不同的客戶(hù)問(wèn)題分別進(jìn)行建模分析。注意考慮實(shí)際業(yè)務(wù)背景,根據(jù)特定業(yè)務(wù)背景搭建正確的模型,并抽取相關(guān)主題的指標(biāo)變量數(shù)據(jù)。

第二,數(shù)據(jù)信息需準(zhǔn)確和及時(shí)。數(shù)據(jù)質(zhì)量直接決定了模型結(jié)果的準(zhǔn)確性,因此在采集數(shù)據(jù)時(shí)應(yīng)注意收集準(zhǔn)確的數(shù)據(jù)。本文僅使用了客戶(hù)在保險(xiǎn)公司提交的收入、職業(yè)等特征數(shù)據(jù),若結(jié)合客戶(hù)的外部數(shù)據(jù),預(yù)測(cè)準(zhǔn)確率將有明顯提升。

第三,預(yù)測(cè)結(jié)果需及時(shí)試用并根據(jù)反饋意見(jiàn)進(jìn)行模型修整。模型分析結(jié)果要及時(shí)傳遞給業(yè)務(wù)人員,在實(shí)際操作中驗(yàn)證模型質(zhì)量,并將業(yè)務(wù)部門(mén)意見(jiàn)及時(shí)反饋給分析人員,以便對(duì)模型進(jìn)行修整,為未來(lái)模型搭建提供依據(jù)。

通過(guò)K均值聚類(lèi)算法、決策樹(shù)分類(lèi)算法及隨機(jī)森林分類(lèi)算法的研究與實(shí)踐,本文充分驗(yàn)證了壽險(xiǎn)公司使用AI機(jī)器學(xué)習(xí)算法進(jìn)行客戶(hù)分組和智能預(yù)核保的可行性。但是僅有模型還不夠,需要業(yè)務(wù)部門(mén)和數(shù)據(jù)分析團(tuán)隊(duì)持續(xù)進(jìn)行緊密合作,將業(yè)務(wù)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)問(wèn)題,共同進(jìn)行數(shù)據(jù)分析,為業(yè)務(wù)目標(biāo)負(fù)責(zé)??蛻?hù)細(xì)分是一項(xiàng)需要持續(xù)改進(jìn)的工作,應(yīng)當(dāng)積累經(jīng)驗(yàn)并逐步完善算法。

(二)模型應(yīng)用展望

1.深度展望

客戶(hù)標(biāo)簽管理方面,在模型搭建并經(jīng)業(yè)務(wù)部門(mén)驗(yàn)證后,可將模型結(jié)果嵌入CRM系統(tǒng),并按圖9所示的分類(lèi)方法生成相應(yīng)的客戶(hù)進(jìn)階標(biāo)簽。

智能產(chǎn)品推薦(二次營(yíng)銷(xiāo))方面,在客戶(hù)首次承保時(shí),根據(jù)其經(jīng)濟(jì)能力和家庭狀況,生成個(gè)性化促銷(xiāo)方案,并結(jié)合客戶(hù)的智能預(yù)核保結(jié)論,直接將二次營(yíng)銷(xiāo)產(chǎn)品投保單提供給客戶(hù)進(jìn)行快捷投保,省去客戶(hù)選擇產(chǎn)品、營(yíng)銷(xiāo)員選擇客戶(hù)等中間環(huán)節(jié)。

2.廣度展望

本文創(chuàng)建的模型也存在一定的問(wèn)題,還需要持續(xù)調(diào)整模型指標(biāo)和細(xì)分變量。未來(lái)模型可進(jìn)行拓展的方向包括:

圖9 客戶(hù)進(jìn)階標(biāo)簽

首先,擴(kuò)充客戶(hù)外部信息數(shù)據(jù)。保險(xiǎn)公司與客戶(hù)的互動(dòng)低頻低效,難以形成完整客戶(hù)畫(huà)像。未來(lái)可結(jié)合客戶(hù)外部數(shù)據(jù),如家庭結(jié)構(gòu)、個(gè)人征信、醫(yī)保信息等,加強(qiáng)模型應(yīng)用的準(zhǔn)確性。

其次,搭建客戶(hù)其他維度分析模型。除客戶(hù)價(jià)值模型,還可構(gòu)建客戶(hù)風(fēng)險(xiǎn)等級(jí)模型、客戶(hù)理賠防欺詐模型、客戶(hù)退保預(yù)警模型等,以便有效實(shí)施客戶(hù)關(guān)系精準(zhǔn)化管理。

最后,搭建代理人行為分析模型。根據(jù)移動(dòng)展業(yè)、微信等應(yīng)用系統(tǒng)中采集到的保險(xiǎn)代理人行為數(shù)據(jù),分析代理人學(xué)歷、入司時(shí)長(zhǎng)、活動(dòng)范圍、工作業(yè)績(jī)等指標(biāo),建立公司代理人行為分析模型,將代理人進(jìn)行分組,制定個(gè)性化培養(yǎng)方案,激發(fā)不同類(lèi)型代理人的業(yè)務(wù)潛能。

猜你喜歡
細(xì)分決策樹(shù)均值
深耕環(huán)保細(xì)分領(lǐng)域,維爾利為環(huán)保注入新動(dòng)力
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
均值不等式失效時(shí)的解決方法
1~7月,我國(guó)貨車(chē)各細(xì)分市場(chǎng)均有增長(zhǎng)
均值與方差在生活中的應(yīng)用
整體低迷難掩細(xì)分市場(chǎng)亮點(diǎn)
關(guān)于均值有界變差函數(shù)的重要不等式
基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
平江县| 西林县| 申扎县| 张家川| 焉耆| 安顺市| 自治县| 海城市| 宜城市| 通渭县| 嘉定区| 沁阳市| 当阳市| 临湘市| 革吉县| SHOW| 承德县| 东光县| 马公市| 平安县| 卓尼县| 普宁市| 长子县| 普格县| 南安市| 化隆| 蒙城县| 精河县| 惠东县| 英超| 雷波县| 江华| 黎城县| 肇东市| 鱼台县| 卫辉市| 巴东县| 扶绥县| 光泽县| 交城县| 平利县|