国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機(jī)森林算法的客戶退保預(yù)警分析
——以國聯(lián)人壽為例

2020-07-22 06:10:14
關(guān)鍵詞:阿里機(jī)器預(yù)警

(國聯(lián)人壽保險(xiǎn)股份有限公司信息技術(shù)部,江蘇無錫214002)

一、引言

目前,我國壽險(xiǎn)行業(yè)競爭越來越激烈。中小型保險(xiǎn)公司對(duì)客戶的關(guān)懷溝通和情感維系比較困難,而獲取新用戶的成本越來越高。除了依靠代理人自身與客戶的互動(dòng)外,壽險(xiǎn)公司還需要了解哪類客戶容易退?;蚓芙^續(xù)期繳費(fèi)。因此,對(duì)已有客戶進(jìn)行精準(zhǔn)的流失預(yù)警,并提供有針對(duì)性的挽留服務(wù),已成為壽險(xiǎn)公司保證收入的重要因素。但是,如何從存量客戶中找到退保傾向比較高的客戶,對(duì)中小型壽險(xiǎn)公司來說非常困難,其主要原因在于中小型壽險(xiǎn)公司的客戶數(shù)據(jù)積累有限,客戶行為和客戶接觸歷史等數(shù)據(jù)缺乏,因此難以建立客戶全維度畫像,進(jìn)而無法實(shí)現(xiàn)客戶退保預(yù)警。

本文基于國聯(lián)人壽保險(xiǎn)公司的數(shù)據(jù)管理現(xiàn)狀,深度挖掘散落在公司內(nèi)部系統(tǒng)中與退保相關(guān)的數(shù)據(jù),并形成原始因子,通過參數(shù)調(diào)優(yōu)的隨機(jī)森林算法和阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI構(gòu)建模型,對(duì)客戶退保進(jìn)行預(yù)測。研究結(jié)果表明,中小型壽險(xiǎn)公司通過選擇成熟的機(jī)器學(xué)習(xí)平臺(tái)和合適的算法作為模型研究框架,利用公司內(nèi)部已有零散客戶信息,能夠構(gòu)建出準(zhǔn)確率較高的客戶退保預(yù)警模型。在公司客戶完整的生命周期內(nèi)構(gòu)建客戶退保預(yù)警模型,可以幫助公司發(fā)現(xiàn)潛在流失客戶及客戶流失原因,從而有選擇性和有針對(duì)性地采取挽留措施,實(shí)現(xiàn)退保率的下降和續(xù)期率的提升,進(jìn)而為公司創(chuàng)造長期價(jià)值。

二、機(jī)器學(xué)習(xí)平臺(tái)與隨機(jī)森林算法

(一)阿里云機(jī)器學(xué)習(xí)平臺(tái)

阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI(Platform of Artificial Intelligence)為傳統(tǒng)機(jī)器學(xué)習(xí)提供上百種算法和大規(guī)模分布式計(jì)算服務(wù),并為深度學(xué)習(xí)客戶提供單機(jī)多卡、多機(jī)多卡的高性價(jià)比資源服務(wù),同時(shí)支持最新的深度學(xué)習(xí)開源框架(見圖1)。該平臺(tái)能夠幫助開發(fā)者和企業(yè)客戶彈性擴(kuò)縮計(jì)算資源,輕松實(shí)現(xiàn)在線預(yù)測。阿里云機(jī)器學(xué)習(xí)平臺(tái)主要優(yōu)點(diǎn)包括:具有良好的可視化交互設(shè)計(jì),通過底層分布式算法封裝,提供可視化操作環(huán)境,簡化數(shù)據(jù)挖掘過程;平臺(tái)不僅提供基礎(chǔ)的聚類、回歸等機(jī)器學(xué)習(xí)算法,還提供文本分析、特征處理等比較復(fù)雜的算法,能夠?qū)崿F(xiàn)優(yōu)質(zhì)、豐富的機(jī)器學(xué)習(xí);平臺(tái)提供模型訓(xùn)練、在線預(yù)測以及離線調(diào)度等功能,使機(jī)器學(xué)習(xí)訓(xùn)練結(jié)果和業(yè)務(wù)之間無縫銜接,實(shí)現(xiàn)一站式機(jī)器學(xué)習(xí)體驗(yàn);支持TensorFlow、Caffe、MXNet 等主流機(jī)器學(xué)習(xí)框架,并提供M40型號(hào)的GPU 卡進(jìn)行訓(xùn)練。

圖1 阿里云機(jī)器學(xué)習(xí)平臺(tái)算法工具矩陣

相較于市場上其他開源機(jī)器學(xué)習(xí)庫,如Sklearn、TensorFlow 等,阿里云機(jī)器學(xué)習(xí)平臺(tái)的優(yōu)勢更加明顯,其建模可視化和建模便捷性更適合中小型保險(xiǎn)公司的業(yè)務(wù)場景。因此,本文選擇阿里云機(jī)器學(xué)習(xí)平臺(tái)進(jìn)行業(yè)務(wù)建模。

(二)隨機(jī)森林算法

隨機(jī)森林是一種利用多棵決策樹對(duì)樣本進(jìn)行訓(xùn)練和預(yù)測的分類器(劉敏等,2015)。本文選擇隨機(jī)森林中的每顆決策樹是分類樹,基于每棵樹的分類結(jié)果,采用多數(shù)表決的方式進(jìn)行分類。隨機(jī)森林的計(jì)算原則是基尼指數(shù)(Gini指數(shù)),該指數(shù)表示在樣本集合中一個(gè)隨機(jī)選中的樣本被分錯(cuò)的概率。Gini指數(shù)越小表示集合中樣本被分錯(cuò)的概率越小,集合純度越高,反之集合純度越低(Breiman,2001)。Gini指數(shù)表達(dá)式為:

樣本集合中有K個(gè)類別,一個(gè)隨機(jī)選中的樣本可以屬于K個(gè)類別中的任意一個(gè)。pk表示選中樣本屬于k類別的概率,該樣本被分錯(cuò)的概率是(1-pk)。若樣本為二分類,則Gini(p)=2p(1-p)。阿里云機(jī)器學(xué)習(xí)平臺(tái)基于Gini指數(shù),給出隨機(jī)森林特征重要性評(píng)分指標(biāo)Entropy,Entropy的值越大,特征越重要。

本文選用隨機(jī)森林算法進(jìn)行客戶退保預(yù)警,主要原因是:該算法是保險(xiǎn)行業(yè)進(jìn)行退保預(yù)測的一般算法;隨機(jī)森林算法不需要過多的數(shù)據(jù)準(zhǔn)備就能夠處理各種分類特征和數(shù)值特征的數(shù)據(jù),而不會(huì)出現(xiàn)過度擬合;隨機(jī)森林算法可以實(shí)現(xiàn)并行計(jì)算,在性能提升優(yōu)化過程中提高模型的準(zhǔn)確性,訓(xùn)練速度快;隨機(jī)森林算法對(duì)指定使用的超參數(shù)并不十分敏感,數(shù)據(jù)容錯(cuò)能力強(qiáng),即為了得到一個(gè)合適的模型,該算法不需要做過多調(diào)整,只需使用大量的決策樹即可控制預(yù)測偏差(費(fèi)斐和葉楓,2013)。

(三)分類效果評(píng)估——混淆矩陣

混淆矩陣是評(píng)判模型預(yù)測效果的重要依據(jù),屬于模型評(píng)估的一部分。以二分類模型為例,模型最終需要判斷預(yù)測結(jié)果是Positive 還是Negative,分別對(duì)應(yīng)的預(yù)測結(jié)果1—退保和0—未退保(見表1)。將預(yù)測結(jié)果與樣本真實(shí)值進(jìn)行對(duì)比,可以得到四個(gè)基礎(chǔ)指標(biāo)。在上述統(tǒng)計(jì)結(jié)果基礎(chǔ)上可以得到四個(gè)用于判定模型預(yù)測效果的評(píng)估指標(biāo)(見表2)。

表1 混淆矩陣

表2 預(yù)測效果評(píng)估指標(biāo)

三、退保預(yù)警模型實(shí)現(xiàn)

退保預(yù)警模型設(shè)計(jì)思路遵循常規(guī)的機(jī)器學(xué)習(xí)流程,包括:需求分析、數(shù)據(jù)預(yù)處理、特征工程、算法建模、模型評(píng)估和模型應(yīng)用(杜剛和黃震宇,2015)。利用阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI和DataWorks 等工具,可以快速構(gòu)建出一個(gè)通用的研究架構(gòu)和實(shí)踐路線圖(見圖2)。

圖2 研究架構(gòu)和實(shí)踐路線圖

(一)需求分析

客戶流失原因大體上可歸為主動(dòng)流失和被動(dòng)流失兩類。主動(dòng)流失即客戶主動(dòng)與公司脫離業(yè)務(wù)關(guān)系,如客戶生活環(huán)境發(fā)生變化、客戶對(duì)目前購買的產(chǎn)品不再有需求、客戶在其他保險(xiǎn)公司投保等等;被動(dòng)流失即客戶非自愿地與公司脫離業(yè)務(wù)關(guān)系,通常是因?yàn)榭蛻艚?jīng)濟(jì)狀況或支付能力發(fā)生改變造成的(任劍鋒和張新祥,2012)。因此,我們希望利用公司已有的退保數(shù)據(jù)和非退保數(shù)據(jù),通過退保模型計(jì)算給定數(shù)據(jù)集合的退保概率。

(二)數(shù)據(jù)預(yù)處理

本文初步確定表3所示的17個(gè)初始退保因子。由于公司的用戶行為數(shù)據(jù)有限且分散,因此所選因子不限于核心系統(tǒng),而是將核心系統(tǒng)、CRM系統(tǒng)、電商系統(tǒng)、呼叫中心系統(tǒng)四個(gè)系統(tǒng)中與退保相關(guān)的數(shù)據(jù)都作為初始退保因子。訓(xùn)練模型選取的樣本為簽單日在2017年1月1日至2017年12月31日所有保單的因子信息。

表3 初始退保因子

從上述各系統(tǒng)進(jìn)行跨庫數(shù)據(jù)提取,按照時(shí)間范圍獲取因子字段的原始數(shù)據(jù)。按照字段脫敏規(guī)則進(jìn)行脫敏處理后,共獲得23719條原始因子數(shù)據(jù),其中每條數(shù)據(jù)對(duì)應(yīng)一個(gè)保單信息,將所有數(shù)據(jù)導(dǎo)入阿里云機(jī)器學(xué)習(xí)平臺(tái)的DataWorks。

(三)特征工程

進(jìn)入阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI,選擇讀數(shù)據(jù)表、歸一化、標(biāo)準(zhǔn)化、隨機(jī)森林1、隨機(jī)森林特征重要性評(píng)估、寫數(shù)據(jù)表,構(gòu)建完整的隨機(jī)森林特征選擇模型,選擇好各自的參數(shù)。整體模型結(jié)構(gòu)如圖3所示。

圖3 隨機(jī)森林特征選擇模型

歸一化和標(biāo)準(zhǔn)化字段后數(shù)據(jù)如表4所示。隨機(jī)森林特征重要性評(píng)估報(bào)告結(jié)果如表5所示,按Entropy(特征重要性評(píng)分)降序排列,選擇前10個(gè)字段作為重要特征字段。

表4 歸一化和標(biāo)準(zhǔn)化處理后數(shù)據(jù)

表5 特征字段重要性評(píng)估結(jié)果

(四)預(yù)警模型構(gòu)建與評(píng)估

選擇拆分、隨機(jī)森林2、預(yù)測、二分類評(píng)估、混淆矩陣,構(gòu)建完整的隨機(jī)森林退保預(yù)測模型。模型結(jié)構(gòu)如圖4虛線框部分所示。

圖4 隨機(jī)森林退保預(yù)警模型

將數(shù)據(jù)拆分比例設(shè)置為7∶3,左側(cè)輸出70%的數(shù)據(jù)。隨機(jī)森林2 參數(shù)設(shè)置中,選擇表5中10個(gè)特征字段作為特征列。查看統(tǒng)計(jì)信息(見表6),參與模型評(píng)估預(yù)測的數(shù)據(jù)占2017年全量數(shù)據(jù)的30%,約7312條。其中,實(shí)際發(fā)生退保、預(yù)測值也為退保的有158條;實(shí)際沒有退保、預(yù)測也沒有退保的有6277條;實(shí)際沒有退保、預(yù)測值為退保的有29條;實(shí)際發(fā)生退保、預(yù)測值沒有退保的有848條。

表6 混淆矩陣統(tǒng)計(jì)信息

統(tǒng)計(jì)信息可以看出,預(yù)測結(jié)果為1(退保)的準(zhǔn)確率和精確率較高,但召回率和F1指標(biāo)相對(duì)較低。本模型對(duì)實(shí)際業(yè)務(wù)的價(jià)值在于,只要模型預(yù)測為退保的保單,那么退保的準(zhǔn)確率高達(dá)84.49%,但預(yù)測退保的保單占實(shí)際退保保單的比例相對(duì)較低,只有15.71%。在目前公司退保預(yù)測為空白的情況下,本文的預(yù)測方法是一種突破性嘗試,至少證明即使數(shù)據(jù)量有限且無行為數(shù)據(jù),也可以通過機(jī)器學(xué)習(xí)得到較高準(zhǔn)確率的預(yù)測結(jié)果。

(五)預(yù)警模型的應(yīng)用

基于上述訓(xùn)練模型,重新選擇簽單日在2018年1月1日至2018年12月31日且包含10個(gè)特征字段的共計(jì)24373條脫敏后數(shù)據(jù),并導(dǎo)入阿里云的DataWorks。通過上述模型對(duì)保單進(jìn)行退保預(yù)測,得到每個(gè)保單的退保概率。對(duì)讀數(shù)據(jù)表、隨機(jī)森林算法、預(yù)測和寫數(shù)據(jù)表四個(gè)組件進(jìn)行連線并設(shè)置好相應(yīng)的參數(shù)進(jìn)行建模,整體結(jié)構(gòu)如圖5所示。

圖5 模型應(yīng)用整體結(jié)構(gòu)圖

運(yùn)行模型進(jìn)行預(yù)測,得到寫數(shù)據(jù)表前10條結(jié)果(見表7)。數(shù)據(jù)內(nèi)容包括預(yù)測退保結(jié)果(prediction_result)、預(yù)測退保結(jié)果得分(prediction_score)和預(yù)測退保得分情況(prediction_detail)。以第1條數(shù)據(jù)為例,prediction_result=0表明該記錄不會(huì)退保,prediction_score=0.7664表明其取值為0的得分概率是0.7664,因概率大于等于0.5,所以判斷結(jié)果為0。

表7 2018年承保保單退保預(yù)警模型輸出結(jié)果

通過對(duì)公司2020年1月的實(shí)際退保用戶與模型預(yù)測的退保用戶進(jìn)行對(duì)比,發(fā)現(xiàn)預(yù)測的召回率為15%左右,準(zhǔn)確率85%左右,與模型數(shù)據(jù)基本吻合。用戶部門嘗試使用模型預(yù)測結(jié)果,對(duì)可能退保的客戶進(jìn)行有針對(duì)性的挽留,如邀請(qǐng)客戶參加客戶嘉年華和國聯(lián)健康大咖沙龍,加入國聯(lián)財(cái)務(wù)學(xué)院等活動(dòng),增強(qiáng)客戶對(duì)公司未來發(fā)展的信心。用戶部門反饋結(jié)論顯示,模型極大提高了客戶挽留工作效率,為未來退保率的下降、續(xù)期率的提升奠定堅(jiān)實(shí)的工具基礎(chǔ)。

模型實(shí)驗(yàn)過程面臨國聯(lián)人壽數(shù)據(jù)缺失問題,這也是制約模型預(yù)測效率的核心因素。建議國聯(lián)人壽未來能夠擴(kuò)充公司客戶接觸場景,包括柜面、APP、電話中心、微信公眾號(hào)、銀行柜面等,全面進(jìn)行技術(shù)埋點(diǎn),收集客戶的各種行為數(shù)據(jù),詳細(xì)記錄客戶個(gè)人屬性和金融信息,包括但不限于客戶屬性數(shù)據(jù)、業(yè)務(wù)訂單數(shù)據(jù)、產(chǎn)品交易數(shù)據(jù)、客戶行為數(shù)據(jù)等,最終匯總到統(tǒng)一的數(shù)據(jù)倉庫中,并建立客戶標(biāo)簽。通過數(shù)據(jù)積累和外部數(shù)據(jù)補(bǔ)充,刻畫豐滿的客戶畫像。以此為基礎(chǔ),模型分析結(jié)果的精準(zhǔn)率和準(zhǔn)確率一定能夠得到極大的提高。

除了數(shù)據(jù)因素外,本次模型實(shí)驗(yàn)主要聚焦在特征選擇、模型訓(xùn)練、模型評(píng)估以及模型應(yīng)用上,模型實(shí)驗(yàn)過程還有部分環(huán)節(jié)未做詳盡描述,包括數(shù)據(jù)整理、模型參數(shù)調(diào)優(yōu)選擇、不同算法并行以及最終模型的生產(chǎn)自動(dòng)化部署,這些也是后續(xù)模型需要進(jìn)一步完善的地方。

四、結(jié)論

本文依托阿里云機(jī)器學(xué)習(xí)平臺(tái),根據(jù)國聯(lián)人壽核心系統(tǒng)、微信系統(tǒng)、呼叫中心系統(tǒng)、CRM系統(tǒng)篩選出10個(gè)關(guān)鍵退保因子,通過隨機(jī)森林算法建立客戶退保預(yù)警模型,將存量客戶按照潛在退保概率進(jìn)行區(qū)分,定位潛在流失客戶,并向公司相關(guān)部門提供清單,尋找客戶不滿意的原因并加以改進(jìn)。公司相關(guān)部門可以通過挽留措施,提前關(guān)愛客戶,挽回潛在退??蛻簟?傮w來說,本文的建模實(shí)驗(yàn)對(duì)中小型壽險(xiǎn)公司的價(jià)值在于:

第一,對(duì)保全和續(xù)期業(yè)務(wù)產(chǎn)生正向價(jià)值??蛻敉吮nA(yù)警使得前臺(tái)部門更快速、更精準(zhǔn)地關(guān)懷客戶,從而起到降低退保率,提高續(xù)期率的作用。

第二,探索適合中小型壽險(xiǎn)公司客戶退保預(yù)警模型的研究框架,證實(shí)了通過機(jī)器學(xué)習(xí)平臺(tái)可以更加高效地構(gòu)建符合中小型保險(xiǎn)公司業(yè)務(wù)場景的相關(guān)模型工作,這為中小型壽險(xiǎn)公司未來其他模型的構(gòu)建打開了新思路。

猜你喜歡
阿里機(jī)器預(yù)警
機(jī)器狗
機(jī)器狗
云上阿里
炎黃地理(2021年1期)2021-06-08 00:27:03
辰辰帶你游阿里
法國發(fā)布高溫預(yù)警 嚴(yán)陣以待備戰(zhàn)“史上最熱周”
未來機(jī)器城
電影(2018年8期)2018-09-21 08:00:06
園林有害生物預(yù)警與可持續(xù)控制
機(jī)載預(yù)警雷達(dá)對(duì)IFF 的干擾分析
阿里戰(zhàn)略
無敵機(jī)器蛛
昂仁县| 武汉市| 宁化县| 嘉义市| 屏山县| 德州市| 南汇区| 玉树县| 塔城市| 南丹县| 手游| 惠来县| 乌什县| 建湖县| 全州县| 岐山县| 荃湾区| 专栏| 拜泉县| 长春市| 寿阳县| 宣化县| 额尔古纳市| 潢川县| 巢湖市| 徐汇区| 滁州市| 平陆县| 澜沧| 永福县| 桦南县| 那曲县| 全南县| 岚皋县| 兰溪市| 商洛市| 汝南县| 革吉县| 平顺县| 长泰县| 阳江市|