閆春 孫海棠
摘 要:良好的客戶細(xì)分管理能夠幫助財險公司更好地管理運(yùn)營成本與收益,更好地實現(xiàn)公司風(fēng)險控制和利潤最大化的要求。文中采用相關(guān)分析進(jìn)行相關(guān)數(shù)據(jù)的處理,運(yùn)用KMeans聚類分析、決策樹C 5.0算法和改進(jìn)的Apriori算法3種數(shù)據(jù)挖掘技術(shù)對財險客戶從風(fēng)險和貢獻(xiàn)2個角度進(jìn)行了數(shù)據(jù)挖掘分類分析,得到具備風(fēng)險、貢獻(xiàn)指向性的雙維度客戶細(xì)分特征變量,并根據(jù)這些特征變量,建立了客戶風(fēng)險-貢獻(xiàn)分類矩陣,對不同類別的客戶提出了不同的客戶管理對策建議。
關(guān)鍵詞:客戶細(xì)分;決策樹;關(guān)聯(lián)規(guī)則;風(fēng)險-貢獻(xiàn)分類矩陣
中圖分類號:F 840.65 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7312(2016)05-0538-06
0 引 言
隨著我國信息化進(jìn)程的加快以及保險業(yè)的迅速發(fā)展,有效運(yùn)用數(shù)據(jù)挖掘技術(shù)在激烈的市場競爭中贏得先機(jī)是大多數(shù)財險公司面臨的巨大課題。在一些實施 CRM(客戶關(guān)系管理)的企業(yè),通過客戶細(xì)分環(huán)節(jié)能夠?qū)蛻暨M(jìn)行精確的識別與分類,客戶滿意度和忠誠度均有明顯提高。因此,各大財險公司也越來越注重客戶細(xì)分環(huán)節(jié)的應(yīng)用與管理,希望通過對各客戶群采取針對性的商業(yè)策略,減少客戶流失傾向,增強(qiáng)客戶吸引和保留能力,實現(xiàn)企業(yè)利潤最大化。
從大量的數(shù)據(jù)中提取有用信息的數(shù)據(jù)挖掘技術(shù)為客戶細(xì)分管理的研究提供了更為有效的工具。國外學(xué)者在這一領(lǐng)域的研究較早。ShuHsien Liao(2009)等學(xué)者基于Apriori算法和聚類算法實現(xiàn)保戶分類,通過對客戶需求鏈的分析,給出了保險企業(yè)在新產(chǎn)品開發(fā)和客戶營銷方面的建議[1]。RoungShiunn Wu(2010)與YouShyang Chen(2011)運(yùn)用KMeans聚類分析實現(xiàn)了客戶細(xì)分[2-3]。Shui Hua Han等(2012)將決策樹模型應(yīng)用到高價值客戶識別中,建立了簡單實用的客戶評價體系[4]。Ahmed Ghoniemd等(2015)應(yīng)用非線性模型研究交叉銷售問題中互補(bǔ)零售類別的分類和定價決策的聯(lián)合優(yōu)化,并對客戶實現(xiàn)分類分級管理[5]。
國內(nèi)在數(shù)據(jù)挖掘與客戶細(xì)分的研究中雖起步較晚,但也有許多優(yōu)秀的成果。樊志剛等(2014)指出商業(yè)銀行面對未來競爭的三大有效措施——“大風(fēng)控,大數(shù)據(jù),大平臺”[6]。陳希等(2010)通過交叉頻數(shù)分析保單中風(fēng)險較大的因素,在保戶分類過程中應(yīng)用了決策樹、支持向量機(jī)、邏輯斯蒂回歸和貝葉斯網(wǎng)絡(luò)4種數(shù)據(jù)挖掘算法[7]。王新軍,胡曼(2012)介紹了聚類分析在壽險中的應(yīng)用[8]。劉曉葳(2013)采用CHAID模型、羅吉斯回歸、CART模型,以及Apriori算法等方法,獲得具備風(fēng)險及貢獻(xiàn)指向性的客戶特征變量,構(gòu)建客戶風(fēng)險-貢獻(xiàn)特征矩陣,提出了相應(yīng)的保險公司客戶管理策略[9]。程瑞芬(2013)則從客戶的年繳保費(fèi)額度和年收入這2個維度建立了客戶細(xì)分矩陣[10]。
經(jīng)典的分類算法有聚類分析、CART算法、Logistic回歸、決策樹分析、支持向量機(jī)等。從研究結(jié)果來看,大多數(shù)學(xué)者只引用其中一種分類算法,少有用多種算法進(jìn)行驗證的。在分類維度方面,多是單維,即多從風(fēng)險或貢獻(xiàn)其中一個方面進(jìn)行細(xì)分研究。文中從客戶為公司帶來的風(fēng)險(理賠次數(shù))及作出的貢獻(xiàn)(年繳保費(fèi))2個方面來實現(xiàn)客戶的細(xì)分管理,采用KMeans聚類算法對數(shù)據(jù)進(jìn)行預(yù)處理,相關(guān)分析剔除無關(guān)變量,運(yùn)用決策樹C 5.0算法進(jìn)行客戶細(xì)分研究,引入布爾矩陣改進(jìn)Apiori算法進(jìn)行不同算法間的交叉驗證,最終得到客戶風(fēng)險-貢獻(xiàn)分類矩陣。
1 算法適用性分析與數(shù)據(jù)預(yù)處理
根據(jù)CRISPDM數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程,建模步驟主要有商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、模型建立、模型評估、模型部署6個階段。文中以幫助財險公司實現(xiàn)客戶風(fēng)險-貢獻(xiàn)評級管理為商業(yè)目標(biāo),按照數(shù)據(jù)挖掘軟件Clementine 12.0的需要進(jìn)行數(shù)據(jù)準(zhǔn)備,并基于算法實用性考量選取決策樹C 5.0模型來提取客戶風(fēng)險-貢獻(xiàn)特征變量,同時引入布爾型矩陣改進(jìn)Apriori算法對分類結(jié)果進(jìn)行交叉驗證,最后建立風(fēng)險-貢獻(xiàn)分類矩陣,提出針對財險公司商業(yè)策略選擇的相關(guān)建議。
1.1 算法適用性分析
KMeans算法首先通過迭代算法代計算“質(zhì)心”,然后計算樣本與質(zhì)心的距離,再根據(jù)距離計算結(jié)果,把各樣本指派到各個簇[11],文中運(yùn)用KMeans算法分別實現(xiàn)了樣本和指標(biāo)聚類,以達(dá)到簡化數(shù)據(jù)和驗證決策樹分類模型的目的。決策樹算法利用歸納算法生成可讀的規(guī)則和決策樹,文中運(yùn)用決策樹C 5.0算法對事務(wù)數(shù)據(jù)庫進(jìn)行處理,生成客戶分類規(guī)則和決策樹模型。關(guān)聯(lián)規(guī)則算法可以從大量沒有規(guī)則的數(shù)據(jù)中尋找數(shù)據(jù)之間的關(guān)聯(lián)性和其潛在的依存關(guān)系。文中引用改進(jìn)型Apriori算法對決策樹C 5.0算法產(chǎn)生的客戶分類模型進(jìn)行交叉驗證。
Apriori算法原理簡單明了,容易應(yīng)用,但是其存在一個較大的缺點——時間消耗巨大。為更好地應(yīng)用Apriori算法,文中引入布爾矩陣的改進(jìn)模型進(jìn)行關(guān)聯(lián)規(guī)則的提取,以驗證決策樹模型結(jié)論的正確性。
引入布爾型矩陣的改進(jìn)Apiori算法的基本思想表述如下:將事務(wù)數(shù)據(jù)庫D(含有N個事務(wù),M個項目)轉(zhuǎn)化為一個僅用 0-1表示的M*N階的布爾矩陣。矩陣中的每一行代表一個事務(wù),每個事務(wù)都有唯一的標(biāo)識TID.矩陣中的每一列代表一個項目。若事務(wù)i中含有項目j,則在矩陣中tij=1,否則tij=0.
掃描一次事務(wù)數(shù)據(jù)庫D,即可將其表示成對應(yīng)的布爾矩陣。此時,支持度的計算可以通過下面的公式進(jìn)行[12-14]。
K-項集{Ii,Ij,…,Ik}的內(nèi)積向量表示為Rij=Ri∧Rj∧…∧Rk,支持度為
Support(Iij…k)=(t1i∧t1j∧…t1k+t2i∧t2j∧…∧t2k+…tni∧tnj∧…tnk).
連接步的改進(jìn):若Ia和Ib不能連接,則Ia和Ib之后的所有k項集都不滿足連接條件。故只要Ia和Ib不能連接,便不再需要判斷Ia和Ib之后的所有k項集是否能連接,這樣就可以減少循環(huán)的次數(shù)。剪枝步的改進(jìn):在通過k-1頻繁項集 Lk-1生成k項候選項集Ck前,先對Lk-1中的各單個項目進(jìn)行計數(shù)處理,記為|Lk-1(i)|,計算他們在Lk-1中出現(xiàn)的次數(shù)。若某項目的計數(shù)小于k-1,則刪除含有該項目的項集,生成L′k-1,利用L′k-1自連接L′k-1∞L′k-1,生成Ck,從而減少由候選項級數(shù)量引起的不必要的連接和剪枝操作。
1.2 數(shù)據(jù)來源與預(yù)處理
算例分析使用了軟件Clenmentine 12.0,數(shù)據(jù)來自4個地區(qū),選取了與本次數(shù)據(jù)挖掘相關(guān)的字段組成數(shù)據(jù)集,這些字段包括客戶號、住址、性別、出生日期、受教育程度、收入、職業(yè)、婚姻狀態(tài)、是否負(fù)債、年繳保費(fèi)、產(chǎn)品類型、有無理賠等。通過KMeans算法與相關(guān)分析算法剔除與“有無理賠”變量相關(guān)程度過低的變量,又因“理賠件次”變量與“有無理賠”同時提供客戶理賠與否的信息,故可將其去除。對客戶貢獻(xiàn)特征變量做類似處理。為應(yīng)用布爾矩陣改進(jìn)Apriori算法,對數(shù)值型數(shù)據(jù)進(jìn)行處理,使其轉(zhuǎn)化為布爾型數(shù)據(jù)。
首先,財險的種類有6種,似乎不便建立布爾型矩陣,但是通過對數(shù)據(jù)的分析發(fā)現(xiàn),這6種財險種類中有3類的保費(fèi)很低,分別為1,30,60元,另外3種較高,分別為480,580,680元。而本研究中恰用保費(fèi)標(biāo)示客戶貢獻(xiàn),所以,可以用“0”表示前3種類型,后3種用“1”表示,這是因為貢獻(xiàn)高的客戶必是購買后3種財險類型的保戶。
第二,總共有4個地區(qū),通過前面的聚類分析和決策樹分析結(jié)果來看,1,4地區(qū)可以看作一類,2,3地區(qū)看作另一類。由于1,4地區(qū)發(fā)生理賠的風(fēng)險較大,2,3區(qū)較小,用“1”表示1,4地區(qū),“0”表示2,3地區(qū)。
第三,年齡數(shù)據(jù)。由決策樹分析結(jié)果:18~32歲、67歲以上風(fēng)險較大,32~50歲,50~67歲風(fēng)險較小。故將18~32歲、67歲以上2個區(qū)間的數(shù)據(jù)用“1”表示,32~50歲,50~67歲區(qū)間的數(shù)據(jù)用“0”表示。
將處理好的數(shù)據(jù)存儲為SPSS數(shù)據(jù)文件。
2 客戶風(fēng)險-貢獻(xiàn)評級管理算例分析
文中研究的主要目的是建立客戶細(xì)分矩陣,為財險公司產(chǎn)品銷售提供有益建議。運(yùn)用相關(guān)分析剔除重復(fù)變量信息,采用決策樹C 5.0算法和關(guān)聯(lián)規(guī)則中的布爾型改進(jìn)Apriori算法分別實現(xiàn)客戶細(xì)分,提供不同分類方法的交叉驗證。
2.1 相關(guān)分析
為避免相關(guān)性較高的變量提供重復(fù)信息,通過對數(shù)據(jù)集中各個變量的相關(guān)分析,從相關(guān)性較高的變量中選取最具代表性的變量參與后續(xù)研究。表1只顯示了一部分相關(guān)分析結(jié)果。
2.2 K-Means聚類分析
K-Means聚類的結(jié)果如圖1所示。從聚類的結(jié)果來看,第一類發(fā)生理賠的概率是8.6%,第二類是7.83%,第三類8.5%,第四類是6.5%.因此,按照風(fēng)險從大到小排序為:第一類,第三類,第二類,第四類。一二類的地區(qū)均為1,可見地區(qū)1發(fā)生理賠的風(fēng)險較高。第二、三類的保費(fèi)貢獻(xiàn)是最高的,一、四類的保費(fèi)貢獻(xiàn)是較低的。
2.3 基于決策樹C 5.0算法的客戶風(fēng)險-貢獻(xiàn)評級管理
C 5.0模型根據(jù)能夠帶來最大信息增益的字段拆分樣本,該模型對缺失值較為敏感,由于文中數(shù)據(jù)缺失值不是很多,直接將其剔除。選取前2 000個數(shù)據(jù)為訓(xùn)練集數(shù)據(jù),后1 998個數(shù)據(jù)為測試數(shù)據(jù),測試決策樹預(yù)測模型的準(zhǔn)確性。
將輸出變量設(shè)置為“money”,測試客戶貢獻(xiàn)相關(guān)變量,實現(xiàn)基于客戶貢獻(xiàn)特征變量的客戶分類。運(yùn)行過程如圖2,圖3所示,圖4顯示了軟件給出的分析結(jié)果。
從決策樹C 5.0算法的輸出結(jié)果可以看出,客戶購買的產(chǎn)品類型對客戶貢獻(xiàn)變量的影響較大,但是由于產(chǎn)品類型與客戶貢獻(xiàn)的相關(guān)性較大,故而考慮按照地區(qū)分類:1,4地區(qū)為一類,2地區(qū)為一類,3地區(qū)為一類,與聚類分析分類結(jié)果相似。根據(jù)年齡劃分,有4個年齡段,18~32歲,貢獻(xiàn)最小,67歲以上的貢獻(xiàn)最大,50~67歲相對低一些,32~50歲次之。
從分析結(jié)果可以看出,有92.54%的測試樣本的預(yù)測值和實際值相符,7.46%的測試樣本和實際值不符。平均正確性為0.901.始終正確的置信度為0.908,始終錯誤的置信度低于0.214.總體來說決策樹模型預(yù)測正確率較高,可以采用。
將輸出變量設(shè)置為“reparation”特征變量,實現(xiàn)基于風(fēng)險的客戶分類。結(jié)果分析與客戶貢獻(xiàn)的分析類似:1,4地區(qū)風(fēng)險較大,其中1地區(qū)風(fēng)險最大,2,3地區(qū)風(fēng)險較小,其中3地區(qū)風(fēng)險最?。荒挲g方面,18~32歲、67歲以上風(fēng)險較大,32~50歲,50~67歲風(fēng)險較小。
2.4 改進(jìn)型Apriori算法交叉驗證分析
用改進(jìn)的Apriori算法進(jìn)行客戶風(fēng)險交叉驗證分析的結(jié)果見表2.
通過分析改進(jìn)型Apriori算法的運(yùn)行結(jié)果可以看出:地區(qū)為1,婚姻狀況為1,保單類型為3的情況下,有無理賠的支持度為18.003%,置信度為93.002%,有較強(qiáng)的關(guān)聯(lián)性,也就說明地區(qū)1,婚姻狀況為1時,風(fēng)險較大。其他6種關(guān)聯(lián)規(guī)則可以類似分析。通過與決策樹模型分析結(jié)果比較,兩者較吻合,這就驗證了決策樹模型的準(zhǔn)確性。
3 風(fēng)險-貢獻(xiàn)分類矩陣
公司戰(zhàn)略制定過程中,最為簡單直接的方法是波士頓矩陣分析,按照風(fēng)險與貢獻(xiàn)(高、低)組合,將客戶群分為高風(fēng)險高貢獻(xiàn)、高風(fēng)險低貢獻(xiàn)、低風(fēng)險高貢獻(xiàn)、低風(fēng)險低貢獻(xiàn)4種類型,建立的風(fēng)險-貢獻(xiàn)特征矩陣如圖5所示。
對公司來說,高風(fēng)險低貢獻(xiàn)客戶是價值最低的客戶,而低風(fēng)險高貢獻(xiàn)客戶是公司應(yīng)該努力長期維持的客戶。高風(fēng)險低貢獻(xiàn)客戶的特點是:年齡在18~32歲年齡段,地區(qū)類別為2,購買快遞郵包險,一般為女性。低風(fēng)險高貢獻(xiàn)客戶客戶的特點是:32~50歲年齡段,婚姻狀態(tài)為已婚,購買家財保障計劃險和地震平安險。
4 財險公司商業(yè)策略選擇建議
客戶分類的目的之一就是針對不同的客戶群體采用不同的商業(yè)策略,根據(jù)上面的客戶風(fēng)險-貢獻(xiàn)矩陣可以實行以下的客戶分類管理。
1)高風(fēng)險低貢獻(xiàn)客戶商業(yè)策略。適當(dāng)采取拒絕保險合約的風(fēng)險規(guī)避策略,開展雇員培訓(xùn),嚴(yán)格規(guī)范該類客戶的申報審核程序,制定更加嚴(yán)格的保險賠付條例。
2)高風(fēng)險高貢獻(xiàn)客戶商業(yè)策略。在防止客戶流失的基礎(chǔ)上以控制風(fēng)險為主,采取較第一類客戶較為緩性的風(fēng)險規(guī)避制度。嚴(yán)格核實客戶損失,嚴(yán)格規(guī)范保險賠付制度。
3)低風(fēng)險低貢獻(xiàn)商業(yè)策略。對該類客戶應(yīng)采取防止客戶流失的策略,強(qiáng)化公司與客戶的溝通,增強(qiáng)服務(wù)意識,積極創(chuàng)造條件推進(jìn)該類客戶向更高貢獻(xiàn)級過渡。
4)低風(fēng)險高貢獻(xiàn)客戶商業(yè)策略。該類客戶是公司絕大部分利益的創(chuàng)造者,是公司管理的主要目標(biāo)群,應(yīng)及時開展客戶信息回饋并適時推出新保險品種以滿足客戶的不同需求。
5 結(jié) 語
文中從風(fēng)險和貢獻(xiàn)2個維度建立了財險公司客戶細(xì)分模型,在模型的建立過程中,綜合應(yīng)用了相關(guān)分析、聚類分析和決策樹C 5.0算法,并引用改進(jìn)的Apriori算法對模型結(jié)果進(jìn)行了交叉驗證。相關(guān)分析和聚類分析具有簡單、實用的特點,能夠?qū)?shù)據(jù)進(jìn)行有效地分類處理,簡化了建立決策樹模型時參與建模的變量數(shù)量,為決策樹模型的建立奠定了很好的基礎(chǔ)。
決策樹模型從風(fēng)險和貢獻(xiàn)2個角度對財險公司客戶進(jìn)行了分類,詳細(xì)分析了各類客戶的特點,對客戶進(jìn)行精準(zhǔn)分類不僅能夠幫助公司制定針對性的策略留住原有顧客,還能幫助公司制定更加精準(zhǔn)的銷售策略,發(fā)展更多優(yōu)質(zhì)客戶。引入布爾型矩陣的Apriori改進(jìn)算法,能夠有效地提高算法的運(yùn)行效率,大大節(jié)省存儲空間和運(yùn)行時間。通過運(yùn)用此改進(jìn)算法對決策樹分類模型進(jìn)行了交叉驗證,驗證結(jié)果表明,文中所建立的決策樹模型可以有效進(jìn)行財險公司的客戶細(xì)分及分類評級管理。
參考文獻(xiàn):
[1] LIAO Shu-hsien,WU Chi-chuan.The relationship among knowledge management,organizational learning,and organizational performance[J].International Journal of Business and Management,2009,4(4):64-76.
[2] WU Roung-Shiunn,Po-Hsuan Chou S.Customer segmentation of multiple category data in ecommerce using a soft-clustering approach[J].Electronic Commerce Research and Applications,2010,10(3):331-341.
[3] CHEN You-Shyang,Ching-Hsue Cheng,Chien-Jung Lai,et al.Identifying patients in target customer segments using a two-stage clustering-classification approach:A hospital-based assessment[J].Computers in Biology and Medicine,2011,42(2):213-221.
[4] Shui Hua Han,Shui Xiu Lu,Stephen C H,et al.Segmentation of telecom customers based on customer value by decision tree model [J].Expert Systems with Applications,2012,39(4):3 964.
[5] Ahmed Ghoniem,Bacel Maddah.Integrated retail decisions with multiple selling periods and customer segments:Optimization and insights[J].Omega,2015,55:38-38.
[6] 樊志剛,黃 旭,謝爾曼.互聯(lián)網(wǎng)時代商業(yè)銀行的競爭戰(zhàn)略[J].金融論壇,2014(10):3-10,20.
[7] 陳 希,李迪安,高 星,等.數(shù)據(jù)挖掘技術(shù)在保險客戶理賠分析中的應(yīng)用[J].統(tǒng)計與決策,2010(4):154-158.
[8] 王新軍,胡 曼.壽險交叉銷售的聚類技術(shù)實務(wù)分析[J].保險研究,2012(1):86-95.
[9] 劉曉葳.基于數(shù)據(jù)挖掘的保險客戶風(fēng)險—貢獻(xiàn)評級管理[J].保險研究,2013(3):100-109.
[10]程瑞芬.基于數(shù)據(jù)挖掘的保險業(yè)客戶識別與開發(fā)研究[D].鄭州:河南工業(yè)大學(xué),2013.
[11]蔣雪梅.基于改進(jìn)人工蜂群算法的聚類研究[D].大連:大連海事大學(xué),2014.
[12]王培吉,趙玉琳,呂劍峰.基于Apriori算法的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘研究[J].統(tǒng)計與決策,2011(23):19-21.
[13]羅 丹,李陶深.一種基于壓縮矩陣的Apriori算法改進(jìn)研究[J].計算機(jī)科學(xué),2013(12):75-80.
[14]王達(dá)明.基于云計算與醫(yī)療大數(shù)據(jù)的Apriori算法的優(yōu)化研究[D].北京:北京郵電大學(xué),2015.