盧美琴,吳傳威
(1.福建商學(xué)院 國(guó)際經(jīng)濟(jì)與貿(mào)易系,福建 福州,350012;2.中國(guó)農(nóng)業(yè)銀行福建省分行 科技與產(chǎn)品管理部,福建 福州,350003)
在經(jīng)濟(jì)轉(zhuǎn)型大背景下,我國(guó)商業(yè)銀行的經(jīng)營(yíng)形勢(shì)面臨著天翻地覆的變化。金融脫媒和利率市場(chǎng)化進(jìn)程逐步加快,銀行利差大幅縮窄[1],銀行間的競(jìng)爭(zhēng)更加激烈,互聯(lián)網(wǎng)金融企業(yè)開(kāi)始搶占商業(yè)銀行的傳統(tǒng)領(lǐng)域,侵蝕銀行利潤(rùn)空間。近年來(lái)銀行對(duì)公業(yè)務(wù)已經(jīng)成為紅海戰(zhàn)場(chǎng),越來(lái)越多的商業(yè)銀行將經(jīng)營(yíng)重心從對(duì)公業(yè)務(wù)向個(gè)人業(yè)務(wù)轉(zhuǎn)移,個(gè)人零售客戶成為競(jìng)爭(zhēng)焦點(diǎn)。向零售業(yè)務(wù)轉(zhuǎn)型升級(jí)已經(jīng)成為近年來(lái)銀行業(yè)應(yīng)對(duì)互聯(lián)網(wǎng)金融發(fā)展、經(jīng)濟(jì)新常態(tài)以及監(jiān)管趨嚴(yán)態(tài)勢(shì)的必然選擇。
根據(jù)二八定律,20%的客戶貢獻(xiàn)了80%的利潤(rùn)。統(tǒng)計(jì)分析表明貴賓客戶是商業(yè)銀行的主要個(gè)人客戶群體,該群體的擴(kuò)展及維系對(duì)銀行的經(jīng)營(yíng)起到至關(guān)重要的作用,成為商業(yè)銀行日常經(jīng)營(yíng)的重中之重。然而,隨著客戶金融消費(fèi)需求升級(jí),客戶對(duì)金融服務(wù)的要求進(jìn)一步提高,金融市場(chǎng)供求格局也隨之發(fā)生變化,多種因素共同作用下,銀行貴賓客戶群體的不穩(wěn)定性增加??蛻袅魇Р粌H會(huì)增加銀行的營(yíng)銷(xiāo)費(fèi)用和機(jī)會(huì)成本,還會(huì)對(duì)銀行聲譽(yù)產(chǎn)生負(fù)面影響[2]。研究表明,對(duì)銀行業(yè)而言,客戶流失對(duì)利潤(rùn)有著巨大的影響,客戶流失率減少5%,能給企業(yè)帶來(lái)30% ~85% 的利潤(rùn)增長(zhǎng)。發(fā)展新客戶的成本是挽留客戶的5 ~7 倍,而挽留客戶的成功率卻是發(fā)展新客戶成功率的16 倍[3]。因此,識(shí)別影響客戶流失的關(guān)鍵因素,有效預(yù)測(cè)客戶流失可能性并制定相應(yīng)的挽回措施,防止客戶流失,是商業(yè)銀行提升核心競(jìng)爭(zhēng)力的關(guān)鍵。
國(guó)內(nèi)外學(xué)者也對(duì)此進(jìn)行了大量的研究,包括流失原因研究、流失預(yù)測(cè)研究和客戶挽留機(jī)制研究,主要應(yīng)用神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)等模型。如梁禮明等[4]使用BP神經(jīng)網(wǎng)絡(luò)對(duì)客戶流失進(jìn)行預(yù)測(cè);王未卿等[2]對(duì)客戶流失產(chǎn)生重要影響的預(yù)測(cè)變量進(jìn)行分析,并通過(guò)建立Cox 比例風(fēng)險(xiǎn)模型,對(duì)客戶流失的可能性進(jìn)行預(yù)測(cè);Prasad 和Madhavi[5]分別用CART 和C5.0 兩種分類(lèi)技術(shù)研究了商業(yè)銀行客戶流失行為;賀本嵐[6]對(duì)支持向量機(jī)和Logistic回歸模型在銀行客戶流失預(yù)測(cè)的效果進(jìn)行了對(duì)比。通過(guò)對(duì)幾種方法的對(duì)比發(fā)現(xiàn),模型各有優(yōu)缺點(diǎn):貝葉斯便于先驗(yàn)知識(shí)和樣本數(shù)據(jù)的結(jié)合,但是如何取得先驗(yàn)知識(shí)是個(gè)難題[7];神經(jīng)網(wǎng)絡(luò)精度高,但其規(guī)則解釋性差;支持向量機(jī)SVM分類(lèi)正確率高,但其求解需要較大量的計(jì)算,對(duì)于實(shí)際商業(yè)環(huán)境的大數(shù)據(jù)來(lái)說(shuō)對(duì)資源要求太高。相比較而言,決策樹(shù)分類(lèi)算法以其計(jì)算量小、規(guī)則解釋性強(qiáng)等特性,特別適合商業(yè)銀行開(kāi)展大量客戶的流失預(yù)測(cè)分析。從已有銀行客戶分析研究可以看出,現(xiàn)有研究主要集中在流失預(yù)測(cè)準(zhǔn)確性的提高,缺乏針對(duì)貴賓客戶群體的流失研究,并且對(duì)定位出的流失客戶的流失挽回環(huán)節(jié)研究涉及較少。因此,針對(duì)貴賓客戶建立流失預(yù)測(cè)模型,強(qiáng)化流失預(yù)測(cè)環(huán)節(jié)與流失挽回環(huán)節(jié)的關(guān)聯(lián),對(duì)提高銀行客戶流失挽回工作效率、降低客戶流失率有顯著作用。
綜上所述,保留老客戶、防止貴賓客戶流失對(duì)于商業(yè)銀行的經(jīng)營(yíng)穩(wěn)定具有重要意義。而防止客戶流失的關(guān)鍵在于能夠提前定位可能流失的客戶,采取挽留措施,降低其流失意愿。本文以某商業(yè)銀行某分行為例,具體探討如何利用決策樹(shù)方法建立貴賓客戶流失預(yù)測(cè)模型,并利用聚類(lèi)分析方法對(duì)流失客戶進(jìn)行細(xì)分,針對(duì)每個(gè)群體給出其特征描述和挽回措施。
目前,國(guó)內(nèi)外客戶流失預(yù)測(cè)算法使用最為廣泛的是回歸、決策樹(shù)和人工神經(jīng)網(wǎng)絡(luò)。而其中決策樹(shù)由于其良好的規(guī)則解釋能力和學(xué)習(xí)效率,成為廣泛采用的預(yù)測(cè)算法。決策樹(shù)(Decision Tree)運(yùn)用概率方法對(duì)決策中的不同方案進(jìn)行比較,從而得出最優(yōu)方案,由于這種決策分支畫(huà)成圖形很像一棵樹(shù)的枝干,故稱決策樹(shù)。其具體算法如下[8]:
設(shè)D為一個(gè)包含|D|個(gè)數(shù)據(jù)樣本的集合,類(lèi)別屬性有m個(gè)不同的值,對(duì)應(yīng)于m個(gè)不同的類(lèi)別集合Ci,i∈{1,2,3…m},|Ci|是類(lèi)別集合Ci中的樣本個(gè)數(shù),對(duì)D中的元組分類(lèi)所需的期望信息為:
(1)
其中,Pi=|Ci|/|D|表示一個(gè)數(shù)據(jù)對(duì)象屬于類(lèi)別Ci的概率。
假設(shè)按照屬性A(取值為{a1,a1…av})將D劃分成v個(gè)不同的類(lèi){D1,D1…Dv},那么使用屬性A對(duì)當(dāng)前樣本集進(jìn)行劃分的信息熵為:
(2)
信息熵IA(D)的值越小,表示利用屬性A進(jìn)行子集劃分的結(jié)果越好。
這樣,利用屬性A對(duì)當(dāng)前分支節(jié)點(diǎn)進(jìn)行相應(yīng)子集劃分所獲得的信息增益為:
Gain(A)=I(D)-IA(D)
C4.5算法為了避免結(jié)果傾向于具有大量值的屬性,將信息增益定義為:
(3)
在每個(gè)分支節(jié)點(diǎn)上,C4.5算法計(jì)算每個(gè)屬性的信息增益率,從中選擇信息增益率最大的屬性作為在該節(jié)點(diǎn)上進(jìn)行子集劃分的屬性,直到信息增益率低于某一特定閾值時(shí)停止決策樹(shù)的構(gòu)造。C5.0 是C4.5 的升級(jí)版,在執(zhí)行效率和內(nèi)存使用等方面都進(jìn)行了改進(jìn),特別適合于大數(shù)據(jù)集上[9]。
客戶細(xì)分主要指根據(jù)客戶的價(jià)值、需求和偏好等綜合因素對(duì)客戶進(jìn)行分類(lèi),分屬于同一客戶群的消費(fèi)者具備較高的相似性,而不同的客戶群間存在明顯的差異性。通過(guò)客戶細(xì)分,企業(yè)可以更好地識(shí)別不同客戶群體對(duì)企業(yè)的價(jià)值及其需求。
在數(shù)據(jù)挖掘中,往往通過(guò)聚類(lèi)的方法來(lái)實(shí)現(xiàn)細(xì)分。K-Means算法是一種經(jīng)典的聚類(lèi)算法,對(duì)處理海量數(shù)據(jù)有著較高的伸縮性,且效率較高,因此特別適用于銀行客戶的細(xì)分。指定聚類(lèi)簇?cái)?shù)K,算法隨機(jī)選取K個(gè)記錄作為初始中心,分別計(jì)算每個(gè)記錄到K個(gè)中心的的距離,按距離最近原則將每個(gè)記錄都?xì)w屬到K個(gè)簇;按平均值方法計(jì)算每個(gè)簇的中心,再次計(jì)算每個(gè)記錄到K個(gè)中心的距離,重新調(diào)整每個(gè)記錄的歸屬......,直至滿足設(shè)定的循環(huán)次數(shù)或簇歸屬穩(wěn)定。
其基本函數(shù)為:
?p∈PC,distance(p,getCluster(p))
(4)
其中,p表示樣本,PC表示樣本集合, distance()表示樣本與聚簇中心的距離,getCluster表示樣本所屬聚簇中心,M表示聚簇個(gè)數(shù),表Ci示第i個(gè)聚簇[10]。
根據(jù)研究目的,本文選取觀察期內(nèi)資產(chǎn)下降90%以上的客戶作為客戶流失定義進(jìn)行分析,具體客戶流失定義:客戶前三個(gè)月(T-2,T-1,T)月日均資產(chǎn)有10萬(wàn)以上且在年日均資產(chǎn)50%以上,隨后三個(gè)月(T+1,T+2,T+3)月日均資產(chǎn)流失達(dá)90%以上,且未來(lái)三個(gè)月(T+4,T+5,T+6)未恢復(fù)。
數(shù)據(jù)集來(lái)源于某商業(yè)銀行數(shù)據(jù)倉(cāng)庫(kù),選取的時(shí)間窗口為2016年9月到2017年8月,經(jīng)過(guò)數(shù)據(jù)清洗與處理,共得到2 758 289條資料完整的客戶記錄,其中流失客戶數(shù)為71 011個(gè),流失客戶占比為2.57%。該數(shù)據(jù)集為典型的不平衡數(shù)據(jù)集,為了減小流失客戶與非流失客戶之間的比例差距,提高模型對(duì)流失客戶的識(shí)別能力,通過(guò)隨機(jī)欠抽樣法,即減少多數(shù)類(lèi)樣本數(shù)量,構(gòu)造新數(shù)據(jù)集,最后選取142 022條記錄,其中流失客戶與非流失客戶各占比50%。然后按照2:1左右的比例劃分訓(xùn)練樣本集和驗(yàn)證樣本集,分別用于訓(xùn)練模型和驗(yàn)證模型有效性。
1.預(yù)測(cè)指標(biāo)篩選
預(yù)測(cè)指標(biāo)對(duì)于決策樹(shù)模型以及試驗(yàn)結(jié)果具有重要意義,指標(biāo)選取將最終影響模型預(yù)測(cè)的有效性。參考以往研究并結(jié)合該行實(shí)際業(yè)務(wù)情況,選取了50個(gè)初始指標(biāo)。而這些指標(biāo)是否對(duì)客戶流失產(chǎn)生影響需要進(jìn)行相應(yīng)檢驗(yàn),并且這些指標(biāo)間可能存在重復(fù)信息需要排除。因此對(duì)初始指標(biāo)進(jìn)行約簡(jiǎn),主要步驟為:首先,檢驗(yàn)每個(gè)屬性指標(biāo)對(duì)客戶是否流失的影響程度,剔除相關(guān)系數(shù)小于0.7的指標(biāo);其次,按每個(gè)屬性對(duì)客戶是否流失的相關(guān)性由大到小排序,將其他屬性與當(dāng)前屬性進(jìn)行相關(guān)性分析,將相關(guān)性大的屬性刪除,以此來(lái)消除冗余。
使用Pearson相關(guān)系數(shù)檢驗(yàn)來(lái)檢驗(yàn)2個(gè)變量之問(wèn)的相關(guān)性,其值越接近1則表明正相關(guān)性越大,其值越接近-1表明負(fù)相關(guān)性越大,其值越接近0則表明相關(guān)性越小。通過(guò)對(duì)初始的50個(gè)指標(biāo)進(jìn)行相關(guān)性分析后,確定出與客戶流失關(guān)聯(lián)性較大的15個(gè)特征用于構(gòu)建決策樹(shù)模型,如表1。
表1 客戶流失相關(guān)因素
2.預(yù)測(cè)誤判代價(jià)矩陣的確定
決策樹(shù)C5.0算法的一個(gè)顯著改進(jìn)在于引入了代價(jià)矩陣,可以有效地減小誤判的代價(jià)。在實(shí)際對(duì)客戶進(jìn)行流失判斷的過(guò)程中,可能會(huì)將非流失客戶誤判為流失客戶或?qū)⒘魇Э蛻粽`判為非流失客戶,對(duì)于商業(yè)銀行來(lái)說(shuō),前者可能僅僅是客戶維護(hù)人員打一個(gè)電話的花費(fèi),后者則可能損失一個(gè)重要客戶,使銀行蒙受較大損失。相比較而言,后者給商業(yè)銀行帶來(lái)的損失要遠(yuǎn)大于前者。通過(guò)與個(gè)人金融部等貴賓客戶主管部門(mén)核算,確定代價(jià)矩陣,見(jiàn)表2。誤判代價(jià)矩陣表明,將實(shí)際會(huì)流失客戶標(biāo)識(shí)為非流失的代價(jià),是將實(shí)際非流失客戶標(biāo)識(shí)為流失客戶代價(jià)的10倍。
表2 代價(jià)矩陣
使用訓(xùn)練樣本集訓(xùn)練生成決策樹(shù)模型,使用驗(yàn)證樣本集對(duì)模型預(yù)測(cè)的穩(wěn)定性進(jìn)行考察。為了驗(yàn)證決策樹(shù)模型的預(yù)測(cè)效果,引入業(yè)界普遍使用的兩個(gè)評(píng)價(jià)模型有效性的指標(biāo):
流失覆蓋率=正確預(yù)測(cè)流失客戶數(shù)/總流失客戶數(shù)
預(yù)測(cè)準(zhǔn)確率=正確預(yù)測(cè)流失客戶數(shù)/總預(yù)測(cè)流失客戶數(shù)
流失覆蓋率反映的是模型最終查找出的真實(shí)流失客戶占實(shí)際總流失客戶的百分比;預(yù)測(cè)準(zhǔn)確率反映的是模型標(biāo)記出的流失客戶中真正流失的百分比。從模型對(duì)訓(xùn)練集和驗(yàn)證集的預(yù)測(cè)結(jié)果來(lái)看(見(jiàn)表3),預(yù)測(cè)模型能夠查找出61%左右的流失客戶,且預(yù)測(cè)準(zhǔn)確率超過(guò)82%,具備較強(qiáng)的實(shí)用性。
表3 預(yù)測(cè)效果
流失客戶中,由于客戶年齡、資產(chǎn)結(jié)構(gòu)、交易習(xí)慣等的差異,其流失原因和流失特征也各不相同,如果采用相同的挽回策略,難以起到針對(duì)性營(yíng)銷(xiāo)的效果。對(duì)流失客戶進(jìn)行細(xì)分,根據(jù)其不同特征劃分為不同的流失群體,針對(duì)每個(gè)流失群體進(jìn)行分析,描述其群體特征,并給出相應(yīng)的挽回措施,將有助于提高客戶維護(hù)人員的工作效率和效果。因此,利用數(shù)據(jù)挖掘技術(shù)對(duì)流失客戶進(jìn)行聚類(lèi)細(xì)分,對(duì)每一個(gè)細(xì)分群體分別進(jìn)行群體特征分析,見(jiàn)表4。
表4 聚類(lèi)因素
參考現(xiàn)有銀行客戶聚類(lèi)分析常用指標(biāo)及實(shí)際可獲得性,獲取到表4中的聚類(lèi)指標(biāo),包括:自然屬性、財(cái)務(wù)能力、交易習(xí)慣、品牌忠誠(chéng)等。利用K-Means聚類(lèi)算法,將流失貴賓客戶細(xì)分為四個(gè)群體,對(duì)四個(gè)群體進(jìn)行分析,分別定義族群標(biāo)簽,描述群體特征及提出流失挽回措施,具體結(jié)果見(jiàn)表5。
表5 客戶細(xì)分結(jié)果
客戶經(jīng)理根據(jù)流失貴賓客戶歸屬的群體特征及挽回措施建議,結(jié)合客戶資產(chǎn)結(jié)構(gòu)、近期交易特征以及客戶未來(lái)三個(gè)月理財(cái)、定期產(chǎn)品到期情況,可以實(shí)現(xiàn)根據(jù)客戶特征進(jìn)行差異化客戶維護(hù)。
隨著內(nèi)外部經(jīng)營(yíng)形勢(shì)的變化,個(gè)人客戶流失已經(jīng)成為商業(yè)銀行必須解決的問(wèn)題之一。本文具體分析了對(duì)商業(yè)銀行經(jīng)營(yíng)效益起到至關(guān)重要作用的貴賓客戶的流失影響因素,構(gòu)建貴賓客戶流失預(yù)測(cè)模型,可以有效識(shí)別潛在流失貴賓客戶;同時(shí),利用聚類(lèi)算法對(duì)流失貴賓客戶進(jìn)行細(xì)分,針對(duì)每一個(gè)細(xì)分群體進(jìn)行特征描述和制定挽回策略,可以幫助客戶維系部門(mén)有效提高客戶流失挽回工作的效率和效果,也為商業(yè)銀行進(jìn)行貴賓客戶流失挽回提供了一個(gè)新思路。
參考文獻(xiàn):
[1]賀本嵐.支持向量機(jī)模型在銀行客戶流失預(yù)測(cè)中的應(yīng)用研究[J].金融論壇,2014(9):70-74.
[2]王未卿,姚嬈,劉澄,等.商業(yè)銀行客戶流失的影響因素[J].金融論壇,2014(1):73-79.
[3]肖進(jìn),劉敦虎,賀昌政.基于GMDH的“一步式”客戶流失預(yù)測(cè)集成建模[J].系統(tǒng)工程理論與實(shí)踐,2012,32(4):808-813.
[4]梁禮明,翁發(fā)祿,丁元春. 神經(jīng)網(wǎng)絡(luò)在客戶流失模型中的應(yīng)用研究[J].商業(yè)研究,2007(2):55-57.
[5]PRASAD D,MADHAVI S. Prediction of churn behavior of bank customer customers using data mining tools[J].Business Intelligence Journal,2012,5(1):96-101.
[6]賀本嵐.支持向量機(jī)模型在銀行客戶流失預(yù)測(cè)中的應(yīng)用研究[J].金融論壇,2014 (9):70-74.
[7]洪麗平,覃錫忠,賈振紅,等.基于后驗(yàn)概率支持向量機(jī)在客戶流失中的預(yù)測(cè)[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(2):430-432.
[8]王紅武,朱紹濤,蔡海博.基于決策樹(shù)算法的上市公司股東行為研究[J].數(shù)理統(tǒng)計(jì)與管理,2017,36(1):139-150.
[9]楊勝剛,朱琦,成程.個(gè)人信用評(píng)估組合模型的構(gòu)建——基于決策樹(shù)—神經(jīng)網(wǎng)絡(luò)的研究[J].金融論壇,2013(2):57-61.
[10]MUDA Z,YASSIN W,SULAIMAN M N,et a1.Intrusion detection based on K-Means clustering and Naive Bayes classification[C].California: International Conference on Information Technology in Asia, 2011.