廖旺宇
摘要:當(dāng)前,信用卡的運營收益成為各商業(yè)銀行的主要收入來源,但其營銷競爭已經(jīng)趨于白熱化。因此,信用卡客戶流失分析開始受到各商業(yè)銀行的重視。而由于決策樹具有分類精度高、分類器可解釋性強的特點,適合用于客戶流失分析。因此,該文提出了利用Boosting技術(shù)的決策樹集成C5.0進行信用卡客戶流失分析的方法。并針對信用卡流失數(shù)據(jù)分布不對稱的特點,對Boosting技術(shù)進行了相應(yīng)的改進嘗試。
關(guān)鍵詞:客戶流失分析;決策樹;Boosting技術(shù)
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2012)18-4306-02
The Credit Customers Churn Analysis Based on Improved Boosting Decision Tree
LIAO Wang-yu
(Department of Information Technology, Sichuan Higher Institute of Cuisine, Chengdu 610100, China)
Abstract:Currently, the earnings of the credit card has become the main source of income for banks, but its marketing competition has become intense. Therefore, the credit card customers churn analysis begun to attract the attention of banks. Because of the high classifica tion accuracy and interpretability strong, the decision tree is suitable for the customers churn analysis. So this paper proposes use the boost ing decision tree technology for credit card customers churn analysis. And according to the data asymmetries in the distribution, try to im prove the boosting technology.
Key words: customers churn analysis; decision tree; boosting technology
由于政府和商業(yè)銀行都在大力推進金融電子化,以及消費者消費和支付觀念的轉(zhuǎn)變,信用卡在日常生活中的使用越來越頻繁。并且,根據(jù)調(diào)查,信用卡運營收益已經(jīng)成為商業(yè)銀行的主要收入來源之一。使得我國的信用卡發(fā)卡行、發(fā)卡量和交易量都在大幅上升。
伴隨發(fā)卡量大幅上升而來的信用卡市場的日趨飽和,以及信用卡產(chǎn)品自身的功能和服務(wù)趨同,使得各商業(yè)銀行在信用卡營銷中面臨著更加激烈的競爭和嚴峻的挑戰(zhàn)。如何吸引新的客戶、保持原有客戶開始成為商業(yè)銀行客戶關(guān)系管理關(guān)注的問題。其中,保持原有客戶,即提高客戶忠誠度、降低客戶流失率又是這一問題的重中之重。因為營銷學(xué)原理中開發(fā)新客戶的成本是保留老客戶的成本的數(shù)倍的原理對于信用卡客戶依然適用。而且,我國各商業(yè)銀行的信用卡客戶流失率較高。據(jù)全球?qū)m検袌鲅芯抗綯NS發(fā)布的《2007中國零售銀行及信用卡服務(wù)競爭力報告》,我國金融業(yè)最為發(fā)達的京、滬、穗三地多數(shù)銀行的客戶流失率高達40%左右。
與此同時,在信用卡的運營過程中,各商業(yè)銀行積累了大量的客戶特征信息(如:客戶姓名、性別、年齡、家庭成員數(shù)、婚姻狀況、職業(yè)、職稱、單位性質(zhì)、受教育狀況、授信水平、還款狀況、收入水平等)、客戶交易歷史(包括:歷史交易次數(shù)、交易金額總額、透支情況等)數(shù)據(jù)。使用傳統(tǒng)的數(shù)據(jù)庫查詢分析的方式從這些海量數(shù)據(jù)中獲得有助于客戶關(guān)系管理的信息卻十分困難。而數(shù)據(jù)挖掘可以對已有的龐大數(shù)據(jù)進行分析,發(fā)現(xiàn)未知的關(guān)系、模式和以數(shù)據(jù)擁有者可以理解并對其有價值的新穎的方式來總結(jié)數(shù)據(jù)。
數(shù)據(jù)挖掘的出發(fā)點是智能、自動地從大量數(shù)據(jù)中發(fā)現(xiàn)隱藏的知識,它使數(shù)據(jù)庫技術(shù)進入了一個更高級的階段。作為一門新興的交叉學(xué)科。它綜合了數(shù)據(jù)庫技術(shù)、機器學(xué)習(xí)、統(tǒng)計學(xué)、模式識別、信息檢索、神經(jīng)網(wǎng)絡(luò)、基于知識的系統(tǒng)、人工智能、高性能計算和數(shù)據(jù)可視化,并且被廣泛應(yīng)用。從行業(yè)角度,包括了市場營銷、醫(yī)藥業(yè)、電信業(yè)、金融業(yè)、互聯(lián)網(wǎng)、語言識別和知識管理系統(tǒng)等方面;從客戶生命周期角度,包括了潛在客戶識別、個性化服務(wù)、客戶流失預(yù)測分析等。[1]
但是,數(shù)據(jù)挖掘應(yīng)用于商業(yè)銀行的信用卡客戶的流失分析尚不多見。國內(nèi)大型商業(yè)銀行發(fā)卡機構(gòu)在信用卡營銷過程中實際應(yīng)用數(shù)學(xué)模型管理流失客戶的意愿較低,提高客戶忠誠度的管理行為仍然執(zhí)行不到位,科學(xué)管理的應(yīng)用效果還未最大化。[2]而且,目前國內(nèi)對客戶流失預(yù)測建模,大多沒有考慮樣本的不對稱分布問題,也沒有對建模屬性的選擇進行深入研究,在一定程度上影響了模型預(yù)測的準確率。而在銀行客戶關(guān)系管理系統(tǒng)(CRM)中信用卡客戶流失分析部分迫切需要應(yīng)用決策樹、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘技術(shù)手段對數(shù)據(jù)進行加工,從中獲取一些反映規(guī)律性、傾向性的信息,從而為銀行決策者、客戶經(jīng)理、客戶服務(wù)人員進行客戶保持工作提供支持和參考。因此,研究利用數(shù)據(jù)挖掘技術(shù)建立信用卡客戶流失客戶預(yù)測模型,及時對有流失傾向的客戶采取適當(dāng)?shù)耐炝舸胧┏蔀樨酱鉀Q的問題。研究利用改進的Booting技術(shù)提高信用卡客戶流失分析準確率十分有意義。
Boosting技術(shù)可以視為一種動態(tài)抽樣策略,它通過從原始的訓(xùn)練集中抽取訓(xùn)練樣本的方式來構(gòu)造決策樹。由于在各商業(yè)銀行信用卡客戶運營數(shù)據(jù)中,已流失的客戶數(shù)量必然大大少于未流失的客戶數(shù)量,即存在嚴重的數(shù)據(jù)分布不對稱。
如果直接使用Boosting技術(shù),由于在初始化時,令所有訓(xùn)練樣本的權(quán)值相等,會造成首次所選取的構(gòu)造的訓(xùn)練數(shù)據(jù)中的未流失客戶訓(xùn)練樣本多余流失客戶訓(xùn)練樣本,最終造成決策樹分析結(jié)果產(chǎn)生嚴重的偏倚。
雖然在第一次迭代之后,訓(xùn)練集中的樣本的權(quán)值發(fā)生一定的變化,但由于未流失客戶的數(shù)量遠大于已流失的客戶數(shù)。在被錯誤分類的樣本中,未流失的客戶樣本仍然占有較大的比例。由此構(gòu)造的決策樹中的偏倚問題不僅不能得到解決,甚至?xí)訃乐亍?/p>
因此,在應(yīng)用中,結(jié)合銀行信用卡客戶流失數(shù)據(jù)的分布不對稱的具體特點對Boosting技術(shù)進行如下改進:
1)在初始化時,根據(jù)未流失客戶數(shù)量與已流失客戶數(shù)量的比例,對兩類樣本賦予不同的權(quán)值。
即:未流失客戶的樣本的權(quán)值=(1/樣本總數(shù))*(流失客戶樣本數(shù)/樣本總數(shù))
流失客戶的樣本的權(quán)值=(1/樣本總數(shù))*(未流失客戶樣本數(shù)/樣本總數(shù))
2)由于客戶流失分析的主要目的是提前預(yù)測可能流失的客戶,因此在對被錯誤分類的樣本調(diào)整其權(quán)值的時候,在一定程度上偏向于流失的客戶樣本。對于被錯誤分類的已流失客戶樣本的權(quán)值增加調(diào)整值的1.1倍。
即:新的已流失客戶樣本的權(quán)值=舊的已流失客戶樣本權(quán)值+權(quán)值調(diào)整值*1.1
新的未流未客戶樣本的權(quán)值=舊的未流失客戶樣本權(quán)值+權(quán)值調(diào)整值
3)對被正確分類的未流失客戶樣本的權(quán)值減少調(diào)整值的1.1倍。
即:新的未流失客戶樣本的權(quán)值=舊的未流失客戶樣本權(quán)值-權(quán)值調(diào)整值*1.1
新的已流未客戶樣本的權(quán)值=舊的已流失客戶樣本權(quán)值-權(quán)值調(diào)整值
然而,決策樹所處理的數(shù)據(jù)集默認為均勻分布的數(shù)據(jù)集。因此,將傳統(tǒng)決策樹算法直接應(yīng)用于諸如商業(yè)銀行信用卡客戶流失分析的數(shù)據(jù)分布嚴重不對稱的數(shù)據(jù)集時,在進行樣本屬性選擇是必然會產(chǎn)生有利于多數(shù)類樣本屬性的偏倚,以至于必然會影響決策樹分類分析的結(jié)果的精度。
該文提出基于改進的Boosting技術(shù)的信用卡客戶流失分析方法,通過設(shè)想對原有的標準Boosting技術(shù)在權(quán)值的初始化和調(diào)整方面進行改進。通過改變各訓(xùn)練集樣本的初始權(quán)值,以及在決策樹構(gòu)造迭代過程中權(quán)值調(diào)整幅度的大小,使得Boosting技術(shù)中每次選擇的訓(xùn)練集樣本屬性盡可能趨于均衡。從而使得Boosting技術(shù)在繼續(xù)發(fā)揮提高決策樹分類精度方面的優(yōu)勢的基礎(chǔ)上,盡一步提高了其對于不對稱的樣本數(shù)據(jù)集的適應(yīng)性,盡可能避免了在構(gòu)造的決策樹的過程中進行屬性選擇時產(chǎn)生偏倚。