国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進Boosting的決策樹信用卡客戶流失分析設(shè)想

2012-04-29 00:44:03廖旺宇

電腦知識與技術(shù) 2012年18期

關(guān)鍵詞：決策樹

廖旺宇

摘要：當(dāng)前，信用卡的運營收益成為各商業(yè)銀行的主要收入來源，但其營銷競爭已經(jīng)趨于白熱化。因此，信用卡客戶流失分析開始受到各商業(yè)銀行的重視。而由于決策樹具有分類精度高、分類器可解釋性強的特點，適合用于客戶流失分析。因此，該文提出了利用Boosting技術(shù)的決策樹集成C5.0進行信用卡客戶流失分析的方法。并針對信用卡流失數(shù)據(jù)分布不對稱的特點，對Boosting技術(shù)進行了相應(yīng)的改進嘗試。

關(guān)鍵詞：客戶流失分析；決策樹；Boosting技術(shù)

中圖分類號：TP311文獻標識碼：A文章編號：1009-3044(2012)18-4306-02

The Credit Customers Churn Analysis Based on Improved Boosting Decision Tree

LIAO Wang-yu

(Department of Information Technology, Sichuan Higher Institute of Cuisine, Chengdu 610100, China)

Abstract：Currently, the earnings of the credit card has become the main source of income for banks, but its marketing competition has become intense. Therefore, the credit card customers churn analysis begun to attract the attention of banks. Because of the high classifica tion accuracy and interpretability strong, the decision tree is suitable for the customers churn analysis. So this paper proposes use the boost ing decision tree technology for credit card customers churn analysis. And according to the data asymmetries in the distribution, try to im prove the boosting technology.

Key words: customers churn analysis; decision tree; boosting technology

由于政府和商業(yè)銀行都在大力推進金融電子化，以及消費者消費和支付觀念的轉(zhuǎn)變，信用卡在日常生活中的使用越來越頻繁。并且，根據(jù)調(diào)查，信用卡運營收益已經(jīng)成為商業(yè)銀行的主要收入來源之一。使得我國的信用卡發(fā)卡行、發(fā)卡量和交易量都在大幅上升。

伴隨發(fā)卡量大幅上升而來的信用卡市場的日趨飽和，以及信用卡產(chǎn)品自身的功能和服務(wù)趨同，使得各商業(yè)銀行在信用卡營銷中面臨著更加激烈的競爭和嚴峻的挑戰(zhàn)。如何吸引新的客戶、保持原有客戶開始成為商業(yè)銀行客戶關(guān)系管理關(guān)注的問題。其中，保持原有客戶，即提高客戶忠誠度、降低客戶流失率又是這一問題的重中之重。因為營銷學(xué)原理中開發(fā)新客戶的成本是保留老客戶的成本的數(shù)倍的原理對于信用卡客戶依然適用。而且，我國各商業(yè)銀行的信用卡客戶流失率較高。據(jù)全球?qū)ｍ検袌鲅芯抗綯NS發(fā)布的《2007中國零售銀行及信用卡服務(wù)競爭力報告》，我國金融業(yè)最為發(fā)達的京、滬、穗三地多數(shù)銀行的客戶流失率高達40%左右。

與此同時，在信用卡的運營過程中，各商業(yè)銀行積累了大量的客戶特征信息（如：客戶姓名、性別、年齡、家庭成員數(shù)、婚姻狀況、職業(yè)、職稱、單位性質(zhì)、受教育狀況、授信水平、還款狀況、收入水平等）、客戶交易歷史（包括：歷史交易次數(shù)、交易金額總額、透支情況等）數(shù)據(jù)。使用傳統(tǒng)的數(shù)據(jù)庫查詢分析的方式從這些海量數(shù)據(jù)中獲得有助于客戶關(guān)系管理的信息卻十分困難。而數(shù)據(jù)挖掘可以對已有的龐大數(shù)據(jù)進行分析，發(fā)現(xiàn)未知的關(guān)系、模式和以數(shù)據(jù)擁有者可以理解并對其有價值的新穎的方式來總結(jié)數(shù)據(jù)。

數(shù)據(jù)挖掘的出發(fā)點是智能、自動地從大量數(shù)據(jù)中發(fā)現(xiàn)隱藏的知識，它使數(shù)據(jù)庫技術(shù)進入了一個更高級的階段。作為一門新興的交叉學(xué)科。它綜合了數(shù)據(jù)庫技術(shù)、機器學(xué)習(xí)、統(tǒng)計學(xué)、模式識別、信息檢索、神經(jīng)網(wǎng)絡(luò)、基于知識的系統(tǒng)、人工智能、高性能計算和數(shù)據(jù)可視化，并且被廣泛應(yīng)用。從行業(yè)角度，包括了市場營銷、醫(yī)藥業(yè)、電信業(yè)、金融業(yè)、互聯(lián)網(wǎng)、語言識別和知識管理系統(tǒng)等方面；從客戶生命周期角度，包括了潛在客戶識別、個性化服務(wù)、客戶流失預(yù)測分析等。[1]

但是，數(shù)據(jù)挖掘應(yīng)用于商業(yè)銀行的信用卡客戶的流失分析尚不多見。國內(nèi)大型商業(yè)銀行發(fā)卡機構(gòu)在信用卡營銷過程中實際應(yīng)用數(shù)學(xué)模型管理流失客戶的意愿較低，提高客戶忠誠度的管理行為仍然執(zhí)行不到位，科學(xué)管理的應(yīng)用效果還未最大化。[2]而且，目前國內(nèi)對客戶流失預(yù)測建模，大多沒有考慮樣本的不對稱分布問題，也沒有對建模屬性的選擇進行深入研究，在一定程度上影響了模型預(yù)測的準確率。而在銀行客戶關(guān)系管理系統(tǒng)（CRM）中信用卡客戶流失分析部分迫切需要應(yīng)用決策樹、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘技術(shù)手段對數(shù)據(jù)進行加工，從中獲取一些反映規(guī)律性、傾向性的信息，從而為銀行決策者、客戶經(jīng)理、客戶服務(wù)人員進行客戶保持工作提供支持和參考。因此，研究利用數(shù)據(jù)挖掘技術(shù)建立信用卡客戶流失客戶預(yù)測模型，及時對有流失傾向的客戶采取適當(dāng)?shù)耐炝舸胧┏蔀樨酱鉀Q的問題。研究利用改進的Booting技術(shù)提高信用卡客戶流失分析準確率十分有意義。

Boosting技術(shù)可以視為一種動態(tài)抽樣策略，它通過從原始的訓(xùn)練集中抽取訓(xùn)練樣本的方式來構(gòu)造決策樹。由于在各商業(yè)銀行信用卡客戶運營數(shù)據(jù)中，已流失的客戶數(shù)量必然大大少于未流失的客戶數(shù)量，即存在嚴重的數(shù)據(jù)分布不對稱。

如果直接使用Boosting技術(shù)，由于在初始化時，令所有訓(xùn)練樣本的權(quán)值相等，會造成首次所選取的構(gòu)造的訓(xùn)練數(shù)據(jù)中的未流失客戶訓(xùn)練樣本多余流失客戶訓(xùn)練樣本，最終造成決策樹分析結(jié)果產(chǎn)生嚴重的偏倚。

雖然在第一次迭代之后，訓(xùn)練集中的樣本的權(quán)值發(fā)生一定的變化，但由于未流失客戶的數(shù)量遠大于已流失的客戶數(shù)。在被錯誤分類的樣本中，未流失的客戶樣本仍然占有較大的比例。由此構(gòu)造的決策樹中的偏倚問題不僅不能得到解決，甚至?xí)訃乐亍?/p>

因此，在應(yīng)用中，結(jié)合銀行信用卡客戶流失數(shù)據(jù)的分布不對稱的具體特點對Boosting技術(shù)進行如下改進：

1)在初始化時，根據(jù)未流失客戶數(shù)量與已流失客戶數(shù)量的比例，對兩類樣本賦予不同的權(quán)值。

即：未流失客戶的樣本的權(quán)值=（1/樣本總數(shù)）*（流失客戶樣本數(shù)/樣本總數(shù)）

流失客戶的樣本的權(quán)值=（1/樣本總數(shù)）*（未流失客戶樣本數(shù)/樣本總數(shù)）

2)由于客戶流失分析的主要目的是提前預(yù)測可能流失的客戶，因此在對被錯誤分類的樣本調(diào)整其權(quán)值的時候，在一定程度上偏向于流失的客戶樣本。對于被錯誤分類的已流失客戶樣本的權(quán)值增加調(diào)整值的1.1倍。

即：新的已流失客戶樣本的權(quán)值=舊的已流失客戶樣本權(quán)值+權(quán)值調(diào)整值*1.1

新的未流未客戶樣本的權(quán)值=舊的未流失客戶樣本權(quán)值+權(quán)值調(diào)整值

3)對被正確分類的未流失客戶樣本的權(quán)值減少調(diào)整值的1.1倍。

即：新的未流失客戶樣本的權(quán)值=舊的未流失客戶樣本權(quán)值-權(quán)值調(diào)整值*1.1

新的已流未客戶樣本的權(quán)值=舊的已流失客戶樣本權(quán)值-權(quán)值調(diào)整值

然而，決策樹所處理的數(shù)據(jù)集默認為均勻分布的數(shù)據(jù)集。因此，將傳統(tǒng)決策樹算法直接應(yīng)用于諸如商業(yè)銀行信用卡客戶流失分析的數(shù)據(jù)分布嚴重不對稱的數(shù)據(jù)集時，在進行樣本屬性選擇是必然會產(chǎn)生有利于多數(shù)類樣本屬性的偏倚，以至于必然會影響決策樹分類分析的結(jié)果的精度。

該文提出基于改進的Boosting技術(shù)的信用卡客戶流失分析方法，通過設(shè)想對原有的標準Boosting技術(shù)在權(quán)值的初始化和調(diào)整方面進行改進。通過改變各訓(xùn)練集樣本的初始權(quán)值，以及在決策樹構(gòu)造迭代過程中權(quán)值調(diào)整幅度的大小，使得Boosting技術(shù)中每次選擇的訓(xùn)練集樣本屬性盡可能趨于均衡。從而使得Boosting技術(shù)在繼續(xù)發(fā)揮提高決策樹分類精度方面的優(yōu)勢的基礎(chǔ)上，盡一步提高了其對于不對稱的樣本數(shù)據(jù)集的適應(yīng)性，盡可能避免了在構(gòu)造的決策樹的過程中進行屬性選擇時產(chǎn)生偏倚。

猜你喜歡

基于決策樹和神經(jīng)網(wǎng)絡(luò)的高血壓病危險因素研究

世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化(2021年8期)2021-12-21 07:04:34

一種針對不均衡數(shù)據(jù)集的SVM決策樹算法

成都信息工程大學(xué)學(xué)報(2019年3期)2019-09-25 08:31:20

決策樹和隨機森林方法在管理決策中的應(yīng)用

電子制作(2018年16期)2018-09-26 03:27:06

基于改進決策樹的故障診斷方法研究

成都信息工程大學(xué)學(xué)報(2018年6期)2018-03-21 05:45:58

決策樹多元分類模型預(yù)測森林植被覆蓋

電子制作(2017年24期)2017-02-02 07:14:23

基于決策樹算法的數(shù)據(jù)挖掘應(yīng)用研究

今日財富(2016年6期)2016-10-21 05:40:53

基于決策樹的出租車乘客出行目的識別

中央民族大學(xué)學(xué)報(自然科學(xué)版)(2016年4期)2016-06-27 08:06:04

基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管

電測與儀表(2016年2期)2016-04-12 00:24:40

基于模糊關(guān)聯(lián)規(guī)則和決策樹的圖像自動標注

智能系統(tǒng)學(xué)報(2015年4期)2015-12-27 09:38:42

基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用

鄭州大學(xué)學(xué)報(醫(yī)學(xué)版)(2015年1期)2015-02-27 14:50:26

電腦知識與技術(shù)2012年18期

電腦知識與技術(shù)的其它文章: 基于MATLAB窗函數(shù)法輔助設(shè)計FIR濾波器; 供水管網(wǎng)地理系統(tǒng)在城市中的應(yīng)用; 云計算概論; 高校信息化校園建設(shè)的幾點思考; ERP系統(tǒng)在醫(yī)藥銷售管理系統(tǒng)上的應(yīng)用; 探討Web信息集成系統(tǒng)網(wǎng)絡(luò)架構(gòu)及應(yīng)用分析

通山县| 皋兰县| 静安区| 上思县| 巴塘县| 益阳市| 邵阳市| 杭州市| 南漳县| 敖汉旗| 德江县| 汾西县| 连平县| 托里县| 阿城市| 烟台市| 沅陵县| 安顺市| 巫山县| 茶陵县| 清流县| 罗源县| 漳平市| 武强县| 九寨沟县| 潢川县| 廊坊市| 银川市| 芒康县| 乐至县| 余江县| 三河市| 安乡县| 深州市| 辉县市| 青神县| 商丘市| 龙陵县| 延长县| 贵阳市| 若尔盖县|