林芳
(集美大學(xué)誠(chéng)毅學(xué)院 實(shí)驗(yàn)管理中心,福建 廈門 361021)
基于決策樹的客戶流失模型的建立
林芳
(集美大學(xué)誠(chéng)毅學(xué)院 實(shí)驗(yàn)管理中心,福建 廈門 361021)
本文對(duì)決策樹分類方法進(jìn)行了系統(tǒng)、深入的分析研究.并采用ID3算法對(duì)客戶提交的友情反饋表進(jìn)行分析,提取規(guī)則,為企業(yè)判斷客戶是否存在流失風(fēng)險(xiǎn)的預(yù)測(cè)構(gòu)造系統(tǒng),在經(jīng)過處理數(shù)據(jù)的基礎(chǔ)上生成了一系列客戶流失預(yù)測(cè)規(guī)則.
客戶流失;數(shù)據(jù)挖掘;決策樹
客戶在一個(gè)網(wǎng)站中一般會(huì)經(jīng)歷新鮮期--沉迷期--消退期--離開網(wǎng)站四個(gè)階段.[1]延長(zhǎng)用戶在網(wǎng)站的停留周期是企業(yè)人員需要迫切解決的問題.
數(shù)據(jù)庫(kù)中數(shù)據(jù)的一部分是需要經(jīng)過一番分析形成知識(shí)后才能被決策所利用.通過決策樹技術(shù)對(duì)客戶進(jìn)行分析,針對(duì)處于不同的客戶生命周期,采取不同的策略,進(jìn)而提高不同客戶的滿意程度,建立較高的忠誠(chéng)度,防止一定客戶的流失.
數(shù)據(jù)挖掘中的分類方法是將一個(gè)數(shù)據(jù)集按照某個(gè)指定的屬性劃分,并給出相應(yīng)的分類規(guī)則.對(duì)于一個(gè)給定的數(shù)據(jù)集,具有m+1個(gè)屬性(字段)A1,A2,…,Am的值,計(jì)算預(yù)測(cè)分類屬性值.可以按以下兩個(gè)步驟:[2]
(1)創(chuàng)建分類模型:用分類算法和一個(gè)類別已經(jīng)確定的數(shù)據(jù)集創(chuàng)建分類模型.
(2)使用模型預(yù)測(cè):使用分類模型前必須用一定的方法估計(jì)分類模型的準(zhǔn)確率.
決策樹可看成一個(gè)可自動(dòng)對(duì)數(shù)據(jù)進(jìn)行分類的樹型結(jié)構(gòu),可解釋成一種特殊形式的規(guī)則集,其特征是規(guī)則的層次組織關(guān)系.[3][4]
通過實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理,可以選擇以下指標(biāo)變量進(jìn)行分析:菜品品種(A-豐富,B-單調(diào))、價(jià)格(A-太高,B-合理)、菜品味道(A-滿意,B-一般,C不滿意)、配送時(shí)間(A-滿意,B-一般,C不滿意)、網(wǎng)站設(shè)計(jì)合理性(A-合理,B-不合理)、服務(wù)態(tài)度(A-滿意,B-不滿意).數(shù)據(jù)集合分為流失(Y)集合和未流失(N)集合
本課題的主要任務(wù)是對(duì)網(wǎng)上訂餐管理系統(tǒng)客戶流失進(jìn)行分析,所以,最終需要的屬性為”是否流失”,包含兩個(gè)值Y (流失),N(未流失),經(jīng)過對(duì)訓(xùn)練集的統(tǒng)計(jì),未流失實(shí)例個(gè)數(shù)為106,流失實(shí)例個(gè)數(shù)為61,所以開始時(shí)熵值為:
接下來計(jì)算除“是否流失”以外的所有屬性的熵.
首先從“菜品品種”屬性開始,根據(jù)訓(xùn)練集統(tǒng)計(jì)出對(duì)于“菜品品種”表示豐富的記錄有94個(gè),其中“是否流失”=N的有65,“是否流失”=Y的有29;對(duì)“菜品品種”表示單調(diào)的記錄有73,其中“是否流失”=N的有41,“是否流失”=Y的有32.因此它的熵值為
信息增益:
Gain(菜品品種)=(I(s1,s2)-E(菜品品種))*m=(0.947-0.934) /2=0.0065
其中m為改進(jìn)算法中引入的權(quán)重因子.用相同的方法計(jì)算出剩余屬性的信息增益
Gain(價(jià)格)=0.0250 Gain(菜品味道)=0.1100
Gain(網(wǎng)站設(shè)計(jì)合理性)=0.0001 Gain(服務(wù)態(tài)度)=0.0145
Gain(配送時(shí)間)=0.0143
圖2-1 初始的決策樹的信息圖
由此可以看出Gain(菜品味道)最大,即有關(guān)菜品味道指數(shù)的信息對(duì)分類幫助最大,提供最大的信息量.所以應(yīng)該選擇菜品味道作為測(cè)試屬性.
利用“菜品味道”屬性作為本課題決策樹根節(jié)點(diǎn),它的屬性值作為這個(gè)決策樹的枝,對(duì)其余屬性再次計(jì)算增益.經(jīng)過計(jì)算,初始的決策樹各個(gè)子節(jié)點(diǎn)的信息如圖:
如上圖2-1所示,對(duì)菜品味道的三個(gè)節(jié)點(diǎn)要分別繼續(xù)進(jìn)行分類.為了預(yù)防決策樹的創(chuàng)建過程中出現(xiàn)過擬合現(xiàn)象,設(shè)定一個(gè)停止規(guī)則:當(dāng)信息增益值快趨于0或次小與最小的信息增益之比大于lO時(shí),就要將該分支轉(zhuǎn)換成葉子節(jié)點(diǎn).經(jīng)過上面的分析“菜品品種”屬性和“網(wǎng)絡(luò)設(shè)計(jì)合理性”屬性的信息增益太小,根據(jù)規(guī)則可將這2個(gè)屬性刪除,即在以后的計(jì)算過程中,不再計(jì)算這兩個(gè)屬性的信息增益.
經(jīng)過一系列的遞歸運(yùn)算,得出訂餐系統(tǒng)客戶流失分析的決策樹雛形,如圖2-2,
圖2-2 客戶流失分析決策樹雛形
(1)傳統(tǒng)的ID3算法有偏向于選擇取值較多的屬性的缺點(diǎn).在改進(jìn)算法中引入權(quán)重因子m,設(shè)某個(gè)屬性A有n種取值,那么m=1/n可作為調(diào)整因子.例如菜品品種的屬性有豐富和單調(diào)兩個(gè)取值,m則可以取值1/2.在確定好這個(gè)調(diào)整因子后,原有的信息增益修正為:[5]
(2)增加了決策樹的剪枝處理.在本模型建立過程中,用到兩種剪枝方法:第一種,前剪枝,利用提前停止樹的構(gòu)造對(duì)決策樹進(jìn)行剪枝,只要停止,節(jié)點(diǎn)就變成了樹葉,在第一輪計(jì)算信息增益時(shí),發(fā)現(xiàn)“網(wǎng)絡(luò)設(shè)計(jì)是否合理“屬性的增益值最小,幾乎快接近于0,“菜品品種”屬性信息增益與最小的“網(wǎng)絡(luò)設(shè)計(jì)是否合理”屬性增益比大于10,根據(jù)停止規(guī)則,在此后的計(jì)算過程中,不再對(duì)這兩個(gè)屬性進(jìn)行考慮.
第二種,后剪枝,對(duì)于決策樹中的每個(gè)不是樹葉的節(jié)點(diǎn),計(jì)算出節(jié)點(diǎn)上的子樹被剪枝的可能期望的錯(cuò)誤率.例如剪去該節(jié)點(diǎn)會(huì)引起高期望錯(cuò)誤率,就要保留該子樹;否則就剪掉.該實(shí)驗(yàn)?zāi)P椭苯釉跊Q策樹的生成過程中引入一個(gè)停止規(guī)則(替代錯(cuò)誤率).例如,訓(xùn)練集m,包含訓(xùn)練集n的節(jié)點(diǎn)類標(biāo)簽為多數(shù)滿足n’<=n,則替代錯(cuò)誤率為,比較低層的葉節(jié)點(diǎn)對(duì)替代影響最小,因此會(huì)最先被修剪.該實(shí)驗(yàn)?zāi)P驮O(shè)定的規(guī)則為:當(dāng)分支的替代錯(cuò)誤率小于2.5%時(shí),將其轉(zhuǎn)為葉子節(jié)點(diǎn).
其中,n:分支的記錄數(shù),n':分支中多數(shù)類別的記錄數(shù),m:訓(xùn)練集數(shù)的記錄總數(shù).[6]
例如上圖2-2的“菜品味道”屬性為滿意的N:53 Y:3, n=56,n’=53,m=167
圖3-1 最終的決策樹
通過圖3-1的決策樹,使用者可以使用遍歷路徑提取分類規(guī)則:
If 菜品味道(滿意) then 未流失
If 菜品味道(一般) and 服務(wù)態(tài)度(滿意) then 未流失
我知道,他有好多好多的心事,北方的清軍蠢蠢欲動(dòng),民間的動(dòng)亂此起彼伏,明王朝在風(fēng)雨飄搖中,他眉頭緊鎖,很少言語,每次來怡香院我都為他沏一壺新茶,知他不愛言語,我也默默地陪坐一旁??墒俏抑?,他的心里有著一段傷痛,他看起來瀟灑不羈,卻是情根深種。
If 菜品味道(一般) and 服務(wù)態(tài)度(不滿意) and配送時(shí)間(滿意) then 未流失
If 菜品味道(一般)and 服務(wù)態(tài)度(不滿意) and配送時(shí)間(一般) and 價(jià)格(合理)then未流失
If 菜品味道(一般) and 服務(wù)態(tài)度(不滿意) and配送時(shí)間(一般) and 價(jià)格(太高)then流失
If 菜品味道(一般) and 服務(wù)態(tài)度(不滿意) and配送時(shí)間(不滿意) then流失
If 菜品味道(不滿意) then流失
從數(shù)據(jù)庫(kù)里隨機(jī)抽取的三分之一作為測(cè)試集中,按上面客戶流失分析模型提取的規(guī)則進(jìn)行測(cè)試,如果測(cè)試結(jié)果在85%-98%之間,則模型符合要求,否則重新創(chuàng)建模型;若正確率低于85%,預(yù)測(cè)結(jié)果錯(cuò)誤的可能性太高,若高于98%,則可能出現(xiàn)過匹配現(xiàn)象.
根據(jù)驗(yàn)證結(jié)果,可知,在所有的83條測(cè)試集中,正確的記錄數(shù)76條,錯(cuò)誤的記錄7條,得知該實(shí)驗(yàn)的決策樹模型,準(zhǔn)確率達(dá)到了91.6%,在85%-98%之間,達(dá)到了預(yù)計(jì)的目標(biāo),滿足要求.
根據(jù)客戶反饋信息所創(chuàng)建的客戶流失分析模型,其正確率為91.6%,可以將該模型推廣到一般的分析中,從而為各企業(yè)的客戶流失提供決策參考.通過該分析模型的建立,企業(yè)了解到:本餐廳的菜品味道對(duì)客戶流失的影響最大,其次是整體的服務(wù)態(tài)度,配送時(shí)間;如果想保有更高的客戶持有率,餐廳可以制作不同的菜系來滿足不同的客戶口味,同時(shí)也要提高整體的服務(wù)態(tài)度.
〔2〕胡小剛.數(shù)據(jù)挖掘中決策樹分類算法的研究.華東師范大學(xué).
〔3〕張運(yùn)濤,等.數(shù)據(jù)挖掘原理與技術(shù).電子工業(yè)出版社.
〔4〕朱玉全,等.數(shù)據(jù)挖掘技術(shù).東南大學(xué)出版社.
〔5〕蘇志同.一種改進(jìn)的決策樹算法及應(yīng)用[J].微計(jì)算機(jī)信息,2009(03).
〔6〕范潔,楊岳湘.決策樹后剪枝算法的研究.湖南廣播電視大學(xué)學(xué)報(bào).
TP311
A
1673-260X(2016)11-0018-02
2016-06-20