羅軍 張俊勇
摘 要: 樹形算法由于其對大量高維數(shù)據(jù)的有效處理、對噪聲點的高容忍度和對知識的有效表示,是最常用的CRM客戶細(xì)分技術(shù)。通過對幾類樹形算法,包括決策樹C4.5算法、決策樹CART算法和平衡隨機(jī)森林BRF算法,在解決電信客戶細(xì)分問題中的表現(xiàn)進(jìn)行分析研究,并且選用BP神經(jīng)網(wǎng)絡(luò)算法作為樹形算法的參照,最終研究得出:平衡隨機(jī)森林在處理電信客戶問題上具有最好的表現(xiàn)。
關(guān)鍵詞: 決策樹; 隨機(jī)森林; BP神經(jīng)網(wǎng)絡(luò); 數(shù)據(jù)預(yù)處理
中圖分類號:TP393 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2014)05-01-03
Abstract: Due to the effective processing of large amounts of high-dimensional data, high tolerance for noise and effective representation of knowledge, tree algorithm is the most common CRM customer segmentation technique. The performance of tree algorithm, including the C4.5, the CART and the balanced random forest, in solving telecommunication customer segmentation problems is analyzed. BP neural network algorithm is compared. Experiments have shown that balanced random forest has the best performance in dealing with the problem.
Key words: decision tree; random forest; BP neural network; data pre-process
0 引言
在當(dāng)前我國電信市場激烈的競爭環(huán)境中,客戶成了電信企業(yè)爭奪的資源,客戶關(guān)系管理(Customer Relationship Management,簡稱CRM)由于其能夠幫助企業(yè)更好地了解客戶并增加盈利,在電信企業(yè)中廣泛應(yīng)用??蛻艏?xì)分作為CRM的核心問題日益受到人們的關(guān)注??蛻艏?xì)分是指將市場分為具有不同需求、特征或行為的不同購買者的過程??蛻艏?xì)分的主要目的[1]是:①預(yù)測客戶行為,為企業(yè)和客戶之間交流提供了基礎(chǔ),使得企業(yè)客戶為客戶提供更好的服務(wù)、防止客戶流失;②通過對客戶合理的類別劃分,分析出當(dāng)前以及預(yù)期客戶群的區(qū)段,判斷不同區(qū)段的突出特點,準(zhǔn)確認(rèn)識客戶的總體構(gòu)成,對客戶的服務(wù)和營銷更具針對性。
樹形算法是最常用的CRM客戶細(xì)分技術(shù),研究分析各樹形算法在對電信客戶數(shù)據(jù)進(jìn)行細(xì)分挖掘時的不同表現(xiàn),找到客戶數(shù)據(jù)細(xì)分效果相對最好的算法,對于提高CRM客戶細(xì)分技術(shù)有推動意義。
1.3 平衡隨機(jī)森林BRF算法
平衡隨機(jī)森林是在隨機(jī)森林的傾斜數(shù)據(jù)處理問題上,Chen (2004)[7]提出的一種改進(jìn)算法。BRF是在隨機(jī)采樣輸入數(shù)據(jù)時,使多數(shù)類和少數(shù)類的數(shù)據(jù)量相當(dāng),在處理大型數(shù)據(jù)時較為有效。
1.4 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)[8]的拓?fù)浣Y(jié)構(gòu)(見圖1)由一個輸入層、一個輸出層、一個或多個隱藏層組成,單元之間由權(quán)重w相連接,每個單元有一個相關(guān)的偏倚。網(wǎng)絡(luò)的訓(xùn)練過程為數(shù)據(jù)從輸入層通過隱藏層到輸出層前向傳播,在輸出層進(jìn)行評估后將錯誤反饋回輸入層,在此過程中調(diào)節(jié)網(wǎng)絡(luò)節(jié)點連接權(quán)重和偏倚,使得網(wǎng)絡(luò)的誤差平方和最小。最終訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型用作樹形模型的對照組。
2.2.1 決策樹
⑴ Gini指標(biāo)計算優(yōu)化
在決策樹[9]CART的生成中,Gini指標(biāo)因為需考慮所有子集劃分,所以其計算量隨著特征值集的增加呈指數(shù)量上升。顯然,縮小值集空間能顯著降低運(yùn)算復(fù)雜度,但當(dāng)特征的值個數(shù)較少時(如<10),去除前1/3會影響到最優(yōu)子集的選擇,但隨著值個數(shù)的增加,這種影響會越來越不明顯。另外,當(dāng)每個值出現(xiàn)的次數(shù)相對平均時,縮小值集空間會明顯影響到最優(yōu)子集的選擇,而當(dāng)次數(shù)差異較大時,去除出現(xiàn)次數(shù)非常小的值幾乎不會影響到最優(yōu)子集。因此,為優(yōu)化Gini指標(biāo)的計算,對值集空間進(jìn)行縮減,方法:對于值個數(shù)小于10的特征,僅去除分布小于1%的值;而對值個數(shù)大于10的特征,去除值分布排名前1/3或其分布小于1%的值。
⑵ 樹剪枝
由于前期的數(shù)據(jù)處理已經(jīng)對數(shù)據(jù)中存在的噪聲進(jìn)行了平滑,所以不再采用決策樹剪枝。
2.2.2 平衡隨機(jī)森林
平衡隨機(jī)森林BRF算法中主要有兩個參數(shù)需要確定,一為森林規(guī)模,即森林中樹的數(shù)量;二為樹節(jié)點生成時隨機(jī)特征集的大小。
⑴ 森林規(guī)模
通過對于BRF在不同的數(shù)據(jù)量和森林規(guī)模下的性能評估如圖2所示,得出本次BRF算法效果最優(yōu)值在森林規(guī)模scale=610時取到,因此將森林規(guī)模設(shè)定為610。
⑵ 樹節(jié)點生成時隨機(jī)特征集的大小
通過對不同的隨機(jī)特征集數(shù)量設(shè)置對BRF挖掘分類效果的影響分析,N代表隨機(jī)特征集個數(shù),得出:隨著隨機(jī)特征集設(shè)置數(shù)量的增大,BRF效能也稍有提高,但相應(yīng)地,森林的生成時間也被明顯延長。另外,當(dāng)隨機(jī)屬性集較大時,算法挖掘效果提升不明顯,但森林生成時間卻被極大地延長。因此,為了平衡時間與算法挖掘效果,將隨機(jī)森林中的樹節(jié)點生成屬性集個數(shù)設(shè)定為5。
學(xué)習(xí)率的設(shè)定對神經(jīng)網(wǎng)絡(luò)的建立非常重要,如果學(xué)習(xí)率太大,可能會在不適當(dāng)?shù)慕庵g擺動;反之如果學(xué)習(xí)率太小,學(xué)習(xí)將進(jìn)行得過于緩慢。經(jīng)驗法則是利用訓(xùn)練集迭代次數(shù)t,將學(xué)習(xí)效率置為1/t大小。圖3為在均衡樣本下學(xué)習(xí)率分別為1.0和1/t時神經(jīng)網(wǎng)絡(luò)收斂比較。4.5是多叉分裂樹,而CART為二叉分裂樹)不同而帶來的性能影響外,還可能由于文本為平衡CART在Gini指標(biāo)的計算中的時間復(fù)雜度問題而進(jìn)行的算法優(yōu)化,造成了CART分類效果的降低。神經(jīng)網(wǎng)絡(luò)性能最低,這可能是由于其訓(xùn)練周期不夠造成的。神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)量巨大時其訓(xùn)練緩慢是一個不容忽視的問題。
3 結(jié)束語
如何更有效地將數(shù)據(jù)挖掘技術(shù)應(yīng)用于CRM,幫助企業(yè)通過有效的交流去了解和影響客戶行為,改善客戶獲取,客戶保持,增強(qiáng)客戶忠誠度,并由此增加盈利等是目前的研究重點。本文通過分析比較幾種樹形算法在電信客戶細(xì)分應(yīng)用中的表現(xiàn),得出平衡隨機(jī)森林具有相對較好的挖掘分類效果的結(jié)論,這對樹形算法更好的電信客戶細(xì)分應(yīng)用提供了一定的技術(shù)和理論支持。當(dāng)然,樹形算法在客戶細(xì)分應(yīng)用中還有著更為深入的研究,有待于我們進(jìn)一步探討。
參考文獻(xiàn):
[1] Turban E, Aronson J E, Liang T P, Sharda R. Decision support
and business intelligence systems[M]. Pearson Education,2007.
[2] John Ross Quinlan. C4.5: programs for machine learning[M].
Morgan Kaufmann,1993.
[3] Jiawei Han, Micheline Kamber. Data Mining Concepts and
Techniques[M]. Slsevier,2007:292-293
[4] Ji Zhou, Dasgupta D. Estimating the Detector Coverage in a
Negative Selection Algorithm[C]. Genetic and Evolutionary Computation Washington, DC June,2005:88-97
[5] Oates T, Jensen D. The effects of training set sizes on decision tree
[C]. Proc of the 14th Int'l Conf on Machine Learning. Nashville: Morgan Kaufman,1997:254-262
[6] Breslow L A, Aha D W. Simplifying decision trees: a survey[J].
Knowledge Engineering Review,1997.12(1):1-40
[7] Chao Chen, Andy Liaw, Leo Breiman. Using Random Forest to
Learn Imbalanced Data[M]. University of California, Berkeley. Technical Report.2010:1-12
[8] 王美玲,王念平,李曉.BP神經(jīng)網(wǎng)絡(luò)算法的改進(jìn)及應(yīng)用[J].計算機(jī)工程
與應(yīng)用,2009.45(37):47-48
[9] 楊學(xué)兵,張俊.決策樹算法及其核心技術(shù)[J].計算機(jī)技術(shù)與發(fā)展,
2007.17(1):43-45.
[10] 劉鵬,雷蕾,張雪鳳.缺失數(shù)據(jù)處理方法的比較研究[J].計算機(jī)科學(xué),
2004.31(10):155-156
[11] 喬珠峰,田鳳占,黃厚寬,陳景年.缺失數(shù)據(jù)處理方法的比較研究[J].
計算機(jī)研究與發(fā)展,2006.43(Suppl.):171-175
[12] Jianjun Xie, Viktoria R, Siddharth P, Stephen C. A Combination
of Boosting and Bagging for KDD Cup 2009-Fast Scoring on a Large Database[C]. JMLR: Workshop and Conference Proceedings,2009(7):35-43
[13] Japkowicz, N. The class imbalance problem: Significance and
strategies[C]. Proceedings of the 2000 international conference on artificial intelligence (IC-AI'2000),2000.
[14] J Burez, D Van den Poel. Handling class imbalance in customer
churn prediction[C]. Expert Systems with Applications,2009.36:4626-4636
[15] 姚登舉,楊靜,詹曉娟.基于隨機(jī)森林的特征選擇算法[J].吉林大學(xué)學(xué)
報(工學(xué)版),2012.42:1-5