程昊 樊重俊
摘要:文章以C5.0、Neural Net和Logistic三種算法作為構(gòu)建預測混合模型的基礎算法。在實證研究過程中,分別采用品牌、地區(qū)、網(wǎng)齡和賬單作為客戶細分變量,構(gòu)建了不同的客戶流失預測混合模型,用命中率和接受者操作特性(ROC)曲線對預測結(jié)果比較評估,得到以地區(qū)為客戶細分變量的混合模型預測效果最佳,以賬單為客戶細分變量的混合模型預測效果,其次以網(wǎng)齡和品牌為客戶細分變量的混合模型預測效果較差的結(jié)論。省級電信公司在構(gòu)建流失預測系統(tǒng)過程中,以客戶賬單(或客戶消費層次)作為細分變量,對各地區(qū)客戶單獨構(gòu)建流失預測模型;同時,要加強品牌管理,提高各品牌對客戶的區(qū)隔效果。
關鍵詞:決策樹;神經(jīng)網(wǎng)絡;客戶流失
客戶是指與企業(yè)建立長期穩(wěn)定的關系并愿意為企業(yè)提供的產(chǎn)品和服務承擔合適價格的購買者。客戶關系管理(customer relationship management)CRM是近年來比較流行的新興管理概念,最早由著名IT項目系統(tǒng)論證與決策權(quán)威機構(gòu)Gartner Group提出,是隨著互聯(lián)網(wǎng)與電子商務流入中國的管理理念之一。從科學管理的角度來觀察,客戶關系管理是由市場營銷理論演化而來的,從解決問題的角度來觀察,客戶關系管理是利用高科技信息技術將現(xiàn)代管理理念和營銷手段結(jié)合在一起應用到市場中,幫助企業(yè)解決難題,它凝聚了市場營銷、銷售管理、客戶關懷、客戶服務等要素在里面。
以品牌為細分變量將訓練集X1分為全球通數(shù)據(jù)子集、神州行數(shù)據(jù)子集和動感地帶數(shù)據(jù)子集,分別占比為7.2%、80.7%和12.1%。在對每個數(shù)據(jù)子集建模前再將數(shù)據(jù)分區(qū)為訓練集和測試集兩部分,分別占60.0%和40.0%;在訓練模型前進行特征選擇。然后,分別對每個數(shù)據(jù)子集采用C5.0、Logistic、Neural Net三種基本模型建模,選擇ROC曲線下方面積AUC最大的基本模型作為對該數(shù)據(jù)子集的建模模型。各品牌數(shù)據(jù)子集分別采用三種模型的預測結(jié)果的AUC如表1所示。
由表1中測試結(jié)果可知,對全球通數(shù)據(jù)子集和神州行數(shù)據(jù)子集來說,都是Neural Net的預測效果最好;對動感地帶數(shù)據(jù)子集說C5.0的預測效果最好。因此,得到混合預測模型如圖1所示。
以地區(qū)為細分變量將訓練集X1分為地區(qū)A數(shù)據(jù)子集、地區(qū)B數(shù)據(jù)子集和地區(qū)C數(shù)據(jù)子集,分別占比為52.5%、20.3%和27.2%。在對每個數(shù)據(jù)子集建模前再將數(shù)據(jù)分區(qū)為訓練集和測試集兩部分,分別占60.0%和40.0%;在訓練模型前進行特征選擇。然后,分別對每個數(shù)據(jù)子集采用C5.0、Logistic、Neural Net三種基本模型建模,選擇ROC曲線下方面積AUC最大的基本模型作為對該數(shù)據(jù)子集的建模模型。各地區(qū)數(shù)據(jù)子集分別采用三種模型的預測結(jié)果的AUC如表2所示。
由表2中測試結(jié)果可知,對地區(qū)A、地區(qū)B和地區(qū)C數(shù)據(jù)子集來說,都是Neural Net的預測效果最好。因此,得到混合預測模型如圖2所示。
以網(wǎng)齡為細分變量將訓練集X1分低網(wǎng)齡數(shù)據(jù)子集、中網(wǎng)齡數(shù)據(jù)子集和高網(wǎng)齡數(shù)據(jù)子集,分別占比為22.7%、44.9%和32.4%。在對每個數(shù)據(jù)子集建模前再將數(shù)據(jù)分區(qū)為訓練集和測試集兩部分,分別占60.0%和40.0%;在訓練模型前進行特征選擇。然后,分別對每個數(shù)據(jù)子集采用C5.0、Logistic、Neural Net三種基本模型建模,選擇ROC曲線下方面積AUC最大的基本模型作為對該數(shù)據(jù)子集的建模模型。各網(wǎng)齡層次數(shù)據(jù)子集分別采用三種模型的預測結(jié)果的AUC如表3所示。
由表3中測試結(jié)果可知,對低網(wǎng)齡數(shù)據(jù)子集和高網(wǎng)齡數(shù)據(jù)子集來說,都是Neural Net的預測效果最好;對中網(wǎng)齡數(shù)據(jù)子集來說Logistic的預測效果最好。因此,得到混合預測模型如圖3所示。
以三個月的月均賬單額為細分變量將訓練集X1分為低消費數(shù)據(jù)子集、中消費數(shù)據(jù)子集和高消費數(shù)據(jù)子集,分別占比為54.4%、28.9%和16.7%。在對每個數(shù)據(jù)子集建模前再將數(shù)據(jù)分區(qū)為訓練集和測試集兩部分,分別占60.0%和40.0%;在訓練模型前進行特征選擇。然后,分別對每個數(shù)據(jù)子集采用C5.0、Logistic、Neural Net三種基本模型建模,選擇ROC曲線下方面積AUC最大的基本模型作為對該數(shù)據(jù)子集的建模模型。各消費層次數(shù)據(jù)子集分別采用三種模型的預測結(jié)果的AUC如表4所示。
由表4中測試結(jié)果可知,對低消費數(shù)據(jù)子集來說,C5.0的預測效果最好;對中消費數(shù)據(jù)子集說Logistic的預測效果最好;對于高消費數(shù)據(jù)子集來說,Neural Net的預測效果最好。因此,得到混合預測模型如圖4所示。
(一)命中率比較
各種細分標準的混合模型對測試集X2預測的命中率結(jié)果如表5所示。
比較表5中的數(shù)據(jù)可知,以地區(qū)為細分變量構(gòu)建混合模型對測試集X2預測的命中率最高,達到86.1%;以賬單額為細分變量構(gòu)建混合模型對數(shù)據(jù)集X2預測的命中率次之,為85.9%;以品牌和網(wǎng)齡為細分變量構(gòu)建混合模型對測試集X2預測的命中率較低,分別為81.2%和76.2%。
(二)ROC曲線比較
用SPSS15.0對各混合模型在對測試集X2上的預測結(jié)果構(gòu)建ROC曲線,如圖5所示。
由各混合模型ROC曲線計算曲線下方的面積(AUC)如表6所示。
比較表6中的數(shù)據(jù)可知,以地區(qū)和賬單為細分標準構(gòu)建的混合模型,對測試集X2的預測效果較好,AUC分別為0.888和0.855;以網(wǎng)齡和品牌為細分標準構(gòu)建混合模型,對測試集X2的預測效果相對較差,其AUC分別為0.845和0.828。
本文分別以品牌、地區(qū)、網(wǎng)齡和賬單為細分變量細分客戶,以SPSS Clementine12.0中C5.0、Logistic、Neural Net三種分類算法模型作為基礎模型,構(gòu)建客戶流失預測混合模型,分別采用命中率和ROC曲線對各模型預測結(jié)果進行評估,得到一致的結(jié)論:當以地區(qū)為標準細分時的預測效果最好,以賬單為細分標準的預測效果其次,以網(wǎng)齡和品牌為細分標準的預測效果相對較差。因此,在今后的流失預測實踐中,建議省級電信公司以客戶消費賬單作為細分變量,對各地區(qū)客戶單獨構(gòu)建流失預測混合模型;同時,要加強品牌管理,提高各品牌對客戶的區(qū)隔效果。
參考文獻:
[1]武小軍,孟蘇芳.基于客戶細分和AdaBoost的電子商務客戶流失預測研究[J].工業(yè)工程,2017(02).
[2]葉志龍,黃章樹.線上會員客戶流失的建模與預測研究[J].管理現(xiàn)代化,2016(03).
[3]邵帥鋒.基于BP神經(jīng)網(wǎng)絡對保險公司客戶流失進行分析和預測研究[D].蘭州大學,2016.
[4]高潔.基于灰色模型和神經(jīng)網(wǎng)絡的客戶流失量預測[J].內(nèi)蒙古師范大學學報(自然科學漢文版),2015(06).
[5]單其帥.基于粗糙集-BP神經(jīng)網(wǎng)絡的電信企業(yè)客戶失風險預警研究[D].河北工程大學,2014.
(作者單位:上海理工大學)