余婉露
摘? 要: 如何幫助企業(yè)提前識別高風(fēng)險流失客戶,已成為許多管理者關(guān)心的問題。許多數(shù)據(jù)挖掘方法用于通訊客戶流失案例中時,存在因變量的分布不均勻?qū)е滤惴ň认陆档膯栴}。文章采用人工數(shù)據(jù)合成法來解決該問題,提出四種客戶流失預(yù)警模型:GLM-logistic回歸模型,GAM-logistic回歸模型,Sem-parameter GAM-logistic回歸模型和隨機森林模型。以AUC和覆蓋率-捕獲率作為評價指標(biāo)進行比較,構(gòu)建出最合適該案例的Sem-parameter GAM-logistic預(yù)警模型,以幫助企業(yè)減少不必要的客戶流失及由此帶來的企業(yè)損失。
關(guān)鍵詞: 人工數(shù)據(jù)合成法; 預(yù)警模型; Sem-parameter GAM-logistic; 覆蓋率-捕獲率
中圖分類號:O213? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? 文章編號:1006-8228(2021)07-06-04
Communication customer churn prediction model with synthetic data generation
Yu Wanlu
(Jinshan College of Fujian Agriculture and Forestry University, Fuzhou, Fujian 350002, China)
Abstract: How to help enterprises identify high-risk customer churn in advance has become one of the concerns of many enterprise managers. When many data mining methods are used in communication customer churn cases, the uneven distribution of dependent variables leads to the decline of algorithm's accuracy. In this paper, synthetic data generation is used to solve this problem, and four customer churn early warning models are put forward, i.e. GLM-logistic regression model, GAM-logistic regression model, Sem-parameter GAM-logistic regression model and random forest model. And AUC and coverage rate-capture rate are used as evaluation indexes to build the most suitable Sem-parameter GAM-logistic early warning model for the case, so as to help the enterprise reduce unnecessary customer churn and the losses caused thereby.
Key words: synthetic data generation; prediction model; Sem-parameter GAM-logistic; coverage rate-capture rate
0 引言
隨著大數(shù)據(jù)處理和分析技術(shù)的不斷發(fā)展,客戶選擇產(chǎn)品以及服務(wù)的形式越來越多樣化,所以,企業(yè)如何對客戶數(shù)據(jù)進行深度挖掘,減少現(xiàn)有客戶群流失且發(fā)現(xiàn)新的客戶群體,顯得十分重要。以通訊運營商企業(yè)為例,通訊企業(yè)想要在日益激烈的市場環(huán)境下穩(wěn)定快速發(fā)展,并收獲最大經(jīng)濟、社會效益,就離不開高質(zhì)量的企業(yè)客戶維系管理[1],因此,通訊客戶流失量預(yù)測與分析成為各大運營商關(guān)注的焦點問題。
數(shù)據(jù)挖掘技術(shù)不斷進步,越來越多的客戶流失預(yù)警模型都用到了數(shù)據(jù)挖掘技術(shù)。在眾多預(yù)警模型中,常用的數(shù)據(jù)挖據(jù)算法有邏輯回歸模型、廣義可加模型、支持向量機、決策樹、神經(jīng)網(wǎng)絡(luò)、隨機森林等[2-3]。正確選擇以及處理預(yù)警模型對模型預(yù)測的準(zhǔn)確性及效率有著很大影響。
本文深入分析和研究了一些常用客戶流失預(yù)警模型的相關(guān)算法[4],比較各種模型的優(yōu)勢和不足。目前有許多數(shù)據(jù)挖掘方法還僅限于理論研究,在客戶資源流失預(yù)測領(lǐng)域的運用仍存在著許多的缺失。①大多數(shù)現(xiàn)實案例選用的流失預(yù)警模型的算法單一,預(yù)測效果不佳,無法幫助企業(yè)精準(zhǔn)識別高風(fēng)險流失客戶,也因此影響了客戶流失預(yù)警模型的一般性。②客戶流失量數(shù)據(jù)是一種典型的不平衡數(shù)據(jù),流失客戶為小規(guī)模用戶,在客戶流失預(yù)警模型的預(yù)測過程中,容易掩蓋流失客戶數(shù)據(jù)行為的大量變化特征,使得客戶流失量預(yù)測的準(zhǔn)確性降低。③針對客戶流失預(yù)警模型的評價方法缺乏合理性。對模型采取的評價指標(biāo)不同,會影響對模型效果好壞的判定,最終影響企業(yè)管理者對高風(fēng)險流失客戶的保護策略。
為解決上述問題,本文以通訊客戶為案例,基于人工數(shù)據(jù)合成法的基礎(chǔ)上,提出四種客戶流失預(yù)警模型:GLM-logistic回歸,GAM-logistic回歸,Sem-parameter GAM-logistic回歸模型,隨機森林。
1 數(shù)據(jù)說明及處理
1.1 樣本及其來源
文章研究數(shù)據(jù)來自某移動通信公司,隨機選取5萬個左右VIP(平均每月花費大于80元)客戶,2014-2015年月度的基礎(chǔ)通訊數(shù)據(jù)和通話詳單數(shù)據(jù)為樣本,數(shù)據(jù)來源于文獻(xiàn)《自我網(wǎng)絡(luò)特征對電信客戶流失的影響》[5]。樣本量為48393,隨機取30000個數(shù)據(jù)為訓(xùn)練集;18393為測試集。
1.2 數(shù)據(jù)說明及處理
1.2.1 因變量說明及處理
文章研究的因變量表示客戶是否流失,為1-0變量,1表示客戶流失,0表示客戶不流失,具體的因變量介紹見表1。
從表1可以發(fā)現(xiàn),流失客戶為小規(guī)模用戶,在客戶流失的預(yù)測過程中流失客戶的數(shù)據(jù)行為的大量變化特征將被掩蓋,不平衡數(shù)據(jù)使得算法精度下降,尤其對于小類的預(yù)測精度會很低,所以本文采用人工數(shù)據(jù)合成法(Synthetic Data Generation),解決數(shù)據(jù)的不平衡問題。該方法是利用生成人工數(shù)據(jù),而不是重復(fù)原始觀測來解決不平衡性。借助R語言統(tǒng)計分析軟件[6]實現(xiàn)人工數(shù)據(jù)合成法,得到改善后的因變量見表2。
從表2可以看出,借助人工數(shù)據(jù)合成法(Synthetic Data Generation),客戶流失率從1.34%提升到49.6%,有效解決數(shù)據(jù)的不平衡問題。
1.2.2 自變量說明及處理
文章研究的因變量包括在網(wǎng)時長、當(dāng)月費用、費用的變化率、聯(lián)系強度、個體的度、個體度的變化率、個體信息熵,自變量說明見表3。
自變量的生成方法以及推導(dǎo)過程,可參考文獻(xiàn)[5]。由于自變量皆為連續(xù)變量,在后文的模型建立中,所有自變量數(shù)據(jù)作標(biāo)準(zhǔn)化處理。
2 通訊客戶流失預(yù)警模型的實證研究
為了給通訊企業(yè)提供性價比高的客戶識別方案,對于客戶是否流失這樣的分類問題,建立以下四種分類模型,來做分析比較。
2.1 GLM-logistic回歸模型
GLM-logistic回歸模型的一般形式如下:
[logitPY=1=logp1-p=β0+β1x1+β2x2+…+βmxm] ⑴
公式⑴可計算得出在給定一系列[X]取值時[Y=1]的概率,系數(shù)[βi]的大小可以用來反映用來反映因變量[Y]與自變量[X]之間的某種關(guān)聯(lián)。針對本案例數(shù)據(jù),GLM-logistic回歸模型具體如下:
[logitPY=1=β0+β1tenure+β2expense+? ? ? ? ? ? ? ? ? ? ?β3degree+β4tightness+β5entropy+]
[? ? ? ? ? ? ? ? ? ? ?β6chgexpense+β7chgdegree] ⑵
使用該模型在測試集上的混淆矩陣結(jié)果見表4。
2.2 GAM-logistic回歸模型
GAM模型是一種非參數(shù)模型,該模型相比參數(shù)模型的優(yōu)勢在于其不需要假設(shè)某種函數(shù)形式,只需要滿足自變量對因變量的影響是獨立即可。該模型的一般形式如下:
[gμ=β0+f1(x1)+f2(x2)+…+fm(xm)]? ⑶
其中,[μ=E(Y|X1,X2,…Xm)]。在客戶流失的案例中,因變量通常表示客戶是否流失,所以文章采用GAM模型與logistic回歸分析相結(jié)合的方法,對通訊客戶案例進行客戶流失預(yù)警分析。GAM-logistic回歸模型的一般形式如下:
[logitPY=1=logp1-p=β0+f1(x1)+f2(x2)+…+fm(xm)] ⑷
在公式⑷中,[fi(xi)]為平滑函數(shù),[ i=i,2,…,m],用來代替有固定參數(shù)的傳統(tǒng)線性項。針對本案例數(shù)據(jù),GAM-logistic回歸模型具體如下:
[logitPY=1=? ?β0+f1tenure+f2expense+? ? ? ? ? ? ? ? ? ? f3degree+f4tightness+f5entropy+? ? ? ? ? ? ? ? ? ?f6(chgexpense)+f7(chgdegree)]? ⑸
使用該模型在測試集上的混淆矩陣結(jié)果見表5。
2.3 Sem-parameter GAM-logistic回歸模型
在現(xiàn)實的應(yīng)用中,所有的變量作線性假設(shè)往往不太合理,為了增加模型的可解釋性和靈活性,半?yún)V義可加模型是基于統(tǒng)計模型方法的較好選擇。綜合考慮廣義可加模型的回歸結(jié)果,[entropy]、[expense]這兩個變量線性成分明顯,其他的變量非線性成分均明顯,所以,在本部分分別將[entropy]、[expense]作為線性成分處理,其他變量均以非線性形式出現(xiàn)在模型中。
[logitPY=1=β0+f1tenure+β2expense+? ? ? ? ? ? f3degree+f4tightness+β5entropy +]
[? ? ? ? ? ? f6(chgexpense)+f7(chgdegree)]? ⑹
使用該模型在測試集上的混淆矩陣結(jié)果見表6。
2.4 隨機森林
隨機森林(random forest)是一種有監(jiān)督學(xué)習(xí)方法,隨機森林模型中可以同時生成多個預(yù)測模型,并匯總模型的結(jié)果以提升分類準(zhǔn)確率。該方法的優(yōu)勢在于不存在過擬合問題,并且分類性能好[7]。本模型采用隨機森林進行分析。利用R語言統(tǒng)計分析軟件,可以得到變量的重要性度量,如圖1所示。
由圖1可以看出幾個變量重要程度都較高,其中最重要的變量分別為個體的度和個體度的變化率,這說明客戶通話人數(shù)對該客戶流失與否的影響很大,通訊企業(yè)應(yīng)重點關(guān)注客戶這兩個變量的情況。使用該模型在測試集上的混淆矩陣結(jié)果見表7。
3 模型評價
文章采取兩個指標(biāo)對模型進行評價,第一個指標(biāo)是測試集上的AUC;第二個指標(biāo)是在測試集上計算覆蓋率—捕獲率[5]。
3.1 指標(biāo)1——AUC
在數(shù)據(jù)挖掘領(lǐng)域,AUC值是作為客戶流失預(yù)警模型的常用評價指標(biāo)之一。AUC值越大,效果越好。本案例中四個模型最終得到的AUC值如表8所示。
由表8可知,若以AUC值為評價指標(biāo),Sem-parameter GAM-logistic回歸模型效果最佳。
3.2 指標(biāo)2——覆蓋率-捕獲率
本研究還采用覆蓋率-捕獲率作為評判模型預(yù)測精度的指標(biāo)。覆蓋率-捕獲率曲線指的是在給定成本下,我們根據(jù)模型或者隨機選取一定的客戶,能找到真正流失的客戶占總流失客戶的比例,這個值越高,表明模型越好。
假設(shè)通訊企業(yè)選取20%的客戶進行保護,則采用不同預(yù)警模型抽中流失客戶的比例也不同。具體結(jié)果如表9所示。
從表9可知,若以覆蓋率-捕獲率作為評判模型預(yù)測精度的指標(biāo),可發(fā)現(xiàn)半?yún)AM-logistic回歸模型效果最好,GLM-logistic回歸模型的效果最差。
4 結(jié)論
客戶流失管理正越來越受到企業(yè)的關(guān)注和重視。客戶流失預(yù)警作為一種有效的客戶流失管理方法,對潛在流失客戶進行預(yù)測分析,及時預(yù)警并采取相應(yīng)挽留措施,可以有效減少不必要的客戶流失,一定程度上減少企業(yè)損失。在這樣的背景下,本文提出了基于數(shù)據(jù)挖掘的客戶流失預(yù)警模型研究,通過對比模型的預(yù)測效果,發(fā)現(xiàn)無論是從指標(biāo)1還是指標(biāo)2來看,Sem-parameter GAM-logistic回歸模型在是否流失的分類問題上,效果均顯示較好。此外,無論使用哪種預(yù)測模型,預(yù)測效果均明顯優(yōu)于不使用模型的隨機預(yù)測效果。
因此,建議企業(yè)可采取的措施有:借助客戶流失預(yù)警模型,根據(jù)成本預(yù)算來選擇不同的覆蓋率,對客戶進行預(yù)測,設(shè)定閾值,一旦預(yù)測的流失概率超過了設(shè)定的閾值,那么企業(yè)應(yīng)重點關(guān)注該客戶。
本研究還存在著一些不足和需要改進的地方,如所構(gòu)建的四種流失預(yù)警模型的拓展性不強,當(dāng)現(xiàn)實案例出現(xiàn)新的數(shù)據(jù)集時,預(yù)測效果缺乏穩(wěn)定性。因此,我們下一步的研究方向是在不同領(lǐng)域?qū)ふ易顑?yōu)的客戶流失預(yù)警模型算法。
參考文獻(xiàn)(References):
[1] 羅彬,邵培基,羅盡堯等.基于預(yù)算限制和客戶挽留價值最大化的電信客戶流失挽留研究[J].管理學(xué)報,2012.9(2):280
[2] 盛昭瀚,柳炳祥.客戶流失危機分析的決策樹方法[J].管理科學(xué)學(xué)報,2005.8(2):20-25
[3] Hastie T,Tibshirani R, Friedman J. The Elements of
Statistical Learning Data Mining,Inference,and Prediction, Second Edition[M].世界圖書出版公司,2009.
[4] YANG Q, WU X. 10 challenging problems in data mining
research[J].International Journal of Information Technology & Decision Making,2006.5(4):597-604
[5] 周靜,周小宇,王漢生.自我網(wǎng)絡(luò)特征對電信客戶流失的影響[J].管理科學(xué),2017.5.
[6] 方匡南,朱建平,姜葉飛.R數(shù)據(jù)分析方法與案例詳解[M].電子工業(yè)出版社,2015.
[7] LI X K, CHEN W, ZHANG Q, et al. Building auto-encoder
intrusion detection system based on random forest feature selection[J]. Computers & Security,2020.95:101851