張 宇,張之明
(1.西安交通大學(xué) 經(jīng)濟(jì)與金融學(xué)院,陜西 西安710061;2.陜西省郵政公司 電子商務(wù)局,陜西 西安710061;3.武警工程大學(xué) 信息工程系,陜西 西安710068)
近年來,隨著電信行業(yè)的迅猛發(fā)展,各運(yùn)營商之間的競爭逐漸加劇,客戶可選擇的運(yùn)營商和產(chǎn)品日益增多,客戶流失問題是困擾運(yùn)營商的一大難題??蛻羰瞧髽I(yè)的利潤之源,有效防止客戶流失,提高客戶忠誠度,對于企業(yè)的生存與發(fā)展有非常重要的意義。研究表明,客戶流失率減少5%,能給企業(yè)帶來30%~85%的利潤增長;發(fā)展新客戶的成本是挽留客戶的5~7倍,而挽留客戶的成功率卻是發(fā)展新客戶成功率的16倍[1]??蛻袅魇ьA(yù)警就是利用數(shù)據(jù)挖掘算法發(fā)現(xiàn)即將流失的客戶名單,從而為企業(yè)有針對性地開展客戶維系與挽留工作提供科學(xué)的參考和依據(jù)[2]。數(shù)據(jù)挖掘技術(shù)是分析客戶流失的一項(xiàng)關(guān)鍵技術(shù)。它能夠從海量的隨機(jī)數(shù)據(jù)中,提取有用信息。確切地說,數(shù)據(jù)挖掘主要依據(jù)人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等理論知識(shí),高度智能地分析原有數(shù)據(jù),做出歸納性推理,從中挖掘出潛在的模式,能夠預(yù)測客戶的行為,幫助企業(yè)的決策者調(diào)整市場策略,減少風(fēng)險(xiǎn),做出正確決策[3]。
目前,短信產(chǎn)品內(nèi)容服務(wù)提供商競爭日趨激烈,如何保有現(xiàn)有客戶,較準(zhǔn)確地預(yù)測客戶的流失,并采用及時(shí)有效的措施是許多企業(yè)面臨的新課題。然而,現(xiàn)有客戶流失預(yù)警模型在預(yù)測電子商務(wù)行業(yè)短信產(chǎn)品方面的實(shí)證分析應(yīng)用較少,基于這樣的考慮,本文利用C5.0決策樹算法建立了一種客戶流失預(yù)警模型,并將該模型應(yīng)用于中國郵政企業(yè)的短信業(yè)務(wù),對其進(jìn)行了實(shí)證研究,旨在對短信產(chǎn)品客戶流失的情況進(jìn)行分析、保有和預(yù)警,并對相關(guān)行業(yè)的企業(yè)提供管理建議。結(jié)果表明,該模型提供了較高的命中率和覆蓋率,具有良好的預(yù)警功能,可幫助企業(yè)及時(shí)發(fā)現(xiàn)有可能流失的客戶,最大程度減少客戶流失。
目前,國內(nèi)外客戶流失預(yù)測算法主要包括基于傳統(tǒng)統(tǒng)計(jì)學(xué)的預(yù)測、基于人工智能的預(yù)測、基于統(tǒng)計(jì)理論的預(yù)測、基于組合分類器的預(yù)測和基于仿生學(xué)算法的預(yù)測[4]。其中,使用最為廣泛的三種算法是Logistic回歸[5]、決策樹[6]和人工神經(jīng)網(wǎng)絡(luò)[7]。
Logistic回歸是一種使用一些已知的變量來預(yù)測未知變量的方法,屬于線性回歸,其根據(jù)最大似然原則使用訓(xùn)練樣本數(shù)據(jù)對未知的回歸系數(shù)進(jìn)行估計(jì)。決策樹是一種以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,著眼于從一組無次序、無規(guī)則的事例中歸納和推斷出以決策樹表示的分類規(guī)則。神經(jīng)網(wǎng)絡(luò)是一種人腦思考仿真的數(shù)據(jù)挖掘技術(shù),具有和人類大腦相似的結(jié)構(gòu)和功能,在經(jīng)過訓(xùn)練之后,系統(tǒng)可以在沒有人為干預(yù)的情況下為新的輸入數(shù)據(jù)做輸出預(yù)測。三種建模方法相比,決策樹由于具有良好的容臟能力和解釋能力等得到了研究者和應(yīng)用者的青睞。Chan P.K.等人認(rèn)為,相比其他建模方法,決策樹具有優(yōu)秀的學(xué)習(xí)效率和出色的解釋能力,是業(yè)界廣泛采用的建模方法[8]。崔永哲采用決策樹算法中的C4.5算法對電信客戶建立流失預(yù)警模型[9],然而相比 C5.0算法,C4.5算法不包含Boosting機(jī)器學(xué)習(xí)思想,算法精度上不如C5.0。徐燕妮等人比較了決策樹和邏輯回歸的優(yōu)劣,找出了兩種建模方法的互補(bǔ)性,提出了創(chuàng)新性模型TreeLogit,將決策樹和邏輯回歸方法的優(yōu)點(diǎn)結(jié)合起來建立電信客戶流失預(yù)警模型[10]。顧光同等人為了進(jìn)一步研究預(yù)警規(guī)則的可信度,在傳統(tǒng)決策樹算法的基礎(chǔ)上將客戶流失預(yù)警規(guī)則Ci(i=1,2,…,k)引入二元 Logistic回歸[11]。張瑩瑩應(yīng)用CRISP-DM數(shù)據(jù)挖掘過程方法論,在TreeLogit模型的基礎(chǔ)上提出了mSTree-Logistic模型,通過對使用多個(gè)樣本集分別訓(xùn)練出的多棵決策樹預(yù)測函數(shù)進(jìn)行邏輯回歸得到最終的預(yù)測函數(shù)[12]。
此外,鄧森文等人將Cox模型應(yīng)用于客戶流失預(yù)測研究中,通過計(jì)算訓(xùn)練樣本中每個(gè)客戶的生存概率對可能流失的客戶進(jìn)行預(yù)測[13]。蔣國瑞等人針對客戶流失數(shù)據(jù)集的非平衡性和錯(cuò)分代價(jià)的差異性問題,基于傳統(tǒng)的支持向量機(jī)(Support Vector Machine,SVM)方法,將代價(jià)敏感學(xué)習(xí)應(yīng)用于采用不同懲罰系數(shù)的支持向量機(jī),建立了客戶流失預(yù)測模型[1]。
整體來看,關(guān)于客戶流失的預(yù)測,決策樹方法是比較先進(jìn),發(fā)展較快,研究較深入,也是應(yīng)用較多的方法。本文正是采用決策樹的方法來建立郵政短信業(yè)務(wù)的客戶流失預(yù)警模型。
本文采用決策樹的方法來建立郵政短信業(yè)務(wù)的客戶流失預(yù)警模型。原因是:一方面,整體來看,在客戶流失的預(yù)測研究中,決策樹方法是比較先進(jìn),發(fā)展較快,研究較深入,也是應(yīng)用較多的方法;另一方面,決策樹方法對數(shù)據(jù)準(zhǔn)備要求較低,而其他的技術(shù)往往要求先把數(shù)據(jù)一般化,比如去掉多余的或者空白的屬性;而且在相對短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。本文研究的數(shù)據(jù)是由兩個(gè)不同的平臺(tái)(郵政金融平臺(tái)和郵政短信平臺(tái))中抽取而來,許多字段中的記錄存在缺失項(xiàng),而且抽取量巨大,達(dá)四百多萬條,因此這兩個(gè)獨(dú)特的優(yōu)點(diǎn)更適合本文的數(shù)據(jù)情況。
在具體模型選擇上,本文采取業(yè)界應(yīng)用較多的容臟能力與解釋力較強(qiáng)的C5.0決策樹方法來建立預(yù)警模型。C5.0決策樹算法中引入了Boosting技術(shù)[14]。Boosting技術(shù)通過建立一組決策樹模型來提高算法精度,具體步驟為:第一,對每個(gè)樣本賦予同一初始權(quán)重值;第二,利用訓(xùn)練集構(gòu)造決策樹,對決策樹判斷錯(cuò)誤的樣本增大其權(quán)重;第三步,選擇樣本建立一個(gè)新的決策樹模型,權(quán)重越大的樣本被選中的概率越高,通過這種方式就能夠?qū)ε袛噱e(cuò)誤的樣本更加關(guān)注,反復(fù)迭代至規(guī)定的次數(shù),或直到分類誤差小于某個(gè)閾值,同時(shí)在建立的決策樹模型中,每個(gè)模型也被賦予一個(gè)權(quán)重值,模型的錯(cuò)誤率越低,該模型的權(quán)重就越大。
基于C5.0決策樹算法,本文的客戶流失預(yù)警模型的建模過程如圖1所示。首先,模型的輸入為經(jīng)過數(shù)據(jù)約簡后的屬性集合。該屬性集合輸入模型的數(shù)據(jù)集包括一個(gè)目標(biāo)屬性,該屬性將記錄分為兩類:有離網(wǎng)傾向的客戶和無離網(wǎng)傾向的客戶。其次,將數(shù)據(jù)集中2/3的記錄作為訓(xùn)練集,用來構(gòu)造模型,確定模型參數(shù)權(quán)重值,其余數(shù)據(jù)集1/3記錄分為驗(yàn)證集和測試集,驗(yàn)證集用來防止建立的模型出現(xiàn)“過擬和”現(xiàn)象,測試集用來對模型的預(yù)測能力進(jìn)行檢驗(yàn)。
圖1 客戶流失預(yù)警模型的建模過程圖
郵政短信業(yè)務(wù)是依托郵政行業(yè)內(nèi)部業(yè)務(wù)資源,根據(jù)用戶的需求,把郵政各專業(yè),特別是郵政儲(chǔ)蓄、電子匯兌、窗口速遞和集郵專業(yè)提供的相關(guān)信息以手機(jī)短信方式傳遞給客戶的一項(xiàng)增值業(yè)務(wù)。目前已經(jīng)有超過200億元的業(yè)務(wù)收入和1億以上的穩(wěn)定客戶群。但是近年來,該業(yè)務(wù)面臨較大的同業(yè)競爭壓力,用戶流失率居高不下,因此亟待對短信客戶構(gòu)建流失預(yù)警模型,識(shí)別潛在流失客戶,分析潛在流失客戶特征,明確目前客戶流失的基本原因,為采用不同的保有客戶策略提供依據(jù)。
下面以選取業(yè)務(wù)范圍最廣、客戶數(shù)據(jù)最多,流失率最大的郵政儲(chǔ)蓄余額變動(dòng)短信通知業(yè)務(wù)為例構(gòu)建流失預(yù)警模型。通過分析發(fā)現(xiàn)客戶在剛過免費(fèi)期(每個(gè)選擇郵政儲(chǔ)蓄余額短信變動(dòng)的客戶有兩個(gè)月免費(fèi)試用期)通知后的兩個(gè)月內(nèi)流失率較高,所以優(yōu)先對此部分客戶建模預(yù)警,樣本數(shù)據(jù)選取如下:1.訓(xùn)練集,用于構(gòu)建付費(fèi)期客戶流失預(yù)警模型。正樣本(在網(wǎng)客戶指免費(fèi)期后一直使用此業(yè)務(wù)的用戶):2月份加辦,在免費(fèi)期過后兩個(gè)月(5、6月)內(nèi)未流失的客戶,取2、3、4月的金融指標(biāo)。負(fù)樣本(流失客戶):2月份加辦,在免費(fèi)期過后兩個(gè)月(5、6月)內(nèi)流失的客戶,取2、3、4月的金融指標(biāo)。2.驗(yàn)證集,用于驗(yàn)證模型效果。取3月份加辦短信的用戶,將其輸入模型驗(yàn)證其在6、7月的流失情況,取3、4、5月的金融指標(biāo)。以上數(shù)據(jù)需在郵政金融平臺(tái)和郵政短信平臺(tái)兩個(gè)系統(tǒng)中分別選取。
關(guān)于樣本代表性問題,本研究中主要涉及二月份加辦的客戶樣本是否有代表性?由于本文是將二月份這一時(shí)段的所有數(shù)據(jù)全部提取,因此樣本的代表性主要就考慮季節(jié)因素的影響。經(jīng)過對全年數(shù)據(jù)的抽樣分析發(fā)現(xiàn),各月加辦的客戶在人口統(tǒng)計(jì)特征方面(包括性別、年齡、收入等)沒有顯著差別,因此二月份的加辦數(shù)據(jù)具有一定的代表性。
本文選取2010年2月至2011年1月之間郵儲(chǔ)用戶中采納辦理短信業(yè)務(wù)后又在不同時(shí)間采取不同方式流失的客戶,累計(jì)抽取4 221 792人次,并根據(jù)郵政短信業(yè)務(wù)類型對數(shù)據(jù)進(jìn)行分類。短信業(yè)務(wù)類型字段包括是否在網(wǎng)(在網(wǎng)(采納)用戶約234萬,離網(wǎng)(采納后流失)用戶約288萬);加辦方式(柜面加辦約214萬,批量加辦約208萬);退訂方式(手機(jī)退訂33萬,其他389萬);服務(wù)類型(18種服務(wù)中,活期余額變通通知占比最大,約227萬)、計(jì)費(fèi)類型(包月用戶約206萬,包年用戶約51萬),另外還有資費(fèi)、免費(fèi)額、免費(fèi)期等。
接著,從以上數(shù)據(jù)抽取免費(fèi)期后繼續(xù)使用兩個(gè)月以上客戶1.2萬人次,抽取免費(fèi)期內(nèi)流失客戶2萬人次,其主要的業(yè)務(wù)類型數(shù)據(jù)如表1所示。通過對比可以看出,繼續(xù)使用的客戶平均在網(wǎng)時(shí)長顯著高于流失客戶,且時(shí)長較為穩(wěn)定。兩者的賬戶交易數(shù)據(jù)都呈現(xiàn)標(biāo)準(zhǔn)差顯著高于均值的現(xiàn)象,說明受極端值影響較大,而多數(shù)客戶的賬戶交易不頻繁,且涉及的額度較少。相比之下,流失客戶的價(jià)值要高于繼續(xù)使用的客戶,尤其是其中包括了潛在的黃金客戶。
表1 免費(fèi)期后使用兩個(gè)月以上的客戶與流失客戶的對比數(shù)據(jù)表
最后,根據(jù)兩個(gè)系統(tǒng)進(jìn)行數(shù)據(jù)關(guān)聯(lián),形成具體建模變量及重要性打分如表2所示。其中,在網(wǎng)時(shí)長等15項(xiàng)指標(biāo)為非常重要的建模變量,賬戶前三個(gè)月非賬務(wù)月均交易筆數(shù)等6項(xiàng)指標(biāo)為一般重要的建模變量。
根據(jù)上文選定的變量,建立決策樹模型。建模步驟為:(1)數(shù)據(jù)質(zhì)量檢查。通過對最小值、最大值、均值、空值等的檢查,檢查參與建模的數(shù)據(jù)是否合理。(2)樣本正負(fù)比例調(diào)整。對參與建模的正負(fù)樣本,根據(jù)實(shí)際比例或者其他經(jīng)驗(yàn)比例進(jìn)行抽樣。(3)變量特征選擇。根據(jù)變量的標(biāo)準(zhǔn)差、變異系數(shù)等計(jì)算參與建模的變量相對于分類變量的重要性,在此步驟選取合理的變量參與建模。(4)模型訓(xùn)練。選取C5.0決策樹算法構(gòu)建流失預(yù)警模型,根據(jù)模型的提升度,命中率、準(zhǔn)確率等不斷對模型調(diào)整優(yōu)化。(5)模型驗(yàn)證。把驗(yàn)證集輸入模型,校驗(yàn)?zāi)P偷臏?zhǔn)確度,根據(jù)驗(yàn)證的結(jié)果再對模型進(jìn)行合理調(diào)整,直到達(dá)到可用的結(jié)果。具體建模指標(biāo)如圖2所示。
通過計(jì)算命中率和覆蓋率,具體評估結(jié)果為:模型命中率37.6%,模型覆蓋率24.42%。模型的性能達(dá)到了業(yè)內(nèi)的一流水平,可以有效支撐短信客戶保有工作。根據(jù)模型輸出的決策樹,可以得到以下結(jié)果:(1)賬戶類型:折賬戶;(2)交費(fèi)類型:包月;(3)非賬務(wù)交易筆數(shù):最近一月幾乎沒有;(4)年齡:35歲以下;(5)月日均余額:上月在90元左右。
圖2 郵政企業(yè)短信業(yè)務(wù)客戶流失預(yù)警模型建模變量圖
因此,郵政企業(yè)短信業(yè)務(wù)流失的客戶特征結(jié)論如下:
1.35 歲以下連續(xù)月日均余額不超過90元,對短信業(yè)務(wù)資費(fèi)較敏感;
2.僅開設(shè)存折賬戶未開設(shè)卡賬戶,開通的短信通知交易類型為包月型,流程需優(yōu)化,增加前期關(guān)懷;
3.至少近一個(gè)月來未發(fā)生賬務(wù)交易,且連續(xù)6個(gè)月賬務(wù)交易筆數(shù)很低,缺少業(yè)務(wù)體驗(yàn)。
表2 具體建模變量及重要性打分表
本文針對企業(yè)中客戶流失日益嚴(yán)重的現(xiàn)狀,采用數(shù)據(jù)挖掘技術(shù)中的C5.0決策樹算法構(gòu)建了一種客戶流失預(yù)警模型,并將該模型應(yīng)用于中國郵政企業(yè)的短信業(yè)務(wù),對其進(jìn)行了實(shí)證研究。本文結(jié)果表明,該模型提供了較高的命中率和覆蓋率,具有良好的預(yù)警功能,可幫助企業(yè)及時(shí)發(fā)現(xiàn)有可能流失的客戶,最大程度減少客戶流失。最后,根據(jù)本文的研究結(jié)果,確定了郵政短信流失客戶的特征,由此給出對流失客戶保有的實(shí)施建議,即在價(jià)格、功能、流程、內(nèi)容四方面提出以下業(yè)務(wù)優(yōu)化建議:
1.價(jià)格。目前郵政短信產(chǎn)品的資費(fèi)過于簡單,缺乏優(yōu)惠包與短期調(diào)整項(xiàng),建議豐富資費(fèi)體系,對短信產(chǎn)品增加優(yōu)惠包。
2.功能。目前短信功能較為單一,建議打包財(cái)務(wù)管理類的功能,升級賬戶管家功能,產(chǎn)品功能面可采用短信或彩信,發(fā)送頻次為每月一次,發(fā)送內(nèi)容為當(dāng)月賬戶的財(cái)務(wù)匯總結(jié)果,包括月末的賬戶余額通知、本月累進(jìn)的入賬金額、本月累計(jì)的去帳金額,彩信版可附加更多內(nèi)容,如基金、理財(cái)?shù)取?/p>
3.流程。針對短信業(yè)務(wù)中重復(fù)申請免費(fèi)期、當(dāng)月扣款不成功的問題加以管理,重復(fù)申請免費(fèi)期的問題,建議設(shè)定規(guī)則限定每張綠卡僅能享受1~2次免費(fèi)期,對當(dāng)月扣款不成功的問題,建議對當(dāng)月扣費(fèi)失敗的用戶,下期扣費(fèi)時(shí)優(yōu)先扣除上期欠費(fèi)。同時(shí),建議增加前期短信關(guān)懷,針對入網(wǎng)30天左右給予用戶關(guān)懷,降低用戶在56天接收扣費(fèi)短信的突兀感,從而降低用戶流失率。
4.內(nèi)容。充分利用已開通短信產(chǎn)品里面的剩余可利用空間,將此渠道作為短信營銷的新興渠道,在提供服務(wù)的同時(shí),推薦新的資費(fèi)包、優(yōu)惠包、服務(wù)包,打造服務(wù)營銷一體化的模式,激發(fā)客戶潛在需求,形成新的增加點(diǎn)。
[1] 蔣國瑞,司學(xué)峰.基于代價(jià)敏感SVM的電信客戶流失預(yù)測研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(2).
[2] 何躍,何正林,周欣胤.基于數(shù)據(jù)挖掘的固網(wǎng)大客戶流失組合預(yù)警[J].軟科學(xué),2012,26(1).
[3] 卿財(cái)源.數(shù)據(jù)挖掘在電信寬帶客戶流失預(yù)警中的應(yīng)用研究[D].廣州:暨南大學(xué)碩士學(xué)位論文,2009
[4] 于小兵,曹杰,鞏在武.客戶流失問題研究綜述[J].計(jì)算機(jī)集成制造系統(tǒng),2012,18(10).
[5] Chang Cheng-chang,Gong Dah-chuan.A Comparison of Rohs Risk Assessment using the Logistic Regression Model and Artificial Neural Network Model[C].Proceedings of the Ninth International Conference on Machine Learning and Cybernetics,2010.
[6] Duan Fu,Zhao Zheng-xing,Zeng Xiang-dong.Application of Decision Tree based on C4.5in Analysis of Coal Logistics Customer[C].2009Third International Symposium on Intelligent Information Technology Application,2009.
[7] Ma Zhi-qiang,Hong Tao.Performance Evaluation of Enterprise’s Marketing Team Members based on BP Neural Network[C].International Workshop on Intelligent Systems and Applications,2009.
[8] Chan P K,F(xiàn)an W,Prodromidis A L,et al.Distributed Data Mining in Credit Card Fraud Detection[J].IEEE Intelligent Systems and Their Applications,1999,14(6).
[9] 崔永哲.數(shù)據(jù)挖掘技術(shù)在客戶流失預(yù)警中的應(yīng)用[J].延邊大學(xué)學(xué)報(bào):自然科學(xué)版,2008,34(2).
[10]徐燕妮,劉欣穎,范方.電信客戶流失預(yù)警模型的構(gòu)建[J].中國科技信息,2012(1).
[11]顧光同,王力賓,費(fèi)宇.電信客戶流失預(yù)警規(guī)則及其信度測定實(shí)證研究——以云南電信為例[J].云南財(cái)經(jīng)大學(xué)學(xué)報(bào),2010(6).
[12]張瑩瑩.固網(wǎng)運(yùn)營商客戶流失預(yù)警模型研究[D].北京:北京郵電大學(xué)博士學(xué)位論文,2008.
[13]鄧森文,馬溪駿.基于Cox模型的移動(dòng)通信行業(yè)中低端客戶流失預(yù)測研究[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2010,33(11).
[14]王雷,陳松林,顧學(xué)道.客戶流失預(yù)警模型及其在電信企業(yè)的應(yīng)用[J].電信科學(xué),2006(9).