楊怡涵+柳炳祥+萬(wàn)義成
[摘 要]本文將決策樹算法應(yīng)用于移動(dòng)客戶的流失分析中,使用SPPS-Clementine軟件中的C 5.0算法,對(duì)某企業(yè)某段時(shí)間的移動(dòng)通信投訴數(shù)據(jù)進(jìn)行分析,目的是根據(jù)移動(dòng)通信公司投訴數(shù)據(jù)進(jìn)行分組,發(fā)現(xiàn)流失度大的客戶的共同特征屬性,以便對(duì)流失度大的客戶做好挽留工作,改善客戶關(guān)系,提升企業(yè)核心競(jìng)爭(zhēng)力。
[關(guān)鍵詞]決策樹;投訴;流失度;移動(dòng)通信;客戶
doi:10.3969/j.issn.1673 - 0194.2016.22.044
[中圖分類號(hào)]F224 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2016)22-00-02
0 引 言
移動(dòng)通信客戶的流失分析一直是企業(yè)關(guān)注的熱點(diǎn)問(wèn)題,如何做到提升客戶滿意度,防止客戶流失,加強(qiáng)客戶分類管理,吸引潛在客戶群體,提高運(yùn)營(yíng)商服務(wù)質(zhì)量,是提升企業(yè)核心競(jìng)爭(zhēng)力的關(guān)鍵所在。本文使用決策樹算法,對(duì)某企業(yè)投訴數(shù)據(jù)進(jìn)行分析,目的是發(fā)現(xiàn)流失客戶的共同屬性,做好客戶關(guān)系管理工作。
1 決策樹算法
決策樹算法最早是由J.R.Quinlan提出的ID3方法,其建樹算法具有思想簡(jiǎn)單、識(shí)別樣本屬性效率高的優(yōu)點(diǎn),ID3方法成為20世紀(jì)80年代末機(jī)器學(xué)習(xí)領(lǐng)域當(dāng)中最有影響力的算法之一。在20世紀(jì)90年代的時(shí)候,J.R.Quinlan提出ID3改進(jìn)版,即C 4.5方法。C 4.5方法是用信息論中互信息率來(lái)選擇屬性作為決策樹的結(jié)點(diǎn),使決策樹識(shí)別樣本的效率得到了不小的提升。C 5.0算法是C 4.5的升級(jí)版,多數(shù)用在商業(yè)領(lǐng)域數(shù)據(jù)挖掘技術(shù)當(dāng)中。主要針對(duì)大數(shù)據(jù)的分類,它的決策樹歸納與C 4.5很相近。
ID3算法的流程是對(duì)訓(xùn)練集樣本的數(shù)據(jù)進(jìn)行預(yù)處理,計(jì)算出訓(xùn)練集樣本屬性劃分前的熵;然后計(jì)算出訓(xùn)練集樣本屬性劃分后的熵,通過(guò)比較樣本屬性劃分前后的熵,計(jì)算出前后熵的差值;取最大差值的行列進(jìn)行合理劃分,劃分出來(lái)后數(shù)據(jù)集所有元素標(biāo)簽確立唯一性,有且只有一個(gè)屬性;若無(wú)法確定唯一屬性,則回到第一步,重新比較分析,直到建樹成功,整個(gè)建樹過(guò)程結(jié)束。
2 決策樹算法在移動(dòng)通信客戶流失分析中的應(yīng)用
2.1 實(shí)驗(yàn)數(shù)據(jù)集
本次實(shí)驗(yàn)過(guò)程使用的數(shù)據(jù)集有2 711個(gè)樣本,有投訴內(nèi)容、故障行政區(qū)、使用網(wǎng)絡(luò)類型、責(zé)任原因、終端描述、客戶品牌和客戶流失度7個(gè)屬性,見表1。
2.2 實(shí)驗(yàn)過(guò)程
選取某移動(dòng)通信公司的客戶投訴數(shù)據(jù),將Excel表格導(dǎo)入SPPS-Clementine軟件當(dāng)中,首先選擇“源”下方“Excel”確保數(shù)據(jù)導(dǎo)入軟件當(dāng)中;選擇“字段選項(xiàng)”下方“類型”確定模型的類型,最后選擇“建?!毕路降摹癈 5.0”算法。數(shù)據(jù)流如圖1所示。
模型對(duì)訓(xùn)練集選取樣本50%、75%、100%的數(shù)據(jù),對(duì)客戶流失分析的準(zhǔn)確度分別為97.88%、98.12%、98.01%,如圖2所示。
2.3 結(jié)果分析與討論
利用SPPS-Clementine軟件中的C 5.0算法,對(duì)移動(dòng)通信客戶的流失行為進(jìn)行分析,分別選取樣本的50%、75%、100%數(shù)據(jù)集進(jìn)行分析,準(zhǔn)確度依次為97.88%、98.12%、98.01%。從實(shí)驗(yàn)結(jié)果可以看出,選取75%樣本的準(zhǔn)確度較精確,但是所有的取樣精確度之間數(shù)據(jù)相差不大。從圖2可以看出,決策樹算法在移動(dòng)通信客戶流失分析中的應(yīng)用是可行的和有效的,為移動(dòng)通信公司進(jìn)行客戶流失分析提供了一種分析的思路和解決方法。
3 結(jié) 語(yǔ)
本文通過(guò)對(duì)某通信公司投訴數(shù)據(jù)流失度分析表明,C 5.0算法表現(xiàn)出更良好的適應(yīng)性,對(duì)用戶流失度分析更精確、更高效、更方便。
主要參考文獻(xiàn)
[1]劉堯坤.顧客投訴管理與處置技巧[M].廣州:廣東經(jīng)濟(jì)出版社,2005.
[2]徐遠(yuǎn)純,盛昭瀚,柳炳祥.一種基于決策樹算法的客戶流失危機(jī)分析方法[J].計(jì)算機(jī)與現(xiàn)代化,2004(8).
[3]趙小寧,李鳳霞.因子分析法和聚類分析法在網(wǎng)上銀行客戶滿意度研究中的應(yīng)用[J].時(shí)代金融,2015(3).
[4]蔣斌.數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的運(yùn)用[J].云南大學(xué)學(xué)報(bào):自然科學(xué)版,2006(z1).
[5]于莉. 數(shù)據(jù)挖掘技術(shù)在移動(dòng)通信業(yè)中的應(yīng)用研究[D]. 天津:天津大學(xué), 2006 .