侯興政
摘要:電信行業(yè)用戶數(shù)據(jù)量呈現(xiàn)指數(shù)型增加,傳統(tǒng)分析挖掘技術(shù)已經(jīng)不能勝任如此龐大的工作。為此,引入大數(shù)據(jù)平臺(tái)組件Spark進(jìn)行大數(shù)據(jù)分析,進(jìn)而提升分析挖掘的效率。電信用戶的流失造成了運(yùn)營(yíng)商經(jīng)濟(jì)利潤(rùn)嚴(yán)重下滑,利用隨機(jī)森林算法構(gòu)建預(yù)警模型,挽留可能流失用戶,保證運(yùn)營(yíng)商的市場(chǎng)份額。
關(guān)鍵詞:流失預(yù)警;Spark技術(shù);隨機(jī)森林算法
中圖分類號(hào):TPl81
文獻(xiàn)識(shí)別碼:A
文章編號(hào):1001-828X(2016)036-000369-01
隨著通信技術(shù)的迅猛發(fā)展和手機(jī)的普及應(yīng)用,電信行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大,行業(yè)內(nèi)應(yīng)用所產(chǎn)生的數(shù)據(jù)量則呈現(xiàn)爆炸性增長(zhǎng)趨勢(shì),因此尋求有效的大數(shù)據(jù)處理技術(shù)、方法和手段已經(jīng)成為現(xiàn)實(shí)世界的迫切需求。中國(guó)移動(dòng)一個(gè)省的電話通聯(lián)記錄數(shù)據(jù)每月可達(dá)0.5PB~1PB,不少專家預(yù)測(cè)全世界數(shù)據(jù)量未來(lái)10年將增長(zhǎng)40余倍,年均增長(zhǎng)保持在40%左右。
電信行業(yè)的海量數(shù)據(jù)為數(shù)據(jù)挖掘技術(shù)提供了發(fā)揮自己獨(dú)特作用的機(jī)會(huì),目前也已經(jīng)存在廣泛的場(chǎng)景應(yīng)用,尤其是對(duì)于行業(yè)客戶流失的預(yù)警分析。如何減少客戶流失,提高客戶的挽留率,已經(jīng)是電信業(yè)的當(dāng)務(wù)之急。客戶流失預(yù)測(cè)是基于歷史數(shù)據(jù),對(duì)已流失的用戶進(jìn)行分析,找出這些流失用戶的行為特征,對(duì)現(xiàn)有用戶挖掘預(yù)測(cè)出可能流失的部分,并有針對(duì)性地采取相應(yīng)的挽流政策。為提高海量數(shù)據(jù)進(jìn)行分類預(yù)測(cè)的運(yùn)行效率,我們引入大數(shù)據(jù)平臺(tái)的spark組件。spark是基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架,基于內(nèi)存計(jì)算,提高了在大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的實(shí)時(shí)性,同時(shí)保證了高容錯(cuò)性和高可伸縮性,spark是MapReduce的替代方案,而且兼容HDFS、Hive等分布式存儲(chǔ)層,融入Hadoop的生態(tài)系統(tǒng),并彌補(bǔ)MapReduce的不足。如今,Spark分析技術(shù)已經(jīng)被騰訊、雅虎、淘寶、優(yōu)酷土豆等大型互聯(lián)網(wǎng)公司廣泛使用。
首先,我們將流失用戶定義為上一月分出賬繳費(fèi),而本月未出賬繳費(fèi)的用戶。構(gòu)建用戶流失預(yù)警模型,需要結(jié)合業(yè)務(wù)知識(shí)進(jìn)行字段的選取,并加大時(shí)間跨度,捕捉更加細(xì)節(jié)的變化,分析用戶的使用情況的細(xì)微波動(dòng)。選取的字段有標(biāo)識(shí)用戶唯一性的用戶編號(hào)、分類類型的標(biāo)志是否流失、是否為融合業(yè)務(wù)用戶、VIP會(huì)員級(jí)別編號(hào)、在網(wǎng)時(shí)長(zhǎng)、資費(fèi)產(chǎn)品、是否參與合約計(jì)劃、發(fā)展渠道的類型、每月費(fèi)用均值、費(fèi)用波動(dòng)、本地語(yǔ)音通話均值、本地語(yǔ)音通話波動(dòng)情況長(zhǎng)途語(yǔ)音通話均值、長(zhǎng)途語(yǔ)音通話波動(dòng)、漫游語(yǔ)音通話均值、漫游通話波動(dòng)、通話次數(shù)均值、通話次數(shù)波動(dòng)、流量使用均值、流量使用波動(dòng)、繳費(fèi)金額均值、繳費(fèi)金額波動(dòng)、近三月是否有過(guò)欠費(fèi)行為、語(yǔ)音飽和度、流量飽和度;同時(shí),通過(guò)不斷改變模型的參數(shù),調(diào)優(yōu)分類預(yù)測(cè)模型效果,以達(dá)到最高的精確率。最終,將預(yù)測(cè)數(shù)據(jù)分配給客戶服務(wù)部門,整合銷售服務(wù)資源,根據(jù)客戶的需求,設(shè)計(jì)個(gè)性化的營(yíng)銷策略,快速反應(yīng),以此達(dá)到召回流失客戶,挽留流失概率高的客戶,實(shí)現(xiàn)對(duì)客戶的守護(hù)。
構(gòu)建模型選用的分類預(yù)測(cè)算法為隨機(jī)森林,它是組合分類器(ensemble)的一種,組合分類器作為一種復(fù)合模型,由多個(gè)分類器組合而成。首先,個(gè)體分類器進(jìn)行投票。然后,組合分類器基于投票返回類標(biāo)號(hào)預(yù)測(cè)結(jié)果,進(jìn)行最終判別,因此組合分類器往往比個(gè)體分類器更加準(zhǔn)確。隨機(jī)森林內(nèi)的每個(gè)個(gè)體分類器都是一顆決策樹,構(gòu)造決策樹時(shí),每個(gè)結(jié)點(diǎn)隨機(jī)選擇F個(gè)屬性作為該結(jié)點(diǎn)劃分的候選屬性。每一棵樹都依賴于獨(dú)立抽樣,并在森林中所有樹具有相同分布的隨機(jī)向量的值。分類時(shí),每棵樹都進(jìn)行投票,隨機(jī)森林返回最終得票數(shù)最多的預(yù)測(cè)類別。對(duì)于每次迭代使用有放回抽樣,這樣使得某些元組在抽取的樣本中重復(fù)出現(xiàn)或者未出現(xiàn),這樣就保證了樹的多樣性。隨機(jī)森林算法對(duì)錯(cuò)誤和離群點(diǎn)的表現(xiàn)出很好的魯棒性。隨著森林中決策樹的數(shù)目增長(zhǎng),森林的泛化誤差會(huì)收斂,這樣就不存在過(guò)擬合問(wèn)題。在數(shù)據(jù)處理過(guò)程中,往往會(huì)遇到數(shù)據(jù)不平衡問(wèn)題,即感興趣的一類只有少量數(shù)據(jù)。提高類不平衡數(shù)據(jù)分類準(zhǔn)確率的方法有過(guò)抽樣和欠抽樣。其中,過(guò)抽樣是復(fù)制稀有類的元組,而欠抽樣則是隨機(jī)地刪除多數(shù)類別。
對(duì)于分類模型所構(gòu)建的結(jié)果,我們可以通過(guò)幾個(gè)評(píng)價(jià)度量指標(biāo)進(jìn)行衡量。首先,引入混淆矩陣,真正例TP是正確分類的正元組,真負(fù)例TN是正確分類的負(fù)元組,假正例FP是錯(cuò)誤標(biāo)記為正元組的負(fù)元組,假負(fù)例FN是錯(cuò)誤標(biāo)記為負(fù)元組的正元組。分類的準(zhǔn)確率是被正確分類的元組所占的百分比,但是準(zhǔn)確率存在著弊端,在處理不平衡數(shù)據(jù)時(shí),往往會(huì)給出錯(cuò)誤的效果,為此,我們使用召回率和精確率:
召回率,也稱覆蓋率:被正確預(yù)測(cè)的正例在整個(gè)正例的比例;
精確率,也稱命中率:被預(yù)測(cè)為正例中真正是正例的比例;
并且,精確率與召回率是一對(duì)逆關(guān)系,往往需要降低一個(gè)為代價(jià)而提高另一個(gè)。
實(shí)例數(shù)據(jù)結(jié)果如下:
原始數(shù)據(jù)
訓(xùn)練集:2月份數(shù)據(jù)總數(shù):244.2082萬(wàn)(不流失=229.7690萬(wàn);流失=14.5563萬(wàn))
測(cè)試集:3月份數(shù)據(jù)總數(shù):250.9384萬(wàn)(不流失=234.7360萬(wàn);流失=16.2024萬(wàn))
準(zhǔn)確率:88.8%覆蓋率:90.45%命中率:97.42%
結(jié)合電信行業(yè)的業(yè)務(wù)知識(shí),應(yīng)用挖掘理論建立起來(lái)一套科學(xué)的、完整的客戶流失指標(biāo)體系,有較高的預(yù)警效果,希望能將流失預(yù)測(cè)技術(shù)實(shí)際應(yīng)用于電信行業(yè),分析和預(yù)測(cè)客戶的消費(fèi)行為特征,從而為建立用戶離網(wǎng)和欠費(fèi)預(yù)警機(jī)制提供客觀的、可靠的數(shù)據(jù)支撐,為制定更好的客戶服務(wù)策略提供決策支持。