基于數(shù)據(jù)挖掘的移動(dòng)通信客戶流失預(yù)測(cè)模型研究與應(yīng)用

2022-08-26 01:51張馭思

現(xiàn)代信息科技 2022年11期

關(guān)鍵詞：神經(jīng)元神經(jīng)網(wǎng)絡(luò)變量

張馭思

（上海理工大學(xué)，上海 200093）

0 引言

我國(guó)網(wǎng)絡(luò)建設(shè)正處于快速發(fā)展階段，通信行業(yè)信息量和業(yè)務(wù)收入均迎來(lái)指數(shù)級(jí)別的增長(zhǎng)，通信運(yùn)營(yíng)商的經(jīng)營(yíng)重點(diǎn)正逐漸從產(chǎn)品/服務(wù)向維持客戶資源轉(zhuǎn)變。研究表明，通信行業(yè)發(fā)展新客戶比維持現(xiàn)有客戶的平均成本高出5倍以上，而且現(xiàn)有客戶流失會(huì)降低企業(yè)的社會(huì)滿意度和信賴度等誠(chéng)信指標(biāo)，嚴(yán)重影響企業(yè)的進(jìn)一步發(fā)展。因此，與客戶保持良好關(guān)系，預(yù)防客戶流失，維持現(xiàn)有客戶資源有助于進(jìn)一步獲得市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì)。準(zhǔn)確、高效的客戶流失預(yù)測(cè)模型能夠?qū)ΜF(xiàn)有客戶潛在的離網(wǎng)行為進(jìn)行合理預(yù)測(cè)，使運(yùn)營(yíng)商及時(shí)調(diào)整相應(yīng)的營(yíng)銷策略進(jìn)行挽留，對(duì)加強(qiáng)企業(yè)用戶關(guān)系管理（Customer relationship management, CRM）具有十分重要的意義。

近年來(lái)，基于數(shù)據(jù)挖掘技術(shù)的CRM應(yīng)用研究獲得了國(guó)內(nèi)外中大型企業(yè)及金融機(jī)構(gòu)的廣泛關(guān)注，在用戶關(guān)系管理、金融欺詐檢測(cè)方面獲得了顯著的成果。相比于傳統(tǒng)的計(jì)算方法，數(shù)據(jù)挖掘能夠從大量的實(shí)際數(shù)據(jù)中挖掘出對(duì)決策具有參考價(jià)值的隱含關(guān)系和趨勢(shì)，進(jìn)而為決策過程提供相應(yīng)的支持。通過數(shù)據(jù)挖掘技術(shù)對(duì)客戶某一時(shí)間段的行為特性進(jìn)行分析，能夠獲取相應(yīng)的行為習(xí)慣及興趣愛好，進(jìn)而給予客戶針對(duì)性服務(wù)，提升企業(yè)用戶黏度。從統(tǒng)計(jì)學(xué)的角度出發(fā)，客戶流失預(yù)測(cè)模型的輸出屬于典型的二分類問題，即結(jié)果只有流失（用“1”表示）與非流失（用“0”表示）兩種可能，目前主要存在三種預(yù)測(cè)模型：?jiǎn)我环诸惸Ｐ停鐩Q策樹、邏輯回歸及關(guān)聯(lián)性分析等；聚類分析模型，如K-means聚類、Two-step聚類等；多分類模型融合，如采用Bagging、Stacking方法對(duì)多類單一分類模型進(jìn)行集成。Kim團(tuán)隊(duì)采用邏輯回歸模型對(duì)韓國(guó)移動(dòng)通信用戶數(shù)據(jù)進(jìn)行建模，通過流失客戶特性分析，對(duì)現(xiàn)有客戶忠誠(chéng)度進(jìn)行評(píng)分，實(shí)現(xiàn)對(duì)現(xiàn)有客戶的分類化管理。賀建軍對(duì)支持向量機(jī)（SVM）在預(yù)測(cè)客戶流失方面的適用性進(jìn)行了分析，分別從實(shí)驗(yàn)和理論角度驗(yàn)證了該模型的預(yù)測(cè)精度。曹國(guó)團(tuán)隊(duì)采用二元邏輯歸回對(duì)某商業(yè)銀行用戶流失情況進(jìn)行分析，建立了客戶流失多維預(yù)測(cè)指標(biāo)，通過模型分析和實(shí)證研究發(fā)現(xiàn)交易頻率、客戶年齡、近期交易記錄等因素對(duì)客戶流失有十分顯著的影響。武彩霞團(tuán)隊(duì)基于數(shù)據(jù)挖掘提出多分類融合模型應(yīng)用于通信企業(yè)用戶流失管理系統(tǒng)，通過對(duì)客戶流失數(shù)據(jù)集的訓(xùn)練分析，表明多模型預(yù)測(cè)準(zhǔn)確度高于普通的單一模型。

上述研究構(gòu)建的客戶流失預(yù)測(cè)模型對(duì)企業(yè)的精細(xì)化運(yùn)營(yíng)管理具有十分積極的推動(dòng)作用，降低了客戶流失比例和企業(yè)運(yùn)營(yíng)成本，但對(duì)于用戶特征分析和數(shù)據(jù)挖掘技術(shù)缺少系統(tǒng)的融合。本文以通信運(yùn)營(yíng)商對(duì)現(xiàn)有客戶流失管理為主題，以高效預(yù)測(cè)客戶流失為目的，采用Python語(yǔ)言為編碼工具，通過對(duì)一元、多元邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型進(jìn)行建模，并對(duì)模型預(yù)測(cè)效果進(jìn)行系統(tǒng)對(duì)比分析，獲得更適宜移動(dòng)通信運(yùn)營(yíng)客戶流失的預(yù)測(cè)模型；將統(tǒng)計(jì)學(xué)理論、數(shù)據(jù)挖掘技術(shù)融入金融管理理論，實(shí)現(xiàn)多學(xué)科交叉融合，給通信運(yùn)營(yíng)行業(yè)解決用戶流失問題和構(gòu)建個(gè)性化用戶運(yùn)營(yíng)機(jī)制提供了一定的參考價(jià)值。

1 模型構(gòu)建

1.1 數(shù)據(jù)選取與特征描述

本文實(shí)驗(yàn)的原始數(shù)據(jù)來(lái)源于某電信部門數(shù)據(jù)庫(kù)，構(gòu)建模型之前，需要對(duì)原始數(shù)據(jù)進(jìn)行初始選擇、數(shù)據(jù)清洗、數(shù)據(jù)整合與構(gòu)建，最后按照既定標(biāo)準(zhǔn)進(jìn)行格式化，本文從客戶信息到行為因素等多個(gè)分析維度來(lái)綜合衡量各類變量特征對(duì)客戶流失的影響，初步確定17項(xiàng)指標(biāo)，如表1所示。

表1 通信客戶流失模型變量

1.2 變量相關(guān)性檢驗(yàn)

自變量中共有6個(gè)分類變量，采用交叉表分析和卡方檢驗(yàn)判定這類變量與目標(biāo)變量的相關(guān)性。篇幅所限，本節(jié)僅展示通話時(shí)長(zhǎng)是否呈現(xiàn)下降態(tài)勢(shì)（NegTrend）與客戶流失（churn）的相關(guān)性分析，結(jié)果如圖1所示，從交叉表可以看出，在流量使用有下降趨勢(shì)時(shí)，客戶流失的概率會(huì)上升，從對(duì)應(yīng)的卡方檢驗(yàn)p-value可以看出，NegTrend這一變量與的相關(guān)性非常顯著（＜0.000 1），說明該變量具有分析價(jià)值，其他變量均按照上述檢驗(yàn)流程進(jìn)行。

圖1 交叉表/卡方檢驗(yàn)分析

關(guān)于連續(xù)型自變量有多種相關(guān)性檢驗(yàn)分析方法，例如分層抽樣、假設(shè)檢驗(yàn)、方差分析等，鑒于本文涉及的自變量較少（＜20），采用邏輯回歸的逐步向前分析較為合理。隨后采用方差膨脹因子檢測(cè)的方式對(duì)自變量間多元共線性問題進(jìn)行檢測(cè)，將VIF值大于10的變量進(jìn)行篩選，最終確定10個(gè)特征作為后續(xù)模型的自變量，如表2所示。

表2 篩選后的自變量

1.3 算法介紹

1.3.1 邏輯回歸

邏輯（Logistic）回歸是針對(duì)二分類問題構(gòu)建的非線性歸回模型，本質(zhì)上屬于廣義多元線性回歸。我們希望獲得用戶流失的概率，這一數(shù)值應(yīng)介于0和1之間，顯然線性回歸難以描述與自變量間的關(guān)系，需要一個(gè)嚴(yán)格單調(diào)的函數(shù)（），滿足在接近0和1兩個(gè)端點(diǎn)時(shí)（）會(huì)產(chǎn)生敏感且顯著的變化，即Logit變換：

可以看出，在0～1之間變化時(shí)，對(duì)應(yīng)的（）變化范圍為（-∞，+∞），解決了與之間的非線性問題。值得注意的是，區(qū)別于線性回歸，邏輯回歸并不是通過最小二乘法來(lái)進(jìn)行模型的優(yōu)化，根據(jù)其變換的非線性特性選取極大似然估計(jì)方法確定回歸系數(shù)更為合理。

1.3.2 人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)（Artificial neural network, ANN）是通過數(shù)據(jù)樣本進(jìn)行訓(xùn)練從而實(shí)現(xiàn)對(duì)相關(guān)信息處理功能的一類預(yù)測(cè)模型，不需要任何先驗(yàn)公式，具有極好的自適應(yīng)、并行處理和非線性轉(zhuǎn)換能力，對(duì)于正態(tài)、隨機(jī)分布的數(shù)據(jù)都可以采用ANN進(jìn)行分析，做出合適有效的預(yù)測(cè)。本文構(gòu)造的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及計(jì)算流程如圖2所示。

圖2 ANN結(jié)構(gòu)及流程圖

圖中每一個(gè)節(jié)點(diǎn)作為神經(jīng)元接收并處理上層節(jié)點(diǎn)的信息，其中輸入層中的神經(jīng)元即為自變量，神經(jīng)元數(shù)量和自變量數(shù)量相同；而中間隱含層的神經(jīng)元接收來(lái)自每個(gè)輸入層神經(jīng)元信息的線性組合，并通過自身設(shè)置的激活函數(shù)對(duì)輸入信息進(jìn)行轉(zhuǎn)換，類似于邏輯回歸中→（）的處理，因此神經(jīng)網(wǎng)絡(luò)在某種意義上可以看作邏輯回歸的擴(kuò)展。在模型優(yōu)化方面，Loss函數(shù)可以選擇用最小二乘法表示，優(yōu)化方式采用梯度下降，不斷優(yōu)化權(quán)重和，直至誤差降至可接受的范圍內(nèi)，模型訓(xùn)練完成。

1.4 訓(xùn)練集和測(cè)試集

建模之前，需要將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集，前者用于訓(xùn)練模型，后者用于評(píng)估模型的預(yù)測(cè)表現(xiàn)及準(zhǔn)確性，本文將訓(xùn)練集和測(cè)試集的比例定為8：2。從圖3可以看出因變量的數(shù)據(jù)分布并不平衡，但在可接受的范圍（44%～56%）內(nèi)，考慮到實(shí)驗(yàn)數(shù)據(jù)量不大，為保證預(yù)測(cè)模型的精確度，本文不進(jìn)行數(shù)據(jù)平衡處理，從數(shù)據(jù)集中隨機(jī)抽取80%（樣本量：2 772）作為訓(xùn)練集，剩余20%（樣本量：692）作為測(cè)試集。

圖3 數(shù)據(jù)集變量分布及訓(xùn)練集/測(cè)試集分布

2 實(shí)驗(yàn)結(jié)果及分析

2.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)在Windows10操作系統(tǒng)環(huán)境下，采用Spyder編輯器結(jié)合Python語(yǔ)言，并利用機(jī)器學(xué)習(xí)庫(kù)Sklearn、Pytorch、statsmodels構(gòu)建邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型，硬件條件為8核8線程3.60 GHzCPU，RAM 64 GB。

2.2 邏輯回歸模型

我們將相關(guān)性檢驗(yàn)后的10個(gè)自變量（表2所示）作為特征向量，進(jìn)行邏輯回歸訓(xùn)練，獲得各變量的權(quán)重估計(jì)，如表3所示。

表3 邏輯回歸模型權(quán)重估計(jì)

可以看出在10個(gè)因子中，用戶性質(zhì)（gender）、受教育程度（Edu_class）、營(yíng)銷頻次（Nrporm）、用戶通話時(shí)長(zhǎng)變化（NegTrend）、單月最高通話時(shí)長(zhǎng)（PeakMinAv）對(duì)客戶流失具有正向影響；而在網(wǎng)時(shí)長(zhǎng)（Duration）、聯(lián)系客服頻次（Call10000）、通話時(shí)長(zhǎng)增加量（PeakMinDiff）、年齡（AGE）、是否提升過套餐類型（PosPlanChange）對(duì)客戶流失具有反向影響，即這五項(xiàng)變量數(shù)值越大，用戶越不容易流失，其中聯(lián)系客服頻次對(duì)該模型影響最大，可以認(rèn)為聯(lián)系客服越頻繁的客戶流失的概率越低。獲得各變量對(duì)應(yīng)的估計(jì)值后，可以建立的流失模型（LossTrend）方程為：

2.3 神經(jīng)網(wǎng)絡(luò)模型

本文采用常規(guī)三層神經(jīng)網(wǎng)絡(luò)模型，即一個(gè)輸入層、一個(gè)隱含層和一個(gè)輸出層，輸入層神經(jīng)元個(gè)數(shù)為10個(gè)，對(duì)應(yīng)10個(gè)自變量。對(duì)于二分類問題，輸出層神經(jīng)元個(gè)數(shù)為2個(gè)，只有隱含層神經(jīng)元的數(shù)量需要進(jìn)一步討論，數(shù)量范圍由以下公式得出：

其中、、分別為隱含層、輸入層和輸出層神經(jīng)元個(gè)數(shù)，為調(diào)節(jié)因子，取值范圍[1-10]，初步確定該神經(jīng)網(wǎng)絡(luò)模型l的取值范圍為[4-14]。將訓(xùn)練次數(shù)定為500次，獲得l取不同數(shù)值對(duì)應(yīng)的模型預(yù)測(cè)準(zhǔn)確率AUC結(jié)果，如圖4所示。

圖4 預(yù)測(cè)結(jié)果隨隱含層神經(jīng)元數(shù)量變化情況

可以看出，隱含層神經(jīng)元個(gè)數(shù)為12時(shí)，AUC值最大，此時(shí)模型預(yù)測(cè)效果更好，因此本文將隱含層單元數(shù)量確定為12個(gè)，同時(shí)將最大訓(xùn)練次數(shù)擴(kuò)大至1 000次，激活函數(shù)選用Sigmod函數(shù)，學(xué)習(xí)率為0.001。至此，本文神經(jīng)網(wǎng)絡(luò)框架已構(gòu)建完成，權(quán)重更新方式（即模型優(yōu)化方法）采用比經(jīng)典隨機(jī)梯度下降法更為高效的Adam優(yōu)化算法。

2.4 模型評(píng)估與應(yīng)用

2.4.1 混淆矩陣評(píng)估

混淆矩陣是評(píng)價(jià)二分類模型最常用的手段，將預(yù)測(cè)值和真實(shí)值作比較，可以輸出表4所示的矩陣。

表4 混淆矩陣

通過準(zhǔn)確率（Accuracy）、精確率（Precision）、召回率（Recall）、提升系數(shù)（Lifting）和F1系數(shù)共5項(xiàng)指標(biāo)對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確和穩(wěn)定性進(jìn)行評(píng)估。相關(guān)公式為：

通過對(duì)邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型的混淆矩陣進(jìn)行分析，可以分別求出上述5項(xiàng)指標(biāo)，結(jié)果如表5所示。

表5 兩種模型預(yù)測(cè)效果對(duì)比

可以看出，神經(jīng)網(wǎng)絡(luò)具有更好的預(yù)測(cè)效果，在流失客戶樣本的預(yù)測(cè)正確率方面神經(jīng)網(wǎng)絡(luò)比邏輯回歸高出2%，表明在判斷客戶是否為流失客戶方面，神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果更為準(zhǔn)確；從召回率來(lái)看，在實(shí)際流失客戶的樣本正，神經(jīng)網(wǎng)絡(luò)也具有更高的預(yù)測(cè)比例，在提升系數(shù)和F1值上也有更好的表現(xiàn)。

2.4.2 ROC曲線評(píng)估

ROC曲線可以反映預(yù)測(cè)模型和分析方法敏感性與特異性間的關(guān)系，橫縱坐標(biāo)分別代表正例的錯(cuò)誤命中率（FPR＝FP/（FP＋TN））和正例的預(yù)測(cè)準(zhǔn)確率（TPR＝TP/（TP＋FN）），曲線和橫軸間的面積為AUC值，該數(shù)值越接近1模型的預(yù)測(cè)效果越好。本文分別繪制邏輯回歸模型和神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練和測(cè)試ROC曲線，并列出對(duì)應(yīng)的AUC值，如圖5所示。

圖5 邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型ROC曲線

可以看出無(wú)論是邏輯回歸還是神經(jīng)網(wǎng)絡(luò)，測(cè)試集的結(jié)果均和訓(xùn)練集結(jié)果相差不大，說明本文構(gòu)建的兩種模型沒有明顯的過擬合現(xiàn)象，預(yù)測(cè)的結(jié)果合理且可靠。

從模型精度而言，神經(jīng)網(wǎng)絡(luò)模型的測(cè)試和訓(xùn)練集AUG值均在0.9以上，高于邏輯回歸模型，說明神經(jīng)網(wǎng)絡(luò)精度更高。

綜上所述，結(jié)合混淆矩陣和ROC曲線評(píng)估結(jié)果，可以認(rèn)為本文所構(gòu)建的兩個(gè)模型在可靠性和精確度上均具有良好的表現(xiàn)，相比而言，神經(jīng)網(wǎng)絡(luò)更具優(yōu)勢(shì)。

2.5 模型的業(yè)務(wù)嵌入

完成模型的構(gòu)建和可靠性分析之后，將模型正式嵌入數(shù)據(jù)平臺(tái)，對(duì)未來(lái)流失用戶進(jìn)行實(shí)時(shí)預(yù)測(cè)，定期生成流失預(yù)警名單，結(jié)合運(yùn)營(yíng)部門和策略部門制定有針對(duì)性的挽留方案，實(shí)現(xiàn)客戶流失前期運(yùn)營(yíng)，提高挽留成功的概率。具體嵌入模塊及流程如圖6所示。

圖6 模型嵌入模塊及應(yīng)用流程圖

首先，利用問卷調(diào)研、平臺(tái)抓取等手段結(jié)合互聯(lián)網(wǎng)大數(shù)據(jù)系統(tǒng)獲取客戶實(shí)時(shí)的行為數(shù)據(jù)，存入數(shù)據(jù)倉(cāng)庫(kù)并進(jìn)行定期整理、清洗和格式化處理，提升數(shù)據(jù)的整潔性，進(jìn)入基于神經(jīng)網(wǎng)絡(luò)的客戶流失預(yù)測(cè)模型進(jìn)行計(jì)算，將結(jié)果輸入運(yùn)營(yíng)管理系統(tǒng)，根據(jù)客戶特征進(jìn)行有效分類并制定有針對(duì)性的挽留策略，當(dāng)客戶觸發(fā)流失條件時(shí)系統(tǒng)自動(dòng)根據(jù)客戶類別進(jìn)行針對(duì)性挽留。通過數(shù)據(jù)分析歸納，不斷優(yōu)化模型和實(shí)施流程。

3 結(jié) 論

本文以通信運(yùn)營(yíng)商對(duì)現(xiàn)有客戶流失管理方法為研究對(duì)象，結(jié)合金融管理、統(tǒng)計(jì)學(xué)理論和數(shù)據(jù)挖掘建模手段建立了針對(duì)通信客戶的流失預(yù)測(cè)模型，針對(duì)移動(dòng)通信用戶流失問題進(jìn)行了定量分析。通過不同模型運(yùn)行結(jié)果對(duì)比分析，發(fā)現(xiàn)本文構(gòu)建的人工神經(jīng)網(wǎng)絡(luò)模型比傳統(tǒng)的邏輯回歸模型在各項(xiàng)評(píng)價(jià)指標(biāo)上均有較強(qiáng)的優(yōu)勢(shì)，同時(shí)將模型嵌入管理模塊并提出對(duì)應(yīng)的運(yùn)營(yíng)系統(tǒng)及流程，這對(duì)企業(yè)客戶服務(wù)平臺(tái)和運(yùn)營(yíng)管理優(yōu)化改進(jìn)具有重要的指導(dǎo)意義。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡