国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的移動(dòng)通信客戶流失預(yù)測(cè)模型研究與應(yīng)用

2022-08-26 01:51張馭思
現(xiàn)代信息科技 2022年11期
關(guān)鍵詞:神經(jīng)元神經(jīng)網(wǎng)絡(luò)變量

張馭思

(上海理工大學(xué),上海 200093)

0 引 言

我國(guó)網(wǎng)絡(luò)建設(shè)正處于快速發(fā)展階段,通信行業(yè)信息量和業(yè)務(wù)收入均迎來(lái)指數(shù)級(jí)別的增長(zhǎng),通信運(yùn)營(yíng)商的經(jīng)營(yíng)重點(diǎn)正逐漸從產(chǎn)品/服務(wù)向維持客戶資源轉(zhuǎn)變。研究表明,通信行業(yè)發(fā)展新客戶比維持現(xiàn)有客戶的平均成本高出5倍以上,而且現(xiàn)有客戶流失會(huì)降低企業(yè)的社會(huì)滿意度和信賴度等誠(chéng)信指標(biāo),嚴(yán)重影響企業(yè)的進(jìn)一步發(fā)展。因此,與客戶保持良好關(guān)系,預(yù)防客戶流失,維持現(xiàn)有客戶資源有助于進(jìn)一步獲得市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì)。準(zhǔn)確、高效的客戶流失預(yù)測(cè)模型能夠?qū)ΜF(xiàn)有客戶潛在的離網(wǎng)行為進(jìn)行合理預(yù)測(cè),使運(yùn)營(yíng)商及時(shí)調(diào)整相應(yīng)的營(yíng)銷策略進(jìn)行挽留,對(duì)加強(qiáng)企業(yè)用戶關(guān)系管理(Customer relationship management, CRM)具有十分重要的意義。

近年來(lái),基于數(shù)據(jù)挖掘技術(shù)的CRM應(yīng)用研究獲得了國(guó)內(nèi)外中大型企業(yè)及金融機(jī)構(gòu)的廣泛關(guān)注,在用戶關(guān)系管理、金融欺詐檢測(cè)方面獲得了顯著的成果。相比于傳統(tǒng)的計(jì)算方法,數(shù)據(jù)挖掘能夠從大量的實(shí)際數(shù)據(jù)中挖掘出對(duì)決策具有參考價(jià)值的隱含關(guān)系和趨勢(shì),進(jìn)而為決策過程提供相應(yīng)的支持。通過數(shù)據(jù)挖掘技術(shù)對(duì)客戶某一時(shí)間段的行為特性進(jìn)行分析,能夠獲取相應(yīng)的行為習(xí)慣及興趣愛好,進(jìn)而給予客戶針對(duì)性服務(wù),提升企業(yè)用戶黏度。從統(tǒng)計(jì)學(xué)的角度出發(fā),客戶流失預(yù)測(cè)模型的輸出屬于典型的二分類問題,即結(jié)果只有流失(用“1”表示)與非流失(用“0”表示)兩種可能,目前主要存在三種預(yù)測(cè)模型:?jiǎn)我环诸惸P停鐩Q策樹、邏輯回歸及關(guān)聯(lián)性分析等;聚類分析模型,如K-means聚類、Two-step聚類等;多分類模型融合,如采用Bagging、Stacking方法對(duì)多類單一分類模型進(jìn)行集成。Kim團(tuán)隊(duì)采用邏輯回歸模型對(duì)韓國(guó)移動(dòng)通信用戶數(shù)據(jù)進(jìn)行建模,通過流失客戶特性分析,對(duì)現(xiàn)有客戶忠誠(chéng)度進(jìn)行評(píng)分,實(shí)現(xiàn)對(duì)現(xiàn)有客戶的分類化管理。賀建軍對(duì)支持向量機(jī)(SVM)在預(yù)測(cè)客戶流失方面的適用性進(jìn)行了分析,分別從實(shí)驗(yàn)和理論角度驗(yàn)證了該模型的預(yù)測(cè)精度。曹國(guó)團(tuán)隊(duì)采用二元邏輯歸回對(duì)某商業(yè)銀行用戶流失情況進(jìn)行分析,建立了客戶流失多維預(yù)測(cè)指標(biāo),通過模型分析和實(shí)證研究發(fā)現(xiàn)交易頻率、客戶年齡、近期交易記錄等因素對(duì)客戶流失有十分顯著的影響。武彩霞團(tuán)隊(duì)基于數(shù)據(jù)挖掘提出多分類融合模型應(yīng)用于通信企業(yè)用戶流失管理系統(tǒng),通過對(duì)客戶流失數(shù)據(jù)集的訓(xùn)練分析,表明多模型預(yù)測(cè)準(zhǔn)確度高于普通的單一模型。

上述研究構(gòu)建的客戶流失預(yù)測(cè)模型對(duì)企業(yè)的精細(xì)化運(yùn)營(yíng)管理具有十分積極的推動(dòng)作用,降低了客戶流失比例和企業(yè)運(yùn)營(yíng)成本,但對(duì)于用戶特征分析和數(shù)據(jù)挖掘技術(shù)缺少系統(tǒng)的融合。本文以通信運(yùn)營(yíng)商對(duì)現(xiàn)有客戶流失管理為主題,以高效預(yù)測(cè)客戶流失為目的,采用Python語(yǔ)言為編碼工具,通過對(duì)一元、多元邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型進(jìn)行建模,并對(duì)模型預(yù)測(cè)效果進(jìn)行系統(tǒng)對(duì)比分析,獲得更適宜移動(dòng)通信運(yùn)營(yíng)客戶流失的預(yù)測(cè)模型;將統(tǒng)計(jì)學(xué)理論、數(shù)據(jù)挖掘技術(shù)融入金融管理理論,實(shí)現(xiàn)多學(xué)科交叉融合,給通信運(yùn)營(yíng)行業(yè)解決用戶流失問題和構(gòu)建個(gè)性化用戶運(yùn)營(yíng)機(jī)制提供了一定的參考價(jià)值。

1 模型構(gòu)建

1.1 數(shù)據(jù)選取與特征描述

本文實(shí)驗(yàn)的原始數(shù)據(jù)來(lái)源于某電信部門數(shù)據(jù)庫(kù),構(gòu)建模型之前,需要對(duì)原始數(shù)據(jù)進(jìn)行初始選擇、數(shù)據(jù)清洗、數(shù)據(jù)整合與構(gòu)建,最后按照既定標(biāo)準(zhǔn)進(jìn)行格式化,本文從客戶信息到行為因素等多個(gè)分析維度來(lái)綜合衡量各類變量特征對(duì)客戶流失的影響,初步確定17項(xiàng)指標(biāo),如表1所示。

表1 通信客戶流失模型變量

1.2 變量相關(guān)性檢驗(yàn)

自變量中共有6個(gè)分類變量,采用交叉表分析和卡方檢驗(yàn)判定這類變量與目標(biāo)變量的相關(guān)性。篇幅所限,本節(jié)僅展示通話時(shí)長(zhǎng)是否呈現(xiàn)下降態(tài)勢(shì)(NegTrend)與客戶流失(churn)的相關(guān)性分析,結(jié)果如圖1所示,從交叉表可以看出,在流量使用有下降趨勢(shì)時(shí),客戶流失的概率會(huì)上升,從對(duì)應(yīng)的卡方檢驗(yàn)p-value可以看出,NegTrend這一變量與的相關(guān)性非常顯著(<0.000 1),說明該變量具有分析價(jià)值,其他變量均按照上述檢驗(yàn)流程進(jìn)行。

圖1 交叉表/卡方檢驗(yàn)分析

關(guān)于連續(xù)型自變量有多種相關(guān)性檢驗(yàn)分析方法,例如分層抽樣、假設(shè)檢驗(yàn)、方差分析等,鑒于本文涉及的自變量較少(<20),采用邏輯回歸的逐步向前分析較為合理。隨后采用方差膨脹因子檢測(cè)的方式對(duì)自變量間多元共線性問題進(jìn)行檢測(cè),將VIF值大于10的變量進(jìn)行篩選,最終確定10個(gè)特征作為后續(xù)模型的自變量,如表2所示。

表2 篩選后的自變量

1.3 算法介紹

1.3.1 邏輯回歸

邏輯(Logistic)回歸是針對(duì)二分類問題構(gòu)建的非線性歸回模型,本質(zhì)上屬于廣義多元線性回歸。我們希望獲得用戶流失的概率,這一數(shù)值應(yīng)介于0和1之間,顯然線性回歸難以描述與自變量間的關(guān)系,需要一個(gè)嚴(yán)格單調(diào)的函數(shù)(),滿足在接近0和1兩個(gè)端點(diǎn)時(shí)()會(huì)產(chǎn)生敏感且顯著的變化,即Logit變換:

可以看出,在0~1之間變化時(shí),對(duì)應(yīng)的()變化范圍為(-∞,+∞),解決了與之間的非線性問題。值得注意的是,區(qū)別于線性回歸,邏輯回歸并不是通過最小二乘法來(lái)進(jìn)行模型的優(yōu)化,根據(jù)其變換的非線性特性選取極大似然估計(jì)方法確定回歸系數(shù)更為合理。

1.3.2 人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network, ANN)是通過數(shù)據(jù)樣本進(jìn)行訓(xùn)練從而實(shí)現(xiàn)對(duì)相關(guān)信息處理功能的一類預(yù)測(cè)模型,不需要任何先驗(yàn)公式,具有極好的自適應(yīng)、并行處理和非線性轉(zhuǎn)換能力,對(duì)于正態(tài)、隨機(jī)分布的數(shù)據(jù)都可以采用ANN進(jìn)行分析,做出合適有效的預(yù)測(cè)。本文構(gòu)造的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及計(jì)算流程如圖2所示。

圖2 ANN結(jié)構(gòu)及流程圖

圖中每一個(gè)節(jié)點(diǎn)作為神經(jīng)元接收并處理上層節(jié)點(diǎn)的信息,其中輸入層中的神經(jīng)元即為自變量,神經(jīng)元數(shù)量和自變量數(shù)量相同;而中間隱含層的神經(jīng)元接收來(lái)自每個(gè)輸入層神經(jīng)元信息的線性組合,并通過自身設(shè)置的激活函數(shù)對(duì)輸入信息進(jìn)行轉(zhuǎn)換,類似于邏輯回歸中→()的處理,因此神經(jīng)網(wǎng)絡(luò)在某種意義上可以看作邏輯回歸的擴(kuò)展。在模型優(yōu)化方面,Loss函數(shù)可以選擇用最小二乘法表示,優(yōu)化方式采用梯度下降,不斷優(yōu)化權(quán)重和,直至誤差降至可接受的范圍內(nèi),模型訓(xùn)練完成。

1.4 訓(xùn)練集和測(cè)試集

建模之前,需要將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,前者用于訓(xùn)練模型,后者用于評(píng)估模型的預(yù)測(cè)表現(xiàn)及準(zhǔn)確性,本文將訓(xùn)練集和測(cè)試集的比例定為8:2。從圖3可以看出因變量的數(shù)據(jù)分布并不平衡,但在可接受的范圍(44%~56%)內(nèi),考慮到實(shí)驗(yàn)數(shù)據(jù)量不大,為保證預(yù)測(cè)模型的精確度,本文不進(jìn)行數(shù)據(jù)平衡處理,從數(shù)據(jù)集中隨機(jī)抽取80%(樣本量:2 772)作為訓(xùn)練集,剩余20%(樣本量:692)作為測(cè)試集。

圖3 數(shù)據(jù)集變量分布及訓(xùn)練集/測(cè)試集分布

2 實(shí)驗(yàn)結(jié)果及分析

2.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)在Windows10操作系統(tǒng)環(huán)境下,采用Spyder編輯器結(jié)合Python語(yǔ)言,并利用機(jī)器學(xué)習(xí)庫(kù)Sklearn、Pytorch、statsmodels構(gòu)建邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型,硬件條件為8核8線程3.60 GHzCPU,RAM 64 GB。

2.2 邏輯回歸模型

我們將相關(guān)性檢驗(yàn)后的10個(gè)自變量(表2所示)作為特征向量,進(jìn)行邏輯回歸訓(xùn)練,獲得各變量的權(quán)重估計(jì),如表3所示。

表3 邏輯回歸模型權(quán)重估計(jì)

可以看出在10個(gè)因子中,用戶性質(zhì)(gender)、受教育程度(Edu_class)、營(yíng)銷頻次(Nrporm)、用戶通話時(shí)長(zhǎng)變化(NegTrend)、單月最高通話時(shí)長(zhǎng)(PeakMinAv)對(duì)客戶流失具有正向影響;而在網(wǎng)時(shí)長(zhǎng)(Duration)、聯(lián)系客服頻次(Call10000)、通話時(shí)長(zhǎng)增加量(PeakMinDiff)、年齡(AGE)、是否提升過套餐類型(PosPlanChange)對(duì)客戶流失具有反向影響,即這五項(xiàng)變量數(shù)值越大,用戶越不容易流失,其中聯(lián)系客服頻次對(duì)該模型影響最大,可以認(rèn)為聯(lián)系客服越頻繁的客戶流失的概率越低。獲得各變量對(duì)應(yīng)的估計(jì)值后,可以建立的流失模型(LossTrend)方程為:

2.3 神經(jīng)網(wǎng)絡(luò)模型

本文采用常規(guī)三層神經(jīng)網(wǎng)絡(luò)模型,即一個(gè)輸入層、一個(gè)隱含層和一個(gè)輸出層,輸入層神經(jīng)元個(gè)數(shù)為10個(gè),對(duì)應(yīng)10個(gè)自變量。對(duì)于二分類問題,輸出層神經(jīng)元個(gè)數(shù)為2個(gè),只有隱含層神經(jīng)元的數(shù)量需要進(jìn)一步討論,數(shù)量范圍由以下公式得出:

其中、、分別為隱含層、輸入層和輸出層神經(jīng)元個(gè)數(shù),為調(diào)節(jié)因子,取值范圍[1-10],初步確定該神經(jīng)網(wǎng)絡(luò)模型l的取值范圍為[4-14]。將訓(xùn)練次數(shù)定為500次,獲得l取不同數(shù)值對(duì)應(yīng)的模型預(yù)測(cè)準(zhǔn)確率AUC結(jié)果,如圖4所示。

圖4 預(yù)測(cè)結(jié)果隨隱含層神經(jīng)元數(shù)量變化情況

可以看出,隱含層神經(jīng)元個(gè)數(shù)為12時(shí),AUC值最大,此時(shí)模型預(yù)測(cè)效果更好,因此本文將隱含層單元數(shù)量確定為12個(gè),同時(shí)將最大訓(xùn)練次數(shù)擴(kuò)大至1 000次,激活函數(shù)選用Sigmod函數(shù),學(xué)習(xí)率為0.001。至此,本文神經(jīng)網(wǎng)絡(luò)框架已構(gòu)建完成,權(quán)重更新方式(即模型優(yōu)化方法)采用比經(jīng)典隨機(jī)梯度下降法更為高效的Adam優(yōu)化算法。

2.4 模型評(píng)估與應(yīng)用

2.4.1 混淆矩陣評(píng)估

混淆矩陣是評(píng)價(jià)二分類模型最常用的手段,將預(yù)測(cè)值和真實(shí)值作比較,可以輸出表4所示的矩陣。

表4 混淆矩陣

通過準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、提升系數(shù)(Lifting)和F1系數(shù)共5項(xiàng)指標(biāo)對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確和穩(wěn)定性進(jìn)行評(píng)估。相關(guān)公式為:

通過對(duì)邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型的混淆矩陣進(jìn)行分析,可以分別求出上述5項(xiàng)指標(biāo),結(jié)果如表5所示。

表5 兩種模型預(yù)測(cè)效果對(duì)比

可以看出,神經(jīng)網(wǎng)絡(luò)具有更好的預(yù)測(cè)效果,在流失客戶樣本的預(yù)測(cè)正確率方面神經(jīng)網(wǎng)絡(luò)比邏輯回歸高出2%,表明在判斷客戶是否為流失客戶方面,神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果更為準(zhǔn)確;從召回率來(lái)看,在實(shí)際流失客戶的樣本正,神經(jīng)網(wǎng)絡(luò)也具有更高的預(yù)測(cè)比例,在提升系數(shù)和F1值上也有更好的表現(xiàn)。

2.4.2 ROC曲線評(píng)估

ROC曲線可以反映預(yù)測(cè)模型和分析方法敏感性與特異性間的關(guān)系,橫縱坐標(biāo)分別代表正例的錯(cuò)誤命中率(FPR=FP/(FP+TN))和正例的預(yù)測(cè)準(zhǔn)確率(TPR=TP/(TP+FN)),曲線和橫軸間的面積為AUC值,該數(shù)值越接近1模型的預(yù)測(cè)效果越好。本文分別繪制邏輯回歸模型和神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練和測(cè)試ROC曲線,并列出對(duì)應(yīng)的AUC值,如圖5所示。

圖5 邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型ROC曲線

可以看出無(wú)論是邏輯回歸還是神經(jīng)網(wǎng)絡(luò),測(cè)試集的結(jié)果均和訓(xùn)練集結(jié)果相差不大,說明本文構(gòu)建的兩種模型沒有明顯的過擬合現(xiàn)象,預(yù)測(cè)的結(jié)果合理且可靠。

從模型精度而言,神經(jīng)網(wǎng)絡(luò)模型的測(cè)試和訓(xùn)練集AUG值均在0.9以上,高于邏輯回歸模型,說明神經(jīng)網(wǎng)絡(luò)精度更高。

綜上所述,結(jié)合混淆矩陣和ROC曲線評(píng)估結(jié)果,可以認(rèn)為本文所構(gòu)建的兩個(gè)模型在可靠性和精確度上均具有良好的表現(xiàn),相比而言,神經(jīng)網(wǎng)絡(luò)更具優(yōu)勢(shì)。

2.5 模型的業(yè)務(wù)嵌入

完成模型的構(gòu)建和可靠性分析之后,將模型正式嵌入數(shù)據(jù)平臺(tái),對(duì)未來(lái)流失用戶進(jìn)行實(shí)時(shí)預(yù)測(cè),定期生成流失預(yù)警名單,結(jié)合運(yùn)營(yíng)部門和策略部門制定有針對(duì)性的挽留方案,實(shí)現(xiàn)客戶流失前期運(yùn)營(yíng),提高挽留成功的概率。具體嵌入模塊及流程如圖6所示。

圖6 模型嵌入模塊及應(yīng)用流程圖

首先,利用問卷調(diào)研、平臺(tái)抓取等手段結(jié)合互聯(lián)網(wǎng)大數(shù)據(jù)系統(tǒng)獲取客戶實(shí)時(shí)的行為數(shù)據(jù),存入數(shù)據(jù)倉(cāng)庫(kù)并進(jìn)行定期整理、清洗和格式化處理,提升數(shù)據(jù)的整潔性,進(jìn)入基于神經(jīng)網(wǎng)絡(luò)的客戶流失預(yù)測(cè)模型進(jìn)行計(jì)算,將結(jié)果輸入運(yùn)營(yíng)管理系統(tǒng),根據(jù)客戶特征進(jìn)行有效分類并制定有針對(duì)性的挽留策略,當(dāng)客戶觸發(fā)流失條件時(shí)系統(tǒng)自動(dòng)根據(jù)客戶類別進(jìn)行針對(duì)性挽留。通過數(shù)據(jù)分析歸納,不斷優(yōu)化模型和實(shí)施流程。

3 結(jié) 論

本文以通信運(yùn)營(yíng)商對(duì)現(xiàn)有客戶流失管理方法為研究對(duì)象,結(jié)合金融管理、統(tǒng)計(jì)學(xué)理論和數(shù)據(jù)挖掘建模手段建立了針對(duì)通信客戶的流失預(yù)測(cè)模型,針對(duì)移動(dòng)通信用戶流失問題進(jìn)行了定量分析。通過不同模型運(yùn)行結(jié)果對(duì)比分析,發(fā)現(xiàn)本文構(gòu)建的人工神經(jīng)網(wǎng)絡(luò)模型比傳統(tǒng)的邏輯回歸模型在各項(xiàng)評(píng)價(jià)指標(biāo)上均有較強(qiáng)的優(yōu)勢(shì),同時(shí)將模型嵌入管理模塊并提出對(duì)應(yīng)的運(yùn)營(yíng)系統(tǒng)及流程,這對(duì)企業(yè)客戶服務(wù)平臺(tái)和運(yùn)營(yíng)管理優(yōu)化改進(jìn)具有重要的指導(dǎo)意義。

猜你喜歡
神經(jīng)元神經(jīng)網(wǎng)絡(luò)變量
基于人工智能LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)成績(jī)預(yù)測(cè)
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測(cè)
AI講座:神經(jīng)網(wǎng)絡(luò)的空間對(duì)應(yīng)
仿生芯片可再現(xiàn)生物神經(jīng)元行為
這個(gè)神經(jīng)元負(fù)責(zé)改變我們的習(xí)慣
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測(cè)
研究人員精確定位控制飲酒的神經(jīng)元
分離變量法:常見的通性通法
不可忽視變量的離散與連續(xù)