国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于TMRF 算法的電信客戶流失預測方案研究*

2021-06-01 12:57:08李兵陳俊才
數字技術與應用 2021年4期
關鍵詞:數據源決策樹建模

李兵 陳俊才

(1.廣東郵電職業(yè)技術學院,廣東廣州 510630;2.中國電信廣東公司,廣東廣州 510000)

0 引言

自我國電信業(yè)重組之后,各大電信運營商在生產經營活動中,對客戶的競爭加劇,增量客戶爭奪與存量客戶維系是兩個最重要的業(yè)務指標。據調查數據表明,爭取1名增量用戶成本為保持1名存量用戶的4-5倍[1]。而目前存量客戶的維系基本上依靠市場人員的經驗鎖定潛在流失客戶進行營銷,存在準確性低、維系效果不理想的問題。近年來,隨著計算機設備算力增加與分布式計算等大數據存儲、計算技術的快速發(fā)展,為擁有海量用戶數據的電信運營商進行客戶流失預測研究提供了便捷。以電信行業(yè)大數據為“礦藏”,使用以回歸算法、分類聚類、決策樹及人工神經網絡等機器學習算法,可以從大量歷史流失客戶的特征規(guī)律著手,客觀地研究出客戶的屬性,實現潛在流失客戶的精準識別,以便市場人員開展客戶流失挽留。

目前國內外各大電信運營商對客戶流失的研究主要集中在三個方面:(1)電信客戶離網影響要素研究;(2)電信客戶挽留策略與營銷方法研究;(3)預測算法建模分析客戶流失。本文所述研究為第三方面,旨在從現網客戶中找出潛在流失客戶。

1 客戶流失與機器學習

客戶流失是指客戶終止當前的電信套餐服務并不再續(xù)約,也稱之為用戶離網。根據現有研究可知,客戶流失主要因素可以歸納為價格、網絡質量、服務質量、故障響應速度、增值服務等,當然也包括一些自身原因,如工作原因致使號碼變化、居住城市、他網(同類型服務商)競爭等。這些潛在因素成為我們進行流失預測建模的重要輸入,以期實現流失預警與維系雙管齊下的目標。

機器學習[2]是一門多領域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科,它使用計算機模擬人類行為,以獲得新知識與規(guī)律。大數據技術為機器學習提供更廣闊的應用舞臺。

國外基于機器學習算法的電信客戶流失的研究相對較早,Louis使用決策樹TreeNet不僅實現了對Verizon客戶流失的高準確度預測,同時找到影響客戶流失的重要因素[3];Nath等[4]人使用Bayes分類器較為準確地計算出未來3個月客戶離網概率;Khan等[5]人使用少量變量通過遞歸神經網絡RNN算法對英國電信British Telecom客戶數據進行流失預測分析。

國內學者關于這一領域的研究雖起步晚,但相關研究發(fā)展迅速。趙宇等人針改進了傳統(tǒng)SVM 算法在數據不平衡下使客戶流失的預測準確率大幅提升[6];徐新喬通過分布式架構大數據平臺整合異構數據,提出基于XGBoost的Bagging方法構建二分類模型對電信用戶進行離網預測,較好地提升了模型的精確率與召回率[7];沈江明等提出了基于不均衡數據處理與組合模型相結合的組合模型,用于客戶流失隔月預測,實現了命中率的提升[8];蔡男將聚類算法融入隨機森林構造新的隨機森林改進了傳統(tǒng)隨機森林模型的預測性能指標[9]。近年來,多算法融合的機器學習方法成為預測客戶流失的一個重要分支,并引起越來越多學者的關注。

目前國內外關于電信客戶流失的研究,大多基于Clementine、SPSS等數據挖掘軟件,存在單數據挖掘算法或組合挖掘算法調參不便、使用數據維度有限等問題,難以全面分析客戶流失。

2 客戶流失預測實現方案

2.1 流失預測方案過程

國內各電信運營商由于行業(yè)規(guī)定、業(yè)務發(fā)展與網絡分析需要早已建有各類歷史信息管理系統(tǒng),包含客戶關系管理系統(tǒng)CRM、業(yè)務支撐系統(tǒng)BSS、運營支撐系統(tǒng)OSS、寬帶日志、故障申告等,這些系統(tǒng)底層數據庫基本上采用傳統(tǒng)的關系型數據庫系統(tǒng)如MySQL、Oracle、SQL Server等,存儲格式往往按時間、站點等屬性進行存儲。我們在進行客戶流失預測建模之前,需整合各個數據源到統(tǒng)一的大數據平臺。預測方案的建立過程如圖1 所示。

從圖1可知,流失預測方案過程包括“數據源→大數據平臺→預處理→特征選擇→標準化處理→預測算法構建→預測訓練→預測方案生成→方案評估→最終預測優(yōu)化方案”。在訓練過程中預測指標達不到預期,需采用各種機器學習方法進行反復訓練并加以驗證。

圖1 客戶流失預測方案的建立過程Fig.1 The establishment process of customer churn prediction scheme

2.2 流失預測方案

2.2.1 數據源整合與大數據平臺

目前我國電信運營商數據平臺眾多且分散,OSS、BSS、SEQ、上網等全網多種數據源的整合工作量大、難度較高,且存在數據口徑不一致的情況。本部分工作是決定大數據挖掘效果至關重要的一個環(huán)節(jié)。數據整合的質量決定預測模型的上限,后續(xù)算法的優(yōu)化為預測模型能否接近上限,因此數據源的整合往往占據著電信行業(yè)大數據挖掘的絕大部分時間?,F有系統(tǒng)往往利用數據集成套件BDI和日志收集系統(tǒng)Flume將離線數據抽取到Hadoop平臺的分布式文件系統(tǒng)HDFS中;對于實時性要求高的數據源往往采用FLume整合Kafka的方式實現實時數據采集,如圖2 所示。在大數據前提下而言,數據源越多進行預測建模的預測準確性等評價指標會越好,但實際操作過程中應根據運營商數據源現狀合理整合,盡量避免大量“臟數據”的出現。

本方案采集的源數據包括客戶基本信息、故障報備與投訴記錄、DTS線路檢測、移動通話記錄、寬帶網絡訪問日志等。

2.2.2 大數據預處理

目前大多數挖掘建模過程,都會將預處理后的二次數據放在關系型數據庫,但本方案對于數據量大、數據類型多、數據價值密度相對較低的電信行業(yè)大數據,如上圖2所示使用MapReduce進行分布式計算,能極大地提升計算效率。預處理的主要內容包括去除奇異點數據、補充缺失數據、數據重組、無效數據清洗以及數據抽取等內容。本步驟最重要的在于無效數據的清洗與對已離網客戶數據的完整性、準確性進行檢查,這是決定后續(xù)預測算法效果最重要的兩個因素。數據抽取環(huán)節(jié)完成將源數據記錄轉變?yōu)橐钥蛻魹榱6鹊木W絡行為特征,數據抽取工作往往根據建模經驗與專家判斷而定。本方案將上述源數據抽取為326個客戶網絡行為特征。

圖2 電信大數據整合與應用框架圖Fig.2 Telecom big data integration and application framework

表1 客戶流失預測方案特征表Tab.1 Characteristic table of customer churn prediction scheme

圖3 TMRF 算法流程圖Fig.3 Flow chart of TMRF algorithm

表2 混淆矩陣Tab.2 Confusion matrix

2.2.3 特征選擇

不是所有的數據屬性都與客戶流失相關,為了減少建模算法的運算量,往往需要使用數據探索性分析[10](Exploratory Data Analysis,簡稱EDA)以去除不相關的數據,并選取重要的關鍵特征子集。目前采用主成分分析[11](如PCA)等降維方法或分析工具的方式實現特征選擇比較常見。本方案采取datawrangler工具實現特征的選擇,最終得到相關性較大的行為特征共57個,如表1所示。表1數據統(tǒng)計周期為月,其中客戶行為的變化趨勢為同比上月的數據。

2.2.4 標準化處理

在多特征建模過程中,由于各特征的性質、量綱及數量級不同,通常需要在應用預測算法建模前,對數據進行標準化處理使數據指標化。常用的方法有min-max標準化、log函數轉換以及z-score標準化等。本方案根據輸入特征的實際情況采用最大最小規(guī)范法,如公式1 所示,進行標準化處理,以使得各非數值類特征統(tǒng)一落在一個較小的區(qū)間[0,1]。

2.2.5 預測算法的構建與方案訓練

目前通常采用回歸算法、分類聚類、決策樹及人工神經網絡等算法進行流失預測建模。有很多非常方便的工具和算法庫支撐數據處理,如Tensorflow、scikitlearn、NumPy等。利用這些已有的工具和算法庫能有效地減少算法開發(fā)與驗證難度。本方案擬采用scikit-learn改進隨機森林以實現預測建模。對于電信運營商而言,客戶流失可以按業(yè)務類型進行劃分,如寬帶、4/5G移動、IPTV等,本方案以4/5G移動客戶的流失預測為目標。其它業(yè)務類型客戶流失預測機制相似,本文可作為參考。

2.3 流失預測方案評估

使用訓練數據完成預測方案訓練后,再利用驗證數據進行對比來判斷方案的預測效果。常用的評估方法有5個:混淆矩陣、洛倫茲圖、GINI系數、KS曲線及ROC曲線。本方案根據應用需要,選用混淆矩陣與ROC 曲線對預測算法進行評估。其中混淆矩陣指標如表2 所示,通過以下三個指標來評估模型的有效性:

精確率Precision=TP/(TP+FP)

召回率Recall=TP/(TP+FN)

F1-值(F1-score)=2*P*R/(P+R)

F1-score是精確率和召回率的調和平均數,在機器學習中,往往將其作為模型重要評測指標,此外,ROC 曲線(AUC的值)能更為穩(wěn)定地反映模型好壞,一般預測算法的AUC(如下公式2,M與N分別代表正負樣本數量)介乎0.5至1之間才能證明算法有效,AUC越接近1,算法模型性能越好。

3 預測算法構建

在整個客戶流失預測方案中,預測算法是核心?,F有的電信客戶流失分類預測模型最早采用基于決策樹的ID3算法對離散型數據進行分類,其后C4.5算法使用連續(xù)屬性離散化的方法對ID3算法做了改進,增加了對連續(xù)屬性的分類,之后大量學者使用隨機森林算法進行流失潛在客戶預測[12]。

本文預測方案擬改進傳統(tǒng)的隨機森林算法,提出多決策樹合并的隨機森林算法(Trees Merge Random Forest,以下簡稱TMRF),以保持預測整體性能的前提下,減少算法模型的存儲與計算時間開銷。TMRF 算法分為兩個階段:(1)由傳統(tǒng)隨機森林中對分類精度較高的決策樹進行約簡、合并,得到高精度子森林;(2)使用K-Means++聚類算法對高精度子森林進行聚類[13],從中過濾出高精度且低相似的決策樹組成新隨機森林。TMRF 算法流程如圖3所示。

3.1 選擇高精度子森林

首先利用驗證集計算原始森林的所有決策樹AUC值作為各決策樹的分類精度,并進行降序排序。按現有研究經驗選擇前67%(約總決策樹的2/3),本算法擬選取精度高于隨機森林平均值的所有決策樹作為子森林SubT,如公式3所示,其中Auci為第i棵決策樹ti的AUC 值。

如圖3所示,高精度子森林約簡過程為:(1)使用自舉(Bootstrap)抽樣有放回地從訓練集D中抽取K個子集;(2)對K個訓練子集進行決策樹算法訓練基分類器模型;(3)使用驗證數據集V 的樣本對K 個決策樹進行分類,并計算其AUC值;(4)對各樹AUC值進行降序列排列,取得高于AUC平均值的高精度子森林集SubT。

3.2 K-Means++過濾出低相似隨機森林

通過上一階段,去除了分類能力差的決策樹,但留在子森林集合SubT中的高相似決策樹仍然未得到優(yōu)化,會影響造成預測算法計算時間過長。為此,使用聚類算法完成高相似隨機森林的合并:(1)將上階段的SubT隨機森林對驗證樣本的分類結果作為數據集D={x1,x2,…,xm},從D中隨機選取k個樣本作為初始質心向量{u1,u2,…,uk};(2)遍歷數據集D,根據公式4計算各xi到質心向量μj(j=1,2,...k)的距離,將數據劃分到最近的中心組成類簇;(3)根據公式5更新各類簇的中心值uj;(4)重復2)與3)步驟,直至各類簇中心穩(wěn)定;(5)計算不同K值 下各類對應的輪廓系數s(見公式6,disMeanin為該樣子與本類其它樣本的平均距離,disMeanout為該樣本與非本類樣本的平均距離),確定合適的K值與聚類結果;(6)從各類簇中選擇代表性的決策樹組成隨機子森林。

4 方案驗證與應用

4.1 數據說明

本預測方案的驗證源數據來自廣東省某市級電信運營商公司的自建Hadoop大數據平臺,該數據平臺共計170多個分布式計算節(jié)點,存儲容量達到4.9PB、2700核CPU、12T內存計算資源,已經完成OSS、BSS、寬帶訪問記錄、通話記錄等多個數據源整合,并以全網唯一標識號以索引建立220 余萬以客戶為維度的326 維網絡行為特征的抽取。目前能支撐全市在網客戶的流失預警、智能交通、精準投放、場景營銷等場景應用。

為了有效地驗證我們的預測方案,我們從中選取2019年網絡行為特征值相對較完整的客戶,共計476485人(全網唯一標識號)。由于客戶流失行業(yè)具有一定的延時性,因此我們以對算法的訓練規(guī)則為:以第N 月數據為輸入,觀察其后三個月是否流失為輸出建模,如圖4 所示。這是一個經典的二分類決策建模問題。

實驗選取2019年1-6月數據作為訓練數據集,7-12月數據作為驗證數據集。1-3月的特征數據進行TMRF算法訓練,對其后3個月2-6月是否流失進行建模預測,如圖4所示。最后將2020年7-9月的客戶特征數據輸入到模型,以8-12月的在網客戶數據進行驗證。這樣保證了建模數據與驗證不存在干擾的可能。

圖4 預測模型示意圖Fig.4 Schematic diagram of prediction model

4.2 訓練和評估

我們針對訓練數據集進行多次訓練,通過對訓練結果反復驗證和評價經驗,選擇將初始隨機森林規(guī)模設置為300顆樹,采樣方法為Bootstrap,初始樹的最大深度為19層,葉子最小樣本數242個;經過高精度子森林的約簡后與K-Means++聚類后,得到SubT隨機森林為84顆,最大深度為16,葉子最小樣本數756個。

為了驗證基于TMRF 算法的有效性,我們同樣在將C4.5與傳統(tǒng)隨機森林對訓練數據進行訓練建模,并在7-12月驗證數據集驗證后進行整體性能比較。如圖5所示,三種預測算法在隨時間推進(7-9月預測),精確率、召回率及F1-score值相對平穩(wěn),說明TMRF算法經過訓練生成模型后固化性高,各項評估指標相對穩(wěn)定,短期內應用無需反復訓練。

圖5 三種預測算法性能指標圖Fig.5 Performance index chart of three prediction algorithms

我們將三個月的預測結果的整體數據進行匯總統(tǒng)計,如表3 所示可知,TMRF 算法在精確在各項性能指標方面比兩種傳統(tǒng)預測算法上有了較大提升。

表3 客戶流失預測結果匯總統(tǒng)計表Tab.3 Summary statistics of customer churn forecast results

最后,我們繪制ROC曲線圖直觀地對比三種預測算法的結果,如圖6所示。從圖可知C4.5、傳統(tǒng)隨機森林算法、TMRF算法的AUC值分別為79.5%、83.6%、88.7%。TMRF算法較之C4.5算法與傳統(tǒng)隨機森林算法的AUC值分別提高了9.2%與5.1%,在AUC值上,使用改進后的隨機森林是最優(yōu)的模型。

圖6 三種預測算法ROC 曲線圖Fig.6 ROC curves of three prediction algorithms

4.3 方案應用

我們對流失客戶進行根因分析,發(fā)現流失客戶具有故障申訴不及時、異網社交圈比例小、流量使用趨勢下降、通話時長趨勢下降、套餐即將到期、周末移動網上網時長低等標簽。將這些流失客戶的標簽屬性與本模型預測結果相結合,有利于電信運營商更有針對性地制定客戶挽留策略,并精準鎖定潛在流失客戶并開展挽留工作,既能節(jié)約人才物力,又能減少對無離網意向客戶的打擾。

5 結語

本文系統(tǒng)地分析了大數據挖掘技術在電信客戶流失預測中應用現狀與客戶流失預測方案的建立過程,并在方案中使用決策樹約簡與K-Means++聚類的方法改進了傳統(tǒng)隨機森林算法,獲得到高精度、低相似的TMRF 隨機森林預測算法。最后,通過某市電信運營商大數據平臺的真實數據進行預測方案的驗證,我們發(fā)現:TMRF 算法用于客戶流失預測較C4.5與傳統(tǒng)隨機森林在精確率、召回率、F-score值及ROC曲線等指標上表現更為優(yōu)異?;赥MRF 算法的預測方案得到的預測結果對電信運營商開展客戶服務質量提升與潛在流失客戶挽留工作具有較好的指導意義。

后續(xù)我們的預測建模工作將集中在兩個方面[14]:(1)由于采集數據的限制,本文的基礎數據源未包含移動網絡信令數據、定位數據等,針對移動用戶流失的預測能力尚有提升空間;(2)使用優(yōu)化的人工神經網絡等深度學習技術進行流失預測建模對比。

猜你喜歡
數據源決策樹建模
聯想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
一種針對不均衡數據集的SVM決策樹算法
基于PSS/E的風電場建模與動態(tài)分析
電子制作(2018年17期)2018-09-28 01:56:44
決策樹和隨機森林方法在管理決策中的應用
電子制作(2018年16期)2018-09-26 03:27:06
不對稱半橋變換器的建模與仿真
Web 大數據系統(tǒng)數據源選擇*
基于不同網絡數據源的期刊評價研究
基于決策樹的出租車乘客出行目的識別
基于真值發(fā)現的沖突數據源質量評價算法
基于肺癌CT的決策樹模型在肺癌診斷中的應用
蒙山县| 辽宁省| 潜江市| 德安县| 彰化市| 遂川县| 镇安县| 望江县| 曲松县| 天祝| 永康市| 洞口县| 五华县| 聂荣县| 沙湾县| 阿拉善盟| 万年县| 巨野县| 余干县| 无为县| 长阳| 仪陇县| 万年县| 哈巴河县| 玉林市| 许昌市| 宣武区| 牟定县| 沁水县| 栾川县| 邯郸市| 东源县| 鄂托克前旗| 靖边县| 锦州市| 石首市| 安多县| 恭城| 姜堰市| 汝城县| 响水县|