關于大數(shù)據(jù)系統(tǒng)構架中電信用戶流失的分析

2020-06-30 05:51馮亮

工程技術與管理 2020年5期

馮亮

太原理工大學，中國·山西太原 030000

大數(shù)據(jù)系統(tǒng)；客戶構架；分析

1 引言

當今電信市場競爭激烈運營商每月客戶流失率在1%～3%，挽留將要流失客戶、降低客戶流失率是近年來熱門的研究領域[1]。而數(shù)據(jù)挖掘技術是解決這一問題的有效途徑，論文對數(shù)據(jù)集進行數(shù)據(jù)挖掘與分析，深入了解電信客戶流失的關鍵，以對該類客戶的行為特性進行預警分析，采取針對性的措施改善客戶關系，避免客戶流失或者挽留客戶。[2，3]文中數(shù)據(jù)是在CCF 大數(shù)據(jù)與計算智能大賽官網尋找，來源于Kaggle 平臺。數(shù)據(jù)集的大小為7043 行，22 列，并且存在缺失。

Hadoop 平臺對處理大數(shù)據(jù)本身具有很顯著的優(yōu)點，首先它具有很高的可靠性，Hadoop 中HDFS 分布式文件系統(tǒng)采用了備份恢復機制，MapReduce 中的任務采用了監(jiān)控機制，這就保證了分布式處理的可靠性；其次它具有很好的高擴展性，Hadoop 是在可用的計算機集群間進行數(shù)據(jù)的分配的，也是在集群中分布完成計算任務的，這些集群族能擴展到數(shù)以千計的節(jié)點中，Hadoop 能可靠的存儲和處理數(shù)據(jù)。不管在存儲上還是計算上，可擴展性都是Hadoop 的設計根本所在；并且它具有高效性，Hadoop 的高效性表現(xiàn)在Hadoop 能夠在節(jié)點之間進行動態(tài)的移動數(shù)據(jù)，同時能保證各個節(jié)點的數(shù)據(jù)動態(tài)平衡，這就使得Hadoop 在處理數(shù)據(jù)時速度非常快。這種方式為高效處理海量數(shù)據(jù)做好了基礎準備。Hadoop 可以運行在廉價PC 上，采用自動保存數(shù)據(jù)的多個副本方式，并能自動為失敗的任務進行重新配置。隨著Hadoop 生態(tài)系統(tǒng)的成長，越來越多的新項目對Hadoop 是很好的補充或提供一些更高層的抽象。

Hadoop 的生態(tài)圖如下：

（1）HDFS：分布式文件系統(tǒng)，可以對數(shù)據(jù)進行存儲。

（2）MapReduce：分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境，可以對數(shù)據(jù)進行處理操作。

（3）ZooKeeper：在分布式系統(tǒng)中如何就某個值（決議）達成一致，是一個十分重要的基礎問題。ZooKeeper 作為一個分布式的服務框架，解決了分布式計算中的一致性問題。在此基礎上，ZooKeeper 可用于處理分布式應用中經常遇到的一些數(shù)據(jù)管理問題，如統(tǒng)一命名服務、狀態(tài)同步服務、集群管理、分布式應用配置項的管理等。ZooKeeper 常作為其他Hadoop相關項目的主要組件，發(fā)揮著越來越重要的作用。

（4）Hbase：Hbase 是一個在HDFS 上開發(fā)的面向列的分布式數(shù)據(jù)庫。如果需要實時地隨機訪問超大規(guī)模數(shù)據(jù)集，我們就可以使用Hbase 這一Hadoop 應用。

（5）Pig：運行在Hadoop 上，是對大型數(shù)據(jù)集進行分析和評估的平臺。它簡化了使用Hadoop 進行數(shù)據(jù)分析的要求，提供了一個高層次的、面向領域的抽象語言：PigLatin。通過Pig Latin，數(shù)據(jù)工程師可以將復雜且相互關聯(lián)的數(shù)據(jù)分析任務編碼為Pig 操作上的數(shù)據(jù)流腳本，通過將該腳本轉換為MapReduce 任務鏈，在Hadoop 上執(zhí)行。和Hive—樣，Pig 降低了對大型數(shù)據(jù)集進行分析和評估的門檻。

（6）Hive：是Hadoop 中的一個重要子項目，最早由Facebook 設計，是建立在Hadoop 基礎上的數(shù)據(jù)倉庫架構，它為數(shù)據(jù)倉庫的管理提供了許多功能，包括：數(shù)據(jù)ETL(抽取、轉換和加載）工具、數(shù)據(jù)存儲管理和大型數(shù)據(jù)集的查詢和分析能力。Hive 提供的是一種結構化數(shù)據(jù)的機制，定義了類似于傳統(tǒng)關系數(shù)據(jù)庫中的類SQL 語言。

（7）Mahout：起源于2008年，最初是Apache Lucent 的子項目，它在極短的時間內取得了長足的發(fā)展，現(xiàn)在是Apache的頂級項目。Mahout 的主要目標是創(chuàng)建一些可擴展的機器學習領域經典算法的實現(xiàn)，旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。Mahout現(xiàn)在己經包含了聚類、分類、推薦引擎（協(xié)同過濾）和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。除了算法，Mahout 還包含數(shù)據(jù)的輸入/輸出工具、與其他存儲系統(tǒng)（如數(shù)據(jù)庫、MongoDB 或Cassandra)集成等數(shù)據(jù)挖掘支持架構。

（8）Hume：Flume 是Cloudera 開發(fā)維護的分布式、可靠、高可用的日志收集系統(tǒng)。它將數(shù)據(jù)從產生、傳輸、處理并最終寫入目標的路徑的過程抽象為數(shù)據(jù)流，在具體的數(shù)據(jù)流中，數(shù)據(jù)源支持在Flume 中定制數(shù)據(jù)發(fā)送方，從而支持收集各種不同協(xié)議數(shù)據(jù)。同時，F(xiàn)lume 數(shù)據(jù)流提供對日志數(shù)據(jù)進行簡單處理的能力，如過濾、格式轉換等。此外，F(xiàn)lume 還具有能夠將日志寫往各種數(shù)據(jù)目標（可定制）的能力。總的來說，F(xiàn)lume 是一個可擴展、適合復雜環(huán)境的海量日志收集系統(tǒng)。

（9）Sqoop：是SQL-to-Hadoop 的縮寫，是Hadoop的周邊工具，它的主要作用是在結構化數(shù)據(jù)存儲與Hadoop之間進行數(shù)據(jù)交換。Sqoop 可以將一個關系型數(shù)據(jù)庫(例如 MySQL、Oracle、PostgreSQL 等）中的數(shù)據(jù)導入 Hadoop 的 HDFS、Hive 中，也可以將HDFS、Hive 中的數(shù)據(jù)導入關系型數(shù)據(jù)庫中。Sqoop 充分利用了 Hadoop 的優(yōu)點，整個數(shù)據(jù)導入導出過程都是用MapReduce 實現(xiàn)并行化，同時，該過程中的大部分步驟自動執(zhí)行，非常方便。

2 具體數(shù)據(jù)分析

2.1 實驗環(huán)境搭建

Hadoop3.2.0，Hive3.1.2，Sqoop1.4.7，Spark2.4.4。

2.2 數(shù)據(jù)預處理

（1）導入數(shù)據(jù)集，并查看數(shù)據(jù)及信息、大小。

（2）檢查各列、各字段數(shù)據(jù)類型、字段內容和數(shù)量，發(fā)現(xiàn)“TotalCharges”（總消費額）列有11 個用戶數(shù)據(jù)缺失，將其數(shù)據(jù)類型強制轉換為浮點型，并將缺失用戶數(shù)據(jù)填充為“NaN”。

（3）經過觀察，發(fā)現(xiàn)這11 個用戶‘tenure’（入網時長）為0 個月，推測是當月新入網用戶。根據(jù)一般經驗，用戶即使在注冊的當月流失，也需繳納當月費用。因此將這11 個用戶入網時長“tensure”改為1，將總消費額填充為月消費額，符合實際情況。

（4）將處理完的數(shù)據(jù)保存為新的數(shù)據(jù)集。

2.3 使用Hive 數(shù)據(jù)分析

將數(shù)據(jù)加載到Hive 中

（1）將預處理后的新數(shù)據(jù)集上傳到HDFS 中。

（2）在Hive 中創(chuàng)建一個數(shù)據(jù)庫來加載HDFS 中的數(shù)據(jù)

2.4 分析用戶各屬性及流失率的關系

2.4.1 分析流失用戶數(shù)量和占比（見圖1）

圖1 流失用戶數(shù)量和占比

結論：屬于不平衡數(shù)據(jù)集，流失用戶占比達26.54%。

2.4.2 用戶屬性分析

按照年齡分析用戶流失比例，如圖2所示。

圖2 分析用戶流失比例圖（按照年齡）

結論：年老用戶流失率占顯著高于年輕用戶。

按照性別分析用戶流失比例，如圖3所示。

圖3 分析用戶流失比例（按照性別）

結論：男性與女性用戶之間的流失情況基本沒有差異。

按照婚否分析用戶流失比例，如圖4所示。

圖4 分析用戶流失比例（按照婚否）

結論：在所有數(shù)據(jù)中未婚與已婚人數(shù)基本持平，但未婚中流失人數(shù)比已婚中的流失人數(shù)高出了快一倍。

按照是否有家屬分析用戶流失比例，如圖5所示。

圖5 分析用戶流失比例（按照是否有家屬）

結論：有家屬的用戶流失占比低于無家屬用戶。

2.4.3 服務屬性分析

按照有多條線路分析用戶流失比例，如圖6所示。

圖6 分析用戶流失比例（按照有多條線路）

結論：是否有多條線路整體對用戶流失影響不明顯。

按照多條線路互聯(lián)網服務提供商（DSL，F(xiàn)iber optic，No）分析用戶流失比例，如圖7所示。

圖7 分析用戶流失比例（按照多條線路互聯(lián)網服務提供商）

結論：光纖用戶的流失占比較高。

根據(jù)互聯(lián)網服務用戶綁定情況分析用戶流失比例，如圖8所示。

圖8 分析用戶流失比例（根據(jù)互聯(lián)網服務用戶綁定情況）

結論：由圖可以看出，在網絡安全服務、在線備份業(yè)務、設備保護業(yè)務、技術支持服務、網絡電視和網絡電影六個變量中，沒有互聯(lián)網服務的客戶流失率值是相同的，都是相對較低。這可能是因為以上六個因素只有在客戶使用互聯(lián)網服務時才會影響客戶的決策，這六個因素不會對不使用互聯(lián)網服務的客戶決定是否流失產生推論效應。

綁定了安全、備份、保護、技術支持服務的流失率較低；附加流媒體電視、電影服務的流失率占比較高。

根據(jù)付款方式分析用戶流失比例，如圖9所示。

圖9 分析用戶流失比例（根據(jù)付款方式）

結論：在四種支付方式中，使用Electronic check 的用戶流流失率最高，其他三種支付方式基本持平，因此可以推斷電子賬單在設計上影響用戶體驗。

根據(jù)消費額情況分析用戶流失比例，如圖10所示。

圖10 分析用戶流失比例（根據(jù)消費額情況）

結論：月消費額大約在70-110 之間用戶流失率較高。

長期來看，用戶總消費越高，流失率越低，符合一般經驗。

3 將結果可視化

我們利用Html 和CSS 簡單制作了一個網頁，將上述所得結果呈現(xiàn)給用戶，網頁地址為http：//47.93.163.14。

4 結語

針對性給出增加用戶黏性、預防流失的建議。

推薦老年用戶采用數(shù)字網絡，且簽訂2年期合同（可以各種輔助優(yōu)惠等營銷手段來提高2年期合同的簽訂率），若能開通相關網絡服務可增加用戶粘性，因此可增加這塊業(yè)務的推廣，同時考慮改善電子賬單支付的用戶體驗。

電信業(yè)的競爭重點集中在對客戶市場的爭奪，這要求各大電信運營商將更多的精力投入到客戶市場。做好客戶的培育、鞏固和回流工作，這三個方面的工作是相互促進、相互補充的。針對客戶的回流工作，可采取以下措施以盡可能地降低客戶的流失率。

4.1 開展個性化服務

現(xiàn)階段企業(yè)服務水平的差異不是體現(xiàn)在大眾化服務上而是體現(xiàn)在個性化服務上。目前電信消費群體對個性化消費的要求越來越高、電信企業(yè)如何適應消費群體定制化服務的要求，將特色服務作為企業(yè)新的競爭力和業(yè)務增長點，是電信企業(yè)迫切需要解決的問題。例如：針對年老、單身、無家屬的用戶推出特制服務，如人文套餐等，一可以增強用戶之間的聯(lián)系度，二可以提供個性化設計服務。

4.2 做好客戶的開發(fā)和維持工作

良好的客戶關系對于項目的成功有著不可低估的作用。及時掌握客戶的通信需求，可以增進人與人之間的情感交流與思想溝通等，企業(yè)間的合作最終是人與人之間的合作，例如贈送半年或一年打折券。對于使用光纖和附加流媒體電影、電視服務的用戶，重點在于提高網絡使用體驗、增值服務體驗。

4.3 完善自身業(yè)務能力

電信運營商對現(xiàn)有的業(yè)務做好進一步的宣傳工作。對客戶需要而企業(yè)暫時不能開放提供的業(yè)務則要加大內部研發(fā)工作，不能讓需求在等待中消失，更不能因能力不足而失去收入增長的機會。此外還要認真研究市場，做好業(yè)務的預測工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡