国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關于大數(shù)據(jù)系統(tǒng)構架中電信用戶流失的分析

2020-06-30 05:51馮亮
工程技術與管理 2020年5期
關鍵詞:流失率結論比例

馮亮

太原理工大學,中國·山西 太原 030000

大數(shù)據(jù)系統(tǒng);客戶構架;分析

1 引言

當今電信市場競爭激烈運營商每月客戶流失率在1%~3%,挽留將要流失客戶、降低客戶流失率是近年來熱門的研究領域[1]。而數(shù)據(jù)挖掘技術是解決這一問題的有效途徑,論文對數(shù)據(jù)集進行數(shù)據(jù)挖掘與分析,深入了解電信客戶流失的關鍵,以對該類客戶的行為特性進行預警分析,采取針對性的措施改善客戶關系,避免客戶流失或者挽留客戶。[2,3]文中數(shù)據(jù)是在CCF 大數(shù)據(jù)與計算智能大賽官網尋找,來源于Kaggle 平臺。數(shù)據(jù)集的大小為7043 行,22 列,并且存在缺失。

Hadoop 平臺對處理大數(shù)據(jù)本身具有很顯著的優(yōu)點,首先它具有很高的可靠性,Hadoop 中HDFS 分布式文件系統(tǒng)采用了備份恢復機制,MapReduce 中的任務采用了監(jiān)控機制,這就保證了分布式處理的可靠性;其次它具有很好的高擴展性,Hadoop 是在可用的計算機集群間進行數(shù)據(jù)的分配的,也是在集群中分布完成計算任務的,這些集群族能擴展到數(shù)以千計的節(jié)點中,Hadoop 能可靠的存儲和處理數(shù)據(jù)。不管在存儲上還是計算上,可擴展性都是Hadoop 的設計根本所在;并且它具有高效性,Hadoop 的高效性表現(xiàn)在Hadoop 能夠在節(jié)點之間進行動態(tài)的移動數(shù)據(jù),同時能保證各個節(jié)點的數(shù)據(jù)動態(tài)平衡,這就使得Hadoop 在處理數(shù)據(jù)時速度非常快。這種方式為高效處理海量數(shù)據(jù)做好了基礎準備。Hadoop 可以運行在廉價PC 上,采用自動保存數(shù)據(jù)的多個副本方式,并能自動為失敗的任務進行重新配置。隨著Hadoop 生態(tài)系統(tǒng)的成長,越來越多的新項目對Hadoop 是很好的補充或提供一些更高層的抽象。

Hadoop 的生態(tài)圖如下:

(1)HDFS:分布式文件系統(tǒng),可以對數(shù)據(jù)進行存儲。

(2)MapReduce:分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境,可以對數(shù)據(jù)進行處理操作。

(3)ZooKeeper:在分布式系統(tǒng)中如何就某個值(決議)達成一致,是一個十分重要的基礎問題。ZooKeeper 作為一個分布式的服務框架,解決了分布式計算中的一致性問題。在此基礎上,ZooKeeper 可用于處理分布式應用中經常遇到的一些數(shù)據(jù)管理問題,如統(tǒng)一命名服務、狀態(tài)同步服務、集群管理、分布式應用配置項的管理等。ZooKeeper 常作為其他Hadoop相關項目的主要組件,發(fā)揮著越來越重要的作用。

(4)Hbase:Hbase 是一個在HDFS 上開發(fā)的面向列的分布式數(shù)據(jù)庫。如果需要實時地隨機訪問超大規(guī)模數(shù)據(jù)集,我們就可以使用Hbase 這一Hadoop 應用。

(5)Pig:運行在Hadoop 上,是對大型數(shù)據(jù)集進行分析和評估的平臺。它簡化了使用Hadoop 進行數(shù)據(jù)分析的要求,提供了一個高層次的、面向領域的抽象語言:PigLatin。通過Pig Latin,數(shù)據(jù)工程師可以將復雜且相互關聯(lián)的數(shù)據(jù)分析任務編碼為Pig 操作上的數(shù)據(jù)流腳本,通過將該腳本轉換為MapReduce 任務鏈,在Hadoop 上執(zhí)行。和Hive—樣,Pig 降低了對大型數(shù)據(jù)集進行分析和評估的門檻。

(6)Hive:是Hadoop 中的一個重要子項目,最早由Facebook 設計,是建立在Hadoop 基礎上的數(shù)據(jù)倉庫架構,它為數(shù)據(jù)倉庫的管理提供了許多功能,包括:數(shù)據(jù)ETL(抽取、轉換和加載)工具、數(shù)據(jù)存儲管理和大型數(shù)據(jù)集的查詢和分析能力。Hive 提供的是一種結構化數(shù)據(jù)的機制,定義了類似于傳統(tǒng)關系數(shù)據(jù)庫中的類SQL 語言。

(7)Mahout:起源于2008年,最初是Apache Lucent 的子項目,它在極短的時間內取得了長足的發(fā)展,現(xiàn)在是Apache的頂級項目。Mahout 的主要目標是創(chuàng)建一些可擴展的機器學習領域經典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。Mahout現(xiàn)在己經包含了聚類、分類、推薦引擎(協(xié)同過濾)和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。除了算法,Mahout 還包含數(shù)據(jù)的輸入/輸出工具、與其他存儲系統(tǒng)(如數(shù)據(jù)庫、MongoDB 或Cassandra)集成等數(shù)據(jù)挖掘支持架構。

(8)Hume:Flume 是Cloudera 開發(fā)維護的分布式、可靠、高可用的日志收集系統(tǒng)。它將數(shù)據(jù)從產生、傳輸、處理并最終寫入目標的路徑的過程抽象為數(shù)據(jù)流,在具體的數(shù)據(jù)流中,數(shù)據(jù)源支持在Flume 中定制數(shù)據(jù)發(fā)送方,從而支持收集各種不同協(xié)議數(shù)據(jù)。同時,F(xiàn)lume 數(shù)據(jù)流提供對日志數(shù)據(jù)進行簡單處理的能力,如過濾、格式轉換等。此外,F(xiàn)lume 還具有能夠將日志寫往各種數(shù)據(jù)目標(可定制)的能力。總的來說,F(xiàn)lume 是一個可擴展、適合復雜環(huán)境的海量日志收集系統(tǒng)。

(9)Sqoop:是SQL-to-Hadoop 的 縮 寫,是Hadoop的周邊工具,它的主要作用是在結構化數(shù)據(jù)存儲與Hadoop之間進行數(shù)據(jù)交換。Sqoop 可以將一個關系型數(shù)據(jù)庫(例如 MySQL、Oracle、PostgreSQL 等)中的數(shù)據(jù)導入 Hadoop 的 HDFS、Hive 中,也可以將HDFS、Hive 中的數(shù)據(jù)導入關系型數(shù)據(jù)庫中。Sqoop 充分利用了 Hadoop 的優(yōu)點,整個數(shù)據(jù)導入導出過程都是用MapReduce 實現(xiàn)并行化,同時,該過程中的大部分步驟自動執(zhí)行,非常方便。

2 具體數(shù)據(jù)分析

2.1 實驗環(huán)境搭建

Hadoop3.2.0,Hive3.1.2,Sqoop1.4.7,Spark2.4.4。

2.2 數(shù)據(jù)預處理

(1)導入數(shù)據(jù)集,并查看數(shù)據(jù)及信息、大小。

(2)檢查各列、各字段數(shù)據(jù)類型、字段內容和數(shù)量,發(fā)現(xiàn)“TotalCharges”(總消費額)列有11 個用戶數(shù)據(jù)缺失,將其數(shù)據(jù)類型強制轉換為浮點型,并將缺失用戶數(shù)據(jù)填充為“NaN”。

(3)經過觀察,發(fā)現(xiàn)這11 個用戶‘tenure’(入網時長)為0 個月,推測是當月新入網用戶。根據(jù)一般經驗,用戶即使在注冊的當月流失,也需繳納當月費用。因此將這11 個用戶入網時長“tensure”改為1,將總消費額填充為月消費額,符合實際情況。

(4)將處理完的數(shù)據(jù)保存為新的數(shù)據(jù)集。

2.3 使用Hive 數(shù)據(jù)分析

將數(shù)據(jù)加載到Hive 中

(1)將預處理后的新數(shù)據(jù)集上傳到HDFS 中。

(2)在Hive 中創(chuàng)建一個數(shù)據(jù)庫來加載HDFS 中的數(shù)據(jù)

2.4 分析用戶各屬性及流失率的關系

2.4.1 分析流失用戶數(shù)量和占比(見圖1)

圖1 流失用戶數(shù)量和占比

結論:屬于不平衡數(shù)據(jù)集,流失用戶占比達26.54%。

2.4.2 用戶屬性分析

按照年齡分析用戶流失比例,如圖2所示。

圖2 分析用戶流失比例圖(按照年齡)

結論:年老用戶流失率占顯著高于年輕用戶。

按照性別分析用戶流失比例,如圖3所示。

圖3 分析用戶流失比例(按照性別)

結論:男性與女性用戶之間的流失情況基本沒有差異。

按照婚否分析用戶流失比例,如圖4所示。

圖4 分析用戶流失比例(按照婚否)

結論:在所有數(shù)據(jù)中未婚與已婚人數(shù)基本持平,但未婚中流失人數(shù)比已婚中的流失人數(shù)高出了快一倍。

按照是否有家屬分析用戶流失比例,如圖5所示。

圖5 分析用戶流失比例(按照是否有家屬)

結論:有家屬的用戶流失占比低于無家屬用戶。

2.4.3 服務屬性分析

按照有多條線路分析用戶流失比例,如圖6所示。

圖6 分析用戶流失比例(按照有多條線路)

結論:是否有多條線路整體對用戶流失影響不明顯。

按照多條線路互聯(lián)網服務提供商(DSL,F(xiàn)iber optic,No)分析用戶流失比例,如圖7所示。

圖7 分析用戶流失比例(按照多條線路互聯(lián)網服務提供商)

結論:光纖用戶的流失占比較高。

根據(jù)互聯(lián)網服務用戶綁定情況分析用戶流失比例,如圖8所示。

圖8 分析用戶流失比例(根據(jù)互聯(lián)網服務用戶綁定情況)

結論:由圖可以看出,在網絡安全服務、在線備份業(yè)務、設備保護業(yè)務、技術支持服務、網絡電視和網絡電影六個變量中,沒有互聯(lián)網服務的客戶流失率值是相同的,都是相對較低。這可能是因為以上六個因素只有在客戶使用互聯(lián)網服務時才會影響客戶的決策,這六個因素不會對不使用互聯(lián)網服務的客戶決定是否流失產生推論效應。

綁定了安全、備份、保護、技術支持服務的流失率較低;附加流媒體電視、電影服務的流失率占比較高。

根據(jù)付款方式分析用戶流失比例,如圖9所示。

圖9 分析用戶流失比例(根據(jù)付款方式)

結論:在四種支付方式中,使用Electronic check 的用戶流流失率最高,其他三種支付方式基本持平,因此可以推斷電子賬單在設計上影響用戶體驗。

根據(jù)消費額情況分析用戶流失比例,如圖10所示。

圖10 分析用戶流失比例(根據(jù)消費額情況)

結論:月消費額大約在70-110 之間用戶流失率較高。

長期來看,用戶總消費越高,流失率越低,符合一般經驗。

3 將結果可視化

我們利用Html 和CSS 簡單制作了一個網頁,將上述所得結果呈現(xiàn)給用戶,網頁地址為http://47.93.163.14。

4 結語

針對性給出增加用戶黏性、預防流失的建議。

推薦老年用戶采用數(shù)字網絡,且簽訂2年期合同(可以各種輔助優(yōu)惠等營銷手段來提高2年期合同的簽訂率),若能開通相關網絡服務可增加用戶粘性,因此可增加這塊業(yè)務的推廣,同時考慮改善電子賬單支付的用戶體驗。

電信業(yè)的競爭重點集中在對客戶市場的爭奪,這要求各大電信運營商將更多的精力投入到客戶市場。做好客戶的培育、鞏固和回流工作,這三個方面的工作是相互促進、相互補充的。針對客戶的回流工作,可采取以下措施以盡可能地降低客戶的流失率。

4.1 開展個性化服務

現(xiàn)階段企業(yè)服務水平的差異不是體現(xiàn)在大眾化服務上而是體現(xiàn)在個性化服務上。目前電信消費群體對個性化消費的要求越來越高、電信企業(yè)如何適應消費群體定制化服務的要求,將特色服務作為企業(yè)新的競爭力和業(yè)務增長點,是電信企業(yè)迫切需要解決的問題。例如:針對年老、單身、無家屬的用戶推出特制服務,如人文套餐等,一可以增強用戶之間的聯(lián)系度,二可以提供個性化設計服務。

4.2 做好客戶的開發(fā)和維持工作

良好的客戶關系對于項目的成功有著不可低估的作用。及時掌握客戶的通信需求,可以增進人與人之間的情感交流與思想溝通等,企業(yè)間的合作最終是人與人之間的合作,例如贈送半年或一年打折券。對于使用光纖和附加流媒體電影、電視服務的用戶,重點在于提高網絡使用體驗、增值服務體驗。

4.3 完善自身業(yè)務能力

電信運營商對現(xiàn)有的業(yè)務做好進一步的宣傳工作。對客戶需要而企業(yè)暫時不能開放提供的業(yè)務則要加大內部研發(fā)工作,不能讓需求在等待中消失,更不能因能力不足而失去收入增長的機會。此外還要認真研究市場,做好業(yè)務的預測工作。

猜你喜歡
流失率結論比例
由一個簡單結論聯(lián)想到的數(shù)論題
人體比例知多少
立體幾何中的一個有用結論
生鮮豬肉肌細胞內外間隙和水分狀態(tài)與持水性的關系
壽險公司個人代理人流失的對策研究
美國OTT服務用戶流失率達19%
結論
按事故責任比例賠付
限制支付比例只是治標
驚人結論