馮亮
太原理工大學,中國·山西 太原 030000
大數(shù)據(jù)系統(tǒng);客戶構架;分析
當今電信市場競爭激烈運營商每月客戶流失率在1%~3%,挽留將要流失客戶、降低客戶流失率是近年來熱門的研究領域[1]。而數(shù)據(jù)挖掘技術是解決這一問題的有效途徑,論文對數(shù)據(jù)集進行數(shù)據(jù)挖掘與分析,深入了解電信客戶流失的關鍵,以對該類客戶的行為特性進行預警分析,采取針對性的措施改善客戶關系,避免客戶流失或者挽留客戶。[2,3]文中數(shù)據(jù)是在CCF 大數(shù)據(jù)與計算智能大賽官網尋找,來源于Kaggle 平臺。數(shù)據(jù)集的大小為7043 行,22 列,并且存在缺失。
Hadoop 平臺對處理大數(shù)據(jù)本身具有很顯著的優(yōu)點,首先它具有很高的可靠性,Hadoop 中HDFS 分布式文件系統(tǒng)采用了備份恢復機制,MapReduce 中的任務采用了監(jiān)控機制,這就保證了分布式處理的可靠性;其次它具有很好的高擴展性,Hadoop 是在可用的計算機集群間進行數(shù)據(jù)的分配的,也是在集群中分布完成計算任務的,這些集群族能擴展到數(shù)以千計的節(jié)點中,Hadoop 能可靠的存儲和處理數(shù)據(jù)。不管在存儲上還是計算上,可擴展性都是Hadoop 的設計根本所在;并且它具有高效性,Hadoop 的高效性表現(xiàn)在Hadoop 能夠在節(jié)點之間進行動態(tài)的移動數(shù)據(jù),同時能保證各個節(jié)點的數(shù)據(jù)動態(tài)平衡,這就使得Hadoop 在處理數(shù)據(jù)時速度非常快。這種方式為高效處理海量數(shù)據(jù)做好了基礎準備。Hadoop 可以運行在廉價PC 上,采用自動保存數(shù)據(jù)的多個副本方式,并能自動為失敗的任務進行重新配置。隨著Hadoop 生態(tài)系統(tǒng)的成長,越來越多的新項目對Hadoop 是很好的補充或提供一些更高層的抽象。
Hadoop 的生態(tài)圖如下:
(1)HDFS:分布式文件系統(tǒng),可以對數(shù)據(jù)進行存儲。
(2)MapReduce:分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境,可以對數(shù)據(jù)進行處理操作。
(3)ZooKeeper:在分布式系統(tǒng)中如何就某個值(決議)達成一致,是一個十分重要的基礎問題。ZooKeeper 作為一個分布式的服務框架,解決了分布式計算中的一致性問題。在此基礎上,ZooKeeper 可用于處理分布式應用中經常遇到的一些數(shù)據(jù)管理問題,如統(tǒng)一命名服務、狀態(tài)同步服務、集群管理、分布式應用配置項的管理等。ZooKeeper 常作為其他Hadoop相關項目的主要組件,發(fā)揮著越來越重要的作用。
(4)Hbase:Hbase 是一個在HDFS 上開發(fā)的面向列的分布式數(shù)據(jù)庫。如果需要實時地隨機訪問超大規(guī)模數(shù)據(jù)集,我們就可以使用Hbase 這一Hadoop 應用。
(5)Pig:運行在Hadoop 上,是對大型數(shù)據(jù)集進行分析和評估的平臺。它簡化了使用Hadoop 進行數(shù)據(jù)分析的要求,提供了一個高層次的、面向領域的抽象語言:PigLatin。通過Pig Latin,數(shù)據(jù)工程師可以將復雜且相互關聯(lián)的數(shù)據(jù)分析任務編碼為Pig 操作上的數(shù)據(jù)流腳本,通過將該腳本轉換為MapReduce 任務鏈,在Hadoop 上執(zhí)行。和Hive—樣,Pig 降低了對大型數(shù)據(jù)集進行分析和評估的門檻。
(6)Hive:是Hadoop 中的一個重要子項目,最早由Facebook 設計,是建立在Hadoop 基礎上的數(shù)據(jù)倉庫架構,它為數(shù)據(jù)倉庫的管理提供了許多功能,包括:數(shù)據(jù)ETL(抽取、轉換和加載)工具、數(shù)據(jù)存儲管理和大型數(shù)據(jù)集的查詢和分析能力。Hive 提供的是一種結構化數(shù)據(jù)的機制,定義了類似于傳統(tǒng)關系數(shù)據(jù)庫中的類SQL 語言。
(7)Mahout:起源于2008年,最初是Apache Lucent 的子項目,它在極短的時間內取得了長足的發(fā)展,現(xiàn)在是Apache的頂級項目。Mahout 的主要目標是創(chuàng)建一些可擴展的機器學習領域經典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。Mahout現(xiàn)在己經包含了聚類、分類、推薦引擎(協(xié)同過濾)和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。除了算法,Mahout 還包含數(shù)據(jù)的輸入/輸出工具、與其他存儲系統(tǒng)(如數(shù)據(jù)庫、MongoDB 或Cassandra)集成等數(shù)據(jù)挖掘支持架構。
(8)Hume:Flume 是Cloudera 開發(fā)維護的分布式、可靠、高可用的日志收集系統(tǒng)。它將數(shù)據(jù)從產生、傳輸、處理并最終寫入目標的路徑的過程抽象為數(shù)據(jù)流,在具體的數(shù)據(jù)流中,數(shù)據(jù)源支持在Flume 中定制數(shù)據(jù)發(fā)送方,從而支持收集各種不同協(xié)議數(shù)據(jù)。同時,F(xiàn)lume 數(shù)據(jù)流提供對日志數(shù)據(jù)進行簡單處理的能力,如過濾、格式轉換等。此外,F(xiàn)lume 還具有能夠將日志寫往各種數(shù)據(jù)目標(可定制)的能力。總的來說,F(xiàn)lume 是一個可擴展、適合復雜環(huán)境的海量日志收集系統(tǒng)。
(9)Sqoop:是SQL-to-Hadoop 的 縮 寫,是Hadoop的周邊工具,它的主要作用是在結構化數(shù)據(jù)存儲與Hadoop之間進行數(shù)據(jù)交換。Sqoop 可以將一個關系型數(shù)據(jù)庫(例如 MySQL、Oracle、PostgreSQL 等)中的數(shù)據(jù)導入 Hadoop 的 HDFS、Hive 中,也可以將HDFS、Hive 中的數(shù)據(jù)導入關系型數(shù)據(jù)庫中。Sqoop 充分利用了 Hadoop 的優(yōu)點,整個數(shù)據(jù)導入導出過程都是用MapReduce 實現(xiàn)并行化,同時,該過程中的大部分步驟自動執(zhí)行,非常方便。
Hadoop3.2.0,Hive3.1.2,Sqoop1.4.7,Spark2.4.4。
(1)導入數(shù)據(jù)集,并查看數(shù)據(jù)及信息、大小。
(2)檢查各列、各字段數(shù)據(jù)類型、字段內容和數(shù)量,發(fā)現(xiàn)“TotalCharges”(總消費額)列有11 個用戶數(shù)據(jù)缺失,將其數(shù)據(jù)類型強制轉換為浮點型,并將缺失用戶數(shù)據(jù)填充為“NaN”。
(3)經過觀察,發(fā)現(xiàn)這11 個用戶‘tenure’(入網時長)為0 個月,推測是當月新入網用戶。根據(jù)一般經驗,用戶即使在注冊的當月流失,也需繳納當月費用。因此將這11 個用戶入網時長“tensure”改為1,將總消費額填充為月消費額,符合實際情況。
(4)將處理完的數(shù)據(jù)保存為新的數(shù)據(jù)集。
將數(shù)據(jù)加載到Hive 中
(1)將預處理后的新數(shù)據(jù)集上傳到HDFS 中。
(2)在Hive 中創(chuàng)建一個數(shù)據(jù)庫來加載HDFS 中的數(shù)據(jù)
2.4.1 分析流失用戶數(shù)量和占比(見圖1)
圖1 流失用戶數(shù)量和占比
結論:屬于不平衡數(shù)據(jù)集,流失用戶占比達26.54%。
2.4.2 用戶屬性分析
按照年齡分析用戶流失比例,如圖2所示。
圖2 分析用戶流失比例圖(按照年齡)
結論:年老用戶流失率占顯著高于年輕用戶。
按照性別分析用戶流失比例,如圖3所示。
圖3 分析用戶流失比例(按照性別)
結論:男性與女性用戶之間的流失情況基本沒有差異。
按照婚否分析用戶流失比例,如圖4所示。
圖4 分析用戶流失比例(按照婚否)
結論:在所有數(shù)據(jù)中未婚與已婚人數(shù)基本持平,但未婚中流失人數(shù)比已婚中的流失人數(shù)高出了快一倍。
按照是否有家屬分析用戶流失比例,如圖5所示。
圖5 分析用戶流失比例(按照是否有家屬)
結論:有家屬的用戶流失占比低于無家屬用戶。
2.4.3 服務屬性分析
按照有多條線路分析用戶流失比例,如圖6所示。
圖6 分析用戶流失比例(按照有多條線路)
結論:是否有多條線路整體對用戶流失影響不明顯。
按照多條線路互聯(lián)網服務提供商(DSL,F(xiàn)iber optic,No)分析用戶流失比例,如圖7所示。
圖7 分析用戶流失比例(按照多條線路互聯(lián)網服務提供商)
結論:光纖用戶的流失占比較高。
根據(jù)互聯(lián)網服務用戶綁定情況分析用戶流失比例,如圖8所示。
圖8 分析用戶流失比例(根據(jù)互聯(lián)網服務用戶綁定情況)
結論:由圖可以看出,在網絡安全服務、在線備份業(yè)務、設備保護業(yè)務、技術支持服務、網絡電視和網絡電影六個變量中,沒有互聯(lián)網服務的客戶流失率值是相同的,都是相對較低。這可能是因為以上六個因素只有在客戶使用互聯(lián)網服務時才會影響客戶的決策,這六個因素不會對不使用互聯(lián)網服務的客戶決定是否流失產生推論效應。
綁定了安全、備份、保護、技術支持服務的流失率較低;附加流媒體電視、電影服務的流失率占比較高。
根據(jù)付款方式分析用戶流失比例,如圖9所示。
圖9 分析用戶流失比例(根據(jù)付款方式)
結論:在四種支付方式中,使用Electronic check 的用戶流流失率最高,其他三種支付方式基本持平,因此可以推斷電子賬單在設計上影響用戶體驗。
根據(jù)消費額情況分析用戶流失比例,如圖10所示。
圖10 分析用戶流失比例(根據(jù)消費額情況)
結論:月消費額大約在70-110 之間用戶流失率較高。
長期來看,用戶總消費越高,流失率越低,符合一般經驗。
我們利用Html 和CSS 簡單制作了一個網頁,將上述所得結果呈現(xiàn)給用戶,網頁地址為http://47.93.163.14。
針對性給出增加用戶黏性、預防流失的建議。
推薦老年用戶采用數(shù)字網絡,且簽訂2年期合同(可以各種輔助優(yōu)惠等營銷手段來提高2年期合同的簽訂率),若能開通相關網絡服務可增加用戶粘性,因此可增加這塊業(yè)務的推廣,同時考慮改善電子賬單支付的用戶體驗。
電信業(yè)的競爭重點集中在對客戶市場的爭奪,這要求各大電信運營商將更多的精力投入到客戶市場。做好客戶的培育、鞏固和回流工作,這三個方面的工作是相互促進、相互補充的。針對客戶的回流工作,可采取以下措施以盡可能地降低客戶的流失率。
現(xiàn)階段企業(yè)服務水平的差異不是體現(xiàn)在大眾化服務上而是體現(xiàn)在個性化服務上。目前電信消費群體對個性化消費的要求越來越高、電信企業(yè)如何適應消費群體定制化服務的要求,將特色服務作為企業(yè)新的競爭力和業(yè)務增長點,是電信企業(yè)迫切需要解決的問題。例如:針對年老、單身、無家屬的用戶推出特制服務,如人文套餐等,一可以增強用戶之間的聯(lián)系度,二可以提供個性化設計服務。
良好的客戶關系對于項目的成功有著不可低估的作用。及時掌握客戶的通信需求,可以增進人與人之間的情感交流與思想溝通等,企業(yè)間的合作最終是人與人之間的合作,例如贈送半年或一年打折券。對于使用光纖和附加流媒體電影、電視服務的用戶,重點在于提高網絡使用體驗、增值服務體驗。
電信運營商對現(xiàn)有的業(yè)務做好進一步的宣傳工作。對客戶需要而企業(yè)暫時不能開放提供的業(yè)務則要加大內部研發(fā)工作,不能讓需求在等待中消失,更不能因能力不足而失去收入增長的機會。此外還要認真研究市場,做好業(yè)務的預測工作。