王湘平
【摘要】? ? 本文以中國電信某省一個(gè)本地網(wǎng)3個(gè)月的真實(shí)公眾客戶基本信息、語音數(shù)據(jù)短信業(yè)務(wù)信息等數(shù)據(jù),通過數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練、預(yù)測分析等成熟方法論,結(jié)合組合特征、word2vec生成embedding特征向量、BaggingClassifier/XGBoost/LightGBM模型堆疊融合算法等手段,重點(diǎn)解決了用戶流失告警模型中特征不突出、單模型訓(xùn)練預(yù)測效果不明顯等問題。經(jīng)過本地網(wǎng)生產(chǎn)應(yīng)用評估,本文提出的基于embedding和模型堆疊融合算法的用戶流失預(yù)測模型算法,精準(zhǔn)定位潛在的流失公眾客戶范圍,并通過市場部門“對癥下藥”,匹配合適的挽留政策,明顯提升了存量客戶經(jīng)營效率,為全國各省各本地網(wǎng)存量用戶流失建模提供了較好的借鑒模板。
【關(guān)鍵詞】? ? 存量客戶? ? 流失預(yù)測? ? 組合特征? ? embedding? ? 模型堆疊融合
引言:
2021年是各大運(yùn)營商推動(dòng)高質(zhì)量發(fā)展的重要一年??蛻艚?jīng)營擔(dān)任著規(guī)模和收入壓艙石的重任,在復(fù)雜多變的市場競爭環(huán)境下,距離企業(yè)高質(zhì)量發(fā)展的要求還有一定差距,其中很重要一個(gè)待提升的方向,就是客戶流失的挽留,目前存量客戶保有率和增量客戶保有率有一定的下滑,客戶離網(wǎng),帶來了規(guī)模下降和收入下降的雙重?fù)p失。
本文以中國電信某本地網(wǎng)3個(gè)月的客戶基本信息、語音數(shù)據(jù)短信業(yè)務(wù)信息等樣本數(shù)據(jù),通過數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練、預(yù)測分析等成熟方法論,并結(jié)合組合特征、word2vec生成embedding特征向量、BaggingClassifier/XGBoost/LightGBM模型堆疊融合算法等應(yīng)用創(chuàng)新手段,重點(diǎn)解決了用戶流失告警模型中特征不突出、單模型訓(xùn)練預(yù)測效果不明顯等問題。經(jīng)過本地網(wǎng)市場部門的推廣評估,匹配合適的挽留政策,明顯提升了存量客戶經(jīng)營效率。
一、用戶流失預(yù)測算法分析及改進(jìn)
應(yīng)用人工智能機(jī)器學(xué)習(xí)算法的主要思路是根據(jù)用戶存量基本信息以及語音數(shù)據(jù)短信業(yè)務(wù)信息,建立這些信息與用戶流失可能性之間的關(guān)聯(lián)模型,預(yù)測出存量客戶中哪些客戶是潛在的流失客戶,從而有效定位和挽留公眾客戶,提高客戶經(jīng)營效率。
圖1? ? 6大關(guān)鍵步驟
如上圖1所示,用戶流失預(yù)測分析一般分為樣本數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理、特征工程、建模、模型預(yù)測評估、模型輸出等6個(gè)主要步驟和階段。
1.1樣本數(shù)據(jù)選擇
用戶流失是一個(gè)綜合原因?qū)е碌慕Y(jié)果,因素包括:消費(fèi)能力下降、體驗(yàn)不佳、被策反等,被策反是外因,體驗(yàn)不佳也是一個(gè)綜合因素,兩份數(shù)據(jù)均較難獲取,消費(fèi)能力或需求下降數(shù)據(jù)是現(xiàn)實(shí)數(shù)據(jù),我們可以從EDA數(shù)據(jù)倉庫獲取到相關(guān)信息。本應(yīng)用主要選擇用戶基礎(chǔ)信息、ARP信息、套餐信息、合約、訂購信息、寬帶使用行為、數(shù)據(jù)使用行為、短信使用行為等3個(gè)月共計(jì)162個(gè)字段用戶特征共計(jì)52.5萬訓(xùn)練樣本集數(shù)據(jù)。
1.2數(shù)據(jù)預(yù)處理
由于數(shù)據(jù)錄入維護(hù)和采集同步過程中,均會(huì)存在異常數(shù)據(jù)、空值或缺失數(shù)據(jù)、數(shù)據(jù)分布區(qū)間大等問題,需要通過數(shù)據(jù)預(yù)處理方法進(jìn)行處理,減少異?;蚩罩禂?shù)據(jù)對模型訓(xùn)練的影響。本應(yīng)用采用了箱線圖方法,有效分析和去除了ARPU、套餐金額等字段中的異常值。此外,本應(yīng)用還采用了默認(rèn)填充為-1.0的方法,一方面填充簡單,二方面可讓訓(xùn)練模型可有效訓(xùn)練到這些數(shù)據(jù)與樣本本身數(shù)據(jù)的不一致,提高模型的魯棒性,而模型預(yù)測的方法來填充,增加了特征之間的相關(guān)性,模型往往容易出現(xiàn)泛化能力不足的情況針對數(shù)據(jù)均大于0的情況,為了體現(xiàn)空缺默認(rèn)值-1的特性,本應(yīng)用針對非空數(shù)據(jù),使用了0-1標(biāo)準(zhǔn)化。
1.3特征工程
本特征工程特指特征選擇,是機(jī)器學(xué)習(xí)算法中最為重要的一環(huán),目的是選擇模型最優(yōu)特征子集。主流的特征工程有3類方法:過濾法(Filter)、包裝法(Wrapper)、嵌入法(Embedded)。本應(yīng)用了如下幾種特征工程方法:
1.皮爾森相關(guān)系數(shù)排查法,是Filter過濾法的常用方法之一,在樣本屬性很多的數(shù)據(jù)集中,一定會(huì)存在一些與標(biāo)簽關(guān)系不那么強(qiáng)的屬性,將這些屬性drop掉,可以提高模型的準(zhǔn)確性。通過皮爾森相關(guān)系數(shù)排查法,本應(yīng)用剔除了ACCT_MONTH、IS_RED_LIST、IS_COMP等特征字段。
2.隨機(jī)森林回歸,是嵌入法(Embedded)的一種,根據(jù)訓(xùn)練后的特征重要性得分來進(jìn)行特征選擇。本應(yīng)用通過RandomForestRegressor算法得到的前20重要的特征分布,其中融合類型(HD_COMP_TYPE)字段較為突出。通過業(yè)務(wù)分析,手機(jī)寬帶綁定的融合套餐用戶,流失的概率相對較小;單產(chǎn)品類型用戶流失的概率相對就較大。
1.4建模及評估優(yōu)化
建模訓(xùn)練及優(yōu)化的過程,一般經(jīng)過模型選擇、損失函數(shù)設(shè)計(jì)及計(jì)算、參數(shù)更新優(yōu)化等幾個(gè)方面:1.模型選擇: 將一個(gè)或多個(gè)特征作為輸入,然后返回一個(gè)預(yù)測 (y') 作為輸出。本應(yīng)用采用了目前廣泛應(yīng)用的BaggingClassifier、XGBoost、LightGBM作為算法基模型。2.計(jì)算損失:通過損失函數(shù),計(jì)算模型訓(xùn)練過程中的loss,本應(yīng)用使用了均方誤差(MSE)是回歸損失函數(shù)中最常用的誤差,它是預(yù)測值與目標(biāo)值之間差值的平方和,平方絕對誤差對于異常值更穩(wěn)健。3.計(jì)算參數(shù)更新:檢測損失函數(shù)的值,并為參數(shù)生成新值,以降低損失為最小,通過梯度能找到損失更小的方向,并迭代。
此外,本應(yīng)用考慮到模型泛化能力,使用5-fold的方法,將數(shù)據(jù)集劃分為訓(xùn)練集與測試集,計(jì)算每次的準(zhǔn)確度并求取平均值,將最后的數(shù)據(jù)作為結(jié)果??紤]到各類模型的參數(shù)調(diào)優(yōu)存在比較大的偶然性,因此,本應(yīng)用結(jié)合了5-fold方法,并對主要的模型超參進(jìn)行了GridSearch,最后選擇最優(yōu)的參數(shù)作為最后的模型超參輸出。
1.5基于Embedding和模型堆疊融合算法的優(yōu)化提升
針對部分特征之間的組合關(guān)系特征未體現(xiàn)出來的困難,例如:三個(gè)月語音、數(shù)據(jù)和短信的使用時(shí)長趨勢信息,本應(yīng)用在特征工程階段新增了一些環(huán)比特征,雖最后的試驗(yàn)效果有一些提升,但總體效果一般。本應(yīng)用嘗試通過word2vec進(jìn)行3個(gè)月連續(xù)數(shù)據(jù)的建模,針對一個(gè)維度(如:一種產(chǎn)品)三個(gè)月的特征,生成了10維特征,試驗(yàn)結(jié)果表明,word2vec詞向量可以較好地表達(dá)不同特征之間的相似和類比關(guān)系。本應(yīng)用輸入了3維向量,訓(xùn)練得到了10維的embedding_matrix,最后將訓(xùn)練和測試數(shù)據(jù)進(jìn)行embedding編碼轉(zhuǎn)化,均生成了10維向量。
針對單模型訓(xùn)練有局限性,本應(yīng)用嘗試使用了Stacking集成融合模型,比如用不同特征訓(xùn)練出來的三個(gè)GBDT模型進(jìn)行融合時(shí),我們會(huì)將三個(gè)GBDT作為基層模型,在其上在訓(xùn)練一個(gè)次學(xué)習(xí)器(通常為線性模型LR),用于組織利用基學(xué)習(xí)器的答案,也就是將基層模型的答案作為輸入,讓次學(xué)習(xí)器學(xué)習(xí)組織給基層模型的答案分配權(quán)重。注意:進(jìn)行Stacking集成同樣需要基學(xué)習(xí)器盡量保持獨(dú)立,效果相近。本應(yīng)用使用了BaggingClassifier、XGBoost、LightGBM三個(gè)基礎(chǔ)模型,并通過SVM作為二階段的分類模型,最后得到了完整的訓(xùn)練模型和預(yù)測結(jié)果,從最后的試驗(yàn)效果來看,在保證模型預(yù)測結(jié)果精準(zhǔn)度的前提下,模型泛化能力也較強(qiáng)。
二、模型評估及應(yīng)用
AUC對正負(fù)樣本比例不敏感,可以看作隨機(jī)從正負(fù)樣本中選取一對正負(fù)樣本,其中正樣本的得分大于負(fù)樣本的概率。主要原因在于橫軸FPR只關(guān)注負(fù)樣本,與正樣本無關(guān);縱軸TPR只關(guān)注正樣本,與負(fù)樣本無關(guān),所以橫縱軸都不受正負(fù)樣本比例影響,AUC得分自然也不受其影響。本應(yīng)用由于正負(fù)樣本嚴(yán)重失衡,從市場業(yè)務(wù)生產(chǎn)的角度,他們希望是在盡可能小的范圍內(nèi),把存量客戶中存在流失風(fēng)險(xiǎn)的用戶挖掘出來,目標(biāo)是針對流失用戶,而非識(shí)別非流失的用戶。為此,本應(yīng)用使用了AUC的評估指標(biāo),一般而言,AUC值為70就處于算法業(yè)務(wù)可用閾值。
最后通過訓(xùn)練出的模型,對8月份共計(jì)529620條測試數(shù)據(jù)進(jìn)行預(yù)測分析,預(yù)測結(jié)果及對比分析如下:
1.原生特征lightGBM。表1為原生特征通過特征預(yù)處理、特征工程及LightGBM模型訓(xùn)練,未人為分析新增特征,使用了LightGBM進(jìn)行了5折交叉驗(yàn)證,最后對8月份測試數(shù)據(jù)進(jìn)行了預(yù)測,可提供給市場部門的潛在用戶流失的數(shù)據(jù)范圍最小,一共12462個(gè)用戶,但有17144個(gè)用戶漏識(shí)別為了不會(huì)流失用戶,AUC最后得分為0.67。從業(yè)務(wù)生產(chǎn)的角度,潛在用戶流失的分析模型可用性不高,大量流失用戶未被檢測并告警,錯(cuò)失了挽留機(jī)會(huì)。
2. embedding新增特征LightGBM。表2是在原生特征lightGBM的基礎(chǔ)上,在特征工程階段,針對部分特征之間的組合關(guān)系特征未體現(xiàn)出來,例如:三個(gè)月語音、數(shù)據(jù)和短信的使用時(shí)長趨勢信息,本模型一方面新增了一些環(huán)比特征,并通過word2vec進(jìn)行3個(gè)月連續(xù)數(shù)據(jù)的建模,針對一個(gè)維度(如:一種產(chǎn)品)三個(gè)月的特征,生成了10維特征,再通過LightGBM 5折交叉驗(yàn)證生成模型。8月份的測試結(jié)果,可提供39668條潛在流失的用戶清單,范圍增大較多,漏檢9021個(gè)流失用戶,AUC最后得分為0.8,生產(chǎn)可用性相對較好。
3. embedding新增特征stacking模型堆疊融合。表3是在embedding新增特征的特征工程基礎(chǔ)上,針對單模型訓(xùn)練有局限性等問題,本應(yīng)用使用了stacking模型堆疊融合,使用了BaggingClassifer、XGBoost、LightGBM三個(gè)基類模型,并通過SVM二階段模型訓(xùn)練,綜合各模型優(yōu)勢,得出最后的預(yù)測結(jié)果。訓(xùn)練過程中也使用了5折交叉驗(yàn)證,提高模型的魯棒性。8月份的測試結(jié)果,可提供45331條潛在流失的用戶清單,范圍比第二種方法略有提升,但漏檢流失用戶大幅下降至6858個(gè),AUC最后得分為0.83,生產(chǎn)可用性三種方法中最好,模型泛化能力也最強(qiáng)。
三、結(jié)束語
本文使用了基于embedding和模型堆疊融合算法進(jìn)行用戶流失分析預(yù)測,從最后試驗(yàn)結(jié)果及市場業(yè)務(wù)的推廣使用效果來看,模型精準(zhǔn)度和泛化能力均表現(xiàn)較好,支撐了市場業(yè)務(wù)口的用戶流失的精準(zhǔn)定位。由于時(shí)間所限和業(yè)務(wù)需求緊迫,本應(yīng)用還存在一些有待進(jìn)一步提升的地方,后續(xù)可嘗試BERT+RNN-Attention模型,對連續(xù)特征進(jìn)行多維向量表征,進(jìn)一步提升模型精準(zhǔn)度和泛化能力。
參? 考? 文? 獻(xiàn)
[1] 李陽,劉勝輝,趙洪松.數(shù)據(jù)挖掘在電信行業(yè)客戶流失管理中的研究與應(yīng)用
[2] 劉蓉,陳曉紅.基于數(shù)據(jù)挖掘的移動(dòng)通信客戶消費(fèi)行為分析[J].計(jì)算機(jī)應(yīng)用與軟件,2006,23(2):60-62.
[3] Alex Berson,Stephen Smith,Kurt Thearling.Building Data Mining Application for CRM[M].McGraw-Hill,2001:180~230.
[4] 連建勇.基于數(shù)據(jù)挖掘技術(shù)的電信客戶流失預(yù)測模型研究[D].中山大學(xué),2008
[5] 賈琳,李明.基于數(shù)據(jù)挖掘的電信客戶流失模型的建立與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2004(04).
[6] Kim H S, Yoon C H.Determinants of subscriber churn and customer loyalty in the Korean mobile telephony market [J].Telecommunications Policy,2004,28(9):751-765.
[7] Ni Jae Sik Lee,Jin Chun Lee.Customer Churn Prediction by Hybrid Model[J].Lecture Notes In Computer Science,2006:959-966.
[8] 馬飛飛. 數(shù)據(jù)挖掘競賽利器-Stacking和Blending方式
[9] 益達(dá)(知乎),Embedding之word2vec