沈江明,孫 凱,曾志勇
(1.中國電信股份有限公司云南分公司,云南 昆明 650000;2.云南財經大學統(tǒng)計與數(shù)學學院,云南 昆明 650000;3.云南財經大學信息學院,云南 昆明 650000;4.云南省高校數(shù)據化運營管理工程研究中心,云南 昆明 650000)
客戶流失一直都是很多行業(yè)需要關注的問題,在新客戶開發(fā)面臨瓶頸的時刻,如何對原有客戶采取措施保留,是一項非常重要的問題。在20 多年以來,出現(xiàn)了大量關于電信客戶流失的研究,主要包括對數(shù)據傾斜問題的處理和模型的構建。這其中多為傳統(tǒng)算法或者是對算法改進的單一算法,而單一算法無法在復雜的客戶流失問題上持續(xù)保持好的結果。針對這一問題,本文嘗試將數(shù)據傾斜處理方法與模型構建相結合的策略進行系統(tǒng)構建,不僅可以有效解決數(shù)據傾斜的問題,而且模型分類效果要優(yōu)于傳統(tǒng)分類算法。
通過對文獻的了解發(fā)現(xiàn),相關的研究多體現(xiàn)在兩個方面:數(shù)據不均衡問題處理和模型構建。
在不均衡數(shù)據處理方面。國外的Ha 等人首次利用了遺傳算法可以獲取最優(yōu)解的特點,利用該算法獲取最優(yōu)子數(shù)據集,來更好的反應多數(shù)類樣本的信息[1]。國內的郭娜娜基于差異度的角度對數(shù)據不均衡處理方法進行改進并提出了IDBC 算法,對于數(shù)據傾斜問題的處理很有效[2]。
在分類算法改進方面。傳統(tǒng)的模型多為單一模型的改進。比如張宇等通過決策樹來構建模型,并將該模型應用到實際業(yè)務中,驗證了該模型的有效性,可以為企業(yè)進行客戶保留提供幫助[3]。馬文斌等在客戶流失模型構建中運用了深度神經網絡,并將模型預測結果與邏輯回歸和決策樹等模型進行比較,發(fā)現(xiàn)神經網絡具有更好的預測結果[4]。國外的Hung,xu,Chu 三位學者均利用BP 網絡構建流失模型,并取得了非常好的預測效果[5-7]。隨著分類算法的技術和理論不斷改進,發(fā)現(xiàn)集成算法有更好的分類效果。比如國內學者王純麟和何建敏就第一次應用了集成算法,構建了AdaBoost 模型,根據實際數(shù)據的驗證結果顯示,此模型較傳統(tǒng)的BP 模型、貝葉斯模型、C4.5 模型和邏輯回歸模型都有更好的預測結果[8]。
雖然上述研究中對不均衡數(shù)據的處理有一定的貢獻,但是研究的焦點僅從單一維度進行處理,存在著很明顯的問題。除此之外,在分類模型的構建中,由于優(yōu)秀的分類能力,集成模型得到了廣泛認可,但是對于基模型的選擇僅為樹模型,基模型的差異度過低,使得效果提升不明顯。
為解決上述問題,本文綜合了數(shù)據傾斜問題的處理以及組合模型的組合策略來構建一個模型。針對不均衡數(shù)據的處理,本文從兩個方向進行數(shù)據采樣,即對多數(shù)類欠采樣,對少數(shù)類smote 過采樣。針對算法改進,本文依舊基于差異性的原則,選擇4 個差異性較大的基分類器進行線性組合,不同的是數(shù)據輸入。具體過程:按照數(shù)據傾斜問題的處理方式,重復進行4次,每一次都會形成一個子數(shù)據集,并且根據抽樣方法,每次得到的子數(shù)據集都不相同,而且這4 個子數(shù)據集幾乎涵蓋了原數(shù)據所有的多數(shù)類樣本信息,將每一個子數(shù)據集用于一個基分類器的構建,然后對訓練好的基模型進行融合,從而構建本文的組合模型。
本文構建的模型一方面充分利用了數(shù)據樣本信息,有效解決了數(shù)據嚴重傾斜的問題;另一方面將數(shù)據處理方法與組合模型構建進行了有效結合。最后將構建的模型應用于實際的企業(yè)數(shù)據來評估模型。
2.1.1 邏輯回歸算法
邏輯回歸的本質是通過將線性回歸結果進行非線性的轉化來達到分類效果的。模型的返回值是處于0~1 之間的一個類別概率,通常以0.5 為分界點,概率值大于0.5 的歸為類別“1”,反之歸為類別“0”。
假設數(shù)據中有m個特征,分別用X′=(x1,x2,…,xm)表示;根據類別發(fā)生的對應概率為條件概率,用P(Y=1|x)=p表示,則邏輯回歸的模型如式(1)所示,其中g(x)可以看作線性回歸的預測函數(shù)。
2.1.2 支持向量機算法
支持向量機分類性能優(yōu)越,在企業(yè)中被廣泛應用,模型原理是在眾多的分類面中尋找邊際最大的那一個,求解的方法是將問題轉化為凸二次規(guī)劃。若在二分類問題中,存在一條直線可以將數(shù)據點分成兩類,若是在三維空間,則存在一個平面使得這些數(shù)據被分成兩類,如果這些數(shù)據點屬于n維空間,那么在n維空間有一個超平面,將數(shù)據點分為兩類。
支持向量機通過調節(jié)核函數(shù)起到非線性擬合的作用,不同的核函數(shù)起到不同的擬合機制。因為僅與支持向量有關系,所以支持向量機具有分類效果好,性能魯棒的特點。
2.1.3 XGBOOST 算法
XGBoost 算法是GBDT 的一種工程化實現(xiàn),GBDT 算法每一次訓練都會生成一個基模型,并且基模型是根據模型殘差進行訓練的,即一步步降低模型的分類誤差,如此不斷的迭代下去,形成若干個基分類器,并進行線性加權。通過這種訓練方式來不斷的降低損失。XGBoost 算法的表達式如式(2):
其中n表示樣本數(shù)量。模型的好壞一方面取決于模型的方差,一方面取決于模型的偏差。
2.1.4 神經網絡算法
神經網絡以海量數(shù)據并行計算為基礎,一般包括三個層級結構:輸入層、隱藏層和輸出層。層與層之間都存在權重,且神經元中都存在連接函數(shù),進行非線性轉化。圖1 為典型的神經網絡結構圖。
圖1 神經網絡結構
BP 神經網絡是應用最廣泛的神經網絡算法,其輸出表達式如式(3)所示:
其中ωij為連接權系數(shù);fi為激活函數(shù);xi為神經元輸入;θj為神經元閾值。BP 網絡通過對維度的調整,實現(xiàn)將問題轉化為更高維度進行處理,并通過不斷的迭代來修正連接權重和閾值,使得輸出誤差達到最小。
2.1.5 組合預測算法
隨著技術的發(fā)展,越來越多的學者選擇將多種算法進行組合,充分發(fā)揮多種算法的優(yōu)勢。組合模型更加穩(wěn)健,可以充分利用樣本信息,預測結果也更加可靠。
假設有K個子模型,則線性集成的數(shù)學表達式如式(4)所示:
本文將重點研究線性集成和數(shù)據傾斜處理相結合的方式,來構建流失模型,權重是通過拉格朗日函數(shù)求解的。
本文選擇了多種評估方法進行模型比較,其中包括了F1 值、AUC 值、少數(shù)類樣本的預測精確率和犯兩類錯誤率:FNR 和FPR,其中FNR 表示錯分為不流失的樣本在總樣本的占比,F(xiàn)PR 表示錯分為流失的樣本在總樣本的占比。
模型所用的訓練以及測試數(shù)據均來自于某電信公司的寬帶客戶行為數(shù)據,訓練集和測試集的介紹如表1 所示。
表1 電信寬帶數(shù)據集的數(shù)據描述
針對4 種單模型的特點,模型在輸出類別“0”和“1”時伴隨著類別概率,為了提高模型的分類準確率,本文擬將類別概率作為各基模型的預測得分,用于線性組合。為了防止模型將少數(shù)類樣本過多的預測為少數(shù)類,引入了第I 類分類錯誤率,作為權重系數(shù)的懲罰項。構造的損失函數(shù)[9]如式(5)所示。
通過極小化損失函數(shù)來獲取組合模型的最優(yōu)權重。fi,gi,hi,ki分別為LR、SVM、BP 網絡和XGBOOST 模型的預測得分值,且預測得分表示的模型在輸出類別時對應的類別概率;λ為拉格朗日算子;αk為單模型對應的的權重,且k=1,2,3,4;ωi犯第I類錯誤率,且i=1,2,3,4;由于函數(shù)L(α1,α2,α3,α4)為二次凸函數(shù),故有唯一的極值,即最小值,并利用python 求出最優(yōu)權重,設為組合模型的類別預測概率,則結果如式(6)所示:
本文組合模型的流程圖如圖2 所示。
圖2 模型訓練流程
該方法的好處在于通過從兩個方向對數(shù)據進行抽樣,可以緩和抽樣本身的缺點。此外,四次抽樣的數(shù)據集均不一樣,尤其對多數(shù)類樣本的利用更加充分,丟失的信息也非常少。最后通過組合模型的構建,對單模型進行整合,使得最終的組合模型具有很好的效果。
分別對單模型、投票模型和本文模型進行結果比較,從模型的F1 值、AUC 值以及對少數(shù)類樣本的預測命中率三個指標對模型的預測結果進行評價,結果如圖3 所示。
圖3 各模型預測結果分析
圖3 結果顯示:在所有指標中,組合模型均表現(xiàn)出更好的結果,其中組合模型的F1 值提高了2.3%(相比較較其他最優(yōu)模型,下同),對少數(shù)類樣本的預測命中率提高了2.1%,AUC 值也提高了0.01。組合模型表現(xiàn)出更加穩(wěn)定優(yōu)越的性能,大大提升了客戶流失的預測能力,對少數(shù)類(流失類)客戶預測的命中率達到了78.7%,高于該企業(yè)之前模型達到的76.3%。
為了更直觀的比較各模型的分類性能,本文引入了兩類分類錯誤率,從另一方面對模型進行評價,結果如圖4 所示。
圖4 各模型的兩類分類錯誤率
圖4 的結果顯示,組合預測模型犯第一類錯誤的錯誤率僅為0.62%,遠低于其他模型,犯第II 類錯誤的錯誤率為1.23%,也是優(yōu)于其他模型。綜合比較上述結果,可以發(fā)現(xiàn)本文的組合模型是合理有效的。
現(xiàn)階段下,客戶流失已不僅僅存在于通信業(yè),在其他行業(yè)同樣是一個需要面臨的問題。利用數(shù)據挖掘技術,通過對數(shù)據的認識,來發(fā)現(xiàn)新的信息,通過對信息的利用,進而幫助企業(yè)制定一些決策,挽留客戶,達到盈利的目的。本文對模型的構建綜合考慮了數(shù)據傾斜問題的處理和組合模型的構建,基于差異性選擇了四種基分類器,在抽樣數(shù)據集的基礎上對基分類器一一進行訓練,并將訓練好的單模型進行加權求和,來構建本文模型。將組合模型用于真實的企業(yè)數(shù)據,實現(xiàn)隔月預測。并且結果顯示,本文構建的模型表現(xiàn)出更加優(yōu)越的效果,大大挽回了企業(yè)的損失,具有很大的現(xiàn)實意義。