李艷艷,嚴(yán)佳梅,虞云飛,盛 平
(國(guó)家電網(wǎng)有限公司 客戶服務(wù)中心南方分中心,江蘇 南京 211100)
城市經(jīng)濟(jì)的高速發(fā)展,對(duì)電力的需求在達(dá)到峰值之前會(huì)越來越多,由此產(chǎn)生的數(shù)據(jù)也會(huì)呈現(xiàn)幾何級(jí)數(shù)爆發(fā)式增長(zhǎng)。在數(shù)據(jù)作為重要生產(chǎn)資料的當(dāng)下,如何利用好數(shù)據(jù),用數(shù)據(jù)分析結(jié)果驅(qū)動(dòng)業(yè)務(wù),對(duì)于行業(yè)發(fā)展尤為重要。
在社會(huì)經(jīng)濟(jì)發(fā)展水平不斷提升背景下,人們生活質(zhì)量獲得進(jìn)一步提升,客戶對(duì)電力服務(wù)的要求也越來越高。95598熱線作為客戶和供電企業(yè)展開交流溝通的主要方式。但近年來,居民使用電量急速上升,服務(wù)問題被放大,使得供電話務(wù)成本顯著提升,問題處理效率不高,使得客戶不滿意度升高,投訴量激增。95598服務(wù)風(fēng)險(xiǎn)管控是日常業(yè)務(wù)運(yùn)營(yíng)管控中的難點(diǎn)問題,由于客戶軌跡分析相對(duì)比較復(fù)雜,將會(huì)增加風(fēng)險(xiǎn)篩查難度,使得此項(xiàng)工作難以正常進(jìn)行,急需依賴大數(shù)據(jù)平臺(tái)形成自動(dòng)化工具。
基于95598海量來電工單數(shù)據(jù)構(gòu)建用戶行為分析模型[1],分析用戶的來電行為特征,抽象用戶畫像,基于具體業(yè)務(wù)場(chǎng)景,輔助業(yè)務(wù)人員創(chuàng)建業(yè)務(wù)策略,并根據(jù)行為反饋調(diào)整行為分析模型,形成用戶行為數(shù)據(jù)的生態(tài)閉環(huán)。根據(jù)成效結(jié)果,可逐步推廣至數(shù)字化轉(zhuǎn)型各個(gè)階段。我們對(duì)客戶來電行為數(shù)據(jù)進(jìn)行深度數(shù)據(jù)分析和挖掘,從行為表象中挖掘隱含的客戶行為軌跡。建模構(gòu)建客戶再次來電預(yù)測(cè)平臺(tái),提前預(yù)估3天以內(nèi)來電的可能性,提升業(yè)務(wù)處置效率和質(zhì)量,提升客戶滿意度。將XGBoost與LR的融合模型應(yīng)用于客戶再次來電行為預(yù)測(cè)分類。
邏輯回歸模型在進(jìn)行線性回歸的時(shí)候利用線開展擬合處理工作,在處理分類任務(wù)的時(shí)候,不需要對(duì)每一個(gè)樣本進(jìn)行擬合,只需將各類樣品區(qū)別開即可,主要運(yùn)用了分類學(xué)習(xí)方式[2]。通常定義的一導(dǎo)函數(shù)回歸公式如下:
就邏輯回歸而言,其主題意思也是基于一導(dǎo)函數(shù)回歸,其公式如下:
hθ屬于sigmoid函數(shù),hθ的輸出值需要處在是(0,1)區(qū)間范圍內(nèi),這意味著可以將sigmoid函數(shù)看成是樣本數(shù)據(jù)的概率密度函數(shù),那么由此可以估計(jì)參數(shù)。我們定義輸入數(shù)據(jù)點(diǎn)x為類別1時(shí)的概率、類別為0時(shí)的概率值分別如下:
構(gòu)造一個(gè)損失函數(shù),應(yīng)當(dāng)充分考慮所有模擬用戶行為數(shù)據(jù)產(chǎn)生的損失,將損失函數(shù)的求和值或是平均值,記為J(θ)函數(shù),此時(shí)用戶行為預(yù)測(cè)值和實(shí)際分類之存在一定的偏差表示所有模擬用戶行為預(yù)測(cè)值與實(shí)際類別分類值的偏差。J(θ)函數(shù)數(shù)據(jù)值若是比較小,則順明預(yù)測(cè)曲線的準(zhǔn)確性越高,最終方向調(diào)整為J(θ)在處于最小值θ狀態(tài)的時(shí)候是最佳參數(shù)。和函數(shù)回歸基本一致,也是使用梯度下降法用于更新 θ[3]。
XGBoost模型實(shí)際上是基于GBDT開展的優(yōu)化改造的拓展,早在2015年,知名學(xué)者陳天奇即已經(jīng)提出該模型屬于Boosting算法。Boosting算法將很對(duì)小行分類器經(jīng)過整理、統(tǒng)計(jì)形成代表性比較強(qiáng)的大分類器,使用Boosting算法開展多次訓(xùn)練,從初始模擬數(shù)據(jù)中使用隨機(jī)抽取方式生成多個(gè)訓(xùn)練樣本,并將其作為模擬用戶行為的數(shù)據(jù)集,在完成模擬處理以后即可以獲得代表性比較強(qiáng)的預(yù)測(cè)函數(shù)序列,可使用投票形式開展問題分類,通過運(yùn)用簡(jiǎn)單平均法的方式可以預(yù)測(cè)回歸問題的新樣本,算法步驟主要包括5步:①?gòu)耐瓿山y(tǒng)計(jì)的用戶行為中使用自助法采樣選出n個(gè)數(shù)據(jù)單元;②對(duì)這n個(gè)數(shù)據(jù)單元建立一個(gè)小分類器單元;③重復(fù)進(jìn)行步驟一和步驟二,創(chuàng)建m個(gè)小型分類器單元;④使用自助法經(jīng)過采樣篩選出m個(gè)新型數(shù)據(jù)單元集,并展開開分類模擬管理工作;⑤運(yùn)用投票法對(duì)m個(gè)小型分類器單元分類方式開展隨即投票,投票數(shù)量最多的被確定為最終類別。XGBoost支持并行訓(xùn)練。XGBoost算法在進(jìn)行交叉驗(yàn)證的時(shí)候,能夠在每輪Boosting算法中實(shí)施迭代運(yùn)用,可以為獲取最優(yōu)Boosting迭代次數(shù)提供更多的便利性。
通過模型特征可以發(fā)現(xiàn)算法效果的上限值,差別在于不同算法的上限差值存在差值,提取目標(biāo)特征屬于模擬訓(xùn)練中的重點(diǎn)內(nèi)容,若是將數(shù)據(jù)變大轉(zhuǎn)化為函數(shù)可分?jǐn)?shù)據(jù),僅需運(yùn)用簡(jiǎn)單的線性模型即可獲得比較好的應(yīng)用效果。XGBoost創(chuàng)建新特征能夠更為高效地表達(dá)數(shù)據(jù)特征。邏輯回歸算法具有比較簡(jiǎn)單、有效性較強(qiáng)的特點(diǎn),已經(jīng)成為工業(yè)界最常使用的算法,但是回歸算法屬于線性模型,很難順利捕捉到非線性信息,此時(shí)需要借助很多特征尋找特征組合。為了發(fā)現(xiàn)有效的特征組合,F(xiàn)acebook在2014年的論文中提出了通過GBDT+LR的方案,在這篇論文中他們提出了一種將Xgboost作為Feature Transform 的方法[4]。
使用的數(shù)據(jù)集來自95598業(yè)務(wù)工單來電數(shù)據(jù)集,包含用戶來電工單信息、用戶來電行為步驟明細(xì)表數(shù)據(jù)、用戶工單派單明細(xì)數(shù)據(jù)3個(gè)部分,筆者從2021年6月1日至2021年6月15日來電工單隨機(jī)篩選一定比例用戶數(shù)據(jù)共計(jì)32 595條。處于數(shù)據(jù)質(zhì)量保證目的,使目標(biāo)模型更精準(zhǔn)、科學(xué)。對(duì)選擇好的來電工單數(shù)據(jù)信息展開缺失處理、異常值處理、歸一化處理[5]。
由于95598來電渠道繁雜,來電工單業(yè)務(wù)類型分類較多,區(qū)間數(shù)據(jù)內(nèi)缺失數(shù)據(jù)情況也較為普通,存在很多缺失數(shù)據(jù),通過合理運(yùn)用模型填補(bǔ)好缺失的信息,若是數(shù)據(jù)缺失值過多,運(yùn)用填補(bǔ)方式可能會(huì)造成模型偏差出現(xiàn)變大狀況,因此提前設(shè)計(jì)了數(shù)據(jù)缺失閾值,一旦缺失值超出30%,需要及時(shí)將這些數(shù)據(jù)指標(biāo)刪除掉。
在重復(fù)來電行為預(yù)測(cè)中,不同渠道來電工單行為和特征各不相同。存在特例特征下有異常值,異常值在模型預(yù)測(cè)中會(huì)給結(jié)果帶來干擾,因此異常數(shù)據(jù)需要額外進(jìn)行處理。通過合理使用Boxplo方式篩選出目標(biāo)設(shè)定存在的異常值,設(shè)Q1和Q3分別為1/4和3/4分位數(shù),記IQR=Q1-Q2,則(-∞,Q1-3*IQR) ∪(Q3+3*IQR,+∞) 區(qū)間數(shù)據(jù)會(huì)直接被標(biāo)記為異常點(diǎn),對(duì)于異常值做了平均值修補(bǔ)的工作。
用戶數(shù)據(jù)在性質(zhì)和統(tǒng)計(jì)方式存在的差異比較大,使用特征模型的時(shí)候,在量綱方面、數(shù)值方面存在顯著差別。利用已知的同度量化處理,能夠有效提升各種指標(biāo)和權(quán)重的可參考價(jià)值,有助于進(jìn)一步提升特征模型具有的可解釋性。與此同時(shí),通過及時(shí)優(yōu)化改良梯度下降求解時(shí)的網(wǎng)絡(luò)收斂速率,對(duì)于提高模型參數(shù)求解效率、求解速率具有促進(jìn)作用,為了降低量綱差異對(duì)于財(cái)務(wù)困境模型特征產(chǎn)生的高濤效果,需要對(duì)數(shù)值類數(shù)據(jù)展開歸一化處理。
通常在客戶行為數(shù)據(jù)樣本采集過程中,存在數(shù)據(jù)段中數(shù)據(jù)分布的不平衡性現(xiàn)象發(fā)生,通常數(shù)據(jù)分類模型很難及時(shí)處理好訓(xùn)練數(shù)據(jù)缺乏平衡性的問題,若是直接運(yùn)用客戶的行為采集數(shù)據(jù)建模,可能會(huì)造成模型預(yù)測(cè)精準(zhǔn)性下降的問題,在處理不平衡數(shù)據(jù)的時(shí)候,可以從數(shù)據(jù)層面、算法層面以及混合方法展開,所述數(shù)據(jù)層面主要是使用特殊模型對(duì)相關(guān)數(shù)據(jù)開展過采樣處理、欠采樣處理,算法層面主要會(huì)運(yùn)用代價(jià)敏感方式以及集成學(xué)習(xí)方式,混合方法就是數(shù)據(jù)層面和算法的有效結(jié)合。
過采樣方式中應(yīng)用頻率比較高的技術(shù)是SMOTE技術(shù)[6],它基于部分原始數(shù)據(jù)的一導(dǎo)函數(shù)插值,和復(fù)制少量樣本時(shí)使用的重抽樣方法存在一定差異,過采方法能夠預(yù)防過擬合情況,會(huì)出現(xiàn)噪聲樣本以及邊界樣本。SMOTE-Tomek融合采樣方式兼具SMOTE特點(diǎn)、Tomek links特點(diǎn),能夠及時(shí)解決單獨(dú)運(yùn)用SMOTE產(chǎn)生的噪聲樣本狀況、邊界樣本狀況,通過提高技術(shù)融合效果,可以使數(shù)據(jù)層面順利達(dá)到理想狀態(tài)。采用多層次隨機(jī)抽樣方法,將目標(biāo)數(shù)據(jù)樣本預(yù)測(cè)數(shù)據(jù)以7∶3的比例,將數(shù)據(jù)劃分為基礎(chǔ)集以及測(cè)試集,由于兩個(gè)數(shù)據(jù)集之間具有不平衡特點(diǎn),因此需要對(duì)基礎(chǔ)集使用SMOTETomek實(shí)施過欠融合重抽樣處理。
XGBoost和Logistic回歸融合模型建模步驟如下。步驟1:設(shè)置XGBoot模型參數(shù),其中n_estimators為模型對(duì)訓(xùn)練數(shù)據(jù)的迭代次數(shù);當(dāng)對(duì)訓(xùn)練集數(shù)據(jù)的迭代的次數(shù)過少時(shí),在訓(xùn)練集和測(cè)試集的誤差都會(huì)很大即產(chǎn)生欠擬合現(xiàn)象。當(dāng)對(duì)訓(xùn)練集數(shù)據(jù)的迭代的次數(shù)過多時(shí),這樣模型具有的數(shù)據(jù)預(yù)測(cè)能力比較差,容易產(chǎn)生過擬合現(xiàn)象。綜上所述,我們需要盡可能設(shè)置更大的lestimators,更小的learning_rate。。將參數(shù)n_estimators設(shè)定為100,將learning_rate設(shè)定為0.05。步驟2:對(duì)數(shù)據(jù)隨機(jī)拆分75%用于訓(xùn)練樣本,25%的數(shù)據(jù)用于模型結(jié)果測(cè)試,將訓(xùn)練樣本直接輸入以步驟1設(shè)置好的XGBoost模型之中,將每個(gè)葉子節(jié)點(diǎn)輸出組成為組合特征的向量值,然后對(duì)其進(jìn)行one-hot編碼。步驟3:將步驟2中輸出的組合特征向量,與最開始的訓(xùn)練數(shù)據(jù)中的特征一并輸入到Logistic Regression分類器中進(jìn)行最終分類器的訓(xùn)練,獲得的輸出值的輸出結(jié)果即是樣本預(yù)測(cè)結(jié)果。步驟4:為了驗(yàn)證融合模型的有效性,設(shè)置對(duì)照組,運(yùn)用XGBoost模型獲得的特征,使用Logistic回歸模型進(jìn)行數(shù)據(jù)預(yù)測(cè),訓(xùn)練樣本數(shù)據(jù)并預(yù)測(cè)測(cè)試數(shù)據(jù)結(jié)果;對(duì)照組2直接使用XGBoost模型,設(shè)置好參數(shù),對(duì)變量正則化、連續(xù)特征離散化,訓(xùn)練樣本數(shù)據(jù)并預(yù)測(cè)測(cè)試數(shù)據(jù)結(jié)果。
通常模型驗(yàn)證法一般會(huì)用在衡量數(shù)據(jù)模型分類預(yù)測(cè)水平的高低,通過合理運(yùn)用基礎(chǔ)數(shù)據(jù)以及測(cè)試樣本及時(shí)對(duì)模型展開驗(yàn)證管理、比較,屬于建模時(shí)常使用的方式,能夠在提升模型建設(shè)有效性的基礎(chǔ)上,進(jìn)一步提高模型的適應(yīng)能力。通常對(duì)于模中的風(fēng)險(xiǎn)預(yù)警研究來說,有效衡量指標(biāo)的召回率Recall、精準(zhǔn)性,能夠區(qū)分開再次來電用戶,F(xiàn)1-score用于確定模型的精準(zhǔn)度,ROC曲線用于確定模型區(qū)分重復(fù)來電用戶的效果。
XGBoost+LR模型的整體的Precision(精準(zhǔn)度) 和Recall(召回率)明顯高于其他的模型,單一的XGBoost模型,尤其是融合模型對(duì)目標(biāo)客戶(投訴客戶)預(yù)測(cè)召回率遠(yuǎn)高于單一的XGBoost回歸模型[7]。從兩個(gè)模型ROC曲線可以清楚觀察到XGBoost組合特征+LR融合模型ROC曲線效果優(yōu)于兩個(gè)對(duì)照組模型獲得的結(jié)果。
綜上所述,在95598工單客戶再次來電行為預(yù)測(cè)中,XGBoost組合特征+LR融合模型具有比較好的預(yù)測(cè)能力,精準(zhǔn)性以及安全穩(wěn)定性明顯優(yōu)于單一的XGBoost模型及XGBoost訓(xùn)練新特征+LR模型。
將XGBoost與Logistic回歸模型融合應(yīng)用于用戶再次來電行為預(yù)測(cè)研究,以95598來電工單行為日志數(shù)據(jù)進(jìn)行實(shí)證分析。結(jié)果表明,用XGBoost訓(xùn)練后的新特征與原有特征交叉產(chǎn)生的組合特征,再進(jìn)入回歸模型研究行為預(yù)測(cè)情況,相比其他模型有著更高的行為預(yù)測(cè)精準(zhǔn)度和穩(wěn)定性。
XGBoost的樹狀特性比較好、對(duì)于數(shù)據(jù)的敏感度比較高,在部分?jǐn)?shù)據(jù)進(jìn)行優(yōu)化調(diào)整的時(shí)候可能會(huì)產(chǎn)生類別變動(dòng),可處理的數(shù)據(jù)量處于有限狀態(tài),需要使用鈍化模型,Logistic回歸模型的并行能力很強(qiáng),可以處理好大數(shù)據(jù)集,具有一維處理特點(diǎn),需要運(yùn)用很多特征工程。XGBoost的精度高、靈活性更強(qiáng),可以通過正則化來避免數(shù)據(jù)過擬合,所以使用XGBoost模型將原始特征訓(xùn)練的新特征,再與原始特征組成新的組合特征。這兩個(gè)模型的優(yōu)缺點(diǎn)整合后發(fā)現(xiàn),兩者剛好可以互補(bǔ),它們的融合是Stacking思想的成功應(yīng)用。同時(shí),通過對(duì)照組實(shí)驗(yàn)也發(fā)現(xiàn),如果單獨(dú)使用XGBoost模型訓(xùn)練出來的新特征,直接進(jìn)入到Logistic模型中做分類預(yù)測(cè),其模型效果要弱于單獨(dú)使用XGBoost模型訓(xùn)練后的預(yù)測(cè)結(jié)果。說明XGBoost訓(xùn)練得到的新特征是一種有效的特征,XGBoost訓(xùn)練后得到的組合特征與Logistic回歸模型結(jié)合使用是一種有效的特征工程手段。
95598海量的用戶傳輸?shù)挠霉问请娋W(wǎng)企業(yè)發(fā)展的雙刃劍,通過分析用戶來電行為軌跡,提高響應(yīng)速度。將重復(fù)來電預(yù)警模型實(shí)施后,減輕了多次來電管控壓力,及時(shí)進(jìn)行風(fēng)險(xiǎn)控制,降低服務(wù)壓力;根據(jù)預(yù)警結(jié)果,及時(shí)干預(yù),降低服務(wù)升級(jí)風(fēng)險(xiǎn)及一線人員處理壓力;根據(jù)預(yù)警結(jié)果,協(xié)同優(yōu)化處置方法或升級(jí)溝通,降低業(yè)務(wù)處理難度。促使客戶業(yè)務(wù)辦理數(shù)量和效率快速增長(zhǎng),客戶滿意度持續(xù)的提高。
后續(xù)數(shù)據(jù)工作的研究方向:①結(jié)合95598客服行業(yè)的特點(diǎn),合適合理運(yùn)用數(shù)據(jù)挖掘技術(shù)可以直接從數(shù)據(jù)庫(kù)中進(jìn)行信息搜集,按照規(guī)約整理有關(guān)數(shù)據(jù)信息,創(chuàng)建價(jià)值客戶細(xì)分管理模型,依照用戶劃分結(jié)構(gòu)創(chuàng)建用戶畫像,便于精準(zhǔn)分析各種用戶的需求量、偏好情況、行為動(dòng)機(jī)。②可以根據(jù)前期數(shù)據(jù)以及模型分析,在模型確保預(yù)測(cè)數(shù)據(jù)精準(zhǔn)性的同時(shí)不斷提高建模處理速度,屬于未來重點(diǎn)研究?jī)?nèi)容。③可以采用恰當(dāng)?shù)年P(guān)聯(lián)規(guī)則算法挖掘發(fā)現(xiàn)客戶行為傾向,識(shí)別客戶的真正需求,當(dāng)客戶產(chǎn)生相應(yīng)行為軌跡從而快速響應(yīng)提供相應(yīng)的服務(wù)。