基于XGBoost與LR算法的95598重復(fù)來電行為研究

2022-04-07 05:35李艷艷嚴(yán)佳梅虞云飛

企業(yè)科技與發(fā)展 2022年11期

李艷艷，嚴(yán)佳梅，虞云飛，盛平

（國(guó)家電網(wǎng)有限公司客戶服務(wù)中心南方分中心，江蘇南京 211100）

城市經(jīng)濟(jì)的高速發(fā)展，對(duì)電力的需求在達(dá)到峰值之前會(huì)越來越多，由此產(chǎn)生的數(shù)據(jù)也會(huì)呈現(xiàn)幾何級(jí)數(shù)爆發(fā)式增長(zhǎng)。在數(shù)據(jù)作為重要生產(chǎn)資料的當(dāng)下，如何利用好數(shù)據(jù)，用數(shù)據(jù)分析結(jié)果驅(qū)動(dòng)業(yè)務(wù)，對(duì)于行業(yè)發(fā)展尤為重要。

在社會(huì)經(jīng)濟(jì)發(fā)展水平不斷提升背景下，人們生活質(zhì)量獲得進(jìn)一步提升，客戶對(duì)電力服務(wù)的要求也越來越高。95598熱線作為客戶和供電企業(yè)展開交流溝通的主要方式。但近年來，居民使用電量急速上升，服務(wù)問題被放大，使得供電話務(wù)成本顯著提升，問題處理效率不高，使得客戶不滿意度升高，投訴量激增。95598服務(wù)風(fēng)險(xiǎn)管控是日常業(yè)務(wù)運(yùn)營(yíng)管控中的難點(diǎn)問題，由于客戶軌跡分析相對(duì)比較復(fù)雜，將會(huì)增加風(fēng)險(xiǎn)篩查難度，使得此項(xiàng)工作難以正常進(jìn)行，急需依賴大數(shù)據(jù)平臺(tái)形成自動(dòng)化工具。

基于95598海量來電工單數(shù)據(jù)構(gòu)建用戶行為分析模型[1]，分析用戶的來電行為特征，抽象用戶畫像，基于具體業(yè)務(wù)場(chǎng)景，輔助業(yè)務(wù)人員創(chuàng)建業(yè)務(wù)策略，并根據(jù)行為反饋調(diào)整行為分析模型，形成用戶行為數(shù)據(jù)的生態(tài)閉環(huán)。根據(jù)成效結(jié)果，可逐步推廣至數(shù)字化轉(zhuǎn)型各個(gè)階段。我們對(duì)客戶來電行為數(shù)據(jù)進(jìn)行深度數(shù)據(jù)分析和挖掘，從行為表象中挖掘隱含的客戶行為軌跡。建模構(gòu)建客戶再次來電預(yù)測(cè)平臺(tái)，提前預(yù)估3天以內(nèi)來電的可能性，提升業(yè)務(wù)處置效率和質(zhì)量，提升客戶滿意度。將XGBoost與LR的融合模型應(yīng)用于客戶再次來電行為預(yù)測(cè)分類。

1 研究模型理論基礎(chǔ)

1.1 邏輯回歸模型

邏輯回歸模型在進(jìn)行線性回歸的時(shí)候利用線開展擬合處理工作，在處理分類任務(wù)的時(shí)候，不需要對(duì)每一個(gè)樣本進(jìn)行擬合，只需將各類樣品區(qū)別開即可，主要運(yùn)用了分類學(xué)習(xí)方式[2]。通常定義的一導(dǎo)函數(shù)回歸公式如下：

就邏輯回歸而言，其主題意思也是基于一導(dǎo)函數(shù)回歸，其公式如下：

hθ屬于sigmoid函數(shù)，hθ的輸出值需要處在是（0，1）區(qū)間范圍內(nèi)，這意味著可以將sigmoid函數(shù)看成是樣本數(shù)據(jù)的概率密度函數(shù)，那么由此可以估計(jì)參數(shù)。我們定義輸入數(shù)據(jù)點(diǎn)x為類別1時(shí)的概率、類別為0時(shí)的概率值分別如下：

構(gòu)造一個(gè)損失函數(shù)，應(yīng)當(dāng)充分考慮所有模擬用戶行為數(shù)據(jù)產(chǎn)生的損失，將損失函數(shù)的求和值或是平均值，記為J（θ）函數(shù)，此時(shí)用戶行為預(yù)測(cè)值和實(shí)際分類之存在一定的偏差表示所有模擬用戶行為預(yù)測(cè)值與實(shí)際類別分類值的偏差。J（θ）函數(shù)數(shù)據(jù)值若是比較小，則順明預(yù)測(cè)曲線的準(zhǔn)確性越高，最終方向調(diào)整為J（θ）在處于最小值θ狀態(tài)的時(shí)候是最佳參數(shù)。和函數(shù)回歸基本一致，也是使用梯度下降法用于更新 θ[3]。

1.2 XGBoost模型

XGBoost模型實(shí)際上是基于GBDT開展的優(yōu)化改造的拓展，早在2015年，知名學(xué)者陳天奇即已經(jīng)提出該模型屬于Boosting算法。Boosting算法將很對(duì)小行分類器經(jīng)過整理、統(tǒng)計(jì)形成代表性比較強(qiáng)的大分類器，使用Boosting算法開展多次訓(xùn)練，從初始模擬數(shù)據(jù)中使用隨機(jī)抽取方式生成多個(gè)訓(xùn)練樣本，并將其作為模擬用戶行為的數(shù)據(jù)集，在完成模擬處理以后即可以獲得代表性比較強(qiáng)的預(yù)測(cè)函數(shù)序列，可使用投票形式開展問題分類，通過運(yùn)用簡(jiǎn)單平均法的方式可以預(yù)測(cè)回歸問題的新樣本，算法步驟主要包括5步：①?gòu)耐瓿山y(tǒng)計(jì)的用戶行為中使用自助法采樣選出n個(gè)數(shù)據(jù)單元；②對(duì)這n個(gè)數(shù)據(jù)單元建立一個(gè)小分類器單元；③重復(fù)進(jìn)行步驟一和步驟二，創(chuàng)建m個(gè)小型分類器單元；④使用自助法經(jīng)過采樣篩選出m個(gè)新型數(shù)據(jù)單元集，并展開開分類模擬管理工作；⑤運(yùn)用投票法對(duì)m個(gè)小型分類器單元分類方式開展隨即投票，投票數(shù)量最多的被確定為最終類別。XGBoost支持并行訓(xùn)練。XGBoost算法在進(jìn)行交叉驗(yàn)證的時(shí)候，能夠在每輪Boosting算法中實(shí)施迭代運(yùn)用，可以為獲取最優(yōu)Boosting迭代次數(shù)提供更多的便利性。

1.3 XGBoost與LR融合的模型

通過模型特征可以發(fā)現(xiàn)算法效果的上限值，差別在于不同算法的上限差值存在差值，提取目標(biāo)特征屬于模擬訓(xùn)練中的重點(diǎn)內(nèi)容，若是將數(shù)據(jù)變大轉(zhuǎn)化為函數(shù)可分?jǐn)?shù)據(jù)，僅需運(yùn)用簡(jiǎn)單的線性模型即可獲得比較好的應(yīng)用效果。XGBoost創(chuàng)建新特征能夠更為高效地表達(dá)數(shù)據(jù)特征。邏輯回歸算法具有比較簡(jiǎn)單、有效性較強(qiáng)的特點(diǎn)，已經(jīng)成為工業(yè)界最常使用的算法，但是回歸算法屬于線性模型，很難順利捕捉到非線性信息，此時(shí)需要借助很多特征尋找特征組合。為了發(fā)現(xiàn)有效的特征組合，F(xiàn)acebook在2014年的論文中提出了通過GBDT+LR的方案，在這篇論文中他們提出了一種將Xgboost作為Feature Transform 的方法[4]。

2 基于XGBoost與LR模型重復(fù)來電行為預(yù)測(cè)研究

2.1 數(shù)據(jù)樣本選擇及預(yù)處理

使用的數(shù)據(jù)集來自95598業(yè)務(wù)工單來電數(shù)據(jù)集，包含用戶來電工單信息、用戶來電行為步驟明細(xì)表數(shù)據(jù)、用戶工單派單明細(xì)數(shù)據(jù)3個(gè)部分，筆者從2021年6月1日至2021年6月15日來電工單隨機(jī)篩選一定比例用戶數(shù)據(jù)共計(jì)32 595條。處于數(shù)據(jù)質(zhì)量保證目的，使目標(biāo)模型更精準(zhǔn)、科學(xué)。對(duì)選擇好的來電工單數(shù)據(jù)信息展開缺失處理、異常值處理、歸一化處理[5]。

由于95598來電渠道繁雜，來電工單業(yè)務(wù)類型分類較多，區(qū)間數(shù)據(jù)內(nèi)缺失數(shù)據(jù)情況也較為普通，存在很多缺失數(shù)據(jù)，通過合理運(yùn)用模型填補(bǔ)好缺失的信息，若是數(shù)據(jù)缺失值過多，運(yùn)用填補(bǔ)方式可能會(huì)造成模型偏差出現(xiàn)變大狀況，因此提前設(shè)計(jì)了數(shù)據(jù)缺失閾值，一旦缺失值超出30%，需要及時(shí)將這些數(shù)據(jù)指標(biāo)刪除掉。

在重復(fù)來電行為預(yù)測(cè)中，不同渠道來電工單行為和特征各不相同。存在特例特征下有異常值，異常值在模型預(yù)測(cè)中會(huì)給結(jié)果帶來干擾，因此異常數(shù)據(jù)需要額外進(jìn)行處理。通過合理使用Boxplo方式篩選出目標(biāo)設(shè)定存在的異常值，設(shè)Q1和Q3分別為1/4和3/4分位數(shù)，記IQR=Q1-Q2，則（-∞，Q1-3*IQR） ∪（Q3+3*IQR，+∞）區(qū)間數(shù)據(jù)會(huì)直接被標(biāo)記為異常點(diǎn)，對(duì)于異常值做了平均值修補(bǔ)的工作。

用戶數(shù)據(jù)在性質(zhì)和統(tǒng)計(jì)方式存在的差異比較大，使用特征模型的時(shí)候，在量綱方面、數(shù)值方面存在顯著差別。利用已知的同度量化處理，能夠有效提升各種指標(biāo)和權(quán)重的可參考價(jià)值，有助于進(jìn)一步提升特征模型具有的可解釋性。與此同時(shí)，通過及時(shí)優(yōu)化改良梯度下降求解時(shí)的網(wǎng)絡(luò)收斂速率，對(duì)于提高模型參數(shù)求解效率、求解速率具有促進(jìn)作用，為了降低量綱差異對(duì)于財(cái)務(wù)困境模型特征產(chǎn)生的高濤效果，需要對(duì)數(shù)值類數(shù)據(jù)展開歸一化處理。

通常在客戶行為數(shù)據(jù)樣本采集過程中，存在數(shù)據(jù)段中數(shù)據(jù)分布的不平衡性現(xiàn)象發(fā)生，通常數(shù)據(jù)分類模型很難及時(shí)處理好訓(xùn)練數(shù)據(jù)缺乏平衡性的問題，若是直接運(yùn)用客戶的行為采集數(shù)據(jù)建模，可能會(huì)造成模型預(yù)測(cè)精準(zhǔn)性下降的問題，在處理不平衡數(shù)據(jù)的時(shí)候，可以從數(shù)據(jù)層面、算法層面以及混合方法展開，所述數(shù)據(jù)層面主要是使用特殊模型對(duì)相關(guān)數(shù)據(jù)開展過采樣處理、欠采樣處理，算法層面主要會(huì)運(yùn)用代價(jià)敏感方式以及集成學(xué)習(xí)方式，混合方法就是數(shù)據(jù)層面和算法的有效結(jié)合。

過采樣方式中應(yīng)用頻率比較高的技術(shù)是SMOTE技術(shù)[6]，它基于部分原始數(shù)據(jù)的一導(dǎo)函數(shù)插值，和復(fù)制少量樣本時(shí)使用的重抽樣方法存在一定差異，過采方法能夠預(yù)防過擬合情況，會(huì)出現(xiàn)噪聲樣本以及邊界樣本。SMOTE-Tomek融合采樣方式兼具SMOTE特點(diǎn)、Tomek links特點(diǎn)，能夠及時(shí)解決單獨(dú)運(yùn)用SMOTE產(chǎn)生的噪聲樣本狀況、邊界樣本狀況，通過提高技術(shù)融合效果，可以使數(shù)據(jù)層面順利達(dá)到理想狀態(tài)。采用多層次隨機(jī)抽樣方法，將目標(biāo)數(shù)據(jù)樣本預(yù)測(cè)數(shù)據(jù)以7∶3的比例，將數(shù)據(jù)劃分為基礎(chǔ)集以及測(cè)試集，由于兩個(gè)數(shù)據(jù)集之間具有不平衡特點(diǎn)，因此需要對(duì)基礎(chǔ)集使用SMOTETomek實(shí)施過欠融合重抽樣處理。

2.2 實(shí)證分析

XGBoost和Logistic回歸融合模型建模步驟如下。步驟1：設(shè)置XGBoot模型參數(shù)，其中n_estimators為模型對(duì)訓(xùn)練數(shù)據(jù)的迭代次數(shù)；當(dāng)對(duì)訓(xùn)練集數(shù)據(jù)的迭代的次數(shù)過少時(shí)，在訓(xùn)練集和測(cè)試集的誤差都會(huì)很大即產(chǎn)生欠擬合現(xiàn)象。當(dāng)對(duì)訓(xùn)練集數(shù)據(jù)的迭代的次數(shù)過多時(shí)，這樣模型具有的數(shù)據(jù)預(yù)測(cè)能力比較差，容易產(chǎn)生過擬合現(xiàn)象。綜上所述，我們需要盡可能設(shè)置更大的lestimators，更小的learning_rate。。將參數(shù)n_estimators設(shè)定為100，將learning_rate設(shè)定為0.05。步驟2：對(duì)數(shù)據(jù)隨機(jī)拆分75%用于訓(xùn)練樣本，25%的數(shù)據(jù)用于模型結(jié)果測(cè)試，將訓(xùn)練樣本直接輸入以步驟1設(shè)置好的XGBoost模型之中，將每個(gè)葉子節(jié)點(diǎn)輸出組成為組合特征的向量值，然后對(duì)其進(jìn)行one-hot編碼。步驟3：將步驟2中輸出的組合特征向量，與最開始的訓(xùn)練數(shù)據(jù)中的特征一并輸入到Logistic Regression分類器中進(jìn)行最終分類器的訓(xùn)練，獲得的輸出值的輸出結(jié)果即是樣本預(yù)測(cè)結(jié)果。步驟4：為了驗(yàn)證融合模型的有效性，設(shè)置對(duì)照組，運(yùn)用XGBoost模型獲得的特征，使用Logistic回歸模型進(jìn)行數(shù)據(jù)預(yù)測(cè)，訓(xùn)練樣本數(shù)據(jù)并預(yù)測(cè)測(cè)試數(shù)據(jù)結(jié)果；對(duì)照組2直接使用XGBoost模型，設(shè)置好參數(shù)，對(duì)變量正則化、連續(xù)特征離散化，訓(xùn)練樣本數(shù)據(jù)并預(yù)測(cè)測(cè)試數(shù)據(jù)結(jié)果。

通常模型驗(yàn)證法一般會(huì)用在衡量數(shù)據(jù)模型分類預(yù)測(cè)水平的高低，通過合理運(yùn)用基礎(chǔ)數(shù)據(jù)以及測(cè)試樣本及時(shí)對(duì)模型展開驗(yàn)證管理、比較，屬于建模時(shí)常使用的方式，能夠在提升模型建設(shè)有效性的基礎(chǔ)上，進(jìn)一步提高模型的適應(yīng)能力。通常對(duì)于模中的風(fēng)險(xiǎn)預(yù)警研究來說，有效衡量指標(biāo)的召回率Recall、精準(zhǔn)性，能夠區(qū)分開再次來電用戶，F(xiàn)1-score用于確定模型的精準(zhǔn)度，ROC曲線用于確定模型區(qū)分重復(fù)來電用戶的效果。

XGBoost+LR模型的整體的Precision（精準(zhǔn)度）和Recall（召回率）明顯高于其他的模型，單一的XGBoost模型，尤其是融合模型對(duì)目標(biāo)客戶（投訴客戶）預(yù)測(cè)召回率遠(yuǎn)高于單一的XGBoost回歸模型[7]。從兩個(gè)模型ROC曲線可以清楚觀察到XGBoost組合特征+LR融合模型ROC曲線效果優(yōu)于兩個(gè)對(duì)照組模型獲得的結(jié)果。

綜上所述，在95598工單客戶再次來電行為預(yù)測(cè)中，XGBoost組合特征+LR融合模型具有比較好的預(yù)測(cè)能力，精準(zhǔn)性以及安全穩(wěn)定性明顯優(yōu)于單一的XGBoost模型及XGBoost訓(xùn)練新特征+LR模型。

3 研究創(chuàng)新

將XGBoost與Logistic回歸模型融合應(yīng)用于用戶再次來電行為預(yù)測(cè)研究，以95598來電工單行為日志數(shù)據(jù)進(jìn)行實(shí)證分析。結(jié)果表明，用XGBoost訓(xùn)練后的新特征與原有特征交叉產(chǎn)生的組合特征，再進(jìn)入回歸模型研究行為預(yù)測(cè)情況，相比其他模型有著更高的行為預(yù)測(cè)精準(zhǔn)度和穩(wěn)定性。

XGBoost的樹狀特性比較好、對(duì)于數(shù)據(jù)的敏感度比較高，在部分?jǐn)?shù)據(jù)進(jìn)行優(yōu)化調(diào)整的時(shí)候可能會(huì)產(chǎn)生類別變動(dòng)，可處理的數(shù)據(jù)量處于有限狀態(tài)，需要使用鈍化模型，Logistic回歸模型的并行能力很強(qiáng)，可以處理好大數(shù)據(jù)集，具有一維處理特點(diǎn)，需要運(yùn)用很多特征工程。XGBoost的精度高、靈活性更強(qiáng)，可以通過正則化來避免數(shù)據(jù)過擬合，所以使用XGBoost模型將原始特征訓(xùn)練的新特征，再與原始特征組成新的組合特征。這兩個(gè)模型的優(yōu)缺點(diǎn)整合后發(fā)現(xiàn)，兩者剛好可以互補(bǔ)，它們的融合是Stacking思想的成功應(yīng)用。同時(shí)，通過對(duì)照組實(shí)驗(yàn)也發(fā)現(xiàn)，如果單獨(dú)使用XGBoost模型訓(xùn)練出來的新特征，直接進(jìn)入到Logistic模型中做分類預(yù)測(cè)，其模型效果要弱于單獨(dú)使用XGBoost模型訓(xùn)練后的預(yù)測(cè)結(jié)果。說明XGBoost訓(xùn)練得到的新特征是一種有效的特征，XGBoost訓(xùn)練后得到的組合特征與Logistic回歸模型結(jié)合使用是一種有效的特征工程手段。

4 結(jié)語

95598海量的用戶傳輸?shù)挠霉问请娋W(wǎng)企業(yè)發(fā)展的雙刃劍，通過分析用戶來電行為軌跡，提高響應(yīng)速度。將重復(fù)來電預(yù)警模型實(shí)施后，減輕了多次來電管控壓力，及時(shí)進(jìn)行風(fēng)險(xiǎn)控制，降低服務(wù)壓力；根據(jù)預(yù)警結(jié)果，及時(shí)干預(yù)，降低服務(wù)升級(jí)風(fēng)險(xiǎn)及一線人員處理壓力；根據(jù)預(yù)警結(jié)果，協(xié)同優(yōu)化處置方法或升級(jí)溝通，降低業(yè)務(wù)處理難度。促使客戶業(yè)務(wù)辦理數(shù)量和效率快速增長(zhǎng)，客戶滿意度持續(xù)的提高。

后續(xù)數(shù)據(jù)工作的研究方向：①結(jié)合95598客服行業(yè)的特點(diǎn)，合適合理運(yùn)用數(shù)據(jù)挖掘技術(shù)可以直接從數(shù)據(jù)庫(kù)中進(jìn)行信息搜集，按照規(guī)約整理有關(guān)數(shù)據(jù)信息，創(chuàng)建價(jià)值客戶細(xì)分管理模型，依照用戶劃分結(jié)構(gòu)創(chuàng)建用戶畫像，便于精準(zhǔn)分析各種用戶的需求量、偏好情況、行為動(dòng)機(jī)。②可以根據(jù)前期數(shù)據(jù)以及模型分析，在模型確保預(yù)測(cè)數(shù)據(jù)精準(zhǔn)性的同時(shí)不斷提高建模處理速度，屬于未來重點(diǎn)研究?jī)?nèi)容。③可以采用恰當(dāng)?shù)年P(guān)聯(lián)規(guī)則算法挖掘發(fā)現(xiàn)客戶行為傾向，識(shí)別客戶的真正需求，當(dāng)客戶產(chǎn)生相應(yīng)行為軌跡從而快速響應(yīng)提供相應(yīng)的服務(wù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡