趙龍 周源 李飛 范文斌
摘? 要:“呼叫中心”一詞來(lái)源于英文Call Center,自其誕生以來(lái)就作為企業(yè)和客戶(hù)之間的溝通橋梁,是客戶(hù)和企業(yè)溝通最直接的渠道,因此優(yōu)化呼叫中心的接聽(tīng)?wèi)?yīng)答效率是管理者一直以來(lái)的追求。該文為了向管理者提供前瞻的話(huà)務(wù)量預(yù)測(cè)信息供管理者決策,提出了使用XGBoost、LightGBM、Catboost算法結(jié)合信息價(jià)值分析法選擇的特征通過(guò)累加型滑動(dòng)窗口法建立話(huà)務(wù)量預(yù)測(cè)模型,并在真實(shí)數(shù)據(jù)上比較了三個(gè)算法的預(yù)測(cè)表現(xiàn)。結(jié)果表明XGBoost算法對(duì)于運(yùn)營(yíng)商呼叫中心話(huà)務(wù)量的預(yù)測(cè)較為準(zhǔn)確,為坐席排班提供數(shù)據(jù)支撐。
關(guān)鍵詞:呼叫中心;XGBoost;話(huà)務(wù)量;坐席排班
中圖分類(lèi)號(hào):TP18? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)22-0086-04
Abstract: The word“call center”comes from English Call Center, since its birth, it has been used as a communication bridge between enterprises and customers, it is the most direct channel for customers and enterprises to communicate. Therefore, optimizing the answering efficiency of call center has always been the pursuit of managers. To provide managers with forward-looking forecast information of telephone-traffic volume for their decision-making, this paper proposes to use XGBoost, LightGBM and Catboost algorithms and combined with the characteristics selected by the information value analysis method to establish the telephone-traffic volume prediction model through the cumulative sliding window method, and compares the prediction performance of the three algorithms on the real data. The results show that the XGBoost algorithm is more accurate in predicting the call center’s telephone-traffic volume, and provide data support for seat scheduling.
Keywords: call center; XGBoost; telephone-traffic volume; seat scheduling
0? 引? 言
隨著經(jīng)濟(jì)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,電信業(yè)務(wù)不斷更新,客戶(hù)對(duì)網(wǎng)絡(luò)質(zhì)量、感知體驗(yàn)及其相關(guān)服務(wù)要求越來(lái)越高,因此呼叫中心行業(yè)在客戶(hù)關(guān)系中占有重要地位。
在過(guò)去幾十年的管理,通過(guò)電話(huà)溝通呼叫中心為客戶(hù)提供有效和響應(yīng)性的服務(wù),切實(shí)解決客戶(hù)的各種問(wèn)題,如處理客戶(hù)的疑難點(diǎn)、需求和請(qǐng)求,是服務(wù)行業(yè)必不可少的系統(tǒng),特別是對(duì)于大型組織[1]。
對(duì)于那些通過(guò)呼叫中心收集訂單來(lái)組織業(yè)務(wù)的公司來(lái)說(shuō),呼叫中心的有效性和營(yíng)銷(xiāo)活動(dòng)之間存在著至關(guān)重要的聯(lián)系。為了達(dá)到目標(biāo)服務(wù)水平,管理者必須在呼叫中心的適當(dāng)時(shí)間內(nèi)雇傭適當(dāng)數(shù)量且技術(shù)熟練員工。基于詳細(xì)的通話(huà)數(shù)據(jù),短期預(yù)測(cè)來(lái)調(diào)度可用的坐席池是呼叫中心管理者面臨的一項(xiàng)基本挑戰(zhàn)。由于呼叫高峰時(shí)間可能持續(xù)時(shí)間較短,呼叫中心的人員配備并不總是足夠靈活來(lái)適應(yīng)這一需求。因此,對(duì)呼叫中心到達(dá)的穩(wěn)定性建模和計(jì)算員工需求是呼叫中心管理的關(guān)鍵問(wèn)題[2,3],即當(dāng)前的熱點(diǎn)和難點(diǎn)是科學(xué)預(yù)測(cè)以及有效提高呼叫中心行業(yè)的話(huà)務(wù)量預(yù)測(cè)精確度。
1? 算法描述
1.1? XGBoost算法
XGBoost[4]是一個(gè)基于梯度提升的高度可擴(kuò)展的決策樹(shù)集成。與梯度提升一樣,XGBoost 模型通過(guò)減少損失函數(shù)來(lái)構(gòu)建目標(biāo)函數(shù)的額外擴(kuò)展。它僅使用決策樹(shù)作為基本分類(lèi)器,并使用損失函數(shù)變化來(lái)控制樹(shù)的復(fù)雜性。
其中,式中,T為樹(shù)葉數(shù),ω為樹(shù)葉輸出分?jǐn)?shù)。γ值表示內(nèi)部節(jié)點(diǎn)分裂所需的最小損失減少。收縮是XGBoost中的另一個(gè)正則化參數(shù),它最小化了附加的擴(kuò)展步長(zhǎng)大小。其他方法,如樹(shù)的深度,可以用于控制樹(shù)的復(fù)雜性。為了更快地訓(xùn)練模型和減少存儲(chǔ)空間需求,對(duì)于降低樹(shù)的復(fù)雜度是必要的。
此外,XGBoost隨機(jī)化技術(shù),如隨機(jī)子樣本和列的二次采樣,能夠減少過(guò)擬合,加快訓(xùn)練。為了最小化尋找最佳分割的計(jì)算復(fù)雜度,XGBoost使用了一個(gè)基于列的壓縮存儲(chǔ),其中的數(shù)據(jù)是預(yù)先排序存儲(chǔ)的。這種基于列的存儲(chǔ)結(jié)構(gòu)支持并行搜索每個(gè)考慮的屬性的最佳劃分。另外,XGBoost還使用基于數(shù)據(jù)百分位數(shù)的方法來(lái)測(cè)試候選分割的子集,并使用聚合統(tǒng)計(jì)信息計(jì)算它們的增益,而不是掃描所有可能的候選拆分。因此,節(jié)點(diǎn)級(jí)數(shù)據(jù)子抽樣類(lèi)似于這個(gè)概念。XGBoost還使用了一種稀疏性感知算法,有效地從分離候選的損失增益的計(jì)算中消除空值。
1.2? LightGBM算法
LightGBM算法是微軟在梯度提升回歸[5]的基礎(chǔ)上提出的,是最新、最有效的機(jī)器學(xué)習(xí)算法之一。它采用基于直方圖的算法,將連續(xù)的特征值存儲(chǔ)到離散的容器中[6,7]?;谥狈綀D的算法可以幫助加快訓(xùn)練并減少內(nèi)存使用[8]。另外,采用直方圖減法技術(shù),利用目標(biāo)葉的父葉減去其鄰葉得到目標(biāo)葉,也有助于加快收斂速度?;谥狈綀D的算法的思維導(dǎo)圖如圖1所示。連續(xù)的特征被分散到離散的箱子中,使用許多直方圖來(lái)積累統(tǒng)計(jì)量。
LightGBM實(shí)現(xiàn)了帶有深度限制的按葉子生長(zhǎng)(leaf-wise)算法[9],選擇σ損失最大的葉子生長(zhǎng)。下面介紹兩種樹(shù)木生長(zhǎng)方法。許多正常的提升算法使用圖2所示的按層生長(zhǎng) (level-wise)的決策樹(shù)生長(zhǎng),并且在每個(gè)層中擁有相同數(shù)量的葉子。level-wise決策樹(shù)生長(zhǎng)法選擇σ損失最大的葉子生長(zhǎng),這意味著每一層的葉片數(shù)量并不總是相同的,如圖3所示。leaf-wise決策樹(shù)生長(zhǎng)可以幫助實(shí)現(xiàn)更低的損失[8]。此外,LightGBM在過(guò)擬合的情況下限制了樹(shù)的深度。
一般來(lái)說(shuō),LightGBM具有足夠的復(fù)雜性,并具有處理多非線(xiàn)性關(guān)系問(wèn)題的強(qiáng)大能力。它既能保持高效率,又能保持高精度。因此,它在處理中子計(jì)算方面具有廣闊的應(yīng)用前景。
1.3? Catboost算法
CatBoost是一種新的梯度增強(qiáng)決策樹(shù)(GBDT)算法,能夠很好地處理分類(lèi)特征。該算法與傳統(tǒng)GBDT算法的不同之處在于以下幾點(diǎn):
(1)在訓(xùn)練時(shí)處理分類(lèi)特征,而不是預(yù)處理時(shí)間。CatBoost允許使用整個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練。Prokhorenkova等人[10]認(rèn)為,目標(biāo)統(tǒng)計(jì)(TS)是處理分類(lèi)特征的一種非常有效的方法,信息損失最小。具體來(lái)說(shuō),對(duì)于每個(gè)示例,CatBoost執(zhí)行數(shù)據(jù)集的隨機(jī)排列,并計(jì)算示例的平均標(biāo)簽值,將相同的類(lèi)別值放在排列中的給定值之前。如果存在一個(gè)排列公,則采用以下公式進(jìn)行代替:
其中P是先驗(yàn)值,β是先驗(yàn)的權(quán)值。對(duì)于回歸任務(wù),計(jì)算先驗(yàn)的標(biāo)準(zhǔn)技術(shù)是取數(shù)據(jù)集中的平均標(biāo)簽值。
(2)特征組合。所有的分類(lèi)特征都可以合并成一個(gè)新的分類(lèi)特征。當(dāng)為樹(shù)構(gòu)造一個(gè)新的分支時(shí),CatBoost使用一種貪婪的方式來(lái)考慮組合。對(duì)于樹(shù)中的第一次拆分不考慮組合,但對(duì)于第二次和后續(xù)拆分,CatBoost將預(yù)先設(shè)置的所有組合與數(shù)據(jù)集中的所有分類(lèi)特性結(jié)合起來(lái)。在樹(shù)中選擇的所有劈叉都被視為具有兩個(gè)值的類(lèi)別,并在組合中使用。
(3)無(wú)偏差提升分類(lèi)特征。在使用TS方法將分類(lèi)特征轉(zhuǎn)化為數(shù)值時(shí),其分布會(huì)與原始分布不同,這種分布的偏差會(huì)導(dǎo)致解的偏差,這是傳統(tǒng)GBDT方法不可避免的問(wèn)題。Prokhorenkova等人[10]通過(guò)理論分析,提出了一種克服梯度偏差的新方法,稱(chēng)為有序助推。
(4)快速得分。CatBoost使用健忘樹(shù)作為基本預(yù)測(cè)器,在樹(shù)的整個(gè)層次上使用相同的分裂標(biāo)準(zhǔn)[11]。這樣的樹(shù)是平衡的,不容易過(guò)度擬合。在健忘樹(shù)中,每個(gè)葉索引被編碼為一個(gè)二進(jìn)制向量,其長(zhǎng)度等于樹(shù)的深度。這一原則在CatBoost模型求值器中被廣泛使用,用于計(jì)算模型預(yù)測(cè),因?yàn)樗卸M(jìn)制文件都使用浮點(diǎn)、統(tǒng)計(jì)和一次性編碼特性。
2? 實(shí)驗(yàn)分析
2.1? 數(shù)據(jù)采集
本文研究的數(shù)據(jù)來(lái)源于2019年某省電信運(yùn)營(yíng)商客服中心通話(huà)記錄數(shù)據(jù),并且對(duì)其進(jìn)行脫敏。
2.2? 數(shù)據(jù)預(yù)處理
當(dāng)原始數(shù)據(jù)集中的數(shù)據(jù)出現(xiàn)不完整、凌亂、數(shù)據(jù)冗余以及數(shù)據(jù)規(guī)模龐大等多種問(wèn)題,那么通過(guò)數(shù)據(jù)預(yù)處理這個(gè)步驟,將會(huì)提高模型預(yù)測(cè)精度。此外原始數(shù)據(jù)存在于不同的表中,因此需要通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理進(jìn)行整合。本文主要在以下方面做了數(shù)據(jù)預(yù)處理工作:刪除缺失值過(guò)多的樣本和特征列、采用眾數(shù)、平均數(shù)填充缺失值、剔除冗余樣本、以及對(duì)二元屬性值進(jìn)行數(shù)據(jù)類(lèi)型轉(zhuǎn)換。
2.3? 特征選擇
特征選擇將會(huì)在以后的建模和預(yù)測(cè)中起著關(guān)鍵的作用,尤其是在數(shù)據(jù)集小而特征多的情況下。此外消除噪聲和正確選擇特征能夠定性地提高模型的整體精度和穩(wěn)定性。
特征選擇過(guò)程是個(gè)極其復(fù)雜的過(guò)程,需要考慮的因素很多,例如特征的預(yù)測(cè)能力,特征之間的相關(guān)性,特征的簡(jiǎn)單性、特征在業(yè)務(wù)上的可解釋性等等。但是,其中最主要和最直接的衡量標(biāo)準(zhǔn)是變量的預(yù)測(cè)能力。IV就是這樣一種指標(biāo),IV表示信息價(jià)值,它是衡量自變量的預(yù)測(cè)能力的一種指標(biāo),即某個(gè)特征對(duì)預(yù)測(cè)目標(biāo)的影響程度。
其基本思想是根據(jù)該特征所命中黑白樣本的比率與總黑白樣本的比率,來(lái)對(duì)比和計(jì)算其關(guān)聯(lián)程度,其公式如下所示:
其中,n代表樣本在該特征上分成的組數(shù),表示該樣本第ni組數(shù)據(jù)中白樣本占所有白樣本的比例,表示該樣本第yi組數(shù)據(jù)中黑樣本占左右黑樣本的比例。其IV值的預(yù)測(cè)能力表如表1所示。
由表可知,并不是IV值越大越好,當(dāng)IV大于0.5時(shí),由于太好了而顯得不夠真實(shí),我們將會(huì)對(duì)此表示可疑,通常我們會(huì)選擇IV值在0.1到0.5之間。
本文采用IV值分析的方法進(jìn)行特征選擇,最終選出40個(gè)對(duì)話(huà)務(wù)量有影響的特征變量作為模型的輸入特征變量。
2.4? 模型預(yù)測(cè)
經(jīng)過(guò)前面的分析介紹,以上算法均適合用于對(duì)話(huà)務(wù)量預(yù)測(cè)的研究。通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和特征選擇,并采用累加型滑動(dòng)窗口法構(gòu)建樣本集,其中訓(xùn)練樣本集隨著時(shí)間的推移,數(shù)據(jù)在不斷地進(jìn)行累加,在訓(xùn)練集的基礎(chǔ)之上,隨機(jī)抽取30%作為驗(yàn)證集。然后把處理后的包含40個(gè)特征變量的訓(xùn)練集作為輸入變量輸入到模型中進(jìn)行訓(xùn)練,再用驗(yàn)證集進(jìn)行驗(yàn)證,最后用測(cè)試集進(jìn)行測(cè)試。累加型滑動(dòng)窗口法原理如圖4所示。
2.5? 評(píng)價(jià)標(biāo)準(zhǔn)
評(píng)價(jià)標(biāo)準(zhǔn)的選取是整個(gè)實(shí)驗(yàn)環(huán)節(jié)的重要部分,會(huì)直接影響到實(shí)驗(yàn)的結(jié)果分析。本文選取均方誤差 MSE(Mean Square Error)、均方根誤差RMSE(Root Mean Square Error)、平均絕對(duì)百分比誤差MAPE(Mean Absolute Percentage Error)、對(duì)稱(chēng)平均絕對(duì)百分比誤差SMAPE(Symmetric Mean Absolute Percentage Error) 值等評(píng)價(jià)指標(biāo)。各公式如下:
其中n表示樣本數(shù)量,是模型的預(yù)測(cè)值,yi是實(shí)際真實(shí)值。當(dāng)真實(shí)值與預(yù)測(cè)值的差值越接近0時(shí),即模型比較優(yōu)越,誤差越大,該差值越大。
2.6? 結(jié)果分析
經(jīng)過(guò)以上步驟的數(shù)據(jù)處理、特征選擇和模型預(yù)測(cè),得出了使用XGBoost算法模型的預(yù)測(cè)結(jié)果,并且與Catboost、 LightGBM 兩個(gè)算法模型得出的結(jié)果進(jìn)行了對(duì)比,結(jié)果如表2所示。
從表中可以得出,XGBoost模型在MSE、RMSE、MAPE和SMAPE四個(gè)評(píng)價(jià)標(biāo)準(zhǔn)上,均優(yōu)于LightGBM和Catboost模型,即得出XGBoost模型在預(yù)測(cè)話(huà)務(wù)量問(wèn)題上具有更好的效果。
3? 結(jié)? 論
考慮到電信網(wǎng)絡(luò)服務(wù)在當(dāng)今社會(huì)已然成為人民生活的基礎(chǔ)服務(wù),其中呼叫中心的有效管理對(duì)于電信運(yùn)營(yíng)商持續(xù)改善網(wǎng)絡(luò)信息服務(wù)起到關(guān)鍵作用。對(duì)話(huà)務(wù)量的估計(jì)因此成為管理者關(guān)心的問(wèn)題,它直接影響到呼叫中心的運(yùn)營(yíng)成本和具體排班。本文介紹了XGBoost、LightGBM和Catboost模型的算法核心以及使用信息價(jià)值分析法選擇特征,并最后對(duì)真實(shí)話(huà)務(wù)量數(shù)據(jù)進(jìn)行建模。結(jié)果表明,在電信運(yùn)營(yíng)商呼叫中心的業(yè)務(wù)場(chǎng)景中,推薦使用XGBoost模型為管理者提供更準(zhǔn)確的話(huà)務(wù)量預(yù)測(cè)信息。
參考文獻(xiàn):
[1] BUIST E,CHAN W,L’ECUYER P. Speeding up call center simulation and optimization by Markov chain uniformization [C]//2008 Winter Simulation Conference.Miami:IEEE,2008:1652-1660.
[2] AKTEKIN T,SOYER R. Call center arrival modeling:A Bayesian state‐space approach [J].Naval Research Logistics(NRL),2011,58(1):28-42.
[3] CHASSIOTI E,WORTHINGTON D J. A new model for call centre queue management [J].The Journal of the Operational Research Society 2004,55(12):1352-1357.
[4] CHEN T,GUESTRIN C. Xgboost:A scalable tree boosting system [C]//Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining.New York:Association for Computing Machinery,2016:785-794.
[5] KE G,MENG Q,F(xiàn)INLEY T,et al. Lightgbm:A highly efficient gradient boosting decision tree [J].Advances in neural information processing systems,2017,30:3146-3154.
[6] RANKA S,SINGH V. CLOUDS:A decision tree classifier for large datasets [C]//Proceedings of the 4th knowledge discovery and data mining conference.Syracuse University,1998:1-34.
[7] LI P,WU Q,BURGES C. Mcrank:Learning to rank using multiple classification and gradient boosting [J].Advances in neural information processing systems,2007,20:897-904.
[8] Microsoft-Corporation. Latest Document of LightGBM [EB/OL].[2021-08-27].https://lightgbm.readthedocs.io/en/latest/Features.html.
[9] SHI H. Best-first decision tree learning [D].Hamilton:The University of Waikato,2007.
[10] PROKHORENKOVA L,GUSEV G,VOROBEV A,et al. CatBoost:unbiased boosting with categorical features [J/OL].arXiv:1706.09516 [cs.LG].(2017-06-28).https://arxiv.org/abs/1706.09516v4.
[11] KOHAVI R,LI C H. Oblivious decision trees,graphs,and top-down pruning [C]//Fourteenth IJCAI.Montreal:IJCAI,1995:1071-1079.
作者簡(jiǎn)介:趙龍(1982—),男,漢族,安徽銅陵人,副總裁,碩士,研究方向:通信運(yùn)營(yíng)商IT咨詢(xún)規(guī)劃、軟件系統(tǒng)設(shè)計(jì)、智慧社區(qū)、云計(jì)算和數(shù)據(jù)智能;周源(1991—),男,漢族,安徽合肥人,算法工程師,碩士,研究方向:數(shù)據(jù)挖掘和自然語(yǔ)言處理;李飛(1982—),男,漢族,安徽利辛人,總經(jīng)理,碩士,主要研究方向:通信運(yùn)營(yíng)商IT咨詢(xún)規(guī)劃、軟件系統(tǒng)設(shè)計(jì)、大數(shù)據(jù)平臺(tái)建設(shè)、數(shù)據(jù)建模和數(shù)據(jù)智能;范文斌(1990—),男 ,漢族,安徽黃山人,部門(mén)經(jīng)理,本科,研究方向:軟件系統(tǒng)設(shè)計(jì)、數(shù)據(jù)智能、知識(shí)圖譜。