国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于XGBoost的員工離職預測及特征分析模型

2021-05-07 10:44王志寧
數(shù)字技術(shù)與應用 2021年3期
關(guān)鍵詞:薪資預測特征

王志寧

(新疆財經(jīng)大學統(tǒng)計與數(shù)據(jù)科學學院,新疆烏魯木齊 830001)

0 引言

當今就業(yè)環(huán)境、人力資源管理策略在科學技術(shù)發(fā)展的影響下呈現(xiàn)出新特點:一方面,重要人才成為影響企業(yè)核心競爭力、質(zhì)量效益的關(guān)鍵;另一方面,員工離職的影響也在加劇,關(guān)鍵性人才的主動離職會對公司的運營造成損失,也增加了重新招聘及新員工培訓的成本。而隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,人力資源策略數(shù)據(jù)化的價值不斷放大。基于員工情況、薪資等各項指標數(shù)據(jù)建立機器學習算法模型,預測員工的離職傾向逐漸成為人力資源管理的新方向[1]。員工離職預測能協(xié)助管理者提前介入員工的離職意向,調(diào)整管理策略,為保留人才贏得時機,也擴大為員工留任提供解決方案的空間。

員工離職是人力資源領(lǐng)域的核心問題,有不少學者針對員工離職問題進行研究[2-4]。而人力資源管理策略數(shù)據(jù)化的不斷發(fā)展,針對員工離職問題的預測研究也頗受關(guān)注[5],劉婷婷運用C4.5決策樹算法選取IBM分析平臺樣例數(shù)據(jù),建模預測員工是否離職[6]。張紫君基于GBDT算法研究員工離職的預測問題,并根據(jù)特征重要性總結(jié)員工離職的影響因素[7]。李強等人結(jié)合Adaboost和Random Forest算法構(gòu)建員工離職預測模型,取得了高于單一算法模型的預測準確性[8]。

為進一步提高離職預測模型的性能及可解釋性。本文基于數(shù)據(jù)科學競賽平臺Kaggle中的員工分析數(shù)據(jù)集,運用XGBoost算法構(gòu)建員工離職預測模型,與機器學習主流算法進行相應模型評價指標的實驗對比,驗證XGBoost模型的效果,并結(jié)合SHAP方法提升預測模型的可解釋性,分析員工離職決策的成因。

1 模型方法

離職預測是二分類問題,設員工數(shù)據(jù)集為X,包含員工的工作滿意程度、相對薪資等特征,Y為目標變量,即員工是否離職?;赬GBoost算法構(gòu)建員工離職預測模型,XGBoost是梯度提升決策樹的改進算法,其完整的目標函數(shù)如公式(1)所示,由損失函數(shù)和正則化懲罰項相加而成,正則化項用以控制模型的復雜度。其中yi為樣本真實值,為預測值,ft為每一輪迭代所建立的樹模型,最優(yōu)化目標函數(shù)即求解出樹結(jié)構(gòu)。集成的基本思想是在每一輪迭代過程中,增加一棵決策樹,使模型的效果能夠提升,過程如公式(2)所示為第t輪迭代模型的預測值,為前t-1輪的模型預測,ft(xi) 表示第t輪迭代新加入的樹模型。

XGBoost利用二階泰勒級數(shù)近似目標函數(shù),將目標函數(shù)轉(zhuǎn)化為與樹結(jié)構(gòu)直接相關(guān)的形式,在節(jié)點分裂時,預先按照特征值大小進行特征排序,保存為block結(jié)構(gòu),迭代中會重復使用這個結(jié)構(gòu),減小計算量;并采用類似分位點選取的方式,僅選出常數(shù)個特征值作為其候選分割點,從候選分割點中選出最優(yōu)的分割點,以實現(xiàn)預測準確、運算快速的目標。

2 實驗測試及分析

本文選用準確率、F1值和AUC值三項分類算法評價指標衡量模型的優(yōu)劣性。是否離職分類結(jié)果混淆矩陣如表1所示。準確率是指對于給定測試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)之比;F1值是綜合評價指標,F1值越接近1,表明模型預測越準確。準確率和F1值是由混淆矩陣計算得到。可利用混淆矩陣繪制出ROC曲線,AUC值是由該曲線求得。AUC值越大,模型精度越高。準確率和F1值的計算公式如公式(3)、(4)所示。

本文所選取數(shù)據(jù)集包含的特征如表2所示,是否離職作為標簽。預處理后的樣本總量為14999,特征總數(shù)為9。將特征變量與目標變量輸入模型,劃分訓練集與預測集數(shù)據(jù),建模訓練預測。模型最優(yōu)超參數(shù)組合為:n_estimators=60,learning_rate=0.1,max_depth=5,其余參數(shù)為默認值。將所建立的離職預測模型與Logistic算法、樸素貝葉斯、支持向量機分類、線性判別分析算法進行相應評價指標的交叉驗證實驗對比,對比結(jié)果如表3所示。

表1 分類結(jié)果混淆矩陣Tab.1 Confusion matrix of classification results

表2 數(shù)據(jù)集特征屬性Tab.2 Data set characteristic attributes

分析對比實驗結(jié)果,本文建立的XGBoost模型的預測準確率為95.6%,F1值為92.8%,AUC值為93.6%,在三項指標上,相較于其他四種算法模型,都具有最佳表現(xiàn)。員工是否離職與其相對薪資水平、工作內(nèi)容、滿意度等特征之間存在復雜的非線性關(guān)系,基于集成方法的XGBoost平衡模型的復雜度與精確性,并基于貪心算法尋找最佳分裂點,具有優(yōu)越性。

3 基于SHAP的模型解釋分析

SHAP以博弈論思想為基礎,被廣泛用于解釋復雜算法。核心是計算特征的歸因值,每個特征計算的歸因值反映該特征影響模型預測值的程度。歸因值是特征對預測結(jié)果的作用力,正值表明該特征對模型預測有提升作用,負值表示該特征對模型預測構(gòu)成負向作用,模型的預測值由模型預測的平均值與每個特征的作用力相加而得。

表3 模型性能對比結(jié)果Tab.3 Model performance comparison results

圖1 SHAP特征摘要圖Fig.1 SHAP feature summary diagram

表4 XGBoost,SHAP算法特征重要度對比Tab.4 XGBoost, SHAP algorithm feature importance comparison

如圖1所示SHAP摘要圖,根據(jù)每個特征對于員工是否離職的影響程度重要性進行排序繪制,顏色表示特征的具體數(shù)值,越接近紅色,特征數(shù)值越大,越接近藍色,數(shù)值越小;圖中每個點為一個樣本。如表4所示XGBoost特征重要度與SHAP特征重要度排序?qū)Ρ取?/p>

綜合分析得出,對公司的滿意程度、在公司工作的年數(shù)、同時負責項目的數(shù)量、平均每月工作時長、相對薪資水平是影響員工離職的關(guān)鍵因素。員工的滿意程度、相對薪資水平越高,離職的可能性越低,符合員工期望的工作內(nèi)容及狀態(tài),能夠滿足員工的認同感與獲得感,并具有不錯的薪資收入水平,是員工在工作崗位上長久、穩(wěn)定付出的重要基礎。工作年數(shù)較短如2至3年的員工,正處在發(fā)展適應階段,對于當前工作的感受尚未完全,離職的可能性較低;員工在公司工作的年數(shù)越長,越趨于穩(wěn)定,在公司工作7年以上的員工已經(jīng)成為公司中的重要一員,離職可能性也較低。而工作年數(shù)在4至6年的員工,具有跳槽、尋找新工作環(huán)境的潛在傾向,其離職的可能性較大。此外,平均每月工作時長在300小時左右的員工,日常休息時間多被工作所占用,離職的可能性較大。同時負責項目越多的員工,對于工作的滿意程度越低,員工的工作壓力會受到同時負責項目數(shù)量的影響,較多的項目帶來的工作壓力較大,占用員工休息時間的可能性更大,員工的離職傾向也越高。

圖2 SHAP特征交互圖Fig.2 SHAP feature interactive diagram

SHAP模型不僅可以對樣本特征總體分析,還可以顯示兩個特征的交互作用關(guān)系對于目標變量的影響。如圖2所示satisfaction_level(對公司的滿意程度)特征依賴圖為基礎,number_project(同時負責項目的數(shù)量)的特征數(shù)值大小著色表示的特征交互圖。分析發(fā)現(xiàn),同時負責項目越多的員工,對于工作的滿意程度越低,其離職的可能性較大。員工的工作壓力會受到同時負責項目數(shù)量的影響,較多的項目帶來的工作壓力較大,占用員工休息時間的可能性更大,員工的離職傾向也越高。

4 結(jié)語

人力資源策略管理數(shù)據(jù)化不斷發(fā)展,員工離職預測問題的研究愈發(fā)重要。本文基于員工分析數(shù)據(jù)集運用XGBoost算法建立離職預測模型,與Logistic、樸素貝葉斯、支持向量機分類、線性判別分析算法進行相應分類算法評價指標的實驗對比,并結(jié)合SHAP模型提高可解釋性,分析影響員工離職決策的因素。下一步工作可以考慮增加新特征,進一步提升預測模型對于員工離職問題的應用意義。

猜你喜歡
薪資預測特征
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
不簡單以“住房薪資”引才——遵循“一步一重天”的人才發(fā)展規(guī)律
如何表達“特征”
不忠誠的四個特征
抓住特征巧觀察
線性代數(shù)的應用特征