国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Stacking算法的員工離職預(yù)測分析與研究*

2019-04-17 06:09:02強(qiáng),翟
關(guān)鍵詞:分類器森林預(yù)測

李 強(qiáng),翟 亮

(蘭州財(cái)經(jīng)大學(xué) 電子商務(wù)綜合重點(diǎn)實(shí)驗(yàn)室,蘭州 730020)

0 引 言

員工離職不僅造成企業(yè)人力資本投入的浪費(fèi),而且會給企業(yè)發(fā)展帶來諸多風(fēng)險(xiǎn),如重要客戶流失、商業(yè)技術(shù)泄密、企業(yè)競爭力下降等,這些風(fēng)險(xiǎn)不僅會造成企業(yè)財(cái)產(chǎn)的損失,甚至?xí)<捌髽I(yè)生存。因此,對員工離職問題研究就具有十分重要的理論價(jià)值和現(xiàn)實(shí)意義。國內(nèi)外學(xué)者對于員工離職現(xiàn)象開展了大量研究工作,其主要包括離職因素研究、離職行為預(yù)測和員工挽留機(jī)制研究等。夏功成,胡斌,張金隆等[1]綜合有關(guān)員工離職問題的研究,通過結(jié)合常識和專家知識與概率分布理論,采用定性模擬技術(shù)和QSIM算法,根據(jù)有關(guān)離職行為的特征,構(gòu)建出員工離職過程模型;皮常玲,鄭向敏等[2]以酒店新生代員工為研究對象,針對員工的頻繁離職問題,采用問卷調(diào)查和數(shù)理統(tǒng)計(jì)方法研究工作價(jià)值觀對離職傾向的影響,得出功利導(dǎo)向和長期發(fā)展等工作價(jià)值觀特征對離職傾向影響較為突出的結(jié)論;劉玉敏、李廣平[3]以用工單位的勞務(wù)派遣員工為研究對象,針對勞務(wù)派遣員工高離職率現(xiàn)象,采用層次回歸法分析用工單位的組織支持感與離職傾向之間的關(guān)系,研究發(fā)現(xiàn)用工單位可通過改善與派遣員工之間勞動關(guān)系來獲得更高績效水平。隨著機(jī)器學(xué)習(xí)算法在電信產(chǎn)業(yè)、銀行業(yè)、電子商務(wù)等領(lǐng)域的廣泛應(yīng)用,國外一些學(xué)者開始使用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)員工離職預(yù)測[4-5],Edouard Ribes[6]等提出,客戶流失預(yù)測[7-9]與員工離職預(yù)測具有較高的相似性,因此基于客戶流失預(yù)測研究使用決策樹、SVM、隨機(jī)森林等機(jī)器學(xué)習(xí)算法對員工離職問題進(jìn)行預(yù)測。

已有研究的定量方法分析,多采用統(tǒng)計(jì)方法,特征選取范圍界定不夠明顯,未將影響員工離職的其他因素納入模型,模型預(yù)測能力將受到影響;已有研究的定性方法分析,主要探究與離職傾向相關(guān)的因素,并提出相應(yīng)的方法進(jìn)行改善,處理量化數(shù)值的影響因素時(shí),未明確刻畫出其影響程度,降低了員工離職的預(yù)測能力。借鑒上述研究方法,分別使用決策樹、隨機(jī)森林、Adaboost算法構(gòu)建模型,并提出基于Stacking集成學(xué)習(xí)算法組合Adaboost和隨機(jī)森林算法構(gòu)建LRA員工離職預(yù)測模型。最后,對影響員工離職的因素進(jìn)行分析,有助于幫助企業(yè)決策者調(diào)整管理策略、降低員工離職風(fēng)險(xiǎn)、作出正確的決策。

1 算法介紹

1.1 Adaboost算法

Adaboost是集成學(xué)習(xí)領(lǐng)域Boosting算法[10-11]中最具有代表性的算法。算法通過改變訓(xùn)練數(shù)據(jù)分布,針對同一個(gè)訓(xùn)練數(shù)據(jù)集,訓(xùn)練不同的弱分類器,再將若干個(gè)弱分類器集合成一個(gè)強(qiáng)分類器來實(shí)現(xiàn)。提高預(yù)測準(zhǔn)確率是分類算法研究的持續(xù)主題,Adaboost算法能顯著提高分類準(zhǔn)確率[12],使其在機(jī)器學(xué)習(xí)領(lǐng)域得到極大關(guān)注。算法過程如下:

(2)使用帶有權(quán)值分布的Dm訓(xùn)練數(shù)據(jù)集,在第m輪訓(xùn)練后得到的基本分類器Gm(x):χ→{-1,1},(m=1,2,…,M其中m代表訓(xùn)練輪數(shù)),其中Gx(m)為在第m次訓(xùn)練得到的基本分類器。

(3)計(jì)算Gm(x)在訓(xùn)練數(shù)據(jù)集上的分類誤差

其中,

(4)計(jì)算Gm(x)的系數(shù)

(5)更新訓(xùn)練集的權(quán)值分布

Dm+1=(wm+1,1,wm+1,2,…,wm+1,i,…,wm+1,N)

(其中i=1,2,…,N)

其中Zm是規(guī)范化因子,

其目的是使得Dm+1成為一個(gè)概率分布。

(6)構(gòu)建基本分類器的線性組合

(7)得到最終分類器

線性組合f(x)實(shí)現(xiàn)M個(gè)基學(xué)習(xí)器的加權(quán)表決,αm表示基本分類器Gm(x)的重要程度。

1.2 隨機(jī)森林(Random Forest)算法

Breiman于2001年提出的隨機(jī)森林[13]是集成學(xué)習(xí)Bagging算法的一種衍生算法。算法通過將若干CART決策樹進(jìn)行集成,最終結(jié)果由每個(gè)基學(xué)習(xí)器投票產(chǎn)生來實(shí)現(xiàn)。隨機(jī)森林算法流程如圖1。隨機(jī)森林通過如下特點(diǎn)提升集成的泛化性能:

圖1 隨機(jī)森林算法流程

(1)樣本擾動。通過自助采樣法[14]對初始數(shù)據(jù)集進(jìn)行采樣得到數(shù)據(jù)子集,實(shí)現(xiàn)基學(xué)習(xí)器的多樣性,在模型的構(gòu)建過程中引入隨機(jī)性。

(2)屬性擾動。通過基學(xué)習(xí)器(這里的基學(xué)習(xí)器為CART樹)的每個(gè)節(jié)點(diǎn),先從這個(gè)節(jié)點(diǎn)的所有屬性集合中,隨機(jī)選擇一個(gè)包含有N個(gè)屬性的子集,接著從這個(gè)屬性子集中,選擇一個(gè)最優(yōu)的屬性進(jìn)行劃分。關(guān)于N值,Breiman的論文[13]建議取值N=log2d,N值代表隨機(jī)性引入程度,d為屬性個(gè)數(shù)。采用這種方法,不僅關(guān)注單棵決策樹分類器性能,也減少了每棵決策樹之間的相關(guān)性,提高組合分類器的性能,增加算法對噪聲的魯棒性。

1.3 Stacking算法

Wolpert于1992年提出Stacking算法,也被稱為Stacked Generalization[15]。與Bagging和Boosting算法采用相同類型的基學(xué)習(xí)器的區(qū)別是:Stacking算法采用一種特殊的結(jié)合策略,可以結(jié)合不同類型的基學(xué)習(xí)器進(jìn)行學(xué)習(xí)。算法可簡要描述為:將基模型的輸出結(jié)果當(dāng)作新特征,輸入到其他模型中,采用這種方法實(shí)現(xiàn)模型的堆疊,即將第一層的模型輸出結(jié)果作為第二層模型的輸入特征,第二層模型的輸出結(jié)果作為第三層模型的輸入特征,依次類推,以最后一層模型輸出作為最終結(jié)果。在兩層結(jié)構(gòu)的Stacking算法中,周志華[16]等將第一層基學(xué)習(xí)器稱作初級學(xué)習(xí)器,而將第二層中用于結(jié)合的學(xué)習(xí)器稱作次級學(xué)習(xí)器。使用二層結(jié)構(gòu)的Stacking算法并以5折交叉驗(yàn)證為例,闡述Stacking算法過程,具體步驟為:

(1)將數(shù)據(jù)集劃分為5部分,每次使用其中的1部分做驗(yàn)證集,使用其余4部分做訓(xùn)練集,得到5個(gè)個(gè)體學(xué)習(xí)器的輸出結(jié)果;

(2)對于訓(xùn)練集,每次訓(xùn)練得到一個(gè)模型,則使用該模型對驗(yàn)證集進(jìn)行預(yù)測,將預(yù)測結(jié)果作為驗(yàn)證集所對應(yīng)樣本的第二層輸入特征,依次進(jìn)行,經(jīng)過5次遍歷,每個(gè)訓(xùn)練樣本就能得到輸出結(jié)果以此作為第二層模型的輸入特征;

(3)對于測試集,每次訓(xùn)練出一個(gè)模型時(shí),都要對整個(gè)測試集進(jìn)行預(yù)測,最終測試集的每個(gè)樣本會產(chǎn)生5個(gè)輸出結(jié)果,將這些結(jié)果取平均輸入到第二層;

(4)最后采用另外一個(gè)次級學(xué)習(xí)器對步驟(2)中得到的預(yù)測結(jié)果進(jìn)行訓(xùn)練,采用步驟(3)得到的結(jié)果作為測試集進(jìn)行預(yù)測

1.4 LRA員工離職預(yù)測建模方法

1.4.1 LRA模型框架

LRA(Logistic-RandomForest-Adaboost)模型采用以隨機(jī)森林、Adaboost作為初級分類器,Logistic作為次級分類器,5折交叉驗(yàn)證構(gòu)建模型,模型框架描述如圖2。在原訓(xùn)練集上使用隨機(jī)森林、Adaboost進(jìn)行訓(xùn)練并在交叉驗(yàn)證集上進(jìn)行預(yù)測,分別得到一組預(yù)測值,這些預(yù)測值將作為次級學(xué)習(xí)器的新的訓(xùn)練集;對于測試集而言,每一次在原訓(xùn)練集上得到的模型都要在測試集上進(jìn)行預(yù)測,在5折交叉驗(yàn)證中,測試集上要進(jìn)行5次預(yù)測,將這5次預(yù)測的結(jié)果取平均,就得到新的測試集,這個(gè)測試集將作為次級學(xué)習(xí)新的測試集。最后,使用Logistic次級學(xué)習(xí)器在新的訓(xùn)練集上訓(xùn)練,在新的測試集上進(jìn)行測試,便得到了最終的預(yù)測結(jié)果。

圖2 LRA模型(以5折交叉驗(yàn)證為例)

1.4.2 LRA模型分類算法流程

根據(jù)圖2模型框架,以及相關(guān)理論知識,現(xiàn)將LRA模型分類算法操作步驟描述如下:

(1)初始化。訓(xùn)練集T={(x1,y1),(x2,y2),…,(xN,yN)};

初級學(xué)習(xí)器Adaboost、RF(Random Forest);次級學(xué)習(xí)器 Logistic;交叉驗(yàn)證集數(shù)k=5。

(2)對隨機(jī)森林和Adaboost分別使用網(wǎng)格搜索法進(jìn)行5折交叉驗(yàn)證,T1,T2,…,T5=k_Fold(T,k=5),分別獲得隨機(jī)森林和Adaboost的最優(yōu)參數(shù)組合。

(3)訓(xùn)練初始學(xué)習(xí)器

① ForTjinT:

② 分別使用5折交叉驗(yàn)證中的4部分作為訓(xùn)練集進(jìn)行訓(xùn)練,剩下的1部分作為測試集進(jìn)行預(yù)測,得到初始學(xué)習(xí)器隨機(jī)森林和Adaboost和每一部分的預(yù)測結(jié)果

Adaboostclf[j]= Adaboost(T-Tj)

RFclf[j]=RF(T-Tj)

③ 5折交叉驗(yàn)證中,每一部分預(yù)測得到的初始學(xué)習(xí)器隨機(jī)森林和Adaboost都要在原數(shù)據(jù)集的測試集上進(jìn)行測試,得到的測試結(jié)果構(gòu)成新的測試集,并將得到的新的測試結(jié)果和②中所得到的預(yù)測結(jié)果存放起來,構(gòu)成次級學(xué)習(xí)的訓(xùn)練集和測試集:

Meta={}

ForxiinTj:

si1= Adaboostclf[j].predict(xi)

si2= RFclf[j].predict(xi)

Meta.append((si1,si2),yi)

(4)使用次級學(xué)習(xí)器Logistic對步驟③得到的訓(xùn)練集和測試集進(jìn)行訓(xùn)練和測試,得到最終的預(yù)測結(jié)果。

2 實(shí)驗(yàn)及結(jié)果分析

使用某企業(yè)人力資源部門的1 100條員工統(tǒng)計(jì)數(shù)據(jù),包括年齡、性別、受教育程度、薪資、加班情況、收入等36個(gè)原始特征,數(shù)據(jù)可理化屬性統(tǒng)計(jì)見表1。針對使用的數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理[17]和特征選擇[18]的過程以及步驟簡述為

(1)對數(shù)據(jù)進(jìn)行清洗,清除掉對算法和建模無關(guān)的數(shù)據(jù)。包括員工ID、員工姓名、家庭住址等4個(gè)特征;

(2)對于字符串形式的特征,轉(zhuǎn)換為標(biāo)稱型指標(biāo)。包括將性別、差旅情況、加班與否等8個(gè)特征,轉(zhuǎn)換為對應(yīng)的標(biāo)稱型指標(biāo);

(3)對于連續(xù)性特征,進(jìn)行離散化處理。包括將年齡、公司距離、收入等15個(gè)特征等距離散化劃分為指定的n組;

(4)對于只能接受定量特征作為輸入的機(jī)器學(xué)習(xí)算法和模型,使用啞變量處理的方式將定性特征轉(zhuǎn)換為定量特征。包括部門名稱、受教育背景、職業(yè)角色等9個(gè)特征進(jìn)行啞變量處理。

表1 員工數(shù)據(jù)理化信息

(5)將經(jīng)過離散化等技術(shù)處理后的特征進(jìn)行合并,得到的新數(shù)據(jù)集,共計(jì)122個(gè)特征。

(6)對特征數(shù)據(jù)進(jìn)行歸一化[19]處理。采用最大最小歸一化方法,將所有特征歸一化到[0,1]區(qū)間,計(jì)算公式描述為

如年齡為“30歲”,進(jìn)行歸一化處理:xnormalization=(30-18)/(60-18)=0.286。

(7)采用基于樹模型的特征選擇[19]方法,從122個(gè)特征中選擇出51個(gè)特征,以此作為模型的輸入特征。

(8)采用隨機(jī)數(shù)據(jù)劃分,將數(shù)據(jù)劃分為80%的訓(xùn)練數(shù)據(jù)和20%的測試數(shù)據(jù)?;陔S機(jī)森林、Adaboost、決策樹機(jī)器學(xué)習(xí)算法,分別在訓(xùn)練集進(jìn)行訓(xùn)練建立模型后在測試集進(jìn)行測試;并且采用基于Logistic模型作為次級學(xué)習(xí)器的Stacking算法將Adaboost和隨機(jī)森林模型進(jìn)行結(jié)合建立LRA模型,對測試集進(jìn)行預(yù)測。

實(shí)驗(yàn)中,使用準(zhǔn)確率、查準(zhǔn)率(精確率Precision)、查全率(召回率Recall)、F1值指標(biāo)來衡量模型性能。其中,LTP代表離職員工樣本分類正確數(shù),LFN為離職員工樣本分類錯(cuò)誤數(shù),LTN代表未離職員工分類正確數(shù),LFP代表未離職員工樣本分類錯(cuò)誤數(shù)。將準(zhǔn)確率(fACC)公式描述為

查準(zhǔn)率(精確率)公式描述為

查全率(召回率)公式描述為

F1度量公式描述為

各模型的準(zhǔn)確率、查準(zhǔn)率、查全率以及F1度量輸出結(jié)果見表2。通過集成學(xué)習(xí)算法所構(gòu)建的模型中,Stacking算法可以集成不同類型的基學(xué)習(xí)器進(jìn)行學(xué)習(xí),這一點(diǎn)相對于集成同類型基學(xué)習(xí)器的Adaboost和隨機(jī)森林有所不同,對預(yù)測準(zhǔn)確率的提高有所幫助。實(shí)驗(yàn)預(yù)測結(jié)果顯示,基于Stacking算法構(gòu)建的LRA模型預(yù)測準(zhǔn)確率較Adaboost和隨機(jī)森林模型有所提高在數(shù)據(jù)上證實(shí)了模型可行性。F1度量是精確率和召回率的綜合評價(jià)指標(biāo),是查全率和查全率的調(diào)和平均反映出模型性能有效性和穩(wěn)健性。

表2 各模型性能度量指標(biāo)值

因此從F1度量值分析:決策數(shù)模型的F1度量值最低,為0.297 8;LRA模型F1度量值最高,達(dá)到0.526 3,較決策樹模型的F1度量值提高0.2左右;Adaboost和隨機(jī)森林模型得到的F1度量為0.523 8和0.405 4,均高于決策樹模型的F1度量,模型Adaboost的F1度量高于隨機(jī)森林模型,但略低于LRA模型。因此,LRA模型的穩(wěn)健性較其他模型更為突出。

根據(jù)表2可看出,LRA模型相關(guān)的度量指標(biāo)均證明了模型可靠性,因此可使用模型進(jìn)行員工離職傾向預(yù)測。對LRA模型預(yù)測結(jié)果進(jìn)一步分析,將輸入模型的特征進(jìn)行重要性排序,得到與離職傾向相關(guān)的主要因素。根據(jù)最具影響力的離職因素重要性排序圖,如圖3所示,影響離職的主要因素為:加班、工齡(0~3年)、收入、職業(yè)級別等。這些影響因素與該企業(yè)員工離職行為的實(shí)際情況較為符合,對組織管理實(shí)踐具有重要的指導(dǎo)意義。企業(yè)決策者可以根據(jù)這些重要的影響因素制定相關(guān)的政策:

(1)減少加班次數(shù),降低員工離職意愿;

(2)高度關(guān)注工齡在0~3年的員工工作訴求,穩(wěn)定員工隊(duì)伍;

(3)制定合理的薪酬制度,提高員工相應(yīng)的收入待遇,激發(fā)員工的工作積極性,以保證為企業(yè)發(fā)展貢獻(xiàn)力量;

(4)關(guān)注業(yè)務(wù)發(fā)展的同時(shí),應(yīng)留有足夠的精力重點(diǎn)關(guān)注員工的需求,提高員工工作與生活平衡度和工作滿意度等;

(5)完善與離職傾向相關(guān)的各項(xiàng)制度,采取一系列干預(yù)策略減少職業(yè)級別較高的管理層員工的離職意愿,盡量避免因這部分員工離職所造成企業(yè)的損失。

圖3 影響離職的因素

3 結(jié) 語

介紹了隨機(jī)森林和Adaboost集成學(xué)習(xí)算法,并基于Stacking集成學(xué)習(xí)構(gòu)建LRA員工離職傾向預(yù)測模型,模型克服了現(xiàn)有員工離職傾向預(yù)測方法存在的不足,結(jié)合企業(yè)相關(guān)人力資源數(shù)據(jù),對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗工作后建模、調(diào)參得到模型的最優(yōu)參數(shù)組合后進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果表明,LRA模型對于員工離職分析具有一定的指導(dǎo)作用,以數(shù)據(jù)為驅(qū)動的員工離職預(yù)測方法主要基于客觀實(shí)驗(yàn),不受主觀因素的影響,因此提出的方法可以集成于支持決策系統(tǒng)中,用于輔助提高人力資源決策者的員工離職行為預(yù)測能力;更進(jìn)一步,對影響員工離職的主要因素進(jìn)行分析,可以幫助企業(yè)決策者針對員工離職傾向采取相應(yīng)的應(yīng)對方案,或是制定政策努力留下優(yōu)秀的員工;或是采取措施,最大限度地避免因員工離職帶來的企業(yè)損失。

猜你喜歡
分類器森林預(yù)測
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
不必預(yù)測未來,只需把握現(xiàn)在
哈Q森林
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
哈Q森林
哈Q森林
台山市| 宜丰县| 诏安县| 高要市| 棋牌| 都匀市| 东兰县| 桑植县| 东至县| 卓尼县| 上思县| 永吉县| 永靖县| 于都县| 扎囊县| 成安县| 安远县| 甘孜县| 阿拉尔市| 海门市| 泗水县| 长宁县| 天水市| 奇台县| 家居| 隆子县| 通江县| 奉节县| 察哈| 崇州市| 蒙山县| 北安市| 明水县| 罗甸县| 涡阳县| 措勤县| 柘荣县| 田林县| 建水县| 贵南县| 乌什县|