涂波,張煒,胡文,張健偉,馮媛媛
[摘 要]本文在某企業(yè)人力資源管理系統(tǒng)數(shù)據(jù)庫(kù)的基礎(chǔ)上,利用數(shù)據(jù)挖掘技術(shù)對(duì)企業(yè)職工的人事檔案信息進(jìn)行深度挖掘?;跊Q策樹(shù)的C5.0算法,構(gòu)建企業(yè)員工職業(yè)晉升的評(píng)判模型,生成職業(yè)晉升評(píng)判規(guī)則集,從而實(shí)現(xiàn)對(duì)企業(yè)員工職業(yè)晉升的自動(dòng)評(píng)判,并針對(duì)不同員工進(jìn)行定向信息推送,幫助人事部門(mén)有效提高管理效率,為企業(yè)實(shí)現(xiàn)人力資源的優(yōu)化配置提供助力。
[關(guān)鍵詞]人事檔案;數(shù)字化;人力資源管理;決策樹(shù)
doi:10.3969/j.issn.1673 - 0194.2018.08.029
[中圖分類(lèi)號(hào)]TP311.13 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2018)08-00-02
0 引 言
企業(yè)的人事檔案管理信息系統(tǒng)已保存了大量的員工檔案信息。如何在海量的信息中快速、準(zhǔn)確地獲取、分析信息,進(jìn)而提供更加個(gè)性、精準(zhǔn)的服務(wù)是擺在企業(yè)人力資源管理部門(mén)面前的一個(gè)重要問(wèn)題。其中,如何通過(guò)對(duì)系統(tǒng)中龐大的人事檔案數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析,嘗試找出數(shù)據(jù)之間隱含的關(guān)聯(lián)關(guān)系,構(gòu)建員工的多維能力模型,進(jìn)而據(jù)此實(shí)現(xiàn)職稱(chēng)升級(jí)推薦功能,為企業(yè)優(yōu)化人力資源管理提供科學(xué)依據(jù),豐富完善人事檔案管理信息系統(tǒng)的智能應(yīng)用是企業(yè)探尋人力資源數(shù)據(jù)挖掘的核心應(yīng)用點(diǎn)。
1 算法的選擇
在進(jìn)行數(shù)據(jù)挖掘時(shí),可以通過(guò)構(gòu)建分類(lèi)模型實(shí)現(xiàn)對(duì)數(shù)據(jù)的全面刻畫(huà)以及對(duì)新數(shù)據(jù)的分類(lèi)預(yù)測(cè)。數(shù)據(jù)分類(lèi)一般包括兩個(gè)階段,學(xué)習(xí)階段通過(guò)對(duì)歷史數(shù)據(jù)的深度學(xué)習(xí)構(gòu)建分類(lèi)模型,分類(lèi)階段則利用模型對(duì)給定數(shù)據(jù)進(jìn)行分類(lèi)預(yù)測(cè)。決策樹(shù)是用于分類(lèi)和預(yù)測(cè)的主要技術(shù)之一,通過(guò)將大量數(shù)據(jù)有目的地分類(lèi),從中找到一些有價(jià)值的信息供決策者作出正確判斷。
1.1 決策樹(shù)算法及特點(diǎn)
決策樹(shù)學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,著眼于從一組無(wú)次序、無(wú)規(guī)則的事例中推理出決策樹(shù)表示形式的分類(lèi)規(guī)則。它采用自上而下的遞推方式,在決策樹(shù)的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較,并根據(jù)不同屬性判斷從該節(jié)點(diǎn)向下的分支,然后進(jìn)行剪枝,最后在決策樹(shù)的葉節(jié)點(diǎn)得到結(jié)論。決策樹(shù)的每個(gè)節(jié)點(diǎn)都有一定量的樣本,從根節(jié)點(diǎn)開(kāi)始往下各節(jié)點(diǎn)樣本量逐級(jí)減少,決策樹(shù)算法挖掘其實(shí)是對(duì)數(shù)據(jù)進(jìn)行不斷分組的一個(gè)過(guò)程。決策樹(shù)的類(lèi)型有兩種,使用哪種類(lèi)型的樹(shù)取決于輸出變量的類(lèi)型,輸出變量為分類(lèi)型變量,則選用分類(lèi)樹(shù);輸出變量為連續(xù)型變量,則使用回歸樹(shù)。
1.2 常用的決策樹(shù)算法
基于決策樹(shù)的分類(lèi)有很多實(shí)現(xiàn)算法,比較常用的主要有ID3算法、C4.5算法、C5.0算法、CART算法等。
1.2.1 ID3算法
ID3算法是較早提出并被普遍使用的決策樹(shù)算法。在信息論中,期望信息越小,那么信息增益就越大,從而純度就越高。ID3算法的核心思想就是以信息增益來(lái)度量屬性的選擇,選擇分裂后信息增益最大的屬性進(jìn)行分裂。
1.2.2 C4.5和C5.0算法
C4.5算法是對(duì)ID3算法的一種改進(jìn)和擴(kuò)充,克服了ID3算法應(yīng)用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足,并且在樹(shù)的構(gòu)造過(guò)程中就可以進(jìn)行剪枝,且能夠完成對(duì)連續(xù)屬性的離散化處理。C5.0是C4.5應(yīng)用于大數(shù)據(jù)集上的分類(lèi)算法,核心算法與C4.5保持一致,主要在執(zhí)行效率和內(nèi)存使用方面進(jìn)行了改進(jìn)。相比C4.5,C5.0在處理數(shù)據(jù)遺漏和輸入字段較多的問(wèn)題時(shí)更加穩(wěn)健,可以提供更強(qiáng)大的技術(shù)來(lái)提升分類(lèi)的精度。
1.2.3 CART算法
CART算法是一種二分遞歸分割技術(shù),把當(dāng)前樣本劃分為兩個(gè)子樣本,使生成的每個(gè)非葉子結(jié)點(diǎn)都有兩個(gè)分支,因此CART算法生成的決策樹(shù)是結(jié)構(gòu)簡(jiǎn)潔的二叉樹(shù)。CART算法的特點(diǎn)是只能生成二叉樹(shù),即每個(gè)父節(jié)點(diǎn)只能生成兩個(gè)子節(jié)點(diǎn),在確定分組變量時(shí)主要根據(jù)Gini系數(shù)來(lái)進(jìn)行選擇。
ID3、C4.5、C5.0、CART算法都有各自的特點(diǎn)和適用范圍。ID3算法選擇最佳分組變量使用的標(biāo)準(zhǔn)是信息增益值,存在選擇屬性時(shí)會(huì)偏向于選擇值多的缺陷。C4.5算法雖然修正了ID3算法的不足,但其算法本身只能處理留駐在內(nèi)存中的數(shù)據(jù)集,并不適用于大數(shù)據(jù)集的處理,數(shù)據(jù)量的大小會(huì)直接影響運(yùn)算的效率。CART算法只能生成二叉樹(shù),屬性所受局限較大。C5.0算法是用信息增益率來(lái)確定最佳分組變量和最佳分割點(diǎn),相較C4.5算法擁有更強(qiáng)大的數(shù)據(jù)處理技術(shù),耗用內(nèi)存更小,分類(lèi)精度更高,適用于處理數(shù)據(jù)量較大且不在內(nèi)存中存儲(chǔ)的數(shù)據(jù)集。
經(jīng)過(guò)對(duì)以上幾種方法的綜合比較,本文選擇用C5.0算法生成決策樹(shù)來(lái)對(duì)企業(yè)員工的職業(yè)晉升進(jìn)行評(píng)判分析。
2 基于C5.0算法的職業(yè)晉升評(píng)判分析
在已有系統(tǒng)用戶(hù)信息數(shù)據(jù)庫(kù)的基礎(chǔ)上,可以借助數(shù)據(jù)挖掘技術(shù)對(duì)企業(yè)職工的人事檔案信息進(jìn)行深度挖掘?;跊Q策樹(shù)的基本思想及C5.0算法,構(gòu)建企業(yè)員工職業(yè)晉升評(píng)判模型,生成職業(yè)晉升評(píng)判規(guī)則集,根據(jù)企業(yè)員工的實(shí)際工作情況判斷其是否能夠晉升,并針對(duì)不同員工進(jìn)行定向信息推送,如圖1所示。
在構(gòu)造決策樹(shù)模型時(shí),需要從多方面對(duì)企業(yè)員工的人事檔案信息進(jìn)行綜合考量。本文以員工年齡、學(xué)歷、工齡、工資和是否晉升等基礎(chǔ)信息為例,基于C5.0算法構(gòu)造決策樹(shù)模型,如表1所示。根據(jù)員工的基礎(chǔ)信息,選擇年齡、學(xué)歷、工齡、工資作為決策屬性集,以“是否晉升”作為類(lèi)別標(biāo)識(shí)屬性。C5.0算法的核心是通過(guò)信息增益率來(lái)判定決策屬性,選擇信息增益率最大的屬性作為決策屬性。
將員工基礎(chǔ)信息數(shù)據(jù)表示為訓(xùn)練樣本數(shù)據(jù)集D,其中決策屬性年齡、學(xué)歷、工齡、工資分別用A1、A2、A3、A4來(lái)表示。訓(xùn)練樣本數(shù)據(jù)集D中總共有15個(gè)元組,分類(lèi)屬性將這15個(gè)元組分成兩個(gè)子集,每個(gè)子集中對(duì)應(yīng)的元組個(gè)數(shù)分別為8和7。由此可以計(jì)算得到集合D關(guān)于分類(lèi)的期望信息量。
(1)
假設(shè)將訓(xùn)練元組D按決策屬性A進(jìn)行劃分,則A對(duì)D劃分的期望信息如下。
(2)
決策屬性的信息增益分別如下。
(3)
屬性A的信息增益率如下。
gainratio(年齡)=0.213 80,gainratio(學(xué)歷)=0.060 25
gainratio(工齡)=0.329 66,gainratio(工資)=0.192 24
計(jì)算結(jié)果表明,gainratio(工齡)>gainratio(年齡)>gainratio(工資)>
gainratio(學(xué)歷),工齡屬性的信息增益率最大,因此選擇工齡這一屬性作為分裂屬性。由于工齡屬性共有5個(gè)變量值,因此可以把以上樣本分為5棵子樹(shù),在決策樹(shù)中對(duì)應(yīng)5個(gè)分枝。按照同樣的方式在每一個(gè)子樹(shù)中分別計(jì)算剩余屬性的信息增益率,仍選擇信息增益率最大的屬性作為分裂屬性,將其分解成更小的子樹(shù),逐層向下,直到不能進(jìn)一步分解為止,此時(shí)決策樹(shù)的生長(zhǎng)結(jié)束,如圖2所示。
從生成的是否能夠晉升的模型中可以看出,參與決策樹(shù)構(gòu)建的主要屬性是工齡和學(xué)歷,也就是說(shuō),影響企業(yè)員工職業(yè)晉升的主要因素是工齡,其次是學(xué)歷。從模型預(yù)測(cè)準(zhǔn)確率來(lái)看,該模型對(duì)員工是否晉升的預(yù)測(cè)準(zhǔn)確率為93.33%,錯(cuò)誤率為6.67%。基于生成的決策樹(shù)及其相應(yīng)規(guī)則集,可以對(duì)企業(yè)員工人事信息做出能否晉升的評(píng)判,并將評(píng)判結(jié)果針對(duì)個(gè)人定向推送。
3 結(jié) 語(yǔ)
數(shù)據(jù)挖掘作為一門(mén)交叉學(xué)科,雖然興起時(shí)間并不長(zhǎng),但在大數(shù)據(jù)時(shí)代已經(jīng)在各個(gè)領(lǐng)域都得到了極其廣泛的應(yīng)用。決策樹(shù)算法以歷史數(shù)據(jù)為基礎(chǔ)進(jìn)行歸納和學(xué)習(xí),利用生成的規(guī)則集對(duì)新數(shù)據(jù)集做出分類(lèi)和預(yù)測(cè)。本文將決策樹(shù)算法應(yīng)用在人力資源管理中,以員工人事檔案信息作為基礎(chǔ)數(shù)據(jù)來(lái)構(gòu)建決策樹(shù),得出企業(yè)員工職業(yè)晉升的規(guī)則集,從而實(shí)現(xiàn)對(duì)企業(yè)員工職業(yè)晉升的自動(dòng)評(píng)判,并將評(píng)判結(jié)果向員工個(gè)人定向推送,能夠有效提升人事部門(mén)的管理效率,為企業(yè)實(shí)現(xiàn)人力資源的優(yōu)化配置提供助力。
本文所提出的算法已經(jīng)在貴州省煙草公司貴陽(yáng)市公司“人事檔案管理信息化項(xiàng)目”中得到應(yīng)用,極大地提升了人力資源管理效率,是貴陽(yáng)煙草商業(yè)企業(yè)精益人力資源管理體系的具體體現(xiàn)。
主要參考文獻(xiàn)
[1]毛國(guó)軍.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007.
[2]楊靜,張楠男,李建,等.決策樹(shù)算法的研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010(2).
[3]龍麗琴,張擁軍,胡文,等,煙草商業(yè)企業(yè)精益人力資源管理體系探究[M].貴州:貴州人民出版社,2017.