李春生,馮陽宵,富 宇,張可佳,吳潤桐
(1.東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163319; 2.大慶油田采油工程研究院,黑龍江 大慶 163453)
員工行為分析是一個(gè)較為前沿的領(lǐng)域,在大數(shù)據(jù)時(shí)代,員工行為信息對(duì)企業(yè)的發(fā)展愈發(fā)重要。掌握員工的行為信息能夠?yàn)槠髽I(yè)決策提供重要的數(shù)據(jù)支持,使得企業(yè)高效地完成對(duì)員工的監(jiān)督工作,提高員工評(píng)價(jià)精準(zhǔn)度和管理強(qiáng)度,實(shí)現(xiàn)員工科學(xué)化培養(yǎng)。關(guān)于行為分析,文獻(xiàn)[1]采用決策樹方式針對(duì)移動(dòng)網(wǎng)絡(luò)用戶在電商方面的行為進(jìn)行了挖掘、分析,但是用戶電商行為具有一定針對(duì)性,行為模式單一,行為目的較為明確;文獻(xiàn)[2-4]在數(shù)據(jù)方面,提出了一種基于網(wǎng)絡(luò)日志的用戶行為分析方法,該方式僅限于從網(wǎng)絡(luò)日志文件中提取數(shù)據(jù),數(shù)據(jù)來源較單一;文獻(xiàn)[5]以多源異構(gòu)數(shù)據(jù)為基礎(chǔ),在用戶產(chǎn)品使用、移動(dòng)軌跡、消費(fèi)等方面分析用戶行為,旨在挖掘出用戶在“接受”“聲音”“經(jīng)濟(jì)”等方面的能力,其數(shù)據(jù)要求以及分析方式并不能很好地適用于企業(yè)員工;文獻(xiàn)[6]針對(duì)OA系統(tǒng)用戶進(jìn)行了行為分析,但是該文獻(xiàn)中主要目的是檢測用戶異常行為,對(duì)于挖掘企業(yè)員工行為規(guī)律方面適用性不夠好。綜上所述,現(xiàn)有的行為分析模式大多以用戶網(wǎng)站或用戶軟件使用為主,對(duì)企業(yè)員工行為分析、行為規(guī)律挖掘相關(guān)的研究較少,并且大量的員工行為數(shù)據(jù)導(dǎo)致難以應(yīng)用人工監(jiān)督或傳統(tǒng)的數(shù)理統(tǒng)計(jì)分析模式去分析。為此,本文以企業(yè)員工行為所產(chǎn)生的數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)支持,采用聚類分析方式對(duì)員工行為特征進(jìn)行挖掘,最終實(shí)現(xiàn)對(duì)員工簡單分類的目的,并挖掘出其隱藏的行為特征規(guī)律。
本文所采用的模型結(jié)構(gòu)主要包括數(shù)據(jù)預(yù)處理、特征提取、行為分析3大模塊,其中,行為分析包括工作態(tài)度分析與崗位分析2個(gè)子模塊,如圖1所示。
圖1 模型結(jié)構(gòu)圖
數(shù)據(jù)預(yù)處理主要是清洗數(shù)據(jù)和解析日志文件,詳細(xì)內(nèi)容介紹如下:
1)清洗門禁刷卡數(shù)據(jù)。修正門禁刷卡數(shù)據(jù)當(dāng)中的錯(cuò)誤數(shù)據(jù),補(bǔ)全缺失數(shù)據(jù)。例如,為了修正、補(bǔ)全某個(gè)員工刷卡數(shù)據(jù),隨機(jī)選取該員工一定天數(shù)當(dāng)中相同時(shí)間范圍的數(shù)據(jù),求得此類數(shù)據(jù)的均值作為該錯(cuò)誤數(shù)據(jù)的修正值或缺失數(shù)據(jù)填充值[7]。
2)解析專業(yè)日常辦公軟件操作日志。將操作日志依照日志記錄規(guī)律進(jìn)行解析,提取出日志中的信息關(guān)鍵字并存入數(shù)據(jù)庫中。
根據(jù)數(shù)據(jù)特點(diǎn),重點(diǎn)分析員工行為數(shù)據(jù)的3個(gè)方面[8]:行為對(duì)象、行為類型和行為時(shí)間。行為對(duì)象包括門禁刷卡和專業(yè)日常辦公軟件操作。其中,門禁刷卡行為類型包括刷卡地點(diǎn)、入內(nèi)刷卡、外出刷卡。專業(yè)日常辦公軟件操作行為類型包括操作模塊(如管理模塊、日常模塊、專業(yè)模塊等)和操作信息(包括操作標(biāo)題和操作描述)。行為時(shí)間主要包括員工在各個(gè)時(shí)間段進(jìn)行各種工作行為的比例,例如晚上加班(18時(shí)~22時(shí))、周末加班等,而上下班行為時(shí)間的計(jì)算是利用員工門禁刷卡的信息得到,加班時(shí)間計(jì)算利用門禁刷卡時(shí)間和專業(yè)日常辦公軟件功能操作時(shí)間記錄信息得到。
本文對(duì)各種行為特征進(jìn)行篩選,依據(jù)每個(gè)特征的貢獻(xiàn)程度不同[9-10],保留如下9個(gè)特征:
N1:打卡地點(diǎn)數(shù)量。
N2:專業(yè)日常辦公軟件每天使用次數(shù)。
R1:出勤率。
R2:準(zhǔn)時(shí)率。
R3:加班率。
R4:專業(yè)日常辦公軟件使用天數(shù)比例。
R5:專業(yè)日常辦公軟件日常類功能使用占比。
R6:專業(yè)日常辦公軟件管理類功能使用占比。
R7:專業(yè)日常辦公軟件專業(yè)類功能使用占比。
1.3.1 特征計(jì)算
根據(jù)所得到的數(shù)據(jù)信息以及特征規(guī)劃,相應(yīng)特征計(jì)算方式如下[11-12]:
1)加班率計(jì)算。門禁刷卡方面,某個(gè)員工加班率等于一定時(shí)間周期T內(nèi),其加班天數(shù)與總時(shí)間周期的比值,即:
ORDoor=OD/T
其中,ORDoor表示刷卡表示的加班率,OD是加班天數(shù),T為總天數(shù)。專業(yè)日常辦公軟件使用方面,其加班率ORMDS等于非工作時(shí)間使用時(shí)長t與使用總時(shí)間T的比值,即:
ORMDS=t/T
2)準(zhǔn)時(shí)率計(jì)算。某個(gè)員工準(zhǔn)時(shí)率等于一定時(shí)間周期內(nèi),其準(zhǔn)時(shí)天數(shù)與總時(shí)間周期的比值,即:
OTR=OTD/T
其中,OTR是準(zhǔn)時(shí)率,OTD是準(zhǔn)時(shí)天數(shù),T為一定時(shí)間周期內(nèi)的總天數(shù)。
3)出勤率計(jì)算。某個(gè)員工出勤率等于一定時(shí)間周期內(nèi),其出勤天數(shù)與總時(shí)間周期的比值,即:
AR=AD/T
其中,AR表示出勤率,AD是出勤天數(shù),T為總天數(shù)。
4)對(duì)于專業(yè)日常辦公軟件使用情況,其特征計(jì)算如下:
員工某一功能模塊使用率(Some Function Usage Rate, SFUR)等于該功能模塊使用數(shù)量(Some Function Usage Numbers, SFUN)與總軟件總功能模塊數(shù)量(Total Function Number, TFN)的比值,即:
SFUR=SFUN/TFN
1.3.2 數(shù)據(jù)聚類分析
本文所采用的聚類算法為K-Means聚類分析算法,其算法思想為:先將數(shù)據(jù)大致分為K類記為Ck,找出這K個(gè)分類的均值或聚類中心,計(jì)算各個(gè)點(diǎn)到這K個(gè)均值點(diǎn)之間的距離,依據(jù)各點(diǎn)樣本到K個(gè)聚類中心的距離再次將數(shù)據(jù)進(jìn)行分類,重復(fù)計(jì)算各類別聚類中心,直至最后的聚類中心與上一次聚類中心值相同為止[13-15]。其算法模型為:
其中,C1,…,Ck為K個(gè)類別集合,mj為集合Cj的中心,n為樣本總個(gè)數(shù),x為集合內(nèi)Cj的元素。K-Means聚類示意圖如圖2所示。
圖2 K-Means聚類循環(huán)迭代優(yōu)化示意圖
給定2個(gè)員工行為數(shù)據(jù)集:門禁刷卡數(shù)據(jù)集D={D1,D2,…,Dn},專業(yè)日常辦公軟件操作數(shù)據(jù)集M={M1,M2,…,Mn},本文目標(biāo)是從2個(gè)數(shù)據(jù)集當(dāng)中提取出員工行為特征向量集Features={f1,f2,…,fn},對(duì)特征向量集做聚類分析[16-17],從而依照工作態(tài)度、崗位特征對(duì)員工進(jìn)行分類聚類,并從中發(fā)現(xiàn)隱藏的行為規(guī)律特征。數(shù)學(xué)形式為:
C{c1,c2,…,cn}=K_Means(Features)
其中,C為聚類結(jié)果,即類別集合;c1,c2,…,cn為集合C當(dāng)中的類別元素項(xiàng);K-Means為聚類分析算法;Features為特征向量集。
本文所用數(shù)據(jù)來自70個(gè)部門的7100名員工,包含門禁刷卡和專業(yè)日常辦公軟件2種主要行為的數(shù)據(jù),時(shí)間范圍從2021年7月1日—2021年10月31日一共123天。數(shù)據(jù)詳細(xì)情況如下:
1)門禁刷卡數(shù)據(jù)。
門禁刷卡信息所包含的數(shù)據(jù)有員工姓名、刷卡時(shí)間、刷卡地點(diǎn)、員工編號(hào)、員工所屬部門。數(shù)據(jù)記錄了1459名員工刷卡信息。
2)專業(yè)日常辦公軟件數(shù)據(jù)。
該軟件為科研院所日常辦公所采用的辦公平臺(tái)軟件,數(shù)據(jù)記錄了7100名員工操作日志信息。軟件總共包含了800個(gè)模塊,其中日常類有318個(gè),專業(yè)類161個(gè),管理類321個(gè)。軟件每一次被操作都會(huì)生成對(duì)應(yīng)的日志信息存入日志文件中。專業(yè)日常辦公軟件所包含的數(shù)據(jù)有員工姓名、員工編號(hào)、用戶賬戶、操作模塊、操作編碼、操作描述、操作時(shí)間。
根據(jù)預(yù)先設(shè)定的特征,對(duì)門禁刷卡數(shù)據(jù)和專業(yè)日常辦公軟件操作數(shù)據(jù)進(jìn)行特征計(jì)算,其部分?jǐn)?shù)據(jù)結(jié)果如表1和表2所示。
表1 門禁刷卡特征數(shù)據(jù)
表2 專業(yè)日常辦公軟件使用特征數(shù)據(jù)
門禁刷卡與專業(yè)日常辦公軟件操作聯(lián)合特征集(Joint Feature Set, JFS)表示方法為:以員工編號(hào)做映射鏈接,取兩者特征集的并集[18-20]。聯(lián)合特征集數(shù)學(xué)表示形式為:
JFS={f∈Feature|Feature∈Fdoor∪Feature∈Fsoft}
其中,JFS表示聯(lián)合特征集,f為聯(lián)合特征集當(dāng)中的特征元素,用一組特征量Feature描述,F(xiàn)door為門禁刷卡特征集,F(xiàn)soft為專業(yè)日常辦公軟件操作特征集。其中,特征項(xiàng)“加班率”用2個(gè)數(shù)據(jù)集加班率的均值表示。
分析結(jié)果主要包含3個(gè)方面內(nèi)容:門禁刷卡聚類結(jié)果、專業(yè)日常辦公軟件操作聚類結(jié)果、門禁刷卡和專業(yè)日常辦公軟件操作聯(lián)合聚類結(jié)果。
3.2.1 門禁刷卡聚類
本文對(duì)1459名員工門禁刷卡信息進(jìn)行聚類,結(jié)果如表3所示。
表3 門禁刷卡聚類分析結(jié)果
通過對(duì)表3數(shù)據(jù)分析可得到如下結(jié)果:
1)出勤率最高的簇,加班率也是最高的,約占總?cè)藬?shù)比例為9.8%。
2)刷卡地點(diǎn)多的員工,出勤、加班、準(zhǔn)時(shí)率都不高,比例為5.2%。
3)出勤率最高的人其加班率、準(zhǔn)時(shí)率都比較低,比例為14.2%。
4)簇人數(shù)最多的人特點(diǎn)是出勤率中等、準(zhǔn)時(shí)率中等,加班率較低,比例為30.6%。
5)出勤率較高,準(zhǔn)時(shí)率較高,但加班率較低的人約戰(zhàn)總?cè)藬?shù)的21.0%。
經(jīng)過對(duì)現(xiàn)場相關(guān)人員調(diào)研,考慮工作性質(zhì),對(duì)出勤率(即刷卡率)、準(zhǔn)時(shí)率、加班率以20%、70%為界限劃分等級(jí):低于20%為低,20%~70%為中,大于70%為高。勤奮度同出勤率、加班率、準(zhǔn)時(shí)率關(guān)系設(shè)定為:高出勤率,判定為特別勤奮型;中低出勤率、加班率,高準(zhǔn)時(shí)率,判定為一般勤奮型;中出勤率、準(zhǔn)時(shí)率,判定為普通型;出勤率、準(zhǔn)時(shí)率、加班率都比較低,則判定為散漫型。
依照勤奮度對(duì)聚類結(jié)果劃分如下:簇1、簇3為特別勤奮型,簇5為一般勤奮型,簇2、簇4為普通型,簇6為散漫型。簇劃分如表4所示。
表4 簇劃分
依照員工行為特征數(shù)據(jù)與聚類中心距離對(duì)員工進(jìn)行分類統(tǒng)計(jì),將員工劃分到指定類別當(dāng)中,最終分類人數(shù)統(tǒng)計(jì)結(jié)果如圖3所示。
圖3 門禁刷卡聚類人數(shù)統(tǒng)計(jì)圖
3.2.2 專業(yè)日常辦公軟件操作聚類
本文對(duì)7100名員工的專業(yè)日常辦公軟件使用數(shù)據(jù)進(jìn)行聚類,其聚類結(jié)果如表5所示。
表5 專業(yè)日常辦公軟件操作聚類結(jié)果
員工崗位分類標(biāo)準(zhǔn)制定為:對(duì)比功能模塊使用占比,若某個(gè)功能模塊使用占比明顯高于其他模塊且占比率大于40%,則該簇中的人員屬于該功能模塊對(duì)應(yīng)的崗位類型;若某一功能模塊使用占比在區(qū)間(40%,20%]之間,則該簇人員有屬于該功能模塊對(duì)應(yīng)崗位類型的傾向。因此,對(duì)表5中的簇進(jìn)行分析,所得到的崗位特征分類結(jié)果如表6所示。
表6 崗位特征分類表
根據(jù)聚類結(jié)果劃分,相關(guān)人員統(tǒng)計(jì)結(jié)果如圖4所示。
圖4 專業(yè)日常辦公軟件操作聚類人數(shù)統(tǒng)計(jì)圖
通過對(duì)表5數(shù)據(jù)分析可得到如下結(jié)果:
1)簇3有一定普通類功能使用占比,簇6、簇7有一定專業(yè)功能使用占比,簇9有一定日常型功能使用占比,但兩者使用占比都不高,可能具有崗位調(diào)動(dòng)的傾向。
2)使用天數(shù)最多的存在于日常類功能使用相關(guān)人員,平均使用次數(shù)最多的存在于管理類功能使用人員。
3)專業(yè)功能和日常功能使用較多的人員其管理類功能使用很少。
3.2.3 刷卡、專業(yè)日常辦公軟件操作聯(lián)合聚類
同時(shí)具有門禁刷卡信息和專業(yè)日常辦公軟件操作數(shù)據(jù)的員工有1162名,對(duì)1162名員工進(jìn)行聯(lián)合聚類,其結(jié)果如表7所示。
表7 刷卡、專業(yè)日常辦公軟件操作聯(lián)合聚類結(jié)果
通過表7數(shù)據(jù)分析可得到如下結(jié)果:
1)專業(yè)日常辦公軟件管理類功能使用占比最高的人員,其平均每天使用次數(shù)也較多。
2)高加班率、高準(zhǔn)時(shí)率、高出勤率以及較多打卡地點(diǎn)現(xiàn)象一般出現(xiàn)在日常類功能使用人員當(dāng)中。
3)專業(yè)類功能使用較多的人,其刷卡地點(diǎn)相對(duì)較少,但具有較高的出勤率、準(zhǔn)時(shí)率和加班率。
聯(lián)合聚類分析結(jié)果散點(diǎn)圖如圖5(“★”代表聚類中心,“·”代表數(shù)據(jù)分布)所示。
圖5 刷卡、專業(yè)日常辦公軟件操作聯(lián)合聚類結(jié)果
從圖5可以看出,日常類、管理類、專業(yè)類功能使用界限比較明確,同一功能使用不同人員也有不同使用情況。其中有一些人員同時(shí)使用2種以上的功能,這類人可能與其工作性質(zhì)有關(guān),也可能有崗位變動(dòng)的預(yù)兆。
K-Means聚類結(jié)果易受預(yù)先人為設(shè)定的閾值影響[21]。閾值大小決定了最終分類類別個(gè)數(shù),從而影響聚類結(jié)果優(yōu)劣性。因此,需要對(duì)聚類算法進(jìn)行改進(jìn),以實(shí)現(xiàn)動(dòng)態(tài)閾值設(shè)定,從而保證分類盡可能準(zhǔn)確。
經(jīng)與現(xiàn)場相關(guān)人員調(diào)研了解并且結(jié)合數(shù)據(jù)庫中員工崗位情況,與實(shí)驗(yàn)結(jié)果相對(duì)比,員工工作態(tài)度分類結(jié)果正確率約為89.6%,崗位分類結(jié)果正確率約為97.5%。采用此方式對(duì)員工行為分析基本正確,取得了較好的效果。
1)對(duì)聚類算法進(jìn)行改進(jìn)。下一步研究計(jì)劃通過設(shè)定合適的評(píng)估標(biāo)準(zhǔn)來自動(dòng)設(shè)置聚類算法閾值,以排除因人為設(shè)定聚類閾值而對(duì)聚類結(jié)果產(chǎn)生的干擾[22-23]。
2)增加模糊度量。人的行為具有很大的不確定性,對(duì)應(yīng)行為所產(chǎn)生的數(shù)據(jù)也具有很大模糊性,因此可以采用模糊聚類方式對(duì)數(shù)據(jù)進(jìn)行處理,使得行為分析結(jié)果更加準(zhǔn)確、貼合實(shí)際[24-27]。
3)采用多種算法。除了使用聚類分析方式外,嘗試采用其他行為特征分析方式(如關(guān)聯(lián)規(guī)則挖掘、過程挖掘、統(tǒng)計(jì)分析等)分析員工行為特征,對(duì)比行為分析算法優(yōu)劣性。
員工門禁刷卡信息數(shù)據(jù)以及專業(yè)辦公軟件操作日志信息可以作為員工行為分析的數(shù)據(jù)支持,從某種角度上可以體現(xiàn)出員工的一些行為特性,對(duì)這些數(shù)據(jù)的分析總結(jié)能夠挖掘出一些行為特征規(guī)律。聚類分析方式對(duì)員工進(jìn)行分類是可行的,應(yīng)用聚類分析算法對(duì)行為特征進(jìn)行分析,從一定程度上可以對(duì)員工作一些初步的分類聚類,且能夠取得較優(yōu)的效果。
目前所采用的聚類分析方式存在一些弊端,如人為聚類閾值設(shè)定等,需要通過制定一定的評(píng)價(jià)標(biāo)準(zhǔn)來確保聚類閾值設(shè)定的動(dòng)態(tài)性,從而排除靜態(tài)閾值對(duì)聚類結(jié)果產(chǎn)生的干擾。另一方面,采用其他行為分析方式、算法結(jié)合員工工作崗位特點(diǎn)去分析,或許可以挖掘出不一樣的行為特征規(guī)律。