国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于均值聚類的員工行為分析方法

2022-09-24 02:42李春生馮陽宵張可佳吳潤桐
關(guān)鍵詞:出勤率刷卡辦公

李春生,馮陽宵,富 宇,張可佳,吳潤桐

(1.東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163319; 2.大慶油田采油工程研究院,黑龍江 大慶 163453)

0 引 言

員工行為分析是一個(gè)較為前沿的領(lǐng)域,在大數(shù)據(jù)時(shí)代,員工行為信息對(duì)企業(yè)的發(fā)展愈發(fā)重要。掌握員工的行為信息能夠?yàn)槠髽I(yè)決策提供重要的數(shù)據(jù)支持,使得企業(yè)高效地完成對(duì)員工的監(jiān)督工作,提高員工評(píng)價(jià)精準(zhǔn)度和管理強(qiáng)度,實(shí)現(xiàn)員工科學(xué)化培養(yǎng)。關(guān)于行為分析,文獻(xiàn)[1]采用決策樹方式針對(duì)移動(dòng)網(wǎng)絡(luò)用戶在電商方面的行為進(jìn)行了挖掘、分析,但是用戶電商行為具有一定針對(duì)性,行為模式單一,行為目的較為明確;文獻(xiàn)[2-4]在數(shù)據(jù)方面,提出了一種基于網(wǎng)絡(luò)日志的用戶行為分析方法,該方式僅限于從網(wǎng)絡(luò)日志文件中提取數(shù)據(jù),數(shù)據(jù)來源較單一;文獻(xiàn)[5]以多源異構(gòu)數(shù)據(jù)為基礎(chǔ),在用戶產(chǎn)品使用、移動(dòng)軌跡、消費(fèi)等方面分析用戶行為,旨在挖掘出用戶在“接受”“聲音”“經(jīng)濟(jì)”等方面的能力,其數(shù)據(jù)要求以及分析方式并不能很好地適用于企業(yè)員工;文獻(xiàn)[6]針對(duì)OA系統(tǒng)用戶進(jìn)行了行為分析,但是該文獻(xiàn)中主要目的是檢測用戶異常行為,對(duì)于挖掘企業(yè)員工行為規(guī)律方面適用性不夠好。綜上所述,現(xiàn)有的行為分析模式大多以用戶網(wǎng)站或用戶軟件使用為主,對(duì)企業(yè)員工行為分析、行為規(guī)律挖掘相關(guān)的研究較少,并且大量的員工行為數(shù)據(jù)導(dǎo)致難以應(yīng)用人工監(jiān)督或傳統(tǒng)的數(shù)理統(tǒng)計(jì)分析模式去分析。為此,本文以企業(yè)員工行為所產(chǎn)生的數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)支持,采用聚類分析方式對(duì)員工行為特征進(jìn)行挖掘,最終實(shí)現(xiàn)對(duì)員工簡單分類的目的,并挖掘出其隱藏的行為特征規(guī)律。

1 行為分析模型設(shè)計(jì)

本文所采用的模型結(jié)構(gòu)主要包括數(shù)據(jù)預(yù)處理、特征提取、行為分析3大模塊,其中,行為分析包括工作態(tài)度分析與崗位分析2個(gè)子模塊,如圖1所示。

圖1 模型結(jié)構(gòu)圖

1.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理主要是清洗數(shù)據(jù)和解析日志文件,詳細(xì)內(nèi)容介紹如下:

1)清洗門禁刷卡數(shù)據(jù)。修正門禁刷卡數(shù)據(jù)當(dāng)中的錯(cuò)誤數(shù)據(jù),補(bǔ)全缺失數(shù)據(jù)。例如,為了修正、補(bǔ)全某個(gè)員工刷卡數(shù)據(jù),隨機(jī)選取該員工一定天數(shù)當(dāng)中相同時(shí)間范圍的數(shù)據(jù),求得此類數(shù)據(jù)的均值作為該錯(cuò)誤數(shù)據(jù)的修正值或缺失數(shù)據(jù)填充值[7]。

2)解析專業(yè)日常辦公軟件操作日志。將操作日志依照日志記錄規(guī)律進(jìn)行解析,提取出日志中的信息關(guān)鍵字并存入數(shù)據(jù)庫中。

1.2 特征提取

根據(jù)數(shù)據(jù)特點(diǎn),重點(diǎn)分析員工行為數(shù)據(jù)的3個(gè)方面[8]:行為對(duì)象、行為類型和行為時(shí)間。行為對(duì)象包括門禁刷卡和專業(yè)日常辦公軟件操作。其中,門禁刷卡行為類型包括刷卡地點(diǎn)、入內(nèi)刷卡、外出刷卡。專業(yè)日常辦公軟件操作行為類型包括操作模塊(如管理模塊、日常模塊、專業(yè)模塊等)和操作信息(包括操作標(biāo)題和操作描述)。行為時(shí)間主要包括員工在各個(gè)時(shí)間段進(jìn)行各種工作行為的比例,例如晚上加班(18時(shí)~22時(shí))、周末加班等,而上下班行為時(shí)間的計(jì)算是利用員工門禁刷卡的信息得到,加班時(shí)間計(jì)算利用門禁刷卡時(shí)間和專業(yè)日常辦公軟件功能操作時(shí)間記錄信息得到。

本文對(duì)各種行為特征進(jìn)行篩選,依據(jù)每個(gè)特征的貢獻(xiàn)程度不同[9-10],保留如下9個(gè)特征:

N1:打卡地點(diǎn)數(shù)量。

N2:專業(yè)日常辦公軟件每天使用次數(shù)。

R1:出勤率。

R2:準(zhǔn)時(shí)率。

R3:加班率。

R4:專業(yè)日常辦公軟件使用天數(shù)比例。

R5:專業(yè)日常辦公軟件日常類功能使用占比。

R6:專業(yè)日常辦公軟件管理類功能使用占比。

R7:專業(yè)日常辦公軟件專業(yè)類功能使用占比。

1.3 行為分析

1.3.1 特征計(jì)算

根據(jù)所得到的數(shù)據(jù)信息以及特征規(guī)劃,相應(yīng)特征計(jì)算方式如下[11-12]:

1)加班率計(jì)算。門禁刷卡方面,某個(gè)員工加班率等于一定時(shí)間周期T內(nèi),其加班天數(shù)與總時(shí)間周期的比值,即:

ORDoor=OD/T

其中,ORDoor表示刷卡表示的加班率,OD是加班天數(shù),T為總天數(shù)。專業(yè)日常辦公軟件使用方面,其加班率ORMDS等于非工作時(shí)間使用時(shí)長t與使用總時(shí)間T的比值,即:

ORMDS=t/T

2)準(zhǔn)時(shí)率計(jì)算。某個(gè)員工準(zhǔn)時(shí)率等于一定時(shí)間周期內(nèi),其準(zhǔn)時(shí)天數(shù)與總時(shí)間周期的比值,即:

OTR=OTD/T

其中,OTR是準(zhǔn)時(shí)率,OTD是準(zhǔn)時(shí)天數(shù),T為一定時(shí)間周期內(nèi)的總天數(shù)。

3)出勤率計(jì)算。某個(gè)員工出勤率等于一定時(shí)間周期內(nèi),其出勤天數(shù)與總時(shí)間周期的比值,即:

AR=AD/T

其中,AR表示出勤率,AD是出勤天數(shù),T為總天數(shù)。

4)對(duì)于專業(yè)日常辦公軟件使用情況,其特征計(jì)算如下:

員工某一功能模塊使用率(Some Function Usage Rate, SFUR)等于該功能模塊使用數(shù)量(Some Function Usage Numbers, SFUN)與總軟件總功能模塊數(shù)量(Total Function Number, TFN)的比值,即:

SFUR=SFUN/TFN

1.3.2 數(shù)據(jù)聚類分析

本文所采用的聚類算法為K-Means聚類分析算法,其算法思想為:先將數(shù)據(jù)大致分為K類記為Ck,找出這K個(gè)分類的均值或聚類中心,計(jì)算各個(gè)點(diǎn)到這K個(gè)均值點(diǎn)之間的距離,依據(jù)各點(diǎn)樣本到K個(gè)聚類中心的距離再次將數(shù)據(jù)進(jìn)行分類,重復(fù)計(jì)算各類別聚類中心,直至最后的聚類中心與上一次聚類中心值相同為止[13-15]。其算法模型為:

其中,C1,…,Ck為K個(gè)類別集合,mj為集合Cj的中心,n為樣本總個(gè)數(shù),x為集合內(nèi)Cj的元素。K-Means聚類示意圖如圖2所示。

圖2 K-Means聚類循環(huán)迭代優(yōu)化示意圖

給定2個(gè)員工行為數(shù)據(jù)集:門禁刷卡數(shù)據(jù)集D={D1,D2,…,Dn},專業(yè)日常辦公軟件操作數(shù)據(jù)集M={M1,M2,…,Mn},本文目標(biāo)是從2個(gè)數(shù)據(jù)集當(dāng)中提取出員工行為特征向量集Features={f1,f2,…,fn},對(duì)特征向量集做聚類分析[16-17],從而依照工作態(tài)度、崗位特征對(duì)員工進(jìn)行分類聚類,并從中發(fā)現(xiàn)隱藏的行為規(guī)律特征。數(shù)學(xué)形式為:

C{c1,c2,…,cn}=K_Means(Features)

其中,C為聚類結(jié)果,即類別集合;c1,c2,…,cn為集合C當(dāng)中的類別元素項(xiàng);K-Means為聚類分析算法;Features為特征向量集。

2 數(shù)據(jù)準(zhǔn)備

本文所用數(shù)據(jù)來自70個(gè)部門的7100名員工,包含門禁刷卡和專業(yè)日常辦公軟件2種主要行為的數(shù)據(jù),時(shí)間范圍從2021年7月1日—2021年10月31日一共123天。數(shù)據(jù)詳細(xì)情況如下:

1)門禁刷卡數(shù)據(jù)。

門禁刷卡信息所包含的數(shù)據(jù)有員工姓名、刷卡時(shí)間、刷卡地點(diǎn)、員工編號(hào)、員工所屬部門。數(shù)據(jù)記錄了1459名員工刷卡信息。

2)專業(yè)日常辦公軟件數(shù)據(jù)。

該軟件為科研院所日常辦公所采用的辦公平臺(tái)軟件,數(shù)據(jù)記錄了7100名員工操作日志信息。軟件總共包含了800個(gè)模塊,其中日常類有318個(gè),專業(yè)類161個(gè),管理類321個(gè)。軟件每一次被操作都會(huì)生成對(duì)應(yīng)的日志信息存入日志文件中。專業(yè)日常辦公軟件所包含的數(shù)據(jù)有員工姓名、員工編號(hào)、用戶賬戶、操作模塊、操作編碼、操作描述、操作時(shí)間。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 特征數(shù)據(jù)

根據(jù)預(yù)先設(shè)定的特征,對(duì)門禁刷卡數(shù)據(jù)和專業(yè)日常辦公軟件操作數(shù)據(jù)進(jìn)行特征計(jì)算,其部分?jǐn)?shù)據(jù)結(jié)果如表1和表2所示。

表1 門禁刷卡特征數(shù)據(jù)

表2 專業(yè)日常辦公軟件使用特征數(shù)據(jù)

門禁刷卡與專業(yè)日常辦公軟件操作聯(lián)合特征集(Joint Feature Set, JFS)表示方法為:以員工編號(hào)做映射鏈接,取兩者特征集的并集[18-20]。聯(lián)合特征集數(shù)學(xué)表示形式為:

JFS={f∈Feature|Feature∈Fdoor∪Feature∈Fsoft}

其中,JFS表示聯(lián)合特征集,f為聯(lián)合特征集當(dāng)中的特征元素,用一組特征量Feature描述,F(xiàn)door為門禁刷卡特征集,F(xiàn)soft為專業(yè)日常辦公軟件操作特征集。其中,特征項(xiàng)“加班率”用2個(gè)數(shù)據(jù)集加班率的均值表示。

3.2 行為分析數(shù)據(jù)

分析結(jié)果主要包含3個(gè)方面內(nèi)容:門禁刷卡聚類結(jié)果、專業(yè)日常辦公軟件操作聚類結(jié)果、門禁刷卡和專業(yè)日常辦公軟件操作聯(lián)合聚類結(jié)果。

3.2.1 門禁刷卡聚類

本文對(duì)1459名員工門禁刷卡信息進(jìn)行聚類,結(jié)果如表3所示。

表3 門禁刷卡聚類分析結(jié)果

通過對(duì)表3數(shù)據(jù)分析可得到如下結(jié)果:

1)出勤率最高的簇,加班率也是最高的,約占總?cè)藬?shù)比例為9.8%。

2)刷卡地點(diǎn)多的員工,出勤、加班、準(zhǔn)時(shí)率都不高,比例為5.2%。

3)出勤率最高的人其加班率、準(zhǔn)時(shí)率都比較低,比例為14.2%。

4)簇人數(shù)最多的人特點(diǎn)是出勤率中等、準(zhǔn)時(shí)率中等,加班率較低,比例為30.6%。

5)出勤率較高,準(zhǔn)時(shí)率較高,但加班率較低的人約戰(zhàn)總?cè)藬?shù)的21.0%。

經(jīng)過對(duì)現(xiàn)場相關(guān)人員調(diào)研,考慮工作性質(zhì),對(duì)出勤率(即刷卡率)、準(zhǔn)時(shí)率、加班率以20%、70%為界限劃分等級(jí):低于20%為低,20%~70%為中,大于70%為高。勤奮度同出勤率、加班率、準(zhǔn)時(shí)率關(guān)系設(shè)定為:高出勤率,判定為特別勤奮型;中低出勤率、加班率,高準(zhǔn)時(shí)率,判定為一般勤奮型;中出勤率、準(zhǔn)時(shí)率,判定為普通型;出勤率、準(zhǔn)時(shí)率、加班率都比較低,則判定為散漫型。

依照勤奮度對(duì)聚類結(jié)果劃分如下:簇1、簇3為特別勤奮型,簇5為一般勤奮型,簇2、簇4為普通型,簇6為散漫型。簇劃分如表4所示。

表4 簇劃分

依照員工行為特征數(shù)據(jù)與聚類中心距離對(duì)員工進(jìn)行分類統(tǒng)計(jì),將員工劃分到指定類別當(dāng)中,最終分類人數(shù)統(tǒng)計(jì)結(jié)果如圖3所示。

圖3 門禁刷卡聚類人數(shù)統(tǒng)計(jì)圖

3.2.2 專業(yè)日常辦公軟件操作聚類

本文對(duì)7100名員工的專業(yè)日常辦公軟件使用數(shù)據(jù)進(jìn)行聚類,其聚類結(jié)果如表5所示。

表5 專業(yè)日常辦公軟件操作聚類結(jié)果

員工崗位分類標(biāo)準(zhǔn)制定為:對(duì)比功能模塊使用占比,若某個(gè)功能模塊使用占比明顯高于其他模塊且占比率大于40%,則該簇中的人員屬于該功能模塊對(duì)應(yīng)的崗位類型;若某一功能模塊使用占比在區(qū)間(40%,20%]之間,則該簇人員有屬于該功能模塊對(duì)應(yīng)崗位類型的傾向。因此,對(duì)表5中的簇進(jìn)行分析,所得到的崗位特征分類結(jié)果如表6所示。

表6 崗位特征分類表

根據(jù)聚類結(jié)果劃分,相關(guān)人員統(tǒng)計(jì)結(jié)果如圖4所示。

圖4 專業(yè)日常辦公軟件操作聚類人數(shù)統(tǒng)計(jì)圖

通過對(duì)表5數(shù)據(jù)分析可得到如下結(jié)果:

1)簇3有一定普通類功能使用占比,簇6、簇7有一定專業(yè)功能使用占比,簇9有一定日常型功能使用占比,但兩者使用占比都不高,可能具有崗位調(diào)動(dòng)的傾向。

2)使用天數(shù)最多的存在于日常類功能使用相關(guān)人員,平均使用次數(shù)最多的存在于管理類功能使用人員。

3)專業(yè)功能和日常功能使用較多的人員其管理類功能使用很少。

3.2.3 刷卡、專業(yè)日常辦公軟件操作聯(lián)合聚類

同時(shí)具有門禁刷卡信息和專業(yè)日常辦公軟件操作數(shù)據(jù)的員工有1162名,對(duì)1162名員工進(jìn)行聯(lián)合聚類,其結(jié)果如表7所示。

表7 刷卡、專業(yè)日常辦公軟件操作聯(lián)合聚類結(jié)果

通過表7數(shù)據(jù)分析可得到如下結(jié)果:

1)專業(yè)日常辦公軟件管理類功能使用占比最高的人員,其平均每天使用次數(shù)也較多。

2)高加班率、高準(zhǔn)時(shí)率、高出勤率以及較多打卡地點(diǎn)現(xiàn)象一般出現(xiàn)在日常類功能使用人員當(dāng)中。

3)專業(yè)類功能使用較多的人,其刷卡地點(diǎn)相對(duì)較少,但具有較高的出勤率、準(zhǔn)時(shí)率和加班率。

聯(lián)合聚類分析結(jié)果散點(diǎn)圖如圖5(“★”代表聚類中心,“·”代表數(shù)據(jù)分布)所示。

圖5 刷卡、專業(yè)日常辦公軟件操作聯(lián)合聚類結(jié)果

從圖5可以看出,日常類、管理類、專業(yè)類功能使用界限比較明確,同一功能使用不同人員也有不同使用情況。其中有一些人員同時(shí)使用2種以上的功能,這類人可能與其工作性質(zhì)有關(guān),也可能有崗位變動(dòng)的預(yù)兆。

K-Means聚類結(jié)果易受預(yù)先人為設(shè)定的閾值影響[21]。閾值大小決定了最終分類類別個(gè)數(shù),從而影響聚類結(jié)果優(yōu)劣性。因此,需要對(duì)聚類算法進(jìn)行改進(jìn),以實(shí)現(xiàn)動(dòng)態(tài)閾值設(shè)定,從而保證分類盡可能準(zhǔn)確。

3.3 實(shí)驗(yàn)驗(yàn)證

經(jīng)與現(xiàn)場相關(guān)人員調(diào)研了解并且結(jié)合數(shù)據(jù)庫中員工崗位情況,與實(shí)驗(yàn)結(jié)果相對(duì)比,員工工作態(tài)度分類結(jié)果正確率約為89.6%,崗位分類結(jié)果正確率約為97.5%。采用此方式對(duì)員工行為分析基本正確,取得了較好的效果。

4 后續(xù)研究計(jì)劃

1)對(duì)聚類算法進(jìn)行改進(jìn)。下一步研究計(jì)劃通過設(shè)定合適的評(píng)估標(biāo)準(zhǔn)來自動(dòng)設(shè)置聚類算法閾值,以排除因人為設(shè)定聚類閾值而對(duì)聚類結(jié)果產(chǎn)生的干擾[22-23]。

2)增加模糊度量。人的行為具有很大的不確定性,對(duì)應(yīng)行為所產(chǎn)生的數(shù)據(jù)也具有很大模糊性,因此可以采用模糊聚類方式對(duì)數(shù)據(jù)進(jìn)行處理,使得行為分析結(jié)果更加準(zhǔn)確、貼合實(shí)際[24-27]。

3)采用多種算法。除了使用聚類分析方式外,嘗試采用其他行為特征分析方式(如關(guān)聯(lián)規(guī)則挖掘、過程挖掘、統(tǒng)計(jì)分析等)分析員工行為特征,對(duì)比行為分析算法優(yōu)劣性。

5 結(jié)束語

員工門禁刷卡信息數(shù)據(jù)以及專業(yè)辦公軟件操作日志信息可以作為員工行為分析的數(shù)據(jù)支持,從某種角度上可以體現(xiàn)出員工的一些行為特性,對(duì)這些數(shù)據(jù)的分析總結(jié)能夠挖掘出一些行為特征規(guī)律。聚類分析方式對(duì)員工進(jìn)行分類是可行的,應(yīng)用聚類分析算法對(duì)行為特征進(jìn)行分析,從一定程度上可以對(duì)員工作一些初步的分類聚類,且能夠取得較優(yōu)的效果。

目前所采用的聚類分析方式存在一些弊端,如人為聚類閾值設(shè)定等,需要通過制定一定的評(píng)價(jià)標(biāo)準(zhǔn)來確保聚類閾值設(shè)定的動(dòng)態(tài)性,從而排除靜態(tài)閾值對(duì)聚類結(jié)果產(chǎn)生的干擾。另一方面,采用其他行為分析方式、算法結(jié)合員工工作崗位特點(diǎn)去分析,或許可以挖掘出不一樣的行為特征規(guī)律。

猜你喜歡
出勤率刷卡辦公
AKTION MENSCH總部辦公空間
Sharecuse共享辦公空間
X-workingspace辦公空間
學(xué)生曠課率高?美國學(xué)校安排專人叫起床
不來的理由
刷卡
刷臉就可以購物
巧解百分?jǐn)?shù)問題
淺談提高學(xué)生課余訓(xùn)練出勤率的有效策略
宅急送開始推行終端POS機(jī)刷卡結(jié)算
浮梁县| 海晏县| 务川| 红桥区| 福泉市| 苍南县| 江北区| 彭水| 定南县| 濮阳县| 那曲县| 波密县| 达日县| 南昌县| 新化县| 隆回县| 西平县| 景泰县| 武强县| 吉木萨尔县| 眉山市| 即墨市| 靖宇县| 浮山县| 安顺市| 齐齐哈尔市| 阜城县| 潜江市| 卓资县| 襄城县| 巩留县| 芜湖县| 玛沁县| 普陀区| 株洲县| 乌鲁木齐市| 磴口县| 钟祥市| 丁青县| 筠连县| 广汉市|