摘要:為了提高數(shù)據(jù)分類的精準(zhǔn)度,提升人事檔案數(shù)據(jù)管理的綜合水平,提出了基于屬性關(guān)聯(lián)的人事檔案數(shù)據(jù)智能分類方法。通過(guò)計(jì)算人事檔案數(shù)據(jù)屬性條件的發(fā)生概率,確定數(shù)據(jù)集合分割點(diǎn),根據(jù)分割點(diǎn)對(duì)應(yīng)屬性,將相同類別的數(shù)值使用一個(gè)指定的數(shù)值代替,實(shí)現(xiàn)人事檔案數(shù)據(jù)的離散化處理。同時(shí),根據(jù)不同條目數(shù)據(jù)的屬性重要性,確定數(shù)據(jù)分類最佳標(biāo)準(zhǔn)與度量依據(jù),構(gòu)建離散數(shù)據(jù)智能分類規(guī)則,并參照FastTxet模型,構(gòu)建文本分類模型,實(shí)現(xiàn)人事檔案數(shù)據(jù)的智能分類。通過(guò)對(duì)比實(shí)驗(yàn)證明,提出的方法分類精準(zhǔn)度更高,可高精度分類不同人事檔案數(shù)據(jù)。
關(guān)鍵詞:屬性關(guān)聯(lián);人事檔案;數(shù)據(jù)分類;離散化處理;
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A
0引言
在互聯(lián)網(wǎng)技術(shù)在各大企業(yè)內(nèi)全覆蓋后,企業(yè)人事檔案信息與各類存儲(chǔ)在計(jì)算機(jī)中的信息流呈現(xiàn)一種倍數(shù)增長(zhǎng)趨勢(shì),盡管在此過(guò)程中人事檔案管理人員已掌握了基本的計(jì)算機(jī)操作能力,使用現(xiàn)代化技術(shù)管理檔案信息的效率也同比例提升。但在此過(guò)程中,人事檔案管理人員也不得不面臨大批量信息中,冗余信息的排查問(wèn)題[1]。目前,企業(yè)人事檔案信息大多存儲(chǔ)在數(shù)據(jù)庫(kù)內(nèi),但并不是所有的數(shù)據(jù)均可以直接入庫(kù),導(dǎo)入數(shù)據(jù)需要相關(guān)技術(shù)人員排查信息數(shù)據(jù),即通過(guò)某種專用的工具,一次處理前端導(dǎo)入的數(shù)據(jù),并整理其中的無(wú)效數(shù)據(jù)、重復(fù)數(shù)據(jù),按照數(shù)據(jù)的所屬類別及不同類型數(shù)據(jù)之間的關(guān)聯(lián)性,對(duì)其進(jìn)行歸類,只有確保數(shù)據(jù)的秩序化導(dǎo)入,才能實(shí)現(xiàn)人事檔案信息管理的高效率與高水平[2]。為了實(shí)現(xiàn)與此方面相關(guān)的工作,在早期的研究中,技術(shù)人員提出了基于概念學(xué)習(xí)(Concept Learning System,CLS)算法的數(shù)據(jù)分類方法,此種方法的原理是將所有數(shù)據(jù)打亂在一個(gè)指定區(qū)域,在此基礎(chǔ)上設(shè)定一個(gè)分類標(biāo)準(zhǔn),采用依次排查數(shù)據(jù)的方式重整與處理大批量數(shù)據(jù)。盡管此種方法可滿足基礎(chǔ)數(shù)據(jù)分類處理需求,但由于此種處理方式需要消耗的時(shí)長(zhǎng)較高,難以滿足人事檔案處理的高效率要求。因此,在本文的研究中,提出一種基于屬性關(guān)聯(lián)的智能分類方法,通過(guò)提取人事檔案數(shù)據(jù)屬性的方式,完成數(shù)據(jù)的批量處理。
1基于屬性關(guān)聯(lián)的人事檔案數(shù)據(jù)智能分類方法
1.1人事檔案數(shù)據(jù)離散化處理
為了實(shí)現(xiàn)對(duì)人事檔案數(shù)據(jù)的智能化分類,在本章的研究中,將采用離散化處理人事檔案數(shù)據(jù)的方式,對(duì)其完成預(yù)處理[3]。這一過(guò)程最關(guān)鍵的步驟是計(jì)算屬性條件的發(fā)生概率,并根據(jù)不同屬性的發(fā)生條件獲取數(shù)據(jù)屬性特征,以此為依據(jù),掌握屬性數(shù)據(jù)在人事檔案數(shù)據(jù)集合中的占比,比重表示為 ,其中P表示為屬性數(shù)據(jù)在人事檔案數(shù)據(jù)集合中的比重, 表示為數(shù)據(jù)i的屬性特征, 表示為人事檔案數(shù)據(jù)集合。
倘若在歸類數(shù)據(jù)時(shí),人事檔案數(shù)據(jù)集合中特征屬性為離散化數(shù)據(jù),此時(shí),只需要統(tǒng)計(jì)前端訓(xùn)練樣本集合中不同類別數(shù)據(jù)出現(xiàn)的頻率即可,即計(jì)算類別的發(fā)生概率,但倘若在分類過(guò)程中,人事檔案數(shù)據(jù)呈現(xiàn)連續(xù)性特征,則可以認(rèn)為其屬性也是連續(xù)的,針對(duì)連續(xù)性數(shù)據(jù)的分類不僅需要大量計(jì)算,還需要調(diào)度輔助分類器對(duì)其進(jìn)行參照處理。因此,有必要在分類數(shù)據(jù)前,對(duì)其進(jìn)行離散化處理。
為了實(shí)現(xiàn)對(duì)人事檔案數(shù)據(jù)的有效處理,可先將連續(xù)性數(shù)據(jù)以高斯分布的方式進(jìn)行排列,并將其建立在一個(gè)連續(xù)變量上,確保數(shù)據(jù)在排序后是基于某種概率分布的。在排列數(shù)據(jù)集合后,采用高斯分布切割數(shù)據(jù)集合。高斯處理數(shù)據(jù)的核心在于確定數(shù)據(jù)集合分割點(diǎn),因此,本文選擇的分割點(diǎn)可以是基于一個(gè)相同屬性下的兩個(gè)鄰近數(shù)據(jù),將此數(shù)據(jù)進(jìn)行豎向交叉,得到一個(gè)屬性類 ,每個(gè) 對(duì)應(yīng)的屬性 在指定條件下的發(fā)生概率表示為式(1):
公式(1)中: 表示為指定條件下,數(shù)據(jù)屬性條件的發(fā)生概率; 與 表示為對(duì)應(yīng)數(shù)據(jù) 與 在豎直與水平方向上的訓(xùn)練集合; 表示為訓(xùn)練樣本記錄;i表示為數(shù)據(jù)排序?qū)?yīng)的序列;j表示為鄰近數(shù)據(jù)交叉點(diǎn)。
以屬性表示為A的數(shù)據(jù)集合為例,離散化處理A集合的步驟為:按照數(shù)據(jù)訓(xùn)練處理方式,將A劃分為A1~A3;在確保數(shù)據(jù)集合符合高斯分布的條件后,計(jì)算A1~A3的均值 與A對(duì)應(yīng)的方差值 ;根據(jù)計(jì)算結(jié)果,得到一個(gè)針對(duì)A的概率密度計(jì)算公式;使用此公式計(jì)算 、 的交叉點(diǎn)數(shù)值,將交叉計(jì)算結(jié)果作為分割點(diǎn),并根據(jù)分割點(diǎn)對(duì)應(yīng)的特征屬性分類元素,相同類別的數(shù)值使用一個(gè)指定的數(shù)值代替。以此種方式,便可以實(shí)現(xiàn)對(duì)人事檔案樣本數(shù)據(jù)的離散化處理。
1.2基于屬性關(guān)聯(lián)構(gòu)建離散數(shù)據(jù)智能分類規(guī)則
在完成人事檔案樣本數(shù)據(jù)的離散化處理后,需要找出與所有數(shù)據(jù)精準(zhǔn)對(duì)照的可能規(guī)則集合,將此集合定義為PR,即為數(shù)據(jù)智能分類規(guī)則。在此過(guò)程中,應(yīng)明確不同數(shù)據(jù)之間的屬性關(guān)聯(lián)性是構(gòu)成粗糙理論集合的主要內(nèi)容之一,因此,在構(gòu)建智能分類規(guī)則時(shí),也應(yīng)將相關(guān)內(nèi)容建立在屬性之上,考察人事檔案數(shù)據(jù)是否具有該屬性的方法為刪除數(shù)據(jù)集合中的此條數(shù)據(jù),判斷此時(shí)的信息系統(tǒng)的分類依據(jù)是否受到影響[4]。假定刪除此條數(shù)據(jù)后,數(shù)據(jù)集合的分類依據(jù)沒有發(fā)生變化,證明此條數(shù)據(jù)與數(shù)據(jù)集合不發(fā)生關(guān)聯(lián),反之,當(dāng)刪除此條數(shù)據(jù)后數(shù)據(jù)集合的分類依據(jù)發(fā)生了改變,可認(rèn)為此條數(shù)據(jù)與數(shù)據(jù)集合之間存在屬性關(guān)聯(lián)。
按照上述提出的內(nèi)容,對(duì)事物集合項(xiàng)集進(jìn)行確定,此時(shí)可得到一個(gè)精度為1.0的項(xiàng)集。在此基礎(chǔ)上,根據(jù)不同條目數(shù)據(jù)的屬性重要性,確定最佳標(biāo)準(zhǔn)與度量依據(jù)。確定數(shù)據(jù)度量標(biāo)準(zhǔn)后,利用Apriori算法將選擇的屬性生成一個(gè)候選數(shù)據(jù)集合,將此候選集合作為依據(jù),進(jìn)行關(guān)聯(lián)規(guī)則的生成,步驟如下:
在數(shù)據(jù)前端生成一個(gè)人事檔案數(shù)據(jù)集合T,定義數(shù)據(jù)可信度閾值表示為minsup,使用rule指令,生成一個(gè)關(guān)聯(lián)規(guī)則集合。此時(shí),在算法中按照精度為1.0的項(xiàng)集,計(jì)算不同條目數(shù)據(jù)屬性的重要性。計(jì)算公式如式(2)。
公式(2)中: 表示為不同條目數(shù)據(jù)屬性的重要性; 表示為前端生成的rule指令; 表示為生成的分類規(guī)則近似集合。按照上述計(jì)算公式,不斷掃描計(jì)算機(jī)中人事檔案數(shù)據(jù)庫(kù),直到掌握所有數(shù)據(jù)的關(guān)聯(lián)性達(dá)成一致,以此為依據(jù),便可以得到針對(duì)人事檔案數(shù)據(jù)分類的標(biāo)準(zhǔn)規(guī)則。
1.3基于FastTxet的文本分類模型
考慮到人事檔案部門數(shù)據(jù)庫(kù)內(nèi)現(xiàn)已存儲(chǔ)了大量的檔案數(shù)據(jù),并且部分?jǐn)?shù)字檔案尚未被開發(fā)利用,因此,可通過(guò)開發(fā)FastTxet模型的方式,構(gòu)建一個(gè)針對(duì)文本信息的分類模型,此模型是一種基于深度學(xué)習(xí)理論的模型,可以在管理文本數(shù)據(jù)時(shí),根據(jù)數(shù)據(jù)情境歸類文本信息。其結(jié)構(gòu)如圖1所示。
參照?qǐng)D1提出的三層架構(gòu)模式,將文本分類模型劃分成輸入層、矢量特征層、輸出層。其中輸入層中含有大量的隱藏信息,需要根據(jù)優(yōu)化器與梯度下降算法,得到不同數(shù)據(jù)的權(quán)重參數(shù),在此基礎(chǔ)上,根據(jù)損失的函數(shù)劃分?jǐn)?shù)據(jù)類別[5]。當(dāng)數(shù)據(jù)從輸入層流經(jīng)矢量特征層時(shí),深度學(xué)習(xí)理論將根據(jù)損失函數(shù)的預(yù)測(cè)結(jié)果,細(xì)分檔案數(shù)據(jù)的類別,并設(shè)置學(xué)習(xí)率,按照訓(xùn)練標(biāo)準(zhǔn)分類訓(xùn)練數(shù)據(jù)。完成訓(xùn)練后,使用soft分類器分類預(yù)測(cè)人事檔案數(shù)據(jù),并輸出預(yù)測(cè)結(jié)果,以此為依據(jù),劃分文本信息的批量。至此完成人事檔案數(shù)據(jù)的智能分類。
2實(shí)驗(yàn)
為了驗(yàn)證本文上述提出的基于屬性關(guān)聯(lián)的人事檔案數(shù)據(jù)智能分類方法在實(shí)際應(yīng)用中的有效性,本文采用基于屬性關(guān)聯(lián)的分類方法和文獻(xiàn)[1]基于FastText的分類方法進(jìn)行對(duì)比實(shí)驗(yàn)的方式,完成如下對(duì)比實(shí)驗(yàn)。
將本文提出的基于屬性關(guān)聯(lián)的分類方法設(shè)置為實(shí)驗(yàn)組,將基于FastText的分類方法設(shè)置為對(duì)照組。選擇以某企業(yè)人事檔案數(shù)據(jù)資源作為依托,該數(shù)據(jù)資源當(dāng)中包含了5608篇檔案文檔,在該數(shù)據(jù)資源當(dāng)中人為引入20篇存在錯(cuò)誤文本的文檔資源,共組成檔案文檔數(shù)量為5628篇的實(shí)驗(yàn)檔案文檔測(cè)試集。在利用兩種分類方法對(duì)測(cè)試集進(jìn)行分類時(shí),選用5中數(shù)量較多的文本數(shù)據(jù)作為分類類別,分別為C12-User、C13-Upper computer、C14-Identity、C15-Address、C16-Politics。在實(shí)驗(yàn)過(guò)程中,對(duì)所有人事檔案數(shù)據(jù)集進(jìn)行分詞處理,并將上述劃分的5種分類標(biāo)簽分別引入到每個(gè)檔案相應(yīng)的文本結(jié)尾位置上。完成分類后,記錄兩種分類方法的分類平均誤差F值,其計(jì)算公式為:
公式(3)中, 表示為兩種分類方法的分類平均誤差; 表示為數(shù)據(jù)點(diǎn); 表示為不同分類之間的類平均距離。根據(jù)上述公式計(jì)算兩種分類方法的平均誤差,并得到表1.
通過(guò)對(duì)比實(shí)驗(yàn)組和對(duì)照組的平均誤差F值可知,本文提出的分類方法不同測(cè)試類別的F值更低,分類精準(zhǔn)度更高,可對(duì)不同人事檔案數(shù)據(jù)實(shí)現(xiàn)高精度分類。
3結(jié)束語(yǔ)
本文設(shè)計(jì)了一種基于屬性關(guān)聯(lián)的人事檔案數(shù)據(jù)智能分類方法,將人事檔案數(shù)據(jù)在離散化處理的基礎(chǔ)上,進(jìn)行屬性管理,提高了分類精度。在完成此方法的設(shè)計(jì)后,通過(guò)對(duì)比實(shí)驗(yàn)證明了此方法在實(shí)際應(yīng)用中實(shí)用性更高。但本次研究沒有針對(duì)復(fù)雜數(shù)據(jù)進(jìn)行分類處理,因此,可在后期的相關(guān)研究中,加大對(duì)此方法的設(shè)計(jì)投入,通過(guò)構(gòu)建決策樹的方式,細(xì)化數(shù)據(jù)的分類,從而實(shí)現(xiàn)對(duì)復(fù)雜結(jié)構(gòu)數(shù)據(jù)的精準(zhǔn)分類,為企業(yè)人事檔案管理工作的有序?qū)嵤┨峁┘夹g(shù)層面指導(dǎo)。
參考文獻(xiàn)
[1] 張超超, 盧新明. 基于FastText的新聞文本多分類研究[J]. 軟件導(dǎo)刊, 2020, 19(03):44-47.
[2] 霍光煜,張勇,孫艷豐,等. 基于語(yǔ)義的檔案數(shù)據(jù)智能分類方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2021,57(06):247-253.
[3] 劉怡琳,劉怡. 基于BP神經(jīng)網(wǎng)絡(luò)的智能電表動(dòng)態(tài)測(cè)量數(shù)據(jù)自動(dòng)化分類[J]. 自動(dòng)化與儀器儀表,2021(05):61-64+68.
[4] 戴芹,劉士彬,劉巍. 基于GEE云平臺(tái)和多源數(shù)據(jù)的土地覆蓋智能分類算法對(duì)比研究[J]. 地理與地理信息科學(xué),2020,36(06):26-31.
[5] 張麗萍. 基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動(dòng)存儲(chǔ)方法[J]. 北京科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2019,35(02):67-72.
作者信息:
周毛,女,藏族,1976.10,青海西寧,本科,館員,青海民族大學(xué):810007,現(xiàn)從事檔案管理工作