国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)聯(lián)規(guī)則的人事檔案信息資源分類(lèi)方法

2021-11-01 06:21:56周毛青海民族大學(xué)青海省西寧市810007
江西通信科技 2021年3期
關(guān)鍵詞:增益關(guān)聯(lián)分類(lèi)

周毛 青海民族大學(xué) 青海省西寧市 810007

0 引言

企業(yè)的發(fā)展離不開(kāi)人才的引進(jìn),針對(duì)此,主要有兩個(gè)途徑,一方面是以定向的方式進(jìn)行有針對(duì)性的人才招聘,另一方面就是在缺乏明確目標(biāo)的情況下,在海量的人才市場(chǎng)中篩選出符合招聘需求的人才[1]。與前者相比,篩選式的人才招聘將面對(duì)海量的信息資源,因此,對(duì)這些信息合理地分類(lèi)是十分必要的[2]。由于在復(fù)雜的社會(huì)環(huán)境下,每個(gè)人的工作經(jīng)歷都呈現(xiàn)出明顯的個(gè)性化特征,但又由于行業(yè)之間的內(nèi)在聯(lián)系,導(dǎo)致不同崗位之間也存在一定的互通性,這就對(duì)檔案的分類(lèi)工作提出了更高的要求[3]。

為了提高分類(lèi)的可靠性,許多學(xué)者均針對(duì)信息資源分類(lèi)問(wèn)題進(jìn)行了研究。其中,文獻(xiàn)利用DenseNet遷移學(xué)習(xí)對(duì)分類(lèi)信息之間的相似性進(jìn)行計(jì)算,并通過(guò)設(shè)置閾值,實(shí)現(xiàn)對(duì)信息資源的分類(lèi),該方法的分類(lèi)結(jié)果對(duì)閾值設(shè)定的依賴(lài)性較強(qiáng),因此穩(wěn)定性較低;文獻(xiàn)[5]提出以深度卷積網(wǎng)絡(luò)為基礎(chǔ)的分類(lèi)方法,通過(guò)對(duì)信息的特征進(jìn)行聚類(lèi)處理,實(shí)現(xiàn)分類(lèi),有效提高了分類(lèi)的效率,但分類(lèi)后數(shù)據(jù)之間的距離較大;文獻(xiàn)為了避免卷積神經(jīng)網(wǎng)絡(luò)粒度問(wèn)題對(duì)分類(lèi)結(jié)果產(chǎn)生的負(fù)面影響,將分類(lèi)信息中的表型信息作為特征提取的基礎(chǔ),實(shí)現(xiàn)了高精度的信息分類(lèi),但適用范圍較小,對(duì)于部分不包含表型信息的資源,難以實(shí)現(xiàn)其分類(lèi)效果;文獻(xiàn)在對(duì)分類(lèi)信息進(jìn)行數(shù)據(jù)增強(qiáng)處理的基礎(chǔ)上,利用貝葉斯卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)資源分類(lèi),取得了良好的分類(lèi)效果,但數(shù)據(jù)增強(qiáng)階段的工作較為復(fù)雜,對(duì)操作人員的技術(shù)水平要求較高,因此,難以實(shí)現(xiàn)普及性應(yīng)用。由此可以看出,加強(qiáng)信息資源分類(lèi)方法的研究具有十分重要的意義和價(jià)值。

基于此,本文提出了一種基于關(guān)聯(lián)規(guī)則的人事檔案信息資源分類(lèi)方法研究。在準(zhǔn)確提取信息特征的基礎(chǔ)上,利用關(guān)聯(lián)規(guī)則挖掘信息之間的內(nèi)在關(guān)系,以此提高最終分類(lèi)結(jié)果的可靠性。并通過(guò)實(shí)驗(yàn)驗(yàn)證了所提方法的有效性。通過(guò)本文研究,以期為信息資源的分類(lèi)工作提供有價(jià)值的參考。

1 基于關(guān)聯(lián)規(guī)則的信息分類(lèi)方法

1.1 信息特征提取

信息資源分類(lèi)的基礎(chǔ)是對(duì)數(shù)據(jù)特征的準(zhǔn)確提取,考慮到人事檔案信息的類(lèi)型存在明顯的多樣化特征,因此,本文將信息增益作為特征提取的依據(jù)。

首先,作為一種較為常用的機(jī)器學(xué)習(xí)方法,信息增益的應(yīng)用相對(duì)成熟。在提取人事檔案信息資源特征時(shí),以信息中的特征作為增益計(jì)算的依據(jù),統(tǒng)計(jì)目標(biāo)特征詞在信息中出現(xiàn)的次數(shù)。假設(shè)在某人事檔案中,對(duì)于類(lèi)別A的特征詞a出現(xiàn)的次數(shù)為xa,那么其對(duì)應(yīng)的信息增益可以表示為:

式中,IG(a)表示關(guān)于關(guān)鍵詞a的信息增益。通過(guò)這樣的方式,以此計(jì)算出待分類(lèi)數(shù)據(jù)中,關(guān)于不同分類(lèi)類(lèi)別以及對(duì)應(yīng)關(guān)鍵詞的信息中信息增益。將信息增益的差值作為信息特征的判定結(jié)果,其表示為:

式中,ΔIG(i)表示信息增益的差值,i表示信息資源中的屬性特征,xi表示i類(lèi)別特征詞的數(shù)量,表示頻率。為了確保分類(lèi)結(jié)果滿(mǎn)足不同的分類(lèi)要求,通過(guò)對(duì)ΔIG(i)的標(biāo)準(zhǔn)進(jìn)行設(shè)定,調(diào)整特征提取的精度,使分類(lèi)結(jié)果具有不同的支持度。

1.2 基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘

根據(jù)上文的特征提取結(jié)果,建立了關(guān)聯(lián)規(guī)則,挖掘不同屬性特征下信息資源之間的深層關(guān)系,提高分類(lèi)結(jié)果的可靠性。

首先,本文以信息資源特征提取結(jié)果為基礎(chǔ),建立評(píng)估函數(shù),以此實(shí)現(xiàn)對(duì)不同信息之間特征相似性的計(jì)算。為此,以ΔIG(i)值為標(biāo)準(zhǔn),令ΔIG(i)=0作為中心,計(jì)算信息到中心的距離,該過(guò)程可以表示為:

根據(jù)這樣的方式,對(duì)信息資源之間的內(nèi)在關(guān)系進(jìn)行分析,為后續(xù)的分類(lèi)提供基礎(chǔ)。

1.3 信息資源分類(lèi)

在上述得到信息之間關(guān)聯(lián)的基礎(chǔ)上,實(shí)現(xiàn)對(duì)人事檔案信息資源的分類(lèi)。為此,本文通過(guò)3個(gè)步驟實(shí)現(xiàn)該過(guò)程。

(1)確定項(xiàng)集

首先對(duì)待分類(lèi)信息以二元的形式表示,用0表示二元變量表中的空,用1表示二元變量表中的非空,這樣做的目的是將信息與特征分離。由于特征詞的多樣性,一條信息資源中可能存在多個(gè)特征,因此,將信息與資源分離后,以具有相同類(lèi)型特征的信息作為一個(gè)訓(xùn)練項(xiàng)集,確保特征分類(lèi)的全面性。

(2)分類(lèi)訓(xùn)練

考慮到關(guān)聯(lián)規(guī)則下特征之間的目標(biāo)距離是決定最終分類(lèi)結(jié)果的關(guān)鍵因素,因此,本文通過(guò)訓(xùn)練的方式對(duì)不同距離下的分類(lèi)結(jié)果進(jìn)行分析,計(jì)算不同距離下的分類(lèi)準(zhǔn)確性,并將最高準(zhǔn)確率對(duì)應(yīng)的距離作為最終分類(lèi)的目標(biāo)距離。

(3)最終分類(lèi)

最終,將訓(xùn)練結(jié)果中的最佳距離作為信息分類(lèi)的目標(biāo)距離,對(duì)信息特征之間的關(guān)聯(lián)程度作出準(zhǔn)確計(jì)算。同時(shí),比較同一信息中對(duì)應(yīng)的特征計(jì)算結(jié)果,根據(jù)計(jì)算結(jié)果,實(shí)現(xiàn)對(duì)信息的準(zhǔn)確分類(lèi)。

2 實(shí)驗(yàn)分析

為了對(duì)所提方法的實(shí)際應(yīng)用效果作出客觀評(píng)價(jià),進(jìn)行了實(shí)驗(yàn)分析研究,將文獻(xiàn)方法和文獻(xiàn)方法作為對(duì)比方法,通過(guò)對(duì)比所提方法、文獻(xiàn)方法和文獻(xiàn)方法的分類(lèi)結(jié)果,分析所提方法的分類(lèi)效果。

2.1 實(shí)驗(yàn)環(huán)境

本文進(jìn)行測(cè)試的硬件設(shè)備內(nèi)存為64GB,實(shí)驗(yàn)數(shù)據(jù)的屬性設(shè)置為n個(gè),共10組數(shù)據(jù),其中,每組數(shù)據(jù)都包含所有屬性,且包含50條信息。同時(shí),設(shè)置數(shù)據(jù)的最小支持度為20%,最小置信度為100%。以此為基礎(chǔ),分別采用三種方法對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。為了準(zhǔn)確評(píng)價(jià)分類(lèi)結(jié)果的可靠性,本文定義平均準(zhǔn)確率為評(píng)價(jià)指標(biāo)表示為:

2.2 實(shí)驗(yàn)結(jié)果

在確定最終的分類(lèi)結(jié)果前,所提方法對(duì)數(shù)據(jù)組進(jìn)行訓(xùn)練,訓(xùn)練集的大小從100逐漸增加至500,考慮到待分組數(shù)據(jù)的總量500條信息,因此訓(xùn)練集的大小設(shè)置為1500。以此為基礎(chǔ),統(tǒng)計(jì)了當(dāng)最小支持度分別為3%、5%、7%時(shí)的訓(xùn)練結(jié)果,統(tǒng)計(jì)結(jié)果如表1所示。

表1 不同最小支持度下所提方法訓(xùn)練結(jié)果

從表1中可以看出,在不同的最小支持度下,所提方法的訓(xùn)練結(jié)果始終具有較高的準(zhǔn)確性,且當(dāng)最小支持度為3%時(shí),其訓(xùn)練結(jié)果的可靠性依然保持在99.5%以上。以此為基礎(chǔ),分別以3%、5%、7%的最小支持度對(duì)待分類(lèi)數(shù)據(jù)進(jìn)行分類(lèi)處理,并與文獻(xiàn)和文獻(xiàn)的分類(lèi)結(jié)果進(jìn)行對(duì)比,結(jié)果如圖1所示。

圖1 不同方法的分類(lèi)結(jié)果

從圖1中可以看出,隨著最小支持度的增大,文獻(xiàn)[5]方法和文獻(xiàn)[6]方法分類(lèi)結(jié)果的平均準(zhǔn)確率均呈現(xiàn)出明顯的上升趨勢(shì),差異程度較為明顯,且當(dāng)最小支持度達(dá)到7%時(shí),兩種方法的平均準(zhǔn)確率也未達(dá)到0.99以上。相比之下,所提方法的分類(lèi)結(jié)果較為穩(wěn)定,平均準(zhǔn)確率始終保持在0.995以上,且并未由于最小支持度的變化而出現(xiàn)較大波動(dòng)。由此可知,所提方法的分類(lèi)結(jié)果具有較高的可靠性。這主要是因?yàn)樗岱椒▽?shí)現(xiàn)了對(duì)數(shù)據(jù)間內(nèi)在關(guān)聯(lián)的深層挖掘,因此具有更加可靠的分類(lèi)依據(jù)。

3 結(jié)束語(yǔ)

人事檔案信息資源的分類(lèi)結(jié)果直接關(guān)系到后續(xù)信息查找的效率以及相應(yīng)工作進(jìn)程的推進(jìn)速度,雖然與其他部門(mén)相比,檔案管理工作更加枯燥,但其意義是十分重大的。為此,如何實(shí)現(xiàn)海量信息資源的快速準(zhǔn)確分類(lèi)也成為了檔案管理部門(mén)的一項(xiàng)重要工作內(nèi)容。本文提出基于關(guān)聯(lián)規(guī)則的人事檔案信息資源分類(lèi)方法研究,有效提高分類(lèi)結(jié)果的可靠性。通過(guò)本文的研究,以期為信息分類(lèi)工作的開(kāi)展提供幫助。

猜你喜歡
增益關(guān)聯(lián)分類(lèi)
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
分類(lèi)算一算
基于單片機(jī)的程控增益放大器設(shè)計(jì)
電子制作(2019年19期)2019-11-23 08:41:36
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
分類(lèi)討論求坐標(biāo)
基于Multisim10和AD603的程控增益放大器仿真研究
電子制作(2018年19期)2018-11-14 02:37:02
數(shù)據(jù)分析中的分類(lèi)討論
奇趣搭配
教你一招:數(shù)的分類(lèi)
智趣
讀者(2017年5期)2017-02-15 18:04:18
额敏县| 红安县| 遂溪县| 安宁市| 荣成市| 锡林郭勒盟| 寿阳县| 郁南县| 昭苏县| 福州市| 南郑县| 南皮县| 宣恩县| 刚察县| 阜新市| 东丰县| 泰宁县| 乳山市| 东平县| 霞浦县| 依兰县| 五常市| 博客| 兴文县| 大英县| 大庆市| 呈贡县| 盖州市| 平果县| 阿克苏市| 洛川县| 郯城县| 普格县| 广宗县| 阳新县| 英山县| 越西县| 罗田县| 赤峰市| 元朗区| 尼勒克县|