Sklearn 數(shù)據(jù)挖掘技術(shù)在職業(yè)院校人才招聘中的應(yīng)用

2020-10-12 09:20林海葉小玲

現(xiàn)代計(jì)算機(jī) 2020年24期

林海，葉小玲

（1.惠州城市職業(yè)學(xué)院，惠州 516001；2.惠州工程職業(yè)學(xué)院，惠州 516001）

0 引言

職業(yè)院校新興專業(yè)崗位已經(jīng)出現(xiàn)招聘多年，一無(wú)所獲的情況。職業(yè)院校雖然有較多靈活的引入人才的機(jī)制，但缺乏預(yù)測(cè)應(yīng)聘者入職學(xué)校意愿的研究。在現(xiàn)實(shí)招聘工作中，很多大學(xué)畢業(yè)生即使參加了筆試、面試、甚至體檢，但最后放棄到學(xué)校任職的情況很多。對(duì)應(yīng)聘者的入職學(xué)校的意愿進(jìn)行分析，能夠幫助人事部門與應(yīng)聘者深化溝通，旨在提高招聘成功率。數(shù)據(jù)挖掘技術(shù)發(fā)展迅猛。近3 年，知網(wǎng)核心期刊收錄的期刊文獻(xiàn)有1908 篇，2020 年預(yù)測(cè)達(dá)1000 篇。如圖1 所示。

圖1 知網(wǎng)“數(shù)據(jù)挖掘”為主題的期刊發(fā)表年度趨勢(shì)

數(shù)據(jù)挖掘技術(shù)被很多行業(yè)采納，受到了學(xué)者們的關(guān)注，例如邵為爽等人（2020）數(shù)據(jù)挖掘在房地產(chǎn)價(jià)格預(yù)測(cè)中的應(yīng)用研究[1]；丁國(guó)勇（2020）在高校學(xué)生學(xué)業(yè)表現(xiàn)中展開(kāi)了數(shù)據(jù)挖掘技術(shù)的研究[2]；李鐵波（2019）對(duì)學(xué)生行為特征分析與預(yù)測(cè)中運(yùn)用了數(shù)據(jù)挖掘技術(shù)[3]。

在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)領(lǐng)域，線性回歸模型是最簡(jiǎn)單的模型之一。用回歸方法進(jìn)行預(yù)測(cè)的期刊文獻(xiàn)2015-2020 年被知網(wǎng)收錄的就有3932 篇。主要主題涉及回歸分析、支持向量機(jī)、多元分析、預(yù)測(cè)精度、線性回歸模型、logistic、主成分分析、隨機(jī)森林等。如圖2 所示。

圖2 知網(wǎng)收錄2015至今以“回歸預(yù)測(cè)”為主題的期刊論文分布

線性回歸、支持向量機(jī)、邏輯回歸等被廣泛采用。如陳戰(zhàn)勇（2020）建立融入證據(jù)權(quán)重的邏輯回歸用于預(yù)測(cè)客戶違約情況[4]；侯恩科等人（2020）的將回歸分析方法用于礦井涌水水源識(shí)別[5]；彭輝等人（2018）將回歸模型用于鐵路客運(yùn)量預(yù)測(cè)[6]；劉小英等（2020）大學(xué)生心理韌性對(duì)主觀幸福感的預(yù)測(cè)研究[7]；蘇理云等人（2020）研究了邏輯回歸模型的損失函數(shù)等[8]；冷建飛等人（2015）多元線性回歸統(tǒng)計(jì)預(yù)測(cè)模型的應(yīng)用[9]；毛瑛等人（2015）將其余模型與回歸模型組合實(shí)施了衛(wèi)生系統(tǒng)人力資源的預(yù)測(cè)[10]；向紅艷等（2020）基于 RF-LR 的高速公路逃費(fèi)車輛狀態(tài)預(yù)測(cè)模型[11]；左妹華等人（2019）基于邏輯回歸模型的消費(fèi)者購(gòu)買意向研究[12]。

但數(shù)據(jù)挖掘技術(shù)，特別是回歸等算法在職業(yè)院校招聘人才的研究與實(shí)踐較少。Python 在數(shù)據(jù)挖掘中，通過(guò)sklearn 方法，可運(yùn)行線性回歸算法、決策樹(shù)算法、隨機(jī)森林算法、邏輯回歸算法等。因此，本次研究，將探討數(shù)據(jù)挖掘技術(shù)在職業(yè)院校人才招聘中的應(yīng)用，運(yùn)用sklearn 數(shù)據(jù)挖掘技術(shù)，探討特征提取、模型訓(xùn)練、降維與聚類的在數(shù)據(jù)挖掘中的應(yīng)用；并比較邏輯回歸、支持向量機(jī)、決策樹(shù)、隨機(jī)森林、K 臨近分類器的準(zhǔn)確率、召回率、F1Score 等指標(biāo)，尋找回歸、分類、聚類等算法在職業(yè)院校人才招聘業(yè)務(wù)中的應(yīng)用價(jià)值[12]。

1 研究方法

1.1 Logiissttiicc回歸模型

邏輯回歸可用于分類。且主要用于兩分類問(wèn)題。函數(shù)logistic 被稱為函數(shù)Sigmoid。它的函數(shù)形式為：

邏輯回歸首先對(duì)決策邊界建立回歸方程，然后將回歸方程映射到分類函數(shù)上以實(shí)現(xiàn)分類。例如，線性回歸旨在能夠依據(jù)歷史記錄，擬合給出1 條直線，利用這條直線對(duì)新的數(shù)據(jù)實(shí)時(shí)預(yù)測(cè)。其中，線性邊界形式如下：

廣義線性回歸模型包含了邏輯回歸。它的構(gòu)造預(yù)測(cè)函數(shù)為：

函數(shù)hθ(x)可以用于表示類別0、類別1 的概率，它們公式分別如下：

cost 函數(shù)的推導(dǎo)依據(jù)是最大似然，它的公式如下：

其損失函數(shù)計(jì)算方法如下：

更新θ值中，應(yīng)用了梯度下降算法，它的計(jì)算方法如下：

1.2 正則化Regularizaattiioonn

正則化能夠降低模型的復(fù)雜程度，旨在提高模型應(yīng)對(duì)新數(shù)據(jù)是有良好的預(yù)測(cè)。但有時(shí)候正則化會(huì)增加誤差。在現(xiàn)實(shí)情況下，相對(duì)復(fù)雜的模型去訓(xùn)練模型時(shí)，往往得到比較好擬合效果，非常容易產(chǎn)生過(guò)擬現(xiàn)象，但去面對(duì)新數(shù)據(jù)時(shí)，效果卻下降，缺乏泛化能力。正如在學(xué)習(xí)中，某些學(xué)生在平時(shí)模擬題目表現(xiàn)良好，但面對(duì)從來(lái)沒(méi)有面對(duì)過(guò)的高考題，卻表現(xiàn)糟糕，這就是過(guò)擬合[13]。線性回歸算法、邏輯回歸算法模型中，某權(quán)重設(shè)置的大小，會(huì)引發(fā)過(guò)擬合[14]。

將之前損失函數(shù)，加上正則化項(xiàng)，對(duì)目標(biāo)函數(shù)指定一些規(guī)矩。當(dāng)λ值提高，這個(gè)限制機(jī)制更強(qiáng)[15]。通過(guò)L1實(shí)現(xiàn)正則，通過(guò)L2 防止過(guò)擬。為此，選擇λ值要相當(dāng)仔細(xì)，一般會(huì)讓?duì)酥德兒?，以觀察數(shù)據(jù)的變化。

正則化后，更新θ值中，應(yīng)用了梯度下降算法，它的計(jì)算方法如下：

L1 正則化可以容易獲取稀疏的特征，相對(duì)而言，L2 正則化的應(yīng)用比L1 廣泛些。Python 中，只需要少量Scikit-Learn 代碼，就可以運(yùn)行正則化。

2 實(shí)證案例與分析

Python 3.7 環(huán)境中，numpy、pandas、matplotlib、seaborn 等包。數(shù)據(jù)集包括幾個(gè)在主程序應(yīng)用中重要的參數(shù)：Total Score（專業(yè)核心課程總成績(jī)）、CET Score（英語(yǔ)成績(jī)）、School Rating（學(xué)校級(jí)別）、BEH（從教意愿）、RM（求職資料評(píng)分）、INM（試講評(píng)分）、ORTeach（是否有教學(xué)經(jīng)歷）。

目標(biāo)值：Admit（入職學(xué)校意向）。

2.1 統(tǒng)計(jì)描述與特征初探

Total Score（專業(yè)核心課程總成績(jī)）均值為346.653846、CET Score（英語(yǔ)成績(jī)）均值為 492.374359、School Rating（學(xué)校級(jí)別）均值為 3.074359、BEH（從教意愿）均值為3.416667、RM（求職資料評(píng)分）均值為3.411538、INM（試講評(píng)分）均值為 8.604487；ORTeach（是否有教學(xué)經(jīng)歷）為分類變量，1 表示“是”，0 表示“否”。樣本量為390 個(gè)。Total Score（取值范圍320-370）、CET Score（取值范圍 477-505）、School Rating（取值范圍 1-5 個(gè)級(jí)別）、BEH（取值范圍 1-5）、RM（取值范圍 1-5）、INM（7.2-9.92）、ORTeach（0 或 1）。Total Score（標(biāo)準(zhǔn)差 11.5）、CET Score（標(biāo)準(zhǔn)差 6.09）、School Rating（標(biāo)準(zhǔn)差 1.13）、BEH（標(biāo)準(zhǔn)差 1.003）、RM（標(biāo)準(zhǔn)差0.91）、INM（標(biāo)準(zhǔn)差 0.599）；Total Score（較高值 355）、CET Score（較高值 497）、School Rating（較高值 4.0）、BEH（較高值 4.0）、RM（較高值 4.0）、INM（較高值9.06）。如圖 3 所示。

圖3

對(duì)比 Total Score、CET Score、School Rating、BEH、RM、INM、ORTeach 各變量與 Admit 的關(guān)系，以及變量之間的關(guān)系，并用散點(diǎn)圖來(lái)顯示。發(fā)現(xiàn)專業(yè)核心課程總成績(jī)與試講評(píng)分有明顯的正相關(guān)關(guān)系。如圖4 所示;將是否具有教學(xué)經(jīng)歷ORTeach 對(duì)圖4 的特征進(jìn)行分類，沒(méi)有呈現(xiàn)明顯的關(guān)系。如圖5 所示。

將試講評(píng)分與專業(yè)核心課程總成績(jī)進(jìn)行比較，并以散點(diǎn)圖形式呈現(xiàn)，用sns.regplot 繪制回歸線，試講評(píng)分與專業(yè)核心課程總成績(jī)有較強(qiáng)的正向關(guān)系，如圖6所示；從教意愿與試講評(píng)分存在較強(qiáng)的正向關(guān)系，如圖7 所示。但此時(shí)回歸線不具備明顯的意義。

圖4

圖5

圖6

圖7

用sns.heatmap 繪制熱力圖，展示專業(yè)核心課程總成績(jī)、英語(yǔ)成績(jī)、學(xué)校級(jí)別、從教意愿、求職資料評(píng)分、試講評(píng)分、是否有教學(xué)經(jīng)歷、入職學(xué)校意向多個(gè)變量的相關(guān)關(guān)系矩陣。初步判斷：最有可能影響入職學(xué)校意向是專業(yè)核心課程總成績(jī)（與Amit 相關(guān)系數(shù)為0.75）、英語(yǔ)成績(jī)（與Amit 相關(guān)系數(shù)為0.73）、試講評(píng)分（與Amit 相關(guān)系數(shù)為0.72）；可能影響較小為是否具備教學(xué)經(jīng)歷（與Amit 相關(guān)系數(shù)為0.49）。如圖8 所示。

圖8

用hist（柱狀圖）初探，候選人的專業(yè)核心課程綜合評(píng)分的頻率，密度較為集中為340-360 之間，在這個(gè)范圍以上是候選人脫穎而出的一個(gè)很好的特征。如圖9所示。

從圖10，學(xué)校級(jí)別（辦學(xué)質(zhì)量）越高，候選人的試講評(píng)分往往隨之提高，如圖11 所示；專業(yè)核心課程總評(píng)明顯與試講評(píng)分存在正向的關(guān)系，如圖12 所示；從教意愿較強(qiáng)的，試講評(píng)分有提升的趨勢(shì)，如圖11 所示。

圖9

圖10

圖11

圖12

2.2 訓(xùn)練模型

去掉ID 字段，用train_test_split 將數(shù)據(jù)集劃分為訓(xùn)練集（占比為80%）、測(cè)試集（占比為20%）；并運(yùn)用MinMaxScaler 對(duì)數(shù)據(jù)取值范圍縮放到固定范圍（取值從0-1）。分別用線性模型、隨機(jī)森林、決策樹(shù)實(shí)施訓(xùn)練。線性模型R2 為0.669349356777144、隨機(jī)森林 R2 為 0.6785217580151383、決策樹(shù) R2 為0.5074934372008834。從線性模型、隨機(jī)森林、決策樹(shù)三種模型的預(yù)測(cè)值與真實(shí)值的擬合圖，分別如圖13、圖14、圖15 所示。從3 個(gè)圖得知，線性模型隨機(jī)森林性能優(yōu)于決策樹(shù)。但應(yīng)聘者既然進(jìn)入了面試、試講等環(huán)節(jié)，是非常有可能入職學(xué)校的，沒(méi)有得到很好的預(yù)測(cè)。

圖13

圖14

圖15

2.3 特征分類與挖掘

若候選人的入職學(xué)校意向大于80%，則該候選人將獲得1 個(gè)標(biāo)簽。如果候選人的入職學(xué)校意向小于或等于80%，則該候選人將獲得0 標(biāo)簽。并利用混淆矩陣觀察TP、FN、FP、TN 指標(biāo)。調(diào)用多種模型進(jìn)行比對(duì)，并且觀察Precision（精確率），觀察Recall（召回率），觀察F1 Score 指標(biāo)。

（1）實(shí)施邏輯回歸：實(shí)施邏輯回歸的精確率是0.9047619047619048，如圖16 所示；實(shí)施邏輯回歸的召回率是 0.76，如圖 17 所示。其中，F(xiàn)1Score 是0.8260869565217391。

圖16

圖17

觀察此混淆矩陣得知，在訓(xùn)練集樣本上，有36 個(gè)分錯(cuò)的樣本，有73 人想入職學(xué)校；在測(cè)試集上有6 個(gè)分錯(cuò)的樣本。

（2）實(shí)施支持向量機(jī)：實(shí)施支持向量機(jī)的精確率是1.0，如圖18 所示；實(shí)施支持向量機(jī)的召回率是0.68，如圖 19 所示。其中，F(xiàn)1Score 是 0.8095238095238095。

觀察此混淆矩陣得知，在訓(xùn)練集樣本上，有27 個(gè)分錯(cuò)的樣本，有79 人想入職學(xué)校；在測(cè)試集上有8 個(gè)分錯(cuò)的樣本。

（3）實(shí)施樸素貝葉斯算法：實(shí)施支持樸素貝葉斯算法的精確率是0.8461538461538461，如圖20 所示；召回率是 0.88，如圖 21 所示。其中，F(xiàn)1Score 是0.8627450980392156。

圖18

圖19

圖20

圖21

觀察此混淆矩陣得知，在訓(xùn)練集樣本上，有50 個(gè)分錯(cuò)的樣本，有81 人想入職學(xué)校；在測(cè)試集上有3 個(gè)分錯(cuò)的樣本。

（4）實(shí)施決策樹(shù)：實(shí)施決策樹(shù)的精確率是0.88，如圖 22 所示；召回率是 0.88，如圖 23 所示。其中，F(xiàn)1Score 是 0.88。

圖22

圖23

觀察此混淆矩陣得知，在訓(xùn)練集樣本上，有27 個(gè)分錯(cuò)的樣本，有85 人想入職學(xué)校；在測(cè)試集上有3 個(gè)分錯(cuò)的樣本。

（5）實(shí)施隨機(jī)森林：實(shí)施隨機(jī)森林的精確率是0.9473684210526315，如圖 24 所示；召回率是 0.72，如圖 25 所示。其中，F(xiàn)1Score 是 0.8181818181818181。

圖24

圖25

觀察此混淆矩陣得知，在訓(xùn)練集樣本上，有0 個(gè)分錯(cuò)的樣本，有97 人想入職學(xué)校；在測(cè)試集上有7 個(gè)分錯(cuò)的樣本。

（6）實(shí)施K 臨近分類器：實(shí)施K 臨近分類器精確率是1.0，如圖26 所示；召回率是0.68，如圖27 所示。其中，F(xiàn)1Score 是 0.8095238095238095。

圖26

圖27

觀察此混淆矩陣得知，在訓(xùn)練集樣本上，有35 個(gè)分錯(cuò)的樣本，有70 人想入職學(xué)校；在測(cè)試集上有8 個(gè)分錯(cuò)的樣本。

比較邏輯回歸、支持向量機(jī)、樸素貝葉斯、決策樹(shù)、隨機(jī)森林、K 臨近分類器，可以得知，各類算法的效果預(yù)測(cè)效果良好。如圖28 所示。

圖28

2.4 降維與聚類分析

高維數(shù)據(jù)務(wù)必要重視，因此訓(xùn)練高維數(shù)據(jù)集時(shí)，往往引發(fā)維度災(zāi)難。通過(guò)降維將高維數(shù)據(jù)集降到三維、二維，人們才能更好地理解數(shù)據(jù)。數(shù)據(jù)在低位空間將更加容易出來(lái)，而且保留了相關(guān)特征，讓重要特征得以在數(shù)據(jù)中明確顯示。降維還可以減少噪聲，并能夠大大降低算法的開(kāi)銷[16]。PCA（主成分分析法）廣泛被采用。這里，我們通過(guò)降維可以得到主要影響Admit（入職學(xué)校意愿）的主要特征：專業(yè)核心課程總成績(jī)、英語(yǔ)成績(jī)、試講評(píng)分等。依據(jù)影響入職學(xué)校意愿排名較高的幾個(gè)特征，能夠?qū)嵤㎏均值聚類，層次聚類，以探求最佳的聚類參數(shù)取值。

（1）實(shí)施K 均值聚類：觀察得知，最佳聚類數(shù)是3。數(shù)據(jù)集分成三個(gè)類別，一部分是決定到學(xué)校入職，一部分是選擇放棄，還有一部分處于猶豫中的，但是入職學(xué)?？赡苄暂^大。

（2）實(shí)施層次聚類：采用樹(shù)形圖方法確定了層次聚類的最佳聚類數(shù)又是3。如圖32、圖33、圖34 所示。

圖29

圖30

圖31

圖32

圖33

圖34

可以得知，k-均值聚類和層次聚類是相似的。

（3）降維前后r2 比較：以邏輯回歸算法為例，降維前 r2 是 0.669349356777144，降維后 r2 是0.6844177463055583。保持了較好的解釋力度。降維會(huì)造成部分的信息損失，但能夠節(jié)約時(shí)間與成本。

3 結(jié)語(yǔ)

此次，結(jié)合Sklearn 數(shù)據(jù)挖掘技術(shù)，將數(shù)據(jù)集中的Total Score（專業(yè)核心課程總成績(jī)）、CET Score（英語(yǔ)成績(jī)）、School Rating（學(xué)校級(jí)別）、BEH（從教意愿)、RM（求職資料評(píng)分）、INM（試講評(píng)分）、ORTeach（是否有教學(xué)經(jīng)歷）等特征，包括目標(biāo)值A(chǔ)dmit（入職學(xué)校意向），實(shí)施了統(tǒng)計(jì)分析描述，對(duì)應(yīng)聘者數(shù)據(jù)實(shí)施了探索，對(duì)比Total Score、CET Score、School Rating、BEH、RM、INM、ORTeach 各變量與Admit 的關(guān)系，以及變量之間的關(guān)系，并用散點(diǎn)圖來(lái)顯示，能夠發(fā)現(xiàn)變量間明顯的關(guān)系；通過(guò)熱力圖的相關(guān)系統(tǒng)中，得出了影響入職學(xué)校因素的專業(yè)核心課程總成績(jī)、英語(yǔ)成績(jī)、試講評(píng)分的初步判斷；并在實(shí)施歸一化壓縮后，實(shí)施并比對(duì)了線性模型、隨機(jī)森林、決策樹(shù)三種模型的預(yù)測(cè)值與真實(shí)值的擬合圖，在訓(xùn)練模型中，線性模型、隨機(jī)森林性能優(yōu)于決策樹(shù)；為進(jìn)一步挖掘數(shù)據(jù)，將特征進(jìn)行分類，并利用混淆矩陣觀察 TP、FN、FP、TN 指標(biāo)，實(shí)施了決策樹(shù)算法、邏輯回歸算法、樸素貝葉斯算法、K 臨近分類器算法，通過(guò)比較得知各類算法的效果預(yù)測(cè)效果良好；聚類分析之前，運(yùn)用PCA 實(shí)施了降維，對(duì)應(yīng)聘者數(shù)據(jù)實(shí)施了K均值聚類、層次聚類，并得知此數(shù)據(jù)集最佳聚類數(shù)為3。最后比對(duì)了降維后的預(yù)測(cè)效果，模型保持了良好的解釋力。綜上職業(yè)院校人才招聘業(yè)務(wù)中，數(shù)據(jù)挖掘技術(shù)除了提供較為直觀的統(tǒng)計(jì)描述，亦能夠?qū)嵤┗貧w、分類、聚類等方法，數(shù)據(jù)都可以進(jìn)行回歸，分類，聚類的算法，得到了較好的預(yù)測(cè)效果。加上豐富的圖表功能，Sklearn 數(shù)據(jù)挖掘技術(shù)將助力職業(yè)院校提升招聘效能，爭(zhēng)奪到寶貴的人才資源。

由于此次樣本量較小，算法的實(shí)驗(yàn)與測(cè)試受到了限制。不同算法的收斂時(shí)間缺乏比對(duì)意義。另外，邏輯回歸算法采用默認(rèn)參數(shù)，沒(méi)有進(jìn)行調(diào)參的比對(duì)。今后，不同崗位應(yīng)聘者特征工程、各類算法模型的參數(shù)設(shè)置需要繼續(xù)探討，旨在優(yōu)化算法，幫助招聘工作者招攬到合適大學(xué)畢業(yè)生到校任教任職，并期望為其余類別的招聘工作提供參考。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡