林海,葉小玲
(1.惠州城市職業(yè)學(xué)院,惠州 516001;2.惠州工程職業(yè)學(xué)院,惠州 516001)
職業(yè)院校新興專業(yè)崗位已經(jīng)出現(xiàn)招聘多年,一無(wú)所獲的情況。職業(yè)院校雖然有較多靈活的引入人才的機(jī)制,但缺乏預(yù)測(cè)應(yīng)聘者入職學(xué)校意愿的研究。在現(xiàn)實(shí)招聘工作中,很多大學(xué)畢業(yè)生即使參加了筆試、面試、甚至體檢,但最后放棄到學(xué)校任職的情況很多。對(duì)應(yīng)聘者的入職學(xué)校的意愿進(jìn)行分析,能夠幫助人事部門與應(yīng)聘者深化溝通,旨在提高招聘成功率。數(shù)據(jù)挖掘技術(shù)發(fā)展迅猛。近3 年,知網(wǎng)核心期刊收錄的期刊文獻(xiàn)有1908 篇,2020 年預(yù)測(cè)達(dá)1000 篇。如圖1 所示。
圖1 知網(wǎng)“數(shù)據(jù)挖掘”為主題的期刊發(fā)表年度趨勢(shì)
數(shù)據(jù)挖掘技術(shù)被很多行業(yè)采納,受到了學(xué)者們的關(guān)注,例如邵為爽等人(2020)數(shù)據(jù)挖掘在房地產(chǎn)價(jià)格預(yù)測(cè)中的應(yīng)用研究[1];丁國(guó)勇(2020)在高校學(xué)生學(xué)業(yè)表現(xiàn)中展開(kāi)了數(shù)據(jù)挖掘技術(shù)的研究[2];李鐵波(2019)對(duì)學(xué)生行為特征分析與預(yù)測(cè)中運(yùn)用了數(shù)據(jù)挖掘技術(shù)[3]。
在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)領(lǐng)域,線性回歸模型是最簡(jiǎn)單的模型之一。用回歸方法進(jìn)行預(yù)測(cè)的期刊文獻(xiàn)2015-2020 年被知網(wǎng)收錄的就有3932 篇。主要主題涉及回歸分析、支持向量機(jī)、多元分析、預(yù)測(cè)精度、線性回歸模型、logistic、主成分分析、隨機(jī)森林等。如圖2 所示。
圖2 知網(wǎng)收錄2015至今以“回歸預(yù)測(cè)”為主題的期刊論文分布
線性回歸、支持向量機(jī)、邏輯回歸等被廣泛采用。如陳戰(zhàn)勇(2020)建立融入證據(jù)權(quán)重的邏輯回歸用于預(yù)測(cè)客戶違約情況[4];侯恩科等人(2020)的將回歸分析方法用于礦井涌水水源識(shí)別[5];彭輝等人(2018)將回歸模型用于鐵路客運(yùn)量預(yù)測(cè)[6];劉小英等(2020)大學(xué)生心理韌性對(duì)主觀幸福感的預(yù)測(cè)研究[7];蘇理云等人(2020)研究了邏輯回歸模型的損失函數(shù)等[8];冷建飛等人(2015)多元線性回歸統(tǒng)計(jì)預(yù)測(cè)模型的應(yīng)用[9];毛瑛等人(2015)將其余模型與回歸模型組合實(shí)施了衛(wèi)生系統(tǒng)人力資源的預(yù)測(cè)[10];向紅艷等(2020)基于 RF-LR 的高速公路逃費(fèi)車輛狀態(tài)預(yù)測(cè)模型[11];左妹華等人(2019)基于邏輯回歸模型的消費(fèi)者購(gòu)買意向研究[12]。
但數(shù)據(jù)挖掘技術(shù),特別是回歸等算法在職業(yè)院校招聘人才的研究與實(shí)踐較少。Python 在數(shù)據(jù)挖掘中,通過(guò)sklearn 方法,可運(yùn)行線性回歸算法、決策樹(shù)算法、隨機(jī)森林算法、邏輯回歸算法等。因此,本次研究,將探討數(shù)據(jù)挖掘技術(shù)在職業(yè)院校人才招聘中的應(yīng)用,運(yùn)用sklearn 數(shù)據(jù)挖掘技術(shù),探討特征提取、模型訓(xùn)練、降維與聚類的在數(shù)據(jù)挖掘中的應(yīng)用;并比較邏輯回歸、支持向量機(jī)、決策樹(shù)、隨機(jī)森林、K 臨近分類器的準(zhǔn)確率、召回率、F1Score 等指標(biāo),尋找回歸、分類、聚類等算法在職業(yè)院校人才招聘業(yè)務(wù)中的應(yīng)用價(jià)值[12]。
邏輯回歸可用于分類。且主要用于兩分類問(wèn)題。函數(shù)logistic 被稱為函數(shù)Sigmoid。它的函數(shù)形式為:
邏輯回歸首先對(duì)決策邊界建立回歸方程,然后將回歸方程映射到分類函數(shù)上以實(shí)現(xiàn)分類。例如,線性回歸旨在能夠依據(jù)歷史記錄,擬合給出1 條直線,利用這條直線對(duì)新的數(shù)據(jù)實(shí)時(shí)預(yù)測(cè)。其中,線性邊界形式如下:
廣義線性回歸模型包含了邏輯回歸。它的構(gòu)造預(yù)測(cè)函數(shù)為:
函數(shù)hθ(x)可以用于表示類別0、類別1 的概率,它們公式分別如下:
cost 函數(shù)的推導(dǎo)依據(jù)是最大似然,它的公式如下:
其損失函數(shù)計(jì)算方法如下:
更新θ值中,應(yīng)用了梯度下降算法,它的計(jì)算方法如下:
正則化能夠降低模型的復(fù)雜程度,旨在提高模型應(yīng)對(duì)新數(shù)據(jù)是有良好的預(yù)測(cè)。但有時(shí)候正則化會(huì)增加誤差。在現(xiàn)實(shí)情況下,相對(duì)復(fù)雜的模型去訓(xùn)練模型時(shí),往往得到比較好擬合效果,非常容易產(chǎn)生過(guò)擬現(xiàn)象,但去面對(duì)新數(shù)據(jù)時(shí),效果卻下降,缺乏泛化能力。正如在學(xué)習(xí)中,某些學(xué)生在平時(shí)模擬題目表現(xiàn)良好,但面對(duì)從來(lái)沒(méi)有面對(duì)過(guò)的高考題,卻表現(xiàn)糟糕,這就是過(guò)擬合[13]。線性回歸算法、邏輯回歸算法模型中,某權(quán)重設(shè)置的大小,會(huì)引發(fā)過(guò)擬合[14]。
將之前損失函數(shù),加上正則化項(xiàng),對(duì)目標(biāo)函數(shù)指定一些規(guī)矩。當(dāng)λ值提高,這個(gè)限制機(jī)制更強(qiáng)[15]。通過(guò)L1實(shí)現(xiàn)正則,通過(guò)L2 防止過(guò)擬。為此,選擇λ值要相當(dāng)仔細(xì),一般會(huì)讓?duì)酥德兒?,以觀察數(shù)據(jù)的變化。
正則化后,更新θ值中,應(yīng)用了梯度下降算法,它的計(jì)算方法如下:
L1 正則化可以容易獲取稀疏的特征,相對(duì)而言,L2 正則化的應(yīng)用比L1 廣泛些。Python 中,只需要少量Scikit-Learn 代碼,就可以運(yùn)行正則化。
Python 3.7 環(huán)境中,numpy、pandas、matplotlib、seaborn 等包。數(shù)據(jù)集包括幾個(gè)在主程序應(yīng)用中重要的參數(shù):Total Score(專業(yè)核心課程總成績(jī))、CET Score(英語(yǔ)成績(jī))、School Rating(學(xué)校級(jí)別)、BEH(從教意愿)、RM(求職資料評(píng)分)、INM(試講評(píng)分)、ORTeach(是否有教學(xué)經(jīng)歷)。
目標(biāo)值:Admit(入職學(xué)校意向)。
Total Score(專業(yè)核心課程總成績(jī))均值為346.653846、CET Score(英語(yǔ)成績(jī))均值為 492.374359、School Rating(學(xué)校級(jí)別)均值為 3.074359、BEH(從教意愿)均值為3.416667、RM(求職資料評(píng)分)均值為3.411538、INM(試講評(píng)分)均值為 8.604487;ORTeach(是否有教學(xué)經(jīng)歷)為分類變量,1 表示“是”,0 表示“否”。樣本量為390 個(gè)。Total Score(取值范圍320-370)、CET Score(取值范圍 477-505)、School Rating(取值范圍 1-5 個(gè)級(jí)別)、BEH(取值范圍 1-5)、RM(取值范圍 1-5)、INM(7.2-9.92)、ORTeach(0 或 1)。Total Score(標(biāo)準(zhǔn)差 11.5)、CET Score(標(biāo)準(zhǔn)差 6.09)、School Rating(標(biāo)準(zhǔn)差 1.13)、BEH(標(biāo)準(zhǔn)差 1.003)、RM(標(biāo)準(zhǔn)差0.91)、INM(標(biāo)準(zhǔn)差 0.599);Total Score(較高值 355)、CET Score(較高值 497)、School Rating(較高值 4.0)、BEH(較高值 4.0)、RM(較高值 4.0)、INM(較高值9.06)。如圖 3 所示。
圖3
對(duì)比 Total Score、CET Score、School Rating、BEH、RM、INM、ORTeach 各變量與 Admit 的關(guān)系,以及變量之間的關(guān)系,并用散點(diǎn)圖來(lái)顯示。發(fā)現(xiàn)專業(yè)核心課程總成績(jī)與試講評(píng)分有明顯的正相關(guān)關(guān)系。如圖4 所示;將是否具有教學(xué)經(jīng)歷ORTeach 對(duì)圖4 的特征進(jìn)行分類,沒(méi)有呈現(xiàn)明顯的關(guān)系。如圖5 所示。
將試講評(píng)分與專業(yè)核心課程總成績(jī)進(jìn)行比較,并以散點(diǎn)圖形式呈現(xiàn),用sns.regplot 繪制回歸線,試講評(píng)分與專業(yè)核心課程總成績(jī)有較強(qiáng)的正向關(guān)系,如圖6所示;從教意愿與試講評(píng)分存在較強(qiáng)的正向關(guān)系,如圖7 所示。但此時(shí)回歸線不具備明顯的意義。
圖4
圖5
圖6
圖7
用sns.heatmap 繪制熱力圖,展示專業(yè)核心課程總成績(jī)、英語(yǔ)成績(jī)、學(xué)校級(jí)別、從教意愿、求職資料評(píng)分、試講評(píng)分、是否有教學(xué)經(jīng)歷、入職學(xué)校意向多個(gè)變量的相關(guān)關(guān)系矩陣。初步判斷:最有可能影響入職學(xué)校意向是專業(yè)核心課程總成績(jī)(與Amit 相關(guān)系數(shù)為0.75)、英語(yǔ)成績(jī)(與Amit 相關(guān)系數(shù)為0.73)、試講評(píng)分(與Amit 相關(guān)系數(shù)為0.72);可能影響較小為是否具備教學(xué)經(jīng)歷(與Amit 相關(guān)系數(shù)為0.49)。如圖8 所示。
圖8
用hist(柱狀圖)初探,候選人的專業(yè)核心課程綜合評(píng)分的頻率,密度較為集中為340-360 之間,在這個(gè)范圍以上是候選人脫穎而出的一個(gè)很好的特征。如圖9所示。
從圖10,學(xué)校級(jí)別(辦學(xué)質(zhì)量)越高,候選人的試講評(píng)分往往隨之提高,如圖11 所示;專業(yè)核心課程總評(píng)明顯與試講評(píng)分存在正向的關(guān)系,如圖12 所示;從教意愿較強(qiáng)的,試講評(píng)分有提升的趨勢(shì),如圖11 所示。
圖9
圖10
圖11
圖12
去掉ID 字段,用train_test_split 將數(shù)據(jù)集劃分為訓(xùn)練集(占比為80%)、測(cè)試集(占比為20%);并運(yùn)用MinMaxScaler 對(duì)數(shù)據(jù)取值范圍縮放到固定范圍(取值從0-1)。分別用線性模型、隨機(jī)森林、決策樹(shù)實(shí)施訓(xùn)練。線性模型R2 為0.669349356777144、隨機(jī)森林 R2 為 0.6785217580151383、決 策 樹(shù) R2 為0.5074934372008834。從線性模型、隨機(jī)森林、決策樹(shù)三種模型的預(yù)測(cè)值與真實(shí)值的擬合圖,分別如圖13、圖14、圖15 所示。從3 個(gè)圖得知,線性模型隨機(jī)森林性能優(yōu)于決策樹(shù)。但應(yīng)聘者既然進(jìn)入了面試、試講等環(huán)節(jié),是非常有可能入職學(xué)校的,沒(méi)有得到很好的預(yù)測(cè)。
圖13
圖14
圖15
若候選人的入職學(xué)校意向大于80%,則該候選人將獲得1 個(gè)標(biāo)簽。如果候選人的入職學(xué)校意向小于或等于80%,則該候選人將獲得0 標(biāo)簽。并利用混淆矩陣觀察TP、FN、FP、TN 指標(biāo)。調(diào)用多種模型進(jìn)行比對(duì),并且觀察Precision(精確率),觀察Recall(召回率),觀察F1 Score 指標(biāo)。
(1)實(shí)施邏輯回歸:實(shí)施邏輯回歸的精確率是0.9047619047619048,如圖16 所示;實(shí)施邏輯回歸的召回 率 是 0.76,如 圖 17 所 示 。 其 中 ,F(xiàn)1Score 是0.8260869565217391。
圖16
圖17
觀察此混淆矩陣得知,在訓(xùn)練集樣本上,有36 個(gè)分錯(cuò)的樣本,有73 人想入職學(xué)校;在測(cè)試集上有6 個(gè)分錯(cuò)的樣本。
(2)實(shí)施支持向量機(jī):實(shí)施支持向量機(jī)的精確率是1.0,如圖18 所示;實(shí)施支持向量機(jī)的召回率是0.68,如圖 19 所示。其中,F(xiàn)1Score 是 0.8095238095238095。
觀察此混淆矩陣得知,在訓(xùn)練集樣本上,有27 個(gè)分錯(cuò)的樣本,有79 人想入職學(xué)校;在測(cè)試集上有8 個(gè)分錯(cuò)的樣本。
(3)實(shí)施樸素貝葉斯算法:實(shí)施支持樸素貝葉斯算法的精確率是0.8461538461538461,如圖20 所示;召回 率 是 0.88,如 圖 21 所 示 。 其 中 ,F(xiàn)1Score 是0.8627450980392156。
圖18
圖19
圖20
圖21
觀察此混淆矩陣得知,在訓(xùn)練集樣本上,有50 個(gè)分錯(cuò)的樣本,有81 人想入職學(xué)校;在測(cè)試集上有3 個(gè)分錯(cuò)的樣本。
(4)實(shí)施決策樹(shù):實(shí)施決策樹(shù)的精確率是0.88,如圖 22 所示;召回率是 0.88,如圖 23 所示。其中,F(xiàn)1Score 是 0.88。
圖22
圖23
觀察此混淆矩陣得知,在訓(xùn)練集樣本上,有27 個(gè)分錯(cuò)的樣本,有85 人想入職學(xué)校;在測(cè)試集上有3 個(gè)分錯(cuò)的樣本。
(5)實(shí)施隨機(jī)森林:實(shí)施隨機(jī)森林的精確率是0.9473684210526315,如圖 24 所示;召回率是 0.72,如圖 25 所示。其中,F(xiàn)1Score 是 0.8181818181818181。
圖24
圖25
觀察此混淆矩陣得知,在訓(xùn)練集樣本上,有0 個(gè)分錯(cuò)的樣本,有97 人想入職學(xué)校;在測(cè)試集上有7 個(gè)分錯(cuò)的樣本。
(6)實(shí)施K 臨近分類器:實(shí)施K 臨近分類器精確率是1.0,如圖26 所示;召回率是0.68,如圖27 所示。其中,F(xiàn)1Score 是 0.8095238095238095。
圖26
圖27
觀察此混淆矩陣得知,在訓(xùn)練集樣本上,有35 個(gè)分錯(cuò)的樣本,有70 人想入職學(xué)校;在測(cè)試集上有8 個(gè)分錯(cuò)的樣本。
比較邏輯回歸、支持向量機(jī)、樸素貝葉斯、決策樹(shù)、隨機(jī)森林、K 臨近分類器,可以得知,各類算法的效果預(yù)測(cè)效果良好。如圖28 所示。
圖28
高維數(shù)據(jù)務(wù)必要重視,因此訓(xùn)練高維數(shù)據(jù)集時(shí),往往引發(fā)維度災(zāi)難。通過(guò)降維將高維數(shù)據(jù)集降到三維、二維,人們才能更好地理解數(shù)據(jù)。數(shù)據(jù)在低位空間將更加容易出來(lái),而且保留了相關(guān)特征,讓重要特征得以在數(shù)據(jù)中明確顯示。降維還可以減少噪聲,并能夠大大降低算法的開(kāi)銷[16]。PCA(主成分分析法)廣泛被采用。這里,我們通過(guò)降維可以得到主要影響Admit(入職學(xué)校意愿)的主要特征:專業(yè)核心課程總成績(jī)、英語(yǔ)成績(jī)、試講評(píng)分等。依據(jù)影響入職學(xué)校意愿排名較高的幾個(gè)特征,能夠?qū)嵤㎏ 均值聚類,層次聚類,以探求最佳的聚類參數(shù)取值。
(1)實(shí)施K 均值聚類:觀察得知,最佳聚類數(shù)是3。數(shù)據(jù)集分成三個(gè)類別,一部分是決定到學(xué)校入職,一部分是選擇放棄,還有一部分處于猶豫中的,但是入職學(xué)??赡苄暂^大。
(2)實(shí)施層次聚類:采用樹(shù)形圖方法確定了層次聚類的最佳聚類數(shù)又是3。如圖32、圖33、圖34 所示。
圖29
圖30
圖31
圖32
圖33
圖34
可以得知,k-均值聚類和層次聚類是相似的。
(3)降維前后r2 比較:以邏輯回歸算法為例,降維前 r2 是 0.669349356777144,降 維 后 r2 是0.6844177463055583。保持了較好的解釋力度。降維會(huì)造成部分的信息損失,但能夠節(jié)約時(shí)間與成本。
此次,結(jié)合Sklearn 數(shù)據(jù)挖掘技術(shù),將數(shù)據(jù)集中的Total Score(專業(yè)核心課程總成績(jī))、CET Score(英語(yǔ)成績(jī))、School Rating(學(xué)校級(jí)別)、BEH(從教意愿)、RM(求職資料評(píng)分)、INM(試講評(píng)分)、ORTeach(是否有教學(xué)經(jīng)歷)等特征,包括目標(biāo)值A(chǔ)dmit(入職學(xué)校意向),實(shí)施了統(tǒng)計(jì)分析描述,對(duì)應(yīng)聘者數(shù)據(jù)實(shí)施了探索,對(duì)比Total Score、CET Score、School Rating、BEH、RM、INM、ORTeach 各變量與Admit 的關(guān)系,以及變量之間的關(guān)系,并用散點(diǎn)圖來(lái)顯示,能夠發(fā)現(xiàn)變量間明顯的關(guān)系;通過(guò)熱力圖的相關(guān)系統(tǒng)中,得出了影響入職學(xué)校因素的專業(yè)核心課程總成績(jī)、英語(yǔ)成績(jī)、試講評(píng)分的初步判斷;并在實(shí)施歸一化壓縮后,實(shí)施并比對(duì)了線性模型、隨機(jī)森林、決策樹(shù)三種模型的預(yù)測(cè)值與真實(shí)值的擬合圖,在訓(xùn)練模型中,線性模型、隨機(jī)森林性能優(yōu)于決策樹(shù);為進(jìn)一步挖掘數(shù)據(jù),將特征進(jìn)行分類,并利用混淆矩陣觀察 TP、FN、FP、TN 指標(biāo),實(shí)施了決策樹(shù)算法、邏輯回歸算法、樸素貝葉斯算法、K 臨近分類器算法,通過(guò)比較得知各類算法的效果預(yù)測(cè)效果良好;聚類分析之前,運(yùn)用PCA 實(shí)施了降維,對(duì)應(yīng)聘者數(shù)據(jù)實(shí)施了K均值聚類、層次聚類,并得知此數(shù)據(jù)集最佳聚類數(shù)為3。最后比對(duì)了降維后的預(yù)測(cè)效果,模型保持了良好的解釋力。綜上職業(yè)院校人才招聘業(yè)務(wù)中,數(shù)據(jù)挖掘技術(shù)除了提供較為直觀的統(tǒng)計(jì)描述,亦能夠?qū)嵤┗貧w、分類、聚類等方法,數(shù)據(jù)都可以進(jìn)行回歸,分類,聚類的算法,得到了較好的預(yù)測(cè)效果。加上豐富的圖表功能,Sklearn 數(shù)據(jù)挖掘技術(shù)將助力職業(yè)院校提升招聘效能,爭(zhēng)奪到寶貴的人才資源。
由于此次樣本量較小,算法的實(shí)驗(yàn)與測(cè)試受到了限制。不同算法的收斂時(shí)間缺乏比對(duì)意義。另外,邏輯回歸算法采用默認(rèn)參數(shù),沒(méi)有進(jìn)行調(diào)參的比對(duì)。今后,不同崗位應(yīng)聘者特征工程、各類算法模型的參數(shù)設(shè)置需要繼續(xù)探討,旨在優(yōu)化算法,幫助招聘工作者招攬到合適大學(xué)畢業(yè)生到校任教任職,并期望為其余類別的招聘工作提供參考。