熊露露 年 梅 張 俊
(1.新疆師范大學(xué) 烏魯木齊 830054)
(2.新疆鐵道職業(yè)技術(shù)學(xué)院 烏魯木齊 830000)
(3.中國科學(xué)院新疆理化技術(shù)研究所 烏魯木齊 830011)
高職學(xué)生的就業(yè)率是高職院校學(xué)生培養(yǎng)質(zhì)量的重要體現(xiàn),而就業(yè)預(yù)測指對未畢業(yè)的學(xué)生能否就業(yè)進(jìn)行預(yù)測,提前對可能就業(yè)困難的學(xué)生進(jìn)行有效的指導(dǎo),提高學(xué)生的就業(yè)率,促進(jìn)高職院校學(xué)生擴(kuò)招工作良性循環(huán)發(fā)展。
近年來,國內(nèi)外很多學(xué)者對影響學(xué)生就業(yè)的因素和就業(yè)預(yù)測模型進(jìn)行了研究。李琦[1]運用互信息和權(quán)重相結(jié)合的特征選擇算法HMIGW 以及XGBoost 分類預(yù)測算法,對本科畢業(yè)生就業(yè)情況和就業(yè)類型進(jìn)行預(yù)測;馬茂源[2]利用半監(jiān)督自訓(xùn)練方法解決就業(yè)預(yù)測樣本不均衡使分類器精度低的問題;李想[3]采用灰色模型和神經(jīng)網(wǎng)絡(luò)對大學(xué)生就業(yè)數(shù)進(jìn)行預(yù)測;程昌品[4]等利用決策樹算法對本科畢業(yè)生就業(yè)進(jìn)行了預(yù)測。從以上文獻(xiàn)可知,現(xiàn)有的就業(yè)預(yù)測研究主要面向本科生進(jìn)行,高職學(xué)生就業(yè)預(yù)測的研究成果較少;此外現(xiàn)有的就業(yè)預(yù)測模型大多基于平衡數(shù)據(jù)集的機(jī)器學(xué)習(xí)算法,對于類別樣本不平衡的數(shù)據(jù)集,分類器傾向于將所有的樣本預(yù)測為樣本數(shù)目較多的類別[5~6],預(yù)測結(jié)果沒有實際意義。而就業(yè)預(yù)測的目的是找出數(shù)目較少的未就業(yè)學(xué)生,并基于其存在的問題進(jìn)行針對性的就業(yè)指導(dǎo),從而提高學(xué)生整體的就業(yè)率。以上研究成果均無法解決上述問題。圍繞如何解決非平衡數(shù)據(jù)集下的高職學(xué)生就業(yè)預(yù)測問題,本文的主要貢獻(xiàn)如下:
1)創(chuàng)新性地提出了基于ADASYN-SMOTE 算法的小類樣本生成策略,有效地解決了機(jī)器學(xué)習(xí)對于不平衡數(shù)據(jù)集中小類樣本誤判問題。
2)基于ADASYN-SMOTE 算法構(gòu)建后的平衡數(shù)據(jù)集,運用隨機(jī)森林算法建立高職學(xué)生就業(yè)預(yù)測模型,該模型不僅具有更高的泛化能力,并且能全面準(zhǔn)確地預(yù)測出不能就業(yè)的學(xué)生,對于提高高職學(xué)生就業(yè)率具有較高的實用價值。
3.1.1 數(shù)據(jù)對象的采集
本研究以某高職院校的畢業(yè)生就業(yè)和成績數(shù)據(jù)為研究對象。從學(xué)校招生就業(yè)系統(tǒng)中提取2016年~2020年畢業(yè)生就業(yè)數(shù)據(jù)3778條記錄,從教務(wù)管理系統(tǒng)中提取相應(yīng)畢業(yè)生3 年6 學(xué)期成績數(shù)據(jù)22668條記錄。
3.1.2 數(shù)據(jù)預(yù)處理
將每名學(xué)生3年6學(xué)期所有成績按照學(xué)號進(jìn)行整合,學(xué)生成績由原來的22688條減少到3778條。
為了能夠體現(xiàn)學(xué)生的綜合學(xué)習(xí)質(zhì)量,按照人才培養(yǎng)方案將學(xué)生的成績整合為基礎(chǔ)、專業(yè)基礎(chǔ)、專業(yè)、專業(yè)核心、技能鑒定、實習(xí)、實訓(xùn)、職業(yè)生涯規(guī)劃、論文9 個類別的成績。各類別平均分按照式(1)計算得到:
其中Cˉmi為第m 個學(xué)生的第i 類別成績的平均分,每個學(xué)生成績Ci∈(基礎(chǔ),專業(yè)基礎(chǔ)…論文),m∈(1,3778)。Cmij為第m 個學(xué)生的第i類別中的j科目成績,k為i類別中科目總數(shù)。
將就業(yè)數(shù)據(jù)和處理后的成績數(shù)據(jù)通過“學(xué)號”關(guān)聯(lián)合并,用均值填充缺失數(shù)據(jù);將定性數(shù)據(jù)改為數(shù)值型數(shù)據(jù),如就業(yè)屬性列中“就業(yè)”為0,“未就業(yè)”為1;為了消除特征數(shù)據(jù)之間的量綱影響,運用最大-最小規(guī)范化使數(shù)據(jù)取值范圍為[0,1],使各指標(biāo)處于同一數(shù)量級,以便進(jìn)行綜合對比和評價。
就業(yè)預(yù)測需要準(zhǔn)確選取預(yù)測指標(biāo)變量,本文使用遞歸特征消除法RFE 對就業(yè)預(yù)測指標(biāo)選取。遞歸特征消除法(Recursive Feature Elimination,RFE)屬于包裝法中非線性分類器中的重要方法,該方法可以選擇高質(zhì)量的子集[7]。將最大最小規(guī)范化的指標(biāo)數(shù)據(jù)輸入到以隨機(jī)森林作為基模型,目標(biāo)變量為RFE的特征選擇模型,通過計算得到不同特征數(shù)下模型性能分?jǐn)?shù),如圖1 所示(橫坐標(biāo)為特征數(shù),縱坐標(biāo)為模型性能分?jǐn)?shù))。
圖1 特征數(shù)與模型性能之間的關(guān)系
由圖1中可以看出,特征數(shù)是14時模型的性能最好,所以本研究采用排名為前14 的特征作為分類模型的特征。
3.3.1 ADASYN算法
ADASYN 算法[8],根據(jù)少數(shù)類樣本的分布特點自適應(yīng)地引入新樣本緩解數(shù)據(jù)不平衡的問題[9]。但ADASYN 算法會造成在易分類邊界合成較少樣本,難分類邊界合成較多樣本[10],易受離群點的影響。
3.3.2 SMOTE算法
SMOTE 算法[11],則是在少數(shù)類樣本和其相鄰少數(shù)類鄰居的連線上引入合成樣本,以消除類間不平衡度。但該算法未考慮樣本的分布特點,合成的新少數(shù)類樣本點會與原始數(shù)據(jù)高度相似,甚至重復(fù),很難為分類器提供新的分類信息[12]。
本文數(shù)據(jù)集存在樣本不均衡問題,單獨使用ADASYN 算法或SMOTE 算法均無法達(dá)到平衡數(shù)據(jù)的最佳效果,故此,本文創(chuàng)新性地提出ADASYNSMOTE過采樣算法,解決樣本的均衡性問題。
3.3.3 基于ADASYN和SMOTE算法的小類樣本合成算法
將整個訓(xùn)練集中n 個樣本{xi,yi},i=1,2…n,其中xi是多維空間X 的一個樣本,yi∈Y={0,1}是分類標(biāo)簽,yi=1是小類樣本(“未就業(yè)”),yi=0是大類樣本(“就業(yè)”)。ms是少類樣本數(shù),ml是大類樣本數(shù)。ms+ml=n,且ms≤ml。
1)計算每個小類在樣本中的K 近鄰,其近鄰的大樣本數(shù)量記為k1;
2)比較k 與k1 的值,若k1=k,即樣本點周圍都是大類樣本,將該小類樣本刪除;若k/2 ≤k1<k,則認(rèn)為該樣本屬于邊界區(qū)域中,將其放入Merge 集合中;如果0 ≤k1<k/2,則認(rèn)為其不在邊界區(qū)域中,將其放入Middle集合中;
3)計算Merge 和Middle 集合中樣本數(shù)量,分別記為n1 和n2。其中Merge={a1,a2…an1},Middle={b1,b2…bn2};Merge集合中的插值率Gi:擴(kuò)充倍數(shù);
4)計算合成小樣本的總數(shù):G=(ml-ms)*β,其中β∈(0,1),表示加入合成樣本后的不均衡度;
5)找出Merge 集合中每個少數(shù)類樣本ai在n維空間的k 近鄰,計算其比率,i=1,2…n1,其中Δi是ai的k 近鄰中大類樣本的數(shù)量,ri∈(0,1];
7)對于Merge 集合中的每個少數(shù)類樣本ai根據(jù),計算需合成的少數(shù)類樣本數(shù),按照如下的方法對ai生成gi個樣本:
對1~gi個樣本執(zhí)行(1)~(2)循環(huán):
(1)在每個待合成的少數(shù)類樣本ai周圍k個鄰居中選擇一個少數(shù)類樣本azi。
(2)依據(jù)式(2)進(jìn)行插值:
9)對于Middle 中每個少數(shù)類樣本bm,其中m∈(1,n2),按照如下的方法對于每個少數(shù)類樣本bm生成N個樣本:
對1~N個樣本執(zhí)行以下循環(huán):
(1)以歐式距離為標(biāo)準(zhǔn)計算其到少數(shù)類樣本集中所有樣本的距離,得到其k 個近鄰,記為Z={b1,b2…bn3},從中選取bm1,其中m1∈(1,n3)。
(2)按照式(3)計算插值:
隨機(jī)森林算法[13]是復(fù)合決策樹的集成機(jī)器學(xué)習(xí)算法,采用“袋裝”方法訓(xùn)練數(shù)據(jù),該算法具有準(zhǔn)確、高效,魯棒等優(yōu)點。算法的數(shù)學(xué)模型公式如式(4):倍率N為:
將數(shù)據(jù)集按照9∶1 的比例分為訓(xùn)練集和測試集。對訓(xùn)練集數(shù)據(jù)進(jìn)行ADASYN-SMOTE 過采樣處理,然后使用隨機(jī)森林模型進(jìn)行訓(xùn)練。用測試集驗證,對測試結(jié)果分析,并通過繪制學(xué)習(xí)率曲線的方式確定當(dāng)參數(shù)n_estimators=90,min_samples_split=2時隨機(jī)森林模型效果最優(yōu)。
準(zhǔn)確率作為傳統(tǒng)分類器算法的判斷依據(jù),在不平衡數(shù)據(jù)集中單獨使用沒有實際意義。為了更科學(xué)地描述實驗結(jié)果,本文采用AUC[14],F(xiàn)1-score[15],Accuracy 判斷模型效果。AUC 的取值介于0.1 和1之間,值越接近于1 越好,相比于其他的評價指標(biāo)更具有泛化性[16]。就業(yè)預(yù)測的重要目的是對未就業(yè)學(xué)生的準(zhǔn)確全面預(yù)測,F(xiàn)1-score 是查準(zhǔn)率和查全率的調(diào)和平均值,F(xiàn)1-score 越大,對未就業(yè)學(xué)生預(yù)測越全面準(zhǔn)確;Accuracy 是分類器對正負(fù)樣本總體的預(yù)測準(zhǔn)確率,值越接近于1越好。
測試后的實驗結(jié)果如表1 所示,由該表可知,運用ADASYN-SMOTE-RF 算法,F(xiàn)1-score 比原始數(shù)據(jù)-RF 提高11%,比ADASYN-RF 算法提高8%,比SMOTE-RF 算 法 提 高5% ,比ADASYN 和SMOTE-RF[10]算法提高6%;Accuracy 值和AUC 值均最大,該結(jié)果充分說明了ADASYN-SMOTE-RF模型在對不均衡就業(yè)數(shù)據(jù)預(yù)測方面的精度和泛化能力均最強。
表1 實驗結(jié)果表
本文使用ADASYN-SMOTE 算法生成和擴(kuò)充小樣本數(shù)據(jù),使用隨機(jī)森林集成算法建立高職畢業(yè)生就業(yè)預(yù)測模型,實驗結(jié)果表明,相較于未做特征選擇,未進(jìn)行樣本均衡處理的隨機(jī)森林模型,ADASYN-SMOTE-RF 算法能夠明顯提高模型預(yù)測的準(zhǔn)確率、大幅度提升模型的F1-score 值、較為準(zhǔn)確全面的預(yù)測未就業(yè)學(xué)生,從而能夠更好地滿足學(xué)校就業(yè)預(yù)測的實際需要,為提升高職學(xué)生就業(yè)率提供了堅實的科學(xué)依據(jù)。本文的后續(xù)工作主要有將ADASYN-SMOTE 與其他欠采樣方法集成,以研究集成方法在高職學(xué)生就業(yè)預(yù)測方面的性能是否會比單個ADASYN-SMOTE過采樣效果更好。