国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SVM的高??佳蓄A(yù)測模型研究

2021-04-15 04:41閆立強(qiáng)杜亞冰
關(guān)鍵詞:考研樣本函數(shù)

張 凱,閆立強(qiáng),劉 暢,杜亞冰

(河南城建學(xué)院,河南 平頂山 467036)

是否報(bào)考研究生是本科生畢業(yè)前面臨的重要選擇之一,若能對考研結(jié)果進(jìn)行預(yù)測,將對本科生的報(bào)考決策和學(xué)校分類教學(xué)管理產(chǎn)生積極影響。目前,已有一些文獻(xiàn)使用機(jī)器學(xué)習(xí)算法研究考研預(yù)測問題,如李楠等提出基于Logistics算法的考研成績變量預(yù)測方法[1];王西平提出了改進(jìn)加權(quán)的KNN算法考研預(yù)測模型[2];鄭寶樂等提出了基于線性判決分析降維(LDA) 結(jié)合支持向量機(jī)(SVM) 建立學(xué)習(xí)模型的方法[3];黃炎對比了樸素貝葉斯算法、線性回歸和決策樹相結(jié)合的算法、LIBSVM向量機(jī)等三種算法的考研結(jié)果預(yù)測準(zhǔn)確率[4];李馳利用基于遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)對考研結(jié)果進(jìn)行了預(yù)測[5];張鳳霞等選取若干個(gè)家庭因素、個(gè)人因素、校園因素和專業(yè)因素等作為特征子集,使用CSVM、PSVM、TSVM分別對報(bào)考意愿進(jìn)行了預(yù)測[6]。這些文獻(xiàn)大多將已報(bào)考學(xué)生的在校成績作為樣本集訓(xùn)練預(yù)測模型,取得了較高的準(zhǔn)確度。

圖1 分階段考研預(yù)測示意圖

考研預(yù)測按時(shí)間順序可劃分為“意愿預(yù)測”和“結(jié)果預(yù)測”(含成績預(yù)測)(見圖1)。“意愿預(yù)測”是在報(bào)考前,預(yù)測是否報(bào)考;“結(jié)果預(yù)測”是在報(bào)考后,預(yù)測考研結(jié)果(含考研成績)。以上文獻(xiàn)均為“意愿預(yù)測”或“結(jié)果預(yù)測”。而從考研預(yù)測的實(shí)際場景出發(fā),若合并兩種預(yù)測,將會(huì)大大增加預(yù)測模型的實(shí)用性,因此,本文嘗試以報(bào)考前某校所有理工科本科生的學(xué)業(yè)成績作為樣本集,建立一種基于支持向量機(jī)的考研結(jié)果預(yù)測模型。

1 支持向量機(jī)

(1)

s.t.yi[(wxi)+b]≥1i=1,2,…,l

(2)

對線性不可分問題,引入一個(gè)松弛變量ξ≥0,可調(diào)的懲罰因子C,則二次規(guī)劃問題就變成:

(3)

s.t.yi[(wxi)+b]≥1-ξi=1,2,…,l

(4)

為了求解此二次規(guī)劃問題,引入Lagrange函數(shù):

(5)

其中αi>0為Lagrange乘子,求解后得到最優(yōu)分類函數(shù)[9]為:

(6)

其中:α*為最優(yōu)解,b*為最優(yōu)偏置。

SVM通過選擇滿足Mercer條件的核函數(shù)K,即K(x,y)=?(x)·?(y),將輸入空間映射到高維特征空間(一般是Hiber空間),即對x作從輸入空間Rn到特征空間H的變換:

x→?(x)=(?1(x),?2(x),…,?l(x))T,

(7)

在這個(gè)高維特征空間中求解最大間隔分類超平面,求解后得到最優(yōu)分類函數(shù)[10]為:

(8)

2 核函數(shù)

選擇常用的內(nèi)積(dot)、徑向基(RBF)、多項(xiàng)式(polynominal)等核函數(shù)分別進(jìn)行模型訓(xùn)練,通過對比結(jié)果,找到評估結(jié)果最優(yōu)的核函數(shù)建立預(yù)測模型。

(1)內(nèi)積核函數(shù):

K(x,y)=x*y

(9)

(2)徑向基核函數(shù):

K(x,y)=exp(-γ‖x-y‖2)

(10)

(3)多項(xiàng)式核函數(shù):

K(x,y)=(x*y+1)d

(11)

其中,可調(diào)參數(shù)d是多項(xiàng)式的次數(shù)。

3 SVM考研結(jié)果預(yù)測模型

3.1 數(shù)據(jù)準(zhǔn)備

影響報(bào)考決策和考研結(jié)果的因素很多,如:高考成績、在校各科成績及排名、英語四六級考試成績、專業(yè)方向、就業(yè)前景、獎(jiǎng)懲情況、家庭情況等[6]。這些影響因素內(nèi)部和相互之間的關(guān)系復(fù)雜。雖然屬性越多,預(yù)測準(zhǔn)確度越高,但是數(shù)據(jù)采集、數(shù)據(jù)清洗、模型建立等工作難度也會(huì)隨之增大,模型的執(zhí)行效率隨之降低。為增大模型的適用范圍、降低復(fù)雜性,本文選擇脫敏后的某校2020屆、2021屆4年制本科在生源地的理工畢業(yè)生的高考成績和在校成績作為樣本數(shù)據(jù),有效樣本數(shù)分別為1 612、1 504,合計(jì)3 116??佳薪Y(jié)果作為樣本標(biāo)簽,屬性值為“Y”、“N”,分別對應(yīng)“被錄取”、“未報(bào)考或未被錄取”。

理工科考研的科目一般為外語、政治、數(shù)學(xué)和專業(yè)課。為適用所有理工科專業(yè),本文選擇考研科目相同且全校統(tǒng)考的科目成績作為數(shù)據(jù)集。這些科目包括高等數(shù)學(xué)(上/下)、線性代數(shù)、大學(xué)英語(一至四)、思想政治理論課等11門科目的成績以及高考語文、數(shù)學(xué)、外語、外語聽力和綜合等5門科目的成績。由于高校內(nèi)不同科目的難易程度、考試類型不同,為增加成績的區(qū)分度,本文選取各科目的期末考試成績,不含平時(shí)成績、期中考試成績。

3.2 數(shù)據(jù)預(yù)處理

在數(shù)據(jù)采集與考研結(jié)果統(tǒng)計(jì)過程中,由于人為因素會(huì)導(dǎo)致個(gè)別數(shù)據(jù)不準(zhǔn)確或數(shù)據(jù)缺失現(xiàn)象,但基于高質(zhì)量的數(shù)據(jù)分析出的結(jié)果才更具有價(jià)值,所以首先要進(jìn)行數(shù)據(jù)預(yù)處理,以清洗掉數(shù)據(jù)中的錯(cuò)誤。本文將存在數(shù)據(jù)重復(fù)、部分?jǐn)?shù)據(jù)缺失等問題的極少量樣本直接刪除,只保留完整、準(zhǔn)確、無空缺、無異常的數(shù)據(jù)值。

3.3 數(shù)據(jù)標(biāo)準(zhǔn)化與特征選擇

數(shù)據(jù)的標(biāo)準(zhǔn)化(normalization)是將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間。最典型標(biāo)準(zhǔn)化方法是數(shù)據(jù)的歸一化處理,常見的數(shù)據(jù)歸一化方法有:min-max標(biāo)準(zhǔn)化、log函數(shù)轉(zhuǎn)換、atan函數(shù)轉(zhuǎn)換、z-score標(biāo)準(zhǔn)化。本文采用常見的z-score標(biāo)準(zhǔn)化。這種標(biāo)準(zhǔn)化是從所有值中減去數(shù)據(jù)的均值,然后除以標(biāo)準(zhǔn)差。z-score方法的轉(zhuǎn)換函數(shù)為:

(12)

式中:μ為數(shù)學(xué)期望;σ為標(biāo)準(zhǔn)差。

本文采用Relief算法進(jìn)行特征選擇。Relief算法最早由Kira等[11]提出,主要解決兩類的分類問題,是公認(rèn)效果較好的 filter 式特征評估算法。它根據(jù)各個(gè)特征和類別的相關(guān)性賦予特征不同的權(quán)重,移除權(quán)重小于某個(gè)閾值的特征[12]。通過Relief算法過濾無關(guān)特征后,特征子集為高數(shù)上、高數(shù)下、高考外語聽力、高考外語、高考綜合、高考數(shù)學(xué)等(見表1)。

表1 Relief算法評估的特征權(quán)重

圖2 特征子集的箱線圖

特征子集的箱線圖如圖2所示。由圖2可以看出,選擇的6個(gè)樣本特征沒有明顯的離群點(diǎn)。

3.4 建立模型

(1)劃分樣本集

將2020屆、2021屆畢業(yè)生的樣本集分別定義為S1、S2,合集定義為S,即S=S1+S2。樣本集劃分為3種形式,均采用分層抽樣(如表1所示)。

樣本集a:將S1作為訓(xùn)練集、S2作為測試集;樣本集b:將S2作為訓(xùn)練集、S1作為測試集;樣本集c:將S的70%作為訓(xùn)練集、30%作為測試集。

(2)選擇評估指標(biāo)

三個(gè)樣本集中的陽性樣本與陰性樣本的比例均顯著不平衡(約18),不能簡單地采用單值評估指標(biāo),而多值評估指標(biāo)將會(huì)提高模型比較的難度,因此本文采用F-measure指標(biāo),該指標(biāo)將陽性查全度和陽性查準(zhǔn)度合并為一個(gè)單值,即

(13)

式中:precision為陽性查準(zhǔn)度

(14)

recall為陽性查全度。

(15)

β為用戶對陽性查全度的重視程度,是陽性查準(zhǔn)度的倍數(shù),本文β取1。

圖3 三種SVM模型對三種樣本集的測試結(jié)果F1-measure

(3)訓(xùn)練模型

采用5折交叉驗(yàn)證法,分別使用三種核函數(shù)、三種樣本集訓(xùn)練SVM模型。三種核函數(shù)的懲罰參數(shù)C均取0,超參數(shù)γ取1.0、d取2.0。基于三種樣本集、三種核函數(shù)訓(xùn)練的SVM模型測試指標(biāo)F1-measure如圖3所示。

由圖3可以看出:采用內(nèi)積核訓(xùn)練的SVM模型的測評結(jié)果F1-measure值比徑向基核和多項(xiàng)式核的都高;采用內(nèi)積核和徑向基核的SVM模型對三個(gè)樣本集的測試結(jié)果F1-measure值差異較小。因此,本文選擇內(nèi)積核作為考研結(jié)果預(yù)測模型的核函數(shù)。

(4)網(wǎng)格搜索算法超參數(shù)尋優(yōu)

本文采用網(wǎng)格搜索算法對基于內(nèi)積核的SVM模型超參數(shù)尋優(yōu)。尋優(yōu)過程使用樣本集c,訓(xùn)練集與測試集比例為73。從尋優(yōu)過程(見圖4)可以看出,通過網(wǎng)格搜索算法找到的最優(yōu)結(jié)果對應(yīng)的C值為2.2。懲罰參數(shù)C、參數(shù)間隔設(shè)置及結(jié)果最優(yōu)時(shí)的相應(yīng)值如表2所示。

(a)c∈{0~10} (b)c∈{0~30} (c)c∈{0~100}

(d)c∈{0~1 000} (e)c∈{0~10 000}

表2 基于內(nèi)積核的SVM模型超參數(shù)尋優(yōu)設(shè)置

3.5 結(jié)果分析

分別使用三個(gè)樣本集,對基于內(nèi)積核的SVM模型進(jìn)行訓(xùn)練和測試,懲罰參數(shù)C設(shè)置為2.2,測試結(jié)果如表3所示。從表3可以看出,在三個(gè)樣本集的測試結(jié)果中,準(zhǔn)確度、查全度、差準(zhǔn)度、AUC、F1-measure等指標(biāo)比較接近,說明基于內(nèi)積核的SVM模型對不同樣本集的預(yù)測能力較穩(wěn)定。

表3 基于內(nèi)積核的SVM測試結(jié)果

三個(gè)樣本集對應(yīng)的測試結(jié)果混淆矩陣如表4所示。從表4可以看出:(1)本文模型預(yù)測的選擇報(bào)考并被錄取的學(xué)生中平均有66.44%被預(yù)測錯(cuò)誤,這部分學(xué)生存在報(bào)考并被錄取的可能,學(xué)??梢怨膭?lì)這部分學(xué)生積極報(bào)考;(2)本文模型預(yù)測的未選擇報(bào)考或未被錄取的學(xué)生中平均約有90%預(yù)測正確,陰性查準(zhǔn)度較高,學(xué)??梢怨膭?lì)這部分學(xué)生創(chuàng)新創(chuàng)業(yè)或提高與就業(yè)相關(guān)的專業(yè)技能;(3)報(bào)考并被錄取學(xué)生中約71%與模型預(yù)測結(jié)果一致;(4)使用不同年份的樣本分別作為訓(xùn)練集和測試集,模型測試結(jié)果基本穩(wěn)定。

表4 三個(gè)樣本集對應(yīng)的混淆矩陣結(jié)果

4 對比實(shí)驗(yàn)分析

分別采用本文SVM算法、文獻(xiàn)[1]中的Logistic回歸分類算法和文獻(xiàn)[2]中的kNN算法對樣本集c訓(xùn)練測試,對比測試結(jié)果如表5所示。其中kNN算法采用網(wǎng)格搜索算法找到最優(yōu)結(jié)果對應(yīng)的k值為2(參數(shù)尋優(yōu)過程見圖5)。由表5可以看出,Logistic回歸算法的AUC值與本文SVM算法相近,且其accuracy、precision值均為最高,但其綜合評價(jià)指標(biāo)F1-measure值明顯較低。說明此算法對于標(biāo)簽比例不均衡的樣本集c來說,預(yù)測效果較差。kNN算法的F1-measure值、AUC值、recall(Y)、precision(Y)均比本文SVM算法低。本文SVM算法對于樣本集c的訓(xùn)練測試結(jié)果明顯優(yōu)于Logistic回歸算法、kNN算法。

表5 三種算法的對比測試結(jié)果

圖5 kNN算法的參數(shù)尋優(yōu)過程

5 結(jié)論

為更加貼合實(shí)際的考研預(yù)測場景,采用上一年樣本數(shù)據(jù)訓(xùn)練模型,預(yù)測下一年的考研結(jié)果,本文將兩年的樣本數(shù)據(jù)集分為三種樣本集分別進(jìn)行訓(xùn)練建模。通過對比實(shí)驗(yàn),本文SVM算法建立的預(yù)測模型綜合預(yù)測能力優(yōu)于Logistics算法、kNN算法。本文模型選擇的樣本數(shù)據(jù)獲取直接、訓(xùn)練方法簡單、訓(xùn)練時(shí)間短,適用于學(xué)校層面對所有理工科的所有專業(yè)學(xué)生進(jìn)行考研預(yù)測,可以協(xié)助學(xué)校有針對性地指導(dǎo)學(xué)生做出報(bào)考決策。對預(yù)測結(jié)果為陽性的學(xué)生偏重指導(dǎo)理論學(xué)習(xí),對預(yù)測結(jié)果為陰性的學(xué)生偏重培養(yǎng)職業(yè)技能。下一步的研究工作可以考慮利用其他機(jī)器學(xué)習(xí)方法或優(yōu)化方法,嘗試引入更多的因素,例如學(xué)生報(bào)考信息、四六級英語考試成績、文科學(xué)生成績等,以提高模型的預(yù)測精度和適用范圍。

猜你喜歡
考研樣本函數(shù)
我的考研故事
二次函數(shù)
第3講 “函數(shù)”復(fù)習(xí)精講
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
二次函數(shù)
函數(shù)備考精講
考研,我是怎么堅(jiān)持過來的
考研,我是怎么堅(jiān)持過來的
規(guī)劃·樣本
工作十二年后,我才去考研
黄冈市| 保山市| 前郭尔| 淳化县| 西畴县| 德庆县| 宣武区| 濮阳县| 贺州市| 淳化县| 东光县| 禹城市| 洛隆县| 左贡县| 托克逊县| 沙洋县| 霞浦县| 额尔古纳市| 涟水县| 饶阳县| 普安县| 邹城市| 滕州市| 中牟县| 东丰县| 泰宁县| 兴城市| 宁蒗| 东明县| 九龙城区| 大埔县| 定州市| 濮阳县| 会宁县| 陵川县| 沂南县| 永平县| 扎囊县| 毕节市| 康马县| 安化县|