李 楠, 郝文佳
(桂林理工大學(xué) 環(huán)境科學(xué)與工程學(xué)院, 廣西 桂林 541006)
從歷年研究生考試的報名情況看, 報考碩士研究生的學(xué)生人數(shù)持續(xù)增加, 2018年我國研究生報名人數(shù)為238萬人, 2019年為290萬人, 比上一年增加52萬人, 中國研究生教育已經(jīng)進入了新的歷史發(fā)展階段[1]??佳谐煽兊念A(yù)測可以預(yù)估考生的考試成績, 并為考研的下一個程序階段做準(zhǔn)備。由于考研成績與多個成績變量有關(guān), 因此為了保證考研成績結(jié)果的預(yù)測精度, 需要提出一種高精度考研成績變量預(yù)測方法。
教育部在2012年發(fā)布了考研成績的相關(guān)報告, 對考研成績統(tǒng)計工作產(chǎn)生了深遠的影響。但對考研成績數(shù)據(jù)的預(yù)測和研究工作起步較晚, 相關(guān)研究文獻較少。目前對考研成績變量預(yù)測方法的研究成果主要包括多變量GM(1,N)灰色模型成績預(yù)測方法、 正交核最小二乘法成績預(yù)測方法和權(quán)重分配組合模型成績預(yù)測方法等。然而在成績變量預(yù)測問題的研究上仍存在缺陷有待改進, 例如僅憑學(xué)生的單一成績數(shù)據(jù)對考研成績進行預(yù)測、 歷史數(shù)據(jù)的獲取來源過于單一等[2]。為解決上述傳統(tǒng)方法存在的問題, 在前人研究已取得重大成果的基礎(chǔ)上進一步探索, 筆者提出了基于Logistic算法的考研成績變量預(yù)測方法, 該方法主要立足于Logistic算法, 即回歸分類模型, 與傳統(tǒng)的分析手段不同, 其將考研成績變量的諸多影響因素按照不同的邏輯層次進行劃分, 凸顯出不同層次影響因素的主次效應(yīng), 得出更加精準(zhǔn)的考研成績變量預(yù)測結(jié)果。
考研成績變量預(yù)測方法在設(shè)計過程中引入了Logistic算法, 并以該算法的運行原理為基礎(chǔ)構(gòu)建對應(yīng)的回歸分類模型。以某學(xué)生的歷史學(xué)習(xí)數(shù)據(jù)以及歷年考研的成績數(shù)據(jù)作為初始數(shù)據(jù), 通過模型的運算得出考研成績變量的變化規(guī)律, 結(jié)合考研成績變量的影響因素得出最終的成績變量預(yù)測結(jié)果, 并實現(xiàn)該預(yù)測方法的設(shè)計目的。
歷年考研成績數(shù)據(jù)的采集是為了獲取研究所需的學(xué)生基礎(chǔ)信息數(shù)據(jù)以及歷史成績數(shù)據(jù), 其中學(xué)生的基礎(chǔ)信息數(shù)據(jù)包括學(xué)生的學(xué)號、 年齡和性別等, 由于信息系統(tǒng)中學(xué)生信息的精確度較低, 不能滿足技術(shù)要求, 因此運用python工具編寫一個網(wǎng)絡(luò)爬蟲程序, 通過學(xué)生的身份證號在相關(guān)平臺上進行歷史數(shù)據(jù)信息的抓取, 并從抓取到的文件中對此次研究中需要使用的信息數(shù)據(jù)進行解析, 最終獲取到可以滿足成績變量預(yù)測方法研究要求的學(xué)生歷史信息數(shù)據(jù)[3]。經(jīng)過歷年考研成績數(shù)據(jù)的收集, 得出的考研學(xué)生基礎(chǔ)數(shù)據(jù)的部分采集結(jié)果如表1所示。
表1 考生基礎(chǔ)數(shù)據(jù)屬性表
學(xué)生的歷史成績數(shù)據(jù)方面, 從教務(wù)部門獲得該學(xué)院所有專業(yè)多個學(xué)年的成績排名數(shù)據(jù), 去除與此次研究無明顯關(guān)聯(lián)的字段屬性, 得出學(xué)生歷史成績數(shù)據(jù)屬性結(jié)果, 如表2所示。
表2 學(xué)生成績數(shù)據(jù)屬性表
除了上述學(xué)生對象的歷史成績數(shù)據(jù)外, 還需要對歷年的考研平均數(shù)據(jù)進行收集與統(tǒng)計, 并以采集整理完成的結(jié)果作為考研成績變量預(yù)測的初始數(shù)據(jù)[4]。
(1)
(2)
其中M為初始數(shù)據(jù)集中的平均值或中位數(shù),n為初始數(shù)據(jù)集中數(shù)據(jù)的數(shù)量[7]。最后從屬性規(guī)約和數(shù)值規(guī)約兩個方面實現(xiàn)對初始數(shù)據(jù)集的規(guī)約處理, 并得出預(yù)處理完成的考研成績初始數(shù)據(jù)表, 如圖1所示。
圖1 初始數(shù)據(jù)預(yù)處理顯示結(jié)果Fig.1 Initial data pre-processing results
以預(yù)處理完成的初始數(shù)據(jù)為基礎(chǔ), 結(jié)合數(shù)據(jù)內(nèi)容分析結(jié)果與數(shù)據(jù)特征提取結(jié)果, 設(shè)置考研成績預(yù)測變量[8]。在本次預(yù)測方法中設(shè)置的考研成績變量分別為平均成績績點、 高數(shù)加權(quán)平均成績、 專業(yè)課成績和四六級加權(quán)平均成績, 其中平均成績績點是評估考研成績的一項重要指標(biāo), 該變量的計算公式如下
(3)
其中GPA為平均成績績點,fi和gi分別為課程學(xué)分和課程績點,gi的計算表達式為
(4)
其中F為學(xué)生的實際考研科目總分?jǐn)?shù)[9]。加權(quán)平均成績是學(xué)生每門考研成績與其權(quán)值比例的乘積計算出的平均成績, 其計算表達式為
(5)
其中Fi為加權(quán)科目分?jǐn)?shù),WA為單科考研的加權(quán)平均成績。通過式(5)的計算可得出高數(shù)、 政治以及英語四六級的加權(quán)成績計算結(jié)果。而專業(yè)課成績可以通過數(shù)據(jù)調(diào)取直接得出, 為提高數(shù)據(jù)的參考價值, 可以計算專業(yè)課的平均值代替某一次專業(yè)課的實際成績。
Logistic回歸分類算法模型的構(gòu)建是用于描述分類響應(yīng)變量與解釋變量之間的關(guān)系, 在本研究中也就是歷史考研成績、 學(xué)生平時成績與考研成績之間的變量關(guān)系[10]。定義模型中的響應(yīng)變量為Y, 且該變量只有0和1兩種取值結(jié)果, 假設(shè)Y依賴于p個自變量, 記為Xi, 則在自變量的作用下Y取值為0或1的概率可表示為
(6)
式(6)為Logistic回歸分類算法模型的一般形式, 其中βi為模型的回歸系數(shù), 當(dāng)i的取值為0時,β0為常數(shù)項, 得出的Logistic回歸分類算法模型建立結(jié)果如圖2所示。
圖2 Logistic回歸分類算法模型框圖Fig.2 Logistic block diagram of regression classification algorithm
判斷一個變量是否能對相應(yīng)變量提供顯著的附加解釋信息, 若滿足則將該變量選入Logistic回歸分類算法模型當(dāng)中, 否則剔除該變量。通過模型變量的篩選, 得出模型對應(yīng)的Logistic回歸分類函數(shù)如圖3所示。
從圖3中可以看出, Logistic函數(shù)的值域為[0,1], 保證了模型概率估計的合理性。受到自變量變化的影響, 響應(yīng)變量的概率值也發(fā)生了變化[11]。則將影響考研成績變量的影響因素作為模型的輸入值代入模型中, 模型的輸出值即為成績變量回歸分類的結(jié)果。
影響考研成績的因素可以分為個人因素、教學(xué)因素、環(huán)境因素以及專業(yè)因素等, 其中個人因素是考生的學(xué)習(xí)狀態(tài)、 對專業(yè)知識的理解程度以及對專業(yè)知識的應(yīng)用能力等[12]。教學(xué)因素是考生在考研學(xué)習(xí)階段接受的教學(xué)水平, 具體包括教師的教學(xué)水平、 教學(xué)資源的數(shù)量以及教學(xué)資源的來源等。環(huán)境因素主要是生源地因素和接受教育環(huán)境的因素, 不同地區(qū)的考研政策以及接收條件不同, 不同生源地考題的難易程度也有所區(qū)別。而專業(yè)因素是學(xué)生報考的專業(yè)是否與當(dāng)前接受教育的專業(yè)有關(guān), 與必考科目, 即高數(shù)、 政治以及英語科目的關(guān)聯(lián)程度。綜合所有考研成績的影響因素, 并將其作為Logistic回歸分類算法的自變量導(dǎo)入構(gòu)建的模型中, 得出對應(yīng)的響應(yīng)變量, 即考研成績變量的概率測算結(jié)果。
通過對歷史考研成績數(shù)據(jù)以及學(xué)生成績數(shù)據(jù)的分析與特征提取, 得出考研成績變量在無影響因素作用下的變化規(guī)律。然后利用Logistic回歸分類算法模型, 分析影響變量與考研成績變量之間的關(guān)系, 綜合兩個分析結(jié)果得出考研成績變量的預(yù)測結(jié)果。多個考生的成績變量數(shù)據(jù), 通過對數(shù)據(jù)集的遍歷得出多個模型輸出結(jié)果, 并選擇概率值最高的分類數(shù)據(jù)作為考研成績變量的預(yù)測結(jié)果。
以全國256個地級及以上城市的1 195所本科高等學(xué)院獲得各個城市本科高校生作為此次實驗的研究對象。選擇的研究對象為具有考研意愿的大四學(xué)生, 由于生源地對考生的成績存在著一定的影響, 因此在選擇考研研究對象時, 需要將考生的生源地信息一同存儲到主測環(huán)境中, 作為實驗的自變量之一。通過對學(xué)生數(shù)據(jù)的篩選最終確定實驗研究對象共7 642人, 具體的研究對象統(tǒng)計情況如表3所示。
表3 考研研究對象統(tǒng)計表
針對選擇的實驗研究樣本, 調(diào)取每個考生在校期間的成績, 需要調(diào)取的成績包括四六級成績、 英語成績、 高數(shù)成績、 政治成績和專業(yè)課成績, 并在主測環(huán)境中生成對應(yīng)的初始數(shù)據(jù), 如圖4所示。
圖4 考研成績樣本數(shù)據(jù)源Fig.4 Sample data source for postgraduate examination
除了研究對象的平時成績外, 還需要調(diào)取不同生源地近5年不同專業(yè)的考研成績, 包括考研的平均成績以及考研的分?jǐn)?shù)線等。按照相同的方式導(dǎo)入到實驗環(huán)境中, 并生成對應(yīng)的數(shù)據(jù)庫表。
對比設(shè)計基于Logistic算法的考研成績變量預(yù)測方法與現(xiàn)有預(yù)測方法之間的預(yù)測誤差, 凸顯設(shè)計的考研成績變量預(yù)測方法的應(yīng)用價值。為了保證實驗結(jié)果的可信度, 在實驗中分別設(shè)置傳統(tǒng)的考研成績變量預(yù)測方法和文獻[5]中的基于正交核最小二乘法的成績預(yù)測方法作為此次實驗的兩個對比方法, 其中傳統(tǒng)的預(yù)測方法是通過分析歷年考研成績變量的變化趨勢, 得出對應(yīng)的變化規(guī)律, 從而得出預(yù)測結(jié)果。而文獻[5]中的預(yù)測方法, 在傳統(tǒng)預(yù)測方法的基礎(chǔ)上應(yīng)用了正交核最小二乘法, 通過該技術(shù)方法的應(yīng)用, 分析歷史考研成績數(shù)據(jù)與成績變量之間的關(guān)系, 得出最終的成績預(yù)測結(jié)果。分別將3種預(yù)測方法導(dǎo)入到相同的實驗環(huán)境中, 并連接初始樣本數(shù)據(jù), 保證預(yù)測方法可以實時調(diào)用樣本數(shù)據(jù)。設(shè)置考研成績變量的實際預(yù)測數(shù)據(jù), 其中部分考研成績變量的數(shù)據(jù)設(shè)置情況如表4所示。
表4 考研成績變量數(shù)據(jù)設(shè)置表
將3種方法的預(yù)測結(jié)果與設(shè)置的數(shù)據(jù)做對比, 可以得出有關(guān)考研成績變量預(yù)測誤差的實驗結(jié)果, 其中設(shè)計的考研成績變量的預(yù)測輸出結(jié)果如圖5所示。
圖5 考研成績變量預(yù)測界面Fig.5 Prediction interface of grade variables
預(yù)測對比結(jié)果, 其中樣本序號1的預(yù)測對比結(jié)果如表5所示。
表5 考研成績預(yù)測對比結(jié)果
從表5可以看出, 在實驗樣本1中應(yīng)用傳統(tǒng)的成績變量預(yù)測方法, 得出的平均預(yù)測誤差約為0.58, 而應(yīng)用文獻[5]中提出的以及本設(shè)計的成績變量預(yù)測方法, 對應(yīng)的平均預(yù)測誤差分別為0.57和0.56。使用相同的測試方法得出本次實驗中7 642個樣本的平均預(yù)測誤差, 通過對比傳統(tǒng)預(yù)測方法和文獻[5]中預(yù)測方法的平均預(yù)測誤差分別為0.65和0.62, 而筆者預(yù)測方法的平均預(yù)測誤差為0.54, 由此可見設(shè)計預(yù)測方法的預(yù)測準(zhǔn)確性更高。其原因是所設(shè)計預(yù)測方法綜合所有考研成績的影響因素, 并將其作為Logistic回歸分類算法的自變量導(dǎo)入到構(gòu)建的模型中, 得出對應(yīng)的響應(yīng)變量, 即考研成績變量的概率測算結(jié)果, 在一定程度上, 有助于提高預(yù)測結(jié)果準(zhǔn)確性。
大學(xué)生畢業(yè)去向的選擇不僅對大學(xué)生自身非常重要, 同時也是國家、 社會、 高校十分關(guān)注的問題??佳惺紫纫蠂覙?biāo)準(zhǔn), 其次按照考研進度, 分別完成與學(xué)校聯(lián)系、 報名、 初試、 調(diào)劑、 復(fù)試、 復(fù)試調(diào)劑以及錄取等程序。考研成績是決定大學(xué)生能順利拿到研究生學(xué)位的重要決定因素, 考研成績按照不同的報考專業(yè), 對應(yīng)的計算方式不同, 考研的必考科目包括專業(yè)課、 英語、 數(shù)學(xué)和政治, 此外, 其他專業(yè)課均為招生自主命題、 閱卷??佳谐煽冏兞康念A(yù)測可以在一定程度上影響考生的實際成績, 通過Logistic算法的應(yīng)用解決了變量單一的問題, 從實驗結(jié)果看能有效地提升對考研成績變量預(yù)測的準(zhǔn)確度, 因此設(shè)計的基于Logistic算法的考研成績變量預(yù)測方法可以推廣使用。