魏然 孫全亮 呂震宇
摘? 要:由于新高考“6選3”模式不再區(qū)分文理科,這使得無法根據(jù)院校歷史文理分科數(shù)據(jù)對新高考院校錄取分?jǐn)?shù)進(jìn)行有效預(yù)測。鑒于此,提出了一種文理科歷史數(shù)據(jù)歸一化方案,以招生人數(shù)作為權(quán)重將院校文理分科歷史數(shù)據(jù)合并生成虛擬數(shù)據(jù),并使用線性回歸模型對新高考“6選3”模式下高校錄取分?jǐn)?shù)做出預(yù)測。實(shí)驗(yàn)結(jié)果表明,該方法能夠整合歷史文理分科數(shù)據(jù),對實(shí)施新高考模式高校的錄取分?jǐn)?shù)進(jìn)行精準(zhǔn)預(yù)測。
關(guān)鍵詞:新高考;分?jǐn)?shù)預(yù)測;歸一化;線性回歸
中圖分類號:O223;TP393? ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2021)02-0188-04
Abstract:Because the “three out of six” model of the new college entrance examination no longer distinguishes liberal arts and sciences,it is impossible to effectively predict the admission scores of the new college entrance examination colleges according to the historical data of liberal arts and sciences of colleges. In view of this,this paper proposes a normalization scheme for the historical data of liberal arts and sciences,which combines the historical data of liberal arts and sciences of colleges and generates virtual data with the enrollment number as the weight,and uses the linear regression model to predict the admission scores of colleges under the “three out of six” model of the new college entrance examination. The experimental results show that this method can integrate the historical data of liberal arts and sciences,and accurately predict the admission scores of colleges implementing the new college entrance examination model.
Keywords:new college entrance examination;score prediction;normalization;linear regression
0? 引? 言
高考志愿推薦質(zhì)量取決于對高校錄取成績的精準(zhǔn)預(yù)測。高考志愿推薦行業(yè)借助精準(zhǔn)的高校高考錄取預(yù)測成績向考生階梯性推薦高考志愿填報方案。在國內(nèi)以往的研究中,王康平等提出了線差法,利用高校錄取分與提檔線計算差值進(jìn)行預(yù)測[1]。邊帥等提出線上百分位法,利用提檔線和累計排名計算分?jǐn)?shù)對應(yīng)的百分位進(jìn)行預(yù)測[2]。徐宗保提出了利用神經(jīng)網(wǎng)絡(luò)分析法來預(yù)測高校錄取分?jǐn)?shù)[3]。陸昌輝等運(yùn)用等效分法建立高考志愿錄取概率模型[4]。這些算法的基本思路都是將院校歷史收分?jǐn)?shù)據(jù)轉(zhuǎn)換為排名,并根據(jù)排名反推高校當(dāng)年可能的錄取分?jǐn)?shù)。新一輪高考招生制度改革正式啟動的標(biāo)志是國務(wù)院于2014年9月出臺的《關(guān)于深化考試招生制度改革的實(shí)施意見》。在新高考中也出現(xiàn)不分文理、選課走班等諸多變化[5],新高考采取選科模式,學(xué)生可自主從6門課程中選取3門課程作為高考科目。根據(jù)選科方式的不同,新高考模式還可分為“6選3”模式和“3+1+2”模式。其中“3+1+2”模式要求學(xué)生必須在物理和歷史兩科中任選其一,這與過去文理分科模式具有較高的相似性?!?選3”模式允許學(xué)生任意選擇3門課程作為高考科目,相較于“3+1+2”模式具有更高的靈活性,然而其也為高校高考錄取預(yù)測帶來了新的問題。
傳統(tǒng)文理分科模式下,文科、理科存在兩個“一分一檔”表,而新高考“6選3”模式下只有選科一個“一分一檔”表,該“一分一檔”表與文理分科模式下兩個“一分一檔”表沒有可比性,進(jìn)而導(dǎo)致傳統(tǒng)預(yù)測算法失效,無法對首次實(shí)施“6選3”模式高校的錄取分?jǐn)?shù)做出準(zhǔn)確預(yù)測。盡管有人嘗試將文理科“一分一檔”表進(jìn)行合并,但受制于文理科錄取分?jǐn)?shù)的巨大差異,合并以失敗告終。為此,有部分學(xué)者開始從算法入手解決無法參考以往數(shù)據(jù)的問題,周凱等人因新高考模式下歷年招錄數(shù)據(jù)參考價值受限而提出了一種基于“文理等位分”方法的志愿填報數(shù)學(xué)模型[6]。趙潔等人提出了利用計劃累計曲線預(yù)測志愿填報位次[7],根據(jù)平行志愿投檔規(guī)則,理論上各院校位次比率相對穩(wěn)定。這種方法也可以叫“位次率方法”或“位次占比法”,是對歷史文理科數(shù)據(jù)分別計算。在本文中不再對歷史數(shù)據(jù)分別計算而是嘗試將歷史數(shù)據(jù)合并為虛擬數(shù)據(jù),那么如何利用新高考模式之前的文理分科歷史數(shù)據(jù)對新高考“6選3”選科錄取分?jǐn)?shù)進(jìn)行預(yù)測便成為迫切需要解決的問題。
1? 方案設(shè)計
1.1? 總體設(shè)計
“6選3”模式下高校首年錄取分?jǐn)?shù)預(yù)測方案如圖1所示。
首先,使用高校各年文理科錄取分?jǐn)?shù)線對高校歷史文理分科錄取分?jǐn)?shù)進(jìn)行歸一化處理,形成文理分科錄取百分位信息,確保文理科數(shù)據(jù)的可比性。其次,利用高校文理科錄取人數(shù)百分比作為權(quán)重對文理科錄取百分位進(jìn)行合并,形成虛擬選科錄取百分位。再次,對歷史虛擬選科錄取百分位進(jìn)行線性回歸,并根據(jù)線性回歸模型預(yù)測高校當(dāng)年的錄取百分位。最后,根據(jù)當(dāng)年錄取分?jǐn)?shù)線和選科“一分一檔”表,將預(yù)測選科錄取百分位轉(zhuǎn)化為錄取排名并進(jìn)一步換算為預(yù)測的錄取分?jǐn)?shù)。
1.2? 文理科錄取分?jǐn)?shù)歸一化
數(shù)據(jù)歸一化處理(也可以稱為“標(biāo)準(zhǔn)化處理”),用以解決數(shù)據(jù)指標(biāo)之間的不可比問題[8]。
采用最值歸一化的方法對分?jǐn)?shù)和排名這兩個原始數(shù)據(jù)進(jìn)行歸一化處理,目的是理清歷年分?jǐn)?shù)和排名的關(guān)系,使數(shù)據(jù)可比。根據(jù)各年度某省份招生考試院公布的“一分一檔”表,可以查出某一分?jǐn)?shù)所對應(yīng)的累計人數(shù)、本科分?jǐn)?shù)線所對應(yīng)的累計人數(shù),以本省最低錄取控制分?jǐn)?shù)線所對應(yīng)的累計人數(shù)作為參考,按照等百分位等值方式進(jìn)行歸一化轉(zhuǎn)換,求得線上錄取百分位,以此來消除考生人數(shù)變化對錄取分?jǐn)?shù)的影響。需要代入此轉(zhuǎn)換函數(shù)的只有排名數(shù)據(jù),排名數(shù)據(jù)為需要?dú)w一化的樣本數(shù)據(jù),轉(zhuǎn)換后的數(shù)據(jù)為百分位,映射區(qū)間為[0,1],數(shù)據(jù)歸一化之后可以使轉(zhuǎn)換數(shù)據(jù)更直觀,也可使樣本數(shù)據(jù)轉(zhuǎn)換為可比數(shù)據(jù)。
在文理分科模式下,設(shè)成績m對應(yīng)“一分一檔”表的排名為r,則歸一化后本科批線上百分位計算公式為:
??婆€上百分位計算公式為:
其中,am為分?jǐn)?shù)m對應(yīng)的錄取百分位,r1為本科批分?jǐn)?shù)線對應(yīng)的位次,r2為??婆?jǐn)?shù)線對應(yīng)的位次,l1為本科批分?jǐn)?shù)線,l2為??婆?jǐn)?shù)線。
通過歸一化處理,可以將不可比的文理科分?jǐn)?shù)信息轉(zhuǎn)換為可比的線上百分位信息,這為后續(xù)文理科合并奠定了基礎(chǔ)。
1.3? 加權(quán)平均法合并文理科
加權(quán)平均法,是利用同一變量的觀測值以過去若干個按照時間順序并以此順序變量出現(xiàn)的次數(shù)作為權(quán)數(shù),計算出某個觀測值的加權(quán)算術(shù)平均數(shù),以這一結(jié)果作為預(yù)測未來期間該變量預(yù)測值的趨勢預(yù)測方法??紤]到理科(或文科)招生人數(shù)占文理科總招生人數(shù)的比例直接決定了理科(或文科)錄取百分位對最終合并結(jié)果的影響,因此將文理科招生人數(shù)百分比作為權(quán)重指標(biāo)對文理科錄取百分位進(jìn)行合并,生成虛擬選科錄取百分位。具體計算公式為:
其中,aElc為虛擬選科錄取百分位,NArt為往年文科的計劃人數(shù),aArt為往年文科錄取百分位,NSci為往年理科的計劃人數(shù),aSci為往年理科錄取百分位。
1.4? 線性回歸預(yù)測模型
為了更好地擬合因變量關(guān)于自變量,所以對散點(diǎn)圖連接成的直線進(jìn)行一元線性回歸[9]。新高考“6選3”模式下的預(yù)測錄取百分位的一元線性回歸分析,是回歸分析中一種預(yù)測第n年的錄取百分位數(shù)據(jù),確定兩個變量之間關(guān)聯(lián)性的一種統(tǒng)計分析方法。
假設(shè)線上百分位a與年份y之間存在線性關(guān)系,構(gòu)建線性回歸方程為:
在參數(shù)估計上選用最小二乘法對回歸函數(shù)的系數(shù)作出估計,最小二乘法的準(zhǔn)則是確定的值,使誤差平方和達(dá)到最小,最小二乘法是一種數(shù)學(xué)優(yōu)化技術(shù),它可以通過最小化誤差的平方和來找到一組數(shù)據(jù)的最佳函數(shù)匹配,簡而言之就是利用最簡單的方法求得一些絕對不可知的真值,從而令誤差平方之和為最小,以下就兩個變量之間的關(guān)系來說明最小二乘法的原理及其應(yīng)用,由最小二乘法可知:
預(yù)測年度線上百分位公式為:
由式(1)或式(2)可反向求得預(yù)測排名,進(jìn)而通過查找“一分一檔”表得到預(yù)測分?jǐn)?shù)。
2? 方案實(shí)施
以首都師范大學(xué)2020年在山東省的招生錄取分?jǐn)?shù)預(yù)測為例,本課題中數(shù)據(jù)來源是山東省各年度公布的“一分一檔”表和2017—2019年由山東省教育招生考試院發(fā)布的《全國普通高校招生錄取分?jǐn)?shù)分布統(tǒng)計》中找出所需代入的數(shù)據(jù),根據(jù)以上數(shù)據(jù)確定首都師范大學(xué)2017—2019年在山東錄取的文理科錄取平均分、錄取最低分、文理科招生人數(shù)。首都師范大學(xué)2017—2019年在山東招生分?jǐn)?shù)數(shù)據(jù)如表1所示。
根據(jù)式(1)計算2017年首都師范大學(xué)在山東文科錄取平均分對應(yīng)的百分位:
同理可以由表1中數(shù)據(jù)分別求出各年份文理科的錄取平均分百分位和錄取最低分百分位,結(jié)果如表2所示。
根據(jù)式(3)將首都師范大學(xué)2017年文理科招生人數(shù)百分比作為權(quán)重指標(biāo)對文理科平均錄取百分位進(jìn)行合并,得到首都師范大學(xué)2017年虛擬選科平均錄取百分位:
同理,其他各年度虛擬選科平均錄取百分位與最低錄取百分位的計算結(jié)果如表3所示。
根據(jù)式(4)至式(6),以計算得到的2017至2019年首都師范大學(xué)虛擬錄取平均分百分位為基礎(chǔ)進(jìn)行線性回歸,由最小二乘法可得:
b=0.930 971-0.002 2×2018=-3.508 629
因此最終回歸方程為:
a=0.002 2y-3.508 629
以此計算得到2020年預(yù)測錄取平均分百分位為:
a2020=0.002 2×2020-3.508 629=0.935 371=93.537 1%
山東2020年選科錄取分?jǐn)?shù)線為449,通過查找2020年度山東省高考“一分一檔”表得到對應(yīng)排名為272 673,由式(1)可以求出首都師范大學(xué)2020年預(yù)測平均分排名為:
r2020=r1(1-a2020)=272 637×(1-0.935 371)=17 620.26
在得出2020年度首都師范大學(xué)在山東省的預(yù)測錄取平均分百分位后,通過2020年度山東省高考“一分一檔”表,采用線上百分位方法將預(yù)測錄取百分位轉(zhuǎn)換為錄取分?jǐn)?shù)。對于考生來說只有分?jǐn)?shù)才是最直觀的,通過反向查找2020年度山東省高考“一分一檔”表,得到首都師范大學(xué)2020年預(yù)測平均分為615。對比首都師范大學(xué)2020年度在本校官網(wǎng)公布的錄取平均分614.5分,預(yù)測結(jié)果與實(shí)際錄取平均分誤差只有0.5分,相對誤差為0.08%。
3? 結(jié)? 論
本文通過對歷史文理科錄取數(shù)據(jù)進(jìn)行百分位歸一化處理,將歷史文理科合并構(gòu)建出虛擬選科歷史數(shù)據(jù),然后根據(jù)虛擬選科歷史數(shù)據(jù)線性回歸預(yù)測新高考“6選3”模式下高校錄取分?jǐn)?shù),有效解決了無歷史數(shù)據(jù)情況下高校錄取分?jǐn)?shù)的預(yù)測問題。由于山東省教育招生考試院官方網(wǎng)站僅提供3年歷史數(shù)據(jù),因此本文僅使用3年歷史數(shù)據(jù)建立線性回歸模型。隨著數(shù)據(jù)增加可以考慮使用多年的歷史數(shù)據(jù)進(jìn)行預(yù)測可獲得更高的預(yù)測精度,未來可考慮通過進(jìn)一步增加歷史數(shù)據(jù)量來提高預(yù)測準(zhǔn)確度。
本模型實(shí)現(xiàn)了在沒有歷史數(shù)據(jù)的情況下通過構(gòu)造歷史數(shù)據(jù)對首次采取新高考模式院校的錄取分?jǐn)?shù)進(jìn)行預(yù)測,這對其他首次采取新高考模式的省份精準(zhǔn)預(yù)測高校錄取分?jǐn)?shù)提供了一條可行的路徑,也為新高考模式下志愿推薦填報指明了方向,給考生的志愿填報提供助力。
參考文獻(xiàn):
[1] 王康平,劉艷杰.如何填報高考志愿 [M].廈門:廈門大學(xué)出版社,2016:180-191.
[2] 邊帥,王宏利,呂震宇,等.基于異常剔除平均排位法的高校錄取分預(yù)測 [J].經(jīng)濟(jì)師,2019(11):179-180+182.
[3] 徐宗保.高考志愿填報關(guān)鍵技術(shù)研究及系統(tǒng)實(shí)現(xiàn) [D].鎮(zhèn)江:江蘇大學(xué),2017.
[4] 陸昌輝,羅永,黃權(quán),等.高考志愿錄取概率模型研究 [J].計算機(jī)工程與應(yīng)用,2010,46(21):14-16+24.
[5] 王穎.了解新高考 實(shí)施新舉措 [J].遼寧教育,2019(18):7-8.
[6] 周凱,鄔學(xué)軍,沈守楓.新高考模式下志愿填報數(shù)學(xué)模型的研究 [J].電腦知識與技術(shù),2018,14(19):18-19.
[7] 趙潔,呂富蕾.新高考精準(zhǔn)化志愿填報策略——以山東省2020年夏季高考為例 [J].濟(jì)寧學(xué)院學(xué)報,2020,41(5):88-94.
[8] 湯榮志,段會川,孫海濤.SVM訓(xùn)練數(shù)據(jù)歸一化研究 [J].山東師范大學(xué)學(xué)報(自然科學(xué)版),2016,31(4):60-65.
[9] 李蘋,劉昆,徐堅(jiān),等.一元線性回歸在成績預(yù)測中的應(yīng)用 [J].電腦知識與技術(shù),2016,12(24):125-126.
作者簡介:魏然(1992—),男,河北唐山人,碩士研究生在讀,研究方向:工程管理、信息化與管理創(chuàng)新;通訊作者:呂震宇(1976—),男,漢族,河北唐山人,教授,碩士生導(dǎo)師,碩士,研究方向:管理信息系統(tǒng)、數(shù)據(jù)分析與挖掘。