王舒 李浩* 鐘科 聶珊 周文安
(1.四川省計(jì)算機(jī)研究院 四川省成都市 610041 2.四川大學(xué)招生辦公室 四川省成都市 610065)
在我國,高考一直是一個(gè)重要事件,它對(duì)于考生以及考生家庭都有著重要的意義,它關(guān)系著考生大學(xué)四年的學(xué)習(xí)以及未來人生發(fā)展,被很多人視為人生的一次轉(zhuǎn)折。這些年我國的高考志愿填報(bào)方式逐漸改革,由之前的考前填報(bào)、估分填報(bào)變?yōu)榱丝己竽玫匠煽?jī)?cè)偬顖?bào),這種填報(bào)方式降低了考生因發(fā)揮異常而與填報(bào)學(xué)校失之交臂的風(fēng)險(xiǎn),但同時(shí),如何根據(jù)自己的成績(jī)填報(bào)理想的志愿尤為重要[1]。
高考志愿填報(bào)輔助系統(tǒng)目前有兩類,一類是通過考生的心理測(cè)評(píng)來為考生推薦適合考生的專業(yè)和院校[2];另一類是以歷史高考成績(jī)?yōu)橐罁?jù),為考生推薦符合成績(jī)范圍的專業(yè)和院校[3,4]。這一類高考志愿填報(bào)系統(tǒng)目前國內(nèi)有一些,提供往年高校錄取分?jǐn)?shù)、比例介紹,專業(yè)簡(jiǎn)介和就業(yè)前景等信息描述??傮w來說推薦的信息量較大,但是大多數(shù)是信息的羅列而缺少對(duì)信息底層數(shù)據(jù)的挖掘與分析,重點(diǎn)推薦,因此并不能解決考生志愿填報(bào)的盲目性。
本文圍繞上述內(nèi)容展開研究,通過對(duì)分?jǐn)?shù)標(biāo)準(zhǔn)化方法的改進(jìn)并結(jié)合灰度預(yù)測(cè)模型,設(shè)計(jì)并實(shí)現(xiàn)了基于改進(jìn)灰度算法的分?jǐn)?shù)預(yù)測(cè)模型,并應(yīng)用于高考志愿決策系統(tǒng),能夠快速和準(zhǔn)確地給出高校錄取分?jǐn)?shù)的預(yù)測(cè)結(jié)果。
本文的研究工作主要以標(biāo)準(zhǔn)分轉(zhuǎn)換為基礎(chǔ),并應(yīng)用了灰度預(yù)測(cè)模型,因此對(duì)標(biāo)準(zhǔn)分計(jì)算、灰度預(yù)測(cè)模型進(jìn)行了相關(guān)研究。
標(biāo)準(zhǔn)分制度是根據(jù)教育測(cè)量學(xué)理論建立的一套有關(guān)分?jǐn)?shù)報(bào)告、分?jǐn)?shù)解釋和分?jǐn)?shù)使用的制度。它向考生報(bào)告各科標(biāo)準(zhǔn)分及百分等級(jí),報(bào)告總分(改稱綜合分)的標(biāo)準(zhǔn)分百分等級(jí)[4]。其標(biāo)準(zhǔn)化過程如下:
設(shè)構(gòu)成原始成績(jī)的集合為{x1, x2,x3, …, xn},則平均分計(jì)算公式為:
表1:標(biāo)準(zhǔn)分轉(zhuǎn)換結(jié)果
標(biāo)準(zhǔn)差為:
對(duì)于任意原始分xi有:
則稱Zi是xi的標(biāo)準(zhǔn)分,也稱Z 分?jǐn)?shù)。
目前我國高考標(biāo)準(zhǔn)分[6]采用CEEB 分?jǐn)?shù),計(jì)算方法為:
采用標(biāo)準(zhǔn)分比采用原始分計(jì)算優(yōu)點(diǎn)是十分明顯的,因?yàn)闃?biāo)準(zhǔn)分主要體現(xiàn)的是考生的排名情況,但是針對(duì)本系統(tǒng)來說,傳統(tǒng)的標(biāo)準(zhǔn)分計(jì)算方法存在以下不足:首先標(biāo)準(zhǔn)分是按照正態(tài)分布來計(jì)算的,但是由于每年的考生水平以及考題難易程度不相同,考生成績(jī)分布情況受影響;其次如果數(shù)據(jù)不完整會(huì)導(dǎo)致計(jì)算結(jié)果不準(zhǔn)確。因此有研究者提出使用位次信息作為分析依據(jù),但是考生動(dòng)輒數(shù)萬名,為此信息在計(jì)算以及表示的時(shí)候都不夠直觀,文獻(xiàn)[6]提出,通過一分一段將分?jǐn)?shù)轉(zhuǎn)換為位次,再由位次轉(zhuǎn)換為分?jǐn)?shù),這樣做可以解決上述問題。但是卻忽略了一個(gè)問題,即在分?jǐn)?shù)與位次轉(zhuǎn)換過程中,一個(gè)位次對(duì)應(yīng)的分?jǐn)?shù)是唯一的,而一個(gè)分?jǐn)?shù)對(duì)應(yīng)的位次不唯一。以四川省高考數(shù)據(jù)為例,2019 年理科分?jǐn)?shù)為655 的共有300 名考生,排名6671 至6971,因此這個(gè)排名段內(nèi)的名次均對(duì)應(yīng)了理科655 分。
基于上述問題本文提出了一種新的標(biāo)準(zhǔn)分計(jì)算方法,能夠更準(zhǔn)確地將分?jǐn)?shù)與位次的對(duì)應(yīng)關(guān)系表示出來。
定量預(yù)測(cè)方法有很多,目前應(yīng)用比較廣泛的有神經(jīng)網(wǎng)絡(luò)法、回歸分析法、時(shí)間序列法、灰色預(yù)測(cè)法等等[12],這些方法各有優(yōu)缺點(diǎn)。而針對(duì)高考數(shù)據(jù)分析來說,首先樣本不需要過多,因?yàn)殡S著區(qū)域以及高等教育的發(fā)展,多年以前的高考數(shù)據(jù)基本不具有參考性;其次高考分?jǐn)?shù)分布沒有明顯的規(guī)律。因此灰度預(yù)測(cè)法適用于分?jǐn)?shù)線的預(yù)測(cè)。
灰度預(yù)測(cè)是由鄧聚龍教授在上世紀(jì)八十年代提出的[7]。它具有如下幾個(gè)特點(diǎn)[8]:
(1)不需要大量樣本;
(2)樣本不需要有規(guī)律性分布;
(3)計(jì)算工作量??;
(4)定量分析與定性分析結(jié)果不會(huì)不一致;
(5)可用于Recent、短期、中長(zhǎng)期預(yù)測(cè);
(6)灰度預(yù)測(cè)準(zhǔn)確率高。
文獻(xiàn)[9~10]以及文獻(xiàn)[13]采用了灰度預(yù)測(cè)模型對(duì)高考錄取分?jǐn)?shù)進(jìn)行了預(yù)測(cè),文獻(xiàn)[14~16]針對(duì)灰度預(yù)測(cè)模型本身進(jìn)行了改進(jìn)研究。但目前的研究中并未將高校錄取人數(shù)變化對(duì)高校錄取分?jǐn)?shù)線的影響引入到灰度模型中做改進(jìn)測(cè)試。
圖1:標(biāo)準(zhǔn)分與原始分對(duì)比
圖2:算法結(jié)果對(duì)比
一所高校招生人數(shù)增多或者減少都會(huì)影響考生對(duì)該校志愿的填報(bào)意愿,從而影響該校錄取分?jǐn)?shù)線?;谏鲜鲅芯勘疚膶?duì)灰度模型計(jì)算方法加以改進(jìn),引入了影響因子,更滿足高校分?jǐn)?shù)預(yù)測(cè)的實(shí)際需求。
改進(jìn)標(biāo)準(zhǔn)分計(jì)算方法如下:{s1, s2, …, sn}表示n 所高校在最近一年錄取分?jǐn)?shù)線,根據(jù)一分一段得到排名為{r1, r2, …, rn},其中r={Rlow, Rhigh},表示最低排名到最高排名區(qū)間范圍。根據(jù)r 轉(zhuǎn)換為該高校歷年分?jǐn)?shù){Sy1, Sy2, …, Sym},SS={Wlow, Whigh}即為某高校在某年度的標(biāo)準(zhǔn)分。
以五所高校(中國人民大學(xué)RUC、南開大學(xué)NKU、吉林大學(xué)JLU、江蘇大學(xué)JSU、東北林業(yè)大學(xué)NEFU)在四川省內(nèi)2015 年~2018 年的高考分?jǐn)?shù)為例,基于2019 年的標(biāo)準(zhǔn)分轉(zhuǎn)換結(jié)果如表1所示。
表2:實(shí)驗(yàn)結(jié)果
表3:誤差比對(duì)
觀察表1 可以看出,高校原始錄取分?jǐn)?shù)分差較大,沒有直觀的可比性,通過轉(zhuǎn)換為標(biāo)準(zhǔn)分后,分?jǐn)?shù)比較平緩,說明該學(xué)校在四川省內(nèi)收分處于一個(gè)較穩(wěn)定的區(qū)間內(nèi),更利于學(xué)生參考。從上表中選取吉林大學(xué),將轉(zhuǎn)換前與轉(zhuǎn)換后的分?jǐn)?shù)進(jìn)行對(duì)比如圖1 所示。
根據(jù)圖1 可以看出轉(zhuǎn)換后的數(shù)據(jù)相比之前的數(shù)據(jù),提高了數(shù)據(jù)一致性,解決了因分?jǐn)?shù)波動(dòng)對(duì)分?jǐn)?shù)預(yù)測(cè)造成的影響。
設(shè)某高校錄取標(biāo)準(zhǔn)分原始序列為:
y(0)=(y(0)(1), y(0)(2), …, y(0)(n) ),d 為作用于y 的算子,它的定義為:
s0為該高校擬招生人數(shù),S0為有效考生總?cè)藬?shù),sn為該高校對(duì)應(yīng)年的招生人數(shù)Sn為對(duì)應(yīng)年有效考生總?cè)藬?shù)。則新序列為x(0)=(x(0)(1), x(0)(2), …, x(0)(n)),其中
計(jì)算該數(shù)列的級(jí)比為:
計(jì)算步驟如下:
(1)原始數(shù)據(jù)累加以便弱化隨機(jī)序列的波動(dòng)性和隨機(jī)性,分別得到x^((0) )的一次累加生成數(shù)列
(2)對(duì)x(1)(t)建立x(1)(t)的一階線性微分方程:
(3)對(duì)累加生成數(shù)據(jù)x(1)做均值生成B 與向量Yn,即
分別對(duì)高校的錄取分?jǐn)?shù)采取原始分灰度預(yù)測(cè)(GM)、標(biāo)準(zhǔn)分灰度預(yù)測(cè)(SS-GM)、改進(jìn)標(biāo)準(zhǔn)分灰度預(yù)測(cè)(N-SS-GM),抽取十所高校預(yù)測(cè)結(jié)果如表2 所示。
通過實(shí)驗(yàn)結(jié)果比對(duì),不采用標(biāo)準(zhǔn)分預(yù)測(cè)的分?jǐn)?shù)結(jié)果與實(shí)際分?jǐn)?shù)相差較多,采用標(biāo)準(zhǔn)分預(yù)測(cè)和采用改進(jìn)灰度預(yù)測(cè)模型預(yù)測(cè)結(jié)果更接近于實(shí)際分?jǐn)?shù)。
通過對(duì)模型生成結(jié)果s(1)與真實(shí)數(shù)據(jù)s(0)之間的殘差e 和相對(duì)誤差q(x):
來驗(yàn)證文本算法的有效性,對(duì)上述10 個(gè)高校的計(jì)算結(jié)果進(jìn)行檢驗(yàn),如表3 所示。
將計(jì)算結(jié)果用折線圖表示,如圖2 所示。
由圖2 可以看出,改進(jìn)的標(biāo)準(zhǔn)分灰度預(yù)測(cè)模型(N-SS-GM)的相對(duì)誤差在大多數(shù)高校預(yù)測(cè)中要優(yōu)于標(biāo)準(zhǔn)分灰度預(yù)測(cè)模型,山西大學(xué)由于在2019 年招生人數(shù)增加很大,所以改進(jìn)后模型的誤差率較低,而原始預(yù)測(cè)模型則誤差率相對(duì)較高??傮w分析改進(jìn)后的算法誤差率在很低的范圍內(nèi),優(yōu)于其他算法。
本文針對(duì)高考真實(shí)數(shù)據(jù)進(jìn)行分析,采用了改進(jìn)的標(biāo)準(zhǔn)分算法對(duì)標(biāo)準(zhǔn)分進(jìn)行更直觀化的轉(zhuǎn)換,后采用改進(jìn)灰度預(yù)測(cè)算法預(yù)測(cè)分?jǐn)?shù),實(shí)驗(yàn)結(jié)果證明效果很好。接下來的工作主要有以下幾個(gè)方面:首先,擴(kuò)大實(shí)驗(yàn)數(shù)據(jù)的范圍,將方法應(yīng)用于較低分?jǐn)?shù)段進(jìn)行驗(yàn)證;其次,在分析預(yù)測(cè)高校分?jǐn)?shù)的基礎(chǔ)上,預(yù)測(cè)專業(yè)的錄取分?jǐn)?shù);最后將預(yù)測(cè)分?jǐn)?shù)結(jié)果與錄取率計(jì)算相結(jié)合,給出完整的報(bào)考指南。