王智星+鄧艷+胡忠紅
摘要:為了減少高考填報志愿的失誤率,降低填報志愿的風險,使考生充分了解自己的成績排名、學校的招生情況、填報理想高校時自身的優(yōu)勢及劣勢,該文展開了對高考志愿預測的數(shù)學模型的研究。在引言部分分析了高考考生填報志愿的現(xiàn)狀,并分別從采集數(shù)據(jù)、數(shù)學建模、模型檢驗、不足、總結和討論這幾個方面對主題做了詳細的剖析。研究表明該數(shù)學模型的精確性較高、效果顯著,能在一定程度上給考生、家長及學校帶來便利。
關鍵詞:高考志愿;預測;數(shù)據(jù)建模
中圖分類號:TP311 文獻標識碼:A文章編號:1009-3044(2016)10-0094-02
高考是人生一個非常重要的轉折點,說得夸張一點是“一著不慎滿盤皆輸”,而這個轉折點的關鍵環(huán)節(jié)就是填報志愿。在這個信息化的時代,如何借助高科技手段及時準確地采集高考考生志愿,如何為考生提供一種可參考的高考志愿學校及專業(yè)選擇指導,都是考生、家長、學校及招生管理部門都關心的問題,也是當前招生考試業(yè)務信息化研究的熱點問題[1]。所以,我們想到建立這樣一個系統(tǒng),目的就是使考生充分了解自己的成績排名、學校的招生情況、填報理想高校時自身的優(yōu)勢及劣勢,并且在一定程度上提高預測精確度,確保準確的填報志愿。
1 目的背景
每年都有不少考生由于心系名牌、眼高手低;追捧熱門、盲目從眾;固執(zhí)己見、獨斷專行;亦步亦趨、墨守成規(guī);不加分析、草率行事等各種原因而沒有順利進入理想高校。真正能正確評估衡量自我,認真分子揣摩當年錄取形式的少之又少[2]。而且,考生一般都是在網上查找資料,但是網上的信息雖然多但是雜亂,考生及其家長很難準確有效的找到所需的信息;并且網上的資料有很多已經過時,沒有及時更新,缺乏真實性。隨著科學技術的不斷進步,也出現(xiàn)了一些針對高考志愿預測分析的系統(tǒng),但很多都是利用心理學、問卷調查、計算數(shù)學分析診斷以及量表和工具等對歷史高考錄取的相關數(shù)據(jù)進行統(tǒng)計和分析[1]。就目前現(xiàn)有的預測模型算法中,有的基于關鍵字的Web數(shù)字信息挖掘方法,在該方法的基礎上利用回歸分析方法實現(xiàn)高考預測,但是數(shù)據(jù)缺乏權威性和準確性;有的采用神經網絡和分類中的相關算法,對普通高考的錄取數(shù)據(jù)進行分析,但神經網絡算法參數(shù)選取比較單一;有的采用決策樹和C4.5算法實現(xiàn)高考考生生源分析系統(tǒng),返回挖掘的規(guī)則集;有的運用C4.5算法生成非平衡數(shù)據(jù)集下的二叉決策樹,建立高考數(shù)據(jù)分析模型。但這些高考數(shù)據(jù)分析模型應用于高考錄取預測中,使用數(shù)據(jù)挖掘算法時對數(shù)據(jù)集的屬性選擇和屬性值選擇不太合理,預測精度有待提高[3]。所以,我們設想了這樣一種數(shù)學模型,以一種簡潔有效的方式為考生提供全省乃至全國的分數(shù)排名情況、高校招生情況以及高校的錄取分數(shù)線,把考生最想了解的信息以最醒目的方式展現(xiàn)出來,確保每位考生及其家長都能快速便捷地找到所需要的資料,使考生充分了解自己填報理想高校時自身的優(yōu)勢及劣勢。
2數(shù)據(jù)采集
高考時間是每年6月的7、8號,而志愿填報則根據(jù)每個省的政策不同而時間不同,但一般都是高考后的半個月到20天左右。各省排名的五分段數(shù)據(jù)和批次線發(fā)布的時間比志愿填報的時間提前幾天,我們采用的是人工采集的方式,由于是人工采集,為避免出現(xiàn)誤差,會分批對數(shù)據(jù)進行檢查修改,確保數(shù)據(jù)的準確性。一般來說,首次采集的難度較大,要錄入往年的信息,但是以后就只要進行數(shù)據(jù)的維護即可。我們的數(shù)據(jù)來源于中華人民共和國教育部政府門戶網站陽光高考平臺,信息準確可靠。而每年各高校的最低錄取分數(shù)線需要等到錄取結束后大概半個月左右才能出來,那個時候再進行數(shù)據(jù)采集,為第二年預測招生錄取做準備。
3數(shù)學建模
根據(jù)中華人民共和國教育部政府門戶網站提供的數(shù)據(jù),下面主要以2012-2013年數(shù)據(jù)為例。根據(jù)5分段數(shù)據(jù),我們團隊制成了分數(shù)與人數(shù)的散點圖(圖3所示,x軸為分數(shù),y軸為人數(shù)),并且我們推導出了趨勢圖和二項式數(shù)學模型。
2012理科人數(shù):
y = 5E-12x6 - 1E-08x5 + 8E-06x4 - 0.0027x3 + 0.4978x2 - 36.299x + 697.81
2012文科人數(shù):
y = 2E-12x6 - 3E-09x5 + 2E-06x4 - 0.0006x3 + 0.1622x2 - 17.859x + 535.89
2013理科人數(shù):
y = 1E-12x6 - 2E-09x5 + 7E-07x4 - 0.0002x3 + 0.0633x2 - 5.3345x + 70.191
2013文科人數(shù):
y = -2E-12x6 + 4E-09x5 - 4E-06x4 + 0.0013x3 - 0.1476x2 + 4.7074x + 1.2302
根據(jù)趨勢圖我們發(fā)現(xiàn)2012年和2013年的趨勢圖是一致的,只是圖形平移了,說明湖南省近兩年高考的分數(shù)分布是一致的,高考錄取與考生的分數(shù)高低無關,主要與考生考分排名有關。
因此我們根據(jù)已采集的五分段數(shù)據(jù),推導出了2012-2013年的考分排名趨勢圖( x軸為分數(shù),y軸為排名):
根據(jù)湖南生考生5分段數(shù)據(jù)進行進一步分析,推導出近兩年考生分數(shù)排名,并以此建立數(shù)學模型:
2012理排名公式:
y = -2E-11x6 + 5E-08x5 - 3E-05x4 + 0.0085x3 - 1.4088x2 + 103.48x + 170621
2012文排名公式:
y = -2E-11x6 + 3E-08x5 - 2E-05x4 + 0.0003x3 + 0.5468x2 - 56.414x + 144422
2013理排名公式:
y = -4E-11x6 + 8E-08x5 - 5E-05x4 + 0.0121x3 - 1.7503x2 + 117.42x + 178471
2013文排名公式:
y = -1E-11x6 + 1E-08x5 + 6E-06x4 - 0.0092x3 + 2.1867x2 - 153.4x + 149577
4 模型檢驗
眾所周知,高校錄取分數(shù)受多種社會因素的影響。高校的綜合實力是影響高校錄取分
數(shù)線的根本因素。并且,根據(jù)每年招生就業(yè)的形式不同,各個高校的專業(yè)錄取線會有所不同,熱門專業(yè)的分數(shù)就會比往常高一些,而有了熱門專業(yè),肯定就有冷門專業(yè),這些專業(yè)的錄取線就會相應的有所起伏。但也不是絕對的,只是這些因素不可避免,當然模型檢驗的結果也會有一些誤差,但誤差也是維持在一定的范圍,這個范圍內預測的錄取線還是有效的。
本預測系統(tǒng)中存放了近幾年全國高校的錄取信息,在這里僅選取2012-2013年部分院校在湖南的招生情況,來預測2014年全國部分高校的錄取線。任意選取十所高校的實際錄取線,根據(jù)模型得出了預測錄取線和誤差,下面兩個圖分別是這十所高校2014年文科模型驗證表和2014年理科模型驗證表:
在這里需要衡量抽樣誤差,判斷抽樣樣本統(tǒng)計量是否對總體參數(shù)具有代表性及數(shù)學模型預測錄取線的可靠度。因此,根據(jù)對這十所高校實際錄取線和數(shù)學模型預測出的錄取線的分析,計算了標準誤。標準誤的計算公式是:1)求得預測值的平均值;2)計算預測值與平均值之間差的平方和;3)求出第二步得出的結果與樣本數(shù)減一的商并開平方;4)拿第三步求出的值除以樣本數(shù)開平方的值,所得的值就是標準誤。2014年文科錄取線預測的標準誤為21.9486522,2014年理科錄取線預測的標準誤為29.74080624。雖然表面看來標準誤的值偏大,但對于選取樣本數(shù)較小時,該標準差的值表示誤差還是在有效范圍內的。當樣本統(tǒng)計量越大時,標準誤越小,表明樣本統(tǒng)計量與總體參數(shù)的值越接近,樣本對總體越有代表性,用樣本統(tǒng)計量腿短總體參數(shù)的可靠度越大。
該模型雖然能在一定程度上保證預測結果的準確性,但是很顯然它也有不足的地方。高考志愿填報本身就存在多方面不確定的因素,我們只能根據(jù)近幾年錄入的數(shù)據(jù)進行分析,不能避免一些不確定因素造成的志愿預測誤差,因此會存在個別高校錄取線預測結果誤差較大的情況;目前僅僅只采集了兩年的高考數(shù)據(jù),該數(shù)學模型還不是特別穩(wěn)定。
針對研究的不足之處,后續(xù)會對模型做進一步的改善:多采集幾年的數(shù)據(jù),使分析得出的數(shù)學模型更加精確,誤差更??;采取數(shù)據(jù)挖掘技術對采集到的數(shù)據(jù)進行分類,提煉處理,優(yōu)化數(shù)學模型;對高考志愿填報的現(xiàn)狀和未來可能出現(xiàn)的問題進行更深入的研究,盡量避免不確定因素對志愿填報帶來的誤差和影響。
5 結束語
綜上所述,該模型算法的效果顯著,能給考生及其家長還有學校帶來便利,也能減少在高考志愿填報上的失誤,降低風險,因此該預測數(shù)學模型是可行的。但是考生填報志愿也不能只依靠預測錄取線,還是應該綜合考慮多個方面的因素,比如興趣愛好、未來的職業(yè)發(fā)展、是否服從專業(yè)調劑以及個人的身體條件是否符合高校或專業(yè)的要求等,并且要多注意志愿填報的時間、提前批和自主招生等信息,才能更準確的填報志愿,進入理想高校深造。
參考文獻:
[1] 王亞盛. 高考志愿網報系統(tǒng)性能優(yōu)化與志愿預測分析[D]. 昆明: 昆明理工大學, 2011.
[2] 余揚, 吳先進. 走出填報志愿的誤區(qū)[J]. 高校招生,2002(3).
[3] 劉金鵬. 數(shù)據(jù)挖掘技術在考生志愿分析中的應用研究[D].鄭州:河南大學,2009.