朱賀
摘要: 學生最關心的問題莫過于考試成績和名次,但面對紛繁的科目和有限時間的矛盾,學生很難在短時間內將各個成績都有一個明顯的提高。選擇哪一門努力突擊,提高單門成績,就成為困擾學生的難題。貝葉斯信念網絡在復雜的存在不確定性和關聯(lián)性的問題上有著很好適應性,適用于此問題的探索。通過某校2014年理科錄取新生高考各門成績的分析,以貝葉斯信念網絡為模型基礎,旨在為高考學生提供科目選擇的參考。
關鍵詞:貝葉斯信念網絡;成績分析;高考
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)08-0261-02
現(xiàn)代社會是一個講求效率的社會,在學習上同樣也是這樣。學生試圖以最小的時間耗費獲得最大的效益,也就是成績的提高。但面對紛繁的科目和有限時間的矛盾,想要在短時間內獲得各科成績的提高又似乎是一件不可能完成的任務。由此,產生了一個歷年來困擾學生的問題,在有限的時間內學習哪一門才能獲得最大的名次提升,提高在錄取時的競爭力。本文借助貝葉斯網絡模型,通過對某高校2014年理科錄取新生成績的研究,得到了一些啟示。
1貝葉斯信念網絡概述
貝葉斯信念網絡,是Pearl在1988年提出的,是貝葉斯方法的推進,能有效的處理多源信息的表達,在知識的分析及推理領域有著廣泛的應用。貝葉斯網絡模型是一種概率網絡模型,其使用圖形化網格來做概率推理,以獲得概率信息,適合應用在復雜的存在不確定性和關聯(lián)性的問題上。
貝葉斯網絡可由兩種元素解釋:有向無環(huán)圖和條件概率表(CPT)。通過有向邊鏈接各種變量節(jié)點,構成有向無環(huán)圖。在有向無環(huán)圖中,每個節(jié)點為一種隨機變量,而每條有向邊體現(xiàn)出節(jié)點間的依賴關系,有向邊的箭頭指向子節(jié)點。而這種依賴關系的強弱的具體體現(xiàn)就通過條件概率表顯示出來。
貝葉斯網絡構造可按以下方法進行。
(1) 收集相關變量,明確其意義:確定目標變量,尋找和目標變量相關的其觀測變量,并窮盡變量值以構造模型。
(2) 建立有向無環(huán)圖:
(3) 確定局部概率[pxipai],為每一個變量[xi]的父節(jié)點集合確定所有分布。
2構建以高考成績?yōu)閿祿呢惾~斯信念網絡
2.1 模型構建
選取某高校2014年理科錄取學生成績,保留錄取志愿及高考分數字段,刪除其他字段。以學生填報的志愿為目標變量,并將該校的18個理科錄取專業(yè)數據映射為“0-17”18個數字字段,理科綜合、英語、數學、語文四門高考科目為預測變量,通過IBM SPSS Modeler15.0軟件建立貝葉斯網絡。貝葉斯網絡的結構類型使用TAN算法,參數學習方法使用最大似然法。數據甄別使用數據審核模塊,模型構建評價使用ROC評估模塊,最終構建模型如圖1所示。
2.2 實驗結果及分析
通過貝葉斯信念網絡模型,使用高考各科成績數據,最終構造出的有向無環(huán)圖如圖2所示。各變量重要性經過標準化處理后,理科綜合、英語、數學、語文四個變量重要性分別為0.6、017、0.16、0.08,如圖3所示,成績數據分類錄取志愿的收益ROC圖,如圖4所示。
通過收益ROC圖,可以看出專業(yè)代碼為“0”的收益曲線比收益基準線有了明顯的提高,其下方面積也較收益基準線下方的面積有了明顯的增大,代表此分類模型的準確率是可觀的并可以作為參考的。在此基礎上,透過變量重要性圖,得出理科綜合變量的重要性顯著的高于其他三個變量,即意味著該變量在決定最終目標變量的分類中具有最大的權重。同時,如圖5所示,理科綜合標準差是最大的,代表其數據分布距均值的距離較大;而且數據分布較其他變量而言,范圍較廣,具有相同值的數據較少,數據體現(xiàn)出分類的區(qū)別度更高。
3總結
以貝葉斯信念網絡為模型,擬合某高校2014級新生高考成績數據,得到的結果顯示出理科綜合在錄取專業(yè)的分類中具有最重要的地位,決定著專業(yè)錄取類別。雖然各單科成績的提高都會在最終總分上得以體現(xiàn),但是從以上分析可以看出,不同于理科綜合科目,其他三門科目的考生成績分布較集中,體現(xiàn)出題目的難易度在考生上有了較為相似的反應,在分數上就是考生分數較為集中,高低分差距不大。反觀理科綜合科目,考生分數分布較為分散,題目難易度體現(xiàn)在考生上有了較大的反差,分數有較大的區(qū)分度,高低分差距明顯。這樣,我們得到結論:以此高校新生高考數據而言,如果考生將精力多用于理科綜合的學習,提高該門科目的成績,其在專業(yè)選擇上就會有較大的優(yōu)勢。
參考文獻:
[1] 謝斌,劉長建.基于貝葉斯網絡構建的學生成績評價系統(tǒng)及影響分析[J].中國科教創(chuàng)新導刊,2011(31):34-35.
[1] 姜紅艷.數據挖掘在學生成績分析中的應用[D].吉林大學,2006.
[2] 丁知斌,袁方.基于數據倉庫的數據挖掘技術在高校學生成績分析中的應用[J].河北大學成人教育學院學報,2004(4):19-21.
[3] 黃羿,馬新強,武彤,等.基于數據倉庫的學生成績分析模型設計[J].信息技術,2007(2):18-20.
[4] 周建方,唐椿炎,許智勇.事件樹、故障樹、決策樹與貝葉斯網絡[J].河海大學學報:自然科學版,2009(3):351-355.
[5] 張少中.基于貝葉斯網絡的知識發(fā)現(xiàn)與決策應用研究[D].大連理工大學,2003.
[6] 姚武軍,魏彬.基于貝葉斯樹和集成學習的異常檢測[J].武漢大學學報:理學版,2014(6):497-499.
[7] 慕春棣,戴劍彬,葉俊.用于數據挖掘的貝葉斯網絡[J].軟件學報,2000(5):660-666.
[8] 胡春玲.貝葉斯網絡研究綜述[J].合肥學院學報:自然科學版,2013(1):33-39.
[9] 王國平,郭偉宸,汪若君.IBM SPSS Modeler數據與文本挖掘實戰(zhàn)[M].清華大學出版社,2014.
[10] 范明,孟小峰(譯).數據挖掘概念與技術(原書第三版)[M].機械工業(yè)出版社,2012.