摘要:該文將布爾關聯規(guī)則Apriori算法應用于高校決策中,以獲得對高校決策的有價值的輔助信息,進而為高校各個部門提高科學的決策支持。
關鍵詞:數據挖掘;Apriori算法;高校決策
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2014)01-0170-02
數據挖掘技術在美國高校管理及院校研究中主要運用在預估大學入學人數、優(yōu)化課程設置、預測學生保留及畢業(yè)情況、評估學生學習成果及研究學生學習生活經歷等等。在我國高等教育領域內,隨著高校規(guī)模的不斷擴大和信息技術的飛速發(fā)展,各個高校都建立了高校信息管理系統,這些系統大大提高了教學和管理的水平,同時也積累了海量的數據。將數據挖掘技術應用于高校決策中,對高校招生、學生成績管理、教師信息管理、學生就業(yè)等等方面這些信息資源進行研究,可以獲得對高校決策的有價值的輔助信。該文對數據挖掘技術中的布爾關聯規(guī)則Apriori算法進行分析研究,并將其運用在高校決策中,進而為各個部門提高科學的決策支持。
1 布爾關聯規(guī)則Apriori算法
Apriori算法是一種布爾關聯規(guī)則挖掘頻繁項集的深度優(yōu)先算法,該算法是用頻繁項集的性質,進行逐層搜索的一種迭代方法,即K項集用于探察(K+1)項,集。該算法的基本思想是:第一步列出所有的頻繁項集。預定義的一個最小支持度,確保這些項集的頻繁性至少和預設值一樣。然后產生強關聯規(guī)則,并且要求其滿足最小支持度和最小可信度。第二步用第一步中產生的規(guī)則,生成只包含集合的項的規(guī)則。并且只保留那些大于預設值的規(guī)則。為了生成所有頻繁項集,使用了遞推的方法。
K項集用于探察(K+1)項集,第一步掃描數據庫中的每一項,收集并找到滿足預設值的頻繁1項集的集合,記作L1。第二步根據頻繁1項集確定頻繁2項集L2,然后用L2找L3,依次類推直到無法找到頻繁項集為止。
從Lk-1項集探查L項集,由連接步和剪枝步組成:
1)連接步:把Lk-1中項集與自身連接,產生候選K項集集合,將該集合記作Ck。
2) 剪枝步:雖然所有頻繁的K項集都包含在Ck中,但Ck 集合中的成員可能不都是頻繁的。將Ck中各項的計數與預設值進行比較,符合要求的項都是頻繁的,從而確定Lk。
2 高校決策應用的研究
基于數據挖掘技術中的布爾關聯規(guī)則Apriori算法,可以對高校已有的海量數據進行分析挖掘,從設置課程、高校招生、教學評估等方面多維度的尋找關聯度,從而達到為高校管理提高科學決策支持的目的。高校決策系統對教育決策的輔助作用主要體現在以下設計中:
1)高校教學的評估:由于不同教師的授課方式和教學水平的差異,學生的成績也會有所差別。通過數據挖掘技術,可以發(fā)現教師學歷、職稱、授課方式等同學生成績之間的聯系,從而對高校的教學進行評估,并提出輔助性的決策建議,已提高教學的質量。
2)課程的合理設置:高校各個專業(yè)課程之間都具有一定的銜接性,先行課程的學習效果會直接影響后續(xù)課程的學習。利用數據挖掘技術對學生的成績進行分析,尋找課程之間的關聯性,并以此為依據,對課程設置提出有價值的決策建議。
3)高校招生的分析:在高校招生部門進行高招錄取的時候,生源是其保障。他們的目標是在保證學生高的報到率的前提下,能夠錄取高素質的學生。在錄取過程中,可以通過使用關聯規(guī)則算法對學生的信息進行挖掘和分析。以學校的歷年招生數據為數據源,利用數據挖掘技術對的考生報到率進行預測。可以為招生部門提供招生決策支持建議。
3 Apriori算法在高校決策中的應用研究
本文以高校決策中的學生信息數據倉庫D作為分析對象進行研究,利用Apriori算法對樣本進行分析、挖掘。
通過表1的學生信息數據倉庫D演示挖掘過程。假設最小支持度的預設值為2。
1) 在算法第一輪迭代中,所有項都是候選1項集C1的成員。通過算法掃描所有事務,統計所有項的出現次數。
2) 由C1中符合最小支持度要求的項集來確定頻繁1項集L1。
3) 將L1與自身相連接,從而產生頻繁2項集C2。
4) 通過掃描D中的事務,對C2中所有候選項集支持度的進行計數。
5) 將C2中符合最小支持度要求的項集來確定頻繁2項集L2。
6) 首先C3=L2∧L2={{1,2,3},{1,3,5},{2,3,5}}。由于{1,2}不是頻繁的,所以{1,2,3}也不是頻繁的,從而得到C3={{1,3,5},{2,3,5}}。
7) 將C3中符合最小支持度要求的候選組成頻繁3項集L3。
8) 將L3與自身相連接,從而產生候選項C4。因為不存在頻繁子集,C4為空集,所以算法終止。
具體過程如圖1中所示。
圖1 候選項和頻繁項集的產生
當頻繁項集挖掘完成后,可利用Apriori算法生成關聯規(guī)則。
假定需要挖掘項集L={1,3,5}。L的非空子集有6個:{1}、{3}、{5}、{1,5}、{1,3}、{3,5},計算結果如下:
1[?]3∧5, confidence=2/3=66.7%
3[?]1∧5, confidence=2/4=50%
5[?]1∧3, confidence=2/4=50%
3∧5[?]1, confidence=2/3=66.7%
1∧5[?]3, confidence=2/2=100%
1∧3[?]5 confidence=2/3=66.7%
假設最小置信度閾值為65%,則第1、4、5、6個規(guī)則可以作為強關聯規(guī)則進行最終輸出。
4 結論
在高校教學數字信息化的時代趨勢下,使用關聯規(guī)則挖掘方法從高校海量數據中發(fā)現潛在的數據規(guī)律,并進行分析和預測,為決策者做出正確的決策提供理論依據,對高等院校擴大規(guī)模、提高辦學質量有著重要的實踐意義。 (下轉第225頁)
(上接第171頁)
參考文獻:
[1] 常桐善.數據挖掘技術在美國院校研究中的應用[J].復旦教育論壇,2009(2).
[2] 李橋,陽春華.關聯規(guī)則Apriori算法在教學評價中的應用[J].計算機與數字工程,2010(6).
[3] Han J W,Micheline Kamber M.數據挖掘概念與技術[M].北京:機械工業(yè)出版社,2008.