基于關(guān)聯(lián)規(guī)則Apriori算法的學(xué)生成績分析

2018-01-24 21:27王成勇

價值工程 2018年5期

王成勇

摘要：關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域研究的熱點問題，其中Apriori算法是經(jīng)典的關(guān)聯(lián)規(guī)則算法。將關(guān)聯(lián)規(guī)則Apriori算法應(yīng)用到學(xué)生成績分析中，挖掘出課程與課程之間的相互關(guān)系，尋找各方面影響學(xué)生成績的因素，發(fā)現(xiàn)隱藏在數(shù)據(jù)背后有價值的信息，從而為學(xué)生選課和教師教學(xué)以及教學(xué)管理工作等提供輔助性的建議與決策。

Abstract： Association rule mining is a hot topic in the field of data mining. Apriori algorithm is a classical association rule algorithm. This paper applies the association rule apriori algorithm to analyze student achievement data， digs out the relationship between the course and the curriculum， finds out the factors that affect the student achievement in all aspects， and finds the hidden information behind the data， so as to provide supplementary advice and decision-making for student course selection， teacher teaching and teaching management.

關(guān)鍵詞：學(xué)生成績分析；數(shù)據(jù)挖掘；關(guān)聯(lián)規(guī)則技術(shù)；Apriori算法

Key words： student achievement analysis；data mining；association rule technique；Apriori algorithm

中圖分類號：TP311.1 文獻標(biāo)識碼：A 文章編號：1006-4311（2018）05-0171-03

0 引言

近年來隨著信息技術(shù)的飛速發(fā)展，數(shù)據(jù)資源變得越來越豐富，在高校的教學(xué)管理系統(tǒng)中存儲了大量的學(xué)生成績數(shù)據(jù)信息，但由于缺乏必要的技術(shù)手段，因此只能對這些數(shù)據(jù)信息進行簡單的統(tǒng)計、備份和查詢。隱藏在這些大量成績數(shù)據(jù)背后的信息不能得到有效的利用，不利于人才的培養(yǎng)和教學(xué)質(zhì)量的提高，因而迫切需要有更新的技術(shù)方法對這些數(shù)據(jù)進行處理分析。

關(guān)聯(lián)規(guī)則挖掘[1-2]就是一門從歷史數(shù)據(jù)集中發(fā)現(xiàn)隱含模式，從海量數(shù)據(jù)集中發(fā)現(xiàn)潛在的有價值信息的技術(shù)方法，它反映了一個事件與其他事件直接依賴或關(guān)聯(lián)的知識，這幾年已經(jīng)成為數(shù)據(jù)挖掘技術(shù)研究領(lǐng)域的熱門話題[3]。本文運用關(guān)聯(lián)規(guī)則Apriori算法挖掘?qū)W生成績數(shù)據(jù)，可以挖掘出課程與課程之間的相互關(guān)系、影響學(xué)生成績的因素等一些有價值的信息，這些信息可為教學(xué)及管理工作提供支持性的建議，同時也為更加合理的制定人才培養(yǎng)方案和提高教育教學(xué)質(zhì)量提供科學(xué)依據(jù)。

1 關(guān)聯(lián)規(guī)則基本理論

2 關(guān)聯(lián)規(guī)則挖掘算法

2.1 尋找頻繁項目集

在對學(xué)生成績數(shù)據(jù)進行關(guān)聯(lián)規(guī)則分析時，這里采用了Apriori算法來尋找全部的頻繁項目集。Apriori算法是一種重要的關(guān)聯(lián)規(guī)則挖掘算法，它使用了一種被稱為逐層搜索的迭代算法，k-項集用于搜索（k+1）-項集。首先需要掃描事物數(shù)據(jù)庫，累積每個項的計數(shù)，然后收集滿足最小支持度的項，從而找出頻繁1-項目集的集合L1。L1用于尋找頻繁2-項目集的集合L2，而L2用于尋找頻繁3-項目集的集合L3，如此下去，直至不能找到頻繁k-項目集Lk為止[4]。

運用頻繁k-項集用于搜索（k+1）-項集是Apriori算法的核心，該步驟分為連接步和剪枝步：

①連接步驟：為了尋找Lk，在k（k>1）次掃描數(shù)據(jù)庫時，通過Lk-1與自身連接產(chǎn)生候選k-項集的集合Ck。

②剪枝步驟：由于Ck是Lk的超集，即Ck的成員可能是也可能不是頻繁的。需要掃描全部的事務(wù)數(shù)據(jù)庫，確定Ck中每個候選的計數(shù)，判斷是否大于或者等于最小支持度計數(shù)，如果是，那么便認為該候選是頻繁的。為了壓縮Ck，可以運用Apriori性質(zhì)：任何一個頻繁項集的全部非空子集也一定是頻繁的，若某個候選的非空子集不是頻繁的，那么該候選項集肯定也不是頻繁的，從而可以將其從Ck中刪去。

Apriori算法描述如下[5-6]：

輸入：數(shù)據(jù)庫D；最小支持度min_Support

輸出：D中的頻繁項目集L

方法：

L1=find_frequent_1-itemsets（D）；；

for（k=2；Lk-1≠Φ；k++）{

Ck=apriori_gen（Lk-1，min_Support）

for each transaction t∈D{

Ct=subset（Ck，t）；

for each candidate c∈Ct

c.count++；

}

Lk={c∈Ck|c.count？叟min_Support}

}

return L=UkLk

2.2 生成強關(guān)聯(lián)規(guī)則

對于上面得到的每個頻繁項目集L，生成強關(guān)聯(lián)規(guī)則的步驟如下：

①生成L的所有非空子集；

②對于L的每個非空子集S，令R=L-S。

如果有

？叟Min_Confidence

即S？圯R滿足最小置信度閾值，那么輸出關(guān)聯(lián)規(guī)則S？圯R。又因為這個規(guī)則是從頻繁項目集L中生成的，因此一定滿足最小支持度閾值，所以這個規(guī)則為強關(guān)聯(lián)規(guī)則。根據(jù)上面的兩個步驟，就可以得出事物數(shù)據(jù)庫D的全部強關(guān)聯(lián)規(guī)則。endprint

3 應(yīng)用Apriori算法分析學(xué)生成績

3.1 挖掘目標(biāo)與流程

關(guān)聯(lián)規(guī)則挖掘必須具有針對性，也就是說挖掘目標(biāo)要明確，本文希望通過對學(xué)生成績數(shù)據(jù)信息進行研究，找到滿足最小支持度和最小置信度的強關(guān)聯(lián)規(guī)則，挖掘出課程與課程之間的相互關(guān)系，并期望以此結(jié)果來指導(dǎo)教育教學(xué)工作。其中關(guān)聯(lián)規(guī)則挖掘的具體過程如圖1所示。

3.2 數(shù)據(jù)采集

關(guān)聯(lián)規(guī)則挖掘需要豐富的數(shù)據(jù)信息作為基礎(chǔ)。本研究選取學(xué)生成績數(shù)據(jù)庫中8門專業(yè)課程作為研究對象，選取1000條數(shù)據(jù)，用以挖掘課程之間的關(guān)聯(lián)性。學(xué)生成績信息數(shù)據(jù)如表1所示。其中Xuehao為學(xué)號，A～H分別代表8門課程。

3.3 數(shù)據(jù)的處理

通過對原始數(shù)據(jù)進行簡單的泛化處理，可以得到更加豐富的數(shù)據(jù)信息[7-8]。在這部分將對成績數(shù)據(jù)進行離散化，成績達到90分及以上的代表“優(yōu)秀”、成績在80分（包括80分）到90分之間的代表“良好”、成績在70分（包括70分）到80分之間的代表“中等”、成績在60分（包括60分）到70分之間的代表“及格”、成績在60分以下的代表“不及格”，其中“優(yōu)秀、良好、中等、及格、不及格”分別用數(shù)字“1、2、3、4、5”表示，離散化后的數(shù)據(jù)如表2所示。

3.4 挖掘關(guān)聯(lián)規(guī)則

這一步的關(guān)鍵是選擇恰當(dāng)?shù)年P(guān)聯(lián)規(guī)則挖掘算法對數(shù)據(jù)進行分析處理。這里采用關(guān)聯(lián)規(guī)則Apriori算法對離散化后的學(xué)生成績數(shù)據(jù)信息進行挖掘。設(shè)定最小支持度為25%、最小置信度為60%。運行關(guān)聯(lián)規(guī)則Apriori算法程序后，得到的部分實驗結(jié)果如表3所示。

3.5 結(jié)果分析

對于挖掘得到的強關(guān)聯(lián)規(guī)則，需要對結(jié)果進行分析。根據(jù)表3可知，規(guī)則1和2說明了學(xué)好B課程對于學(xué)好G課程有著重要的影響，在安排課程的時候，要將B課程排在前面，同時教師在教學(xué)過程中要督促學(xué)生學(xué)好B課程。

規(guī)則3說明如果A課程和C課程學(xué)的好，那么F課程也就學(xué)的好一些。從規(guī)則3的置信度來分析，其置信度為87%，說明A、C課程與F課程的關(guān)聯(lián)程度比較強。在課程的設(shè)置方面，A、C課程需要排在F課程的前面。

規(guī)則4和5說明了D、E、H三門課程關(guān)聯(lián)比較緊密，并且D課程是最關(guān)鍵的，教師在講解時要仔細講解，讓學(xué)生打好基礎(chǔ)。從表3中還可以得出，這三門課程的開課順序應(yīng)該為D、H、E，同時盡量要將課程安排在連續(xù)的三個學(xué)期。其它規(guī)則的分析方法也是如此，決策者可以根據(jù)具體的實際情況借鑒參考。

4 結(jié)論

關(guān)聯(lián)規(guī)則挖掘技術(shù)是一種非常有用的技術(shù)工具，可以廣泛的應(yīng)用于教學(xué)管理過程中，它能夠挖掘出學(xué)生各門課程成績之間的影響程度，找到教學(xué)中各方面影響學(xué)生學(xué)習(xí)成績的因素，發(fā)現(xiàn)隱藏在成績背后的潛在規(guī)律，幫助我們更好地了解課程的設(shè)置順序以及課時安排是否科學(xué)合理，從而為提高學(xué)校的教學(xué)管理和人才培養(yǎng)質(zhì)量起到積極的促進作用。

參考文獻：

[1]梁循.數(shù)據(jù)挖掘算法與應(yīng)用[M].北京大學(xué)出版社，2006.

[2]Liu J， Liu B， Liu J. Association Rule Mining Algorithm Based On Fuzzy Association Rules Lattice and Apriori[J]. Journal of Convergence Information Technology， 2013， 8（8）：399-406.

[3]Chen W， JiaNan. Teaching analysis based on association rule mining[C]// Conference Anthology， IEEE. IEEE， 2013：1-3.

[4]韓天鵬.關(guān)聯(lián)規(guī)則挖掘算法研究及其應(yīng)用[D].中南民族大學(xué)，2008.

[5]Cheng M， Xu K， Gong X. Research on audit log association rule mining based on improved Apriori algorithm[C]// IEEE International Conference on Big Data Analysis. IEEE， 2016：1-7.

[6]Yang Q. The Application of Apriori Algorithm in the Analysis of Excel Skill Test Results[J]. Guide of Science & Education， 2013.

[7]李忠嘩，王鳳利，何丕廉，等.關(guān)聯(lián)規(guī)則挖掘在課程相關(guān)分析中的應(yīng)用[J].河北農(nóng)業(yè)大學(xué)學(xué)報，2010，33（3）：116-119.

[8]黃秋勇.基于關(guān)聯(lián)規(guī)則挖掘的課程設(shè)置合理性分析[J].智能計算機與應(yīng)用，2010（5）：57-59.endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于關(guān)聯(lián)規(guī)則Apriori算法的學(xué)生成績分析