国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

學(xué)生成績(jī)的動(dòng)態(tài)預(yù)警模型

2015-05-12 11:18:50白金劉琳婧周江輝
科教導(dǎo)刊 2015年4期
關(guān)鍵詞:預(yù)警模型關(guān)聯(lián)規(guī)則決策樹

白金 劉琳婧 周江輝

摘 要 通過利用高校教務(wù)管理信息儲(chǔ)存的教務(wù)信息,開發(fā)設(shè)計(jì)基于數(shù)據(jù)挖掘的學(xué)生成績(jī)動(dòng)態(tài)預(yù)警模型;引入數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則方法和決策樹方法,利用Apriori算法和ID3算法分別對(duì)學(xué)生成績(jī)進(jìn)行數(shù)據(jù)挖掘,以期找出課程間的內(nèi)在聯(lián)系,并將它們分別作為關(guān)聯(lián)規(guī)則用于學(xué)生成績(jī)預(yù)警,最后比較兩種算法,選擇較優(yōu)算法模型作為最后成績(jī)預(yù)警模型。該預(yù)警模型有利于對(duì)學(xué)生做出提前預(yù)警,對(duì)提高學(xué)生成績(jī)具有良好效果。

關(guān)鍵詞 數(shù)據(jù)挖掘 預(yù)警模型 關(guān)聯(lián)規(guī)則 決策樹

中圖分類號(hào):TP315 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/j.cnki.kjdks.2015.02.074

Dynamic Warning Model of Students' Achievement

BAI Jin, LIU Linjing, ZHOU Jianghui

(Business Information College, Shanghai University of International Business and Economics, Shanghai 201600)

Abstract Through the use of the Senate Higher Educational Administration Management Information storage, development and design based on student achievement data mining dynamic warning model; the introduction of data mining association rules and decision tree method using Apriori algorithm and ID3 algorithm separately on student achievement data mining in order to find the intrinsic link between the course and they were used as association rules for student achievement warning, final comparison of the two algorithms, selecting optimum algorithm model as the final score early warning models. The warning model is beneficial for students to make early warning, to improve student achievement with good results.

Key words data mining; warning model; association rules; decision tree

0 引言

隨著高校教務(wù)管理信息系統(tǒng)的廣泛應(yīng)用,高校擁有大量學(xué)生的考試成績(jī)和教務(wù)數(shù)據(jù),國(guó)內(nèi)已有一些研究者以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)面向這些信息展開了數(shù)據(jù)挖掘工作,如魏順平在《學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時(shí)代下教育數(shù)據(jù)的價(jià)值》一文中介紹了教育數(shù)據(jù)挖掘在我國(guó)的發(fā)展歷程及相關(guān)的概念,并提到了5類教育數(shù)據(jù)挖掘方法;①葉福蘭則利用數(shù)據(jù)挖掘技術(shù)在高校已有的教育數(shù)據(jù)上給出了學(xué)生成績(jī)預(yù)警的分析,尋找不及格課程間內(nèi)在聯(lián)系、可能聯(lián)系和關(guān)鍵因素;②劉斌、陳依潼則利用K-均值聚類方法分析學(xué)生評(píng)價(jià)方式;③以及王璇利用Apriori算法分析大學(xué)生心理狀況。④

1 基于數(shù)據(jù)挖掘技術(shù)的成績(jī)預(yù)警模型

預(yù)警主要分為兩個(gè)部分:規(guī)則產(chǎn)生和規(guī)則匹配。規(guī)則產(chǎn)生部分,預(yù)警模型接收學(xué)生成績(jī)訓(xùn)練集,從中依靠?jī)?nèi)部算法獲取符合要求的成績(jī)預(yù)警規(guī)則。規(guī)則匹配部分,預(yù)警模型接受待處理學(xué)生成績(jī)和課程,而后根據(jù)規(guī)則產(chǎn)生部分產(chǎn)生的規(guī)則,進(jìn)行逐一匹配、篩選,最后輸出預(yù)警信息。

如圖1所示,基于數(shù)據(jù)挖掘的成績(jī)預(yù)警模型由數(shù)據(jù)輸入/輸出接口,數(shù)據(jù)預(yù)處理模塊、預(yù)警規(guī)則挖掘模塊、成績(jī)預(yù)警規(guī)則庫和預(yù)警模塊5部分組成。其中,預(yù)警規(guī)則挖掘模塊是該模型的核心部分,它負(fù)責(zé)從輸入的訓(xùn)練集中挖掘預(yù)警規(guī)則,并將符合條件的規(guī)則儲(chǔ)存到預(yù)警規(guī)則庫中。預(yù)警模塊式將從數(shù)據(jù)預(yù)處理模塊里的學(xué)生成績(jī)和課程信息,與成績(jī)預(yù)警規(guī)則庫中的規(guī)則匹配,再根據(jù)已設(shè)定的預(yù)警條件比較,繼而決定是否生成預(yù)警信息。數(shù)據(jù)輸入/輸出接口、預(yù)警模塊可以實(shí)現(xiàn)實(shí)時(shí)的學(xué)生成績(jī)預(yù)警信息,到達(dá)動(dòng)態(tài)預(yù)警的目的。

圖1 基于數(shù)據(jù)挖掘的成績(jī)預(yù)警模型

2 基于關(guān)聯(lián)規(guī)則的成績(jī)預(yù)警模型

2.1 關(guān)聯(lián)規(guī)則和 Apriori算法

設(shè) = {,,……,}是項(xiàng)(Item)的集合。記為事務(wù)的集合,事務(wù)是項(xiàng)的集合,并且 。對(duì)應(yīng)每一個(gè)事務(wù)有唯一的標(biāo)識(shí),如事務(wù)號(hào),記作。設(shè)是一個(gè)中項(xiàng)的集合,如果 ,那么稱事務(wù)包含。項(xiàng)的集合稱為項(xiàng)集。包含個(gè)項(xiàng)的項(xiàng)集稱為項(xiàng)集。項(xiàng)集的出現(xiàn)頻率是指包含該項(xiàng)集的事務(wù)數(shù),簡(jiǎn)稱為項(xiàng)集的頻率或支持度計(jì)數(shù)。

定義1 ?一個(gè)關(guān)聯(lián)規(guī)則是形如 的蘊(yùn)涵式,這里 , ,并且∩= 。

定義2 ?規(guī)則 在事務(wù)數(shù)據(jù)中具有支持度,表示支持度S(support)是事務(wù)集中同時(shí)包含 和的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為support( ),即:

support( ) = ∣{:∪ ,}∣/∣∣?00% = ?%

定義3 ?規(guī)則 在事務(wù)集中的置信度(confidence)是指包含和的事務(wù)數(shù)與包含的事務(wù)數(shù)之比,記為confidence( ),即:

confidence( ) =∣{:∪ ,}∣/∣: ,∣?00% = ?%

定義4 ?同時(shí)滿足最小支持度(min_sup)和最小可信度(min_conf)的規(guī)則稱為關(guān)聯(lián)規(guī)則,即S( )>min_sup且C( )>min_conf成立時(shí),規(guī)則 稱為強(qiáng)關(guān)聯(lián)規(guī)則。

Apriori算法是關(guān)聯(lián)規(guī)則的重要方法,是挖掘布爾型頻繁項(xiàng)目集的算法。它使用一種稱為逐層搜索的迭代方法,“K-項(xiàng)集”用于探索“K+1-項(xiàng)集”。這是一個(gè)基于兩階段頻繁集思想的方法,將關(guān)聯(lián)規(guī)則算法的設(shè)計(jì)分為兩個(gè)子問題:①找到所有支持度大于min_sup的項(xiàng)集,即頻繁項(xiàng)集。②使用第一步找到的頻繁項(xiàng)集找到置信度大于或 最小置信度min_conf的關(guān)聯(lián)規(guī)則。

2.2 基于關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)

2.2.1 數(shù)據(jù)預(yù)處理

由于目前高校成績(jī)數(shù)據(jù)庫中存貯的成績(jī)信息主要是百分制的成績(jī)和五分制成績(jī)?yōu)橹?,所以需將?shí)驗(yàn)數(shù)據(jù)進(jìn)行處理、變換。本文基于關(guān)聯(lián)規(guī)則的成績(jī)預(yù)警模型方法是將學(xué)生成績(jī)變?yōu)殡x散的布爾類型數(shù)據(jù)(0,1)。具體為:將學(xué)生成績(jī)大于該科平均分的,記為0;小于該科平均分的,記為1。再添加輔助列“預(yù)警”,如果學(xué)生成績(jī)存在不及格科目,記為“Y”;不存在不及格科目的,記為“N”。一般而言,數(shù)據(jù)變換的過程需要經(jīng)歷數(shù)據(jù)選擇、數(shù)據(jù)清洗(多次成績(jī)處理和缺失成績(jī)處理)、數(shù)據(jù)集成和變換等步驟。

2.2.2 基于關(guān)聯(lián)規(guī)則挖掘結(jié)果分析

實(shí)現(xiàn)本模型的軟件環(huán)境為操作系統(tǒng)為Windows XP,采用Oracle 數(shù)據(jù)庫管理系統(tǒng)提取學(xué)生成績(jī),并使用SPSS Clementine軟件進(jìn)行數(shù)據(jù)挖掘工作。根據(jù)Clementine軟件的特點(diǎn),本實(shí)驗(yàn)選擇處理時(shí)將低于平均成績(jī)記為“1”,高于平均成績(jī)的記為“0”。這樣的目的是使本次分析出的關(guān)聯(lián)規(guī)則方向?yàn)椋簩?duì)于學(xué)生成績(jī)不及格情況下,各個(gè)課程之間的關(guān)聯(lián)性。

表1 挖掘出的規(guī)則數(shù)和類規(guī)則平均預(yù)測(cè)準(zhǔn)確率

以教務(wù)管理系統(tǒng)中導(dǎo)出信息管理與信息系統(tǒng)2010級(jí)和2011級(jí)部分學(xué)生3年的成績(jī)?yōu)橛?xùn)練集,以其余學(xué)生3年成績(jī)?yōu)闇y(cè)試集Dtest,用以挖掘課程和學(xué)生成績(jī)之間的關(guān)聯(lián)關(guān)系。并最終,選擇信息管理與信息系統(tǒng)的10門必修課程成績(jī)作為最后實(shí)驗(yàn)數(shù)據(jù)。10門課程為:數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,數(shù)據(jù)庫原理與應(yīng)用,操作系統(tǒng),C++面向?qū)ο蟪绦蛟O(shè)計(jì),程序設(shè)計(jì)基礎(chǔ)(英),微積分(I),微積分(II),概率論,線性代數(shù)。

設(shè)={,,… }為類關(guān)聯(lián)規(guī)則的規(guī)則集。將已經(jīng)產(chǎn)生的關(guān)聯(lián)規(guī)則 ,記為(,),得到類關(guān)聯(lián)規(guī)則:(,) ,為類別。記為類別為“Y”的數(shù)據(jù)集合。定義類規(guī)則:(,)的預(yù)警準(zhǔn)確率為(),類規(guī)則集的預(yù)測(cè)準(zhǔn)確率為()。

(公式1)P()=

(公式2)()=

經(jīng)過反復(fù)試驗(yàn)、驗(yàn)證,分別設(shè)置最小支持度分別為0.40、0.37、0.34,最小置信度為0.90、0.87和0.84,在此參數(shù)條件設(shè)置下挖掘類規(guī)則集預(yù)警準(zhǔn)確率。

上文所提出的模型從上述實(shí)驗(yàn)結(jié)果看,準(zhǔn)確性在60%~70%之間。實(shí)驗(yàn)結(jié)果表明,該模型及其方法在實(shí)踐上是有效的。

3 基于決策樹算法的成績(jī)預(yù)警模型

3.1 決策樹算法

決策樹算法是一種典型的分類和預(yù)測(cè)方法,也是一種逼近離散函數(shù)值的方法。它具有算法思想簡(jiǎn)單,識(shí)別樣本效率高,對(duì)噪聲數(shù)據(jù)有很好的健壯性等優(yōu)點(diǎn)。決策樹使用樣本的自身屬性作為節(jié)點(diǎn),用屬性取值作為分支的樹型結(jié)構(gòu)。它的根節(jié)點(diǎn)是所有樣本中信息量最大的屬性。ID3算法是機(jī)器學(xué)習(xí)領(lǐng)域中最具有影響力的決策樹方法之一,采用自頂向下的遞歸方法C4.5是ID3算法的改進(jìn)算法,它增加了:能夠?qū)B續(xù)屬性離散化處理等變化。而C5.0是C4.5應(yīng)用于大數(shù)據(jù)集上的分類算法,主要在執(zhí)行效率和內(nèi)存使用方面進(jìn)行了改進(jìn)。本文采用C5.0算法進(jìn)行挖掘分析。

3.2 基于C5.0算法的發(fā)現(xiàn)

(1)數(shù)據(jù)預(yù)處理。將如表1所示的原始數(shù)據(jù),將成績(jī)分為3種:“0<成績(jī)<60”記為“差”;將“60<=成績(jī)<80”記為“一般”;將“成績(jī)=>80”記為“好”。并增加一列“預(yù)警”,將學(xué)生成績(jī)存在掛科的記為“Y”;不存在掛科的記為“N”。

(2)基于C5.0算法挖掘結(jié)果分析。使用SPSS Clementine軟件進(jìn)行分析,選擇將決策樹進(jìn)行剪枝,將科目:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘和C++面向?qū)ο蟪绦蛟O(shè)計(jì)和操作系統(tǒng)從決策樹中剪去。

最后,從決策樹中抽取的規(guī)則為(表2):

通過表2可以分析出,微積分A(I)和微積分A(II)對(duì)學(xué)生影響較大,當(dāng)該科為“一般”或者“好”時(shí),學(xué)生不屬于預(yù)警生的概率較大。當(dāng)學(xué)生數(shù)據(jù)結(jié)構(gòu)不及格時(shí)情況時(shí),學(xué)生有很大可能成為預(yù)警生。因此學(xué)校在日常教學(xué)活動(dòng)中,應(yīng)特別關(guān)注學(xué)生這幾門課程的學(xué)習(xí)。

(3)準(zhǔn)確性測(cè)試。設(shè)={,,… }為從決策樹中抽取的規(guī)則的規(guī)則集。設(shè),,…,為課程名,有個(gè)取值:{,,…,}。={,,…}為類別的集合。定義規(guī)則: ? ?= ,…, ?= ,then 的預(yù)警準(zhǔn)確率為,類規(guī)則集的預(yù)測(cè)準(zhǔn)確率為。

(公式3)=

(公式4)()=

通過訓(xùn)練集Dtest,本模型通過上述數(shù)據(jù)可達(dá)到60%的預(yù)警準(zhǔn)確率。實(shí)驗(yàn)結(jié)果也表明,基于決策樹技術(shù)的學(xué)生動(dòng)態(tài)成績(jī)預(yù)警模型在實(shí)踐上是有效的。但據(jù)歷史經(jīng)驗(yàn)來看,C5.0算法優(yōu)勢(shì)在與準(zhǔn)確性高,而本次試驗(yàn)準(zhǔn)確率卻為60%,初步分析是由于試驗(yàn)數(shù)據(jù)有限,對(duì)準(zhǔn)確性測(cè)試過程產(chǎn)生了一些影響。

4 結(jié)論

在將兩種方法的輸出轉(zhuǎn)化為統(tǒng)一輸出后,即兩種方法輸出都為:預(yù)警類別,因此,可直接進(jìn)行準(zhǔn)確性比較。通過比較上述兩種模型和方法,發(fā)現(xiàn)選用Apriori算法,模型預(yù)警率較高。而且C5.0算法預(yù)警率較低。對(duì)數(shù)據(jù)的噪聲較為敏感,訓(xùn)練集中的一些錯(cuò)誤會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生較大影響。當(dāng)C5.0算法訓(xùn)練集增加時(shí),C5.0的決策樹也會(huì)變化,所以當(dāng)學(xué)生成績(jī)訓(xùn)練集變化時(shí),成績(jī)決策樹變化,從而使預(yù)警規(guī)則庫發(fā)生不斷變化,這對(duì)于成績(jī)預(yù)警過程來說,是不方便的。

通過設(shè)計(jì)基于關(guān)聯(lián)規(guī)則的成績(jī)動(dòng)態(tài)預(yù)警模型,初步證明了基于數(shù)據(jù)挖掘的預(yù)警技術(shù)是有效的。隨著對(duì)應(yīng)用領(lǐng)域的不斷深入開發(fā),對(duì)基于數(shù)據(jù)挖掘的預(yù)警技術(shù)的深入研究,相信該模型、機(jī)制具有更廣闊的前景。

注釋

① 魏順平.學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時(shí)代下教育數(shù)據(jù)的價(jià)值.現(xiàn)在教育技術(shù),2013(2).

② 葉福蘭.基于數(shù)據(jù)挖掘的高校學(xué)生成績(jī)預(yù)警狀況分析.長(zhǎng)春師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2013(5).

③ 劉斌,陳依潼.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用.電腦編程技巧與維護(hù),2014(16).

④ 王璇.改進(jìn)的Apriori算法在大學(xué)生心理數(shù)據(jù)分析中的應(yīng)用.中原工學(xué)院院報(bào),2011(22).

猜你喜歡
預(yù)警模型關(guān)聯(lián)規(guī)則決策樹
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于RS—ANN的大學(xué)生心理危機(jī)預(yù)警模型構(gòu)建與應(yīng)用
考試周刊(2016年103期)2017-01-23 17:18:13
關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評(píng)價(jià)體系中的應(yīng)用
基于模糊分析法的高校專利初級(jí)預(yù)警模型的研究
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測(cè)方法
農(nóng)村消失的影響因素及建模研究
科技視界(2016年22期)2016-10-18 15:00:50
財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警研究綜述
绥江县| 工布江达县| 涪陵区| 南溪县| 河南省| 军事| 元阳县| 嘉善县| 云阳县| 甘肃省| 阿克陶县| 柳河县| 新泰市| 罗江县| 谢通门县| 山阴县| 星座| 彰化县| 祁连县| 紫云| 莫力| 电白县| 金门县| 巨鹿县| 靖州| 永安市| 潼南县| 定襄县| 建瓯市| 楚雄市| 通河县| 苍溪县| 和林格尔县| 晴隆县| 西贡区| 镇赉县| 阜南县| 寿宁县| 尚义县| 洛隆县| 卓尼县|