国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

決策樹算法在學生成績分析中的應(yīng)用研究

2017-03-01 10:56:01韓麗娜韓改寧
電子設(shè)計工程 2017年2期
關(guān)鍵詞:信息熵決策樹增益

韓麗娜,韓改寧

(咸陽師范學院 圖形圖像處理研究所,陜西 咸陽 712000)

決策樹算法在學生成績分析中的應(yīng)用研究

韓麗娜,韓改寧

(咸陽師范學院 圖形圖像處理研究所,陜西 咸陽 712000)

基于挖掘分析影響學生學習效果主因素為目的,采用了能夠?qū)?shù)據(jù)進行挖掘分析并直觀展示結(jié)果的決策樹技術(shù)方法,通過某班學生某門課程的學習信息數(shù)據(jù)進行挖掘分析的試驗,采用ID3和C4.5算法生成決策樹,并使用后剪枝技術(shù)精簡決策樹,最終找出決定本門課程學習效果的主要因素-考勤。從而為分析學生學習情況,給予個性化提示與指導提供有效的建議。

決策樹;信息熵;信息增益;信息增益率

決策樹算法最早源于人工智能的機器學習技術(shù),用以實現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律的探究和新數(shù)據(jù)對象的分類預(yù)測[1-2]。由于其出色的數(shù)據(jù)分析能力和直觀易懂的結(jié)果展示等特點,決策樹成為一種重要的數(shù)據(jù)挖掘技術(shù)。隨著信息化技術(shù)的不斷發(fā)展,高校遇到的新問題越來越多,雖然積累了大量的學生信息,但學生的管理工作越來越復雜[2]。決策樹技術(shù)對學生的學習信息進行挖掘分析,找到影響學習效果的因素以及這些因素反映的相關(guān)問題,那么就能及時反饋教學效果,預(yù)測學生的發(fā)展趨勢,進而對學生的行為進行個性化指導,這樣不僅有利于教師改進教學方式,而且對學生的管理工作也提供了有用信息。所以研究決策樹技術(shù)在高校中的應(yīng)用具有重要的現(xiàn)實意義。

1 決策樹算法及基本概念

1.1 ID3算法

決策樹算法的目的是通過向數(shù)據(jù)學習,獲得輸入變量和輸出變量不同取值下的數(shù)據(jù)分類和預(yù)測規(guī)律,并用于對新數(shù)據(jù)對象的分類預(yù)測[3-4]。屆時,決策樹能夠依據(jù)新數(shù)據(jù)輸入變量的取值,推斷其輸出變量的分類取值。它是一種有指導的學習,要求數(shù)據(jù)既包含輸入變量也包含輸出變量。

決策樹最有名的算法是Quinlan在1986年提出的ID3算法[5],該算法通過計算每個屬性的信息增益,選取具有最高增益的屬性作為給定數(shù)據(jù)集合的測試屬性并創(chuàng)建根節(jié)點,以該屬性為標記,對該屬性的每個取值創(chuàng)建一個分支,并據(jù)此劃分樣本[6-8]。以此類推不斷向下,直到選擇某個葉子節(jié)點,從而構(gòu)造決策樹。

1.2 信息熵及信息增益

信息熵:ID3算法認為,對于樣例集合S而言,擁有P個正例和N個反例(若為多個分類結(jié)果,可照此類推),它的信息熵是信息量的數(shù)學期望,公式為:

樣例集 S中具有某屬性 A且有 v個取值(A {V1,V2,…Vv}),并將S分為對應(yīng)的v個子集S1,S2,…Sv,而且對于任意一個Si子集均含有Pi個正例和Ni個反例,規(guī)定Si的信息熵為:

條件熵:以屬性A為根進行分類的信息熵(也叫條件熵)為:

信息增益:屬性A的信息增益[8-10]定義為:

1.3 C4.5算法

由于ID3算法是以信息增益值的大小作為標準,它存在一定問題:類別值多的輸入變量比類別值少的輸入變量肯定有更多的機會成為當前最佳分組變量。為了解決這個問題,完善形成了C4.5算法。它的核心概念還是信息熵,主要以信息增益率為標準確定最佳分組變量。

信息增益率:屬性A的信息增益率定義為:

可見,如果輸入變量A有較多的分類值,則它的信息熵會很大,而信息增益率會因此降低,進而消除了類別數(shù)目所帶來的影響。

2 決策樹技術(shù)的應(yīng)用

本次數(shù)據(jù)信息以某學院某專業(yè)38名同學《程序設(shè)計基礎(chǔ)》期末上機考試成績?yōu)榛A(chǔ),結(jié)合學生的平時成績(考勤,回答問題,作業(yè)完成)以及學生的調(diào)查數(shù)據(jù)信息(課程的興趣,每周上機時長,試卷難易程度,學生自評)等對學生信息進行數(shù)據(jù)挖掘分析,生成決策樹。

2.1 數(shù)據(jù)收集、處理

數(shù)據(jù)源主要包括調(diào)查數(shù)據(jù)信息、學生學習信息以及考試成績信息[11-13]。調(diào)查數(shù)據(jù)信息如表1所示,主要包括學生的學號,性別,課程興趣,每周上機時長,試卷難易程度,學生自評等。學生學習信息如表2所示,包括考勤,回答問題,作業(yè)完成等。其中每周上機時長(h)分為>2、1-2、<1;課程興趣分為感興趣、一般、不感興趣;試卷難易分為高、中、低。上課考勤、回答問題、作業(yè)完成為學生實際完成次數(shù)(滿勤16次,提問16次,作業(yè)布置10次)??荚嚦煽冃畔⑷绫?所示。

表1 學生調(diào)查統(tǒng)計表

表2 學生學習情況統(tǒng)計表

表3 學生成績表

由于學生缺考,調(diào)查者未填寫等等原因,收集到的數(shù)據(jù)存在不完整性,剔除不合要求的數(shù)據(jù)[14-15],剩下35條學生數(shù)據(jù),將其中的23條數(shù)據(jù)作為訓練樣本數(shù)據(jù),其余12條數(shù)據(jù)作為測試樣本數(shù)據(jù)。

為了便于建立決策樹模型,根據(jù)實際情況,采用3個數(shù)據(jù)表中的學號,課程興趣,每周上機時長,試卷難易,考勤,成績合并為一個成績分析表如表 4所示,以此作為建立決策樹模型的依據(jù)。經(jīng)過數(shù)據(jù)預(yù)處理后,量化表示數(shù)據(jù)表中的描述性文字(其中考勤>13次,優(yōu)秀,考勤8-13之間,一般,考勤<8次,差;成績<60分,不及格,成績60-85,良好,成績>85,優(yōu)秀)。

2.2 構(gòu)造決策樹

據(jù)表4可知,訓練樣本的結(jié)果分為優(yōu)秀(C1),良好(C2),不及格(C3)三類。

表4 學生成績分析表

1)計算信息熵

對于23個訓練樣本,其中成績C1類有14個樣本,成績C2類有5個樣本,成績C3類有4個樣本。根據(jù)公式(1)得到信息熵為:

2)計算條件熵

考查樣本屬性A“每周上機時長”,共有優(yōu)秀,差,一般3個取值,據(jù)此將23個訓練樣本也分為3類 (S1,S2,S3),屬性A取值優(yōu)秀有4個樣本(S1類),取值一般的有15個樣本(S2類),取值差的有4個樣本(S3類)。S1類中成績?yōu)镃1類的樣本有3個,成績?yōu)镃2類的樣本有1個,成績?yōu)镃3類的樣本有0個,根據(jù)公式(1)可得到S1類、S2類、S3類的信息熵分別為:

根據(jù)公式(2),可得到以屬性A為分類的條件熵

3)計算信息增益和信息增益率

根據(jù)公式(3),公式(4)可得到屬性A的信息增益和信息增益率為:

同理,可求出其他屬性(課程興趣B,考勤C,試卷難易D)的信息增益和信息增益率。由于試卷難易結(jié)果都為中,對構(gòu)建決策樹沒有影響。

4)建立決策樹

ID3算法選擇信息增益最大的屬性C(或C4.5算法選擇信息增益率最大的屬性C)作為樹根節(jié)點,按照屬性C的3個取值,對23個樣本進行分支得到3個子集,如圖1所示,然后對每一個分支按照以上方法遞歸計算,最后得到?jīng)Q策樹如圖2所示。

圖1 屬性A為根建立分支

5)修剪決策樹[8,15]

由于完整的決策樹對樣本特征的描述 “過于精確”,所以并不是一棵最佳樹。隨著建樹層次的增加,確定分支準則的樣本數(shù)量不斷減少,個性化特征非常明顯,缺乏一般性,出現(xiàn)“過渡擬合”的想象,解決這個問題的方法就是決策樹修剪。決策樹剪枝有兩種基本策略,一種是預(yù)修剪,另一種是后修剪[2]。文章采用后修剪方式繪制出來的決策樹如圖3所示。通過后剪枝技術(shù),只保留對學習成績影響最大的屬性值,減去對學習成績影響小的屬性。

2.3 模型評估

基于23個訓練樣本,采用C4.5方法構(gòu)建完成某班學生學習成績的決策樹模型,是否對其它樣本集有效呢?將12個測試樣本數(shù)據(jù)按照此模型進行分析,11個學生數(shù)據(jù)符合模型的結(jié)果,準確率達到了91%。采用其他專業(yè)同門課程的學生信息數(shù)據(jù)進行測試,準確率也達到了85%以上,因此該模型是有效的,能夠?qū)W生的學習,教師和教育教學部門的工作起到指導作用。

圖2 學生成績分析決策樹

圖3 修正后的決策樹

3 結(jié) 論

文中在論述了決策樹算法的基礎(chǔ)上,采用決策樹技術(shù)對學生成績問題進行了分析研究。選取影響學生學習成績的主要因素作為屬性,利用ID3算法和C4.5算法構(gòu)造決策樹,并通過后剪枝技術(shù)得到最終的決策樹,結(jié)果表明,學生上課聽講和課程興趣是影響學生成績的主要因素。通過測試樣本數(shù)據(jù)對模型進行評估,準確率達到85%以上。不足之處該模型中樣本數(shù)據(jù)較少,考慮影響學生成績的因素不夠全面,而且基于訓練樣本的后剪枝技術(shù)還需要進一步改進。

[1]李愛國,厙向陽.數(shù)據(jù)挖掘原理、算法及應(yīng)用[M].西安:西安電子科技大學出社,2012.

[2]薛薇,陳歡歌.SPSS Modeler數(shù)據(jù)挖掘方法及應(yīng)用[M].北京:電子工業(yè)出版社,2014.

[3]施俊琦,王星(譯).決策與判斷[M].北京:人民郵電出版社,2004.

[4]王永梅,胡雪鋼.決策樹中ID算法的研究[J].安徽大學學報(自然科學版),2011,35(3):71-75.

[5]樊敏.基于決策樹算法的成績優(yōu)秀率分析與研究[J].計算機時代,2015(12):70-71.

[6]劉靜.基于決策樹技術(shù)的CET-4成績數(shù)據(jù)挖掘研究[J].赤峰學院學報(自然科學版),2015,31(12): 18-19.

[7]陳治國.數(shù)據(jù)挖掘技術(shù)在教學決策支持中的應(yīng)用研究[D].長沙:國防科技大學,2006.

[8]蔣盛益,李霞,鄭琪..數(shù)據(jù)挖掘原理與實踐[M].北京:電子工業(yè)出版社,20113.

[9]覃桂敏基于數(shù)據(jù)倉庫的決策支持技術(shù)的研究[D].西安:西安電子科技大學,2004.

[10]楊靜.決策樹算法的研究與應(yīng)用[J].計算機技術(shù)與發(fā)展,2010,20(2):115-118.

[11]崔仁桀.數(shù)據(jù)挖掘在學生專業(yè)成績預(yù)測上的應(yīng)用[J].軟件,2016,37(1):24-27.

[12]陳凱,曹曉光,楊冀紅,等.基于C4.5決策樹算法的全國積雪模型生成[J].電子設(shè)計工程,2014,22(17): 44-47.

[13]周寶曜,劉偉,范承工.大數(shù)據(jù)戰(zhàn)略·技術(shù)·實踐[M].北京:電子工業(yè)出版社,2013.

[14]冷泳林.ID3算法在學生評教數(shù)據(jù)分析中的應(yīng)用研究[J].電子設(shè)計工程,2013,21(2):4-6,9.

[15]楊淑瑩.模式識別與智能計算-MATLAB技術(shù)實現(xiàn)[M].北京:電子工業(yè)出版,2009.

[16]徐巖,陳昕.基于貝葉斯決策樹的電網(wǎng)報警信息去噪方法研究 [J].陜西電力,2014(6):38-41.

[17]高靜,楊楠,賀元康.基于Matlab/Simulink的直流輸電系統(tǒng)異常引起的發(fā)電機組失步保護動作仿真分析[J].陜西電力,2014(2):70-73.

[18]宋曉林,王正杰,寇喆.基于LabVIEW和Matlab綜合平臺的高精度多功能虛擬數(shù)字電能表的研究[J].陜西電力,2015(8):39-44,49.

Application of the decision tree algorithm in the analysis of student achievement

HAN Li-na,HAN Gai-ning
(Institute of Graphics and Image Processing,Xian Yang Normal College,Xianyang 712000,China)

Based on the analysis of the main factors that influence the students'learning effect,the method of decision tree is adopted to analyze the data and display the results directly.Through the study of a certain class of students learning data mining analysis of the test,it uses the ID3 and C4.5 algorithm to generate a decision tree and streamline it with post-pruning technology.Finally the main factors influenced the effectiveness of this course,checking work attendance was found out.Then an effective suggestions on individualized presentation and guidance was provided after analysis of students learning.

decision tree;information entropy;information gain;information gain rate

TN91

:A

:1674-6236(2017)02-0018-04

2016-04-27稿件編號:201604261

陜西省教育廳資助項目(14JK1802);咸陽師范學院引進人才項目(13XSYK053);陜西省教育科學“十二五”規(guī)劃2014年度項目(SGH140802)

韓麗娜(1976—),女,陜西富平人,博士,副教授。研究方向:數(shù)據(jù)挖掘,圖像處理。

猜你喜歡
信息熵決策樹增益
基于信息熵可信度的測試點選擇方法研究
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機最優(yōu)控制
基于單片機的程控增益放大器設(shè)計
電子制作(2019年19期)2019-11-23 08:41:36
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
基于Multisim10和AD603的程控增益放大器仿真研究
電子制作(2018年19期)2018-11-14 02:37:02
決策樹和隨機森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于信息熵的實驗教學量化研究
電子測試(2017年12期)2017-12-18 06:35:48
一種基于信息熵的雷達動態(tài)自適應(yīng)選擇跟蹤方法
雷達學報(2017年6期)2017-03-26 07:52:58
基于決策樹的出租車乘客出行目的識別
基于信息熵的IITFN多屬性決策方法
安国市| 武宣县| 青海省| 辉南县| 新乐市| 镇宁| 湛江市| 曲周县| 浦县| 房山区| 广州市| 西和县| 吴江市| 民权县| 营山县| 微博| 雷山县| 澎湖县| 社会| 杂多县| 武鸣县| 乐至县| 嘉鱼县| 光泽县| 乌拉特后旗| 镇平县| 大连市| 霍邱县| 博野县| 许昌市| 黎城县| 黄石市| 隆德县| 灯塔市| 封开县| 霍州市| 建德市| 桦南县| 扬中市| 德江县| 承德市|