国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

決策樹技術(shù)在高職院校學生成績分析中的應用研究

2013-12-29 00:00:00王平霞郝志廷
電腦知識與技術(shù) 2013年13期

摘要:該文通過介紹數(shù)據(jù)挖掘的概念和決策樹分類方法,論述了ID3算法的基本思想和實現(xiàn)方法,并用該算法對高職院校學生成績進行分析,建立基于決策樹技術(shù)的學生成績分析應用研究模型。通過該模型分析,找出了影響學生成績的潛在因素,為提高教學質(zhì)量提供參考依據(jù)。

關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;ID3算法;成績分析

中圖分類號:TP312 文獻標識碼:A 文章編號:1009-3044(2013)13-2960-04

隨著高職院校的不斷擴招,學生數(shù)量越來越多。經(jīng)過多年的教學和管理工作,高校數(shù)據(jù)庫管理系統(tǒng)中積累了巨量的與學生相關(guān)的數(shù)據(jù),很多有價值的信息隱藏在在這些數(shù)據(jù)中。但是高職院校對這些數(shù)據(jù)并沒有進行深入的分析,而僅僅停留在簡單的查詢、統(tǒng)計與備份上。如何從巨量的數(shù)據(jù)中提取出所需信息,就需要一種新的數(shù)據(jù)分析技術(shù)加以處理,解決這一問題的可行且有效的方法正是數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘,即數(shù)據(jù)庫中的知識發(fā)現(xiàn),就是從海量的數(shù)據(jù)(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)中挖掘出隱藏在數(shù)據(jù)中的、人們事先所不知道的、潛在的、有用的知識和信息的技術(shù)。在這些信息中或許包含有用戶感興趣的,有潛在價值或存在能運用和理解的支持決策,對這些信息的研究可以為科學研究找到突破口,或者幫助企業(yè)帶來更多的利益。數(shù)據(jù)挖掘以數(shù)據(jù)庫為研究對象,結(jié)合傳統(tǒng)的模糊數(shù)學方法、統(tǒng)計分析法和可視化技術(shù),由機器學習、人工智能的方法發(fā)展而來,形成了數(shù)據(jù)挖掘的方法和技術(shù)。其方法和技術(shù)包括:人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、決策樹法、關(guān)聯(lián)規(guī)則方法、統(tǒng)計分析方法、可視化技術(shù)、粗糙集理論方法等。

1 決策樹算法

決策樹是一種類似于流程圖的樹結(jié)構(gòu),其中,每個內(nèi)部結(jié)點(非樹葉結(jié)點)表示對在一個屬性的測試,每個分支代表該測試的一個輸出,而每個樹葉結(jié)點(或終端結(jié)點)存放一個類標號。樹的最頂層結(jié)點是根結(jié)點。決策樹方法是一種展示類似在何種條件下會得到何種值這類規(guī)則的方法。決策樹的每個結(jié)點子結(jié)點的個數(shù)取決于決策樹采用的算法。ID3算法是最經(jīng)典的決策樹生成算法,是決策樹生成最常用的具體實現(xiàn)方法。該算法是以信息論為基礎(chǔ),把信息熵和信息增益度作為衡量標準,進而實現(xiàn)對數(shù)據(jù)的歸納分類。

2 決策樹算法在高職院校學生成績分析中的應用

2.1確定分析的對象及目標

以筆者2009—2010學年年第一學期所講授的《計算機應用基礎(chǔ)》課程為例子,分析的對象是計算機應用專業(yè)2009級的學生。試圖根據(jù)學生的基本情況分析挖掘出如學生性別、學生學習基礎(chǔ)、對課程感興趣與否、上機時間量、學習習慣等中的哪些因素對學生的學習成績是有影響的,分析學生最終的考試成績與哪些因素有關(guān),并試圖用分析得到的結(jié)果指導以后的教學,提高教學質(zhì)量。

2.2選定模型

選擇使用建立決策樹的方法對數(shù)據(jù)進行挖掘,算法選擇決策樹的經(jīng)典算法——ID3算法。決策樹的建立主要包括建立決策樹和決策樹的剪枝兩個階段。

2.3數(shù)據(jù)的收集和清理

在學生調(diào)查信息反饋表中,我們需要刪除那些雖然是我們感興趣的記錄但是缺少屬性值的記錄。在學生考試中缺考以及作弊的學生成績我們也要進行刪除,因為根據(jù)他們的成績我們不能寫出分類結(jié)果,其成績是無效的。經(jīng)過數(shù)據(jù)清理,我們得到的有效記錄數(shù)為21條。將以上3個數(shù)據(jù)表合并得到學生成績分析表。為了便于決策樹模型的建立,根據(jù)實際情況,我們只采用學生成績分析表中的上課考勤、上機作業(yè)、試卷難度、對課程的感興趣程度的分類作為決策樹模型的依據(jù)。經(jīng)過數(shù)據(jù)預處理后,量化表示數(shù)據(jù)表中的描述性的文字。

2)上機作業(yè)代表的是學生提交的上機作業(yè)次數(shù)。也分為好、一般和差三類。在數(shù)據(jù)庫中也可通過IF函數(shù)更新這個屬性的值。

3)對成績表里的成績概化為優(yōu)秀、良好和不及格3類后可得到如表4的分析結(jié)果表。

2.4利用ID3算法構(gòu)造學生成績分析決策樹

1)計算熵

3 結(jié)論

數(shù)據(jù)挖掘是深層次的數(shù)據(jù)信息分析方法,是一種決策支持過程。將數(shù)據(jù)挖掘技術(shù)應用于教學管理可以更深入地分析學生成績與各種因素之間的聯(lián)系,可以將現(xiàn)有的數(shù)據(jù)信息轉(zhuǎn)化成為有用的分類規(guī)則,從而更好地分析這些數(shù)據(jù),對教學質(zhì)量的提高有很大幫助。

參考文獻:

[1] 鄺濤.基于決策樹技術(shù)在高校成績分析中的應用研究[J].新鄉(xiāng)學院學報:自然科學版,2011(2):49-51.

[2] Han Jia-wei, Kamber M, Pei Jian.數(shù)據(jù)挖掘概念與技術(shù)[M]. 范明,孟小峰,譯.北京:機械工業(yè)出版社,2012:213.

[3] 黃芳.基于數(shù)據(jù)挖掘的決策樹技術(shù)在成績分析中的應用研究[D].山東大學,2009.

凌云县| 镇赉县| 将乐县| 漳浦县| 当涂县| 莱阳市| 漯河市| 罗城| 郸城县| 顺平县| 金阳县| 社会| 泰顺县| 胶州市| 乐至县| 肥乡县| 兰西县| 长宁县| 万山特区| 北票市| 阜平县| 扎鲁特旗| 金秀| 贵阳市| 元谋县| 崇州市| 赣州市| 海盐县| 西和县| 淄博市| 徐汇区| 昌平区| 石家庄市| 新营市| 广宁县| 禄劝| 邳州市| 博爱县| 邻水| 瑞丽市| 丁青县|