国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹算法的CCT成績分析方法探討

2015-11-19 07:29:43廣州工商學院
當代教育實踐與教學研究 2015年10期
關(guān)鍵詞:訓練樣本決策樹數(shù)據(jù)挖掘

廣州工商學院 陳 雪

基于決策樹算法的CCT成績分析方法探討

廣州工商學院 陳 雪

本文主要介紹基于數(shù)據(jù)挖掘決策樹技術(shù)的學生成績分析的實現(xiàn)過程,使用學生的真實考試數(shù)據(jù),進行數(shù)據(jù)預處理后應用算法構(gòu)造決策樹。提取分類規(guī)則,通過計算規(guī)則的準確率與覆蓋率對規(guī)則進行約簡,從而挖掘有價值的規(guī)則。最后利用該分類規(guī)則,預測學生能否通過等級考試。研究結(jié)果表明,決策樹預測準確率高,能挖掘出影響學生通過CCT考試的關(guān)鍵因素,對計算機基礎課程教學有一定指導作用。

數(shù)據(jù)挖掘 決策樹 CCT 成績分析

全國高等學校計算機水平考試(College Computer Test,簡稱CCT),是經(jīng)全國各省、市、自治區(qū)教委(教育廳)第八屆高教處長聯(lián)席會議協(xié)議,從1997年舉行,由教育部所屬全國各省、市、自治區(qū)教委(教育廳)組織,測試高等學校在校學生計算機應用知識與能力的全國統(tǒng)一標準的權(quán)威考試。這項考試制度實施至今,已得到廣東省普通高校和用人單位的廣泛認可,受到學生的高度重視。

筆者所在院校組織學生參加CCT考試已有十幾年時間,積累了大量的CCT相關(guān)數(shù)據(jù)。本文對筆者所在院校2014級學生參加全國高校計算機等級考試數(shù)據(jù)使用數(shù)據(jù)挖掘技術(shù)中的決策樹算法進行了分析,該方法首先收集大量數(shù)據(jù),通過數(shù)據(jù)預處理得到適合的訓練樣本和檢測樣本,利用軟件構(gòu)造出決策樹,通過對決策樹分析得到有價值的信息,并對決策樹模型的風險進行評估。決策樹方法分類精準,預測準確率高,為了更好地指導學生順利通過考試,挖掘大量數(shù)據(jù)背后所隱藏的對教學潛在有用信息,并據(jù)此對教學進行有針對性改革,是十分有必要的。

一、數(shù)據(jù)挖掘概述

1.數(shù)據(jù)挖掘定義。數(shù)據(jù)挖掘(Data mining)是從龐大的數(shù)據(jù)庫里,通過對不完全、有噪聲、模糊、隨機的數(shù)據(jù)處理,提取出隱藏在其中不被發(fā)現(xiàn),但又很有利用價值的信息。數(shù)據(jù)挖掘是一個完整的、不斷完善的數(shù)據(jù)發(fā)現(xiàn)過程,可以對大型數(shù)據(jù)庫不斷挖掘、進行算法優(yōu)化,提取有效信息,并通過信息分析做出決策。

數(shù)據(jù)挖掘是數(shù)據(jù)庫技術(shù)、情報檢索、數(shù)理統(tǒng)計、專家系統(tǒng)、機器學習、模式識別與人工智能等的有機結(jié)合,廣泛應用于教育教學、金融銷售、電信電力、生物醫(yī)學等各領(lǐng)域。數(shù)據(jù)挖掘的核心算法主要有決策樹算法、統(tǒng)計分析法、分類規(guī)則、遺傳算法、聚類算法等,其中決策樹算法以直觀性強、數(shù)據(jù)分析率高的優(yōu)點而經(jīng)常用于教學管理中。

2.決策樹算法。決策樹方法利用信息增益來找尋數(shù)據(jù)庫中具有最大信息量的字段,用以建立決策樹的某個結(jié)點,然后再根據(jù)該字段的不同取值來建立樹的分支,重復這個過程最終建立樹的下層結(jié)點和分支。決策樹方法可以使數(shù)據(jù)規(guī)則變得可視化,構(gòu)造過程時間并不需要很長,雖然實際應用中決策樹可能表現(xiàn)得很復雜,但從根結(jié)點到葉子結(jié)點的每一條路徑仍然易于理解。這種易于理解性是決策樹的一個顯著的優(yōu)點,所以決策樹方法能在知識發(fā)現(xiàn)系統(tǒng)中得到較廣泛的應用。

決策樹算法通過一系列規(guī)則對數(shù)據(jù)進行分類,思路在于從訓練樣本中,自動地構(gòu)造出決策樹,根據(jù)這個決策樹再對任意實例進行檢測。決策樹的主要優(yōu)點在于樹狀結(jié)構(gòu)的決策樹分類模型,采用自頂向下的遞歸方式,簡單直觀的產(chǎn)生一個類似于流程圖的樹形結(jié)構(gòu),可以在根節(jié)點和各內(nèi)部節(jié)點上分別選擇合適的描述屬性,并根據(jù)屬性的取值不同至上向下建立分枝。

3.決策樹算法應用

(1)挖掘準備工作

①數(shù)據(jù)采集。我院2014級學生是此次數(shù)據(jù)挖掘的對象,在挖掘中要注意深挖出和結(jié)論可能存在聯(lián)系的隱藏數(shù)據(jù),在學生相關(guān)信息中找到有價值的內(nèi)容,方便于決策樹的構(gòu)造。在數(shù)據(jù)收集中主要獲得了以下三類數(shù)據(jù):

第一,學生基本數(shù)據(jù),包括學號、姓名、籍貫、年齡、性別、所屬院系、專業(yè)、班級,可以通過我院的學生學籍信息管理系統(tǒng)獲得。教師設計問卷調(diào)查表,對學生的電腦基礎、興趣愛好、是否預習、是否復習、是否宿舍有電腦等這一類輔助信息進行收集,注意問卷設計上要多選擇少填寫以規(guī)范數(shù)據(jù)格式。

第二,學生學習狀態(tài)數(shù)據(jù),包含學生的學習態(tài)度和過程化考核成績信息,例如學生考勤信息、作業(yè)完成情況、期中考試成績、模擬考試成績等。信息的獲取來至于學生考勤表、學生平時成績登記冊、模擬考試成績細分表。其中成績細分表包含有學生在平時測試中的各章節(jié)各知識點得分情況。

第三,考試成績數(shù)據(jù),包括學號、姓名、成績、科目、專業(yè)、班級、準考生號等,通過省考試中心的成績反饋文件獲取。

②數(shù)據(jù)預處理

根據(jù)采集到的數(shù)據(jù)特點,在挖掘之前要對其進行數(shù)據(jù)預處理工作,通過數(shù)據(jù)轉(zhuǎn)換來得到適合挖掘模型的數(shù)據(jù),這一過程由數(shù)據(jù)集成、數(shù)據(jù)消減、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換構(gòu)成,其工作量較大,需要占據(jù)挖掘過程的60%以上。

第一,數(shù)據(jù)集成。將采集得到的多個數(shù)據(jù)文件利用數(shù)據(jù)庫技術(shù)整合,建立起復雜大型的CCT考試成績分析數(shù)據(jù)庫。

第二,數(shù)據(jù)消減。通過數(shù)據(jù)集成建立起的CCT考試成績分析數(shù)據(jù)庫數(shù)據(jù)量大,數(shù)據(jù)結(jié)構(gòu)復雜,但并不是所有的數(shù)據(jù)都有意義,應該根據(jù)實際需求挑選出有價值的的數(shù)據(jù),來縮小數(shù)據(jù)庫的規(guī)模,要注意消減操作不能影響到知識獲取。對于數(shù)據(jù)挖掘工作來說沒有價值的一類數(shù)據(jù),如學生學號、姓名、籍貫、年齡、所屬院系、班級、科目、準考證號等字段,要將其刪除,通過此步驟得到新的數(shù)據(jù)表。

第三,數(shù)據(jù)清理。在教師收集學生問卷調(diào)查時,由于學生的配合度不一,可能會得到某些不合格的數(shù)據(jù),或在一些選項中存在遺漏,需要進行數(shù)據(jù)清理。對一些單項或少量統(tǒng)計不全的記錄,可以使用同類樣本的平均值來進行替換空缺選項。例學生問卷調(diào)查表中如果有某條記錄的“電腦基礎”、“是否宿舍有電腦”等信息為空時,可以綜合該班其他學生的該項平均值記錄來進行人工填補;如果存在無法填補或有較大錯誤的記錄,可以直接刪除,例如缺考學生的數(shù)據(jù)、未提交問卷調(diào)查的學生數(shù)據(jù)。

第四,數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)清理之后,要把數(shù)據(jù)轉(zhuǎn)換以成數(shù)據(jù)挖掘所需要的形式。在收集到的數(shù)據(jù)中,很多類別的數(shù)據(jù)都很具體,如平時考勤信息、作業(yè)完成情況、模擬考試成績、CCT成績等,對于挖掘過程來說工作量過大,需要將數(shù)值泛化為離散的區(qū)間來處理有些數(shù)據(jù)之間存在語義模糊,需要進行信息缺陷處理,得到規(guī)范的數(shù)據(jù)表述。

考試分數(shù)。由于成績細分表中各章的分數(shù)占比都不同,為統(tǒng)一標準需進行百分制轉(zhuǎn)換,轉(zhuǎn)換的公式為:各章轉(zhuǎn)換得分=(各章得分÷各章總分)×100。接下來對所有分數(shù)離散化處理,按照以下五個等級劃分成績:0-44分為差,45-59分為較差,60-74為中等,75-84分為良好,大于等于85分為優(yōu)秀。

考勤信息、作業(yè)完成情況。對以考勤信息、作業(yè)完成情況這類以次數(shù)表達的信息,也可按完成情況進行離散化處理并劃分成五個等級。

興趣愛好。興趣愛好屬于字典項數(shù)據(jù),如果按學生所填信息將很難處理,將這一項目也泛化處理為五大類,包括閱讀、運動、藝術(shù)、上網(wǎng)、游戲。

(2)進行數(shù)據(jù)挖掘

本次挖掘的目的是從參加CCT成績的合格和不合格兩大類中去找出各類的重要影響因素和有用規(guī)則,采用了決策樹的CRT算法。具體實現(xiàn)時,使用SPSS軟件把數(shù)據(jù)調(diào)入分析系統(tǒng),設置CCT考試成績評價為因變量,設置其他經(jīng)過預處理的數(shù)據(jù)為自變量。采用隨機拆分樣本抽取數(shù)據(jù)方式,隨機抽取出80%的數(shù)據(jù)作為訓練樣本使用,剩余的20%數(shù)據(jù)作為檢驗樣本?;诒狙芯康臄?shù)據(jù)樣本集和挖掘的需要,在最小個案數(shù)中,父節(jié)點最小設為60,子節(jié)點最小設為25,通過軟件分析系統(tǒng)輸出訓練樣本的決策樹。

(3) 數(shù)據(jù)分析評價

對得到的訓練樣本決策樹進行分析,可以看出盡管學生信息復雜,存在較大差異,但不合格學生的決策樹模型具有一定相似性,表現(xiàn)為宿舍里沒有電腦、出勤率差、平時成績差、學習習慣不好、EXCEL得分差、喜歡玩游戲。宿舍里有電腦、出勤率高、EXCEL得分優(yōu)秀、業(yè)余愛好閱讀的學生合格率高。Excel題為關(guān)鍵性題型,Excel學習情況的好壞對通過與否影響較大。此結(jié)論對教師教學來說具有較強的指導意義。

實際操作中,對訓練樣本和檢測樣本進行測試,得到的分類準確率分別為86%和81%,處于合理區(qū)間范圍,對教學具有一定的指導意義。

構(gòu)建決策樹反饋的評價模型風險表如下表所示:

評價模型風險表

從風險表的反饋數(shù)據(jù)來看,訓練樣本模型將不合格誤判為合格的個案錯判率為9.6%;檢測樣本模型的個案錯判率為10.8%。構(gòu)建的模型風險可以接受,處于良好可控范圍,從技術(shù)層面上講,說明本研究采用決策樹CRT算法是可行的。訓練樣本建立模型的標準誤差為0.012,檢測樣本建立模型的標準誤差為0.016,根據(jù)偶然誤差的高斯理論,結(jié)合概率統(tǒng)計相關(guān)的知識,上述誤差值處于低位,說明系統(tǒng)在構(gòu)建的模型時,具有一定的可靠性。

總之,數(shù)據(jù)挖掘技術(shù)是一種數(shù)據(jù)的深層次分析方法,通常通過長期對數(shù)據(jù)庫進行研究和開發(fā)才可獲得成果。人類往往只使用到低層次的簡單查詢操作,通過數(shù)據(jù)挖掘可以提高到從數(shù)據(jù)中挖掘有價值信息,提供分析預測依據(jù)、干預決策支持等高級應用中來。將其運用到CCT成績分析后,能提高工作效率,在預測學生通過情況時具有較高的準確率,風險程度處于良好可控范圍。需要注意的是,教師在利用該方法分析學生成績時應注重數(shù)據(jù)挖掘流程的設計安排,特別著重于選擇對挖掘有用的數(shù)據(jù)資源,以保證結(jié)果真實可靠。

[1]毛國軍.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學出版社,2005

[2]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2001

[3]劉志嫵.基于決策樹算法的學生成績的預測分析[J].計算機應用與軟件,2012

[4]曾 旭,司馬宇.一種基于ID3的計算機等級考試成績分析方法[J].遵義師范學院學報,2013

[5]陳瀟瀟.數(shù)據(jù)挖掘技術(shù)在高校學生成績分析中的應用研究[J].科技風,2013

[6]吳鐵洲,曾藝師.決策樹分類算法在教學評估中的應用[J].中國高等教育評估,2013

ISSN2095-6711/Z01-2015-10-0247

猜你喜歡
訓練樣本決策樹數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
人工智能
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
電子制作(2018年16期)2018-09-26 03:27:06
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
寬帶光譜成像系統(tǒng)最優(yōu)訓練樣本選擇方法研究
融合原始樣本和虛擬樣本的人臉識別算法
基于稀疏重構(gòu)的機載雷達訓練樣本挑選方法
基于決策樹的出租車乘客出行目的識別
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
洞口县| 利川市| 卓尼县| 信宜市| 张家口市| 大城县| 云安县| 白水县| 伊春市| 商水县| 辰溪县| 英超| 杭锦旗| 瑞昌市| 肇庆市| 镇康县| 宣恩县| 林口县| 平定县| 汉沽区| 两当县| 夏邑县| 朝阳县| 酒泉市| 岑溪市| 广平县| 炎陵县| 金塔县| 霍林郭勒市| 家居| 新绛县| 南昌县| 瓮安县| 买车| 翼城县| 宁陵县| 佛山市| 西峡县| 外汇| 平果县| 安徽省|