劉紅保
摘 要:本文將數(shù)據(jù)挖掘技術(shù)應(yīng)用于計算機文化基礎(chǔ)等級考試中,通過使用ID3分類方法,分析最近幾個學(xué)期計算機文化基礎(chǔ)成績,發(fā)現(xiàn)影響學(xué)生通過考試的因素在于學(xué)生自身學(xué)習(xí)意愿是否按時交作業(yè)是否做練習(xí)題,與任課教師的教學(xué)方法、其他科成績、有無計算機基礎(chǔ)等因素關(guān)系很大,為計算機文化基礎(chǔ)教學(xué)提供有效的理論依據(jù)。
關(guān)鍵詞:數(shù)據(jù)挖掘;ID3算法;影響因素
1 數(shù)據(jù)挖掘的概述
1.1 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,抽取隱含在其中的、人們事先不知道的、但又潛在有用的知識的過程。此定義包含三個層次的含義:①數(shù)據(jù)必須是真實的、大量的、含噪聲的;②發(fā)現(xiàn)的是用戶感興趣、可理解的知識;③發(fā)現(xiàn)的知識只面向特定的領(lǐng)域。
1.2 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘可以概括為三個部分:數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、模式評估和知識表示。其中數(shù)據(jù)預(yù)處理可以分為:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)變換四個部分。
1.3 數(shù)據(jù)挖掘的方法
目前比較常用的數(shù)據(jù)挖掘分析方法有:關(guān)聯(lián)規(guī)則分析、分類分析、預(yù)測分析、聚類分析等。
2 主要算法設(shè)計
2.1 數(shù)據(jù)搜集,分析影響學(xué)生計算機一級成績的因素,需要以下幾個方面的信息
①學(xué)生基本信息。應(yīng)包括如下屬性:學(xué)號、姓名、性別、籍貫、民族、專業(yè)、班級,這些信息可以通過學(xué)院的綜合教務(wù)管理系統(tǒng)獲得。②學(xué)生調(diào)查信息。內(nèi)容包括學(xué)號、學(xué)習(xí)興趣、學(xué)習(xí)前的知識掌握情況、課后上機練習(xí)時間量、做模擬題情況等。這些信息主要通過調(diào)查,由學(xué)生填寫。③學(xué)生成績。成績數(shù)據(jù)表中包括了學(xué)生的學(xué)號、平時成績、等級考試成績,這個數(shù)據(jù)庫由學(xué)院綜合教務(wù)管理系統(tǒng)獲得。④評教數(shù)據(jù)。包括教師編號、評教情況等。
2.2 數(shù)據(jù)預(yù)處理
①數(shù)據(jù)集成和變換。主要采用數(shù)據(jù)庫相關(guān)技術(shù)把得到多個數(shù)據(jù)庫文件數(shù)據(jù)合并到學(xué)生成績分析基本表中。②數(shù)據(jù)清理。把不一致的數(shù)據(jù)補充完整,處理空缺值的方法有:忽略元組、人工填寫空缺值、使用全局常量、采用平均值填充、使用最有可能的值填充空缺值。③數(shù)據(jù)規(guī)約。就是縮小所挖掘數(shù)據(jù)的規(guī)模,并且挖掘出來的結(jié)果與原有的數(shù)據(jù)集多獲得的結(jié)果基本相同。學(xué)生基本信息中的民族、籍貫等、成績庫中的考試時間、考試地點等屬性是與成績不相關(guān)的屬性,需要進行維規(guī)約。形成新的影響學(xué)生成績分析的基本數(shù)據(jù)表如表1。
2.3 進行數(shù)據(jù)分類挖掘,生成分類規(guī)則
如:IF文理科=文AND是否按時交作業(yè)=是AND其他平均成績=優(yōu)秀AND有無計算機基礎(chǔ)=有AND教師評教=優(yōu)秀AND學(xué)生作模擬題>4THEN通過
IF文理科=理AND是否按時交作業(yè)=是AND其他平均成績=優(yōu)秀AND有無計算機基礎(chǔ)=有AND教師評教=優(yōu)秀AND學(xué)生作模擬題>4THEN通過
IF文理科=文AND是否按時交作業(yè)=否AND其他平均成績=優(yōu)秀AND有無計算機基礎(chǔ)=有AND教師評教=優(yōu)秀AND學(xué)生作模擬題<4THEN不通過
IF文理科=理AND是否按時交作業(yè)=否AND其他平均成績=優(yōu)秀AND有無計算機基礎(chǔ)=有AND教師評教=優(yōu)秀AND學(xué)生作模擬題<4THEN不通過
……
2.4 實驗結(jié)果分析
通過以上分類規(guī)則的分析可以看出,學(xué)生能否通過計算機一級等級考試的關(guān)鍵因素是按時做作業(yè),提交作業(yè),多做練習(xí)多做模擬題,與學(xué)生是否具有計算機基礎(chǔ)沒有關(guān)系,與學(xué)生是否是文理科也沒有關(guān)系,即使其他成績一般,通過多做練習(xí)多做模擬題也是可以通過的,說明與其他課程的成績沒有必然的關(guān)系,學(xué)生不按時提交作業(yè),不做練習(xí)不做模擬題,教師再優(yōu)秀,該學(xué)生的計算機一級也是無法通過的。由此可知在今后的計算機文化基礎(chǔ)教學(xué)過程中,任課教師應(yīng)該注重學(xué)生的平時作業(yè)完成情況,著重加強學(xué)生的上機實驗練習(xí),鼓勵學(xué)生課后多做計算機一級模擬試題,從而確保學(xué)生計算機一級考試的通過。
本文把數(shù)據(jù)挖掘技術(shù)引入到計算機一級等級領(lǐng)域,利用數(shù)據(jù)挖掘的分類技術(shù)對一級成績數(shù)據(jù)分類,并使用ID3算法具體實現(xiàn)分類挖掘。實驗結(jié)果達(dá)到了預(yù)期的目標(biāo),挖掘出了一系列影響計算機一級通過的分類規(guī)則,為學(xué)院的計算機一級等級考試提供了科學(xué)的參考依據(jù)。
[參考文獻(xiàn)]
[1]紀(jì)希禹.《數(shù)據(jù)挖掘技術(shù)應(yīng)用實例》.機械工業(yè)出版社,2009.4.
[2]李慶香.《數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的應(yīng)用研究》.西南大學(xué),2009.12.
[3]劉芳,林海霞.《數(shù)據(jù)挖掘技術(shù)在高校計算機等級考試成績分析中的應(yīng)用》.計算機與信息技術(shù),2008.11.