摘 要:探討了將K-means聚類算法應用于計算機基礎課程分層教學學生入學基礎測試成績分析的過程中。針對K-means算法的特點,對收集的學生成績參數(shù)進行設定,并做一定的規(guī)范處理,然后對數(shù)據(jù)進行預處理。最后,使用K-means算法,對學生計算機基礎入學測試成績進行層次劃分類別分析評價。
關鍵詞:K臨近算法;數(shù)據(jù)挖掘;分層教學;聚類
一、數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery from Database,簡稱KDD),它是一個從大量不完全、有噪聲的數(shù)據(jù)中抽取挖掘出未知的、潛在有價值的模式或規(guī)律等知識的復雜過程。
1.數(shù)據(jù)挖掘中的聚類算法
現(xiàn)在的聚類算法主要有:基于密度和層次方法、基于劃分和模型方法等。
(1)基于密度的方法(Density-Based Methods)
基于密度的方法的重要特點在于:它的聚類準則不是基于距離的,而是基于密度的。通過這種方法能避免基于距離的算法只能發(fā)現(xiàn)“類圓形”聚類的缺點,并發(fā)現(xiàn)非“類圓形”的聚類結果。它的基本設計思想是:如果區(qū)域中的點的密度大于某個域值,那么就把這個樣本加到與之相近的聚類中。其代表算法有OPTICS算法、DBSCAN算法、DENCLUE算法等。
(2)基于層次的方法(Hierarchical Methods)
這種方法就是把數(shù)據(jù)庫劃分成多個層次,直到滿足某種條件為止。輸出為層次化的分類樹。自底向上的方法稱為凝聚的方法,最初將每個數(shù)據(jù)對象作單獨的一個組,然后合并相近的對象或組,直到所有的組合并為一個層次,或滿足某個終止條件。自頂向下的方法又稱為分裂的方法,最開始將所有的對象歸到一個層次,然后進行迭代,通過迭代使一個類劃分成更小的類。直到最終每個對象在單獨的一個類中,或者達到一個終止條件。BIRCH算法、CURE算法、CHAMELEON算法等都屬于基于層次的算法。
(3)基于劃分的方法(Partitioning Methods)
劃分法,即給定一個有N個元組或者記錄的數(shù)據(jù)集,隨機構造K個分組,每一個分組就代表一個聚簇,K 對于給定的K,算法首先給出一個初始的分組方法,以后通過反復迭代的方法改變分組,使每一次改進之后的分組方案都較前一次好,而所謂好的標準就是:同一組中的記錄越近越好,而不同分組中的記錄越遠越好。使用這個基本思想的算法有:K均值算法、K中心點算法、CLARANS算法。 2.K臨近算法 K-means算法是一種最經(jīng)典,也是使用最廣泛的聚類方法。K-means的基本思想是:對于一個聚類任務指明聚成幾個類,然后隨機選擇K個聚類簇中心點,迭代計算下面的過程直到所有簇中心收斂為止: STEP 1:對于每個對象,計算其與每個簇中心的相似度,把其歸入與其最相似的那一個簇中。 STEP 2:更新簇中心,新的簇中心通過計算所有屬于該簇的對象的平均值得到。 二、聚類算法的實施 算法的實施步驟大體分為數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)轉換、數(shù)據(jù)挖掘、知識獲取等過程。 1.成績數(shù)據(jù)的集成 數(shù)據(jù)集成的過程是對多個數(shù)據(jù)源進行科學的數(shù)據(jù)合并。本研究中我們對2013級學生計算機應用基礎入學測試成績數(shù)據(jù),進行采集,數(shù)據(jù)來源于入學測試考試軟件隨機生成題庫對學生參與考試得出的詳細數(shù)據(jù)。 我們認為分層教學劃分層次的依據(jù)不能單單以入學測試的總成績?yōu)闇?,為了更加了解學生對各個需要掌握的基本知識所屬章節(jié)知識的掌握情況,考試的基礎數(shù)據(jù)還需要包含章節(jié)知識的得分率等數(shù)據(jù)內容。我們把主要數(shù)據(jù)放在學生成績分析基礎表里面。學生成績基礎表包含(學號、姓名、總成績、計算機基礎知識、計算機系統(tǒng)組成、字處理、演示文稿、電子表格、計算機網(wǎng)絡、計算機安全、文字錄入)等字段,別記錄了學生的總成績與各個章節(jié)內容的得分情況。 2.數(shù)據(jù)清理 數(shù)據(jù)清理主要是填補遺漏數(shù)據(jù),在本研究中我們忽略學生姓名、考試時間等與數(shù)據(jù)分析無關的數(shù)據(jù)列成分。 3.數(shù)據(jù)的轉換過程 數(shù)據(jù)轉換的過程主要是為了對數(shù)據(jù)進行規(guī)范化的操作,對數(shù)據(jù)的格式進行統(tǒng)一規(guī)定,從而匹配數(shù)據(jù)挖掘算法。對學生成績進行聚類分析的時候,學生各個章節(jié)的成績和總成績的數(shù)據(jù)類型都統(tǒng)一成數(shù)值類型。 4.算法結果分析 通過K-means算法的分析,我們得到的聚類1中成績偏低的學生有25個,聚類2成績較好的學生有38個,由此作為分層教學的分班依據(jù)。通過具體章節(jié)得分率的聚類選擇,能更好得出學生掌握計算機基礎知識的準確數(shù)據(jù),如果單單以學生考試的總成績來作為分層教學的依據(jù),會造成分班的不合理。 本文探討了K-means聚類算法,將此算法應用于計算機基礎課程分層教學學生入學基礎測試成績分析中。首先在針對K-means算法的特點,對收集的學生成績參數(shù)進行設定做一定的規(guī)范處理,然后對數(shù)據(jù)進行了預處理,然后使用K-means算法,對學生計算機基礎入學測試成績進行層次劃分類別分析評價。針對不同類別的學生,實施分層教學,為實施好分層教學改革提供了數(shù)據(jù)和理論支持。 參考文獻: 鐘志賢,曹東云.基于信息技術的反思學習[J].遠程教育,2004(4):7-10. 作者簡介:劉明綱,性別,男,1978年10月出生,碩士,就職學校:成都市成都工業(yè)學院網(wǎng)絡中心,研究方向:數(shù)據(jù)挖掘,數(shù)據(jù)庫技術。