孫永輝
[摘 要]聚類分析作為數(shù)據(jù)挖掘方法之一,有著廣泛的應(yīng)用前景,作為一個(gè)工具它能夠?qū)?shù)據(jù)族進(jìn)行細(xì)致分析,得出數(shù)據(jù)分布的情況,為數(shù)據(jù)的評(píng)定提供參考和幫助。根據(jù)學(xué)生成績(jī)進(jìn)行等級(jí)評(píng)定,也是在教學(xué)過(guò)程中對(duì)學(xué)生綜合考核的一個(gè)重要環(huán)節(jié),能否公平、公正、合理、客觀地來(lái)評(píng)價(jià)學(xué)生的學(xué)習(xí)成果尤為重要。傳統(tǒng)一刀切的評(píng)價(jià)方法明顯存在缺陷,對(duì)學(xué)生也不公平,因此,可以利用數(shù)據(jù)挖掘技術(shù)中的聚類分析思想來(lái)克服這些傳統(tǒng)評(píng)價(jià)體系的缺陷。
[關(guān)鍵詞]聚類分析;數(shù)據(jù)挖掘;評(píng)價(jià)體系;K-means算法
doi:10.3969/j.issn.1673 - 0194.2016.06.164
[中圖分類號(hào)]G642.4 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2016)06-0-02
0 引 言
數(shù)據(jù)挖掘(Data Mining)就是從大量的、模糊的、不完全的隨機(jī)數(shù)據(jù)中提取出隱含的、不為人們所知道的但對(duì)人們卻很有用的信息和知識(shí)的過(guò)程。它涉及的領(lǐng)域比較廣泛。
聚類分析通俗地說(shuō)就是“物以類聚”的意思,它會(huì)根據(jù)設(shè)定的條件對(duì)數(shù)據(jù)進(jìn)行分類,把性質(zhì)相似或相近的數(shù)據(jù)劃分為一類,把原來(lái)大量的、沒(méi)有什么關(guān)聯(lián)的數(shù)據(jù)變成彼此有聯(lián)系的幾類數(shù)據(jù),便于人們了解數(shù)據(jù)的分布情況和數(shù)據(jù)間的彼此關(guān)聯(lián)關(guān)系。它應(yīng)用的領(lǐng)域也比較多,比如:模式識(shí)別、動(dòng)植物分類、基因分析、市場(chǎng)分析等。
1 聚類分析的步驟及分類
步驟一:特征提取。由用戶決定使用原始數(shù)據(jù)(樣本)的那些特征來(lái)對(duì)數(shù)據(jù)進(jìn)行分類和提取,把提取到的數(shù)據(jù)以矩陣的形式表現(xiàn)出來(lái),每一行是一個(gè)樣本,每一列是一個(gè)特征指標(biāo)變量。
步驟二:獲得聚類譜系圖。要想獲得聚類譜系圖,可以使用聚類算法,樣本特征提取以后形成一個(gè)帶有特征的矩陣,它把每一個(gè)樣本看成特征變量空間中的點(diǎn)。聚類算法的目的就是獲得能夠反映n維空間中這些樣本點(diǎn)的最本質(zhì)的“族”的性質(zhì)。也就是說(shuō),它不考慮其他領(lǐng)域的知識(shí),僅僅根據(jù)樣本的特征進(jìn)行細(xì)化分類,形成一個(gè)特征集合。
步驟三:分類閥值的選取。這一步就要憑借經(jīng)驗(yàn)和領(lǐng)域知識(shí)了,根據(jù)生成的聚類譜系圖和具體的應(yīng)用目的來(lái)選取適當(dāng)?shù)拈y值。閥值確定以后,就能夠從聚類譜系圖上得出分類方案,為下一步數(shù)據(jù)的分析提供幫助和參考,所以選取合適的閥值就顯得很重要了。
聚類分析常用的方法有4類:劃分方法、層次方法、基于密度的方法及基于網(wǎng)絡(luò)的方法。這4類方法各有特點(diǎn),根據(jù)應(yīng)用目的不同可以選取不同的方法,期中K-means算法是最常用的基于劃分方法的聚類算法,它是根據(jù)距離相似性作為評(píng)價(jià)指標(biāo),也就是兩個(gè)樣本的距離越近,相似性就越大。其最終的目的是把距離最近的對(duì)象作為一族來(lái)看待,把原始數(shù)據(jù)劃分成緊湊且獨(dú)立的各個(gè)數(shù)據(jù)族。
2 聚類技術(shù)在成績(jī)分析中的應(yīng)用
學(xué)生成績(jī)是考核學(xué)生對(duì)知識(shí)掌握程度的重要指標(biāo),也是評(píng)價(jià)教學(xué)質(zhì)量和教學(xué)效果的一個(gè)重要依據(jù),如何科學(xué)合理地對(duì)學(xué)生成績(jī)進(jìn)行分析評(píng)價(jià)是教育工作者多年來(lái)一直研究的課題。學(xué)生成績(jī)的評(píng)定由原來(lái)傳統(tǒng)的五分制、百分制慢慢發(fā)展到現(xiàn)在普遍使用的學(xué)分制、等級(jí)制。等級(jí)制成績(jī)?cè)u(píng)價(jià)法比較適合對(duì)學(xué)生成績(jī)的一個(gè)縱向衡量,而橫向衡量學(xué)生成績(jī)的差異則所包含的信息量還明顯很不足。
因此,如何科學(xué)地利用原始成績(jī)給出合理的等級(jí)制成績(jī),完成以后對(duì)成績(jī)進(jìn)行各種分析提供依據(jù)就顯得尤為重要。本文主要采用了K-means聚類分析算法來(lái)解決這個(gè)問(wèn)題。
表1是2014級(jí)×××學(xué)院100名學(xué)生的計(jì)算機(jī)基礎(chǔ)課程的成績(jī)表(本文取部分學(xué)生成績(jī))。
按照傳統(tǒng)的成績(jī)劃分方法,筆者把表1的成績(jī)劃分為5個(gè)等級(jí),分別是大于等于90分的為優(yōu)秀;大于等于80分小于等于89分的為良好;大于等于70分小于等于79分的為中等;大于等于60分小于等于69分的為及格;小于60分的為不及格。具體劃分結(jié)果如表2所示。
按照K-means聚類算法,若設(shè)置初始聚類中心為53、66、74、79、89,則劃分的結(jié)果如表3所示。
通過(guò)對(duì)表2和表3的對(duì)照,可以看出按照傳統(tǒng)的劃分方法優(yōu)秀的學(xué)生只有2人,而用K-means算法劃分的優(yōu)秀人數(shù)為4人,這對(duì)于那些成績(jī)?yōu)?8、89的學(xué)生來(lái)說(shuō)應(yīng)該是合理的,能夠更加客觀地反映出學(xué)生真實(shí)的學(xué)習(xí)情況和掌握知識(shí)的情況。
用傳統(tǒng)的方法對(duì)學(xué)生成績(jī)進(jìn)行評(píng)定,雖然方法簡(jiǎn)單、標(biāo)準(zhǔn)統(tǒng)一,但也存在明顯的不足,就是過(guò)于注重分?jǐn)?shù),不是很靈活。例如:考試難度偏難或者評(píng)分標(biāo)準(zhǔn)比較嚴(yán)格,結(jié)果導(dǎo)致學(xué)生成績(jī)普遍偏低,這時(shí)再用傳統(tǒng)的評(píng)分標(biāo)準(zhǔn)就不能客觀地評(píng)價(jià)學(xué)生的學(xué)習(xí)情況,就會(huì)有大量的學(xué)生不及格或優(yōu)秀、良好的偏少。假如絕大多數(shù)學(xué)生的成績(jī)低于80分,用新的評(píng)價(jià)標(biāo)準(zhǔn)來(lái)評(píng)價(jià),就應(yīng)該把80分以上的定為優(yōu)秀,這樣就比較合理了,也能夠比較客觀地評(píng)價(jià)教師的教學(xué)效果。
3 結(jié) 語(yǔ)
通過(guò)對(duì)聚類分析研究思想的闡述和實(shí)驗(yàn)結(jié)果的分析,筆者發(fā)現(xiàn),使用聚類分析可以彌補(bǔ)傳統(tǒng)成績(jī)?cè)u(píng)定中存在的缺陷,能夠比較客觀、合理、科學(xué)、公平地反映學(xué)生的學(xué)習(xí)情況和對(duì)知識(shí)的掌握程度,客觀公正地評(píng)價(jià)此門(mén)課程的教學(xué)效果。另外,聚類分析作為數(shù)據(jù)挖掘的重要組成部分已經(jīng)普遍應(yīng)用到各行各業(yè)中,人們也要根據(jù)具體問(wèn)題具體分析,選擇最佳的聚類方法。
主要參考文獻(xiàn)
[1][美]拉德.數(shù)據(jù)挖掘?qū)嵺`[M].朱揚(yáng)勇,左子葉,張忠平,譯.北京:機(jī)械工業(yè)出版社,2003.
[2]趙法信,王國(guó)業(yè).數(shù)據(jù)挖掘中聚類分析算法研究[J].通化師范學(xué)院學(xué)報(bào),2005(2).
[3]周蕾.聚類分析在學(xué)生成績(jī)分析中的應(yīng)用[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2010(5).