黃 瑩
(貴州職業(yè)技術(shù)學(xué)院,貴州 貴陽(yáng) 550001)
聚類技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用
黃 瑩
(貴州職業(yè)技術(shù)學(xué)院,貴州 貴陽(yáng) 550001)
文章將數(shù)據(jù)挖掘中的聚類技術(shù)引入到對(duì)學(xué)生成績(jī)分析中,通過尋找影響學(xué)生學(xué)習(xí)成績(jī)的內(nèi)部原因及其他結(jié)論,可以有針對(duì)性地提高教學(xué)質(zhì)量。針對(duì)傳統(tǒng)K-均值算法中初始中心點(diǎn)選取存在的缺陷,將Huffman樹構(gòu)造的思想用于優(yōu)化初始中心點(diǎn)的選取,改善傳統(tǒng)K-均值聚類算法容易陷入局部最優(yōu)而非全局最優(yōu)的不良結(jié)果。將該改進(jìn)的聚類算法應(yīng)用到學(xué)生成績(jī)劃分中。在對(duì)學(xué)生成績(jī)分析的過程中,分析也驗(yàn)證了該改進(jìn)算法在學(xué)生成績(jī)分析中的優(yōu)越性和有效性。
聚類技術(shù);K-均值算法;成績(jī)分析
隨著高校的不斷擴(kuò)招,學(xué)生數(shù)量越來(lái)越大,傳統(tǒng)的學(xué)生成績(jī)分析僅僅通過分值的高低、平均值來(lái)簡(jiǎn)單劃分,學(xué)生成績(jī)中存在的隱含信息無(wú)法知曉,已不適應(yīng)深入分析的需要。本文將數(shù)據(jù)挖掘中的聚類技術(shù)應(yīng)用于學(xué)生成績(jī)分析,判斷學(xué)生成績(jī)中影響成績(jī)高低的因素及由此產(chǎn)生的結(jié)果,可幫助教師有針對(duì)性地指定學(xué)生的學(xué)習(xí)計(jì)劃,提高教學(xué)質(zhì)量。
數(shù)據(jù)庫(kù)系統(tǒng)用于管理和處理數(shù)據(jù),從而可以對(duì)數(shù)據(jù)進(jìn)行加以分析、利用。然而,在實(shí)際使用中,對(duì)于如此龐大的數(shù)據(jù),往往需要對(duì)其作較高層次的處理,找出其中規(guī)律和模式,以幫助管理者更好地利用這些數(shù)據(jù)做一系列的決策及研究,因此,數(shù)據(jù)庫(kù)系統(tǒng)提供的功能是遠(yuǎn)遠(yuǎn)不夠的。數(shù)據(jù)挖掘(Data Mining)正是在這樣一個(gè)背景下產(chǎn)生的,數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。這些知識(shí)是事先未知的、隱含的、但潛在有用的信息,數(shù)據(jù)挖掘意味著從大量的、不完全的、模糊的、隨機(jī)的、帶噪的數(shù)據(jù)中提取人們感興趣的信息或者模式的過程[1]。
聚類問題產(chǎn)生于多門學(xué)科,聚類分析最初出現(xiàn)在統(tǒng)計(jì)學(xué)領(lǐng)域,是多元分析的一個(gè)分支,主要研究的算法是基于對(duì)距離分析的,如:K-均值算法、最短距離法等。關(guān)于聚類問題,尚存在許多需要去研究的領(lǐng)域,如:處理形狀不規(guī)則的數(shù)據(jù)對(duì)象的能力;處理數(shù)據(jù)量大、數(shù)據(jù)模型復(fù)雜的數(shù)據(jù)集合時(shí),提高聚類結(jié)果精確度的問題;處理帶噪數(shù)據(jù)、孤立點(diǎn)數(shù)據(jù)、未知數(shù)據(jù)或者錯(cuò)誤數(shù)據(jù)的能力;處理高屬性數(shù)據(jù)的能力;降低對(duì)先決條件的依賴性。這些問題的存在也是未來(lái)聚類分析研究的主要方向。
K-Means聚類算法是一種基本且應(yīng)用廣泛的聚類分析方法,屬于劃分方法的一種?;诮o定的聚類目標(biāo)函數(shù)(即:判別準(zhǔn)則),指定聚類的類別數(shù)k,采用迭代更新的方法,最終得到k個(gè)聚類中心表達(dá)的聚類結(jié)果。每一次迭代都是向目標(biāo)函數(shù)值靠近,終止條件為:聚類結(jié)果使目標(biāo)函數(shù)取得極小值,聚類效果較優(yōu)。K-Means算法以類內(nèi)平方誤差和函數(shù)為目標(biāo)函數(shù),k個(gè)劃分是用戶事先指定的,通過迭代優(yōu)化,使目標(biāo)函數(shù)值最小。其中,目標(biāo)函數(shù)是集合中每個(gè)簇的數(shù)據(jù)點(diǎn)到該簇中心點(diǎn)的平方和。該算法本質(zhì)上是一種枚舉法,屬于硬劃分,即:每個(gè)對(duì)象必須而且只屬于一個(gè)劃分,每個(gè)劃分包含至少一個(gè)對(duì)象。
K-Means算法是解決聚類問題的一種經(jīng)典算法。它的主要優(yōu)點(diǎn)是算法簡(jiǎn)潔快速。如果結(jié)果簇是密集的,且簇與簇之間區(qū)別明顯時(shí),它的效果最好。同時(shí),對(duì)于大數(shù)據(jù)集的處理,該算法相對(duì)效率較高。但是,K-Means算法也存在著一些問題,比較顯著的有:初選擇始聚類中心的問題、K值的估計(jì)。
針對(duì)傳統(tǒng)K-均值算法中初始中心點(diǎn)選取存在的缺陷,將Huffman樹構(gòu)造的思想用于優(yōu)化初始中心點(diǎn)的選取,改善傳統(tǒng)K-均值聚類算法容易陷入局部最優(yōu)而非全局最優(yōu)的不良結(jié)果,并將該改進(jìn)的聚類算法應(yīng)用到學(xué)生成績(jī)劃分中,可有效避免隨機(jī)選取初始中心點(diǎn)導(dǎo)致的結(jié)果不穩(wěn)定性,一定程度上也減少了算法陷入局部最優(yōu)的可能性。
(1)計(jì)算數(shù)據(jù)的相異度矩陣,作為構(gòu)造Huffman樹權(quán)值的依據(jù),將數(shù)據(jù)樣本構(gòu)造成一棵Huffman樹。分析算法的實(shí)際需要,在構(gòu)造樹時(shí),選取歐式距離最小的兩個(gè)數(shù)據(jù)點(diǎn)作為新樹的左右子樹,并將這兩點(diǎn)的算術(shù)平均值作為新樹根結(jié)點(diǎn)的值;重新計(jì)算所有樹根節(jié)點(diǎn)的相異度矩陣。
(2)根據(jù)圖論理論,按照Huffman樹結(jié)點(diǎn)構(gòu)造過程的逆序找到k-1個(gè)結(jié)點(diǎn),將這k-1個(gè)結(jié)點(diǎn)去掉可得到k個(gè)子樹,這k個(gè)子樹的根節(jié)點(diǎn)即為k個(gè)初始聚類中心點(diǎn)。
(3)根據(jù)這k個(gè)初始聚類中心點(diǎn),按照傳統(tǒng)K-Means聚類算法進(jìn)行聚類即可。
在運(yùn)用K-Means算法進(jìn)行學(xué)生成績(jī)分析時(shí),首先,進(jìn)行數(shù)據(jù)預(yù)處理以保證聚類結(jié)果的質(zhì)量和提高聚類的效率,然后根據(jù)聚類結(jié)果分析學(xué)生成績(jī);對(duì)某班的單科成績(jī)進(jìn)行分析,找出對(duì)學(xué)生總體成績(jī)影響最重要的因素,以便為相關(guān)教師改變教學(xué)方式和方法、提高整體教學(xué)質(zhì)量方面提供依據(jù)。同時(shí),推廣到不同考試科目的成績(jī)進(jìn)行綜合分析,得出學(xué)生成績(jī)整體的情況及其相關(guān)科目之間的共性及學(xué)生特征,從而為進(jìn)一步完善整體成績(jī)管理系統(tǒng)提供技術(shù)支持。在對(duì)學(xué)生成績(jī)分析的過程中,也驗(yàn)證了該改進(jìn)算法在學(xué)生成績(jī)分析中的優(yōu)越性和有效性。
運(yùn)用Huffman樹的思想尋找到初始聚類中心點(diǎn),接下來(lái),使用傳統(tǒng)的聚類算法對(duì)數(shù)據(jù)集進(jìn)行聚類,即可得到改進(jìn)的K-Means聚類算法。本文首先描述了傳統(tǒng)的K-Means聚類算法基本思想,分析了該算法存在的缺陷及現(xiàn)有的改進(jìn)思想。針對(duì)初始聚類中心點(diǎn)選取的問題,介紹了目前主要的改進(jìn)方法,并在此基礎(chǔ)上提出了改進(jìn)的算法—使用構(gòu)造Huffman樹的思想來(lái)選擇初始聚類中心點(diǎn)。對(duì)改進(jìn)算法的思想及算法流程作了詳細(xì)描述,并對(duì)改進(jìn)前后算法的性能作了比較。實(shí)驗(yàn)結(jié)果證明,改進(jìn)的算法提高了算法穩(wěn)定性及結(jié)果有效性。
在對(duì)K-Means算法進(jìn)行改進(jìn)分析之后,將其運(yùn)用到學(xué)生的成績(jī)分析中,對(duì)學(xué)生成績(jī)進(jìn)行更深層次的分析。因?yàn)榫垲愔饕巧疃葦?shù)據(jù)分析,應(yīng)用聚類技術(shù)進(jìn)行試卷成績(jī)分析是益處良多,可以將考試成績(jī)與諸多因素進(jìn)行關(guān)聯(lián)分析??蔀橹付▽W(xué)生的下一步學(xué)習(xí)計(jì)劃提供依據(jù),從而進(jìn)一步提高學(xué)校教學(xué)質(zhì)量。
某次考試試題難度偏高、任課教師評(píng)分標(biāo)準(zhǔn)較嚴(yán),通常將導(dǎo)致學(xué)生整體成績(jī)偏低。在這樣的基礎(chǔ)上對(duì)學(xué)生的學(xué)習(xí)情況進(jìn)行評(píng)價(jià)將產(chǎn)生不公正、不合理的結(jié)果,也會(huì)影響教師對(duì)學(xué)生的教學(xué)計(jì)劃制定、教學(xué)效果的優(yōu)良評(píng)估。總之,傳統(tǒng)的成績(jī)分析方法有以下幾點(diǎn)不足:
(1)無(wú)法表示某一屬性值在整個(gè)數(shù)據(jù)集內(nèi)動(dòng)態(tài)分布的情況。
(2)等級(jí)劃分可能會(huì)將原始屬性差別并不大的數(shù)據(jù)分成不同等級(jí),導(dǎo)致水平相差不大的同學(xué)其等級(jí)差別較大,對(duì)一部分同學(xué)不公平。
(3)如果數(shù)據(jù)含有多種條件,每個(gè)條件的格式也不一致,如果直接轉(zhuǎn)換,可能導(dǎo)致其與原始數(shù)據(jù)的差距,影響到后期等級(jí)評(píng)定的結(jié)果。
學(xué)生成績(jī)是教師指定教學(xué)計(jì)劃、進(jìn)行教學(xué)管理的主要依據(jù),但是由于有限的成績(jī)分析方法,這部分?jǐn)?shù)據(jù)沒有得到充分的利用,很多成績(jī)里面隱含的有用信息無(wú)法輸出。如果通過數(shù)據(jù)挖掘,獲取學(xué)生成績(jī)所體現(xiàn)出的隱含信息,可以有針對(duì)性地進(jìn)行教學(xué)計(jì)劃修改與指導(dǎo),提高學(xué)生的學(xué)習(xí)水平。傳統(tǒng)的成績(jī)分析有如下的不足:成績(jī)中包含的有指導(dǎo)性的信息,可能被忽略;某一個(gè)科目對(duì)于整體科目的影響無(wú)法識(shí)別。
經(jīng)過聚類分析,可將學(xué)生的成績(jī)歸類為不同的簇,簇的形狀、大小、聚類中心值可以為教學(xué)效果的評(píng)價(jià)提供參考;根據(jù)簇的形狀評(píng)價(jià);根據(jù)簇的大小評(píng)價(jià);根據(jù)簇中心點(diǎn)評(píng)價(jià)。
數(shù)據(jù)的預(yù)處理是數(shù)據(jù)挖掘過程中一個(gè)非常重要的環(huán)節(jié),一般要占去挖掘過程中大部分的工作量。經(jīng)驗(yàn)表明,如果數(shù)據(jù)準(zhǔn)備工作做得非常細(xì)致,在模型建立階段就會(huì)節(jié)省大量的精力。
通過研究數(shù)據(jù)挖掘、聚類分析及K-Means算法,并將其應(yīng)用到學(xué)生成績(jī)的分析中,進(jìn)行客觀的成績(jī)分析與總結(jié),本文可以得到如下結(jié)論。
(1)聚類算法在學(xué)生成績(jī)分析中的應(yīng)用彌補(bǔ)傳統(tǒng)評(píng)價(jià)方法的不足,可以從不同的方面比較學(xué)生成績(jī)的差異,為教師制定與改進(jìn)有針對(duì)性的教學(xué)計(jì)劃起到很大的幫助。
(2)K-means算法作為一種啟發(fā)式的聚類算法,在數(shù)據(jù)量小的情況下,聚類結(jié)果不一定理想。通過本文的實(shí)驗(yàn)及其驗(yàn)證的結(jié)果分析,K-means聚類算法進(jìn)行了改進(jìn),在初值選擇部分,引入Huffman算法選定初值,不僅可得到穩(wěn)定的運(yùn)算結(jié)果,還可以保證運(yùn)算時(shí)間短。
[1]朱明.數(shù)據(jù)挖掘?qū)д摚跰].合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2002.
[2]蔡元萃,陳立潮.聚類算法研究綜述[J].科學(xué)情報(bào)開發(fā)與經(jīng)濟(jì),2007(1):145-146.
[3]陳文偉.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2006.
[4]行小帥,焦禮成.數(shù)據(jù)挖掘的聚類算法[J].電路與系統(tǒng)學(xué),2000(1):59-67.
[5]李玉梅.數(shù)據(jù)挖掘初探[J].現(xiàn)代管理科學(xué),2005(4):24-29.
[6]董長(zhǎng)虹,賴志國(guó),余嘯海.Matlab圖像處理與應(yīng)用[M].北京:國(guó)防工業(yè)出版社,2004.Application of clustering method to analysis of students’grades
Huang Ying
(Guizhou Vocational Technology Institute,Guiyang 550001,China)
In this paper,the clustering technology of data mining is introduced into the analysis of student grades,by looking for the internal factors that influence students'grades and some other results,which can be targeted to improve the quality of teaching.According to the defects existing in selection of initial center point of traditional K- Means Algorithm,the the idea of Huffman tree structure is used to optimize the selection of initial center point and improve the bad result that traditional K-Means Clustering Algorithm is easy to fall into local optimum and non-adverse results of the global optimum.Improved clustering algorithm is applied to the division of students'grades.In the process of analyzing the students'performance,the analysis also validated the superiority and effectiveness of the improved algorithm in the analysis of students'grades.
cluster;K-Means Algorithm;analysis of students'grades
黃瑩(1988—),女,貴州安順。