段桂芹 鄒臣嵩
摘 要: 針對課程之間難度差異大而帶來的學(xué)生成績評價(jià)“一刀切”的問題,提出了一種基于K-medoids算法的學(xué)生成績評價(jià)方法。首先,使用Z-Score對樣本集進(jìn)行標(biāo)準(zhǔn)化,然后,采用K-medoids算法對學(xué)生的多門課程成績進(jìn)行聚類,最后,使用內(nèi)部評價(jià)指標(biāo)Sil對多組聚類結(jié)果進(jìn)行評價(jià),得出最優(yōu)聚類數(shù)和最優(yōu)聚類劃分。通過對某高校學(xué)生成績的分析結(jié)果表明,該方法能夠有效地對學(xué)生成績進(jìn)行聚類,有助于教學(xué)領(lǐng)域向個(gè)性化、信息化的方向發(fā)展。
關(guān)鍵詞: 成績評價(jià); 聚類分析; K-medoids; 聚類評價(jià)
中圖分類號: TP301.6 ? ? ?文獻(xiàn)標(biāo)志碼: A
A Study on Student Performance Evaluation Based on Fast K-medoids Algorithm
DUAN Guiqin1, ZOU Chensong2
(1. Department of Computer Science; 2. Department of Electrical Engineering, Guangdong Songshan
Polytechnic College, Shaoguan 512126)
Abstract: According to the problem of "one-size-fits-all" student performance evaluation caused by the difficulty difference between courses, a K-medoids algorithm based on student performance evaluation is proposed. Firstly, Z-score is used to standardize the sample set; secondly, K-medoids algorithm is used to cluster students' scores of multiple courses. Finally, the results of multi-group clustering are evaluated by using the internal evaluation index Sil, and the optimal clustering number and optimal clustering are obtained. The result of the analysis of the students' achievement in a university shows that this method can effectively cluster the students' achievement, which is helpful for the development of individualized and information-based teaching field.
Key words: Performance evaluation; Cluster analysis; K-medoids; Clustering evaluation
0 引言
許多高校衡量學(xué)生成績的常用方法是將排序后的總分或平均分作為評價(jià)學(xué)生綜合素質(zhì)的依據(jù)。由于這種評價(jià)方式?jīng)]有考慮課程的難易程度,多門課程的總分或平均分受試卷難度影響較大,如果僅用平均分或總分對學(xué)生進(jìn)行評價(jià),其結(jié)果顯得過于片面,無法客觀真實(shí)地反映學(xué)生的學(xué)習(xí)情況[1]。一種改進(jìn)的方法是根據(jù)專家經(jīng)驗(yàn)給每門課程賦予一定的權(quán)值,通過計(jì)算加權(quán)總分的大小進(jìn)行評價(jià),但這種評價(jià)方法并不能體現(xiàn)學(xué)生能力傾向的差異性,當(dāng)教師需要對學(xué)生進(jìn)行分組教學(xué)并制定與學(xué)情相適應(yīng)的個(gè)性化指導(dǎo)時(shí),這種評價(jià)方法同樣也很難科學(xué)地對學(xué)生進(jìn)行合理分組。鑒于此,本文提出采用K-medoids算法對學(xué)生成績進(jìn)行聚類,將具有高相似度的學(xué)生聚為一類,通過分析比較各類學(xué)生間的特點(diǎn),為學(xué)生的成績評價(jià)、個(gè)性化發(fā)展以及教師的差異化教學(xué)提供理論依據(jù)。
1 聚類算法
聚類分析簡稱聚類(clustering),是一個(gè)把數(shù)據(jù)集劃分成子集的過程,每一個(gè)子集是一個(gè)簇,聚類的目的是使得簇中的樣本彼此相似,而與其他簇中的樣本不相似。聚類分析不需要事先知道樣本的類別,甚至不用知道類別個(gè)數(shù),因此是一種無監(jiān)督的學(xué)習(xí)算法,常用于數(shù)據(jù)探索,如群組發(fā)現(xiàn)和離群點(diǎn)檢測。聚類分析算法主要包括劃分法、網(wǎng)格法、密度法、層次法以及基于模型的方法[2-4]。作為一種基于劃分的聚類算法,K-means算法(亦稱K-中心點(diǎn)算法)采用對樣本各維度求平均值的方式來獲得簇中心,但當(dāng)樣本中存在個(gè)別離群點(diǎn)時(shí),聚類中心會受到異常維度的干擾,使得均值中心和實(shí)際中心位置偏差過大,從而導(dǎo)致類簇發(fā)生“畸變”。
1.1 K-medoids算法
為解決K-means算法對噪音數(shù)據(jù)的敏感問題,K-medoids[5-7]算法每一次迭代都從樣本中選取新的中心點(diǎn),而選取的標(biāo)準(zhǔn)就是新的中心是否能令類簇更加緊湊。由于K-medoids算法(亦稱K-均值算法)使用絕對誤差標(biāo)準(zhǔn)選擇簇中心,因此對于離群點(diǎn)的劃分不會出現(xiàn)較大偏差,該算法描述如下:
(1) 隨機(jī)選取一組樣本作為聚類中心,使得每個(gè)中心對應(yīng)一個(gè)簇;
(2) 計(jì)算每個(gè)樣本到各聚類中心的距離,將樣本歸屬至距離最近的簇中;
(3) 選取簇內(nèi)樣本距離和最小的數(shù)據(jù)對象為新中心點(diǎn);
(4) 重復(fù)步驟(2),計(jì)算并比較最近兩次聚類誤差平方和,若相同,則算法終止;否則,繼續(xù)執(zhí)行步驟(3)。
參考文獻(xiàn)
[1] 王平.基于AP聚類分析的學(xué)生成績評價(jià)研究[J].微型電腦應(yīng)用,2015,31(8):57-58.
[2] 鄒臣嵩,楊宇.基于最大距離積與最小距離和協(xié)同K聚類算法[J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(5):297-301.
[3] 段桂芹.基于均值與最大距離乘積的初始聚類中心優(yōu)化K-means算法[J].計(jì)算機(jī)與數(shù)字工程,2015,43(3):379-382.
[4] 何慶,易娜,汪新勇,等.基于高斯混合模型的最大期望聚類算法研究[J].微型電腦應(yīng)用,2018,34(5):50-52.
[5] Donghua Yu, Guojun Liu, Maozu Guo, et al. An improved K-medoids algorithm based on step increasing and optimizing medoids[J]. Expert Systems with Applications, 2018, 92(2):464-473.
[6] 王永,萬瀟逸,陶婭芝,等.基于K-medoids項(xiàng)目聚類的協(xié)同過濾推薦算法[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,29(4):521-526.
[7] 高瑜. 隱私保護(hù)模型下k-medoids聚類算法研究[D].西安:陜西師范大學(xué),2017.
[8] ROUSSEEUW P J. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis[J].Journal of computational and applied mathematics,1987,20(20):53-65.
(收稿日期: 2018.11.25)
基金項(xiàng)目:韶關(guān)市科技計(jì)劃項(xiàng)目(2017CX/K055);廣東松山職業(yè)技術(shù)學(xué)院重點(diǎn)科技項(xiàng)目(2018KJZD001)
作者簡介:段桂芹(1979-),女,公主嶺人,講師,碩士,研究方向:數(shù)據(jù)挖掘。
鄒臣嵩(1980-),男,白山人,講師,碩士,研究方向:數(shù)據(jù)挖掘,網(wǎng)絡(luò)安全。文章編號:1007-757X(2020)02-0064-03