基于全局中心聚類算法的學(xué)生成績評價研究

2019-01-11 06:00段桂芹

智能計算機與應(yīng)用 2019年1期

段桂芹

(廣東松山職業(yè)技術(shù)學(xué)院計算機系，廣東韶關(guān) 512126)

0 引言

高校在評價學(xué)生綜合素質(zhì)時，常采用平均分或總分作為衡量學(xué)生成績的等級標(biāo)準(zhǔn)，在實際教學(xué)反饋中這種評價方式簡單易行，但卻忽略了由于試卷難易程度無法統(tǒng)一而導(dǎo)致評價結(jié)果的單一性和片面性。這種評價方式無法客觀真實地反映學(xué)生間的成績相對分布與學(xué)情分類情況[1]，例如：當(dāng)2門課程的平均成績分別為80分和70分，某學(xué)生2門課程同為79分，則該生第二門課程的評價等級要高于第一門課程，但是這種評價結(jié)果卻無法通過原始卷面成績直接反映出來，尤其當(dāng)教師需要對學(xué)生進行分組教學(xué)并制定與學(xué)情相適應(yīng)的個性化指導(dǎo)時，這種有缺陷的評價方式很難科學(xué)地對學(xué)生進行合理分組。因此，本文提出采用全局中心聚類算法對學(xué)生成績進行聚類，將距離相對較近(高相似度)的學(xué)生聚為一類，通過分析比較各類學(xué)生成績，給出相應(yīng)的改進建議，為學(xué)生的成績評價、個性化發(fā)展以及教師的差異化教學(xué)提供理論依據(jù)。

1 聚類算法

聚類分析作為一種探索性分析方法被廣泛應(yīng)用于模式識別、計算機視覺、數(shù)據(jù)挖掘等領(lǐng)域中，其目的是根據(jù)相似性原則將物理或抽象的對象集合分成若干個子集，并分析各子集中數(shù)據(jù)對象的內(nèi)在聯(lián)系、規(guī)律和特點[2]。K-means聚類算法是應(yīng)用最為廣泛的劃分方法之一，其實現(xiàn)簡單、快速，能有效地處理大數(shù)據(jù)集，但該算法對初始聚類中心和異常數(shù)據(jù)較為敏感，且不能用于發(fā)現(xiàn)非凸形狀的簇，因此聚類結(jié)果存在不穩(wěn)定性。為了解決K-means算法的這些問題，研究人員圍繞簇中心的選擇與優(yōu)化提出了新的計算方法[3-6]，提高了原算法的聚類質(zhì)量，減少了聚類時間。

1.1 全局中心聚類算法

全局中心聚類算法由距離矩陣構(gòu)建、初始聚類中心選擇和簇中心更新3部分構(gòu)成。首先，使用距離公式計算各數(shù)據(jù)對象間的距離；再從距離矩陣中選取k個首尾相連且距離乘積最大的數(shù)據(jù)對象作為初始聚類中心集合V；然后，根據(jù)集合V完成初次聚類，選取簇內(nèi)距離之和最小的樣本作為簇中心，生成臨時簇中心集合V’；最后，按最小距離將各樣本劃分到相應(yīng)簇中，重復(fù)簇中心迭代過程，直至聚類誤差平方和函數(shù)收斂，完成聚類。

1.2 相關(guān)定義與公式

全局中心聚類算法中的相關(guān)定義和公式如下所述。

設(shè)樣本集X為含有n個學(xué)生樣本的集合，X={X1,X2,…,Xi,…,Xn}，每個學(xué)生樣本由p門課程成績組成，第i個樣本對象可以表示為：Xi=(Xi1,Xi2,…,Xip)?，F(xiàn)將樣本集劃分為k個簇，每簇含學(xué)生樣本數(shù)為m，則樣本集X={C1,C2,…,Ck}，簇中心集合V={v1,v2,…,vk}(k

定義1min-max標(biāo)準(zhǔn)化是對原始數(shù)據(jù)的線性變換，使結(jié)果落到[0,1]區(qū)間，轉(zhuǎn)換函數(shù)如下：

(1)

其中，x為某門課程的原始成績；max為該門課程的最高分；min為該門課程的最低分。

定義2空間兩點間的歐氏距離定義為：

(2)

其中，i=1,2,…,n;j=1,2,…,n;w=1,2,…,p。

定義3樣本集X的空間距離矩陣X’

(3)

定義4樣本Xi的簇內(nèi)距離定義為Xi與其所屬同一簇的樣本間的距離之和，即：

(4)

其中，i=1,2,…,n，j=1,2,…,n

定義5第k簇的簇內(nèi)距離之和矩陣定義為：

(5)

定義6將第k簇的簇內(nèi)距離之和最小的樣本Xi作為中心，即：

Vk=find(min(DistSum_array(Ck)))

(6)

定義7聚類誤差平方和E定義為：

(7)

其中，Xij是第i簇的第j個數(shù)據(jù)對象，Vi是第i簇的中心。

定義8CH指標(biāo)(Calinski-Harabasz)[7]

(8)

CH指標(biāo)將各簇中心點與樣本集的均值中心的距離平方和作為數(shù)據(jù)集的分離度，將簇中各點與簇中心的距離平方和作為簇內(nèi)的緊密度，將分離度與緊密度的比值視為CH的最終指標(biāo)。該指標(biāo)越大表示各簇之間分散程度越高，簇內(nèi)越緊密，聚類結(jié)果越優(yōu)。Milligan在文獻(xiàn)[8]中，對CH等評價指標(biāo)的性能進行了深入探討。實驗結(jié)果表明，CH指標(biāo)在多數(shù)情況下，都要優(yōu)于其它的指標(biāo)。

2 學(xué)生成績聚類

2.1 聚類流程

使用全局中心聚類算法對學(xué)生成績進行聚類的整個流程分為3部分：數(shù)據(jù)預(yù)處理、多聚類結(jié)果比較和最優(yōu)聚類結(jié)果輸出。其中，多聚類結(jié)果比較環(huán)節(jié)中的聚類數(shù)k由內(nèi)部評價指標(biāo)CH確定，設(shè)計流程如圖1所示。

圖1 學(xué)生成績聚類流程

具體實施步驟如下：

(1)根據(jù)式(1)完成數(shù)據(jù)預(yù)處理；

(2)根據(jù)式(2)計算樣本集X中各學(xué)生對象之間的距離；

(3)根據(jù)式(3)構(gòu)建全部學(xué)生的空間距離矩陣X’；

(5)將非簇中心的學(xué)生對象按距離最近原則劃分至相應(yīng)簇中；

(6)使用式(4)、(5)得出簇內(nèi)距離之和矩陣，再根據(jù)式(6)從矩陣中篩選出簇內(nèi)距離之和最小的學(xué)生對象作為新的簇中心存入集合V’中；

(7)重復(fù)步驟(6)，更新各簇的中心，直到|Z’|=k，再用V’取代V；

(8)重復(fù)步驟(5)；

(9)根據(jù)式(7)判斷函數(shù)E是否收斂，如果收斂，則聚類算法結(jié)束，否則轉(zhuǎn)到步驟(4)繼續(xù)執(zhí)行；

(10)使用式(8)中的CH指標(biāo)對k={2,3,…,n1/2}的聚類結(jié)果進行評價，將CH指標(biāo)取最大值時的聚類劃分作為最優(yōu)聚類結(jié)果輸出。

2.2 數(shù)據(jù)預(yù)處理

本文中的樣本數(shù)據(jù)來源于某高校2016級81名同學(xué)第四學(xué)期JAVA 、HTML5、C#數(shù)據(jù)訪問技術(shù)3門課程的成績?？偝煽冇善綍r成績(20%)和期末成績(80%)構(gòu)成，均采用百分制形式計算，原始數(shù)據(jù)見表1，采用min-max標(biāo)準(zhǔn)化后的數(shù)據(jù)見表2。

表1 學(xué)生原始成績

2.3 K值的確定與最優(yōu)聚類結(jié)果

使用全局中心聚類算法對學(xué)生成績聚類后，用CH指標(biāo)對k={2,3,…,9}的聚類結(jié)果進行對比，指標(biāo)值與聚類數(shù)目的關(guān)系如圖2所示。由CH指標(biāo)的特征可知，該值最大時的k值即為最優(yōu)聚類數(shù)，此時的聚類結(jié)果為最優(yōu)劃分。從圖2可以看出，最優(yōu)聚類數(shù)kopt=3，此時的各簇數(shù)據(jù)分布情況如圖3所示，各簇中心點位置詳見表3。

表2 預(yù)處理后的學(xué)生成績

圖2 不同k值的CH指標(biāo)

圖3 k=3時各簇樣本分布情況

Tab.3Thecentralpointdistributionofeachclusterafterstandardization

JAVAC#數(shù)據(jù)訪問技術(shù)HTML5I00.240.55II0.960.920.98III0.830.320

3 聚類結(jié)果分析

從圖 3的最優(yōu)聚類結(jié)果得出：學(xué)生可以劃分為3類，各類人數(shù)分別為25人、41人、15人，所占比例分別為：30.86%、50.62%、18.52%，聚類劃分基本符合正態(tài)分布，結(jié)合這3類同學(xué)的平時成績，對本次聚類結(jié)果分析如下。

(1)相比于其它2類，第一類學(xué)生的綜合素質(zhì)較高，邏輯思維能力較強，程序設(shè)計能力較為突出，建議在現(xiàn)有水平的基礎(chǔ)上，適當(dāng)提高學(xué)習(xí)目標(biāo)，深入學(xué)習(xí)更為前沿的知識技術(shù)；

(2)第二類學(xué)生成績比較穩(wěn)定，HTML5課程的成績有較大提升空間，建議嘗試改進現(xiàn)有學(xué)習(xí)方法，提高應(yīng)試技巧，加強主動學(xué)習(xí)意識；

(3)第三類學(xué)生的成績低于及格線，說明這部分學(xué)生的學(xué)習(xí)態(tài)度消極或者學(xué)習(xí)方法不正確，需要教師、輔導(dǎo)員給予學(xué)生更多的關(guān)心，幫助學(xué)生樹立正確的學(xué)習(xí)方法，鼓勵學(xué)生在學(xué)習(xí)上投入更多的精力。

4 結(jié)束語

本文使用全局中心聚類算法結(jié)合CH評價指標(biāo)對學(xué)生成績進行聚類分析與評價。通過min-max標(biāo)準(zhǔn)化方法完成數(shù)據(jù)的歸一化，相比傳統(tǒng)的均值聚類算法，本文算法通過計算內(nèi)部評價指標(biāo)解決了無類標(biāo)樣本聚類數(shù)k難以確定的問題。所得到的最優(yōu)聚類結(jié)果符合實際情況，有效地克服了因課程之間難度差異大而帶來的評價不合理的問題，并針對各類學(xué)生的學(xué)習(xí)成績給出了相應(yīng)的改進建議。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡