国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于全局中心聚類算法的學(xué)生成績評價研究

2019-01-11 06:00段桂芹
智能計算機與應(yīng)用 2019年1期
關(guān)鍵詞:聚類定義樣本

段桂芹

(廣東松山職業(yè)技術(shù)學(xué)院 計算機系, 廣東 韶關(guān) 512126)

0 引 言

高校在評價學(xué)生綜合素質(zhì)時,常采用平均分或總分作為衡量學(xué)生成績的等級標(biāo)準(zhǔn),在實際教學(xué)反饋中這種評價方式簡單易行,但卻忽略了由于試卷難易程度無法統(tǒng)一而導(dǎo)致評價結(jié)果的單一性和片面性。這種評價方式無法客觀真實地反映學(xué)生間的成績相對分布與學(xué)情分類情況[1],例如:當(dāng)2門課程的平均成績分別為80分和70分,某學(xué)生2門課程同為79分,則該生第二門課程的評價等級要高于第一門課程,但是這種評價結(jié)果卻無法通過原始卷面成績直接反映出來,尤其當(dāng)教師需要對學(xué)生進行分組教學(xué)并制定與學(xué)情相適應(yīng)的個性化指導(dǎo)時,這種有缺陷的評價方式很難科學(xué)地對學(xué)生進行合理分組。因此,本文提出采用全局中心聚類算法對學(xué)生成績進行聚類,將距離相對較近(高相似度)的學(xué)生聚為一類,通過分析比較各類學(xué)生成績,給出相應(yīng)的改進建議,為學(xué)生的成績評價、個性化發(fā)展以及教師的差異化教學(xué)提供理論依據(jù)。

1 聚類算法

聚類分析作為一種探索性分析方法被廣泛應(yīng)用于模式識別、計算機視覺、數(shù)據(jù)挖掘等領(lǐng)域中,其目的是根據(jù)相似性原則將物理或抽象的對象集合分成若干個子集,并分析各子集中數(shù)據(jù)對象的內(nèi)在聯(lián)系、規(guī)律和特點[2]。K-means聚類算法是應(yīng)用最為廣泛的劃分方法之一,其實現(xiàn)簡單、快速,能有效地處理大數(shù)據(jù)集,但該算法對初始聚類中心和異常數(shù)據(jù)較為敏感,且不能用于發(fā)現(xiàn)非凸形狀的簇,因此聚類結(jié)果存在不穩(wěn)定性。為了解決K-means算法的這些問題,研究人員圍繞簇中心的選擇與優(yōu)化提出了新的計算方法[3-6],提高了原算法的聚類質(zhì)量,減少了聚類時間。

1.1 全局中心聚類算法

全局中心聚類算法由距離矩陣構(gòu)建、初始聚類中心選擇和簇中心更新3部分構(gòu)成。首先,使用距離公式計算各數(shù)據(jù)對象間的距離;再從距離矩陣中選取k個首尾相連且距離乘積最大的數(shù)據(jù)對象作為初始聚類中心集合V;然后,根據(jù)集合V完成初次聚類,選取簇內(nèi)距離之和最小的樣本作為簇中心,生成臨時簇中心集合V’;最后,按最小距離將各樣本劃分到相應(yīng)簇中,重復(fù)簇中心迭代過程,直至聚類誤差平方和函數(shù)收斂,完成聚類。

1.2 相關(guān)定義與公式

全局中心聚類算法中的相關(guān)定義和公式如下所述。

設(shè)樣本集X為含有n個學(xué)生樣本的集合,X={X1,X2,…,Xi,…,Xn},每個學(xué)生樣本由p門課程成績組成,第i個樣本對象可以表示為:Xi=(Xi1,Xi2,…,Xip)?,F(xiàn)將樣本集劃分為k個簇,每簇含學(xué)生樣本數(shù)為m,則樣本集X={C1,C2,…,Ck},簇中心集合V={v1,v2,…,vk}(k

定義1min-max標(biāo)準(zhǔn)化是對原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間,轉(zhuǎn)換函數(shù)如下:

(1)

其中,x為某門課程的原始成績;max為該門課程的最高分;min為該門課程的最低分。

定義2空間兩點間的歐氏距離定義為:

(2)

其中,i=1,2,…,n;j=1,2,…,n;w=1,2,…,p。

定義3樣本集X的空間距離矩陣X’

(3)

定義4樣本Xi的簇內(nèi)距離定義為Xi與其所屬同一簇的樣本間的距離之和,即:

(4)

其中,i=1,2,…,n,j=1,2,…,n

定義5第k簇的簇內(nèi)距離之和矩陣定義為:

(5)

定義6將第k簇的簇內(nèi)距離之和最小的樣本Xi作為中心,即:

Vk=find(min(DistSum_array(Ck)))

(6)

定義7聚類誤差平方和E定義為:

(7)

其中,Xij是第i簇的第j個數(shù)據(jù)對象,Vi是第i簇的中心。

定義8CH指標(biāo)(Calinski-Harabasz)[7]

(8)

CH指標(biāo)將各簇中心點與樣本集的均值中心的距離平方和作為數(shù)據(jù)集的分離度,將簇中各點與簇中心的距離平方和作為簇內(nèi)的緊密度,將分離度與緊密度的比值視為CH的最終指標(biāo)。該指標(biāo)越大表示各簇之間分散程度越高,簇內(nèi)越緊密,聚類結(jié)果越優(yōu)。Milligan在文獻(xiàn)[8]中,對CH等評價指標(biāo)的性能進行了深入探討。實驗結(jié)果表明,CH指標(biāo)在多數(shù)情況下,都要優(yōu)于其它的指標(biāo)。

2 學(xué)生成績聚類

2.1 聚類流程

使用全局中心聚類算法對學(xué)生成績進行聚類的整個流程分為3部分:數(shù)據(jù)預(yù)處理、多聚類結(jié)果比較和最優(yōu)聚類結(jié)果輸出。其中,多聚類結(jié)果比較環(huán)節(jié)中的聚類數(shù)k由內(nèi)部評價指標(biāo)CH確定,設(shè)計流程如圖1所示。

圖1 學(xué)生成績聚類流程

具體實施步驟如下:

(1)根據(jù)式(1)完成數(shù)據(jù)預(yù)處理;

(2)根據(jù)式(2)計算樣本集X中各學(xué)生對象之間的距離;

(3)根據(jù)式(3)構(gòu)建全部學(xué)生的空間距離矩陣X’;

(5)將非簇中心的學(xué)生對象按距離最近原則劃分至相應(yīng)簇中;

(6)使用式(4)、(5)得出簇內(nèi)距離之和矩陣,再根據(jù)式(6)從矩陣中篩選出簇內(nèi)距離之和最小的學(xué)生對象作為新的簇中心存入集合V’中;

(7)重復(fù)步驟(6),更新各簇的中心,直到|Z’|=k,再用V’取代V;

(8)重復(fù)步驟(5);

(9)根據(jù)式(7)判斷函數(shù)E是否收斂,如果收斂,則聚類算法結(jié)束,否則轉(zhuǎn)到步驟(4)繼續(xù)執(zhí)行;

(10)使用式(8)中的CH指標(biāo)對k={2,3,…,n1/2}的聚類結(jié)果進行評價,將CH指標(biāo)取最大值時的聚類劃分作為最優(yōu)聚類結(jié)果輸出。

2.2 數(shù)據(jù)預(yù)處理

本文中的樣本數(shù)據(jù)來源于某高校2016級81名同學(xué)第四學(xué)期JAVA 、HTML5、C#數(shù)據(jù)訪問技術(shù)3門課程的成績??偝煽冇善綍r成績(20%)和期末成績(80%)構(gòu)成,均采用百分制形式計算,原始數(shù)據(jù)見表1,采用min-max標(biāo)準(zhǔn)化后的數(shù)據(jù)見表2。

表1 學(xué)生原始成績

2.3 K值的確定與最優(yōu)聚類結(jié)果

使用全局中心聚類算法對學(xué)生成績聚類后,用CH指標(biāo)對k={2,3,…,9}的聚類結(jié)果進行對比,指標(biāo)值與聚類數(shù)目的關(guān)系如圖2所示。由CH指標(biāo)的特征可知,該值最大時的k值即為最優(yōu)聚類數(shù),此時的聚類結(jié)果為最優(yōu)劃分。從圖2可以看出,最優(yōu)聚類數(shù)kopt=3,此時的各簇數(shù)據(jù)分布情況如圖3所示,各簇中心點位置詳見表3。

表2 預(yù)處理后的學(xué)生成績

圖2 不同k值的CH指標(biāo)

圖3 k=3時各簇樣本分布情況

Tab.3Thecentralpointdistributionofeachclusterafterstandardization

JAVAC#數(shù)據(jù)訪問技術(shù)HTML5I00.240.55II0.960.920.98III0.830.320

3 聚類結(jié)果分析

從圖 3的最優(yōu)聚類結(jié)果得出:學(xué)生可以劃分為3類,各類人數(shù)分別為25人、41人、15人,所占比例分別為:30.86%、50.62%、18.52%,聚類劃分基本符合正態(tài)分布,結(jié)合這3類同學(xué)的平時成績,對本次聚類結(jié)果分析如下。

(1)相比于其它2類,第一類學(xué)生的綜合素質(zhì)較高,邏輯思維能力較強,程序設(shè)計能力較為突出,建議在現(xiàn)有水平的基礎(chǔ)上,適當(dāng)提高學(xué)習(xí)目標(biāo),深入學(xué)習(xí)更為前沿的知識技術(shù);

(2)第二類學(xué)生成績比較穩(wěn)定,HTML5課程的成績有較大提升空間,建議嘗試改進現(xiàn)有學(xué)習(xí)方法,提高應(yīng)試技巧,加強主動學(xué)習(xí)意識;

(3)第三類學(xué)生的成績低于及格線,說明這部分學(xué)生的學(xué)習(xí)態(tài)度消極或者學(xué)習(xí)方法不正確,需要教師、輔導(dǎo)員給予學(xué)生更多的關(guān)心,幫助學(xué)生樹立正確的學(xué)習(xí)方法,鼓勵學(xué)生在學(xué)習(xí)上投入更多的精力。

4 結(jié)束語

本文使用全局中心聚類算法結(jié)合CH評價指標(biāo)對學(xué)生成績進行聚類分析與評價。通過min-max標(biāo)準(zhǔn)化方法完成數(shù)據(jù)的歸一化,相比傳統(tǒng)的均值聚類算法,本文算法通過計算內(nèi)部評價指標(biāo)解決了無類標(biāo)樣本聚類數(shù)k難以確定的問題。所得到的最優(yōu)聚類結(jié)果符合實際情況,有效地克服了因課程之間難度差異大而帶來的評價不合理的問題,并針對各類學(xué)生的學(xué)習(xí)成績給出了相應(yīng)的改進建議。

猜你喜歡
聚類定義樣本
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
以愛之名,定義成長
基于知識圖譜的k-modes文本聚類研究
一種改進K-means聚類的近鄰傳播最大最小距離算法
嚴(yán)昊:不定義終點 一直在路上
定義“風(fēng)格”
基于模糊聚類和支持向量回歸的成績預(yù)測
規(guī)劃·樣本
人大專題詢問之“方城樣本”
隨機微分方程的樣本Lyapunov二次型估計