段桂芹
(廣東松山職業(yè)技術(shù)學(xué)院 計算機系, 廣東 韶關(guān) 512126)
高校在評價學(xué)生綜合素質(zhì)時,常采用平均分或總分作為衡量學(xué)生成績的等級標(biāo)準(zhǔn),在實際教學(xué)反饋中這種評價方式簡單易行,但卻忽略了由于試卷難易程度無法統(tǒng)一而導(dǎo)致評價結(jié)果的單一性和片面性。這種評價方式無法客觀真實地反映學(xué)生間的成績相對分布與學(xué)情分類情況[1],例如:當(dāng)2門課程的平均成績分別為80分和70分,某學(xué)生2門課程同為79分,則該生第二門課程的評價等級要高于第一門課程,但是這種評價結(jié)果卻無法通過原始卷面成績直接反映出來,尤其當(dāng)教師需要對學(xué)生進行分組教學(xué)并制定與學(xué)情相適應(yīng)的個性化指導(dǎo)時,這種有缺陷的評價方式很難科學(xué)地對學(xué)生進行合理分組。因此,本文提出采用全局中心聚類算法對學(xué)生成績進行聚類,將距離相對較近(高相似度)的學(xué)生聚為一類,通過分析比較各類學(xué)生成績,給出相應(yīng)的改進建議,為學(xué)生的成績評價、個性化發(fā)展以及教師的差異化教學(xué)提供理論依據(jù)。
聚類分析作為一種探索性分析方法被廣泛應(yīng)用于模式識別、計算機視覺、數(shù)據(jù)挖掘等領(lǐng)域中,其目的是根據(jù)相似性原則將物理或抽象的對象集合分成若干個子集,并分析各子集中數(shù)據(jù)對象的內(nèi)在聯(lián)系、規(guī)律和特點[2]。K-means聚類算法是應(yīng)用最為廣泛的劃分方法之一,其實現(xiàn)簡單、快速,能有效地處理大數(shù)據(jù)集,但該算法對初始聚類中心和異常數(shù)據(jù)較為敏感,且不能用于發(fā)現(xiàn)非凸形狀的簇,因此聚類結(jié)果存在不穩(wěn)定性。為了解決K-means算法的這些問題,研究人員圍繞簇中心的選擇與優(yōu)化提出了新的計算方法[3-6],提高了原算法的聚類質(zhì)量,減少了聚類時間。
全局中心聚類算法由距離矩陣構(gòu)建、初始聚類中心選擇和簇中心更新3部分構(gòu)成。首先,使用距離公式計算各數(shù)據(jù)對象間的距離;再從距離矩陣中選取k個首尾相連且距離乘積最大的數(shù)據(jù)對象作為初始聚類中心集合V;然后,根據(jù)集合V完成初次聚類,選取簇內(nèi)距離之和最小的樣本作為簇中心,生成臨時簇中心集合V’;最后,按最小距離將各樣本劃分到相應(yīng)簇中,重復(fù)簇中心迭代過程,直至聚類誤差平方和函數(shù)收斂,完成聚類。
全局中心聚類算法中的相關(guān)定義和公式如下所述。
設(shè)樣本集X為含有n個學(xué)生樣本的集合,X={X1,X2,…,Xi,…,Xn},每個學(xué)生樣本由p門課程成績組成,第i個樣本對象可以表示為:Xi=(Xi1,Xi2,…,Xip)?,F(xiàn)將樣本集劃分為k個簇,每簇含學(xué)生樣本數(shù)為m,則樣本集X={C1,C2,…,Ck},簇中心集合V={v1,v2,…,vk}(k 定義1min-max標(biāo)準(zhǔn)化是對原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間,轉(zhuǎn)換函數(shù)如下: (1) 其中,x為某門課程的原始成績;max為該門課程的最高分;min為該門課程的最低分。 定義2空間兩點間的歐氏距離定義為: (2) 其中,i=1,2,…,n;j=1,2,…,n;w=1,2,…,p。 定義3樣本集X的空間距離矩陣X’ (3) 定義4樣本Xi的簇內(nèi)距離定義為Xi與其所屬同一簇的樣本間的距離之和,即: (4) 其中,i=1,2,…,n,j=1,2,…,n 定義5第k簇的簇內(nèi)距離之和矩陣定義為: (5) 定義6將第k簇的簇內(nèi)距離之和最小的樣本Xi作為中心,即: Vk=find(min(DistSum_array(Ck))) (6) 定義7聚類誤差平方和E定義為: (7) 其中,Xij是第i簇的第j個數(shù)據(jù)對象,Vi是第i簇的中心。 定義8CH指標(biāo)(Calinski-Harabasz)[7] (8) CH指標(biāo)將各簇中心點與樣本集的均值中心的距離平方和作為數(shù)據(jù)集的分離度,將簇中各點與簇中心的距離平方和作為簇內(nèi)的緊密度,將分離度與緊密度的比值視為CH的最終指標(biāo)。該指標(biāo)越大表示各簇之間分散程度越高,簇內(nèi)越緊密,聚類結(jié)果越優(yōu)。Milligan在文獻(xiàn)[8]中,對CH等評價指標(biāo)的性能進行了深入探討。實驗結(jié)果表明,CH指標(biāo)在多數(shù)情況下,都要優(yōu)于其它的指標(biāo)。 使用全局中心聚類算法對學(xué)生成績進行聚類的整個流程分為3部分:數(shù)據(jù)預(yù)處理、多聚類結(jié)果比較和最優(yōu)聚類結(jié)果輸出。其中,多聚類結(jié)果比較環(huán)節(jié)中的聚類數(shù)k由內(nèi)部評價指標(biāo)CH確定,設(shè)計流程如圖1所示。 圖1 學(xué)生成績聚類流程 具體實施步驟如下: (1)根據(jù)式(1)完成數(shù)據(jù)預(yù)處理; (2)根據(jù)式(2)計算樣本集X中各學(xué)生對象之間的距離; (3)根據(jù)式(3)構(gòu)建全部學(xué)生的空間距離矩陣X’; (5)將非簇中心的學(xué)生對象按距離最近原則劃分至相應(yīng)簇中; (6)使用式(4)、(5)得出簇內(nèi)距離之和矩陣,再根據(jù)式(6)從矩陣中篩選出簇內(nèi)距離之和最小的學(xué)生對象作為新的簇中心存入集合V’中; (7)重復(fù)步驟(6),更新各簇的中心,直到|Z’|=k,再用V’取代V; (8)重復(fù)步驟(5); (9)根據(jù)式(7)判斷函數(shù)E是否收斂,如果收斂,則聚類算法結(jié)束,否則轉(zhuǎn)到步驟(4)繼續(xù)執(zhí)行; (10)使用式(8)中的CH指標(biāo)對k={2,3,…,n1/2}的聚類結(jié)果進行評價,將CH指標(biāo)取最大值時的聚類劃分作為最優(yōu)聚類結(jié)果輸出。 本文中的樣本數(shù)據(jù)來源于某高校2016級81名同學(xué)第四學(xué)期JAVA 、HTML5、C#數(shù)據(jù)訪問技術(shù)3門課程的成績??偝煽冇善綍r成績(20%)和期末成績(80%)構(gòu)成,均采用百分制形式計算,原始數(shù)據(jù)見表1,采用min-max標(biāo)準(zhǔn)化后的數(shù)據(jù)見表2。 表1 學(xué)生原始成績 使用全局中心聚類算法對學(xué)生成績聚類后,用CH指標(biāo)對k={2,3,…,9}的聚類結(jié)果進行對比,指標(biāo)值與聚類數(shù)目的關(guān)系如圖2所示。由CH指標(biāo)的特征可知,該值最大時的k值即為最優(yōu)聚類數(shù),此時的聚類結(jié)果為最優(yōu)劃分。從圖2可以看出,最優(yōu)聚類數(shù)kopt=3,此時的各簇數(shù)據(jù)分布情況如圖3所示,各簇中心點位置詳見表3。 表2 預(yù)處理后的學(xué)生成績 圖2 不同k值的CH指標(biāo) 圖3 k=3時各簇樣本分布情況 Tab.3Thecentralpointdistributionofeachclusterafterstandardization JAVAC#數(shù)據(jù)訪問技術(shù)HTML5I00.240.55II0.960.920.98III0.830.320 從圖 3的最優(yōu)聚類結(jié)果得出:學(xué)生可以劃分為3類,各類人數(shù)分別為25人、41人、15人,所占比例分別為:30.86%、50.62%、18.52%,聚類劃分基本符合正態(tài)分布,結(jié)合這3類同學(xué)的平時成績,對本次聚類結(jié)果分析如下。 (1)相比于其它2類,第一類學(xué)生的綜合素質(zhì)較高,邏輯思維能力較強,程序設(shè)計能力較為突出,建議在現(xiàn)有水平的基礎(chǔ)上,適當(dāng)提高學(xué)習(xí)目標(biāo),深入學(xué)習(xí)更為前沿的知識技術(shù); (2)第二類學(xué)生成績比較穩(wěn)定,HTML5課程的成績有較大提升空間,建議嘗試改進現(xiàn)有學(xué)習(xí)方法,提高應(yīng)試技巧,加強主動學(xué)習(xí)意識; (3)第三類學(xué)生的成績低于及格線,說明這部分學(xué)生的學(xué)習(xí)態(tài)度消極或者學(xué)習(xí)方法不正確,需要教師、輔導(dǎo)員給予學(xué)生更多的關(guān)心,幫助學(xué)生樹立正確的學(xué)習(xí)方法,鼓勵學(xué)生在學(xué)習(xí)上投入更多的精力。 本文使用全局中心聚類算法結(jié)合CH評價指標(biāo)對學(xué)生成績進行聚類分析與評價。通過min-max標(biāo)準(zhǔn)化方法完成數(shù)據(jù)的歸一化,相比傳統(tǒng)的均值聚類算法,本文算法通過計算內(nèi)部評價指標(biāo)解決了無類標(biāo)樣本聚類數(shù)k難以確定的問題。所得到的最優(yōu)聚類結(jié)果符合實際情況,有效地克服了因課程之間難度差異大而帶來的評價不合理的問題,并針對各類學(xué)生的學(xué)習(xí)成績給出了相應(yīng)的改進建議。2 學(xué)生成績聚類
2.1 聚類流程
2.2 數(shù)據(jù)預(yù)處理
2.3 K值的確定與最優(yōu)聚類結(jié)果
3 聚類結(jié)果分析
4 結(jié)束語