梁霄波
摘要:文章主要以數(shù)據(jù)挖掘算法的性能優(yōu)化作為出發(fā)點,研究了相關(guān)的聚類算法,根據(jù)近些年來國際上對于聚類算法的原理、關(guān)鍵技術(shù)的研究分析了相關(guān)聚類個數(shù)K的相關(guān)作用和影響。希望通過文章的研究和報道能夠?qū)ρ芯繑?shù)據(jù)挖掘提供幫助,使得研究更夠朝著更加有效和便捷的方向前進。
關(guān)鍵詞:聚類算法;性能優(yōu)化;k-means
1
k-means經(jīng)典算法
1.1基本思想
一般來說,k-means算法可以算作是聚類算法中最為經(jīng)典和有效的算法,k-means算法最早的提出時間在1967年,主要提倡在算法的過程中把k當作算法的基本參數(shù),通過對參數(shù)的運用將n個對象分為k個簇,該種分布方法能夠讓每個簇中的對象具有極高的相似性,但是簇與簇之間的差別性卻很高。一般來說,k-means算法的基本思想可以從4個方面加以闡述。
1.1.1隨機選取個對象作為初始類的質(zhì)心
k-means算法具有極高的隨機性,這種隨機性也是其作為算法最基本的屬性,保證了數(shù)據(jù)的合理運用。由于隨機性的選擇對象,避免了主觀的判斷,使數(shù)據(jù)的后續(xù)運用能夠有效地進行。
1.1.2計算對象與各個類質(zhì)心的距離,將對象劃分到距離其最近的類
同上文的隨機性一樣,這種由于算法自行運算而選擇的最優(yōu)方案,能夠有效地縮短計算運行的時間,節(jié)約成本,提高效率,能夠更陜、更方便地進行。
1.1.3重新計算每個新類的均值
一般來說,k-means算法中的這一性能是在上文2個選擇的基礎(chǔ)上進行的。由于計算機的重新計算,使得算法的步驟得以維系,方便大家的計算和運用。
1.1.4若類的質(zhì)心無變化,則返回劃分結(jié)果,否則轉(zhuǎn)步驟1.12
第四步算法從某種程度上來說是經(jīng)過條件選擇后的再次算法運作。通過篩選,使得算法最終的結(jié)果顯現(xiàn)出來。
1.2 k-means算法的優(yōu)缺點評價
一般來說,作為算法中的典型算法,k-means算法在算法的運用過程中使用的頻率非常高,其突出優(yōu)點是算法特別簡單,能夠被人迅速接受和掌握。但是,k-means算法也有著本身問題。而k-means算法最為突出的不足就是具有極強的局限性,往往容易陷入局部最優(yōu)的場面,初始聚類中心的劃分和優(yōu)化比較麻煩,而且值的選定不夠靈活,需要在算法之前先進行選擇。
2k-means對初始聚類中心的改進
對于算法中結(jié)果的改進就是指借助對于某些方面的改動將算法運行得更高效,更能體現(xiàn)算法最終需要達到的目的。而對于聚類算法的改進,從另外一方面來講就是為了得到更好的聚類結(jié)果和更高效的聚類過程,就是希望能夠達到聚類的結(jié)果在同類間盡可能相似,不同的類間盡可能地體現(xiàn)出差別。對于k-means算法來說,其改進方法也遵循這樣的一個原則。從k-means算法提出至今,已經(jīng)有很多人對于算法進行過改進,一般來說有以下幾個方面的改進方法。
2.1多次選擇法
這是一種在算法設(shè)計中經(jīng)常使用到的一種方法,該種方法主要的目的在于通過對于初始類中心點的聚類過程的多次重復(fù),由于重復(fù)的次數(shù)足夠其可以看作是一次隨機的偶然事件,所以在選擇的時候可以將選擇中的某一次看作是一個隨機事件。
2.2經(jīng)驗法
經(jīng)驗法相對于多次選擇法來說,主觀性要更強一些,在進行數(shù)據(jù)挖掘的過程中通過某種存在的既有經(jīng)驗對數(shù)據(jù)進行選擇,將其中具有某種代表性的點作為初始的聚類中心。
2.3取樣法
取樣法也是算術(shù)中經(jīng)常使用的一種方法,該種算術(shù)方法指的是在算術(shù)運算的過程中先將算術(shù)進行一次初次的整體分類,這樣可以產(chǎn)生一種分類中心。然后多次重復(fù)這樣的做法,選擇出多組的分類中心,通過對分類中心的分類和比較最終選擇出最佳的方案進行比較。
2.4密度法
密度法的運用從某種程度來說是最簡單的,密度法是指在運算之前為某一個區(qū)域中的點提前設(shè)置好某一個定值,然后通過轉(zhuǎn)移的方法將這個定值與其他的區(qū)域中的點進行比較,如果其他區(qū)域中點的密度與這個定值相近則說明這2個區(qū)域接近。最后通過相互選擇從而確定最符合的初始聚類中心。
2.5遞歸法
遞歸法的運用可以看作是最常見的一種初始聚類中心的尋找辦法,具體的做法是先把全部樣本看成一個類,樣本總均值點就是第一類的初始聚類中心;然后,由一類的初始聚類中心和離它最遠的一個樣本作為兩類的初始聚類中心。依此類推,由類的代表點和離它們最遠的一個樣本點作為類問題的初始聚類中心。
總的來說,k-means的改進方法還有很多,每種方法都具有一定程度的可行性。但是,需要注意到,在對k-means算法進行改進的時候,聚類中心本身就具有一個特性,在各種改進方法運行的時候需要對此予以滿足,這個特性就是無論采用何種改進方法,初始聚類中心要在不屬于同一個簇的情況下盡量靠近簇中心。
3k-means算法值的確定
k-means算法中,值的確定是具有一定難度的。不僅是因為值的準確程度難以在實際的算法運算過程中加以測定,因為準確值的確定需要一定程度的專業(yè)知識。而且,就另外一個方面來說,要確定值就必須對聚類有效性函數(shù)(最佳聚類數(shù)kopt)有一個較為清楚的認識。一般而言,在如今的世界領(lǐng)域內(nèi),確定k-means算法的值依然是一個不斷研究的過程。從1997年“kmax”的提出到近些年來“距離代價函數(shù)”的概念的廣泛運用,關(guān)于k-means算法的值的確定一直在進行,也在不斷豐富和完善。
4k-means算法在高校評教中的應(yīng)用
4.1學生評教的基本介紹
在高校對于學生的教學管理這一方面,學生對于教師的評教可以看作是十分重要的回饋環(huán)節(jié)。評教通常設(shè)置在學生查看課程成績之前,即學生先對任課的教師進行評教,才能查看自己的學科成績。從某種程度上來說,這種做法有效地避免了學生由于對教師所給成績的不滿意而隨意評教的情況,能夠客觀地對各位教師的教學情況作一個了解。評教的存在對于學生、教師和管理者來說,都提供了相當大的便利。對于管理者來說,學生評教可以看作是一個了解教師以及學生的渠道,通過評教對整體的教學情況進行把握。對于教師來說,起到了一定程度的提醒作用,督促教師履行自己的教師義務(wù),改正自己的教育教學措施,更有效地進行教育教學。對于學生來說,多了一個反饋的渠道,并不是如中小學一樣沒有一個反饋的對象,被動地學習,這種方法在某種程度上促進了學生的責任意識,有利于學生的成長和學習。
4.2學生評教中k-means算法的重要性
教學過程中學生的評教是一個十分復(fù)雜的過程,教師的教學是難以從某一個方面進行界定的。教師的評教一般包含了教師的教學內(nèi)容是否讓學生滿意,教師的教學風格是否讓學生滿意,足夠幽默風趣,教師是否嚴格履行了自己的教學任務(wù),不在教學過程中接電話,按時上課,備課是否充分,觀點是否鮮明,能否吸引學生的興趣等。這些數(shù)據(jù)的整理是需要分類的,而不是單純地進行統(tǒng)計就可以得出來的。對于學生來說,教師的行為是多樣性的,在很多情況下是難以用是或否進行片面的界定,而是需要運用聚類的算法進行一個大致的衡定。在具體的評教過程中,數(shù)據(jù)算法要能夠根據(jù)所掌握的數(shù)據(jù)分析一些確實能影響學生學習、掌握知識的具體因素,如教師在授課過程中是否還應(yīng)該多介紹該學科最新發(fā)展動態(tài)、最新研究成果和啟發(fā)學生思維、創(chuàng)造良好課堂氣氛等,數(shù)據(jù)的分析要盡可能客觀詳盡,有理有據(jù),讓數(shù)據(jù)能夠盡可能地反映出每一位教師的教學形象,看出每位教師的具體特點,對待工作有沒有盡心盡力,是否積極批改作業(yè)和輔導(dǎo)學生的進步等。
4.3學生評教過程中k-means算法的運用
k-means算法運用到學生評教的過程中主要是運用其聚類分析的特點,通過確定初始聚類中心將學生評教的數(shù)據(jù)與初始數(shù)據(jù)進行核對,從而分析教師的行為是否能夠讓學生滿意,通過對k-means算法中值的確定,確定較為精確的學生綜合評價結(jié)果,反饋出教師的教學形象從而幫助教師的教學進步。在具體的學生評教過程中,k-means算法可以采用上文所提到的那幾種改進方法,使得k-means算法更加方便,更能夠為人們所接受,也更加客觀、深刻地反映出數(shù)據(jù)本身所蘊含的強大的規(guī)律,便于管理者對于教師學生的管理、教師對于自我教學能力的提高和學生自我責任意識以及主動意識的培養(yǎng)和提高。
5結(jié)語
隨著社會的進步和發(fā)展,已經(jīng)進入電子信息化的時代。大數(shù)據(jù)的時代要求人們對數(shù)據(jù)分析以及算法具有一定的基本常識,從某種程度上來說,k-means與人們的生活息息相關(guān),很多方面都離不開其強大的算法支持。而在另外一個方面,數(shù)據(jù)挖掘算法是一個比較廣泛的概念,其所涉及的方面有很多,k-means算法只是其中較為典型的一種。文章主要根據(jù)k-means算法的概念、優(yōu)點以及需要改進的地方談起,介紹了k-means算法需要重點關(guān)注的2個方面,并結(jié)合高校學生評教系統(tǒng)進行概述,闡述了在學生評教系統(tǒng)中k-means算法的運用及其作用。