郭德超 胡昌盛
【摘 要】聚類分析是一種無監(jiān)督的學習方法,是數(shù)據(jù)挖掘領域進行數(shù)據(jù)處理的重要分析工具和方法。K-均值聚類算法是一種典型的基于劃分的方法,該方法的主要優(yōu)點是,算法思想簡單易行、快速而高效;但是該方法也存在其固有的缺陷:要求預先給定聚類個數(shù);容易陷入局部極小值而得不到全局最優(yōu)解等。針對以上問題,利用分類領域中的特征選擇及特征加權(quán)方法,提出了一種改進的特征加權(quán) K-均值聚類算法。實驗結(jié)果證明,所提出的算法能產(chǎn)生質(zhì)量較高的聚類結(jié)果。
【關鍵詞】聚類分析;K-均值算法;特征加權(quán)
K-均值聚類算法因結(jié)構(gòu)簡單、快速高效且適用于處理大數(shù)據(jù)集,在眾多科研領域得到廣泛應用。但它同時存在一些缺陷和不足,要求預先給定聚類個數(shù);容易陷入局部極小值而得不到全局最優(yōu)解等。針對以上問題研究人員提出了各種各樣的有效改進措施。文獻[1]的作者通過 DBI 聚類指標和最大最小距離方法來自動確定最佳聚類數(shù)目,較好地解決了 K-均值聚類算法中聚類數(shù)目 K 值的確定問題。文獻[2]提出一種有效的混合聚類算法,在一定程度上克服了 K-均值聚類算法和層次聚類算法各自的缺陷。文獻[3]提出一種基于變長編碼的改進遺傳算法,有效地解決了 K-均值聚類算法對初始中心選取敏感的問題。文獻[4]提出了一種基于密度及最近鄰相似度的初始聚類中心選取方法,大大提高聚類結(jié)果的穩(wěn)定性。文獻[5]提出了一種基于數(shù)據(jù)對象在空間分布規(guī)律的新的初始聚類中心選取方法,有效解決由于初始中心選取的隨機性而導致的聚類結(jié)果不穩(wěn)定的問題。本文利用分類領域中的特征選擇及特征加權(quán)方法,提出了一種改進的特征加權(quán) K-均值聚類算法。實驗結(jié)果證明,所提出的算法能產(chǎn)生質(zhì)量較高的聚類結(jié)果。
2.K-均值算法的改進
3.實驗結(jié)果
為了驗證本文所提出算法的有效性和可行性,選用 UCI 提供的機器學習公共數(shù)據(jù)庫中的5 個數(shù)據(jù)集對本文改進的聚類算法的聚類性能進行聚類實驗。(見表1)
從表 2 中不難看出,隨機選取初始聚類中心的傳統(tǒng) K-均值算法得到的聚類結(jié)果準確率低且不穩(wěn)定,而且對于有大值屬性存在的 Wine數(shù)據(jù)集,錯分數(shù)大大增加;而使用本文所設計的改進聚類算法所得到的聚類結(jié)果不僅準確率高,而且相對穩(wěn)定。
4.結(jié)束語
本文針對傳統(tǒng)K-均值算法由于隨機選取初始聚類中心而導致聚類結(jié)果不穩(wěn)定、準確率低的缺點,提出了一種改進的特征加權(quán)K-均值聚類算法。實驗結(jié)果表明,本文算法可以有效得到準確率高、較為穩(wěn)定的聚類結(jié)果。
參考文獻:
[1] 馮超.K-means聚類算法的研究:[大連理工大學碩士學位論文].大連:大連理工大學,2007
[2] 曾志雄.一種有效的基于劃分和層次的混合聚類算法.計算機應用,2007
[3] 范光平.一種基于變長編碼的遺傳K均值算法研究:[浙江大學碩士學位論文].杭州:浙江大學,2007
[4] 孫可,劉杰,王學穎.K均值聚類算法初始質(zhì)心選擇的改進.沈陽師范大學學報,2009
[5] 徐義峰,陸春明,徐云青.一種改進的K-均值聚類算法. 計算機應用與軟件,2008
作者簡介:
郭德超(1978-),男,碩士,研究方向:網(wǎng)絡信息安全。