張麟+潘紅巖
摘要:聚類分析算法是數(shù)據(jù)挖掘中常用的一種算法,通過該算法把一些無規(guī)則數(shù)據(jù)提煉成有規(guī)則數(shù)據(jù),為其領(lǐng)域發(fā)展提供了技術(shù)保障。本論文主要從聚類分析算法、聚類分析算法描述兩方面進(jìn)行闡述聚類分析算法應(yīng)用研究,希望能為研究數(shù)據(jù)挖掘的專家與學(xué)者提供理論參考依據(jù),為數(shù)據(jù)挖掘快速發(fā)展提供技術(shù)保障。
關(guān)鍵詞:聚類分析算法 應(yīng)用研究 算法描述
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2016)10-0143-01
聚類分析(Cluster Analysis)就是將一組物理事物或抽象對(duì)象按照某種聚類規(guī)則或檢驗(yàn)度量函數(shù)標(biāo)準(zhǔn)劃分不同聚集組別的過程,其中被劃分的若干相對(duì)獨(dú)立的組為一個(gè)類,是一種無監(jiān)督的學(xué)習(xí)方法。聚類分析方法是數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)分析普遍運(yùn)用方法之一,其功能最終實(shí)現(xiàn)被研究數(shù)據(jù)按照相關(guān)聚類分析算法進(jìn)行聚類,對(duì)聚類的事物對(duì)象,最終要達(dá)到相似度大的對(duì)象在同一個(gè)聚類群組中,相似度小的對(duì)象在不同的聚類群組中,從而歸納出聚類數(shù)據(jù)對(duì)象的特征性。聚類分析中的“類(Cluster)”就是一組相似度較高的數(shù)據(jù)集合。聚類分析能夠?qū)⒁唤M事物或數(shù)據(jù)按照聚類算法規(guī)則進(jìn)行聚類處理,根據(jù)聚類算法規(guī)則的不同而實(shí)現(xiàn)各自側(cè)重的聚類分析結(jié)果。
1 聚類分析算法
根據(jù)聚類對(duì)象數(shù)據(jù)類型的不同,聚類分析分為R型聚類和Q型聚類,R型聚類是對(duì)變量型數(shù)據(jù)的聚類分析,Q型聚類是對(duì)具體觀測(cè)值數(shù)據(jù)的聚類分析。對(duì)數(shù)據(jù)對(duì)象的聚類分析要借助于聚類分析算法來實(shí)現(xiàn)完成,聚類分析算法的基本定義為:
目標(biāo)數(shù)據(jù)集合,對(duì)于數(shù)據(jù)集合中的任一數(shù)據(jù)元素,具有個(gè)特征屬性,任一數(shù)據(jù)元素的屬性特征向量集表示為。通過特定的數(shù)據(jù)分析處理準(zhǔn)則對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行聚類處理后,目標(biāo)數(shù)據(jù)集被劃分成具有個(gè)子集的數(shù)據(jù)類集合,,聚類結(jié)果數(shù)據(jù)集必須滿足:
根據(jù)聚類分析所采取分析方法的不同,聚類分析算法分為基于劃分的聚類分析算法、基于層次的聚類分析算法、基于密度的聚類分析算法、基于網(wǎng)格的聚類分析算法、基于模型的聚類分析算法。
2 K—means聚類分析算法描述
對(duì)于給定包含個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集,按照標(biāo)準(zhǔn)偏移量的目標(biāo)函數(shù)進(jìn)行劃分,形成K個(gè)聚類。具體操作過程為:
第一步:數(shù)據(jù)規(guī)范化處理。對(duì)數(shù)據(jù)對(duì)象進(jìn)行規(guī)范化預(yù)處理,消除非法值及極值影響。
第二步:數(shù)據(jù)準(zhǔn)備。計(jì)算各科標(biāo)準(zhǔn)差:
第三步:計(jì)算各初始聚類中心。
第四步:計(jì)算與聚類中心最近鄰的數(shù)據(jù)對(duì)象,并合并成新類。
第五步:重新計(jì)算聚類中心值。
第六步:驗(yàn)證聚類收斂性。
if 聚類中心值無新變化
結(jié)束聚類 else 轉(zhuǎn)入第四步 endif
第七步:進(jìn)行各個(gè)類數(shù)據(jù)分析。
3 結(jié)語(yǔ)
總之,聚類分析算法是數(shù)據(jù)挖掘中一種常用算法,在數(shù)據(jù)挖掘過程中有很多算法,每種算法都有自己的優(yōu)缺點(diǎn),數(shù)據(jù)挖掘是一項(xiàng)極其復(fù)雜過程,一般情況我們都是多種算法結(jié)合起來一起應(yīng)用,目的提高工作效率,提高數(shù)據(jù)挖掘的準(zhǔn)確性,數(shù)據(jù)挖掘技術(shù)在我國(guó)應(yīng)用領(lǐng)域比較廣,并且取得一定成績(jī),在當(dāng)今大數(shù)據(jù)時(shí)代,研究數(shù)據(jù)挖掘具有一定的現(xiàn)實(shí)意義,具有深遠(yuǎn)的研究?jī)r(jià)值。
參考文獻(xiàn)
[1]吳多智.基于語(yǔ)義的手機(jī)類產(chǎn)品用戶評(píng)論維度挖掘研究[J].安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2016(03).
[2]孫永輝.聚類分析在學(xué)生成績(jī)分析中的應(yīng)用[J].中國(guó)管理信息化,2016(06).
[3]巨曉璇,鄒小斌,屈直,劉春敏.層次聚類算法在氣象客戶細(xì)分中的應(yīng)用[J].河南科技,2015(11).
[4]許進(jìn)文.數(shù)據(jù)挖掘中聚類分析算法及應(yīng)用研究[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2013(06).
收稿日期:2016-08-18
作者簡(jiǎn)介:張麟(1983—),男,黑龍江哈爾濱人,碩士,工程師,研究方向:數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘。