聚類算法綜述

2018-03-06 08:04王玉晗羅鄧三郎

科技資訊 2018年24期

王玉晗羅鄧三郎

摘要：在數(shù)據(jù)挖掘中，聚類有著非常重要的地位。本文分別介紹了基于劃分、基于層次、基于密度、基于網(wǎng)格和基于模型的聚類方法。對這五類聚類方法中的典型算法的聚類思想和特點做了相應(yīng)的介紹，并分析了算法的優(yōu)缺點，對聚類算法做了初步的總結(jié)。在具體問題的應(yīng)用中，需多方面考慮算法的特性才能得到最佳聚類結(jié)果。

關(guān)鍵詞：數(shù)據(jù)挖掘聚類密度模型

中圖分類號：G71 文獻(xiàn)標(biāo)識碼：A 文章編號：1672-3791（2018）08（c）-0010-02

隨著科技的發(fā)展，目前已步入大數(shù)據(jù)的時代，數(shù)據(jù)中包含的信息具有很高的價值。通過聚類分析，數(shù)據(jù)對象被劃分為具有現(xiàn)實意義的組（集群），有助于人類分析和描述世界。聚類分析在心理學(xué)研究中、生物學(xué)研究中和模式識別以及數(shù)據(jù)挖掘等領(lǐng)域中都起著重要的作用。

聚類分析僅通過描述對象和其關(guān)系的數(shù)據(jù)信息，期望將對象劃分為多個組，使得組內(nèi)對象相似，組間對象不同。聚類的定義最早由Everitt在1974年提出，要求組內(nèi)對象在空間中相對緊湊，組內(nèi)任意兩對象間的距離小于不同組的任意兩對象間的距離。在實際應(yīng)用中，聚類的定義通常不精確，最優(yōu)的定義取決于聚類對象的性質(zhì)和期望得到的結(jié)果。

根據(jù)聚類算法中對象間相似度的計算方式以及聚類結(jié)果中對象的關(guān)系可以將聚類算法分為劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法[1]。

1 聚類方法

1.1 基于劃分的聚類方法

基于劃分的聚類方法只是將數(shù)據(jù)對象集合劃分為若干個無交集的子集（簇），使得每個對象僅屬于一個子集。主要包括K-Means算法、K-modes算法、PAM算法和CLARA算法等。

K-Means算法是一個基于原型的劃分聚類算法，通過對象間的距離評價對象間的相似度，距離越近，對象間相似度越大，反之則越小。用戶需要預(yù)先指定需要劃分的簇數(shù)k和每簇質(zhì)心的初值，其思想如下：先選取k個數(shù)據(jù)作為k個簇的質(zhì)心，計算數(shù)據(jù)集中每個對象到質(zhì)心的距離，按照距離將其歸類，完成后重新計算每個簇的質(zhì)心，直到聚類結(jié)果不再發(fā)生變化為止。K-Means聚類算法的優(yōu)點主要為算法運(yùn)算快速且簡單，對于數(shù)據(jù)較多的數(shù)據(jù)集有較高的聚類效率，具有可伸縮性。確定質(zhì)心初值的主要方法有：（1）根據(jù)數(shù)據(jù)對象的性質(zhì)和分布憑主觀經(jīng)驗選取。（2）將數(shù)據(jù)對象隨機(jī)分成k類，把每類的重心作為質(zhì)心初值。（3）按密度大小選取質(zhì)心初值。聚類結(jié)果對質(zhì)心初值的選擇敏感，選用不同質(zhì)心初值可能得到不同的結(jié)果。數(shù)據(jù)集中的噪點和孤立點也會影響K-Means算法的聚類結(jié)果。

1.2 基于層次的聚類方法

層次聚類把數(shù)據(jù)對象構(gòu)建成一組具有樹狀結(jié)構(gòu)的嵌套簇，除了葉子節(jié)點的每個簇都是由其子節(jié)點（子簇）的并集構(gòu)成，根節(jié)點包含所有的數(shù)據(jù)對象。根據(jù)層次分解的過程一般分為兩類：（1）凝聚。從僅包含單個數(shù)據(jù)對象的簇開始，每次合并最接近的一對簇，直至簇中包含所有數(shù)據(jù)對象為止。（2）分裂。從一個包含所有數(shù)據(jù)對象的簇開始，每次對簇進(jìn)行分割，直至簇中僅包含一個數(shù)據(jù)對象為止。樹狀圖是層次聚類結(jié)果常用的表示方式。層次聚類方法主要包括單鏈接聚類、CURE算法、BIRCH算法和ROCK算法等。

單鏈接聚類基于自底向上方式對數(shù)據(jù)對象進(jìn)行分類，在聚類過程的開始，每個元素都在自己的簇中。然后通過最短距離將這些簇依次組合成較大的簇，直到簇中包含所有的數(shù)據(jù)對象。CURE是針對大小相似的數(shù)據(jù)集和球形數(shù)據(jù)集的一種改進(jìn)算法，其思想為一個簇由其中多個數(shù)據(jù)對象表示，每個簇對應(yīng)多于一個的對象。這種策略使得CURE算法可以適應(yīng)非球形的幾何形狀，并且能利用簇的收縮或凝聚控制孤立點的影響[2]。BIRCH是一種針對大規(guī)模數(shù)據(jù)集的聚類算法，通過聚類特征和聚類特征樹，利用各個簇之間的距離，通過迭代的方法對數(shù)據(jù)集進(jìn)行聚類[3]。ROCK算法是一種魯棒的聚類算法，在確認(rèn)兩個數(shù)據(jù)的分類時考慮了它們鄰居的數(shù)量，適用于類別型數(shù)據(jù)，如關(guān)鍵字、布爾值和枚舉值等。

1.3 基于密度的聚類方法

基于密度的聚類方法是根基數(shù)據(jù)集密度的大小將數(shù)據(jù)集分類成簇，密度高的區(qū)域聚類成簇，密度低的區(qū)域作為噪聲和孤立點處理，適用于空間中任意形狀的簇，具有很強(qiáng)的抗噪能力。DBSCAN算法是經(jīng)典的基于密度的聚類算法。其核心思想為：預(yù)先設(shè)置距離閾值和密度閾值，將數(shù)據(jù)對象都標(biāo)記為核心點，任意數(shù)據(jù)對象由距離閾值確定的范圍內(nèi)不存在核心點，則將其視為噪聲點消除。確定出每個距離閾值內(nèi)的所有滿足密度閾值的核心點的邊界點，并把每一組連接的核心點分為一個簇，最后將邊界點分配給相關(guān)核心點的簇。其優(yōu)點有：可以自動確定聚類數(shù)量；對任意形狀的簇都適用；對數(shù)據(jù)異常點不敏感。缺點為需要設(shè)置距離和密度閾值，處理空間分布稀疏的數(shù)據(jù)對象時難以得到滿意的聚類結(jié)果，時間復(fù)雜度比K-Means算法高。

1.4 基于網(wǎng)格的聚類方法

基于網(wǎng)格的聚類方法把原數(shù)據(jù)對象空間劃分成獨立于輸入對象分布的單元。通過構(gòu)建父級子級網(wǎng)格單元關(guān)系形成一種多分辨率的網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)，將連續(xù)空間離散化成有限數(shù)目的單元，利用所形成的網(wǎng)格結(jié)構(gòu)進(jìn)行聚類。該方法僅依賴于離散化后空間中的每一維的單元數(shù)，處理速度不受原數(shù)據(jù)大小的影響。STING是典型基于網(wǎng)格的聚類算法。在構(gòu)建的層次結(jié)構(gòu)實中，每個上層的結(jié)構(gòu)單元都在下一層被劃分為多個下層的結(jié)構(gòu)單元。在聚類時，每個網(wǎng)格單元的統(tǒng)計信息會被預(yù)先計算和儲存，相連高密度的網(wǎng)格單元判斷為簇。STING算法基于網(wǎng)格結(jié)構(gòu)，其算法效率高有利于增量更新和并行處理[4]，但在構(gòu)建父級單元時沒有考慮子級單元和相鄰單元之間的聯(lián)系，無法得到精確簇間邊界，同時聚類精度會受到網(wǎng)格粒度的影響，聚類精度隨粒度減小而提高，處理時間隨之增加。

1.5 基于模型的聚類方法

基于模型的聚類算法需要為數(shù)據(jù)對象中的可能存在的每一簇構(gòu)建一個分布模型，并假設(shè)數(shù)據(jù)對象均獨立分布，通過數(shù)據(jù)對象的真實分布計算模型參數(shù)，最后利用所得模型完成聚類?；谀Ｐ偷姆椒ㄖ饕ńy(tǒng)計學(xué)和網(wǎng)絡(luò)神經(jīng)方法，其中統(tǒng)計學(xué)方法有COBWEB算法；網(wǎng)絡(luò)神經(jīng)方法有SOM算法[5]。基于模型的聚類方法通常以概率的形式對簇進(jìn)行劃分，易于理解，但是算法的執(zhí)行效率并不高，同時假設(shè)條件不一定成立，對聚類結(jié)果也造成一定影響。

2 結(jié)語

本文介紹了基于5種聚類方法，主要介紹了其中具有代表性的算法K-Means、CURE、DBScan、STING算法和基于模型的聚類方法。分析了各類算法的特點和特性，對于不同的問題應(yīng)采用不同的聚類算法。在實際應(yīng)用中，需要結(jié)合算法的優(yōu)缺點選擇合適的算法才能獲得理想的聚類效果。

參考文獻(xiàn)

[1] 陳建嬌.高維數(shù)據(jù)的K-harmonic Means聚類方法及其應(yīng)用研究[D].上海大學(xué)，2012.

[2] 周迎春，駱嘉偉.基于分層的平衡迭代規(guī)約聚類分析算法研究[J].科學(xué)技術(shù)與工程，2008，8（10）：2579-2584.

[3] 陳紹彬，葉飛躍，劉佰強(qiáng)，等.食品HACCP分類的BIRCH算法[J].計算機(jī)工程，2008，34（23）：59-61.

[4] 楊靜.分層模糊最小-最大聚類算法及其在圖像聚類中的應(yīng)用研究[D].合肥工業(yè)大學(xué)，2007.

[5] 冉延平，余昭平，賈利新，等.基于混合模型的聚類算法研究[J].河南科學(xué)，2005，23（3）：324-327.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

聚類算法綜述