国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合密度峰值和模糊C-均值聚類算法*

2018-03-26 03:33:47任新維張桂珠
傳感器與微系統(tǒng) 2018年3期
關(guān)鍵詞:歐氏聚類距離

任新維, 張桂珠

(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院 輕工過程先進(jìn)控制教育部重點(diǎn)實(shí)驗室,江蘇 無錫 214122)

0 引 言

各類聚類分析的算法中,模糊聚類可以描述樣本類的中介性,從而更客觀地反映真實(shí)的世界,成為非監(jiān)督模式識別的一個重要分支,其中模糊C—均值(fuzzy C-means,FCM)聚類算法是運(yùn)用最廣泛的模糊聚類算法[1~3],但算法也存在著很多不足,如:對初始值過于敏感,容易陷入局部最優(yōu),整體效率不高等[4,5]。密度峰值聚類[3](density peaks clustering,DPC)算法是Alex Rodriguez和Alessandro Laio提出的一種新的基于密度的聚類算法,其基本思想簡單且效率高,對于任意形狀的數(shù)據(jù)集,能夠快速發(fā)現(xiàn)其密度峰值點(diǎn),但算法聚類效果在某種意義上依賴于用于計算局部密度的截斷距離dc,而文獻(xiàn)[6]并沒有給出dc的計算方法;其次,對同一個類存在多密度峰值的情況,該算法聚類效果并不理想。

針對FCM算法和DPC算法存在的上述缺點(diǎn),本文提出了DPC-FCM算法。實(shí)驗結(jié)果表明DPC-FCM算法具有更好的聚類效果。

1 DPC算法及其改進(jìn)

1.1 算法基本思想[6]

理想的類簇中心周圍有局部密度較低的相鄰點(diǎn)圍繞,且與更高密度的任何點(diǎn)有相對較大的距離。為了準(zhǔn)確找到上述條件的類簇中心,需要計算每個數(shù)據(jù)點(diǎn)i的兩個量:局部密度ρi和數(shù)據(jù)點(diǎn)i到更高局部密度點(diǎn)j的最短距離δi,以刻畫聚類中心。ρi有Cut-off kernel和Gaussian kernel兩種計算方式,Cut-off kernel為

(1)

(2)

(3)

分別計算出樣本數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)xi的ρi,δi。然后再計算一個將ρ值和δ值綜合考慮的量γ

γi=ρiδi,i∈Is

(4)

將余下的數(shù)據(jù)點(diǎn)分配到與其距離最近且密度較其更高的點(diǎn)所屬的簇。然后算法定義每個簇的邊界區(qū)域密度ρb:屬于某個簇并且與屬于其他簇的數(shù)據(jù)點(diǎn)之間的距離小于截斷距離dc的數(shù)據(jù)點(diǎn)總數(shù)。密度較ρb高的點(diǎn)視為核心點(diǎn),其余的點(diǎn)視為噪聲點(diǎn),由此得到聚類的最終結(jié)果。

1.2 算法的局限性[6]分析

1)關(guān)于數(shù)據(jù)集規(guī)模的大小判斷沒有確切的衡量標(biāo)準(zhǔn),導(dǎo)致樣本密度計算方式的選取可能影響聚類的結(jié)果。

2)如果有一個樣本數(shù)據(jù)的聚類中心歸類出現(xiàn)了錯誤,即導(dǎo)致最終的聚類結(jié)果千差萬別。

3)對于比較復(fù)雜的數(shù)據(jù)集,由于不同類簇之間密度可能會有較大的差異,此時DPC算法如果繼續(xù)在歐氏距離測度下進(jìn)行聚類[7,8],取值不同的截斷距離dc就會產(chǎn)生不同的聚類結(jié)果,很容易得到錯誤結(jié)果。

1.3 DPC算法的改進(jìn)

本文采用了一種新的自適應(yīng)度距離來對DPC算法進(jìn)行改進(jìn)。在現(xiàn)有多種相似度度量中,自調(diào)節(jié)相似度[9]計算方法考慮到了鄰域數(shù)據(jù)分布對兩點(diǎn)相似度的影響,準(zhǔn)確反映復(fù)雜結(jié)構(gòu)數(shù)據(jù)集的分布特點(diǎn)

(5)

式中σi=d(si,sk),其中點(diǎn)sk為si的第K個近鄰點(diǎn);σi為點(diǎn)si與sk的歐氏距離,根據(jù)文獻(xiàn)[9]令K=7,可以在高維數(shù)據(jù)的條件下得到較好的結(jié)果。在自適應(yīng)相似度測度下查看Jain數(shù)據(jù)集,設(shè)點(diǎn)a處在高密度簇中而點(diǎn)c處在低密度簇中,顯然σa<σc,可以推出σaσb<σcσb,從而得到Aab>Abc,由此可以看出,采用自適應(yīng)相似度的計算方法可以更好地度量不同密度簇之間點(diǎn)的相似度。本文將自適應(yīng)相似度轉(zhuǎn)換為權(quán)值加入到歐氏距離公式中,生成了一種新的加權(quán)歐氏距離公式

(6)

式中Aij∈[0,1]為點(diǎn)i和點(diǎn)j的自適應(yīng)相似度。

權(quán)值wi=1-Aij

(7)

在采用具有加權(quán)歐氏距離公式計算相似度后,各個對象之間的差異可以更準(zhǔn)確地算出來,DPC算法可以基于此公式計算每個數(shù)據(jù)點(diǎn)的局部密度ρi和點(diǎn)i到局部密度更高點(diǎn)的最近距離 ,從而更準(zhǔn)確地選取聚類中心點(diǎn),提高聚類結(jié)果的準(zhǔn)確率。

2 FCM聚類算法

FCM聚類算法描述為:

1)確定類的個數(shù)k,指數(shù)權(quán)重α,初始化隸屬度矩陣U(0)。令m=1表示第一步迭代。

2)計算聚類中心。給定C(m),計算U(m)。

3)重新計算隸屬度。給定U(m),計算C(m)。

經(jīng)過上述4步的多次迭代,可以得到最終的隸屬度矩陣U和聚類中心V,使得目標(biāo)函數(shù)J(U,V)最小,再根據(jù)隸屬度矩陣U劃分樣本的最終分類。

3 DPC和FCM的融合算法

3.1 算法思想

算法分為2個階段:1)對每個數(shù)據(jù)計算兩個量ρi和δi,刻畫聚類中心,ρiδi值越大,該點(diǎn)越可能是聚類中心;2)運(yùn)用標(biāo)準(zhǔn)的FCM算法進(jìn)行迭代,獲得更好的聚類結(jié)果。

3.2 算法步驟

DPC-FCM算法總體如下:

階段一:執(zhí)行DPC算法,確定初始聚類中心。

輸入:樣本數(shù)據(jù)集X

輸出:聚類中心ci(k)。

1)根據(jù)加權(quán)歐氏距離公式計算數(shù)據(jù)點(diǎn)之間的距離;

2)根據(jù)步驟(1)計算的m=n(n-1)/2個距離進(jìn)行升序排列,設(shè)得到的序列為d1≤d2≤…≤dM,取該序列前2 %的數(shù)據(jù),確定截斷距離dc;

3)在步驟(1)得出的距離基礎(chǔ)上,計算每個數(shù)據(jù)點(diǎn)的局部密度ρi和數(shù)據(jù)點(diǎn)到局部密度較其大且距其最近的點(diǎn)的距離δi;

4)計算γi=ρiδi,繪制決策圖,γ越大越有可能是聚類中心,由此得到ci(k)。

階段二:執(zhí)行FCM算法。

輸入:迭代終止條件ε、模糊指數(shù)α、樣本數(shù)據(jù)集X、聚類中心ci(k);

輸出:隸屬度矩陣U、聚類中心C。

5)在完成上述4步的多次迭代后,根據(jù)最終得到的隸屬度矩陣U劃分樣本的最終分類。

4 實(shí)驗分析

為了證明DPC-FCM算法的有效性,采用Iris數(shù)據(jù)集和Wine數(shù)據(jù)集以及一組人工數(shù)據(jù)集Dataset對2種算法進(jìn)行仿真實(shí)驗。使用MATLAB R213a進(jìn)行實(shí)驗,表1為用于實(shí)驗的各個數(shù)據(jù)集構(gòu)成。

表1 實(shí)驗數(shù)據(jù)集的構(gòu)成描述

選取UCI中的Iris數(shù)據(jù)集進(jìn)行驗證,此數(shù)據(jù)集包含150個樣本,來自于三類鶯尾花的花朵樣本,每一類包含50個樣本,每個樣本又包含4個屬性:sepal length,sepal width,petal width,petal length,利用改進(jìn)的DPC算法選取聚類初始中心,然后與Iris實(shí)際的數(shù)據(jù)集進(jìn)行對比,如表2所示。

可以看出,本文提出的改進(jìn)算法選取的聚類初始中心與Iris數(shù)據(jù)集實(shí)際的中心非常接近,驗證了本文算法有效性。

表2 初始聚類中心選取對比

在MATLAB仿真實(shí)驗中,對原始的FCM算法、DPC-FCM算法在Dataset,Wine,Iris數(shù)據(jù)集逐個進(jìn)行50次試驗,計算聚類正確數(shù)的平均值,得到的實(shí)驗結(jié)果如表3所示。

表3 聚類正確結(jié)果對比

可以看出,F(xiàn)CM算法對初始值比較敏感,聚類效果比較差,尤其是在Wine這種相對復(fù)雜的數(shù)據(jù)集上,隨機(jī)選取聚類中心導(dǎo)致最終聚類結(jié)果不理想;而DPC-FCM算法將DPC與FCM結(jié)合,利用了DPC算法的選取聚類中心較為準(zhǔn)確的優(yōu)勢,與傳統(tǒng)的FCM算法相比,聚類效果得到了提升。

圖1為對Iris,Wine和自定義數(shù)據(jù)集Dataset分別應(yīng)用FCM,DPC-FCM算法的收斂速度對比。由圖可知,F(xiàn)CM尋優(yōu)能力較差,過分依賴于初始的聚類中心。而DPC-FCM算法,能更準(zhǔn)確地得到聚類中心,收斂速度更快,在尋優(yōu)效果和全局搜索能力上均有較好的表現(xiàn)。

圖1 在不同數(shù)據(jù)集上的測試

采用F-measure指標(biāo)、Rand指數(shù)和Jaccard系數(shù)對聚類結(jié)果進(jìn)行評估。

F-measure計算公式如下

(8)

式中P為精確率;R為召回率。F-measure指標(biāo)取值范圍為[0,1],值越大表明聚類效果越好。

此外,Rand指數(shù)可以反映出聚類結(jié)果與最初數(shù)據(jù)集之間的分布;而Jaccard系數(shù)越大代表聚類效果越好。

表4 FCM算法實(shí)驗結(jié)果

表5 DPC-FCM算法實(shí)驗結(jié)果

從表4和表5可以看出,DPC-FCM算法的聚類結(jié)果優(yōu)于FCM算法。

5 結(jié) 論

通過實(shí)驗數(shù)據(jù)的分析可知,DPC-FCM算法提高了聚類正確率、全局收斂速度和優(yōu)化精度,有效地提高了聚類的穩(wěn)定性和準(zhǔn)確性。

[1] 付爭方,朱 虹.基于模糊理論的低照度彩色圖像增強(qiáng)算法[J].傳感器與微系統(tǒng),2014,33(5):121-124.

[2] 張國鎖,周創(chuàng)明,雷英杰.改進(jìn)FCM聚類算法及其在入侵檢測中的應(yīng)用[J].計算機(jī)應(yīng)用,2009,29(5):1336-1338.

[3] Rodriguez Alex,Alessandro Laio.Clustering by fast search and find of density peaks[J].Science,2014,344(6191):1492-1496.

[4] Zelnik-Manor L,Perona P.Self-tuning spectral clustering[J].Advances in Neural Information Processing Systems,2004,17:1601-1608.

[5] 李文杰,廖曉緯,束仁義,等.基于ZigBee和模糊C均值聚類算法在火警中的應(yīng)用[J].傳感器與微系統(tǒng),2012,31(10):143-152.

[6] 楊 燕,靳 蕃,Kamel M. 聚類有效性評價綜述[J].計算機(jī)應(yīng)用研究,2008,41(6):1631-1632.

[7] 韓曉慧,王聯(lián)國.一種基于改進(jìn)混合蛙跳的聚類算法[J].傳感器與微系統(tǒng),2012,31(4):137-139.

[8] 高孝偉.權(quán)熵法在教學(xué)評優(yōu)中的應(yīng)用研究[J].中國地質(zhì)教育,2008,17(4):100-104.

[9] 華 漫,李燕玲,魏永超.基于自適應(yīng)相似度距離的改進(jìn)FCM圖像分割[J].電視技術(shù),2016,40(2):33-36.

猜你喜歡
歐氏聚類距離
算距離
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
每次失敗都會距離成功更近一步
山東青年(2016年3期)2016-02-28 14:25:55
基于改進(jìn)的遺傳算法的模糊聚類算法
愛的距離
母子健康(2015年1期)2015-02-28 11:21:33
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
距離有多遠(yuǎn)
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
基于多維歐氏空間相似度的激光點(diǎn)云分割方法
麗江“思奔記”(上)
探索地理(2013年5期)2014-01-09 06:40:44
鄂温| 潞城市| 班玛县| 三河市| 蒲城县| 威海市| 红原县| 青田县| 吴忠市| 三门县| 双流县| 乌拉特中旗| 陆川县| 富平县| 台南市| 安新县| 山西省| 高碑店市| 繁昌县| 新巴尔虎左旗| 郓城县| 高安市| 定襄县| 韩城市| 陆丰市| 嫩江县| 沾益县| 定南县| 崇文区| 子洲县| 金寨县| 崇阳县| 旅游| 鹰潭市| 乐山市| 乌鲁木齐县| 那坡县| 当雄县| 邵东县| 顺昌县| 安国市|