楊天鵬,陳黎飛,2
(1.福建師范大學(xué) 數(shù)學(xué)與信息學(xué)院,福州 350117; 2.福建師范大學(xué) 數(shù)字福建環(huán)境監(jiān)測(cè)物聯(lián)網(wǎng)實(shí)驗(yàn)室,福州 350117)(*通信作者電子郵箱clfei@fjnu.edu.cn)
聚類分析作為數(shù)據(jù)挖掘的一種重要方法,目的是將給定數(shù)據(jù)劃分成多個(gè)子集(每個(gè)子集為一個(gè)簇),使得簇內(nèi)對(duì)象彼此相似,與其他簇對(duì)象不相似[1]。傳統(tǒng)的聚類算法可分為層次聚類、基于劃分聚類、基于密度和網(wǎng)格聚類,以及其他聚類算法[2-3]。目前聚類分析已廣泛應(yīng)用在Web搜索、圖像處理、模式識(shí)別、醫(yī)療數(shù)據(jù)分析等眾多領(lǐng)域。
作為數(shù)據(jù)挖掘十大算法之一,K-means算法[4]因其簡(jiǎn)單高效的優(yōu)點(diǎn)得到廣泛的研究和應(yīng)用[5]。然而,受“均勻效應(yīng)(uniform effect)”的影響[6],K-means型算法在聚類醫(yī)療診斷等復(fù)雜數(shù)據(jù)時(shí)性能受限。這類數(shù)據(jù)的一個(gè)特點(diǎn)是同一數(shù)據(jù)集同時(shí)包含了樣本數(shù)量和樣本密度有較大差異的簇,這種數(shù)據(jù)稱為非均勻數(shù)據(jù)(non-uniform data)。與不平衡數(shù)據(jù)(主要指簇樣本量即簇大小差異較大的數(shù)據(jù))聚類[7]相比,非均勻數(shù)據(jù)聚類問(wèn)題更具普遍性。例如,在含有“正常”和“患病”兩個(gè)簇的疾病診斷數(shù)據(jù)中,兩簇的大小差異明顯(通常,“正?!贝乇取盎疾 贝氐臉颖緮?shù)量大得多),更重要地,“患病”簇的樣本皆具特定的疾病模式,其密度比“正?!贝赜酗@著區(qū)別(表現(xiàn)為“正?!贝貥颖痉植嫉姆讲畲蟮枚?。
針對(duì)該問(wèn)題研究者提出了多種方法[8-12],可大致分為三類:第一類方法基于樣本抽樣,在聚類之前首先對(duì)樣本集作欠采樣或過(guò)采樣的處理操作,文獻(xiàn)[8-9]即是在這樣預(yù)處理后的數(shù)據(jù)上進(jìn)行K-means聚類的;第二類方法在聚類模型中考慮不同簇的樣本量差異,例如,文獻(xiàn)[10]引入簇的樣本數(shù)量,給出了經(jīng)典模糊聚類算法目標(biāo)優(yōu)化函數(shù)的兩種改進(jìn)方案;第三類方法則側(cè)重簇的密度差異,借助多代表點(diǎn)等方法[11]以區(qū)分?jǐn)?shù)據(jù)集中的不同密度區(qū)域。這些方法是分別針對(duì)簇樣本數(shù)量不平衡特性或密度差異特性而提出的,未提供同時(shí)處置非均勻數(shù)據(jù)上述兩個(gè)特性的解決方案。
從原理上說(shuō),K-means型聚類是一種基于模型的方法,它所學(xué)習(xí)的概率模型是以相關(guān)參數(shù)為常數(shù)這一假設(shè)前提下的一種簡(jiǎn)化的高斯混合模型[13],此簡(jiǎn)化模型并不能很好地刻畫非均勻數(shù)據(jù)簇類的兩個(gè)特點(diǎn)。為此,本文提出一種基于概率模型的非均勻數(shù)據(jù)聚類新算法——MCN(Model-based Clustering on Non-uniform data),以應(yīng)對(duì)傳統(tǒng)K-means型算法的“均勻效應(yīng)”問(wèn)題。本文的主要工作包括兩個(gè)方面:其一,以高斯混合模型為基礎(chǔ),建立了非均勻數(shù)據(jù)簇的概率模型,新模型可以描述同一數(shù)據(jù)集中樣本量和密度都存在差異的簇;其二,基于提出的模型推導(dǎo)了聚類目標(biāo)函數(shù),并給出優(yōu)化目標(biāo)函數(shù)的算法步驟,實(shí)現(xiàn)了非均勻數(shù)據(jù)的軟子空間聚類。在合成數(shù)據(jù)和實(shí)際數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的非均勻數(shù)據(jù)聚類算法相比,本文MCN算法有效提高了聚類精度。
首先給出文中使用的符號(hào)及定義。令待聚類數(shù)據(jù)集為DB,含N個(gè)D維樣本,任一樣本用x=〈x1,x2,…,xj,…,xD〉表示,其第j(j=1,2,…,D)維屬性為xj??紤]硬聚類算法,它將DB劃分成K個(gè)不相交的子集的集合C={c1,c2,…,ck,…,cK}, 并稱子集ck為DB的第k(k=1,2,…,K)個(gè)簇,|ck|表示該簇包含的樣本數(shù)量。用vk=〈vk1,vk2,…,vkD〉表示ck的簇中心,V={v1,v2,…,vK}為全體簇中心的集合。
經(jīng)典的K-means算法是一種劃分型聚類算法,其優(yōu)化目標(biāo)定義為:
(1)
K-means通過(guò)類期望最大化(Expectation Maximization, EM)算法[15]的學(xué)習(xí)過(guò)程求取式(1)的局部?jī)?yōu)解,過(guò)程如下:給定簇?cái)?shù)目K,首先選擇K個(gè)初始簇中心,然后計(jì)算每個(gè)樣本與各簇中心點(diǎn)的距離,將樣本劃分至距離最小的簇,再為每個(gè)新劃分生成的簇計(jì)算最優(yōu)的簇中心;算法迭代執(zhí)行上述“劃分-簇中心優(yōu)化”步驟,直到滿足停止條件算法終止,得到對(duì)應(yīng)式(1)局部?jī)?yōu)解的數(shù)據(jù)集聚類劃分。
圖1 “均勻效應(yīng)”的例子Tab. 1 An example of “uniform effect”
文獻(xiàn)[6]分析了K-means聚類的“均勻效應(yīng)”現(xiàn)象。以聚類圖1(a)中的非均勻數(shù)據(jù)為例。圖1(a)隱含有3個(gè)簇Cluster1、Cluster2和Cluster3,它們不但在大小(樣本數(shù))上有差異,簇密度也顯著不同,例如,Cluster1和Cluster2中樣本分布方差顯然有較大差別。該數(shù)據(jù)的K-means聚類結(jié)果如圖1(b)所示,其中樣本數(shù)較少的Cluster2會(huì)“吞掉”樣本較多的簇Cluster1的部分樣本,使得兩個(gè)簇的大小和密度趨向于相同,此即K-means型算法的“均勻效應(yīng)”。
從統(tǒng)計(jì)學(xué)習(xí)[16]的角度,K-means可以看作是一種基于模型的統(tǒng)計(jì)聚類算法。這里,視簇ck的每個(gè)樣本x源自如下高斯分布:
(2)
那么,給定數(shù)據(jù)集DB,劃分聚類的目標(biāo)就是搜索最小化下面負(fù)對(duì)數(shù)似然函數(shù)的模型參數(shù)(C,V):
(3)
注意到式(3)的推導(dǎo)結(jié)果與K-means算法的優(yōu)化目標(biāo)是相同的,見式(1)。
上面推導(dǎo)過(guò)程基于如下基本假設(shè):每個(gè)簇的樣本方差σ是一個(gè)常數(shù)。如前所述,σ體現(xiàn)了簇的密度。這從模型的角度解釋了 “均勻效應(yīng)”產(chǎn)生的一個(gè)原因:K-means型算法致力于求解密度相近的簇集合。此外,從式(3)還可以看出,K-means算法的優(yōu)化目標(biāo)也沒(méi)有體現(xiàn)不同簇中樣本數(shù)量的差異,這也是其所假設(shè)的概率模型所決定的:對(duì)應(yīng)不同簇的高斯分布分量以一種“平等”的方式進(jìn)行混合建模。因此,為提高K-means型算法在非均勻數(shù)據(jù)上的聚類性能,下面首先提出一種新的高斯混合模型,以區(qū)分簇類在樣本數(shù)量和密度上的差異;接著,以此為基礎(chǔ),推導(dǎo)出一種新型的非均勻數(shù)據(jù)聚類算法。
本章首先建立用于非均勻數(shù)據(jù)聚類的高斯混合模型,然后定義基于模型的聚類目標(biāo)優(yōu)化函數(shù),最后給出聚類算法。
如前所述,在一個(gè)非均勻數(shù)據(jù)集中,簇的密度通常存在差異。為刻畫這種差異,引入兩組記號(hào):用σk2(k=1,2,…,K)表示簇ck的方差,其值越大,表明ck的密度越??;進(jìn)一步,引入向量wk=〈wk1,wk2,…,wkj,…,wkD〉,其各元素wkj>0,用于區(qū)分簇ck在不同屬性上的密度差異,值越大表明ck投影在相應(yīng)屬性上時(shí)數(shù)據(jù)分布的密度越小。由此,ck屬性j上數(shù)據(jù)分布的方差可用σk2/wkj來(lái)表示。將這個(gè)方差表達(dá)式代入形如式(2)的高斯密度函數(shù),得到任意樣本x∈ck投影在屬性j上的概率密度函數(shù),如下:
(4)
在此基礎(chǔ)上,基于數(shù)據(jù)集的D個(gè)屬性是統(tǒng)計(jì)獨(dú)立的這一“樸素”假設(shè)[17]來(lái)建立簇的模型。雖然該假設(shè)在一些實(shí)際數(shù)據(jù)上并不現(xiàn)實(shí),但它可以有效降低所構(gòu)造模型的復(fù)雜性:簡(jiǎn)單地通過(guò)一組變量邊緣分布的乘積來(lái)估計(jì)向量的概率密度。這樣,令P(x)表示ck中任一樣本的概率密度,有:
(5)
接下來(lái),考慮非均勻數(shù)據(jù)的另一個(gè)特性:同一數(shù)據(jù)可能包含大小各異的簇。為此,引入代表簇大小的記號(hào)αk(k=1, 2,…,K),滿足約束條件:
(6)
其數(shù)值大小與簇所包含的樣本數(shù)量相關(guān),可以看作是賦予每個(gè)簇的一種權(quán)重。根據(jù)這些定義,非均勻數(shù)據(jù)的加權(quán)似然函數(shù)表示為:
(7)
其中:Θ={(ck,σk,vk,wk)|k=1,2,…,K}為K組參數(shù)的集合。
基于上述模型,給定數(shù)據(jù)集DB和簇?cái)?shù)K,聚類轉(zhuǎn)變成了從DB求取優(yōu)化的參數(shù)Θ以最大化加權(quán)似然的問(wèn)題:
上式在式(7)基礎(chǔ)上使用了對(duì)數(shù)變換,受條件式(6)約束。代入式(4)和(5),并略去其中的常數(shù)項(xiàng),優(yōu)化目標(biāo)改寫為:
(8)
對(duì)比式(1)可知:
1)當(dāng)所有的αk、σk和wkj都為常數(shù),J2退化為K-means算法的優(yōu)化目標(biāo)函數(shù)J0。這意味著K-means假定了所有簇具有相同的大小和相同的方差,且各簇每個(gè)屬性上的數(shù)據(jù)分布密度也是相同的。而新的目標(biāo)函數(shù)通過(guò)σk、vk和wk等參數(shù)可以區(qū)分簇類這些各異的特性;
2)在J2表達(dá)式中,wkj主要作用于xj與vkj間距離(實(shí)際上是二者間的平方誤差,數(shù)值上等于二者歐氏距離值的平方)的計(jì)算。從效果上看,衡量屬性密度差異的wkj(j=1,2,…,D)相當(dāng)于賦予各屬性的特征權(quán)重,其數(shù)值大小反映了各屬性對(duì)距離度量的貢獻(xiàn)程度。因此,優(yōu)化J2的過(guò)程可以看作是對(duì)非均勻數(shù)據(jù)集實(shí)施的軟子空間聚類[14]。
根據(jù)拉格朗日乘子法,將wkj、αk的約束條件引入到目標(biāo)函數(shù)中,可得帶約束條件的聚類優(yōu)化目標(biāo)函數(shù)為:
(9)
其中:λk和η為拉格朗日乘子。
上述目標(biāo)函數(shù)參數(shù)的求解是非線性函數(shù)的優(yōu)化問(wèn)題,難以求得全局最優(yōu)解。本文MCN算法基于常用的EM算法結(jié)構(gòu)求取其局部最優(yōu)解。為敘述方便,引入符號(hào)W={wkj|k=1,2,…,K;j=1,2,…,D}和Λ={α1,α2,…,αK,σ1,σ2,…,σK}。參數(shù)的求解可分為以下幾個(gè)步驟:
1)固定W、V、Λ,求C。對(duì)任意一個(gè)樣本x根據(jù)以下公式進(jìn)行簇劃分:
(10)
式(10)通過(guò)比較樣本x源自各高斯分量的概率將其劃分到概率最大的簇中。
αk=|ck|/N
(11)
(12)
從式(12)可知,σk2即是第k個(gè)簇中樣本分布的加權(quán)散度,反映了非均勻數(shù)據(jù)中各簇有差異的密度信息。根據(jù)以上分析,算法的最優(yōu)解αk和σk2能刻畫非均勻數(shù)據(jù)中不同簇之間樣本數(shù)量和密度都可能存在差異的特點(diǎn)。
(13)
式(13)為簇中心點(diǎn)求解公式,通過(guò)該式完成簇中心點(diǎn)的更新。
(14)
式(14)通過(guò)求解wkj為各特征賦予不同的權(quán)重,效果上相當(dāng)于將第k個(gè)簇的樣本投影到相應(yīng)的子空間中。
根據(jù)上述參數(shù)求解方法,可以得到基于概率模型的非均勻數(shù)據(jù)軟子空間聚類算法如下。
輸入 數(shù)據(jù)集DB,簇?cái)?shù)目K。
輸出 簇劃分C。
初始化 隨機(jī)生成初始簇中心vk,并令wkj=1/D,σk=1/K,αk=1/K(k=1,2,…,K;j=1,2,…,D)。
Repeat:
更新C:利用式(10)更新簇劃分;
更新vkj:根據(jù)式(13),更新vkj;
更新αk、σk:根據(jù)式(11)、(12)更新αk、σk;
計(jì)算wkj:先計(jì)算λk,并將求得的λk代入到式(14)中求得wkj;
Until:滿足迭代停止條件
根據(jù)上述算法步驟可知本文MCN算法的時(shí)間復(fù)雜度為O(PKND),其中P為算法的迭代次數(shù)。
實(shí)驗(yàn)平臺(tái)為:Core i5-3470 3.2 GHz CPU,4 GB內(nèi)存,操作系統(tǒng)為Windows 7。算法采用Java編寫。
實(shí)驗(yàn)選擇了GMM[16]、Verify2[19]、IFCM[10]三種算法進(jìn)行對(duì)比。GMM作為基于概率模型的典型聚類算法,將其作為對(duì)比算法用來(lái)驗(yàn)證經(jīng)典的概率模型和結(jié)合子空間技術(shù)的概率模型在非均勻數(shù)據(jù)上的表現(xiàn);Verify2為文獻(xiàn)[19]提出的一種將欠采樣和譜聚類結(jié)合對(duì)類不平衡數(shù)據(jù)進(jìn)行聚類分析的方法,其中欠采樣是非均勻數(shù)據(jù)預(yù)處理方法中的一種代表性方法;IFCM為文獻(xiàn)[10]中提出的基于樣本數(shù)量加權(quán)的模糊聚類算法。
圖2 DS1投影到部分低維空間中的數(shù)據(jù)分布Tab. 2 Distribution of DS1 projected on some low-dimensional spaces
因?yàn)榉蔷鶆驍?shù)據(jù)不同簇之間樣本存在較大差異,合成數(shù)據(jù)能夠從簇的數(shù)目、大小等控制數(shù)據(jù)集的簇結(jié)構(gòu),便于分析算法的性能及算法性能與簇結(jié)構(gòu)之間的關(guān)系。首先在多個(gè)合成數(shù)據(jù)上進(jìn)行測(cè)試,然后在4個(gè)真實(shí)數(shù)據(jù)上實(shí)驗(yàn)。由于各數(shù)據(jù)集已知類標(biāo)簽,選擇兩個(gè)外部評(píng)價(jià)指標(biāo)Macro-F1[13]和標(biāo)準(zhǔn)化互信息(Normalized Mutual Information, NMI)[20]來(lái)評(píng)估各種算法的聚類性能,指標(biāo)的值越大表明聚類效果越好。
其中:F1(classk)為第k個(gè)簇的F1值;P(classk,ci)和R(classk,ci)分別表示數(shù)據(jù)集中真實(shí)的類classk與聚類結(jié)果中簇ci相比的準(zhǔn)確率和召回率;classk表示數(shù)據(jù)集中第k個(gè)真實(shí)的類;nk表示classk包含的樣本點(diǎn)數(shù)。
NMI的計(jì)算公式如下:
其中:nij表示真實(shí)數(shù)據(jù)集中類i與聚類結(jié)果中簇j相一致的樣本點(diǎn)數(shù)目;ni表示屬于類i的樣本點(diǎn)數(shù)目;nj表示屬于簇j的樣本點(diǎn)數(shù)目;R表示真實(shí)類別數(shù),實(shí)驗(yàn)中設(shè)定K=R。
實(shí)驗(yàn)中利用numpy中的random.multivariate_norma()函數(shù)合成三個(gè)數(shù)據(jù)集。由于二類數(shù)據(jù)可以直觀表現(xiàn)簇結(jié)構(gòu),因此,在合成數(shù)據(jù)時(shí),將簇?cái)?shù)目固定為兩類;此外,使用方差σ衡量各簇中樣本的分布散度。合成數(shù)據(jù)的主要參數(shù)如表1所示。如表1所示,三個(gè)合成數(shù)據(jù)集的樣本數(shù)量逐個(gè)遞增,以此來(lái)驗(yàn)證本文MCN算法在不同數(shù)據(jù)量下的性能表現(xiàn);同時(shí),注意到同個(gè)數(shù)據(jù)集不同簇之間樣本數(shù)量和樣本方差都有較大差異。三個(gè)合成數(shù)據(jù)集的數(shù)據(jù)維度也逐個(gè)遞增,以此測(cè)試不同數(shù)據(jù)維度下各算法的性能。
為直觀地展現(xiàn)合成數(shù)據(jù)中樣本的分布情況,將DS1投影到部分維度所確定的低維空間中,投影結(jié)果如圖2所示。從圖2可知,DS1中的多數(shù)類(樣本數(shù)量較多的簇)的數(shù)據(jù)分布較為分散,少數(shù)類的分布則較為集中,且兩個(gè)簇存在交疊現(xiàn)象。
表1 合成數(shù)據(jù)集參數(shù)Tab. 1 Parameters of synthetic datasets
表2顯示不同算法在合成數(shù)據(jù)集上取得的聚類結(jié)果。如表所示,本文MCN算法的聚類精度和NMI值都優(yōu)于對(duì)比算法,表明MCN能更好地聚類此型非均勻數(shù)據(jù)。GMM算法在三個(gè)合成數(shù)據(jù)集上的NMI值均為0,這是因?yàn)镚MM算法將數(shù)據(jù)中的所有樣本都劃分到同一個(gè)簇中,側(cè)面反映了基于經(jīng)典高斯模型的方法并不能有效處理非均勻數(shù)據(jù)。在兩個(gè)指標(biāo)上,IFCM算法與GMM接近。Verify2的聚類精度最低,但與GMM和IFCM算法相比,其NMI值有一定的提升,表明基于樣本抽樣的方法對(duì)非均勻數(shù)據(jù)聚類效果的改善有限。
表2 合成數(shù)據(jù)集不同算法聚類結(jié)果Tab. 2 Clustering results of different algorithms on synthetic datasets
不同算法在合成數(shù)據(jù)上的運(yùn)行時(shí)間如表3所示。表3中,本文MCN算法的運(yùn)行時(shí)間低于對(duì)比算法GMM、Verify2和IFCM。Verify2的運(yùn)行時(shí)間遠(yuǎn)高于GMM和MCN算法,一個(gè)主要原因是Verify2采用了譜聚類方法,涉及到矩陣特征值計(jì)算等,當(dāng)樣本數(shù)量和數(shù)據(jù)維度較大時(shí),其算法運(yùn)行時(shí)間較長(zhǎng)。
表3 不同算法在合成數(shù)據(jù)上的運(yùn)行時(shí)間 sTab. 3 Running time of different algorithms on synthetic datasets s
表5 算法在實(shí)際數(shù)據(jù)集上的聚類結(jié)果Tab. 5 Clustering results of different algorithms on real-world datasets
實(shí)驗(yàn)使用的實(shí)際數(shù)據(jù)來(lái)自聚類分析常用的UCI Machine Learning Repository(http://Archive.ics.uci.edu/ml/datasets.html)。選用了四個(gè)實(shí)際數(shù)據(jù)集:Breast Cancer Wisconsin(簡(jiǎn)寫為BCW)、Wine、 ForestType和Ionosphere,數(shù)據(jù)集主要參數(shù)如表4所示。其中,BCW為乳腺癌診斷數(shù)據(jù),包含241個(gè)惡性樣本和458個(gè)良性樣本;Wine是相關(guān)研究常用的不平衡數(shù)據(jù)集,其普通品質(zhì)酒類的樣本數(shù)較多,而品質(zhì)較好和品質(zhì)較差的樣本數(shù)量則較少;ForestType是森林遙感數(shù)據(jù),包含三種不同的森林類型和一類空地,其中Sugi forest類的樣本數(shù)量較多;Ionosphere為電離層雷達(dá)波數(shù)據(jù),其中具有某種特定結(jié)構(gòu)的樣本數(shù)量較多。這四個(gè)數(shù)據(jù)集中,不同簇類的樣本數(shù)有較大差異,且樣本分布(方差)也存在差異,是典型的非均勻數(shù)據(jù)。實(shí)驗(yàn)將基于BCW、 Wine數(shù)據(jù)集驗(yàn)證各種算法在低維數(shù)據(jù)上的性能,在ForestType、Ionosphere上對(duì)比算法在較高維度數(shù)據(jù)上的表現(xiàn)。本文MCN算法與對(duì)比算法在四個(gè)實(shí)際數(shù)據(jù)上的聚類結(jié)果如表5所示。表5顯示,MCN算法在Wine數(shù)據(jù)上的兩項(xiàng)指標(biāo)稍低于IFCM算法,但在其他數(shù)據(jù)集上的聚類精度和NMI值都明顯優(yōu)于對(duì)比算法,表明MCN算法可以有效聚類實(shí)際應(yīng)用中的非均勻數(shù)據(jù)。
表4 實(shí)際數(shù)據(jù)集參數(shù)Tab. 4 Parameters of real-world datasets
如前所述,本文提出的MCN算法可以實(shí)現(xiàn)非均勻數(shù)據(jù)的子空間聚類,實(shí)現(xiàn)途徑是在聚類過(guò)程中自動(dòng)地賦予每個(gè)特征以不同的權(quán)重。下面以Wine數(shù)據(jù)集為例,從MCN算法的一次聚類結(jié)果中提取特征權(quán)重信息,作進(jìn)一步分析。圖3顯示該數(shù)據(jù)集中三個(gè)簇(分別記為Cluster1、Cluster2和Cluster3)各自的13個(gè)特征(分別命名為A1,A2,…,A13)的權(quán)重分布。
圖3 Wine數(shù)據(jù)中三個(gè)簇的特征權(quán)重分布Fig. 3 Distribution of feature weights of three clusters in dataset Wine
如圖3所示,不同簇的特征權(quán)重分布并不相同。例如,對(duì)于Cluster3,MCN算法賦予A11(指“酒的色調(diào)”)較大的權(quán)重,這表明“色調(diào)”對(duì)識(shí)別Cluster3有重要的作用;而特征A8(一種稱為“Nonflavanoid phenols”的酚類化學(xué)物質(zhì))對(duì)Cluster2中酒的品質(zhì)有較大影響。以上結(jié)果表明,MCN算法可以有效識(shí)別特征對(duì)于不同簇類有差別的貢獻(xiàn)度,從而提高了實(shí)際應(yīng)用中非均勻數(shù)據(jù)聚類的性能。
針對(duì)K-means型算法的“均勻效應(yīng)”問(wèn)題,本文提出了MCN算法。首先分析了經(jīng)典K-means算法隱含使用的概率模型,它是基于有關(guān)參數(shù)為常數(shù)這一假設(shè)的高斯混合模型,此簡(jiǎn)化模型并不能很好地刻畫非均勻數(shù)據(jù)簇之間樣本數(shù)量和密度都有較大差異的特點(diǎn)。接著,從概率模型角度入手,結(jié)合軟子空間聚類技術(shù)定義了一種非均勻數(shù)據(jù)簇的概率模型,并推導(dǎo)出了相應(yīng)的聚類優(yōu)化目標(biāo)函數(shù)。最后給出了MCN的算法過(guò)程。在合成數(shù)據(jù)和實(shí)際數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,與GMM、Verify2、IFCM等算法相比,MCN算法在多數(shù)情況下都可以取得較大的聚類性能提升,從而驗(yàn)證了本文所提算法的有效性。
在大數(shù)據(jù)時(shí)代如何結(jié)合大數(shù)據(jù)處理工具分析非均勻數(shù)據(jù)是一項(xiàng)有意義的工作,因此下一步將結(jié)合分布式Spark平臺(tái)進(jìn)一步研究非均勻數(shù)據(jù)聚類新方法。