許洪瑋
(廣東工業(yè)大學(xué)信息工程學(xué)院,廣東廣州 510006)
聚類算法是要將數(shù)據(jù)集中具有相似性的數(shù)據(jù)劃分為一類,而將不相似的數(shù)據(jù)劃分為不同類,最終實(shí)現(xiàn)將數(shù)據(jù)集劃分為若干類。其主要過(guò)程包括確定樣本數(shù)據(jù)、獲取特征、計(jì)算特征值、計(jì)算相似度、評(píng)估聚類結(jié)果的有效性等步驟。聚類算法可以按照聚類原理分為:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法、基于圖論的方法等。
譜聚類算法(Spectral Clustering Algorithm)與K-means算法、EM算法和模糊C均值聚類算法(Fuzzy C-mean Clustering,FCM)等傳統(tǒng)的聚類算法不同,不需要聚類對(duì)象具有凸球形或其他特定形狀,就能在任意形狀的樣本空間上實(shí)現(xiàn)聚類。譜聚類算法的思想源自譜圖劃分理論[1],該算法的核心思想是:計(jì)算樣本數(shù)據(jù)集所描述成數(shù)據(jù)點(diǎn)的相似度矩陣,通過(guò)特征分解,計(jì)算矩陣的特征值和特征向量(也就是譜信息),然后選擇合適的特征向量作為數(shù)據(jù)的低維空間描述,之后對(duì)選擇的特征向量應(yīng)用K-means等方法進(jìn)行聚類,聚類的結(jié)果最后映射回原數(shù)據(jù)空間。譜聚類算法是一種點(diǎn)對(duì)聚類算法,其本質(zhì)是用圖的最優(yōu)劃分思想處理聚類問(wèn)題,解決了高維特征向量的奇異問(wèn)題,因?yàn)樗缓蛿?shù)據(jù)集的規(guī)模有關(guān),而與數(shù)據(jù)集的維數(shù)無(wú)關(guān)。
以下幾個(gè)方面,是譜聚類算法相比傳統(tǒng)聚類算法的優(yōu)點(diǎn):
(1)譜聚類算法不對(duì)數(shù)據(jù)集的全局結(jié)構(gòu)進(jìn)行假設(shè),其思想簡(jiǎn)單、實(shí)現(xiàn)方便;
(2)譜聚類算法是一種點(diǎn)對(duì)聚類方法,它與數(shù)據(jù)的特征向量維數(shù)無(wú)關(guān),只與數(shù)據(jù)的個(gè)數(shù)有關(guān),可用于解決高特征向量維數(shù)的奇異性問(wèn)題;
(3)譜聚類算法可以通過(guò)特征向量分解,在放松了的連續(xù)域中獲得全局最優(yōu)解。
因此,譜聚類算法成為解決實(shí)際應(yīng)用問(wèn)題的新方法,可應(yīng)用于圖像分割、視頻分割、語(yǔ)音識(shí)別、文本挖掘等研究領(lǐng)域的問(wèn)題解決。盡管譜聚類方法在一些問(wèn)題的解決上取得了不錯(cuò)的效果,但還有許多值得深入研究的問(wèn)題。
本文主要對(duì)一些基本算法進(jìn)行概述,包括:圖譜和譜分解的基本概念、傳統(tǒng)譜聚類算法的概述、基于密度聚類算法概述和評(píng)價(jià)指標(biāo)Rand Index。
譜圖劃分理論是譜聚類算法的思想來(lái)源,圖的譜分布與圖的結(jié)構(gòu)之間的對(duì)應(yīng)關(guān)系是近年來(lái)興起的相當(dāng)活躍的研究課題,其中特征值及相關(guān)概念是研究的集中方向。下面簡(jiǎn)要介紹譜的基本概念[2]。
圖的表示方法為G=(V,E),其中V={v1,v2,...,vn}是頂點(diǎn)或點(diǎn)的集合,E={e1,e2,...,em}是連接任意兩個(gè)點(diǎn)的邊的集合,頂點(diǎn)的個(gè)數(shù)n=|V|,邊的個(gè)數(shù)m=|E|。如果連接頂點(diǎn)u、v的邊euv的值是無(wú)窮的,則稱頂點(diǎn)u、v是不相鄰的,否則是相鄰的;如果邊e1和e2有一個(gè)共同的頂點(diǎn),則稱邊e1和e2是相鄰的,否則是不相鄰的。以頂點(diǎn)v為端點(diǎn)的邊數(shù)稱為頂點(diǎn)v的度,記為dv。
如果兩個(gè)頂點(diǎn)之間的邊數(shù)不止一條,則稱為多重邊;如果一條邊的兩個(gè)頂點(diǎn)是相同的,則稱為邊的環(huán)。不含有多重邊和環(huán)的圖稱為簡(jiǎn)單圖,含有多重邊的圖稱為多重圖。每一對(duì)頂點(diǎn)間都有邊相連的無(wú)向簡(jiǎn)單圖稱為完全圖。本文所討論的圖全部都是完全圖。
記A(G)表示圖G的鄰接矩陣,有如下的定義:
定義(1)圖G的特征值就是對(duì)應(yīng)鄰接矩陣A(G)的特征值,用λi(i=1,...,n)表示。
定 義(2)圖G的n個(gè) 特征值λi(i=1,...,n)的序 列(λ1≥λ2≥...≥λn)稱為圖G的譜。
定義(3)圖G的最大特征值λi稱為圖G的譜半徑。
定義(4)圖G的拉普拉斯特征值就是拉普拉斯矩陣L(G)的特征值。
拉普拉斯矩陣L(G)可表示為:L(G)=D(G)-A(G),其中D(G)是圖G的度矩陣,A(G)是圖G的鄰接矩陣。
圖的特征值是圖的同構(gòu)不變量,是圖論的一個(gè)重要研究課題,而我們希望通過(guò)譜方法來(lái)實(shí)現(xiàn)對(duì)圖的描述。下面簡(jiǎn)要介紹圖的譜分析與譜分解。
通過(guò)計(jì)算圖的鄰接矩陣的??梢缘玫綀D的譜特征,我們以特征值的次序來(lái)決定特征向量的次序。
如果用鄰接矩陣的特征值來(lái)構(gòu)成圖G的譜特征,那么圖G的向量B可表示為:
其中λ1≥λ2≥...≥λn,這一向量就表示了圖G的譜。
如果用拉普拉斯矩陣的特征值來(lái)構(gòu)成譜特征,那么圖的向量B可表示為:
其中μ1≥μ2≥...≥μn,這一向量表示圖G的拉普拉斯。
圖的譜方法是通過(guò)圖的譜特征向量來(lái)表示圖的結(jié)構(gòu)信息,這樣,一旦獲得圖的特征向量,那么一張圖就可以在特征空間上表示為一組數(shù)據(jù),這就成為進(jìn)一步處理圖數(shù)據(jù)的基礎(chǔ)。
圖的譜方法主要有兩個(gè)方面的優(yōu)點(diǎn)。第一:計(jì)算復(fù)雜度較低。因?yàn)閳D的譜方法可以只選取部分有效的特征來(lái)表達(dá)圖的信息,這樣就不用對(duì)圖本身進(jìn)行計(jì)算,其計(jì)算復(fù)雜就被大大降低了。第二:可以用于表達(dá)海量數(shù)據(jù)的圖。海量數(shù)據(jù)的圖需要用一個(gè)好的數(shù)學(xué)表達(dá)式才能很好地表達(dá),而尋找一個(gè)好的數(shù)學(xué)表達(dá)式往往是非??嚯y的,但圖的譜方法就可以實(shí)現(xiàn)這種表達(dá)。
圖的譜方法自身也存在一些不足。因?yàn)檫x取的譜特征是有限的,這樣就不能完整地表達(dá)圖的全部結(jié)構(gòu)信息,從而造成計(jì)算精確度的不夠;另外可能會(huì)出現(xiàn)不同的圖但它們的譜特征表達(dá)是一樣的,也就是一譜多圖的情況。
譜聚類(Spectral Clustering)是基于圖論的方法把聚類問(wèn)題轉(zhuǎn)換為組合優(yōu)化問(wèn)題,具體來(lái)說(shuō),就是將數(shù)據(jù)集表示成一個(gè)圖中所有頂點(diǎn)的集合,用圖相應(yīng)的邊的權(quán)重表示數(shù)據(jù)之間的相似度,這樣就可以利用圖論和圖形學(xué)的原理進(jìn)行分析并實(shí)現(xiàn)數(shù)據(jù)聚類。
若把圖中的頂點(diǎn)V表示成數(shù)據(jù)集中的每一個(gè)樣本,連接頂點(diǎn)間的邊E上的權(quán)重值W相應(yīng)表示成樣本數(shù)據(jù)間的相似度,這樣就可以用無(wú)向加權(quán)圖G=(V,E,W)表示整個(gè)數(shù)據(jù)集及數(shù)據(jù)樣本間的關(guān)系。因此,可以應(yīng)用圖的劃分方法解決樣本數(shù)據(jù)集的聚類問(wèn)題。圖論的最優(yōu)劃分理論,就是使得被劃分成的子圖內(nèi)部相似度盡可能大,而劃分成的若干子圖之間相似度盡可能小[3]。圖劃分準(zhǔn)則常用的有:規(guī)范割集、比例割集、平均割集、最小割集以及最小最大割集等劃分準(zhǔn)則。由于圖劃分問(wèn)題的本質(zhì)是組合問(wèn)題,其最優(yōu)解求解是一個(gè)NP難題,可以通過(guò)相似度矩陣或拉普拉斯(Laplacian)矩陣的譜分解方式來(lái)解決,這種處理方法統(tǒng)稱為譜聚類。
譜聚類算法根據(jù)不同的圖劃分準(zhǔn)則有不同的具體實(shí)現(xiàn)方法,下面是由Andrew Y.Ng[4]提出的譜聚類算法。
如果要將樣本空間上的數(shù)據(jù)集S={s1,...,sn},劃分成k個(gè)子集(類),則具體實(shí)現(xiàn)步驟為:
(1)構(gòu)造數(shù)據(jù)集S的相似度矩陣A,矩陣A的構(gòu)造公式為:
(2)對(duì)角矩陣D的第(i,i)個(gè)元素的值是矩陣A的第i行全部元素的累加和,這樣就可構(gòu)造矩陣L,其計(jì)算公式為:
(3)計(jì)算矩陣L的特征值和特征向量,x1,x2,...,xk是最大的k個(gè)特征值所對(duì)應(yīng)的特征向量,可得到n行k列的矩陣X,X=[x1x2...xk];
(4)將矩陣X歸一化為矩陣Y,歸一化公式為:
(5)對(duì)矩陣Y使用K-means算法進(jìn)行分類,矩陣Y的第i行對(duì)應(yīng)數(shù)據(jù)集S的第i個(gè)數(shù)據(jù)Si;
(6)矩陣Y的第i行所屬的類,就是數(shù)據(jù)集S中的數(shù)據(jù)si所屬的類,這樣就完成了對(duì)數(shù)據(jù)集的分類。
這里,尺度函數(shù)σ2是敏感參數(shù),控制著兩個(gè)數(shù)據(jù)點(diǎn)之間歐氏距離的衰減程度,也直接影響著隨后的聚類效果。
譜聚類算法雖然能在一些數(shù)據(jù)集上取得較好的聚類結(jié)果如環(huán)形數(shù)據(jù)集,但對(duì)于分布比較復(fù)雜的數(shù)據(jù)集,如螺旋形數(shù)據(jù)集,該算法的聚類結(jié)果就差強(qiáng)人意了。這是因?yàn)樽V聚類算法是通過(guò)高斯核函數(shù)來(lái)表示數(shù)據(jù)間的相似度關(guān)系,也就是在新的空間對(duì)原始的數(shù)據(jù)關(guān)系,歐氏距離關(guān)系,重新建立起映射關(guān)系,而這種映射關(guān)系只對(duì)簡(jiǎn)單的空間分布有效,而不能正確反映空間分布比較復(fù)雜的數(shù)據(jù)關(guān)系。鑒于該算法的不足之處,研究者們不斷提出了新的改進(jìn)方法。
DBSCAN[5]聚類算法是由Martin Ester等人在1996年提出的,該算法是典型的密度聚類算法,通過(guò)高密度連通性來(lái)快速發(fā)現(xiàn)任意形狀的類,并同時(shí)排除噪聲的干擾。
DBSCAN算法的核心參數(shù)有最小半徑Eps和最少對(duì)象數(shù)目MintPts,就是在其規(guī)定半徑Eps范圍內(nèi),所包含的數(shù)據(jù)點(diǎn)數(shù)不能少于給定的數(shù)目MintPts。DBSCAN算法定義了密度可達(dá)的概念,是在一個(gè)類能夠被其中任意一個(gè)核心對(duì)象點(diǎn)所確定的前提下,劃分出數(shù)據(jù)集的各個(gè)類的。首先,選中數(shù)據(jù)集P中的任意對(duì)象點(diǎn)m,查找符合Eps和MinPts條件并從對(duì)象點(diǎn)m密度可達(dá)的所有對(duì)象點(diǎn)。如果對(duì)象點(diǎn)m是核心點(diǎn),則根據(jù)算法可以確定一個(gè)類;如果對(duì)象點(diǎn)m是邊界點(diǎn),且點(diǎn)m無(wú)法密度到達(dá)其他數(shù)據(jù)點(diǎn),則點(diǎn)m被暫時(shí)標(biāo)注為噪聲點(diǎn)。然后,算法選取下一個(gè)數(shù)據(jù)點(diǎn),并按同樣的方法進(jìn)行。
DBSCAN算法步驟:
(1)輸入?yún)?shù)值Eps和MinPts;
(2)選取數(shù)據(jù)集中的任意一個(gè)點(diǎn)m,對(duì)其進(jìn)行區(qū)域查詢;
(3)如果點(diǎn)m是核心點(diǎn),則查找從m點(diǎn)密度可達(dá)的所有點(diǎn),并形成一個(gè)類;
(4)否則,點(diǎn)m被暫時(shí)標(biāo)注為噪聲點(diǎn);
選取下一個(gè)數(shù)據(jù)點(diǎn),重復(fù)步驟(2)到(4),直到處理完數(shù)據(jù)集中的所有點(diǎn)。
由于DBSCAN算法的參數(shù)Eps和MinPts是全局參數(shù),比較難以確定,都必須靠先驗(yàn)知識(shí)來(lái)設(shè)定,而且這兩個(gè)參數(shù)直接影響著算法的聚類性能,這樣就可能導(dǎo)致部分密度小的聚類被處理為噪聲;而對(duì)于邊界點(diǎn),若該點(diǎn)附近密度較大就會(huì)形成單連通,出現(xiàn)錯(cuò)誤分類結(jié)果。
聚類算法的最終結(jié)果是實(shí)現(xiàn)數(shù)據(jù)集的劃分,而聚類結(jié)果的好壞需要進(jìn)行有效性和質(zhì)量評(píng)價(jià)。聚類質(zhì)量的評(píng)價(jià)方法可以分為內(nèi)部度量、外部度量和相對(duì)度量三類,并且每種度量方法有不同的計(jì)算方式。這里對(duì)外部度量方法中的一種計(jì)算方式——Rand Index[6]進(jìn)行介紹。
Rand Index是由Milligan和Cooper提出的一種聚類質(zhì)量評(píng)價(jià)指標(biāo),用于衡量聚類結(jié)果與數(shù)據(jù)的外部標(biāo)準(zhǔn)類之間的一致程度。
對(duì)于數(shù)據(jù)集X={x1,x2,...,xn},假設(shè)S={s1,s2,...,sk}和R={r1,r2,...,rk}是數(shù)據(jù)集X的兩種不同劃分,其中S是外部標(biāo)準(zhǔn)劃分類,而R是算法的聚類結(jié)果。那么Rand Index的計(jì)算公式如下:
公式(6)中a表示S和R中都屬于相同類的個(gè)數(shù),b表示屬于S中一類而不屬于R中同一類的個(gè)數(shù),c表示屬于R中同一類而不屬于S中同一類的個(gè)數(shù),d表示都不屬于S和R中同一類的個(gè)數(shù)。a和d反映了兩種劃分的一致性,而b和c放映了不一致性。
Rand Index的數(shù)值在[0,1]的區(qū)間內(nèi),其值越大,則表示兩種劃分的一致性就越高,當(dāng)兩種劃分完全一致時(shí),Rand Index取值為1。
近年來(lái),譜聚類算法成為聚類算法的熱門(mén)研究課題,也不斷涌出新算法和新研究成果。該算法可以很好地應(yīng)用于解決具有非凸分布的實(shí)際問(wèn)題,而如何構(gòu)建一個(gè)正確反映數(shù)據(jù)間關(guān)系的相似度矩陣,是譜聚類算法研究的重點(diǎn)難點(diǎn)。希望本文對(duì)傳統(tǒng)譜聚類算法的介紹可以對(duì)初學(xué)者提供初步的學(xué)習(xí)借鑒。