肖滿生,肖 哲,文志強(qiáng),于惠鈞
(1.湖南工業(yè)大學(xué)科技學(xué)院,湖南株洲412008;2.湖南工業(yè)大學(xué)計(jì)算機(jī)與通信學(xué)院,湖南株洲412008)
模糊C均值聚類區(qū)間型模糊化參數(shù)模型
肖滿生1,2,肖 哲1,文志強(qiáng)2,于惠鈞1
(1.湖南工業(yè)大學(xué)科技學(xué)院,湖南株洲412008;2.湖南工業(yè)大學(xué)計(jì)算機(jī)與通信學(xué)院,湖南株洲412008)
針對(duì)經(jīng)典模糊C均值聚類算法中模糊加權(quán)指數(shù)對(duì)聚類的影響及其取值范圍不確定性問(wèn)題,提出了一種區(qū)間型模糊加權(quán)指數(shù)的設(shè)計(jì)模型。分析該模型設(shè)計(jì)的理論依據(jù)及對(duì)聚類結(jié)果的影響,推導(dǎo)出包括模糊隸屬度劃分矩陣、模糊聚類中心等基于該模型的模糊化參數(shù)表示方法。理論分析和實(shí)驗(yàn)證明,區(qū)間型模糊化參數(shù)模型的設(shè)計(jì)在基于模糊劃分的數(shù)據(jù)處理中取得了很好的效果。
模糊C均值;區(qū)間型模糊加權(quán)指數(shù);模糊化參數(shù);不確定性
經(jīng)典的模糊C均值(fuzzy C-means,F(xiàn)CM)聚類是一個(gè)基于目標(biāo)函數(shù)的帶約束的非線性規(guī)劃過(guò)程,通過(guò)對(duì)參數(shù)的優(yōu)化求解獲得樣本集的模糊劃分或聚類,該方法及其改進(jìn)技術(shù)在信息技術(shù)和控制決策等領(lǐng)域獲得了廣泛的應(yīng)用,如圖像處理[12]、模式識(shí)別[3]、數(shù)據(jù)挖掘[4]、模糊決策[5]等。
然而,隨著研究深入,經(jīng)典的FCM聚類算法在實(shí)際應(yīng)用過(guò)程中還要受到諸多限制,相關(guān)理論也有待進(jìn)一步完善。如在處理不確定性問(wèn)題時(shí),經(jīng)典的FCM算法對(duì)樣本的劃分有明確的隸屬度約束,這類算法叫1型FCM(1-TFCM)[6];而客觀世界在對(duì)樣本進(jìn)行分析和模式識(shí)別時(shí)存在各種各樣的不確定性,因此,如果合理地給出樣本隸屬度的模糊程度,即樣本的模糊隸屬度,則更能恰當(dāng)?shù)孛枋黾系哪:?,這種改進(jìn)的FCM算法叫2型FCM算法(2-TFCM),在這方面,文獻(xiàn)[6- 9]取得了一定的研究成果。另外,在研究圍[1.1,5]以后,文獻(xiàn)[11- 14]進(jìn)行了大量研究。文獻(xiàn)[11]從聚類有效性實(shí)驗(yàn)中得到m的最佳區(qū)間為[1.5,2.5];文獻(xiàn)[12]基于模糊決策提出了一種m值的優(yōu)選方法;文獻(xiàn)[13]通過(guò)在標(biāo)準(zhǔn)FCM的隸屬度μik的約束條件中引入冪指數(shù)r,提出一種雙指數(shù)模糊C均值算法(double index fuzzy C-mean,DI-FCM),該算法在理論上有效地?cái)U(kuò)展了m的取值范圍;文獻(xiàn)[14]從粒子群優(yōu)化的角度,得到了一個(gè)模糊加權(quán)指數(shù)值,并由此解釋了FCM聚類對(duì)初始聚類中心敏感的問(wèn)題。這些方法對(duì)模糊加權(quán)指數(shù)m的確定都是憑經(jīng)驗(yàn)或?qū)嶒?yàn)進(jìn)行,缺乏理論依據(jù)和有效的評(píng)價(jià)方法。另外,文獻(xiàn)[9]通過(guò)α-平面截集描述模糊集,可以得到m值的設(shè)計(jì)與具體聚類樣本集有關(guān),但其精確選取是非常困難也是不可能的。
基于此,本文在分析現(xiàn)有的FCM聚類及其改進(jìn)算法的模糊化參數(shù)過(guò)程中,模糊加權(quán)指數(shù)m是FCM聚類算法中重要參數(shù),其直接影響到聚類結(jié)果的不確定性程度。在實(shí)際應(yīng)用過(guò)程中,自文獻(xiàn)[10]引入并給出m經(jīng)驗(yàn)值范基礎(chǔ)上,受文獻(xiàn)[15- 17]中改進(jìn)的FCM聚類特點(diǎn)和模糊化參數(shù)設(shè)計(jì)啟發(fā),包括模糊隸屬度函數(shù)的設(shè)計(jì)與評(píng)價(jià)、模糊聚類中心及聚類數(shù)目的確定、樣本與聚類中心的距離計(jì)算等,提出了一種區(qū)間型FCM聚類模糊化參數(shù)設(shè)計(jì)模型。即首先通過(guò)分析模糊加權(quán)指數(shù)的不確定性及其對(duì)聚類的影響,提出了區(qū)間型模糊加權(quán)指數(shù)m的設(shè)計(jì)方法,基于區(qū)間型模糊加權(quán)指數(shù),推導(dǎo)出模糊隸屬度、模糊聚類中心(質(zhì)心)的設(shè)計(jì)方法,通過(guò)“反模糊化”后得到確定的模糊化參數(shù),并將該方法應(yīng)用于圖像分割、模式識(shí)別等實(shí)驗(yàn)。理論分析和實(shí)驗(yàn)對(duì)比表明,本文提出的FCM模糊化參數(shù)模型不但改善了FCM算法的聚類性能,提高了樣本劃分的效率,而且對(duì)模糊聚類算法的進(jìn)一步研究和拓展有很好的指導(dǎo)意義。
FCM聚類目標(biāo)函數(shù)為
該目標(biāo)函數(shù)中,模糊加權(quán)指數(shù)m控制著樣本在類間的分享程度。理論分析和實(shí)際應(yīng)用表明,隨著m的增加,聚類的目標(biāo)函數(shù)值單調(diào)下降,這與最小化目標(biāo)函數(shù)的思想一致,而且較大的m還有平滑聚類結(jié)果、抑制噪聲的功能,但是,參數(shù)m還控制著FCM聚類結(jié)果的模糊性,m越大,聚類結(jié)果越模糊,模糊邊界越大,從這個(gè)角度來(lái)說(shuō),又希望m取值不要太大。因此,合理的m值應(yīng)該取多少,一直是FCM聚類中備受關(guān)注的問(wèn)題。
m取值的不確定性及對(duì)聚類結(jié)果的影響可用圖1、圖2表示。
圖1 劃分類容量相近時(shí)參數(shù)m對(duì)模糊聚類的影響
圖1 中,C1、C2是兩劃分類,v1、v2分別為兩劃分類的聚類中心,兩劃分類之間的垂直平分豎線(陰影區(qū)域)為其模糊邊界,也叫決策邊界,位于邊界左側(cè)(右側(cè))的樣本歸屬于類C1(C2),而位于邊界上的數(shù)據(jù)樣本則對(duì)于類C1(C2)有相同的隸屬度,其所歸屬某類的程度非常模糊。圖1中,對(duì)于容量相近的兩劃分類,當(dāng)m=1時(shí),其模糊邊界是一條直線,由于邊界區(qū)域很窄,當(dāng)受到噪聲等不確定因素影響時(shí),邊界(豎線)附近的樣本很容易產(chǎn)生錯(cuò)誤劃分的情況,如圖1(a)所示;隨著取值的增大,模糊邊界將變寬,如圖1(b)中的陰影部分所示,邊界的擴(kuò)展可將更多不確定的數(shù)據(jù)點(diǎn)納入模糊邊界中,使其具有相同的隸屬度,以便減小聚類中心更新時(shí)不確定因素的影響;當(dāng)m進(jìn)一步擴(kuò)大,使模糊邊界擴(kuò)展到圖1(c)所示的位置時(shí),此時(shí)的邊界區(qū)域最為理想,劃分結(jié)果最為明晰,此時(shí)除了劃分類C1、C2之間的樣本(全位于邊界區(qū)域)外,其余樣本都有明晰的歸屬類;然后,當(dāng)m進(jìn)一步擴(kuò)大,以致m→∞時(shí),模糊邊界充滿全域,如圖1(d)所示,此時(shí)模糊化程度達(dá)到最大,所有樣本的隸屬度(c為劃分類數(shù)目),因而FCM算法失去了劃分特性。
圖2 劃分類容量不同時(shí)參數(shù)m對(duì)模糊聚類的影響
上述是兩劃分類容量相等或相近的情況,對(duì)于劃分類容量不同的樣本,當(dāng)m取某一定值時(shí),模糊邊界如圖2(a)所示,這時(shí),本來(lái)屬于劃分類C2中的樣本卻歸屬到模糊邊界,而左邊模糊邊界之外的本不歸屬于劃分類C1的樣本則被劃到類C1中,這樣的模糊邊界不理想,模糊聚類的不確定性高,如果能針對(duì)不同的劃分類容量設(shè)計(jì)不同的參數(shù)m,使模糊邊界達(dá)到一個(gè)理想?yún)^(qū)域,如圖2(b)所示,這時(shí),在保證每個(gè)聚類中心v1、v2與豎線的距離(位置)不變的情況下,所有樣本數(shù)據(jù)都有較理想的隸屬度,即除了模糊邊界(兩劃分類之間)的樣本外,其余樣本都能較好地歸屬于相應(yīng)的類,這種情況下,模糊聚類的準(zhǔn)確性有很大的提高。
針對(duì)上述模糊加權(quán)指數(shù)m取值的不確定性及對(duì)不同容量的劃分類的模糊聚類影響,將模糊加權(quán)指數(shù)區(qū)間化,即設(shè)計(jì)一模糊區(qū)間:m=[m1,m2],其中m1、m2分別對(duì)應(yīng)于較小、較大容量差異的劃分類,這樣,當(dāng)劃分類容量不同時(shí)的樣本進(jìn)行聚類分析時(shí),根據(jù)最大、最小劃分類設(shè)計(jì)的區(qū)間模糊加權(quán)指數(shù)求取樣本的隸屬度,并確定聚類中心,這樣能顯著改善聚類性能,同時(shí)也降低了模糊加權(quán)指數(shù)設(shè)計(jì)的不確定性。
本節(jié)根據(jù)第1節(jié)所提出的區(qū)間型模糊加權(quán)指數(shù),設(shè)計(jì)并推導(dǎo)FCM聚類中其他模糊化參數(shù)模型,并通過(guò)“反模糊化”得到具體的聚類參數(shù),包括模糊隸屬度、模糊聚類中心等。
2.1 區(qū)間型模糊隸屬度及聚類中心計(jì)算模型
隸屬度是FCM聚類中的重要參數(shù),它直接反映某一樣本隸屬于某一劃分類的程度,在第1節(jié)中,當(dāng)模糊加權(quán)指數(shù)被設(shè)計(jì)為區(qū)間型參數(shù)后,相應(yīng)的模糊隸屬度也可以設(shè)計(jì)為區(qū)間型參數(shù),即為形式,其中表示樣本xi對(duì)于劃分類j的最小隸屬度;ˉμj(xi)為最大隸屬度。以圖2中的v1和v2連線之間的一維樣本為例,設(shè)v1=0,v2=1,則樣本集X∈[0,1],取模糊加權(quán)指數(shù)m1=2.0,m2=4,則基于區(qū)間型指數(shù)[m1,m2]的樣本集X對(duì)于劃分類C1的隸屬度表示形式如圖3所示。
圖3 模糊隸屬度的區(qū)間型表示方法
圖3 中參數(shù)m1和m2所對(duì)應(yīng)的隸屬度曲線所包含的陰影部分即為樣本的區(qū)間型隸屬度。參考經(jīng)典FCM聚類的隸屬度計(jì)算方法,區(qū)間型隸屬度計(jì)算模型設(shè)計(jì)為
當(dāng)用式(1)和式(2)來(lái)更新FCM聚類中心時(shí),必然也將得到一個(gè)區(qū)間型聚類中心,設(shè)某一區(qū)間型聚類中心為,根據(jù)經(jīng)典FCM聚類中心更新的推導(dǎo)方法,區(qū)間型聚類中心表示為
式中,J1,J2,…,Jn為樣本隸屬度區(qū)間,即分別為聚類中心的左邊界值和右邊界值(即最大值和最小值),模糊加權(quán)指數(shù)m根據(jù)式(1)和式(2)可以在m1、m2之間變換,至于怎樣推導(dǎo)并得到該公式可參考文獻(xiàn)[10],此處不再贅述。
2.2 區(qū)間型參數(shù)的反模糊化處理
區(qū)間型模糊化參數(shù)的設(shè)計(jì)使得模糊聚類更能表達(dá)聚類的不確定性需求和人們對(duì)于事務(wù)判斷的意愿。然而,在實(shí)際應(yīng)用過(guò)程中,卻遇到了很大的困難:一是區(qū)間型參數(shù)的存在使得聚類更為模糊,對(duì)一些需要明確劃分的類增加了其不確定性程度;二是基于區(qū)間型參數(shù)的模糊劃分,其計(jì)算復(fù)雜度增加,特別對(duì)于大量的高維(多屬性)樣本集,其計(jì)算的復(fù)雜度將線性增長(zhǎng)。基于此,本文設(shè)計(jì)了區(qū)間型參數(shù)的反模糊化處理方法,使得模糊聚類既能很好表達(dá)聚類的不確定程度,又能方便計(jì)算,實(shí)現(xiàn)類別的客觀劃分,兩者得兼。
第2.1節(jié)中式(3)只是區(qū)間型聚類中心表示形式。在實(shí)際應(yīng)用中,我們必須事先確定其左、右邊界值vLj和vRj,當(dāng)和確定后,可以利用式(4)進(jìn)行反模糊化,得到確定的聚類中心vj。
區(qū)間型聚類中心右邊界vRj確定算法如下:
設(shè)樣本集X包含n個(gè)樣本x1,x2,…,xn,每一個(gè)樣本由M維屬性組成,即xi=(xi1,xi2,…,xiM),通過(guò)對(duì)所有樣本的M個(gè)屬性分別進(jìn)行升序排序后計(jì)算,得到樣本集聚類中心的右邊界(即聚類中心的最大值),具體描述如下:
給定加權(quán)指數(shù)m一個(gè)任意區(qū)間,即m=[m1,m2];
FOR
所有樣本xi=(xi1,xi2,…,xiM);
END FOR
用式(5)和式(6)計(jì)算樣本集的M維聚類中心v′j=(v′j1,v′j2,…,v′jM);
對(duì)n個(gè)樣本的M維特征,分別進(jìn)行升序排序,即
設(shè)一比較判斷變量com=F;
FOR
所有樣本屬性
WHILE(com=F)
查找一個(gè)索引值k(1≤k≤n-1),使得xkl=v′jl=x(k+1)l(1≤l≤M);FOR所有樣本
如果i≤k,則μj(xi)=μj(xi),
END FOR
用更新的μj(xi)重新計(jì)算某一維聚類中心v′jh′(1≤l′≤M);
如果v′jh==v′jh′,則com=T,否則設(shè)v′jh=v′jh′
END WHILE
END FOR
最后,得到的v′jh為所求,即vRj=(v′j1,v′j2,…,v′jM)。
上面算法得到了聚類中心的右邊界vRj,對(duì)于左邊界,只要對(duì)“FOR所有樣本”語(yǔ)句進(jìn)行修改即可。
FOR所有樣本
END FOR
從上述算法中,確定樣本隸屬度函數(shù),可以通過(guò)反模糊化來(lái)實(shí)現(xiàn):假設(shè)在計(jì)算聚類中心vRj時(shí)的隸屬度函數(shù)為則樣本xi最終模糊化隸屬度可以設(shè)置為時(shí)為
考慮到樣本xi是由M維屬性組成,因此和可由式(8)和式(9)來(lái)計(jì)算。
至于式(8)和式(9)中的μj(xi)的取值,采用的是還是可根據(jù)情況進(jìn)行交換。
有了第2節(jié)的模糊化參數(shù)定義,改進(jìn)FCM聚類實(shí)現(xiàn)過(guò)程如下:
步驟1 給定聚類類別數(shù)c及區(qū)間型模糊加權(quán)指數(shù)[m1,m2],n為數(shù)據(jù)集樣本總數(shù),設(shè)定迭代停止閾值為ε,迭代次數(shù)計(jì)數(shù)器t=0;
步驟2 初始化聚類中心v(l);
步驟3 根據(jù)第2.1節(jié)中的式(1)和式(2)分別得到隸屬度區(qū)間的上下邊界值,即和
步驟5 利用第2.2節(jié)中提出的反模糊化公式(4),確定實(shí)際的模糊聚類中心v(t+1);
步驟6 如果‖v(t+1)-v(t)‖<ε,則停止迭代,輸出聚類中心v(t+1),轉(zhuǎn)步驟7,否則t=t+1,根據(jù)新的v(t+1),返回步驟3,繼續(xù);
步驟7 根據(jù)步驟6得到的模糊聚類中心以及由此確定的區(qū)間型模糊隸屬度,對(duì)區(qū)間型模糊隸屬度進(jìn)行反模糊化處理,即μ=(μL+μR)/2,得到最后的模糊劃分隸屬度矩陣,再按最大隸屬度原則得到聚類結(jié)果。
為了驗(yàn)證本文提出區(qū)間型模糊化參數(shù)模型的有效性,引入了如下評(píng)價(jià)指標(biāo):
劃分系數(shù)vpc?;谀:齽澐志仃嚨膭澐窒禂?shù)表示為
式中,n為樣本數(shù)量;c為聚類數(shù);μij∈[0,1]為樣本xi相對(duì)于劃分類j的隸屬度,樣本的隸屬度越大,即μij越大,劃分系數(shù)越大,聚類效果越好。
劃分熵vpe。其表示為
從式(11)中可看出,μik越大,則vpe值越小,故劃分熵越小,聚類效果越好。
劃分類內(nèi)部均勻性測(cè)度(uniformity measure,UM)評(píng)判函數(shù)。該評(píng)判函數(shù)用來(lái)評(píng)價(jià)各劃分類內(nèi)部樣本分布均勻的程度,其定義為
式中,Ri表示第i個(gè)劃分類(劃分區(qū)域);Ai為該劃分類的樣本個(gè)數(shù);N為歸一化系數(shù),本文可設(shè)為樣本總數(shù)。從式(12)可分析出,劃分類內(nèi)部樣本分布越均勻,即樣本xk與內(nèi)部其他樣本相差越小,則UM值越小,因此,UM反映了各類樣本內(nèi)部分布均勻性的程度。
實(shí)驗(yàn)1 圖像分割實(shí)驗(yàn)
圖4(a)為圖像處理中常用的圖像Camera man(128× 128),對(duì)其進(jìn)行分割實(shí)驗(yàn)。同時(shí)為了比較實(shí)驗(yàn)效果,采用經(jīng)典的FCM聚類算法與本文提出的基于區(qū)間型模糊化參數(shù)模型的FCM(interval-FCM,IFCM)方法進(jìn)行對(duì)比分割。由于經(jīng)典FCM算法本身無(wú)法自動(dòng)獲取分類數(shù)目,因此采用讀入圖像灰度直方圖的方法獲取聚類數(shù)c及初始聚類中心v。經(jīng)典FCM算法m=2.0,IFCM算法選擇m1=1.5,m2=4.0。算法共進(jìn)行了50次迭代。實(shí)驗(yàn)環(huán)境:Visual C++6.0編程,操作系統(tǒng)Windows 7,Dell Precision M4500,Intel Core i7 CPU,8G RAM。實(shí)驗(yàn)將圖像按灰度不同分成人物、草地、天空3類。分割實(shí)驗(yàn)結(jié)果如圖4(b)和圖4(c)所示,實(shí)驗(yàn)中各評(píng)價(jià)參數(shù)對(duì)比如表1所示,其中time為實(shí)驗(yàn)中計(jì)算耗時(shí)。
圖4 Cameraman圖像分割結(jié)果
表1 Cameraman圖像分割效果比較
從實(shí)驗(yàn)中可以看出,對(duì)于評(píng)價(jià)指標(biāo)vpe,IFCM>FCM,對(duì)于評(píng)價(jià)指標(biāo)vpe及UM,IFCM<FCM,因此,本文提出的IFCM方法在圖像分割中其應(yīng)用效果要比經(jīng)典的FCM算法好。但本文提出的方法其計(jì)算的時(shí)間復(fù)雜度遠(yuǎn)遠(yuǎn)超過(guò)經(jīng)典FCM算法。
實(shí)驗(yàn)2 人造數(shù)據(jù)劃分
一個(gè)干凈無(wú)噪聲的人造實(shí)驗(yàn)樣本數(shù)據(jù)集如圖5(a)所示,由一大兩小的3類樣本子集組成,采用高斯分布的隨機(jī)向量發(fā)生器產(chǎn)生,其主要參數(shù)如表2所示。另外,以此樣本集為基礎(chǔ),在其中不斷增加均勻分布的噪聲點(diǎn)來(lái)進(jìn)行實(shí)驗(yàn),每次增加30個(gè),共進(jìn)行11次,最后一次噪聲點(diǎn)數(shù)目達(dá)到300個(gè)。采用3種方法進(jìn)行實(shí)驗(yàn):①經(jīng)典FCM算法取m=1.5;②經(jīng)典FCM算法取m=4.0;③本文方法IFCM取區(qū)間型m=[2.0,5.0]。為了評(píng)價(jià)在加權(quán)指數(shù)m取不同值時(shí),該樣本集中劃分類大小非均衡的聚類性能,各次實(shí)驗(yàn)中采用均勻性測(cè)度值UM進(jìn)行比較,實(shí)驗(yàn)中UM比較曲線如圖6所示。
圖5 人造樣本數(shù)據(jù)集
表2 無(wú)噪聲人造樣本集的主要參數(shù)
圖6 各次實(shí)驗(yàn)中UM值比較
從圖5可以看出,在無(wú)噪聲干擾的情況下,各種方法劃分的效果都比較好,隨著噪聲增加,實(shí)驗(yàn)中U M值不斷增加,表明實(shí)驗(yàn)效果變差。另外,在各次實(shí)驗(yàn)中,總體情況IFCM算法的UM值比其他兩種FCM測(cè)試方法所得到的UM值要小(除test case1中其UM值高于FCM m=1.5的情況外),表明區(qū)間型模糊參數(shù)化方法的聚類效果要比經(jīng)典FCM算法中模糊加權(quán)指數(shù)m取單一值的聚類效果好,特別是在模糊劃分類大小分布不均衡的情況下。
實(shí)驗(yàn)3 IRIS數(shù)據(jù)分類實(shí)驗(yàn)
本次實(shí)驗(yàn)采用文獻(xiàn)[18]中提供的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)IRIS,它由四維空間的150個(gè)樣本組成,共有3個(gè)類(c=3),每一個(gè)類50樣本,所有劃分類大小相等。對(duì)比實(shí)驗(yàn)中,經(jīng)典FCM算法模糊加權(quán)指數(shù)分別取m1=1.5、m2=2.5,IFCM方法中取m1=2.0、m2=4.0組成區(qū)間值[2.0,4.0],實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)1中一致,實(shí)驗(yàn)中聚類中心和隸屬度更新迭代次數(shù)為50次,實(shí)驗(yàn)評(píng)價(jià)指標(biāo)除了劃分系數(shù)vpc、模糊劃分熵vpe、均勻性測(cè)試度UM以及計(jì)算耗時(shí)time外,還增加了錯(cuò)分樣本數(shù)(error)及錯(cuò)分率(error ratio),實(shí)驗(yàn)結(jié)果如表3所示。
表3 IRIS樣本聚類結(jié)果比較
從表3可以看出,當(dāng)模糊加權(quán)指數(shù)m取不同值時(shí),對(duì)標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集IRIS的模糊聚類效果不一樣。其中,當(dāng)模糊加權(quán)指數(shù)取區(qū)間型值時(shí),其劃分系數(shù)vpc最大,而劃分熵vpe、均勻性測(cè)度UM以及錯(cuò)分率最低,表明其聚類效果好。另外,當(dāng)m取單個(gè)值時(shí),只要其值在一定范圍內(nèi),其聚類效果的好壞難以評(píng)價(jià),例如本實(shí)驗(yàn)中,當(dāng)m=1.5或m=2.5時(shí),兩種情況下FCM聚類劃分的效果難以比較。
上面分別從圖像分割對(duì)比實(shí)驗(yàn)、劃分類大小非均衡的人造數(shù)據(jù)劃分實(shí)驗(yàn)以及標(biāo)準(zhǔn)測(cè)試樣本IRIS聚類對(duì)比實(shí)驗(yàn)中,分析了模糊化參數(shù)對(duì)模糊聚類的影響,得出了區(qū)間型模糊化參數(shù)在模糊聚類中有較好的劃分效果,但區(qū)間型模糊化參數(shù)在聚類劃分過(guò)程中,由于計(jì)算復(fù)雜,故其計(jì)算耗時(shí)比經(jīng)典的FCM算法要多,這一點(diǎn)從上述實(shí)驗(yàn)結(jié)果中可以明顯看出,有關(guān)計(jì)算時(shí)間復(fù)雜度的分析受篇幅所限,本文未有述及。
本文通過(guò)分析經(jīng)典FCM聚類算法中模糊加權(quán)指數(shù)m取值存在的困難及不確定性現(xiàn)狀,提出了一種區(qū)間型模糊加權(quán)指數(shù)設(shè)計(jì)模型,并由此探討了包括模糊隸屬度、模糊聚類中心在內(nèi)的模糊化參數(shù)模型的設(shè)計(jì)方法。實(shí)驗(yàn)的結(jié)果分析表明,采用區(qū)間型模糊化參數(shù)方法,不但可以較好解決樣本集劃分類之間差別懸殊問(wèn)題,而且使劃分結(jié)果更好,細(xì)節(jié)更詳盡,特別對(duì)噪聲干擾的數(shù)據(jù)劃分有很強(qiáng)的魯棒性。但是,在實(shí)際應(yīng)用中,該方法還存在如下幾個(gè)問(wèn)題亟待解決:一是由于采用區(qū)間型參數(shù)計(jì)算,其計(jì)算復(fù)雜度較高,數(shù)據(jù)處理時(shí)間長(zhǎng);二是模糊加權(quán)指數(shù)的區(qū)間值大小是根據(jù)不同劃分類樣本而主觀設(shè)計(jì)的,到底取多少?zèng)]有統(tǒng)一標(biāo)準(zhǔn)和規(guī)范化方法,這些問(wèn)題也正是作者及課題組成員下一步要研究解決的問(wèn)題。同時(shí)需要指出,本文針對(duì)FCM聚類算法本身的參數(shù)進(jìn)行區(qū)間化研究,與相關(guān)文獻(xiàn)[19- 20]中提出的區(qū)間型數(shù)據(jù)的聚類研究是兩個(gè)不同的概念,如何將這兩者聯(lián)系起來(lái)進(jìn)行研究,即采用區(qū)間型模糊化參數(shù)研究區(qū)間型數(shù)據(jù)集,這也是我們正在研究的范疇。
[1]Ji Z X,Pan Y,Chen Q,et al.Natural image segmentation algorithm with unsupervised FCM[J].Journal of Image and Graphics,2011,16(5):773- 783.(紀(jì)則軒,潘瑜,陳強(qiáng),等.無(wú)監(jiān)督模糊C均值聚類自然圖像分割算法[J].中國(guó)圖象圖形學(xué)報(bào),2011,16(5):773- 783.)
[2]Tan K S,Lim W H,Isa N A M.Novel initialization scheme for fuzzy C-means algorithm on color image segmentation[J].Applied Soft Computing,2013,13(4):1832- 1852.
[3]Chen J S,Pi D C,Liu Z P.An insensitivity fuzzy C-means clustering algorithm based on penalty factor[J].Journal of Software,2013,8(9):2379- 2384.
[4]Sambasivam S,Theodosopoulos N.Advanced data clustering methods of mining web documents[J].Issues in Informing Science and Information Technology,2006(3):563- 579.
[5]Wang D D,Li B,Chen W F,et al.An improved FCM algorithm based on multiple objective programming[J].Journal of Image and Graphics,2008,13(8):1492- 1495.(王丹丹,李彬,陳武凡.基于多目標(biāo)規(guī)劃的模糊C均值聚類算法[J].中國(guó)圖象圖形學(xué)報(bào),2008,13(8):1492- 1495.)
[6]Mendel J.Uncertain rule-based fuzzy logic systems:introduction and new directions[D].Upper Saddle River:Drentice-Hall,2001.
[7]Zhai D,Mendel J M.Uncertainty measures for general type-2 fuzzy sets[J].Information Sciences,2011,181(3):503- 518.
[8]Hwang C,Rhee F C H.Uncertain fuzzy clustering:interval Type-2 fuzzy approach to C-means[J].IEEE Trans.on Fuzzy System,2007,15(1):107- 120.
[9]Ondrej L,Milos M.General Type-2 fuzzy C-means algorithm for uncertain fuzzy clustering[J].IEEE Trans.on Fuzzy System,2012,20(5):883- 897.
[10]Bezdek J C.Pattern recognition with fuzzy objective function algorithm[M].New York:Plenum Press,1981.
[11]Pal N R,Bezdek J C.On clustering for the fuzzy C-means modeling[J].IEEE Trans.on Fuzzy System,1995,3(3):370 -379.
[12]Gong G Y,Gao X B,Wu Z D.An optimal choice method of parameter m in FCM clustering algorithm[J].Fuzzy Systems and Mathematics,2005,19(1):143- 147.(宮改云,高新波,伍忠東.FCM聚類算法中模糊加權(quán)指數(shù)m的優(yōu)選方法[J].模糊系統(tǒng)與數(shù)學(xué),2005,19(1):143- 147.)
[13]Wang J,Wang S T.Double indices FCM algorithm based on hybrid distance metric learning[J].Journal of Software,2010,21(8):1878- 1888.(王駿,王士同.基于混合距離學(xué)習(xí)的雙指數(shù)模糊C均值算法[J].軟件學(xué)報(bào),2010,21(8):1878- 1888.)
[14]Wang Z H,Liu Z J,Chen D H.Research of PSO-based fuzzy C-means clustering algorithm[J].Computer Science,2012,39(9):166- 169.(王縱虎,劉志鏡,陳東輝.基于粒子群優(yōu)化的模糊C均值聚類算法研究[J].計(jì)算機(jī)科學(xué),2012,39(9):166- 169.)
[15]Kannan S R,Ramathilagam S,Chung P C.Effective fuzzy C-means clustering algorithms for data clustering problems[J].Expert System with Applications,2012,39(7):6292- 6300.
[16]Wang X E,Han D Q,Han C Z.Selection method for parameters of rough fuzzy C-means clustering based on uncertainty measurement[J].Journal of Xi’an Jiaotong University,2013,47(6):55- 61.(王學(xué)恩,韓德強(qiáng),韓崇昭.采用不確定性度量的粗糙模糊C均值聚類參數(shù)獲取方法[J].西安交通大學(xué)學(xué)報(bào),2013,47(6):55- 61.)
[17]Wu J J,Xiang H,Liu C,et al.A generalization of distance functions for fuzzy C-means clustering with Centroids of arithmetic means[J].IEEE Trans.on Fuzzy System,2012,20(3):557- 571.
[18]Newman D J,Hettich S,Blake C L,et al.UCI repository of machine learning databases[EB/OL].[2014- 04- 08].http:∥www.ics.uci.edu/~mlearn/ML-Repository.html.
[19]Chen J S,Pi D C.Improved fuzzy C-means model based on quadratic[J].Systems Engineering and Electronics,2013,35(7):1548- 1553.
[20]Li D,Gu H,Zhang L Y.A fuzzy C-means clustering algorithm based on nearest-neighbor intervals for incomplete data[J].Expert System With Applications,2010,37(10):6942- 6947.
Interval type fuzzifier parameter model in fuzzy C-means clustering
XIAO Man-sheng1,2,XIAO Zhe1,WEN Zhi-qiang2,YU Hui-jun1
(1.College of Science and Technology,Hunan University of Technology,Zhuzhou 412008,China;2.College of Computer and Communication,Hunan University of Technology,Zhuzhou 412008,China)
Aiming at the problem about the effect of the fuzzy weighted index in classical fuzzy C-means clustering algorithm and the value of uncertainty,the model of interval type fuzzy weighted index is proposed.Theoretical basis of the model and its effect on the clustering results are analyzed.Based on this model,the fuzzifier parameter such as fuzzy membership partition matrix,fuzzy clustering center representation is derived.The theoretical analysis and experimental results show that the interval type fuzzifier parameter model designing has achieved good effect based on data processing of fuzzy partition
fuzzy C-Means(FCM);interval fuzzy weighted index;fuzzifier parameter;uncertainty
TP 391
A
10.3969/j.issn.1001-506X.2015.04.22
肖滿生(1968-),男,教授,主要研究方向?yàn)橹悄苡?jì)算和智能信息處理。E-mail:xiaomansheng@tom.com
肖 哲(1977-),女,講師,碩士,主要研究方向?yàn)橹悄苄畔⑻幚?。E-mail:snakexz@sina.com
文志強(qiáng)(1973-),男,副教授,博士,主要研究方向?yàn)閿?shù)據(jù)挖掘和圖像處理。E-mail:zhqwen20001@163.com
于惠鈞(1975-),男,副教授,主要研究方向?yàn)閿?shù)據(jù)挖掘、智能控制。E-mail:463298180@qq.com
1001-506X(2015)04-0868-06
2014- 04- 21;
2014- 09- 01;網(wǎng)絡(luò)優(yōu)先出版日期:2014- 10- 30。
網(wǎng)絡(luò)優(yōu)先出版地址:http://w ww.cnki.net/kcms/detail/11.2422.TN.20141030.1134.011.html
國(guó)家自然科學(xué)基金(61170102);湖南省自然科學(xué)基金(13JJ9017);湖南省教育廳科研項(xiàng)目(13C032)資助課題