袁桂蓉
摘 要:本文將一種混合模糊聚類算法應(yīng)用于農(nóng)業(yè)產(chǎn)業(yè)分析,表明這種混合模糊聚類法比傳統(tǒng)FCM方法更切合實(shí)際,收斂速度更快,且不用人為給定聚類類別數(shù),不容易受初始化的影響。
關(guān)鍵詞:混合模糊聚類;F-統(tǒng)計(jì)量
現(xiàn)有的模糊聚類算法都是以某種準(zhǔn)則來評(píng)價(jià)一個(gè)已給定劃分的特性的,有些聚類算法只能對(duì)某種分布數(shù)據(jù)聚類效果較好,對(duì)其它分布的數(shù)據(jù)聚類效果則很差。許多聚類算法是根據(jù)歐氏距離和Manhattan距離來進(jìn)行聚類的,基于這類距離的聚類方法一般只能發(fā)現(xiàn)具有類似大小和密度的圓形或球狀聚類,既需要提供參數(shù)—聚類數(shù)目,而且對(duì)非球狀或橢球型分布的數(shù)據(jù)集聚類效果不理想。本文將提出的一種混合模糊聚類算法應(yīng)用于我國(guó)的農(nóng)業(yè)產(chǎn)業(yè)分析,以此證明因而需要設(shè)計(jì)一種好的聚類算法來提高算法的自主性和適應(yīng)性,減少用戶的參與。
一、農(nóng)業(yè)生產(chǎn)值的混合模糊聚類分析
根據(jù)衡量農(nóng)業(yè)生產(chǎn)值的指標(biāo)體系:農(nóng)業(yè)、林業(yè)、牧業(yè)、漁業(yè),以我國(guó)31個(gè)省市自治區(qū)作為研究對(duì)象,對(duì)這31個(gè)省市自治區(qū)2007年農(nóng)業(yè)各生產(chǎn)值的數(shù)據(jù)進(jìn)行混合模糊聚類分析,以此來研究我國(guó)農(nóng)業(yè)發(fā)展情況。
設(shè)論域,每一對(duì)象,于是可以得到原始數(shù)據(jù)矩陣。為了保證不同量綱的數(shù)據(jù)具有可比性,將原始數(shù)據(jù)矩陣統(tǒng)一趨勢(shì)化,得到無量綱矩陣,
其中
表示四分位極差。
按照普通的聚類方法中相似系數(shù)確定方法,建立模糊相似矩陣,與的相似程度 用海明距離來度量
其中c=0.1。
再利用傳遞閉包法得到模糊等價(jià)矩陣,然后將模糊等價(jià)矩陣依次取截集,得到一系列分類,從而得到每一個(gè)截集對(duì)應(yīng)的分類結(jié)果的F-統(tǒng)計(jì)量,見表1.1。
當(dāng)=0.73時(shí),所有樣本歸為一類;≥0.90時(shí),31個(gè)樣本所歸的類數(shù)r≥13,明顯都不是理想的結(jié)果。當(dāng)=0.79時(shí),F(xiàn)=7.7564為最大,此時(shí)將樣本分為3類,且根據(jù)經(jīng)驗(yàn),分為三類比較合理,故接下來的FCM聚類的類別數(shù)c=3。
第一類:{北京、天津、山西、內(nèi)蒙古、遼寧、吉林、黑龍江、上海、江蘇、浙江、安徽、福建、江西、湖北、湖南、廣東、廣西、海南、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏、新疆};
第二類:{河北、河南、四川};
第三類:{山東}。
采用Matlab7.0編程后,調(diào)用函數(shù)fcmfun得到
迭代次數(shù)為23次,最終的目標(biāo)函數(shù)值 。
由此得混合模糊聚類分析的結(jié)果為:
第一類:{北京、天津、山西、內(nèi)蒙古、吉林、上海、海南、重慶、貴州、西藏、陜西、甘肅、青海、寧夏、新疆};
第二類:{河北、黑龍江、安徽、江西、河南、湖南、廣西、四川、云南};
第三類:{遼寧、江蘇、浙江、福建、山東、湖北、廣東};
比較發(fā)現(xiàn),混合模糊聚類分析的結(jié)果比單獨(dú)用傳遞閉包法分類要合理得多,傳遞閉包法分為三類的時(shí)候只將河北、河南、四川、山東分離出來,其余都?xì)w為一類,過于籠統(tǒng)。而混合模糊聚類分析法將注重農(nóng)牧業(yè)的河北、黑龍江、安徽、江西、河南、湖南、廣西、四川、云南歸為一類;將土地肥沃、資源豐富的沿海沿湖地區(qū)遼寧、江蘇、浙江、福建、山東、湖北、廣東劃為一類,在這些地區(qū)農(nóng)牧漁業(yè)都是重要的農(nóng)業(yè)經(jīng)濟(jì)命脈,分類結(jié)果完全符合實(shí)際情況。
為了表明混合模糊聚類分析的優(yōu)越性,本文通過Matlab提供的模糊 均值聚類程序?qū)@組數(shù)據(jù)進(jìn)行分類,在迭代48次后聚類目標(biāo)函數(shù)的誤差才達(dá)到0.00001。
對(duì)比可知,這種混合模糊聚類法比傳統(tǒng)FCM方法更切合實(shí)際,收斂速度更快,且不用人為給定聚類類別數(shù),不容易受初始化的影響。
二、結(jié)論
本文將混合模糊聚類算法應(yīng)用于我國(guó)的農(nóng)業(yè)產(chǎn)業(yè)分析,先利用傳遞閉包法得到一系列分類,再引入F-統(tǒng)計(jì)量,根據(jù)F-統(tǒng)計(jì)值的大小確定一種分類,以最大的F-統(tǒng)計(jì)值對(duì)應(yīng)的一種分類的類數(shù)作為FCM聚類的類別數(shù)c,以這種分類的聚類中心作為FCM算法的初始聚類中心。通過實(shí)例應(yīng)用和比較分析,說明此方法能夠反映出原始數(shù)據(jù)的真實(shí)特性,真正達(dá)到聚類分析的無監(jiān)督性;同時(shí)也降低了由于人為因素造成的不確定性影響,增強(qiáng)了聚類結(jié)果的準(zhǔn)確性和可信度。
參考文獻(xiàn):
[1]王洪春,彭宏.一種基于熵的聚類算法[J].計(jì)算機(jī)科學(xué),2007,34(11):178-179.
[2]CROSS G R, JAIN A K.Measurement of clustering tendency[C]//IFAC Symposium on Digital Control. New Delhi: [s. n. ],1982:24-29.