張麗娟,陳孝國,張亞平
(黑龍江科技學院)
聚類分析是統(tǒng)計模式識別中無監(jiān)督模式分類的一個重要分支,它將一組給定的未標記的樣本按照某種準則劃分成多個類別,使得同一類中的樣本具有較高的相似度,而不同類中的樣本差別大.隨著模糊理論的引入,鑒于分類本質(zhì)的模糊性,人們逐步接受了模糊聚類分析.在眾多的實現(xiàn)方法中,模糊C-均值算法(FCM)成為流行算法之一.但是初始聚類中心的選取卻沒有統(tǒng)一的方法[1-3],并且這些方法都沒有考慮到不同特征對聚類的不同貢獻程度.基于上述模糊聚類分析的不足,該文首先利用層次分析方法確定各個指標的初始權(quán)重;并提出了一種既能考慮到樣本之間的值貼近,又能考慮到樣本之間的形貼近的新的統(tǒng)計量——相似度,由此得到用于FCM聚類分析的初始聚類中心,并且在FCM算法中也引入了不同指標對應(yīng)的權(quán)重,進而給出了一類改進的FCM聚類分析方法.
煤炭城市是指因當?shù)孛禾抠Y源的開發(fā)而形成和發(fā)展起來的,并且煤炭產(chǎn)業(yè)在城市工業(yè)結(jié)構(gòu)中占有重要地位的城市.目前我國有煤炭城市64座,占到全國城市總數(shù)的9.7%,但這些煤炭城市作為我國的基本能源基地類型之一,其戰(zhàn)略地位十分重要.在當前煤炭城市面臨經(jīng)濟全面轉(zhuǎn)軌和城市化進程當中,和其他資源城市相比,它體現(xiàn)的問題更為突出,已引起社會各屆的關(guān)注[4-5].該文將借助改進的FCM聚類分析方法對我國的主要煤炭城市的城市化進程進行了一次系統(tǒng)的分類,并針對不同類型的煤炭城市提出的相應(yīng)的發(fā)展策略.這對那些處在經(jīng)濟轉(zhuǎn)型時期的煤炭城市而言,具有重要的理論意義和應(yīng)用價值.
模糊聚類分析是以相似性為基礎(chǔ),主要用于研究樣本的分類問題.在確定樣本之間的相似系數(shù)或者距離系數(shù)時,通常都認定各個指標具有相同的權(quán)重,這與現(xiàn)實中的實際問題一般不符.因此就有必要考慮樣本各個指標的權(quán)系數(shù).
假定聚類問題有n個待分類的對象,每個對象有m個評價指標,對象xi=(,,…,)(i=1,2,…,n).由于各屬性因子表示樣本中的各種屬性質(zhì)量單位,其觀測值可能相差懸殊,為了確保各屬性因子在分析中的地位相同,要對數(shù)據(jù)進行標準化處理.經(jīng)過標準化處理后,可將所有樣本的各屬性因子的數(shù)值都轉(zhuǎn)換為0~1之間的數(shù)值.即對象變?yōu)閤i=(xi1,xi2,…,xim)(i=1,2,…,n).
層次分析法是20世紀70年代由美國運籌學教授Saaty T L提出的.Saaty認為,若某個實際問題涉及到n個因素,要問每個因素在整體中各占多大比重?當確切依據(jù)很不充分時,就只有憑專家經(jīng)驗來判斷了.但是只要n≥3,任何專家都可能很難說出一組確切的數(shù)據(jù).然而,若從所有因素中任取兩個因素進行比較,在行的專家一般都可以用“同等重要”“稍微重要”“明顯重要”“十分重要”“極其重要”等定性語言說明其中一個因素比另一個因素對總體而言的重要性程度.Saaty建議將這些語言量化.對于給定的某個實際問題,設(shè) X={x1,x2,…,xn}是全部因素集,可請專家對全部的因素作兩兩之間的對比,填寫矩陣 A=(aij)n×n,其中 aij=f(xi,xj),并稱 A 為判斷矩陣.
下面給出一種求解權(quán)向量W=(w1,w2,…,wn)T的一種近似計算方法:
根據(jù)判斷矩陣A計算出相應(yīng)的特征根λmax,式中W為評價因素的權(quán)重,一致性指標CI=(λmax-n)/(n-1),式中n-矩陣的階數(shù),最后一致性檢驗CR=CI/RI,隨機一致性指標RI的取值見文獻[6].
若CR<0.10,可認為判斷矩陣A的估計基本一致,可以接受.
若CR≥0.10,可認為判斷矩陣A的估計不很一致,需要重新調(diào)整矩陣A的值,重新估計.
設(shè)兩個樣本評價指標向量分別為xi=(xi1,xi2,…,xim),xj=(xj1,xj2,…,xjm),定義相似度矩陣 R=(rij)n×n.其中 rij為:
由于模糊關(guān)系必須滿足對稱性、自反性和傳遞性,所以需要對相似度矩陣進行改造.利用平方法計算出傳遞閉包矩陣t(R).選取適當?shù)摩?,由截矩陣得出所需大致的分類,每一類樣本?shù)據(jù)的平均值記為該類的初始聚類中心.
在實際聚類問題中,由于不同指標對聚類的作用一般是不同的,設(shè)指標權(quán)向量為W=(w1,w2,…,wm)T,則聚類樣本xk與類別vt間的差異,可用廣義歐氏權(quán)距離
表示.
為了更加完善地描述聚類樣本xk與類別vt間的差異,將廣義歐氏距離以樣本xk歸屬于類別vk的相對隸屬度 utk為權(quán)重,即 d(xk,vt)=uik‖W(xk-vt)‖.
建立目標函數(shù)
此目標函數(shù)的意義為:聚類樣本集對于全體類別加權(quán)廣義歐氏權(quán)距離平方和最小.
求滿足目標函數(shù)的最優(yōu)模糊分類矩陣U*、最優(yōu)模糊聚類中心矩陣V*和指標權(quán)重W*,分三方面進行討論.
(1)已知模糊聚類中心矩陣V及權(quán)重W,求最優(yōu)模糊分類矩陣U*.
(2)已知模糊分類矩陣U及權(quán)重W,求解最優(yōu)模糊聚類中心V*.
(3)已知模糊分類矩陣U及聚類中心矩陣V,求解最優(yōu)權(quán)重W*.
(1)對原始數(shù)據(jù)進行標準化.
(2)計算初始指標權(quán)重.
(3)計算相似度矩陣R.
(4)計算R的傳遞閉包.利用平方法計算傳遞閉包矩陣t(R).
(5)計算初始聚類中心矩陣V(0).選取適當?shù)摩?,由截矩陣得出初始分類矩陣,每一類樣本?shù)據(jù)的平均值記為該類的初始聚類中心.
(6)計算變化后的模糊分類矩陣U(1).
(7)計算變化后的指標權(quán)重W(1).
(8)計算變化后的聚類中心V(1).
(9)取定ε >0,若‖V(l+1)-V(l)‖≤ε則停止疊代,否則返回第(6)步繼續(xù)計算,直到滿足條件為止.
該文選取了我國25個地級煤炭城市進行分析研究,其中反映城市化水平的指標的原始數(shù)據(jù)見表1(資料來源:2002年中國城市統(tǒng)計年鑒).煤炭城市城市化水平評價指標由五大類11個指標構(gòu)成.具體指標含義如下:
(1)產(chǎn)業(yè)城市化水平:產(chǎn)業(yè)城市化指標選擇城市化地區(qū)X1-工業(yè)增加值占GDP比重(%)、X2-第三產(chǎn)業(yè)增加值占GDP比重(%).
(2)經(jīng)濟城市化水平:經(jīng)濟城市化的核心內(nèi)涵是經(jīng)濟結(jié)構(gòu)的非農(nóng)化,其中工業(yè)化是直接推動因素,第三產(chǎn)業(yè)的興起與興旺則是城市化向縱深拓進的表現(xiàn).設(shè)置指標X3-人均GDP(元)、X4-在崗職工平均工資(元)來反映經(jīng)濟城市化水平.
(3)人口城市化水平:人口城市化是區(qū)域城市化的核心,也是經(jīng)濟城市化的直接結(jié)果和表現(xiàn)形式.在此,設(shè)置指標X5-人口自然增長率(‰)、X6-非農(nóng)業(yè)人口比重(%)、X7-第三產(chǎn)業(yè)從業(yè)人員比重(%)來反映人口城市化水平.
(4)生活城市化水平:居民的生活環(huán)境、生活質(zhì)量和消費水平能在一定程度上反映生活方式的城市化水平.設(shè)置指標X8-人均消費品零售額(元),X9-每十萬人擁有醫(yī)生數(shù)量反映生活方式城市化水平.
(5)環(huán)境城市化水平:隨著城市化水平不斷提高,人們也越來越重視環(huán)境保護和治理,環(huán)境狀態(tài)好壞也從一個方面反映了城市化水平的高低.設(shè)置指標X10-人均園林綠地面積(平方米)、X11-建成區(qū)綠化覆蓋率(%)等來描述城市環(huán)境的城市化水平.
綜上所述,煤炭城市城市化水平測度從產(chǎn)業(yè)城市化、經(jīng)濟城市化、人口城市化、生活城市化和環(huán)境城市化五個方面進行了指標體系的設(shè)計,這五個方面較為系統(tǒng)的刻畫了煤炭城市城市化水平,在實際應(yīng)用中,這些指標的具體數(shù)值可以從城市統(tǒng)計年鑒中獲得.簡言之,該指標體系系統(tǒng)、全面、可操作性強.
根據(jù)表1中的數(shù)據(jù),利用FCM聚類分析理論,首先將原始數(shù)據(jù)標準化,采用1.2中的方法得到相似矩陣.通過平方計算法可以快速求出Fuzzy等價矩陣.取λ=0.75得初始分類矩陣.
根據(jù)上述簡單分類結(jié)果算得初始聚類中心V=(V1,V2),其中
設(shè)初始指標權(quán)向量為 w=(0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1),最后按照改進后的基于可變加權(quán)的FCM聚類方法,選取閾值ε=0.01,利用軟件C++編程計算得最終分類矩陣R*.
分類結(jié)果如下:
Ⅰ類:晉城、徐州、唐山;
Ⅱ類:石嘴山、烏山、撫順、大同、焦作、平頂山、陽泉、雙鴨山;
Ⅲ類:朔州、淮南、阜新、銅川、淮北、鶴崗、萍鄉(xiāng);
Ⅳ類:遼源、棗莊、鶴壁、七臺河、雞西、赤峰、六盤水.
表1 25個地級煤炭城市城市化水平原始表
聚類結(jié)果表明:第一類城市的城市化水平在我國煤炭城市中是最高的.這些城市的經(jīng)濟發(fā)展水平高,城市化具有良好的基礎(chǔ).第二類城市屬于城市化水平居中的城市.這類城市的典型特征是正處于由資源型城市向綜合型城市的轉(zhuǎn)型之中.第三類城市屬于城市化水平一般的城市.第四類城市屬于城市化水平低的城市,這些城市所處的區(qū)域遠離經(jīng)濟發(fā)達地區(qū),受外界經(jīng)濟輻射作用較弱,所以應(yīng)該加強自身的經(jīng)濟轉(zhuǎn)型力度.
利用相似度矩陣代替?zhèn)鹘y(tǒng)模糊聚類分析中的相似矩陣,彌補了以前聚類模型中未綜合考慮樣本之間的值貼近程度和形貼近程度的缺陷,同時針對指標特征優(yōu)先級別的不同引入了指標權(quán)重.利用相似度矩陣確定了初始聚類中心,并在FCM法中考慮了指標權(quán)重,經(jīng)過深入研究給出了迭代公式和相應(yīng)算法.將改進后的FCM法應(yīng)用到煤炭城市分類中去,將25個地級煤炭城市按11項指標分成了三類,聚類結(jié)果對城市自身的位置和將要發(fā)展的方向都有一定的參考價值和指導意義.
[1] 張慧哲,王堅.基于初始聚類中心選取的改進FCM聚類算法[J].計算機科學,2009,36(6):206-209.
[2] 陳孝國.基于Fuzzy理論的一種醫(yī)療診斷模型[J].數(shù)學的實踐與認識,2009,39(13):80-89.
[3] 陳孝國.基于遺傳算法的可變加權(quán)FCM聚類方法改進研究[J].高師理科學刊,2011,31(1):12-15.
[4] 陳孝國,楊悅,孫秀娟.Fuzzy數(shù)學在采煤機故障診斷中的應(yīng)用[J].煤礦機械,2007,28(5):187-188.
[5] 樊杰.我國煤炭城市產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)化問題研究[J].地理學報,1993.48(3):218-225.