盧建青,陳銀珠,劉玉珠,張 錦
廣義回歸神經(jīng)網(wǎng)絡(luò)在空間數(shù)據(jù)聚類中的應(yīng)用
盧建青1,陳銀珠1,劉玉珠1,張 錦2
(1. 浙江省測(cè)繪大隊(duì),杭州 310030;2. 中國(guó)地質(zhì)大學(xué) 地理與信息工程學(xué)院,武漢 430074)
針對(duì)空間數(shù)據(jù)聚類中由于空間數(shù)據(jù)本身的特點(diǎn)造成模糊C均值聚類算法無(wú)法滿足使用要求的問(wèn)題,提出1種改進(jìn)的空間數(shù)據(jù)聚類算法:將模糊C均值聚類算法與廣義回歸神經(jīng)網(wǎng)絡(luò)相結(jié)合,得到結(jié)合廣義神經(jīng)網(wǎng)絡(luò)的模糊C均值聚類算法;并將結(jié)合廣義神經(jīng)網(wǎng)絡(luò)的模糊C均值聚類算法應(yīng)用到空間數(shù)據(jù)的聚類中。實(shí)驗(yàn)結(jié)果表明,結(jié)合廣義神經(jīng)網(wǎng)絡(luò)的模糊C均值算法在空間聚類方面比模糊C均值有著更好的效果,可以滿足實(shí)際空間數(shù)據(jù)聚類的要求。
空間數(shù)據(jù);空間聚類;模糊C均值聚類算法;結(jié)合廣義神經(jīng)網(wǎng)絡(luò)的模糊C均值聚類算法;聚類效果
隨著我國(guó)遙感、測(cè)繪、地理信息等各種空間數(shù)據(jù)獲取技術(shù)的快速發(fā)展,空間數(shù)據(jù)的量越來(lái)越大??臻g數(shù)據(jù)由于其自身的特點(diǎn),往往具有較高的復(fù)雜度,處理空間數(shù)據(jù)也相對(duì)困難。海量的空間數(shù)據(jù)無(wú)法得到有效的處理,造成了空間數(shù)據(jù)利用率低的現(xiàn)象[1-2]。于是空間數(shù)據(jù)挖掘被人提出[3-4],空間數(shù)據(jù)挖掘就是指如何在海量的空間數(shù)據(jù)中得到與空間數(shù)據(jù)相關(guān)的空間數(shù)據(jù)結(jié)果或者非空間數(shù)據(jù)結(jié)果,探索空間數(shù)據(jù)背后的規(guī)律,最大限度地發(fā)揮空間數(shù)據(jù)潛在的價(jià)值??臻g聚類作為空間數(shù)據(jù)挖掘的一部分,可以發(fā)現(xiàn)空間數(shù)據(jù)的分布特點(diǎn),分析空間數(shù)據(jù)的集中規(guī)則,并可以進(jìn)一步判斷和預(yù)測(cè)空間數(shù)據(jù)的分布位置的變化[5-6]。目前較為常用的空間聚類算法有:K均值聚類算法(K-means)[7]、模糊C均值聚類算法(fuzzy C-means, FCM)[8-10]、自組織特征映射網(wǎng)絡(luò)(self-organizing feature map, SOM)聚類算法[11-12]、期望最大化聚類算法(expectation maximization, EM)[13]。由于空間數(shù)據(jù)本身的量較大且空間數(shù)據(jù)較為復(fù)雜,目前常用的空間聚類算法都無(wú)法完全滿足各種空間數(shù)據(jù)聚類的需求。如K-means作為被使用最為廣泛的空間聚類算法,其主要不足在于K均值聚類的初始點(diǎn)是隨機(jī)選擇的,這可能會(huì)導(dǎo)致即使是相同的數(shù)據(jù)每次聚類時(shí)的結(jié)果也不完全相同,甚至可能由于初始點(diǎn)的選擇造成聚類結(jié)果錯(cuò)誤。此外,其對(duì)于離散的空間數(shù)據(jù)處理能力不足,且K均值聚類不具備較高的抗噪聲性能。SOM作為1種全連接神經(jīng)網(wǎng)絡(luò)聚類算法,可以進(jìn)行非監(jiān)督、完全自主的空間數(shù)據(jù)聚類。其大致原理是通過(guò)神經(jīng)網(wǎng)絡(luò)的自主學(xué)習(xí)能力使某1種神經(jīng)元只對(duì)符合某1種特征的輸入數(shù)據(jù)敏感,從而達(dá)到空間數(shù)據(jù)非監(jiān)督聚類的目的。但是SOM需要較多的輸入?yún)?shù),若輸入?yún)?shù)設(shè)置數(shù)量不足或參數(shù)選取錯(cuò)誤,聚類結(jié)果會(huì)有較大的偏差。所以對(duì)于SOM最大的難點(diǎn)在于輸入?yún)?shù)的確定。FCM在處理空間數(shù)據(jù)分類時(shí)1個(gè)數(shù)據(jù)在2個(gè)類的重疊區(qū)域部分有著極大的優(yōu)勢(shì),但是空間數(shù)據(jù)的分布情況會(huì)對(duì)聚類結(jié)果產(chǎn)生較大的影響,并且可能存在會(huì)局部極值的現(xiàn)象導(dǎo)致無(wú)法得到準(zhǔn)確的聚類結(jié)果。本文提出將廣義回歸神經(jīng)網(wǎng)絡(luò)(generalized regression neural network, GRNN)引入空間數(shù)據(jù)聚類中,將FCM和GRNN相結(jié)合,建立1種新的空間數(shù)據(jù)聚類算法即結(jié)合廣義回歸神經(jīng)網(wǎng)絡(luò)的模糊C均值聚類算法(generalized regression neural network-fuzzy C- means,GRNN-FCM),并通過(guò)實(shí)際的空間數(shù)據(jù)檢驗(yàn)GRNN-FCM的聚類效果。
FCM算法通過(guò)模糊聚類的目標(biāo)函數(shù)將數(shù)量為的空間數(shù)據(jù)聚類成數(shù)量為的模糊類,當(dāng)函數(shù)達(dá)到最小時(shí)便可確定每類的聚類中心。模糊聚類目標(biāo)函數(shù)為
FCM聚類算法具體步驟如下:
1)設(shè)置模糊聚類的需要得到類別數(shù),模糊權(quán)重指數(shù)和初始聚類中心;
2)利用式(2)計(jì)算得到空間數(shù)據(jù)的模糊隸屬度矩陣;
3)利用式(3)計(jì)算出數(shù)量為的小類別中每1個(gè)的類別中心v;
4)利用式(1)計(jì)算模糊聚類目標(biāo)函數(shù)值,若目標(biāo)函數(shù)值到達(dá)最小,則結(jié)束計(jì)算,否則返回步驟2)。
FCM聚類算法是1種以模糊隸屬度作為聚類標(biāo)準(zhǔn)的聚類算法,每個(gè)空間數(shù)據(jù)都是通過(guò)模糊隸屬度矩陣確定其所屬類別。
圖1 GRNN網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
網(wǎng)絡(luò)共分為4個(gè)層,具體作用如下:
1)輸入層。本層的作用為輸入學(xué)習(xí)的樣本并將輸入?yún)?shù)傳入模式層,輸入層的神經(jīng)元分布簡(jiǎn)單且神經(jīng)元的數(shù)目為訓(xùn)練輸入樣本的維數(shù)。
2)模式層。本層作用是利用本層的神經(jīng)元對(duì)輸入的訓(xùn)練樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),所以本層中神經(jīng)元數(shù)目等于訓(xùn)練樣本數(shù),訓(xùn)練函數(shù)為
式中:為全部訓(xùn)練樣本;X為第個(gè)神經(jīng)元的訓(xùn)練樣本。
3)求和層。本層的作用是對(duì)模式層的數(shù)據(jù)分別進(jìn)行算法求和及加權(quán)求和,公式為
式中權(quán)y為訓(xùn)練輸出樣本的對(duì)應(yīng)元素。
4)輸出層。輸出層的作用為計(jì)算并輸出結(jié)果,因此本層的神經(jīng)元數(shù)為訓(xùn)練輸出的樣本維數(shù),結(jié)果計(jì)算函數(shù)為
本文提出的GRNN-FCM空間聚類算法是采用GRNN和FCM相結(jié)合的方式進(jìn)行空間聚類。先通過(guò)模糊聚類將空間數(shù)據(jù)分為類再選取每1類中最具有代表性的組樣本數(shù)據(jù)作為網(wǎng)絡(luò)的訓(xùn)練輸入數(shù)據(jù),以每個(gè)樣本數(shù)據(jù)的類別為網(wǎng)絡(luò)的訓(xùn)練輸出。GRNN通過(guò)訓(xùn)練輸入數(shù)據(jù)和訓(xùn)練輸出數(shù)據(jù)對(duì)空間數(shù)據(jù)的聚類規(guī)律進(jìn)行學(xué)習(xí)。最后利用學(xué)習(xí)后的GRNN網(wǎng)絡(luò)對(duì)所有的輸入數(shù)據(jù)和輸出數(shù)據(jù)聚類,得到每個(gè)空間數(shù)據(jù)所處的類別。算法的具體流程如圖2所示。
實(shí)驗(yàn)所使用的空間數(shù)據(jù)來(lái)自于浙江省測(cè)繪大隊(duì)的自然資源大數(shù)據(jù)建設(shè)項(xiàng)目,自然資源大數(shù)據(jù)建設(shè)項(xiàng)目整合了各個(gè)部門收集自然資源數(shù)據(jù)樣本數(shù)據(jù),包括國(guó)土資源數(shù)據(jù)、住房和城鄉(xiāng)建設(shè)數(shù)據(jù)、水利數(shù)據(jù)、農(nóng)業(yè)數(shù)據(jù)、林業(yè)數(shù)據(jù)、測(cè)繪地理信息數(shù)據(jù)和海洋數(shù)據(jù)。自然資源大數(shù)據(jù)建設(shè)項(xiàng)目需要這些數(shù)據(jù)進(jìn)行分類、分析,因此也為本次實(shí)驗(yàn)提供了豐富的空間數(shù)據(jù)。本次實(shí)驗(yàn)采用全國(guó)34個(gè)省級(jí)行政區(qū)的國(guó)土資源空間數(shù)據(jù)。國(guó)土資源數(shù)據(jù)由于其自身的復(fù)雜性,數(shù)據(jù)特征參數(shù)較多且有部分空間數(shù)據(jù)分布較為集中;因此使用一般的空間聚類方法處理此類空間數(shù)據(jù)有一定的困難。為了將空間數(shù)據(jù)導(dǎo)入MATLAB中計(jì)算和顯示,對(duì)空間數(shù)據(jù)進(jìn)行質(zhì)心化處理得到結(jié)果如圖3所示。
圖2 GRNN-FCM算法流程
圖3 國(guó)土資源質(zhì)心化
為了對(duì)GRNN-FCM聚類算法進(jìn)行分析,本文分別采用GRNN-FCM和FCM聚類算法對(duì)國(guó)土資源空間數(shù)據(jù)進(jìn)行聚類,并將2種聚類算法得到的結(jié)果進(jìn)行分析比較。
參數(shù)設(shè)置時(shí)將2種聚類算法的聚類數(shù)均設(shè)為5。得到GRNN-FCM和FCM的聚類結(jié)果如圖4、圖5所示,為了對(duì)比2種聚類方法的效果計(jì)算得表1、表2。
圖4 FCM聚類結(jié)果
圖5 GRNN-FCM聚類結(jié)果
表1 聚類結(jié)果表
表2 聚類效果對(duì)比表
從圖4和表1中可以清楚地發(fā)現(xiàn),由于空間數(shù)據(jù)較為復(fù)雜、屬性較多的原因,F(xiàn)CM聚類沒(méi)有能夠區(qū)分出第1類和第2類,最終FCM聚類算法僅僅只聚類出了4種空間數(shù)據(jù)的類別。從圖5和表1中可以發(fā)現(xiàn)GRNN-FCM聚類算法在FCM的基礎(chǔ)上有效地將第1類和第2類區(qū)分開(kāi),根據(jù)實(shí)際情況將空間數(shù)據(jù)聚類成5個(gè)類別。GRNN-FCM較FCM聚類算法可以更好地區(qū)分出復(fù)雜空間數(shù)據(jù)中屬性的細(xì)小差異,并且根據(jù)聚類要求得到需要的聚類結(jié)果。從表2中也可以發(fā)現(xiàn)GRNN-FCM的聚類結(jié)果中每個(gè)小類的空間數(shù)據(jù)離中心點(diǎn)更加近,這表示GRNN-FCM得到的小的類別內(nèi)部更加緊湊。因此可以證明GRNN-FCM和FCM相比有著更好的聚類效果,聚類結(jié)果更加準(zhǔn)確。并且從表2中可以發(fā)現(xiàn)GRNN-FCM由于其先期利用具有一定代表性的數(shù)據(jù)進(jìn)行了學(xué)習(xí),所以GRNN-FCM的聚類時(shí)間相較于FCM明顯較短,算法也更加高效。
FCM作為1種廣泛使用的聚類算法,在對(duì)空間數(shù)據(jù)進(jìn)行聚類的過(guò)程中,由于空間數(shù)據(jù)自身具有較為復(fù)雜、參數(shù)較多并且數(shù)據(jù)量較大的特點(diǎn),某些情況下可能無(wú)法有效地按照聚類要求完成空間數(shù)據(jù)的聚類。針對(duì)FCM聚類算法在空間數(shù)據(jù)聚類方面的不足,本文提出在FCM中引入GRNN,將2者結(jié)合得到了全新的GRNN-FCM空間聚類算法。并利用空間數(shù)據(jù)進(jìn)行實(shí)驗(yàn),比較GRNN-FCM和FCM聚類效果。結(jié)果證明GRNN-FCM聚類算法在空間數(shù)據(jù)聚類時(shí)比FCM有著更好的聚類效果、更加準(zhǔn)確的聚類結(jié)果。同時(shí)GRNN-FCM比FCM進(jìn)行聚類時(shí)所需時(shí)間更少,算法的效率更高。實(shí)驗(yàn)證明GRNN-FCM在空間數(shù)據(jù)聚類中有一定的實(shí)際應(yīng)用價(jià)值,同時(shí)本文的研究也為其他空間聚類算法研究提供了參考。
[1]王家耀, 苗國(guó)強(qiáng), 成毅. 空間信息系統(tǒng)數(shù)據(jù)的獲取[J]. 海洋測(cè)繪, 2004, 24(2): 1-4.
[2]裴韜, 周成虎, 駱劍承, 等. 空間數(shù)據(jù)知識(shí)發(fā)現(xiàn)研究進(jìn)展評(píng)述[J]. 中國(guó)圖象圖形學(xué)報(bào), 2018, 6(9): 854-860.
[3]李德仁, 王樹(shù)良, 李德毅. 空間數(shù)據(jù)挖掘理論與應(yīng)用[M]. 北京: 科學(xué)出版社, 2013.
[4]李德仁, 王樹(shù)良, 李德毅, 等. 論空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的理論與方法[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2002, 27(3): 221-233.
[5]汪閩. 空間聚類挖掘方法研究[D]. 北京: 中國(guó)科學(xué)院地理資源研究所, 2006.
[6]馬飛. 數(shù)據(jù)挖掘中的聚類算法研究[D]. 南京: 南京理工大學(xué), 2008.
[7]張建輝. K-means聚類算法研究及應(yīng)用[D]. 武漢: 武漢理工大學(xué), 2007.
[8]周開(kāi)樂(lè). 模糊C均值聚類及其有效性檢驗(yàn)與應(yīng)用研究[D]. 合肥: 合肥工業(yè)大學(xué), 2014.
[9]BEZDEK J C , EHRLICH R , FULL W. FCM: the fuzzy c-means clustering algorithm[J]. Computers & Geosciences, 1984, 10(2/3): 191-203.
[10]孫曉霞, 劉曉霞, 謝倩茹. 模糊C-均值(FCM)聚類算法的實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2008, 25(3): 48-51.
[11]齊志. 基于SOM神經(jīng)網(wǎng)絡(luò)的聚類可視化方法研究[D]. 長(zhǎng)春: 東北師范大學(xué).
[12]周歡, 黃立平. 基于SOM神經(jīng)網(wǎng)絡(luò)的C-均值聚類算法[J]. 計(jì)算機(jī)應(yīng)用, 2007, 27(6): 51-52.
[13]MOON T K. The expectation-maximization algorithm[J]. Signal Processing Magazine, 1996, 13(6): 47-60.
[14]溫愛(ài)華, 李松. 基于廣義回歸神經(jīng)網(wǎng)絡(luò)的鐵路貨運(yùn)量預(yù)測(cè)[J]. 鐵道運(yùn)輸與經(jīng)濟(jì), 2011, 33(2): 88-91.
[15]周昊, 鄭立剛, 樊建人, 等. 廣義回歸神經(jīng)網(wǎng)絡(luò)在煤灰熔點(diǎn)預(yù)測(cè)中的應(yīng)用[J]. 浙江大學(xué)學(xué)報(bào)(工學(xué)版), 2004, 38(11): 1479-1482.
[16]SENG T L, MARZUKI K, RUBIYAH Y, et al. Adaptive neuro-fuzzy control system by RBF and GRNN neural networks[J]. Journal of Intelligent & Robotic Systems, 1998, 23(2-4): 267-289.
Application of generalized regression neural network in spatial data clustering
LU Jianqin1, CHEN Yinzhu1, LIU Yuzhu1, ZHANG Jin2
(1. The Institution of Geological Surveying and Mapping, Hangzhou 310030,China; 2.School of Geography and Information Engineering,China University of Geosciences, Wuhan 430074, China)
Aiming at the problem that it is difficult to meet the requirement of spatial data clustering for the fuzzy C-means clustering algorithm due to the characteristics of spatial data itself, the paper proposed an improved spatial data clustering algorithm: the fuzzy C-means clustering algorithm was combined with the generalized regression neural network to get the generalized regression neural network-fuzzy C-means (GRNN-FCM) clustering algorithm, and GRNN-FCM was applied in spatial data clustering. Experiments showed that the proposed method would have better effect than the fuzzy C-means algorithm in spatial clustering, which could meet the requirements of actual spatial data clustering.
spatial data; spatial clustering; fuzzy C-means; generalized regression neural network-fuzzy C-means (GRNN-FCM); clustering effect
P228
A
2095-4999(2020)02-0031-05
盧建青,陳銀珠,劉玉珠,等. 廣義回歸神經(jīng)網(wǎng)絡(luò)在空間數(shù)據(jù)聚類中的應(yīng)用[J]. 導(dǎo)航定位學(xué)報(bào), 2020, 8(2): 31-35.(LU Jianqin, CHEN Yinzhu, LIU Yuzhu, et al. Application of generalized regression neural network in spatial data clustering[J]. Journal of Navigation and Positioning, 2020, 8(2): 31-35.)
10.16547/j.cnki.10-1096.20200206.
2019-09-20
盧建青(1979—),男,廣東饒平人,碩士,注冊(cè)測(cè)繪師,高級(jí)工程師,研究方向?yàn)榈乩硇畔⑾到y(tǒng)平臺(tái)設(shè)計(jì)開(kāi)發(fā)及其應(yīng)用技術(shù)。
張錦(1995—),男,安徽合肥人,碩士研究生,研究方向?yàn)镚NSS數(shù)據(jù)處理。