李志林,劉啟亮,唐建波
1. 香港理工大學(xué)土地測量與地理資訊學(xué)系,香港 九龍; 2. 中南大學(xué)地理信息系,湖南 長沙 410083; 3. 西南交通大學(xué)高鐵運營安全空間信息技術(shù)國家地方聯(lián)合實驗室,四川 成都 611756
尺度驅(qū)動的空間聚類理論
李志林1,3,劉啟亮1,2,唐建波2
1. 香港理工大學(xué)土地測量與地理資訊學(xué)系,香港 九龍; 2. 中南大學(xué)地理信息系,湖南 長沙 410083; 3. 西南交通大學(xué)高鐵運營安全空間信息技術(shù)國家地方聯(lián)合實驗室,四川 成都 611756
空間聚類是探索性空間數(shù)據(jù)分析的有力手段,不僅可以直接用于發(fā)現(xiàn)地理現(xiàn)象的分布格局與分布特征,亦可以為其他空間數(shù)據(jù)分析任務(wù)提供重要的預(yù)處理步驟??臻g聚類有望成為大數(shù)據(jù)認(rèn)知的突破口。空間聚類研究雖然已經(jīng)引起了廣泛關(guān)注,但是依然面臨兩大最根本的困境:“無中生有”和“無從理解”?!盁o中生有”指的是:絕大多數(shù)方法,即使針對不包含聚類結(jié)構(gòu)的數(shù)據(jù)集,仍然會發(fā)現(xiàn)聚類;“無從理解”指的是:即使同一種聚類方法,采用不同的聚類參數(shù)就會獲得千變?nèi)f化的聚類結(jié)果,而這些結(jié)果的含義不明確。造成上述困境的根本原因在于:尺度沒有在聚類模型中被當(dāng)作重要參數(shù)而恰當(dāng)?shù)伢w現(xiàn)。為此,筆者受到人類視覺多尺度認(rèn)知原理的啟發(fā),根據(jù)多尺度表達的“自然法則”,建立了一套尺度驅(qū)動的空間聚類理論。首先將尺度定量化建模為聚類模型的參數(shù),然后將空間聚類的尺度依賴性建模為一種假設(shè)檢驗問題,最后通過控制尺度參數(shù)以自動獲得統(tǒng)計顯著的多尺度聚類結(jié)果。在該理論指導(dǎo)下,可以構(gòu)建適用不同應(yīng)用需求的多尺度空間聚類模型,一方面降低了空間聚類過程中的主觀性,另一方面有利于對空間聚類模式進行全面而深入的分析。
空間聚類;尺度;自然法則;視覺認(rèn)知;假設(shè)檢驗
空間聚類是描述地理現(xiàn)象空間依賴性的重要手段??臻g依賴性是地理現(xiàn)象的內(nèi)蘊特征,其表現(xiàn)為鄰近空間數(shù)據(jù)間通常表現(xiàn)出較強的相似性[1]??臻g依賴性的刻畫對于研究地理現(xiàn)象的產(chǎn)生機理、分布規(guī)律及發(fā)展變化趨勢具有重要的價值[2]。
空間聚類的核心目的在于依據(jù)空間數(shù)據(jù)間的相似性將空間數(shù)據(jù)劃分為一系列的空間簇,使得相同簇內(nèi)空間實體相似性盡可能高,而不同簇間空間實體的差異性盡可能大[3-4]。空間聚類在地學(xué)領(lǐng)域具有重要的應(yīng)用價值,已經(jīng)受到國內(nèi)外學(xué)者的廣泛關(guān)注,以“空間聚類”為主題的SCI/SSCI論文數(shù)目在直線上升(圖1)。
空間聚類可以單獨作為一種空間依賴性的探索性數(shù)據(jù)分析工具。例如,在公共衛(wèi)生領(lǐng)域,空間聚類已經(jīng)被廣泛用于疾病暴發(fā)模式識別[5];在犯罪學(xué)領(lǐng)域,空間分析已經(jīng)成為犯罪熱點探測的主要工具[6];在氣候?qū)W領(lǐng)域,空間聚類是氣候帶識別的有力手段[7];在地質(zhì)學(xué)領(lǐng)域,空間聚類已經(jīng)被成功應(yīng)用于地震分布規(guī)律的探測[8];在生態(tài)學(xué)領(lǐng)域,空間聚類也是生態(tài)區(qū)域劃分與景觀模式識別的重要工具[9]。
空間聚類對空間依賴性的描述也可以作為其他空間數(shù)據(jù)分析任務(wù)的主要預(yù)處理步驟。例如,對于面向?qū)ο蟮母叻直媛蔬b感影像分割分類,空間聚類是對象生成的主要手段[10];稀有事件(如癌癥)分析領(lǐng)域,空間聚類是解決小樣本問題(small population problem)的有效工具[11];在制圖自動綜合研究中,空間聚類已經(jīng)被廣泛應(yīng)用于群組識別[12];在地理可視化等方面,空間聚類可以有效降低空間數(shù)據(jù)冗余[13];在時空預(yù)測建模等方面,空間聚類也是處理空間異質(zhì)性的一種有效途徑[14]。
伴隨著大數(shù)據(jù)時代的到來,空間聚類同樣是從大數(shù)據(jù)中發(fā)現(xiàn)價值必須面對的一個普遍性和基礎(chǔ)性的問題,有望成為大數(shù)據(jù)認(rèn)知的突破口[15]。目前,空間聚類已近成為空間統(tǒng)計、空間數(shù)據(jù)挖掘、圖像模式識別等多個領(lǐng)域研究的核心研究內(nèi)容,并已經(jīng)取得了一些代表性的研究成果。然而,由于空間聚類的尺度依賴特征建模能力的不足,導(dǎo)致聚類結(jié)果“無中生有”、“無從理解”的困境,已經(jīng)成為制約當(dāng)前空間聚類理論研究與實際應(yīng)用的關(guān)鍵瓶頸問題。為此,本文旨在模擬人類視覺多尺度認(rèn)知原理及多尺度表達的“自然法則”,建立了一套尺度驅(qū)動的空間聚類理論,構(gòu)建適用不同應(yīng)用需求的多尺度空間聚類模型。
1.1 空間聚類研究的發(fā)展回顧
聚類是人類認(rèn)知自然最基本與最有效的技能之一,長期以來聚類的思想一直以一種經(jīng)驗的形式指導(dǎo)人類實踐。1939年,文獻[16]首次采用聚類的思想從相關(guān)矩陣中提取互相關(guān)的組,標(biāo)志著聚類作為專門研究學(xué)科的建立。隨后,聚類技術(shù)得到了迅速發(fā)展,一些沿用至今的經(jīng)典聚類方法(如k-means)在20世紀(jì)50、60年代被相繼提出[17]。自20世紀(jì)70、80年代以來,伴隨著空間數(shù)據(jù)采集與管理能力的突破性進展,專門針對空間數(shù)據(jù)的空間聚類研究成為聚類研究的熱點?,F(xiàn)有空間聚類算法一類是直接移植于聚類早期的研究成果,如空間點事件的聚類問題可以視為一種二維聚類問題;另一類方法是依據(jù)空間數(shù)據(jù)的獨特性質(zhì)(如空間自相關(guān)、空間異質(zhì)性等)而對聚類研究成果的新發(fā)展,如自20世紀(jì)70年代,地理學(xué)與空間統(tǒng)計領(lǐng)域便開始了對空間聚類研究的探索,并發(fā)展了一些專門的空間聚類方法,如AZP(automated zoning procedure)[19]與地理分析機[20]等。到20世紀(jì)80年代,隨著空間數(shù)據(jù)挖掘技術(shù)的興起,空間聚類研究的關(guān)注度持續(xù)升溫,在理論方法與應(yīng)用研究方面均取得了重要的進展[21]。下面將對空間聚類方法進行梳理和分析。
1.2 空間聚類方法的形成
當(dāng)前,空間聚類算法的數(shù)目繁多,其主要原因有以下兩個:
1.2.1 空間簇的定義十分主觀[22-23]
在實際應(yīng)用中,3種類型空間簇的定義被廣為接受[24]:
(1) 基于中心的簇:即空間簇可以用其中心表示,且簇內(nèi)空間實體與簇的中心盡可能接近(或相似),而盡可能遠(yuǎn)離(或異于)其他簇的中心,如圖2(a) 所示,基于中心的簇通常是近似球形的。
(2) 基于連接的簇:即空間簇是由鄰近(相似)的空間實體通過相互間的連接關(guān)系構(gòu)成的,如圖2(b) 所示,基于連接的簇形狀可能是不規(guī)則的。
(3) 基于密度的簇:即空間簇被定義為被低密度區(qū)域分隔的連通高密度區(qū)域,如圖2(c) 所示,基于密度的簇形狀可以是不規(guī)則的,且可以對簇和噪聲進行區(qū)分。
圖2 空間簇的3種主要類型[24]Fig.2 Three types of spatial clusters [24]
1.2.2 不同類型的空間數(shù)據(jù)需要不同的聚類方法[25-26]
若不考慮空間數(shù)據(jù)本身的幾何形態(tài),空間數(shù)據(jù)主要可以區(qū)分為4種類型[27-28]:
(1) 點事件:主要記錄了地理事件或空間設(shè)施的空間位置與時間標(biāo)簽,如犯罪事件、疾病病例、興趣點等,點事件構(gòu)成的簇一方面需要滿足點事件間空間或時空鄰近,同時簇的形態(tài)通常是不規(guī)則的且可能受到空間障礙(如河流、道路)的約束。
(2) 空間格數(shù)據(jù):通常記錄了研究區(qū)域內(nèi)有限空間單元內(nèi)的計數(shù)值或平均度量值,如遙感影像數(shù)據(jù)、城市街區(qū)人口數(shù)據(jù)、區(qū)域疾病發(fā)病率等,空間格數(shù)據(jù)構(gòu)成的簇通常需要保證空間連續(xù)性。
(3) 地統(tǒng)計數(shù)據(jù):主要記錄了空間連續(xù)變量的點觀測值,如氣溫、降水、土壤重金屬含量等,地統(tǒng)計數(shù)據(jù)構(gòu)成的簇通常需要同時滿足專題屬性的相似性與時空鄰近性。
(4) 移動軌跡:主要記錄了空間對象運動的位置、時間、狀態(tài)等信息,如人類活動軌跡、動物遷徙軌跡及車輛運行軌跡等,軌跡數(shù)據(jù)構(gòu)成的簇需要滿足時空連續(xù)性的約束。
基于上述3種空間簇類型的定義,空間聚類算法主要可以分為3類:①基于中心簇定義的劃分聚類方法;②基于連接簇定義的層次聚類方法;③基于密度簇定義的密度聚類方法。
1.3 空間聚類算法
針對不同空間數(shù)據(jù)類型,每類聚類方法也衍生出一系列的變種。下面將對上述3類空間聚類算法作簡要評述。
1.3.1 劃分聚類算法
其核心步驟在于通過不斷優(yōu)化基于簇內(nèi)距離定義的目標(biāo)函數(shù),將空間數(shù)據(jù)劃分為給定數(shù)目的空間簇。k-means是最為典型的劃分聚類方法[29],為了提高k-means的穩(wěn)健性與效率,一些改進的方法被相繼提出,如ISODATA[30]、k-mediods[31]、FCM[32]、CLARANS[33]等。上述方法僅能直接應(yīng)用于空間點的聚類問題,為了同時考慮空間鄰近與專題屬性相似性,一些劃分聚類的方法通過在目標(biāo)函數(shù)中添加空間懲罰算子來保證簇內(nèi)的空間一致性[34-35];針對空間格數(shù)據(jù)聚類問題,Openshaw同時考慮空間連通約束與簇內(nèi)均質(zhì)性構(gòu)造目標(biāo)函數(shù),提出了一種AZP方法[19],后續(xù)一些研究對AZP方法容易陷入局部最優(yōu)[36]、初始簇數(shù)設(shè)定[37]等問題進行了一系列的改進。
20世紀(jì)80年代以來,伴隨著人工智能的發(fā)展,神經(jīng)網(wǎng)絡(luò)方法也被引入空間聚類,其中常用的SOM方法[38-39]實際上可以視為k-means的一種變種,但是其聚類的穩(wěn)定性和質(zhì)量得到提高,同時提供了聚類可視化的重要途徑。近年來,SOM方法同樣被拓展應(yīng)用于空間格數(shù)據(jù)與地統(tǒng)計數(shù)據(jù),代表性方法有GeoSOM[40]、HSOM[41]等。
1.3.2 層次聚類算法
層次聚類算法的核心內(nèi)容在于定義簇間距離,不斷凝聚或分裂獲得指定數(shù)目的空間簇。常用的簇間距離定義方法包括最近距離(單連接算法)、最遠(yuǎn)距離(全連接算法)、平均距離(平均連接算法)、最小方差距離(沃德法)等[31]。為了降低噪聲點干擾,CURE等方法也通過選取簇內(nèi)部分代表點的方法計算簇間距離[42]。
另一些方法也借助圖的邊長來定義簇間的距離,通過合并短邊連接的空間實體或刪除長邊連接的空間實體進行層次聚類[43],常用的圖包括最小生成樹[44-45]、K最近鄰圖[46]、Delaunay三角網(wǎng)[47-48]等。為了在層次聚類過程中考慮空間的連續(xù)性,可以直接在計算簇間距離時加入空間約束,即只計算空間鄰近實體間的距離[49-50]。為了能夠在層次聚類過程中動態(tài)優(yōu)化聚類結(jié)果,一些方法進一步在空間約束層次聚類結(jié)果的基礎(chǔ)上構(gòu)造基于簇內(nèi)均質(zhì)性的目標(biāo)函數(shù),將層次聚類樹分割為指定數(shù)目空間簇[51-52]。
1.3.3 密度聚類算法
密度聚類算法的核心目的在于發(fā)現(xiàn)空間實體聚集的高密度區(qū)域。早期的一些方法采用掃描窗口在空間或時空域上進行滑動,旨在發(fā)現(xiàn)窗口內(nèi)實體數(shù)量或計數(shù)顯著高于窗口外的高密度窗口,代表性方法有地理分析機[20]與掃描統(tǒng)計量[53]。這類方法難以準(zhǔn)確描述空間簇的形態(tài),雖然一些方法能夠發(fā)現(xiàn)不規(guī)則形狀的簇,但是計算效率過低[54-55],且多僅能處理空間格數(shù)據(jù)[56]。
堤頂高程9.36~11.12m,平均高程不足10.5m。土體主要為粉土、砂壤土,土質(zhì)不均;干密度1.34~1.55g/cm3,密度偏小。黏粒含量0.3%~9.4%,塑性指數(shù)5.8~7.4, 垂向滲透系數(shù)多在1.4×10-4~1×10-3cm/s,各項指標(biāo)不滿足規(guī)程要求。建議對上述范圍堤身進行必要的防滲和密實處理。
為了克服上述問題,以DBSCAN[57]為代表的一系列方法首先對空間實體局部密度進行估計,進而將空間連續(xù)的高密度空間實體連接成簇,可以高效發(fā)現(xiàn)不同形狀的空間簇。在DBSCAN的基礎(chǔ)上后續(xù)改進工作主要集中于兩方面:一類方法旨在克服DBSCAN難以發(fā)現(xiàn)密度差異較大空間簇的不足,代表方法有OPTICS[58]、SNN[59]、ADBSC[60]、DECODE[61]等方法;另一類,將DBSCAN方法拓展應(yīng)用于不同類型的空間數(shù)據(jù),例如針對時空點事件聚類的WNN[62]、STSNN[63],可以聚類空間格數(shù)據(jù)的GDBSCAN[64]、針對地統(tǒng)計數(shù)據(jù)的ST-DBSCAN[65]、DBSC[66]以及一系列移動軌跡聚類方法[67-69]。
2.1 空間聚類研究的兩大困惑
雖然國內(nèi)外學(xué)者已經(jīng)對空間聚類開展了持續(xù)的研究,并且已經(jīng)取得了部分代表性的成果,但是空間聚類在實際應(yīng)用中依然面臨兩大困境:
2.1.1 無中生有問題
絕大多數(shù)方法即使針對不包含聚類結(jié)構(gòu)的數(shù)據(jù)集,仍然會發(fā)現(xiàn)聚類。如圖3所示,針對一個不包含聚類結(jié)果隨機點事件數(shù)據(jù)集,當(dāng)前3類空間聚類方法,即使是能區(qū)分噪聲的密度聚類方法仍然發(fā)現(xiàn)了空間簇,顯然這些聚類結(jié)果是無效的。
圖3 隨機點事件聚類結(jié)果Fig.3 Clusters discovered from random spatial points
2.1.2 無從理解問題
即使同一種聚類方法,采用不同的聚類參數(shù)依然會獲得千變?nèi)f化的聚類結(jié)果。如圖4所示,針對同一點事件數(shù)據(jù)集,DBSCAN算法在不同參數(shù)下得到的聚類結(jié)果差異極大,在實際應(yīng)用中很難對這些聚類結(jié)果進行解釋。
分析上述兩個問題的產(chǎn)生根源,是由于空間聚類結(jié)構(gòu)(即空間簇)的尺度依賴特性的直接作用??臻g聚類結(jié)構(gòu)作為一種典型的空間模式,其在不同尺度上的表現(xiàn)形式必然存在差異[70-72],這也就可以解釋為何一個數(shù)據(jù)集會得到不同的聚類結(jié)果;而空間數(shù)據(jù)固有的尺度信息決定了從空間數(shù)據(jù)中發(fā)現(xiàn)空間模式(或信息)的種類、數(shù)量與可靠性[73-74],因此可以推斷空間聚類結(jié)果的可靠性或顯著性直接受到數(shù)據(jù)尺度的影響。
2.2 空間聚類的尺度問題
依據(jù)Goodhild和Quattrochi對建模尺度依賴問題的總結(jié)[81],空間聚類的尺度依賴性建模需要系統(tǒng)地考慮以下5個相互關(guān)聯(lián)的主要問題:
(1) 空間聚類尺度的參數(shù)化表達:尺度本身的含義就是模糊的、容易混淆的,不同的應(yīng)用領(lǐng)域、不同的分類準(zhǔn)則下,尺度分類和含義通常都存在差異[82]??臻g聚類模型中,尺度如何量化為一系列的參數(shù)?
(2) 度量尺度的影響:如何度量尺度對空間聚類結(jié)果的影響?
(3) 控制尺度的改變:如何控制尺度參數(shù)的改變獲得多尺度的空間聚類結(jié)果?
(4) 構(gòu)造多尺度的空間聚類模型:如何構(gòu)建可執(zhí)行的通用框架進行多尺度空間聚類?
(5) 尺度不變性:空間聚類結(jié)果的何種特征不隨尺度的改變而產(chǎn)生變化?
本文嘗試從人類視覺多尺度認(rèn)知的生理學(xué)原理出發(fā),根據(jù)“自然法則”來解決上述問題。
3.1 人類認(rèn)知多尺度聚類結(jié)構(gòu)的生理基礎(chǔ)
空間聚類是人類基本的認(rèn)知能力,空間簇的定義從根本上植根于人類的主觀認(rèn)識[18,83-84]。在二維或三維空間,人類視覺可以輕易地發(fā)現(xiàn)一些小樣本數(shù)據(jù)中的聚類結(jié)構(gòu),模擬人類這種本能的“聚類”(如格式塔準(zhǔn)則)一直是空間聚類算法設(shè)計的核心指導(dǎo)思想[44,75]??臻g聚類的尺度依賴問題也是建立在人類視覺認(rèn)知的基礎(chǔ)之上:在不同觀測距離下發(fā)現(xiàn)空間簇的數(shù)目和詳細(xì)程度不同,觀測距離越遠(yuǎn)識別的空間簇數(shù)目越少、結(jié)構(gòu)越模糊[77,85]。為了模擬人類這種多尺度聚類的能力,首先需要對這種認(rèn)知能力背后的生理學(xué)結(jié)構(gòu)進行必要的認(rèn)識。得益于神經(jīng)科學(xué)與腦認(rèn)知領(lǐng)域的研究進展[86-88],目前對人類視覺認(rèn)知的生理結(jié)構(gòu)已經(jīng)有了初步的了解,如圖6所示。
圖6 人類視覺認(rèn)知(腹部通道)的生理結(jié)構(gòu)簡圖(改自文獻[87])Fig.6 The sketch map of human visual system (ventral stream) (modified based on [87])
人類視覺形成的兩個核心生理結(jié)構(gòu)是視網(wǎng)膜與視皮層,前者將光信號轉(zhuǎn)換為電信號,并送達大腦,后者負(fù)責(zé)對這些電信號進行處理最后形成視覺認(rèn)知。為了分析人類多尺度視覺認(rèn)知的原理,我們需要解釋3個問題:①人們在一定觀測距離上看到的是什么?②人們在不同觀測距離上看到的是什么?③視覺認(rèn)知是否有尺度不變性?
視網(wǎng)膜結(jié)構(gòu)可以類比于一架特殊的照相機,而視網(wǎng)膜上的感受野結(jié)構(gòu)猶如這架照相機的鏡頭[89]。視覺通路上不同階段上,視神經(jīng)連接的感受野尺寸不斷增大、結(jié)構(gòu)越來越復(fù)雜,因此視網(wǎng)膜上包含了不同尺寸和結(jié)構(gòu)的感受野,猶如一架裝配有不同焦距鏡頭的照相機[90]。感受野的尺寸與觀測距離一起決定了視網(wǎng)膜成像的分辨率,在一定觀測距離上,感受野尺寸越小分辨率越高,感受野尺寸越大分辨率越低。因此,即使在一定觀測距離上,視網(wǎng)膜對現(xiàn)實世界的采樣是一系列不同分辨率的圖像(即尺度空間),而且對不同分辨率圖像的采樣沒有偏向性[91]。視皮層對這些不同分辨率的圖像進行進一步分析,形成最后的視覺認(rèn)知。進一步,當(dāng)觀測距離不斷增大時,由于感受野本身尺寸的限制,視網(wǎng)膜采樣圖像的最高分辨率將不斷降低,因此通過視皮層分析獲得的認(rèn)知圖像也將不斷模糊[86],這也是多尺度表達的“自然法則”的基本原理[92]。雖然人類的大腦輸入的是現(xiàn)實世界多尺度的表達,但是認(rèn)識系統(tǒng)具有識別尺度不變結(jié)構(gòu)的天然能力,其生理學(xué)基礎(chǔ)在于每種結(jié)構(gòu)均通過相應(yīng)尺寸感受野引起視皮層神經(jīng)元的興奮,而能夠使得較多神經(jīng)元興奮的結(jié)構(gòu)將更穩(wěn)定地被感知,這種尺度不變性的特性已經(jīng)在心理測試中被驗證[93-94]。
通過上述分析,可以發(fā)現(xiàn)人類的多尺度聚類認(rèn)知過程受到兩個關(guān)鍵因素的影響:觀測距離與感受野尺寸。這二者在人類多尺度視覺認(rèn)知中的功能是指導(dǎo)空間聚類中尺度定義與尺度參數(shù)化表達的重要參考。
3.2 空間聚類中的尺度表達
基于對人類多尺度認(rèn)知生理過程的剖析,發(fā)現(xiàn)空間聚類中主要可以定義兩類尺度[95]:
數(shù)據(jù)尺度:一般指用于空間數(shù)據(jù)采樣的尺度。一個數(shù)據(jù)集可以抽象為一幅特殊的圖像[75,77],數(shù)據(jù)(或圖像)的尺度由采樣的最高分辨率決定。在人類視覺多尺度認(rèn)知中,視網(wǎng)膜可以視為一種空間數(shù)據(jù)的采樣框架,這個采樣框架最高分辨率的變化直接受到觀測距離的控制。在人類視覺認(rèn)知中,增大觀測距離實際上提供給大腦不同尺度的空間數(shù)據(jù)進行分析,可以視為一種尺度上推的過程。
分析尺度:通常指給定數(shù)據(jù)中地理現(xiàn)象或空間模式分析的窗口?,F(xiàn)有研究已經(jīng)發(fā)現(xiàn),視網(wǎng)膜上的一些簡單感受野可以從數(shù)學(xué)上嚴(yán)格表達為一種核結(jié)構(gòu)(如墨西哥帽函數(shù)),而感受野的尺寸起到了帶寬的作用[89]。不同尺寸感受野獲得的尺度空間圖像,實際上類似于一種概率密度估計的過程,不同尺寸感受野獲得的概率密度圖像上發(fā)現(xiàn)的空間模式幅度也不相同[80]。
實際上,空間聚類的尺度依賴性主要體現(xiàn)在上述兩類尺度的改變,為了進一步對空間聚類尺度依賴性進行量化建模,需要對數(shù)據(jù)尺度與分析尺度的進行參數(shù)化描述。
數(shù)據(jù)尺度的度量:雖然數(shù)據(jù)的尺度在不同領(lǐng)域具有不同的度量方式,但是其一般可以定義為研究范圍、分辨率和精度[96]。針對不同類型的空間數(shù)據(jù),具體的度量指標(biāo)存在一定差異,例如針對點事件,數(shù)據(jù)分辨率可以定義為兩點間最短距離或比例尺;針對格數(shù)據(jù),遙感影像的空間分辨率通常定義為最小可分辨實體尺寸,而對于社會經(jīng)濟等面狀數(shù)據(jù)而言,分辨率通常定義為單元的尺寸或數(shù)目。
分析尺度的度量:分析尺度的度量需要同時考慮空間簇的定義與空間數(shù)據(jù)的類型。對于劃分或?qū)哟尉垲惸P投?,分析尺度主要可以定義為空間簇的數(shù)目或簇內(nèi)均質(zhì)性;對于基于密度的聚類模型,分析尺度主要定義為鄰近范圍(空間鄰近、屬性相似)。
3.3 多尺度空間聚類模型的普適性表達
基于量化的尺度表達,可以建立一種以尺度為參數(shù)的多尺度空間聚類模型[95]
C=F(D,A)
(1)
式中,C表示聚類結(jié)果;F表示空間聚類模型;D表示數(shù)據(jù)尺度度量參數(shù);A表示分析尺度度量參數(shù)。
多尺度聚類模型中,數(shù)據(jù)尺度對不同分析尺度結(jié)果可靠性的影響被建模為一個假設(shè)檢驗問題,如圖7所示。需要注意的是,由于分析尺度不唯一導(dǎo)致多個備擇假設(shè)同時進行檢驗,這是一種多重假設(shè)檢驗問題,本文采用控制錯誤發(fā)現(xiàn)率的方法(FDR)進行校正[97]。由式(1)可見,通過控制數(shù)據(jù)尺度或分析尺度的參數(shù),可以獲得具有明確含義的多尺度空間聚類結(jié)果。對于不同尺度的聚類結(jié)果,依據(jù)視覺認(rèn)知的尺度不變性原理,在一系列較長尺度范圍內(nèi)保持穩(wěn)定的聚類結(jié)果,可以認(rèn)為是更為有效的聚類結(jié)果,可以采用“尺度生存期”對聚類結(jié)果的有效性進行定量的度量[75]。下面將分別給出空間點事件與地統(tǒng)計數(shù)據(jù)的多尺度空間聚類模型實現(xiàn)方法。
圖7 數(shù)據(jù)尺度與分析尺度的關(guān)系建模Fig.7 Construction of relationship between data and analysis scale
4.1 數(shù)據(jù)尺度與分析尺度間關(guān)系統(tǒng)計建模
針對空間點事件,數(shù)據(jù)尺度可以用數(shù)據(jù)分辨率與數(shù)據(jù)范圍來衡量,其中數(shù)據(jù)分辨率具體可以量化為比例尺,而數(shù)據(jù)范圍可以量化為數(shù)據(jù)的外包多邊形及其面積。由于基于密度的簇定義可以同時描述球形與非球形的空間簇,因此可以被選為空間聚類模型,相應(yīng)地分析尺度可以量化為估計局部密度的空間鄰域尺寸,本文定義為圓形鄰域的半徑。在給定分析尺度上,局部密度的顯著性可以建模為一種多重假設(shè)檢驗問題
H0:空間點事件隨機分布;
H1,H2,…,Hi,…,HN:第i個空間點事件的局部密度顯著高于隨機情況。
一般情況下,零假設(shè)下空間點事件的分布可以定義為一種完全空間隨機模式
(2)
(3)
式中,N(B)表示空間鄰域B內(nèi)包含空間點事件的個數(shù);|B|表示空間鄰域B的支撐域(面積);λ表示空間點過程的強度;|S|表示空間點事件數(shù)據(jù)集的支撐域(面積);N表示空間點事件的數(shù)目??梢?,零假設(shè)下空間點事件的分布參數(shù)完全由數(shù)據(jù)尺度的描述指標(biāo)所確定。進一步,局部密度的顯著性可以計算為
(4)
式中,ni表示第i個空間點事件鄰域內(nèi)空間點事件的數(shù)目。進一步采用FDR方法對多重檢驗進行校正,將由式(4)計算獲得的N個空間點事件的p-value值升序排列,尋找最大的k值滿足
(5)
式中,α表示顯著水平(一般設(shè)為0.05或0.01)。所有p-value值小于P(k)的空間點事件,其局部密度可以識別為顯著高于隨機分布,定義為高密度的核點。
4.2 基于Delaunay三角網(wǎng)的分析尺度自適應(yīng)選擇
分析尺度除了估計局部密度,還承擔(dān)了將高密度核點聚集成簇的任務(wù)。若不同空間簇密度高低不同,則需要自適應(yīng)地估計分析尺度,以確保不同密度的核點都可以聚集成簇。自適應(yīng)的分析尺度需要同時滿足在密度高的區(qū)域空間鄰域半徑相對較小,而在密度低的區(qū)域空間鄰域半徑相對較大。為了滿足這一要求,Delaunay三角網(wǎng)是一個合適的建模工具。Delaunay三角網(wǎng)的邊長在密度高的區(qū)域相對較短,而在密度低的區(qū)域邊長相對較長。基于這一特點,自適應(yīng)的分析尺度選擇可以通過提取Delaunay三角網(wǎng)邊長統(tǒng)計規(guī)律實現(xiàn)[98]。針對任一空間實體pi,以pi為中心的空間圓形鄰域半徑可以定義為
(6)
式中,Mean2(pi)表示pi二階鄰域的平均邊長;n(pi)表示pi二階鄰域內(nèi)空間點事件的數(shù)目;Local_Variation(pk)表示直接與pk連接邊長的方差。若兩個高密度的核點pi和pj是空間連接的,則要同時滿足下面兩個條件:①d(pi,pj)≤εi;②d(pi,pj)≤εj。d(pi,pj)表示空間點事件pi和pj間的距離。與DBSCAN算法類似,高密度的空間核點依據(jù)空間連接關(guān)系聚集成簇。
4.3 基于自然法則的數(shù)據(jù)尺度控制策略
數(shù)據(jù)尺度的控制旨在模擬不同觀測距離下,由于感受野尺寸的限制導(dǎo)致的視網(wǎng)膜采樣的模糊效應(yīng)。這種效應(yīng)可以采用自然法則[92]進行形式化地描述:“對于一個給定的尺度,能表現(xiàn)的地理對象之空間變化細(xì)節(jié)是有局限性的。當(dāng)超越某種限度時,所有的細(xì)節(jié)不能表現(xiàn)出來,因此可以忽略不計”。
實際上這種限度即表示了人眼感受野尺寸的限制,其在實地距離上的約束(K)可以量化表達為
(7)
式中,SVS表示人眼的最小可分辨距離(或尺寸);S表示空間數(shù)據(jù)展示的比例尺;Ss表示空間數(shù)據(jù)的源比例尺。
實踐中發(fā)現(xiàn),人眼能區(qū)分的最小點符號的尺寸介于0.2 mm到1 mm之間[96],據(jù)此可以將SVS經(jīng)驗性地設(shè)為1 mm。在自然法則指導(dǎo)下,可以對空間聚類中數(shù)據(jù)尺度的影響進行定義:
(1) 給定數(shù)據(jù)尺度上,如果兩個空間點事件間的距離小于等于K,則認(rèn)為二者不可區(qū)分;
(2) 給定數(shù)據(jù)尺度上,若一系列空間點事件可以通過K進行連接(即能夠被Eps=K,MinPts=1的DBSCAN算法聚類),則認(rèn)為這些空間點事件不能區(qū)分。
所有不能區(qū)分的空間點事件不參與式(2)—(4)的計算。圖8給出了圖4和5中空間點事件數(shù)據(jù)集在不同比例尺上的展示結(jié)果,并勾畫出其中人眼識別的聚集結(jié)構(gòu)。圖9給出了尺度驅(qū)動的空間聚類模型通過自然法則控制數(shù)據(jù)尺度而獲得的多尺度聚類結(jié)果,直觀上可以發(fā)現(xiàn)圖8中人眼識別的聚類結(jié)果均被很好地發(fā)現(xiàn)(為節(jié)省空間,數(shù)據(jù)范圍沒有依比例尺設(shè)置)。采用Jaccard系數(shù)評價聚類結(jié)果與人眼識別結(jié)果的吻合度發(fā)現(xiàn),平均精度超過0.95。
地統(tǒng)計數(shù)據(jù)的數(shù)據(jù)尺度一般從3個方面度量:研究范圍、數(shù)據(jù)分辨率和精度。數(shù)據(jù)分辨率不僅包括采樣單元的大小,同時也包括專題屬性的區(qū)分能力[74]。精度通常也包括采樣單元精度和專題屬性值的精度,需要注意的是精度受到數(shù)據(jù)分辨率的影響。地統(tǒng)計數(shù)據(jù)中空間簇通常有兩種類型,一種是專題屬性值相似實體構(gòu)成的,另一種是專題屬性值的熱點或冷點。現(xiàn)有的3種空間聚類模型都可以使用,但是其本質(zhì)上都是優(yōu)化簇內(nèi)的均質(zhì)性或“熱度”,因此分析尺度可以被定義為簇內(nèi)均質(zhì)性或“熱度”的度量。本文以發(fā)現(xiàn)專題屬性相似且空間鄰近實體所構(gòu)成空間簇為例,選用基于連接性的簇定義,闡述尺度驅(qū)動的地統(tǒng)計數(shù)據(jù)聚類模型構(gòu)建:
H0:空間數(shù)據(jù)專題屬性隨機分布。
H1,H2,…,Hi,…,HN:第i個空間簇的內(nèi)部均質(zhì)性顯著高于隨機情況。
空間實體間的鄰近關(guān)系可以采用拓?fù)潢P(guān)系或約束Delaunay三角網(wǎng)的方法進行構(gòu)建,簇內(nèi)的均質(zhì)性需要同時滿足兩條規(guī)則[99]:①每個空間實體與其鄰近空間實體間的專題屬性都是相似的;②每個空間實體與簇內(nèi)其他非空間鄰近實體的專題屬性也是相似的。
圖8 不同數(shù)據(jù)尺度(比例尺)上人眼識別的空間聚類結(jié)構(gòu)Fig.8 Spatial clusters identified by human at different data scales (or cartographic ratio)
圖9 尺度驅(qū)動空間點事件聚類模型的多尺度聚類結(jié)果Fig.9 Multi-scale clustering results obtained by using the scale-driven model
依據(jù)以上兩個假設(shè),數(shù)據(jù)尺度對分析尺度的影響,可以通過一種隨機重排檢驗進行建模[100]。
5.1 針對規(guī)則1
空間實體間的專題屬性相似性(或均質(zhì)性程度)可以采用方差進行度量,則空間實體pi與其鄰近實體的專題屬性相似度的顯著性可以定義為
(8)
式中,m表示專題屬性隨機重排(即任意空間位置上的專題屬性不依賴于空間鄰近位置上的專題屬性值)的次數(shù);Wij表示第j次隨機重排后,以pi為中心的空間鄰域內(nèi)的方差;LV(pi)表示以pi為中心的空間鄰域方差觀測值;I(·)表示指示函數(shù)。給定顯著水平α,采用FDR方法對每個空間實體的p-value進行校正后,可以得到空間實體與其鄰近空間實體間的專題屬性相似性的統(tǒng)計閾值。
5.2 針對規(guī)則2
在每個空間簇C內(nèi)進行隨機重排,每個空間實體與簇內(nèi)其他非空間鄰近實體相似度的顯著水平可以定義為
(9)
式中,r表示簇內(nèi)專題屬性隨機重排的次數(shù);第k次隨機重排后若每個空間實體與其鄰近實體的專題屬性相似度代入式(8)中均可以滿足顯著性水平α采用FDR方法的校正值,則I記為1,否則記為0。
在重排檢驗中,空間數(shù)據(jù)隨機重排后構(gòu)建的統(tǒng)計量經(jīng)驗概率密度分布是判斷某一分析尺度上空間簇顯著性的根本依據(jù),而這個經(jīng)驗概率密度分布的參數(shù)直接受到數(shù)據(jù)尺度的控制。圖10(a)中包含不同形態(tài)、密度的空間簇和噪聲,采用尺度驅(qū)動的模型可以準(zhǔn)確識別其中包含的空間簇(顯著水平0.01,重排次數(shù)9999,聚類模型為空間約束的Ward法),而采用尺度空間方法(Meanshift)難以準(zhǔn)確判斷空間簇的顯著性,得到的聚類結(jié)果包含大量的噪聲。
圖10 地統(tǒng)計數(shù)據(jù)聚類結(jié)果[100]Fig.10 Clustering results of the geostatistical data[100]
本文針對當(dāng)前空間聚類方法進行研究,發(fā)現(xiàn)尚存在兩大瓶頸問題:空間簇的顯著性難以評價以及聚類結(jié)果的多樣性難以理解。針對這些問題,從人類多尺度認(rèn)知的生理原理出發(fā),根據(jù)多尺度表達的“自然法則”,提出了一種尺度驅(qū)動的空間聚類理論。本文系統(tǒng)闡述了空間聚類中尺度的定義、度量以及參數(shù)化建模方法,并建立了針對不同類型空間數(shù)據(jù)的尺度驅(qū)動聚類模型。筆者也作了大量的試驗,驗證了方法的可行性。
本文雖然為空間聚類的尺度依賴性建模提供了一個新的思路,但僅起到一個拋磚引玉的作用,未來依然需要開展進一步的工作:
(1) 空間聚類的尺度依賴性問題還有一個重要的問題是尺度的自適應(yīng)選擇問題(或尺度不變性),即多尺度的聚類結(jié)果哪些是更有效的。“尺度生存期”僅是一種經(jīng)驗性的建模方法。近年來,人類多尺度認(rèn)知中的“尺度不變性”深層次生理學(xué)原理的探究已經(jīng)引起了廣泛的重視,但是如何將其定量化建模,并移植到復(fù)雜的地學(xué)問題中(非線性、非平穩(wěn)性等)還需要開展進一步的工作。
(2) 本文針對空間點事件與地統(tǒng)計數(shù)據(jù)建立的尺度驅(qū)動聚類模型需要進一步拓展到其他類型空間數(shù)據(jù)的聚類問題中,如地統(tǒng)計數(shù)據(jù)與空間格數(shù)據(jù)可以同樣視為一種空間與專題屬性耦合的聚類問題,尺度驅(qū)動的地統(tǒng)計數(shù)據(jù)聚類模型可以較為容易地拓展于空間格數(shù)據(jù);空間點事件的聚類模型向時空點事件、軌跡數(shù)據(jù)擴展時則需要深入研究時空耦合問題。如何針對不同的應(yīng)用問題,對當(dāng)前聚類模型的適用性進行系統(tǒng)的歸納與分析對于提高空間聚類的應(yīng)用效果亦具有重要的價值。
(3) 多模態(tài)聚類問題的尺度依賴性,在大數(shù)據(jù)時代地理對象普遍具有多模態(tài)的特點。綜合多模態(tài)的信息更能夠反映地理現(xiàn)象的發(fā)展變化特征,而這些多模態(tài)特征尺度依賴性建模將更加困難,不僅要考慮每種模態(tài)的尺度依賴性,還需考慮不同模態(tài)間的關(guān)系隨尺度的變化。
[1] GETIS A. Spatial Autocorrelation[M]∥FISCHER M M, GETIS A. Handbook of Applied Spatial Analysis: Software Tools, Methods and Applications. Berlin: Springer-Verlag,2010.
[2] 王勁峰, 葛詠, 李連發(fā), 等. 地理學(xué)時空數(shù)據(jù)分析方法[J]. 地理學(xué)報, 2014, 69(9): 1326-1345.
WANG Jinfeng, GE Yong, LI Lianfa, et al. Spatiotemporal Data Analysis in Geography[J]. Acta Geographica Sinica, 2014, 69(9): 1326-1345.
[3] 李德仁, 王樹良, 李德毅. 空間數(shù)據(jù)挖掘理論與應(yīng)用[M]. 2版. 北京: 科學(xué)出版社, 2013.
LI Deren, WANG Shuliang, LI Deyi. Spatial Data Mining Theories and Applications[M]. 2nd ed. Beijing: Science Press, 2013.
[4] SHEKHAR S, JIANG Zhe, ALI R, et al. Spatio-temporal Data Mining: A Computational Perspective[J]. ISPRS International Journal of Geo-Information, 2015, 4(4): 2306-2338.
[5] KULLDORFF M, NAGARWALLA N. Spatial Disease Clusters: Detection and Inference[J]. Statistics in Medicine, 1995, 14(8): 799-810.
[6] WANG Xin, ROSTOKER C, HAMILTON H J. A Density-based Spatial Clustering for Physical Constraints[J]. Journal of Intelligent Information Systems, 2012, 38(1): 269-297.
[7] FOVELL R G, FOVELL M Y C. Climate Zones of the Conterminous United States Defined Using Cluster Analysis[J]. Journal of Climate, 1993, 6(11): 2103-2135.
[8] ZALIAPIN I, BEN-ZION Y. Earthquake Clusters in Southern California I: Identification and Stability[J]. Journal of Geophysical Research: Solid Earth, 2013, 118(6): 2847-2864.
[9] KUPFER J A, GAO Peng, GUO Diansheng. Regionalization of Forest Pattern Metrics for the Continental United States Using Contiguity Constrained Clustering and Partitioning[J]. Ecological Informatics, 2012(9): 11-18.
[11] WANG Fahui, GUO Diansheng, MCLAFFERTY S. Constructing Geographic Areas for Cancer Data Analysis: A Case Study on Late-stage Breast Cancer Risk in Illinois[J]. Applied Geography, 2012, 35(1-2): 1-11.
[12] DENG Min, TANG Jianbo, LIU Qiliang, et al. Recognizing Building Groups for Generalization: A Comparative Study[J]. Cartography and Geographic Information Science, 2017: 1-18. DOI: 10.1080/15230406.2017.1302821.
[13] GUO Diansheng, GAHEGAN M, MACEACHREN A M, et al. Multivariate Analysis and Geovisualization with an Integrated Geographic Knowledge Discovery Approach[J]. Cartography and Geographic Information Science, 2005, 32(2): 113-132.
[14] DENG Min, FAN Zide, LIU Qiliang, et al. A Hybrid Method for Interpolating Missing Data in Heterogeneous Spatio-Temporal Datasets[J]. ISPRS International Journal of Geo-Information, 2016, 5(2): 13. DOI: 10.3390/ijgi5020013.
[15] 李德毅. 大數(shù)據(jù)認(rèn)知——“2015大數(shù)據(jù)價值實現(xiàn)之路高峰論壇”主題報告[J]. 重慶理工大學(xué)學(xué)報(自然科學(xué)), 2015, 29(9): 1-6.
LI Deyi. Big Data Cognition: Keynote Lecture of “2015 Forum of Big Data Value Realization Road”[J]. Journal of Chongqing University of Technology (Natural Science), 2015, 29(9): 1-6.
[16] TRYON R C. Cluster Analysis: Correlation Profile and Orthometric (Factor) Analysis for the Isolation of Unities in Mind and Personality[M]. Ann Arbor: Edwards Brothers, Inc., Lithoprinters and Publishers, 1939.
[17] WU Xindong, KUMAR V, QUINLAN J R, et al. Top 10 Algorithms in Data Mining[J]. Knowledge and Information Systems, 2008, 14(1): 1-37.
[18] XU R, WUNSCH II D C. Clustering[M]. New Jersey: John Wiley & Sons, 2009.
[19] OPENSHAW S. A Geographical Solution to Scale and Aggregation Problems in Region-Building, Partitioning and Spatial Modelling[J]. Transactions of the Institute of British Geographers, 1977, 2(4): 459-472.
[20] OPENSHAW S, CHARLTON M, WYMER C, et al. A Mark 1 Geographical Analysis Machine for the Automated Analysis of Point Data Sets[J]. International Journal of Geographical Information Systems, 1987, 1(4): 335-358.
[21] 鄧敏, 劉啟亮, 李光強, 等. 空間聚類分析及應(yīng)用[M]. 北京: 科學(xué)出版社, 2011.
DENG Min, LIU Qiliang, LI Guangqiang, et al. Spatial Clustering and Its Applications[M]. Beijing: Science Press, 2011.
[22] ESTIVILL-CASTRO V. Why So Many Clustering Algorithms: A Position Paper[J]. ACM SIGKDD Explorations Newsletter, 2002, 4(1): 65-75.
[23] JAIN A K. Data Clustering: 50 Years beyond k-means[J]. Pattern Recognition Letters, 2010, 31(8): 651-666.
[24] TAN Pangning, STEINBACH M, KUMAR V. Introduction to Data Mining[M]. Boston: Addison Wesley Press, 2006.
[25] AGGARWAL C C, REDDY C K. Data Clustering: Algorithms and Applications[M]. London: CRC Press, 2014.
[26] KISILEVICH S, MANSMANN F, NANNI M, et al. Spatio-temporal Clustering[M]∥MAIMON O, ROKACH L. 2nd ed. Data Mining and Knowledge Discovery Handbook. Berlin: Springer, 2010: 855-874.
[27] GUO D S. Exploratory Spatial Data Analysis[M]∥RICHARDSON D, CASTREE N, GOODCHILD M F, et al. The International Encyclopedia of Geography. London: John Wiley & Sons, 2017: 1-25.
[28] 王勁峰. 空間分析[M]. 北京: 科學(xué)出版社, 2006: 185-217.
WANG Jinfeng. Spatial Analysis[M]. Beijing: Science Press, 2006: 185-217.
[29] MACQUEEN J B. Some Methods for Classification and Analysis of Multivariate Observations[C]∥Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press, 1967: 281-297.
[30] BALL G H, HALL D J. A Clustering Technique for Summarizing Multivariate Data[J]. Behavioral Science, 1967, 12(2): 153-155.
[31] KAUFMAN L, ROUSSEEUW P J. Finding Groups in Data: An Introduction to Cluster Analysis[M]. New York: John Wiley & Sons, 1990.
[32] BEZDEK J. Pattern Recognition with Fuzzy Objective Function Algorithms[M]. New York: Plenum Press, 1981.
[33] NG R T, HAN Jiawei. CLARANS: A Method for Clustering Objects for Spatial Data Mining[J]. IEEE Transactions on Knowledge and Data Engineering, 2002, 14(5): 1003-1016.
[34] PHAM D L. Spatial Models for Fuzzy Clustering[J]. Computer Vision and Image Understanding, 2001, 84(2): 285-297.
[35] IZAKIAN H, PEDRYCZ W, JAMAL I. Clustering Spatiotemporal Data: An Augmented Fuzzy C-Means[J]. IEEE Transactions on Fuzzy Systems, 2013, 21(5): 855-868.
[36] OPENSHAW S, RAO L. Algorithms for Reengineering 1991 Census Geography[J]. Environment and Planning A, 1995, 27(3): 425-446.
[37] DUQUE J C, ANSELIN L, REY S J. The Max-P-Regions Problem[J]. Journal of Regional Science, 2012, 52(3): 397-419.
[38] KOHONEN T. Self-organizing Maps[M]. Berlin: Springer Press, 1995.
[39] 程博艷, 劉強, 李小文. 一種建筑物群智能聚類法[J]. 測繪學(xué)報, 2013, 42(2): 290-294, 303.
CHENG Boyan, LIU Qiang, LI Xiaowen. Intelligent Building Grouping Using a Self-organizing Map[J]. Acta Geodaetica et Cartographica Sinica, 2013, 42(2): 290-294, 303.
[41] HAGENAUER J, HELBICH M. Hierarchical Self-organizing Maps for Clustering Spatiotemporal Data[J]. International Journal of Geographical Information Science, 2013, 27(10): 2026-2042.
[42] GUHA S, RASTOGI R, SHIM K. CURE: An Efficient Clustering Algorithm for Large Databases[C]∥Proceedings of 1998 ACM-SIGMOD International Conference on Management of Data. Washington: ACM Press, 1998: 73-84.
[43] 郭慶勝, 鄭春燕, 胡華科. 基于鄰近圖的點群層次聚類方法的研究[J]. 測繪學(xué)報, 2008, 37(2): 256-261.
GUO Qingsheng, ZHENG Chunyan, HU Huake. Hierarchical Clustering Method of Group of Points Based on the Neighborhood Graph[J]. Acta Geodaetica et Cartographica Sinica, 2008, 37(2): 256-261.
[44] ZAHN C T. Graph-theoretical Methods for Detecting and Describing Gestalt Clusters[J]. IEEE Transactions on Computer, 1971, C-20(1): 68-86.
[45] 艾廷華, 郭仁忠. 基于格式塔識別原則挖掘空間分布模式[J]. 測繪學(xué)報, 2007, 36(3): 302-308.
AI Tinghua, GUO Renzhong. Polygon Cluster Pattern Mining Based on Gestalt Principles[J]. Acta Geodaetica et Cartographica Sinica, 2007, 36(3): 302-308.
[46] KARYPIS G, HAN E H, KUMAR V. CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling[J]. IEEE Computer, 1999, 32(8): 68-75.
[47] ESTIVILL-CASTRO V, LEE I. Multi-level Clustering and Its Visualization for Exploratory Spatial Analysis[J]. GeoInformatica, 2002, 6(2): 123-152.
[48] DENG Min, LIU Qiliang, CHENG Tao, et al. An Adaptive Spatial Clustering Algorithm Based on Delaunay Triangulation[J]. Computers, Environment and Urban Systems, 2011, 35(4): 320-332.
[49] GORDON A D. A Survey of Constrained Classification[J]. Computational Statistics & Data Analysis, 1996, 21(1): 17-29.
[50] FENG C C, WANG Yichen, CHEN C Y. Combining Geo-SOM and Hierarchical Clustering to Explore Geospatial Data[J]. Transaction in GIS, 2014, 18(1): 125-146.
[52] GUO D. Regionalization with Dynamically Constrained Agglomerative Clustering and Partitioning (REDCAP)[J]. International Journal of Geographical Information Science, 2008, 22(7): 801-823.
[53] KULLDORFF M,RAND K,GHERMAN G,et al. SaTScan V2.1: Software for the Spatial and Space-time Scan Statistics[R]. Bethesda, MD: National Cancer Institute, 1998.
[54] ALDSTADT J, GETIS A. Using AMOEBA to Create a Spatial Weights Matrix and Identify Spatial Clusters[J]. Geographical Analysis, 2006, 38(4): 327-343.
[55] TAKAHASHI K, KULLDORFF M, TANGO T, et al. A Flexibly Shaped Space-time Scan Statistic for Disease Outbreak Detection and Monitoring[J]. International Journal of Health Geographics, 2008(7):14. DOI: 10.1186/1476-072X-7-14.
[56] PEI Tao, WAN You, JIANG Yong, et al. Detecting Arbitrarily Shaped Clusters Using Ant Colony Optimization[J]. International Journal of Geographical Information Science, 2011, 25(10): 1575-1595.
[57] ESTER M, KRIEGEL H, SANDER J, et al. A Density-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C]∥Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. Portland, OR: AAAI, 1996: 45-50.
[58] ANKERST M, BREUNIG M M, KRIEGEL H P, et al. OPTICS: Ordering Points to Identify the Clustering Structure[C]∥Proceedings of the 1999 ACM SIGMOD International Conference on Management of Data. Philadelphia: ACM, 1999: 49-60.
[59] ERT?Z L, STEINBACH M, KUMAR V. Finding Clusters of Different Sizes, Shapes, and Densities in Noisy, High Dimensional Data[C]∥Proceedings of the 2003 SIAM International Conference on Data Mining. San Francisco: Society for Industrial and Applied Mathematics, 2003: 47-58.
[60] 李光強, 鄧敏, 劉啟亮. 一種適應(yīng)局部密度變化的空間聚類方法[J]. 測繪學(xué)報, 2009, 38(3): 255-263.
LI Guangqiang, DENG Min, LIU Qiliang. A Spatial Clustering Method Adaptive to Local Density Change[J]. Acta Geodaetica et Cartographica Sinica, 2009, 38(3): 255-263.
[61] PEI Tao, JASRA A, HAND D J, et al. DECODE: A New Method for Discovering Clusters of Different Densities in Spatial Data[J]. Data Mining and Knowledge Discovery, 2009, 18(3): 337-369.
[62] PEI Tao, ZHOU Chenghu, ZHU Axing, et al. Windowed Nearest Neighbour Method for Mining Spatio-temporal Clusters in the Presence of Noise[J]. International Journal of Geographical Information Science, 2010, 24(6): 925-948.
[63] LIU Qiliang, DENG Min, BI Jiantao, et al. A Novel Method for Discovering Spatio-temporal Clusters of Different Sizes, Shapes, and Densities in the Presence of Noise[J]. International Journal of Digital Earth, 2014, 7(2): 138-157.
[64] SANDER J, ESTER M, KRIEGEL H P, et al. Density-based Clustering in Spatial Databases: the Algorithm GDBSCAN and Its Applications[J]. Data Mining and Knowledge Discovery, 1998, 2(2): 169-194.
[65] BIRANT D, KUT A. ST-DBSCAN: An Algorithm for Clustering Spatial-temporal Data[J]. Data & Knowledge Engineering, 2007, 60(1): 208-221.
[66] LIU Qiliang, DENG Min, SHI Yan, et al. A Density-based Spatial Clustering Algorithm Considering Both Spatial Proximity and Attribute Similarity[J]. Computers & Geosciences, 2012, 46: 296-309.
[67] JEUNG H, YIU M L, ZHOU Xiaofang, et al. Discovery of Convoys in Trajectory Databases[J]. Proceedings of the VLDB Endowment, 2008, 1(1): 1068-1080.
[68] LI Zhenhui, DING Bolin, HAN Jiawei, et al. Swarm: Mining Relaxed Temporal Moving Object Clusters[J]. Proceedings of the VLDB Endowment, 2010, 3(1-2): 723-734.
[69] LI Yuxuan, BAILEY J, KULIK L. Efficient Mining of Platoon Patterns in Trajectory Databases[J]. Data & Knowledge Engineering, 2015, 100: 167-187.
[70] 宋長青. 地理學(xué)研究范式的思考[J]. 地理科學(xué)進展, 2016, 35(1): 1-3.
SONG Changqing. On Paradigms of Geographical Research[J]. Progress in Geography, 2016, 35(1): 1-3.
[71] ATKINSON P M, TATE N J. Spatial Scale Problems and Geostatistical Solutions: A Review[J]. The Professional Geographer, 2000, 52(4): 607-623.
[72] DUNGAN J L, PERRY J N, DALE M R T, et al. A Balanced View of Scale in Spatial Statistical Analysis[J]. Ecography, 2002, 25(5): 626-640.
[73] MARCEAU D J, HOWARTH P J, GRATTON D J. Remote Sensing and the Measurement of Geographical Entities in a Forested Environment: The Scale and Spatial Aggregation Problem[J]. Remote Sensing of Environment, 1994, 49(2): 93-104.
[74] HAY G, MARCEAU D J, DUBé P, et al. A Multiscale Framework for Landscape Analysis: Object-specific Analysis and Upscaling[J]. Landscape Ecology, 2001, 16(6): 471-490.
[75] LEUNG Y, ZHANG Jiangshe, XU Zongben. Clustering by Scale-space Filtering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(12): 1396-1410.
[76] 汪閩, 周成虎, 裴韜, 等. MSCMO: 基于數(shù)學(xué)形態(tài)學(xué)算子的尺度空間聚類方法[J]. 遙感學(xué)報, 2004, 8(1): 45-50.
WANG Min, ZHOU Chenghu, PEI Tao, et al. MSCMO: A Scale Space Clustering Algorithm Based on Mathematical Morphology Operators[J]. Journal of Remote Sensing, 2004, 8(1): 45-50.
[77] MU Lan,WANG Fahui.A Scale-space Clustering Method: Mitigating the Effect of Scale in the Analysis of Zone-based Data[J]. Annals of the Association of American Geographers, 2008, 98(1): 85-101.
[78] SHEIKHOLESLAMI G, CHATTERJEE S, ZHANG Aidong. WaveCluster: A Multi-Resolution Clustering Approach for Very Large Spatial Databases[C]∥Proceedings of the 24th International Conference on Very Large Data Bases. New York: Morgan Kaufmann Publishers Inc., 1998: 428-439.
[79] WANG Wei, YANG Jiong, MUNTZ R R. STING: A Statistical Information Grid Approach to Spatial Data Mining[C]∥Proceedings of the the 23rd International Conference on Very Large Data Bases. Athens, Greece: Morgan Kaufmann Publishers Inc., 1997: 186-195.
[80] COMANICIU D, MEER P. Mean Shift: A Robust Approach Toward Feature Space Analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5): 603-619.
[81] GOODCHILD M F,QUATTOCHI D A. Scale, Multiscaling, Remote Sensing, and GIS[M]∥QUATTROCHI D A, GOODCHILD M F. Scale in Remote Sensing and GIS. London: CRC Press, 1997: 1-11.
[82] 李志林. 地理空間數(shù)據(jù)處理的尺度理論[J]. 地理信息世界, 2005, 3(2): 1-5.
LI Zhilin. A Theoretical Discussion on the Scale Issue in Geospatial Data Handling[J]. Geomatics World, 2005, 3(2): 1-5.
[83] BAATZ M, SCHPE A. Multiresolution Segmentation: An Optimization Approach for High Quality Multi-scale Image Segmentation[M]∥STROBL J, BLASCHKE T, GRIESEBNER G. Angewandte Geographische Informationsverarbeitung. Karlsruhe: Wichmann-Verlag, 2000: 12-23.
[85] WONG Y F. Clustering Data by Melting[J]. Neural Computation, 1993, 5(1): 89-104.
[86] HUBEL D H. Eye, Brain, and Vision[M]. New York: Scientific American Library Series, 1995.
[87] DICARLO J J, COX D D. Untangling Invariant Object Recognition[J]. Trends in Cognitive Sciences, 2007, 11(8): 333-341.
[88] SCHREUDER D A. Vision and Visual Perception: The Conscious Base of Seeing[M]. United States: Archway Publishing, 2014.
[89] KOENDERINK J J. The Structure of Images[J]. Biological Cybernetics, 1984, 50(5): 363-370.
[90] TER HAAR ROMENY B M. Front-end Vision and Multi-scale Image Analysis: Multi-scale Computer Vision Theory and Applications, Written in Mathematica[M]. Dordrecht: Kluwer Academic Press, 2003.
[91] LINDEBERG T, TER HAAR ROMENY B M. Linear Scale-space I: Basic Theory[M]∥TERHAAR R B M. Geometry-driven Diffusion in Computer Vision. Dordrecht: Springer, 1994.
[92] LI Zhilin, OPENSHAW S. A Natural Principle for the Objective Generalization of Digital Maps[J]. Cartography and Geographic Information Systems, 1993, 20(1): 19-29.
[93] 張講社, 徐宗本. 基于視覺系統(tǒng)的聚類: 原理與算法[J]. 工程數(shù)學(xué)學(xué)報, 2000, 17(S1): 14-20.
ZHANG Jiangshe, XU Zongben. Clustering Method by Visual System Method[J]. Journal of Engineering Mathematics, 2000, 17(S1): 14-20.
[94] WITKIN A P. Scale-space Filtering[C]∥Proceedings of the Eighth International Joint Conference on Artificial Intelligence. Karlsruhe, West Germany: Morgan Kaufmann Publishers Inc., 1983: 1019-1022.
[95] LIU Qiliang, LI Zhilin, DENG Min, et al. Modeling the Effect of Scale on Clustering of Spatial Points[J]. Computers, Environment and Urban Systems, 2015, 52: 81-92.
[96] LI Z L. Algorithmic Foundation of Multi-scale Spatial Representation[M]. London: CRC Press, 2007.
[97] BENJAMINI Y, YEKUTIELI D. The Control of the False Discovery Rate in Multiple Testing Under Dependency[J]. The Annals of Statistics, 2001, 29(4): 1165-1188.
[98] LIU Qiliang, TANG Jianbo, DENG Min, et al. An Iterative Detection and Removal Method for Detecting Spatial Clusters of Different Densities[J]. Transactions in GIS, 2015, 19(1): 82-106.
[99] LIU Qiliang, DENG Min, SHI Yan, et al. A Density-based Spatial Clustering Algorithm Considering both Spatial Proximity and Attribute Similarity[J]. Computers & Geosciences, 2012, 46: 296-309.
[100] 唐建波, 劉啟亮, 鄧敏, 等. 空間層次聚類顯著性判別的重排檢驗方法[J]. 測繪學(xué)報, 2016, 45(2): 233-240, 249. DOI: 10.11947/j.AGCS.2016.20140605.
TANG Jianbo, LIU Qiliang, DENG Min, et al. A Permutation Test for Identifying Significant Clusters in Spatial Dataset[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(2): 233-240, 249. DOI: 10.11947/j.AGCS.2016.20140605.
(責(zé)任編輯:宋啟凡)
Towards a Scale-driven Theory for Spatial Clustering
LI Zhilin1,3,LIU Qiliang1,2,TANG Jianbo2
1. Department of Land Surveying and Geo-Informatics, The Hong Kong Polytechnic University, Hong Kong, China; 2. Department of Geo-Informatics, Central South University, Changsha 410083, China; 3. State-Provincial Joint Engineering Laboratory of Spatial Information Technology for High-speed Railway Safety, Southwest Jiaotong University, Chengdu 611756,China
Spatial clustering plays a key role in exploratory geographical data analysis. It is important for investigating the distribution of geographical phenomena. Spatial clustering sometimes also serves as an important pre-processing for other geographical data analysis techniques. Although lots of attentions have been paid to spatial clustering, two serious obstacles remain to be tackled: ①clusters will always be discovered in any geographical dataset by spatial clustering algorithms, even if the input dataset is a random dataset; ②users feel difficult to interpret the various clustering results obtained by using different parameters. It is hypothesized that scale is not handled well in clustering process. As a result, a scale-driven theory for spatial clustering is introduced in this study, based on the human recognition theory and the natural principle of multi-scale representation. Scale is modeled as parameter of a clustering model, and the scale dependency in spatial clustering is handled by constructing a hypothesis testing, and multi-scale significant clusters can be easily discovered by controlling the scale parameters in an objective manner.
spatial clustering; scale; natural principle; visual cognition; hypothesis testing
The National Natural Science Foundation of China (Nos. 41601410;41471383); The Natural Science Foundation of Hunan Province (No. 2017JJ3379)
LI Zhilin (1960—), male, professor, majors in cartography, GIS theory and remote sensing.
LIU Qiliang
李志林,劉啟亮,唐建波.尺度驅(qū)動的空間聚類理論[J].測繪學(xué)報,2017,46(10):1534-1548.
10.11947/j.AGCS.2017.20170275.
LI Zhilin,LIU Qiliang,TANG Jianbo.Towards a Scale-driven Theory for Spatial Clustering[J]. Acta Geodaetica et Cartographica Sinica,2017,46(10):1534-1548. DOI:10.11947/j.AGCS.2017.20170275.
P208
A
1001-1595(2017)10-1534-15
國家自然科學(xué)基金(41601410;41471383);湖南省自然科學(xué)基金(2017JJ3379)
2017-05-26
修回日期: 2017-09-04
李志林(1960—),男,教授,研究方向為地圖學(xué)、地理信息理論及遙感信息提取等。
E-mail: lszlli@polyu.edu.hk
劉啟亮
E-mail: qiliang.liu@csu.edu.cn