羅興賢+李巧玲+周智勇+高江錦
摘要:地質(zhì)公園的地質(zhì)遺跡具有高度的景觀價(jià)值,而公園的地質(zhì)遺跡數(shù)據(jù)庫(kù)中保存有這些地質(zhì)遺跡的位置數(shù)據(jù);空間數(shù)據(jù)挖掘就是根據(jù)空間點(diǎn)的位置關(guān)系來(lái)獲取空間點(diǎn)的有價(jià)值信息;DBSCAN算法是一種基于密度的空間聚類方法;通過(guò)將地質(zhì)遺跡數(shù)據(jù)庫(kù)中的地質(zhì)遺跡的原始位置信息轉(zhuǎn)換為便于數(shù)據(jù)挖掘所使用的形式,采用DBSCAN算法對(duì)地質(zhì)遺跡進(jìn)行聚類,為地質(zhì)公園制作景區(qū)劃分方案提供科學(xué)依據(jù)。
關(guān)鍵詞:地質(zhì)公園;地質(zhì)遺跡;景區(qū);空間數(shù)據(jù)挖掘;DBSCAN
中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)07-0118-03
1 引言
地質(zhì)公園是以具有一定規(guī)模和分布范圍的、有代表意義的地質(zhì)遺跡為主體,并融合其他自然景觀或人文景觀構(gòu)成的特定地區(qū),它具有特殊的科學(xué)意義、稀有的自然屬性、優(yōu)雅的美學(xué)觀賞價(jià)值。
對(duì)于以地質(zhì)遺跡為本的地質(zhì)公園,要以科學(xué)發(fā)展觀為指導(dǎo)思想,嚴(yán)格遵循“保護(hù)優(yōu)先,科學(xué)規(guī)劃,合理利用”的原則,確保公園所在地區(qū)的經(jīng)濟(jì)可持續(xù)發(fā)展的目標(biāo)。對(duì)于地質(zhì)公園獨(dú)特的自然遺產(chǎn)與文化遺產(chǎn)首先要進(jìn)行妥善的保護(hù),在此基礎(chǔ)上,再提供相應(yīng)的科學(xué)研究、科普教育以及旅游經(jīng)濟(jì)開(kāi)發(fā)。
地質(zhì)公園主要以地質(zhì)遺跡為觀賞景點(diǎn),而地質(zhì)遺跡主要是由于自然或歷史原因而產(chǎn)生的,具有獨(dú)特的自然屬性,地理位置固定,具有人工難以構(gòu)建的特點(diǎn),決定了地質(zhì)公園景區(qū)的劃分必須圍繞地質(zhì)遺跡這個(gè)核心來(lái)進(jìn)行合理規(guī)劃,在保護(hù)地質(zhì)遺跡的前提下,提供其觀賞價(jià)值,來(lái)進(jìn)行旅游經(jīng)濟(jì)開(kāi)發(fā)。
地質(zhì)遺跡的相關(guān)信息一般存在于地質(zhì)遺跡數(shù)據(jù)庫(kù)中,其中就包含了地質(zhì)遺跡的空間位置信息,要從這些地質(zhì)遺跡的空間位置信息中來(lái)劃分景區(qū)[1],利用空間數(shù)據(jù)挖掘技術(shù)是一個(gè)有效的手段。
2 空間數(shù)據(jù)挖掘
2.1 空間數(shù)據(jù)挖掘的概念
空間數(shù)據(jù)挖掘(Spatial Data Mining)是指在空間數(shù)據(jù)庫(kù)的基礎(chǔ)上,綜合利用統(tǒng)計(jì)學(xué)方法、模式識(shí)別技術(shù)、人工智能方法、神經(jīng)網(wǎng)絡(luò)技術(shù)、粗集、模糊數(shù)學(xué)、機(jī)器學(xué)習(xí)、專家系統(tǒng)和相關(guān)信息技術(shù)等,從大量的空間生產(chǎn)數(shù)據(jù)、管理數(shù)據(jù)、經(jīng)營(yíng)數(shù)據(jù)或遙感數(shù)據(jù)中析取人們可信的、新穎的、感興趣的、隱藏的、事先未知的、潛在有用的和最終可理解的知識(shí),從而揭示出蘊(yùn)含在數(shù)據(jù)背后的客觀世界的本質(zhì)規(guī)律、內(nèi)在聯(lián)系和發(fā)展趨勢(shì),實(shí)現(xiàn)知識(shí)的自動(dòng)獲取,提供技術(shù)決策與經(jīng)營(yíng)決策的依據(jù)[2]??梢?jiàn),它是利用數(shù)據(jù)挖掘方法,按照一定的度量值和臨界值從空間數(shù)據(jù)庫(kù)中抽取知識(shí)以及與之相關(guān)的預(yù)處理、抽樣和數(shù)據(jù)變換的一個(gè)多步驟相互鏈接、反復(fù)進(jìn)行的人機(jī)交互過(guò)程。
2.2 空間數(shù)據(jù)挖掘的過(guò)程
空間數(shù)據(jù)挖掘包括四個(gè)主要的過(guò)程:數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、結(jié)果解釋、知識(shí)表示[3]。整個(gè)過(guò)程是一個(gè)不斷循環(huán)和反復(fù)的過(guò)程,因上可對(duì)所發(fā)掘出的知識(shí)不斷求精和深化,其挖掘過(guò)程可用圖1來(lái)表示。
2.3 空間數(shù)據(jù)挖掘的方法
常見(jiàn)的空間數(shù)據(jù)挖掘方法有:基于概率統(tǒng)計(jì)的分析方法、基于泛化和歸納的方法、基于聚類的方法、基于分類的方法、基于空間關(guān)聯(lián)的方法、決策樹(shù)方法、神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、支撐向量機(jī)(SVM)、圖像分析和模式識(shí)別、Rough集方法和云理論方法等[4]。
3 空間數(shù)據(jù)挖掘方案
3.1 挖掘方法的選擇
由于地質(zhì)公園的地質(zhì)遺跡數(shù)據(jù)庫(kù)在記錄地質(zhì)遺跡的時(shí)候,通常把地質(zhì)遺跡抽象為一個(gè)個(gè)的點(diǎn)來(lái)看,并記錄下這些點(diǎn)的經(jīng)度和緯度等與位置相關(guān)的信息,因此,擬采用空間點(diǎn)聚類方法中的經(jīng)典算法——DBSCAN算法來(lái)對(duì)地質(zhì)遺跡分布進(jìn)行景區(qū)劃分[5][6]。
3.2 DBSCAN算法簡(jiǎn)介
在基于點(diǎn)聚類的空間聚類算法中,DBSCAN算法是一種經(jīng)典算法,它是基于密度的空間聚類方法。它的基本原理是采用一定鄰域內(nèi)包含空間實(shí)體的最小數(shù)目來(lái)定義空間密度,并通過(guò)不斷增長(zhǎng)高密度區(qū)域進(jìn)行空間聚類,能夠把具有足夠高密度的區(qū)域劃分為簇,并可在噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類。其算法過(guò)程如下:
輸入: 包含n個(gè)對(duì)象的數(shù)據(jù)庫(kù),半徑Eps,最少數(shù)目MinPts;
輸出: 所有生成的簇,達(dá)到密度要求。
(1)Repeat;
(2)從數(shù)據(jù)庫(kù)中抽出一個(gè)未處理的點(diǎn);
(3)IF抽出的點(diǎn)是核心點(diǎn) THEN 找出所有從該點(diǎn)密度可達(dá)的對(duì)象,形成一個(gè)簇;
(4)ELSE 抽出的點(diǎn)是邊緣點(diǎn)(非核心對(duì)象),跳出本次循環(huán),尋找下一個(gè)點(diǎn);
(5)UNTIL 所有的點(diǎn)都被處理。
由于DBSCAN對(duì)用戶定義的參數(shù)很敏感,細(xì)微的不同都可能導(dǎo)致差別很大的結(jié)果,而參數(shù)的選擇無(wú)規(guī)律可循,只能靠經(jīng)驗(yàn)確定,因此,往往要通過(guò)多次實(shí)驗(yàn)才能確定一個(gè)較滿意的結(jié)果。
3.3 數(shù)據(jù)的準(zhǔn)備
從地質(zhì)遺跡數(shù)據(jù)庫(kù)中抽取的地質(zhì)遺跡的原始的經(jīng)度與緯度數(shù)據(jù)如表1所示。
由于地質(zhì)遺跡的位置數(shù)據(jù)采用的是度分秒的形式來(lái)記錄的,因此先通過(guò)轉(zhuǎn)換公式,將度分秒的坐標(biāo)形式轉(zhuǎn)換為實(shí)數(shù)的坐標(biāo)形式,如表2所示。
在表2的數(shù)據(jù)中可以看出,由于地質(zhì)遺跡的位置常常集中于一個(gè)經(jīng)緯度變化很小的范圍內(nèi),位置數(shù)據(jù)區(qū)分度太小,因此,可以將位置數(shù)據(jù)的實(shí)數(shù)放大,以便讓地質(zhì)遺跡位置數(shù)據(jù)之間有明顯的區(qū)分度。將表2中的位置數(shù)據(jù)放大10000倍后得到如表3所示的結(jié)果,從中可以看出各地質(zhì)遺跡的位置數(shù)據(jù)有著明顯的區(qū)別。這樣,就可以使用準(zhǔn)備好的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
4 實(shí)驗(yàn)
將格式化好的數(shù)據(jù)按要求導(dǎo)出到指定的文本文件中,使用R語(yǔ)言[7]自帶的函數(shù)DBSCAN進(jìn)行空間聚類,經(jīng)過(guò)多次實(shí)驗(yàn),發(fā)現(xiàn)當(dāng)MinPts=2,eps=180或eps=190時(shí)聚類結(jié)果較為理想,均只有一個(gè)噪聲點(diǎn),其結(jié)果分別如圖2和圖3所示;當(dāng)eps為180時(shí),可以將53個(gè)點(diǎn)聚為5個(gè)類,而當(dāng)eps取190時(shí),DBSCAN將圖2中的④⑤兩個(gè)類聚為了一個(gè)類,從而縮減為4個(gè)類。
5 結(jié)語(yǔ)
由于地質(zhì)公園均建設(shè)有地質(zhì)遺跡數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)中就包含了各地質(zhì)遺跡的位置數(shù)據(jù),因此,利用基于密度的空間聚類方法,根據(jù)地質(zhì)遺跡數(shù)據(jù)庫(kù)中的位置信息來(lái)對(duì)公園內(nèi)各地質(zhì)遺跡進(jìn)行聚類,聚類的結(jié)果可以作為地質(zhì)公園管理者制定景區(qū)劃分方案的科學(xué)依據(jù),如圖2和圖3。到底采用哪種景區(qū)劃分方案,可結(jié)合地質(zhì)公園景區(qū)管理的實(shí)際需求來(lái)進(jìn)行選擇和修訂。
參考文獻(xiàn)
[1]辜寄蓉,陳先偉,楊海龍.城市功能區(qū)劃分空間聚類算法研究[J].測(cè)繪科學(xué),2011, (05):65-67+64.
[2]李德仁,王樹(shù)良,史文中,王新洲.論空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2001,(06):491-499.
[3]張志兵.空間數(shù)據(jù)挖掘及其相關(guān)問(wèn)題研究[M].武漢:華中科技大學(xué)出版社,2011.
[4]柳盛,吉根林.空間聚類技術(shù)研究綜述[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2010,(02):57-62.
[5]張文元,談國(guó)新,朱相舟.停留點(diǎn)空間聚類在景區(qū)熱點(diǎn)分析中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2017,(02):1-9.
[6]李新延,李德仁.DBSCAN空間聚類算法及其在城市規(guī)劃中的應(yīng)用[J].測(cè)繪科學(xué),2005,(03):51-53+5.
[7]黃文,王正林.數(shù)據(jù)挖掘:R語(yǔ)言實(shí)戰(zhàn)[M].北京:電子工業(yè)出版社,2014.endprint