国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于云計(jì)算架構(gòu)的西藏生態(tài)數(shù)據(jù)聚類(lèi)分析算法研究

2018-12-26 03:02:14巴桑次仁
西藏科技 2018年11期
關(guān)鍵詞:空間數(shù)據(jù)數(shù)據(jù)挖掘聚類(lèi)

巴桑次仁

(西藏自治區(qū)科技信息研究所,西藏 拉薩 850001)

隨著互聯(lián)網(wǎng)時(shí)代的發(fā)展,人們接觸的數(shù)據(jù)量越來(lái)越多,對(duì)空間信息的需求也呈上升趨勢(shì)。然而空間數(shù)據(jù)的類(lèi)型是多樣化的,如何將這些龐大的數(shù)據(jù)量進(jìn)行聚類(lèi)分析,得到滿足實(shí)際應(yīng)用的需求數(shù)據(jù)是人們現(xiàn)在最關(guān)注的問(wèn)題[1]。而對(duì)空間數(shù)據(jù)分析獲取有效信息,關(guān)鍵一步是對(duì)空間數(shù)據(jù)進(jìn)行聚類(lèi)分析,得到其中隱含的有效信息。海量信息處理方面,對(duì)聚類(lèi)算法的要求越來(lái)越高,速率和計(jì)算的復(fù)雜度僅僅只是其中的兩個(gè)方面,當(dāng)然也是最主要的兩個(gè)方面,因此傳統(tǒng)單機(jī)的聚類(lèi)算法在處理海量信息時(shí),這兩個(gè)方面已經(jīng)達(dá)不到要求了。如果仍然要在傳統(tǒng)的分布式系統(tǒng)上實(shí)現(xiàn)算法的并行,這無(wú)疑會(huì)增加系統(tǒng)開(kāi)發(fā)者的工作量。因?yàn)檫@種做法不僅僅要考慮到算法本身、軟硬件平臺(tái)的特性,更不能忽略實(shí)際應(yīng)用當(dāng)中的需求。

基于Hadoop平臺(tái)對(duì)空間聚類(lèi)算法進(jìn)行優(yōu)化,能夠有效的降低時(shí)間復(fù)雜度和提高空間聚類(lèi)分析的精準(zhǔn)度,還可以提取空間數(shù)據(jù)庫(kù)中的一些隱式知識(shí),空間關(guān)系或者是一些其他有意義的模式[2]。因此空間聚類(lèi)算法在城市規(guī)劃、土地利用數(shù)據(jù)、遙感等領(lǐng)域的空間數(shù)據(jù)分析中都起到了巨大作用。所以基于Hadoop框架下的空間聚類(lèi)算法研究就變的十分重要。一般情況下會(huì)用一些參數(shù)來(lái)描述地理空間實(shí)體的分布規(guī)律,這些參數(shù)通常有:分布密度、離散度、分布的中心和軸線等,而地理空間實(shí)體的分布規(guī)律往往可以用來(lái)揭示空間實(shí)體的群體定位特征??臻g聚類(lèi)分析就是現(xiàn)在比較常見(jiàn)的,用來(lái)揭示空間實(shí)體的群體定位特征的方法之一。比如基于劃分的聚類(lèi)算法,通過(guò)該算法得到的空間聚類(lèi),在一定程度上可以間接反映空間實(shí)體的分布中心和分布軸,這是因?yàn)榛趧澐值木垲?lèi)需要選取出聚類(lèi)的中心,并使用了不同的距離度量方法。又例如,基于密度的聚類(lèi)分析方法,該算法在一定程度上能把空間群體的分布密度以及離散度反映出來(lái),這是因?yàn)榛诿芏鹊木垲?lèi)分析方法在判斷空間實(shí)體是否同屬于一個(gè)聚類(lèi)時(shí),是根據(jù)空間實(shí)體間的分布密度來(lái)度量的[3]。

聚類(lèi)分析主要是依據(jù)空間對(duì)象的特征,然后把描述這些個(gè)體的數(shù)據(jù)集分為相互之間有區(qū)別的組(這些組也可稱之為類(lèi))。使得組內(nèi)的相似性盡可能的大,而組間的相似性盡可能的小。一個(gè)空間對(duì)象就是特征空間中的一個(gè)點(diǎn),在聚類(lèi)算法中局勢(shì)用特征來(lái)表示空間對(duì)象??臻g數(shù)據(jù)庫(kù)中的聚類(lèi)其實(shí)就是對(duì)目標(biāo)圖形進(jìn)行聚類(lèi),如今,空間目標(biāo)有多種類(lèi)型,如:點(diǎn)狀、線狀、面狀,并且在大多數(shù)時(shí)候數(shù)據(jù)量非常龐大并且聚類(lèi)形狀也十分復(fù)雜,這無(wú)疑使空間數(shù)據(jù)挖掘?qū)垲?lèi)有了更高的要求:①算法所需的參數(shù)能夠自動(dòng)或者由用戶確定;②能夠處理任意形狀的聚類(lèi);③在處理大型空間數(shù)據(jù)庫(kù)時(shí)的效率能夠較高;④能夠?qū)θ我庑螤畹膶?duì)象進(jìn)行聚類(lèi),如點(diǎn)狀、線狀、面狀。

數(shù)據(jù)挖掘當(dāng)中,聚類(lèi)按照相似性以及距離度量在空間數(shù)據(jù)集中標(biāo)識(shí)稠密分布的地區(qū)或聚類(lèi),然后從當(dāng)中發(fā)現(xiàn)數(shù)據(jù)集的典型模式以及整個(gè)空間的分布規(guī)律,然而這不僅僅是知識(shí)發(fā)現(xiàn)任務(wù)的一個(gè)重要組成部分了,同時(shí)它也是數(shù)據(jù)挖掘系統(tǒng)中發(fā)現(xiàn)關(guān)聯(lián)知識(shí)、分類(lèi)知識(shí)、廣義知識(shí)等共性知識(shí)的先決條件[4]。

1 研究?jī)?nèi)容

文章選取K-means算法,基于Hadoop框架的并行化架構(gòu)對(duì)空間數(shù)據(jù)的聚類(lèi)算法開(kāi)展研究。研究中選取特定研究區(qū)的植被評(píng)價(jià)遙感影像數(shù)據(jù)。通過(guò)編寫(xiě)程序獲取大量隨機(jī)采樣數(shù)據(jù),每條數(shù)據(jù)是包括經(jīng)緯度、植被評(píng)價(jià)值的二元組數(shù)據(jù)。將這些數(shù)據(jù)作為聚類(lèi)算法研究的原始數(shù)據(jù),經(jīng)過(guò)去除異常點(diǎn)和數(shù)據(jù)歸一化等預(yù)處理手段,獲取實(shí)驗(yàn)數(shù)據(jù)集?;贙-means聚類(lèi)算法的原理設(shè)計(jì)空間數(shù)據(jù)聚類(lèi)算法,取得的實(shí)驗(yàn)結(jié)果與研究區(qū)的實(shí)際數(shù)字高程模型(DEM)進(jìn)行對(duì)比分析,檢驗(yàn)算法計(jì)算的植被評(píng)價(jià)值分類(lèi)與高程數(shù)據(jù)的變化是否存在對(duì)應(yīng)關(guān)系,最終對(duì)算法的有效性做出評(píng)估。

2 算法設(shè)計(jì)與實(shí)現(xiàn)

2.1 MMKMEANS算法思想

MMKEANS算法是基于最大最小距離原理,是相對(duì)于傳統(tǒng)的K-means算法所提出的一種改進(jìn)的K-means算法。它的主要思想是先選取出初始聚心,然后在進(jìn)行K-means聚類(lèi)。那么對(duì)于初始聚心的選取分為以下幾個(gè)步驟[5]:

2.1.1 選第一個(gè)聚類(lèi)中心。從原數(shù)據(jù)集合D當(dāng)中隨機(jī)、任意的選擇一個(gè)對(duì)象。

2.1.2 選取第二個(gè)聚類(lèi)中心。算出該聚類(lèi)中心與剩下的各個(gè)對(duì)象之間的距離,然后將這些距離進(jìn)行比較,其中距離該聚類(lèi)中心最遠(yuǎn)的那一個(gè)對(duì)象就是筆者要找的第二個(gè)聚類(lèi)中心。

2.1.3 選取第三個(gè)聚類(lèi)中心。與第二步不同的地方是接著要計(jì)算現(xiàn)有的兩個(gè)聚類(lèi)中心與剩余的對(duì)象之間的距離,并找出距離min(d1,d2)-也就是距離這兩個(gè)聚類(lèi)中心最小的那一個(gè)距離,之后找出基于這種距離當(dāng)中最大的對(duì)象[6]。若該對(duì)象滿足:max(min(di1,di2))>t|c(diǎn)2-c1|。公式說(shuō)明:d1表示的是對(duì)象與聚類(lèi)中心C1的距離,d2表示的是對(duì)象與聚類(lèi)中心C2的距離;t則表示的是在這個(gè)聚類(lèi)算法中的檢驗(yàn)參數(shù),則把該對(duì)象當(dāng)作第三個(gè)聚類(lèi)中心。

按照這種方法依次迭代,直到無(wú)法找到滿足條件:

2.2 MMKMEANS算法的并行設(shè)計(jì)

文章將在Hadoop平臺(tái)實(shí)現(xiàn)MMKEANS算法的MapReduce化。以前面章節(jié)中對(duì)MapReduce編程框架大致的介紹為基礎(chǔ),這里筆者可以用兩個(gè)階段來(lái)表示MMKMEANS算法的并行化實(shí)現(xiàn),在算法中的第一個(gè)階段又分了兩個(gè)MapReduce過(guò)程來(lái)實(shí)現(xiàn)對(duì)初始聚類(lèi)中心的選擇。這兩個(gè)階段的實(shí)現(xiàn)則需經(jīng)過(guò)三個(gè)Ma?pReduce的過(guò)程[7],結(jié)構(gòu)框架如圖 1 所示:

圖1 MapReduce框架圖

2.2.1 第一個(gè)過(guò)程。即MapReduce1里的map過(guò)程需要進(jìn)行獨(dú)立并行抽樣,為了減少數(shù)據(jù)抽樣帶來(lái)的偏差,需要對(duì)數(shù)據(jù)進(jìn)行多次抽樣。因此第一步要把原數(shù)據(jù)集合進(jìn)行劃分,分成多個(gè)小片段,然后將這些數(shù)據(jù)片段復(fù)制到集群當(dāng)中的每一個(gè)節(jié)點(diǎn)上,每一個(gè)節(jié)點(diǎn)都要獨(dú)立的并行執(zhí)行相關(guān)的子任務(wù)。當(dāng)前MapRe?duce中reduce的任務(wù)數(shù)是由抽取出的樣本數(shù)據(jù)所決定的。例如將樣本數(shù)據(jù)任意分為m份,那么reduce的任務(wù)數(shù)則為m。當(dāng)前任務(wù)中的數(shù)據(jù)并行的執(zhí)行MMKEANS聚類(lèi)是reduce要負(fù)責(zé)的事情,在每一個(gè)re?duce任務(wù)當(dāng)中會(huì)有若干個(gè)待選的聚類(lèi)中心產(chǎn)生,而每一個(gè)reduce的輸出數(shù)據(jù)就是這些聚類(lèi)中心。除此在之外,通過(guò)每一個(gè)reduce任務(wù)計(jì)算得到的各個(gè)聚類(lèi)之間的平均距離:也是需要輸出的,因?yàn)樵谙聜€(gè)過(guò)程中會(huì)用到一個(gè)半徑r,在計(jì)算對(duì)象密度的時(shí)侯這個(gè)半徑需要被用到。

2.2.2 第二個(gè)過(guò)程MapReduce。簡(jiǎn)單的來(lái)說(shuō)就是要將第一個(gè)過(guò)程中reduce所輸出的鍵值對(duì)進(jìn)行處理,將其轉(zhuǎn)變?yōu)椴灰粯拥妮敵鲱?lèi)型。從全局來(lái)看,上一個(gè)過(guò)程中所輸出的聚類(lèi)中心有可能是相鄰的,這是由于在上個(gè)reduce處理數(shù)據(jù)的過(guò)程中都是局部、獨(dú)立并行執(zhí)行的。然后這個(gè)reduce過(guò)程就負(fù)責(zé)將上一個(gè)reduce過(guò)程輸出的若干個(gè)聚心進(jìn)行匯總,鄰近的聚類(lèi)中心被歸為一個(gè)聚類(lèi)中,然后在這里只需設(shè)置一個(gè)reduce任務(wù),用于計(jì)算新的聚類(lèi)中心并輸出。算法第二個(gè)階段K-means聚類(lèi)過(guò)程[8]:

①K-means聚類(lèi)過(guò)程將用歐式距離來(lái)進(jìn)行相似度度量,這個(gè)由一個(gè)MapReduce過(guò)程來(lái)是現(xiàn)實(shí)。這個(gè)過(guò)程的初始聚類(lèi)中心為第一階段中MapReduce2過(guò)程所輸出的聚類(lèi)中心。其中將原數(shù)據(jù)集合中的所有對(duì)象分到與其距離最近的那一個(gè)聚類(lèi)當(dāng)中,這一任務(wù)由map過(guò)程負(fù)責(zé)。

②該算法結(jié)束的標(biāo)志是聚類(lèi)的中心不再有變化。針對(duì)各個(gè)聚類(lèi)計(jì)算出新的聚類(lèi)中心然后將其輸出,而下一次的迭代輸入為則為這些新的聚類(lèi)中心,這一操作是由reduce過(guò)程負(fù)責(zé)的,直到算法結(jié)束為止。

2.3 MMKEANS算法的并行實(shí)現(xiàn)

2.3.1 第一階段MapReduce1過(guò)程。mapper類(lèi)maxMin?Mapper實(shí)現(xiàn):該類(lèi)的功能是數(shù)據(jù)抽樣,要對(duì)數(shù)據(jù)進(jìn)行抽樣,自然離不開(kāi)map過(guò)程的參與,mapper類(lèi)就是用來(lái)實(shí)現(xiàn)map過(guò)程的。各個(gè)map子任務(wù)的抽樣計(jì)算均是獨(dú)立并行的,第一步需要知道樣本數(shù),也就是在計(jì)算時(shí)map子任務(wù)所需要讀取的樣本數(shù)量;第二步各個(gè)節(jié)點(diǎn)上存儲(chǔ)著輸入的數(shù)據(jù),以<key,value>對(duì)的形式存在的文件,map函數(shù)則順序的讀取數(shù)據(jù)(key為對(duì)象的ID,value則是對(duì)象的空間向量模型)。在執(zhí)行當(dāng)中,隨機(jī)數(shù)生成器是一個(gè)重要步驟。第一步需要對(duì)所選取的對(duì)象進(jìn)行計(jì)數(shù)。在概率為1的前提下,讀取出前n個(gè)對(duì)象;然后從第n+1個(gè)對(duì)象起,要隨機(jī)的替換掉之前讀取出的n個(gè)對(duì)象之中的一個(gè),用在n/i’概率下讀取出的第n+1個(gè)對(duì)象之后的對(duì)象(i=n+1,n+2...)。其中根據(jù)概率論的原理可以知道,其實(shí)每一個(gè)對(duì)象被選取的幾率是相等的為N/n’。map任務(wù)的對(duì)象數(shù)為N’。第二步則是需要把讀取出的n個(gè)對(duì)象當(dāng)作中間數(shù)據(jù)輸出,仍然是以<key,value>對(duì)的形式。value仍然是對(duì)象ID和對(duì)象的空間向量模型。key是一個(gè)隨機(jī)數(shù),取值在[1,m]之間由隨機(jī)數(shù)生成器生成的,m可以從配置文件中獲得,代表的是執(zhí)行reduce任務(wù)的數(shù)量[9]。

最終的目的是進(jìn)行聚類(lèi)處理,根據(jù)key把樣本數(shù)據(jù)分到不同的reduce上,這些樣本數(shù)據(jù)是在map過(guò)程中生成的,然后進(jìn)行聚類(lèi)處理。(docID,docVec)是doc?Vector類(lèi)的數(shù)據(jù)結(jié)構(gòu)。

reducer類(lèi)maxMinReducer的實(shí)現(xiàn):該類(lèi)進(jìn)行re?duce處理。Reduce過(guò)程把map過(guò)程當(dāng)中輸出的key以及與key有所關(guān)聯(lián)的所有對(duì)象的迭代器當(dāng)作輸入數(shù)據(jù),主要目的是為了選出若干個(gè)待選的聚類(lèi)中心,這些待選的聚類(lèi)中心則是從map過(guò)程中的樣本數(shù)據(jù)通過(guò)聚類(lèi)得到的。可以分為以下幾個(gè)步驟進(jìn)行聚類(lèi)中心的選取[10]:

①選第一個(gè)聚類(lèi)中心。從原數(shù)據(jù)集合D當(dāng)中隨機(jī)、任意的選擇一個(gè)對(duì)象[11]。

②選取第二個(gè)聚類(lèi)中心。算出該聚類(lèi)中心與剩下的各個(gè)對(duì)象之間的距離,然后將這些距離進(jìn)行比較,其中距離該聚類(lèi)中心最遠(yuǎn)的那一個(gè)對(duì)象就是要找的第二個(gè)聚類(lèi)中心。

③選取第三個(gè)聚類(lèi)中心。與第二步不同的地方是接著要計(jì)算現(xiàn)有的兩個(gè)聚類(lèi)中心與剩余的對(duì)象之間的距離,并找出距離min(d1,d2)-也就是距離這兩個(gè)聚類(lèi)中心最小的那一個(gè)距離,之后找出基于這種距離當(dāng)中最大的對(duì)象[12]。若該對(duì)象滿足:max(min(d1,d2))>t|c(diǎn)2-c1|。

公式說(shuō)明:d1表示的是對(duì)象與聚類(lèi)中心C1的距離,d2表示的是對(duì)象與聚類(lèi)中心C2的距離;t則表示的是在這個(gè)聚類(lèi)算法中的檢驗(yàn)參數(shù),則把該對(duì)象當(dāng)作第三個(gè)聚類(lèi)中心。

④按照這種方法依次迭代,直到無(wú)法找到滿足條件[13]的對(duì)象結(jié)束。

要保存聚類(lèi)中心之間的距離,采用的是鍵值對(duì)的形式,鍵值對(duì)分為兩種類(lèi)型:value為聚類(lèi)中心的空間向量模型,key為對(duì)象ID;value為聚類(lèi)間的平均距離,key=-1。為了達(dá)到使計(jì)算更便捷的目的,對(duì)象與各個(gè)聚類(lèi)中心最小的距離用minDist表示的類(lèi)去繼承docVector。

2.3.2 第二個(gè)階段MapReduce過(guò)程。mapper類(lèi)kmeans?Mapper的實(shí)現(xiàn):這個(gè)類(lèi)主要是對(duì)map過(guò)程的實(shí)現(xiàn),輸入的數(shù)據(jù)為原數(shù)據(jù)集合,然后其初始的聚類(lèi)中心為上一個(gè)過(guò)程的輸出結(jié)果或者是上次迭代所產(chǎn)生的聚類(lèi)中心[14],valuer仍然是對(duì)象的空間向量模型,key是對(duì)象的ID。map過(guò)程主要是將對(duì)象劃分到與其距離最近的那一個(gè)聚類(lèi)當(dāng)中,輸出結(jié)果鍵值對(duì)中的key代表的是聚類(lèi)的ID標(biāo)識(shí),valu則是clusterTool對(duì)象。為了使計(jì)算更加便捷,因此設(shè)置了兩個(gè)類(lèi),一個(gè)是cluster,另一個(gè)是clusterTool。K-means算法迭代產(chǎn)生的聚類(lèi)中心的信息存儲(chǔ)在clusterList中,setup函數(shù)則是用來(lái)獲取這些信息的,初始聚類(lèi)中心的信息可以通過(guò)第一次迭代得到,這個(gè)初始聚類(lèi)中心的信息是由上一過(guò)程中產(chǎn)生[10]。

combiner類(lèi)kmeansCombiner的實(shí)現(xiàn):在本地中具有一樣的key的中間數(shù)據(jù)可以利用算法結(jié)合combine過(guò)程將它們進(jìn)行合并,這樣可以使map過(guò)程中存儲(chǔ)在各個(gè)節(jié)點(diǎn)的本地磁盤(pán)中的中間數(shù)據(jù)的網(wǎng)絡(luò)通信開(kāi)銷(xiāo)得以減小,節(jié)點(diǎn)之間網(wǎng)絡(luò)開(kāi)銷(xiāo)也得到有效的減少。這個(gè)類(lèi)用于combine過(guò)程的實(shí)現(xiàn),并且將本地節(jié)點(diǎn)同屬與一個(gè)聚類(lèi)對(duì)象clusterTool的信息進(jìn)行歸并[15]。本地節(jié)點(diǎn)在map過(guò)程輸出的key和關(guān)聯(lián)到這個(gè)key的相關(guān)的value迭代器是它的輸入,在combine過(guò)程后所得到的鍵值對(duì)當(dāng)中,value是clusterTool類(lèi)的對(duì)象,而key表示的是聚類(lèi)ID標(biāo)識(shí)[11]。

reducer類(lèi)kmeansReducer的實(shí)現(xiàn):這個(gè)類(lèi)用于reduce過(guò)程的實(shí)現(xiàn)。其中各個(gè)節(jié)點(diǎn)的key和與該key有所關(guān)聯(lián)的value迭代器都是這個(gè)過(guò)程接收的數(shù)據(jù)。各個(gè)節(jié)點(diǎn)具有相同key的數(shù)據(jù)會(huì)被歸類(lèi)到一起,同時(shí)同屬于一個(gè)對(duì)象的clusterTool類(lèi)的信息也會(huì)被歸并,最后決定是否要繼續(xù)迭代則需要更新各個(gè)聚類(lèi)中心以及聚類(lèi)半徑,以此來(lái)判斷結(jié)果是否收斂,若收斂則停止迭代,反之;這些是由reduce過(guò)程負(fù)責(zé)的。最后value為新的聚類(lèi),聚類(lèi)的ID標(biāo)識(shí)用key表示。

在第二個(gè)階段中進(jìn)行多次的迭代,聚類(lèi)過(guò)程的收斂速度同樣可以是快速的,這是因?yàn)樵诔跏季垲?lèi)的時(shí)候,就會(huì)先經(jīng)過(guò)一系列的處理。在聚類(lèi)收斂之后并且我們已經(jīng)獲得了各個(gè)聚類(lèi)的中心,還需要為最終得到的每一個(gè)聚類(lèi)分配對(duì)象,這些對(duì)象就是原數(shù)據(jù)集中的各個(gè)對(duì)象,因此這就需要再執(zhí)行一次MapReduce過(guò)程。其中第二個(gè)過(guò)程當(dāng)中的map處理過(guò)程和在最后MapReduce的map過(guò)程中是一樣的;相異之處在于最后各個(gè)聚類(lèi)會(huì)涵蓋所有的對(duì)象,但是reduce過(guò)程可以使用缺省的方式,而不需要在重新定義reduce函數(shù);除此之外reduce過(guò)程也不必再次的更新各個(gè)聚類(lèi)的中心。

3 實(shí)驗(yàn)分析

研究中選取特定研究區(qū)(西藏那曲地區(qū))的植被評(píng)價(jià)遙感影像數(shù)據(jù)。通過(guò)編寫(xiě)程序獲取大量隨機(jī)采樣數(shù)據(jù)(每次實(shí)驗(yàn)5000-1000條),如圖2。

圖2 研究區(qū)空間數(shù)據(jù)采樣

通過(guò)隨機(jī)采樣點(diǎn)獲取的部分實(shí)驗(yàn)數(shù)據(jù)如圖3所示:

圖3 原始空間數(shù)據(jù)片段

這些空間數(shù)據(jù)包括三條屬性:精度、緯度、植被評(píng)價(jià)值,經(jīng)過(guò)整理構(gòu)成D(經(jīng)緯度,評(píng)價(jià)值)的二元組數(shù)據(jù)[16]。通過(guò)編寫(xiě)程序?qū)ΧM數(shù)據(jù)集中的平均值為零,以及超出評(píng)價(jià)值范圍的異常點(diǎn)進(jìn)行清理,然后通過(guò)公式以及通過(guò)聚類(lèi)算法,對(duì)所處不同經(jīng)緯度的植被評(píng)價(jià)值進(jìn)行分類(lèi),可以推測(cè)研究區(qū)域的地形變化,比如文章研究數(shù)據(jù)中聚類(lèi)的信息體現(xiàn)了所處區(qū)域的坡面、坡度和坡向的總體分布情況。通過(guò)聚類(lèi)分析以及對(duì)每個(gè)像元進(jìn)行對(duì)比分析,發(fā)現(xiàn)植被評(píng)價(jià)值的聚類(lèi)結(jié)果與坡度和坡向不存在明顯的關(guān)聯(lián)度,與DEM的高程數(shù)據(jù)存在明顯的函數(shù)關(guān)系,如圖4。

圖4 聚類(lèi)分析結(jié)果

4 結(jié)論

文章研究了空間數(shù)據(jù)聚類(lèi)分析的一些算法,選擇MMKEANS算法在Hadoop框架上進(jìn)行實(shí)驗(yàn),對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析。由于空間數(shù)據(jù)具有類(lèi)型多、數(shù)據(jù)量大并且復(fù)雜的特點(diǎn),這無(wú)疑加大了從空間數(shù)據(jù)當(dāng)中獲得信息的難度,相較于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù),空間數(shù)據(jù)挖掘研究還有待完善,許多的方法和理論需要深入的研究,主要包括:對(duì)于多源空間數(shù)據(jù)的預(yù)處理。其中影像數(shù)據(jù)、數(shù)字線數(shù)據(jù)都是屬于空間數(shù)據(jù)的,并且因多源空間數(shù)據(jù)本身就十分復(fù)雜,在加上對(duì)多源空間數(shù)據(jù)的收集及其不易,因此像一些噪聲數(shù)據(jù)、空缺值以及不一致的空間數(shù)據(jù)或多或少的都會(huì)被收集到。這也就是為什么要對(duì)多源空間數(shù)據(jù)進(jìn)行預(yù)處理的原因,這一過(guò)程是極其重要的;提高空間數(shù)據(jù)挖掘算法的效率以及對(duì)空間數(shù)據(jù)挖掘算法研究,其中空間數(shù)據(jù)挖掘的研究焦點(diǎn)之一就是空間同位算法;網(wǎng)絡(luò)環(huán)境下對(duì)空間數(shù)據(jù)的挖掘、遙感圖像數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘、多分辨率以及多層次數(shù)據(jù)挖掘等,選擇改進(jìn)的K-means算法-MMKMEANS算法在Hadoop平臺(tái)進(jìn)行并行化實(shí)現(xiàn)研究。實(shí)驗(yàn)證明基于Hadoop平臺(tái)的最大最小K-means算法優(yōu)于傳統(tǒng)的K-means算法,其時(shí)間復(fù)雜度以及處理數(shù)據(jù)的精度都提高了,對(duì)于挖掘?qū)嶋H應(yīng)用中空間數(shù)據(jù)的有效信息更有利。

猜你喜歡
空間數(shù)據(jù)數(shù)據(jù)挖掘聚類(lèi)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
元數(shù)據(jù)驅(qū)動(dòng)的多中心空間數(shù)據(jù)同步方法研究
基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
自適應(yīng)確定K-means算法的聚類(lèi)數(shù):以遙感圖像聚類(lèi)為例
基于GPGPU的離散數(shù)據(jù)挖掘研究
基于文件系統(tǒng)的分布式海量空間數(shù)據(jù)高效存儲(chǔ)與組織研究
阿坝| 常州市| 科技| 基隆市| 清流县| 凤城市| 巩留县| 甘德县| 常山县| 威远县| 卓资县| 浮山县| 兖州市| 遂溪县| 昌黎县| 崇文区| 太仓市| 郎溪县| 黎川县| 宁津县| 乐陵市| 奉贤区| 西乌珠穆沁旗| 临泽县| 彰化县| 安岳县| 高唐县| 运城市| 揭东县| 东海县| 大理市| 新安县| 元朗区| 奎屯市| 公安县| 通海县| 甘孜县| 大城县| 博野县| 青河县| 花莲市|