国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于Heat Map的地理標(biāo)簽數(shù)據(jù)可視化表達(dá)的研究

2016-04-11 01:00華一新
測繪工程 2016年6期
關(guān)鍵詞:力圖可視化標(biāo)簽

趙 婷,華一新,李 響,李 翔,楊 飛

(信息工程大學(xué) 地理空間信息學(xué)院,河南 鄭州 450052)

?

一種基于Heat Map的地理標(biāo)簽數(shù)據(jù)可視化表達(dá)的研究

趙婷,華一新,李響,李翔,楊飛

(信息工程大學(xué) 地理空間信息學(xué)院,河南 鄭州 450052)

摘要:地理標(biāo)簽數(shù)據(jù)是指蘊含在網(wǎng)頁、照片、微博等信息媒介中的地理空間信息,其表現(xiàn)形式通常是經(jīng)緯度坐標(biāo)。通過分析地理標(biāo)簽數(shù)據(jù)的研究現(xiàn)狀,對地理標(biāo)簽數(shù)據(jù)進(jìn)行分類,并歸納地理標(biāo)簽數(shù)據(jù)具有屬性數(shù)據(jù)非結(jié)構(gòu)化、海量信息分布不均、強(qiáng)調(diào)位置相對關(guān)系等特點。針對其中一個特點,通過對K-means算法進(jìn)行改進(jìn),結(jié)合計算機(jī)圖形學(xué)相關(guān)知識,利用熱力圖表達(dá)地理標(biāo)簽數(shù)據(jù)的分布特征。最后,通過與ArcGIS核密度圖、散點圖進(jìn)行比較,得出該熱力圖算法具有表達(dá)效果明顯、用戶體驗好等優(yōu)點。

關(guān)鍵詞:地理標(biāo)簽數(shù)據(jù);可視化;熱力圖;K-means聚類

隨著移動互聯(lián)網(wǎng)技術(shù)的進(jìn)步,對地理信息應(yīng)用研究的深入,制圖者與地圖使用者的界限變的模糊,傳統(tǒng)的制圖方式發(fā)生變革;新地圖學(xué)委員會的成立,也同樣預(yù)示著新的地理時代已經(jīng)悄然來臨。伴隨著智能移動終端的普及,人們越來越習(xí)慣于通過智能移動終端上的應(yīng)用及時獲取或分享信息。在使用此類應(yīng)用的過程中,產(chǎn)生了海量的含有地理位置信息的社交數(shù)據(jù),我們稱這類爆發(fā)性增長的新型數(shù)據(jù)為地理標(biāo)簽數(shù)據(jù)(Geotagged data),由于該數(shù)據(jù)的產(chǎn)生與人類活動息息相關(guān),為可視化研究領(lǐng)域帶來了新的挑戰(zhàn)。

地理標(biāo)簽數(shù)據(jù)[1]指在HTML網(wǎng)頁、照片、微博等信息媒介顯式或隱式植入的地理空間信息,其表現(xiàn)形式是地理經(jīng)緯度坐標(biāo),也包含高程、范圍、形狀等其它地理空間信息,采用的是與傳統(tǒng)空間數(shù)據(jù)組織結(jié)構(gòu)(即用“數(shù)據(jù)分層”以及“幾何+屬性”)不同的形式。

根據(jù)地理標(biāo)簽數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu),一般常用k-means算法生成地理標(biāo)簽聚類。其核心思想是基于聚類對象的屬性將數(shù)據(jù)分為k組,最終實現(xiàn)類內(nèi)方差最小化。然而該算法雖然方法簡單且保證了計算速度,但是犧牲算法精度;其結(jié)果的準(zhǔn)確性很大程度上取決于最初的簇集;k值需提前給定。有很多采用該算法生成任意聚類的例子,在這些例子中,沒有依據(jù)初始的種子點位置,且在隨機(jī)選取中心點的概率甚至無限高。

對此,本文采用一種根據(jù)非常具體的概率來選擇初始種子點的方法來對k-means方法進(jìn)行初始化,利用啟發(fā)式算法來確定k值,以此提高聚類算法的精度;此外,在研究地理標(biāo)簽數(shù)據(jù)的基礎(chǔ)上,分析歸納該數(shù)據(jù)特點,選擇合適的可視化方法進(jìn)行表達(dá)。針對其中一種可視化方法——熱力圖,結(jié)合該聚類算法進(jìn)行實現(xiàn),并對此做出評價。

1地理標(biāo)簽數(shù)據(jù)分類

地理標(biāo)簽數(shù)據(jù)的存在形式通常有:照片、視頻或音頻文件、SMS消息、地理位置微博、網(wǎng)頁、維基百科的文章應(yīng)用等。其三種數(shù)據(jù)類型可歸納為:地理標(biāo)簽文檔、地理標(biāo)簽照片、地理位置微博。

地理標(biāo)簽文檔:現(xiàn)在對地理標(biāo)簽文檔的研究大都以維基百科為主,維基百科有大量的數(shù)據(jù),可將其作為數(shù)據(jù)源對其內(nèi)容進(jìn)行知識挖掘,從而提取相關(guān)關(guān)聯(lián)。如通過研究地理標(biāo)簽文檔和作者所在地理位置進(jìn)而判斷兩者之間是否存在一定的空間規(guī)律[2]。

地理標(biāo)簽照片:從地理標(biāo)簽照片中獲取的信息主要有三類:照片本身;除地理標(biāo)簽外其他標(biāo)簽信息,可稱為注釋信息;拍攝者信息(包含設(shè)備信息)。Flickr[3]網(wǎng)站常常用于獲取照片、視頻等含地理坐標(biāo)的多媒體產(chǎn)品,該平臺給人們的生活帶來便利,對地理標(biāo)簽照片的研究也大都基于Flickr。如Eric Fischer[4]建立了一系列“本地人和旅游者”的城市分布地圖,從中清晰地分辨本地人和旅游者對同一個城市不同地方的喜好,即從地理標(biāo)簽照片上挖掘事件和用戶行為。

地理標(biāo)簽微博:也稱位置微博,因含有地理空間位置信息的標(biāo)簽信息,常用于挖掘地名和興趣點或是地理輿情的預(yù)測。國內(nèi)對位置微博[5,6]的研究較為火熱,對其他兩種標(biāo)簽數(shù)據(jù)研究較少。

2地理標(biāo)簽數(shù)據(jù)特點分析

從空間數(shù)據(jù)可視化方法的角度對地理標(biāo)簽數(shù)據(jù)特點進(jìn)行分析,可視化方法可以表達(dá)數(shù)據(jù)的探索發(fā)現(xiàn)特征、位置分布特征、表達(dá)空間統(tǒng)計特征,并且由于地理標(biāo)簽數(shù)據(jù)具有強(qiáng)調(diào)位置相對關(guān)系、海量信息分布不均、屬性數(shù)據(jù)非結(jié)構(gòu)化這三個特點,故而可基于以上特點進(jìn)行可視化方法分類。

屬性信息非結(jié)構(gòu)化:與傳統(tǒng)的矢量數(shù)據(jù)不同,地理標(biāo)簽數(shù)據(jù)的屬性信息可能是非結(jié)構(gòu)化的,需要對這種非結(jié)構(gòu)化的文本信息進(jìn)行可視化研究;而標(biāo)簽云是一種從大文本中提取有效知識的可視化方法,適用于文本信息的表達(dá),是文本分析處理的簡單而高效的可視化表達(dá)方法,所以利用標(biāo)簽云與表達(dá)地理位置的地圖相結(jié)合而得到的標(biāo)簽云地圖能更好地表示含有文本信息的可視化。

海量信息分布不均:隨著地理標(biāo)簽數(shù)據(jù)以百萬級涌現(xiàn),其密集程度很高,此時單個點的顯示沒有意義,只有把多個點聚合起來可視化研究才有意義,據(jù)此可采用熱力圖來研究地理標(biāo)簽數(shù)據(jù)的分布統(tǒng)計特征,以一種非常直觀的形式來呈現(xiàn)密度信息,帶來效果明顯的用戶體驗。

強(qiáng)調(diào)位置的相對關(guān)系:隨著互聯(lián)網(wǎng)發(fā)展不斷涌現(xiàn)出的海量的地理標(biāo)簽數(shù)據(jù),研究其個人絕對位置(即精準(zhǔn)位置)已經(jīng)沒有意義,更多是表達(dá)地理標(biāo)簽數(shù)據(jù)的相對位置關(guān)系,可采用拓?fù)鋱D來表達(dá)地理標(biāo)簽數(shù)據(jù)的相對位置關(guān)系。

從新地理信息時代的[7]角度,通過與傳統(tǒng)統(tǒng)計數(shù)據(jù)的對比,研究地理標(biāo)簽數(shù)據(jù)進(jìn)的特點,如表1所示:

表1 地理標(biāo)簽數(shù)據(jù)與傳統(tǒng)統(tǒng)計數(shù)據(jù)的比較

3基于Heat Map的標(biāo)簽數(shù)據(jù)可視化表達(dá)

本文以地理標(biāo)簽數(shù)據(jù)的海量數(shù)據(jù)分布不均的特點為出發(fā)點,利用熱力圖研究地理標(biāo)簽數(shù)據(jù)的分布特征。熱力圖(Heat Map)最初作為一個研究模型于2006年在微軟公司內(nèi)部發(fā)布,隨著地理位置相關(guān)的空間信息大量涌現(xiàn),熱力圖的應(yīng)用范圍得到更大拓展。它是數(shù)據(jù)可視化(Information Visualization) 中常用的一種方法,直觀地反映地理對象某一特征的空間分布態(tài)勢。

3.1熱力圖生成步驟

熱力圖是一個理想的表達(dá)密度空間數(shù)據(jù)的解決方法,它清晰地揭示了高發(fā)地區(qū)的分布情況,其生成過程如下:

1)建立一個含有256個RGBA值的數(shù)組,這個數(shù)組用來當(dāng)作熱力圖的配色矩陣(調(diào)色板),其中A代表Alpha通道,用來記錄圖像中的透明度信息。地圖上的熱區(qū)賦予數(shù)組靠右的顏色,而冷區(qū)賦予靠左的顏色如調(diào)色板圖1所示。

圖1 調(diào)色板

2)坐標(biāo)系轉(zhuǎn)換。將經(jīng)緯度坐標(biāo)轉(zhuǎn)換為屏幕坐標(biāo),可利用百度地圖Web服務(wù)API為開發(fā)者提供的http接口,即用java發(fā)起http請求,然后解析json或xml數(shù)據(jù)等,也可使用Chunk Taylor的“地緣/UTM轉(zhuǎn)換算法[9]”進(jìn)行坐標(biāo)轉(zhuǎn)換。

3)標(biāo)簽聚類。由于地理標(biāo)簽數(shù)據(jù)中包括坐標(biāo)信息以及注釋信息,可首先利用坐標(biāo)信息來創(chuàng)建地理聚類。為提高聚類精度,可選擇k-means ++算法[8]來確定初始種子點,隨后可采用啟發(fā)式算法來確定k值,通過該方法,最終得到這個k值、初始種子點的位置。完成數(shù)據(jù)集的聚類時,每一個聚類標(biāo)簽具有三個屬性:標(biāo)簽名稱、中心點坐標(biāo)、聚類半徑,其中聚類半徑由中心點到其成員距離的平均值通過歐氏距離計算得到。

4)計算中心點透明度。反映熱點顏色深淺的變量值,即透明度(Intensity),透明度也可稱為對象的影響因子,該值作為每個對象的影響范圍的中心點的透明度,熱點的顏色深淺直接表達(dá)出數(shù)據(jù)的變化特征[10]。常見的計算對象透明度公式如下:

(1)

其中,Z代表中心點待表示特征值,Z0代表數(shù)據(jù)集中待表示特征值的最小值,Zmax代表待表示特征值的最大值。

5)繪制灰度圖。以每個點的坐標(biāo)值作為中心點,并以第4節(jié)標(biāo)簽聚類半徑為半徑繪制一個顏色漸變的圓。中心點顏色最深,從圓的邊緣到中心點顏色逐漸變淺,直至所有點的漸變圓繪制完成。

6)灰度圖色彩化。利用調(diào)色板中的值對圖中每一個像素進(jìn)行色彩化,選擇RGBA模型中任意通道(R、G、B任選其一)值(0~255)作為配色矩陣的索引,并提取通道值來代替舊顏色,完成灰度帶到調(diào)色板的映射。

3.2熱力圖實驗

本文以近40年全球地震分布帶以及地震等級對周邊的影響為例,利用主題爬蟲技術(shù)從互聯(lián)網(wǎng)上獲取1973年至今全球各地發(fā)生地震的時間、位置、震級等地理信息,采用C#語言,并結(jié)合計算機(jī)圖形學(xué)相關(guān)知識,在VS2013平臺上進(jìn)行圖形圖像編程,實現(xiàn)全球地震分布的熱力圖,并結(jié)合地震帶地圖集對所得結(jié)果進(jìn)行驗證,以確保該方法的有效性,其過程如圖2所示。

圖2 熱力圖生成流程

3.2.1數(shù)據(jù)獲取

通過分析地理標(biāo)簽數(shù)據(jù)特點,可通過網(wǎng)絡(luò)爬蟲技術(shù)獲取這類數(shù)據(jù)。網(wǎng)絡(luò)爬蟲工作原理是一種按照規(guī)則自動抓取萬維網(wǎng)信息的程序或腳本。它首先獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。本文實驗數(shù)據(jù)通過爬取地震相關(guān)網(wǎng)站,經(jīng)過正則表達(dá)式等方法進(jìn)行匹配,得到含有經(jīng)度、緯度、地震發(fā)生時間、震級等信息。其字段存儲結(jié)構(gòu)如表2所示:

表2 字段存儲結(jié)構(gòu)

3.2.2數(shù)據(jù)分年

為研究近40年全球地震帶的變遷,需對獲取的數(shù)據(jù)進(jìn)行分年,每十年為一個節(jié)點。通過建立讀寫文件的指針讀取文件,然后以動態(tài)鏈表的形式開辟存儲空間,依次將文件中的各個字段讀到內(nèi)存中,通過對字段進(jìn)行處理得到分年后的文件。也可將數(shù)據(jù)存儲在服務(wù)器中,利用ArcGIS Server發(fā)布地圖服務(wù)調(diào)用所需數(shù)據(jù)。

3.2.3熱力圖算法實現(xiàn)

從數(shù)據(jù)庫讀取全球地震數(shù)據(jù)后,利用k-means算法和k-means++算法,對標(biāo)簽數(shù)據(jù)進(jìn)行聚類分析,隨后通過灰度圓疊加得到灰度圖,再根據(jù)灰度圖與調(diào)色板的映射關(guān)系進(jìn)行色彩化,最終得到熱力圖圖層??梢圆捎冒俣?、谷歌等地圖作為底圖,然后將生成的新圖層與底圖疊加,從而得到完整的熱力圖。

3.3結(jié)果分析

圖3為通過改進(jìn)的熱力圖算法生成的1973—1982年地震分布熱力圖,可看出地震高發(fā)帶大都集中在各大板塊的交界處,分布情況與三大地震帶相符合,即環(huán)太平洋地震帶、歐亞地震帶和海嶺地震帶,可見該種熱力圖分析方法是合理的。此外,采用地理標(biāo)簽數(shù)據(jù)作為實驗數(shù)據(jù),可實時獲取最新的信息,獲取速度快,成本低,且信息量豐富,為研究分布特征提供分析支持,尤其是為政府部門對某些突發(fā)事件提供決策支持。

圖4分別為利用1973—1982年地震數(shù)據(jù)得到

圖3 1973—1982年地震分布熱力圖

圖4 ArcGIS核密度圖、散點圖

ArcGIS生成的核密度圖、散點圖,圖3、圖4中這三種方法都可以表達(dá)數(shù)據(jù)的分布特征,對上述三種方法從用戶體驗、表達(dá)效果2個方面進(jìn)行比較。

1)點密度法采用的顏色過于單一,且無法反映數(shù)據(jù)分布的差異性,由于數(shù)據(jù)量的增加,不能通過多張點密度圖來觀察事件的發(fā)展變化趨勢,用戶體驗差。圖5是利用熱力圖得到每十年地震帶分布的變化圖,可看出歐亞板塊與印度洋板塊活動較頻繁,地震發(fā)生頻率逐年增加,需要當(dāng)?shù)卣畬@一帶地區(qū)加強(qiáng)防震意識,減少地震對當(dāng)?shù)氐膿p失。

2)熱力圖和ArcGIS核密度圖都可以通過設(shè)置顏色梯度很好地反映數(shù)據(jù)分布的差異性,效果好,數(shù)據(jù)越密集越熱,顏色越亮。

圖5 1973—2014年每10 a全球地震分布熱力圖

4結(jié)束語

地理標(biāo)簽數(shù)據(jù)是大數(shù)據(jù)時代和科技發(fā)展的產(chǎn)物,其對人們生活的影響越來越大。本文分析了地理標(biāo)簽數(shù)據(jù)的數(shù)據(jù)類型與特點,研究了標(biāo)簽數(shù)據(jù)的可視化技術(shù),并通過改進(jìn)k-means算法實現(xiàn)了地震帶熱力圖,驗證本實驗中熱力圖的可用性和優(yōu)越性。由于地理標(biāo)簽數(shù)據(jù)的內(nèi)涵是不斷發(fā)展的,今后還需要研究更多技術(shù)以完善標(biāo)簽數(shù)據(jù)的可視化技術(shù)。

參考文獻(xiàn):

[1]Geotagging[EB/OL].(2015-01-09)[2015-04-03].https://en.wikipedia.org/wiki/Geotagging.

[2]HARDY D.Volunteered geographic information in Wikipedia[M].University of California,Santa Barbara,2010.

[3]HAUFF C.A study on the accuracy of Flickr’s geotag data.Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval[C].ACM Press,2013:1037-1040.

[4]FISCHER E.Locals and Tourists[J].Av Proyectos,2015:70-71.

[5]袁曉如,張昕,肖何,等.可視化研究前沿及展望[J].科研信息化技術(shù)與應(yīng)用,2011,2(4):3-13.

[6]張恒才,陸鋒,陳潔.微博客蘊含交通信息的提取[J].中國圖象圖形學(xué)報,2013,18(1):123-129.

[7]李德仁,邵振峰.論新地理信息時代[J].中國科學(xué)(F輯:信息科學(xué)),2009,39(6):579-587.

[8]ARTHUR D,VASSILVITSKII S.k-means++:The advantages of careful seeding.Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms[C].Society for Industrial and Applied Mathematics,2007:1027-1035.

[9]TAYLOR C.Geographic/utm coordinate converter[Z/OL].(2003-06-20)[2015-01-09].http://home.hiwaay.net/~taylorc/toolbox/geography/geoutm.html.

[10] 曾毅,高斌,李明銘,等.一種HeatMap技術(shù)可視化GIS三維數(shù)據(jù)方法[J].電腦編程技巧與維護(hù),2012 (22):120-122.

[責(zé)任編輯:路曉鴿]

Research on heat map visualization of geotagged dataZHAO Ting,HUA Yixin,LI Xiang,LI Xiang,YANG Fei

(School of Geospatial Information,Information Engineering University,Zhengzhou 450052,China)

Abstract:Geotagged data means being embedded in web pages,photos,microblogging and other information media geospatial information,on which the manifestations are usually latitude and longitude coordinates.This paper,through the analysis of the research status of geotagged data,classifies the geographic label data and summarizes non-structured attribute data,mass distribution of information,and the relative position relationship.And for one of the features,K-means algorithm is proposed to use Heuristic algorithm to determine the k value.Combined with knowledge of computer graphics,the heat distribution graph is used to represent the geotagged data.Compared with scatter diagram and ArcGIS nuclear density map,this algorithm has high efficiency of being expressive and user-friendly.

Key words:geotagged data;visualization;heat map;K-means cluster

中圖分類號:P208

文獻(xiàn)標(biāo)識碼:A

文章編號:1006-7949(2016)06-0028-05

作者簡介:趙婷(1987-),女,研究生.

基金項目:國家自然科學(xué)基金青年科學(xué)基金項目(41401467);國家自然科學(xué)基金面上項目(41471336);國家自然科學(xué)基金(41271450);國家科技支撐計劃(2012BAK12B02)

收稿日期:2015-05-18

猜你喜歡
力圖可視化標(biāo)簽
基于CiteSpace的足三里穴研究可視化分析
思維可視化
喬·拜登力圖在外交政策講話中向世界表明美國回來了
基于CGAL和OpenGL的海底地形三維可視化
血栓彈力圖在惡性腫瘤相關(guān)靜脈血栓栓塞癥中的應(yīng)用進(jìn)展
“融評”:黨媒評論的可視化創(chuàng)新
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
時空觀指導(dǎo)下的模塊整合教學(xué)——以《20世紀(jì)四五十年代力圖稱霸的美國》為例
標(biāo)簽化傷害了誰
固镇县| 平阳县| 青龙| 广东省| 樟树市| 九台市| 阿克陶县| 酒泉市| 沾益县| 丽水市| 博客| 建瓯市| 汝州市| 祁门县| 石渠县| 乌审旗| 舞阳县| 邵阳县| 疏附县| 鄂托克旗| 正蓝旗| 鸡西市| 唐海县| 台湾省| 曲水县| 泸州市| 洪雅县| 明水县| 永宁县| 道孚县| 那坡县| 大庆市| 新丰县| 瓦房店市| 昌宁县| 延吉市| 高碑店市| 北海市| 曲阜市| 德保县| 汨罗市|