張 立
大數(shù)據(jù)環(huán)境下地理空間拓?fù)渑卸ㄅc分析策略的研究
張 立
(深圳職業(yè)技術(shù)學(xué)院 人工智能學(xué)院,廣東 深圳 518055)
本文首先闡述了大數(shù)據(jù)環(huán)境下作為信息載體的數(shù)據(jù)表現(xiàn)出來的特點(diǎn),隨后詳細(xì)分析了在大數(shù)據(jù)環(huán)境下地理空間拓?fù)浞治鱿鄬?duì)于傳統(tǒng)的地理空間拓?fù)浞治龅牟煌帲疄榱私o地理空間大數(shù)據(jù)分析與應(yīng)用提供一些有益的借鑒和參考,文章結(jié)合多個(gè)大數(shù)據(jù)拓?fù)浞治鰧?shí)例分別就大數(shù)據(jù)拓?fù)浞治鲋凶畛R姷狞c(diǎn)與點(diǎn)、點(diǎn)與線、點(diǎn)與面3種情況,探討了如何設(shè)定拓?fù)渑卸ㄒ?guī)則和分析策略,如設(shè)置閾值做近似模糊處理、抽象簡(jiǎn)化空間對(duì)象改變拓?fù)浞治龅膶?duì)象、依據(jù)行業(yè)規(guī)則或流程過濾臟數(shù)據(jù)、減少計(jì)算量以提高分析處理的時(shí)效性.
大數(shù)據(jù);拓?fù)浞治觯坏乩砜臻g數(shù)據(jù);地理信息系統(tǒng)
隨著移動(dòng)互聯(lián)網(wǎng)和智能手機(jī)終端的普及,數(shù)據(jù)的產(chǎn)生方式正在悄然發(fā)生變化,從最初的基于數(shù)據(jù)庫(kù)的營(yíng)運(yùn)系統(tǒng)階段發(fā)展到以互聯(lián)網(wǎng)為依托的用戶數(shù)據(jù)原創(chuàng)階段,再到如今基于物聯(lián)網(wǎng)傳感器的感知式系統(tǒng)階段.深入分析大數(shù)據(jù)環(huán)境下的信息載體——數(shù)據(jù),不難發(fā)現(xiàn)其突出的幾個(gè)特點(diǎn):(1)數(shù)據(jù)體量龐大.IDC咨詢機(jī)構(gòu)提出的大數(shù)據(jù)摩爾定律表明人類社會(huì)產(chǎn)生的數(shù)據(jù)正以每年50%的速度在增長(zhǎng),預(yù)計(jì)到2020年全球擁有的數(shù)據(jù)量將達(dá)到35ZB;(2)數(shù)據(jù)類型繁多.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)約占九成,主要包括郵件、音頻、視頻、微信、微博、位置信息、連接信息、網(wǎng)絡(luò)日志等;(3)數(shù)據(jù)的價(jià)值密度低.很多有價(jià)值的信息分散在海量數(shù)據(jù)中,如何高效地從海量數(shù)據(jù)中挖掘出有價(jià)值的信息需要分布式數(shù)據(jù)存儲(chǔ)和處理技術(shù)提供強(qiáng)有力的支撐[1-4].
伴隨大數(shù)據(jù)時(shí)代的到來,基于地理空間數(shù)據(jù)的拓?fù)浞治鲆惨蚱鋽?shù)據(jù)采集方式的改變、數(shù)據(jù)類型的多樣性、數(shù)據(jù)分析目標(biāo)的不同而需要采用有別于傳統(tǒng)地理空間拓?fù)浞治龅牟呗裕疚闹荚诜治龃髷?shù)據(jù)環(huán)境下地理空間拓?fù)浞治龅淖兏锱c特點(diǎn),并結(jié)合多個(gè)實(shí)例探討大數(shù)據(jù)環(huán)境下如何設(shè)定拓?fù)渑卸ㄒ?guī)則和分析策略,為地理空間大數(shù)據(jù)分析與應(yīng)用提供一些有益的參考.
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)處理和分析是以數(shù)據(jù)為中心,從數(shù)據(jù)中發(fā)現(xiàn)問題、解決問題,從而挖掘出數(shù)據(jù)的潛在價(jià)值[1].將這一理念延伸到基于地理空間數(shù)據(jù)的拓?fù)浞治鰟?shì)必導(dǎo)致分析目標(biāo)、判斷策略和拓?fù)渑卸ㄒ?guī)則等諸多改變.
傳統(tǒng)GIS系統(tǒng)是以功能為中心的,它根據(jù)需要實(shí)現(xiàn)的功能來設(shè)定需要采集的數(shù)據(jù)及其類型,并基于存儲(chǔ)的數(shù)據(jù)而開發(fā)相應(yīng)的系統(tǒng)功能[5].在拓?fù)浞治鰰r(shí)需要根據(jù)地理空間對(duì)象的坐標(biāo)位置來判定其拓?fù)潢P(guān)系,其分析目標(biāo)主要著眼于拓?fù)潢P(guān)系本身.例如電力GIS系統(tǒng)中,在背景地圖上根據(jù)電桿的實(shí)際位置繪制出線路上的電桿對(duì)象(點(diǎn)對(duì)象),并將線路繪制成經(jīng)過這些點(diǎn)對(duì)象的線段(線對(duì)象),以便能以此為基礎(chǔ)分析出線路和電桿之間是否相連的拓?fù)潢P(guān)系,這是作為傳統(tǒng)GIS系統(tǒng)中拓?fù)浞治龅囊粋€(gè)簡(jiǎn)單應(yīng)用.
以“用戶原創(chuàng)內(nèi)容”為特征的Web 2.0時(shí)代里,用戶使用智能手機(jī)享受信息和數(shù)據(jù)帶來的便利的同時(shí)也自覺不自覺地成為了信息和數(shù)據(jù)的生產(chǎn)者.而物聯(lián)網(wǎng)的發(fā)展最終導(dǎo)致數(shù)據(jù)量的再次飛躍,物聯(lián)網(wǎng)中大量的傳感器有別于營(yíng)運(yùn)系統(tǒng)中的輔助設(shè)備,其產(chǎn)生的數(shù)據(jù)不再是被特定部門或系統(tǒng)所獨(dú)有.智慧城市、智能公交系統(tǒng)、汽車GPS導(dǎo)航等應(yīng)用讓地理空間數(shù)據(jù)逐步深入人們?nèi)粘5纳a(chǎn)生活,以上這些大數(shù)據(jù)應(yīng)用均涉及到地理空間數(shù)據(jù)的采集、處理和分析[6-9].
在大數(shù)據(jù)環(huán)境下的拓?fù)浞治龈鼜?qiáng)調(diào)的是被分析地理空間對(duì)象的相關(guān)性,即拓?fù)潢P(guān)系分析的最終目的不僅僅是通過全集數(shù)據(jù)分析來識(shí)別空間對(duì)象之間的拓?fù)涫欠翊嬖谝欢P(guān)聯(lián),更重要的是以拓?fù)潢P(guān)系推斷對(duì)象之間是否存在某種相關(guān)性[10].換句話說,其拓?fù)浞治霾辉倬窒抻谕負(fù)潢P(guān)系本身,而在于挖掘和發(fā)現(xiàn)隱藏于地理空間對(duì)象之間拓?fù)潢P(guān)系背后的潛在結(jié)論.為了探測(cè)這種對(duì)象之間的相關(guān)性,大數(shù)據(jù)環(huán)境中的拓?fù)浞治鐾ǔP枰尤霑r(shí)間序列作為參考因素,并以此為依據(jù)來考量拓?fù)潢P(guān)系的持續(xù)性,以便降低誤判的概率.
例如在智能公交系統(tǒng)中,可通過分析公交車(可作為點(diǎn)對(duì)象)運(yùn)行過程中產(chǎn)生的點(diǎn)坐標(biāo)和公交站臺(tái)(面對(duì)象)之間的拓?fù)潢P(guān)系(如點(diǎn)是否在面內(nèi)),再結(jié)合該公交線路站臺(tái)的順序來判定公交車是否按規(guī)定的路線行駛[11-12].換句話說,此時(shí)拓?fù)浞治龅哪康牟⒉皇峭負(fù)潢P(guān)系本身(公交車是否在站臺(tái)內(nèi)),而是依據(jù)公交車是否到達(dá)相應(yīng)的站臺(tái)這一結(jié)論來判定公交車是否正常運(yùn)營(yíng).
傳統(tǒng)的地理空間拓?fù)浞治錾婕暗目臻g對(duì)象關(guān)系類型比較多,具體來說包括點(diǎn)與點(diǎn)、點(diǎn)與線、點(diǎn)與面、線與線、線與面、面與面之間的拓?fù)潢P(guān)系.這種地理空間拓?fù)浞治霰仨氁蕾囉贕IS系統(tǒng)提供的拓?fù)浞治鲆娌拍苓_(dá)到較高的處理效率,同時(shí)其拓?fù)浞治鲆惨蕾囉趯?duì)象坐標(biāo)位置的精準(zhǔn)度.
例如電力GIS系統(tǒng)中,電線桿的地理坐標(biāo)可以通過線路巡視員通過GPS終端設(shè)備采集,在GIS系統(tǒng)中可以將電力線路直接繪制在這些確定好坐標(biāo)位置的電線桿上,以便實(shí)現(xiàn)線路與電線桿在拓?fù)渖系年P(guān)聯(lián).另外一種處理方法是將電線桿地理空間的位置做適當(dāng)?shù)奈灰?,以便使GIS系統(tǒng)中電線桿的坐標(biāo)位置精確地位于線路之上.無論哪種方法都需要保證電線桿(點(diǎn)對(duì)象)位于電力線路(線對(duì)象)之上(即在拓?fù)渖习l(fā)生關(guān)聯(lián)),以便被GIS系統(tǒng)的拓?fù)浞治鲆娌樵兊剑娏IS系統(tǒng)的“線路巡視”功能就是利用拓?fù)浞治鲆娓鶕?jù)線路設(shè)備之間的拓?fù)潢P(guān)系來生成巡視線路上相關(guān)電力設(shè)備的臺(tái)賬信息.由此可見,這種拓?fù)浞治霰仨氁蕾囉贕IS系統(tǒng)的拓?fù)浞治鲆?,拓?fù)潢P(guān)系是否成立在于是否其坐標(biāo)位置上是否存在重疊或覆蓋關(guān)系,因此要求地理空間對(duì)象的坐標(biāo)數(shù)據(jù)精準(zhǔn)度較高,否則無法通過拓?fù)潢P(guān)系來設(shè)別與某電力線路實(shí)際發(fā)生連接關(guān)系的電線桿、線上開關(guān)等電力設(shè)備.
而大數(shù)據(jù)環(huán)境下的拓?fù)浞治鰟t不一定需要依賴于GIS系統(tǒng)的拓?fù)浞治鲆妫灰芸旖莞咝У嘏袆e對(duì)象之間的拓?fù)潢P(guān)系,可以做一些適當(dāng)?shù)慕苹虺橄筇幚?,如在?duì)象距離上設(shè)置一定容差范圍,只要在這個(gè)范圍內(nèi)即可判定對(duì)象之間是重疊的,又如選定特征點(diǎn)將面對(duì)象抽象簡(jiǎn)化成點(diǎn)對(duì)象,將點(diǎn)與面的拓?fù)潢P(guān)系判定轉(zhuǎn)換成對(duì)點(diǎn)與(特征)點(diǎn)之間的拓?fù)潢P(guān)系判定,從而降低數(shù)據(jù)分析的復(fù)雜度和計(jì)算的工作量.這種近似和抽象處理是否合適、由此產(chǎn)生的誤差能否被接受主要在于其是否影響對(duì)對(duì)象之間相關(guān)性的綜合判斷.
過去抽樣分析強(qiáng)調(diào)高精確性,這是因?yàn)槌闃臃治鲠槍?duì)的是部分抽樣數(shù)據(jù),分析結(jié)果被應(yīng)用到全集數(shù)據(jù)時(shí)誤差也會(huì)被放大.而大數(shù)據(jù)時(shí)代的“全樣分析”(而非“抽樣分析”)追求的高精確性已經(jīng)不是首要目標(biāo),盡管上述在大數(shù)據(jù)環(huán)境下根據(jù)拓?fù)鋽?shù)據(jù)分析形成的推斷會(huì)存在一定誤差,但由于采樣的數(shù)據(jù)不是部分?jǐn)?shù)據(jù)而是全集數(shù)據(jù),所以誤差仍處在可接受的范圍[13].
傳統(tǒng)地理空間數(shù)據(jù)主要來源于專用的GPS定位與采集設(shè)備,其拓?fù)浞治龅臏?zhǔn)確性要求較高,盡管在現(xiàn)實(shí)中的地理空間數(shù)據(jù)多少都存在一定的誤差,但在相應(yīng)的地理信息系統(tǒng)(GIS)中做出適當(dāng)?shù)男拚幚?,依然可以得到相?duì)準(zhǔn)確的拓?fù)浞治鼋Y(jié)果[14].傳統(tǒng)的地理空間拓?fù)浞治鲈诖_保準(zhǔn)確性的基礎(chǔ)上通常要求的執(zhí)行效率并不高,如在電力GIS系統(tǒng)中生成220千伏變電站一條出線的“全線路設(shè)備臺(tái)賬明細(xì)表”可能因?yàn)槠渚唧w線路的規(guī)模較大而需要執(zhí)行1分鐘左右(甚至幾分鐘),在現(xiàn)實(shí)工作中這是被允許的,因?yàn)橥ㄟ^線路與電力設(shè)備的拓?fù)潢P(guān)系生成“全線路設(shè)備臺(tái)賬明細(xì)表”的主要目的是為了提供給線路維護(hù)和巡視部門完成對(duì)線路設(shè)備的年檢或巡視,而生成這份“全線路設(shè)備臺(tái)賬明細(xì)表”通常是在工作計(jì)劃中可以事先預(yù)計(jì)好的,因此在此功能的執(zhí)行時(shí)效上要求并不太苛刻.
在基于地理空間數(shù)據(jù)的大數(shù)據(jù)分析過程中,其數(shù)據(jù)來源已經(jīng)不限于專用的GPS定位與采集設(shè)備,更多的地理空間數(shù)據(jù)來自加載GPS定位模塊的智能手機(jī)或移動(dòng)終端.這些空間數(shù)據(jù)其精準(zhǔn)性不高,如果直接用這些設(shè)備采集的數(shù)據(jù)進(jìn)行空間拓?fù)浞治觯貌坏脚c實(shí)際相符合的結(jié)論.這就需要針對(duì)這些地理空間數(shù)據(jù)進(jìn)行清洗和篩選,同時(shí)加入時(shí)間序列的輔助分析,并對(duì)拓?fù)渑卸ㄒ?guī)則和分析策略進(jìn)行相應(yīng)的調(diào)整,從而適當(dāng)降低拓?fù)溆?jì)算的工作量,以便在執(zhí)行時(shí)效和準(zhǔn)確性之間找到一個(gè)平衡點(diǎn),為決策者提供高效的決策參考.
大數(shù)據(jù)環(huán)境下收集到來自智能手機(jī)和移動(dòng)終端的地理空間數(shù)據(jù)大多數(shù)為離散的點(diǎn)坐標(biāo),拓?fù)浞治龅膬?nèi)容主要是這些點(diǎn)對(duì)象與其他地理空間對(duì)象(主要是地面固定設(shè)施)之間的拓?fù)潢P(guān)系,因此在大數(shù)據(jù)環(huán)境下基于地理空間數(shù)據(jù)的拓?fù)浞治鲱愋椭饕c(diǎn)與點(diǎn)、點(diǎn)與線、點(diǎn)與面這3種拓?fù)潢P(guān)系.
作為點(diǎn)對(duì)點(diǎn)的拓?fù)潢P(guān)系,往往是一個(gè)移動(dòng)對(duì)象與地面固定點(diǎn)之間的拓?fù)潢P(guān)系.移動(dòng)對(duì)象的坐標(biāo)數(shù)據(jù)可以是移動(dòng)終端GPS定位模塊采集的經(jīng)緯度,也可以是在某些封閉區(qū)域內(nèi)傳感器采集的坐標(biāo)數(shù)據(jù).值得注意的是——當(dāng)點(diǎn)與點(diǎn)的距離小于一定閾值時(shí)即可判定這兩個(gè)點(diǎn)處于重疊狀態(tài),但這可能只是被分析對(duì)象在移動(dòng)過程中的一個(gè)瞬間狀態(tài),不能以此做出任何結(jié)論.因此,在大數(shù)據(jù)環(huán)境中,點(diǎn)與點(diǎn)的拓?fù)浞治鐾ǔP枰尤霑r(shí)間序列作為參考因素,即只有當(dāng)重疊狀態(tài)持續(xù)了某一段時(shí)間則可判定2個(gè)點(diǎn)對(duì)象確實(shí)處于重疊狀態(tài),這種狀態(tài)到底意味著什么結(jié)論則需要具體問題具體分析.
例如,通過分析居民操作使用其生活小區(qū)中設(shè)置的便民終端設(shè)備的行為來考察便民終端設(shè)備的利用情況以及終端設(shè)備設(shè)置的位置是否合理.便民終端設(shè)備其實(shí)就是一臺(tái)立式觸屏電腦,居民可以利用它來辦理一些便民業(yè)務(wù)(如開據(jù)居住證明,查詢辦理業(yè)務(wù)的流程等),其本身占地面積很小,可以作為一個(gè)點(diǎn)對(duì)象來對(duì)待;大數(shù)據(jù)分析者通過數(shù)據(jù)切片技術(shù)可篩選出小區(qū)居民手機(jī)的定位數(shù)據(jù)(如經(jīng)緯度)來確定居民的位置(作為一個(gè)點(diǎn)對(duì)象)加以分析.
判定居民使用便民終端設(shè)備的規(guī)則如下:當(dāng)便民終端設(shè)備(點(diǎn)對(duì)象)與居民(確切地說是手機(jī),也是一個(gè)點(diǎn)對(duì)象)之間的距離小于0.5米時(shí),即可判定二者在拓?fù)渖鲜侵丿B的,但只有當(dāng)這種點(diǎn)與點(diǎn)重疊狀態(tài)超過一定時(shí)長(zhǎng)(如1分鐘)才判定居民正在操作使用便民終端設(shè)備,這時(shí)的時(shí)間序列數(shù)據(jù)才可被用來統(tǒng)計(jì)便民終端設(shè)備單次使用的時(shí)間長(zhǎng)度.判定居民使用便民終端設(shè)備并統(tǒng)計(jì)使用時(shí)間的流程圖如圖1所示.
這里存在一個(gè)潛在的問題,依據(jù)上述的判定標(biāo)準(zhǔn),當(dāng)多個(gè)點(diǎn)對(duì)象(多個(gè)居民)同時(shí)與便民終端設(shè)備處于重疊狀態(tài)且超過設(shè)定的時(shí)間范圍時(shí),只能認(rèn)定某一個(gè)居民正在使用便民終端設(shè)備,其他居民只是在一旁觀察、協(xié)助或參謀.如果計(jì)算這些居民的停留時(shí)間并取其停留時(shí)間的平均值作為此次使用便民終端的時(shí)間長(zhǎng)度,這樣勢(shì)必增加數(shù)據(jù)計(jì)算的工作量.此時(shí)可以假定最后離開的居民(點(diǎn)對(duì)象)在使用便民終端設(shè)備,并以其停留的時(shí)間作為本次單次使用便民終端的時(shí)間長(zhǎng)度.盡管這可能與實(shí)際有出入,因?yàn)橛锌赡軐?shí)際使用便民終端設(shè)備的居民不是最后離開的,但對(duì)于海量數(shù)據(jù)分析來說這種誤差是可以接受的,不會(huì)影響到最終的分析結(jié)論.
在大數(shù)據(jù)環(huán)境中,點(diǎn)與線的拓?fù)浞治龅膬?nèi)容主要是某些移動(dòng)對(duì)象與交通道路或軌跡之間的拓?fù)潢P(guān)系.在現(xiàn)實(shí)世界中,交通道路是有寬度的(如雙向4車道),這就意味著多輛并排行駛的車輛是允許在拓?fù)渖吓c道路同時(shí)發(fā)生重疊關(guān)系的,但交通道路在數(shù)據(jù)分析時(shí)通常是用線對(duì)象來標(biāo)識(shí),車輛作為點(diǎn)對(duì)象來標(biāo)識(shí),這就存在如何在點(diǎn)與線的位置上存在偏差的情況下判定點(diǎn)在線上的問題.解決這個(gè)問題主要有2種方法:
圖1 判定居民使用便民終端設(shè)備并統(tǒng)計(jì)使用時(shí)間的流程圖
1)將線對(duì)象擴(kuò)展成面對(duì)象,即沿著線對(duì)象向兩側(cè)增加了一定寬度,只有當(dāng)點(diǎn)對(duì)象位于擴(kuò)展后的面對(duì)象中才判定點(diǎn)(車輛)在線(道路)上.如圖2所示,由于實(shí)際道路的寬度不可避免地存在不同的差異,即在設(shè)置擴(kuò)展線對(duì)象的寬度時(shí)不同的道路應(yīng)該有不同的寬度值,道路的寬度值通常包含在電子地圖中道路屬性字段中.如圖2中的1擴(kuò)展的寬度要比2、3的寬度要大一些.其判定結(jié)果如下:車輛(點(diǎn)對(duì)象)由于其在1擴(kuò)展后的多邊形區(qū)域內(nèi)而被判定在1(線對(duì)象)上,而車輛則因?yàn)槠湓?擴(kuò)展后的多邊形區(qū)域以外而被判定為不在線(1)上.當(dāng)出現(xiàn)車輛(如點(diǎn))出現(xiàn)在1、2這2條道路擴(kuò)展后的多邊形區(qū)域內(nèi)時(shí),這通常是車輛此時(shí)位于十字路口或立交橋上的狀態(tài),此時(shí)可判定該車輛同時(shí)在這兩條道路上,如圖2中點(diǎn)可從拓?fù)潢P(guān)系上判定同時(shí)在1、2上.
2)將點(diǎn)對(duì)象擴(kuò)展成以其為中心的圓形區(qū)域(面對(duì)象),圓形的半徑可以依據(jù)車輛型號(hào)的大小進(jìn)行不同的設(shè)置,也可以設(shè)置為一個(gè)固定的常量.其拓?fù)渑卸ㄒ?guī)則為只有當(dāng)線對(duì)象與點(diǎn)對(duì)象擴(kuò)展后的圓形面對(duì)象有位置上的重疊(也就是說線對(duì)象穿過圓形擴(kuò)展區(qū)域)則判定該點(diǎn)對(duì)象在線對(duì)象上.如圖3所示,作為車輛的、、三個(gè)點(diǎn)對(duì)象都被擴(kuò)展為一個(gè)相同半徑的圓形對(duì)象,其中由于1與點(diǎn)(車輛)擴(kuò)展后的圓形區(qū)域有重疊而判定點(diǎn)在線(1)上,同理點(diǎn)則被判定其不在線(1)上,而點(diǎn)擴(kuò)展后的圓形區(qū)域與1、2都有重疊,則會(huì)判定點(diǎn)在兩條線(1和2)上.由此可見,其拓?fù)渑袆e結(jié)論與方法1是一樣的.
在這種拓?fù)潢P(guān)系分析過程中經(jīng)常面臨一個(gè)問題,即如何有效地去除臟數(shù)據(jù).例如,通過分析公交車的運(yùn)動(dòng)軌跡來評(píng)估城市公交系統(tǒng)路線運(yùn)營(yíng)情況(是否按規(guī)定路線行駛、是否準(zhǔn)時(shí)到站等等).作為點(diǎn)對(duì)象的公交車,其位置數(shù)據(jù)可通過安裝在公交車上的GPS定位系統(tǒng)和網(wǎng)絡(luò)傳輸模塊采集得到,而作為線對(duì)象的道路,其線路坐標(biāo)數(shù)據(jù)來自各種比例尺的電子地圖.除了公交車輛的坐標(biāo)數(shù)據(jù)和時(shí)間序列,標(biāo)識(shí)公交車的唯一編號(hào)也將參與大數(shù)據(jù)分析之中,假定所有公交車都是完整地從始發(fā)站點(diǎn)按其線路移動(dòng)到終點(diǎn)站(反之亦然),其判定公交車運(yùn)行狀態(tài)并統(tǒng)計(jì)運(yùn)營(yíng)時(shí)間的流程圖如圖4所示.
圖2 點(diǎn)與線的拓?fù)浞治霾呗灾當(dāng)U展線對(duì)象
圖3 點(diǎn)與線的拓?fù)浞治霾呗灾當(dāng)U展點(diǎn)對(duì)象
在圖4中省略了對(duì)臟數(shù)據(jù)的判定和處理,由于公交車的線路相對(duì)是固定的,刪除公交車的部分異常位置坐標(biāo)(臟數(shù)據(jù))并不影響對(duì)公交車行駛路線的分析.但在具體數(shù)據(jù)分析過程中,其臟數(shù)據(jù)主要來自公交車在一些特殊情況下偏離道路的位置數(shù)據(jù),例如公交車在路上拋錨或車禍導(dǎo)致停止運(yùn)營(yíng),則可認(rèn)定本次從起始站點(diǎn)出發(fā)位移所產(chǎn)生的所有數(shù)據(jù)為臟數(shù)據(jù),需要過濾掉這些數(shù)據(jù),以免影響判斷分析的結(jié)果.具體實(shí)現(xiàn)時(shí)只要公交車位移的實(shí)際路線包含始發(fā)站點(diǎn)和終點(diǎn)站位置才被認(rèn)定為一條完整有效的分析路徑,否則將被作為臟數(shù)據(jù)執(zhí)行刪除操作.
分析公交車運(yùn)營(yíng)情況還有一種比較巧妙的方法,假定所有公交車都在嚴(yán)格沿著其行駛線路依次進(jìn)入各個(gè)公交站臺(tái),則可以把各個(gè)公交站臺(tái)周邊采集到公交車的坐標(biāo)數(shù)據(jù)作為分析的對(duì)象,依據(jù)公交車的唯一編號(hào)可將判定規(guī)則修改為:只要某線路的公交車按其公交線路的站臺(tái)順序從上一個(gè)站臺(tái)達(dá)到當(dāng)前站臺(tái),便可判定其位移屬于“正?!保窗凑找?guī)定的路線行駛的).此時(shí)公交車與道路的拓?fù)潢P(guān)系的判定轉(zhuǎn)換成了公交車(點(diǎn)對(duì)象)與站臺(tái)(面對(duì)象)的拓?fù)潢P(guān)系,即公交車與站臺(tái)的距離小于一定范圍即可判定公交車達(dá)到該站點(diǎn).由于公交站點(diǎn)的數(shù)量畢竟是有限的,相比需要處理公交車沿途的所有坐標(biāo)數(shù)據(jù)而言,這種方法的數(shù)據(jù)計(jì)算量明顯要小得多.
圖4 判定公交車運(yùn)行狀態(tài)并統(tǒng)計(jì)運(yùn)營(yíng)時(shí)間的流程圖
在大數(shù)據(jù)環(huán)境中,點(diǎn)與面的拓?fù)浞治鲆彩潜容^常見的.為了降低拓?fù)浞治鲇?jì)算的工作量,提高數(shù)據(jù)分析的時(shí)效性,常用的一種方法是將其轉(zhuǎn)換成點(diǎn)與點(diǎn)的拓?fù)潢P(guān)系再加以處理分析,通常以面對(duì)象的中心點(diǎn)或預(yù)設(shè)好的某個(gè)特征點(diǎn)為參考點(diǎn),并以此參考點(diǎn)與其他點(diǎn)對(duì)象之間的距離來作為拓?fù)潢P(guān)系判定條件.
例如,通過分析電力搶修車車輛出勤情況來判定供電局電力搶修車的配置合理性.供電局通常有自己專用的車庫(kù),但不排除有些車輛停在車庫(kù)以外甚至供電局周邊附近的位置.在進(jìn)行數(shù)據(jù)分析時(shí)需要判定電力搶修車是否入庫(kù)(即停在車庫(kù)或供電局內(nèi)),并統(tǒng)計(jì)搶修車入庫(kù)的時(shí)長(zhǎng).此時(shí),作為點(diǎn)對(duì)象的電力搶修車,其位置信息來自電力搶修車上GPS終端采集的坐標(biāo)數(shù)據(jù),而車庫(kù)或供電局通常作為面對(duì)象(多邊形對(duì)象).嚴(yán)格意義上來說只有電力搶修車(點(diǎn)對(duì)象)在車庫(kù)或供電局(面對(duì)象)范圍內(nèi)才能判定該車輛入庫(kù),但針對(duì)海量數(shù)據(jù)分析時(shí)這樣的拓?fù)浞治鏊惴@得有點(diǎn)復(fù)雜,數(shù)據(jù)計(jì)算量過大.為了提高分析處理的時(shí)效性可以將其轉(zhuǎn)換為點(diǎn)與點(diǎn)的拓?fù)渑卸ǎ?/p>
一種簡(jiǎn)單有效的方法是設(shè)置供電局外切圓的圓心或供電局(或車庫(kù))大門為參考點(diǎn),拓?fù)渑卸ㄒ?guī)則如下:當(dāng)車輛坐標(biāo)位置與參考點(diǎn)的距離小于特定閾值(如30米)則可判定兩點(diǎn)在拓?fù)潢P(guān)系上的重疊,即判定搶修車停在供電局(或車庫(kù))內(nèi),處于入庫(kù)狀態(tài);同時(shí)加上時(shí)間序列即可統(tǒng)計(jì)搶修車的入庫(kù)總時(shí)長(zhǎng).判定電力搶修車入庫(kù)狀態(tài)并統(tǒng)計(jì)入庫(kù)時(shí)長(zhǎng)的流程圖如圖5所示.
如圖6所示,左圖中是以電局外切圓的圓心點(diǎn)為參考點(diǎn),只要計(jì)算車輛(點(diǎn))與之的距離是否小于閾值來判定點(diǎn)是否在面內(nèi),結(jié)果是點(diǎn)在面內(nèi),點(diǎn)則被判定其不在面內(nèi);右圖中是以供電局(或車庫(kù))大門點(diǎn)為參考點(diǎn),通過上述判定規(guī)則會(huì)誤判點(diǎn)不在面內(nèi),但引入時(shí)間序列后(若點(diǎn)長(zhǎng)時(shí)間不產(chǎn)生位移時(shí))并適當(dāng)增加距離閾值(如50米)也是可以判定其在面內(nèi)(即處于入庫(kù)狀態(tài)).
還有一種方式是將車庫(kù)或供電局抽象為一個(gè)覆蓋其整個(gè)區(qū)域的外切矩形,這個(gè)外切矩形的四個(gè)頂點(diǎn)坐標(biāo)兩兩相等,取值為其覆蓋其整個(gè)區(qū)域的坐標(biāo)極值(即最大值或最小值),這樣只要判定車輛坐標(biāo)位置是否在這個(gè)外切矩形內(nèi)即可.如圖7所示,供電局的外切矩形頂點(diǎn)為、、、這4個(gè)點(diǎn),點(diǎn)和點(diǎn)、點(diǎn)和點(diǎn)的橫坐標(biāo)是相等的,同時(shí)點(diǎn)和點(diǎn)、點(diǎn)和點(diǎn)的縱坐標(biāo)是相等的.點(diǎn)和點(diǎn)(分別代表電力搶修車)由于其坐標(biāo)在覆蓋其整個(gè)區(qū)域的坐標(biāo)極值范圍內(nèi)而被判定為該兩點(diǎn)都在面內(nèi),而點(diǎn)不滿足這個(gè)條件而判定其不在面(供電局)內(nèi).總之,只要電力搶修車進(jìn)入這個(gè)矩形區(qū)域即會(huì)判定為點(diǎn)在面內(nèi).
圖5 判定電力搶修車入庫(kù)狀態(tài)并統(tǒng)計(jì)入庫(kù)時(shí)長(zhǎng)的流程圖
圖6 點(diǎn)與線的拓?fù)浞治霾呗灾O(shè)置參考點(diǎn)
圖7 點(diǎn)與線的拓?fù)浞治霾呗灾O(shè)置外切矩形
這樣處理的優(yōu)勢(shì)在于將點(diǎn)與面的拓?fù)浞治鲇?jì)算轉(zhuǎn)換成點(diǎn)坐標(biāo)的比較運(yùn)算,只要比較被分析點(diǎn)對(duì)象的橫縱坐標(biāo)(或經(jīng)緯度)是否在外切矩形的4個(gè)頂點(diǎn)提供的坐標(biāo)范圍內(nèi)即可判定點(diǎn)與面的拓?fù)潢P(guān)系(點(diǎn)是否在面內(nèi)),從而大大降低了計(jì)算量;其缺點(diǎn)在于現(xiàn)實(shí)中的面對(duì)象(車庫(kù)或供電局)不一定那么規(guī)則,這個(gè)外切矩形不一定能很好地作為參考面對(duì)象替代原始面對(duì)象,在一定程度上造成誤差,如圖7中的點(diǎn)會(huì)被誤判為其在面內(nèi).好在可以增加時(shí)間序列來彌補(bǔ)這種誤差,如電力搶修車的位置維持一段時(shí)間不變,說明其處于停止?fàn)顟B(tài),此時(shí)可以認(rèn)為該電力搶修車沒有按規(guī)定位置停放而已,但仍被判定其處于入庫(kù)狀態(tài).
當(dāng)面對(duì)象的形狀無法被抽象成規(guī)則形狀或抽象后的規(guī)則面對(duì)象影響到點(diǎn)與面的拓?fù)渑卸ńY(jié)果時(shí),點(diǎn)與面的拓?fù)浞治鍪遣荒苻D(zhuǎn)換點(diǎn)與點(diǎn)來進(jìn)行拓?fù)浞治龅模?,通過分析地鐵站臺(tái)多個(gè)特定范圍內(nèi)人流情況來判定地鐵某站臺(tái)出口閘機(jī)設(shè)置的合理性.在進(jìn)行這種分析時(shí),所謂的特定站臺(tái)范圍可以是一個(gè)不規(guī)則形狀,如果把這個(gè)不規(guī)則形狀抽象為點(diǎn)對(duì)象或外切矩形都失去了其拓?fù)浞治龅默F(xiàn)實(shí)意義,因?yàn)樵谂袛嗳肆饕苿?dòng)軌跡時(shí)無法擺脫特定站臺(tái)范圍的具體形狀,出口閘機(jī)設(shè)置的位置也直接影響到實(shí)際人流移動(dòng)的軌跡.
為了降低數(shù)據(jù)分析計(jì)算的工作量,可以設(shè)置獨(dú)立的坐標(biāo)系統(tǒng).在數(shù)據(jù)采集時(shí)多采用地面?zhèn)鞲衅鳟a(chǎn)生特定區(qū)域內(nèi)行人的坐標(biāo)數(shù)據(jù),另外一種采集數(shù)據(jù)的方法是通過在相對(duì)封閉區(qū)域內(nèi)安裝的多臺(tái)紅外線攝像鏡頭采集相關(guān)的影像數(shù)據(jù),而后經(jīng)過圖像設(shè)別和處理生成行人的坐標(biāo)數(shù)據(jù).這樣在分析行人是否進(jìn)入特定區(qū)域時(shí)只要判別行人的點(diǎn)對(duì)象是否在特定區(qū)域(面對(duì)象)內(nèi)即可,并以此統(tǒng)計(jì)特定時(shí)間進(jìn)入該區(qū)域的人數(shù),以便作為地鐵某站臺(tái)出口閘機(jī)設(shè)置合理性分析的依據(jù).
在大數(shù)據(jù)環(huán)境下分析拓?fù)涞哪康某俗R(shí)別對(duì)象之間的拓?fù)潢P(guān)系,更重要的是根據(jù)拓?fù)潢P(guān)系判定對(duì)象之間的相關(guān)性.換言之,大數(shù)據(jù)拓?fù)浞治鲎非蟮氖滓繕?biāo)不再是數(shù)據(jù)處理的精準(zhǔn)性,而在于通過全集采樣處理方式分析挖掘其隱藏于地理空間拓?fù)潢P(guān)系之中的潛在關(guān)聯(lián).在進(jìn)行基于地理空間數(shù)據(jù)的拓?fù)浞治鰰r(shí),可通過設(shè)置閾值做近似模糊處理,抽象簡(jiǎn)化空間對(duì)象改變拓?fù)浞治龅膶?duì)象,通過行業(yè)規(guī)則或流程過濾臟數(shù)據(jù),增加時(shí)間序列來優(yōu)化拓?fù)渑卸ê头治霾呗?,以便在處理時(shí)效性和結(jié)論準(zhǔn)確性之間找到一個(gè)平衡點(diǎn).這就要求在大數(shù)據(jù)拓?fù)浞治鰰r(shí)具體問題具體分析,從海量數(shù)據(jù)中挖掘有價(jià)值的信息服務(wù)于生產(chǎn)和生活,推動(dòng)科技創(chuàng)新和社會(huì)進(jìn)步.
[1] 林子雨.大數(shù)據(jù)技術(shù)原理與應(yīng)用:概念、存儲(chǔ)、處理、分析與應(yīng)用[M].北京:人民郵電出版社,2017.
[2] 孫傲冰,季統(tǒng)凱.面向智慧城市的大數(shù)據(jù)開放共享平臺(tái)及產(chǎn)業(yè)生態(tài)建設(shè)[J].大數(shù)據(jù),2016,2(4):69-82.
[3] 陶瑜.智慧城市大數(shù)據(jù)云服務(wù)平臺(tái)構(gòu)建研究[J].電腦知識(shí)與技術(shù),2017(12):243-244.
[4] 王兆慶,賀勇.基于大數(shù)據(jù)云平臺(tái)的智慧城市建設(shè)的研究[J].物聯(lián)網(wǎng)技術(shù),2017,7(12):87-90.
[5] 陳斌.地理空間信息大數(shù)據(jù)發(fā)展思考[J].中國(guó)測(cè)繪,2016(4):34-37.
[6] 李艷軍,李愛國(guó).地理信息系統(tǒng)在智慧城市中的應(yīng)用研究[J].智能建筑與智慧城市,2018,260(7):98-99.
[7] 賀靜,許永存.大數(shù)據(jù)分析在公路交通信息服務(wù)中的應(yīng)用[J].中國(guó)交通信息化,2019,230(04):105-108.
[8] 高超,吳雪梅.交通運(yùn)輸信息數(shù)據(jù)整合分析研究[J].公路交通科技(應(yīng)用技術(shù)版),2019,15(03):285-286.
[9] 蘇文,徐茂蒙.?dāng)?shù)字城市地理空間數(shù)據(jù)共享和交換標(biāo)準(zhǔn)體系的構(gòu)建研究[J].中國(guó)標(biāo)準(zhǔn)化,2018(2).
[10]鐘大偉.基于面向大數(shù)據(jù)的地理空間數(shù)據(jù)挖掘分析[J].中國(guó)戰(zhàn)略新興產(chǎn)業(yè),2018,164(32):228-228.
[11]孫靜.大數(shù)據(jù)處理技術(shù)在智能交通中的應(yīng)用[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2019(5):52-56.
[12]翁小雄,劉永鑫,盧炬康.基于大數(shù)據(jù)挖掘的城市公交站點(diǎn)生活服務(wù)評(píng)價(jià)方法研究[J].現(xiàn)代電子技術(shù),2019,42(02):75-78.
[13]維克托·邁克·舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].盛楊燕,等譯.杭州:浙江人民出版社,2013.
[14]田董煒,陳岳濤,安俊杰.空間數(shù)據(jù)挖掘在城市地理信息系統(tǒng)中的應(yīng)用[J].科學(xué)技術(shù)創(chuàng)新,2018(19):55-56.
Research on Geospatial Topology Decision and Analysis Strategies in Big Data Environment
ZHANG Li
()
The paper first describes the characteristics of data as an information carrier in the big data environment. Then the differences between the geospatial topological analysis in big data environment and the traditional topological analysis are discussed in detail. Finally, this paper combines several big data topology analysis examples to discuss how to set topology decision rules and analysis strategies in three common cases of big data topology analysis. It includes some methods such as setting threshold value to do approximate processing, abstracting and simplifying spatial objects to change objects of topological analysis, filtering dirty data with business rules and processes, and reducing calculation workload to improve the timeliness of analysis and processing. It attempts to provide some useful references for big data analysis and application based on geospatial data.
big data; topological analysis; geospatial data; geographical information system (GIS)
2019-10-12
張立,男,江西波陽(yáng)縣人,博士,高級(jí)工程師,主要研究方向:空間數(shù)據(jù)的網(wǎng)絡(luò)發(fā)布,大數(shù)據(jù)分析與應(yīng)用,數(shù)據(jù)庫(kù)管理.
P208
A
1672-0318(2020)03-0011-08
10.13899/j.cnki.szptxb.2020.03.003