劉耀林,劉啟亮,鄧 敏,石 巖
1. 武漢大學(xué)資源與環(huán)境學(xué)院,湖北 武漢 430079; 2. 中南大學(xué)地球科學(xué)與信息物理學(xué)院,湖南 長沙 410083
近20年來,伴隨著傳感器技術(shù)與移動(dòng)定位技術(shù)的飛速發(fā)展,人類對地表系統(tǒng)的刻畫能力空前提升,地理學(xué)研究已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代[1-2]。地理大數(shù)據(jù)主要分為兩類[3]:①對地觀測大數(shù)據(jù),對地觀測能力的不斷進(jìn)步使得我們對自然界各種要素的描述越來越全面、越來越精細(xì),各種遙感、觀測臺站數(shù)據(jù)不僅能夠詳細(xì)刻畫地理環(huán)境,夜光遙感等數(shù)據(jù)還蘊(yùn)含了豐富的社會經(jīng)濟(jì)活動(dòng)信息[4-5]。②人類行為大數(shù)據(jù),傳感網(wǎng)絡(luò)的發(fā)展使得“人人都是傳感器”,志愿者定位數(shù)據(jù)、浮動(dòng)車行駛軌跡、移動(dòng)終端定位與通信記錄數(shù)據(jù)、社交網(wǎng)絡(luò)簽到數(shù)據(jù)、公交IC卡和自行車租賃信息等從社會生活的方方面面記錄了大量個(gè)體粒度的人類活動(dòng)信息[6-7]。全面涵蓋人類活動(dòng)與地理環(huán)境信息的地理大數(shù)據(jù)突破了傳統(tǒng)目的性采樣數(shù)據(jù)(或“小數(shù)據(jù)”)在數(shù)據(jù)范圍、時(shí)空粒度與信息內(nèi)涵等方面的局限,為更全面認(rèn)識“人-地”關(guān)系提供了新的機(jī)遇[8-9]。地理大數(shù)據(jù)在推動(dòng)科技進(jìn)步與社會經(jīng)濟(jì)發(fā)展等方面的巨大價(jià)值已經(jīng)引起了各國政府、工業(yè)界及學(xué)術(shù)界的廣泛關(guān)注[10]。美國、英國等國家相繼將大數(shù)據(jù)列為戰(zhàn)略性技術(shù),我國也已明確做出加快國家大數(shù)據(jù)戰(zhàn)略發(fā)展的重要部署。谷歌、微軟、華為、阿里等重要高技術(shù)企業(yè)一直在積極推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展?!禢ature》和《Science》也分別在2008年和2011年組織專刊探討大數(shù)據(jù)學(xué)術(shù)研究[11-12]。
地理大數(shù)據(jù)實(shí)現(xiàn)大價(jià)值的關(guān)鍵在于數(shù)據(jù)分析和挖掘[13]。當(dāng)前,來自地理信息科學(xué)、信息科學(xué)及復(fù)雜系統(tǒng)領(lǐng)域的諸多學(xué)者已經(jīng)針對地理大數(shù)據(jù)分析和挖掘開展了大量的研究,一些重要的成果相繼涌現(xiàn),如采用搜索引擎數(shù)據(jù)預(yù)測流感暴發(fā)[14]、采用手機(jī)數(shù)據(jù)預(yù)測人類行為[15]和制定新冠疫情防控措施[16]等;一些新的地理大數(shù)據(jù)分析和挖掘概念被相繼提出,如社會感知計(jì)算(socially aware computing)[17]、城市計(jì)算(urban computing)[18]、社會感知(social sensing)[19]等。經(jīng)過20多年的發(fā)展,地理大數(shù)據(jù)挖掘已經(jīng)由一個(gè)新生概念逐漸成長發(fā)展,在智慧城市[20]、交通管控[21]、公共安全[22]、環(huán)境保護(hù)[23]、氣候變化[24]、流行病防控[16]、礦產(chǎn)資源勘查[25]等領(lǐng)域發(fā)揮了重要價(jià)值。在取得這些進(jìn)展的同時(shí),也需要我們進(jìn)一步思考:地理大數(shù)據(jù)為數(shù)據(jù)挖掘帶來了哪些新的機(jī)遇和挑戰(zhàn)?地理大數(shù)據(jù)挖掘方法相比傳統(tǒng)的空間數(shù)據(jù)挖掘方法到底有哪些獨(dú)特性?未來地理大數(shù)據(jù)挖掘需要突破哪些關(guān)鍵問題?本文嘗試從3個(gè)方面回答上述問題:首先,從地理大數(shù)據(jù)的特點(diǎn)出發(fā)對地理大數(shù)據(jù)挖掘的獨(dú)特性與繼承性進(jìn)行剖析;然后,對當(dāng)前代表性的地理大數(shù)據(jù)挖掘方法與應(yīng)用案例進(jìn)行分類和評述;最后,對地理大數(shù)據(jù)挖掘未來的發(fā)展方向進(jìn)行展望。
地理大數(shù)據(jù)挖掘面臨的挑戰(zhàn)和機(jī)遇本質(zhì)上是由于地理大數(shù)據(jù)具有與傳統(tǒng)目的性采樣“小數(shù)據(jù)”不同的獨(dú)有特征。通常認(rèn)為大數(shù)據(jù)具有“5V”特征[26],即海量(volume)、更新速度快(velocity)、多樣性(variety)、價(jià)值密度低(value)和真實(shí)性差(veracity)。實(shí)際上,上述“5V”特征自20世紀(jì)90年代提出空間數(shù)據(jù)挖掘的概念以來,也被認(rèn)為是空間數(shù)據(jù)的重要特征[27]。地理大數(shù)據(jù)真正區(qū)別于傳統(tǒng)空間數(shù)據(jù)的特征是什么?筆者認(rèn)為其關(guān)鍵區(qū)別體現(xiàn)在采集手段、信息內(nèi)涵與尺度特征3個(gè)方面(表1)。
表1 地理大數(shù)據(jù)與傳統(tǒng)空間數(shù)據(jù)的區(qū)別
與傳統(tǒng)空間數(shù)據(jù)相比,地理大數(shù)據(jù)的采集由專業(yè)化走向大眾化。傳統(tǒng)空間數(shù)據(jù)或“小數(shù)據(jù)”一般是專業(yè)人員針對具體的地理現(xiàn)象或應(yīng)用目的,設(shè)計(jì)專門的數(shù)據(jù)采集方法(如抽樣框架)[28]。這些數(shù)據(jù)的采集精度、代表性和可靠性具有嚴(yán)格的控制標(biāo)準(zhǔn),可以直接反映地理現(xiàn)象的特征[9]。地理大數(shù)據(jù)的提供者不僅包括測繪地理信息領(lǐng)域?qū)I(yè)人員,還包括大量的非專業(yè)機(jī)構(gòu)和人員。這些非專業(yè)機(jī)構(gòu)提供的地理大數(shù)據(jù)往往是其主營業(yè)務(wù)的副產(chǎn)品,并不能保證(往往也不關(guān)心)數(shù)據(jù)采集的精度、代表性和可靠性[29]。例如:出租車軌跡數(shù)據(jù)由于GPS定位誤差、車輛運(yùn)營及高層建筑的影響,其大量軌跡點(diǎn)偏離城市道路且不同行駛方向軌跡點(diǎn)交錯(cuò)混雜[30];微博的用戶中46歲以上的人群比例極低,且女性用戶比例更高[31];搜索引擎中搜索“流感”關(guān)鍵詞的用戶并不一定已經(jīng)患上流感[32]。地理大數(shù)據(jù)中包含的這些缺乏質(zhì)量控制與抽樣設(shè)計(jì)的成分,對傳統(tǒng)針對“小數(shù)據(jù)”設(shè)計(jì)的挖掘方法提出了挑戰(zhàn)[33]。
相比傳統(tǒng)空間數(shù)據(jù),地理大數(shù)據(jù)的內(nèi)涵更加豐富,尤其是包含了大量的人類活動(dòng)信息。傳統(tǒng)空間數(shù)據(jù)更多關(guān)注地表自然地理要素,海量的對地觀測數(shù)據(jù)與觀測臺站數(shù)據(jù)可以對地表物理空間進(jìn)行較好地反映,但是人類活動(dòng)信息較為缺乏,難以全面刻畫地理學(xué)核心的“人-地”關(guān)系問題[19]。例如:城市土地利用是人類活動(dòng)的綜合體,以往多是采用遙感影像進(jìn)行土地利用分類,這種方法僅考慮了土地利用的物理特征,而難以估計(jì)人類活動(dòng)的社會經(jīng)濟(jì)屬性,導(dǎo)致一些無人居住的“鬼城”仍然會被識別為住宅區(qū)[34]。大數(shù)據(jù)時(shí)代,手機(jī)信令、公交/地鐵智能卡數(shù)據(jù)、車輛軌跡數(shù)據(jù)等新興地理大數(shù)據(jù)蘊(yùn)含了豐富的人類活動(dòng)信息,可以從更全面的視角探索“人-地”關(guān)系[3]。例如:手機(jī)信令數(shù)據(jù)在新冠疫情防控和流調(diào)中發(fā)揮了重要的作用[35]。
地理大數(shù)據(jù)與傳統(tǒng)空間數(shù)據(jù)相比,具有更精細(xì)的尺度。地理大數(shù)據(jù)的尺度也可以用一組參數(shù)進(jìn)行描述,如分辨率、范圍等[36]。地理大數(shù)據(jù)具有更加精細(xì)的時(shí)空分辨率。例如傳統(tǒng)的人口調(diào)查數(shù)據(jù)通常是以人口普查小區(qū)為基本單元,數(shù)據(jù)更新時(shí)間以年為單位,而采用手機(jī)信令數(shù)據(jù)幾乎可以估計(jì)城市中每個(gè)個(gè)體的位置,時(shí)間分辨率以分鐘為單位[37]。地理大數(shù)據(jù)具有更廣的時(shí)空范圍。針對傳統(tǒng)空間數(shù)據(jù)而言,雖然遙感數(shù)據(jù)可以對地表進(jìn)行大范圍的觀測,但是涉及人類社會經(jīng)濟(jì)屬性的數(shù)據(jù),由于采集成本與采集能力的限制,往往難以進(jìn)行大范圍的觀測。例如傳統(tǒng)的城市居民出行數(shù)據(jù)多是采用問卷調(diào)查的形式,難以進(jìn)行大范圍的人類出行規(guī)律識別,而當(dāng)前百度人口遷徙數(shù)據(jù)(https:∥qianxi.baidu.com/)與騰訊提供的用戶定位信息(https:∥heat.qq.com/bigdata/index.htm)等數(shù)據(jù)可以反映全國范圍的人口活動(dòng)及流動(dòng)模式,可以從更加宏觀的視角探索“人-地”關(guān)系。
雖然地理大數(shù)據(jù)的獨(dú)特性對地理大數(shù)據(jù)挖掘方法提出了新的挑戰(zhàn),但是地理大數(shù)據(jù)挖掘方法與起源于計(jì)量地理學(xué)革命時(shí)期的空間統(tǒng)計(jì)分析方法及20世紀(jì)90年代以來的空間數(shù)據(jù)挖掘方法具有繼承和發(fā)展的關(guān)系。筆者認(rèn)為,與空間數(shù)據(jù)挖掘相比,現(xiàn)有地理大數(shù)據(jù)挖掘的根本任務(wù)與挖掘方法的設(shè)計(jì)思路仍然具有明顯的繼承性。
地理大數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘的任務(wù)和內(nèi)容是基本相同的。針對挖掘的目的而言,二者都是希望發(fā)現(xiàn)數(shù)據(jù)中隱含的、未知的、潛在有用的模式或知識。這些挖掘結(jié)果本質(zhì)上是為了輔助對地理現(xiàn)象時(shí)空格局、關(guān)聯(lián)關(guān)系和演化過程的理解[38]。針對挖掘內(nèi)容而言,對于時(shí)空格局的挖掘,二者都是采用聚類分析與異常探測的方法發(fā)現(xiàn)時(shí)空分布的規(guī)律性與例外性;對于關(guān)聯(lián)關(guān)系的挖掘,二者均是采用關(guān)聯(lián)規(guī)則挖掘、回歸分析等方法發(fā)現(xiàn)地理變量間定性與定量的聯(lián)系;對于演化過程挖掘,二者均是采用統(tǒng)計(jì)方法或神經(jīng)網(wǎng)絡(luò)的方法,依據(jù)歷史數(shù)據(jù)和/或外部影響變量間的聯(lián)系,對地理現(xiàn)象未來的發(fā)展變化狀態(tài)進(jìn)行預(yù)測。
地理大數(shù)據(jù)挖掘方法與空間數(shù)據(jù)挖掘方法的設(shè)計(jì)思路是基本相同的。就挖掘方法而言,二者主要還是依賴聚類分析、異常探測、關(guān)聯(lián)規(guī)則挖掘、機(jī)器學(xué)習(xí)等方法。就聚類分析而言,地理大數(shù)據(jù)聚類對簇的認(rèn)知沒有發(fā)生改變,仍然是基于中心的簇、基于連接的簇和基于密度的簇3種類型[39];針對異常探測方法,全局異常、局部異常、背景異常的認(rèn)識在地理大數(shù)據(jù)異常探測中仍然適用[40];地理大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘方法的設(shè)計(jì)仍是基于頻繁度與鄰近性的思想[41]。地理大數(shù)據(jù)挖掘方法與空間數(shù)據(jù)挖掘方法的主要設(shè)計(jì)難點(diǎn)都是針對時(shí)空相關(guān)性、異質(zhì)性及尺度依賴性的建模[42-44]。
地理大數(shù)據(jù)的特殊性為地理大數(shù)據(jù)挖掘帶來了新的機(jī)遇與挑戰(zhàn)。本文將主要針對地理大數(shù)據(jù)挖掘方法、應(yīng)用及軟件的研究進(jìn)展進(jìn)行回顧。
雖然地理大數(shù)據(jù)的任務(wù)、內(nèi)容及方法設(shè)計(jì)繼承了空間數(shù)據(jù)挖掘的研究成果,但是由于地理大數(shù)據(jù)的獨(dú)特性,近年來國內(nèi)外學(xué)者已經(jīng)在空間數(shù)據(jù)挖掘的基礎(chǔ)上,發(fā)展了一系列針對性的地理大數(shù)據(jù)挖掘方法。下面將針對地理大數(shù)據(jù)聚類分析、異常探測、關(guān)聯(lián)關(guān)系挖掘及預(yù)測建模的主要進(jìn)展進(jìn)行分析和總結(jié)。
2.1.1 地理大數(shù)據(jù)聚類分析
地理大數(shù)據(jù)聚類分析旨在依據(jù)地理實(shí)體間的相似性,將地理實(shí)體劃分為一系列內(nèi)部相似、外部相異的簇結(jié)構(gòu)。地理大數(shù)據(jù)聚類是發(fā)現(xiàn)地理時(shí)空格局的重要手段。當(dāng)前地理大數(shù)據(jù)聚類分析方法主要還是分為3種類型[45]:劃分的方法(簇可以用其中心表示,且簇內(nèi)實(shí)體與簇的中心盡可能接近,而盡可能遠(yuǎn)離其他簇的中心)、層次的方法(簇由實(shí)體通過相互間的鄰近關(guān)系構(gòu)成)及基于密度的方法(簇被定義為被低密度區(qū)域分隔的連通高密度區(qū)域)。地理大數(shù)據(jù)聚類分析在3個(gè)方面具有新的變化:①新的聚類特征。人類移動(dòng)軌跡、手機(jī)信令等數(shù)據(jù)蘊(yùn)含的人類互動(dòng)特征需要一定的特征表征方法進(jìn)行量化,當(dāng)前學(xué)者們已經(jīng)從出行OD數(shù)據(jù)中構(gòu)造了不同類型的特征向量進(jìn)行聚類分析[46-47],能夠更好地發(fā)現(xiàn)人類活動(dòng)的時(shí)空分異特征,可以從人類活動(dòng)的視角對從城市空間結(jié)構(gòu)進(jìn)行認(rèn)知和反演;也有一些學(xué)者采用矩陣分解、詞嵌入等方法發(fā)現(xiàn)人類活動(dòng)的隱含特征[48-49]。②流數(shù)據(jù)的聚類分析。地理流描述了兩個(gè)空間位置間的人流活動(dòng)、物質(zhì)交換等信息,改變了以距離度量空間相關(guān)性的傳統(tǒng)認(rèn)知(例如兩個(gè)很遠(yuǎn)的地點(diǎn),如果二者人流聯(lián)系緊密也可能具有較高的相關(guān)性)[50-51]。近年來學(xué)者們針對流數(shù)據(jù)的距離度量、密度定義開展了大量的研究工作,并拓展了當(dāng)前局部空間相關(guān)性統(tǒng)計(jì)量、層次聚類和基于密度的聚類方法,發(fā)展了一系列針對聚合流數(shù)據(jù)和單個(gè)流數(shù)據(jù)的聚類方法[52-58]。流數(shù)據(jù)的聚類分析能夠定量化地描述人群移動(dòng)模式的時(shí)空分布規(guī)律,有利于深入理解人群移動(dòng)行為與城市空間結(jié)構(gòu)的耦合關(guān)系[59-60]。圖1展示了采用共享鄰近密度聚類方法[58]發(fā)現(xiàn)的北京市出租車OD流在早高峰的聚類模式,可以清晰發(fā)現(xiàn)不同區(qū)域間的強(qiáng)交互作用及OD流的聚散模式。③空間嵌入圖的聚類分析。地理單元之間通過人流、物流、信息流體現(xiàn)出的交互作用構(gòu)成了一種空間嵌入圖(節(jié)點(diǎn)為地理單元,節(jié)點(diǎn)間邊的權(quán)重表示了空間交互的強(qiáng)度)??臻g嵌入圖聚類旨在發(fā)現(xiàn)空間嵌入圖中聯(lián)系緊密的子圖結(jié)構(gòu)(或空間社團(tuán)),對于城市空間結(jié)構(gòu)理解具有重要價(jià)值[61]。當(dāng)前興起于復(fù)雜網(wǎng)絡(luò)領(lǐng)域的社團(tuán)檢測方法[62-63]已被拓展應(yīng)用于空間嵌入圖聚類,其主要工作集中于如何在聚類過程中考慮空間相關(guān)性(如在聚類過程中施加空間鄰近性約束[64-66]或在聚類目標(biāo)函數(shù)中建??臻g衰減效應(yīng)[67-68])。近年來,在聚類分析中融入先驗(yàn)知識亦開始引起國內(nèi)外學(xué)者的注意,一些研究開始嘗試借助知識圖譜表達(dá)領(lǐng)域知識,并建模于聚類模型之中[69]。融入先驗(yàn)知識的聚類模型更有利于發(fā)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)模型難以發(fā)現(xiàn)的聚集模式[70],是未來地理大數(shù)據(jù)聚類分析研究的一個(gè)重要方向。
圖1 北京市五環(huán)內(nèi)2016年5月23日早高峰(8:00—10:00)出租車OD流聚類分析[58]
2.1.2 地理大數(shù)據(jù)異常探測
地理大數(shù)據(jù)異常探測旨在發(fā)現(xiàn)非觀測誤差導(dǎo)致的、偏離整體或局部分布特征的少部分地理實(shí)體。當(dāng)前的地理大數(shù)據(jù)異常探測方法仍主要分為3種類型[40],即全局的方法(發(fā)現(xiàn)偏離全體數(shù)據(jù)分布的異常數(shù)據(jù))、局部的方法(發(fā)現(xiàn)偏離局部數(shù)據(jù)分布的異常數(shù)據(jù))及考慮背景信息(發(fā)現(xiàn)違背已知常識的異常數(shù)據(jù))的方法。傳統(tǒng)的空間數(shù)據(jù)異常探測主要是針對時(shí)空位置信息與專題屬性信息的異常數(shù)據(jù)識別[71-72]。地理大數(shù)據(jù)異常探測將位空間鄰近性度量的概念擴(kuò)展至“動(dòng)態(tài)流空間”與“多維場景空間”[50,73],從地理流過程相似性、地理場景綜合相似性等多視角刻畫地理實(shí)體在演化過程中的突變程度。地理大數(shù)據(jù)異常探測在3個(gè)方面具有新的變化:①在移動(dòng)對象幾何形態(tài)、行為特征等變量的相似性約束下,探測移動(dòng)對象在時(shí)空演化過程中表現(xiàn)出的異常行為或?qū)傩誀顟B(tài)。例如:時(shí)空軌跡大數(shù)據(jù)中的離群對象與異常移動(dòng)行為[74-75]、空間交互出行流異常載荷與流量熱點(diǎn)[76-77]等。②在移動(dòng)對象動(dòng)態(tài)演化過程相似性條件約束下(如車輛時(shí)空可達(dá)約束、人群移動(dòng)強(qiáng)度相似性約束等),發(fā)現(xiàn)呈現(xiàn)出的稀有分異格局或發(fā)展態(tài)勢[78-81]。③在高時(shí)空分辨率地理大數(shù)據(jù)支持下,土地利用信息、城市景觀分布、水土氣污染分布、人類行為活動(dòng)等復(fù)雜地理過程被抽象為隨時(shí)間持續(xù)動(dòng)態(tài)變化的流數(shù)據(jù),多元地理要素的關(guān)聯(lián)性可以在異常識別過程中被定量建模,提升了異常識別準(zhǔn)確性與可解釋性[82-84]。例如:集成多源人群移動(dòng)數(shù)據(jù)中的異?;顒?dòng)信息可以有效增強(qiáng)對人類活動(dòng)異常信號的表征能力,提升異常識別的靈敏度。
2.1.3 地理大數(shù)據(jù)關(guān)聯(lián)關(guān)系挖掘
地理大數(shù)據(jù)關(guān)聯(lián)關(guān)系挖掘旨在定量或定性地發(fā)現(xiàn)地理實(shí)體間的聯(lián)系?;貧w分析是地理大數(shù)據(jù)關(guān)聯(lián)關(guān)系定量挖掘的代表性方法,近年來學(xué)者們在如何建模時(shí)空相關(guān)性、異質(zhì)性與變量間非線性關(guān)系等方面取得了一些重要的進(jìn)展,例如:時(shí)空地理加權(quán)回歸[85]、時(shí)空回歸克里金[86]等。關(guān)聯(lián)規(guī)則挖掘是地理大數(shù)據(jù)關(guān)聯(lián)關(guān)系定性挖掘的代表性方法,旨在發(fā)現(xiàn)在相鄰時(shí)空區(qū)域內(nèi)頻繁出現(xiàn)的地理對象關(guān)系。早期的空間關(guān)聯(lián)規(guī)則挖掘方法主要是采用空間剖分的方法構(gòu)建空間事務(wù),然后應(yīng)用事務(wù)型關(guān)聯(lián)規(guī)則挖掘方法(如Apriori)發(fā)現(xiàn)空間關(guān)聯(lián)規(guī)則[87-88],此類方法割裂了地理現(xiàn)象間的時(shí)空聯(lián)系。當(dāng)前地理大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘方法多不采用空間事務(wù)化的策略,而是基于鄰近性與頻繁性思路發(fā)現(xiàn)連續(xù)時(shí)空區(qū)域內(nèi)的關(guān)聯(lián)關(guān)系[89],主要取得了以下3方面進(jìn)展:①局部關(guān)聯(lián)規(guī)則挖掘模型。由于空間異質(zhì)性的影響,關(guān)聯(lián)規(guī)則經(jīng)常在不同區(qū)域具有不同的表現(xiàn)形式,近年來學(xué)者們重點(diǎn)基于圖劃分和聚類分析的思想,發(fā)展了一系列局部關(guān)聯(lián)規(guī)則挖掘模型[90-96],可以更加全面地發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。例如:全局與局部的城市興趣點(diǎn)關(guān)聯(lián)規(guī)則對于全面地理解城市功能組合規(guī)律具有重要價(jià)值[97]。②關(guān)聯(lián)規(guī)則統(tǒng)計(jì)推斷??臻g關(guān)聯(lián)規(guī)則挖掘往往需要人為設(shè)置頻繁度閾值對規(guī)則有效性進(jìn)行評價(jià),而在大規(guī)模地理大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘任務(wù)中,閾值參數(shù)很難設(shè)定。近年來,學(xué)者們基于隨機(jī)重排檢驗(yàn)的思想,通過融入關(guān)聯(lián)規(guī)則的認(rèn)知規(guī)律(如空間自相關(guān)對關(guān)聯(lián)規(guī)則的影響)發(fā)展了一系列全局和局部關(guān)聯(lián)規(guī)則統(tǒng)計(jì)推斷方法[98-102]。這些方法提升了關(guān)聯(lián)規(guī)則挖掘的可靠性和可操作性,例如通過對犯罪事件與地理因子間關(guān)聯(lián)規(guī)則進(jìn)行統(tǒng)計(jì)推斷,可以排除一些虛假的關(guān)聯(lián)模式,從而能夠更好地輔助決策。③考慮額外約束的關(guān)聯(lián)規(guī)則挖掘模型。地理大數(shù)據(jù)通常具有時(shí)空屬性,而且人類活動(dòng)受到道路網(wǎng)絡(luò)等約束。近年來,學(xué)者們已經(jīng)開始在地理大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘中,通過修改鄰近關(guān)系識別方法建模時(shí)空耦合關(guān)系與路網(wǎng)約束[103-107],可以進(jìn)一步提升挖掘結(jié)果的可靠性與可解釋性。圖2展示了采用時(shí)空事件級聯(lián)關(guān)聯(lián)規(guī)則挖掘方法[106]發(fā)現(xiàn)的我國京津冀地區(qū)2014年冬季與2015年春季PM2.5污染事件時(shí)空傳播規(guī)律,對于空氣污染物溯源及空氣污染物傳播規(guī)律理解具有指導(dǎo)價(jià)值。圖中,箭頭為傳播路徑,點(diǎn)為空氣質(zhì)量監(jiān)測站點(diǎn)。
圖2 京津冀地區(qū)PM2.5污染事件時(shí)空傳播規(guī)律[106]
2.1.4 地理大數(shù)據(jù)預(yù)測建模
地理大數(shù)據(jù)預(yù)測建模旨在構(gòu)建反映地理變量間時(shí)空聯(lián)系的模型,對地理實(shí)體未來的狀態(tài)或?qū)傩赃M(jìn)行估計(jì)。地理大數(shù)據(jù)預(yù)測建模是發(fā)現(xiàn)地理現(xiàn)象演化規(guī)律的重要手段。地理大數(shù)據(jù)預(yù)測建模的主要方法分為兩類:基于統(tǒng)計(jì)學(xué)的方法與基于機(jī)器學(xué)習(xí)的方法[108]?;诮y(tǒng)計(jì)學(xué)的方法主要是依據(jù)歷史數(shù)據(jù)的時(shí)空相關(guān)性建模實(shí)現(xiàn)預(yù)測,代表性方法如時(shí)空自回歸移動(dòng)平均模型、時(shí)空地統(tǒng)計(jì)模型等[109]?;诮y(tǒng)計(jì)學(xué)的方法難以建模變量間的非線性關(guān)系,基于機(jī)器學(xué)習(xí)的方法在地理大數(shù)據(jù)預(yù)測建模任務(wù)中逐漸得到重視。伴隨著深度學(xué)習(xí)技術(shù)在近十年來的突破性進(jìn)展,各種深度網(wǎng)絡(luò)已經(jīng)成為當(dāng)前地理大數(shù)據(jù)預(yù)測的主要手段,廣泛應(yīng)用于空氣質(zhì)量預(yù)測、交通流量/速度預(yù)測、人流量預(yù)測等領(lǐng)域[110]。地理大數(shù)據(jù)預(yù)測建模的主要進(jìn)展可以總結(jié)為以下兩個(gè)方面:①時(shí)空耦合的地理大數(shù)據(jù)預(yù)測建模方法。現(xiàn)有研究主要采用兩種策略整合時(shí)間和空間相關(guān)性信息提升預(yù)測精度,一種是通過整合空間和時(shí)間預(yù)測模型[111-113];另一種是將空間和時(shí)間預(yù)測模型進(jìn)行嵌套[114-118]。常用的空間預(yù)測模型主要包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)及其變種(用于建模規(guī)則數(shù)據(jù))[119]、圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)[120]及其變種(用于建模非規(guī)則數(shù)據(jù))。常用的時(shí)間預(yù)測模型主要采用長短期記憶網(wǎng)絡(luò)(LSTM)[121]及其變種,亦有研究對時(shí)間序列進(jìn)行分解,針對相鄰時(shí)間點(diǎn)、周期時(shí)段和趨勢部分的建模結(jié)果進(jìn)行融合[114]。②地理大數(shù)據(jù)時(shí)空異質(zhì)性建模。地理變量間的關(guān)系通常是時(shí)空非平穩(wěn)的,例如:風(fēng)速、風(fēng)向、地形、污染源等空氣質(zhì)量影響因素與空氣污染物濃度間的關(guān)系在不同時(shí)間和地點(diǎn)經(jīng)常是不同的。時(shí)空異質(zhì)性具有兩種表現(xiàn)形式:分層異質(zhì)性與局部異質(zhì)性[122]?,F(xiàn)有研究主要采用兩種策略建模時(shí)空異質(zhì)性,針對分層異質(zhì)性,首先對時(shí)空數(shù)據(jù)進(jìn)行聚類分析,進(jìn)而在每個(gè)較為均勻的分區(qū)內(nèi)建立預(yù)測模型[123-124];針對局部異質(zhì)性,主要借鑒地理加權(quán)回歸的思想,針對每個(gè)時(shí)空位置分別建立預(yù)測模型[125-126]。數(shù)據(jù)驅(qū)動(dòng)的預(yù)測模型雖然已經(jīng)取得了重要進(jìn)展,但是也存在預(yù)測結(jié)果與實(shí)際地理現(xiàn)象變化規(guī)律不符的缺陷,直接導(dǎo)致預(yù)測結(jié)果難以解釋、穩(wěn)定性差[127]。近年來,有學(xué)者開始探索將地理現(xiàn)象的物理變化規(guī)律融入預(yù)測模型,提升了預(yù)測模型的可解釋性與泛化性能,具體策略包括物理規(guī)律引導(dǎo)的初始化、物理規(guī)律引導(dǎo)的網(wǎng)絡(luò)損失函數(shù)及物理規(guī)律引導(dǎo)的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)等[128]。
當(dāng)前,地理大數(shù)據(jù)挖掘在應(yīng)用方面也取得了重要的成果,尤其是在城市規(guī)劃、智能交通、環(huán)境保護(hù)、公共安全等領(lǐng)域受到廣泛關(guān)注。下面將重點(diǎn)針對地理大數(shù)據(jù)在以上4個(gè)方面的應(yīng)用成果進(jìn)行回顧和總結(jié)。
城市規(guī)劃領(lǐng)域是當(dāng)前地理大數(shù)據(jù)挖掘應(yīng)用最廣泛、最深入的領(lǐng)域[129]。地理大數(shù)據(jù)使得從微觀、動(dòng)態(tài)的視角發(fā)現(xiàn)城市中“人-地”耦合關(guān)系成為可能,促進(jìn)了“以人為本”的城市規(guī)劃設(shè)計(jì),為分析城市發(fā)展現(xiàn)狀、理解城市發(fā)展機(jī)制及科學(xué)規(guī)劃城市發(fā)展提供了最基礎(chǔ)的素材[130]。地理大數(shù)據(jù)挖掘已廣泛應(yīng)用于區(qū)域聯(lián)系與等級體系研究、城市居民活動(dòng)模式反演、城市功能與空間結(jié)構(gòu)識別等方面,為城市規(guī)劃提供了重要的決策信息[18,59,131]。在區(qū)域聯(lián)系與等級體系研究方面,互聯(lián)網(wǎng)數(shù)據(jù)、社交媒體數(shù)據(jù)、人口遷徙、手機(jī)信令、車輛軌跡等數(shù)據(jù)已用于定量衡量不同研究粒度上區(qū)域間的聯(lián)系強(qiáng)度[7],重力模型、社團(tuán)檢測方法及層級分析等方法已被廣泛應(yīng)用于識別城市的等級體系[68,132-133]。在城市居民活動(dòng)模式反演方面,對不同類型人群活動(dòng)數(shù)據(jù)反映的個(gè)體移動(dòng)規(guī)律已經(jīng)有了較為深刻的認(rèn)識(如移動(dòng)步長規(guī)律、重訪概率等);地理大數(shù)據(jù)挖掘方法已經(jīng)可以有效支持人群移動(dòng)的“韻律性”規(guī)律、時(shí)空聚散規(guī)律及活動(dòng)類型的識別[134-137];當(dāng)前已經(jīng)可以實(shí)現(xiàn)城市人口分布的精細(xì)化制圖與動(dòng)態(tài)預(yù)測[37,138]。在城市功能與空間結(jié)構(gòu)識別方面,國內(nèi)外學(xué)者已經(jīng)采用多種類型人類活動(dòng)軌跡數(shù)據(jù)、社交媒體數(shù)據(jù)、城市街景數(shù)據(jù)、城市興趣點(diǎn)及夜光遙感數(shù)據(jù),借助聚類分析、關(guān)聯(lián)規(guī)則挖掘、詞嵌入等方法,開展了城市功能區(qū)劃、城市中心區(qū)識別與土地利用反演等研究[47-48,97,139-141];近年來,采用多源地理大數(shù)據(jù)進(jìn)行場所語義推測及場所情感感知等方面也取得了重要進(jìn)展[142-143],可以進(jìn)一步反映人類對城市物質(zhì)空間的認(rèn)知和感受。
地理大數(shù)據(jù)挖掘在智能交通領(lǐng)域的應(yīng)用已經(jīng)得到了廣泛關(guān)注。海量、多源、動(dòng)態(tài)、細(xì)粒度的車輛軌跡數(shù)據(jù)在道路信息提取、交通狀態(tài)感知及交通流預(yù)測方面發(fā)揮了重要作用,有力提升了城市交通運(yùn)營、管理與規(guī)劃的水平[144]。在交通道路信息提取方面,地理大數(shù)據(jù)挖掘方法(如聚類分析)已經(jīng)可以實(shí)現(xiàn)從多源車輛軌跡數(shù)據(jù)中生成高精度城市路網(wǎng)及道路語義信息(如方向、速度、車道數(shù)等)[145-148],有效服務(wù)于車輛導(dǎo)航等實(shí)際應(yīng)用。在交通狀態(tài)感知方面,地理大數(shù)據(jù)挖掘方法(如異常探測、矩陣分解等方法)已經(jīng)被應(yīng)用于交通擁堵與異常模式識別[149-150]、通行時(shí)間估計(jì)[151]、交通能耗估計(jì)[152]及交通調(diào)度和路徑優(yōu)化[153-154]等方面,有利于提升交通系統(tǒng)的運(yùn)行效率,緩解交通擁堵等城市病問題。在交通流預(yù)測方面,基于機(jī)器學(xué)習(xí)的預(yù)測模型已經(jīng)被廣泛應(yīng)用于交通流量預(yù)測與道路速度預(yù)測[116-118,155],可為交通管理提供重要的決策信息。
地理大數(shù)據(jù)挖掘在環(huán)境保護(hù)方面的應(yīng)用價(jià)值逐漸受到重視,已在城市空氣、水質(zhì)及噪聲污染防控等實(shí)際應(yīng)用中發(fā)揮了重要作用。在城市空氣污染防控方面,地理大數(shù)據(jù)挖掘不僅可以被用于發(fā)現(xiàn)空氣污染的時(shí)空變化規(guī)律,而且可以實(shí)現(xiàn)高精度、高時(shí)空分辨率空氣質(zhì)量預(yù)測[123-124,156]。例如采用歷史PM2.5濃度數(shù)據(jù)及城市興趣點(diǎn)、交通、氣象等數(shù)據(jù),基于機(jī)器學(xué)習(xí)方法構(gòu)建的預(yù)測模型可以實(shí)現(xiàn)千米格網(wǎng)、小時(shí)分辨率的高精度連續(xù)預(yù)測,對于控制污染與保護(hù)人民健康具有重要價(jià)值[112]。在城市水資源保護(hù)中,融合水質(zhì)檢測歷史數(shù)據(jù)與多類型影響變量(如降水、興趣點(diǎn)等)構(gòu)建的智能預(yù)測模型可以實(shí)現(xiàn)城市水質(zhì)的高精度連續(xù)預(yù)測[157-158],可為水污染預(yù)警預(yù)報(bào)提供重要的決策信息。在城市噪聲污染防控方面,現(xiàn)有研究已采用多源地理大數(shù)據(jù)協(xié)同分析不同區(qū)域、不同時(shí)段的噪聲污染情況,可以克服噪聲污染監(jiān)測的稀疏性問題,服務(wù)于城市噪聲污染防控[159-160]。
地理大數(shù)據(jù)在公共安全方面也取得了重要的應(yīng)用成果,尤其在城市犯罪預(yù)防、人群聚集風(fēng)險(xiǎn)評估與流行病防控方法發(fā)揮了重要作用。在城市犯罪防控方面,地理大數(shù)據(jù)挖掘不僅可以被用于識別犯罪熱點(diǎn)區(qū)域與時(shí)空分布規(guī)律,而且可以發(fā)現(xiàn)影響犯罪的空間因素,對于預(yù)防犯罪具有重要價(jià)值[102,161]。在人群聚集風(fēng)險(xiǎn)評估方面,地理大數(shù)據(jù)挖掘方法可以從多源人群活動(dòng)數(shù)據(jù)中發(fā)現(xiàn)人群異常的聚集現(xiàn)象,可為管理部門提供預(yù)警信息,降低人群踩踏等公共安全事件發(fā)生的風(fēng)險(xiǎn)[135,162]。地理大數(shù)據(jù)挖掘在流行病防控方面已經(jīng)發(fā)揮了重要作用,例如通過對病例人群軌跡數(shù)據(jù)進(jìn)行時(shí)空聚集分析,可以有效地進(jìn)行傳染病溯源,發(fā)現(xiàn)潛在的易感染人群[163];新冠疫情防控中,結(jié)合手機(jī)信令數(shù)據(jù)和病例數(shù)據(jù)可以發(fā)現(xiàn)不同因素對疾病傳播的影響,并預(yù)測新冠病例的地域分布與傳播規(guī)律,為政府制定防疫政策提供了科學(xué)的依據(jù)[16,164]。
海量、多源地理大數(shù)據(jù)的存儲、管理和高效計(jì)算對傳統(tǒng)的空間數(shù)據(jù)挖掘軟件提出了新的挑戰(zhàn)。地理大數(shù)據(jù)挖掘需要分布式、并行計(jì)算的支持[165]。以Apache Hadoop為代表的開源大數(shù)據(jù)框架為大數(shù)據(jù)高性能存儲和計(jì)算提供了重要支撐[166]。Hadoop框架采用Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)實(shí)現(xiàn)了對大規(guī)模數(shù)據(jù)集的分布式存儲,采用MapReduce[167]計(jì)算框架實(shí)現(xiàn)了對大規(guī)模數(shù)據(jù)集的并行處理。MapReduce將每次處理的過程數(shù)據(jù)存入磁盤,由此產(chǎn)生的反復(fù)磁盤I/O操作影響計(jì)算效率。為了解決這一問題,Spark計(jì)算引擎采用抽象彈性分布式數(shù)據(jù)集(resilient distributed datasets,RDD),將中間運(yùn)算結(jié)果保存在內(nèi)存中,避免了對分布式文件的反復(fù)讀寫,其運(yùn)算效率顯著高于MapReduce[168]。Hadoop與Spark沒有考慮地理大數(shù)據(jù)的空間屬性,從而限制了其地理大數(shù)據(jù)存儲與計(jì)算的能力。近年來,一些專門的地理大數(shù)據(jù)計(jì)算框架已經(jīng)出現(xiàn),例如SpatialHadoop[169]對Hadoop的每一層(語言層、存儲層、MapReduce層和操作層)均進(jìn)行了空間擴(kuò)展,實(shí)現(xiàn)了對地理大數(shù)據(jù)的空間數(shù)據(jù)索引和空間操作功能;GeoSpark[170]對RDD進(jìn)行了空間拓展,實(shí)現(xiàn)了地理大數(shù)據(jù)的幾何操作和空間查詢能力。除了以Hadoop和Spark為代表的地理大數(shù)據(jù)計(jì)算框架,近年來,一些地理大數(shù)據(jù)集成技術(shù)平臺也受到了廣泛關(guān)注,例如CyberGIS[171]平臺集成信息基礎(chǔ)設(shè)施(Cyber infrastructure)、地理大數(shù)據(jù)資源與數(shù)據(jù)挖掘方法,可為數(shù)據(jù)密集型與計(jì)算密集型應(yīng)用提供有效的解決方案。HiGIS[172]基于高性能計(jì)算技術(shù)(HPC),提供了地理大數(shù)據(jù)存儲服務(wù)、計(jì)算服務(wù)與制圖服務(wù)。
當(dāng)前主流的商業(yè)地理信息軟件已經(jīng)開始集成地理大數(shù)據(jù)挖掘功能。例如ESRI公司基于Spark框架推出了ArcGIS GeoAnalytics Server和ArcGIS Image Server用于支持地理大數(shù)據(jù)挖掘,其可以支持云存儲、HDFS、Hive數(shù)據(jù)倉庫等多種來源的大數(shù)據(jù),并提供了地理大數(shù)據(jù)挖掘工具箱(https:∥enterprise.arcgis.com/zh-cn/)。MapGIS基于Hadoop、Spark等分布式計(jì)算框架支持地理大數(shù)據(jù)管理與計(jì)算(https:∥www.mapgis.com/index.php?a=shows&catid=8&id=139):結(jié)合PostgreSQL、Elasticsearch、HDFS等多種存儲引擎構(gòu)建MapGIS DataStore組件,實(shí)現(xiàn)地理大數(shù)據(jù)存儲;開發(fā)了云服務(wù)集群引擎IGServer和大數(shù)據(jù)計(jì)算引擎IGServer-X,提供地理大數(shù)據(jù)挖掘服務(wù)。SuperMap采用HBase和HDFS提供大規(guī)模矢量數(shù)據(jù)的存儲服務(wù),同時(shí)通過Elasticsearch引擎提供大規(guī)模流數(shù)據(jù)的存儲服務(wù),三者共同構(gòu)成了SuperMap內(nèi)置的地理大數(shù)據(jù)存儲引擎(https:∥www.supermap.com/zh-cn/a/product/10i-tec-2-2021.html);此外,SuperMap對Spark框架進(jìn)行了拓展,集成了大量地理大數(shù)據(jù)挖掘方法,并通過集成開源地圖開發(fā)庫(OpenLayers、Leaflet、MapboxGL JS等)、可視化庫(ECharts、MapV、DECK.GL等)提供地理大數(shù)據(jù)可視化服務(wù)。
通過上述分析可以發(fā)現(xiàn),當(dāng)前地理大數(shù)據(jù)挖掘研究已經(jīng)取得了重要的進(jìn)展。針對地理大數(shù)據(jù)的新特征,一些針對性的地理大數(shù)據(jù)挖掘方法已經(jīng)被提出,并在“人-地”關(guān)系研究中發(fā)揮了重要價(jià)值。例如可以從人類活動(dòng)的視角對城市土地利用進(jìn)行新的審視;可以定量地發(fā)現(xiàn)人類在城市中的活動(dòng)規(guī)律并且可以據(jù)此對城市空間結(jié)構(gòu)進(jìn)行深層次的解析;犯罪事件與城市興趣點(diǎn)間的關(guān)聯(lián)關(guān)系對于犯罪機(jī)理解釋與犯罪預(yù)防具有重要價(jià)值;利用城市交通流量、地理背景及空氣污染歷史數(shù)據(jù)構(gòu)建的預(yù)測模型已經(jīng)可以實(shí)現(xiàn)高時(shí)空分辨率的空氣質(zhì)量預(yù)測。地理大數(shù)據(jù)理論方法與應(yīng)用的重要進(jìn)展正在改變地理學(xué)的研究范式,為地理規(guī)律的發(fā)現(xiàn)提供了重要的工具和手段。在取得這些進(jìn)展的同時(shí),同樣需要對當(dāng)前地理大數(shù)據(jù)挖掘面臨的問題進(jìn)行冷靜的思考。筆者認(rèn)為以下3個(gè)問題需要引起充分的重視。
地理大數(shù)據(jù)包含了豐富的“人”“地”信息,這些信息存在于不同來源、不同類型的地理大數(shù)據(jù),例如城市人群交通活動(dòng)信息蘊(yùn)含于出租車、公交車、地鐵、私家車等不同交通方式?,F(xiàn)有的地理大數(shù)據(jù)挖掘研究還多是僅基于單一類型數(shù)據(jù)進(jìn)行的分析應(yīng)用,其挖掘結(jié)果多存在片面性?,F(xiàn)有研究大量采用出租車軌跡數(shù)據(jù)研究城市人群的空間移動(dòng)模式,而實(shí)際上城市居民出行大量依賴地鐵、公交等交通方式。當(dāng)前,尚難以回答不同來源地理大數(shù)據(jù)如何共同地對某一地理事實(shí)進(jìn)行反映和表征[173-174]。如何融合多源地理大數(shù)據(jù)全面探索人類對城市空間實(shí)際功能的理解及城市物質(zhì)空間與人類活動(dòng)間的適宜度依然是一個(gè)難題。導(dǎo)致這一困境的原因源于兩個(gè)方面,一方面是多源地理大數(shù)據(jù)協(xié)同挖掘的模型與方法尚較為缺乏;另一方面是多源地理大數(shù)據(jù)的交換和共享機(jī)制尚不成熟,不同領(lǐng)域、部門間的地理大數(shù)據(jù)難以真正貫通和協(xié)同。
地理大數(shù)據(jù)挖掘雖然在人類移動(dòng)模式定量度量等方面取得了一些新的認(rèn)知成果(如人類移動(dòng)模式的步長分布規(guī)律[175]),但是現(xiàn)有地理大數(shù)據(jù)挖掘成果尚難以真正實(shí)現(xiàn)“未知知識”的發(fā)現(xiàn)。地理大數(shù)據(jù)挖掘成果雖然使我們對“人-地”關(guān)系有了更加細(xì)化、定量化的認(rèn)識,但是這些挖掘結(jié)果多是驗(yàn)證性、常識性的。例如采用各類移動(dòng)軌跡數(shù)據(jù)發(fā)現(xiàn)的城市人群通勤模式、人群活動(dòng)熱點(diǎn)、城市多中心結(jié)構(gòu)等多是被領(lǐng)域?qū)<宜熘?;采用大范圍位置大?shù)據(jù)發(fā)現(xiàn)的人口分布模式實(shí)際上僅僅是對20世紀(jì)30年代發(fā)現(xiàn)的“胡煥庸線”的驗(yàn)證[3]。如何真正發(fā)現(xiàn)地理大數(shù)據(jù)背后隱含的、未知的知識,取得類似“胡煥庸線”這樣的地理發(fā)現(xiàn),是地理大數(shù)據(jù)挖掘方法面臨的嚴(yán)峻挑戰(zhàn)。
現(xiàn)有地理大數(shù)據(jù)挖掘方法雖然針對地理大數(shù)據(jù)的新特征進(jìn)行了部分適應(yīng)性的改進(jìn),但是針對地理大數(shù)據(jù)樣本質(zhì)量無控、采樣有偏等問題尚缺乏有效的解決方案?,F(xiàn)有地理大數(shù)據(jù)挖掘研究對數(shù)據(jù)產(chǎn)生機(jī)制、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)可用性缺乏足夠的重視。實(shí)際上,現(xiàn)有的大部分地理大數(shù)據(jù)挖掘方法依然假設(shè)數(shù)據(jù)源可以直接反映地理現(xiàn)象的特征,雖然可以對數(shù)據(jù)挖掘給出一定的解釋,但是很少關(guān)注挖掘結(jié)果的可信性。地理大數(shù)據(jù)挖掘的尺度依賴效應(yīng)仍然不可忽視,雖然地理大數(shù)據(jù)的尺度信息更加精細(xì),但是實(shí)際分析中仍然需要確定合適的數(shù)據(jù)尺度(地理大數(shù)據(jù)通常需要聚合到一定的單元)和分析尺度。近年來尺度驅(qū)動(dòng)的地理大數(shù)據(jù)挖掘模型取得了一定的進(jìn)展[177],但是尺度依賴性的內(nèi)在機(jī)理及最優(yōu)尺度選擇等問題依然懸而未決[36]。地理大數(shù)據(jù)挖掘結(jié)果的可信性問題直接影響了地理大數(shù)據(jù)挖掘的實(shí)際應(yīng)用效果。
面對當(dāng)前地理大數(shù)據(jù)挖掘面臨的機(jī)遇與挑戰(zhàn),筆者認(rèn)為未來地理大數(shù)據(jù)挖掘可能需要在以下3個(gè)方面開展進(jìn)一步的深入研究。
聚類分析是人類認(rèn)識世界最基本、最有效的能力之一[178]。聚類分析可以從紛繁復(fù)雜的大數(shù)據(jù)中有效地總結(jié)規(guī)律性信息,是大數(shù)據(jù)認(rèn)知要解決的首要問題[179]。地理大數(shù)據(jù)聚類分析不僅可以作為一種從地理大數(shù)據(jù)中發(fā)現(xiàn)地理格局的有力工具,同時(shí)也可以作為其他地理大數(shù)據(jù)挖掘任務(wù)的重要預(yù)處理步驟。尺度依賴性是地學(xué)研究中不可回避的關(guān)鍵科學(xué)問題,對地理大數(shù)據(jù)內(nèi)蘊(yùn)的各種“人-地”關(guān)系特征進(jìn)行發(fā)現(xiàn),必須對尺度依賴性具有清晰的認(rèn)知。地理大數(shù)據(jù)聚類必須恰當(dāng)?shù)亟5乩憩F(xiàn)象的尺度依賴性[9,45,180]。人類視覺系統(tǒng)具備天然的多尺度聚類分析能力,模擬人類視覺系統(tǒng)的多尺度聚類方法近年來受到了重要關(guān)注,并發(fā)展了一些尺度驅(qū)動(dòng)的空間聚類分析模型[181-182]。未來地理大數(shù)據(jù)多尺度聚類分析研究在尺度效應(yīng)的深層地學(xué)機(jī)理解析、多種尺度(如數(shù)據(jù)尺度、分析尺度)聯(lián)合效應(yīng)建模及尺度有效性評價(jià)等方面需要開展持續(xù)的研究工作。
地理大數(shù)據(jù)實(shí)現(xiàn)大價(jià)值的關(guān)鍵是如何實(shí)現(xiàn)多源地理大數(shù)據(jù)的信息綜合和協(xié)同增強(qiáng),具體包括兩個(gè)方面的核心問題:多源地理大數(shù)據(jù)聚合與深度融合。多源地理大數(shù)據(jù)聚合需要以具體的應(yīng)用需求為驅(qū)動(dòng),統(tǒng)一不同來源地理大數(shù)據(jù)的時(shí)空框架與基準(zhǔn),協(xié)調(diào)觀測尺度差異,實(shí)現(xiàn)不同尺度、不同時(shí)態(tài)、不同語義地理大數(shù)據(jù)的協(xié)同、信息派生與增值,為多源地理大數(shù)據(jù)提供基礎(chǔ)的數(shù)據(jù)支撐[183]。多源地理大數(shù)據(jù)深度融合需要在語義層次上實(shí)現(xiàn)多源地理大數(shù)據(jù)內(nèi)蘊(yùn)特征的協(xié)同增強(qiáng),發(fā)現(xiàn)不同來源地理大數(shù)據(jù)的一致性與互補(bǔ)性,實(shí)現(xiàn)對地理現(xiàn)象更加深入和全面的理解。多源地理大數(shù)據(jù)聚合與深度融合對于提升挖掘結(jié)果的可靠性和全面性具有重要價(jià)值。近年來,一些研究嘗試引入多視角學(xué)習(xí)的方法對多源移動(dòng)軌跡數(shù)據(jù)進(jìn)行聚類分析,可以更全面地反演城市土地利用[184-185]。此外,地理大數(shù)據(jù)同樣需要與傳統(tǒng)“小數(shù)據(jù)”進(jìn)行深度聚合和融合,一方面可以加深對地理大數(shù)據(jù)有偏性的理解[186],另一方面“小數(shù)據(jù)”可以對地理大數(shù)據(jù)進(jìn)行一定程度的“校正”和“糾偏”,使得地理大數(shù)據(jù)挖掘結(jié)果更具代表性。
自20世紀(jì)90年代初以來,數(shù)據(jù)驅(qū)動(dòng)的空間數(shù)據(jù)挖掘模型(尤其是以深度網(wǎng)絡(luò)為代表的機(jī)器學(xué)習(xí)方法)雖然取得了重要的進(jìn)展,但是其不可解釋、穩(wěn)健性差、難以擴(kuò)展的弊端亦不可忽視[187]。人類經(jīng)過幾千年的文明發(fā)展,已經(jīng)積累了針對地學(xué)現(xiàn)象的大量重要認(rèn)知知識。這些知識一方面有助于對地理大數(shù)據(jù)蘊(yùn)含的地理規(guī)律進(jìn)行理解,促進(jìn)對地理大數(shù)據(jù)的有偏性、不完備性的認(rèn)知;另一方面可以緩解數(shù)據(jù)誤差的影響,提升地理大數(shù)據(jù)挖掘模型的可靠性與精度。在遙感影像分類模型中融入地物間的空間關(guān)系先驗(yàn)知識,可以有效降低分類誤差。知識與數(shù)據(jù)雙重驅(qū)動(dòng)的地理大數(shù)據(jù)挖掘方法有望成為未來地理大數(shù)據(jù)挖掘的一個(gè)重要研究方向[188]。地學(xué)知識圖譜是地理知識表達(dá)、提取、管理的重要工具,建立知識與數(shù)據(jù)雙重驅(qū)動(dòng)的地理大數(shù)據(jù)挖掘方法需要兼顧地理現(xiàn)象的多尺度時(shí)空特征,融合圖、文、數(shù)等多種信息載體表征,構(gòu)建開放式、可擴(kuò)展的地理空間知識圖譜[189]。
地理大數(shù)據(jù)挖掘已經(jīng)成為地理信息科學(xué)、信息科學(xué)共同關(guān)注的前沿?zé)狳c(diǎn)問題,對于深入探索地理學(xué)“人-地”關(guān)系這一核心問題具有重要價(jià)值。本文對近20年來地理大數(shù)據(jù)挖掘研究的主要進(jìn)展進(jìn)行了回顧,分析了地理大數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘相比的獨(dú)特性和繼承性,使得從空間數(shù)據(jù)挖掘到地理大數(shù)據(jù)挖掘的發(fā)展脈絡(luò)更加清晰;系統(tǒng)梳理了地理大數(shù)據(jù)挖掘方法、應(yīng)用與軟件的主要研究進(jìn)展,總結(jié)了當(dāng)前地理大數(shù)據(jù)挖掘需要進(jìn)一步突破的主要問題,并對地理大數(shù)據(jù)挖掘發(fā)展趨勢進(jìn)行了展望,對于未來地理大數(shù)據(jù)挖掘理論完善與方法設(shè)計(jì)具有指導(dǎo)意義。地理大數(shù)據(jù)挖掘是一個(gè)復(fù)雜的、綜合性的研究領(lǐng)域,本文僅僅起到拋磚引玉的作用,希望能夠推動(dòng)地理大數(shù)據(jù)挖掘在地理學(xué)“人-地”關(guān)系研究中發(fā)揮更大作用。