薛 冰,許耀天,趙冰玉
(1.中國科學院沈陽應用生態(tài)研究所,遼寧 沈陽 110016;2.遼寧省環(huán)境計算與可持續(xù)發(fā)展重點實驗室,遼寧 沈陽 110016;3.中國科學院大學,北京 100049)
地理學是從空間視角揭示區(qū)域人地系統(tǒng)“格局-過程-機制”的學科[1-2]。大數(shù)據(jù)時代產(chǎn)生多尺度、大體量、多類型的數(shù)據(jù)資源[3],提升數(shù)據(jù)覆蓋度、分辨率、可獲得性等,為拓展和深化地理學綜合研究的理論和方法[4]以及提升對地理空間的認知、表達、模擬和預測能力[5]提供數(shù)據(jù)支撐,為深入認知物質(zhì)空間發(fā)展格局、過程和機制,探索復雜開放的區(qū)域人地系統(tǒng)結(jié)構(gòu)、層級、物質(zhì)和能量流動關(guān)系提供決策支持[6]。當前,以興趣點(POI, Points of interest)數(shù)據(jù)為主的地理大數(shù)據(jù)更加突出對“人”“地”的全時空及全樣本記錄,具有粒度細、范圍廣、更新快等特征,促進地理大數(shù)據(jù)增值轉(zhuǎn)向,構(gòu)建“知識發(fā)現(xiàn)”與“決策服務”的橋梁[7],如地理信息平臺的建設(shè)是提升國土空間精細規(guī)劃與區(qū)域可持續(xù)發(fā)展的關(guān)鍵一步。
POI數(shù)據(jù)是基于位置服務的核心數(shù)據(jù),包含地理要素名稱、地理位置及分類等關(guān)鍵基礎(chǔ)信息,為出行導航、地點查詢等提供關(guān)鍵支撐。隨著互聯(lián)網(wǎng)電子地圖服務和數(shù)據(jù)采集能力的增強,POI數(shù)據(jù)的信息縱深和應用場景均得到長足發(fā)展,從對地理要素基本信息記錄轉(zhuǎn)向于跨領(lǐng)域?qū)傩缘木C合集成,實現(xiàn)對地理要素的整體全息表達,提升地理大數(shù)據(jù)價值挖掘和地理信息智能服務能力,如基于POI數(shù)據(jù)認識地理空間格局[8]、發(fā)現(xiàn)地理要素相互作用關(guān)系[9]、評價地理空間功能[10]等,為解決各類自然與人類經(jīng)濟發(fā)展息息相關(guān)的實際應用問題提供重要支撐。
面向POI數(shù)據(jù)引領(lǐng)的地理學研究思維和方法的變革與創(chuàng)新[11],本文從應用領(lǐng)域、方法與尺度多視角總結(jié)POI數(shù)據(jù)在地理學的創(chuàng)新應用及進展,基于數(shù)據(jù)獲取、質(zhì)量及價值發(fā)現(xiàn)3方面視角討論POI數(shù)據(jù)應用于地學研究時存在的問題,分析問題產(chǎn)生的可能原因及影響因素,并提出具體可行的應用策略及價值指向。
POI數(shù)據(jù)的流行及廣泛應用為地理學研究提供新的思維和研究范式[12],加快對地理系統(tǒng)及其與人類活動關(guān)系的精細化認知進程。本文對POI數(shù)據(jù)在地理學領(lǐng)域取得的諸多成果進行階段性總結(jié),從應用領(lǐng)域、研究方法和研究尺度多視角綜述POI數(shù)據(jù)的應用及趨勢,旨在為新時期POI數(shù)據(jù)在地理學中的創(chuàng)新應用提供新的總結(jié)和知識發(fā)現(xiàn)。
POI數(shù)據(jù),相較于統(tǒng)計、社會調(diào)查及遙感影像等傳統(tǒng)數(shù)據(jù),具有體量大、精度高、覆蓋面廣、語義豐富等特點,是精細化理解區(qū)域空間過程和人地關(guān)系的重要信息來源。主要應用于:1)物質(zhì)空間功能結(jié)構(gòu)識別?,F(xiàn)有研究主要關(guān)注要素及綜合要素體的格局過程及功能特性等問題,應用于空間資源評價[13]、產(chǎn)業(yè)空間發(fā)展[14]、國土空間規(guī)劃[15]等領(lǐng)域,推動對“自然-人文”復合地理系統(tǒng)的精細化認知,提升地理學為區(qū)域可持續(xù)發(fā)展服務的能力[5],如武凱華等[16]提出識別城市群核心區(qū)發(fā)展邊界新方法,羅雯等[17]從多維視角測度并探究商圈功能多樣性與其活力的定量化關(guān)系。2)人類活動的空間表征與預測。該方向研究以POI數(shù)據(jù)記錄要素的社會-經(jīng)濟屬性為依托,挖掘數(shù)據(jù)蘊含的人類活動信息,感知與分析人類生產(chǎn)生活的全領(lǐng)域、全過程及空間組織變化,實現(xiàn)地理大數(shù)據(jù)同傳統(tǒng)地理學研究范式的互補互動[18],如王錄倉等[19]識別城市居住地、工作地及職住關(guān)系, Liu等[20]和陳明遠等[21]基于多尺度模擬區(qū)域空間功能意向。3)人地關(guān)系耦合機制探析。人地關(guān)系素來是地理學研究的核心[5],該領(lǐng)域基于以POI數(shù)據(jù)與其他地理大數(shù)據(jù)(手機信令、社交媒體簽到等)為主的多源數(shù)據(jù)融合體系,發(fā)現(xiàn)事物或現(xiàn)象在空間、時序和尺度中存在的顯性或內(nèi)在隱含關(guān)聯(lián)機制,挖掘復雜開放的人地系統(tǒng)耦合作用機理,并提出人地關(guān)系協(xié)調(diào)途徑和可持續(xù)發(fā)展模式[22],如薛冰等[23]對具有典型人地關(guān)系的沈陽市老工業(yè)區(qū)的房價影響因素進行了探究,梁雨廷等[24]對“美麗浙江”建設(shè)進行了評估。但地理系統(tǒng)是一個復雜開放的綜合體,系統(tǒng)內(nèi)要素間存在多重非線性關(guān)系,推動POI與其他地理大數(shù)據(jù)糅合,綜合自然、經(jīng)濟和社會等多視角發(fā)現(xiàn)地理要素發(fā)展的顯式或內(nèi)在隱含信息是全面系統(tǒng)認知地理系統(tǒng)的重要方向之一。
POI數(shù)據(jù)研究方法體系分為兩個階段。早期的數(shù)據(jù)信息挖掘是基于空間分析和統(tǒng)計分析展開,空間分析用于POI數(shù)據(jù)處理及地理要素空間特征提取,揭示地理要素的時空格局及關(guān)系,發(fā)現(xiàn)地理系統(tǒng)的地域發(fā)展模式及演化特征,方法包括密度分析[25]、方向與質(zhì)心分布分析[26]、空間自相關(guān)分析[27]與網(wǎng)絡(luò)分析[28]等,如薛冰等[29]采用核密度估計等方法分析東北城市空間結(jié)構(gòu)及其行業(yè)構(gòu)成機制;統(tǒng)計分析基于時間尺度關(guān)注POI數(shù)據(jù)的規(guī)模、覆蓋面積、時空增長速率,輔助空間分析說明地理要素體量的變化幅度(增長量、增長幅度及差異性等),方法包括DBSCAN聚類分析[30]、回歸分析[31]、層次分析法[32]等,如李江蘇等[33]采用DBSCAN聚類法分析鄭州市現(xiàn)代服務業(yè)空間聚集特征。隨著新一代信息技術(shù)的發(fā)展,POI數(shù)據(jù)內(nèi)涵趨于廣義化,蘊含“社會-經(jīng)濟-地理-生態(tài)”等多重潛在價值。機器學習通過建立學習模型,重新組織已有數(shù)據(jù)結(jié)構(gòu),識別和提取深層次有效信息,是構(gòu)建虛擬地理空間、實現(xiàn)地理系統(tǒng)監(jiān)測、管理和決策的關(guān)鍵技術(shù)[7],研究方法包括人工神經(jīng)網(wǎng)絡(luò)[34]、隨機森林[35]、貝葉斯時空模型[36]、地理探測器[37]、元胞自動機[38]等,如董文錢等[36]利用貝葉斯時空模型對城管事件數(shù)據(jù)進行時空分析,汪曉春等[39]基于決策樹進行規(guī)劃選址模擬等。但受到計算機科學與地理學學科交叉融合程度影響,機器學習算法構(gòu)建與地學應用開發(fā)銜接不足,未來應進一步增強信息地理學科算法開發(fā)與應用工程的綜合與集成水平,為深入挖掘大數(shù)據(jù)價值與理解地理現(xiàn)象及事物提供關(guān)鍵手段。
目前,地理學領(lǐng)域的POI數(shù)據(jù)應用正逐漸由單一尺度轉(zhuǎn)向多尺度耦合。單一尺度包括微觀、中觀和宏觀三個視角,微觀尺度主要以單體建筑物、城市綠地等為主,主要目的在于實現(xiàn)基于資源精確定位與公共服務設(shè)施選址等更加精準的地理空間干預與治理,如承達瑜等[40]基于POI語義信息表達構(gòu)建了面向商場定位的商場客流分析系統(tǒng)。中觀尺度研究則以社區(qū)、街道、鄉(xiāng)鎮(zhèn)等為研究對象,著力于實現(xiàn)對地理空間分布格局、交通可達性或產(chǎn)業(yè)集聚特征等的識別與評價,如張家旗等[41]基于POI對鄭州市旅游資源的空間格局與便利度進行分析與評價。宏觀尺度則主要關(guān)注城市群等區(qū)域地理系統(tǒng)的宏觀空間結(jié)構(gòu)布局,能夠推動國家長三角一體化與黃河流域高質(zhì)量發(fā)展等區(qū)域重大戰(zhàn)略有效實施[18],如何艷虎等[42]通過POI等數(shù)據(jù)構(gòu)建珠江三角洲未來人口精細化空間分布模擬模型,為區(qū)域發(fā)展規(guī)劃與生態(tài)環(huán)境保護提供科學參考。隨著地理系統(tǒng)開放性增強及流空間的跨尺度流動,多尺度耦合研究是觀察宏觀-中觀-微觀多種尺度物質(zhì)空間格局演化或人類行為活動的重要手段,有利于實現(xiàn)市區(qū)、街道與道路格網(wǎng)等多尺度空間單元耦合[43],如盛強等[44]基于吉林市POI等數(shù)據(jù)在城市尺度與街區(qū)尺度分別對商業(yè)分布與聚集進行量化分析,探究不同尺度空間規(guī)律的差異性。目前,多尺度多功能要素的復合化[43],人類社會與地理環(huán)境之間的物質(zhì)能量轉(zhuǎn)換及其耦合過程研究已經(jīng)成為新時期地理學學科發(fā)展的重要趨勢[45],但在地理學學科領(lǐng)域中,研究往往集中在單一的中觀與宏觀尺度層面,微觀尺度與多尺度耦合研究尚且較少,未來對于人地系統(tǒng)要素在微觀尺度、多尺度間的相互作用研究,以及為獲取較好的結(jié)構(gòu)-功能效益,實現(xiàn)人-地協(xié)同,從宏觀尺度到微觀尺度探索更為合理的物質(zhì)空間結(jié)構(gòu),均成為地理學發(fā)展面臨的一系列重要挑戰(zhàn)[45]。
POI數(shù)據(jù)不僅為地理學研究帶來了很大的便利,同時也實現(xiàn)了傳統(tǒng)的地理學思維模式向數(shù)據(jù)化思維、全樣本思維和關(guān)聯(lián)性思維的轉(zhuǎn)變[46]。但POI數(shù)據(jù)作為一種新興的大數(shù)據(jù)手段,基于POI的地理學應用研究也面臨著時間序列不完整、屬性挖掘不充分以及較低的空間覆蓋率問題,導致相關(guān)精細化研究的開展難以實現(xiàn),同時也為空間規(guī)劃與治理以及數(shù)據(jù)獲取算法優(yōu)化等帶來了一定挑戰(zhàn)。
POI大數(shù)據(jù)雖在地理學領(lǐng)域得到廣泛應用,但相關(guān)研究多是基于某一時間節(jié)點展開,實現(xiàn)對物質(zhì)空間的靜態(tài)分析[23],少有涉及到長時間序列的動態(tài)研究。該現(xiàn)象產(chǎn)生的可能原因有:歷史數(shù)據(jù)在數(shù)據(jù)獲取端口被持續(xù)覆蓋、早期POI數(shù)據(jù)質(zhì)量欠缺(表現(xiàn)在覆蓋面、精度不足、更新速率偏低等)、數(shù)據(jù)共享機制不完善、研究人員未能及時獲取并存儲歷史數(shù)據(jù)等。長時間序列數(shù)據(jù)的缺失是深入挖掘地理要素空間發(fā)展過程及其與人類活動關(guān)系演化的精細化認知面臨的重要挑戰(zhàn)之一,亦是總結(jié)區(qū)域地理系統(tǒng)發(fā)展規(guī)律及實現(xiàn)區(qū)域可持續(xù)發(fā)展的關(guān)鍵基礎(chǔ)信息。
“產(chǎn)生-發(fā)展-消失”是地理要素完整生命周期的動態(tài)演化過程,亦是地理要素發(fā)展及人地關(guān)系演化的微觀體現(xiàn)。在數(shù)據(jù)獲取能力有限的情況下,缺失數(shù)據(jù)可通過模擬預測進行補充和完善,為地理學研究提供重要的數(shù)據(jù)支撐與保障,如路新江[47]針對POI快照數(shù)據(jù)的碎片化和分布不均問題,借助應用時序分析法,對POI演化趨勢進行了形式化建模與動態(tài)預測,有效表征了地理要素的生命周期演化過程。未來有望借助史料記錄、地方政策、統(tǒng)計年鑒以及區(qū)域分布格局等多種信息源,形成長時間序列的POI數(shù)據(jù)集,提升POI大數(shù)據(jù)對地理學研究的支撐能力,加強對人居環(huán)境動態(tài)過程的認知。
網(wǎng)絡(luò)信息技術(shù)和數(shù)據(jù)采集能力的提升促使POI數(shù)據(jù)屬性信息的全面化和多樣化,使其發(fā)展為包含“經(jīng)濟-社會-地理-生態(tài)”等多領(lǐng)域信息的新型地理空間數(shù)據(jù)[45]。目前研究雖以多源數(shù)據(jù)為驅(qū)動力,但并未挖掘數(shù)據(jù)間的相關(guān)性與依賴性,使其成為相互影響、相互依存的多源數(shù)據(jù)融合體系[48]。POI數(shù)據(jù)蘊含地理要素名稱、地址與經(jīng)緯度等基礎(chǔ)信息,結(jié)合豐富語義實現(xiàn)對地理要素的量化評估,作為“媒介”推動數(shù)據(jù)的融會貫通,提升對POI數(shù)據(jù)“涌現(xiàn)價值”的挖掘,如薛冰等[15]借助地理要素的公眾認知度,賦予POI表征的不同類型地理實體面積權(quán)重,量化其實際影響力水平;賈斐雪等[49]將POI數(shù)據(jù)與街景圖片等結(jié)合,依據(jù)各類POI的規(guī)模特征進行面積綜合評分。
地理大數(shù)據(jù)的關(guān)聯(lián)與融合是實現(xiàn)對地理要素的全方位、多領(lǐng)域刻畫,探索人類發(fā)展與地理環(huán)境的相互關(guān)系的重要手段。如王毓乾等[50]將POI數(shù)據(jù)與夜光遙感、微博簽到數(shù)據(jù)相結(jié)合,推動城市空間結(jié)構(gòu)的精細化認知,精準衡量人地空間耦合關(guān)系;塔娜等[51]將POI數(shù)據(jù)與大眾點評、出租車到達數(shù)據(jù)融合,精確評估城市建成環(huán)境對城市活力的影響度,為城市精準規(guī)劃提供科學支撐。當前研究集中在直接基于POI數(shù)據(jù)從宏觀層面探析某一產(chǎn)業(yè)或地理要素的分布特征,未來可加強POI與AOI數(shù)據(jù)、建筑輪廓數(shù)據(jù)、社交媒體數(shù)據(jù)與遙感影像等多源數(shù)據(jù)融合,深入挖掘具有潛在價值的多重信息,實現(xiàn)對地理要素全方位、多領(lǐng)域的精細化描述,形成統(tǒng)一的精細化分類指標體系,從而擴寬POI數(shù)據(jù)在地理學研究中的廣度和深度。
POI數(shù)據(jù)的本質(zhì)特征是識別地物的功能特性,但受數(shù)據(jù)采集能力、獲取途徑與方式以及處理過程模型設(shè)計差異等因素的影響,獲取到的數(shù)據(jù)在地物功能識別、空間位置及類型識別等方面存在著一定的偏差性,且不同來源的POI數(shù)據(jù)存在分類標準體系不統(tǒng)一、地理編碼與匹配技術(shù)不一致等問題,一定程度降低了數(shù)據(jù)的應用效率、數(shù)據(jù)分析的準確性乃至研究結(jié)果的完整性與可靠性。
數(shù)據(jù)質(zhì)量評估是驗證數(shù)據(jù)精度、挖掘數(shù)據(jù)質(zhì)量問題以及提升數(shù)據(jù)有效作用能力的重要手段。Fu等[52]發(fā)現(xiàn)電子地圖POI與實地調(diào)查數(shù)據(jù)的最佳多項式擬合優(yōu)度R2僅為0.94;趙冰玉[53]通過實地調(diào)研發(fā)現(xiàn)沈陽體育學院百度POI的地物識別完整率為52.08%,位置準確率為88.46%。為提升數(shù)據(jù)質(zhì)量,促進使用效率與可靠性提升,趙冰玉[53]將百度與高德數(shù)據(jù)進行融合,地物識別完整率提升14.58%~34.28%,空間位置準確率提升0~11.54%,羅國瑋等[54]提出一種多特征相似的多源POI匹配方法,將綜合準確率與召回率兩個指標的F1值由44.07%提升到87.55%。但面向大體量數(shù)據(jù)質(zhì)量的驗證和提升,目前已有研究基于POI數(shù)據(jù)的位置與屬性信息進行融合[55],但如何驗證融合后的數(shù)據(jù)質(zhì)量[55]并實現(xiàn)POI數(shù)據(jù)的全自動化校正等問題值得進一步全方位深挖,以期未來實現(xiàn)POI數(shù)據(jù)高匹配度的全樣本覆蓋。
數(shù)據(jù)是地理學研究的核心和基礎(chǔ)。POI數(shù)據(jù)作為地理大數(shù)據(jù)的重要主體,是現(xiàn)代地理學發(fā)展和數(shù)據(jù)集約型知識發(fā)現(xiàn)的重要驅(qū)動力[56]。目前,地理學已立足區(qū)域經(jīng)濟及生態(tài)文明建設(shè)等訴求,以靜態(tài)或短時間序列POI數(shù)據(jù)為數(shù)據(jù)源,對多尺度地理主體的形成機理、發(fā)展模式、耦合關(guān)系及影響效力等進行深入研究,但因受數(shù)據(jù)獲取能力的限制,對長時間序列地理要素演化過程及機制關(guān)注不足,應進一步立足于學科數(shù)據(jù)管理與共享需求,構(gòu)建長效共享機制,并關(guān)注歷史數(shù)據(jù)保存及獲取問題,提升科學研究數(shù)據(jù)支撐能力,推動地理學精細化認知自然地理及人文地理空間進程。
數(shù)據(jù)質(zhì)量是決定地學實證研究和決策支撐服務水平的重要影響因素。數(shù)據(jù)質(zhì)量驗證是地學研究的基礎(chǔ)關(guān)鍵問題,但受到技術(shù)水平、數(shù)據(jù)體量等因素的影響,并未根據(jù)POI數(shù)據(jù)特征形成完整且高效的評估指標體系、方法及實證分析。為評估POI數(shù)據(jù)數(shù)字化物質(zhì)世界的程度及精準度等,發(fā)現(xiàn)數(shù)據(jù)存在的問題及可能的影響因素,為提升源頭數(shù)據(jù)質(zhì)量提供有效支撐,應鼓勵地理學及相關(guān)學者就地開展實證研究,積累多類型區(qū)域“小樣本”研究數(shù)量,發(fā)現(xiàn)百度、高德等數(shù)據(jù)源在獲取不同類型數(shù)據(jù)的特性,結(jié)合地理學理論及方法,說明最佳應用場景,實現(xiàn)數(shù)據(jù)價值的最大化。
地理學的發(fā)展目標在于協(xié)調(diào)人地關(guān)系、解決資源環(huán)境問題,推動區(qū)域可持續(xù)發(fā)展。目前,地理學已在解決科學及社會面臨的主要挑戰(zhàn)中發(fā)揮重要作用,如國土空間規(guī)劃、地緣政治和環(huán)境污染治理等。大數(shù)據(jù)作為新型戰(zhàn)略資源,是提升對地理系統(tǒng)精細化認知能力,在決策支撐和社會服務中實現(xiàn)新跨越的重要支撐。目前,以POI數(shù)據(jù)為主體的地理大數(shù)據(jù)仍處于“碎片化”記錄階段,無法實現(xiàn)對地理要素的整體全息表達,如何從語義、時空、尺度等角度實現(xiàn)數(shù)據(jù)在社會、經(jīng)濟、生態(tài)等多領(lǐng)域的全面集成,構(gòu)建地理環(huán)境全景動態(tài)推演平臺,為國土空間治理和可持續(xù)發(fā)展提供決策支撐。
隨著大數(shù)據(jù)與智能時代的到來,POI大數(shù)據(jù)的應用為推動現(xiàn)代地理學發(fā)展提供了重要支撐。本文針對應用領(lǐng)域、方法與尺度多視角總結(jié)了POI數(shù)據(jù)在地理學研究領(lǐng)域的創(chuàng)新應用及進展,發(fā)現(xiàn)在機器學習及GIS等驅(qū)動下,POI數(shù)據(jù)的地理學研究逐漸從單一視角轉(zhuǎn)向多尺度耦合研究,推動實現(xiàn)對物質(zhì)空間、人類活動表征預測及人地關(guān)系耦合機制的精細化認知,促進多尺度區(qū)域決策支撐能力不斷提升。但受數(shù)據(jù)質(zhì)量、獲取水平及信息挖掘能力等客觀因素的影響,POI數(shù)據(jù)在地理學研究領(lǐng)域仍然無法發(fā)揮其全部潛力,在今后及未來一段時間,應著重構(gòu)建POI及其他地理大數(shù)據(jù)的長效共享機制,積累多時相數(shù)據(jù),增加小尺度實地質(zhì)量評估的實證研究,加快促進地學數(shù)據(jù)增值導向,在知識發(fā)現(xiàn)、決策支撐和知識傳播等方面發(fā)揮更大價值。