劉朋飛,崔鐵軍
(1.天津師范大學 地理與環(huán)境科學學院,天津 300387;2.天津師范大學 天津市地理空間信息技術工程中心,天津 300387)
自然在人類的面前是“黑箱”的,人類只能通過現(xiàn)象探索事物的本質.人類本能地具有將各種器官所探測的信息(視覺、聲音、氣味和觸覺等)與先驗知識進行綜合的能力.在科學研究中,人們依據(jù)感知到的一些現(xiàn)象,或得到的一些實驗數(shù)據(jù),對這些材料進行分析和綜合,通過概念、判斷、推理的形式,認知客觀事物的本質屬性和運動規(guī)律;然后,利用各種實驗對這種學說進行檢驗,以證明其真實性.地理學的核心是研究人地關系問題,解釋地球表面區(qū)域差異現(xiàn)象,預測這種現(xiàn)象的發(fā)展趨勢及相互影響.由于地理區(qū)域差異現(xiàn)象不遵循嚴密的因果關系,只遵循統(tǒng)計規(guī)律,難以用數(shù)學語言描述,以至于地理規(guī)律無法實現(xiàn)精確的科學預測.隨著空間信息技術在地學研究中的應用和發(fā)展,使得地球觀測探測儀器研發(fā)、 地球觀測系統(tǒng)構建和各種遙感數(shù)據(jù)處理等研究取得突破性進展.觀測的多源時空地球數(shù)據(jù)是對地理事物或現(xiàn)象觀察的結果,也是自然和生命現(xiàn)象的一種表示形式.挖掘海量地球數(shù)據(jù)的關聯(lián)關系是探索宇宙規(guī)律、 生命規(guī)律,尋找人類行為規(guī)律、尋找社會發(fā)展規(guī)律的一種重要手段.要正確認識地理現(xiàn)象的動態(tài)變化的規(guī)律,必須對分布于統(tǒng)一時空基準上的不同表達模式、表達尺度、語義和時段的瞬間斷片的地理數(shù)據(jù)進行關聯(lián)分析,發(fā)揮多源地理數(shù)據(jù)的綜合優(yōu)勢,從而克服人類對地理信息感知、認知和表達等方面的局限性.在大數(shù)據(jù)時代,地理數(shù)據(jù)關聯(lián)已成為地理信息智能分析和推理研究的熱點[1],并已有效應用于空間決策分析、突發(fā)事件應急管理、智慧城市建設等領域.
人類探索在地球表面的生存環(huán)境,產生了地理的概念.地球表面是“自然-社會-經濟”的復合體系,是一個非線性、復雜的巨系統(tǒng).地球表面的事物(現(xiàn)象)都具有區(qū)別于其他位置上的事物(現(xiàn)象)的特點,有其存在于空間的必然性、 關聯(lián)性和異同性.空間位置的隔離,造成了地物之間的差異(空間異質性定律,Law of Spatial Heterogeneity)[2-4].“所有的事物或現(xiàn)象在空間上都是有聯(lián)系的,但相距近的事物或現(xiàn)象之間的聯(lián)系一般較相距遠的事物或現(xiàn)象間的聯(lián)系要緊密”[5].在空間統(tǒng)計學中,相似事物或現(xiàn)象在空間上聚集的性質稱之為空間自相關.這種空間上的相關性或關聯(lián)性是自然界存在秩序與格局的原因之一.
人們對地理要素之間的關聯(lián)特征的描述是匱乏的,在地理語言中只能定性描述各地理要素之間的聯(lián)系,如河流對地形的影響,流速大的山區(qū)侵蝕作用強烈,流速較小的平原地區(qū)沉積作用顯著,等等.地圖只能表達空間分布,無法表達地理要素之間的關系,地理要素之間的關系只能由讀圖者解譯得到.
在計算機中,人們用地理數(shù)據(jù)描述和記錄地理物體和現(xiàn)象.地理數(shù)據(jù)僅是地理信息本體的某種“瞬間的斷片”記錄.地理客觀存在有不同的地理信息本體描述[6].地理數(shù)據(jù)是按照應用主題的要求,突出而完善地表示與主題相關的一種或幾種要素,其內容側重于某種專業(yè)應用,對于不同的應用,地理數(shù)據(jù)存在不同的屬性,一個屬性只能從某一個(些)側面或角度描述地理事物的特征,其中不僅有表達內容的取舍,同時還存在表達模式的選擇.因此,一個地理客觀存在本體可以用不同模式、不同尺度、不同語義和不同時段的瞬間斷片的地理數(shù)據(jù)進行描述,相關數(shù)據(jù)在空間、語義、尺度和時序上存在顯式的或內在隱含的關聯(lián)信息.但是,目前的地理空間數(shù)據(jù)模型只能表達簡單的、顯式的地理現(xiàn)象聯(lián)系,通過關系表、數(shù)據(jù)結構和指針等技術表達簡單的地理要素之間的關系,包括空間拓撲關系、空間順序關系和空間度量關系等,而對于地理空間位置及動態(tài)時空過程中隱含的地理現(xiàn)象的關聯(lián)性關系的表達則具有局限性,這成為地理數(shù)據(jù)挖掘和地理信息智能服務的主要瓶頸.
地理數(shù)據(jù)關聯(lián)就是基于兩種或多種分布于統(tǒng)一時空基準上相應尺度的地理數(shù)據(jù),利用計算機挖掘數(shù)據(jù)之間的相關性和依賴度,得到多源地理數(shù)據(jù)之間的內在聯(lián)系,將相互影響、相互制約、相互依存的地理要素構成一個有機整體,從而實現(xiàn)區(qū)域內自然和人文地理要素的整體全息關系表達.
任何地理感知手段只能記錄地理變化的某種瞬間狀態(tài)或關注某種地理表面現(xiàn)象.在實踐中,為了滿足綜合地學分析、防災減災、政府決策等重大需求,需要利用不同學科、專業(yè)和應用的地理數(shù)據(jù),基于地理實體對象間的空間幾何關系、語義屬性關系和時空序列關系等,建立相關算法搜索和挖掘地理對象及其屬性之間的關聯(lián)關系,從而發(fā)現(xiàn)地理數(shù)據(jù)之間的關聯(lián),進而實現(xiàn)基于多源海量地理數(shù)據(jù)的地球表面信息重構.
基于地理現(xiàn)象分布的特征以及具體應用的角度,地理數(shù)據(jù)的關聯(lián)研究主要分為基于空間特征的多維關聯(lián)、基于尺度特征的多尺度關聯(lián)、基于時間特征的時序關聯(lián)和基于語義特征的語義關聯(lián)等4 類.前2 類主要是基于空間特征,從不同角度對數(shù)據(jù)進行關聯(lián)性分析; 時間特征是從時間的角度對地理數(shù)據(jù)進行分析,從而實現(xiàn)基于時間序列的分析和預測;語義特征則是從地理實體的語義描述出發(fā),建立地理數(shù)據(jù)模型,從與以往GIS 不同的角度描述地理現(xiàn)象的分布和發(fā)生發(fā)展過程.
地理實體的空間特征主要包括幾何形態(tài)特征和空間關系特征.幾何形態(tài)描述地理實體的結構和形狀,對于發(fā)現(xiàn)并關聯(lián)目標數(shù)據(jù)、 解決地理數(shù)據(jù)異構有重要的意義[7].基于各種空間關系在多源地理數(shù)據(jù)間建立空間關聯(lián)以獲得更為詳細和全面的檢索是當前地理信息領域的研究熱點.
吳燁等[8]通過分析多源地理實體的空間關系、屬性關系及語義關系,構建了一種集語義、空間、視覺等多維關聯(lián)的多源地理空間數(shù)據(jù)關聯(lián)模型(MSGCM),實現(xiàn)了空間信息的一體化查詢和分析,有效提升了多源地理數(shù)據(jù)關聯(lián)檢索的全面性和有效性,但該模型的不足之處在于沒有充分考慮用戶的偏好,其智能性還有待于進一步提升.韓邦生[9]通過提取多源海量遙感影像的文本信息、 影像內容信息和空間位置信息,并計算各自的關聯(lián)度,構建關聯(lián)圖模型,同時基于關聯(lián)庫提出了融合影像多特征信息的檢索機制,提高了檢索結果的豐富度和有效性.姜偉[10]從海量數(shù)據(jù)的檢索出發(fā),研究了廣義空間數(shù)據(jù)的組織管理方法,分別提出了基于文本和基于GeoSOT 空間編碼的空間數(shù)據(jù)關聯(lián)模型,其中,基于空間編碼建立關聯(lián)關系能更好地表達和判斷空間實體間的空間關系.姜偉的研究在構建關聯(lián)的基礎上提出了2 種廣義空間數(shù)據(jù)的關聯(lián)檢索方法,有效實現(xiàn)了海量廣義數(shù)據(jù)的高主題相關度的檢索.國外相關學者以提高多源數(shù)據(jù)的檢索效率為目的進行了一系列數(shù)據(jù)關聯(lián)研究,當前主要的方法包括SimRANK 方法[11-12]、語義模型M-LSA[13]、聚類模型Link-Clus[14]、融合模型CRF[15]等.但這些方法大多只關注空間數(shù)據(jù)某一維度的信息,普遍缺乏對地理數(shù)據(jù)各維度特征的全面利用.
多尺度是空間數(shù)據(jù)的重要特征,不同尺度上的地理實體具有對應的約束體系,適應于不同的模型[16].人們在管理空間數(shù)據(jù)時,由于獲取手段、 數(shù)據(jù)庫不同等原因產生了尺度割裂,從而出現(xiàn)了跨尺度空間數(shù)據(jù)的一致性描述和動態(tài)查詢的問題.實現(xiàn)多源數(shù)據(jù)的匹配、構建不同尺度實體之間的關聯(lián)是提高多源數(shù)據(jù)檢索效率的關鍵.
陳俊杰[17]利用同名實體匹配的方法實現(xiàn)了不同尺度下的地理對象間層次連通關系的提取.藍秋萍[18]從幾何形態(tài)、時空關系和語義內容等方面對不同尺度下的同名地理實體進行了匹配研究,提出基于Hausdorff距離的線目標匹配方法和基于綜合考慮的多尺度面目標匹配.欒學晨[19]提出了一種基于模式識別的多尺度道路網整體匹配方法.姚馳[20]和Zhu 等[21]從空間相似性原理出發(fā),探索了基于幾何形態(tài)特征的多尺度地理實體的關聯(lián)方法.張婷等[22]和江浩等[23]對多尺度下地理空間線狀目標的相似關系的描述和度量做了研究,基于Douglas-Peucker 算法,研究了多尺度下折線目標幾何形態(tài)相似性的度量方法.王超超等[24]從地圖信息論出發(fā),綜合點群目標的各個信息的相似度給出了多尺度地理空間點群目標相似度的計算公式.張橋平等[25]研究了面狀地理實體的幾何描述方法及其特征變化和多尺度下的面實體匹配方法.趙彬彬[26]從地理空間數(shù)據(jù)現(xiàn)勢性出發(fā),研究了多尺度面目標的匹配方法,用于地圖數(shù)據(jù)的變化探測.凌翠明等[27]從基礎空間數(shù)據(jù)的更新出發(fā),提出空間實體之間的幾何關聯(lián)算法,并開發(fā)了交互式地圖關聯(lián)軟件ConMap,提高了地圖關聯(lián)的智能性.
由于尺度代表人類認知世界的概括程度,因此不同尺度的數(shù)據(jù)在地圖綜合和數(shù)據(jù)采樣中具有一定的不確定性,目前的研究多是針對地物在多尺度數(shù)據(jù)中某一方面的特征,完全通過固定的規(guī)律實現(xiàn)多尺度數(shù)據(jù)關聯(lián)和檢索面臨許多困難.
地理空間數(shù)據(jù)可看作是某種“瞬間的斷片”,不同時段的瞬間斷片的聯(lián)結,構成對地理現(xiàn)象的動態(tài)認識.通過在時間維度上對這些強時序地理信息進行組織和規(guī)律提取,可以提高對關聯(lián)信息的發(fā)現(xiàn)能力,從而更加有效準確地實現(xiàn)智能化管理.目前,人們運用各種測量手段和工具采集的地理空間數(shù)據(jù)僅是地理現(xiàn)象變化瞬間的快照記錄,傳統(tǒng)地理信息系統(tǒng)也僅能對單一版本的地理空間數(shù)據(jù)進行采集、處理、存儲、分析與顯示,難以對時間序列的海量地理空間數(shù)據(jù)進行挖掘和地理知識發(fā)現(xiàn),因此海量數(shù)據(jù)的時序關聯(lián)是地理信息科學研究亟待解決的問題之一[28].
俞松等[29]和姚春雨等[30]研究了多時態(tài)數(shù)據(jù)的動態(tài)關聯(lián),分析不同時態(tài)下地理實體的各種特征,對空間位置、形態(tài)特征和屬性等要素進行多時態(tài)數(shù)據(jù)變化監(jiān)測和動態(tài)關聯(lián),并將其應用于動態(tài)數(shù)據(jù)庫的建設.沙宗堯[31]提出了時空關聯(lián)規(guī)則挖掘方法,并將其用于監(jiān)測土地覆蓋類型的變化.Abraham 等[32]提出利用時空泛化、時空聚類、時空元規(guī)則和關聯(lián)規(guī)則來描述地理實體的時序變化.夏英等[33]和張俊[34]提出了時空關聯(lián)
規(guī)則挖掘算法:Spatio-Temporal Apriori 算法,并將其應用于智能交通領域.Li 等[35]利用時空關系謂詞建立事件與影響域中目標之間的時空關系.陳新保等[36]研究了多源關聯(lián)模式的時空數(shù)據(jù)挖掘,構建了包含時態(tài)關系、方向關系、距離關系和拓撲關系的空間關聯(lián)模式.
目前,在地理信息更新過程中,大多研究強調地理信息的現(xiàn)勢性,而忽略了歷史地理信息的有效保存,這阻礙了對地理信息變化規(guī)律的分析和變化反演的實現(xiàn).因此,有必要進行歷史數(shù)據(jù)與現(xiàn)勢數(shù)據(jù)空間實體之間的關聯(lián)[29].
地理數(shù)據(jù)是按照應用主題的要求,突出而完善地表示與主題相關的一種或幾種要素,內容側重于某種專業(yè)應用,面對不同的應用具有不同的屬性,而屬性只能從某一個(些)側面或角度描述地理事物的特征.地理空間數(shù)據(jù)語義異構是實現(xiàn)數(shù)據(jù)關聯(lián)、精確發(fā)現(xiàn)的主要瓶頸[7].語義關聯(lián)特征語義本體上的關聯(lián)網絡,挖掘地理實體間存在的潛在關系[37].目前,基于語義特征的關聯(lián)研究分為3個方向:基于關鍵字匹配、基于RDF地理語義數(shù)據(jù)和基于本體概念領域.目前大多基于關鍵字匹配的檢索技術通過借助于目錄、索引和關鍵詞匹配等方式實現(xiàn),忽略了數(shù)據(jù)本身豐富的語義特征,無法有效解決由語義異構帶來的數(shù)據(jù)檢索問題[38].基于RDF 的地理語義數(shù)據(jù)采用資源描述框架RDF(Resource Description Framework)的三元組(主語、謂語、賓語)[39]描述數(shù)據(jù)并構建關聯(lián)模型,利用SPARQL[40]語言(Simple Protocol and RDF Query Language)進行查詢[41],從而更高效地獲取海量數(shù)據(jù)中的有用信息[42].本體概念可用來描述數(shù)據(jù)的語義信息、領域概念和相互關系[43-46],使多源異構數(shù)據(jù)之間的隱性知識顯性化[46],使不同數(shù)據(jù)集之間的各種聯(lián)系能夠為應用系統(tǒng)所識別,實現(xiàn)領域知識的重用,因此基于本體概念領域的研究成為目前解決數(shù)據(jù)語義異構的重點.郭黎[1]研究了基于水系本體的地理空間數(shù)據(jù)語義集成方法,很好地解決了多源數(shù)據(jù)間的語義異構問題.趙紅偉等[47]利用RDF 構建了以元數(shù)據(jù)為節(jié)點、元數(shù)據(jù)之間的語義關系為邊、語義相關度為權重的關聯(lián)網絡,并將其應用于空間數(shù)據(jù)語義關聯(lián)查詢、語義關系度量排序和語義推薦等.虞為等[48]建立參照本體來描述空間對象間的語義關系,提高了地理空間語義網上的異構數(shù)據(jù)查詢的智能度.寧小敏[49]提出了語義關聯(lián)數(shù)據(jù)模型RSS,該模型可充分挖掘海量數(shù)據(jù)中豐富的語義關聯(lián),并可利用知識評價方法進行查詢結果的排序.
數(shù)據(jù)關聯(lián)技術能夠將信息中隱式的語義信息明確地描述出來,并在此基礎上進行有效的語義推理,使得這些相關聯(lián)信息能夠快速地全面檢索和定位,從而極大地提高了網絡服務的智能性和準確性.現(xiàn)有的語義關聯(lián)研究大多還是停留在模型的構建方法上,較為智能完整的關聯(lián)網絡原型系統(tǒng)較少.此外,如何提高基于海量地理空間語義數(shù)據(jù)檢索機制的效率也是亟待解決的問題.
隨著大數(shù)據(jù)思想的崛起和智能時代的到來,海量空間數(shù)據(jù)的管理和組織模式面臨更大的需求和挑戰(zhàn).地理空間數(shù)據(jù)的關聯(lián)是解決海量、多源、異構的地理空間數(shù)據(jù)被發(fā)現(xiàn)、檢索、共享等問題的有效手段.針對當前地理時空信息數(shù)據(jù)量大、利用率低,無法滿足地理信息行業(yè)發(fā)展的應用需求的問題,本文分析了現(xiàn)有地理空間數(shù)據(jù)關聯(lián)組織模型,結合地理時空數(shù)據(jù)特點,對現(xiàn)有的海量信息和知識的處理方式進行梳理后認為,地理數(shù)據(jù)關聯(lián)在以下幾個方面仍需進一步研究.
(1)研究提取更為全面的空間數(shù)據(jù)信息的算法和系統(tǒng).目前相關研究在提取文本、 內容和空間位置等信息方面較為深入,但更為系統(tǒng)、 更加豐富而細微的特征則鮮有涉及的.
(2)語義關聯(lián)研究有待進一步深入.語義代表了對地理現(xiàn)象的更為全面和底層的認識,是突破當前GIS 以主題為核心而不是以地理現(xiàn)象或者地理實體為核心的模型瓶頸的一個重要方向,但是現(xiàn)有的語義關聯(lián)研究大多還是停留在模型的構建方法上,較為智能的、 完整的語義描述模型比較少,相關的關聯(lián)網絡原型系統(tǒng)則更少.
(3)需要研究更為復雜的多源、 多尺度地理數(shù)據(jù)的關聯(lián).目前,多尺度關聯(lián)研究大多只是針對同幾何類型、同坐標體系的地理實體數(shù)據(jù)進行幾何形態(tài)方面的描述和匹配等,但在實際應用中要面對的地理數(shù)據(jù)遠不止此.而且,隨著目前觀測手段的更新,獲得的信息更多,對各種數(shù)據(jù)源數(shù)據(jù)的處理速度遠遠落后于對其獲取的速度,更不用說對于多源數(shù)據(jù)的關聯(lián)應用.
(4)研究地理數(shù)據(jù)的時空關聯(lián),解決從數(shù)據(jù)關聯(lián)的角度理解時空數(shù)據(jù)的問題.目前的GIS 主要面對的數(shù)據(jù)是單一版本的地理空間數(shù)據(jù),關于時間序列的研究主要面向數(shù)據(jù)的管理方面,而針對時間序列的海量地理數(shù)據(jù)的挖掘和知識發(fā)現(xiàn)則涉及較少.
(5)研究基于海量關聯(lián)數(shù)據(jù)的空間檢索.地理數(shù)據(jù)關聯(lián)的一個重要應用就是數(shù)據(jù)檢索,而目前大多研究針對的數(shù)據(jù)量不大,大數(shù)據(jù)量的檢索涉及較少.因此,提供地理數(shù)據(jù)關聯(lián)結果的高效的海量數(shù)據(jù)檢索,也是大數(shù)據(jù)時代地理信息科學亟待解決的問題之一.
(6)研究地理數(shù)據(jù)與其他專題數(shù)據(jù)系統(tǒng)的關聯(lián),進一步促進地理數(shù)據(jù)的深度應用.地理數(shù)據(jù)通過地理位置將現(xiàn)實世界的所有事物都關聯(lián)起來,很多非空間數(shù)據(jù)也蘊含了空間上的相關性,通過對這類數(shù)據(jù)的挖掘,可極大促進GIS 的擴展研究及其在不同領域的應用深度.這不僅是大眾化GIS 的深度應用的強烈需求,同時也是目前GIS 實現(xiàn)自我突破的一個重要趨勢.