彭仲秋,向詩強,陳建明,黃顯義,李永華,張鵬
(1.新疆維吾爾自治區(qū)地質(zhì)礦產(chǎn)勘查開發(fā)局地球物理地球化學探礦大隊,昌吉 831100;2.新疆維吾爾自治區(qū)地質(zhì)礦產(chǎn)勘查開發(fā)局信息中心,烏魯木齊 830000)
地質(zhì)礦產(chǎn)科學信息是礦產(chǎn)資源預(yù)測評價、地質(zhì)勘查、開發(fā)利用的重要信息保證,起到積極指導作用,隨著大數(shù)據(jù)、云計算、地理信息技術(shù)的飛速發(fā)展和廣泛應(yīng)用,為地質(zhì)礦產(chǎn)科學信息共享平臺建設(shè)提供了新思路。李婧等對地質(zhì)大數(shù)據(jù)存儲技術(shù)進行了探討[1],陳建平等論述了中國地質(zhì)大數(shù)據(jù)的研究現(xiàn)狀[2],潘婷婷等提出了多源異構(gòu)的地質(zhì)數(shù)據(jù)集成方法[3],朱月琴等提出了一套面向地質(zhì)大數(shù)據(jù)的語義檢索和聚類分析方法[4]。
本文重點從地質(zhì)礦產(chǎn)科學信息的集成、存儲、檢索、展示和共享5 方面出發(fā),探討構(gòu)建分布式、集群化的地質(zhì)礦產(chǎn)科學信息共享平臺所需解決的關(guān)鍵技術(shù)問題,為“新疆地質(zhì)礦產(chǎn)科學信息共享平臺”建設(shè)提供指導,為新疆地質(zhì)礦產(chǎn)信息的共享和融合奠定基礎(chǔ)。
地質(zhì)礦產(chǎn)科學信息涉及地質(zhì)行業(yè)各專業(yè)的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),種類繁多、形式多樣、內(nèi)容豐富、格式眾多,具有多元異構(gòu)性[5],嚴重影響了數(shù)據(jù)的集成、共享、分析與挖掘[3],解決這一問題的關(guān)鍵是要從現(xiàn)有各類數(shù)據(jù)特性出發(fā),建立數(shù)據(jù)標準體系,規(guī)范數(shù)據(jù)模型,并采用多種類型數(shù)據(jù)庫組合,建立形式上統(tǒng)一的數(shù)據(jù)集成及數(shù)據(jù)訪問接口體系——多元異構(gòu)數(shù)據(jù)集成技術(shù)架構(gòu)(圖1)。
圖1 多元異構(gòu)數(shù)據(jù)集成技術(shù)架構(gòu)Fig.1 Integration technology framework of multivariate heterogeneous data
多元異構(gòu)數(shù)據(jù)集成技術(shù)架構(gòu)主要包括標準規(guī)范制定、數(shù)據(jù)資源池建設(shè)、數(shù)據(jù)處理以及統(tǒng)一訪問接口研發(fā)等內(nèi)容。首先以中國地質(zhì)調(diào)查局編制的《地質(zhì)信息產(chǎn)品發(fā)布技術(shù)要求(試行)》和全國地質(zhì)資料館《地質(zhì)資料核心元數(shù)據(jù)內(nèi)容結(jié)構(gòu)和填寫說明》為基礎(chǔ),從數(shù)據(jù)內(nèi)容、數(shù)據(jù)分級、空間坐標系、數(shù)據(jù)模型、工作流程、質(zhì)量監(jiān)控、數(shù)據(jù)存儲等方面著手,編制《新疆地質(zhì)礦產(chǎn)科學信息共享平臺技術(shù)要求》,再按照技術(shù)要求規(guī)定,利用關(guān)系型數(shù)據(jù)庫(PostgreSQL)、空間數(shù)據(jù)庫(PostGIS)、文檔型數(shù)據(jù)庫(MongoDB)、分布式文件系統(tǒng)(Handoop)、全文檢索數(shù)據(jù)庫(Elastic-Search)、地圖服務(wù)(IGServer、GeoServer)等建立地質(zhì)礦產(chǎn)科學信息數(shù)據(jù)資源池,按照數(shù)據(jù)模型要求對數(shù)據(jù)進行整理、清洗、提取、整合、入庫等標準化處理,最后在數(shù)據(jù)資源池基礎(chǔ)上,開發(fā)統(tǒng)一的數(shù)據(jù)集成及數(shù)據(jù)訪問接口體系。
地質(zhì)礦產(chǎn)科學涵蓋各種野外調(diào)查數(shù)據(jù)、勘探數(shù)據(jù)、遙感數(shù)據(jù)、文獻數(shù)據(jù)等,體量巨大,且隨著時間的推移和數(shù)據(jù)采集技術(shù)的發(fā)展,將繼續(xù)呈現(xiàn)爆發(fā)式海量增長[3],如何實現(xiàn)海量數(shù)據(jù)的存儲管理是平臺建設(shè)中需要解決的關(guān)鍵技術(shù)問題。
平臺建設(shè)中可綜合利用關(guān)系型數(shù)據(jù)庫、空間數(shù)據(jù)庫、文檔數(shù)據(jù)庫、分布式文件系統(tǒng)等解決海量數(shù)據(jù)存儲問題。對于結(jié)構(gòu)化數(shù)據(jù),可存儲于關(guān)系型數(shù)據(jù)庫PostgreSQL 中,通過集群、讀寫分離、分表分庫等方式解決大數(shù)據(jù)存儲問題;對于文檔、圖片、音視頻等非結(jié)構(gòu)化數(shù)據(jù),首先根據(jù)技術(shù)要求提取元數(shù)據(jù),并將元數(shù)據(jù)存儲于關(guān)系型數(shù)據(jù)庫中,而數(shù)據(jù)本身則存儲于分布式文件系統(tǒng)Hadoop中(分布式文件系統(tǒng)能夠充分利用集群的威力高速運算和存儲,具有高可靠、高擴展可伸縮、高效讀寫、高容錯能力、低成本等特點),并通過建立元數(shù)據(jù)與數(shù)據(jù)之間的映射關(guān)系來進行關(guān)聯(lián);對于地質(zhì)圖件、遙感影像等非結(jié)構(gòu)化的空間數(shù)據(jù),可采用GIS切片和編碼技術(shù)進行處理,數(shù)據(jù)可存儲于空間數(shù)據(jù)庫或分布式文件系統(tǒng)中。對于字段不穩(wěn)定的半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),則可采用NoSQL類型的文檔數(shù)據(jù)庫MongoDB進行存儲。
數(shù)據(jù)檢索是地質(zhì)礦產(chǎn)科學信息平臺的典型應(yīng)用場景之一,可綜合運用各種索引技術(shù)、緩存技術(shù)來獲得高效的檢索效率。
研發(fā)關(guān)鍵詞檢索、全文檢索、空間檢索等組合檢索技術(shù)實現(xiàn)數(shù)據(jù)的快速匹配。
關(guān)鍵詞檢索將元數(shù)據(jù)及數(shù)據(jù)內(nèi)容中能表征主題內(nèi)容的、具有實質(zhì)意義的詞語作為關(guān)鍵字,建立關(guān)鍵詞索引,平臺根據(jù)用戶輸入的關(guān)鍵字進行模糊匹配并返回滿足條件的數(shù)據(jù)集。
全文檢索對元數(shù)據(jù)及數(shù)據(jù)內(nèi)容建立Elastic-Search 全文數(shù)據(jù)庫,將一個完整信息源的全部內(nèi)容轉(zhuǎn)化為計算機可識別、處理的信息單元,平臺根據(jù)用戶輸入條件匹配并返回滿足條件的數(shù)據(jù)集。
空間檢索因地質(zhì)數(shù)據(jù)具備的空間特性,需對元數(shù)據(jù)中的空間字段建立空間索引,平臺根據(jù)用戶輸入的位置信息(如:經(jīng)緯度坐標、任意區(qū)域范圍等)進行匹配并返回滿足條件的數(shù)據(jù)集。
綜合使用數(shù)據(jù)庫緩存、地圖緩存等技術(shù)來提升程序運行性能和響應(yīng)速度。
數(shù)據(jù)庫緩存采用Redis 作為數(shù)據(jù)庫緩存,實現(xiàn)高頻訪問數(shù)據(jù)的高速緩存,提高平臺的響應(yīng)速度,極大緩解后端數(shù)據(jù)庫的壓力。
地圖緩存對地圖數(shù)據(jù)進行預(yù)處理,在設(shè)計的比例級別下將地圖切割成瓦片(Tile),并將其存儲在服務(wù)器中,當平臺接收到數(shù)據(jù)請求時可將已有瓦片進行拼接并返回,無需動態(tài)實時生成圖片,可在很大程度上減少GIS 服務(wù)器和數(shù)據(jù)庫服務(wù)器的壓力,有效提高WebGIS服務(wù)體驗。
可視化是利用計算機圖形學和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上展示,再進行交互處理的理論、方法和技術(shù),是研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù)。在地質(zhì)礦產(chǎn)科學信息可視化中離不開空間數(shù)據(jù)可視化技術(shù),平臺建設(shè)中基于WebGIS技術(shù)構(gòu)建地質(zhì)科學信息可視化子系統(tǒng),可視化子系統(tǒng)從層次結(jié)構(gòu)上可劃分為數(shù)據(jù)層、地圖服務(wù)層、表示層,技術(shù)架構(gòu)(圖2)。
圖2 地質(zhì)礦產(chǎn)科學信息可視化技術(shù)架構(gòu)Fig.2 Visualization technology framework of geology and mineral information
該架構(gòu)中數(shù)據(jù)層向地圖服務(wù)層提供柵格數(shù)據(jù)、矢量數(shù)據(jù)以及結(jié)構(gòu)化的空間數(shù)據(jù)等。地圖服務(wù)層部署IGServer、GeoServer 服務(wù),提供網(wǎng)絡(luò)地圖服務(wù)(WMS)、Web 地圖瓦片服務(wù)(WMTS)、網(wǎng)絡(luò)要素服務(wù)(WFS)、網(wǎng)絡(luò)覆蓋服務(wù)(WCS)等標準的OGC 服務(wù)。表示層采用OpenLayers 創(chuàng)建交互式地圖,采用Echarts實現(xiàn)圖表數(shù)據(jù)可視化。
地質(zhì)科學信息平臺建設(shè)的最終目的就是實現(xiàn)數(shù)據(jù)共享和協(xié)作,提高地質(zhì)成果的社會化服務(wù)水平。因此,建立一套科學可行的數(shù)據(jù)共享機制必不可少,數(shù)據(jù)共享不僅能夠在平臺內(nèi)共享,也要實現(xiàn)跨平臺共享。
平臺內(nèi)共享是指用戶可在平臺提供的信息服務(wù)中快速檢索到有哪些地質(zhì)礦產(chǎn)科學信息資源、保存在什么地方、數(shù)據(jù)質(zhì)量如何、通過什么方式可以獲取等。
跨平臺共享是要解決不同系統(tǒng)訪問共享平臺數(shù)據(jù)的問題。首先要研發(fā)統(tǒng)一身份認證子系統(tǒng),解決平臺用戶、各類應(yīng)用用戶的身份識別、授權(quán)管理、訪問控制等問題,然后構(gòu)建標準的數(shù)據(jù)服務(wù)接口,提供OGC、XML 等國際標準數(shù)據(jù)接口的支持,如:支持WMS、WMTS、WFS、WCS等服務(wù)接口、XML數(shù)據(jù)交換接口等,通過統(tǒng)一身份認證子系統(tǒng)的權(quán)限配置,可為用戶提供API 接口調(diào)用服務(wù),實現(xiàn)地質(zhì)礦產(chǎn)科學信息跨平臺共享和應(yīng)用。