王凱,李研研
吉林省地礦信息中心, 吉林 長春 130061
地質(zhì)工作是服務(wù)經(jīng)濟(jì)和社會(huì)發(fā)展的先行工作,是國家高度重視的基礎(chǔ)行業(yè)。作為地質(zhì)工作成果的主要載體,地質(zhì)礦產(chǎn)數(shù)據(jù)具有較大的潛在經(jīng)濟(jì)價(jià)值和可重復(fù)開發(fā)利用價(jià)值[1]。
相較于其他數(shù)據(jù),地質(zhì)礦產(chǎn)數(shù)據(jù)類型較為復(fù)雜,涉及到政治經(jīng)濟(jì)基礎(chǔ)、法律法規(guī)、地理概況、考察報(bào)告、礦業(yè)開發(fā)、物探、化探、遙感等內(nèi)容[2]。按地質(zhì)礦產(chǎn)數(shù)據(jù)庫數(shù)據(jù)格式劃分,地質(zhì)礦產(chǎn)數(shù)據(jù)可分為矢量數(shù)據(jù)、數(shù)據(jù)表、柵格數(shù)據(jù)和文本數(shù)據(jù)。
伴隨著大數(shù)據(jù)時(shí)代的到來,這些數(shù)據(jù)呈現(xiàn)出了豐富多樣、涵蓋面廣而又具備差異性的特點(diǎn)。在現(xiàn)存海量數(shù)據(jù)的狀況下,如何對(duì)地質(zhì)礦產(chǎn)大數(shù)據(jù)進(jìn)行有效分類、建立地質(zhì)礦產(chǎn)數(shù)據(jù)庫并收納具有價(jià)值的數(shù)據(jù)則是行業(yè)內(nèi)的熱門話題之一。
地質(zhì)礦產(chǎn)數(shù)據(jù)庫存儲(chǔ)設(shè)計(jì)主要是結(jié)合業(yè)務(wù)場(chǎng)景將用到的所有地質(zhì)礦產(chǎn)相關(guān)數(shù)據(jù)進(jìn)行抽取分類存儲(chǔ)管理,按照結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和空間數(shù)據(jù)存儲(chǔ)三種方式進(jìn)行混合存儲(chǔ)設(shè)計(jì)(圖1)。
圖1 地質(zhì)礦產(chǎn)數(shù)據(jù)庫混合存儲(chǔ)設(shè)計(jì)
結(jié)構(gòu)化數(shù)據(jù)采用關(guān)系型數(shù)據(jù)庫進(jìn)行管理,包括Oracle、MySql、PostgreSql、Sqlserver等RDBMS關(guān)系型數(shù)據(jù)庫。存儲(chǔ)數(shù)據(jù)主要為矢量圖形表和業(yè)務(wù)屬性表等二維關(guān)系結(jié)構(gòu)數(shù)據(jù)。
將非結(jié)構(gòu)化數(shù)據(jù)本身存儲(chǔ)在內(nèi)存存儲(chǔ)介質(zhì)上,非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)(如文件路徑、文件名、文件格式、文件大小等)存儲(chǔ)到數(shù)據(jù)庫表中并與對(duì)應(yīng)空間數(shù)據(jù)對(duì)象建立關(guān)聯(lián)關(guān)系,降低數(shù)據(jù)庫資源消耗的同時(shí)也減輕了數(shù)據(jù)維護(hù)的壓力。
(1)非關(guān)系型數(shù)據(jù)庫存儲(chǔ)(NoSQL)。非關(guān)系型數(shù)據(jù)庫主要采用Redis、MongoDB、ElasticSearch、ActiveMQ(消息隊(duì)列)、等NoSQL非關(guān)系型數(shù)據(jù)庫。存儲(chǔ)數(shù)據(jù)可包括切片數(shù)據(jù)緩存、日志緩存數(shù)據(jù)。
(2)分布式文件系統(tǒng)(HDFS)。分布式文件系統(tǒng)FastDFS存儲(chǔ)數(shù)據(jù)可包括辦公文檔、地質(zhì)報(bào)告、文本、圖片、圖像、音頻、視頻信息等格式數(shù)據(jù)。
(1)矢量數(shù)據(jù)存儲(chǔ)。主要采用GIS空間數(shù)據(jù)庫+關(guān)系型數(shù)據(jù)庫來對(duì)空間數(shù)據(jù)進(jìn)行物理存儲(chǔ)設(shè)計(jì)。矢量空間數(shù)據(jù)采用關(guān)系型數(shù)據(jù)庫RDBMS+空間數(shù)據(jù)庫引擎SDE等方式進(jìn)行存儲(chǔ)。存儲(chǔ)數(shù)據(jù)包括工作區(qū)以往的1∶5萬、1∶20萬等區(qū)域地質(zhì)圖、構(gòu)造地質(zhì)圖、基巖地質(zhì)圖,細(xì)查閱調(diào)查區(qū)已有的遙感影像、地球物理、地球化學(xué)和礦區(qū)大比例尺填圖等提供全局總貌和揭示隱伏信息的各種矢量資料。
(2)柵格數(shù)據(jù)存儲(chǔ)。對(duì)于遙感影像等柵格類數(shù)據(jù)由于數(shù)據(jù)量巨大,直接存儲(chǔ)到數(shù)據(jù)庫中不僅增加了數(shù)據(jù)庫運(yùn)行壓力,同時(shí)柵格數(shù)據(jù)本身的讀取速度也會(huì)大大降低。采用鑲嵌數(shù)據(jù)集(Mosaic Dataset)形式進(jìn)行管理,將體量巨大的柵格數(shù)據(jù)本身保留在數(shù)據(jù)庫外部(如ArcGIS地圖服務(wù)器分布式文件系統(tǒng))而僅在數(shù)據(jù)庫中保存數(shù)據(jù)的引用。不僅便于柵格數(shù)據(jù)的管理和查詢,同時(shí)能夠提供高級(jí)柵格查詢功能以及實(shí)施函數(shù)處理,還可用作提供影像服務(wù)的數(shù)據(jù)源。
在充分調(diào)研、整合存量地質(zhì)礦產(chǎn)大數(shù)據(jù)基礎(chǔ)上,對(duì)存量紙質(zhì)資料進(jìn)行掃描和標(biāo)準(zhǔn)化處理,將所有數(shù)據(jù)進(jìn)行分類,依據(jù)設(shè)計(jì)的數(shù)據(jù)庫入庫基本流程進(jìn)行分類存儲(chǔ),對(duì)地質(zhì)礦產(chǎn)大數(shù)據(jù)進(jìn)行統(tǒng)一集成調(diào)度,確保有序、高效的管理與應(yīng)用地質(zhì)礦產(chǎn)數(shù)據(jù)庫(圖2)。
圖2 地質(zhì)礦產(chǎn)大數(shù)據(jù)入庫流程圖
2.1.1 建設(shè)模式
按照地質(zhì)礦產(chǎn)數(shù)據(jù)庫標(biāo)準(zhǔn)規(guī)范要求對(duì)原始數(shù)據(jù)進(jìn)行規(guī)范化處理,將數(shù)據(jù)質(zhì)檢后入庫,對(duì)已入庫后的數(shù)據(jù)再次進(jìn)行數(shù)據(jù)量、數(shù)據(jù)質(zhì)量的再次檢查、驗(yàn)證,形成最終整合后的成果。質(zhì)檢流程與內(nèi)容如圖3所示。
圖3 數(shù)據(jù)質(zhì)檢流程
2.1.2 前提條件
源數(shù)據(jù)存儲(chǔ)管理方式、數(shù)據(jù)格式等與要求不一致,例如原始數(shù)據(jù)是以MapGIS、Access等文件格式存儲(chǔ)的;數(shù)據(jù)完備性、標(biāo)準(zhǔn)化較差,不符合相關(guān)數(shù)據(jù)庫標(biāo)準(zhǔn),例如要素分類、圖層命名、屬性結(jié)構(gòu)與數(shù)據(jù)庫標(biāo)準(zhǔn)不一致,屬性表達(dá)、實(shí)體對(duì)象內(nèi)部及之間的關(guān)系不符合數(shù)據(jù)庫標(biāo)準(zhǔn)要求及空間拓?fù)潢P(guān)系。
2.1.3 數(shù)據(jù)整合特點(diǎn)
按照數(shù)據(jù)整理與加工技術(shù)要求進(jìn)行數(shù)據(jù)整理,統(tǒng)一數(shù)據(jù)格式、坐標(biāo)系、數(shù)據(jù)結(jié)構(gòu);根據(jù)應(yīng)用需求,采集元數(shù)據(jù)、建立索引等;經(jīng)過整理后的數(shù)據(jù)由地質(zhì)礦產(chǎn)數(shù)據(jù)庫集中管理,按照誰生產(chǎn)誰更新的原則進(jìn)行數(shù)據(jù)更新;該整合方式復(fù)雜、工作量大。
2.2.1 建設(shè)模式
在條件具備前提下,保持原有數(shù)據(jù)庫及數(shù)據(jù)結(jié)構(gòu)不動(dòng),采用加載國際標(biāo)準(zhǔn)化組織開放地理信息聯(lián)盟OGC的標(biāo)準(zhǔn)Web地圖服務(wù)(如OGC-W*S,包括Web 地圖服務(wù)WMS、Web 要素服務(wù)WFS、Web 覆蓋服務(wù)WCS等)的方式納入地質(zhì)信息系統(tǒng),實(shí)現(xiàn)統(tǒng)一管理和服務(wù)。
2.2.2 前提條件
已按照國家、部、省數(shù)據(jù)庫標(biāo)準(zhǔn)建庫,地圖服務(wù)空間參考與地質(zhì)礦產(chǎn)數(shù)據(jù)庫要求保持一致;統(tǒng)一集成、訪問、調(diào)用并更新維護(hù)數(shù)據(jù)。
2.2.3 數(shù)據(jù)整合特點(diǎn)
通過采集數(shù)據(jù)服務(wù)的元數(shù)據(jù),統(tǒng)一注冊(cè)數(shù)據(jù)服務(wù)到地圖服務(wù)目錄中,數(shù)據(jù)服務(wù)集中管理,統(tǒng)一設(shè)置及分配對(duì)外服務(wù)權(quán)限,誰生產(chǎn)誰更新,數(shù)據(jù)整合集成相對(duì)簡單且工作量最小。
2.3.1 建設(shè)模式
保持原有數(shù)據(jù)庫不動(dòng),采用數(shù)據(jù)提取、轉(zhuǎn)換和加載(Extract--Transform--Load, ETL)方式,按照統(tǒng)一數(shù)據(jù)轉(zhuǎn)換規(guī)則集,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫向地質(zhì)數(shù)據(jù)庫的結(jié)構(gòu)轉(zhuǎn)換。數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)模式可采用數(shù)據(jù)主動(dòng)推送和數(shù)據(jù)被動(dòng)提取兩種方式。無論是市局統(tǒng)一建設(shè)、縣(區(qū))局負(fù)責(zé)應(yīng)用的業(yè)務(wù)應(yīng)用系統(tǒng),還是市局自建自用的業(yè)務(wù)應(yīng)用系統(tǒng)的數(shù)據(jù)皆可通過該方式進(jìn)行數(shù)據(jù)整合。
2.3.2 前提條件
數(shù)據(jù)庫已按照部、省數(shù)據(jù)庫標(biāo)準(zhǔn)或者依據(jù)業(yè)務(wù)系統(tǒng)需求進(jìn)行建庫,數(shù)據(jù)的現(xiàn)勢(shì)性、完備性、標(biāo)準(zhǔn)化良好;數(shù)據(jù)庫平臺(tái)、格式、坐標(biāo)系等可能不統(tǒng)一;要素分類、命名、結(jié)構(gòu)等數(shù)據(jù)與標(biāo)準(zhǔn)存在差異;重新建庫相對(duì)復(fù)雜且會(huì)影響日常業(yè)務(wù)。
2.3.3 數(shù)據(jù)整合特點(diǎn)
該模式較為復(fù)雜,需要建立業(yè)務(wù)管理數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,工作量適中,不影響業(yè)務(wù)辦理和審批,可通過數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)自動(dòng)完成。
地質(zhì)礦產(chǎn)數(shù)據(jù)庫試運(yùn)行合格后,數(shù)據(jù)庫開發(fā)工作就基本完成,即可投入正式運(yùn)行。但是,由于應(yīng)用環(huán)境在不斷變化,數(shù)據(jù)庫運(yùn)行過程中物理存儲(chǔ)也會(huì)不斷變化,對(duì)數(shù)據(jù)庫設(shè)計(jì)進(jìn)行評(píng)價(jià)、調(diào)整、修改等維護(hù)工作是一個(gè)長期的任務(wù),也是設(shè)計(jì)工作的繼續(xù)和提高[3]。地質(zhì)礦產(chǎn)數(shù)據(jù)庫維護(hù)工作的內(nèi)容主要包括恢復(fù)、備份、安全性、完整性、日志監(jiān)督等方面。
作為系統(tǒng)正式運(yùn)行后最重要的維護(hù)工作之一,數(shù)據(jù)庫的轉(zhuǎn)儲(chǔ)和恢復(fù)通過制定差異化的轉(zhuǎn)儲(chǔ)計(jì)劃,確保在故障發(fā)生時(shí)以最快的速度使地質(zhì)礦產(chǎn)數(shù)據(jù)庫恢復(fù)到某種一致的狀態(tài),并盡可能減少對(duì)數(shù)據(jù)庫的破壞。
當(dāng)數(shù)據(jù)庫的應(yīng)用環(huán)境發(fā)生變化時(shí),其對(duì)于安全性的要求也會(huì)隨之改變。例如某些原本是機(jī)密的數(shù)據(jù)可能轉(zhuǎn)變?yōu)樵试S公開查詢,而新加入的數(shù)據(jù)定義為機(jī)密數(shù)據(jù);同時(shí),也會(huì)對(duì)系統(tǒng)用戶的密級(jí)進(jìn)行修訂;數(shù)據(jù)庫的完整性約束條件也會(huì)有所改變??赏ㄟ^修改當(dāng)前的安全性控制實(shí)現(xiàn)對(duì)實(shí)際情況的動(dòng)態(tài)調(diào)整,確保數(shù)據(jù)庫的安全性和完整性。
數(shù)據(jù)庫運(yùn)行過程中,可通過DBMS(數(shù)據(jù)庫管理系統(tǒng))產(chǎn)品提供的監(jiān)測(cè)系統(tǒng)性能參數(shù)的工具對(duì)系統(tǒng)的運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)測(cè),對(duì)獲取到的一系列性能參數(shù)的值進(jìn)行分析。
本文首先對(duì)地質(zhì)礦產(chǎn)數(shù)據(jù)庫存儲(chǔ)的設(shè)計(jì)分類進(jìn)行了歸納,繼而從建設(shè)模式、前提條件和數(shù)據(jù)整合特點(diǎn)三個(gè)方面論述了三種不同的地質(zhì)礦產(chǎn)大數(shù)據(jù)入庫模式,簡述了地質(zhì)礦產(chǎn)數(shù)據(jù)庫維護(hù)的相關(guān)工作。在此基礎(chǔ)上,未來可以緊密結(jié)合邊緣計(jì)算、數(shù)據(jù)挖掘、數(shù)字地質(zhì)等先進(jìn)技術(shù)對(duì)地質(zhì)礦產(chǎn)大數(shù)據(jù)的開發(fā)與利用、地質(zhì)礦產(chǎn)數(shù)據(jù)庫的構(gòu)建與完善進(jìn)行深入研究。