盧彥科 張偉
(1.河南省自然資源綜合保障中心,河南 鄭州 450016;2.河南省政務大數(shù)據(jù)中心,河南 鄭州 450016)
隨著自然資源業(yè)務現(xiàn)代化建設的深入,自然資源已經(jīng)進入大數(shù)據(jù)時代,主要表現(xiàn)在數(shù)據(jù)體量大,數(shù)據(jù)呈爆發(fā)式增長,不斷增加的數(shù)據(jù)量要求存儲支持動態(tài)擴展;數(shù)據(jù)種類繁多,包括基礎地理數(shù)據(jù)、遙感影像數(shù)據(jù)、土地數(shù)據(jù)、礦權數(shù)據(jù)、地災數(shù)據(jù)、地質(zhì)環(huán)境數(shù)據(jù)等;數(shù)據(jù)的產(chǎn)生和處理速度要求快,能夠從大量數(shù)據(jù)中快速獲取有效信息是自然資源業(yè)務的迫切要求。傳統(tǒng)的數(shù)據(jù)庫已經(jīng)無法滿足需求,數(shù)據(jù)云存儲技術通過其分布式存儲和并行化處理海量數(shù)據(jù)的能力,為自然資源海量數(shù)據(jù)的存儲和處理提供了良好支撐。本文結合河南省國土空間基礎信息平臺的“一張圖”對數(shù)據(jù)存儲及應用的要求,對數(shù)據(jù)云存儲技術進行研究和探索,用以提升自然資源數(shù)據(jù)的存儲、檢索、分析性能,為實現(xiàn)自然資源工作的信息化快速發(fā)展提供保障。
大數(shù)據(jù)處理的關鍵技術基本分為大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)統(tǒng)計分析及挖掘、大數(shù)據(jù)展現(xiàn)和應用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應用、大數(shù)據(jù)安全等)5 個步驟。在大數(shù)據(jù)環(huán)境下實現(xiàn)地址數(shù)據(jù)的采集、存儲、管理、共享、應用,其核心主要是明確自然資源數(shù)據(jù)的存儲類型,以便選擇相應的數(shù)據(jù)庫存儲模式。同時,解決自然資源數(shù)據(jù)的分布式存儲與并行計算。大數(shù)據(jù)處理的關鍵技術如表1 所示。
表1 大數(shù)據(jù)處理的關鍵技術
研究自然資源大數(shù)據(jù),就是充分利用數(shù)字化自然資源數(shù)據(jù),以大數(shù)據(jù)技術和產(chǎn)業(yè)為指導,深入挖掘自然資源信息,在數(shù)據(jù)采集、數(shù)據(jù)整合、信息提取和數(shù)據(jù)分析等方面開展相關技術研發(fā)和應用。
河南省自然資源數(shù)據(jù)目前已涵蓋全省測繪、地政、礦政、地質(zhì)環(huán)境等4 大類、27 個專題、3243 個數(shù)據(jù)集、36818 個圖層,數(shù)據(jù)總量達40TB。這些數(shù)據(jù)來自全省各級自然資源管理相關部門及其相關單位不同領域,其中現(xiàn)狀類、規(guī)劃類數(shù)據(jù)要通過逐級匯交方式實現(xiàn)數(shù)據(jù)匯聚,數(shù)據(jù)在本地存儲;自然資源管理類數(shù)據(jù)通過實時備案、在線業(yè)務協(xié)同等方式實現(xiàn)數(shù)據(jù)匯聚;其他行業(yè)數(shù)據(jù)通過交換、協(xié)議、共享等方式實現(xiàn)數(shù)據(jù)匯聚;互聯(lián)網(wǎng)類等數(shù)據(jù)通過網(wǎng)上接口、下載等方式實現(xiàn)數(shù)據(jù)匯聚;離線匯交、在線調(diào)用、服務接入多種方式共用,保障數(shù)據(jù)同步與更新??紤]到自然資源數(shù)據(jù)自身的特點以及能夠被快速訪問的需求,傳統(tǒng)的關系型數(shù)據(jù)庫存儲在小規(guī)模數(shù)據(jù)量時可以達到很好的效應。但隨著數(shù)據(jù)量與應用范圍的增加,傳統(tǒng)的關系型數(shù)據(jù)庫性能會快速下降。因此,數(shù)據(jù)分布式存儲是必然的選擇。
云數(shù)據(jù)存儲技術的出現(xiàn),憑借其分布式存儲和并行化處理海量數(shù)據(jù)的能力,為自然資源海量空間數(shù)據(jù)的存儲與處理提供了解決方案。
河南省國土空間基礎信息平臺的“一張圖”通過GIS 數(shù)據(jù)中心集成開發(fā)、網(wǎng)絡通信以及信息化技術,建設自然資源云存儲管理系統(tǒng),實現(xiàn)體系內(nèi)的國土空間基礎信息縱橫聯(lián)通、共建共享、深度融合。
河南省自然資源三維立體資源“一張圖”基于虛擬化、云計算、多租戶等技術建設,實現(xiàn)參建體系內(nèi)的河南省國土空間基礎信息縱橫聯(lián)通、共建共享、深度融合,呈現(xiàn)統(tǒng)一基礎架構的云資源。各級用戶實體以虛擬資源,而不是物理設備方式獲得可用資源,并能夠將取得的虛擬資源根據(jù)需求搭建虛擬業(yè)務系統(tǒng)及數(shù)據(jù)庫,相對獨立地在權限范圍內(nèi)運維管理,實現(xiàn)按需分配的自然資源云服務?;谠品植际酱鎯夹g的數(shù)據(jù)庫存儲解決海量自然資源數(shù)據(jù)存儲和大規(guī)模數(shù)據(jù)處理問題,提高用戶的訪問效率。云存儲平臺整體架構可以劃分為四個層次:數(shù)據(jù)存儲層、數(shù)據(jù)管理層、數(shù)據(jù)服務層與用戶訪問層,如圖1 所示。
圖1 云存儲平臺架構設計
(1)數(shù)據(jù)存儲層
數(shù)據(jù)存儲層是云存儲系統(tǒng)的最基礎部分,由存儲協(xié)議(滿足FC 協(xié)議、iSCSI 協(xié)議、NAS 協(xié)議等)構成,實現(xiàn)數(shù)據(jù)的統(tǒng)一管理。它主要包括計算資源、存儲資源、網(wǎng)絡資源以及安全設備等。各種類型的數(shù)據(jù)統(tǒng)一存放在存儲系統(tǒng)中,實現(xiàn)數(shù)據(jù)的統(tǒng)一管理。
弓閑置不用時會松弛,弓的強度減弱,弓輔就是用來固定弓的形狀使弓不變形,保持弓的彎度強度,所以可引申出安定的意義。
(2)數(shù)據(jù)管理層
數(shù)據(jù)管理層是云存儲系統(tǒng)的核心,也是云存儲中最難以實現(xiàn)的部分,主要包括大規(guī)模的分布式計算系統(tǒng),擔負著管理集群系統(tǒng)資源及資源的虛擬化、控制分布式程序運行、數(shù)據(jù)加密,分發(fā)以及容災備份等工作。數(shù)據(jù)管理層可實現(xiàn)空間大數(shù)據(jù)的快速存取與高效計算,滿足空間時空信息瀏覽、高效分析處理與應用的需要。
(3)數(shù)據(jù)服務層
數(shù)據(jù)服務層是采用云分布式服務技術,根據(jù)不同的用戶,開發(fā)出不同的應用服務接口,并提供相應服務,實現(xiàn)大規(guī)模數(shù)據(jù)的存儲共享、查詢及處理服務。
(4)用戶訪問層
用戶訪問層通過授權、認證等機制使用戶登錄、享受特定權限范圍內(nèi)的云服務。該層具體包括一些數(shù)據(jù)搜索服務、地圖操作以及其他第三方服務。
河南省自然數(shù)據(jù)縱向貫穿省、市、縣三級,按照數(shù)據(jù)類型分為現(xiàn)狀數(shù)據(jù)、規(guī)劃管控數(shù)據(jù)、管理數(shù)據(jù)、社會經(jīng)濟數(shù)據(jù),其中現(xiàn)狀數(shù)據(jù)包含基礎地理、遙感影像、土地利用現(xiàn)狀、礦產(chǎn)資源、三維數(shù)據(jù)等,為掌握國土空間的真實現(xiàn)狀和國土空間的開發(fā)利用與變化狀況提供數(shù)據(jù)基礎;規(guī)劃管控數(shù)據(jù)包含基本農(nóng)田保護紅線、生態(tài)保護紅線、城鄉(xiāng)規(guī)劃、土地規(guī)劃、控制性詳細規(guī)劃、交通規(guī)劃等專項規(guī)劃,為行政審批和國土空間規(guī)劃編制提供管控數(shù)據(jù)依據(jù);管理數(shù)據(jù)是行政審批過程中產(chǎn)生的數(shù)據(jù),包含地政管理數(shù)據(jù)、測繪管理數(shù)據(jù)等,為實施批后監(jiān)管提供數(shù)據(jù)基礎;社會經(jīng)濟數(shù)據(jù)包含宏觀經(jīng)濟、人口數(shù)量、消費物價指數(shù)、社會輿情等,為了解經(jīng)濟、社會運行情況提供數(shù)據(jù)基礎。數(shù)據(jù)資源分類體系結構如圖2 所示。
圖2 自然資源數(shù)據(jù)體系
要將這些數(shù)據(jù)標準、模型、格式、精度、存儲形態(tài)等差異甚大的各類數(shù)據(jù)集成到自然資源“一張圖”數(shù)據(jù)庫中,需要建立一套統(tǒng)一的數(shù)據(jù)格式和標準,使各類數(shù)據(jù)能夠在統(tǒng)一空間基準下進行空間定位、相互疊加和套合?!耙粡垐D”數(shù)據(jù)庫根據(jù)數(shù)據(jù)結構的差異,將結構化離散數(shù)據(jù)和非結構化網(wǎng)格數(shù)據(jù)、柵格數(shù)據(jù)的信息數(shù)據(jù)進行統(tǒng)一格式和標準,導入分布式文件系統(tǒng)HDFS 中,非結構化數(shù)據(jù)在分布式文件系統(tǒng)中按照特定的約定方式被提取出來,并存放到HBase 構建的內(nèi)容庫中,結構化數(shù)據(jù)被發(fā)布到GIS 服務集群中,便于數(shù)據(jù)管理的提取和訪問[2,3],以此模式形成全省覆蓋、內(nèi)容完整、準確權威、動態(tài)鮮活的統(tǒng)一國土空間基礎數(shù)據(jù)資源。
河南省國土空間基礎信息平臺的“一張圖”以二、三維一體化GIS 技術為基礎框架,在組織和關系上進行優(yōu)化設計,支持分布式的數(shù)據(jù)存儲,使得數(shù)據(jù)可存儲在不同的物理位置,在數(shù)據(jù)管理平臺中,將三維同現(xiàn)狀、規(guī)劃、管理、社會經(jīng)濟等業(yè)務要素相結合,以邏輯統(tǒng)一的方式進行數(shù)據(jù)信息的展示,形成自然資源三維立體“一張圖”,如圖3 所示。
圖3 三維立體自然資源“一張圖”
“一張圖”數(shù)據(jù)存儲充分考慮數(shù)據(jù)庫與業(yè)務庫之間關系,采用了數(shù)據(jù)庫與業(yè)務庫隔離、省及各地市數(shù)據(jù)庫松耦合的方式,獨立存儲。同時根據(jù)存儲數(shù)據(jù)類型的不同,從確保數(shù)據(jù)穩(wěn)定可靠、擴展性強、安全性強等角度考慮,分別選用國產(chǎn)關系型數(shù)據(jù)庫、Elasticsearch、非關系型數(shù)據(jù)庫、HDFS 以及HBase數(shù)據(jù)庫進行物理數(shù)據(jù)庫搭建。
按數(shù)據(jù)類型定義數(shù)據(jù)存儲方案,每個數(shù)據(jù)類型可自行定義數(shù)據(jù)存儲位置,一旦有新的數(shù)據(jù)類型需要納入管理,“一張圖”數(shù)據(jù)庫依據(jù)數(shù)據(jù)結構的差異,按照現(xiàn)有的統(tǒng)一格式和標準,分類別進行結構化和非結構化存儲和管理,導入分布式文件系統(tǒng)HDFS 中,做到不同類別數(shù)據(jù)完全隔離,互不影響。
云數(shù)據(jù)庫是被優(yōu)化或部署到虛擬計算環(huán)境中的數(shù)據(jù)庫,在云數(shù)據(jù)庫應用中,客戶端無需了解數(shù)據(jù)庫的底層細節(jié),底層硬件都已經(jīng)被虛擬化[4]。對用戶來說,云數(shù)據(jù)庫就像運行在單一服務器上的數(shù)據(jù)庫一樣,但數(shù)據(jù)的存儲、處理能力與傳統(tǒng)意義上的數(shù)據(jù)庫相比有了質(zhì)的飛躍[5,6]。
考慮到自然資源數(shù)據(jù)自身的特點以及能夠被快速訪問的需求,傳統(tǒng)的關系型數(shù)據(jù)庫存儲在小規(guī)模數(shù)據(jù)量時可以達到很好的效應,但隨著數(shù)據(jù)量與應用范圍的增加,傳統(tǒng)的關系型數(shù)據(jù)庫性能會快速下降,因此,多類型、數(shù)據(jù)分布式存儲是必然的選擇。
選擇自主可控、國產(chǎn)化核心技術,通過整合人工智能技術,實現(xiàn)數(shù)據(jù)庫的自我檢測、自主運維,在降低數(shù)據(jù)庫運維成本的同時,提高計算能力,使數(shù)據(jù)庫獲得更快的響應速度。SuperMap GIS 系列產(chǎn)品與其需無縫對接,將人工智能技術融入分布式數(shù)據(jù)庫,實現(xiàn)了大數(shù)據(jù)空間查詢與分析從性能到算力的全方位優(yōu)化,主要存儲現(xiàn)狀類、管理類、綜合分析類等結構化數(shù)據(jù)。
非關系型數(shù)據(jù)庫即NoSQL 數(shù)據(jù)庫,以塊為單元操作數(shù)據(jù),使用非結構化查詢語言(UNQL)。NoSQL 數(shù)據(jù)庫采用了鍵值(Key-Value)存儲模式[7],該結構主要分為主鍵、屬性和值三部分,基于值存儲的數(shù)據(jù)相對較大的特點就是對數(shù)據(jù)進行切分與壓縮的技術處理后,按照特定的約定方式被提取出來,并存放到HBase構建的內(nèi)容庫中,可以大幅提升數(shù)據(jù)傳輸能力[8],同樣也是因為基于鍵值對,數(shù)據(jù)之間沒有耦合性,所以非常容易水平擴展。該數(shù)據(jù)庫主要存儲平臺運行日志、三維地圖緩存數(shù)據(jù)等事務性不強、數(shù)據(jù)模型比較簡單的數(shù)據(jù)類型。
ElasticSearch 是一個分布式可擴展的實時搜索和分析引擎,一個建立在全文搜索引擎 Apache Lucene(TM)基礎上的搜索引擎。ElasticSearch 不僅包括了全文搜索功能,還可以進行分布式實時文件存儲,并將每一個字段都編入索引,使其可以被搜索。實時分析的分布式搜索引擎,可以擴展到上百臺服務器,處理PB 級別的結構化或非結構化數(shù)據(jù),主要存儲社會經(jīng)濟數(shù)據(jù)中實時動態(tài)數(shù)據(jù)。
HDFS(Hadoop Distributed File System) 是Hadoop 分布式系統(tǒng)體系結構中的核心,主要實現(xiàn)了分布式文件系統(tǒng)。HDFS 在處理超大文件上非常有優(yōu)勢,而且支持流式的訪問數(shù)據(jù),它的設計建立在“一次寫入、多次讀取”任務的基礎上。HDFS 中,一個數(shù)據(jù)集如果由數(shù)據(jù)源生成,就會被復制分發(fā)到不同的存儲節(jié)點中,響應不同的數(shù)據(jù)請求,主要存儲現(xiàn)狀數(shù)據(jù)中海量影像以及文本數(shù)據(jù)。
HBase(Hadoop database)是一種構建在HDFS 之上的分布式、面向列和提供高可靠性、高性能、可伸縮、實時讀寫的開源數(shù)據(jù)庫系統(tǒng),適用于需要實時讀寫、隨機訪問超大規(guī)模數(shù)據(jù)的場景。HBase 是分布式空間數(shù)據(jù)存儲和管理首選,既能支持多種數(shù)據(jù)格式的存儲,包括柵格數(shù)據(jù)(如GeoTIFF)、矢量數(shù)據(jù)(如UDB/UDBX、Shapefile、GDB 等)和各種文件數(shù)據(jù),又具有較強的數(shù)據(jù)查詢與讀寫能力,基于HBase 數(shù)據(jù)庫可以實現(xiàn)矢量數(shù)據(jù)15 億條線+28 億個面的迅速存儲與讀取,主要存儲海量矢量數(shù)據(jù)。
本文提出的理論與方法在河南省國土空間基礎信息平臺“一張圖”建設中得到了部分應用,解決了超大規(guī)模海量自然資源數(shù)據(jù)存儲和實時更新的一些難題,為自然資源數(shù)據(jù)的高效存儲與實時共享提供了一定思路。河南省自然資源“一張圖”建設完成后,目前已覆蓋全省18 個市、100 多個縣的自然資源管理部門。
自然資源信息是重要的基礎國情,自然資源管理關系國計民生,落實自然資源“兩統(tǒng)一”職責,全面深化“放管服”改革,必須依靠信息化的引導和驅動,自然資源海量數(shù)據(jù)存儲管理又是自然資源信息化的關鍵,因此研究云存儲技術在自然資源數(shù)據(jù)存儲中的應用,提高自然資源信息化管理和應用水平是自然資源信息化事業(yè)發(fā)展的必然要求。