宋曉 梁建峰 李維祿 苗慶生 韓璐遙 韋廣昊
(國家海洋信息中心, 天津 300171)
提要 通過對極地海洋數(shù)據(jù)的特征及應(yīng)用需求分析, 基于“一種架構(gòu)支持多類應(yīng)用”的傳統(tǒng)數(shù)據(jù)庫模式已無法滿足需求, 本文提出采用“多種架構(gòu)支持多類應(yīng)用”模式的數(shù)據(jù)庫設(shè)計(jì)理念, 通過研究極地海洋數(shù)據(jù)分類分層管理體系, 開展極地海洋原始數(shù)據(jù)層、基礎(chǔ)數(shù)據(jù)層、綜合數(shù)據(jù)層、成果數(shù)據(jù)層的存儲(chǔ)管理機(jī)制、數(shù)據(jù)庫體系架構(gòu)設(shè)計(jì)、數(shù)據(jù)庫模型設(shè)計(jì)等關(guān)鍵技術(shù)研究, 開發(fā)數(shù)據(jù)庫查詢檢索功能, 滿足用戶對極地海洋數(shù)據(jù)的多樣化查詢檢索、空間可視化展示、關(guān)聯(lián)分析等需求, 實(shí)現(xiàn)極地海洋數(shù)據(jù)的有效存儲(chǔ)、高效應(yīng)用和開放共享。
目前極地海洋數(shù)據(jù)獲取已呈現(xiàn)出全時(shí)空覆蓋、綜合性觀測、常態(tài)化調(diào)查以及局部精細(xì)化補(bǔ)充調(diào)查的新局面, 各個(gè)國家已經(jīng)推出新的海洋觀測/監(jiān)測/調(diào)查計(jì)劃, 包括 Argo、海王星、OOI、GOOS、IOOS等多個(gè)觀測計(jì)劃[1-5], 并發(fā)射了多顆海洋觀測衛(wèi)星[6-8], 通過衛(wèi)星遙感、各類浮標(biāo)、雷達(dá)等新型觀測手段, 提升了極地?cái)?shù)據(jù)獲取能力。
目前國內(nèi)針對極地?cái)?shù)據(jù)存儲(chǔ)管理, 通常采用單一的數(shù)據(jù)庫技術(shù)進(jìn)行數(shù)據(jù)庫建模, 但是面對多源、異構(gòu)、多模態(tài)、數(shù)據(jù)量大且動(dòng)態(tài)增長等特征的極地海洋數(shù)據(jù)[9-10], 利用單一的數(shù)據(jù)結(jié)構(gòu)組織存儲(chǔ)方式進(jìn)行處理管理, 只能實(shí)現(xiàn)簡單的數(shù)據(jù)管理, 數(shù)據(jù)利用率及可視化程度都較低, 難以滿足用戶多樣化的數(shù)據(jù)查詢檢索、高性能計(jì)算、綜合分析、關(guān)聯(lián)分析、聚類分析等應(yīng)用需求。
隨著數(shù)據(jù)庫技術(shù)的發(fā)展, 針對結(jié)構(gòu)化、非結(jié)構(gòu)數(shù)據(jù)庫應(yīng)運(yùn)而生, 比較常見的有以 Oracle、SQLServer為代表的事務(wù)型數(shù)據(jù)庫, 以Greenplum、Gbase 8a為代表的高性能并行數(shù)據(jù)庫, 以Hadoop為代表的非結(jié)構(gòu)化數(shù)據(jù)庫, 目前我國 IT、金融、公安等行業(yè)針對不同數(shù)據(jù)類型、業(yè)務(wù)專題, 采用“OldSQL+NewSQL”或“OldSQL+NoSQL”等混搭模式的嘗試, 取得了良好效果。本文針對極地海洋領(lǐng)域, 首次提出“OldSQL+NewSQL+NoSQL”混搭模式的數(shù)據(jù)庫存儲(chǔ)方式應(yīng)用到極地海洋領(lǐng)域,面對非結(jié)構(gòu)化數(shù)據(jù)、時(shí)間序列數(shù)據(jù)、空間數(shù)據(jù)等多類型的極地?cái)?shù)據(jù), 針對存儲(chǔ)、管理、分析、應(yīng)用、服務(wù)等應(yīng)用分析需求, 開展數(shù)據(jù)庫模型設(shè)計(jì)與關(guān)鍵技術(shù)研究。
本文利用多源數(shù)據(jù)模型建模技術(shù), 通過數(shù)據(jù)結(jié)構(gòu)模型、組織模型、存儲(chǔ)模型和業(yè)務(wù)模型等模型的構(gòu)建, 對多類型極地?cái)?shù)據(jù)按類別分別實(shí)現(xiàn)數(shù)據(jù)的分類與分層設(shè)計(jì), 針對不同層次數(shù)據(jù)庫開展不同應(yīng)用模式的數(shù)據(jù)庫架構(gòu)設(shè)計(jì), 實(shí)現(xiàn)基于OldSQL結(jié)構(gòu)化基礎(chǔ)數(shù)據(jù)庫技術(shù)的面向極地海洋結(jié)構(gòu)化標(biāo)準(zhǔn)數(shù)據(jù)集的數(shù)據(jù)庫設(shè)計(jì)與建模方法研究,基于NewSQL并行數(shù)據(jù)庫技術(shù)面向結(jié)構(gòu)化極地海洋大數(shù)據(jù)的綜合數(shù)據(jù)智能分析、數(shù)據(jù)均勻分布策略與數(shù)據(jù)檢索技術(shù)研究, 基于 NoSQL非結(jié)構(gòu)化數(shù)據(jù)庫技術(shù)的面向非結(jié)構(gòu)化極地海洋數(shù)據(jù)的多級(jí)索引技術(shù)研究。
采用“OldSQL+NewSQL+NoSQL”混搭模式的數(shù)據(jù)庫存儲(chǔ)方式開展極地海洋數(shù)據(jù)庫的設(shè)計(jì)與實(shí)現(xiàn)(圖1)。其中, 事務(wù)型數(shù)據(jù)庫系統(tǒng)主要面向原始數(shù)據(jù)和基礎(chǔ)數(shù)據(jù)層, 針對極地海洋元數(shù)據(jù)、空間數(shù)據(jù)、基礎(chǔ)業(yè)務(wù)數(shù)據(jù), 通過事務(wù)處理引擎、時(shí)間序列引擎、空間數(shù)據(jù)引擎和高可用解決方案構(gòu)建極地海洋結(jié)構(gòu)化基礎(chǔ)數(shù)據(jù)庫; 分布式并行數(shù)據(jù)庫系統(tǒng)主要面向綜合數(shù)據(jù)層, 采用列存儲(chǔ)分布式并行數(shù)據(jù)庫集群構(gòu)建,為超大規(guī)模數(shù)據(jù)管理提供高性能計(jì)算、綜合分析平臺(tái), 為各類海洋數(shù)據(jù)分析與計(jì)算等提供支持; 非結(jié)構(gòu)化Hadoop數(shù)據(jù)庫系統(tǒng)主要面向成果數(shù)據(jù)層, 針對需要分析利用文本、音視頻文件、時(shí)間序列等非結(jié)構(gòu)化數(shù)據(jù), 建立Hadoop數(shù)據(jù)庫, 實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)分析、聚類分析、深度學(xué)習(xí)等應(yīng)用研究。
圖1 極地海洋數(shù)據(jù)庫總體架構(gòu)設(shè)計(jì)Fig.1.The overall architecture design of polar marine database
極地?cái)?shù)據(jù)來源豐富, 且各類來源獲取的數(shù)據(jù)類型、數(shù)據(jù)頻率、獲取方式均存在差異, 通過分析不同數(shù)據(jù)來源特點(diǎn), 對開展極地?cái)?shù)據(jù)庫設(shè)計(jì)具有指導(dǎo)性作用。極地?cái)?shù)據(jù)按獲取來源可分為: 對地觀測數(shù)據(jù)、地基觀測/監(jiān)測數(shù)據(jù)、極地考察數(shù)據(jù)和計(jì)算模擬數(shù)據(jù)。
1.2.1 對地觀測數(shù)據(jù)
主要包括長期走航重復(fù)斷面業(yè)務(wù)化觀測數(shù)據(jù)、重點(diǎn)區(qū)域定點(diǎn)陣列式觀測數(shù)據(jù)、空間地理測繪及衛(wèi)星遙感觀測數(shù)據(jù)等。
1.2.2 地基觀(監(jiān))測數(shù)據(jù)
主要包括陸地生態(tài)環(huán)境觀(監(jiān))測數(shù)據(jù)、冰川環(huán)境觀(監(jiān))測數(shù)據(jù)、空間環(huán)境綜合監(jiān)測數(shù)據(jù)等。
1.2.3 極地考察數(shù)據(jù)
極地考察數(shù)據(jù)是通過極地航次任務(wù)采集獲取的數(shù)據(jù), 根據(jù)考察計(jì)劃定期更新數(shù)據(jù), 可按照極地考察航次進(jìn)行分類, 實(shí)現(xiàn)所有航次考察數(shù)據(jù)的管理。
1.2.4 計(jì)算模擬數(shù)據(jù)
通過統(tǒng)計(jì)分析、數(shù)值分析、計(jì)算模擬等手段進(jìn)行數(shù)據(jù)處理, 得到的數(shù)據(jù)。
按照數(shù)據(jù)來源、數(shù)據(jù)處理層次、應(yīng)用系統(tǒng)設(shè)計(jì)角度對極地?cái)?shù)據(jù)進(jìn)行分層設(shè)計(jì), 將極地?cái)?shù)據(jù)分為: 原始數(shù)據(jù)層、基礎(chǔ)數(shù)據(jù)層、綜合數(shù)據(jù)層和成果數(shù)據(jù)層, 可滿足不同人員、不同業(yè)務(wù)領(lǐng)域、不同研究目標(biāo)的需求。
1.3.1 極地海洋原始數(shù)據(jù)層
原始數(shù)據(jù)是指采用南北極陸-海-空觀(監(jiān))測平臺(tái)、北極陸-海-空觀(監(jiān))測平臺(tái)和極地考察等手段, 獲取得到的極地冰川[11-13]、極地海冰[14]、極地物理海洋[15]、極地氣象[16-17]、極地大氣空間物理[18-19]、極地地質(zhì)[20]、極地地球物理[21]、極地化學(xué)[22-23]、極地生物生態(tài)[24-27]、極地遙感[28]等原始資料。
1.3.2 極地海洋基礎(chǔ)數(shù)據(jù)層
基礎(chǔ)數(shù)據(jù)層是指針對極地原始資料按照資料來源、學(xué)科類型進(jìn)行定向分類整理, 開展數(shù)據(jù)校驗(yàn)、重復(fù)性檢查、數(shù)據(jù)解碼和質(zhì)量控制等標(biāo)準(zhǔn)化處理, 形成的標(biāo)準(zhǔn)數(shù)據(jù)文件。
1.3.3 極地海洋綜合數(shù)據(jù)層
綜合數(shù)據(jù)層是指針對多源異構(gòu)標(biāo)準(zhǔn)數(shù)據(jù)集,按照學(xué)科類型、獲取方式, 進(jìn)行格式統(tǒng)一、標(biāo)準(zhǔn)統(tǒng)一、基準(zhǔn)統(tǒng)一、計(jì)量單位統(tǒng)一、綜合排重等整合提取轉(zhuǎn)換, 以及時(shí)空維度排序、衍生參數(shù)計(jì)算、數(shù)據(jù)訂正等處理, 將同類學(xué)科/要素、相同獲取方式資料按照方區(qū)或時(shí)間維度進(jìn)行組織存放, 形成綜合數(shù)據(jù)層。
1.3.4 極地海洋成果數(shù)據(jù)層
成果數(shù)據(jù)層主要包括數(shù)值型產(chǎn)品和圖形產(chǎn)品,是指針對極地標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行制作加工形成的極地表面冰流速矢量圖、海冰密度專題圖、極地高空物理圖集、極地地形圖、極地地球物理剖面圖、極地重力異常圖、重力基底深度圖、極地巖系分布地質(zhì)圖、水深地形圖、極地影像產(chǎn)品等。
OldSQL關(guān)系型數(shù)據(jù)庫主要包括元數(shù)據(jù)庫、空間數(shù)據(jù)庫和基礎(chǔ)數(shù)據(jù)庫。本文中OldSQL關(guān)系型數(shù)據(jù)庫采用Oracle 12g版本進(jìn)行數(shù)據(jù)庫設(shè)計(jì)與實(shí)現(xiàn)。
2.1.1 元數(shù)據(jù)庫設(shè)計(jì)建模
1.元數(shù)據(jù)庫概念設(shè)計(jì)
極地海洋原始數(shù)據(jù)庫面向極地海洋數(shù)據(jù)管理人員, 基于元數(shù)據(jù)導(dǎo)航方式進(jìn)行管理, 按照數(shù)據(jù)來源、學(xué)科、可公開程度等內(nèi)容開展數(shù)據(jù)的歸類和整理, 開展原始數(shù)據(jù)庫中各類文件清單表、清單索引表、表關(guān)聯(lián)關(guān)系等模型設(shè)計(jì)。通過元數(shù)據(jù)庫與原始極地文件建立一一對應(yīng)關(guān)系, 實(shí)現(xiàn)原始數(shù)據(jù)文件的溯源和快速查詢。
2.元數(shù)據(jù)庫邏輯設(shè)計(jì)
元數(shù)據(jù)庫主要記錄了資料的匯交過程信息和在資料庫中的基本管理信息, 是基于模型設(shè)計(jì)針對字段名稱、字段類型、字段長度、主外鍵等內(nèi)容開展的數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計(jì)。元數(shù)據(jù)的要素主要包括: 元數(shù)據(jù)標(biāo)識(shí)、元數(shù)據(jù)標(biāo)題、航次名稱、任務(wù)名稱、學(xué)科類型、觀測儀器、搭載平臺(tái)、內(nèi)容摘要、接收時(shí)間、空間范圍、文件數(shù)、數(shù)據(jù)量、資料接收人、匯交單位、載體形式、密級(jí)、存放路徑等, 極地考察元數(shù)據(jù)邏輯設(shè)計(jì)圖, 如圖2所示。
圖2 元數(shù)據(jù)庫邏輯設(shè)計(jì)圖Fig.2.Metadata database logic design diagram
2.1.2 基礎(chǔ)數(shù)據(jù)庫建模
基礎(chǔ)數(shù)據(jù)面向極地海洋數(shù)據(jù)管理人員, 基于業(yè)務(wù)信息(如項(xiàng)目、航次等)對極地海洋要素進(jìn)行組織和管理, 要建立數(shù)據(jù)、航次、設(shè)備、時(shí)間、空間之間的關(guān)聯(lián)關(guān)系, 數(shù)據(jù)具有以行為單位, 二維數(shù)組表現(xiàn)、強(qiáng)調(diào)數(shù)據(jù)的最小冗余度和最大一致性約束等特點(diǎn), 所以基礎(chǔ)數(shù)據(jù)庫采用 OldSQL結(jié)構(gòu)化數(shù)據(jù)庫設(shè)計(jì)實(shí)現(xiàn)。
1.基礎(chǔ)數(shù)據(jù)庫概念設(shè)計(jì)
根據(jù)航次、設(shè)備類型、學(xué)科類型、資料類型、資料格式、數(shù)據(jù)觀測頻率、數(shù)據(jù)傳輸頻率等設(shè)計(jì)數(shù)據(jù)庫結(jié)構(gòu), 對海洋各類數(shù)據(jù)進(jìn)行概念上的抽象和表達(dá), 用各種對象表示數(shù)據(jù)內(nèi)部實(shí)體間的關(guān)系,確定各個(gè)對象、屬性之間的相互聯(lián)系和約束。
2.基礎(chǔ)數(shù)據(jù)庫邏輯設(shè)計(jì)
圖3 基礎(chǔ)數(shù)據(jù)庫邏輯設(shè)計(jì)圖Fig.3.Basic database logic design diagram
2.1.3 空間數(shù)據(jù)庫建模
空間數(shù)據(jù)庫主要用于存儲(chǔ)空間特征的矢量、柵格、電子地圖等極地海洋地理信息數(shù)據(jù), 傳統(tǒng)基礎(chǔ)數(shù)據(jù)庫(業(yè)務(wù)數(shù)據(jù))的組織與管理無法滿足基于空間特性的極地海洋信息的空間檢索、分析和可視化等功能,所以采用空間數(shù)據(jù)庫技術(shù), 根據(jù)數(shù)據(jù)空間特性開展數(shù)據(jù)要素的組織管理, 實(shí)現(xiàn)面向網(wǎng)格的、大數(shù)據(jù)量的空間信息提取、分析、可視化和數(shù)據(jù)挖掘等功能[31-32]。
1.空間數(shù)據(jù)庫存儲(chǔ)模型設(shè)計(jì)
空間數(shù)據(jù)模型采用ESRI的Geodatabase數(shù)據(jù)模型。在統(tǒng)一的空間數(shù)據(jù)模型中進(jìn)行矢量與影像數(shù)據(jù)的模型設(shè)計(jì)。極地海洋空間數(shù)據(jù)的管理采用物理存儲(chǔ)層、數(shù)據(jù)適配層、邏輯展示層等三層構(gòu)建的管理體系, 如圖4所示。
圖4 極地海洋空間數(shù)據(jù)存儲(chǔ)模型Fig.4.Polar marine spatial data storage model
1)物理存儲(chǔ)層
物理存儲(chǔ)層存儲(chǔ)各種形式的極地海洋地理信息數(shù)據(jù), 包括數(shù)據(jù)庫二維表、空間數(shù)據(jù)集及以文件方式存儲(chǔ)的數(shù)據(jù)。
2)數(shù)據(jù)適配層
數(shù)據(jù)適配層連接數(shù)據(jù)的邏輯組織結(jié)構(gòu)和物理存儲(chǔ)方式, 使復(fù)雜多樣的極地海洋地理信息數(shù)據(jù)能夠獨(dú)立于數(shù)據(jù)的存儲(chǔ)方式, 面向管理應(yīng)用需要進(jìn)行邏輯結(jié)構(gòu)組織, 提供數(shù)據(jù)瀏覽、查詢、提取等服務(wù)。
在確定填料前,施工人員要重點(diǎn)檢測施工段的土壤質(zhì)量,根據(jù)實(shí)際情況選用最佳的填料進(jìn)行填充。一般來說,路堤填料有著良好的施工效果,這是由于其填料的滲水性較強(qiáng),含水量較少。此外,在對路堤填充的過程中,要避免選擇淤泥與雜物填充,要控制填充材料的水分含量。
3)邏輯展示層
邏輯展示層面向最終的用戶。系統(tǒng)向用戶提供靈活的配置能力。用戶可根據(jù)不同的應(yīng)用需求和數(shù)據(jù)類型, 對邏輯層進(jìn)行配置和展示。
2.矢量數(shù)據(jù)建模
矢量數(shù)據(jù)通過比例尺+坐標(biāo)系統(tǒng)+圖幅編號(hào)/圖名對數(shù)據(jù)進(jìn)行管理, 利用 MDB數(shù)據(jù)作為主數(shù)據(jù)標(biāo)識(shí), 匹配圖廓、測線、坐標(biāo)等空間特征信息,通過 Featureclass、Feature Dataset方式存儲(chǔ)在ArcSDE Geodatabase中, 支持對空間圖層、空間參考、屬性字段、比例尺等信息的自定義操作。
3.柵格數(shù)據(jù)建模
柵格數(shù)據(jù)主要包括衛(wèi)星遙感影像、航空遙感影像、網(wǎng)格DEM產(chǎn)品等。采用資料名稱+格網(wǎng)間距+資料范圍等對數(shù)據(jù)進(jìn)行管理, 利用影像或者海底DEM作為主數(shù)據(jù)標(biāo)識(shí), 匹配影像、產(chǎn)品空間覆蓋范圍等空間特征信息, 柵格數(shù)據(jù)建模支持面向多種空間數(shù)據(jù)源的各種柵格目錄模型的定義,采用 Mosaic Dataset方式進(jìn)行存儲(chǔ), 并生成FOOTPRINT服務(wù)通過ArcSDE Geodatabase中相應(yīng)的空間數(shù)據(jù)庫表實(shí)現(xiàn)數(shù)據(jù)訪問和查詢檢索。
NewSQL數(shù)據(jù)庫面向數(shù)據(jù)分析處理人員, 采用海量并行處理(Massively Parallel Processing,MPP)技術(shù), 構(gòu)建分布式并行數(shù)據(jù)庫集群, 為超大規(guī)模的極地?cái)?shù)據(jù)管理提供大數(shù)據(jù)高性能計(jì)算、綜合分析應(yīng)用等技術(shù)支撐。NewSQL數(shù)據(jù)庫采用按列或按行混合存儲(chǔ)數(shù)據(jù), 每張表或表分區(qū)可以根據(jù)應(yīng)用需要, 分別指定存儲(chǔ)和壓縮方式, 并行數(shù)據(jù)庫設(shè)計(jì)難點(diǎn)在于數(shù)據(jù)均勻分布、數(shù)據(jù)壓縮存儲(chǔ)技術(shù)、數(shù)據(jù)索引技術(shù)研究。
2.2.1 數(shù)據(jù)均勻分布策略
按照極地海洋數(shù)據(jù)特征, 進(jìn)行數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計(jì), 按照數(shù)據(jù)均勻分布策略, 盡可能將數(shù)據(jù)均勻分布在每一個(gè)節(jié)點(diǎn)上, 盡量避免某個(gè)服務(wù)器節(jié)點(diǎn)壓力過大, 最大限度發(fā)揮每個(gè)硬件設(shè)備性能,常用的分布方法有哈希分布方法和隨機(jī)分布方法,本文采用 Hash分布策略將數(shù)據(jù)表按行均勻分布至相應(yīng)的數(shù)據(jù)庫節(jié)點(diǎn)上。
首頁按照時(shí)間、范圍、值域劃分表分區(qū), 建立數(shù)據(jù)庫分區(qū)表(圖5), 分區(qū)表建立的sql語句:
Create table table_name (dt date, num int) distributed by (dt)
然后依據(jù)哈希分布算法把相同的記錄在同一個(gè)Segment節(jié)點(diǎn), sql語句:
create table table_name distributed by (column[,…])
圖5 數(shù)據(jù)均勻分布邏輯圖Fig.5.Data distribution logic diagram
2.2.2 并行數(shù)據(jù)檢索技術(shù)研究
通過 Hash分布策略實(shí)現(xiàn)極地海洋數(shù)據(jù)表按行均勻分布至服務(wù)器節(jié)點(diǎn), 基于列式存儲(chǔ)形式,利用數(shù)據(jù)壓縮算法對每列數(shù)據(jù)進(jìn)行壓縮存儲(chǔ), 建立B-Tree數(shù)據(jù)庫索引技術(shù), 實(shí)現(xiàn)數(shù)據(jù)庫索引建模,為數(shù)據(jù)的并行檢索和分析操作提供技術(shù)支撐。
NoSQL數(shù)據(jù)庫面向數(shù)據(jù)挖掘分析處理人員,針對非結(jié)構(gòu)化極地海洋數(shù)據(jù)文件, 采用分布式體系架構(gòu), 構(gòu)建基于列式存儲(chǔ)、可伸縮的分布式數(shù)據(jù)庫, 實(shí)現(xiàn)對極地海洋文件、音視頻文件、海洋時(shí)間序列數(shù)據(jù)等資料的關(guān)聯(lián)分析、聚類分析、深度學(xué)習(xí)。
NoSQL數(shù)據(jù)庫設(shè)計(jì)難點(diǎn)在于數(shù)據(jù)索引設(shè)計(jì), 優(yōu)化的數(shù)據(jù)索引模型是提高數(shù)據(jù)查詢檢索速度的關(guān)鍵。常見的索引技術(shù)有單個(gè)索引和組合索引, 當(dāng)查詢條件過多時(shí), 單索引技術(shù)存在全表掃描次數(shù)過多,導(dǎo)致查詢速度越來越慢等缺點(diǎn); 當(dāng)查詢條件冗余過多時(shí), 組合索引技術(shù)存在系統(tǒng)存儲(chǔ)壓力過大等缺點(diǎn)。
根據(jù)極地海洋數(shù)據(jù)文件特性, 本文提出基于序列號(hào)和基于條件項(xiàng)的多級(jí)索引模型設(shè)計(jì)(圖6,圖7), 基于序列號(hào)檢索是通過觀測站名稱或者站代碼進(jìn)行檢索, 而基于條件項(xiàng)的檢索是通過數(shù)據(jù)描述信息, 如觀測單位、數(shù)據(jù)名稱、觀測要素等,基于數(shù)據(jù)實(shí)際應(yīng)用需求, 開展基于 Hadoop技術(shù)框架下的多級(jí)數(shù)據(jù)索引模型設(shè)計(jì)。
圖6 多級(jí)索引模型設(shè)計(jì)(第一級(jí))Fig.6.Multi-level index model design(first level)
圖7 多級(jí)索引模型設(shè)計(jì)(第二級(jí))Fig.7.Multi-level index model design (second level)
面向不同用戶層的業(yè)務(wù)需求, 基于“OldSQL+NewSQL+NoSQL” 混搭數(shù)據(jù)庫模式, 實(shí)現(xiàn)了多級(jí)別、多層次、多主題的數(shù)據(jù)檢索與應(yīng)用服務(wù)。
3.1.1 元數(shù)據(jù)導(dǎo)航檢索
基于極地元數(shù)據(jù)庫, 參照文獻(xiàn)檢索的方式,開展數(shù)據(jù)的查詢檢索與服務(wù), 用戶可通過模糊查詢、精確查詢、多條件組合查詢等形式, 實(shí)現(xiàn)元數(shù)據(jù)的快速導(dǎo)航。
3.1.2 數(shù)據(jù)地圖空間漫游
基于極地基礎(chǔ)數(shù)據(jù)庫、空間數(shù)據(jù)庫, 提供地圖實(shí)時(shí)縮放、全圖顯示、坐標(biāo)定位、地名定位等功能, 實(shí)現(xiàn)海量極地空間數(shù)據(jù)的快速瀏覽, 及遙感影像數(shù)據(jù)的讀取及瀏覽。
3.1.3 主題數(shù)據(jù)檢索
基于并行數(shù)據(jù)庫, 提供多主題極地綜合分析數(shù)據(jù)的查詢檢索, 并提供航次軌跡路線圖、網(wǎng)格分布圖(圖8)、時(shí)間分布圖等可視化展示, 便于用戶進(jìn)一步的綜合分析應(yīng)用。
圖8 極地物理海洋網(wǎng)格分布圖Fig.8.Polar physical ocean grid map
3.2.1 實(shí)驗(yàn)測試環(huán)境
軟硬件測試環(huán)境: 并行數(shù)據(jù)庫集群是由配置相同的Dell R910服務(wù)器組成, 服務(wù)器具體配置:CPU為 Intel Xeon E7-4807 1.86 GHz, 內(nèi)存容量16 GB, 每臺(tái)服務(wù)器配備3塊SAS硬盤, 容量300 GB,網(wǎng)絡(luò)環(huán)境為千兆局域網(wǎng)。
實(shí)驗(yàn)測試數(shù)據(jù): 實(shí)驗(yàn)數(shù)據(jù)根據(jù)極地調(diào)查資料模擬, 數(shù)據(jù)格式為文本文件, 總數(shù)據(jù)量大小約2.6 GB。
3.2.2 查詢響應(yīng)對比
以溫鹽、海流和氣溫要素為測試用例, 以傳統(tǒng)結(jié)構(gòu)化存儲(chǔ)方式與NewSQL并行存儲(chǔ)方式對比,測試執(zhí)行查詢語句的響應(yīng)時(shí)間。其中溫鹽記錄約700萬條, 海流記錄約80萬條, 氣溫記錄約3萬條。數(shù)據(jù)查詢響應(yīng)時(shí)間對比圖, 如圖9所示。
圖9 查詢響應(yīng)性能對比圖Fig.9.Query response performance comparison chart
本文通過分析極地海洋數(shù)據(jù)的特點(diǎn)及應(yīng)用需求, 采用“多種架構(gòu)支持多類應(yīng)用”的混搭數(shù)據(jù)庫存儲(chǔ)模式, 將通過極地科考、國際交換獲取及加工處理后的所有元數(shù)據(jù)、空間數(shù)據(jù)、矢量數(shù)據(jù)、柵格數(shù)據(jù)、事件序列數(shù)據(jù)、成果數(shù)據(jù)等, 開展數(shù)據(jù)分類、分層體系設(shè)計(jì), 通過開展數(shù)據(jù)庫建模、清單索引、多級(jí)索引、空間關(guān)聯(lián)關(guān)系等設(shè)計(jì), 開發(fā)數(shù)據(jù)庫查詢檢索功能, 滿足用戶對極地海洋數(shù)據(jù)的查詢檢索、可視化展示、高性能計(jì)算、關(guān)聯(lián)分析等需求, 實(shí)現(xiàn)極地海洋數(shù)據(jù)的科學(xué)管理和有效應(yīng)用。