国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop的數(shù)值預(yù)報產(chǎn)品服務(wù)平臺設(shè)計與實現(xiàn)

2015-07-07 13:10:12李永生曾徐美紅石小英
應(yīng)用氣象學(xué)報 2015年1期
關(guān)鍵詞:數(shù)據(jù)表氣象分布式

李永生曾 沁 徐美紅 石小英

(廣東省氣象信息中心,廣州510080)

基于Hadoop的數(shù)值預(yù)報產(chǎn)品服務(wù)平臺設(shè)計與實現(xiàn)

李永生*曾 沁 徐美紅 石小英

(廣東省氣象信息中心,廣州510080)

數(shù)值預(yù)報產(chǎn)品數(shù)據(jù)與日俱增,采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫對其進(jìn)行存儲和管理存在效率低和存儲能力不足的問題。另外,基于文件的存儲方式在數(shù)據(jù)存儲處理、數(shù)據(jù)讀取和算法計算等方面存在性能瓶頸。針對這一問題,基于Hadoop技術(shù)體系設(shè)計了分布式的數(shù)據(jù)存儲模型,實現(xiàn)了數(shù)值預(yù)報產(chǎn)品數(shù)據(jù)的分布式存儲和處理,開發(fā)了數(shù)值預(yù)報產(chǎn)品數(shù)據(jù)接入處理模塊;并實現(xiàn)了基于Rest Web Service的獲取數(shù)值預(yù)報產(chǎn)品要素場數(shù)據(jù)訪問接口、時間序列數(shù)據(jù)訪問接口、數(shù)據(jù)下載接口等業(yè)務(wù)應(yīng)用接口。多業(yè)務(wù)用戶的實際業(yè)務(wù)測試表明,該平臺在諸如數(shù)值預(yù)報產(chǎn)品氣象數(shù)據(jù)處理和業(yè)務(wù)應(yīng)用方面較傳統(tǒng)技術(shù)架構(gòu)具有一定優(yōu)勢。

Hadoop技術(shù)體系;氣象數(shù)據(jù);Web Service接口

引 言

氣象數(shù)據(jù)是氣象業(yè)務(wù)和科研工作的基礎(chǔ),數(shù)據(jù)蘊含巨大的價值。近年來,我國氣象事業(yè)有了長足進(jìn)步,也建設(shè)了大量的常規(guī)、特種自動氣象探測設(shè)備,其傳輸、處理和服務(wù)應(yīng)用的信息量呈指數(shù)形式增長。這些數(shù)據(jù)包括結(jié)構(gòu)化的數(shù)據(jù),如自動氣象站觀測數(shù)據(jù)、人工觀測數(shù)據(jù)等,也包括精細(xì)化數(shù)值預(yù)報產(chǎn)品、風(fēng)云系列氣象衛(wèi)星產(chǎn)品和氣象雷達(dá)產(chǎn)品等數(shù)據(jù),對于結(jié)構(gòu)化的數(shù)據(jù)可以通過關(guān)系型數(shù)據(jù)庫進(jìn)行分析、處理和計算,并取得了良好的業(yè)務(wù)應(yīng)用效果,對于數(shù)值預(yù)報產(chǎn)品等數(shù)據(jù)大多基于文件方式(如grib格式文件)存儲和處理,再通過專業(yè)的軟件繪圖后應(yīng)用于實際業(yè)務(wù)中。因此,探討新的針對數(shù)值預(yù)報產(chǎn)品數(shù)據(jù)進(jìn)行分析處理的方式是目前氣象業(yè)務(wù)應(yīng)用的迫切需求,以實現(xiàn)這類氣象數(shù)據(jù)資源的高效利用和共享。

如何做好氣象數(shù)據(jù)服務(wù)一直是氣象信息技術(shù)發(fā)展的重要方向之一,李集明等[1]從數(shù)據(jù)資源管理和共享發(fā)布兩個方面分別介紹了元數(shù)據(jù)技術(shù)、數(shù)據(jù)網(wǎng)格技術(shù)、海量數(shù)據(jù)存儲管理技術(shù)、數(shù)據(jù)挖掘技術(shù)等構(gòu)建氣象信息共享平臺的關(guān)鍵技術(shù);王伯民等[2]對氣象科學(xué)數(shù)據(jù)發(fā)布策略進(jìn)行了研究,本文以氣象數(shù)值預(yù)報產(chǎn)品這類典型的氣象數(shù)據(jù)為數(shù)據(jù)源,基于Hadoop技術(shù)體系實現(xiàn)氣象數(shù)據(jù)文件的分布式存儲和管理。按照資源即服務(wù)的理念,對數(shù)據(jù)服務(wù)進(jìn)行基于SOA架構(gòu)的封裝,使之Web服務(wù)化,實際業(yè)務(wù)測試表明,基于Hadoop的數(shù)值預(yù)報產(chǎn)品服務(wù)平臺與氣象業(yè)務(wù)發(fā)展現(xiàn)狀和需求結(jié)合緊密。

1 平臺基礎(chǔ)架構(gòu)設(shè)計與實現(xiàn)

從數(shù)值預(yù)報產(chǎn)品數(shù)據(jù)的入庫方式和性能、特定條件查詢搜索、獲取要素場數(shù)據(jù)接口設(shè)計等方面綜合考慮,以 Hadoop基礎(chǔ)上集成 Hive,Hadoop與HBase技術(shù)組合以及Hadoop基礎(chǔ)上整合Sci Hadoop 3種技術(shù)方案為備選方案,制定了入庫方式、入庫記錄查詢方式、數(shù)據(jù)存儲組織方式等考核指標(biāo),經(jīng)初步分析判斷,嘗試選用后選取Hadoop與HBase技術(shù)組合作為系統(tǒng)的技術(shù)實現(xiàn)方案,并在此基礎(chǔ)上設(shè)計了三層結(jié)構(gòu)的總體框架,具體如圖1所示。實際測試結(jié)果表明,該技術(shù)方案能夠滿足業(yè)務(wù)實際需求。

圖1 系統(tǒng)總體框架Fig.1 The diagram of the system overall frame

平臺的系統(tǒng)架構(gòu)由分布式資源集成層、分布式數(shù)據(jù)集成層和應(yīng)用服務(wù)層3個部分組成。

分布式資源集成層充分利用Hadoop適合在廉價機器上對各種資源數(shù)據(jù)進(jìn)行分布式存儲和分布式管理,以及具有可伸縮性和高容錯性等特點,基于Hadoop技術(shù)構(gòu)建了分布式資源集成層[3],該層的主要功能是實現(xiàn)對基礎(chǔ)設(shè)施的集成,即利用Hadoop技術(shù)將物理上分散的存儲和計算資源整合為邏輯上統(tǒng)一的存儲和計算資源。

分布式數(shù)據(jù)集成層包括數(shù)據(jù)接入模塊、分布式數(shù)據(jù)存儲和管理以及分布式計算引擎3個組成部分,其中數(shù)據(jù)接入模塊對原始格式的數(shù)值預(yù)報產(chǎn)品進(jìn)行解碼和格式轉(zhuǎn)換,并開發(fā)實現(xiàn)了將數(shù)據(jù)實時接入平臺的功能;分布式數(shù)據(jù)存儲和管理模塊基于HDFS和HBase,實現(xiàn)了數(shù)據(jù)的分布式存儲和管理;在分布式計算引擎模塊中,Map Reduce通過將對數(shù)據(jù)集的大規(guī)模操作分發(fā)給Hadoop集群中的每個節(jié)點進(jìn)行處理,每個節(jié)點會周期性地將完成的工作和狀態(tài)同步更新到管理節(jié)點上[4]。該層的主要功能是實現(xiàn)數(shù)值預(yù)報產(chǎn)品數(shù)據(jù)的實時接入,并實現(xiàn)數(shù)據(jù)的分布式存儲和管理。

應(yīng)用服務(wù)層包括分布式數(shù)據(jù)獲取接口和分布式算法服務(wù)接口[5],為了更好地與其他業(yè)務(wù)系統(tǒng)實現(xiàn)對接,對外提供了基于Rest(Representational State Transfer)Web Service的標(biāo)準(zhǔn)化數(shù)據(jù)查詢和訪問接口,該層的功能主要是部署基于Rest Web Servic數(shù)據(jù)服務(wù)程序,從而在邏輯上對接業(yè)務(wù)應(yīng)用系統(tǒng)。

系統(tǒng)功能如圖2所示。

圖2 系統(tǒng)功能結(jié)構(gòu)圖Fig.2 The system function structure diagram

2 數(shù)據(jù)存儲管理模型設(shè)計

平臺將數(shù)值預(yù)報產(chǎn)品數(shù)據(jù)解析后存儲在HBase中,每種數(shù)值預(yù)報產(chǎn)品的元數(shù)據(jù)信息和實體數(shù)據(jù)分別存儲在兩個表中,即元數(shù)據(jù)表和實體數(shù)據(jù)表,不同的數(shù)值預(yù)報產(chǎn)品分開存儲在不同的一組元數(shù)據(jù)表和實體數(shù)據(jù)表中,目前試驗平臺中實際存儲了8類數(shù)值預(yù)報產(chǎn)品,包括ECMWF(歐洲中期數(shù)值預(yù)報中心)發(fā)布的0.25°×0.25°水平分辨率和2.5°×2.5°水平分辨率的數(shù)值預(yù)報產(chǎn)品,JMA(日本氣象廳)發(fā)布的0.5°×0.5°水平分辨率和1.25°×1.25°水平分辨率的數(shù)值預(yù)報產(chǎn)品,中國華南區(qū)域氣象中心發(fā)布的12 km和36 km分辨率GRAPES產(chǎn)品,逐時同化預(yù)報產(chǎn)品(CHAF)以及中國國家氣象中心發(fā)布的T639產(chǎn)品等。其中元數(shù)據(jù)表中存儲產(chǎn)品的所有要素名稱列表、時次列表、高度列表、經(jīng)緯度列表、起報時間列表等元信息,實體數(shù)據(jù)表以行鍵、列族、數(shù)據(jù)的方式存儲數(shù)值預(yù)報產(chǎn)品的實體數(shù)據(jù)。

2.1 元數(shù)據(jù)存儲格式

元數(shù)據(jù)表中存儲數(shù)值預(yù)報產(chǎn)品的所有要素名稱列表、時次列表、高度列表、經(jīng)緯度列表、起報時間列表等元數(shù)據(jù),具體存儲的信息如表1所示。

表1 元數(shù)據(jù)表存儲內(nèi)容說明Table 1 The description of metadata table content

2.2 實體數(shù)據(jù)存儲模型設(shè)計

氣象數(shù)值預(yù)報產(chǎn)品屬于格點場數(shù)據(jù),即以二維陣列的格式記載高空要素場的分布,它的每一數(shù)據(jù)點稱為格點,其中要素場包括高度場、風(fēng)場(南北向和東西向)和溫度場等。根據(jù)數(shù)值預(yù)報產(chǎn)品的實際特點,在進(jìn)行實體數(shù)據(jù)存儲模型設(shè)計時引入了命名格式為AAAATTT變量,AAAA為4個字母長度的英文縮寫,代表數(shù)值預(yù)報產(chǎn)品的預(yù)報要素名稱;TTT為預(yù)報時效,如temp006表示某一預(yù)報時刻起點算起未來6 h的溫度預(yù)報。變量AAAATTT在邏輯上是4個維度的變量,表示為AAAATTT(lon,lat,level,time),4 個維 度 均 為 離 散 值,其中l(wèi)on是經(jīng)向維度,lat是緯向維度,level是預(yù)報層次(如850 h Pa,925 hPa等),time是數(shù)值預(yù)報開始預(yù)報的時刻,如2013062700,表示2013年6月27號00:00(世界時,下同)。每種數(shù)值預(yù)報產(chǎn)品在元數(shù)據(jù)表中的存儲格式如表2所示。

表2 實體數(shù)據(jù)模型示意表Table 2 The schematics table of entity data model

行鍵(Rowkey):數(shù)據(jù)表的主鍵。Rowkey的值由變量AAAATTT和起報時間共同確定。如對于產(chǎn)品CHAF的溫度要素(temp),在2012年9月1日00:00起報,預(yù)報時效為未來6 h的預(yù)報場,其Rowkey為temp006:2012090100。

時間戳(Timestamp):每條數(shù)據(jù)更新的歷史記錄,同一行鍵數(shù)據(jù)再次入庫會記錄不同的時間戳。

列族(Column Family):每種數(shù)值預(yù)報產(chǎn)品不同預(yù)報層次的預(yù)報值存儲在不同的列中。每個元數(shù)據(jù)表中的列族的列數(shù)根據(jù)具體預(yù)報產(chǎn)品決定。

數(shù)據(jù)(Values):記錄該產(chǎn)品的每個行鍵實際對應(yīng)的數(shù)據(jù),如對于產(chǎn)品CHAF的temp要素,temp006:2012090100的預(yù)報數(shù)據(jù)存儲的數(shù)據(jù)(Values)如下:

2.3 入庫記錄存儲格式

入庫記錄存儲在Rowkey Tab表中,以Rowkey:temp000:2012080100形式存儲。其中,Rowkey為temp000:2012080100的數(shù)據(jù)的入庫信息,temp000:2012080100為要素temp在2012年8月1日00:00起報時間的000時次的預(yù)報值。

3 數(shù)據(jù)服務(wù)接口

3.1 服務(wù)接口

平臺采用Rest Web Service提供對外數(shù)據(jù)服務(wù)接口,針對目前的氣象業(yè)務(wù)需求[6],開發(fā)了數(shù)據(jù)查詢接口、獲取要素場數(shù)據(jù)接口、獲取時間序列數(shù)據(jù)接口、數(shù)值預(yù)報單產(chǎn)品多要素數(shù)據(jù)服務(wù)接口、數(shù)值預(yù)報多產(chǎn)品單要素數(shù)據(jù)服務(wù)接口、三維雷達(dá)數(shù)據(jù)服務(wù)接口、Json和Surfer格式文件下載接口等多個數(shù)據(jù)訪問接口。

3.2 接口調(diào)用方法

接口調(diào)用可以通過調(diào)用http請求方式[7-9]嵌入應(yīng)用程序,實際的調(diào)用過程與此類似,程序調(diào)用的過程如下:

其中,InterfaceURL iu=new InterfaceURL("ip:端口號",InterfaceURL.DATA_LIST);用于指定開啟了Web Service服務(wù)的機器,以及所需調(diào)用的接口,接口可參照Interface URL類中的定義。InterfaceURL.addParameter()方法用于添加請求URL的參數(shù)[10]。通過Interface URL.toString()方法可以獲取完整的請求URL。

4 平臺業(yè)務(wù)應(yīng)用

4.1 平臺實現(xiàn)

基于Hadoop技術(shù)在多臺X86架構(gòu)服務(wù)器[11]上構(gòu)建了系統(tǒng)試驗應(yīng)用平臺,系統(tǒng)實現(xiàn)時在現(xiàn)有多個HDFS Name Node HA的解決方案選取了能自動雙向失效切換的HA方案,針對氣象業(yè)務(wù)的實際特點[12]設(shè)計實現(xiàn)了主節(jié)點(NameNode)的自動雙向失效切換,系統(tǒng)通過Zookeeper技術(shù)實現(xiàn)故障切換,從而解決了Hadoop技術(shù)體系中主節(jié)點單點故障問題,實現(xiàn)了平臺的可靠性、動態(tài)可擴展以及安全一體化等特點,實際模擬試驗時,將主節(jié)點的進(jìn)程終止,系統(tǒng)能夠正常切換,測試時切換時間未超過2 min。經(jīng)過近1年的業(yè)務(wù)試運行結(jié)果表明平臺穩(wěn)定可靠;基于Rest Web Service實現(xiàn)了數(shù)據(jù)服務(wù)接口的可靠訪問,接口的各方面性能指標(biāo)基本滿足氣象業(yè)務(wù)實際需求。

4.2 平臺業(yè)務(wù)應(yīng)用測試

4.2.1 測試硬件環(huán)境說明

試驗測試環(huán)境由型號為X3650的X86架構(gòu)的服務(wù)器組成,服務(wù)器的具體配置:CPU為Xeon E5-2603 1.8 GHz,內(nèi)存容量為4 GB,每臺服務(wù)器配4塊硬盤,硬盤參數(shù)為1 TB 7.2 K 6 Gbps NL SATA 3.5"G2HS HDD,網(wǎng)絡(luò)環(huán)境為千兆局域網(wǎng)。

4.2.2 測試對象和方法

業(yè)務(wù)試驗測試以華南區(qū)域逐時循環(huán)同化分析與精細(xì)模式預(yù)報系統(tǒng)(CHAF)為測試對象,CHAF產(chǎn)品基本信息lon Num為309,lat Num為267,level為1。每層的網(wǎng)格點位309×267=82503。每個網(wǎng)格點4字節(jié)存儲,每層數(shù)據(jù)量約為330 KB。通過Rest Web Service獲取數(shù)據(jù)。

4.2.3 數(shù)據(jù)接入性能測試

以CHAF產(chǎn)品為測試對象,每輪進(jìn)行3次測試,然后取平均值,分別測試數(shù)據(jù)接入處理模塊處理100,200,…,1000個要素場數(shù)據(jù)所花費的平均時間,測試結(jié)果如圖3所示,寫入1000個具有82503個格點的數(shù)值預(yù)報產(chǎn)品數(shù)據(jù)僅耗時12 s,完全滿足業(yè)務(wù)實際需求。

4.2.4 數(shù)據(jù)接口讀取測試

以CHAF產(chǎn)品為測試對象,每輪進(jìn)行3次測試,然后取平均值,分別測試通過接口讀取100,200,…,1000個要素場數(shù)據(jù)所花費的平均時間[13],測試結(jié)果如圖4所示。數(shù)據(jù)讀取性能隨著數(shù)據(jù)量的增加緩慢上升,讀取1000個具有82503個格點的數(shù)值預(yù)報產(chǎn)品數(shù)據(jù)僅耗時4 s。

4.2.5 平臺擴展性能測試

平臺擴展性能測試以華南區(qū)域逐時循環(huán)同化分析與精細(xì)模式預(yù)報系統(tǒng)(CHAF)為測試對象。分別測試節(jié)點數(shù)不同情況下讀取200個要素場數(shù)據(jù)的讀取性能,其中每個要素場的數(shù)據(jù)為330 KB。測試每次為集群靜態(tài)增加2個節(jié)點,每個節(jié)點的物理存儲空間為4 TB,修改集群主節(jié)點的配置文件后重新啟動集群,待整個平臺數(shù)據(jù)自動再平衡[13]后進(jìn)行讀取測試。測試結(jié)果表明:隨著平臺節(jié)點數(shù)量的增加,數(shù)據(jù)讀取性能總體平穩(wěn)略優(yōu)。測試結(jié)果如圖5所示。

圖3 數(shù)據(jù)接入性能測試結(jié)果Fig.3 Results of access performance of data

圖4 數(shù)據(jù)接口讀取性能測試結(jié)果Fig.4 Results of reading performance of data interface

圖5 平臺擴展性能測試結(jié)果Fig.5 Results of performance of platform extension

5 小 結(jié)

本文對基于Hadoop技術(shù)體系的數(shù)值預(yù)報產(chǎn)品服務(wù)平臺的總體功能、關(guān)鍵技術(shù)及其在實際業(yè)務(wù)中的實例應(yīng)用進(jìn)行了詳細(xì)闡述,該平臺能夠快速收集各數(shù)值預(yù)報中心分發(fā)的數(shù)值預(yù)報產(chǎn)品并實現(xiàn)快速的數(shù)據(jù)解碼和數(shù)據(jù)接入,同時對諸如數(shù)值預(yù)報產(chǎn)品等非結(jié)構(gòu)化氣象數(shù)據(jù)實現(xiàn)分布式的存儲和處理,基于Rest Web Service開發(fā)的業(yè)務(wù)應(yīng)用接口能夠高效對接氣象業(yè)務(wù)系統(tǒng)。實際業(yè)務(wù)測試表明:

1)基于Hadoop技術(shù)體系搭建的平臺具有較好的系統(tǒng)穩(wěn)定性和擴展性,可根據(jù)實際業(yè)務(wù)需求對系統(tǒng)進(jìn)行動態(tài)在線擴展。

2)平臺能夠高效處理諸如數(shù)值預(yù)報產(chǎn)品等非結(jié)構(gòu)化氣象數(shù)據(jù),Hadoop與HBase技術(shù)組合是非結(jié)構(gòu)化氣象數(shù)據(jù)分析和處理技術(shù)的重要發(fā)展方向。

隨著平臺在氣象業(yè)務(wù)中的推廣應(yīng)用,該平臺將在氣象業(yè)務(wù)現(xiàn)代化和一體化建設(shè)中發(fā)揮重要作用。當(dāng)然,目前平臺仍需要在實際應(yīng)用中逐步優(yōu)化,包括平臺的可視化管理開發(fā)、可接入資料種類的擴展并進(jìn)一步簡化數(shù)據(jù)服務(wù)接口等[14-16]。另外,實時計算概念和技術(shù)的引入也是未來重要的研究方向。

[1] 李集明,沈文海,王國復(fù).氣象信息共享平臺及其關(guān)鍵技術(shù)研究.應(yīng)用氣象學(xué)報,2006,17(5):621-622.

[2] 王伯民,李集明,吳增祥.我國氣象科學(xué)數(shù)據(jù)發(fā)布策略初步研究.應(yīng)用氣象學(xué)報,2004,15(增刊I):153-154.

[3] 宋連春,肖風(fēng)勁,李威.我國現(xiàn)代化氣候業(yè)務(wù)現(xiàn)狀及未來發(fā)展趨勢.應(yīng)用氣象學(xué)報,2013,24(5):513-520.

[4] Randriamampianina R.Radiance-bias correction for a limited area model.Quarterly Journal of the Hungarian Meteorological Service,2005(3):636.

[5] 王萍,劉穎,王漢芝,等.基于格點場數(shù)據(jù)的沙塵暴雙預(yù)報模型.天津大學(xué)學(xué)報,2006,3(25):329-330.

[6] 吳煥萍,張永強,孫家民,等.氣候信息交互顯示與分析平臺(CIPAS)設(shè)計與實現(xiàn).應(yīng)用氣象學(xué)報,2013,24(5):631-640.

[7] 王涵,李玲,孫學(xué)慶,等.CMACast內(nèi)蒙古氣象信息 Web平臺的設(shè)計與實現(xiàn).氣象科技,2014,42(2):283-286.

[8] Aguilera M K,Merchant A,Shah M,et al.Sinfonia:A New Paradigm for Building Scalable Distributed Systems.Proc of the 21st ACM Symp on Operating Systems Princi-ples,2007:159-174.

[9] 楊鋒,吳華瑞,朱華瑞,等.基于Hadoop的海量農(nóng)業(yè)數(shù)據(jù)資源管理平臺.計算機工程,2011,37(12):243-244.

[10] 林春澤,智協(xié)飛,韓艷,等.基于TIGGE資料的地面氣溫多模式超級集合預(yù)報.應(yīng)用氣象學(xué)報,2009,20(6):706-712.

[11] 王彬,肖文名,李永生,等.華南區(qū)域中心計算資源管理系統(tǒng)的建立與應(yīng)用.氣象,2011,37(6):764-770.

[12] 王彬,常飚,朱江,等.氣象計算網(wǎng)格平臺資源監(jiān)視模塊的設(shè)計與實現(xiàn).應(yīng)用氣象學(xué)報,2009,20(5):642-648.

[13] 于重重,商利利,譚勵,等.半監(jiān)督學(xué)習(xí)在不平衡樣本集分類中的應(yīng)用研究.計算機應(yīng)用研究,2013,30(4):1085-1089.

[14] Ma T,Hempel M,Peng D M,et al.A survey of energy-efficient compression and communication techniques for multimedia in resource constrained systems.IEEE Communications Surveys&Tutorials,2012,14:1-10.

[15] 應(yīng)毅,任凱,曹陽.基于改進(jìn)的Map Reduce模型的 Web挖掘.科學(xué)技術(shù)與工程,2013,5:78-80.

[16] 任結(jié),周余,于耀,等.基于ORB自然特征的AR實時系統(tǒng)實現(xiàn).計算機應(yīng)用研究,2012,29(9):3594-3596.

Design and Implementation of NWP Data Service Platform Based on Hadoop Framework

Li Yongsheng Zeng Qin Xu Meihong Shi Xiaoying
(Guangdong Provincial Meteorological Information Center,Guangzhou510080)

As the numerical weather prediction(NWP)products increase in huge amounts every day,traditional relational database has the problem of low efficiency in archiving capacity and management,while file based storage faces performance challenges in long-time-series data accessing and massive computation of spatial-temporal data.Therefore,a three-tier software framework is designed,which implements distributed data storage model,parallel data access service and distributed computation for frequently used statistical algorithms based on Hadoop framework.

Meteorological big data such as NWP products,radar 3D mosaic and satellite remote sensing are designed to be composed of metadata and data entity,which both are stored in Hbase data tables,and managed with HDFS file system.Metadata are defined by variable name,dimension,latitude,longitude,altitude and lead time etc.,and data entity consists of row key,time stamp and column family to store the value at each grid point.A Rest(representational state transfer)Web Service is setup for direct NWP data acquisition,field data clipping and location based time-series accessing.File download services in“MICAPS”,“surfer”and“json”format are also ready for the third-party meteorological software.System testing for data access of CHAF model shows that it costs only 12 seconds to write in 1000 NWP data fields each with 82503 grid points,and less than 4 seconds to read out the same amount of data from the distributed databases.

Map-reduce scheme are implemented for computation of meteorological algorithms,e.g.,Kalman filter and successive regression.Most of meteorological statistical algorithms are time independent,which make it possible that a task is divided into small sub-tasks according to data slicing on time series,and assigned to different computational nodes in map programs.Reduce programs are to gather and summarize the result of sub-task computation.With data amount and users increasing,Hadoop framework deployed on several X86 PC servers demonstrates performance advantage over single IBM power system.And flexible hardware architecture from 3 computational nodes to 9 nodes show steady and better data access efficiency with good speed-up ratio,which brings more confidence for practical use in weather forecast.

Operational trial in multi-user environment further shows advantages of this cloud-like computing service over the traditional client-server model in meteorological data mining,such as NWP interpretation and model evaluation.

Hadoop framework;meteorological data;Web Service interface

李永生,曾沁,徐美紅,等.基于Hadoop的數(shù)值預(yù)報產(chǎn)品服務(wù)平臺設(shè)計與實現(xiàn).應(yīng)用氣象學(xué)報,2015,26(1):122-128.

10.11898/1001-7313.20150113

2014-05-19收到,2014-09-28收到再改稿。

廣州市科技計劃項目(2012Y2-00031,2013Y2-00053,2013Y2-00074),公益性行業(yè)(氣象)科研專項(GYHY201106009),廣東省氣象局重點項目(2012A01)

*email:lynne5101@163.com

猜你喜歡
數(shù)據(jù)表氣象分布式
氣象樹
《內(nèi)蒙古氣象》征稿簡則
湖北省新冠肺炎疫情數(shù)據(jù)表
黨員生活(2020年2期)2020-04-17 09:56:30
氣象戰(zhàn)士之歌
心聲歌刊(2019年5期)2020-01-19 01:52:52
基于列控工程數(shù)據(jù)表建立線路拓?fù)潢P(guān)系的研究
大國氣象
分布式光伏熱錢洶涌
能源(2017年10期)2017-12-20 05:54:07
分布式光伏:爆發(fā)還是徘徊
能源(2017年5期)2017-07-06 09:25:54
基于DDS的分布式三維協(xié)同仿真研究
圖表
札达县| 讷河市| 呼玛县| 香河县| 呼伦贝尔市| 故城县| 彭阳县| 明光市| 太白县| 青龙| 安平县| 泉州市| 钟山县| 贡觉县| 喀喇| 体育| 临夏市| 昌宁县| 琼海市| 双桥区| 罗田县| 邵东县| 沛县| 股票| 玉田县| 象州县| 萝北县| 张掖市| 兴化市| 永福县| 墨江| 凌海市| 津市市| 文安县| 休宁县| 临武县| 柳州市| 濮阳县| 亳州市| 林甸县| 仪征市|