国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

氣象地面實時歷史統(tǒng)計數(shù)據(jù)云存儲技術(shù)研究

2021-08-02 07:40陳曄峰吳書成魯奕岑
軟件導(dǎo)刊 2021年7期
關(guān)鍵詞:數(shù)據(jù)量時段分布式

魏 爽,楊 明,陳曄峰,吳書成,吳 彬,魯奕岑

(1.浙江省氣象信息網(wǎng)絡(luò)中心,浙江 杭州 310002;2.湖州市氣象局,浙江 湖州 313000)

0 引言

隨著全球氣候變暖,自然災(zāi)害增多,強(qiáng)降水、冰雹、雷電、干旱等極端天氣氣候事件頻發(fā)。加強(qiáng)氣候觀測,提高防災(zāi)減災(zāi)能力成為普遍關(guān)注的問題[1-2]。氣象自動站為局部區(qū)域的氣象預(yù)報服務(wù)和災(zāi)害監(jiān)測提供了大量觀測資料,使有效捕捉中小尺度天氣系統(tǒng)成為可能[3]。隨著數(shù)據(jù)量的增加,數(shù)據(jù)環(huán)境復(fù)雜度增強(qiáng),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫存儲方式已不能滿足大數(shù)據(jù)的業(yè)務(wù)需求[4-5]。如何合理有效地存儲大量數(shù)據(jù)記錄[6],實現(xiàn)高并發(fā)情況下的高速存儲,同時在毫秒級時間內(nèi)提供查詢統(tǒng)計服務(wù),是當(dāng)前氣象業(yè)務(wù)部門亟需解決的難題。

為滿足氣象預(yù)警、決策服務(wù)、氣候評估等業(yè)務(wù)需求,各級氣象部門陸續(xù)建立了氣象資料存儲系統(tǒng)[7]。文獻(xiàn)[8]提出國家級氣象資料存儲檢索系統(tǒng)(簡稱NMARS)的設(shè)計思路和技術(shù)路線,在向國家級氣象業(yè)務(wù)、科研提供資料檢索服務(wù)的同時,也為社會用戶提供所需資料;高祝宇等[9]開發(fā)了一套針對氣象業(yè)務(wù)的數(shù)據(jù)服務(wù)系統(tǒng),以Web 服務(wù)方式提供數(shù)據(jù)接口,實現(xiàn)對氣象數(shù)據(jù)服務(wù)的統(tǒng)一管理;王海賓等[10]為服務(wù)2009 年上海世博會等大型活動,設(shè)計并實現(xiàn)了基于Oracle 的長三角自動站數(shù)據(jù)庫系統(tǒng),實時處理長三角地區(qū)的自動站資料并入庫,極大擴(kuò)展了資料的共享度;劉尉等[11]基于Oracle 關(guān)系型數(shù)據(jù)庫,對任意時段氣候數(shù)據(jù)統(tǒng)計流程進(jìn)行優(yōu)化,優(yōu)化后的統(tǒng)計流程在任意時間任意時段均可保持很高的效率。

隨著云存儲技術(shù)的飛速發(fā)展,分布式云存儲成為解決海量數(shù)據(jù)存儲的最有效手段[11-12]。陳京華等[13]利用分布式技術(shù)構(gòu)建了基于“分布式關(guān)系型數(shù)據(jù)庫+事業(yè)型數(shù)據(jù)庫+列式數(shù)據(jù)庫+表格系統(tǒng)+分布式文件系統(tǒng)”的混合型大數(shù)據(jù)服務(wù)中心模式,進(jìn)行數(shù)據(jù)存儲、管理和服務(wù),極大提升了數(shù)據(jù)影響力;雷鳴等[14]、陳效杰等[15]采用Hadoop/Hive 集群優(yōu)勢,存儲和處理氣象數(shù)據(jù)集,實際應(yīng)用效果很好。已有研究表明,采用云關(guān)系型數(shù)據(jù)庫存儲結(jié)構(gòu),能夠有效提高氣象數(shù)據(jù)存儲效率,滿足大規(guī)模氣象數(shù)據(jù)在業(yè)務(wù)應(yīng)用中對存儲查詢和處理速度的要求[16-18]。本文針對地面氣象數(shù)據(jù)特點和氣象業(yè)務(wù)服務(wù)需求,充分利用分布式應(yīng)用服務(wù)和云存儲技術(shù),提出一種基于分布式云存儲技術(shù)的任意時段數(shù)據(jù)統(tǒng)計方法,為相關(guān)單位開展類似業(yè)務(wù)提供借鑒。

1 關(guān)鍵技術(shù)

1.1 統(tǒng)計算法規(guī)范

統(tǒng)計方法的規(guī)范和統(tǒng)一是保證氣候統(tǒng)計數(shù)據(jù)準(zhǔn)確性、連續(xù)性和均一性的最基本條件之一[19-20]?!度珖孛鏆夂蛸Y料統(tǒng)計方法》和《地面氣象觀測規(guī)范》等規(guī)定了氣象國家級自動站(簡稱國家站)的統(tǒng)計方法和不完整記錄的處理方法。為獲得高質(zhì)量的區(qū)域站統(tǒng)計資料,滿足本地實際業(yè)務(wù)需求,本文參考上述規(guī)范有關(guān)規(guī)定,根據(jù)省內(nèi)區(qū)域站歷年站點個數(shù)、觀測數(shù)據(jù)完整性等情況,設(shè)計了區(qū)域站小時、日、旬、月、年數(shù)據(jù)統(tǒng)計方法,能保證各要素統(tǒng)計數(shù)據(jù)完整率在80%以上。

1.2 統(tǒng)一數(shù)據(jù)存儲規(guī)范

規(guī)范的數(shù)據(jù)存儲既能與國家局大數(shù)據(jù)云平臺數(shù)據(jù)存儲同步,提高檢索功能和服務(wù)效率,又易于地面多要素相關(guān)分析。本文遵循標(biāo)準(zhǔn)、規(guī)范先行原則,參照國家局CI?MISS 數(shù)據(jù)庫設(shè)計規(guī)范[21],以支撐氣象數(shù)據(jù)預(yù)報服務(wù)、科研應(yīng)用需求為目標(biāo),在氣象云存儲數(shù)據(jù)平臺基礎(chǔ)上設(shè)計了實時歷史一體化數(shù)據(jù)云存儲方法,規(guī)范定義存儲表結(jié)構(gòu)、索引、約束等項目。

1.3 分布式存儲

氣象國家站建站時間較長(杭州站1951 年建站),區(qū)域站站點個數(shù)多(2020 年約3 400 站),實時與歷史一體化數(shù)據(jù)量非常龐大。為滿足快速獲取數(shù)據(jù)需求,針對結(jié)構(gòu)化的地面統(tǒng)計數(shù)據(jù),采用主鍵、屬性和值3 個部分存儲,如表1所示。

Table 1 Statistical data storage structure表1 統(tǒng)計數(shù)據(jù)存儲結(jié)構(gòu)

應(yīng)用云關(guān)系型數(shù)據(jù)庫分庫分表技術(shù),每個分庫負(fù)責(zé)數(shù)據(jù)讀寫操作,分散整體訪問壓力,有效提高數(shù)據(jù)存儲和服務(wù)效率。以支撐氣象數(shù)據(jù)查詢統(tǒng)計及預(yù)報、科研應(yīng)用需求為目標(biāo),建立自動站小時、日、旬、月、年數(shù)據(jù)統(tǒng)計應(yīng)用表,形成基于云平臺的地面實時歷史一體化長序列統(tǒng)計數(shù)據(jù)庫,滿足業(yè)務(wù)系統(tǒng)和用戶對數(shù)據(jù)的各類應(yīng)用需求,如圖1 和表2 所示。

Table 2 Storage strategy of statistical database表2 數(shù)據(jù)庫存儲策略

1.4 任意時段數(shù)據(jù)統(tǒng)計方法

一般情況下,對于質(zhì)量控制后的數(shù)據(jù),統(tǒng)計值要事先存儲在數(shù)據(jù)庫表中,在進(jìn)行任意時段數(shù)據(jù)實時統(tǒng)計時,取已保存的統(tǒng)計結(jié)果及少量數(shù)據(jù)進(jìn)行合并統(tǒng)計運算,即可得到最終的統(tǒng)計結(jié)果。以此原則開展任意時段數(shù)據(jù)的實時統(tǒng)計,可降低實時數(shù)據(jù)的讀取和統(tǒng)計時間,大大提高數(shù)據(jù)查詢效率。

本文選取日、月為時間單位,對任意時段在時間軸上進(jìn)行分解,設(shè)計任意時段數(shù)據(jù)統(tǒng)計流程。定義任意時段起始日期為t1,結(jié)束日期為t2,判斷開始日期月增加1 與結(jié)束日期減少1 之前邏輯關(guān)系。將任意時段分解為兩種情形:①日數(shù)據(jù);②日數(shù)據(jù)、月數(shù)據(jù)。由圖2 確定各分解情形對應(yīng)的起止日期和讀取的數(shù)據(jù)庫表,進(jìn)而直接通過語句查詢統(tǒng)計數(shù)據(jù)結(jié)果。

其中,y1*m1表示年和月,*代表月份的變化可能引起年的變化,Month表示月表,Day表示日表。針對任意時段統(tǒng)計查詢,應(yīng)用年數(shù)據(jù)可以減少統(tǒng)計量,但無形中增加了判識流程時間復(fù)雜度。經(jīng)實例分析后,確定以日、月為統(tǒng)計單位較為合適。

Fig.1 Statistical database based on cloud platform stores real-time long series ground historical data圖1 基于云平臺的地面實時歷史長序列統(tǒng)計數(shù)據(jù)庫

Fig.2 Data decomposition and identification process of arbitrary data statistical method圖2 任意數(shù)據(jù)統(tǒng)計方法資料分解判識流程

2 技術(shù)應(yīng)用情況

2.1 檢驗數(shù)據(jù)、環(huán)境及方法

從時間跨度和并發(fā)數(shù)兩個角度來評估查詢時效,分別調(diào)用原關(guān)系型數(shù)據(jù)庫(SQL Server)和云關(guān)系型數(shù)據(jù)庫,采用平均耗費時間統(tǒng)計方法對兩種數(shù)據(jù)環(huán)境查詢效率進(jìn)行對比和評估。

檢驗程序運行于內(nèi)網(wǎng)服務(wù)器,服務(wù)器基本硬件配置為:2.5GHz CPU,64G 內(nèi)存,操作系統(tǒng)Windows 64 位。

2.2 不同時間跨度分析

為檢驗不同時間跨度任意時段數(shù)據(jù)的查詢效率,設(shè)定3 種業(yè)務(wù)中常用的查詢個例進(jìn)行對比分析。查詢要素選擇氣溫、雨量、風(fēng)向風(fēng)速、氣壓、濕度、能見度等常用要素,統(tǒng)計量包括最大值、最小值、累計量、日數(shù)、排名等,每次查詢同一條件均重復(fù)10 次,取10 次平均耗時作為這一條件的最終耗時進(jìn)行計算。

2.2.1 歷年統(tǒng)計值查詢

初始日期設(shè)定為1 月1 日,以10 天為增長單位確定循環(huán)的結(jié)束日期,查詢每個時間段內(nèi)區(qū)域站歷年(2004-2020年)統(tǒng)計值,結(jié)果如圖3 所示(彩圖掃OSID 碼可見,下同)。原關(guān)系型數(shù)據(jù)庫查詢平均耗時隨時間跨度遞增,由0.78s 增加至3.05s,而云關(guān)系型數(shù)據(jù)庫任意時段的時間跨度查詢耗時均保持在0.6~0.8s 之間,可見云關(guān)系型數(shù)據(jù)庫性能較好,文中提出的任意時段數(shù)據(jù)統(tǒng)計方法效果明顯。

Fig.3 Map comparison of query time for statistical values over the years圖3 歷年統(tǒng)計值查詢耗時對比

2.2.2 任意時段30 年統(tǒng)計值查詢

初始日期和增長單位同上,查詢每個時間段內(nèi)國家站30 年(1981-2010 年)統(tǒng)計值。數(shù)據(jù)量由國家站站數(shù)×天數(shù)×30 年=75×10×30=22 500 增加至75×360×30=810 000,是初始時段的36 倍。通過圖4 可以得到類似結(jié)論,查詢原關(guān)系型數(shù)據(jù)庫平均耗時突變次數(shù)較多,呈緩慢遞增趨勢;而云關(guān)系型數(shù)據(jù)庫查詢返回結(jié)果的時間介于0.01~0.03s 之間,穩(wěn)定性較好。

Fig.4 Map comparison of query time of 30-year statistical value in any period圖4 任意時段30 年統(tǒng)計值查詢耗時對比

2.2.3 任意時段統(tǒng)計值查詢

初始日期設(shè)定為2008 年1 月1 日,以30 天為增長單位確定循環(huán)的結(jié)束日期,查詢每個時段內(nèi)區(qū)域站統(tǒng)計量。2008 年區(qū)域站站點數(shù)×天數(shù)=1 045×30=31 350,2020 年區(qū)域站站點數(shù)×天數(shù)=3 400×30×150=15 300 000,后者約增長488 倍。從圖5 可以看出,原關(guān)系型數(shù)據(jù)庫平均耗時起初突變次數(shù)較多,隨后平緩增長至0.72s;而云關(guān)系型數(shù)據(jù)庫平均耗時保持在0.1~0.3s 之間,并未隨著數(shù)據(jù)量的驟增發(fā)生明顯變化。通過對比兩個數(shù)據(jù)庫的耗時可以發(fā)現(xiàn),云關(guān)系型數(shù)據(jù)庫對提升數(shù)據(jù)統(tǒng)計效率作用非常明顯。

Fig.5 Map comparison of query time statistics in any period圖5 任意時段統(tǒng)計值查詢耗時對比

2.3 不同并發(fā)數(shù)分析

以極端天氣多用戶查詢進(jìn)行實驗,在10、50、100、500、1 000 不同用戶數(shù)情況下,為了盡量使兩者測試環(huán)境一致,分別在原關(guān)系型和云關(guān)系型數(shù)據(jù)庫中設(shè)定相同的統(tǒng)計任務(wù),記錄并發(fā)訪問數(shù)據(jù)庫響應(yīng)時間。圖6 為并發(fā)訪問數(shù)據(jù)庫性能對比情況。

并發(fā)數(shù)為10 時,原關(guān)系型和云關(guān)系型數(shù)據(jù)庫平均耗時分別為101ms 和33ms;并發(fā)數(shù)增長至1 000 時,兩者分別為6 429ms 和592ms。由此看出,應(yīng)用云分布式存儲技術(shù),在高并發(fā)情況下,數(shù)據(jù)量越大,云關(guān)系型數(shù)據(jù)庫性能提高越明顯,本例提升了1 個數(shù)量級,較好滿足了高并發(fā)統(tǒng)計數(shù)據(jù)需求。

Fig.6 Map comparison of query time in different concurrency圖6 不同并發(fā)數(shù)查詢耗時對比

3 結(jié)語

本文利用云關(guān)系型數(shù)據(jù)服務(wù)建立了地面實時歷史一體化長序列統(tǒng)計應(yīng)用數(shù)據(jù)庫,并實現(xiàn)了任意時段數(shù)據(jù)統(tǒng)計方法。分布式數(shù)據(jù)服務(wù)的應(yīng)用不僅緩解了單臺數(shù)據(jù)庫服務(wù)器的運行壓力,還滿足了用戶實時高并發(fā)訪問需求,實現(xiàn)了硬件資源利用最大化。以日、月為統(tǒng)計單位,提出的任意時段數(shù)據(jù)統(tǒng)計方法能夠進(jìn)一步提高統(tǒng)計效率,且統(tǒng)計耗時不會隨著數(shù)據(jù)量的增大出現(xiàn)明顯變化。該研究成果通過氣象云大數(shù)據(jù)平臺數(shù)據(jù)服務(wù)系統(tǒng)提供數(shù)據(jù)服務(wù),為浙江氣象防災(zāi)減災(zāi)決策服務(wù)平臺等多個業(yè)務(wù)系統(tǒng)提供云數(shù)據(jù)支撐,應(yīng)用效果良好,對相關(guān)平臺開發(fā)具有一定的指導(dǎo)作用。隨著氣象業(yè)務(wù)的快速發(fā)展,對于數(shù)據(jù)查詢服務(wù)的時效性要求會越來越高,數(shù)據(jù)的高效存儲和個性化服務(wù)仍需不斷完善,以滿足更高的業(yè)務(wù)需求。

猜你喜歡
數(shù)據(jù)量時段分布式
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
四個養(yǎng)生黃金時段,你抓住了嗎
基于DDS的分布式三維協(xié)同仿真研究
傍晚是交通事故高發(fā)時段
分時段預(yù)約在PICC門診維護(hù)中的應(yīng)用與探討
西門子 分布式I/O Simatic ET 200AL
分時段預(yù)約掛號的實現(xiàn)與應(yīng)用