国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

氣象災害普查數(shù)據(jù)處理

2022-05-31 21:35:26高鵬付杰張春燕劉昊
科技創(chuàng)新導報 2022年2期
關鍵詞:數(shù)據(jù)分析數(shù)據(jù)處理

高鵬 付杰 張春燕 劉昊

摘要:開展全國氣象災害綜合風險普查是黨中央、國務院安排部署,交由氣象部門承擔的重要任務,是國情國力調(diào)查的重要內(nèi)容,是提升氣象防災減災能力的基礎性工作。開展建站至2020年甘肅省暴雨、大風、冰雹、雪災所需的81個氣象站點及區(qū)域自動氣象站各要素(逐小時氣溫、降水、風速、風向;積雪、降雪日數(shù)、積雪深度、冰雹直徑、最大風速、極大風速等)數(shù)據(jù)的統(tǒng)計分析。

關鍵詞:災害普查? 數(shù)據(jù)分析? 自動站? 氣象數(shù)據(jù)? 數(shù)據(jù)處理

Meteorological Disaster Census data Processing

GAO Peng? FU Jie? ZHANG Chunyan? LIU Hao

(Gansu Meteorological Information And Technical Equipment Support Center, Lanzhou, Gansu Province, 730000 China)

Abstract:Carrying out the national comprehensive risk survey of meteorological disasters is an important task arranged and deployed by the Party Central Committee and the State Council and entrusted to the meteorological department. It is an important content of the investigation of national conditions and national strength, and a basic work to improve the ability of meteorological disaster prevention and reduction. Carry out statistical analysis on the data of 81 meteorological stations and regional automatic meteorological stations (hourly temperature, precipitation, wind speed, wind direction; snow, snow days, snow depth, hail diameter, maximum wind speed, maximum wind speed, etc.) required for rainstorm, gale, hail and snow disasters in Gansu Province from the establishment of the station to 2020.

Key Words:Disaster survey; Data analysis; Automatic station;Meteorological data;Data processing.

中圖分類號:P409? 文獻標識碼:A

1總體框架

數(shù)據(jù)處理軟件開發(fā),主要5層架構(gòu)進行設計,主要為資源層、支撐層、應用接口層、應用交互層和用戶層構(gòu)成,具體如圖1所示。

系統(tǒng)架構(gòu)圖用以說明整個系統(tǒng)的組成部分,并從邏輯上說明了各層內(nèi)部組成元素、層與層之間的邏輯關系,系統(tǒng)體系的構(gòu)成包括用戶體系、應用交互體系、應用接口體系、數(shù)據(jù)支撐層和資源存儲體系,這些不同的組成部分,都具有明確的定位和分工,它們從不同方面、不同層次發(fā)揮著特定的應用作用,這些組成部分互相配合,共同協(xié)作完成整體應用功能。

2 主要功能

2.1 數(shù)據(jù)庫設計

風險普查項目中數(shù)據(jù)庫采用MySQL,采用MySQL 數(shù)據(jù)庫原因為MySQL具有以下優(yōu)勢:

(1)使用C和C++編寫,并使用多種編譯器進行測試,保證源代碼的可移植性。

(2)支持 AIX、FreeBSD、HP-UX、Linux、Mac OS、NovellNetware、OpenBSD、OS/2 Wrap、Solaris、Windows 等多種操作系統(tǒng)。

(3)為多種編程語言提供了API。這些編程語言包括C、C++、Python、Java、Perl、PHP、Eiffel、Ruby和Tcl等。

(4)支持多線程,充分利用CPU資源。

(5)優(yōu)化的SQL查詢算法,有效地提高查詢速度。

(6)既能夠作為一個單獨的應用程序應用在客戶端服務器網(wǎng)絡環(huán)境中,也能夠作為一個庫而嵌入其他的軟件中。

(7)提供多語言支持,常見的編碼如中文的GB 2312、BIG 5,日文的Shift_JIS等都可以用作數(shù)據(jù)表名和數(shù)據(jù)列名。

(8)提供TCP/IP、ODBC和JDBC等多種數(shù)據(jù)庫連接途徑。

(9)提供用于管理、檢查、優(yōu)化數(shù)據(jù)庫操作的管理工具。

(10)支持大型的數(shù)據(jù)庫??梢蕴幚頁碛猩锨f條記錄的大型數(shù)據(jù)庫。

(11)支持多種存儲引擎。

根據(jù)氣象災害綜合風險普查業(yè)務需求,累計70年日資料一個站的理論記錄數(shù)量約為25 600條,小時資料理論記錄數(shù)量約為614 800條,由于各縣項目需求中可能涉及到區(qū)域站數(shù)據(jù),因此數(shù)據(jù)量級將會很大,為避免后續(xù)工作開展不受數(shù)據(jù)量級影響,數(shù)據(jù)設計采用分庫分表存儲[1-3]。

暴雨、大風、冰雹、雪災相關數(shù)據(jù)產(chǎn)品服務工作采用SQLServer數(shù)據(jù)庫技術(shù),完成了以下4種資料數(shù)據(jù)庫的建設工作,如圖2所示。

第一,完成了全省所有氣象站實時資料數(shù)據(jù)庫:所有數(shù)據(jù)均由省局CIMISS平臺提供,并通過MUSIC API數(shù)據(jù)接口實時獲取,實現(xiàn)本地化數(shù)據(jù)沉淀存儲。

第二,下載省局智能網(wǎng)格分布式數(shù)據(jù),通過后臺自動化調(diào)度任務實現(xiàn)動態(tài)獲取。

2.2數(shù)據(jù)處理

由于各縣氣象資料需求不統(tǒng)一,數(shù)據(jù)處理無法做到程序自動化處理,所有需求均需要通過人工干預才能正常處理,因此,在該項工作中,安排了專人對各縣提供的數(shù)據(jù)進行審核,將整理完的需求統(tǒng)一編碼,同步開發(fā)數(shù)據(jù)下載及程序,完成數(shù)據(jù)入庫工作。截至目前項目涉及到的數(shù)據(jù)有兩大類,分別為CIMISS接口數(shù)據(jù)和閃電資料,由于數(shù)據(jù)無法做到程序自動校驗,因此數(shù)據(jù)處理分為4個部分任務,分別為CIMISS數(shù)據(jù)下載入庫任務、CIMISS數(shù)據(jù)輸出任務、閃電資料解析任務及閃電資料數(shù)據(jù)輸出任務,如圖3所示。

2.3 數(shù)據(jù)檢驗

數(shù)據(jù)校驗是本項目中占比最大的一部分,也是本項目中最重要的一個環(huán)節(jié),由于數(shù)據(jù)檢驗無法做到程序自動校驗,采用人工檢驗的方式對數(shù)據(jù)進行核驗,對已入庫的數(shù)據(jù)字段、缺失情況、一致性進行檢查,檢查下載的數(shù)據(jù)是否正常,有無缺失的數(shù)據(jù)。

2.4 數(shù)據(jù)輸出及下發(fā)

對校驗后的數(shù)據(jù)進行輸出及下發(fā),采用Excel表格文件格式進行文件輸出,可能涉及到大量的區(qū)域站的數(shù)據(jù),因此文件輸出時采用分站的形式進行輸出(即一個站一個Excel文件),防止數(shù)據(jù)因量大而出現(xiàn)數(shù)據(jù)丟失的情況。

3 關鍵技術(shù)

3.1 大數(shù)據(jù)處理技術(shù)Python

Python是數(shù)據(jù)科學家十分喜愛的編程語言,究其原因是Python語言簡單易懂、語言通用,其內(nèi)置了很多由C語言編寫的庫,操作起來更加方便,在大數(shù)據(jù)的處理方面具有先天優(yōu)勢,Python語言得益于它的簡單方便,Python在數(shù)據(jù)分析和交互、探索性計算及數(shù)據(jù)可視化等方面都顯得比較活躍,這就是Python作為數(shù)據(jù)分析的原因之一,python擁有numpy、matplotlib、scikit-learn、pandas、ipython等工具在科學計算方面十分有優(yōu)勢,尤其是pandas,在處理中型數(shù)據(jù)方面可以說有著無與倫比的優(yōu)勢,已經(jīng)成為數(shù)據(jù)分析中流砥柱的分析工具,所以要做好數(shù)據(jù)分析,優(yōu)先選擇Python語言。

3.2 模塊化的處理方式

風險普查數(shù)據(jù)是一項集成、動態(tài)、復雜的應用性工作,為了最大限度地重用數(shù)據(jù)處理工作中的公共功能,并提供靈活的方式進行功能擴充和工具集成,采用基于插件技術(shù)的可擴展的應用框架技術(shù)進行數(shù)據(jù)處理模塊建設,可以顯著地縮短模塊的開發(fā)周期,提高數(shù)據(jù)處理質(zhì)量和重用程度。

3.3 利用標準方差快速質(zhì)控

風險質(zhì)控數(shù)據(jù)均屬于長序列,且具有一定的數(shù)據(jù)標準,諸如溫度等數(shù)據(jù),本次工作將引入標準差(方差),從總體上描述一組數(shù)據(jù)的穩(wěn)定性,因為標準差能反映出一個數(shù)據(jù)集的離散程度。平均數(shù)相同的,標準差未必相同。標準差是反映一組數(shù)據(jù)離散程度最常用的一種量化形式,是表示精確度的重要指標。

3.4 引進DPF框架,建立數(shù)據(jù)清洗模型

風險普查數(shù)據(jù)屬于大量且集中化的數(shù)據(jù),本次數(shù)據(jù)處理主要對四類異常數(shù)據(jù)進行處理;分別是缺失值(missing value),異常值(離群點),去重處理(Duplicate Data)及噪音數(shù)據(jù)的處理。

為了實現(xiàn)完成數(shù)據(jù)清洗工作,將在本次工作過程中,引進DPF框架,盡最大可能建立一些數(shù)據(jù)模型實現(xiàn)數(shù)據(jù)的處理,提升數(shù)據(jù)處理的效率,提高數(shù)據(jù)處理的質(zhì)量。

DPF的理念很簡單,利用不靠譜的數(shù)據(jù)訓練一個模型,這個模型在訓練集上準確度通常都很低(如果訓練集上已經(jīng)完美擬合,那這個方法就不能直接用了)[4-6]。用訓練好的模型把最不靠譜的那些數(shù)據(jù)(預測與實際差得最遠)刪掉,然后利用剩下的數(shù)據(jù)訓練新的模型,之后再用新模型把剩下數(shù)據(jù)里最不靠譜的一些數(shù)據(jù)刪掉,如此重復,直到模型在訓練集上達到較高的準確度。這時候被篩完剩下的數(shù)據(jù)可能比較少了。為了召回一些被早期模型誤過濾掉的樣本,把最新的模型應用到原始的全量數(shù)據(jù)上,這樣去除最不靠譜的數(shù)據(jù)后會留下更多的數(shù)據(jù)用于接下來的迭代[7-10]。之后的迭代邏輯和前面的相同,利用模型清除最不靠譜的數(shù)據(jù),再用清洗后的新數(shù)據(jù)訓練新模型。

4 結(jié)語

大多氣象災害所要求的數(shù)據(jù)均需要進行匯總分析,因此,要求本系統(tǒng)能提供一套靈活、可配置的匯總算法,實現(xiàn)由原始數(shù)據(jù)派生出新的數(shù)據(jù)集,或者由同一資料加工成不同時間尺度資料的多元算法。本次工作對于暴雨過程數(shù)據(jù)需要提供降水累計、平均、小時降水量總數(shù),過程中每個整點過去1h、3h、6h、12h降水值。小時降水則需要基于每個整點整理統(tǒng)計過去1h、3h、6h、12h、24h的降水累計。冰雹數(shù)據(jù)需要利用災情數(shù)據(jù),還需要結(jié)合A文件的天況數(shù)據(jù)等。

對于處理完成后的基礎數(shù)據(jù),仍然存在不可預知的問題,在利用之前,必須要對所有原始數(shù)據(jù)集進行清洗,形成原始數(shù)據(jù)分析結(jié)論,真正做到每一類資料存儲情況可知、可控。數(shù)據(jù)清洗主要是對各類原始數(shù)據(jù)中存在的異常值、空值、非法值進行處理,處理方式是要求按照不同氣象資料種類建立該類數(shù)據(jù)對應的一種或多種質(zhì)控方案,主要包括閾值質(zhì)控,無效值等質(zhì)控等。對于非連續(xù)性的數(shù)據(jù)集,根據(jù)其特征,采用插值等算法完成數(shù)據(jù)連續(xù)性補充工作。

參考文獻

[1] 張翔,韋燕芳,李思宇,等.從干旱災害到干旱災害鏈:進展與挑戰(zhàn)[J].干旱氣象,2021,39(6):873-883.

[2] 劉云,康卉君.2002—2019年江西省省級地質(zhì)災害氣象預警分析[J].華東地質(zhì),2020(4):416-424.

[3] 劉云,康卉君.江西崩塌滑坡泥石流災害空間時間分布特征分析[J].中國地質(zhì)災害與防治學報.2020(4):107-1121.

[4] 王亞俊.考慮屬性交互的氣象災害治理能力評價建模研究[D].南京:南京信息工程大學,2021.

[5] 孫大為,張廣艷,鄭緯民.大數(shù)據(jù)流式計算:關鍵技術(shù)及系統(tǒng)實例[J].軟件學報,2014,25(4):839-862

[6] 任芝花,張志富,孫超,等.全國自動氣象站實時觀測資料三級質(zhì)量控制系統(tǒng)研制[J].氣象,2015,41(10):1268-1277.

[7] 王秀珍.玉溪烤煙氣象災害風險及作物模型適用性研究[D].南京:南京信息工程大學,2021.

[8] 張國華,何學文.江西省吉安縣地質(zhì)災害氣象預警研究[J].華東地質(zhì),2021,42(4):373-382.

[9] 周江,王偉平,孟丹,等.面向大數(shù)據(jù)分析的分布式文件系統(tǒng)關鍵技術(shù)[J].計算機研究與發(fā)展,2014,51(2):382-394.

[10] 李秀萍.河北省氣象災害應急聯(lián)動機制研究[D].南京:南京信息工程大學,2021.

基金項目:甘肅省氣象局氣象科研項目(項目編號:Ms2022-05);氣象大數(shù)據(jù)支持與服務:甘肅省氣象局創(chuàng)新團隊(項目編號:GSQXCXTD-2021-01)

作者簡介:高鵬(1987—),男,碩士,工程師,研究方向為氣象大數(shù)據(jù)、云計算等。

通信作者簡介:付杰(1987—),男,碩士,工程師,研究方向為氣象大數(shù)據(jù),綜合監(jiān)控等,E-mail:fujiede2021@163.com

猜你喜歡
數(shù)據(jù)分析數(shù)據(jù)處理
認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務日常工作中的應用
淺析大數(shù)據(jù)時代背景下的市場營銷策略
新常態(tài)下集團公司內(nèi)部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響
基于讀者到館行為數(shù)據(jù)分析的高校圖書館服務優(yōu)化建議
科技視界(2016年22期)2016-10-18 14:37:36
MATLAB在化學工程與工藝實驗數(shù)據(jù)處理中的應用
Matlab在密立根油滴實驗數(shù)據(jù)處理中的應用
温州市| 楚雄市| 祁门县| 黄冈市| 迭部县| 临潭县| 淅川县| 葫芦岛市| 余江县| 视频| 吉安县| 玛纳斯县| 沾化县| 都江堰市| 昌吉市| 金平| 基隆市| 山阴县| 宝坻区| 巩留县| 武穴市| 五寨县| 花莲市| 蒲城县| 宜宾县| 泗阳县| 康乐县| 临朐县| 基隆市| 厦门市| 临洮县| 安吉县| 靖远县| 濉溪县| 平罗县| 岳阳市| 巧家县| 府谷县| 丘北县| 水城县| 社旗县|