亓東霞++王馨++朱大銘++馬琳++楊小龍
摘要:近年來,氣象服務(wù)進(jìn)入高速發(fā)展階段,從提供簡單的氣象信息服務(wù),逐步轉(zhuǎn)變?yōu)楫a(chǎn)生經(jīng)濟(jì)效益的社會生產(chǎn)力,為人民生活趨利避害、防災(zāi)減災(zāi)和應(yīng)對氣候變化發(fā)揮著越來越重要的作用。技術(shù)的不斷發(fā)展對氣象服務(wù)技術(shù)也提出了更高的要求,大數(shù)據(jù)技術(shù)為提高氣象服務(wù)速度和服務(wù)質(zhì)量提供了技術(shù)手段,氣象行業(yè)的大數(shù)據(jù)分析及應(yīng)用也有了很大的進(jìn)步。
關(guān)鍵詞:氣象行業(yè);大數(shù)據(jù);數(shù)據(jù)分析
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)10-0233-02
隨著社會、經(jīng)濟(jì)和科技的發(fā)展,氣象與國計民生的關(guān)系越來越密切,氣象服務(wù)對經(jīng)濟(jì)建設(shè)、社會發(fā)展和人民生活的影響日益明顯,氣象工作也前所未有地受到全社會的關(guān)注。農(nóng)業(yè)、交通業(yè)、建筑業(yè)、旅游業(yè)、銷售業(yè)、保險業(yè)和電力行業(yè)等,都與天氣變化息息相關(guān)。隨著社會氣象意識、氣象觀念的提升,氣象服務(wù)也發(fā)揮著越來越重要的作用。
氣象業(yè)務(wù)從最初的天氣預(yù)報發(fā)展到現(xiàn)在氣候預(yù)測、氣候可行性論證、公共氣象服務(wù)、專業(yè)專項氣象服務(wù)、氣象防災(zāi)減災(zāi)等,大數(shù)據(jù)技術(shù)也成為氣象服務(wù)不斷創(chuàng)新和完善的重要支撐。
1 大數(shù)據(jù)發(fā)展現(xiàn)狀
大數(shù)據(jù)相關(guān)技術(shù)從國外開始率先研究,IBM、SAP等服務(wù)公司爭相涌入大數(shù)據(jù)行業(yè),技術(shù)平臺提供者甲骨文、SAS、EMC、Google、亞馬遜等都從中盈利[1]。國內(nèi)大數(shù)據(jù)是用傳統(tǒng)的IT技術(shù)、軟硬件工具和數(shù)學(xué)分析方法,感知、獲取、管理、處理和分析數(shù)據(jù)集合[2]。
2012年,美國提出“大數(shù)據(jù)研究和發(fā)展倡議”,積極推進(jìn)大數(shù)據(jù)核心技術(shù)研究和應(yīng)用。麻省理工大學(xué)等6所大學(xué)建立了大數(shù)據(jù)科學(xué)技術(shù)中心,英國牛津大學(xué)也成立了首個綜合運用大數(shù)據(jù)的醫(yī)藥衛(wèi)生科研中心[4]。
2012年,中國計算機(jī)學(xué)會和中國通信學(xué)會都成立了大數(shù)據(jù)專家委員會,專門研究大數(shù)據(jù)分析及應(yīng)用,旨在推動我國大數(shù)據(jù)發(fā)展。
2013年,國家氣象信息中心開始著手氣象數(shù)據(jù)與云計算的研究探索。
2015年,國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,全面推進(jìn)我國大數(shù)據(jù)發(fā)展和應(yīng)用,探索開展氣象、交通、公安、安監(jiān)、地震、測繪、旅游、農(nóng)業(yè)等跨部門、跨地域數(shù)據(jù)融合和協(xié)同創(chuàng)新,加快建設(shè)數(shù)據(jù)強(qiáng)國。
2 大數(shù)據(jù)理論
大數(shù)據(jù)的定義不是一成不變的,而是呈現(xiàn)多樣化發(fā)展的狀態(tài)。廣泛通用的定義是2011年國際數(shù)據(jù)中心IDC定義的大數(shù)據(jù):“大數(shù)據(jù)技術(shù)描述了一個技術(shù)和體系的新時代,被設(shè)計用于從大規(guī)模多樣化的數(shù)據(jù)中通過高速捕獲、發(fā)現(xiàn)和分析技術(shù)提取數(shù)據(jù)的價值”。這個定義刻畫了大數(shù)據(jù)的4個顯著特征,即體量(Volume)、多樣性(Variety)、價值(Value)和速度(Velocity)。
Volume:數(shù)據(jù)體量大,一般在TB級及以上;
Variety:數(shù)據(jù)多源異構(gòu)多樣,包括傳統(tǒng)的關(guān)系數(shù)據(jù)庫存儲類型的結(jié)構(gòu)化數(shù)據(jù)和以文本、圖像、視頻、音頻、e-mail、網(wǎng)頁等形式存在的未加工、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù);
Value:數(shù)據(jù)價值低,隱藏在海量數(shù)據(jù)中的有用信息所占比例較小。通過各種分析手段提取有用信息,提高數(shù)據(jù)質(zhì)量及其價值;
Velocity:處理速度快,對海量數(shù)據(jù)實現(xiàn)近乎實時的分析處理。
大數(shù)據(jù)價值鏈可分為數(shù)據(jù)生成、數(shù)據(jù)獲取、數(shù)據(jù)存儲、數(shù)據(jù)分析等四個階段[5]。
3 氣象行業(yè)大數(shù)據(jù)
氣象大數(shù)據(jù)是現(xiàn)有各種氣象數(shù)據(jù)加上其他行業(yè)數(shù)據(jù)分析得出行業(yè)事件變化規(guī)律和對未來的一些預(yù)測,即要將多種跨行業(yè)跨領(lǐng)域的異構(gòu)數(shù)據(jù)融合,并應(yīng)用大數(shù)據(jù)分析方法確立一定的規(guī)則,對未來進(jìn)行預(yù)測。氣象大數(shù)據(jù)可分為“行業(yè)大數(shù)據(jù)”和“互聯(lián)網(wǎng)大數(shù)據(jù)”兩類。
氣象行業(yè)大數(shù)據(jù)由與氣象部門各項工作相關(guān)、且產(chǎn)生自氣象部門內(nèi)部的所有數(shù)據(jù)組成,包括:由氣象部門建設(shè)的、具有國內(nèi)最高專業(yè)水準(zhǔn)的氣象探測體系所產(chǎn)生的氣象專業(yè)探測數(shù)據(jù),其它部門自行采集、通過數(shù)據(jù)共享/交換等方式匯聚到氣象部門、且經(jīng)過氣象部門嚴(yán)格質(zhì)量控制的氣象要素探測數(shù)據(jù),由氣象業(yè)務(wù)部門和業(yè)務(wù)系統(tǒng)產(chǎn)生的各類氣象服務(wù)產(chǎn)品數(shù)據(jù)、派生數(shù)據(jù)及中間產(chǎn)品數(shù)據(jù),職能部門各管理系統(tǒng)如項目管理系統(tǒng)等所產(chǎn)生和管理的數(shù)據(jù),各業(yè)務(wù)和管理系統(tǒng)的狀態(tài)數(shù)據(jù)和日志數(shù)據(jù)等[6]。
本文主要講述氣象的行業(yè)大數(shù)據(jù),是從氣象服務(wù)的具體業(yè)務(wù)角度出發(fā),將大數(shù)據(jù)分析應(yīng)用分為數(shù)據(jù)整合、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)分析、可視化服務(wù)五個部分內(nèi)容。
3.1 數(shù)據(jù)整合
數(shù)據(jù)整合采用消息隊列、數(shù)據(jù)導(dǎo)入工具、數(shù)據(jù)抽取工具、數(shù)據(jù)復(fù)制工具等多種技術(shù)手段,實現(xiàn)結(jié)構(gòu)化、非結(jié)構(gòu)化、海量歷史數(shù)據(jù)、準(zhǔn)實時數(shù)據(jù)、地理空間等數(shù)據(jù)接入。
國家氣象信息中心副總工程師沈文海說,在2014年整個中國氣象局所保存的數(shù)據(jù)在4~5PB左右,每年大概增加數(shù)百TB。這些數(shù)據(jù)包含了地面觀測、衛(wèi)星、雷達(dá)和數(shù)據(jù)預(yù)報產(chǎn)品等觀測數(shù)據(jù)。
其中,地面氣象站觀測所獲取的數(shù)據(jù)是需要永久保存的,其使用率非常高,除了常規(guī)天氣預(yù)報業(yè)務(wù)需要用到外,諸如氣候預(yù)測、氣象農(nóng)業(yè)、環(huán)境氣象、交通氣象、電力氣象以及科研等領(lǐng)域,都需要用到這些數(shù)據(jù)。目前,我國地面觀測臺站已達(dá)到約4萬個,遍布我國各個地區(qū)。由于自動觀測技術(shù)的發(fā)展以及地面自動氣象站的推廣普及,地面觀測業(yè)務(wù)擺脫了人工觀測居住環(huán)境的要求,觀測站點可布設(shè)到許多環(huán)境十分嚴(yán)苛的地域,如:荒島、沙漠、高原等。
以氣象衛(wèi)星和多普勒天氣雷達(dá)為代表的遙感遙測業(yè)務(wù)領(lǐng)域近三十年來取得了飛速發(fā)展,這些領(lǐng)域一方面每天產(chǎn)生著數(shù)TB級的觀測數(shù)據(jù),另一方面也需要地面觀測等實測數(shù)據(jù)作為其遙感數(shù)據(jù)的訂正依據(jù)。
地面及高空觀探測數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),氣象衛(wèi)星、天氣雷達(dá)數(shù)據(jù)則為非結(jié)構(gòu)化數(shù)據(jù)。以這些數(shù)據(jù)為主,構(gòu)成了“氣象大數(shù)據(jù)”。雖然“氣象大數(shù)據(jù)”與目前業(yè)界公認(rèn)的以“4V”為特征的大數(shù)據(jù)的存在一定差異,但數(shù)據(jù)量的巨大以及迅速膨脹的速度則是十年前完全無法想象的。
3.2 數(shù)據(jù)存儲
數(shù)據(jù)存儲是對各類接入數(shù)據(jù)按照統(tǒng)一數(shù)據(jù)規(guī)范按照標(biāo)準(zhǔn)化格式進(jìn)行存儲,依據(jù)應(yīng)用需求存儲在分布式文件系統(tǒng)、分布式數(shù)據(jù)倉庫、非關(guān)系型數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫,實現(xiàn)各類數(shù)據(jù)的集中存儲與統(tǒng)一管理,滿足大量、多樣化數(shù)據(jù)的低成本存儲需求。
數(shù)據(jù)存儲管理使用基礎(chǔ)數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)流轉(zhuǎn)監(jiān)測、數(shù)據(jù)權(quán)限管理和數(shù)據(jù)運維輔助管理,管理內(nèi)容如下:
(1)基礎(chǔ)數(shù)據(jù)管理:提供對大數(shù)據(jù)元數(shù)據(jù)資源的統(tǒng)一管理,保證數(shù)據(jù)資源的標(biāo)準(zhǔn)化應(yīng)用,為質(zhì)量監(jiān)測、流轉(zhuǎn)監(jiān)測提供基礎(chǔ)數(shù)據(jù)。
(2)數(shù)據(jù)質(zhì)量管理:提供業(yè)務(wù)明細(xì)數(shù)據(jù)、指標(biāo)數(shù)據(jù)等多數(shù)據(jù)模型的數(shù)據(jù)質(zhì)量分析和校核規(guī)則,持續(xù)提升數(shù)據(jù)質(zhì)量。
(3)數(shù)據(jù)流轉(zhuǎn)監(jiān)測:從數(shù)據(jù)接入環(huán)節(jié)、抽取環(huán)節(jié)、業(yè)務(wù)處理環(huán)節(jié)對過程處理進(jìn)行逐級監(jiān)測、層層控制。
(4)數(shù)據(jù)權(quán)限管理:提供訪問各類數(shù)據(jù)的授權(quán)功能,保證數(shù)據(jù)的安全及可靠性。
(5)數(shù)據(jù)運維輔助管理:提供數(shù)據(jù)日常管理和監(jiān)控等輔助管理。
3.3 數(shù)據(jù)計算
氣象大數(shù)據(jù)的數(shù)據(jù)計算采用流計算、內(nèi)存計算、批量計算、查詢計算等分布式計算技術(shù),滿足不同時效性的計算需求。
流計算支持實時處理,內(nèi)存計算支持交互性分析,批量計算支持大批量數(shù)據(jù)的離線分析,查詢計算支持類似SQL查詢分析。
3.4 數(shù)據(jù)分析
氣象大數(shù)據(jù)分析在融合傳統(tǒng)數(shù)據(jù)挖掘算法的基礎(chǔ)上,優(yōu)化分布式挖掘算法,形成數(shù)據(jù)挖掘基礎(chǔ)算法庫,在此基礎(chǔ)上,構(gòu)建支撐氣象行業(yè)大數(shù)據(jù)分析算法模型。
對于建模算法選擇,主要依賴于所要解決的問題,即大數(shù)據(jù)分析應(yīng)用的具體業(yè)務(wù)需求。對于預(yù)測類的問題,有回歸和分類預(yù)測兩種,算法可以選擇決策樹、邏輯回歸、神經(jīng)網(wǎng)絡(luò)、機(jī)器深度學(xué)習(xí)應(yīng)用等;對于描述類的問題,可以選擇聚類分析、關(guān)聯(lián)分析、最優(yōu)化分析等。最后根據(jù)所選擇的建模算法,通過分析建模工具建立模型。
4 總結(jié)和展望
目前,氣象行業(yè)大數(shù)據(jù)分析及應(yīng)用在跨行業(yè)數(shù)據(jù)融合分析有了很大的進(jìn)步,但社會上大多數(shù)行業(yè)的大數(shù)據(jù)應(yīng)用仍局限在行業(yè)數(shù)據(jù)自身價值的深度挖掘??缧袠I(yè)數(shù)據(jù)壁壘是當(dāng)前大數(shù)據(jù)應(yīng)用推廣的一個實實在在的障礙,建立一個行業(yè)間雙方及多方的信息共享基礎(chǔ)環(huán)境,進(jìn)行跨行業(yè)跨領(lǐng)域的數(shù)據(jù)融合及深度分析,更大地實現(xiàn)氣象行業(yè)大數(shù)據(jù)的價值,為社會創(chuàng)造更多的財富仍是未來一個技術(shù)探索領(lǐng)域。
參考文獻(xiàn)
[1]維克托·邁爾·舍恩伯格,肯尼斯·庫克耶.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2012.
[2]李國杰,程學(xué)旗大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012,27(6):647-657.
[3]高志鵬,牛琨,劉杰.面向大數(shù)據(jù)的分析技術(shù)[J].北京郵電大學(xué)學(xué)報,2015,38(3):1-12.
[4]李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015,45(1):1-44.
[5]方巍,鄭玉,徐江.大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J].南京信息工程大學(xué)學(xué)報:自然科學(xué)版,2014,5:405-419.
[6]沈文海.再析氣象大數(shù)據(jù)及其應(yīng)用[J].中國信息化,2016,(1):85-96.