張志強(qiáng),楊和平,楊 笛,姜筱瑋,陳 楠
國(guó)家氣象信息中心,北京 100081
經(jīng)過(guò)多年發(fā)展,我國(guó)氣象信息化能力不斷提高,建成了“天地一體化”的通信網(wǎng)絡(luò)系統(tǒng)。目前,國(guó)家氣象信息中心收集的氣象及相關(guān)資料日均數(shù)據(jù)量約2.9 TB,年均數(shù)據(jù)量約1.0 PB,數(shù)據(jù)資源總量持續(xù)增長(zhǎng),截止2017年,累積數(shù)據(jù)總量超過(guò)4.3 PB[1]。除了氣象行業(yè)內(nèi)部的氣候變化、天氣預(yù)報(bào)、氣象災(zāi)害等方向的氣象數(shù)據(jù)融合與分析,氣象與各行業(yè)結(jié)合的數(shù)據(jù)融合分析也成為新時(shí)代下氣象大數(shù)據(jù)平臺(tái)建設(shè)的重要方向之一,結(jié)合電力、農(nóng)業(yè)、交通、保險(xiǎn)、旅游等行業(yè)數(shù)據(jù)為其發(fā)展決策提供指導(dǎo)性依據(jù)[2]。數(shù)據(jù)融合分析即數(shù)據(jù)挖掘分析,即通過(guò)數(shù)據(jù)的獲取、加工、關(guān)鍵因子篩選,最終確定最相關(guān)的關(guān)鍵因子,并利用統(tǒng)計(jì)分析及機(jī)器學(xué)習(xí)發(fā)現(xiàn)因子之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)對(duì)行業(yè)內(nèi)及行業(yè)間的趨勢(shì)進(jìn)行預(yù)測(cè)預(yù)報(bào),更好地發(fā)揮氣象因子廣泛的潛在價(jià)值[3-4]。此外程序化業(yè)務(wù)運(yùn)行后,如需對(duì)該流程中模型進(jìn)行因子數(shù)據(jù)補(bǔ)充或模型優(yōu)化等調(diào)整,則需進(jìn)行重新編程開(kāi)發(fā)、封裝等非氣象領(lǐng)域的專業(yè)工作,對(duì)及時(shí)、有效地開(kāi)展相關(guān)工作造成了一定難度。
傳統(tǒng)數(shù)據(jù)融合分析,一般是在統(tǒng)計(jì)學(xué)的基礎(chǔ)上利用統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)挖掘分析,如利用SPSS、SAS等軟件,采用逐步回歸等方法建立MOS回歸方程[5],借助貝葉斯、費(fèi)歇爾判別等多級(jí)和逐級(jí)判別建立大降水預(yù)報(bào)方程[6],基于典型相關(guān)(CCA)分析和奇異值分解(SVD)等方法做汛期降水趨勢(shì)預(yù)報(bào)等[7],以上數(shù)據(jù)分析工作要求分析者熟練掌握統(tǒng)計(jì)分析軟件的使用。隨著機(jī)器學(xué)習(xí)算法的興起,支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等模式識(shí)別方法逐漸應(yīng)用于天氣預(yù)報(bào)、氣候預(yù)測(cè)、氣象災(zāi)害預(yù)測(cè)等氣象領(lǐng)域,同時(shí)也應(yīng)用到其他行業(yè),實(shí)現(xiàn)了氣象與多行業(yè)的融合,如農(nóng)業(yè)病蟲(chóng)害預(yù)警[8]、電力氣象預(yù)警[9]、交通路線規(guī)劃[10]以及天氣指數(shù)保險(xiǎn)[11-12]等。此類流程的構(gòu)建需要分析者熟悉主流編程軟件工具的使用方法,如Matlab、Python、Java等,以及算法包的接口調(diào)用如libSVM、javaml等。此類技術(shù)雖然已經(jīng)成熟,但涉及到的流程及相關(guān)軟件的應(yīng)用相對(duì)繁雜,分析者除了熟悉本專業(yè)知識(shí)外,還需熟悉統(tǒng)計(jì)算法等數(shù)據(jù)知識(shí)。某個(gè)行業(yè)的工作者很難根據(jù)自己的工作經(jīng)驗(yàn),通過(guò)行業(yè)數(shù)據(jù)融合,構(gòu)建相對(duì)成熟的預(yù)測(cè)預(yù)報(bào)模型或產(chǎn)品等。因此急需一套集成氣象數(shù)據(jù)、模型及綜合實(shí)現(xiàn)的平臺(tái),供各行業(yè)工作者僅依靠自身行業(yè)經(jīng)驗(yàn)即可進(jìn)行數(shù)據(jù)的融合分析,實(shí)現(xiàn)模型產(chǎn)品的發(fā)布,為大數(shù)據(jù)背景下的眾創(chuàng)提供有效的數(shù)據(jù)融合分析工具。
該系統(tǒng)基于國(guó)家氣象信息中心氣象數(shù)據(jù)環(huán)境,集成了氣象數(shù)據(jù)CIMISS數(shù)據(jù)環(huán)境[13]的統(tǒng)一服務(wù)接口(Meteorological Unified Service Interface Community,MUSIC)[14]、WEKA數(shù)據(jù)挖掘模型[15-16]、ECharts可視化[17]接口等功能模塊,并利用Java動(dòng)態(tài)算法包加載運(yùn)行技術(shù),實(shí)現(xiàn)了從數(shù)據(jù)采集、算法實(shí)現(xiàn)以及最終應(yīng)用的集成化操作流程,構(gòu)建了在線交互式數(shù)據(jù)接入(錄入或?qū)耄?、處理、分析,以及算法的選擇、導(dǎo)入、構(gòu)建及運(yùn)行的一站式氣象數(shù)據(jù)在線融合分析平臺(tái)。該系統(tǒng)設(shè)計(jì)開(kāi)發(fā)結(jié)構(gòu)明確,為其他行業(yè)的專業(yè)數(shù)據(jù)分析平臺(tái)提供了快速搭建及實(shí)現(xiàn)的思路。
本系統(tǒng)主要包括三方面:數(shù)據(jù)管理、算法管理、綜合運(yùn)算。通過(guò)數(shù)據(jù)管理在線導(dǎo)入或錄入數(shù)據(jù),實(shí)現(xiàn)在線存儲(chǔ);同時(shí)通過(guò)在線的算法選擇及導(dǎo)入功能,實(shí)現(xiàn)算法的在線管理及后期選擇應(yīng)用;利用綜合運(yùn)算功能,對(duì)數(shù)據(jù)及算法進(jìn)行組織,實(shí)現(xiàn)模型的構(gòu)建及結(jié)果的輸出,見(jiàn)圖1。
圖1 系統(tǒng)流程設(shè)計(jì)圖
本系統(tǒng)核心是集成,在設(shè)計(jì)過(guò)程中充分考慮了各部分(圖1)的對(duì)接關(guān)系,主要包括綜合運(yùn)算分別與數(shù)據(jù)及算法管理之間的對(duì)接關(guān)系,涉及到用戶數(shù)據(jù)、算法以及結(jié)果的存儲(chǔ)及展示,即用戶數(shù)據(jù)加工庫(kù)、算法庫(kù)以及場(chǎng)景應(yīng)用庫(kù)等。
綜合運(yùn)算與數(shù)據(jù)管理:綜合運(yùn)算通過(guò)MUSIC中的API接口以restful方式獲取數(shù)據(jù);同時(shí)綜合運(yùn)算可調(diào)用數(shù)據(jù)標(biāo)準(zhǔn)化算法對(duì)數(shù)據(jù)加工處理,并將處理后的數(shù)據(jù)存儲(chǔ)在用戶數(shù)據(jù)加工庫(kù)內(nèi),便于用戶調(diào)用。
綜合運(yùn)算與算法管理:綜合運(yùn)算在算法調(diào)用過(guò)程中,內(nèi)部算法通過(guò)內(nèi)部的WEKA包直接調(diào)用;外部算法通過(guò)Java動(dòng)態(tài)Jar包等腳本加載實(shí)現(xiàn);此外,在算法模型構(gòu)建過(guò)程中,綜合運(yùn)算利用API調(diào)用氣象數(shù)據(jù)或直接調(diào)用用戶數(shù)據(jù)加工庫(kù)的數(shù)據(jù),同時(shí)利用通用模型構(gòu)建模型參數(shù),存儲(chǔ)至算法庫(kù),供后期調(diào)用。
綜合運(yùn)算場(chǎng)景管理:通過(guò)之前決策場(chǎng)景模型應(yīng)用的準(zhǔn)備工作,對(duì)數(shù)據(jù)及成熟模型算法進(jìn)行選擇,計(jì)算出相關(guān)結(jié)果,存儲(chǔ)至場(chǎng)景應(yīng)用庫(kù)。其中除了決策結(jié)果數(shù)據(jù)外,還包括可視化模塊等標(biāo)識(shí)內(nèi)容,便于決策場(chǎng)景的直接預(yù)覽等。
數(shù)據(jù)管理的主要功能是實(shí)現(xiàn)數(shù)據(jù)的在線獨(dú)立存儲(chǔ)管理,包括氣象數(shù)據(jù)的在線獲取,即接口的嵌入式頁(yè)面集成及數(shù)據(jù)在線獲取,以及外部數(shù)據(jù)的錄入導(dǎo)入等。
氣象數(shù)據(jù)接口嵌入:
氣象數(shù)據(jù)統(tǒng)一服務(wù)接口(MUSIC),是基于國(guó)省統(tǒng)一的數(shù)據(jù)環(huán)境(CIMISS),面向氣象業(yè)務(wù)和科研,提供全國(guó)統(tǒng)一、標(biāo)準(zhǔn)、豐富的數(shù)據(jù)訪問(wèn)服務(wù)和應(yīng)用編程接口(API),為國(guó)、省、地、縣各級(jí)應(yīng)用系統(tǒng)提供唯一權(quán)威的數(shù)據(jù)接入服務(wù)。用戶在使用過(guò)程中,通過(guò)MUSIC提供web可視化服務(wù),直接生成接口訪問(wèn)的腳本,用戶直接拷貝腳本并在接口客戶端運(yùn)行,實(shí)現(xiàn)文件的下載。
本系統(tǒng)通過(guò)iframe嵌入式頁(yè)面設(shè)計(jì),通過(guò)主頁(yè)面獲取iframe中的腳本生成的內(nèi)容,并直接生成WEKA中支持的arff文件,供用戶使用。具體實(shí)現(xiàn)步驟如下:
步驟1獲取iframe內(nèi)接口頁(yè)面中textarea的腳本內(nèi)容,該內(nèi)容是ini格式的文本。
步驟2對(duì)ini文件進(jìn)行解析,去掉無(wú)關(guān)的腳本參數(shù),如結(jié)果記錄限制、保存路徑等。
步驟3通過(guò)Java腳本客戶端進(jìn)行數(shù)據(jù)提取,并按照arff格式進(jìn)行數(shù)據(jù)格式的標(biāo)準(zhǔn)化處理。
外部數(shù)據(jù)錄入及導(dǎo)入:
通過(guò)Java中文件保存的Servlet類,對(duì)提交的數(shù)據(jù)進(jìn)行固定目錄的保存,便于綜合運(yùn)算功能進(jìn)行數(shù)據(jù)的選擇。
算法管理主要功能是對(duì)自定義算法的導(dǎo)入,其中包括數(shù)據(jù)處理、模型構(gòu)建、決策處理三類算法。數(shù)據(jù)處理算法,主要用于對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化處理,如氣象要素?cái)?shù)據(jù)的距平算法等;模型構(gòu)建主要用于支持向量機(jī)(Surport Vector Machine,SVM)、神經(jīng)網(wǎng)絡(luò)等通過(guò)訓(xùn)練數(shù)據(jù)對(duì)模型的參數(shù)模擬,構(gòu)建定制的預(yù)測(cè)模型;決策處理主要用于選定數(shù)據(jù)及定制的預(yù)測(cè)模型,得出決策或預(yù)測(cè)的結(jié)果。
通過(guò)數(shù)據(jù)源(數(shù)據(jù)管理)以及分析算法(算法管理)的準(zhǔn)備,利用綜合運(yùn)算功能模塊實(shí)現(xiàn)選擇算法,并對(duì)數(shù)據(jù)進(jìn)行處理、建模、分析等操作。主要包括以下三個(gè)流程(如圖2)。
(1)數(shù)據(jù)標(biāo)準(zhǔn)化處理
數(shù)據(jù)的標(biāo)準(zhǔn)化處理是對(duì)選擇的數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換工作,通過(guò)數(shù)據(jù)處理類算法的選擇,可按照特定的算法進(jìn)行數(shù)據(jù)處理,并將處理后的數(shù)據(jù)存入數(shù)據(jù)源中,供后續(xù)操作。
(2)模型參數(shù)模擬
模型參數(shù)擬合是利用數(shù)據(jù)源中的數(shù)據(jù)(這里作為訓(xùn)練數(shù)據(jù)Train Data),對(duì)通用模型算法中如SVM等的模型參數(shù)進(jìn)行擬合,構(gòu)建最終的決策模型,并存入算法管理中,供后續(xù)使用。
(3)決策測(cè)報(bào)輸出
決策預(yù)報(bào)輸出是利用之前的數(shù)據(jù)及現(xiàn)有模型(如聚類等)構(gòu)建的決策模型,實(shí)現(xiàn)最終的分析結(jié)果或數(shù)據(jù)預(yù)測(cè)結(jié)果的輸出及可視化等功能。
圖2 算法流程結(jié)構(gòu)圖
根據(jù)系統(tǒng)流程的設(shè)計(jì),技術(shù)實(shí)現(xiàn)過(guò)程中主要包括兩部分內(nèi)容,即前臺(tái)的頁(yè)面功能及后臺(tái)功能模塊實(shí)現(xiàn)。前臺(tái)主要基于B/S架構(gòu),以及iframe嵌入式父、子頁(yè)面jscript函數(shù)調(diào)用等網(wǎng)頁(yè)編程技術(shù),實(shí)現(xiàn)頁(yè)面展示及MUSIC接口的腳本調(diào)用;后臺(tái)功能方面利用MUSIC中Java客戶端的二次開(kāi)發(fā)、動(dòng)態(tài)加載外部導(dǎo)入算法以及基于WEKA源碼的二次開(kāi)發(fā),實(shí)現(xiàn)相關(guān)功能的開(kāi)發(fā)。
該平臺(tái)前端開(kāi)發(fā)的重要部分是通過(guò)iframe框架實(shí)現(xiàn)MUSIC接口定制頁(yè)面的嵌入,實(shí)現(xiàn)子頁(yè)面與父頁(yè)面通信,自動(dòng)獲取MUSIC定制的腳本,供MUSIC的Java客戶端進(jìn)行氣象數(shù)據(jù)的自動(dòng)獲取。其中iframe父、子頁(yè)面的通訊包括同域傳輸及跨域傳輸,其中跨域傳輸需要對(duì)父、子頁(yè)面采用location對(duì)象的Hash值等方法實(shí)現(xiàn),即需要對(duì)MUSIC定制頁(yè)面進(jìn)行代碼的重新添加,該方法會(huì)影響MUSIC頁(yè)面對(duì)自身其他功能的支持。因此本系統(tǒng)中采用同域傳輸,利用Nginx進(jìn)行統(tǒng)一域名代理,實(shí)現(xiàn)MUSIC定制頁(yè)面的腳本獲取及傳輸。
該系統(tǒng)支持三類算法(見(jiàn)2.2節(jié))的外部導(dǎo)入,系統(tǒng)基于Java,通過(guò)org.python以及JNA(Java Native Access)、JNI(Java Native Interface)技術(shù)的運(yùn)用,分別對(duì)Python、Fortran、C++等語(yǔ)言的外部導(dǎo)入算法進(jìn)行動(dòng)態(tài)加載運(yùn)行,同時(shí)利用URLClassLoader類實(shí)現(xiàn)對(duì)外部導(dǎo)入jar包算法的動(dòng)態(tài)加載運(yùn)行等。目前可支持常用氣象及其與行業(yè)數(shù)據(jù)融合分析算法包的動(dòng)態(tài)加載運(yùn)行。
WEKA(WaikatoEnvironmentforKnowledge Analysis)是Waikato大學(xué)研究的開(kāi)放源碼的數(shù)據(jù)挖掘平臺(tái),其中集成了大量的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、關(guān)聯(lián)規(guī)則挖掘、分類、聚類等,其對(duì)外服務(wù)方式包括成型的可視化使用工具及基于WEKA源碼包的二次開(kāi)發(fā)。
該系統(tǒng)將氣象數(shù)據(jù)中常用氣象要素特征表達(dá)算法集成到WEKA源碼包中,作為氣象數(shù)據(jù)在線融合分析的內(nèi)部算法,發(fā)布到該平臺(tái)下,供用戶使用。以最常用的溫度距平要素及降雨距平要素的百分率[18-19]為例,其算法公式如式(1)~(3):
其中xˉ表示平均溫度,xdt表示距平值,Pt表示距平百分率,n表示樣本數(shù)。
按照以上的算法流程,在eclipse開(kāi)發(fā)平臺(tái)下,將主類TAnomaly類(距平)、PAnomaly類(距平百分率)與WEKA自身的SimpleFilter等類封裝在weka.filters包中。TAnomaly類及PAnomaly類分別主要完成距平及距平百分率的計(jì)算及輸出。
除此之外,對(duì)于WEKA通用的機(jī)器學(xué)習(xí)模型如KMean聚類、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等,從界面上實(shí)現(xiàn)了初始參數(shù)的輸入。
可視化是在數(shù)據(jù)分析中,直觀展示數(shù)據(jù)關(guān)系的重要方式。該平臺(tái)采用百度ECharts2.0可視化接口(http://echarts.baidu.com)、three.js接口技術(shù)等將servlet算法處理或分析的結(jié)果,通過(guò)post傳遞給展示頁(yè)面,頁(yè)面中利用jscript將變量賦值到相關(guān)模塊中,最終實(shí)現(xiàn)數(shù)據(jù)的展示。
針對(duì)氣象相關(guān)數(shù)據(jù)的特征,本系統(tǒng)中可視化分為以下幾類:模型評(píng)估可視化、聚類可視化、WebGIS可視化等。
模型評(píng)估可視化:用于在模型構(gòu)建過(guò)程中,模型檢驗(yàn)時(shí),直觀展現(xiàn)預(yù)測(cè)數(shù)據(jù)與觀測(cè)數(shù)據(jù)之間的關(guān)系。主要表現(xiàn)形式為散點(diǎn)圖(echarts/chart/scatter)、柱狀圖(echarts/chart/bar)、曲線圖(echarts/chart/line)等(圖3)。
聚類可視化:對(duì)一些聚類分析的結(jié)果,通過(guò)樹(shù)狀關(guān)系圖等對(duì)聚類結(jié)果進(jìn)行展示。主要表現(xiàn)為力導(dǎo)向布局圖(echarts/chart/force)及和弦圖(echarts/chart/chord)(圖4)。
WebGIS可視化:針對(duì)氣象數(shù)據(jù)的區(qū)域特性,集成了基于WebGis的經(jīng)緯度地圖展示。在二維展示中,除了Echart中的百度地圖擴(kuò)展BMap,還基于天地圖的地理信息數(shù)據(jù),結(jié)合D3及l(fā)eaflet技術(shù),利用SVG進(jìn)行可視化展示,提高了可視化的交互體驗(yàn)(圖5);在三維展示中,以webgl為基礎(chǔ)的Three.js庫(kù)實(shí)現(xiàn),使用Three.js創(chuàng)建一個(gè)SphereGeometry對(duì)象,Three.js紋理貼圖的方式為UV映射,需要給創(chuàng)建的球體對(duì)象設(shè)置一個(gè)等經(jīng)緯的地圖作為紋理[20](圖6)。
圖3 “曲線圖”展示模型檢驗(yàn)結(jié)果
圖4 “樹(shù)狀關(guān)系網(wǎng)絡(luò)圖”展示聚類結(jié)果
圖5 “WebGIS”二維展示數(shù)據(jù)區(qū)域分布結(jié)果
圖6 “WebGIS”三維展示數(shù)據(jù)區(qū)域分布結(jié)果
可視化功能開(kāi)發(fā)實(shí)現(xiàn)過(guò)程以SOA開(kāi)發(fā)架構(gòu)[21],將多樣可視化進(jìn)行接口封裝,使用過(guò)程中僅需提供對(duì)應(yīng)的數(shù)據(jù)即可。如WebGIS可視化中,僅需提供經(jīng)緯度及對(duì)應(yīng)的值,即可實(shí)現(xiàn)二維及三維的展示。
本文實(shí)驗(yàn)場(chǎng)景是預(yù)測(cè)太陽(yáng)輻射數(shù)據(jù),光伏電站的規(guī)劃設(shè)計(jì)的前提是能夠準(zhǔn)確預(yù)測(cè)太陽(yáng)輻射值,該項(xiàng)工作對(duì)系統(tǒng)的經(jīng)濟(jì)運(yùn)行起著至關(guān)重要的作用。該實(shí)驗(yàn)以中國(guó)內(nèi)蒙古自治區(qū)呼倫貝爾市海拉爾站(站號(hào):50527)2017年6月份每日平均溫度、平均濕度、最小能見(jiàn)度、日照時(shí)長(zhǎng)為自變量關(guān)鍵因子,利用SVR模型對(duì)日總輻射(曝輻量單位:兆焦每平米(MJ m2),構(gòu)建總輻射的預(yù)測(cè)模型。以2017年7月份海拉爾站的數(shù)據(jù)作為測(cè)試數(shù)據(jù),對(duì)模型進(jìn)行檢驗(yàn)。
通過(guò)數(shù)據(jù)管理欄目界面,首先分別選擇2017年6、7月份的每日平均溫度、平均濕度、最小能見(jiàn)度、日照時(shí)長(zhǎng)以及總輻射(曝輻量)數(shù)據(jù),分別存為raditraindata.arff、raditestdata.arff。通過(guò)綜合運(yùn)算中的“處理數(shù)據(jù)”算法對(duì)能見(jiàn)度進(jìn)行了標(biāo)準(zhǔn)化處理,將單位從“米”轉(zhuǎn)換成“千米”,便于后期的訓(xùn)練及測(cè)試準(zhǔn)備。
該樣例采用的是支持向量回歸模型(Support Vector Regression,SVR)[22-23],該模型是libSVM包中一類回歸算法,是支持向量機(jī)(SVM)[24]重要的應(yīng)用分支類似。利用raditraindata.arff構(gòu)建模型參數(shù),初始參數(shù)為options=("-S 4-K 0-D 3-P 0.1-C 1.0-E 0.001-N 0.5"),訓(xùn)練后新的決策模型保存為“LibSVM-SVR.model”便于最后決策應(yīng)用過(guò)程中調(diào)用。
該實(shí)驗(yàn)中的輻射數(shù)據(jù)為非分類數(shù)據(jù),因此采用支持向量回歸(SVR)模型,平臺(tái)中主要基于libSVM中的“nu-SVR”模型,該模型可自動(dòng)擬合參數(shù),利用測(cè)試數(shù)據(jù)raditraindata.arff構(gòu)建模型,通過(guò)簡(jiǎn)單選取“構(gòu)建模型”功能,提交后自動(dòng)生成新的決策應(yīng)用模型“nu-SVR”。其結(jié)果評(píng)估中,相關(guān)系數(shù)(Correlation coefficient)為0.94,相關(guān)絕對(duì)誤差為0.34。利用7月份數(shù)據(jù)進(jìn)行預(yù)測(cè)得到的結(jié)果,預(yù)測(cè)結(jié)果與實(shí)際值進(jìn)行回歸分析,相關(guān)系數(shù)R2=0.933 6,如圖7。整個(gè)流程操作簡(jiǎn)便,具有實(shí)際可行性。
圖7 2017年7月海拉爾站日總輻射觀測(cè)值與預(yù)測(cè)值相關(guān)分析
氣象數(shù)據(jù)在線融合分析原型系統(tǒng)的構(gòu)建,為行業(yè)專家快速進(jìn)行數(shù)據(jù)分析及場(chǎng)景應(yīng)用提供了交互、便捷、高效的在線工具,實(shí)現(xiàn)了從數(shù)據(jù)到產(chǎn)品的一站式集約化平臺(tái),具體從以下3個(gè)方面進(jìn)行總結(jié)。
(1)簡(jiǎn)化了氣象數(shù)據(jù)使用流程
系統(tǒng)集成了氣象數(shù)據(jù)統(tǒng)一服務(wù)接口,簡(jiǎn)化了氣象數(shù)據(jù)的下載、解壓、處理等傳統(tǒng)工作流程,直接實(shí)現(xiàn)了在線定制、存儲(chǔ)、處理及使用。便捷的數(shù)據(jù)使用流程,提升了用戶對(duì)氣象要素使用的積極性,極大發(fā)揮了數(shù)據(jù)的價(jià)值。
(2)豐富并拓展了氣象相關(guān)分析算法
系統(tǒng)收集針對(duì)氣象數(shù)據(jù)分析的常用算法,并開(kāi)發(fā)集成部署到系統(tǒng)中,便于用戶使用;同時(shí)支持外部算法的加載,可擴(kuò)充系統(tǒng)服務(wù)支撐能力。系統(tǒng)的算法模型服務(wù)能力得到了較大提升。
(3)整合并構(gòu)建了氣象融合分析平臺(tái)
系統(tǒng)整合了通用氣象數(shù)據(jù)分析流程,實(shí)現(xiàn)了從氣象數(shù)據(jù)到場(chǎng)景應(yīng)用的一體化在線融合分析功能。降低了氣象數(shù)據(jù)分析的門(mén)檻,對(duì)氣象數(shù)據(jù)的眾創(chuàng)提供了一個(gè)靈活高效的平臺(tái)。
隨著各行業(yè)大數(shù)據(jù)時(shí)代的到來(lái),除了應(yīng)用場(chǎng)景作為分析的前提條件外,在線分析技術(shù)還需對(duì)以下幾個(gè)主要方面進(jìn)行深入研究:第一,針對(duì)海量數(shù)據(jù),結(jié)合關(guān)系型及非關(guān)系型數(shù)據(jù)庫(kù),提高長(zhǎng)序列、多要素氣象數(shù)據(jù)的快速讀取及調(diào)度;第二,針對(duì)算法效率,利用分布式大數(shù)據(jù)算法工具(MahOut、TensorFlow等),優(yōu)化算法的計(jì)算效率,豐富算法內(nèi)涵及外延[25];第三,為進(jìn)一步提升整個(gè)流程的產(chǎn)品級(jí)開(kāi)發(fā),從數(shù)據(jù)獲取、模型運(yùn)行、決策服務(wù)等分析流水線進(jìn)行腳本化輸出,即對(duì)決策服務(wù)流程進(jìn)行腳本化封裝,簡(jiǎn)化服務(wù)部署,實(shí)現(xiàn)產(chǎn)品的實(shí)時(shí)輸出。