趙芳?華東? 田質(zhì)勝 ?唐克銀?張晨
摘 要:本文以水資源監(jiān)測數(shù)據(jù)為基礎(chǔ),引入生態(tài)環(huán)境、農(nóng)業(yè)、國土、氣象、工商等相關(guān)數(shù)據(jù),探究多元數(shù)據(jù)下的大數(shù)據(jù)平臺(tái)構(gòu)建方法。首先論述了大數(shù)據(jù)平臺(tái)的研究現(xiàn)狀及不足,然后闡述了多元大數(shù)據(jù)平臺(tái)的建設(shè)目標(biāo)與平臺(tái)架構(gòu),最后探討了平臺(tái)構(gòu)建的關(guān)鍵技術(shù)。
關(guān)鍵詞:多元數(shù)據(jù);水資源監(jiān)測;算法模型;大數(shù)據(jù)平臺(tái)
中圖法分類號(hào):TV213.4-39? ? ? ?文獻(xiàn)標(biāo)志碼:A? ? ? ? ? DOI:10.19679/j.cnki.cjjsjj.2020.0220
水是生命之源、生產(chǎn)之要、生態(tài)之基[1]。自中央一號(hào)文件將水利信息化作為水利建設(shè)的重要內(nèi)容以來,我國基本上形成了以數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、業(yè)務(wù)應(yīng)用、技術(shù)規(guī)范與保障體系為一體的信息化綜合體系,而水利數(shù)據(jù)的增量也達(dá)到了前所未有的高度,如何利用好水利大數(shù)據(jù),提供更為全面可靠的水利智慧化服務(wù)是水利信息化建設(shè)亟需解決的問題。
1 大數(shù)據(jù)平臺(tái)研究現(xiàn)狀
大數(shù)據(jù)[2](Big Data)一詞,最早來源于2008年“Nature”雜志公開發(fā)表的論文“Big Data:Science in the Petabyte Era”,文章發(fā)表后引起了全世界專家學(xué)者的廣泛關(guān)注與討論,也正式拉開了大數(shù)據(jù)時(shí)代的帷幕。隨著通信科技的普及,大數(shù)據(jù)現(xiàn)已廣泛應(yīng)用在金融、教育、電信、娛樂等產(chǎn)業(yè)。
盡管大數(shù)據(jù)在水利行業(yè)上的應(yīng)用尚處于起步階段,但也積累了一定的研究成果。柴立[3]等人基于3D-VSP技術(shù),以陜西省為例,構(gòu)建了三維可視化仿真平臺(tái),解決了大數(shù)據(jù)中的共享性差、表現(xiàn)應(yīng)用單一的問題。周浩[4]等人立足于遼寧省水利信息化的發(fā)展?fàn)顩r,闡述了大數(shù)據(jù)管理信息平臺(tái)的建設(shè)任務(wù)和目標(biāo),提出了構(gòu)建基于水資源監(jiān)控?cái)?shù)據(jù)管理信息平臺(tái)的解決方案。姜小俊[5]等人結(jié)合大數(shù)據(jù)技術(shù)特點(diǎn),以浙江省水資源監(jiān)測大數(shù)據(jù)為研究對(duì)象,從“理數(shù)據(jù)、搭框架、推應(yīng)用”三個(gè)層面闡述了大數(shù)據(jù)應(yīng)用示范工程設(shè)想。陳華[6]等人解讀了水文數(shù)據(jù)的特點(diǎn),為水文數(shù)據(jù)的分類和存儲(chǔ)提供了標(biāo)準(zhǔn)化設(shè)計(jì),最終針對(duì)水文大數(shù)據(jù)的共享平臺(tái)提出了全面構(gòu)想。
已有研究大多僅關(guān)注水利大數(shù)據(jù),很少引入其他行業(yè)數(shù)據(jù),但筆者認(rèn)為大數(shù)據(jù)平臺(tái)的構(gòu)建不能僅僅以水利數(shù)據(jù)為主,其他生態(tài)環(huán)境、農(nóng)業(yè)、國土、氣象、工商數(shù)據(jù)也必須引入。尤其是隨著“國家水資源監(jiān)控能力建設(shè)項(xiàng)目”的逐步實(shí)施,未來水資源大數(shù)據(jù)將更加全面準(zhǔn)確。因此,十分有必要在水資源監(jiān)測數(shù)據(jù)基礎(chǔ)上關(guān)聯(lián)其他政府部門的數(shù)據(jù),利用大數(shù)據(jù)分析方法,對(duì)分布在各行業(yè)的數(shù)據(jù)進(jìn)行清洗、甄別、融合、同化,為水資源管理與實(shí)施調(diào)控提供決策依據(jù),為相關(guān)部門的工作和發(fā)展提供可參考的數(shù)據(jù)支撐,最終讓水資源大數(shù)據(jù)實(shí)現(xiàn)最大價(jià)值,受之社會(huì),并服務(wù)于社會(huì)。
2 多元大數(shù)據(jù)平臺(tái)設(shè)計(jì)
2.1 平臺(tái)建設(shè)目標(biāo)
依托“國家水資源監(jiān)控能力建設(shè)項(xiàng)目(一期、二期)”的監(jiān)測數(shù)據(jù)成果,引入生態(tài)環(huán)境、農(nóng)業(yè)、國土、氣象、工商等行業(yè)數(shù)據(jù),通過對(duì)省級(jí)用水?dāng)?shù)據(jù)和多元行業(yè)數(shù)據(jù)的集中智能化分析,實(shí)現(xiàn)以下目標(biāo)。
(1)實(shí)現(xiàn)省級(jí)“水利一張圖”的管理目標(biāo)
實(shí)現(xiàn)省級(jí)平臺(tái)用水情況一張圖管理,全面感知和管理工業(yè)用水、農(nóng)業(yè)用水、生活用水及其他用水量、行業(yè)水資源利用率類比、萬元GDP用水情況類比、用水許可分布等情況。
(2)智能化水利輔助決策
形成各類用水對(duì)象和用水情況變化圖,分析水資源利用率、行業(yè)用水情況排名、萬元GDP用水量類比等情況,以期調(diào)整用水許可的下發(fā)和水價(jià)的定價(jià),全面優(yōu)化省級(jí)水資源分配情況,最大化水資源利用率,發(fā)揮水利部門對(duì)省市GDP情況的優(yōu)化指導(dǎo)作用。
(3)打通業(yè)務(wù)數(shù)據(jù)壁壘、實(shí)現(xiàn)共享互聯(lián)
基于OpenAPI開放平臺(tái)連通企業(yè)數(shù)據(jù)、其他業(yè)務(wù)系統(tǒng)數(shù)據(jù)和其他政府相關(guān)部門業(yè)務(wù)系統(tǒng)數(shù)據(jù),以API形式開放水利業(yè)務(wù)數(shù)據(jù),形成水利行業(yè)數(shù)據(jù)開放服務(wù)標(biāo)準(zhǔn),對(duì)農(nóng)業(yè)等相關(guān)部門開放,實(shí)現(xiàn)數(shù)據(jù)的共享互聯(lián)。
(4)形成水利行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范
在水利數(shù)據(jù)模型的建設(shè)和探索性分析、預(yù)測性分析的過程中形成標(biāo)準(zhǔn)水利行業(yè)數(shù)據(jù)模型和分析算法模型,建立省級(jí)水利行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,規(guī)范全省水利行業(yè)信息化建設(shè)。
2.2 平臺(tái)架構(gòu)
水利大數(shù)據(jù)分析平臺(tái)邏輯上分為四層,分別是數(shù)據(jù)采集層、數(shù)據(jù)模型層、數(shù)據(jù)分析層和數(shù)據(jù)展現(xiàn)層,四層邏輯架構(gòu)圖如下圖1所示。
數(shù)據(jù)采集層作為水利智能分析平臺(tái)的數(shù)據(jù)網(wǎng)關(guān),采用OpenAPI的模式實(shí)現(xiàn)對(duì)現(xiàn)有水利數(shù)據(jù)庫數(shù)據(jù)、生態(tài)環(huán)境數(shù)據(jù)、氣象數(shù)據(jù)、工商數(shù)據(jù)、統(tǒng)計(jì)局?jǐn)?shù)據(jù)及其他單位的數(shù)據(jù)的采集、清洗、豐富和業(yè)務(wù)一致化梳理。對(duì)于需要特殊保密性的數(shù)據(jù),則需與數(shù)據(jù)提供單位深度合作,采用特定接口與專業(yè)系統(tǒng)進(jìn)行采集。
數(shù)據(jù)模型層是在現(xiàn)有水利業(yè)務(wù)的基礎(chǔ)上對(duì)工業(yè)用水、農(nóng)業(yè)用水、生活用水的用戶和區(qū)域進(jìn)行數(shù)據(jù)建模,并依托數(shù)據(jù)建模標(biāo)準(zhǔn)對(duì)數(shù)據(jù)采集層的數(shù)據(jù)加工邏輯進(jìn)行指導(dǎo),結(jié)合數(shù)據(jù)采集平臺(tái)完成水利業(yè)務(wù)數(shù)據(jù)模型庫。鑒于Hadoop平臺(tái)在處理非結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)、復(fù)雜ETL流程、多維數(shù)據(jù)計(jì)算模型具有極佳的性能,因此,數(shù)據(jù)模型層主要是利用Hadoop平臺(tái)進(jìn)行擴(kuò)展和封裝。
數(shù)據(jù)分析層依托主流大數(shù)據(jù)分析工具,算法類如:深度學(xué)習(xí)算法[7](Deep Learning)、數(shù)據(jù)挖掘算法[8](Data Mining Algorithms)等,技術(shù)類如:數(shù)據(jù)質(zhì)控管理[9](Data Quality and Master Data Management)、深度語義引擎[10](Deep Semantic Engines)等,實(shí)現(xiàn)對(duì)大數(shù)據(jù)多維度、深層次的分析。
數(shù)據(jù)展現(xiàn)層是大數(shù)據(jù)分析平臺(tái)的核心部分,只有可視化與準(zhǔn)確化的展示才能最大化數(shù)據(jù)價(jià)值。本層采用成熟的數(shù)據(jù)可視化工具(3D-VSP),以組件的形式協(xié)同與集成不同數(shù)據(jù)業(yè)務(wù),采用圖件、表格、動(dòng)畫等多種形式進(jìn)行數(shù)據(jù)解讀與展現(xiàn)。
3 多元大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)
3.1 數(shù)據(jù)采集平臺(tái)構(gòu)建
數(shù)據(jù)采集平臺(tái)是大數(shù)據(jù)分析平臺(tái)的基礎(chǔ)平臺(tái),該平臺(tái)負(fù)責(zé)收集縣、市、省各級(jí)部門的基礎(chǔ)業(yè)務(wù)數(shù)據(jù),并對(duì)有效、有用數(shù)據(jù)進(jìn)行初步的清洗加工,與其他各相關(guān)部門的數(shù)據(jù)進(jìn)行交換共享,匯集與水利信息有關(guān)聯(lián)價(jià)值的數(shù)據(jù),形成大數(shù)據(jù)采集平臺(tái)。主要利用以下技術(shù)。
(1)縱向數(shù)據(jù)收集及清洗
通過網(wǎng)絡(luò)采集法從下向上將縣、市、省級(jí)各部門的真實(shí)有用的水利信息數(shù)據(jù),一級(jí)一級(jí)地采集上來,形成全省的“水利一張圖”,從居民樓、街道、片區(qū)到縣、市、省名級(jí),匯集取用水、水量調(diào)度、排污及水質(zhì)監(jiān)控等信息,精確匯總到大數(shù)據(jù)采集平臺(tái),并結(jié)合GIS信息,將各項(xiàng)數(shù)據(jù)精確地展示在全省地圖上,形成全省“取用水信息一張圖”“水資源利用率一張圖”“水質(zhì)監(jiān)控一張圖”“排污處理一張圖”“水源調(diào)度一張圖”等輔助決策信息。
(2)橫向信息服務(wù)共享
平臺(tái)以提供相應(yīng)的水資源信息給各相關(guān)部門,與各相關(guān)部門之間采用開放API或服務(wù)等方式,實(shí)現(xiàn)數(shù)據(jù)的共享交換,最終利用算法將各種數(shù)據(jù)甄別、歸類、梳理、匯集,并存儲(chǔ)到大數(shù)據(jù)采集平臺(tái)中。
(3)分布式存儲(chǔ)和管理
大數(shù)據(jù)采集平臺(tái)采用分布式云數(shù)據(jù)庫的存儲(chǔ)和管理,同時(shí)支持在線分析處理(OLAP)和在線事務(wù)處理(OLTP)能力,利用基于Hadoop架構(gòu)的HDFS或HBase應(yīng)用,或Redis和MongoDB等NoSQL數(shù)據(jù)庫的采集,通過ElasticSearch大數(shù)據(jù)分布式彈性搜索工具來提高數(shù)據(jù)的查詢效率。
3.2 數(shù)據(jù)模型庫構(gòu)建
平臺(tái)模型庫是統(tǒng)一存放和管理多種目的、多種用途的模型集合,其模型之間相互獨(dú)立卻又彼此聯(lián)系,共同運(yùn)行,以此解決復(fù)雜的水利分析問題。按作用分類,模型庫中主要包含評(píng)價(jià)、模擬、優(yōu)化、預(yù)測四種類型的模型,這四種模型作為基礎(chǔ)單元,構(gòu)建起整個(gè)模型庫體系。
如圖1所示,評(píng)價(jià)、模擬、優(yōu)化、預(yù)測四種基礎(chǔ)模型共同構(gòu)成大數(shù)據(jù)分析平臺(tái)的多個(gè)子模型模塊,如水資源評(píng)價(jià)模塊、水資源調(diào)配模塊、水質(zhì)水量預(yù)測模塊等等,為大數(shù)據(jù)分析平臺(tái)的業(yè)務(wù)應(yīng)用提供專業(yè)的決策依據(jù)。
3.3 數(shù)據(jù)分析算法庫構(gòu)建
大數(shù)據(jù)時(shí)代的核心價(jià)值就是數(shù)據(jù)分析,水利大數(shù)據(jù)分析平臺(tái)是憑借主流大數(shù)據(jù)分析工具的支撐,形成以多元數(shù)據(jù)為核心的智能水利業(yè)務(wù),通過挖掘數(shù)據(jù)的內(nèi)在聯(lián)系與核心價(jià)值,實(shí)現(xiàn)對(duì)企業(yè)、工業(yè)、農(nóng)業(yè)、居民生活等各項(xiàng)生態(tài)環(huán)境數(shù)據(jù)的預(yù)測。
水利大數(shù)據(jù)分析算法庫內(nèi)置常用的大數(shù)據(jù)分析模型和算法,包括:分類決策樹算法、聚類分析決策算法、回歸分析算法、最大期望算法、分類與回歸算法、對(duì)迭代算法、最鄰近分類算法、決策樹模型算法等等,并支持自定義算法擴(kuò)展,對(duì)算法和模型提供技術(shù)支撐。
3.4 數(shù)據(jù)業(yè)務(wù)平臺(tái)構(gòu)建
數(shù)據(jù)業(yè)務(wù)平臺(tái)是依托數(shù)據(jù)采集平臺(tái)、數(shù)據(jù)模型及分析算法庫,最終形成水利大數(shù)據(jù)的業(yè)務(wù)平臺(tái),實(shí)現(xiàn)智慧水資源的合理利用,并產(chǎn)生對(duì)應(yīng)的輔助決策價(jià)值。
例如,利用各行業(yè)取用水?dāng)?shù)據(jù),通過大數(shù)據(jù)分析及建模分析,形成對(duì)比各行業(yè)歷年的取水情況、真實(shí)用水情況以及同產(chǎn)能、同行業(yè)的用水情況對(duì)比,形成對(duì)全省各行各業(yè)用水情況的綜合分析圖。
通過水利大數(shù)據(jù)分析平臺(tái),結(jié)合氣象、生態(tài)環(huán)境、工商等其他多元輔助數(shù)據(jù),形成水利數(shù)據(jù)智能決策中心,充分挖掘數(shù)據(jù)價(jià)值,進(jìn)行行業(yè)預(yù)測分析,如圖2所示。
4 結(jié)語
大數(shù)據(jù)作為21世紀(jì)信息時(shí)代最突出的特點(diǎn),不僅加強(qiáng)了行業(yè)間的聯(lián)系,更改變了人們看待物理世界的方式。未來,隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,水利大數(shù)據(jù)平臺(tái)的數(shù)據(jù)構(gòu)成將會(huì)越來越多元化,數(shù)據(jù)間、行業(yè)間的聯(lián)系也將會(huì)越來越緊密,水利也會(huì)更好地服務(wù)于人類社會(huì)。
參考文獻(xiàn):
[1]夏軍.生命之源 生產(chǎn)之要 生態(tài)之基——學(xué)習(xí)2011年中央一號(hào)文件有感[J].資源環(huán)境與發(fā)展,2011(1):3-5.
[2]Naimi A I,Westreich D J. Big Data:A Revolution That Will Transform How We Live,Work,and Think[M]. 2013.
[3]柴立,解建倉,姜仁貴,等.區(qū)域水資源監(jiān)控三維可視化仿真平臺(tái)研究[J].西安理工大學(xué)學(xué)報(bào),2016,32(3):271-277.
[4]周浩,田文英,張洵.遼寧省水資源監(jiān)控管理信息平臺(tái)功能與構(gòu)建[J].水資源開發(fā)與管理,2016(4).
[5]姜小俊,虞開森,金宣辰.浙江水資源監(jiān)測大數(shù)據(jù)應(yīng)用示范工程設(shè)想[J].水利信息化,2017(4).
[6]陳華,徐堅(jiān),肖志遠(yuǎn),等.水文大數(shù)據(jù)共享平臺(tái)研究與設(shè)計(jì)[J]. 水資源研究,2018(1):10-18.
[7]Lecun Y,Bengio Y,Hinton G. Deep learning.[J]. Nature,2015,521(7553):436.
[8]Pappa G L,F(xiàn)reitas A. Automating the Design of Data Mining Algorithms[M]. 2010.
[9]Matebu A,Kitaw D . 6. Data Quality Management[M]// Master Data Management in Practice:Achieving True Customer MDM. John Wiley & Sons,Inc. 2012.
[10]Cretella G,Martino B D. A semantic engine for porting applications to the cloud and among clouds[M]. 2015.
Research on Diversified Big Data Platform Based on Water Resources Monitoring
Zhao Fang1,Hua Dong 2,3,Tian Zhisheng 1,Tang Keyin 1,Zhang Chen 1
(1. Shandong Provincial Institute of Water Resources Survey and Design,Jinan 250014 China;
2. Information Center of the Ministry of Water Resources of? China,Beijing,100032,China;
3. National Water Resources Monitoring Capacity Building Project Office China,Beijing,100032,China)
Abstract:This paper introduces industry data such as environmental protection,agriculture,land,meteorology,industry and commerce,and explores the construction methods of big data platforms under multiple data. The article first discusses the research status and shortcomings of the big data platform,then expounds the construction goals and platform architecture of the multi-big data platform,and finally discusses the key technologies of the platform construction.
Key words:Multivariate data,Water resources monitoring,Algorithm model,Big data platform
收稿日期:2020-04-09
作者簡介:趙芳,女,山東省水利勘測設(shè)計(jì)院,E-mail:wenbo.fu@qq.com