国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向海洋氣象的數(shù)據(jù)匯聚平臺(tái)

2019-11-01 10:08:58謝志敏1爽2張彤彤
關(guān)鍵詞:爬蟲氣象海洋

謝志敏1,宋 爽2,張彤彤,李 翀

1.海軍軍事海洋環(huán)境建設(shè)辦公室,北京 100081

2.軍事科學(xué)院,北京 100091

3.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190

引言

中國(guó)是一個(gè)海洋大國(guó),海洋是中國(guó)實(shí)現(xiàn)可持續(xù)發(fā)展的重要空間和資源保障。得益于遙感、航天技術(shù)的快速發(fā)展和應(yīng)用普及,我國(guó)海洋事業(yè)總體上進(jìn)入了歷史上最好的發(fā)展時(shí)期。海洋氣象學(xué)是研究海上大氣物理特征和動(dòng)力特征、以及海洋與大氣相互作用規(guī)律的學(xué)科,涉及的內(nèi)容涵蓋海洋、大氣、它們之間的相互作用,以及它們與邊緣海岸帶的相互影響等多種復(fù)雜領(lǐng)域,是多學(xué)科結(jié)合領(lǐng)域[1]。海洋氣象數(shù)據(jù)來源眾多,沿海地區(qū)和近海的氣象復(fù)雜多變,環(huán)境多有不同,經(jīng)常發(fā)生海洋氣象災(zāi)害,如大風(fēng)、暴雨、大霧和海上強(qiáng)對(duì)流天氣等[2]。目前我國(guó)針對(duì)海洋相關(guān)水文、天氣、海岸帶等方面已建成大量基礎(chǔ)設(shè)施,通過不同類型的海面氣象傳感器 (溫度、氣壓、濕度、風(fēng)、能見度、雨量等)和水文傳感器 (水溫、潮位等) 來獲取海洋、氣象、水文信息[3],采集了大量海洋氣象數(shù)據(jù),數(shù)據(jù)總量早已超過TB級(jí),區(qū)別于陸上氣象,這些數(shù)據(jù)包括云、有效水平能見度、最小水平能見度、天氣現(xiàn)象、風(fēng)、氣壓、水汽壓、海面空氣溫度、相對(duì)濕度和降雨量等[4],這些數(shù)據(jù)來自于不同的部門和系統(tǒng),且數(shù)據(jù)格式各異、質(zhì)量不齊,尚未一個(gè)形成全面的、多維度的、滿足多種需求的面向海洋氣象大數(shù)據(jù)平臺(tái)。

海洋氣象數(shù)據(jù)在防災(zāi)減災(zāi)、應(yīng)對(duì)氣候變化、國(guó)民經(jīng)濟(jì)建設(shè)、科學(xué)研究、軍事國(guó)防等方面都具有重要的作用,滿足不同階段、不同用戶的功能需求,建設(shè)能夠高效存儲(chǔ)具有以上特點(diǎn)的海洋氣象水文數(shù)據(jù)的存儲(chǔ)中心,為海洋氣象動(dòng)態(tài)監(jiān)管、氣象預(yù)測(cè)、水文分析、環(huán)境保護(hù)、生態(tài)建設(shè)等應(yīng)用場(chǎng)景提供數(shù)據(jù)基礎(chǔ)和決策依據(jù),擴(kuò)展海洋氣象水文數(shù)據(jù)使用場(chǎng)景,挖掘相關(guān)數(shù)據(jù)深層價(jià)值,提高技術(shù)投入產(chǎn)出效益等方面具有重要意義,也是當(dāng)前海洋事業(yè)數(shù)字化、信息化進(jìn)程的研究熱點(diǎn)。

基于以上分析,本文通過研究相關(guān)氣象、水文大數(shù)據(jù)匯聚分析研究現(xiàn)狀,聚焦海洋氣象大數(shù)據(jù)的采集、匯聚、治理和管理需求,采用網(wǎng)絡(luò)爬蟲技術(shù)對(duì)各公開數(shù)據(jù)集、氣象水文數(shù)據(jù)站進(jìn)行定向數(shù)據(jù)爬取,并使用數(shù)據(jù)庫(kù)、ETL[5]等技術(shù)對(duì)來源于業(yè)務(wù)系統(tǒng)、網(wǎng)絡(luò)、海洋基站等多源數(shù)據(jù)進(jìn)行清洗、匯聚、融合,構(gòu)建海洋大數(shù)據(jù)匯聚存儲(chǔ)中心,并對(duì)數(shù)據(jù)進(jìn)行一系列轉(zhuǎn)換、清洗、治理,為高效利用海洋數(shù)據(jù)進(jìn)行各業(yè)務(wù)領(lǐng)域的輔助決策提供數(shù)據(jù)基礎(chǔ)。

1 研究現(xiàn)狀及相關(guān)工作

海洋是連接世界各大洲的水域,海上航行是世界性、國(guó)際間的經(jīng)濟(jì)活動(dòng)與人文交流,而海洋氣象管理是海上活動(dòng)的保障與基礎(chǔ),需要國(guó)際合作和資源共享[1]。目前在世界范圍內(nèi)建有多個(gè)海洋數(shù)據(jù)和服務(wù)系統(tǒng)[1,5],如

(1) 世界氣象組織 (WMO,World Meteorological Organization) 信息系統(tǒng),提供來自WMO和相關(guān)國(guó)際項(xiàng)目與計(jì)劃的全球共享數(shù)據(jù);

(2) 海洋數(shù)據(jù)門戶網(wǎng)站 (IOC/IODE/ODP),海洋資料來自美國(guó)國(guó)家海洋資料中心(http://www.oceandataportal.org/);

(3) 海洋數(shù)據(jù)網(wǎng) (http://www.seadatanet.org),是歐盟資助項(xiàng)目,旨在創(chuàng)建和運(yùn)營(yíng)泛歐海洋數(shù)據(jù)管理基礎(chǔ)設(shè)施;

(4) 海洋氣候資料系統(tǒng),提供來自 JCOMM(The Joint WMO/IOC Technicaal Commission for Oceanography and Marine Meteorology,海洋學(xué)和海洋氣象學(xué)聯(lián)合技術(shù)委員會(huì)) 組織的各項(xiàng)調(diào)查活動(dòng)所獲取的多種海洋氣象數(shù)據(jù);

世界各國(guó)均將海洋資料的獲取、管理作為自身海洋事業(yè)發(fā)展的重要戰(zhàn)略組成,海洋數(shù)據(jù)獲取手段在由傳統(tǒng)手段逐漸向應(yīng)用高新技術(shù)轉(zhuǎn)變,信息獲取途徑由點(diǎn)及面,從特定用途一次性獲取到全時(shí)段、全方位持續(xù)監(jiān)測(cè)采集,從單一要素研究調(diào)查到融合多學(xué)科集成分析,海洋數(shù)據(jù)越發(fā)多樣,其蘊(yùn)含的價(jià)值也成倍增加,海洋數(shù)據(jù)的管理與使用已進(jìn)入大規(guī)模數(shù)據(jù)、集成應(yīng)用時(shí)代。同時(shí)世界范圍內(nèi)海洋戰(zhàn)略資源的爭(zhēng)奪愈演愈烈,海洋信息科技更為先進(jìn)、掌握更多數(shù)據(jù)的國(guó)家均逐步減少了開放數(shù)據(jù)的數(shù)量并降低了數(shù)據(jù)精度,免費(fèi)可用的海洋數(shù)據(jù)逐步減少[7]。

我國(guó)經(jīng)過長(zhǎng)期的海洋調(diào)查、觀測(cè)、檢測(cè)、專項(xiàng)調(diào)查、衛(wèi)星遙感、其他各專項(xiàng)調(diào)查資料,以及國(guó)際交換資料等方式,已經(jīng)累積了海量的海洋信息數(shù)據(jù),在海洋相關(guān)的各領(lǐng)域內(nèi)發(fā)揮著重要作用。海洋資料的收集力度和管理水平也在不斷提升,各科研院所及單位已建立包括海洋信息綜合數(shù)據(jù)庫(kù)、海洋大數(shù)據(jù)中心、海洋科學(xué)數(shù)據(jù)共享平臺(tái)在內(nèi)的各類海洋數(shù)據(jù)載體,提供多用途面向全國(guó)、全社會(huì)乃至全球的共享服務(wù),海洋大數(shù)據(jù)共享應(yīng)用愈發(fā)成熟,海洋數(shù)據(jù)的治理使用也愈發(fā)精準(zhǔn)快速。

另外海洋資源豐富、儲(chǔ)量巨大,海洋信息涵蓋了海洋環(huán)境、海洋資源、海洋開發(fā)等其他與海洋有關(guān)的科學(xué)數(shù)據(jù),如海底地形數(shù)據(jù)、海洋遙感資料、船測(cè)數(shù)據(jù)、浮標(biāo)資料等數(shù)據(jù),這些數(shù)據(jù)具有海量性、多類性、模糊性等特點(diǎn)[8]。因此海洋資料的管理難度大、時(shí)間跨度長(zhǎng),數(shù)據(jù)整合質(zhì)量關(guān)系到數(shù)據(jù)匯聚后可采用的方式方法和實(shí)際應(yīng)用效果。由于海洋資料交匯機(jī)制以及種種客觀因素,海洋數(shù)據(jù)整合效果欠佳,目前在海洋信息領(lǐng)域仍然存在大量“信息孤島”,系統(tǒng)分散、數(shù)據(jù)獨(dú)立是普遍現(xiàn)象。標(biāo)準(zhǔn)各異、結(jié)構(gòu)多樣的海洋信息數(shù)據(jù)與實(shí)際應(yīng)用所需存在脫節(jié)。海洋數(shù)據(jù)的敏感性,包括其復(fù)雜性在內(nèi)的特點(diǎn)使其在應(yīng)用大數(shù)據(jù)、云計(jì)算等技術(shù)時(shí)存在諸多限制,對(duì)大量原始數(shù)據(jù)進(jìn)行匯聚整合成為亟待解決的問題。此外采取自主手段多方位、全面獲取海洋數(shù)據(jù)是擴(kuò)充海洋信息資源的必要方法,可以利用國(guó)內(nèi)外公開的海洋、氣象、水文數(shù)據(jù),及時(shí)高效多維度補(bǔ)充數(shù)據(jù),拓寬數(shù)據(jù)多樣性,使海洋大數(shù)據(jù)能夠更加全面、權(quán)威。

2 技術(shù)介紹

2.1 數(shù)據(jù)融合技術(shù)

ETL,是英文 Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取 (extract)、轉(zhuǎn)換(transform)、加載 (load) 至目的端的過程。ETL 技術(shù)常用在數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)過程,但其數(shù)據(jù)處理技術(shù)并不限于數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用,ETL 技術(shù)適合任何需要數(shù)據(jù)整合的場(chǎng)景,即任何從一個(gè)或多個(gè)數(shù)據(jù)源抽取數(shù)據(jù),經(jīng)過一定的轉(zhuǎn)換處理加載到目標(biāo)環(huán)境的場(chǎng)景,包括數(shù)據(jù)庫(kù)之間、數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)之間、數(shù)據(jù)倉(cāng)庫(kù)之間、文件系統(tǒng)之間等。

目前比較流行的ETL 工具分為兩大類,一類是商業(yè) ETL 工具,如 Oracle 公司的ODI (Oracle DataIntegrator)、Informatic 公司的Informatica、IBM的DataStage和微軟公司的SSIS;另一類是開源的ETL 工具,比如Jaspersoft ETL Talend和Pentaho Kettle[10]。開源 ETL 工具的擴(kuò)展性是商業(yè)軟件沒有的,使用開源 ETL 工具可以按需進(jìn)行二次開發(fā),另外由于投入產(chǎn)出效率的要求,開源ETL工具在中小型企業(yè)的項(xiàng)目開發(fā)中得到更廣泛的使用。本文對(duì)于常用的開源 ETL 工具進(jìn)行了對(duì)比分析

經(jīng)過以上分析,本文使用數(shù)據(jù)處理更加高效穩(wěn)定的Kettle 作為ETL 工具,對(duì)海洋信息數(shù)據(jù)進(jìn)行按需整合。

表1 Talend 對(duì)比 KettleTable1 Talend vs Kettle

2.2 開源爬蟲技術(shù)

海洋數(shù)據(jù)獲取包括多種途徑,如衛(wèi)星遙感、監(jiān)測(cè)基站、調(diào)查資料等等,另外通過網(wǎng)絡(luò)爬蟲技術(shù)從國(guó)內(nèi)外相關(guān)網(wǎng)站爬取數(shù)據(jù)也是獲取海洋信息數(shù)據(jù)的重要途徑。世界上已經(jīng)成型的爬蟲軟件多達(dá)上百種,只需對(duì)這些爬蟲進(jìn)行適當(dāng)?shù)母倪M(jìn)就可以滿足項(xiàng)目需求,更可以依據(jù)需求開發(fā)定向爬取工具[9]。按照開發(fā)語(yǔ)言區(qū)分,目前較為成熟的開源爬蟲軟件主要分為Java 類和python 類,如表2所示,

Nutch屬于分布式爬蟲,Web Magic,WebCollector,Heritrix3,Crawler4j,Scrapy 屬于單機(jī)爬蟲。Nutch在爬取搜索引擎數(shù)據(jù)時(shí)最為常用,并不適合本文場(chǎng)景,另外本文開發(fā)背景中主要開發(fā)語(yǔ)言為Java,從以上單機(jī)爬蟲中選取了 Crawler4j 作為網(wǎng)絡(luò)海洋氣象水文數(shù)據(jù)爬取工具。Crawler4j 爬蟲最大的特點(diǎn)就是簡(jiǎn)單易用,只需繼承指定的類就可以實(shí)現(xiàn)自己的爬蟲類,通過覆蓋函數(shù)實(shí)現(xiàn)網(wǎng)頁(yè)解析和內(nèi)容抓取,支持設(shè)置爬取深度、二進(jìn)制內(nèi)容抓取、設(shè)置代理服務(wù)器、圖像爬取、將爬取內(nèi)容保存到 JDBC 驅(qū)動(dòng)連接的數(shù)據(jù)庫(kù)等等功能。

3 系統(tǒng)設(shè)計(jì)

3.1 總體設(shè)計(jì)

系統(tǒng)的總體功能是進(jìn)行海洋氣象水文數(shù)據(jù)獲取和互聯(lián)網(wǎng)相關(guān)數(shù)據(jù)采集、匯聚交換到海洋氣象數(shù)據(jù)庫(kù)中,并通過一系列數(shù)據(jù)處理技術(shù)對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的檢驗(yàn)和治理,處理后的數(shù)據(jù)另外存儲(chǔ)到分布式數(shù)據(jù)庫(kù)中,對(duì)外提供統(tǒng)一的數(shù)據(jù)格式和接口。系統(tǒng)原理如圖1所示。

數(shù)據(jù)采集、匯集、治理、監(jiān)控功能采用B/S架構(gòu)設(shè)計(jì)完成,后端使用SpringMVC 框架,融合Crawler4j 網(wǎng)絡(luò)爬蟲技術(shù)及 Kettle 進(jìn)行數(shù)據(jù)獲取和整合,前端基于Angular4.0 框架和PrimeNG 組件庫(kù),實(shí)現(xiàn)前后端分離的系統(tǒng)架構(gòu)。

相對(duì) C/S 架構(gòu),采用B/S架構(gòu)易于維護(hù)和升級(jí)、安全性高、擴(kuò)展性強(qiáng)。系統(tǒng)通過瀏覽器與SpringMVC交互,SpringMVC 控制 Kettle中作業(yè)、轉(zhuǎn)換的布置與執(zhí)行,同時(shí)對(duì)作業(yè)轉(zhuǎn)換執(zhí)行進(jìn)行監(jiān)控管理,并通過數(shù)據(jù)庫(kù)獲取原始數(shù)據(jù)、Kettle 作業(yè)執(zhí)行結(jié)果、系統(tǒng)用戶和站點(diǎn)管理信息等,整合后的數(shù)據(jù)按照不同類型分別存入 MySQL 數(shù)據(jù)庫(kù)和MongoDB 數(shù)據(jù)庫(kù)中,數(shù)據(jù)處理流程如圖2所示。

系統(tǒng)不僅需要采集網(wǎng)絡(luò)海洋氣象數(shù)據(jù),也需要對(duì)接現(xiàn)有的氣象水文數(shù)據(jù)信息管理系統(tǒng),以及部分以離線文件形式存在的信息源。對(duì)于生產(chǎn)系統(tǒng)中的數(shù)據(jù)獲取,通過設(shè)置前置機(jī)實(shí)現(xiàn)生產(chǎn)系統(tǒng)與數(shù)據(jù)匯聚中心的隔離,如此間接交互有利于保證各系統(tǒng)的安全穩(wěn)定運(yùn)行。存入前置機(jī)的小部分干凈數(shù)據(jù)可直接使用,小部分結(jié)構(gòu)化數(shù)據(jù)可以通過 SQL 語(yǔ)句完成數(shù)據(jù)的一次性轉(zhuǎn)換,絕大部分實(shí)時(shí)更新的數(shù)據(jù)仍要經(jīng)過 ETL 子系統(tǒng)的長(zhǎng)期整合,處理后的數(shù)據(jù)存入數(shù)據(jù)庫(kù)集群中,供前端使用或其他數(shù)據(jù)分析場(chǎng)景調(diào)用。

3.2 詳細(xì)設(shè)計(jì)

1.數(shù)據(jù)整合模塊

圖1 系統(tǒng)原理Fig.1 The system principle diagram

表2 開源爬蟲分類Table2 Types of open-source crawler

圖2 系統(tǒng)數(shù)據(jù)處理流程Fig.2 System data processing flowchart

系統(tǒng)中數(shù)據(jù)整合部分通過 ETL 子系統(tǒng)實(shí)現(xiàn),子系統(tǒng)采用Kettle 集群構(gòu)建,支持多種關(guān)系型數(shù)據(jù)庫(kù)作為數(shù)據(jù)源,如 Oracle、MySQL、DB2、SQL Server等,可以通過任務(wù)調(diào)度的方式來定時(shí)的獲取相關(guān)的數(shù)據(jù)。子系統(tǒng)通過 Kettle中的兩種主要腳本 job和transformation 設(shè)計(jì)數(shù)據(jù)處理流程,其核心是SQL 語(yǔ)句嵌入,通過在流程中融合 SQL 模板完成復(fù)雜的數(shù)據(jù)流處理,提供數(shù)據(jù)清洗、加密、去重、去漏等數(shù)據(jù)治理功能,另外結(jié)合 Kettle中的Carte 組件進(jìn)行任務(wù)監(jiān)控和異常告警,以獲取任務(wù)執(zhí)行狀態(tài)、處理異常情況。

2.離線文件上傳

離線數(shù)據(jù)通過文件的形式上傳到數(shù)據(jù)匯聚存儲(chǔ)中心,可以支持 Excel、XML 以及 CSV 等多種文件格式。主要提供兩種上傳入口:

(1) 通過登錄數(shù)據(jù)采集模塊的WEB 界面,進(jìn)行WEB 界面直接上傳相關(guān)數(shù)據(jù)。

(2) 通過搭建的FTP 服務(wù),將所需要上傳的資料通過 FTP 上傳到前置庫(kù)中。

數(shù)據(jù)離線匯聚支持大附件上傳、批量上傳、斷點(diǎn)續(xù)傳等功能,同時(shí)能夠保障數(shù)據(jù)的傳輸速度和傳輸質(zhì)量。

3.網(wǎng)絡(luò)數(shù)據(jù)采集

互聯(lián)網(wǎng)數(shù)據(jù)采集通過建立一個(gè)可靠準(zhǔn)確高效的定向采集系統(tǒng),從指定網(wǎng)站獲取指定的數(shù)據(jù)資源。網(wǎng)頁(yè)數(shù)據(jù)采集需要經(jīng)過構(gòu)造采集模板、配置采集參數(shù)、登錄授權(quán)、URL 去重、HTML 解析和分頁(yè)數(shù)據(jù)采集等步驟來完成,主要通過模擬訪問、Crawler4j 抓取互聯(lián)網(wǎng)的數(shù)據(jù),存儲(chǔ)到數(shù)據(jù)匯聚存儲(chǔ)中心。另外需要設(shè)計(jì)實(shí)現(xiàn)站點(diǎn)管理、模板管理、定時(shí)計(jì)劃、采集規(guī)則、數(shù)據(jù)類型管理等功能用以高效采集和管理。

4.數(shù)據(jù)匯聚存儲(chǔ)

數(shù)據(jù)經(jīng)過整合重新匯聚到系統(tǒng)中,關(guān)系型數(shù)據(jù)存儲(chǔ)在不同節(jié)點(diǎn)的關(guān)系型數(shù)據(jù)庫(kù)中,文件類型則根據(jù)配置信息和策略,選擇不同的存儲(chǔ)位置和方式,在此過程中,要記錄數(shù)據(jù)的來源、獲取時(shí)間、此次交換的數(shù)據(jù)量等信息,進(jìn)行數(shù)據(jù)留痕的工作。這些過程都在運(yùn)維監(jiān)控模塊下進(jìn)行,系統(tǒng)可以記錄過程中發(fā)生的問題,并及時(shí)進(jìn)行報(bào)警提示,便于及時(shí)處理過程中發(fā)生的問題,保證存儲(chǔ)過程的順利進(jìn)行。對(duì)采集匯總的數(shù)據(jù),要進(jìn)行相應(yīng)的管理,包括元數(shù)據(jù)管理、目錄管理、數(shù)據(jù)資源維護(hù)管理。

5.運(yùn)維監(jiān)控

監(jiān)控功能是對(duì)數(shù)據(jù)獲取、治理、匯聚工作進(jìn)行監(jiān)控管理,以保證系統(tǒng)各個(gè)功能正常運(yùn)行。在海洋氣象信息管理系統(tǒng)數(shù)據(jù)采集過程中,對(duì)采集過程進(jìn)行監(jiān)控,實(shí)現(xiàn)數(shù)據(jù)采集的全流程監(jiān)督,同時(shí)提供采集異常處理機(jī)制,如采集任務(wù)中斷、采集數(shù)據(jù)失敗等相關(guān)異常現(xiàn)象時(shí),實(shí)現(xiàn)相關(guān)的補(bǔ)采,或通過告警的方式通知系統(tǒng)用戶等。數(shù)據(jù)采集過程的日志推送到系統(tǒng)運(yùn)營(yíng)管理平臺(tái)、報(bào)錯(cuò)推送到數(shù)據(jù)提供部門的代辦事宜。

4 系統(tǒng)實(shí)現(xiàn)

4.1 數(shù)據(jù)抽取實(shí)現(xiàn)

數(shù)據(jù)抽取是實(shí)現(xiàn)數(shù)據(jù)治理、匯聚的前提,且抽取效率影響平臺(tái)整體實(shí)現(xiàn)效果。海洋氣象管理系統(tǒng)全天候不停歇運(yùn)轉(zhuǎn),對(duì)于數(shù)據(jù)量較大的表,無法全量抽取,只能增量抽取,而如何判斷哪些數(shù)據(jù)是增量是一個(gè)難點(diǎn)問題。主流的方法包括:時(shí)間戳、ORACLE的CDC、以及數(shù)據(jù)備份日志等。本文通過時(shí)間戳判斷增量數(shù)據(jù),設(shè)計(jì)并實(shí)現(xiàn)數(shù)據(jù)增量抽取的Kettle 作業(yè)及轉(zhuǎn)換,采用三個(gè)表來記錄數(shù)據(jù)源信息、表名信息、最后同步時(shí)間信息,三個(gè)表具體字段如表3、4、5所示。

通過一個(gè)主作業(yè)定時(shí)執(zhí)行同步過程,作業(yè)中包含三個(gè)子轉(zhuǎn)換,主作業(yè)如圖3所示,主作業(yè)按照上述三個(gè)表對(duì)應(yīng)的字段信息循環(huán)執(zhí)行各表增量同步,每個(gè)表增量同步都需要獲取各項(xiàng)參數(shù),參數(shù)獲取如圖4所示。

4.2 頁(yè)面開發(fā)實(shí)現(xiàn)

系統(tǒng)前端采用PrimeNG 組件庫(kù)開發(fā),具有完善的從數(shù)據(jù)獲取到治理到存儲(chǔ)入庫(kù)功能,系統(tǒng)主界面如圖5所示。

表3 數(shù)據(jù)源連接表Table3 Data source association info table

表4 數(shù)據(jù)源表信息表Table4 Data source information table

表5 同步時(shí)間信息表Table5 Synchronization time information table

圖3 增量同步主作業(yè)Fig.3 Increment synchronization main task

系統(tǒng)功能分為三大模塊:采集管理、匯聚交換、數(shù)據(jù)治理,各模塊分別完成上一小節(jié)詳細(xì)設(shè)計(jì)所述功能,另外對(duì)系統(tǒng)各功能執(zhí)行進(jìn)度進(jìn)行匯總展示,

篇幅所限,僅就系統(tǒng)各模塊中的部分功能進(jìn)行展示。網(wǎng)頁(yè)數(shù)據(jù)采集功能如所圖6所示,配合站點(diǎn)管理、數(shù)據(jù)類型管理、采集規(guī)則管理、代理服務(wù)器管理等功能,配置采集參數(shù),新建采集任務(wù)。采集模塊還包括任務(wù)調(diào)度管理、任務(wù)列表查看等功能,可以查看所有采集任務(wù)的執(zhí)行狀態(tài),完成的訂單數(shù)量,并控制其啟停。文件保留設(shè)置則可以在存儲(chǔ)到期后進(jìn)行自動(dòng)刪除,防止人工操作遺漏,高效利用存儲(chǔ)空間。

數(shù)據(jù)治理包括去重、去漏、脫敏以及數(shù)據(jù)加密功能。去重為對(duì)包含重復(fù)字段的數(shù)據(jù)進(jìn)行處理,去漏為查證和補(bǔ)充包含空值的字段;對(duì)一些較為敏感數(shù)據(jù),可以直接供分析計(jì)算使用,但是具體數(shù)據(jù)查詢或者瀏覽的時(shí)候,需要脫敏處理,如替換部分?jǐn)?shù)據(jù)為***;對(duì)于一些非常重要敏感的數(shù)據(jù)需要進(jìn)行加密存儲(chǔ),加密功能可以提供多種加密算法,需要計(jì)算或者使用數(shù)據(jù)時(shí)進(jìn)行解密即可。

圖4 單表增量同步參數(shù)注入Fig.4 Single table incremental synchronous-parameter injection

圖5 系統(tǒng)主界面Fig.5 Main interface of system

圖6 互聯(lián)網(wǎng)數(shù)據(jù)采集Fig.6 Internet data collection

圖7 數(shù)據(jù)去重Fig.7 Data deduplication

圖7為數(shù)據(jù)去重功能。對(duì)每一個(gè)數(shù)據(jù)集,可以定義多個(gè)字段的組合,當(dāng)這些字段的值相同的時(shí)候,可以判斷為數(shù)據(jù)重復(fù),通過用戶自定義規(guī)則將多余的數(shù)據(jù)刪除或者修改其中的某些數(shù)據(jù)的值,提高數(shù)據(jù)的質(zhì)量。

5 結(jié)束語(yǔ)

本文基于海洋氣象信息化研究現(xiàn)狀,設(shè)計(jì)了海洋氣象大數(shù)據(jù)匯聚平臺(tái),支持多途徑數(shù)據(jù)獲取,包括互聯(lián)網(wǎng)海洋氣象數(shù)據(jù)采集、海洋信息管理業(yè)務(wù)系統(tǒng)數(shù)據(jù)接入以及以文件形式存儲(chǔ)的大量數(shù)據(jù)導(dǎo)入,對(duì)來源眾多、結(jié)構(gòu)各異的數(shù)據(jù)進(jìn)行數(shù)據(jù)統(tǒng)一治理,根據(jù)數(shù)據(jù)類型不同分別存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)和Nosql數(shù)據(jù)庫(kù)中,并對(duì)數(shù)據(jù)處理全生命周期進(jìn)行監(jiān)控管理,針對(duì)開源ETL 工具設(shè)計(jì)實(shí)現(xiàn)了增量抽取邏輯復(fù)用,完成了海洋氣象水文等多源大數(shù)據(jù)匯聚整合,統(tǒng)一并標(biāo)準(zhǔn)化異構(gòu)數(shù)據(jù),為后續(xù)進(jìn)一步挖掘分析打下了堅(jiān)實(shí)基礎(chǔ)。

猜你喜歡
爬蟲氣象海洋
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
氣象樹
《內(nèi)蒙古氣象》征稿簡(jiǎn)則
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
氣象戰(zhàn)士之歌
心聲歌刊(2019年5期)2020-01-19 01:52:52
海洋的路
大國(guó)氣象
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
愛的海洋
琴童(2017年7期)2017-07-31 18:33:48
第一章 向海洋出發(fā)
连平县| 都昌县| 镇康县| 太白县| 华蓥市| 扬州市| 宁强县| 韶关市| 建湖县| 永顺县| 旅游| 高唐县| 湟中县| 淮阳县| 遵义县| 云和县| 沁阳市| 错那县| 墨江| 福贡县| SHOW| 车致| 青龙| 龙里县| 浦北县| 巩义市| 绍兴市| 孟村| 安岳县| 荥阳市| 特克斯县| 页游| 兴业县| 贡山| 启东市| 中江县| 房产| 新余市| 醴陵市| 惠东县| 洪湖市|