張達剛,陳海寧,陳 華,張光怡
1(北京恒輝信達技術有限公司,北京 100045)
2(北京市環(huán)保局,北京 100048)
近年來,國家高度重視大數(shù)據(jù)在推進生態(tài)文明建設中的地位和作用,各區(qū)域各行業(yè)都在努力貫徹落實加強生態(tài)環(huán)境大數(shù)據(jù)綜合應用和集成分析的策略要求,環(huán)保部門也希望借助新的技術解決新的數(shù)據(jù)問題,為生態(tài)環(huán)境保護科學決策提供有力支撐[1].通過研究發(fā)現(xiàn),環(huán)境監(jiān)測數(shù)據(jù)符合大數(shù)據(jù)的容量大、種類多、增長速度快、價值大的特征,通過傳統(tǒng)的數(shù)據(jù)處理方法獲取其中有用數(shù)據(jù),難以滿足業(yè)務的發(fā)展需求.本文通過對相關技術及方案的探討,為深度挖掘環(huán)評監(jiān)測數(shù)據(jù)的業(yè)務價值提供支撐.
根據(jù)北京市環(huán)境保護局發(fā)布的《建設項目環(huán)境影響評價分類管理名錄》,環(huán)境影響分類從A 類(水利)、B 類(農(nóng)、林、牧、漁、海洋)一直到W 類(核與輻射),共計23 個大類,199 個子類.每個子類具有多種不同監(jiān)測指標,代表著總數(shù)量大概幾千個評估維度.從對污染物監(jiān)測數(shù)據(jù)采樣數(shù)量看,例如《環(huán)境空氣質量標準》(GB3095-2012)列出的大氣主要污染物(二氧化硫、一氧化碳、顆粒物等),每一種的采樣頻度如果是10 分鐘,以每個監(jiān)測點一次1 KB(1024 字節(jié))的采樣數(shù)據(jù)為例,一年的數(shù)據(jù)大小是1 KB×7(污染物)×6(10 分鐘采樣周期)×24(一天小時數(shù))×365(一年天數(shù))=360 MB,保守估計京津冀地區(qū)10 萬個重點監(jiān)測企業(yè),假設每個企業(yè)的監(jiān)測點為100 個,大氣監(jiān)測一年的數(shù)據(jù)量為:360 MB×100 000×100=3.35 PB.如此多的維度和數(shù)據(jù)數(shù)量,以及對數(shù)據(jù)傳輸速度、存儲和提取速度等方面的實際要求,遠遠超出傳統(tǒng)數(shù)據(jù)管理和分析方法所能達到的限度,對超海量數(shù)據(jù)處理的多維度分析、性能優(yōu)化、彈性擴展等方面提出技術挑戰(zhàn).
通過對數(shù)據(jù)湖、彈性擴展、大規(guī)模并行處理、流處理、機器學習等技術的研究,應對環(huán)境評估大數(shù)據(jù)需求,我們設計環(huán)境評估業(yè)務的數(shù)據(jù)管理平臺,實現(xiàn)適用的數(shù)據(jù)資源傳輸交換、存儲管理和分析處理功能,為環(huán)境評估業(yè)務應用提供統(tǒng)一的數(shù)據(jù)支撐服務.經(jīng)過前期調(diào)研分析,我們利用基礎關系型數(shù)據(jù)庫、分析型數(shù)據(jù)庫以及Hadoop 平臺的部分組件搭建了NoSQL和SQL 集成一體的環(huán)評文件數(shù)據(jù)提取系統(tǒng),通過較為簡單的數(shù)據(jù)建模,初步驗證了大數(shù)據(jù)技術平臺的能力,包括能夠實現(xiàn)數(shù)據(jù)傳輸交換、管理監(jiān)控、共享開放、分析挖掘等基本功能,支撐分布式計算、流式數(shù)據(jù)處理、大數(shù)據(jù)關聯(lián)分析、趨勢分析、空間分析,支撐大數(shù)據(jù)產(chǎn)品研發(fā)和應用等,這些為后續(xù)付諸實用的環(huán)境評估大數(shù)據(jù)管理平臺,做出相應的初步驗證.
環(huán)保監(jiān)測與評估的數(shù)據(jù)分析維度眾多,而且數(shù)據(jù)量日益增長,造成歷史數(shù)據(jù)需要壓縮保存,部分數(shù)據(jù)需要定期清空以回收資源,另外,不同維度的數(shù)據(jù)如大氣、土壤、水質等數(shù)據(jù)需要分庫分路徑保管,這些對存儲和計算資源提出了彈性擴展、回收重用的重要需求.
彈性擴展指的是云應用本身的一種動態(tài)的擴展,也就是在云應用運行期間實現(xiàn)支撐云應用的虛擬機實例個數(shù)的動態(tài)增加或者減少[2].彈性擴展并不是簡單的資源復制,而是通過計算能力、存儲能力的調(diào)配以及配套的集群、安全管控等功能形成的完整的資源按需分配,可以在不改變平臺部署架構的情況下實現(xiàn)環(huán)保海量數(shù)據(jù)動態(tài)增容功能.
流式數(shù)據(jù)是大數(shù)據(jù)環(huán)境下的一種數(shù)據(jù)形態(tài),與靜態(tài)、批處理和持久化的數(shù)據(jù)庫處理相比,流式計算以連續(xù)、無邊界和瞬時性為特征,適合高速并發(fā)和大規(guī)模數(shù)據(jù)實時處理的場景[3].當前很多環(huán)境評估數(shù)據(jù),例如噪聲數(shù)據(jù),具有多源并發(fā)、瞬間發(fā)生、快速失效的特點,采用流處理技術就實時采集和處理瞬時數(shù)據(jù)的相關指標,從而解決環(huán)保監(jiān)測的實時性問題.
大數(shù)據(jù)環(huán)境下,流式數(shù)據(jù)作為一種新型的數(shù)據(jù)類型,是實時數(shù)據(jù)處理所面向的數(shù)據(jù)類型,其相關研究發(fā)展迅速.這種實時的流式數(shù)據(jù),存在如下幾個特征:
1)實時、高速:數(shù)據(jù)能以高并發(fā)的方式迅速到達,業(yè)務計算要求快速連續(xù)相應.數(shù)據(jù)處理的速度至少能夠匹配數(shù)據(jù)到達的速度.
2)無邊界:數(shù)據(jù)到達、處理和向后傳遞均是持續(xù)不斷的.
3)瞬時性和有限持久性:通常情況下,原始數(shù)據(jù)在掃描處理后丟棄,并不進行保存;只有計算結果和部分中間數(shù)據(jù)在有限時間內(nèi)被保存和向后傳遞.
4)價值的時間偏倚性:隨著時間的流逝,數(shù)據(jù)中所蘊含的知識價值往往也在衰減,也即流中數(shù)據(jù)項的重要程度是不同的,最近到達的數(shù)據(jù)往往比早先到達的數(shù)據(jù)更有價值.
數(shù)據(jù)湖是一種在系統(tǒng)或存儲庫中以自然格式存儲數(shù)據(jù)的方法,它有助于以各種模式和結構形式配置數(shù)據(jù).數(shù)據(jù)湖的主要思想是對企業(yè)中的所有數(shù)據(jù)進行統(tǒng)一存儲,從原始數(shù)據(jù)(這意味著源系統(tǒng)數(shù)據(jù)的精確副本)轉換為用于報告、可視化、分析和機器學習等各種任務的轉換數(shù)據(jù).湖中的數(shù)據(jù)包括結構化數(shù)據(jù)(行和列數(shù)據(jù))、半結構化數(shù)據(jù)(CSV、XML、JSON 的日志)、非結構化數(shù)據(jù)(電子郵件,文檔,PDF)和二進制數(shù)據(jù)(圖像、音頻、視頻)等.數(shù)據(jù)湖能夠形成一個集中式數(shù)據(jù)存儲,容納所有形式的數(shù)據(jù)[4].
源于數(shù)據(jù)倉庫概念的數(shù)據(jù)湖理論,更好地解決了數(shù)據(jù)倉庫和大數(shù)據(jù)處理技術表現(xiàn)出來的部分弊端,即能夠接收來自多種數(shù)據(jù)源的輸入,同時保留原始數(shù)據(jù)的真實性和數(shù)據(jù)傳輸狀態(tài),并滿足實時分析的需要,也能夠作為數(shù)據(jù)倉庫滿足批處理和數(shù)據(jù)挖掘的需要,從而滿足環(huán)保監(jiān)測與評估數(shù)據(jù)需要多種數(shù)據(jù)源的集成、不限制數(shù)據(jù)對象集合、保留數(shù)據(jù)精確度的處理要求,例如大氣污染和地域、氣象等等多種因素相關,只有通過數(shù)據(jù)湖進行數(shù)據(jù)融合才能進行有針對性的后續(xù)處理.
數(shù)據(jù)湖具有如下作用.
1)數(shù)據(jù)的集中存放管理:數(shù)據(jù)湖是平臺用于存放所有所需數(shù)據(jù)的地方,這些數(shù)據(jù)包括來自傳統(tǒng)數(shù)據(jù)庫的結構化數(shù)據(jù)和非結構化的文本數(shù)據(jù),包括企業(yè)內(nèi)部生成的數(shù)據(jù),外部數(shù)據(jù)以及服務數(shù)據(jù),也包括媒體數(shù)據(jù),傳感器采集數(shù)據(jù)和很多企業(yè)正在學習使用的遙測數(shù)據(jù).
2)強大的交叉分析平臺:數(shù)據(jù)湖可以看作是一個大數(shù)據(jù)分析平臺,不僅僅可以實現(xiàn)所有種類數(shù)據(jù)的存放,也可以用于數(shù)據(jù)分析,以及找到數(shù)據(jù)新的關聯(lián)性.許多商業(yè)分析中的突破并不是來源于數(shù)據(jù)的多少和分析的熟練程度,而是來源于能顯示出商業(yè)表現(xiàn)的數(shù)據(jù)新式組合.
3)為商業(yè)個體提供所需數(shù)據(jù)的最優(yōu)解:數(shù)據(jù)湖也同樣協(xié)調(diào)了商業(yè)個體真正需要的數(shù)據(jù)和企業(yè)經(jīng)常使用標準數(shù)據(jù)的不匹配問題,它是一種共享資源,不僅包含了精心管理的數(shù)據(jù),也提供了一個商業(yè)個體搜尋真正需要的數(shù)據(jù)組合的平臺.
大規(guī)模并行處理(MPP)系統(tǒng)由眾多松耦合處理單元組成,每個單元內(nèi)的處理器都有自己私有的資源,如總線、內(nèi)存、硬盤等,在每個單元內(nèi)都有操作系統(tǒng)和管理數(shù)據(jù)庫的實例副本,這種結構最大的特點是不共享資源[5].MPP 是將任務并行分散到多個服務器和存儲節(jié)點上,在每個節(jié)點上計算完成后,將各自部分的結果匯總在一起得到最終的結果.
隨著對環(huán)境評估時效性要求的提高,大量環(huán)境監(jiān)測采集數(shù)據(jù)需要得到快速處理,以便及時為決策和執(zhí)行提供依據(jù),因此,我們有必要采用大規(guī)模并行處理技術來加速海量數(shù)據(jù)的處理,其中主要使用到MPP 架構的數(shù)據(jù)庫.
機器學習技術包括數(shù)據(jù)存儲和模式設計、不同組件的模塊化、單獨架構每個獨立的可擴展組件、系統(tǒng)和性能測試,以及數(shù)據(jù)可視化等.典型的機器學習工作流包括,使用數(shù)據(jù)流處理技術讀取不同來源的數(shù)據(jù),使用SQL 過濾、聚合,并執(zhí)行數(shù)據(jù)集上的其他初始化處理,然后,使用計算引擎將處理過的數(shù)據(jù)轉換以創(chuàng)建特征向量,對模型進行訓練和評估,并使機器學習與SQL 解析和流處理技術達到深度集成[6].環(huán)境監(jiān)測數(shù)據(jù)具有數(shù)據(jù)量大,數(shù)據(jù)維度復雜的特點,并且常用查詢維度的集中度很大,所以深度學習環(huán)境監(jiān)測的數(shù)據(jù)訪問規(guī)律可以大大提升數(shù)據(jù)訪問速度.
在機器學習技術的實現(xiàn)中,我們采用深度學習技術.深度學習是機器學習中表征學習算法,使用包含復雜結構或由多重非線性變換構成的多個處理層對數(shù)據(jù)進行高層抽象計算,將用于監(jiān)督式或半監(jiān)督式的特征學習和分層特征提取的高效算法來替代手工獲取.基于數(shù)據(jù)的深度學習過程是數(shù)據(jù)庫系統(tǒng)掌控應用系統(tǒng)的訪問規(guī)律,動態(tài)調(diào)整系統(tǒng)資源,找到最快速、最高效的訪問路徑,給用戶帶來越用越快的用戶體驗的過程[7].
環(huán)境評估大數(shù)據(jù)管理平臺采用云計算環(huán)境作為基礎設施,即以云計算基礎架構即服務(IAAS)層作為物理支撐,從中得到可彈性擴展的計算服務、存儲服務、數(shù)據(jù)傳輸服務、安全管控服務等基礎服務.環(huán)境評估大數(shù)據(jù)管理平臺的主要作用是大數(shù)據(jù)管理,是整個環(huán)境評估服務系統(tǒng)的核心,分為數(shù)據(jù)層、分析層和業(yè)務層,通過對各類數(shù)據(jù)的收集、抽取、存儲、清洗、標準化、關聯(lián)、標記、深度加工、可視化等處理,形成數(shù)據(jù)資源中心,并為上層應用提供統(tǒng)一數(shù)據(jù)服務.
平臺的數(shù)據(jù)層負責大數(shù)據(jù)存儲,將各種類型和特點的數(shù)據(jù)統(tǒng)一存儲管理,為分析層提供海量數(shù)據(jù)和快速提取的服務功能,分析層負責大數(shù)據(jù)融合,通過流處理、并行計算、深度學習等技術將數(shù)據(jù)進行融合處理,為業(yè)務層提供可用原始數(shù)據(jù)和整合數(shù)據(jù)的靈活訪問服務功能,業(yè)務層負責業(yè)務應用的大數(shù)據(jù)接入,對數(shù)據(jù)進行綜合提取和展現(xiàn),提供數(shù)據(jù)的增值服務功能,供給不同的業(yè)務應用進行接入和使用,參見圖1.
3.1.1 數(shù)據(jù)層
數(shù)據(jù)層主要是通過數(shù)據(jù)湖技術和彈性擴展技術對數(shù)據(jù)進行接收、存儲和初步處理,主要解決了海量數(shù)據(jù)和多元數(shù)據(jù)問題,包括來自環(huán)保數(shù)據(jù)采集系統(tǒng)和業(yè)務系統(tǒng)的結構化數(shù)據(jù),和來自采集端點的實時數(shù)據(jù)、業(yè)務系統(tǒng)采集生成的多種格式非結構化數(shù)據(jù)等.
圖1 大數(shù)據(jù)管理平臺架構
(1)結構化數(shù)據(jù)的行式存儲和列式存儲
使用最廣的數(shù)據(jù)存儲方式是行式存儲,把一行數(shù)據(jù)作為一個整體來存儲,但行式存儲在維護大量的索引和物化視圖場景下,在處理時間和存儲空間方面成本過高.列式存儲數(shù)據(jù)庫以列為單位進行數(shù)據(jù)存儲,每一列單獨存放,并由一個線程來處理,這樣既可以充分利用處理器的多核心特性,又能夠大大降低系統(tǒng)I/O 開銷,因此我們采用擅長隨機讀操作的行式數(shù)據(jù)庫與擅長條件查詢的列式數(shù)據(jù)庫相結合的方式,來管理結構化數(shù)據(jù).
作為CDM的各參與方,項目業(yè)主、咨詢機構、第三方審核機構、金融機構等主體,應及時關注國內(nèi)碳交易市場建立的相關政策和進展,夯實自身基礎,盡早布局國內(nèi)市場,為將來扮演好各自角色做好充分準備。
(2)非結構化數(shù)據(jù)的分布式存儲和彈性擴展
非結構化數(shù)據(jù)需要分布式存儲,并且保證按需的彈性擴展功能.平臺的分布式存儲充分利用HDFS 的低成本、高容錯、高吞吐特性來管理數(shù)據(jù),經(jīng)由并行數(shù)據(jù)路徑完成與MPP 數(shù)據(jù)庫服務器的數(shù)據(jù)交換,通過彈性控制管理模塊聯(lián)動數(shù)據(jù)協(xié)調(diào)分發(fā)模塊提供數(shù)據(jù)的彈性擴展管理,參見圖2.
對于彈性擴展在彈性控制管理模塊中采用特定語言進行描述,通過描述中的內(nèi)容進行靈活的擴展,例如,描述一個擴展節(jié)點,包括硬件、軟件特征和配置必須明確規(guī)定,并以特定的方式進行表述,再使用自動化任務解析、執(zhí)行這些相關的描述文檔,從而實現(xiàn)相應擴展功能.
(3)支持處理的數(shù)據(jù)類型
平臺支持對常用的所有數(shù)據(jù)類型進行處理,包括:
1)關系數(shù)據(jù):支持關系數(shù)據(jù)的各種數(shù)值類型、字符類型、二進制數(shù)據(jù)類型、日期時間類型、布爾類型等.
2)空間數(shù)據(jù):支持幾何特征和離散特點的地理要素,即空間對象數(shù)據(jù),如點、線、面、體等對象的數(shù)據(jù)組件,以及GIS 柵格、圖層、坐標等數(shù)據(jù)存取.
3)NoSQL 數(shù)據(jù):支持NoSQL 數(shù)據(jù)類型、位串類型、數(shù)組類型、復合類型等.
平臺對數(shù)據(jù)的管理都采用圖形化界面進行操作,例如對NoSQL 數(shù)據(jù)的管理已實現(xiàn)如圖3的界面.
圖2 彈性擴展
圖3 NoSQL 數(shù)據(jù)管理界面
3.1.2 分析層
分析層對數(shù)據(jù)進行融合處理,是一種針對環(huán)保檢測和評估數(shù)據(jù)的容量大、種類多、增長速度快、價值大等特征的集成技術,包括:流處理技術、大規(guī)模并行處理技術、機器學習技術、并行算法等.
平臺通過增加并行度確保使用整個集群的資源,而不是把任務集中在幾個特定的節(jié)點上.對于包含Apache Spark Shuffle 的操作,增加其并行度以確保更為充分地使用集群資源;同時,流處理默認將接收到的數(shù)據(jù)序列化后存儲,以減少內(nèi)存的使用,但是序列化和反序列化需要更多的處理器資源,因此優(yōu)化的序列化方式和自定義的序列化接口可以更高效地使用處理器資源,參見圖4.
圖4 流處理序列和反序列
在流處理中,任務之間有可能存在依賴關系,后面的任務必須確保前面的作業(yè)執(zhí)行結束后才能提交,通常情況下分析型數(shù)據(jù)庫框架能夠高效地確保任務及時分發(fā).但是,如果前面的任務執(zhí)行的時間超出了批處理時間間隔,那么后面的任務就無法按時提交,這樣就會進一步拖延接下來的任務,造成后續(xù)任務的阻塞,因此分析層會設置一個合理的批處理間隔以確保作業(yè)能夠在這個批處理間隔內(nèi)結束;同樣,當批處理間隔非常小(小于500 毫秒)時,提交和分發(fā)任務的延遲就變得不可接受了,通過經(jīng)驗對比,我們采用Spark 的Standalone和Coarse-grained Mesos 模式減少因任務提交和分發(fā)所帶來的延遲.
對于數(shù)據(jù)的底層模型設計,因需要進行基于多維模型的交叉分析來有效發(fā)現(xiàn)問題,所以數(shù)據(jù)的維度越豐富所能實現(xiàn)的交叉也越豐富和靈活;但相應的,如果要盡可能地豐富各維度的交叉分析,對基層模型的要求也就越高.因此,我們引用數(shù)據(jù)立方體來實現(xiàn)模型設計,參見圖5.
圖5 數(shù)據(jù)立方體示例
用數(shù)據(jù)立方體來拓展數(shù)據(jù)細節(jié)有兩種方向,一類是縱深拓展,也就是基于一個維度的細分,例如一個月細分到每一天,一條記錄將會被拓展成30 條;另一類是橫向拓展、多個維度的交叉,就像立方體中添加了空氣污染物維和區(qū)域維.這樣存儲的數(shù)據(jù)就從原本單一的時間維度擴展成了時間、污染物和區(qū)域三個維度,也就是三維立方體所能展現(xiàn)的形式,而且維度可以繼續(xù)擴展,四個、五個直到數(shù)十個,理論上都是可行的.以三個維度進行舉例:對于數(shù)據(jù)存儲而言,橫向的拓展與縱深拓展的影響是一樣的,記錄數(shù)都是以倍乘的方式增長,假設有20 個污染物大類,再加上十六個區(qū),那么經(jīng)過縱深和橫向拓展之后,原先每月的1 條記錄就變成了:1 × 30 × 20 × 16 = 9600 (條).
在功能實現(xiàn)方面,經(jīng)過數(shù)據(jù)的多維分析后,平臺在數(shù)據(jù)準備區(qū)進行ETL 處理,數(shù)據(jù)經(jīng)過抽取、轉換后加載到數(shù)據(jù)倉庫中,分析完主題和數(shù)據(jù)元后建立數(shù)據(jù)模型(概念模型、邏輯模型、物理模型)并形成事實表和緯度表,然后通過粒度分析將歷史記錄先抽取整合,最后再根據(jù)決策者可能用到的數(shù)據(jù)集合分解成若干記錄,同時利用OLAP 工具技術進行數(shù)據(jù)的分析導出,以供給業(yè)務層進行數(shù)據(jù)可視化處理.
3.1.3 業(yè)務層
在業(yè)務層,系統(tǒng)關注將分析層提供的數(shù)據(jù)進行可視化展現(xiàn),其中的重點就是使用知識圖譜.知識圖譜基于圖的數(shù)據(jù)結構,由節(jié)點和邊組成,每個節(jié)點表示現(xiàn)實世界中存在的具有多種屬性的“實體”,每條邊為實體與實體之間的“關系”.知識圖譜把所有不同種類的信息連接在一起而得到一個關系網(wǎng)絡,提供了從“關系”的角度去分析問題的能力,是關系的最有效的表示方式[8].
基于知識圖譜,我們也嘗試提供數(shù)據(jù)智能搜索服務.智能搜索的功能類似于知識圖譜在互聯(lián)網(wǎng)搜索引擎上的應用,也就是說,對于每一個搜索的關鍵詞,我們可以通過知識圖譜來返回更豐富,更全面的信息.比如搜索某個監(jiān)測點的污染情況,我們的智能搜索引擎可以返回與這個監(jiān)測點相關的所有類型的污染記錄,包括水污染、大氣污染、土壤污染等,并同時返回區(qū)域涉及的建設項目信息、污染物排放標準等環(huán)境保護相關信息,參見圖6.
另外,通過可視化技術把復雜的信息以非常直觀的方式呈現(xiàn)出來,參見圖7,使得我們對隱藏信息的情況也一目了然.數(shù)據(jù)可視化是指以柱狀圖、餅狀圖、線型圖等圖形方式展示數(shù)據(jù),讓決策者更高效地了解業(yè)務的重要信息和細節(jié)層次.大量實踐表明,人通過圖形獲取信息的速度比通過閱讀文字獲取信息的速度要快很多,因此通過可視化展現(xiàn)配合門戶服務,幫助環(huán)保局管理人員實現(xiàn)高效、系統(tǒng)的數(shù)據(jù)識別和決策.
圖6 知識圖譜關聯(lián)
圖7 數(shù)據(jù)可視化展現(xiàn)示例
云基礎架構使得計算、存儲、網(wǎng)絡等可以通過資源池化而按需獲得,我們重點關注的是這些資源的整合以及基于此的動態(tài)變化管理策略,形成一個有機的、可靈活調(diào)度和擴展的資源池,面向大數(shù)據(jù)管理平臺實現(xiàn)自動化的部署、監(jiān)控、管理和運維.
參見圖8,我們采用典型的云基礎架構融合部署方案.例如,通過虛擬防火墻與虛擬機之間的融合,可以實現(xiàn)虛擬防火墻對虛擬機的感知、關聯(lián),確保虛擬機遷移、新增或減少時,防火墻策略也能夠自動關聯(lián).此外,虛擬機與負載均衡設備形成聯(lián)動,即在業(yè)務突發(fā)時,自動按需增加相應數(shù)量的虛擬機,與負載均衡聯(lián)動實現(xiàn)業(yè)務負載分擔;同時,當業(yè)務量減小時,可以自動減少相應數(shù)量的虛擬機,節(jié)省資源.不僅有效解決虛擬化環(huán)境中面臨的負載突變問題,而且大大提升了業(yè)務響應的效率和智能化.再有,云基礎架構通過虛擬化技術與管理層的融合,提升了IT 系統(tǒng)的可靠性.例如,虛擬化平臺可與網(wǎng)絡管理、計算管理、存儲管理聯(lián)動,當設備出現(xiàn)故障影響虛擬機業(yè)務時,可自動遷移虛擬機,保障業(yè)務正常訪問;對于設備正常、操作系統(tǒng)正常、但某個業(yè)務系統(tǒng)無法訪問的情況,虛擬化平臺還可以與應用管理聯(lián)動,探測應用系統(tǒng)的狀態(tài),例如Web、應用、數(shù)據(jù)庫等響應速度,當某個應用無法正常提供訪問時,自動重啟虛擬機,恢復業(yè)務正常訪問.
圖8 云基礎架構融合部署
本文對環(huán)境評估大數(shù)據(jù)管理平臺涉及的關鍵技術和平臺邏輯架構、物理架構設計進行闡述,該平臺是行業(yè)數(shù)據(jù)和數(shù)據(jù)庫技術相結合的系統(tǒng)工程,以大數(shù)據(jù)技術為支撐,通過彈性擴展、流處理、數(shù)據(jù)湖、并行處理、機器學習等技術為手段,不斷結合環(huán)境監(jiān)測與評估數(shù)據(jù)的需求分析調(diào)整技術方法,實現(xiàn)環(huán)境監(jiān)測和軟件工程的軟著陸,為開展生態(tài)環(huán)境綜合決策、環(huán)境監(jiān)管和公共服務提供基礎數(shù)據(jù)支撐,為生態(tài)環(huán)境管理和決策提供服務.