夏寧寧
(廣東省防汛搶險技術保障中心,廣東 廣州510000)
隨著廣東水利信息化事業(yè)的快速發(fā)展,先后啟動了省三防指揮系統(tǒng)等骨干項目和實際應用,內涵涵蓋多個職能部門和專業(yè)領域,并形成了海量水利數(shù)據(jù)信息, 由于缺乏有效的整合利用手段和共享平臺,許多業(yè)務應用系統(tǒng)開發(fā)附帶的具有公共價值的數(shù)據(jù)資源處于獨立專用狀態(tài),形成“信息孤島”。 廣東省水利數(shù)據(jù)中心是一項大型信息系統(tǒng)工程,通過建立完善的水利數(shù)據(jù)庫,有效匯聚全省水雨情信息,并按照一數(shù)一源的原則,優(yōu)化數(shù)據(jù)庫表結構,解決數(shù)據(jù)資源整合及共享問題,更好的為廣東水利事業(yè)提供信息共享交換服務。
數(shù)據(jù)中心的數(shù)據(jù)架構圖如圖所示,主要由ODS 區(qū)、數(shù)據(jù)倉庫區(qū)、數(shù)據(jù)緩沖區(qū)(交換數(shù)據(jù)臨時存儲區(qū))、非結構化數(shù)據(jù)存儲區(qū)、元數(shù)據(jù)及資源信息目錄等區(qū)域構成,并通過數(shù)據(jù)對上接口區(qū)與水利部進行數(shù)據(jù)交換,通過數(shù)據(jù)對下接口區(qū)實現(xiàn)與各地市及流域局的數(shù)據(jù)交換。
ODS 區(qū)即操作型數(shù)據(jù)存儲區(qū)(Operational Data Store,ODS),存放集成的、可更新的、近實時的業(yè)務數(shù)據(jù),用于業(yè)務系統(tǒng)與數(shù)據(jù)倉庫之間的數(shù)據(jù)遷移,支持基于主題域的實時查詢,省數(shù)據(jù)中心的ODS 區(qū)主要存放25 類數(shù)據(jù)庫以及水利普查數(shù)據(jù)庫。
為最大程度地集成既有業(yè)務系統(tǒng)完整的數(shù)據(jù)信息源,降低對業(yè)務系統(tǒng)的影響,ODS 區(qū)還辟有業(yè)務數(shù)據(jù)暫存區(qū), 主要存放既有業(yè)務系統(tǒng)數(shù)據(jù)庫的全量備份,并以此作為25 類數(shù)據(jù)庫的數(shù)據(jù)來源。
圖1 數(shù)據(jù)中心數(shù)據(jù)架構圖
數(shù)據(jù)倉庫(Data Warehouse,DW)存放面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)。數(shù)據(jù)倉庫統(tǒng)一存放與管理經(jīng)整合后、具有分析價值的歷史數(shù)據(jù)與現(xiàn)狀數(shù)據(jù),支持基于大量歷史數(shù)據(jù)的企業(yè)決策分析。 數(shù)據(jù)倉庫區(qū)分兩個層次,第一層次為Master 庫,該庫中的數(shù)據(jù)是面向主題存放的基礎明細數(shù)據(jù), 可用于決策支持。 第二層次為Master 庫的子集,包含數(shù)據(jù)集市、數(shù)據(jù)挖掘庫和共享信息庫,數(shù)據(jù)集市面向特定的分析應用,數(shù)據(jù)挖掘庫提供深層次的數(shù)據(jù)挖掘服務,共享信息庫是根據(jù)特定需求從Master 庫抽取的可共享的數(shù)據(jù)庫。
本項目中,元數(shù)據(jù)用于存放ODS 和DW 中基礎庫、專題庫、Master庫中數(shù)據(jù)的機構信息,資源目錄用于存放數(shù)據(jù)資源信息,通過資源目錄體系建設,形成全省水利行業(yè)統(tǒng)一管理和服務的資源目錄體系。
廣東省水利數(shù)據(jù)中心數(shù)據(jù)架構ODS 存儲區(qū)中,ODS 存儲區(qū)如圖2 所示,主要包含基礎數(shù)據(jù)庫、專業(yè)數(shù)據(jù)庫、數(shù)據(jù)暫存區(qū)數(shù)據(jù)庫和水利普查數(shù)據(jù)庫,數(shù)據(jù)倉庫中主要包含Master 數(shù)據(jù)庫、主題數(shù)據(jù)庫、數(shù)據(jù)挖掘庫和共享信息庫,其中Master 數(shù)據(jù)庫對用戶屏蔽,數(shù)據(jù)倉庫通過主題數(shù)據(jù)庫對外提供服務。主題數(shù)據(jù)庫主要為基于數(shù)據(jù)中心的輔助決策類業(yè)務應用提供服務,由業(yè)務部門提出服務需求,數(shù)據(jù)中心根據(jù)需求信息生成業(yè)務模型,形成對應于業(yè)務需求的數(shù)據(jù)信息。 主題數(shù)據(jù)庫提供的服務基于OLAP 業(yè)務應用,以海量數(shù)據(jù)為基礎,能對數(shù)據(jù)進行匯總,建立多維度分析、 查詢和報表, 側重于決策支持。
數(shù)據(jù)整合主要包括橫向數(shù)據(jù)整合和縱向數(shù)據(jù)整合兩個部分, 橫向數(shù)據(jù)整合主要針對省廳各業(yè)務處室的現(xiàn)有業(yè)務系統(tǒng)數(shù)據(jù)整合, 該部分業(yè)務系統(tǒng)通過全量復制數(shù)據(jù)在ODS 層落地, 與標準數(shù)據(jù)庫建立映射關系, 對數(shù)據(jù)進行標準化轉換后存入標準化數(shù)據(jù)庫中。 其中ODS 區(qū)的數(shù)據(jù)需要經(jīng)過清洗、 轉換后按照相應規(guī)則抽取到Master 庫中, 再經(jīng)過二次ETL得到面向應用主題的主題數(shù)據(jù)庫以提供輔助決策功能。 縱向數(shù)據(jù)整合主要指地市系統(tǒng)與省系統(tǒng)、 國家系統(tǒng)與省系統(tǒng)的數(shù)據(jù)交換, 地市水利數(shù)據(jù)通過數(shù)據(jù)交換服務將數(shù)據(jù)發(fā)送到數(shù)據(jù)倉庫的臨時存儲區(qū), 然后再經(jīng)過ETL 方式將數(shù)據(jù)載入數(shù)據(jù)中心ODS 層對應數(shù)據(jù)庫。 省級系統(tǒng)與國家系統(tǒng)的數(shù)據(jù)交換同樣通過數(shù)據(jù)交換平臺按照水利部提供的業(yè)務數(shù)據(jù)需求實現(xiàn)數(shù)據(jù)上報。
圖2 ODS 存儲區(qū)結構圖
元數(shù)據(jù)被稱為“關于數(shù)據(jù)的數(shù)據(jù)”目的是使數(shù)據(jù)能夠被正確理解和解釋。 廣東省水利數(shù)據(jù)中心覆蓋到端到端的元數(shù)據(jù)體系如圖3 所示。
圖3 數(shù)據(jù)中心元數(shù)據(jù)分布圖
元數(shù)據(jù)主要分布在以下幾個環(huán)節(jié):
數(shù)據(jù)建模工具的元數(shù)據(jù): 其數(shù)據(jù)項包含以下對象 (包括但不限于):Model,ValidationRule,DefaultValue,Transform,Table,Column,Key(primaryKey,forei-gnKey,NonUniqueKey),Relationship。
數(shù)據(jù)庫(ODS&DW)元數(shù)據(jù):用來存儲數(shù)據(jù)倉庫的數(shù)據(jù)實體信息,該部分包含的元數(shù)據(jù)項至少有以下對象(包括但不限于):Catalog,Schema,Table,View,Column,Procedure,SQLIndex,Trigger,CheckConstraint。
ETL 工具元數(shù)據(jù):該工具的核心作用是對數(shù)據(jù)的處理,包括數(shù)據(jù)抽取、轉換、清洗、裝載的過程。 ETL 工具的元數(shù)據(jù)體現(xiàn)為一些數(shù)據(jù)流圖,其描述數(shù)據(jù)處理過程(Transformation),分析數(shù)據(jù)的來源及輸出等。ETL 元數(shù)據(jù)包含以下對象(包括但不限于):repository;task(包括的類型 有Workflow,Session,Command,Email,Worklet,Decision,Event ait,Event Raise,Timer,Assignment,Control);Task (Mapping 里 的Sources,TargetTransformations) 等。OLAP 工具元數(shù)據(jù):OLAP 展現(xiàn)在用戶面前是一幅幅多維視圖。 其元數(shù)據(jù)主要包括維的層次、 維的成員、度量的信息等。
BI 前端工具元數(shù)據(jù):BI 工具屬于業(yè)務層面的工具,其主要包含的元數(shù)據(jù)是對統(tǒng)計分析指標的業(yè)務定義、 統(tǒng)計口徑定義等。
數(shù)據(jù)中心ODS 區(qū)各類數(shù)據(jù)庫資源以及數(shù)據(jù)倉庫中Master 庫對用戶屏蔽,用戶通過共享信息庫和主題數(shù)據(jù)庫訪問數(shù)據(jù)中心的數(shù)據(jù)資源。
共享信息庫是指通過將實體數(shù)據(jù)根據(jù)業(yè)務需要抽象出來可供多個業(yè)務應用訪問的可共享信息倉庫,用戶并不能直接訪問Master 數(shù)據(jù)庫中的數(shù)據(jù)資源,在一定程度上保證了數(shù)據(jù)安全,又可以保證業(yè)務系統(tǒng)的基本穩(wěn)定。
主題數(shù)據(jù)庫為基于數(shù)據(jù)中心的輔助決策類業(yè)務應用提供服務,由業(yè)務應用向數(shù)據(jù)中心提出申請,數(shù)據(jù)中心根據(jù)申請主題形成業(yè)務模型,生成對應于業(yè)務的事實表和應用與模型的維信息,主題數(shù)據(jù)庫的數(shù)據(jù)主要通過ETL 工具生成。
事實表(Fact Table),數(shù)據(jù)倉庫架構中的中央表,是存儲可度量的值的詳細數(shù)值或實際數(shù)值的關系數(shù)據(jù)庫中的表格,包含聯(lián)系事實與維表的數(shù)字度量值和鍵。
維表(Dimension Table),數(shù)據(jù)倉庫中的表,其條目描述事實數(shù)據(jù)表中的數(shù)據(jù),維表包含創(chuàng)建維度所需的數(shù)據(jù)。
廣東省水利數(shù)據(jù)中心是全國首個省級水利數(shù)據(jù)中心,通過對數(shù)據(jù)中心數(shù)據(jù)架構的分析和研究,總結數(shù)據(jù)架構設計和匯交方式,通過存儲分區(qū)結構,實現(xiàn)數(shù)據(jù)的快速查詢、數(shù)據(jù)挖掘和信息共享,通過數(shù)據(jù)整合設計實現(xiàn)數(shù)據(jù)的橫向整合和縱向整合, 為主題數(shù)據(jù)庫提供輔助決策,并實現(xiàn)地市和省級節(jié)點向國家節(jié)點的數(shù)據(jù)上報,通過數(shù)據(jù)庫及數(shù)據(jù)服務設計,定義數(shù)據(jù)庫結構和元數(shù)據(jù)體系,確定數(shù)據(jù)中心對外提供服務的方式。 目前對水利數(shù)據(jù)中心的研究還存在很多難點,下一步要解決的問題是如何利用數(shù)據(jù)中心中的大量數(shù)據(jù)為為預測洪澇災害提供決策支持,希望通過本次研究能對廣大同行有所幫助。
[1]劉曉茜.云計算數(shù)據(jù)中心結構及其調度機制研究[D].合肥:中國科技大學,2011.
[2]鄧維.云計算數(shù)據(jù)中心的新能源應用:研究現(xiàn)狀與趨勢[J].計算機學報,2013,(3).
[3]鄭華鋒.寧德市水電開發(fā)[M].北京:水利水電出版社,2008.
[4]劉志強,潘志德,蔡陽.等.水利信息化[M].長沙:中南大學出版社,2007.