葉茂 夏潤亮 劉穎 王樹偉
摘要:在基于大數(shù)據(jù)的模式下設(shè)計(jì)了一種省級水利數(shù)據(jù)中心的基本體系結(jié)構(gòu),數(shù)據(jù)組織模式和服務(wù)維護(hù)體系能夠優(yōu)化省級水利數(shù)據(jù)中心的基本數(shù)據(jù)流程與存貯方法,高效處理水利行業(yè)海量歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù),有效解決水利業(yè)務(wù)系統(tǒng)的異構(gòu)信息和資源重構(gòu),以及提升資源利用效率,為省級水利數(shù)據(jù)中心的建設(shè)提供了全新的解決方向。
關(guān)鍵詞:水利;數(shù)據(jù)中心;大數(shù)據(jù);Hadoop;數(shù)據(jù)處理
中圖分類號:TP274文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2018)17-60-3
Design on Provincial Water Conservancy Data Center Based on Big Data
YE Mao1, XIA Runliang2, LIU Ying1, WANG Shuwei1(1. China Institute of Water Resources and Hydropower Research, Beijing 100038, China; 2. Yellow River Institute of Hydraulic Research, Zhengzhou Henan 450053, China)
0引言
隨著水利信息化的高速發(fā)展,各省水利部門建設(shè)了數(shù)量龐大的水利信息系統(tǒng)。由于建設(shè)時(shí)間跨度較大和數(shù)據(jù)結(jié)構(gòu)繁雜,導(dǎo)致很多業(yè)務(wù)系統(tǒng)逐漸成為了信息孤島,數(shù)據(jù)可復(fù)用率低,各系統(tǒng)之間數(shù)據(jù)由于數(shù)據(jù)異構(gòu)[1]問題導(dǎo)致無法相互合理調(diào)用。因此,建設(shè)省級數(shù)據(jù)中心能夠有效地解決上述問題。
根據(jù)《全國水利信息化規(guī)劃》中的設(shè)計(jì)規(guī)范,傳統(tǒng)的水利信息化綜合體系物理層次由信息化保障環(huán)境、水利信息基礎(chǔ)設(shè)施和水利業(yè)務(wù)應(yīng)用構(gòu)成。其中核心業(yè)務(wù)是由信息匯集與存貯、信息服務(wù)和支撐應(yīng)用3個(gè)邏輯層次構(gòu)成[2]。
按照建立“三級兩域四區(qū)”[3]的統(tǒng)一規(guī)劃要求,作為國家水利數(shù)據(jù)中心的關(guān)鍵節(jié)點(diǎn),省級水利數(shù)據(jù)中心具有數(shù)據(jù)多源、多維、大量和多態(tài)的大數(shù)據(jù)特性[4]。除數(shù)據(jù)整合與交換、在線事務(wù)處理及在線分析等常規(guī)水利業(yè)務(wù)應(yīng)用外,還應(yīng)具有存貯和應(yīng)用高分遙感、視頻、GIS、物聯(lián)網(wǎng)等海量多媒體數(shù)據(jù),以及云中獲得的經(jīng)濟(jì)高效的計(jì)算與存貯資源,能支持高速寬帶移動(dòng)應(yīng)用,以及應(yīng)用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)水利數(shù)據(jù)的多維多尺度關(guān)聯(lián)分析以支持決策等,具有數(shù)據(jù)粒度精細(xì)、數(shù)據(jù)層次繁雜及省級行政邊界數(shù)據(jù)約束條件復(fù)雜等特點(diǎn)。
1體系結(jié)構(gòu)
1.1總體架構(gòu)設(shè)計(jì)
以傳統(tǒng)水利數(shù)據(jù)中心邏輯框架為基礎(chǔ),構(gòu)造支持大數(shù)據(jù)技術(shù)[5]中心的總體架構(gòu)如圖1所示。
①由于安全性,私有云和混合云為主要的采用形式[4]。當(dāng)條件具備時(shí),運(yùn)行環(huán)境可從單獨(dú)的環(huán)境遷移到公共云、政務(wù)云或水利云,實(shí)現(xiàn)計(jì)算存貯資源的高效應(yīng)用,并為處理大數(shù)據(jù)提供優(yōu)越的存貯與處理?xiàng)l件。②根據(jù)水利業(yè)務(wù)的特點(diǎn),數(shù)據(jù)中心采用虛擬化信息資源組織,屏蔽了數(shù)據(jù)存貯的物理異構(gòu),采用關(guān)系數(shù)據(jù)庫與分塊式非結(jié)構(gòu)化存貯相結(jié)合的存貯模式。③業(yè)務(wù)應(yīng)用由服務(wù)平臺統(tǒng)一支撐,既有業(yè)務(wù)應(yīng)用由操作數(shù)據(jù)存儲(ODS)直接提供服務(wù),實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)基礎(chǔ)。
1.2運(yùn)行環(huán)境
中心運(yùn)行環(huán)境主要包括計(jì)算、存貯硬件、軟件及網(wǎng)絡(luò)環(huán)境。硬件組成模式是雙機(jī)熱備式數(shù)據(jù)庫存貯、服務(wù)器組與多個(gè)應(yīng)用服務(wù)器相配合,通常由虛擬化資源統(tǒng)一管理平臺、調(diào)度系統(tǒng)控制的存貯和計(jì)算服務(wù)集群構(gòu)成。
1.3數(shù)據(jù)資源
中心將數(shù)據(jù)資源劃分為操作數(shù)據(jù)存貯(ODS)、結(jié)構(gòu)化主數(shù)據(jù)庫(Master)、數(shù)據(jù)倉庫和非結(jié)構(gòu)化數(shù)據(jù)的HDFS分塊存貯等部分[6]。通過建立資源目錄、多級元數(shù)據(jù)和對全庫數(shù)據(jù)進(jìn)行對象化標(biāo)識及按規(guī)則抽取與同步,實(shí)現(xiàn)資源的虛擬化組織,屏蔽了數(shù)據(jù)的物理存貯異構(gòu)。
1.4應(yīng)用平臺
應(yīng)用平臺依據(jù)面向服務(wù)的體系結(jié)構(gòu)(SOA),應(yīng)用WebService技術(shù)、以JavaEE為基礎(chǔ)框架,將各類中間件、虛擬化資源、工作流、大數(shù)據(jù)流、批處理等應(yīng)用以及支撐軟件的構(gòu)件、容器和運(yùn)行時(shí)的環(huán)境一并封裝為由資源管理、基礎(chǔ)服務(wù)、應(yīng)用支撐和大數(shù)據(jù)支撐服務(wù)的應(yīng)用服務(wù)平臺,實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)基礎(chǔ)和應(yīng)用服務(wù)平臺支撐下的部門水利業(yè)務(wù)應(yīng)用和跨部門協(xié)同業(yè)務(wù)定制,最大限度達(dá)到資源共享目標(biāo)。
2數(shù)據(jù)結(jié)構(gòu)、組織及服務(wù)與維護(hù)體系
2.1數(shù)據(jù)結(jié)構(gòu)
大數(shù)據(jù)中心數(shù)據(jù)分層基本結(jié)構(gòu)如圖2所示。
①數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)來源多為異構(gòu)數(shù)據(jù),需要對數(shù)據(jù)進(jìn)行歸類匯集,ETL工具支持多種數(shù)據(jù)轉(zhuǎn)換源和目標(biāo),軟件易于部署和使用及轉(zhuǎn)換手段多樣化,經(jīng)過數(shù)據(jù)ETL、提取、轉(zhuǎn)換和加載后入庫。
②存儲管理:中心主要存儲數(shù)據(jù)為關(guān)系型結(jié)構(gòu)化數(shù)據(jù)和分布式非結(jié)構(gòu)化文件,關(guān)系型數(shù)據(jù)庫一般存儲實(shí)時(shí)數(shù)據(jù)和元數(shù)據(jù);分布式文件主要是歷史數(shù)據(jù)、文檔數(shù)據(jù)、圖像數(shù)據(jù)和視頻數(shù)據(jù)等非實(shí)時(shí)數(shù)據(jù)。
③計(jì)算處理和數(shù)據(jù)分析:通過MapReduce批處理,將大數(shù)據(jù)分解成小數(shù)據(jù),解決單機(jī)運(yùn)算效率問題。Storm可以處理海量的匯入數(shù)據(jù)流,以實(shí)時(shí)方式處理數(shù)據(jù),并得到最后的結(jié)果。
④數(shù)據(jù)展現(xiàn):大數(shù)據(jù)的數(shù)據(jù)應(yīng)用可定制服務(wù)業(yè)務(wù)系統(tǒng),對數(shù)據(jù)進(jìn)行分析挖掘,自動(dòng)獲取評價(jià)指標(biāo)。通過建立直觀、簡潔、統(tǒng)一的人機(jī)交互界面將抽象雜亂的實(shí)時(shí)和歷史數(shù)據(jù)向客戶展示。
2.2數(shù)據(jù)組織
作為水利信息資源整合的基礎(chǔ)設(shè)施,需要對各類數(shù)據(jù)資源進(jìn)行整合以實(shí)現(xiàn)共享。按照水利數(shù)據(jù)來源、分類與應(yīng)用的特點(diǎn),需要整合的水利數(shù)據(jù),如圖3所示,主要有公共數(shù)據(jù)和各水利專業(yè)領(lǐng)域的水利專業(yè)數(shù)據(jù)兩大類。
基本方案是建立ODS,用于存貯、交換和同步來自各方面的結(jié)構(gòu)化事務(wù)數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)及非結(jié)構(gòu)化流等數(shù)據(jù),并支持當(dāng)前既有業(yè)務(wù)應(yīng)用,形成數(shù)據(jù)中心的原始數(shù)據(jù)存貯。以O(shè)DS為基礎(chǔ),建立統(tǒng)一的資源目錄、元數(shù)據(jù)和對象標(biāo)識,據(jù)此建立唯一數(shù)據(jù)模型的結(jié)構(gòu)化主數(shù)據(jù)庫(Master DB)和非結(jié)構(gòu)化數(shù)據(jù)分塊存貯(HDFS),形成數(shù)據(jù)中心的核心數(shù)據(jù)存貯。核心數(shù)據(jù)存貯中的非結(jié)構(gòu)化數(shù)據(jù)通過流處理,將其特征數(shù)據(jù)存入主數(shù)據(jù)庫,主數(shù)據(jù)庫數(shù)據(jù)經(jīng)對象化抽取,形成主題數(shù)據(jù)庫;非結(jié)構(gòu)化數(shù)據(jù)經(jīng)批處理,與主數(shù)據(jù)庫和流處理的特征數(shù)據(jù)相融合,形成對象化數(shù)據(jù)組織,與主題數(shù)據(jù)庫一道支撐數(shù)據(jù)中的數(shù)據(jù)分析與決策支持應(yīng)用。
數(shù)據(jù)中心的數(shù)據(jù)存儲區(qū)域主要由EDS區(qū)、ODS區(qū)和CDS區(qū)3個(gè)區(qū)域構(gòu)成。①EDS數(shù)據(jù)緩沖區(qū):用來保證數(shù)據(jù)交換過程中安全隔離和臨時(shí)存儲的存儲區(qū),其數(shù)據(jù)結(jié)構(gòu)與接入的應(yīng)用系統(tǒng)保持一致;②ODS區(qū):主要用于異構(gòu)業(yè)務(wù)數(shù)據(jù)源的明細(xì)數(shù)據(jù)整合,進(jìn)入數(shù)據(jù)核心區(qū)前的存儲集成,提供面向業(yè)務(wù)的、近實(shí)時(shí)的統(tǒng)一數(shù)據(jù)視圖,支持全局業(yè)務(wù)數(shù)據(jù)的查詢和分析;③CDS區(qū):由主數(shù)據(jù)庫、分塊存貯、元數(shù)據(jù)(目錄、對象標(biāo)識)庫、主題數(shù)據(jù)庫和對象數(shù)據(jù)存貯5個(gè)主要部分組成。
2.3數(shù)據(jù)集成
省級大數(shù)據(jù)中心面臨多個(gè)已經(jīng)建成的信息系統(tǒng)中的數(shù)據(jù)集成,包括橫向和縱向2種方式。
(1)橫向數(shù)據(jù)集成
為確保數(shù)據(jù)的唯一性,需要對結(jié)構(gòu)化數(shù)據(jù)建立相應(yīng)的數(shù)據(jù)同步機(jī)制,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)后臺數(shù)據(jù)庫與ODS區(qū)數(shù)據(jù)庫之間的同步。數(shù)據(jù)同步完成后,將ODS區(qū)數(shù)據(jù)庫代替業(yè)務(wù)系統(tǒng)后臺數(shù)據(jù)庫。對于非結(jié)構(gòu)化數(shù)據(jù),由數(shù)據(jù)中心通過原系統(tǒng)提供的數(shù)據(jù)交換接口定時(shí)抽取、轉(zhuǎn)換后存入ODS結(jié)構(gòu)化的基本信息數(shù)據(jù)庫和非結(jié)構(gòu)化數(shù)據(jù)存貯中。新建數(shù)據(jù)庫原則上先實(shí)施標(biāo)準(zhǔn)化設(shè)計(jì)后,直接建立在數(shù)據(jù)中心ODS層或由數(shù)據(jù)中心實(shí)施數(shù)據(jù)復(fù)制。
(2)縱向數(shù)據(jù)集成
數(shù)據(jù)來源由下級單位上報(bào)或上級單位下達(dá),數(shù)據(jù)交換服務(wù)將數(shù)據(jù)發(fā)送到數(shù)據(jù)臨時(shí)存儲區(qū),然后再通過ETL方式將數(shù)據(jù)載入數(shù)據(jù)中心ODS層對應(yīng)數(shù)據(jù)庫或存貯區(qū)中。
2.4數(shù)據(jù)服務(wù)方式
用戶不能直接訪問大數(shù)據(jù)中心的基礎(chǔ)實(shí)體數(shù)據(jù),ODS區(qū)及CDS區(qū)中的Master數(shù)據(jù)庫和HDFS對外屏蔽,通過應(yīng)用服務(wù)平臺構(gòu)造數(shù)據(jù)視圖和主題數(shù)據(jù)庫及對象數(shù)據(jù)的方式對外提供服務(wù)。
①數(shù)據(jù)視圖的構(gòu)建:ODS區(qū)數(shù)據(jù)資源需要提供既有系統(tǒng)以及部分業(yè)務(wù)系統(tǒng)訪問,但不直接將實(shí)體數(shù)據(jù)開放給業(yè)務(wù)系統(tǒng)和用戶,而是采用依托應(yīng)用服務(wù)平臺,構(gòu)造統(tǒng)一的數(shù)據(jù)視圖(包括對象視圖)間接訪問的方式,可在一定程度上保證數(shù)據(jù)安全和業(yè)務(wù)系統(tǒng)的穩(wěn)定。當(dāng)ODS區(qū)某一類數(shù)據(jù)庫或存貯因?yàn)樾骂C布了國家標(biāo)準(zhǔn)或行業(yè)標(biāo)準(zhǔn),組織形式發(fā)生了變化,則只需要對數(shù)據(jù)(對象)視圖進(jìn)行重新定義,不必對應(yīng)用程序代碼進(jìn)行修改。
②主題數(shù)據(jù)與對象數(shù)據(jù):主題數(shù)據(jù)和對象數(shù)據(jù)主要為基于數(shù)據(jù)中心的數(shù)據(jù)綜合分析與決策類業(yè)務(wù)應(yīng)用提供服務(wù)。數(shù)據(jù)中心根據(jù)用戶申請的主題進(jìn)行數(shù)據(jù)組織,生成多維主題表或?qū)ο髷?shù)據(jù)關(guān)系映射,通過應(yīng)用服務(wù)平臺提供相應(yīng)的工具軟件支持用戶的應(yīng)用。
2.5數(shù)據(jù)維護(hù)模式
大數(shù)據(jù)中心統(tǒng)一實(shí)施對ODS和CDS數(shù)據(jù)的維護(hù),主要包括按照有關(guān)規(guī)范建立的基礎(chǔ)數(shù)據(jù)庫、專業(yè)數(shù)據(jù)庫以及水利普查數(shù)據(jù)庫,并且通過ETL實(shí)現(xiàn)核心數(shù)據(jù)的同步與更新等。數(shù)據(jù)中心不對既有系統(tǒng)數(shù)據(jù)進(jìn)行更新,既有系統(tǒng)在原系統(tǒng)基礎(chǔ)上數(shù)據(jù)更新完畢后,由數(shù)據(jù)中心定期將數(shù)據(jù)變更直接同步或抽取轉(zhuǎn)換存貯到數(shù)據(jù)中心ODS。
3結(jié)束語
綜上所述,省級水利數(shù)據(jù)中心作為核心的水利信息系統(tǒng)不但要支持水利業(yè)務(wù)應(yīng)用間的數(shù)據(jù)共享和業(yè)務(wù)協(xié)同,還要支持水利綜合決策,成為水利信息化建設(shè)中涉及專業(yè)領(lǐng)域和機(jī)構(gòu)部門最多、技術(shù)最復(fù)雜、應(yīng)用最廣泛及建管最困難的系統(tǒng)工程。按照上述方法對省級水利大數(shù)據(jù)中心體系結(jié)構(gòu)進(jìn)行設(shè)計(jì),保障大數(shù)據(jù)中心建設(shè)與應(yīng)用目標(biāo)的實(shí)現(xiàn),對水利大數(shù)據(jù)中心的體系設(shè)計(jì)的科學(xué)化設(shè)計(jì),對推動(dòng)省級水利大數(shù)據(jù)中心建設(shè)和實(shí)現(xiàn)水利信息化科學(xué)可持續(xù)發(fā)展具有十分重要的意義與作用。
參考文獻(xiàn)
[1]艾萍,趙敏,岳兆新.基于虛擬化的水利數(shù)據(jù)共享平臺設(shè)計(jì)與實(shí)現(xiàn)[J].信息技術(shù),2013,37(6):75-79.
[2]水利部.全國水利信息化規(guī)劃[R].北京:水利部,2012.
[3]莫榮強(qiáng),艾萍,吳禮福,等.一種支持大數(shù)據(jù)的水利數(shù)據(jù)中心基礎(chǔ)框架[J].水利信息化,2013(3):16-20.
[4]葉楓,張鵬,毛聲錄,等.水利領(lǐng)域云計(jì)算的現(xiàn)狀分析與思考[J].水利信息化,2014(1):6-11.
[5]甘郝新,陳曉武,舒強(qiáng).水利數(shù)據(jù)中心框架設(shè)計(jì)初探[J].人民珠江,2011,32(6):61-63,66.
[6]莫潔.基于統(tǒng)一的廣東水利信息化資源整合共享研究[J].水利信息化,2010(2):26-29,32.