国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Data Vault的交通行業(yè)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)

2021-05-20 12:05:58陳成偉
西部交通科技 2021年4期
關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型范式

韋 揚(yáng),陳成偉

(1.廣西交通運(yùn)輸信息管理中心,廣西 南寧 530029;2.廣西交通設(shè)計(jì)集團(tuán)有限公司,廣西 南寧 530029)

0 引言

當(dāng)前社會(huì)已經(jīng)從信息技術(shù)時(shí)代發(fā)展進(jìn)入數(shù)據(jù)技術(shù)時(shí)代。數(shù)據(jù),已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。雖然交通運(yùn)輸行業(yè)信息化建設(shè)起步較早,已相繼建成很多業(yè)務(wù)系統(tǒng),但缺乏較好的頂層設(shè)計(jì),各個(gè)系統(tǒng)各自為戰(zhàn),導(dǎo)致出現(xiàn)重復(fù)投資、信息孤島等問(wèn)題。為解決交通運(yùn)輸行業(yè)信息化的痛點(diǎn)、難點(diǎn),同時(shí)順應(yīng)數(shù)據(jù)時(shí)代的發(fā)展要求,本文以廣西交通運(yùn)輸廳現(xiàn)行業(yè)務(wù)系統(tǒng)的歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)為基礎(chǔ),首先介紹數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)常見方法及問(wèn)題,進(jìn)而提出使用Data Vault建模方法,嘗試構(gòu)建以可追溯、易擴(kuò)展為特點(diǎn)的交通運(yùn)輸行業(yè)數(shù)據(jù)倉(cāng)庫(kù)。

1 數(shù)據(jù)模型設(shè)計(jì)

數(shù)據(jù)模型是數(shù)據(jù)的組織和存儲(chǔ)方式,它是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的核心。一方面,數(shù)據(jù)模型是ETL的目標(biāo)結(jié)構(gòu),ETL的設(shè)計(jì)是基于數(shù)據(jù)模型而開展的;另一方面,數(shù)據(jù)模型是數(shù)據(jù)分析的基石,決定了報(bào)表邏輯以及機(jī)器學(xué)習(xí)等數(shù)據(jù)挖掘工具的數(shù)據(jù)輸入格式。數(shù)據(jù)倉(cāng)庫(kù)建模方法主要有范式建模(關(guān)系模型)和維度建模(多維模型)。

范式建模源于Inmon提出的集線器式自上而下的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)。關(guān)系模型通過(guò)使用關(guān)鍵字和外鍵在不同行的數(shù)據(jù)間建立關(guān)聯(lián),關(guān)系型數(shù)據(jù)以使數(shù)據(jù)分解成非常低粒度的標(biāo)準(zhǔn)化的形式存在,以標(biāo)準(zhǔn)化程度的不同可以分為:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)等。

維度建模源于Kimball博士提出的總線式自下而上的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),多維模型也稱星型連接。多維模型以包含大量數(shù)據(jù)值的事實(shí)表為中心,其周圍圍繞的維表用并不多的數(shù)據(jù)來(lái)描述事實(shí)表的某個(gè)重要方面。

兩種建模方式的特點(diǎn)歸納如表1所示。

表1 兩種建模方式特點(diǎn)歸納表

交通行業(yè)信息系統(tǒng)數(shù)據(jù)具有多源異構(gòu)、業(yè)務(wù)變動(dòng)頻繁、數(shù)據(jù)量大等特點(diǎn),因此,交通行業(yè)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)要求可擴(kuò)展性高、處理數(shù)據(jù)量大的建模方法,同時(shí)也需要兼顧開發(fā)人員行業(yè)經(jīng)驗(yàn)、開發(fā)維護(hù)成本等因素。本文嘗試采用一種新的建模方法Data Vault進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)建模。

2 使用Data Vault進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)

2.1 Data Vault及其特點(diǎn)

Data Vault是Dan Linstedt發(fā)明的一種數(shù)據(jù)模型,它強(qiáng)調(diào)數(shù)據(jù)的歷史性、可追溯性、原子性,不需要對(duì)數(shù)據(jù)進(jìn)行過(guò)度一致性處理和整合。同時(shí)它基于主題概念將數(shù)據(jù)進(jìn)行結(jié)構(gòu)化組織,并引入了更進(jìn)一步的范式處理來(lái)優(yōu)化模型,以應(yīng)對(duì)源系統(tǒng)變更的擴(kuò)展性。Data Vault主要由Hub、Link和Satellite三個(gè)部分組成。相較于范式建模和維度建模,Data Vault的優(yōu)越性明顯:

(1)可擴(kuò)展性高。實(shí)體分為實(shí)體的key值、實(shí)體的屬性值、實(shí)體的關(guān)系三種存在形式,三者分開存儲(chǔ),降低了耦合度,提高了靈活性與可擴(kuò)展性。

(2)符合大數(shù)據(jù)特征。Data Vault是基于客觀事實(shí)進(jìn)行的數(shù)據(jù)增量抽取,不做邏輯校驗(yàn),因此可以大規(guī)模抽取和處理數(shù)據(jù)。

(3)建模簡(jiǎn)單。模型中只有Hub、Link、Satellite表。只要區(qū)分這些表,剩下的重點(diǎn)就只有設(shè)計(jì)和調(diào)度ETL,這在很大程度上簡(jiǎn)化了建模過(guò)程。

(4)開發(fā)敏捷。使用Data Vault建模,2~3周即可完成一次迭代,發(fā)布周期短,可以更便捷地應(yīng)對(duì)業(yè)務(wù)需求。

2.2 Data Vault實(shí)體設(shè)計(jì)

Hub表示業(yè)務(wù)核心實(shí)體,由實(shí)體主鍵、倉(cāng)庫(kù)代理鍵、裝載時(shí)間、數(shù)據(jù)來(lái)源等構(gòu)成。BK為原系統(tǒng)的業(yè)務(wù)主鍵;SK為代理鍵,它由業(yè)務(wù)主鍵與來(lái)源節(jié)點(diǎn)LOG_SRC_NODE按規(guī)則生成,用來(lái)唯一標(biāo)識(shí)一個(gè)實(shí)體。Hub的代理鍵會(huì)向外延伸到與其相關(guān)的Satellite和Link中。

Link標(biāo)識(shí)Hub之間的關(guān)系,它是提升模型擴(kuò)展性的關(guān)鍵,不需要任何變更就可以直接表示1∶1、1∶n、n∶m的關(guān)系。

Satellite描述Hub或者Link的相關(guān)屬性和上下文內(nèi)容。代理鍵SK由Hub中延伸到Satellite的業(yè)務(wù)主鍵(在Satellite中為FK)和記錄變化時(shí)間LOG_CHG_TIME共同計(jì)算得出,由此可以記錄歷史信息。如圖1所示為在模型設(shè)計(jì)中常用的字段及其釋意。

圖1 實(shí)體示例圖

3 在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)過(guò)程中的應(yīng)用

3.1 業(yè)務(wù)模型

根據(jù)交通運(yùn)輸部印發(fā)的《交通運(yùn)輸政務(wù)信息資源目錄編制指南(試行)》(以下簡(jiǎn)稱編制指南),將信息資源劃分為行業(yè)、業(yè)務(wù)、管理對(duì)象、主題、信息類別五大分類。本文參考編制指南從宏觀視角對(duì)業(yè)務(wù)架構(gòu)進(jìn)行抽象,提出了“交通運(yùn)輸行業(yè)全域模型”,如圖2所示。全域模型考慮到數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市的建設(shè)需求以及不同維度的特征,選取對(duì)象、行業(yè)、職能事務(wù)三個(gè)維度進(jìn)行業(yè)務(wù)建模。由于任何事物都無(wú)法脫離時(shí)間與空間,且在交通運(yùn)輸領(lǐng)域這種聯(lián)系尤為突出,因此,本文在對(duì)象域中添加了時(shí)間、空間兩個(gè)維度。此外,職能事務(wù)域作為對(duì)目錄編制指南中業(yè)務(wù)分類的整理,考慮到交通領(lǐng)域大數(shù)據(jù)未來(lái)的發(fā)展,除業(yè)務(wù)本身外,補(bǔ)充了企業(yè)業(yè)務(wù)和公眾業(yè)務(wù)兩個(gè)維度。由于業(yè)務(wù)建模實(shí)際上是在選取的維度上進(jìn)行有限枚舉的劃分,因此反映到實(shí)際數(shù)據(jù)模型設(shè)計(jì)上時(shí)主要體現(xiàn)為對(duì)實(shí)體對(duì)象的命名劃分,如“H_船舶_運(yùn)輸裝備_水路交通_運(yùn)行管理”,下劃線區(qū)隔的后三部分“運(yùn)輸裝備_水路交通_運(yùn)行管理”分別從對(duì)象域、行業(yè)域和職能事務(wù)域三個(gè)維度對(duì)“船舶”這個(gè)Hub實(shí)體進(jìn)行描述。

圖2 交通運(yùn)輸行業(yè)全域模型圖

3.2 總體架構(gòu)

一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的定義為:數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)(DWS)=抽取/轉(zhuǎn)換/加載(ETL)+數(shù)據(jù)倉(cāng)庫(kù)(DW)+聯(lián)機(jī)分析處理(OLAP)+數(shù)據(jù)挖掘(DM)+決策支持(DS)。結(jié)合業(yè)務(wù)系統(tǒng)和數(shù)據(jù)來(lái)源情況,數(shù)據(jù)倉(cāng)庫(kù)整體架構(gòu)設(shè)計(jì)如圖3所示。

圖3 總體架構(gòu)圖

整個(gè)系統(tǒng)架構(gòu)分為數(shù)據(jù)源、數(shù)據(jù)平臺(tái)和應(yīng)用三個(gè)主要部分。數(shù)據(jù)平臺(tái)負(fù)責(zé)數(shù)據(jù)的ETL、存儲(chǔ)和處理,經(jīng)過(guò)匯總形成數(shù)據(jù)集市。本文關(guān)注的重點(diǎn)為數(shù)據(jù)倉(cāng)庫(kù)部分,此部分采用Data Vault建模方法進(jìn)行模型設(shè)計(jì)。通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)的解讀和分析,抽象出實(shí)體、關(guān)系及上下文等對(duì)象,然后按照對(duì)象的業(yè)務(wù)屬性從業(yè)務(wù)模型的三個(gè)維度進(jìn)行劃分并按照規(guī)則完成命名,最后設(shè)置相關(guān)屬性和主外鍵關(guān)系。當(dāng)設(shè)計(jì)完成后,從宏觀上看整個(gè)模型是由Hub、Link、Satellite組成的星型網(wǎng)狀結(jié)構(gòu),如圖4所示。

3.3 新數(shù)據(jù)的融合

Hub、Link和Satellite是刻劃實(shí)體和實(shí)體關(guān)系的基本要素,需要與實(shí)際業(yè)務(wù)相結(jié)合才能完成建模。使用Data Vault建模簡(jiǎn)單靈活,可擴(kuò)展性高。本文以一張新表(新實(shí)體)融入已有模型設(shè)計(jì)的過(guò)程為線索和切入點(diǎn),對(duì)建模過(guò)程進(jìn)行簡(jiǎn)要描述。假設(shè)當(dāng)前已經(jīng)存在航道實(shí)體即航道Hub,當(dāng)處理新引入的“瓶頸區(qū)段基本信息”表時(shí),得到以下顯示:

圖4 星型網(wǎng)狀結(jié)構(gòu)圖

(1)分析其內(nèi)部各個(gè)字段識(shí)別實(shí)體。注意到其屬性“瓶頸區(qū)域編號(hào)”為主鍵可以標(biāo)識(shí)一個(gè)實(shí)體,所以抽象為“瓶頸區(qū)域Hub”,而“航道編號(hào)”和“航道代碼”可以標(biāo)識(shí)與其關(guān)聯(lián)的航道實(shí)體,其他字段描述了瓶頸區(qū)域的相關(guān)屬性。

(2)表屬性“航道編號(hào)”和“航道代碼”表明航道與瓶頸區(qū)段存在has-a關(guān)系,因此可將這種關(guān)系抽象為一個(gè)Link。

(3)表中其他屬性則是描述瓶頸區(qū)段Hub這個(gè)實(shí)體的上下文信息,需要將其抽象出來(lái)作為瓶頸區(qū)段Hub的Satellite(可以根據(jù)屬性的使用頻度、重要性、來(lái)源等劃分為多個(gè)Satellite)。由此可得如圖5所示的實(shí)體關(guān)系。

圖5 實(shí)體關(guān)系示例圖

通過(guò)以上方式持續(xù)加入新的實(shí)體,發(fā)掘?qū)嶓w與實(shí)體的關(guān)系,可以逐步構(gòu)建出一張涵蓋所有交通運(yùn)輸行業(yè)業(yè)務(wù)實(shí)體及其關(guān)系的網(wǎng)。限于篇幅,本文不能完全展示建模的詳細(xì)過(guò)程,但通過(guò)此片段不難看出使用Data Vault來(lái)進(jìn)行建模具有可行性和很強(qiáng)的可操作性。

3.4 面向業(yè)務(wù)的后續(xù)數(shù)據(jù)處理

傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中,數(shù)據(jù)入倉(cāng)時(shí)要做數(shù)據(jù)預(yù)處理,去除掉不合理的數(shù)據(jù)。而Data Vault模型基于客觀事實(shí)進(jìn)行數(shù)據(jù)增量抽取,不做邏輯校驗(yàn),僅僅是反映了上游系統(tǒng)數(shù)據(jù)的真實(shí)性。而數(shù)據(jù)的處理工作相對(duì)靠后,在從數(shù)據(jù)倉(cāng)庫(kù)到集市的ETL過(guò)程中完成數(shù)據(jù)的清洗工作,或以新增中間緩沖層的處理方式解決。

Data Vault模型的這些特點(diǎn)在聯(lián)網(wǎng)收費(fèi)系統(tǒng)和票務(wù)系統(tǒng)中表現(xiàn)較為明顯,系統(tǒng)數(shù)據(jù)日增量在千萬(wàn)級(jí)別,數(shù)據(jù)ETL工作量大、耗費(fèi)資源。通過(guò)將數(shù)據(jù)從源系統(tǒng)直接抽取進(jìn)入Data Vault模型,然后基于模型內(nèi)的數(shù)據(jù),經(jīng)過(guò)清洗和轉(zhuǎn)換可以快速地建立出車輛主數(shù)據(jù)等主題應(yīng)用。由此可見,基于Data Vault 模型不但可以快速大規(guī)模地抽取和處理數(shù)據(jù),更符合大數(shù)據(jù)特征,同時(shí)可以快速生成面向業(yè)務(wù)分析需求的數(shù)據(jù)模型。

4 結(jié)語(yǔ)

本文介紹了基于Data Vault的數(shù)據(jù)倉(cāng)庫(kù)總體架構(gòu)和數(shù)據(jù)模型設(shè)計(jì)方法,為交通運(yùn)輸行業(yè)大數(shù)據(jù)中心和數(shù)據(jù)倉(cāng)庫(kù)建設(shè)提供了一種新的思路。目前已經(jīng)接入結(jié)構(gòu)化數(shù)據(jù)113.66億條記錄、2 100張表、29 591個(gè)字段?;谶@些數(shù)據(jù)現(xiàn)有兩個(gè)主要應(yīng)用:(1)整理出“人員”“公路路線”“行政機(jī)構(gòu)”“企業(yè)”“船舶”“車輛”等主數(shù)據(jù);(2)梳理出交通行業(yè)政務(wù)資源目錄。但目前引入的數(shù)據(jù)范圍和數(shù)據(jù)量仍較有限,數(shù)據(jù)模型設(shè)計(jì)的完備性、穩(wěn)定性、擴(kuò)展性還需要引入大量新數(shù)據(jù)源和更豐富的數(shù)據(jù)應(yīng)用來(lái)考驗(yàn)和優(yōu)化。在此基礎(chǔ)上,如何有效管理數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)以更好的輔助數(shù)據(jù)的挖掘、分析和利用;如何通過(guò)質(zhì)量審計(jì)來(lái)提高數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)質(zhì)量;如何利用大數(shù)據(jù)平臺(tái)高效存儲(chǔ)、管理非結(jié)構(gòu)化數(shù)據(jù)(如圖片、視頻等)也將成為研究的重點(diǎn)方向。

猜你喜歡
數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型范式
以寫促讀:構(gòu)建群文閱讀教學(xué)范式
甘肅教育(2021年10期)2021-11-02 06:14:08
范式空白:《莫失莫忘》的否定之維
孫惠芬鄉(xiāng)土寫作批評(píng)的六個(gè)范式
基于數(shù)據(jù)倉(cāng)庫(kù)的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
面板數(shù)據(jù)模型截面相關(guān)檢驗(yàn)方法綜述
管窺西方“詩(shī)辯”發(fā)展史的四次范式轉(zhuǎn)換
加熱爐爐內(nèi)跟蹤數(shù)據(jù)模型優(yōu)化
分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉(cāng)庫(kù)中的設(shè)計(jì)
電子制作(2016年15期)2017-01-15 13:39:15
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析探索與實(shí)踐
宝鸡市| 札达县| 曲周县| 霍林郭勒市| 高淳县| 普兰店市| 榆中县| 蒙阴县| 襄垣县| 高州市| 阜平县| 余干县| 岫岩| 乐安县| 兴业县| 噶尔县| 安多县| 若羌县| 福州市| 上虞市| 锦州市| 北票市| 乃东县| 洛宁县| 鸡西市| 太保市| 子洲县| 合山市| 鹤岗市| 晋城| 孝昌县| 崇文区| 黄梅县| 彩票| 独山县| 庄浪县| 新干县| 祥云县| 玛纳斯县| 乌拉特前旗| 黄浦区|