国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Data Vault 2.0在企業(yè)數(shù)字檔案室建設中的應用淺析

2018-11-29 06:01:46海洋石油工程股份有限公司張寅
辦公室業(yè)務 2018年22期
關(guān)鍵詞:數(shù)據(jù)倉庫檔案館架構(gòu)

文/海洋石油工程股份有限公司 張寅

一、對企業(yè)數(shù)字檔案館的理解

隨著企業(yè)信息化水平的不斷提高,在企業(yè)內(nèi)、外部圍繞各業(yè)務逐步建立了許多信息系統(tǒng),并形成了大量有價值的數(shù)字資源。為了更好地管理、保護這些企業(yè)的無形資產(chǎn),發(fā)揮其巨大信息與經(jīng)濟價值,企業(yè)數(shù)字檔案館建設概念應運而生。

國家檔案局在《企業(yè)數(shù)字檔案館(室)建設指南》中明確提出企業(yè)數(shù)字檔案館(室)是指“企業(yè)運用現(xiàn)代信息技術(shù)固化檔案工作業(yè)務流程,對本企業(yè)或與其具有資產(chǎn)隸屬關(guān)系企業(yè)的電子檔案或其他數(shù)字資源進行收集、整理、保存,并通過網(wǎng)絡提供檔案信息服務和共享利用的集成管理系統(tǒng)平臺”。從定義中不難看出,企業(yè)數(shù)字檔案館管理的對象主要是“數(shù)字資源”,包含了企業(yè)內(nèi)、外部在業(yè)務活動中形成的結(jié)構(gòu)化數(shù)據(jù)(例如關(guān)系型數(shù)據(jù)庫)與非結(jié)構(gòu)化數(shù)據(jù)(例如word、圖片、音視頻等)。企業(yè)數(shù)字檔案館的最終目標是希望通過標準化、集中統(tǒng)一的管理手段,確保企業(yè)的數(shù)字資源能夠在長期保存過程中始終提供準確、完整、可用、安全的信息服務。

二、Data Vault 2.0

(一)數(shù)據(jù)倉庫與Data Vault 2.0。數(shù)據(jù)倉庫是企業(yè)信息處理的一個基礎(chǔ),它被定義為面向主題的、集成的、隨時間變化的、一個支持決策管理的數(shù)據(jù)集合。數(shù)據(jù)倉庫技術(shù)的相關(guān)理念與企業(yè)檔案工作有許許多多的共性,兩者都要求在企業(yè)級層面對信息進行管理,筆者認為如果把企業(yè)數(shù)字檔案館理解為一個概念框架,那數(shù)據(jù)倉庫則是實現(xiàn)該框架的重要技術(shù)手段之一。Data Vault 2.0(以下簡稱DV2)是一個商業(yè)智能系統(tǒng),所謂Data Vault其真實的名稱應為“公共基礎(chǔ)性倉庫架構(gòu)”,該系統(tǒng)包含了與數(shù)據(jù)倉庫設計、實施和管理的相關(guān)業(yè)務。在Data Vault 1.0時期其高度關(guān)注數(shù)據(jù)建模的部分,2.0版本在原有架構(gòu)基礎(chǔ)上進行了廣泛擴展,增加了許多在數(shù)據(jù)倉庫和商業(yè)智能方面成功的必要組件,具體包括:1.DV2建模:對模型性能和可擴展性的更改。2.DV2方法:遵循Scrum和敏捷最佳實踐。3.DV2架構(gòu):包括NoSQL系統(tǒng)和大數(shù)據(jù)系統(tǒng)。4.DV2實現(xiàn):基于模式、自動化生成CMMI級別5。這些組件在企業(yè)數(shù)據(jù)倉庫項目的總體中起著關(guān)鍵作用,本文主要針對DV2架構(gòu)與建模進行介紹。

(二)Data Vault 2.0架構(gòu)。DV2架構(gòu)基于三層數(shù)據(jù)倉庫架構(gòu),三個層次一般理解為暫存區(qū)(或集結(jié)區(qū))、數(shù)據(jù)倉庫和信息市場(或數(shù)據(jù)集市),“圖1”展示了DV2總體架構(gòu)的概覽。其主要特點包括以下幾點:1.暫存區(qū)中不存儲歷史信息,同時不支持數(shù)據(jù)修改,但當數(shù)據(jù)倉庫可以支持近實時處理時,對暫存區(qū)的需求和依賴度會下降,實時數(shù)據(jù)可直接傳輸至數(shù)據(jù)倉庫層;2.數(shù)據(jù)倉庫層遵循Data Vault建模技術(shù)。3.架構(gòu)支持一個或多個依賴數(shù)據(jù)倉庫的信息集市,而元市場(Meta Mart)是一個非常重要的組成,負責收集整個數(shù)據(jù)倉庫的元數(shù)據(jù)信息。4.架構(gòu)分離了軟硬業(yè)務規(guī)則,使企業(yè)數(shù)據(jù)倉庫成為一個面向原始事實的記錄系統(tǒng)(Raw Data Vault),并隨時間推移不斷裝載原始事實。5.包含一個可選的“指標庫”(Metrics Vault),即用于捕獲和記錄運行的相關(guān)信息。6.包含一個可選的“業(yè)務庫”(Business Vault),即按照業(yè)務規(guī)則或需求將原始數(shù)據(jù)變換為業(yè)務所需或理解的數(shù)據(jù)。7.包含一個可選的“操作庫”(Operational Vault),即某些業(yè)務系統(tǒng)可直接將數(shù)據(jù)存儲到數(shù)據(jù)倉庫中,例如主數(shù)據(jù)管理、元數(shù)據(jù)管理、實時采集等。8.自助BI(Business Intelligent),允許業(yè)務人員在不涉及信息技術(shù)的情況下,可自由執(zhí)行自定義的數(shù)據(jù)分析任務,并允許將它們回寫至數(shù)據(jù)倉庫層。9.架構(gòu)可與大數(shù)據(jù)處理hadoop或Nosql無縫對接,主要用于海量數(shù)據(jù)存儲與執(zhí)行數(shù)據(jù)挖掘。

圖1 Data Vault 2.0架構(gòu)總覽

(三)Data Vault 2.0模型。DV2模型是一個面向細節(jié)的、可追溯的并且唯一鏈接的規(guī)范化表集。從建模風格上看,它采用了一種由第三范式與維度建模方法混合而成的方式,以二者的獨特組合來滿足需求。DV2在建模過程中采用了中心輻射型圖形模式,這意味著除了由基礎(chǔ)設施造成的限制之外,其可以表示的數(shù)據(jù)規(guī)模不存在已知的固有限制。在DV2模型中有三個基本實體,各個實體均已散列碼為主鍵(PK):1.中心表(Hub):唯一業(yè)務鍵列表,存儲各業(yè)務對象的業(yè)務鍵及相關(guān)元數(shù)據(jù),標準的結(jié)構(gòu)包括散列鍵、業(yè)務鍵、加載日期、記錄來源等屬性。2.鏈接表(Link):記錄中心表鍵與鍵之間唯一關(guān)系的列表,表示業(yè)務對象間的關(guān)系或聯(lián)系,標準的結(jié)構(gòu)包括散列鍵、加載日期、記錄來源等屬性。3.衛(wèi)星表(SateLite):歷史的描述性數(shù)據(jù),存儲業(yè)務對象、關(guān)聯(lián)性等具體屬性信息,并通過主鍵外聯(lián)中心表或鏈接表,標準的結(jié)構(gòu)包括散列鍵、加載日期、記錄來源、父散列鍵、失效時間、散列校驗值及業(yè)務屬性等。

三、應用前景分析

(一)在資源整合方面的應用。企業(yè)數(shù)字資源大多由前端業(yè)務系統(tǒng)產(chǎn)生,這些系統(tǒng)在設計、建設時往往只考慮自身縱向的業(yè)務邏輯與功能需求,缺少了在企業(yè)層面統(tǒng)一的數(shù)據(jù)規(guī)劃與語義標準,例如不同的系統(tǒng)描述同一個員工的唯一標識(ID)可能不同,異構(gòu)的數(shù)據(jù)源給數(shù)字檔案館在數(shù)字資源整合帶來很大困難。在DV2中,由于使用散列鍵作為中心表的主鍵,使用“same-as”衛(wèi)星表可很方便地整合對同一業(yè)務對象的不同標識,而不需再為改變源系統(tǒng)中的業(yè)務鍵而發(fā)愁。同時面對整合過程中出現(xiàn)數(shù)據(jù)類型與粒度的不匹配情況,中心表可以按照數(shù)據(jù)來源與變更的頻率,通過散列鍵外聯(lián)多個衛(wèi)星表,從而確保異構(gòu)數(shù)據(jù)源能夠迅速整合及數(shù)據(jù)原始性。此外,散列主鍵還可以無縫對接Hadoop或Nosql,從而進一步實現(xiàn)文檔、圖片、視頻等非結(jié)構(gòu)化數(shù)字資源的整合與海量存儲。

(二)在資源真實性鑒定方面的應用。企業(yè)數(shù)字檔案館其中一個重要目標是要做到維護歷史數(shù)據(jù)的真實性,這種真實性體現(xiàn)在兩個方面:一是技術(shù)真實性,即數(shù)字資源在長期保存過程中沒有被誤改或篡改。二是來源真實性,即數(shù)字資源記錄了真實的業(yè)務活動。如何確保數(shù)字資源的真實性與可追溯性也是在集成管理和長期保存中亟待解決的難題。在DV2架構(gòu)中要求建立一個面向原始事實的記錄系統(tǒng)(Raw Data Vault),存儲在數(shù)據(jù)倉庫層的數(shù)據(jù)可以擁有不同的版本與失效時間,但不可修改。在中心表、鏈接表、衛(wèi)星表均記錄了數(shù)據(jù)的來源與加載時間,衛(wèi)星表中還通過保存各屬性的散列運算值提供校驗??梢哉fDV2架構(gòu)可追隨、可審計性為數(shù)字資源的真實性鑒定提供了有力保障。

(三)在數(shù)字資源利用分析方面的應用?,F(xiàn)階段企業(yè)檔案管理部門針對數(shù)字檔案館建設主要圍繞著館藏檔案數(shù)字化和檔案全文數(shù)據(jù)建設以及服務利用信息化、網(wǎng)絡化。這種服務比較原始、單一,更多的被動等待式的利用。數(shù)據(jù)時代背景下沒有經(jīng)過分析、挖掘,難以體現(xiàn)數(shù)字資源自身及集中管理的價值。而在DV2架構(gòu)中由中心表、鏈接表和衛(wèi)星表組成的中心輻射型模型可以非常簡便地轉(zhuǎn)化為維度模型,并在靈活的軟規(guī)則變換中(即不影響原始數(shù)據(jù)的前提下)迅速地構(gòu)建多種信息市場(或數(shù)據(jù)集市),實現(xiàn)數(shù)字資源的復用和分析挖掘,同時因架構(gòu)良好的擴展性,大大降低了因企業(yè)內(nèi)部需求變化或多部門觀察角度不同,導致信息市場重建的風險。

猜你喜歡
數(shù)據(jù)倉庫檔案館架構(gòu)
基于FPGA的RNN硬件加速架構(gòu)
功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應用和實踐
汽車工程(2021年12期)2021-03-08 02:34:30
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設信息系統(tǒng)整合研究
LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實現(xiàn)
電信科學(2017年6期)2017-07-01 15:45:17
關(guān)于縣級檔案館館藏檔案開發(fā)利用的思考
全省部分檔案館新館掠影
浙江檔案(2017年10期)2017-03-31 06:27:31
分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設計
電子制作(2016年15期)2017-01-15 13:39:15
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應用
基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
一種基于FPGA+ARM架構(gòu)的μPMU實現(xiàn)
江阴市| 余庆县| 昭觉县| 子洲县| 泗洪县| 固原市| 临安市| 正安县| 崇文区| 天祝| 南康市| 京山县| 黄冈市| 永寿县| 贵德县| 西安市| 兰考县| 京山县| 芜湖市| 三明市| 泰宁县| 深州市| 隆德县| 开封县| 安康市| 铅山县| 乌兰察布市| 滦平县| 江口县| 安庆市| 封开县| 吉木萨尔县| 南城县| 奉节县| 台东县| 中阳县| 霞浦县| 富顺县| 清新县| 岳阳市| 宝清县|