冉朝霞
摘要:本文闡述了數(shù)據(jù)倉庫的三種構(gòu)建策略,提出了一種聯(lián)合數(shù)據(jù)倉庫的體系結(jié)構(gòu)。
關(guān)鍵詞:數(shù)據(jù)倉庫構(gòu)建策略體系結(jié)構(gòu)
數(shù)據(jù)倉庫是一種面向主題的、集成的、隨時間的變化且具非易失性的數(shù)據(jù)集合。它是對傳統(tǒng)數(shù)據(jù)庫技術(shù)在站場式數(shù)據(jù)管理需求下的提升,借助這項技術(shù),不僅可以開展數(shù)據(jù)信息的知識化管理,將庫內(nèi)各類數(shù)據(jù)、信息關(guān)聯(lián)起來,建立信息知識庫,并按照信息知識的含義,分門別類,達(dá)到實現(xiàn)知識應(yīng)用的目的,同時還可以將檔案管理工作中的非數(shù)字化信息納入管理工作的范疇,提高檔案的利用率。
1數(shù)據(jù)倉庫的構(gòu)建策略
數(shù)據(jù)倉庫最早是W.H.Inmon于1992年提出的,他指出,數(shù)據(jù)倉庫是面向主題的、集成的、時間變異的、非違約的一系列用于管理和決策制定的數(shù)據(jù)集。
數(shù)據(jù)倉庫按照范圍層次的不同,分為企業(yè)級全局?jǐn)?shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫。全局?jǐn)?shù)據(jù)倉庫在全組織范圍內(nèi)為各個部門提供管理、決策支持,又名中央數(shù)據(jù)倉庫:部門級數(shù)據(jù)倉庫一般只為某個局部范圍內(nèi)的管理人員服務(wù),也稱為數(shù)據(jù)集市。下面介紹數(shù)據(jù)倉庫常見的三種構(gòu)建策略。
1.1“自底向上”建立數(shù)據(jù)倉庫。“自底向上”建立數(shù)據(jù)倉庫的過程如下:業(yè)務(wù)系統(tǒng)源數(shù)據(jù)庫——獨(dú)立數(shù)據(jù)集市——企業(yè)級數(shù)據(jù)倉庫,整個過程分為兩個步驟:
第一步是從關(guān)鍵的部分開始,先建立部門級數(shù)據(jù)集市,并不斷進(jìn)行擴(kuò)充和完善,每個數(shù)據(jù)集市包含某一特定業(yè)務(wù)領(lǐng)域的數(shù)據(jù)。在這一步中,通過ETL流程把業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換后加載到數(shù)據(jù)集市,然后通過OLAP工具或數(shù)據(jù)挖掘工具直接訪,問數(shù)據(jù)集市便可進(jìn)行信息分析,從而把用于數(shù)據(jù)分析與決策支持的數(shù)據(jù)集市與業(yè)務(wù)處理系統(tǒng)物理上分離,每個數(shù)據(jù)集市可獨(dú)立實施來執(zhí)行數(shù)據(jù)倉庫的職能,因此也稱為獨(dú)立數(shù)據(jù)集市,但需要指出的是。信息技術(shù)人員必須針對每個數(shù)據(jù)集市設(shè)計獨(dú)立的ETL處理程序,把各業(yè)務(wù)系統(tǒng)的操作數(shù)據(jù)按照需要分別轉(zhuǎn)換到相應(yīng)的獨(dú)立數(shù)據(jù)集市中。
獨(dú)立數(shù)據(jù)集市的優(yōu)點(diǎn)表現(xiàn)在:一是初期投資較少,并能迅速獲取回報;二是就單個數(shù)據(jù)集市來說。因其數(shù)據(jù)結(jié)構(gòu)相對較簡單,管理比較容易。缺點(diǎn)表現(xiàn)在:一是各數(shù)據(jù)集市中存在數(shù)據(jù)不一致的問題,難以直接進(jìn)行跨數(shù)據(jù)集市的信息訪問,導(dǎo)致出現(xiàn)一個個信息孤島:二是隨著數(shù)據(jù)集市的增加,系統(tǒng)結(jié)構(gòu)將變得復(fù)雜而難以維護(hù),并且系統(tǒng)整體投資迅速增加。因此,如果要以整個企業(yè)的視圖來分析數(shù)據(jù),獨(dú)立數(shù)據(jù)集市不是合適的選擇?,F(xiàn)在,人們在規(guī)劃數(shù)據(jù)倉庫時已經(jīng)逐漸轉(zhuǎn)為實施企業(yè)級的數(shù)據(jù)倉庫。
第二步是當(dāng)更多的主題加入數(shù)據(jù)集市時,將這些獨(dú)立數(shù)據(jù)集市進(jìn)行再集成,最終建立的就是企業(yè)級數(shù)據(jù)倉庫。通過本步驟的實施雖然能最終解決數(shù)據(jù)的一致性問題,但缺點(diǎn)為:一是對數(shù)據(jù)集市的集成難度較大;二是企業(yè)級數(shù)據(jù)倉庫本身投資巨大,這會進(jìn)一步加大系統(tǒng)的整體投資,同時將會導(dǎo)致第一步中對獨(dú)立數(shù)據(jù)集市的投資出現(xiàn)浪費(fèi)現(xiàn)象。
1.2“自頂向下”建立數(shù)據(jù)倉庫。W.H.Inmon曾提出“自頂向下”建立數(shù)據(jù)倉庫的方法,也就是說,先建立一個全局的數(shù)據(jù)倉庫,然后在其基礎(chǔ)上建立部門級和個人級的數(shù)據(jù)集市。
ETL流程首先將所有業(yè)務(wù)處理系統(tǒng)中的數(shù)據(jù)按照統(tǒng)一的存儲模型加載到中央數(shù)據(jù)倉庫,然后再按照各部門特定的需求把相關(guān)數(shù)據(jù)復(fù)制到部門數(shù)據(jù)集市。因為中央數(shù)據(jù)倉庫匯集了來自各業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù),同時也負(fù)責(zé)向各數(shù)據(jù)集市提供信息。業(yè)務(wù)人員在進(jìn)行數(shù)據(jù)分析與信息訪問時將根據(jù)需要連接到不同的數(shù)據(jù)集市。
這種結(jié)構(gòu)的優(yōu)點(diǎn)是解決了統(tǒng)一數(shù)據(jù)存儲模型和數(shù)據(jù)一致性的問題,有利于各級數(shù)據(jù)倉庫的一致性的控制。缺點(diǎn)主要體現(xiàn)在三個方面:一是業(yè)務(wù)人員對信息的訪問非常不方便,很難進(jìn)行跨數(shù)據(jù)集市之間的信息分析:二是全局?jǐn)?shù)據(jù)倉庫本身建設(shè)規(guī)模大,投資巨大,并且實施周期長,見效較慢;三是當(dāng)數(shù)據(jù)集市增加時,會使系統(tǒng)整體投資迅速增加,同時管理的復(fù)雜性也隨之增加。
1.3建立統(tǒng)一的企業(yè)級數(shù)據(jù)倉庫。數(shù)據(jù)集市分為物理與邏輯兩種,物理數(shù)據(jù)集市設(shè)立在中央數(shù)據(jù)倉庫之外,具有專門的軟硬件設(shè)備,一般都使用OLAP服務(wù)器,按照特定需求組建多維立方體來提供多維信息分析;邏輯數(shù)據(jù)集市設(shè)立在中央數(shù)據(jù)倉庫之內(nèi),由在基礎(chǔ)數(shù)據(jù)之上形成的小結(jié)表或者邏輯視圖組成,數(shù)據(jù)集市主要針對粒度較粗、預(yù)先定義的分析需求,對于動態(tài)的業(yè)務(wù)查詢,粒度較細(xì)的或者針對基礎(chǔ)數(shù)據(jù)的分析則不能完成。中央數(shù)據(jù)倉庫采用符合數(shù)據(jù)庫范式理論(一般為第三范式、的存儲模型來保存基礎(chǔ)數(shù)據(jù),從而為整個企業(yè)提供一致的信息視圖。在中央數(shù)據(jù)倉庫中還設(shè)立了一個數(shù)據(jù)轉(zhuǎn)換與緩沖區(qū),作為ETL處理的一部分。這是因為在很多數(shù)據(jù)倉庫的ETL處理流程中,增加了一個ODS層來進(jìn)行數(shù)據(jù)的整理,但這將大大增加整體投資和管理復(fù)雜性,理想的方法是,在中央數(shù)據(jù)倉庫中設(shè)置一部分存儲空間作為數(shù)據(jù)轉(zhuǎn)換與緩沖區(qū),借助數(shù)據(jù)倉庫引擎強(qiáng)大的復(fù)雜查詢處理能力,通過SQL實現(xiàn)數(shù)據(jù)的轉(zhuǎn)換與清洗。
這種數(shù)據(jù)倉庫結(jié)構(gòu)解決了其他數(shù)據(jù)倉庫結(jié)構(gòu)中存在的諸多問題,是一種比較理想的企業(yè)級數(shù)據(jù)倉庫系統(tǒng)架構(gòu)。但由于把詳細(xì)數(shù)據(jù)分析、部分的數(shù)據(jù)轉(zhuǎn)換與清洗等復(fù)雜處理均集中在中央數(shù)據(jù)倉庫,從而對作為數(shù)據(jù)倉庫引擎的RDBMS和相應(yīng)的服務(wù)器帶來了極大的挑戰(zhàn)。選擇這種數(shù)據(jù)倉庫基礎(chǔ)平臺的基本要求是:數(shù)據(jù)倉庫引擎和相應(yīng)的數(shù)據(jù)庫服務(wù)器具有優(yōu)良的線性擴(kuò)展能力,系統(tǒng)具有非常好的并行處理能力,能有效而簡單地進(jìn)行系統(tǒng)管理。
2檔案管理中的聯(lián)合數(shù)據(jù)倉庫體系結(jié)構(gòu)
數(shù)據(jù)倉庫的應(yīng)用按用戶的需求可分為信息的使用和知識的挖掘兩類,數(shù)據(jù)挖掘即為知識發(fā)現(xiàn)中的一個步驟,知識發(fā)現(xiàn)過程一般由以下幾個步驟組成:①數(shù)據(jù)清理;②數(shù)據(jù)集成;③數(shù)據(jù)選擇;④數(shù)據(jù)變換;⑤數(shù)據(jù)挖掘;⑥模式評估;⑦知識表示。數(shù)據(jù)挖掘的概念就是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息庫中的大量數(shù)據(jù)中識別出有效的、新穎的、潛在有用的,以及最終可理解的知識的過程。利用數(shù)據(jù)倉庫技術(shù)建立知識管理工具庫,對相關(guān)的顯性和隱性知識資源進(jìn)行明晰化、系統(tǒng)化地管理。定位擁有專門技能的人,建立專家網(wǎng)絡(luò),讓所有人都能快速而方便地學(xué)習(xí)或了解所需要的信息和知識,無論數(shù)據(jù)庫、文檔、圖片還是音像信息。要達(dá)到這一目標(biāo),我們就需對知識進(jìn)行合理地分類規(guī)劃,將它們分門別類地放進(jìn)各個倉庫里,因此,分類整理、存儲及管理知識倉庫是數(shù)據(jù)挖掘的重要步驟。
將數(shù)據(jù)倉庫技術(shù)應(yīng)用于檔案的知識化管理,較為常見的就是通過對檔案數(shù)據(jù)開展研究,形成專業(yè)的數(shù)據(jù)處理系統(tǒng)。數(shù)據(jù)處理系統(tǒng)主要形式有兩種:基于知識庫的模糊推理和基于庫存檔案資料的模糊推理。數(shù)據(jù)倉庫技術(shù)對各類工作過程中發(fā)生的所有數(shù)據(jù)進(jìn)行了集成、綜合、對比,其數(shù)據(jù)真實可信,對比性和推理性強(qiáng)。因此,基于數(shù)據(jù)倉庫技術(shù)的知識化管理