国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)倉庫技術(shù)與多維數(shù)據(jù)集實(shí)現(xiàn)

2011-01-13 06:15
天中學(xué)刊 2011年2期
關(guān)鍵詞:數(shù)據(jù)倉庫數(shù)據(jù)源維度

程 磊

(黃淮學(xué)院 電子科學(xué)與工程系,河南 駐馬店 463000)

數(shù)據(jù)倉庫技術(shù)與多維數(shù)據(jù)集實(shí)現(xiàn)

程 磊

(黃淮學(xué)院 電子科學(xué)與工程系,河南 駐馬店 463000)

隨著數(shù)據(jù)庫技術(shù)的發(fā)展和數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多,出現(xiàn)了“數(shù)據(jù)擁擠”現(xiàn)象.?dāng)?shù)據(jù)倉庫可以對數(shù)據(jù)進(jìn)行有效集成,是數(shù)據(jù)分析與決策支持的基礎(chǔ),是把數(shù)據(jù)轉(zhuǎn)換成信息知識的關(guān)鍵技術(shù).

數(shù)據(jù)倉庫;商業(yè)智能;多維數(shù)據(jù)集

隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多,出現(xiàn)了“數(shù)據(jù)擁擠”現(xiàn)象.激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù).目前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但由于缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,從而導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象.因此,解決數(shù)據(jù)擁擠問題同時(shí)使數(shù)據(jù)充分得到利用,是目前的研究熱點(diǎn)之一.

1 數(shù)據(jù)庫與數(shù)據(jù)倉庫

傳統(tǒng)的數(shù)據(jù)庫技術(shù)是以單一的數(shù)據(jù)資源(數(shù)據(jù)庫)為中心進(jìn)行事務(wù)處理,主要包括操作型處理和分析型處理.操作型處理也叫事務(wù)處理,是指對數(shù)據(jù)庫的聯(lián)機(jī)日常操作,通常是對一個(gè)或一組紀(jì)錄的查詢和修改,注重響應(yīng)時(shí)間,注重?cái)?shù)據(jù)的安全性和完整性;分析型處理主要用于管理人員的決策分析,經(jīng)常要訪問大量的歷史數(shù)據(jù).

目前,傳統(tǒng)數(shù)據(jù)庫系統(tǒng)已經(jīng)無法滿足數(shù)據(jù)處理多樣化的要求,操作型處理和分析型處理的分離已成為必然.20年前,在數(shù)據(jù)庫中查詢不到數(shù)據(jù)是因?yàn)閿?shù)據(jù)太少,而今天查詢不到數(shù)據(jù)是因?yàn)閿?shù)據(jù)太多了.針對這一問題,人們設(shè)想專門為業(yè)務(wù)的統(tǒng)計(jì)分析建立一個(gè)數(shù)據(jù)中心,這個(gè)數(shù)據(jù)中心就叫做數(shù)據(jù)倉庫,它的數(shù)據(jù)來自于聯(lián)機(jī)的事務(wù)處理系統(tǒng)、異構(gòu)的外部數(shù)據(jù)源和脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù).

20世紀(jì)80年代中期,數(shù)據(jù)倉庫之父William H. Inmon將數(shù)據(jù)倉庫定義為:“一個(gè)面向主題的、集成的、非易失的、隨時(shí)間而不斷變化的數(shù)據(jù)集合,用來支持管理人員做出決策.”數(shù)據(jù)倉庫具有以下特性:(1) 面向主題,即數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題進(jìn)行組織的.(2) 集成性.?dāng)?shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上,經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息;(3) 相對穩(wěn)定性.?dāng)?shù)據(jù)倉庫主要供企業(yè)決策分析之用,數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期進(jìn)行加載和刷新.(4) 反映歷史變化.?dāng)?shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某時(shí)(如開始應(yīng)用數(shù)據(jù)倉庫的時(shí)間)到目前各個(gè)階段的信息,利用這些信息可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測.

2 數(shù)據(jù)倉庫技術(shù)

2.1 數(shù)據(jù)倉庫的相關(guān)概念

假設(shè)一個(gè)銷售系統(tǒng)的數(shù)據(jù)庫包含時(shí)間表(時(shí)間編號、年份、月份、日期)、地區(qū)表(地區(qū)編號、地區(qū)、省份、城市)、產(chǎn)品表(產(chǎn)品編號、產(chǎn)品種類、產(chǎn)品名稱)和銷售表(銷售編號、時(shí)間編號、地區(qū)編號、產(chǎn)品編號、單位成本、銷售量、銷售額),每個(gè)產(chǎn)品項(xiàng)的每次銷售在銷售表中有一條記錄.銷售記錄的信息可能包括銷售發(fā)生的地點(diǎn),售出的日期,以及售出產(chǎn)品的單位成本、銷售量和銷售額,這些信息中的每一類都可組織為自己的維度表.地點(diǎn)信息放在地區(qū)維度表中,時(shí)間信息放在時(shí)間維度表中,產(chǎn)品信息放在產(chǎn)品維度表中,而銷售表就是銷售事實(shí)表.

與數(shù)據(jù)倉庫相關(guān)的概念主要有:(1) 事實(shí)表,用于保存度量值的詳細(xì)值或事實(shí),表中的每列要么是鍵值列(銷售量或銷售額),要么是度量值列(時(shí)間編號、地區(qū)編號或產(chǎn)品編號).(2) 維度表,用于保存一類屬性的集合,其鍵屬性必須能夠唯一地標(biāo)識每一個(gè)成員,每個(gè)維度表中的主鍵列都與相關(guān)的事實(shí)表的鍵值列對應(yīng)(如時(shí)間表中的時(shí)間編號與銷售表中的時(shí)間編號對應(yīng)).(3) 事實(shí)數(shù)據(jù),即用于描述度量值的數(shù)據(jù).如果給某一個(gè)維度一個(gè)確定的值,事實(shí)數(shù)據(jù)的值也就確定下來了;如果某一個(gè)維度值未知,事實(shí)數(shù)據(jù)則是對其他維度的匯總信息.(4) 維度數(shù)據(jù),是指描述屬性的數(shù)據(jù),具有層次性結(jié)構(gòu).維度表中的每個(gè)屬性都可以作為維度數(shù)據(jù),如年份和月份都可以作為一個(gè)時(shí)間維度,若將年份與月份的組合作為一個(gè)時(shí)間維度,時(shí)間維度就是一個(gè)層次結(jié)構(gòu),年份的下一個(gè)層次是月份.(5) 元數(shù)據(jù),是對數(shù)據(jù)的描述,如對數(shù)據(jù)庫、表、列、列屬性(類型、格式、約束等)及主鍵/外鍵關(guān)聯(lián)的描述,定義數(shù)據(jù)源的位置及數(shù)據(jù)源的屬性,等等.元數(shù)據(jù)是數(shù)據(jù)倉庫的核心,一般由數(shù)據(jù)倉庫自動(dòng)生成.(6) 數(shù)據(jù)集市,是面向特定應(yīng)用的決策數(shù)據(jù)集合,它與數(shù)據(jù)倉庫的關(guān)系類似于視圖與表的關(guān)系.

2.2 構(gòu)建數(shù)據(jù)倉庫的基本流程

構(gòu)建數(shù)據(jù)倉庫的流程如圖1所示,其中:數(shù)據(jù)源即數(shù)據(jù)倉庫的數(shù)據(jù)來源,一個(gè)數(shù)據(jù)倉庫可以有多個(gè)異構(gòu)的數(shù)據(jù)源,可以是關(guān)系數(shù)據(jù)庫如SQL、DB2等,也可以是Excel、Word、HTML、XML和文本文件;數(shù)據(jù)抽取是指抽取數(shù)據(jù)源中與分析主題相關(guān)的數(shù)據(jù);數(shù)據(jù)清洗是指清除數(shù)據(jù)中存在的錯(cuò)誤,糾正不一致的數(shù)據(jù),刪除重復(fù)的數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換是指通過規(guī)范化統(tǒng)一數(shù)據(jù)格式,如不同的數(shù)據(jù)源中可能分別用上海、申城等表示上海市出生的客戶,應(yīng)將它們統(tǒng)一為其中的某個(gè)值;數(shù)據(jù)加載是指把抽取、清洗、轉(zhuǎn)換后的數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫;基于數(shù)據(jù)倉庫的應(yīng)用主要是指數(shù)據(jù)分析和決策支持,如數(shù)據(jù)挖掘等.

圖1 構(gòu)建數(shù)據(jù)倉庫的流程圖

3 數(shù)據(jù)倉庫構(gòu)建過程中應(yīng)注意的問題

3.1 數(shù)據(jù)分析主題的確定

要明確數(shù)據(jù)分析的目的,即從哪方面的數(shù)據(jù)著手,找出哪些因素影響著商業(yè)活動(dòng),如何協(xié)調(diào)這些因素從而達(dá)到商業(yè)利潤最大化.在一個(gè)銷售系統(tǒng)中,有關(guān)于銷售信息的數(shù)據(jù),也有關(guān)于庫存信息的數(shù)據(jù),如果分析的主題是時(shí)間、區(qū)域和產(chǎn)品對銷售情況的影響,就可以忽略庫存信息.

3.2 數(shù)據(jù)的清洗與轉(zhuǎn)換

在各個(gè)異構(gòu)的數(shù)據(jù)源集成到目標(biāo)數(shù)據(jù)庫之前,要進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換,如刪除重復(fù)的記錄、統(tǒng)一數(shù)據(jù)格式、條件拆分一張表、合并兩張表、排序、查找兩表關(guān)聯(lián)字段實(shí)現(xiàn)派生列等.若給定的數(shù)據(jù)源是“干凈的”(正確的,統(tǒng)一的),則數(shù)據(jù)清洗與轉(zhuǎn)換的過程基本可以忽略.

3.3 維度表和事實(shí)表的確定

首先要確定時(shí)間維度表,若目標(biāo)數(shù)據(jù)庫中沒有,則必須手工在目標(biāo)數(shù)據(jù)庫中創(chuàng)建一張時(shí)間表作為時(shí)間維度表.可以根據(jù)分析的主題,從目標(biāo)數(shù)據(jù)庫中選擇描述商業(yè)分析的表作為維度表,度量商業(yè)分析結(jié)果的表作為事實(shí)表.

3.4 數(shù)據(jù)的加載和數(shù)據(jù)多維集的構(gòu)建

此過程需要確定維度表與事實(shí)表的關(guān)聯(lián)關(guān)系(又稱引用關(guān)系),最后加載到數(shù)據(jù)立方體(cube,又稱多維數(shù)據(jù)集)中.例如,若從購買地區(qū)、購買時(shí)間和產(chǎn)品名稱3個(gè)視角建立一個(gè)銷售數(shù)據(jù)立方,那么數(shù)據(jù)立方體上的1個(gè)點(diǎn)包含3個(gè)值,即特定的地區(qū)、產(chǎn)品和日期.由于商務(wù)視角的多樣性,大多數(shù)情況下數(shù)據(jù)立方是以三維以上的方式組成的.

數(shù)據(jù)倉庫的興起實(shí)際是由數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)分析的一種轉(zhuǎn)變.?dāng)?shù)據(jù)庫面向事務(wù)處理,而數(shù)據(jù)倉庫針對聯(lián)機(jī)分析.?dāng)?shù)據(jù)倉庫依賴數(shù)據(jù)庫和其他格式的數(shù)據(jù),在大量歷史數(shù)據(jù)的基礎(chǔ)上按分析主題構(gòu)建多維數(shù)據(jù)集,以便從各個(gè)維度解析數(shù)據(jù),增加數(shù)據(jù)分析的靈活性.

[1] Wu Shuning,Cui Deguang,Cheng Peng.The four-stage standardized modeling method in data warehouse system development[C]//IEEE ICMA2005:799―803.

[2] 顧小波.SQL Server 2005分析服務(wù)從入門到精通[M].北京:清華大學(xué)出版社,2007.

[3] 梅偉恒,康曉東,江玉彬.基于數(shù)據(jù)倉庫的OLAP技術(shù)的研究綜述[J].中國科技信息,2006(14):134―135.

Data Warehouse and Multidimensional Cube

CHENG Lei

(Huanghuai University, Zhumadian Henan 463000, China)

With data warehouse technology growing rapidly and database management system being widely used, people have gathered more and more history data, as a result of “data jailhouse”. Data warehouse facilitates integrating data can be utilized as the basis of analyzing data and decision support. It is also a crucial technique to convert data to information knowledge.

data warehouse; business intelligence; multidimensional cube

TP311.13

A

1006-5261(2011)02-0014-02

2010-11-12

程磊(1981―),女,湖北黃梅人,助教,碩士.

〔責(zé)任編輯 張繼金〕

猜你喜歡
數(shù)據(jù)倉庫數(shù)據(jù)源維度
理解“第三次理論飛躍”的三個(gè)維度
基于數(shù)據(jù)倉庫的數(shù)據(jù)傾斜解決方案研究
淺論詩中“史”識的四個(gè)維度
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價(jià)研究
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
光的維度
基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實(shí)踐
基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價(jià)算法