梁柳瑩
摘要:數據倉庫和數據挖掘是兩個比較大的概念,在國外已經非常成熟,在國內隨著前幾年企業(yè)數據的累計、ERP的成熟,數據倉庫和數據挖掘開始起步。如何建立數據倉庫和數據挖掘是個值得不斷探討和優(yōu)化的問題。
關鍵詞:數據倉庫;數據挖掘;數據集合
中圖分類號:P208 文獻標識碼:A
文章編號:1674-1145(2009)03-0093-02
數據倉庫和數據挖掘是兩個比較大的概念,在國外已經非常成熟,在國內隨著前幾年企業(yè)數據的累計、ERP的成熟,數據倉庫和數據挖掘開始起步。如何建立數據倉庫和數據挖掘是個不斷值得探討和優(yōu)化的問題,不僅僅在技術上,在商業(yè)應用上也是如此。
一、數據倉庫
1.數據倉庫的概念。數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策。對于數據倉庫的概念我們可以從兩個層次予以理解,首先,數據倉庫用于支持決策,面向分析型數據處理,它不同于企業(yè)現(xiàn)有的操作型數據庫;其次,數據倉庫是對多個異構的數據源有效集成,集成后按照主題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。
2.數據倉庫的特點
根據數據倉庫概念的含義,數據倉庫擁有以下四個特點:
(1)面向主題。操作型數據庫的數據組織面向事務處理任務,各個業(yè)務系統(tǒng)之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關。
(2)集成的。面向事務處理的操作型數據庫通常與某些特定的應用相關,數據庫之間相互獨立,并且往往是異構的。而數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統(tǒng)加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業(yè)的一致的全局信息。
(3)相對穩(wěn)定的。操作型數據庫中的數據通常實時更新,數據根據需要及時發(fā)生變化。數據倉庫的數據主要供企業(yè)決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
(4)反映歷史變化。操作型數據庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。
企業(yè)數據倉庫的建設,是以現(xiàn)有企業(yè)業(yè)務系統(tǒng)和大量業(yè)務數據的積累為基礎的。數據倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業(yè)務經營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,從產業(yè)界的角度看,數據倉庫建設是一個工程,是一個過程。
3.數據倉庫的結構。整個數據倉庫系統(tǒng)是一個包含四個層次的體系結構,具體由下圖表示:
數據源:是數據倉庫系統(tǒng)的基礎,是整個系統(tǒng)的數據源泉。通常包括企業(yè)內部信息和外部信息。內部信息包括存放于RDBMS中的各種業(yè)務處理數據和各類文檔數據。外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等。
數據的存儲與管理:是整個數據倉庫系統(tǒng)的核心。數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織管理方式決定了它有別于傳統(tǒng)數據庫,同時也決定了其對外部數據的表現(xiàn)形式。要決定采用什么產品和技術來建立數據倉庫的核心,則需要從數據倉庫的技術特點著手分析。針對現(xiàn)有各業(yè)務系統(tǒng)的數據,進行抽取、清理,并有效集成,按照主題進行組織。數據倉庫按照數據的覆蓋范圍可以分為企業(yè)級數據倉庫和部門級數據倉庫(通常稱為數據集市)。
OLAP服務器:對分析需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。其具體實現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數據和聚合數據均存放在RDBMS之中;MOLAP基本數據和聚合數據均存放于多維數據庫中;HOLAP基本數據存放于RDBMS之中,聚合數據存放于多維數據庫中。
前端工具:主要包括各種報表工具、查詢工具、數據分析工具、數據挖掘工具以及各種基于數據倉庫或數據集市的應用開發(fā)工具。其中數據分析工具主要針對OLAP服務器,報表工具、數據挖掘工具主要針對數據倉庫。
二、數據挖掘
1.數據挖掘的概念。數據挖掘,也可以稱為數據庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是從大量數據中提取出可信、新穎、有效并能被人理解的信息的高級處理過程。數據挖掘的廣義觀點:數據挖掘就是從存放在數據庫,數據倉庫或其他信息庫中的大量的數據中“挖掘”有趣知識的過程。數據挖掘,又稱為數據庫中知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),也有人把數據挖掘視為數據庫中知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程以下步驟組成:(1)數據清理;(2)數據集成;(3)數據選擇;(4)數據變換;(5)數據挖掘;(6)模式評估;(7)知識表示。數據挖掘可以與用戶或知識庫交互。
2.數據挖掘的作用。在今天的市場上,信息的利用至關重要,各行各業(yè)面臨激烈的競爭及經濟壓力,產品的生命周期縮短,需要為顧客提供更好的服務。在市場經濟比較發(fā)達的國家和地區(qū),許多公司都開始在原有信息系統(tǒng)的基礎上通過數據挖掘對業(yè)務信息進行深加工,以構筑自己的競爭優(yōu)勢,擴大自己的營業(yè)額。在過去幾年中,各公司為了取得必要的市場戰(zhàn)略信息及對付市場方面的各種壓力,已經開始采用數據倉庫技術。各公司為了確定所要開發(fā)的產品模式及了解市場走勢,需要提取數據倉庫數據,包括聯(lián)機事務處理(OLTP)數據,并與外部的人口統(tǒng)計數據及心理數據結合,從中“挖掘出”最終結果。利用這種數據倉庫信息源,知識工作者在他們的辦公室內可根據所取得的數據進行決策??梢哉f,數據倉庫直接影響事關公司命運的決策。
三、數據挖掘和數據倉庫的關系
上述過程其實就是數據挖掘,實施這一過程的基本設施是數據倉庫。這是一種關鍵性、涉及范圍很廣的技術手段。利用數據挖掘技術可使?jié)撛诘男б娴玫阶畲蟮陌l(fā)揮。數據倉庫是一種數據集成戰(zhàn)略,目的是促進最終用戶利用企業(yè)數據,同時保護公司的數據財富——關鍵任務的可操作數據——安全性和完整性。
只要安排妥當,數據倉庫就能發(fā)揮它的重要作用,即人們可以很快地作出決策。因此,數據倉庫是實施公司戰(zhàn)略的一種技術手段。
一般來說,構筑數據倉庫是一個頻繁的查閱過程,它可分為若干階段,其中包括需求分析、數據倉庫的設計、操作數據的提取、不相容數據的集成、數據倉庫的裝填、最終交付用戶使用。在后續(xù)期內,還應該對數據倉庫作定期更新。
數據挖掘對發(fā)揮數據倉庫的作用有很大影響,因為通過它可以識別出商務中的模式與趨勢,而僅通過分析數據倉庫數據是無法得出的。當知識工作者運用結構化查詢語言(SQL)對數據倉庫查詢所需的信息時,查詢中的歧義性常常涉及到與答案集有關的一系列知識。相反地,數據挖掘可以揭示出非常有價值的信息,這些信息在實施分析之前,知識工作者是無法得知的。這種新技術,有助于使公司取得較大的市場份額,建立更好的形象并推動公司向前發(fā)展。