李亞鵬
(無錫商業(yè)職業(yè)技術(shù)學(xué)院,江蘇 無錫214153)
數(shù)據(jù)倉庫技術(shù)是計算機(jī)數(shù)據(jù)庫系統(tǒng)發(fā)展的新方向,近幾年來已經(jīng)在許多領(lǐng)域得到了應(yīng)用。以數(shù)據(jù)倉庫為基礎(chǔ)的商業(yè)職能系統(tǒng)強(qiáng)大的功能在實際應(yīng)用中能帶來高利潤的回報,所以近年來數(shù)據(jù)倉庫在眾多領(lǐng)域得到了越來越廣泛的應(yīng)用。對于大量存在于計算機(jī)信息系統(tǒng)中的數(shù)據(jù),通過數(shù)據(jù)倉庫、聯(lián)機(jī)處理技術(shù)和數(shù)據(jù)挖掘技術(shù),對數(shù)據(jù)進(jìn)行加工、分析、產(chǎn)生用于決策支持的信息,得以充分利用。
數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的(穩(wěn)定的)、隨時間不斷變化的數(shù)據(jù)集合。與其他數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫更像一種過程,即對分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程,而不是一種可以購買的產(chǎn)品。
①面向主題。數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個抽象的概念,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。
②集成的。數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上,經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。
③相對穩(wěn)定的。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
④反映歷史變化。數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點到目前各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
OLAP 是數(shù)據(jù)處理的一種技術(shù)概念。OLAP 的基本目的是使企業(yè)的決策者能靈活地操縱企業(yè)的數(shù)據(jù),以多維的形式從多面角度來觀察企業(yè)的狀態(tài)、了解企業(yè)的變化,通過快速、一致、交互地訪問各種可能的信息視圖,幫助管理人員掌握數(shù)據(jù)中存在的規(guī)律,實現(xiàn)對數(shù)據(jù)的歸納、分析和處理,幫助組織完成相關(guān)的決策。
根據(jù)OLAP 產(chǎn)品的實際應(yīng)用情況和用戶對OLAP 產(chǎn)品的需求,人們提出了一種對OLAP 更簡單明確的定義,即共享多維信息的快速分析。OLAP 通過對多維信息以很多種可能的觀察方式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進(jìn)行深入的觀察?;诓僮餍蛿?shù)據(jù)環(huán)境的OLTP(聯(lián)機(jī)事務(wù)處理),其基本操作是通過經(jīng)典的SQL 語句實現(xiàn)的。而OLAP 多維數(shù)據(jù)分析是指對多維數(shù)據(jù)采取切片、切塊、鉆取、旋轉(zhuǎn)等各種分析操作,以求剖析數(shù)據(jù),使最終用戶能從多角度、多側(cè)面地觀察數(shù)據(jù)庫中的數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。數(shù)據(jù)倉庫系統(tǒng)一般都支持OLAP 的這些基本操作,也可以認(rèn)為是一種擴(kuò)展了的SQL 操作。
OLAP 是直接仿照用戶的多角度思考模式,預(yù)先為用戶組建多維的數(shù)據(jù)模型,在這里,維指的是用戶的分析角度。例如對銷售數(shù)據(jù)的分析,時間周期是一個維度,產(chǎn)品類別、分銷渠道、地理分布、客戶群類也分別是一個維度。一旦多維數(shù)據(jù)模型建立完成,用戶可以快速地從各個分析角度獲取數(shù)據(jù),也能動態(tài)的在各個角度之間切換或者進(jìn)行多角度綜合分析,具有極大的分析靈活性。這也是聯(lián)機(jī)分析處理在近年來被廣泛關(guān)注的根本原因,它從設(shè)計理念和真正實現(xiàn)上都與舊有的管理信息系統(tǒng)有著本質(zhì)的區(qū)別。
事實上,隨著數(shù)據(jù)倉庫理論的發(fā)展,數(shù)據(jù)倉庫系統(tǒng)已逐步成為新型的決策管理信息系統(tǒng)的解決方案。數(shù)據(jù)倉庫系統(tǒng)的核心是聯(lián)機(jī)分析處理,但數(shù)據(jù)倉庫包括更為廣泛的內(nèi)容。
概括來說,數(shù)據(jù)倉庫系統(tǒng)是指具有綜合企業(yè)數(shù)據(jù)的能力,能夠?qū)Υ罅科髽I(yè)數(shù)據(jù)進(jìn)行快速和準(zhǔn)確分析,輔助做出更好的商業(yè)決策的系統(tǒng)。
從應(yīng)用角度來說,數(shù)據(jù)倉庫系統(tǒng)除了聯(lián)機(jī)分析處理外,還可以采用傳統(tǒng)的報表,或者采用數(shù)理統(tǒng)計和人工智能等數(shù)據(jù)挖掘手段,涵蓋的范圍更廣;就應(yīng)用范圍而言,聯(lián)機(jī)分析處理往往根據(jù)用戶分析的主題進(jìn)行應(yīng)用分割,例如:銷售分析、市場推廣分析、客戶利潤率分析等等,每一個分析的主題形成一個OLAP 應(yīng)用,而所有的OLAP 應(yīng)用實際上只是數(shù)據(jù)倉庫系統(tǒng)的一部分。
聯(lián)機(jī)分析處理的用戶是企業(yè)中的專業(yè)分析人員及管理決策人員,他們在分析業(yè)務(wù)經(jīng)營的數(shù)據(jù)時,從不同的角度來審視業(yè)務(wù)的衡量指標(biāo)是一種很自然的思考模式。例如分析銷售數(shù)據(jù),可能會綜合時間周期、產(chǎn)品類別、分銷渠道、地理分布、客戶群類等多種因素來考慮。這些分析角度雖然可以通過報表來反映,但每一個分析的角度可以生成一張報表,各個分析角度的不同組合又可以生成不同的報表,使得IT 人員的工作量相當(dāng)大,而且往往難以跟上管理決策人員思考的步伐。
數(shù)據(jù)挖掘,又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價值的信息或模式,它是數(shù)據(jù)庫研究中的一個很有應(yīng)用價值的新領(lǐng)域,融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的理論和技術(shù)。隨著人工智能技術(shù)在專家咨詢、語言處理、娛樂游戲等模式識別領(lǐng)域的應(yīng)用日益廣泛。從選取專業(yè)學(xué)習(xí)、研究方向的實際出發(fā),提出了將數(shù)據(jù)挖掘應(yīng)用于輔助選取專業(yè)學(xué)習(xí)、研究方向的數(shù)據(jù)挖掘技術(shù)流程模型。
數(shù)據(jù)挖掘技術(shù)是一個多步驟、可能需多次反復(fù)的處理過程。主要包括以下幾步:準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)縮減、確定數(shù)據(jù)挖掘的目標(biāo)、確定知識發(fā)現(xiàn)算法、數(shù)據(jù)挖掘(Data Mining)、模式解釋、知識評價。其中最重要的一個步驟是數(shù)據(jù)挖掘,它是利用某些特定的知識發(fā)現(xiàn)算法,在可接受的運(yùn)算效率的限制下,從有效數(shù)據(jù)中發(fā)現(xiàn)有關(guān)的知識。
數(shù)據(jù)挖掘技術(shù)主要有四種開采任務(wù):
(1)數(shù)據(jù)總結(jié)是對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。數(shù)據(jù)挖掘是從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。
(2)分類發(fā)現(xiàn)這是一項非常重要的任務(wù),分類是運(yùn)用分類器把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個,用于對未來數(shù)據(jù)進(jìn)行預(yù)測。
(3)聚類是把一組個體按照相似性歸成若干類別,它的目的是使得屬于同一類別的個體之間的距離盡可能的小,而不同類別的個體間的距離盡可能的大。
(4)關(guān)聯(lián)規(guī)則是指事物之間的聯(lián)系具有多大的支持度和可信度。有意義的關(guān)聯(lián)規(guī)則必須給定兩個閾值:最小支持度和最小可度。3.3 數(shù)據(jù)挖掘在實際生活中的應(yīng)用數(shù)據(jù)挖據(jù)的結(jié)果經(jīng)過業(yè)務(wù)決策人員的認(rèn)可,才能實際利用。要將通過數(shù)據(jù)挖掘得出的預(yù)測模式和各個領(lǐng)域的專家認(rèn)識結(jié)合在一起,構(gòu)成一個可供不同類型的人使用的應(yīng)用程序。也只有通過對挖掘知識的應(yīng)用,才能對數(shù)據(jù)挖掘的成果做出正確的評價。但是在應(yīng)用數(shù)據(jù)挖掘成果時,決策人員所關(guān)心的是數(shù)據(jù)挖掘最終結(jié)果與用其他候選結(jié)果在實際應(yīng)用中的差距。為將數(shù)據(jù)挖掘結(jié)果能在實際中得到應(yīng)用,需要將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織機(jī)構(gòu)中去,使這些知識在實際的管理決策分析中得到應(yīng)用。
數(shù)據(jù)挖掘不一定需要建立在數(shù)據(jù)倉庫基礎(chǔ)上,但以數(shù)據(jù)倉庫為基礎(chǔ),對于數(shù)據(jù)挖掘來說源數(shù)據(jù)的預(yù)處理將簡化許多。另外為了保證結(jié)果的正確性,數(shù)據(jù)挖掘?qū)A(chǔ)數(shù)據(jù)量的需求是巨大的,數(shù)據(jù)倉庫可以很好地滿足這個要求。
[1]謝邦昌.數(shù)據(jù)挖掘基礎(chǔ)與應(yīng)用[M].機(jī)械工業(yè)出版社,2012-01.
[2]楊杰.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[M].上海交通大學(xué)出版社,2011-01.
[3]張云濤.數(shù)據(jù)挖掘原理與技術(shù)[M].電子工業(yè)出版社,2004-04.