李晶晶,陳 侃,徐 丹
(中國交通通信信息中心,北京 100011)
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘在行業(yè)化數(shù)據(jù)中心的應(yīng)用分析
李晶晶,陳 侃,徐 丹
(中國交通通信信息中心,北京 100011)
隨著云計算的發(fā)展,私有云和公有云相結(jié)合的技術(shù)可以支撐行業(yè)化數(shù)據(jù)中心的建設(shè),在此基礎(chǔ)之上建設(shè)數(shù)據(jù)倉庫實現(xiàn)數(shù)據(jù)挖掘,對支撐和推動行業(yè)信息化發(fā)展中具有重要作用。基于行業(yè)化數(shù)據(jù)中心的建設(shè),利用統(tǒng)一的方式進行數(shù)據(jù)存儲管理,規(guī)范數(shù)據(jù)接口,并在此基礎(chǔ)上對業(yè)務(wù)數(shù)據(jù)進行深度的挖掘,利用數(shù)據(jù)挖掘技術(shù)提取隱藏的預(yù)測性信息,挖掘數(shù)據(jù)間的內(nèi)在聯(lián)系,找出最有價值的信息和知識。本文分析了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù),在“行業(yè)化數(shù)據(jù)中心”所能提供的應(yīng)用及價值,對支撐和推動行業(yè)信息化發(fā)展中的重要作用,旨在為行業(yè)信息化發(fā)展邁向新臺階,提供一個可供參考的建設(shè)方案。
數(shù)據(jù)中心;云計算;數(shù)據(jù)倉庫;數(shù)據(jù)挖掘
數(shù)據(jù)倉庫概念始于20世紀80年代中期,面向信息爆炸時代數(shù)據(jù)的有效利用,數(shù)據(jù)倉庫與組織機構(gòu)的操作數(shù)據(jù)庫分別維護的決策支持數(shù)據(jù)庫,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實平臺,對信息處理提供支持的數(shù)據(jù)庫。
它具有以下特點:
(1)面向主題。操作型數(shù)據(jù)庫中的數(shù)據(jù)是圍繞應(yīng)用組織的,各個業(yè)務(wù)系統(tǒng)可能是相互分離的;數(shù)據(jù)倉庫是面向主題的,主題是一個歸類的標準,每個主題基本對應(yīng)一個宏觀的分析領(lǐng)域,如交通運輸行業(yè)中的水運、陸運等。
(2)集成性。不同操作型系統(tǒng)之間的數(shù)據(jù)一般是相互獨立、異構(gòu)的;數(shù)據(jù)倉庫中的數(shù)據(jù)來自于對分散數(shù)據(jù)的抽取、轉(zhuǎn)換和加載,保證數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)關(guān)于整個行業(yè)的一致性。
(3)數(shù)據(jù)的非易失性。在數(shù)據(jù)倉庫中只要保存過去的業(yè)務(wù)數(shù)據(jù),不需實時更新每一筆業(yè)務(wù),根據(jù)商業(yè)需要每隔一段時間進行一次新數(shù)據(jù)導(dǎo)入。
(4)數(shù)據(jù)的時變性。數(shù)據(jù)倉庫包含著各種歷史數(shù)據(jù),有些數(shù)據(jù)可能與某個特定日期、星期、月份、季度或者年份有關(guān),具有時間戳特性。
行業(yè)化數(shù)據(jù)中心的數(shù)據(jù)倉庫建設(shè)過程是一個不斷迭代的過程,從關(guān)鍵行業(yè)應(yīng)用、全局應(yīng)用出發(fā),逐步地擴展模型,擴展分析主題。在不同的時間階段,用戶的需求是多變的,隨著數(shù)據(jù)中心的應(yīng)用不斷增加,需要滾動式建設(shè)數(shù)據(jù)倉庫。
數(shù)據(jù)倉庫建設(shè)需要經(jīng)歷需求調(diào)研的過程。首先是業(yè)務(wù)調(diào)研,對數(shù)據(jù)中心各應(yīng)用系統(tǒng)和關(guān)鍵用戶需求的采訪,記錄客戶的需求。對搜集的需求要進行歸納整理,確定不同的優(yōu)先級,劃定第一個迭代實施的范圍。收集供驗證模型正確的驗證數(shù)據(jù)、報表、報告等。其次是技術(shù)調(diào)研,對分析后的需求和用戶部門(掌握數(shù)據(jù)源信息)確認數(shù)據(jù)的支持范圍。
數(shù)據(jù)存儲設(shè)計要根據(jù)需求圈定的數(shù)據(jù)范圍,設(shè)計數(shù)據(jù)倉庫中表的結(jié)構(gòu)。設(shè)計中要考慮數(shù)據(jù)倉庫的特點,考慮數(shù)據(jù)量,考慮數(shù)據(jù)問題、緩變維度的處理,采用聚合規(guī)則。同時根據(jù)上面技術(shù)調(diào)研的結(jié)果在數(shù)據(jù)倉庫設(shè)計過程中,進行數(shù)據(jù)的準備(ETL)的初步設(shè)計、數(shù)據(jù)更新規(guī)則、字段映射、維表處理等。ETL過程將涉及到的源系統(tǒng)中的數(shù)據(jù)對數(shù)據(jù)倉庫進行抽取、轉(zhuǎn)換與裝載。
按照以上數(shù)據(jù)倉庫建設(shè)方法,本人所在的交通運輸行業(yè)數(shù)據(jù)中心的數(shù)據(jù)倉庫,優(yōu)先從行業(yè)行政主管部門的角度進行主題設(shè)計。以交通運輸行業(yè)為例,需要建設(shè)三層次的基礎(chǔ)數(shù)據(jù)庫:行業(yè)基礎(chǔ)數(shù)據(jù)庫、空間數(shù)據(jù)庫、元數(shù)據(jù)庫。如圖1所示。
圖1 行業(yè)基礎(chǔ)數(shù)據(jù)庫
行業(yè)基礎(chǔ)數(shù)據(jù)庫包括:從業(yè)人員基礎(chǔ)數(shù)據(jù)庫,經(jīng)營業(yè)戶基礎(chǔ)數(shù)據(jù)庫,車輛船舶基礎(chǔ)數(shù)據(jù)庫,基礎(chǔ)設(shè)施數(shù)據(jù)庫等。
行業(yè)主題數(shù)據(jù)庫以行業(yè)行政許可、執(zhí)法管理、信用評價、應(yīng)急指揮等方面業(yè)務(wù)和應(yīng)用系統(tǒng)間的數(shù)據(jù)共享需求為導(dǎo)向進行建設(shè)。
空間數(shù)據(jù)庫,包括空間基礎(chǔ)地理數(shù)據(jù)和交通專題空間數(shù)據(jù),是數(shù)據(jù)中心的重要組成部分,可以實現(xiàn)交通行業(yè)對空間數(shù)據(jù)資源的充分有效管理和綜合利用。它將空間數(shù)據(jù)和屬性數(shù)據(jù)有機地集成起來,實現(xiàn)有效的存儲和管理,并在此基礎(chǔ)上實現(xiàn)便利的空間索引、查詢和各種分析操作。
元數(shù)據(jù),包括空間基礎(chǔ)地理數(shù)據(jù)和交通專題空間數(shù)據(jù),是用于描述數(shù)據(jù)的數(shù)據(jù),描述數(shù)據(jù)集的內(nèi)容、質(zhì)量、表示方式、空間參考、管理方式及數(shù)據(jù)集的其他特征。元數(shù)據(jù)庫統(tǒng)一保存了數(shù)據(jù)中心全生命周期的業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)與管理元數(shù)據(jù),是數(shù)據(jù)管理中的元數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)支撐。
數(shù)據(jù)交換平臺是數(shù)據(jù)中心中將各應(yīng)用數(shù)據(jù)庫、各機構(gòu)數(shù)據(jù)庫、各主題數(shù)據(jù)庫進行整合交換共享的基礎(chǔ)平臺。行業(yè)數(shù)據(jù)中心的數(shù)據(jù)交換平臺主要是各業(yè)務(wù)數(shù)據(jù)庫的基礎(chǔ)上形成行業(yè)各機構(gòu)共享數(shù)據(jù)庫(交換區(qū)),進而形成一個機構(gòu)基準庫(存儲區(qū)),最終形成行業(yè)基礎(chǔ)數(shù)據(jù)庫或主題應(yīng)用庫。其功能架構(gòu)如圖2所示。
圖2 數(shù)據(jù)交換平臺功能架構(gòu)
數(shù)據(jù)交換平臺基于ETL技術(shù)實現(xiàn)機構(gòu)、應(yīng)用系統(tǒng)之間的應(yīng)用層交換和數(shù)據(jù)層交換;目錄層除了實現(xiàn)目錄服務(wù)的編目、注冊、發(fā)布、訂閱、查詢、維護等功能外,交換服務(wù)目錄還提供和數(shù)據(jù)交換平臺的接口,實現(xiàn)目錄平臺和交換平臺的功能關(guān)聯(lián)。交換平臺包括交換管理監(jiān)控模塊、應(yīng)用層交換模塊和數(shù)據(jù)層交換模塊。其中,交換管理監(jiān)控模塊對數(shù)據(jù)交換進行有效管理和監(jiān)控,包括流程配置、流程調(diào)度、交換監(jiān)控;應(yīng)用層交換模塊包括路由轉(zhuǎn)發(fā)組件;數(shù)據(jù)層交換模塊包括數(shù)據(jù)抽取組件、文件發(fā)送組件、文件接收組件、數(shù)據(jù)庫執(zhí)行組件和數(shù)據(jù)裝載組件等。
3.1 交換管理監(jiān)控模塊
數(shù)據(jù)交換平臺應(yīng)通過圖形化界面等方式為交換任務(wù)配置具體的交換流程,供交換管理監(jiān)控服務(wù)器調(diào)度。包括流程配置、流程調(diào)度、流程監(jiān)控,其中,流程調(diào)度要能夠?qū)崿F(xiàn)流程啟動、流程執(zhí)行、流程結(jié)束等功能。
3.2 應(yīng)用層交換模塊
先由相應(yīng)用戶提出查詢請求,請求方前置機把請求發(fā)送給交換平臺的應(yīng)用層交換模塊;如果有權(quán)限訪問,應(yīng)用層交換模塊將請求信息路由轉(zhuǎn)發(fā)給服務(wù)提供方;服務(wù)提供方的前置機接收到請求,并通過業(yè)務(wù)系統(tǒng)取得響應(yīng)數(shù)據(jù),發(fā)回給交換平臺的應(yīng)用層交換模塊;應(yīng)用層交換模塊接收到響應(yīng),發(fā)回給請求方。
3.3 數(shù)據(jù)層交換模塊
數(shù)據(jù)層交換模塊的功能是實現(xiàn)數(shù)據(jù)交換,主要由數(shù)據(jù)抽取、文件發(fā)送、文件接收、數(shù)據(jù)裝載與數(shù)據(jù)庫執(zhí)行等功能組件構(gòu)成。
(1)數(shù)據(jù)抽取。數(shù)據(jù)抽取主要是針對各個部門不同的數(shù)據(jù)資源執(zhí)行抽取操作。數(shù)據(jù)抽取類型分為結(jié)構(gòu)化文件、非結(jié)構(gòu)化文件和數(shù)據(jù)庫等幾種類型,抽取方式為增量或完全。前置機在抽取數(shù)據(jù)之后向交換管理監(jiān)控服務(wù)器返回成功或失敗信息和抽取結(jié)果。
(2)文件發(fā)送。文件發(fā)送指前置機在接收到發(fā)送文件列表等信息之后,往URL地址發(fā)送文件內(nèi)容,最后向交換管理監(jiān)控服務(wù)器返回成功或失敗信息結(jié)果。
(3)文件接收組件。文件接收指前置機在接收到接收文件列表等信息之后,往URL地址接收文件內(nèi)容,最后向交換管理監(jiān)控服務(wù)器返回成功或失敗信息結(jié)果。
(4)數(shù)據(jù)庫執(zhí)行組件。數(shù)據(jù)庫執(zhí)行組件分為SQL執(zhí)行和存儲過程執(zhí)行組件。SQL語句的功能為清空表、備份等,執(zhí)行存儲過程功能主要用于數(shù)據(jù)清洗比對等,最后向交換管理監(jiān)控服務(wù)器返回成功或失敗信息結(jié)果。
(5)數(shù)據(jù)裝載組件。數(shù)據(jù)裝載主要針對各種不同的數(shù)據(jù)資源執(zhí)行裝載操作。數(shù)據(jù)裝載類型分為結(jié)構(gòu)化文件、非結(jié)構(gòu)化文件和數(shù)據(jù)庫等幾種類型,數(shù)據(jù)裝載組件將待裝載的數(shù)據(jù)文件進行安全處理和解析后,按指定映射關(guān)系進入數(shù)據(jù)庫、結(jié)構(gòu)化文件或非結(jié)構(gòu)化文件,并根據(jù)裝載結(jié)果向管理監(jiān)控服務(wù)器,返回成功或失敗信息結(jié)果。
數(shù)據(jù)挖掘(Data Mining)顧名思義就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘技術(shù)主要包括關(guān)聯(lián)規(guī)則、聚類、分類、回歸、決策樹等幾種算法。
行業(yè)數(shù)據(jù)中心的建設(shè)可以應(yīng)用各種算法和功能實現(xiàn)具有行政、公益和商業(yè)價值的結(jié)果,提供給各級的行業(yè)從業(yè)人員進行決策支持。
4.1 基本統(tǒng)計功能
(1)均值分析。均值分析過程計算指定變量的綜合描述統(tǒng)計量,包括反映總體特征的分析和離散態(tài)勢兩部分。利用均值分析功能,行業(yè)數(shù)據(jù)中心可以研究行業(yè)內(nèi)各從業(yè)人員和產(chǎn)品的收入情況、平均水平及差異情況等。
(2)多種統(tǒng)計分布函數(shù)。包括如正態(tài)分布、F分別、卡方分布等基本統(tǒng)計分布函數(shù),利用分布函數(shù)可以計算行業(yè)中可能產(chǎn)生變化的相應(yīng)概率值,實現(xiàn)對統(tǒng)計指標的評估判斷。
4.2 數(shù)據(jù)挖掘功能
(1)回歸分析?;貧w分析是統(tǒng)計分析中應(yīng)用最多、最廣泛的一個分支,在金融、工業(yè)技術(shù)、氣象、交通運輸?shù)刃袠I(yè),都需要利用回歸分析從數(shù)據(jù)中建立模型,獲得參數(shù)。數(shù)據(jù)挖掘產(chǎn)品提供變量的全部選入和逐步回歸兩種處理方式,詳盡地計算主要統(tǒng)計量并進行方差分析。
(2)聚類分析。許多應(yīng)用領(lǐng)域要求考察數(shù)據(jù)的聚集態(tài)勢,從而將數(shù)據(jù)劃分為合理的類別,如行業(yè)輿情分析的研究。在分類判據(jù)未知的情況下,聚類分析是主要的研究方法。數(shù)據(jù)挖掘產(chǎn)品提供屬性重要度指標用于衡量屬性在聚類過程中的重要性,不同的聚類數(shù)量對數(shù)據(jù)挖掘業(yè)務(wù)實施的指導(dǎo)程度不同。
(3)決策樹。決策樹本身使用明確的知識表示方式,從宏觀到細節(jié)逐層描述蘊涵在數(shù)據(jù)之中的因果規(guī)則。當數(shù)據(jù)庫龐大時,僅僅依賴分析人員的直覺和經(jīng)驗幾乎無法發(fā)現(xiàn)這些蘊涵其中復(fù)雜而富有層次的因果關(guān)系。決策樹模塊提供主流的學(xué)習(xí)算法,能自動生成決策樹,并顯示為圖形,為數(shù)據(jù)分析人員提供幫助。在某些重大事件中,如“馬航”事件,通過決策樹模型進行數(shù)據(jù)分析,可以為領(lǐng)導(dǎo)提供決策支持。
(4)關(guān)聯(lián)分析。關(guān)聯(lián)規(guī)則常用于從大量的業(yè)務(wù)記錄和其他信息中提取出具有因果依賴關(guān)系的規(guī)則,利用這些規(guī)則,決策者能夠通過數(shù)據(jù)挖掘的關(guān)聯(lián)分析,分析行業(yè)內(nèi)的產(chǎn)品和服務(wù)之間的消費關(guān)系。在交通運輸行業(yè)來看,包括不同地域?qū)煌üぞ?、通信服?wù)、物流服務(wù)的依賴程度都不同,各產(chǎn)品之間的上下游關(guān)系可以通過關(guān)聯(lián)分析輔助得出,有利于產(chǎn)品設(shè)計和產(chǎn)業(yè)合理規(guī)劃布局的決策。
通過數(shù)據(jù)倉庫的建設(shè)可以規(guī)范行業(yè)數(shù)據(jù)的管理,建立各主題數(shù)據(jù)資源目錄,以及實現(xiàn)主題間數(shù)據(jù)資源的共享與交換,為數(shù)據(jù)挖掘與分析打下基礎(chǔ)。同時采用云計算和數(shù)據(jù)倉庫技術(shù)構(gòu)建行業(yè)數(shù)據(jù)中心具有科學(xué)性和創(chuàng)新性,因此,筆者建議各行業(yè)關(guān)注基于“行業(yè)云”行業(yè)化數(shù)據(jù)中心的建設(shè),以滿足各行業(yè)自身對信息化和數(shù)據(jù)資源的整合與共享服務(wù)的需求。
[1] 袁玉宇.云計算時代的數(shù)據(jù)中心.北京:電子工業(yè)出版社,2012.P3-4
[2] 王克照.智慧政府之路(大數(shù)據(jù)云計算物聯(lián)網(wǎng)架構(gòu)應(yīng)用).清華大學(xué),2014.P137-151
[3] 陳文偉,黃金才.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,2004.P101-151
[4] (美)黃鎧,(美)??怂梗溃┨萍永朴嬎闩c分布式系統(tǒng):從并行處理到物聯(lián)網(wǎng).北京:機械工業(yè)出版社,2013
[5] (美)埃爾.云計算:概念、技術(shù)與架構(gòu).北京:機械工業(yè)出版社,2014
10.3969/J.ISSN.1672-7274.2015.05.017
TP392
B
1672-7274(2015)05-0064-04