陳 鋒,孫淼洋
(1.遼寧醫(yī)學(xué)院 現(xiàn)代教育技術(shù)中心,遼寧 沈陽121001;2.遼寧鐵道職業(yè)技術(shù)學(xué)院 電氣工程系,遼寧 沈陽121001)
對于高校以往信息管理中所沉淀的海量歷史信息,亟待一個全新的技術(shù)方案對其進(jìn)行整合集成以便發(fā)揮其應(yīng)有作用,這種技術(shù)方案一般會以創(chuàng)建數(shù)據(jù)倉庫的方式來實(shí)現(xiàn)。
數(shù)據(jù)倉庫項(xiàng)目結(jié)構(gòu)復(fù)雜、人力物力投入大、開發(fā)周期長,難以滿足高校的實(shí)際應(yīng)用需求。與數(shù)據(jù)倉庫理論基礎(chǔ)同出一轍的數(shù)據(jù)集市通過構(gòu)造面向主題的多維數(shù)據(jù)集,進(jìn)而實(shí)現(xiàn)一個或多個部門的決策支持與數(shù)據(jù)挖掘。數(shù)據(jù)集市與數(shù)據(jù)倉庫項(xiàng)目相比具有如下優(yōu)勢:(1)數(shù)據(jù)集市管理的數(shù)據(jù)規(guī)模較??;(2)用戶可根據(jù)需要定制數(shù)據(jù);(3)數(shù)據(jù)集市項(xiàng)目建設(shè)周期短,開發(fā)成本較低;(4)數(shù)據(jù)集市允許用戶根據(jù)需求增減數(shù)據(jù)規(guī)模,具有良好的拓展性能;(5)數(shù)據(jù)集市可將計算任務(wù)部署于多個工作站,實(shí)現(xiàn)分布式計算,能夠提升系統(tǒng)穩(wěn)定性和自治性。
信息系統(tǒng)的開發(fā)主要有自頂向下與自底向上兩個基本建設(shè)方案。其中自頂向下建設(shè)數(shù)據(jù)倉庫能最大限度減少信息集成所帶來的技術(shù)問題,是較理想化的技術(shù)解決方案。但自頂向下建設(shè)模式往往導(dǎo)致項(xiàng)目開發(fā)周期過長、難以產(chǎn)生階段性研究成果,且開發(fā)出來的系統(tǒng)靈活性和擴(kuò)展性都較差。因此,高校在構(gòu)建數(shù)據(jù)倉庫時應(yīng)遵循漸進(jìn)、分階段、分步驟的建設(shè)策略:即采取自底向上的建設(shè)方案,可先開發(fā)高校內(nèi)部某一主題的數(shù)據(jù)集市,待建設(shè)成功后再陸續(xù)開發(fā)其他主題的數(shù)據(jù)集市,最后通過系統(tǒng)集成構(gòu)建一個相對完整的高校數(shù)據(jù)倉庫體系。
數(shù)據(jù)集市項(xiàng)目涵蓋信息集成、信息處理、數(shù)據(jù)建模、數(shù)據(jù)挖掘與數(shù)據(jù)展現(xiàn)等諸多復(fù)雜的軟件行為活動。本文結(jié)合高校成本辦學(xué)數(shù)據(jù)集市的具體工程實(shí)踐介紹一下有關(guān)數(shù)據(jù)集市項(xiàng)目的創(chuàng)建過程。基于高校辦學(xué)成本的數(shù)據(jù)集市項(xiàng)目具有多層體系架構(gòu)如圖1所示,即分別是數(shù)據(jù)準(zhǔn)備層、數(shù)據(jù)處理層、數(shù)據(jù)集市創(chuàng)建層、數(shù)據(jù)展現(xiàn)層及數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)印?/p>
圖1 項(xiàng)目系統(tǒng)總體結(jié)構(gòu)
第一層:數(shù)據(jù)準(zhǔn)備層,該層主要負(fù)責(zé)數(shù)據(jù)集市籌建前期的數(shù)據(jù)準(zhǔn)備工作,業(yè)務(wù)信息系統(tǒng)的數(shù)據(jù)庫,外部文檔及殘留系統(tǒng)數(shù)據(jù)要經(jīng)過此層進(jìn)行收集整理。第二層:數(shù)據(jù)處理層,在整個體系結(jié)構(gòu)中,數(shù)據(jù)處理層起著承上啟下的重要作用,負(fù)責(zé)接收從數(shù)據(jù)準(zhǔn)備層傳遞過來的數(shù)據(jù),并完成對上一層數(shù)據(jù)的清洗、轉(zhuǎn)換工作,為數(shù)據(jù)集市的創(chuàng)建做數(shù)據(jù)準(zhǔn)備。第三層:數(shù)據(jù)集市創(chuàng)建層,該層主要負(fù)責(zé)數(shù)據(jù)集市的創(chuàng)建活動,包括維度、基本事實(shí)表的生成,數(shù)據(jù)集市邏輯結(jié)構(gòu)的架構(gòu)等。第四層:數(shù)據(jù)展現(xiàn)層,該層通過訪問數(shù)據(jù)集市,并利用軟件工具對其多維數(shù)據(jù)集進(jìn)行數(shù)據(jù)展現(xiàn),為用戶提供基本的視圖查詢功能,同時也為下一層數(shù)據(jù)倉庫的創(chuàng)建提供數(shù)據(jù)源。第五層:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)樱搶油ㄟ^上一層的數(shù)據(jù)匯總與集成,創(chuàng)建數(shù)據(jù)倉庫并在此基礎(chǔ)上開展相關(guān)數(shù)據(jù)挖掘活動。
數(shù)據(jù)集市的創(chuàng)建與設(shè)計應(yīng)遵循如下幾項(xiàng)基本原則:數(shù)據(jù)倉庫體系架構(gòu)中的重要組成部分:(1)開放性:在創(chuàng)建數(shù)據(jù)集市項(xiàng)目過程中,需要規(guī)范完備各類設(shè)計開發(fā)文檔,建立、評估創(chuàng)建數(shù)據(jù)集市的標(biāo)準(zhǔn)化流程,明確創(chuàng)建數(shù)據(jù)集市所需的數(shù)據(jù)源,系統(tǒng)的軟硬件運(yùn)行參數(shù),保證整個項(xiàng)目活動做到開放、透明。(2)擴(kuò)展性:數(shù)據(jù)集市的創(chuàng)建應(yīng)具備良好的擴(kuò)展性,創(chuàng)建數(shù)目可隨工程項(xiàng)目的實(shí)際需要動態(tài)剪裁,允許設(shè)計者刪減數(shù)據(jù)集市,而不影響整個項(xiàng)目總體設(shè)計的架構(gòu)及實(shí)施進(jìn)度。(3)可靠性:采取多種手段,保證項(xiàng)目設(shè)計可靠、實(shí)施可靠、運(yùn)行可靠及維護(hù)可靠。(4)階段性:在設(shè)計過程中充分發(fā)揮多層體系結(jié)構(gòu)的優(yōu)勢,使系統(tǒng)架構(gòu)中的每個層次都能產(chǎn)生相應(yīng)的階段性成果,保證系統(tǒng)能夠提供不同粒度級別的統(tǒng)計分析及決策支持。
目前,學(xué)術(shù)界對于數(shù)據(jù)庫的創(chuàng)建與設(shè)計有成熟的理論基礎(chǔ),但有關(guān)創(chuàng)建數(shù)據(jù)倉庫(集市)的理論和方法學(xué)尚不完善。本文結(jié)合高校成本辦學(xué)數(shù)據(jù)集市的具體工程實(shí)踐,整理出一套有關(guān)數(shù)據(jù)集市創(chuàng)建流程。如圖2即是數(shù)據(jù)集市項(xiàng)目創(chuàng)建流程示意。
圖2 數(shù)據(jù)集市創(chuàng)建流程示意圖
基于高校信息系統(tǒng)下的數(shù)據(jù)集市在創(chuàng)建過程中主要有如下幾大步驟:(1)首先要確立高校數(shù)據(jù)環(huán)境下數(shù)據(jù)集市的研究主題;(2)尋找高校核心業(yè)務(wù)部門的數(shù)據(jù)源:包括業(yè)務(wù)數(shù)據(jù)庫,外部報表、文檔等;(3)運(yùn)用ETL及建模軟件將高校已有的聯(lián)機(jī)業(yè)務(wù)信息系統(tǒng)轉(zhuǎn)換為聯(lián)機(jī)事務(wù)分析系統(tǒng),此環(huán)節(jié)是構(gòu)建數(shù)據(jù)集市項(xiàng)目中的最復(fù)雜、最重要的工程實(shí)踐環(huán)節(jié),在實(shí)際項(xiàng)目中還可將此步驟分解為具體的五個軟件行為活動:1)分析OLTP的實(shí)體關(guān)系圖;2)構(gòu)建數(shù)據(jù)集市邏輯模型;3)劃出數(shù)據(jù)集市中基本事實(shí)表、維度關(guān)系表和元數(shù)據(jù);4)評審當(dāng)前邏輯結(jié)構(gòu);5)將OLAP的邏輯結(jié)構(gòu)轉(zhuǎn)換成物理結(jié)構(gòu)。(4)利用商業(yè)智能環(huán)境將聯(lián)機(jī)事務(wù)分析系統(tǒng)轉(zhuǎn)換為數(shù)據(jù)集市,并在此基礎(chǔ)上開展相關(guān)數(shù)據(jù)挖掘。
在構(gòu)建數(shù)據(jù)倉庫(集市)過程中,人們注重系統(tǒng)的架構(gòu)、邏輯模型選型,對于數(shù)據(jù)的存儲格式并未給予太多關(guān)注,在實(shí)際工程實(shí)踐中,數(shù)據(jù)結(jié)構(gòu)類型選取的正確與否,將直接影響到數(shù)據(jù)集市的設(shè)計、實(shí)施及日后的維護(hù)工作。所以,在籌建項(xiàng)目之初就應(yīng)對數(shù)據(jù)類型的選取加以重視,本文結(jié)合數(shù)據(jù)集市建設(shè)的實(shí)際情況,提出有關(guān)數(shù)據(jù)建模的一些基本技術(shù)準(zhǔn)則和數(shù)據(jù)規(guī)范。
(1)維表的屬性應(yīng)大多是文本型且是可離散化的;(2)維表的關(guān)鍵字最好是數(shù)組型的,以滿足事實(shí)表海量數(shù)據(jù)代理關(guān)鍵字要求;(3)維表的關(guān)鍵字必須能夠可維護(hù)的;(4)維表的關(guān)鍵字集合必須包含事實(shí)表中的代理關(guān)鍵字集合。
(1)事實(shí)表的關(guān)鍵字一般應(yīng)是數(shù)值型;(2)事實(shí)表的度量一般應(yīng)是數(shù)值型、邏輯型,不宜用字符型;(3)事實(shí)表結(jié)構(gòu)應(yīng)盡量簡潔,不應(yīng)存儲冗余文本;(4)事實(shí)表中的代理關(guān)鍵字集合必須包含于對應(yīng)維表關(guān)鍵字集合。
數(shù)據(jù)集市技術(shù)在高校信息管理中有獨(dú)特的地位和應(yīng)用。首先,數(shù)據(jù)集市技術(shù)能夠?qū)崿F(xiàn)學(xué)校各部門內(nèi)數(shù)據(jù)的集成與匯聚,能夠?qū)⒍鄠€孤立的數(shù)據(jù)源整合為統(tǒng)一的數(shù)據(jù)分析模型;其次,數(shù)據(jù)集市技術(shù)可充分滿足校園用戶定制數(shù)據(jù)的要求,能夠支持不同粒度、不同層級的數(shù)據(jù)查詢與統(tǒng)計報表,能夠顯著提升整個學(xué)校的信息管理水平;再次,隨著高校內(nèi)部的信息資源日益龐大,數(shù)據(jù)挖掘等信息的應(yīng)用將越來越被高校管理層所期待和重視,數(shù)據(jù)集市的介入則能夠?yàn)楦咝i_展數(shù)據(jù)挖掘與知識發(fā)現(xiàn)奠定良好數(shù)據(jù)環(huán)境和技術(shù)基礎(chǔ)。
[1]張雅茜.獨(dú)立數(shù)據(jù)集市若干關(guān)鍵技術(shù)的研究[D].沈陽航空工業(yè)學(xué)院,2007.
[2]楊雪峰.數(shù)據(jù)集市系統(tǒng)的分析與設(shè)計[D].北京郵電大學(xué),2011.
[3]李原.基于數(shù)據(jù)倉庫的高職院校教學(xué)質(zhì)量評測研究[D].湖南大學(xué),2011.
[4]潘寶娟.數(shù)據(jù)倉庫/數(shù)據(jù)集市體系結(jié)構(gòu)的改進(jìn)[J].現(xiàn)代計算機(jī),2006(12).
[5]李聘.元數(shù)據(jù)在數(shù)據(jù)倉庫中的研究與應(yīng)用[D].西北石油大學(xué),2007.
[6]楊曉,任清珍,蘇靈.數(shù)據(jù)倉庫、數(shù)據(jù)集市和數(shù)據(jù)挖掘[J].現(xiàn)代計算機(jī),1998,01.
[7]高亮.高校數(shù)據(jù)倉庫建設(shè)研究[J].武漢大學(xué)學(xué)報(理學(xué)版),2012,S1.
[8]陳樹勝.數(shù)據(jù)倉庫和OLAP在高校人事信息管理中的應(yīng)用研究[D].上海師范大學(xué),2010.