李思維,徐 偉
(1.中國(guó)鐵路蘭州局集團(tuán)有限公司,甘肅 蘭州 730050;2.上海大學(xué)悉尼工商學(xué)院,上海 200444)
隨著大數(shù)據(jù)時(shí)代的來臨,越來越多的企業(yè)開始重視信息技術(shù)的發(fā)展,逐步建立部門級(jí)、企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)。通過構(gòu)建合理的數(shù)據(jù)倉(cāng)庫(kù),企業(yè)可以集成存儲(chǔ)生產(chǎn)信息、物流信息、人事信息等數(shù)據(jù),并從相關(guān)數(shù)據(jù)中挖掘有價(jià)值的信息,及時(shí)做出科學(xué)決策以推動(dòng)企業(yè)經(jīng)營(yíng)發(fā)展。數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用遍布于各個(gè)行業(yè),尤其是商科領(lǐng)域的應(yīng)用效果顯著,包括金融、財(cái)會(huì)、市場(chǎng)營(yíng)銷、管理、商務(wù)、物流、經(jīng)濟(jì)、人力資源管理等行業(yè),對(duì)當(dāng)代學(xué)生能夠掌握構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的方法提出更高的要求。合理建設(shè)數(shù)據(jù)倉(cāng)庫(kù)實(shí)驗(yàn)平臺(tái)對(duì)提升當(dāng)代學(xué)生實(shí)踐創(chuàng)新能力具有一定的意義[1-5]。
國(guó)內(nèi)高校很早就開始進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)實(shí)驗(yàn)平臺(tái)構(gòu)建的相關(guān)研究。2013年,同濟(jì)大學(xué)提出構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教學(xué)實(shí)驗(yàn)平臺(tái)[5],該平臺(tái)可以開展Apriori、ID3、BP等算法實(shí)驗(yàn),同時(shí),可以在安卓移動(dòng)端進(jìn)行操作[6];2015年北京信息科技大學(xué)提出了基于專業(yè)信息的數(shù)據(jù)倉(cāng)庫(kù)實(shí)驗(yàn)平臺(tái)建設(shè)思路[7];2018年安徽城市管理職業(yè)學(xué)院建立了習(xí)題式及項(xiàng)目式大數(shù)據(jù)實(shí)驗(yàn)教學(xué)平臺(tái)[8];2020年大連理工大學(xué)構(gòu)建了基于Hadoop的數(shù)據(jù)算法庫(kù)教學(xué)實(shí)驗(yàn)平臺(tái)[9]。目前,在建設(shè)數(shù)據(jù)倉(cāng)庫(kù)實(shí)驗(yàn)平臺(tái)過程中,對(duì)數(shù)據(jù)源、數(shù)據(jù)標(biāo)準(zhǔn)與數(shù)據(jù)質(zhì)量缺乏合理的處理技術(shù)及教學(xué)環(huán)境,無法對(duì)數(shù)據(jù)進(jìn)行精準(zhǔn)快速處理。針對(duì)上述問題,本文從數(shù)據(jù)倉(cāng)庫(kù)相關(guān)課程現(xiàn)狀及提升學(xué)生能力的現(xiàn)實(shí)需求出發(fā),提出了一種能夠自主配置數(shù)據(jù)源、數(shù)據(jù)加載、數(shù)據(jù)清洗、數(shù)據(jù)可視化的智能化數(shù)據(jù)倉(cāng)庫(kù)實(shí)驗(yàn)平臺(tái)。同時(shí)平臺(tái)內(nèi)置行業(yè)應(yīng)用數(shù)據(jù)集,引導(dǎo)學(xué)生對(duì)數(shù)據(jù)進(jìn)行智能化管理,提升學(xué)生解決實(shí)際問題的能力。
目前,“數(shù)據(jù)倉(cāng)庫(kù)”課程開展過程中,教師主要講述數(shù)據(jù)倉(cāng)庫(kù)的原理和應(yīng)用,偏重理論教學(xué),缺乏適量的實(shí)驗(yàn)教學(xué)活動(dòng)。需要在完成相應(yīng)的理論教學(xué)外,設(shè)計(jì)合理的配套實(shí)驗(yàn),加深學(xué)生對(duì)數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建的深入理解。一個(gè)良好的教學(xué)實(shí)驗(yàn)平臺(tái)具備如下特點(diǎn)。
在進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)實(shí)驗(yàn)時(shí),平臺(tái)需要為學(xué)生提供多種可以使用的數(shù)據(jù)來源,確保學(xué)生可以接觸多方面的數(shù)據(jù),理解數(shù)據(jù)質(zhì)量產(chǎn)生的原因。若平臺(tái)提供的數(shù)據(jù)不夠齊全,將導(dǎo)致學(xué)生進(jìn)行的實(shí)驗(yàn)不夠嚴(yán)謹(jǐn),影響課程實(shí)驗(yàn)的效果。多方面的數(shù)據(jù)源是平臺(tái)最主要的特征之一,可確保學(xué)生學(xué)習(xí)多樣化。
在進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)教學(xué)平臺(tái)設(shè)計(jì)時(shí),需要保證學(xué)生與教師之間的交互,在教師布置任務(wù)時(shí)需要保證學(xué)生及時(shí)準(zhǔn)確地接收到教師發(fā)布的作業(yè),在學(xué)生提交作業(yè)時(shí)為教師提供批改與反饋的機(jī)制,確保雙方具有和彼此溝通交流的機(jī)會(huì)。
實(shí)驗(yàn)平臺(tái)需要保證學(xué)生在進(jìn)行實(shí)驗(yàn)時(shí)每一步操作都簡(jiǎn)易方便,并且操作的圖標(biāo)可以讓學(xué)生不耗費(fèi)太多時(shí)間就能記住并且熟練操作。
數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)用來存儲(chǔ)數(shù)據(jù),為后續(xù)數(shù)據(jù)挖掘、數(shù)據(jù)分析及可視化分析提供服務(wù),一般包括以下3部分:①多種數(shù)據(jù)源的連接。本實(shí)驗(yàn)平臺(tái)提供多種數(shù)據(jù)源的訪問接口,包括關(guān)系型數(shù)據(jù)庫(kù)、分布式大數(shù)據(jù)庫(kù)、文本數(shù)據(jù),支持跨源跨庫(kù)的分析。②ETL模塊。提供豐富的處理轉(zhuǎn)換組件,通過拖拽式的操作,實(shí)現(xiàn)了數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、裝載及調(diào)度,用于構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),完成數(shù)據(jù)融合,提升數(shù)據(jù)質(zhì)量,服務(wù)數(shù)據(jù)分析。③數(shù)據(jù)處理及商務(wù)智能分析應(yīng)用。具備數(shù)據(jù)挖掘處理功能,并可完成可視化報(bào)表構(gòu)建,基于可視化工具完成數(shù)據(jù)分析等功能。數(shù)據(jù)倉(cāng)庫(kù)工作流程如圖1所示。
數(shù)據(jù)倉(cāng)庫(kù)實(shí)驗(yàn)平臺(tái)功能框架如圖2所示。本平臺(tái)基于B/S架構(gòu),學(xué)生只需要安裝主流瀏覽器即可,通過訪問網(wǎng)絡(luò)地址,能夠登錄實(shí)驗(yàn)平臺(tái),開展實(shí)驗(yàn)教學(xué)研究。
數(shù)據(jù)倉(cāng)庫(kù)實(shí)驗(yàn)平臺(tái)由登錄頁(yè)、實(shí)驗(yàn)操作區(qū)、師生互動(dòng)區(qū)、作業(yè)管理區(qū)組成。
圖1 數(shù)據(jù)倉(cāng)庫(kù)工作流程示意圖
圖2 數(shù)據(jù)倉(cāng)庫(kù)實(shí)驗(yàn)平臺(tái)功能框架示意圖
在“數(shù)據(jù)倉(cāng)庫(kù)”實(shí)驗(yàn)課上,任課教師預(yù)先導(dǎo)入班級(jí)數(shù)據(jù)。學(xué)生輸入學(xué)號(hào)和密碼進(jìn)入實(shí)驗(yàn)平臺(tái),選擇相應(yīng)的功能模塊進(jìn)行后續(xù)實(shí)驗(yàn)操作。功能菜單包括實(shí)驗(yàn)操作區(qū)、師生互動(dòng)區(qū)、作業(yè)管理區(qū)。在師生互動(dòng)區(qū),教師能夠與學(xué)生在線交流和互動(dòng)討論。在作業(yè)管理區(qū),教師可以發(fā)布實(shí)驗(yàn),并設(shè)置實(shí)驗(yàn)有效期,學(xué)生可以完成實(shí)驗(yàn)并提交實(shí)驗(yàn)內(nèi)容,教師可以對(duì)提交的學(xué)生實(shí)驗(yàn)進(jìn)行在線批改。完成批改后,學(xué)生能夠及時(shí)查看實(shí)驗(yàn)分?jǐn)?shù)和批改信息。
實(shí)驗(yàn)操作區(qū)是數(shù)據(jù)倉(cāng)庫(kù)的核心功能區(qū),主要包括數(shù)據(jù)源配置、數(shù)據(jù)加載,數(shù)據(jù)清洗、數(shù)據(jù)挖掘分析及可視化分析應(yīng)用。本平臺(tái)通過使用ETL—Kettle工具完成數(shù)據(jù)處理工作。Kettle平臺(tái)作為功能全面的開源ETL工具,為平臺(tái)的多種數(shù)據(jù)源和多種特色功能提供了保障,并且支持學(xué)生在平臺(tái)內(nèi)進(jìn)行自主創(chuàng)新。
學(xué)生可以自主建立與不同數(shù)據(jù)源的通道,完成不同數(shù)據(jù)的加載工作。同時(shí)學(xué)生可以使用平臺(tái)內(nèi)置的爬蟲框架對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行抓取。成功獲取數(shù)據(jù)后,平臺(tái)集成了Kettle的ETL工具,學(xué)生可以自主在實(shí)驗(yàn)操作區(qū)對(duì)數(shù)據(jù)進(jìn)行過濾、排序和拖拽等多種操作。
學(xué)生可以完成數(shù)據(jù)集選擇、Kettle操作界面、數(shù)據(jù)挖掘算法實(shí)驗(yàn)以及可視化實(shí)驗(yàn),在進(jìn)行數(shù)據(jù)抽取實(shí)驗(yàn)時(shí),平臺(tái)支持學(xué)生選擇多種不同的數(shù)據(jù)源,通過Kettle建立數(shù)據(jù)庫(kù)連接,包括本地的數(shù)據(jù)庫(kù)連接及教師為學(xué)生提供的云端數(shù)據(jù)庫(kù)連接,實(shí)驗(yàn)平臺(tái)支持MySQL、SQL Server及Oracle等多種數(shù)據(jù)庫(kù),實(shí)驗(yàn)過程如圖3所示。學(xué)生也可以選擇使用平臺(tái)提供的爬蟲工具,將網(wǎng)站或網(wǎng)頁(yè)內(nèi)所需的數(shù)據(jù)進(jìn)行提取,并將圖片上的內(nèi)容解析為文字,保證學(xué)生從自己所選的網(wǎng)址出發(fā)訪問其相關(guān)網(wǎng)址的同時(shí),從中獲取自己需要且正確的數(shù)據(jù)。此外,該實(shí)驗(yàn)平臺(tái)允許學(xué)生在平臺(tái)內(nèi)對(duì)需要的數(shù)據(jù)內(nèi)容進(jìn)行自定義并自行上傳。在學(xué)生進(jìn)行數(shù)據(jù)抽取實(shí)驗(yàn)時(shí),平臺(tái)會(huì)自動(dòng)進(jìn)行鏈接至Kettle,在使用學(xué)生所選擇的數(shù)據(jù)來源之后,實(shí)驗(yàn)平臺(tái)會(huì)確保學(xué)生可以及時(shí)準(zhǔn)確地完成實(shí)驗(yàn),并保存?zhèn)浞菀淹瓿傻霓D(zhuǎn)換至平臺(tái)內(nèi),以防丟失。
圖3 數(shù)據(jù)倉(cāng)庫(kù)學(xué)生實(shí)驗(yàn)過程示意圖
實(shí)驗(yàn)平臺(tái)內(nèi)置了多種現(xiàn)有的算法,在進(jìn)行數(shù)據(jù)挖掘算法實(shí)驗(yàn)時(shí),學(xué)生選擇學(xué)習(xí)內(nèi)容所需的算法進(jìn)行實(shí)驗(yàn),包括基于密度的聚類算法DBSCAN、粗糙集屬性約簡(jiǎn)算法和BP神經(jīng)網(wǎng)絡(luò)等算法等[10],平臺(tái)允許學(xué)生使用各種算法進(jìn)行簡(jiǎn)單的數(shù)據(jù)挖掘,同時(shí)支持編寫自定義算法對(duì)數(shù)據(jù)進(jìn)行挖掘。本實(shí)驗(yàn)平臺(tái)主要使用gcc編譯器以供學(xué)生進(jìn)行代碼的編譯[5],并對(duì)于學(xué)生已完成的代碼部分進(jìn)行及時(shí)保存。平臺(tái)支持學(xué)生使用多種計(jì)算機(jī)語言,包括C++、Java、Python語言等進(jìn)行編程,更加靈活。
在學(xué)生進(jìn)行可視化轉(zhuǎn)換時(shí),實(shí)驗(yàn)平臺(tái)將學(xué)生在實(shí)驗(yàn)時(shí)所使用的數(shù)據(jù)庫(kù)自動(dòng)導(dǎo)入進(jìn)Power BI平臺(tái)中,幫助學(xué)生快速對(duì)于所需可視化的數(shù)據(jù)庫(kù)數(shù)據(jù)源進(jìn)行選擇,在進(jìn)行編輯和建模[11]的同時(shí)完成可視化的實(shí)驗(yàn)。
本文對(duì)商科院校當(dāng)前的數(shù)據(jù)倉(cāng)庫(kù)教學(xué)現(xiàn)狀進(jìn)行了分析,探討了學(xué)生掌握知識(shí)所面臨的實(shí)驗(yàn)平臺(tái)缺乏問題,闡述了開展數(shù)據(jù)倉(cāng)庫(kù)實(shí)驗(yàn)平臺(tái)建設(shè)的重要性,從數(shù)據(jù)源、數(shù)據(jù)管理、數(shù)據(jù)處理及商務(wù)智能應(yīng)用等方面提出數(shù)據(jù)倉(cāng)庫(kù)實(shí)驗(yàn)平臺(tái)的設(shè)計(jì)方案,為雙一流商科院校數(shù)據(jù)類課程提供指導(dǎo)性的解決方案。