陳鋒
摘 ? 要:文章首先對(duì)ETL數(shù)據(jù)處理及應(yīng)用價(jià)值進(jìn)行了定義和表述,并就ETL數(shù)據(jù)處理工作在高校內(nèi)的具體應(yīng)用場(chǎng)景和所面臨的問題進(jìn)行介紹;其次對(duì)當(dāng)前高校開展ETL數(shù)據(jù)處理工作的幾個(gè)主流解決方案進(jìn)行了剖析,并圍繞ETL數(shù)據(jù)治理工作中的ETL數(shù)據(jù)技術(shù)平臺(tái)建設(shè)、ETL數(shù)據(jù)規(guī)范及從業(yè)人員隊(duì)伍的整合優(yōu)化等問題進(jìn)行了詳細(xì)闡述與分析;最后對(duì)開展ETL數(shù)據(jù)治理的意義進(jìn)行了總結(jié)。
關(guān)鍵詞:ETL;數(shù)據(jù)處理;數(shù)據(jù)治理;數(shù)據(jù)規(guī)范
中圖分類號(hào):G647;TP311.13 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2020)13-0068-03
ETL即Extract-Transform-Load,是指將數(shù)據(jù)從數(shù)據(jù)來源端經(jīng)抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至數(shù)據(jù)目的端的處理過程。在大數(shù)據(jù)、移動(dòng)應(yīng)用技術(shù)蓬勃發(fā)展的今天,高校信息化建設(shè)正由信息管理向提供優(yōu)質(zhì)信息服務(wù)方向轉(zhuǎn)變,當(dāng)前制約高校信息化發(fā)展的瓶頸不在于智能化的多終端數(shù)據(jù)采集,不在于圖形化個(gè)性化的數(shù)據(jù)展現(xiàn),而在于如何對(duì)數(shù)據(jù)進(jìn)行精準(zhǔn)快速處理。ETL數(shù)據(jù)處理作為院校在信息管理、信息化服務(wù)中的一項(xiàng)最基本最重要的工作,它的時(shí)效性、準(zhǔn)確性及可重用性將直接影響高校信息化服務(wù)的質(zhì)量與效能。
一、ETL數(shù)據(jù)處理在高校當(dāng)前的應(yīng)用場(chǎng)景和所面臨的問題
在高校信息化建設(shè)進(jìn)程中,問題最多、工作量最大的環(huán)節(jié)就是從各種數(shù)據(jù)源抽取、轉(zhuǎn)換和加載數(shù)據(jù)的操作,高校信息化建設(shè)中沉淀產(chǎn)生的數(shù)據(jù)來自不同時(shí)期、不同硬件平臺(tái)、不同操作系統(tǒng),數(shù)據(jù)源的多樣性造成“臟數(shù)據(jù)”的大量存在。這些“臟數(shù)據(jù)”給學(xué)校教學(xué)、科研、管理等各項(xiàng)工作的開展都帶來一定困難。
1.高校的各種數(shù)據(jù)統(tǒng)計(jì)報(bào)表離不開ETL數(shù)據(jù)處理
數(shù)據(jù)報(bào)表工作主要包括數(shù)據(jù)的收集、加工和上報(bào)三個(gè)工作環(huán)節(jié),數(shù)據(jù)報(bào)表工作的本質(zhì)就是一次ETL閉環(huán)過程。高校數(shù)據(jù)報(bào)表既有反映全校概況的,如高基報(bào)表、財(cái)務(wù)預(yù)決算報(bào)表;也有客觀展現(xiàn)學(xué)校具體工作的,如專業(yè)評(píng)估報(bào)表、教科研報(bào)表等??傮w來說高校報(bào)表具有專業(yè)性強(qiáng)、指標(biāo)體系復(fù)雜、時(shí)效性高等特點(diǎn)。在報(bào)表工作中,由于高校業(yè)務(wù)數(shù)據(jù)庫(kù)之間缺乏統(tǒng)一的標(biāo)志,表示同一對(duì)象的數(shù)據(jù)庫(kù)記錄的ID不唯一;此外,用戶在輸入數(shù)據(jù)時(shí),也會(huì)出現(xiàn)手工錄入錯(cuò)誤。這就要求報(bào)表人員要掌握計(jì)算機(jī)數(shù)據(jù)處理相關(guān)技術(shù)和方法。
2.高校的信息業(yè)務(wù)邏輯離不開ETL數(shù)據(jù)處理
ETL數(shù)據(jù)處理工作與高校信息系統(tǒng)的業(yè)務(wù)邏輯密不可分,如學(xué)工部門的獎(jiǎng)勤助貸管理要根據(jù)學(xué)生家庭經(jīng)濟(jì)狀況、個(gè)人成績(jī)等指標(biāo)進(jìn)行量化賦分換算;財(cái)務(wù)部門的繳費(fèi)管理要與學(xué)工系統(tǒng)、教務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)交換。以往這些業(yè)務(wù)數(shù)據(jù)工作由學(xué)校業(yè)務(wù)部門獨(dú)立完成。由于缺乏必要數(shù)據(jù)處理規(guī)范,不同數(shù)據(jù)庫(kù)對(duì)同一數(shù)據(jù)類型的實(shí)現(xiàn)形式不同,不同組織采用不同格式表示數(shù)據(jù),從而導(dǎo)致業(yè)務(wù)部門各自的業(yè)務(wù)數(shù)據(jù)邏輯無法實(shí)現(xiàn)共用,其建立的計(jì)算機(jī)數(shù)據(jù)處理過程無法被復(fù)制調(diào)用。
3.高校內(nèi)部的信息系統(tǒng)集成離不開ETL數(shù)據(jù)處理
隨著高校數(shù)字校園信息平臺(tái)的逐漸成熟與完善,業(yè)務(wù)信息系統(tǒng)與信息平臺(tái)的集成需求也越來越多。信息系統(tǒng)的集成主要包括認(rèn)證集成、門戶集成和數(shù)據(jù)集成,其中數(shù)據(jù)集成是信息系統(tǒng)集成的核心建設(shè)內(nèi)容。業(yè)務(wù)系統(tǒng)與數(shù)據(jù)中心集成過程中需要先修改數(shù)據(jù)標(biāo)準(zhǔn),按其數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)建模,最后依據(jù)數(shù)據(jù)模型來完成數(shù)據(jù)集成。這種傳統(tǒng)的數(shù)據(jù)集成方式開發(fā)周期過長(zhǎng),且在業(yè)務(wù)集成過程中,學(xué)校的建設(shè)成本很大,業(yè)務(wù)系統(tǒng)數(shù)據(jù)集成工作往往不會(huì)一蹴而就,隨著業(yè)務(wù)信息系統(tǒng)迭代升級(jí),信息集成面臨的困難也會(huì)越來越多。因此,如何根據(jù)業(yè)務(wù)系統(tǒng)集成需要,高效快速創(chuàng)建ETL數(shù)據(jù)處理過程,縮短數(shù)據(jù)集成開發(fā)工期,降低建設(shè)成本,是高校所面臨的難點(diǎn)問題。
二、當(dāng)前高校開展ETL數(shù)據(jù)處理所采用的技術(shù)方案
1.利用Excel完成ETL數(shù)據(jù)處理工作
Excel提供了很多數(shù)據(jù)處理和分析方法。目前常見的應(yīng)用于數(shù)據(jù)處理的方法有排序、篩選、分類、匯總、合并計(jì)算及各類數(shù)據(jù)處理函數(shù),此外,Excel還提供均值判斷、概率統(tǒng)計(jì)、回歸分析、時(shí)間序列等數(shù)據(jù)分析方法。Excel工具簡(jiǎn)單易學(xué),目前仍是高校開展數(shù)據(jù)處理工作的主流技術(shù)手段,但Excel自身在ETL數(shù)據(jù)采集、數(shù)據(jù)加載環(huán)節(jié)上沒有優(yōu)勢(shì),所以一般通過VBA宏編程等手段輔助完成。
2.利用專業(yè)的ETL數(shù)據(jù)處理工具
如IBM公司的DataStage、Oracle的Warehouse Builder、Microsoft公司的DTS都能夠獨(dú)立完成多數(shù)據(jù)源的抽取、轉(zhuǎn)換和數(shù)據(jù)維護(hù)。但這些專業(yè)ETL數(shù)據(jù)處理工具,一般需要DBA級(jí)別的數(shù)據(jù)庫(kù)技術(shù)專家參與才能完成復(fù)雜的數(shù)據(jù)加工處理過程,對(duì)于一些數(shù)據(jù)需求不穩(wěn)定、時(shí)效性要求高的數(shù)據(jù)轉(zhuǎn)換任務(wù),僅依靠專業(yè)的ETL數(shù)據(jù)處理工具還是難以勝任的。
綜上所述,使用一種或幾種技術(shù)解決方案完成學(xué)校的ETL數(shù)據(jù)處理工作有較大的局限性,只有在頂層數(shù)據(jù)治理框架下通過建立數(shù)據(jù)處理標(biāo)準(zhǔn)規(guī)范,開發(fā)數(shù)據(jù)處理系統(tǒng),科學(xué)調(diào)配人員分工,才能提高學(xué)校數(shù)據(jù)處理工作的時(shí)效性、可靠性與準(zhǔn)確性,才能讓高校的計(jì)算機(jī)數(shù)據(jù)處理工作得到共享和復(fù)用。
三、高校ETL數(shù)據(jù)處理規(guī)范的制定
ETL數(shù)據(jù)處理就是把數(shù)據(jù)從數(shù)據(jù)源中抽取出來,經(jīng)過清洗、轉(zhuǎn)換、加載到目標(biāo)數(shù)據(jù)集的過程,在信息技術(shù)中稱之為一次工程(project)。一個(gè)完整的ETL數(shù)據(jù)處理工程由數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載、日志系統(tǒng)四個(gè)模塊組成。同時(shí),每個(gè)模塊下,又由很多具體的ETL操作指令組合而成。每個(gè)具體的ETL操作,則稱之為一個(gè)任務(wù)(task)。為保證每一個(gè)ETL數(shù)據(jù)處理工程(project)都能夠被規(guī)范化設(shè)計(jì)、實(shí)施和維護(hù),就必須制定出高校自己的ETL數(shù)據(jù)處理規(guī)范。
高校ETL數(shù)據(jù)處理規(guī)范主要包括設(shè)計(jì)規(guī)范、開發(fā)規(guī)范及維護(hù)規(guī)范。其中設(shè)計(jì)規(guī)范包括數(shù)據(jù)源的規(guī)范化定義和表述,目標(biāo)數(shù)據(jù)集的規(guī)范化定義和表述,數(shù)據(jù)抽取、轉(zhuǎn)換規(guī)則的定義,數(shù)據(jù)處理流程的規(guī)范化描述;ETL數(shù)據(jù)處理規(guī)范一般采用標(biāo)準(zhǔn)XML文檔來進(jìn)行描述和約束。即每一項(xiàng)ETL數(shù)據(jù)處理工程(project)都由一份完整的XML文檔進(jìn)行描述:XML文檔中會(huì)包含一個(gè)名為“Project ”的根元素,“Project”元素下包含“Extract”、“Transform”、“Load”和“Log”四個(gè)子元素,這四個(gè)元素標(biāo)簽分別對(duì)應(yīng)于ETL project的數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載和日志四個(gè)系統(tǒng)模塊。
每個(gè)ETL數(shù)據(jù)處理工程的基本XML文檔格式如圖1所示。
其中高校ETL數(shù)據(jù)處理規(guī)范的開發(fā)規(guī)范是指數(shù)據(jù)處理過程在開發(fā)過程中所遵循的章程和約束。開發(fā)規(guī)范包括命名規(guī)范、功能定義規(guī)范和結(jié)構(gòu)規(guī)范,由于ETL技術(shù)平臺(tái)的支撐,用戶在圖形界面下可視化搭建數(shù)據(jù)處理作業(yè),技術(shù)平臺(tái)能夠自動(dòng)生成開發(fā)規(guī)范文檔,從而省去了大量工作。維護(hù)規(guī)范是指數(shù)據(jù)作業(yè)提交并執(zhí)行后,系統(tǒng)所產(chǎn)生的日志、報(bào)告以及其他相關(guān)技術(shù)文檔。數(shù)據(jù)作業(yè)的維護(hù)文檔也同樣由技術(shù)平臺(tái)自動(dòng)生成。ETL數(shù)據(jù)處理過程的規(guī)范化,為數(shù)據(jù)處理作業(yè)代碼可讀、維護(hù)和可復(fù)用提供了必要保證。
四、高校ETL數(shù)據(jù)處理信息平臺(tái)的建設(shè)
ETL數(shù)據(jù)處理技術(shù)平臺(tái)能夠?yàn)楦咝S脩魧?shí)現(xiàn)輕量級(jí)數(shù)據(jù)傳輸和數(shù)據(jù)交換,可以幫助校方將數(shù)據(jù)從一個(gè)系統(tǒng)按照一定的業(yè)務(wù)規(guī)則準(zhǔn)確無誤地轉(zhuǎn)換到其他業(yè)務(wù)系統(tǒng)或報(bào)表中。數(shù)據(jù)處理技術(shù)平臺(tái)提供基于Web架構(gòu)的可視化數(shù)據(jù)操作頁面,允許用戶通過拖拽數(shù)據(jù)處理元件完成數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗、加載等工作任務(wù);同時(shí),嚴(yán)格的事務(wù)控制策略和數(shù)據(jù)工作流引擎能夠保證數(shù)據(jù)的安全性和可靠性。ETL數(shù)據(jù)技術(shù)處理平臺(tái)自身具有數(shù)據(jù)處理技術(shù)平臺(tái)的多層體系架構(gòu)的特性,如圖2所示。
第一層是ETL數(shù)據(jù)處理組件庫(kù)。組件庫(kù)包括數(shù)據(jù)連接池組件、數(shù)據(jù)清洗規(guī)則庫(kù)組件、數(shù)據(jù)轉(zhuǎn)換規(guī)則庫(kù)組件及數(shù)據(jù)加載池組件。其中數(shù)據(jù)連接池和數(shù)據(jù)加載池組件能分別實(shí)現(xiàn)Access、CSV、Excel、Oracle 、MySQL等多種類數(shù)據(jù)庫(kù)、數(shù)據(jù)文件導(dǎo)入與導(dǎo)出;數(shù)據(jù)轉(zhuǎn)換組件能實(shí)現(xiàn)SQL解析、XSL轉(zhuǎn)換、值映射、排序等數(shù)據(jù)轉(zhuǎn)換操作,并允許用戶根據(jù)需求自定義擴(kuò)充轉(zhuǎn)換規(guī)則;數(shù)據(jù)清洗組件可實(shí)現(xiàn)數(shù)據(jù)排序合并、記錄關(guān)聯(lián)、連接、分組、采樣等記錄集操作,也可實(shí)現(xiàn)字符串替換、校驗(yàn)、補(bǔ)全拆分等數(shù)據(jù)字段級(jí)操作,并允許用戶根據(jù)需求自定義擴(kuò)充數(shù)據(jù)清洗規(guī)則。
第二層是ETL數(shù)據(jù)任務(wù)執(zhí)行引擎。該層根據(jù)用戶提交的數(shù)據(jù)處理作業(yè)進(jìn)行解析并執(zhí)行;服務(wù)器根據(jù)數(shù)據(jù)作業(yè)任務(wù)量與當(dāng)前可用資源自動(dòng)均衡計(jì)算負(fù)載,保證多個(gè)數(shù)據(jù)作業(yè)能并發(fā)執(zhí)行。
第三層是ETL數(shù)據(jù)作業(yè)編輯。該層提供計(jì)算機(jī)數(shù)據(jù)處理的可視化編輯與設(shè)計(jì)界面,用戶通過簡(jiǎn)單拖拽操作就可把底層ETL數(shù)據(jù)處理組件裝配成完整的數(shù)據(jù)處理作業(yè)并保存,用戶無須掌握編程技術(shù)即可完成數(shù)據(jù)作業(yè)開發(fā)與維護(hù)。
第四層是ETL 作業(yè)調(diào)度及監(jiān)控。ETL數(shù)據(jù)任務(wù)執(zhí)行引擎將并行過程中數(shù)據(jù)作業(yè)的執(zhí)行情況反饋至ETL作業(yè)調(diào)度及監(jiān)控層中,系統(tǒng)管理員可以根據(jù)實(shí)際需求對(duì)多處并發(fā)執(zhí)行的多個(gè)數(shù)據(jù)作業(yè)進(jìn)行資源分配,也可以對(duì)執(zhí)行中的數(shù)據(jù)作業(yè)進(jìn)行暫停、恢復(fù)和中斷操作。
五、高校ETL用戶角色崗位分工
高校ETL數(shù)據(jù)處理工作主要來自于高校數(shù)據(jù)報(bào)表、內(nèi)部業(yè)務(wù)部門的數(shù)據(jù)流轉(zhuǎn)及業(yè)務(wù)系統(tǒng)的數(shù)據(jù)集成。高校從事計(jì)算機(jī)數(shù)據(jù)處理工作的人員按類別可大致分為報(bào)表填報(bào)人員、業(yè)務(wù)部門的數(shù)據(jù)流傳處理人員、負(fù)責(zé)信息系統(tǒng)集成的校方技術(shù)人員及學(xué)校信息中心的平臺(tái)維護(hù)技術(shù)人員等。為了能夠優(yōu)化人力資源,避免重復(fù)性勞動(dòng),要在學(xué)校數(shù)據(jù)治理層面上對(duì)ETL數(shù)據(jù)處理用戶角色及崗位進(jìn)行整合優(yōu)化,圖3是高校ETL數(shù)據(jù)處理人員角色責(zé)任分工矩陣。
高校ETL數(shù)據(jù)處理具有跨部門、跨專業(yè)的工作特性,高校ETL數(shù)據(jù)處理工作人員角色責(zé)任分工矩陣的建立,有利于ETL數(shù)據(jù)處理工作的任務(wù)分解和責(zé)任界定;角色責(zé)任分工矩陣的創(chuàng)建,能夠幫助高校梳理ETL工作任務(wù)的性質(zhì)和特點(diǎn),能夠更有效地分解工作任務(wù);高校各部門也可按照責(zé)任矩陣中的角色認(rèn)領(lǐng)工作任務(wù),將工作落地實(shí)施;同時(shí),高校也可按照ETL數(shù)據(jù)處理人員角色責(zé)任分工矩陣對(duì)責(zé)任部門設(shè)定可度量的績(jī)效考核目標(biāo),進(jìn)行考核評(píng)價(jià);通過對(duì)高校ETL用戶角色崗位的合理分工與整合,各單位在各個(gè)工作環(huán)節(jié)之間銜接得更加緊密、高效和順暢。
六、結(jié)束語
基于全校總體數(shù)據(jù)治理設(shè)計(jì)框架的全局ETL數(shù)據(jù)整合方案,能夠?qū)⒁酝咝?nèi)部各部門分散的數(shù)據(jù)處理工作整合起來,將凌亂無序的數(shù)據(jù)處理技術(shù)方法通過ETL數(shù)據(jù)處理技術(shù)平臺(tái)統(tǒng)一起來;此外,ETL數(shù)據(jù)整合方案確定了數(shù)據(jù)處理從業(yè)人員的角色分工,讓全校數(shù)據(jù)處理工作人員都能人盡其職、人盡其能,充分挖掘調(diào)動(dòng)智力資源,避免了人力浪費(fèi);基于校標(biāo)的ETL數(shù)據(jù)處理技術(shù)規(guī)范保證了每一份處理作業(yè)的質(zhì)量和時(shí)效性。規(guī)范化標(biāo)準(zhǔn)化的數(shù)據(jù)處理作業(yè)具備可維護(hù)性、可移植性、可復(fù)用性,能夠大大減少基層數(shù)據(jù)處理人員的重復(fù)性勞動(dòng),能夠大幅提升高校的數(shù)據(jù)質(zhì)量和信息服務(wù)水平。
參考文獻(xiàn):
[1]王卓昊,楊冬菊,徐晨陽.基于ISE算法的分布式ETL任務(wù)調(diào)度策略研究[J].計(jì)算機(jī)科學(xué),2019(12):1-7.
[2]趙志.教育大數(shù)據(jù)統(tǒng)計(jì)分析平臺(tái)設(shè)計(jì)與研究[D]. 西安:西安理工大學(xué),2019.
[3]王夢(mèng)潔.基于ETL的數(shù)據(jù)集成平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2019.
[4]范江波.基于Oracle ESB建設(shè)校園服務(wù)體系的實(shí)踐與探索[J].中國(guó)教育信息化,2016(19):57-60.
[5]潘彬.改進(jìn)的ETL框架及其數(shù)據(jù)清洗方法研究[D].南充:西華大學(xué),2019.
[6]周宇.基于模型轉(zhuǎn)換的ETL代碼生成方法研究及應(yīng)用[D].重慶:重慶郵電大學(xué),2018.
[7]周春紅.ETL在BI項(xiàng)目中的設(shè)計(jì)與實(shí)現(xiàn)[D].上海:東華大學(xué),2016.
[8]姚志鵬.數(shù)據(jù)抽取、轉(zhuǎn)換、加載描述規(guī)范的研究與應(yīng)用[D].青島:青島大學(xué),2013.
(編輯:王天鵬)