文/高亮
上海財(cái)經(jīng)大學(xué)實(shí)施主數(shù)據(jù)管理 高效發(fā)掘數(shù)據(jù)價(jià)值
文/高亮
高校信息化經(jīng)過(guò)多年發(fā)展,學(xué)校各類核心業(yè)務(wù)都建立了相應(yīng)的管理信息系統(tǒng),日常業(yè)務(wù)運(yùn)作已經(jīng)離不開(kāi)信息系統(tǒng),而且不同管理部門及業(yè)務(wù)的相互協(xié)作越來(lái)越多,需要不同管理系統(tǒng)聯(lián)動(dòng)的情況也越來(lái)越普遍,很少有系統(tǒng)能夠獨(dú)立于其他系統(tǒng)而運(yùn)作。在大數(shù)據(jù)背景下高校也正在逐步邁入智慧校園時(shí)代,但是由于高校信息化規(guī)劃相對(duì)落后、建設(shè)思路不同、實(shí)施廠商眾多、開(kāi)發(fā)技術(shù)多樣等等原因,數(shù)據(jù)孤島現(xiàn)象依然很嚴(yán)重,各業(yè)務(wù)系統(tǒng)在相互聯(lián)動(dòng)、協(xié)作方面還存在很多困難,未能形成有機(jī)整體從而充分發(fā)揮信息化優(yōu)勢(shì)。由此產(chǎn)生的問(wèn)題普遍存在于各高校信息化建設(shè)過(guò)程中,也是一直困擾信息化從業(yè)人員的棘手問(wèn)題,比如:缺乏數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)源頭不唯一、數(shù)據(jù)不一致、數(shù)據(jù)無(wú)法共享使用、上報(bào)數(shù)據(jù)困難、對(duì)外口徑不一致、各系統(tǒng)交互形成網(wǎng)狀結(jié)構(gòu)增加運(yùn)維難度和工作量等等,這樣也就導(dǎo)致信息系統(tǒng)雖然產(chǎn)生了很多有價(jià)值的數(shù)據(jù),但是無(wú)法深度利用,更無(wú)法產(chǎn)生更多價(jià)值,僅僅完成了最基本的支撐日常業(yè)務(wù)運(yùn)作任務(wù)。
以上所有問(wèn)題產(chǎn)生的一個(gè)主要原因在于缺乏有效的主數(shù)據(jù)管理,本文從管理和技術(shù)兩個(gè)方面詳細(xì)介紹在高校如何有效實(shí)施主數(shù)據(jù)管理,從而能夠更好地推進(jìn)高校信息化建設(shè)。
主數(shù)據(jù)(MD Master Data)是信息系統(tǒng)中描述核心業(yè)務(wù)、實(shí)體并且在不同業(yè)務(wù)系統(tǒng)間共享使用的數(shù)據(jù),共享是關(guān)鍵詞,它們分散在各業(yè)務(wù)系統(tǒng)中,是企業(yè)內(nèi)部能夠跨業(yè)務(wù)、跨系統(tǒng)重復(fù)使用的高價(jià)值數(shù)據(jù)。一個(gè)機(jī)構(gòu)有很多業(yè)務(wù)系統(tǒng),每個(gè)系統(tǒng)又有很多數(shù)據(jù),那么如何去鑒定哪些是主數(shù)據(jù)呢?可以用一個(gè)簡(jiǎn)單的原則去區(qū)分,凡是需要在不同業(yè)務(wù)系統(tǒng)間進(jìn)行交互和共享使用的數(shù)據(jù)都可以稱之為主數(shù)據(jù),比如教師基本信息就是高校的核心主數(shù)據(jù),因?yàn)榻處熁拘畔⑹呛芏鄻I(yè)務(wù)系統(tǒng)中都要使用的關(guān)鍵數(shù)據(jù)。主數(shù)據(jù)具有準(zhǔn)確性、一致性、集成性、共享性、高價(jià)值等特點(diǎn),其范圍和內(nèi)容無(wú)法一次性完成定義,需要根據(jù)業(yè)務(wù)需求逐步擴(kuò)展完善。主數(shù)據(jù)通常需要在整個(gè)業(yè)務(wù)范圍內(nèi)保持一致性、完整性、準(zhǔn)確性和實(shí)時(shí)性,為了達(dá)成這一目標(biāo),就需要專人采用專業(yè)管理工具或平臺(tái)進(jìn)行主數(shù)據(jù)管理。
通過(guò)主數(shù)據(jù)的定義可以總結(jié)出主數(shù)據(jù)的主要作用:1.在企業(yè)內(nèi)定義完整的全局業(yè)務(wù)實(shí)體;2.保證核心業(yè)務(wù)實(shí)體數(shù)據(jù)的準(zhǔn)確性、實(shí)時(shí)性;3.為業(yè)務(wù)系統(tǒng)提供共享數(shù)據(jù),保證數(shù)據(jù)一致性。
主數(shù)據(jù)管理(Master Data Management,簡(jiǎn)稱MDM )描述了一組規(guī)程、技術(shù)和解決方案,它們用于為所有利益相關(guān)方(如用戶、應(yīng)用程序、數(shù)據(jù)倉(cāng)庫(kù)、流程)創(chuàng)建并維護(hù)業(yè)務(wù)數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性。主數(shù)據(jù)管理的關(guān)鍵就是“管理”,主數(shù)據(jù)管理不會(huì)創(chuàng)建新的數(shù)據(jù),它將業(yè)務(wù)系統(tǒng)中各類主數(shù)據(jù)進(jìn)行歸集和整理,納入到統(tǒng)一管理平臺(tái),進(jìn)行統(tǒng)一編碼、發(fā)布和更新,自動(dòng)、準(zhǔn)確、及時(shí)地為使用方分發(fā)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證。主數(shù)據(jù)管理涉及部門廣,牽涉系統(tǒng)多,實(shí)施難度大,需要管理措施和技術(shù)手段相互結(jié)合才能有效地推動(dòng)項(xiàng)目開(kāi)展,取得成效。
管理措施
1.提高數(shù)據(jù)共享意識(shí)
目前信息化環(huán)境中存在數(shù)據(jù)孤島、數(shù)據(jù)源頭多、數(shù)據(jù)不一致現(xiàn)象的主要原因是沒(méi)有進(jìn)行數(shù)據(jù)共享,根本原因是數(shù)據(jù)共享意識(shí)不強(qiáng),沒(méi)有將數(shù)據(jù)共享意識(shí)提高到足夠的高度。因此,為了走出目前由數(shù)據(jù)問(wèn)題造成的困境,首要問(wèn)題是從上到下、從管理層到一線人員提高數(shù)據(jù)共享意識(shí),首先要有開(kāi)放的心態(tài),數(shù)據(jù)是全校公共資產(chǎn),應(yīng)該與所有相關(guān)部門、業(yè)務(wù)共享使用;其次,在建設(shè)業(yè)務(wù)系統(tǒng)時(shí)如果需要跨業(yè)務(wù)的數(shù)據(jù),應(yīng)該考慮通過(guò)共享手段從準(zhǔn)確的數(shù)據(jù)源頭來(lái)獲取數(shù)據(jù),堅(jiān)決杜絕另起爐灶再維護(hù)一份新數(shù)據(jù),本系統(tǒng)只需維保本業(yè)務(wù)領(lǐng)域的數(shù)據(jù)即可。
2. 改變數(shù)據(jù)共享模式
目前高校信息化建設(shè)中數(shù)據(jù)共享思路已經(jīng)基本普及,但是共享模式多種多樣,由此也產(chǎn)生了很多問(wèn)題,如:數(shù)據(jù)接口重復(fù)開(kāi)發(fā)、數(shù)據(jù)接口維護(hù)復(fù)雜、系統(tǒng)間相互共享數(shù)據(jù)形成網(wǎng)狀結(jié)構(gòu)、系統(tǒng)間耦合程度高等。為此,應(yīng)該建立專門的主數(shù)據(jù)管理平臺(tái),維護(hù)標(biāo)準(zhǔn)的數(shù)據(jù)接口,提供統(tǒng)一的數(shù)據(jù)共享方法,為不同應(yīng)用場(chǎng)景、應(yīng)用需求提供不同數(shù)據(jù)接口,斷絕業(yè)務(wù)系統(tǒng)間的引用關(guān)系,各業(yè)務(wù)系統(tǒng)只與主數(shù)據(jù)平臺(tái)有關(guān)系,形成數(shù)據(jù)共享星型結(jié)構(gòu)。
3.技術(shù)部門統(tǒng)籌管理
不論是企業(yè)還是高校,主數(shù)據(jù)管理、數(shù)據(jù)共享在整個(gè)信息化環(huán)境中是一盤棋,開(kāi)發(fā)、維護(hù)和管理又具有一定的技術(shù)門檻,因此需要由技術(shù)部門站在全局角度去統(tǒng)籌規(guī)劃和管理,同時(shí)成立專職技術(shù)小組去開(kāi)發(fā)、維護(hù),這樣既可以避免重復(fù)建設(shè),又可以避免業(yè)務(wù)系統(tǒng)間共享數(shù)據(jù)的情況再次發(fā)生,同時(shí)又能全局掌握主數(shù)據(jù)使用情況。
4.定義數(shù)據(jù)管理規(guī)范
主數(shù)據(jù)的流暢運(yùn)作離不開(kāi)規(guī)范的約束,配套的規(guī)范制度應(yīng)該隨著主數(shù)據(jù)管理平臺(tái)的建設(shè)而一起制定。規(guī)范按使用對(duì)象分為對(duì)內(nèi)和對(duì)外兩部分,對(duì)內(nèi)的主要供主數(shù)據(jù)開(kāi)發(fā)、維護(hù)、管理人員使用,側(cè)重技術(shù)方面的要求,具體包括開(kāi)發(fā)技術(shù)規(guī)范、日常運(yùn)維管理規(guī)范等,技術(shù)人員需要清晰掌握主數(shù)據(jù)平臺(tái)有哪些主數(shù)據(jù)、來(lái)自于哪、為哪些用戶提供了服務(wù)、每一種主數(shù)據(jù)有哪些共享方式等方面的內(nèi)容;對(duì)外的主要供數(shù)據(jù)使用方使用,具體內(nèi)容包括主數(shù)據(jù)申請(qǐng)、審核批準(zhǔn)、下發(fā)使用、注銷停用、安全等方面內(nèi)容,數(shù)據(jù)使用方需要向數(shù)據(jù)主管部門(數(shù)據(jù)屬于業(yè)務(wù)部門的資產(chǎn))說(shuō)明使用目的并獲得同意,主數(shù)據(jù)平臺(tái)管理員才能對(duì)其授權(quán)使用,用戶在使用中需遵循數(shù)據(jù)安全等方面的要求,不得對(duì)外泄露數(shù)據(jù)。
5.落實(shí)數(shù)據(jù)維護(hù)職責(zé)
主數(shù)據(jù)對(duì)準(zhǔn)確性和及時(shí)性的要求不言而喻,所有的主數(shù)據(jù)都來(lái)源于業(yè)務(wù)系統(tǒng),主數(shù)據(jù)管理平臺(tái)本身不產(chǎn)生、不修改主數(shù)據(jù),這就有必要明確數(shù)據(jù)維護(hù)責(zé)任和要求,業(yè)務(wù)系統(tǒng)管理員應(yīng)該及時(shí)維護(hù)數(shù)據(jù),保證系統(tǒng)提供高質(zhì)量的源數(shù)據(jù)。
技術(shù)手段
1.構(gòu)建校級(jí)主數(shù)據(jù)平臺(tái)
主數(shù)據(jù)管理平臺(tái)一定是一個(gè)全局性平臺(tái),統(tǒng)一管理全校的主數(shù)據(jù)和數(shù)據(jù)共享,平臺(tái)架構(gòu)如圖1所示。
平臺(tái)的核心是數(shù)據(jù)抽取層、數(shù)據(jù)存儲(chǔ)層和數(shù)據(jù)分發(fā)層,按數(shù)據(jù)內(nèi)容和性質(zhì)主數(shù)據(jù)可以分為三類:代碼數(shù)據(jù)類、基礎(chǔ)數(shù)據(jù)類、交易數(shù)據(jù)類,代碼數(shù)據(jù)類一般指各類數(shù)據(jù)字典,基礎(chǔ)數(shù)據(jù)一般是數(shù)據(jù)量相對(duì)較少、變化相對(duì)緩慢的用于支撐其他業(yè)務(wù)活動(dòng)開(kāi)展的核心數(shù)據(jù),如教師信息、學(xué)生信息等,交易類數(shù)據(jù)一般指數(shù)據(jù)量較大、產(chǎn)生較快的業(yè)務(wù)數(shù)據(jù),如一卡通交易流水、學(xué)生課表、學(xué)生成績(jī)等。數(shù)據(jù)分發(fā)層完成對(duì)外提供數(shù)據(jù)的功能,根據(jù)應(yīng)用場(chǎng)景選擇具體的工具及技術(shù)方法。
圖1 主數(shù)據(jù)管理平臺(tái)架構(gòu)
2. 定義主數(shù)據(jù)模型
定義主數(shù)據(jù)模型包括識(shí)別主數(shù)據(jù)實(shí)體、識(shí)別主數(shù)據(jù)屬性、識(shí)別主數(shù)據(jù)關(guān)系等幾個(gè)環(huán)節(jié)。一個(gè)主數(shù)據(jù)模型就是對(duì)一個(gè)業(yè)務(wù)、實(shí)體的準(zhǔn)確全面描述,主數(shù)據(jù)模型在結(jié)構(gòu)關(guān)系上并不復(fù)雜,主要由實(shí)體和描述實(shí)體的屬性組成,不同主數(shù)據(jù)之間通過(guò)邏輯主外鍵來(lái)產(chǎn)生關(guān)系。主數(shù)據(jù)模型不應(yīng)直接依賴于具體應(yīng)用需求,準(zhǔn)確、完整地描述業(yè)務(wù)實(shí)體即可,設(shè)計(jì)時(shí)要充分考慮模型的標(biāo)準(zhǔn)性、通用性和擴(kuò)展性。不同模型之間要?jiǎng)澢褰缦蓿M量避免模型重疊導(dǎo)致不同模型存放同樣的數(shù)據(jù),每一個(gè)模型針對(duì)一類應(yīng)用場(chǎng)景,不能期望一個(gè)模型滿足所有需求。定義一個(gè)主數(shù)據(jù)模型不可能一次性完成,定義之初先確定該主數(shù)據(jù)所要描述的業(yè)務(wù)含義,然后參考現(xiàn)有數(shù)據(jù)共享需求填充屬性,后續(xù)再根據(jù)新增需求逐步擴(kuò)展、完善。這其中一定要注意數(shù)據(jù)粒度問(wèn)題,同一類數(shù)據(jù),不同粒度就是不同的模型,比如一卡通消費(fèi)明細(xì)和一卡通月匯總就是不同的模型,雖然匯總數(shù)據(jù)可以由明細(xì)數(shù)據(jù)生成,但最好還是單獨(dú)定義。
3.主數(shù)據(jù)命名規(guī)范
主數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中需要有規(guī)范的名稱來(lái)標(biāo)識(shí)以便于理解和使用,建議主數(shù)據(jù)名稱采用英文三級(jí)形式命名,具體約束如下:
第一級(jí)表示數(shù)據(jù)存儲(chǔ)形式,T代表數(shù)據(jù)庫(kù)表、V代表視圖、MV代表物化視圖;
第二級(jí)表示主數(shù)據(jù)來(lái)源或業(yè)務(wù)領(lǐng)域,統(tǒng)一使用源系統(tǒng)三位英文簡(jiǎn)稱;
第三級(jí)表示數(shù)據(jù)內(nèi)容,如果數(shù)據(jù)內(nèi)容無(wú)法用一個(gè)單詞完整描述可以采用下劃線命名方式,單詞可以用全拼或縮寫,保證名稱長(zhǎng)度不超過(guò)數(shù)據(jù)庫(kù)限制即可。
主數(shù)據(jù)名稱形式:數(shù)據(jù)存儲(chǔ)形式_業(yè)務(wù)域簡(jiǎn)稱_數(shù)據(jù)內(nèi)容描述。例如,教師基本信息主數(shù)據(jù)可以定義為:V_HRS_ EMPLOYEE_INFOR。
4.主數(shù)據(jù)提取分發(fā)
主數(shù)據(jù)管理平臺(tái)的第一個(gè)任務(wù)就是使用數(shù)據(jù)集成工具將分散于各業(yè)務(wù)系統(tǒng)的源數(shù)據(jù)按主數(shù)據(jù)模型抽取到存儲(chǔ)主數(shù)據(jù)的數(shù)據(jù)庫(kù)中,抽取過(guò)程完成分散數(shù)據(jù)的整合和異構(gòu)數(shù)據(jù)源的同構(gòu)。抽取過(guò)程中可對(duì)源數(shù)據(jù)進(jìn)行邏輯轉(zhuǎn)換或計(jì)算,比如做一些值映射、衍生一些新的屬性字段等,但不得修改源數(shù)據(jù),主數(shù)據(jù)開(kāi)發(fā)完成后需要進(jìn)行測(cè)試、校驗(yàn),確保抽取過(guò)程進(jìn)行關(guān)聯(lián)、轉(zhuǎn)換的正確性。數(shù)據(jù)抽取可以使用ETL工具Informatica、ODI、Kettle等,也可以編寫存儲(chǔ)過(guò)程。由于不同數(shù)據(jù)共享需求對(duì)實(shí)時(shí)性要求不同,可以根據(jù)具體需求對(duì)不同的抽取任務(wù)設(shè)置抽取頻率。對(duì)于一些標(biāo)準(zhǔn)類的線下數(shù)據(jù),一般變動(dòng)較少,維護(hù)頻率較低,如果沒(méi)有相應(yīng)的管理系統(tǒng),可以一次性導(dǎo)入主數(shù)據(jù)管理平臺(tái),后續(xù)在主數(shù)據(jù)管理平臺(tái)中進(jìn)行簡(jiǎn)單維護(hù)。
主數(shù)據(jù)管理平臺(tái)的另一個(gè)任務(wù)就是為數(shù)據(jù)使用方提供數(shù)據(jù),可以采用主數(shù)據(jù)平臺(tái)主動(dòng)推送和使用方主動(dòng)提取兩種方式。開(kāi)發(fā)工具可以采用ETL工具,也可以在業(yè)務(wù)系統(tǒng)和主數(shù)據(jù)庫(kù)間建立DBlink進(jìn)行讀取,對(duì)于第三方用戶建議封裝成Webservice供其調(diào)用。這其中要注意兩個(gè)問(wèn)題,一是訪問(wèn)安全性要求,比如為了主數(shù)據(jù)庫(kù)的安全,不允許建立DBlink,或者不允許直接訪問(wèn)數(shù)據(jù)庫(kù);另一個(gè)是數(shù)據(jù)實(shí)時(shí)性要求,這依賴于主數(shù)據(jù)的抽取和分發(fā)頻率。由于應(yīng)用需求存在差異性,使用方拿到數(shù)據(jù)后可以進(jìn)行再次加工,如只挑選需要的屬性,或者擴(kuò)展屬性等。
5.主數(shù)據(jù)平臺(tái)監(jiān)控
主數(shù)據(jù)平臺(tái)的穩(wěn)定運(yùn)行離不開(kāi)完善的系統(tǒng)監(jiān)控,主要包括數(shù)據(jù)共享功能監(jiān)控和數(shù)據(jù)質(zhì)量監(jiān)控兩個(gè)方面。功能監(jiān)控主要監(jiān)控?cái)?shù)據(jù)抽取和分發(fā)任務(wù)是否正常執(zhí)行,對(duì)于異常情況要第一時(shí)間給系統(tǒng)管理員發(fā)送報(bào)警信息。主數(shù)據(jù)管理平臺(tái)本身不產(chǎn)生數(shù)據(jù)質(zhì)量問(wèn)題,為了保證共享數(shù)據(jù)的有效利用,有必要對(duì)主數(shù)據(jù)相關(guān)的業(yè)務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量檢查和監(jiān)控,對(duì)于發(fā)現(xiàn)的數(shù)據(jù)問(wèn)題還是回歸到源頭去解決。數(shù)據(jù)質(zhì)量監(jiān)控具體方法可以參考中國(guó)教育網(wǎng)絡(luò)2016年1月文章《利用數(shù)據(jù)質(zhì)量規(guī)則庫(kù)推動(dòng)數(shù)據(jù)質(zhì)量管理》。
主數(shù)據(jù)管理是目前解決數(shù)據(jù)孤島、實(shí)現(xiàn)數(shù)據(jù)共享比較好的方法,也是數(shù)據(jù)治理的一個(gè)重要環(huán)節(jié),但是搭建主數(shù)據(jù)管理平臺(tái)是一個(gè)長(zhǎng)期、復(fù)雜的過(guò)程,涉及組織架構(gòu)、管理流程、技術(shù)攻關(guān)等多方面內(nèi)容。本文基于上海財(cái)經(jīng)大學(xué)主數(shù)據(jù)管理項(xiàng)目的實(shí)施過(guò)程,從管理措施和技術(shù)手段兩個(gè)方面詳細(xì)介紹了實(shí)施主數(shù)據(jù)的幾個(gè)重要環(huán)節(jié),為高校信息化建設(shè)提供一些參考。
(責(zé)編:楊燕婷)
(作者單位為上海財(cái)經(jīng)大學(xué)信息化辦公室)