彭明 劉建峰 王常華
摘 ?要:數據的價值由數據質量決定,在分析高校數據的過程中,工作人員發(fā)現數據不一致、信息孤島現象嚴重、數據質量差等問題嚴重制約著高校信息化的發(fā)展,為了提高高校信息化的服務水平,針對這些問題提出構建共享數據平臺的方案,該方案利用ODI數據集成工具對分散在各業(yè)務系統(tǒng)中的數據進行集成,從而提高數據的質量、降低數據共享的難度、提升信息化服務能力和數據治理水平,促進高校信息化建設的發(fā)展。
關鍵詞:數據治理;數據集成;數據質量;信息化建設;共享數據平臺
中圖分類號:G647;TP311.13 ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)13-0137-04
Abstract:The value of data is determined by the quality of data. In the process of analyzing university data,the staff found that data inconsistency,serious information island phenomenon,poor data quality and other problems seriously restrict the development of university informatization. In order to improve the service level of university informatization,this paper proposes a scheme of building a shared data platform,which uses ODI data integration tools. In order to improve the quality of data,reduce the difficulty of data sharing,improve the ability of information service and data governance,and promote the development of information construction in colleges and universities.
Keywords:data governance;data integration;data quality;information construction;shared data platform
0 ?引 ?言
隨著互聯網、大數據等信息技術的逐漸發(fā)展,將信息技術同行業(yè)的發(fā)展模式相融合,制定出更加有益于行業(yè)發(fā)展的新模式,是促進行業(yè)可持續(xù)發(fā)展的重要條件,在此過程中,高校的信息化建設也在走向新的階段[1]。目前,各高校都積極投身到信息化校園建設中,努力從數字化校園向智慧校園轉變,取得了很好的成績。南京中醫(yī)藥大學也以建設智慧校園為目標,不斷向前發(fā)展,然而,在這個過程中發(fā)現,校內各部門、學院分別管理部門業(yè)務數據,導致“信息孤島”現象嚴重、數據標準不一致、數據質量差、冗余度高、可用性低、共享難等問題。同時已經建設的信息系統(tǒng)與師生需求錯位、重建設、輕需求的現象突出,高價建設的信息系統(tǒng)利用率卻很低[2],因此,急需對校內積累的大量數據進行治理,南京中醫(yī)藥大學工作人員通過調研和分析,針對本校的實際情況提出構建共享數據平臺的方案,該平臺可以集成分散在各業(yè)務系統(tǒng)中的數據,統(tǒng)一數據標準,從而提高數據的質量、降低數據共享的難度,同時可以實現校內各部門的業(yè)務信息展示、數據中心大屏展示、基本校情展示、數據質量違規(guī)量展示、數據異動監(jiān)測、質量問題分布展示、數據監(jiān)測查詢、代碼執(zhí)行異常檢測等工作。
1 ?數據治理的現狀
高校信息化校園建設初期,由于缺乏統(tǒng)一的數據管理標準和規(guī)劃,盡管做了很多數據集成工作,可是由于數據不規(guī)范、不一致、冗余度高、部分數據共享難等原因,導致數據質量低下、可用性不高[3]。因此我們需要針對全校的業(yè)務系統(tǒng)建設一個標準的數據管理流程,以此對全校的數據進行全生命周期的管理[4]。
數據治理是將技術同管理相結合對數據進行的持續(xù)的標準化工作,是對數據全生命周期的管理[5]。數據治理過程中需要制定數據管理標準、代碼標準、流程規(guī)范、監(jiān)督及考核機制、技術工具等方面的內容。數據治理的目標是減少數據的冗余度、提高數據的質量,保障數據的安全性、可用性,實現高校內部分散數據的有效整合和業(yè)務部門之間的數據共享,從而更好地發(fā)揮數據在信息化建設中的作用[6]。通過研究與分析發(fā)現本校數據治理主要存在以下幾個問題:
(1)數據不一致。校內師生在科研、教學、生活等方面需要重復填寫很多信息,由于一些信息的格式、內容不固定導致在不同系統(tǒng)中產生的信息不一致,影響了數據的流動和整合。
(2)“信息孤島”現象突出[7]。信息化建設初期,由于缺乏統(tǒng)一的數據管理標準和規(guī)劃,各業(yè)務部門為了實現有序化管理,提高工作效率,根據自己的業(yè)務需求各自建設了部門的業(yè)務系統(tǒng),這些系統(tǒng)之間相互獨立,最終導致多頭管理、代碼標準不一致、數據標準不一致等問題越來越突出,無法實現信息交換與數據資源共享,信息關聯程度也越來越低,加大了數據清洗、整合的難度。
(3)數據質量差。由于各部門業(yè)務系統(tǒng)相互獨立,數據源上的數據質量水平不一致,導致數據質量偏低。此外,數據來源途徑多且分散,數據從生產到使用過程不清晰,數據的完備性、準確性存疑,數據質量堪憂,數據融合困難。
(4)教職工信息化水平不高。高校信息化的發(fā)展需要校內各部門人員的參與,但一些部門存在管理人員數量不足、缺少管理經驗、信息化水平不高、數據監(jiān)管不全面、缺少統(tǒng)一的數據質量管控流程等問題[8]。
(5)數據全生命周期不完整。高校業(yè)務數據的使用、維護、備份、過期等管理不規(guī)范、流程不完整。
綜上所述,本文提出一種構建共享數據平臺的方案,該方案以ODI(Oracle Data Integrator)[9]數據集成工具為基礎,不僅可以很好地集成各獨立業(yè)務系統(tǒng)中的數據,達到數據交換與共享的目的,而且提供了代碼標準管理、數據脫敏、運行監(jiān)控、數據歷史歸檔、數據監(jiān)測等功能,既保證了數據的質量也滿足了業(yè)務部門之間的多樣化數據共享需求。
2 ?數據治理的建設思路
2.1 ?數據集成
數據集成是在邏輯上或者物理上對不同格式、不同數據源的數據進行匯總,并且利用信息交換,解決數據的異構性與分布性問題,從而為分散的業(yè)務系統(tǒng)提供數據共享。數據集成領域通常使用聯邦數據庫系統(tǒng)、數據倉庫、基于中間件模型這3類集成模型。
中間件模型是最常用的一種模型,其通過統(tǒng)一的全局數據模型來訪問分散的數據庫、Web資源等。中間件位于應用層和數據層中間,發(fā)揮協調各數據源系統(tǒng)的作用,同時為訪問集成數據庫的系統(tǒng)提供通用的接口和統(tǒng)一的模式。該模型還可以很好地解決數據源中數據的更新問題,當數據源發(fā)生變化后,直接修改中間件模型的邏輯視圖即可,從而提高效率,增強集成系統(tǒng)的可擴展性[7]。
本文介紹的是Oracle的產品ODI工具,ODI工具的集成包括兩種方式:全量集成和增量集成。全量集成是將需要同步的數據一次性同步到目標數據庫上;增量集成是只將發(fā)生變化的數據同步到目標數據庫[10,11]。南京中醫(yī)藥大學利用該工具建立了一個中間數據庫——共享數據平臺,該共享數據平臺定義了元數據、業(yè)務規(guī)則與約束,然后連接服務器執(zhí)行代碼,并將返回的結果與消息存儲到共享數據庫內。在集成的過程中,此共享數據平臺采用全量集成方式將需要同步的數據集成到目標數據庫內。
2.2 ?共享數據平臺的設計
2.2.1 ?需求調研
本文介紹的共享數據平臺是基于學校的一個高層應用平臺,目的是實現學校各獨立業(yè)務系統(tǒng)之間的數據共享,該平臺使用ODI工具的全量集成方式將需要同步的數據一次性同步到目標數據庫上。高校搭建共享數據平臺之前,為了能夠提高實施過程的效率,首先要掌握以下幾點:各獨立業(yè)務系統(tǒng)主機的操作系統(tǒng)類型,數據庫的類型、版本號、用戶名、密碼、訪問權限等;提供對應系統(tǒng)的需求文檔,并詳細記錄該系統(tǒng)需要向共享庫提供的數據類型和共享數據庫需要推送給各業(yè)務系統(tǒng)的數據[12]。同時也要記錄集成業(yè)務系統(tǒng)對應的數據庫信息,包括源表和目標表的表結構、字段信息(是否為主鍵、字段名、字段唯一標識、字段類型、字段長度、字段說明等),源字段與目標字段的轉換關系、集成方式、數據集成周期等。
2.2.2 ?集成總體框架
確定數據源與數據共享平臺的共享流程架構是數據治理的關鍵。第一步,基于校內分散的業(yè)務系統(tǒng)進行數據抓取,包括人事系統(tǒng)、教務系統(tǒng)、研究生系統(tǒng)、科研系統(tǒng)、財務系統(tǒng)、資產系統(tǒng)、圖書管理系統(tǒng)等;第二步,將抓取到的業(yè)務數據集成到共享數據平臺,通過一系列的工具對數據進行清洗、轉換為各個標準數據子集;第三步,將標準數據與其他需要的業(yè)務系統(tǒng)進行交換,從而實現數據的交換與共享;第四步,清洗后的數據可以更好地支撐上層應用,比如校園門戶等。在項目實施過程中,數據標準是一個不斷更新、完善的過程,數據治理工作完成后,再公開共享數據平臺制定的數據標準[13]。
本文設計的共享數據平臺采用如圖1所示的集成中心庫架構,該架構可以有效降低業(yè)務系統(tǒng)之間的耦合度、增加可擴展性、保證數據質量,還能夠有效地控制對各業(yè)務系統(tǒng)的訪問權限。而且采用集成中心庫架構,可以更好地實現全局信息集成和為上層應用提供服務。
3 ?系統(tǒng)實際應用
本文的共享數據平臺——數據集成中心如圖2所示。該數據中心包括圖2所示的10大功能模塊。此數據集成中心有效地整合了分散的數據資源,實現了業(yè)務系統(tǒng)之間的數據交換與共享,按照集成中心制定的數據標準對數據進行標準化并進行數據的分析、展示、查詢等。完成了數據中心大屏展示、基本校情展示、數據質量違規(guī)量展示、數據異動監(jiān)測、質量問題分布展示、數據監(jiān)測查詢、代碼執(zhí)行異常檢測、數據歷史歸檔統(tǒng)計等工作,同時數據脫敏管理可以有效保護敏感隱私的數據,滿足多樣化的數據使用需求。下面著重介紹3大功能模塊的應用。
如圖3所示,元數據管理模塊明確了各業(yè)務系統(tǒng)中數據庫的類型,用戶名,數據資產中業(yè)務表、代碼表、字段的個數。包括數據源配置、數據模型管理、元數據屬性模型,是整個數據治理過程的關鍵,它決定了數據集成平臺如何滿足各業(yè)務系統(tǒng)的需求。
如圖4所示,代碼標準管理模塊包括代碼標準管理、代碼標準比對、代碼參照采標、業(yè)務數據轉標等功能。該模塊明確了各業(yè)務部門數據類型的分類標準、展示了各部門業(yè)務代碼表與比對標準表之間的統(tǒng)一數與統(tǒng)一率以及代碼的參照采標率。還可以掃描到當前執(zhí)行標準與業(yè)務標準不一致的情況,從而準確及時地進行數據治理,其中執(zhí)行標準比業(yè)務標準多代碼的差異,不會影響數據治理的效果,如果需要對業(yè)務系統(tǒng)加以規(guī)范,可以建議業(yè)務部門補充業(yè)務執(zhí)行標準。
如圖5所示,數據脫敏管理模塊利用不同的脫敏算法對各業(yè)務部門不同的數據進行脫敏,如:對身份證件號和手機號使用編碼脫敏算法;對姓名使用字符串脫敏,從而達到保護師生隱私的目的,降低隱私數據泄露的風險。
4 ?結 ?論
本文圍繞高校信息化建設過程中數據集成面臨的問題,詳細分析了問題產生的原因,從而給出構建共享數據平臺解決數據集成問題的方案,實現了高校內部各獨立業(yè)務系統(tǒng)之間的對接,解決了信息孤島的問題,使校園數據互聯互通、互換共享,促進了高校信息化的發(fā)展。
參考文獻:
[1] 孫琪揚.大數據時代下高校信息化建設現狀探討 [J].科技風,2019(29):94.
[2] 高楊,張雪超,孫震.大數據時代下高校信息化建設的現狀及建議 [J].電子技術與軟件工程,2018(24):202.
[3] 喬世嬌,陳曉軍,張平,等.高校異構數據集成技術ODI的研究與實現 [J].福建電腦,2014,30(5):155-156.
[4] 劉桂鋒,錢錦琳,張吉勇.我國高??蒲袛祿卫砟P蜆嫿ㄑ芯?[J].情報科學,2020,38(4):28-36.
[5] 章浩,劉波,鄒恒華,等.高校數據治理的探索與實踐 [J].電子技術與軟件工程,2017(21):181-183.
[6] 李淑.高校管理信息化建設現狀及對策淺議 [J].現代信息科技,2018,2(11):127-128.
[7] 張靜.高校異構數據集成的分析與設計 [J].科技經濟市場,2010(7):3-5.
[8] 邱坤.“雙一流”目標下的高校信息化服務能力提升對策 [J].實驗室研究與探索,2019,38(11):239-242+293.
[9] 李蘭友,陳立,陳建紅.基于ODI的數字校園數據集成研究與應用 [J].南京工程學院學報(自然科學版),2016,14(2):29-34.
[10] 陳熙.基于ODI的高校數據交換與共享平臺的設計與實現 [J].計算機光盤軟件與應用,2014,17(2):259+261.
[11] 喬玉濤,張曦.基于共享數據中心的數據治理方法研究 [J].科學技術創(chuàng)新,2019(13):104-105.
[12] 孫瑋.基于ODI技術搭建高校數字化校園公共數據平臺 [J].軟件工程師,2014,17(7):56-57+44.
[13] 李林,錢丹丹,黃婷婷,等.高校信息化數據治理探討 [J].中國教育信息化,2017(9):66-68.
作者簡介:彭明(1991—),女,漢族,江蘇徐州人,碩士,研究方向:大數據應用研究、智慧校園建設;劉建峰(1979—),男,漢族,江蘇鹽城人,工程師,碩士,研究方向:網絡架構與安全、IPV6、大數據分析;王常華(1982—),女,漢族,山東聊城人,中級工程師,碩士,研究方向:計算機應用技術。