彭琳++李勇軍等
摘要:信息系統(tǒng)的出現(xiàn)為高校管理提供了巨大的便捷,它也是數(shù)字化校園的一部分。隨著時間的推移和系統(tǒng)之間存在的歷史原因,海量數(shù)據(jù)的涌現(xiàn)引起了人們對數(shù)據(jù)質量和數(shù)據(jù)整合的思考。由于信息系統(tǒng)的使用效果直接與數(shù)據(jù)質量相關,而且不同的系統(tǒng)之間存在“信息孤島”,導致數(shù)據(jù)不一致,無法達到信息共享。因此,需要對現(xiàn)有數(shù)據(jù)的質量進行分析,提出相關的基本概念;并以上海海洋大學數(shù)字化校園二期建設為例,展現(xiàn)高校信息系統(tǒng)的數(shù)據(jù)整合案例的實際應用。
關鍵詞: 數(shù)據(jù)質量;數(shù)據(jù)整合;信息系統(tǒng)
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2015)23-0051-02
1 概述
在數(shù)字校園的發(fā)展中,由于歷史原因,各個信息系統(tǒng)之間存在著不同的開發(fā)技術、系統(tǒng)框架、信息標準。因此,建立一個高校綜合服務平臺尤(以下簡稱為“服務平臺”)為重要,它能夠對高校原有的信息系統(tǒng)進行充分數(shù)據(jù)整合,全方位地實現(xiàn)數(shù)字化校園建設,保障了高效有序的數(shù)據(jù)、服務、認證等多方面的管理。然而,在建設服務平臺之前,需要對數(shù)據(jù)質量進行分析,將數(shù)據(jù)質量分析與數(shù)據(jù)整合有機地結合起來。同時,本文以上海海洋大學為例提出現(xiàn)有的數(shù)據(jù)整合應用方案。
2 數(shù)據(jù)質量分析
數(shù)據(jù)質量分析包括:1)數(shù)據(jù)質量的定義;2)域分析與過濾器分析;3)基于數(shù)據(jù)倉庫的ETL分析。
2.1 數(shù)據(jù)質量的定義
數(shù)據(jù)質量在不同行業(yè)與組織中具有不同的定義,但總體可以用以下的6個性質來描述,并結合相關例子闡述。
正確性:反應數(shù)據(jù)呈現(xiàn)客觀世界的程度,取值應該在對應的數(shù)據(jù)域中。例如,有關博士、碩士學位專業(yè)代碼必須符合教育部標準代碼子集。
準確性:在正確性的基礎上,準確性反應數(shù)據(jù)與客觀世界的匹配程度;需要注意的是,正確的數(shù)據(jù)未必準確。例如,在教職工聘任職務標準代碼對應字典表中011代表教授,012代表副教授;若將一名副教授對應為011就不準確了,但代碼011本身是正確的。
完整性:在一定范圍內(nèi),根據(jù)特定的需求和相關的數(shù)據(jù),保證數(shù)據(jù)集中的數(shù)據(jù)既不缺少應有的部分也不增加多余的部分。例如,公共數(shù)據(jù)庫中的數(shù)據(jù)應排除非法數(shù)值的存在和盡量減少非空數(shù)值的出現(xiàn)。前者的例子有學歷信息應為本科,而不是大學,后者空值的出現(xiàn)會帶來統(tǒng)計與決策支持上的不便。
及時性:表示數(shù)據(jù)在一定時間內(nèi)的時效性,不同的數(shù)據(jù)有著不同的時間有效性。例如,一個系統(tǒng)在長期運行下,數(shù)據(jù)庫會產(chǎn)生廢棄表,留下冗余和無效數(shù)據(jù)。此時,應對這些表進行連續(xù)監(jiān)測,通過數(shù)據(jù)量的變化來排查,排除變化量小的字典表和變化量大的表,剩余的就是過了時效性的廢棄表。
一致性:表示在數(shù)據(jù)集中的特定規(guī)則表達是否相同的衡量依據(jù)。例如,在數(shù)據(jù)庫中用“M”表示男性、“F”表示女性,在其他表中是否會以“男”表示男性、“女”表示女性。
集成性:在傳統(tǒng)的高校信息系統(tǒng)中,早期的數(shù)字化校園在人事、教務、財務、學生管理等多個方面建設,但這導致了數(shù)據(jù)分散存儲和處理,使得各個系統(tǒng)中數(shù)據(jù)庫表的對應字段沒有相應聯(lián)系,主鍵不匹配甚至沒有鍵碼,這也是后期數(shù)據(jù)整合要解決的問題。
2.2 域分析與過濾器分析
域分析和過濾器分析對數(shù)據(jù)質量的保證體現(xiàn)在對“臟數(shù)據(jù)”的清洗,數(shù)據(jù)清洗這一環(huán)節(jié)又是屬于數(shù)據(jù)倉庫的ETL技術。這兩種分析對控制數(shù)據(jù)質量起著很大的作用,它們是從數(shù)據(jù)質量定義的基礎上,通過對數(shù)據(jù)庫的結構進行的另一種數(shù)據(jù)質量分析的方法。
域分析的功能是通過列來分析數(shù)據(jù)庫表,包括:1)數(shù)據(jù)類別分析,涉及標示量、枚舉量、時間、文本等;2)統(tǒng)計分析,涉及頻率、方差、百分比等針對數(shù)值類型的相關分析;3)格式分析,主要涉及模式匹配的針對字符類型的相關分析。域分析可以使數(shù)據(jù)環(huán)境得到充分的了解,以便數(shù)據(jù)質量的有效管理與評估。
過濾器分析主要是通過對不同規(guī)則的組合進行分析評價。過濾器的基本規(guī)則有三類:一是包含規(guī)則(CONTAINS);二是等于規(guī)則(EQUALS);三是存在規(guī)則(EXISTS)。除此之外,過濾器定義的規(guī)則還有范圍規(guī)則、正則表達式規(guī)則、頻率規(guī)則、類型規(guī)則以及唯一規(guī)則等。分析評價包括符合規(guī)則的記錄數(shù)、規(guī)則明細、總記錄數(shù)以及正確率等。
2.3 基于數(shù)據(jù)倉庫的ETL分析
在每一個信息系統(tǒng)的背后都有相應的數(shù)據(jù)庫系統(tǒng),另外與數(shù)據(jù)庫系統(tǒng)相關的一個概念就是數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是基于數(shù)據(jù)庫技術的,它是支持管理決策過程的、面向主題的、集成的、隨時間變化的持久的數(shù)據(jù)集合,它是研究如何將大規(guī)模復雜的數(shù)據(jù)更有效得組織、用于方便使用的技術。
在數(shù)據(jù)裝入數(shù)據(jù)倉庫之前,要進行一系列操作來保證數(shù)據(jù)質量,這個操作就稱為ETL,即有關數(shù)據(jù)的抽?。‥xtract)、轉換(Transform)、裝載(Load)。在此之前進行數(shù)據(jù)清洗(Data Cleansing),主要是對數(shù)據(jù)中的錯誤進行自動或人工糾正,以提高數(shù)據(jù)質量。ETL實際上是數(shù)據(jù)流動的過程,與此同時ETL的數(shù)據(jù)集成服務可以提供相應的解析功能,實現(xiàn)對集成規(guī)則的解析。
ETL往往與大型數(shù)據(jù)倉庫、管理決策系統(tǒng)相配合使用,在信息系統(tǒng)的數(shù)據(jù)整合中也起著重要的作用。
3 數(shù)據(jù)整合
數(shù)據(jù)質量分析完后,就要對數(shù)據(jù)進行整合。以上海海洋大學為例,為了能給全校師生、教職員工、領導提供全方位的信息化服務支撐環(huán)境,同時伴隨以SOA、云計算、物聯(lián)網(wǎng)、智能決策分析為代表的新一代信息技術,亟需創(chuàng)造一個信息化、網(wǎng)絡化、數(shù)字化、服務化的新型校園環(huán)境,做到統(tǒng)一的業(yè)務規(guī)劃、消除信息孤島、提高原有系統(tǒng)的開放性與擴展性、突破單一的應用模式。
3.1 服務平臺數(shù)據(jù)整合內(nèi)容
上海海洋大學數(shù)字化校園一期建設于2003年,一期項目實現(xiàn)了校內(nèi)外網(wǎng)門戶的統(tǒng)一集成建設,內(nèi)容主要包括服務門戶平臺、統(tǒng)一認證平臺、公共數(shù)據(jù)平臺、相關業(yè)務系統(tǒng)等,實施的是點對點的數(shù)據(jù)交換模式,使得數(shù)據(jù)脈絡繁雜、不易擴展,系統(tǒng)相互耦合,重復登入導致存在資源浪費。
因此數(shù)據(jù)整合針對高校的應用系統(tǒng)進行改造升級,包括信息整合、認證整合、服務整合這三個方面。其中,信息整合將定義數(shù)字校園的信息標準與規(guī)范,通過建立公共數(shù)據(jù)庫來構建數(shù)據(jù)交換平臺,做到數(shù)據(jù)共享、數(shù)據(jù)管理與服務。認證整合實現(xiàn)統(tǒng)一身份認證,同時達到統(tǒng)一賬戶的管理,尤其是用戶權限的管理。服務整合主要是對各系統(tǒng)應用服務、資源整合,能在面向不同角色用戶時提供主動、個性的一站式服務窗口。
3.2 數(shù)據(jù)整合設計
3.2.1 整合體系框架設計
我校原有應用系統(tǒng)運行情況良好,在此基礎上為了不影響學校各關鍵業(yè)務應用的正常運行,所以采用面向管理、服務的架構,應用間是松耦合的。由下至上,數(shù)字化校園基礎平臺層次架構分為IT基礎設施、共享數(shù)據(jù)層、應用支撐層、應用服務層和服務展現(xiàn)層五個層次,如圖1所示。
圖1顯示了服務平臺的系統(tǒng)體系框架,全校各業(yè)務處理和業(yè)務信息存儲不會集中在單一的服務器和數(shù)據(jù)庫上,而是采用分布式層次型的處理和信息結構,各應用系統(tǒng)擁有其獨立的業(yè)務數(shù)據(jù)(資源)庫和業(yè)務處理,通過數(shù)據(jù)集成平臺實現(xiàn)信息共享和交換,采用數(shù)據(jù)交換工具實現(xiàn)跨部門、跨應用的共享互聯(lián)互通,既能保證信息的全校共享,又符合各業(yè)務系統(tǒng)處理分布、信息分布的特性。
3.2.2 建立數(shù)據(jù)集成平臺
為集成應用系統(tǒng),需要通過統(tǒng)一的信息交換標準和數(shù)據(jù)交換接口來構建數(shù)據(jù)集成平臺。通過專業(yè)的ETL工具,對數(shù)據(jù)集成平臺中的各業(yè)務數(shù)據(jù)進行清洗、抽取、轉換、裝載,實現(xiàn)信息交換和共享。與此同時,該項技術也將提供數(shù)據(jù)質量的管理與監(jiān)控的功能,對數(shù)據(jù)轉換與清洗、調(diào)度和監(jiān)控也非常有效。
信息整合中涉及數(shù)據(jù)交換模式,以往的點對點數(shù)據(jù)交換使得構成的應用環(huán)境接口復雜,不利于整個應用系統(tǒng)的擴充和數(shù)據(jù)共享。整合后采用總線式數(shù)據(jù)交換,中心的“數(shù)據(jù)集成平臺”保證了信息整合后的共享,如圖2所示??偩€式集成方法極大降低了數(shù)據(jù)交換、應用集成的復雜度,參與數(shù)據(jù)交換以及被集成的各類異構數(shù)據(jù)源僅需實現(xiàn)與“數(shù)據(jù)集成平臺”的集成。此方法使得實現(xiàn)復雜應用系統(tǒng)的集成成為可能,同時也極大降低了整個信息系統(tǒng)的實施及維護成本。
3.2.3 信息整合技術要求
總體上采用組件化的開發(fā)框架,同時符合 SOA 架構的設計理念。采用SOA 架構有利于項目的建設,它可以根據(jù)需求通過網(wǎng)絡對松散耦合的粗粒度應用組件進行分布式部署、組合和使用。服務層是SOA 的基礎,可以直接被應用調(diào)用,從而有效控制系統(tǒng)中與軟件代理交互的人為依賴性。技術體系上選用 J2EE 技術,采用Browser / WebServer / DataBaseServer三層結構進行應用系統(tǒng)的開發(fā)。數(shù)據(jù)底層采用Oracle 11g數(shù)據(jù)庫系統(tǒng)軟件,并配合RAC組建數(shù)據(jù)庫集群。采用XML 的數(shù)據(jù)交換技術和基于WEB SERVICES 服務進行業(yè)務系統(tǒng)整合和集成支持,以其作為系統(tǒng)對外接口的主要實現(xiàn)方式,此外它也是本系統(tǒng)數(shù)據(jù)交換的輔助實現(xiàn)方式。
4 結論
本文提出了數(shù)據(jù)質量在高校信息系統(tǒng)中的重要性,并從概念定義的角度提出傳統(tǒng)的數(shù)據(jù)質量分析以及數(shù)據(jù)的域分析和過濾器分析,通過后者的分析提出ETL技術和在數(shù)據(jù)整合的綜合應用。
在數(shù)據(jù)整合部分中結合上海海洋大學數(shù)字化校園的實施,闡述了高校信息系統(tǒng)的框架與技術以及數(shù)據(jù)交換模式的變更,整合過程中的數(shù)據(jù)集成平臺與數(shù)據(jù)質量和ETL分析技術的聯(lián)系,并實現(xiàn)認證整合、信息整合、服務整合三方面的數(shù)據(jù)整合,基本消除了信息孤島,實現(xiàn)了數(shù)據(jù)的共享,實現(xiàn)有序、穩(wěn)定、高效的管理與應用。
參考文獻:
[1] 王真虎.基于數(shù)據(jù)質量分析ETL框架的設計及實現(xiàn)[J].硅谷,2012(15):44-45.
[2] 李慶陽,彭宏.面向數(shù)據(jù)質量的ETL框架的設計與實現(xiàn)[J].計算機工程與設計,2010(9):2057-2060.
[3] 胡逢彬,沈煒.數(shù)據(jù)ETL過程中的數(shù)據(jù)質量控制[J].信息技術術,2010(4):19-21.
[4] 陳遠,羅琳,沈祥興.信息系統(tǒng)中的數(shù)據(jù)質量問題研究[J].中國圖書館學報:雙月刊,2004(1):48-50.
[5] 丁海龍,徐宏炳.數(shù)據(jù)質量分析及應用[J].計算機技術與發(fā)展,2007(3):236-238.
[6] 鄧英.數(shù)字化校園建設中公共數(shù)據(jù)整合方案研究[J].電腦知識與技術,2008(4):589-591.
[7] 許鑫,蘇新寧,吳乃岡.高校共享數(shù)據(jù)中心平臺的設計與實現(xiàn)[J].現(xiàn)代圖書情報技術,2005(6):49-53.
[8] 秦劍波.高校數(shù)字化校園建設中數(shù)據(jù)整合的探討[J].科技資訊,2007(19):91.
[9] 胡光武,王華東,李霞,康國磊.數(shù)字化校園數(shù)據(jù)整合策略研究與實踐[J].鄭州輕工業(yè)學院學報:自然科學版,2009(3):76-79.
[10] 呂愛麗,葉小濤.數(shù)字化校園建設中數(shù)據(jù)整合問題研究[J].北京電子科技學院學報,2010(4):71-76.
[11] 劉晨霞,張明.數(shù)字校園中資源整合的關鍵技術研究與應用[J].科技資訊,2009(3):12-13.