文/王珊珊 陳云 韓婷
質(zhì)量檢測體系淘出優(yōu)質(zhì)數(shù)據(jù)
文/王珊珊 陳云 韓婷
根據(jù)“進(jìn)去的是垃圾,出來的也是垃圾(garbage in garbage out)”這條原理,為了使高校信息系統(tǒng)建設(shè)取得預(yù)期成果,就要求信息系統(tǒng)提供的數(shù)據(jù)是準(zhǔn)確的、規(guī)范的、完整的。
信息由數(shù)據(jù)構(gòu)成,數(shù)據(jù)是信息的基礎(chǔ),數(shù)據(jù)已成為高校信息系統(tǒng)建設(shè)的重要組成部分和信息化進(jìn)程中的重要資源,是學(xué)校的血液。低質(zhì)量的數(shù)據(jù)將導(dǎo)致業(yè)務(wù)流程阻塞、管理成本增加以及決策困難等一系列問題。根據(jù)“進(jìn)去的是垃圾,出來的也是垃圾(garbage in garbage out)”這條原理,為了使高校信息系統(tǒng)建設(shè)取得預(yù)期成果,就要求信息系統(tǒng)提供的數(shù)據(jù)是準(zhǔn)確的、規(guī)范的、完整的。如果數(shù)據(jù)質(zhì)量得不到保證,信息化進(jìn)程的實(shí)施就根本不可能達(dá)到預(yù)期效果。因此,為保障信息系統(tǒng)正常運(yùn)行、提升高校信息系統(tǒng)的實(shí)用化水平、滿足用戶對信息化和數(shù)據(jù)的需求,就必須重視數(shù)據(jù)質(zhì)量問題。通過構(gòu)建完善的數(shù)據(jù)質(zhì)量管理體系,提升數(shù)據(jù)質(zhì)量,進(jìn)而推動(dòng)高校的信息化進(jìn)程。
1.數(shù)據(jù)質(zhì)量定義
在不同時(shí)期, 數(shù)據(jù)質(zhì)量有不同的概念和標(biāo)準(zhǔn)。在過去,國際上關(guān)于數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)基本上是以提高數(shù)據(jù)準(zhǔn)確性為出發(fā)點(diǎn)。但是隨著質(zhì)量含義的不斷延伸, 對數(shù)據(jù)質(zhì)量概念的認(rèn)識(shí)也從狹義向廣義轉(zhuǎn)變, 準(zhǔn)確性不再是衡量數(shù)據(jù)質(zhì)量的唯一標(biāo)準(zhǔn)。數(shù)據(jù)質(zhì)量的高低必須從用戶使用的角度來看, 即使準(zhǔn)確性相當(dāng)高的數(shù)據(jù), 如果時(shí)效性差, 或者用戶不關(guān)心, 仍達(dá)不到質(zhì)量的標(biāo)準(zhǔn)。總體來看,現(xiàn)代數(shù)據(jù)質(zhì)量概念主要包括以下幾個(gè)方面: 一是注重從用戶角度來衡量數(shù)據(jù)質(zhì)量, 強(qiáng)調(diào)用戶對數(shù)據(jù)的滿意程度;二是數(shù)據(jù)質(zhì)量是一個(gè)綜合性概念, 需要建立一套有效的數(shù)據(jù)質(zhì)量管理體系,從多角度來評價(jià)數(shù)據(jù)的好壞。
2.數(shù)據(jù)質(zhì)量影響因素
在數(shù)據(jù)的生產(chǎn)和處理中, 任何一個(gè)環(huán)節(jié)的問題都會(huì)對數(shù)據(jù)質(zhì)量產(chǎn)生負(fù)面影響。影響數(shù)據(jù)質(zhì)量的因素有很多,主要包括管理因素和技術(shù)因素:
(1)管理因素:業(yè)務(wù)數(shù)據(jù)定義不清、概念混淆會(huì)導(dǎo)致數(shù)據(jù)錄入錯(cuò)誤;數(shù)據(jù)標(biāo)準(zhǔn)缺失會(huì)影響數(shù)據(jù)的規(guī)范性;數(shù)據(jù)維護(hù)權(quán)責(zé)不明導(dǎo)致數(shù)據(jù)多部門維護(hù)與重復(fù)采集。此外,在信息系統(tǒng)使用過程中,用戶操作不當(dāng)會(huì)造成數(shù)據(jù)質(zhì)量問題;同時(shí),用戶會(huì)在業(yè)務(wù)流程上關(guān)注較多,關(guān)心數(shù)據(jù)的流向,對數(shù)據(jù)本身質(zhì)量重視不夠, 認(rèn)為數(shù)據(jù)只是信息處理過程中的副產(chǎn)品。
(2)技術(shù)因素:各個(gè)信息系統(tǒng)在實(shí)施過程中,大多只注重自身的數(shù)據(jù)處理能力,很少考慮與其他系統(tǒng)的數(shù)據(jù)兼容性;另外由于程序設(shè)計(jì)與校驗(yàn)不嚴(yán),使得數(shù)據(jù)輸入問題產(chǎn)生且未被發(fā)現(xiàn),導(dǎo)致信息系統(tǒng)數(shù)據(jù)質(zhì)量問題,比如數(shù)據(jù)元素定義不清、數(shù)據(jù)輸入格式缺乏校驗(yàn)、數(shù)據(jù)存在冗余等;有些數(shù)據(jù)項(xiàng)在設(shè)計(jì)時(shí)缺乏縝密的結(jié)構(gòu)化處理,為了開發(fā)方便,采用“備注”字段,造成數(shù)據(jù)使用麻煩;有些數(shù)據(jù)缺少更新時(shí)間、維護(hù)人等補(bǔ)充屬性,導(dǎo)致回頭查找、確認(rèn)數(shù)據(jù)時(shí),沒有任何支撐數(shù)據(jù)可用。
3.數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)
在進(jìn)行數(shù)據(jù)質(zhì)量評價(jià)時(shí), 根據(jù)具體的數(shù)據(jù)質(zhì)量使用需求對數(shù)據(jù)質(zhì)量評價(jià)指標(biāo)進(jìn)行相應(yīng)的取舍。對于高校來說,數(shù)據(jù)目前主要用于信息查詢、共享與支撐決策,數(shù)據(jù)質(zhì)量可以著重從以下幾個(gè)方面加以衡量:
表數(shù)據(jù)質(zhì)量衡量
1.管理策略
在信息系統(tǒng)的建設(shè)過程中,應(yīng)建立科學(xué)有效的數(shù)據(jù)質(zhì)量管理人員體系,將數(shù)據(jù)質(zhì)量管理以制度化、規(guī)范化的方式落實(shí)到數(shù)據(jù)生成、傳遞和使用的各個(gè)過程和人員之中。
(1)領(lǐng)導(dǎo)要重視信息化建設(shè)中數(shù)據(jù)的重要性和問題的迫切性,充分認(rèn)識(shí)到數(shù)據(jù)質(zhì)量對學(xué)校各項(xiàng)工作開展的作用,把數(shù)據(jù)質(zhì)量的改善問題作為一項(xiàng)戰(zhàn)略性任務(wù)來對待。
(2)從整體上進(jìn)行全面數(shù)據(jù)質(zhì)量管理:建立完善的數(shù)據(jù)質(zhì)量管理制度,確定數(shù)據(jù)質(zhì)量管理的流程;建立完善的數(shù)據(jù)認(rèn)責(zé)制度,確保數(shù)據(jù)在每個(gè)環(huán)節(jié)的質(zhì)量;建立一套穩(wěn)定的數(shù)據(jù)質(zhì)量檢測體系,從而使及時(shí)地發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題;
(3)成立專門組織負(fù)責(zé)數(shù)據(jù)管理工作,責(zé)任人落實(shí)到各個(gè)系統(tǒng)業(yè)務(wù)主管,制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)與規(guī)范,開展數(shù)據(jù)質(zhì)量監(jiān)控,如果發(fā)現(xiàn)有質(zhì)量問題及時(shí)通報(bào),從而保障數(shù)據(jù)質(zhì)量改進(jìn)的有效推行。
(4)提升信息系統(tǒng)管理和操作人員的技術(shù)水平,保證基礎(chǔ)數(shù)據(jù)采集階段的數(shù)據(jù)質(zhì)量。同時(shí),在數(shù)據(jù)采集時(shí)盡量采用“第一手”錄入原則,讓有相關(guān)信息本人進(jìn)行修正完善,不經(jīng)過管理員“二手”錄入,減少數(shù)據(jù)錯(cuò)誤。
2.技術(shù)手段
對數(shù)據(jù)從獲取、共享、維護(hù)、應(yīng)用的每個(gè)階段, 采用信息技術(shù),提升數(shù)據(jù)質(zhì)量。
(1)數(shù)據(jù)獲取階段,加強(qiáng)各業(yè)務(wù)系統(tǒng)在數(shù)據(jù)錄入時(shí)的格式、非空等數(shù)據(jù)校驗(yàn),保障數(shù)據(jù)錄入的完整性、準(zhǔn)確性和惟一性;
(2)數(shù)據(jù)共享階段,構(gòu)建數(shù)據(jù)中心,規(guī)范管理主數(shù)據(jù),并對外部系統(tǒng)提供統(tǒng)一的、開放的、標(biāo)準(zhǔn)的調(diào)用接口,進(jìn)而保障各業(yè)務(wù)系統(tǒng)中主數(shù)據(jù)的一致性、完整性、實(shí)時(shí)性、安全性和準(zhǔn)確性。
(3)數(shù)據(jù)維護(hù)階段,可采用信息技術(shù)開展數(shù)據(jù)質(zhì)量規(guī)則識(shí)別、數(shù)據(jù)質(zhì)量檢測、提交質(zhì)量報(bào)告和數(shù)據(jù)質(zhì)量問題處理等一系列活動(dòng),此過程是個(gè)循環(huán)管理過程,只有形成一個(gè)有效的數(shù)據(jù)質(zhì)量管理的改進(jìn)閉環(huán),才能發(fā)現(xiàn)問題及早糾正問題。最大化利用數(shù)據(jù)資源。
(4)數(shù)據(jù)應(yīng)用階段,搭建數(shù)據(jù)倉庫,在基礎(chǔ)數(shù)據(jù)采集后及時(shí)對數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換和清洗等預(yù)處理,避免數(shù)據(jù)“污染”的衍生和擴(kuò)散,同時(shí)確?;A(chǔ)數(shù)據(jù)的可用性質(zhì)量。
圖1 數(shù)據(jù)質(zhì)量管理組織架構(gòu)
上海財(cái)經(jīng)大學(xué)在經(jīng)過多年信息化的建設(shè),已經(jīng)完成了教學(xué)、學(xué)生、人事、科研、財(cái)務(wù)、資產(chǎn)等業(yè)務(wù)系統(tǒng)的建設(shè),積累了大量的數(shù)據(jù),在系統(tǒng)實(shí)施過程中,發(fā)現(xiàn)某些數(shù)據(jù)質(zhì)量問題對系統(tǒng)運(yùn)行、數(shù)據(jù)集成、數(shù)據(jù)分析產(chǎn)生了影響,因此,為提升數(shù)據(jù)質(zhì)量,學(xué)校采取的措施如下:
1.搭建數(shù)據(jù)質(zhì)量管理組織架構(gòu)
2008年上海財(cái)經(jīng)大學(xué)構(gòu)建了數(shù)據(jù)質(zhì)量管理組織體系。體系核心為校領(lǐng)導(dǎo),負(fù)責(zé)數(shù)據(jù)質(zhì)量全面管理與控制;信息化辦公室負(fù)責(zé)數(shù)據(jù)質(zhì)量管控的具體執(zhí)行,負(fù)責(zé)在技術(shù)層面對數(shù)據(jù)質(zhì)量進(jìn)行控制與監(jiān)管,例如制定數(shù)據(jù)標(biāo)準(zhǔn)、開展數(shù)據(jù)質(zhì)量檢測、保障數(shù)據(jù)安全等;各院系部門IT關(guān)鍵崗位及系統(tǒng)管理人員負(fù)責(zé)梳理與確定業(yè)務(wù)規(guī)則,及時(shí)處理相關(guān)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)問題;系統(tǒng)終端用戶負(fù)責(zé)在源頭上保障系統(tǒng)的數(shù)據(jù)錄入質(zhì)量。
2.采用信息技術(shù)提升數(shù)據(jù)質(zhì)量
(1)加強(qiáng)數(shù)據(jù)質(zhì)量校驗(yàn)
無論是自主研發(fā)還是與第三方合作研發(fā)的信息系統(tǒng),均需遵循數(shù)據(jù)錄入校驗(yàn)規(guī)則,包括數(shù)據(jù)類型校驗(yàn)(字符型/數(shù)字型/日期型等)、數(shù)據(jù)長度校驗(yàn)、空值校驗(yàn)、重復(fù)性校驗(yàn)等;此外,充分定義業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn),并作為信息系統(tǒng)數(shù)據(jù)錄入的可選項(xiàng),保障數(shù)據(jù)錄入的規(guī)范性和準(zhǔn)確性。
(2)構(gòu)建數(shù)據(jù)質(zhì)量檢測體系
系統(tǒng)運(yùn)維階段,通過建立一個(gè)有效的數(shù)據(jù)質(zhì)量檢測體系,及時(shí)發(fā)現(xiàn)并修正數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量檢測體系如圖2所示。
①信息化辦公室協(xié)同業(yè)務(wù)部門制定信息系統(tǒng)數(shù)據(jù)錄入與維護(hù)規(guī)范,目前已完成了人事、科研、資產(chǎn)、辦公自動(dòng)化等系統(tǒng)的數(shù)據(jù)錄入與維護(hù)規(guī)范的制定,并經(jīng)信息化項(xiàng)目協(xié)調(diào)會(huì)審議通過并發(fā)文。
②根據(jù)數(shù)據(jù)錄入與維護(hù)規(guī)范確定數(shù)據(jù)質(zhì)量檢測規(guī)則,檢測規(guī)則是整個(gè)數(shù)據(jù)質(zhì)量管理系統(tǒng)的關(guān)鍵與核心,通過規(guī)則的不斷完善與優(yōu)化,各業(yè)務(wù)系統(tǒng)的實(shí)用化也將逐步提升,數(shù)據(jù)質(zhì)量提升也會(huì)得到階段性的提升。
③基于數(shù)據(jù)質(zhì)量規(guī)則,通過不同的配置策略,運(yùn)用信息化手段對業(yè)務(wù)系統(tǒng)的靜態(tài)和動(dòng)態(tài)數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)控和定期檢查,以便及時(shí)發(fā)現(xiàn)并處理問題數(shù)據(jù),提高業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量水平。
④執(zhí)行數(shù)據(jù)質(zhì)量檢測后,按業(yè)務(wù)對象、按規(guī)則模型展現(xiàn)問題數(shù)據(jù),以報(bào)表、儀表盤等多種展現(xiàn)方式對具體數(shù)據(jù)質(zhì)量檢測結(jié)果進(jìn)行展現(xiàn),同時(shí)通過鉆取分析功能,直接從指標(biāo)數(shù)據(jù)下鉆到基礎(chǔ)數(shù)據(jù),直觀看到影響指標(biāo)的問題數(shù)據(jù)明細(xì)清單,如圖3所示。
⑤業(yè)務(wù)部門需參照檢測結(jié)果,對問題數(shù)據(jù)進(jìn)行處理,以盡快消除異常數(shù)據(jù),保證系統(tǒng)數(shù)據(jù)質(zhì)量,盡可能減少問題數(shù)據(jù)對工作造成不利影響。
(3)構(gòu)建數(shù)據(jù)中心與數(shù)據(jù)倉庫
根據(jù)數(shù)據(jù)的業(yè)務(wù)特性和業(yè)務(wù)需求進(jìn)行集成、整合、加工,并下發(fā)給后續(xù)的集市區(qū)和下游系統(tǒng),是數(shù)據(jù)中心與數(shù)據(jù)倉庫元數(shù)據(jù)質(zhì)量管理的主要內(nèi)容。使用ETL工具,構(gòu)建數(shù)據(jù)中心與數(shù)據(jù)倉庫,保證用于決策支持的數(shù)據(jù)是準(zhǔn)確而有效的,提高數(shù)據(jù)共享的準(zhǔn)確性以及數(shù)據(jù)分析的可靠性。目前已完成數(shù)據(jù)清洗并據(jù)此搭建的主題數(shù)據(jù)中心及數(shù)據(jù)倉庫包括人事、科研、教學(xué)、學(xué)生等。
總之,數(shù)據(jù)質(zhì)量的改進(jìn)是一個(gè)持續(xù)不斷的過程,一方面通過完善數(shù)據(jù)質(zhì)量管理制度和流程,對數(shù)據(jù)進(jìn)行科學(xué)有效的質(zhì)量管理和質(zhì)量控制;另一方面通過技術(shù)手段實(shí)施數(shù)據(jù)檢查,并通過數(shù)據(jù)質(zhì)量管理流程進(jìn)行改進(jìn)。上海財(cái)經(jīng)大學(xué)在數(shù)據(jù)質(zhì)量管理方法上進(jìn)行了初步探索,并取得了一定的成效,在數(shù)據(jù)的準(zhǔn)確性、規(guī)范性、惟一性有所提升,以期為高校數(shù)字校園過程中提高數(shù)據(jù)質(zhì)量提供參考。
(作者單位為上海財(cái)經(jīng)大學(xué)信息化辦公室)