劉金晶,曹文潔
(北京銳安科技有限公司 大數(shù)據(jù)分析部,北京 100192)
大數(shù)據(jù)環(huán)境下的數(shù)據(jù)質(zhì)量管理策略
劉金晶,曹文潔
(北京銳安科技有限公司 大數(shù)據(jù)分析部,北京 100192)
信息時(shí)代,數(shù)據(jù)已經(jīng)慢慢成為一種資產(chǎn),數(shù)據(jù)質(zhì)量成為決定資產(chǎn)優(yōu)劣的一個(gè)重要方面。隨著大數(shù)據(jù)的發(fā)展,越來(lái)越豐富的數(shù)據(jù)給數(shù)據(jù)質(zhì)量的提升帶來(lái)了新的挑戰(zhàn)和困難。提出一種數(shù)據(jù)質(zhì)量策略,從建立數(shù)據(jù)質(zhì)量評(píng)價(jià)體系、落實(shí)質(zhì)量信息的采集分析與監(jiān)控、建立持續(xù)改進(jìn)的工作機(jī)制和完善元數(shù)據(jù)管理4個(gè)方面,多方位優(yōu)化改進(jìn),最終形成一套完善的質(zhì)量管理體系,為信息系統(tǒng)提供高質(zhì)量的數(shù)據(jù)支持。
信息系統(tǒng);數(shù)據(jù)質(zhì)量;大數(shù)據(jù);ETL;元數(shù)據(jù)
信息由數(shù)據(jù)構(gòu)成,數(shù)據(jù)是信息的基礎(chǔ),數(shù)據(jù)已經(jīng)成為一種重要資源。對(duì)于企業(yè)而言,進(jìn)行市場(chǎng)情報(bào)調(diào)研、客戶關(guān)系維護(hù)、財(cái)務(wù)報(bào)表展現(xiàn)、戰(zhàn)略決策支持等,都需要信息系統(tǒng)進(jìn)行數(shù)據(jù)的搜集、分析、知識(shí)發(fā)現(xiàn),為決策者提供充足且準(zhǔn)確的情報(bào)和資料。對(duì)于政府而言,進(jìn)行社會(huì)管理和公共服務(wù),影響面更為寬廣和深遠(yuǎn),政策和服務(wù)能否滿足社會(huì)需要,是否高效地使用了公共資源,都需要數(shù)據(jù)提供支持和保障,因而對(duì)數(shù)據(jù)的需求顯得更為迫切,對(duì)數(shù)據(jù)質(zhì)量的要求也更為苛刻。
作為信息系統(tǒng)的重要構(gòu)成部分,數(shù)據(jù)質(zhì)量問題是影響信息系統(tǒng)運(yùn)行的關(guān)鍵因素,直接關(guān)系到信息系統(tǒng)建設(shè)的成敗。根據(jù)“垃圾進(jìn),垃圾出(garbage in,garbage out)”[1]的原理,為了使信息系統(tǒng)建設(shè)取得預(yù)期效果,達(dá)到數(shù)據(jù)決策的目標(biāo),就要求信息系統(tǒng)提供的數(shù)據(jù)是可靠的,能夠準(zhǔn)確反應(yīng)客觀事實(shí)。如果數(shù)據(jù)質(zhì)量得不到保證,即使數(shù)據(jù)分析工具再先進(jìn),模型再合理,算法再優(yōu)良,在充滿“垃圾”的數(shù)據(jù)環(huán)境中也只能得到毫無(wú)意義的垃圾信息,系統(tǒng)運(yùn)行的結(jié)果、作出的分析就可能是錯(cuò)誤的,甚至影響到后續(xù)決策的制定和實(shí)行。高質(zhì)量的數(shù)據(jù)來(lái)源于數(shù)據(jù)收集,是數(shù)據(jù)設(shè)計(jì)以及數(shù)據(jù)分析、評(píng)估、修正等環(huán)節(jié)的強(qiáng)力保證。因此,信息系統(tǒng)數(shù)據(jù)質(zhì)量管理尤為重要,這就需要建立一個(gè)有效的數(shù)據(jù)質(zhì)量管理體系,盡可能全面發(fā)現(xiàn)數(shù)據(jù)存在的問題并分析原因,以推動(dòng)數(shù)據(jù)質(zhì)量的持續(xù)改進(jìn)。
隨著三網(wǎng)融合、移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)的生產(chǎn)者、生產(chǎn)環(huán)節(jié)都在急速攀升,隨之快速產(chǎn)生的數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng)。在信息和網(wǎng)絡(luò)技術(shù)飛速發(fā)展的今天,越來(lái)越多的企業(yè)業(yè)務(wù)和社會(huì)活動(dòng)實(shí)現(xiàn)了數(shù)字化。全球最大的零售商沃爾瑪,每天通過分布在世界各地的6 000多家商店向全球客戶銷售超過2.67億件商品[2],每小時(shí)獲得2.5PB的交易數(shù)據(jù)。而物聯(lián)網(wǎng)下的傳感數(shù)據(jù)也慢慢發(fā)展成了大數(shù)據(jù)的主要來(lái)源之一。有研究估計(jì),2015年全球數(shù)據(jù)量為8ZB,而到2020年則高達(dá)35.2ZB,是2015年數(shù)據(jù)量的44倍之多[3]。此外,隨著移動(dòng)互聯(lián)網(wǎng)、Web2.0技術(shù)和電子商務(wù)技術(shù)的飛速發(fā)展,大量的多媒體內(nèi)容在指數(shù)增長(zhǎng)的數(shù)據(jù)量中發(fā)揮著重要作用。
大數(shù)據(jù)時(shí)代下的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)呈現(xiàn)出了重大差別,直接影響到數(shù)據(jù)在流轉(zhuǎn)環(huán)節(jié)中的各個(gè)方面,給數(shù)據(jù)存儲(chǔ)處理分析性能、數(shù)據(jù)質(zhì)量保障都帶來(lái)了很大挑戰(zhàn)。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)對(duì)比如表1所示[4]。
由于以上特性,大數(shù)據(jù)的信息系統(tǒng)更容易產(chǎn)生數(shù)據(jù)質(zhì)量問題:
(1)在數(shù)據(jù)收集方面,大數(shù)據(jù)的多樣性決定了數(shù)據(jù)來(lái)源的復(fù)雜性。來(lái)源眾多、結(jié)構(gòu)各異、大量不同的數(shù)據(jù)源之間存在著沖突、不一致或相互矛盾的現(xiàn)象。在數(shù)據(jù)獲取階段保證數(shù)據(jù)定義的完整性、數(shù)據(jù)質(zhì)量的可靠性尤為必要。
表1 大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)特點(diǎn)對(duì)比
(2)由于規(guī)模大,大數(shù)據(jù)獲取、存儲(chǔ)、傳輸和計(jì)算過程中可能產(chǎn)生更多錯(cuò)誤。采用傳統(tǒng)數(shù)據(jù)的人工錯(cuò)誤檢測(cè)與修復(fù)或簡(jiǎn)單的程序匹配處理,遠(yuǎn)遠(yuǎn)處理不了大數(shù)據(jù)環(huán)境下的數(shù)據(jù)問題。
(3)由于高速性,數(shù)據(jù)的大量更新會(huì)導(dǎo)致過時(shí)數(shù)據(jù)迅速產(chǎn)生,也更易產(chǎn)生不一致數(shù)據(jù)[5]。
(4)由于發(fā)展迅速,市場(chǎng)龐大,廠商眾多,直接產(chǎn)生的數(shù)據(jù)或者產(chǎn)品產(chǎn)生的數(shù)據(jù)標(biāo)準(zhǔn)不完善,使得數(shù)據(jù)有更大的可能產(chǎn)生不一致和沖突。
(5)由于數(shù)據(jù)生產(chǎn)源頭激增,產(chǎn)生的數(shù)據(jù)來(lái)源眾多,結(jié)構(gòu)各異,以及系統(tǒng)更新升級(jí)加快和應(yīng)用技術(shù)更新?lián)Q代頻繁,使得不同的數(shù)據(jù)源之間、相同的數(shù)據(jù)源之間都可能存在著沖突、不一致或相互矛盾的現(xiàn)象,再加上數(shù)據(jù)收集與集成往往由多個(gè)團(tuán)隊(duì)協(xié)作完成,期間增大了數(shù)據(jù)處理過程中產(chǎn)生問題數(shù)據(jù)的概率。
為了改進(jìn)和提高數(shù)據(jù)質(zhì)量,必須從產(chǎn)生數(shù)據(jù)的源頭開始抓起,從管理入手,對(duì)數(shù)據(jù)運(yùn)行的全過程進(jìn)行監(jiān)控,密切關(guān)注數(shù)據(jù)質(zhì)量的發(fā)展和變化,深入研究數(shù)據(jù)質(zhì)量問題所遵循的客觀規(guī)律,分析其產(chǎn)生的機(jī)理,探索科學(xué)有效的控制方法和改進(jìn)措施;必須強(qiáng)化全面數(shù)據(jù)質(zhì)量管理的思想觀念,把這一觀念滲透到數(shù)據(jù)生命周期的全過程[6]。
大數(shù)據(jù)下信息系統(tǒng)的數(shù)據(jù)處理架構(gòu)如圖1所示。
圖1 數(shù)據(jù)平臺(tái)架構(gòu)
傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中ETL的環(huán)節(jié)在大數(shù)據(jù)應(yīng)用中會(huì)根據(jù)實(shí)際業(yè)務(wù)需求在不同的環(huán)節(jié)存在,分別進(jìn)行粗細(xì)粒度不等的數(shù)據(jù)抽取、轉(zhuǎn)換和加載,以適應(yīng)容納處理不同規(guī)模、不同結(jié)構(gòu)、不同流量的數(shù)據(jù)。
結(jié)合大數(shù)據(jù)的參考框架及數(shù)據(jù)處理實(shí)際需求情況,數(shù)據(jù)質(zhì)量管理可以從以下幾個(gè)方面著手,以多方協(xié)作改進(jìn),最終實(shí)現(xiàn)系統(tǒng)數(shù)據(jù)處于持續(xù)高效可用的狀態(tài)。
3.1 建立數(shù)據(jù)質(zhì)量評(píng)價(jià)體系
評(píng)估數(shù)據(jù)質(zhì)量,可以從如下4個(gè)方面來(lái)考慮[7]:①完整性:數(shù)據(jù)的記錄和信息是否完整,是否存在缺失情況;②一致性:數(shù)據(jù)的記錄是否符合規(guī)范,是否與前后及其它數(shù)據(jù)集保持統(tǒng)一;③準(zhǔn)確性:數(shù)據(jù)中記錄的信息和數(shù)據(jù)是否準(zhǔn)確,是否存在異常或者錯(cuò)誤信息;④及時(shí)性:數(shù)據(jù)從產(chǎn)生到可以查看的時(shí)間間隔,也叫數(shù)據(jù)的延時(shí)時(shí)長(zhǎng)。
有了評(píng)估方向,還需要使用可以量化、程序化識(shí)別的指標(biāo)來(lái)衡量。通過量化指標(biāo),管理者才可能了解到當(dāng)前數(shù)據(jù)質(zhì)量,以及采取修正措施之后數(shù)據(jù)質(zhì)量的改進(jìn)程度。而對(duì)于海量數(shù)據(jù),數(shù)據(jù)量大、處理環(huán)節(jié)多,獲取質(zhì)量指標(biāo)的工作不可能由人工或簡(jiǎn)單的程序來(lái)完成,而需要程序化的制度和流程來(lái)保證,因此,指標(biāo)的設(shè)計(jì)、采集與計(jì)算必須是程序可識(shí)別處理的。
完整性可以通過記錄數(shù)和唯一值來(lái)衡量。比如某類的交易數(shù)據(jù),每天的交易量應(yīng)該呈現(xiàn)出平穩(wěn)的特點(diǎn),平穩(wěn)增加、平穩(wěn)增長(zhǎng)或保持一定范圍內(nèi)的周期波動(dòng)。如果記錄數(shù)量出現(xiàn)激增或激減,則需要追溯是在哪個(gè)環(huán)節(jié)出現(xiàn)了變動(dòng),最終定位是數(shù)據(jù)問題還是服務(wù)出現(xiàn)了問題。對(duì)于屬性的完整性考量,則可以通過空值占比或無(wú)效值占比來(lái)進(jìn)行檢查。
一致性檢驗(yàn)主要是檢驗(yàn)數(shù)據(jù)和數(shù)據(jù)定義是否一致,因此可以通過合規(guī)記錄的比率來(lái)衡量。比如取值范圍是枚舉集合的數(shù)據(jù),其實(shí)際值超出范圍之外的數(shù)據(jù)占比,比如存在特定編碼規(guī)則的屬性值不符合其編碼規(guī)則的記錄占比。還有一些存在邏輯關(guān)系的屬性之間的校驗(yàn),比如屬性A取某定值時(shí),屬性B的值應(yīng)該在某個(gè)特定的數(shù)據(jù)范圍內(nèi),都可以通過合規(guī)率來(lái)衡量。
準(zhǔn)確性可能存在于個(gè)別記錄,也可能存在于整個(gè)數(shù)據(jù)集上。準(zhǔn)確性和一致性的差別在于一致性關(guān)注合規(guī),表示統(tǒng)一,而準(zhǔn)確性關(guān)注數(shù)據(jù)錯(cuò)誤。因此,同樣的數(shù)據(jù)表現(xiàn),比如數(shù)據(jù)實(shí)際值不在定義的范圍內(nèi),如果定義的范圍準(zhǔn)確,值完全沒有意義,那么這屬于數(shù)據(jù)錯(cuò)誤。但如果值是合理且有意義的,那么可能是范圍定義不夠全面,則不能認(rèn)定為數(shù)據(jù)錯(cuò)誤,而是應(yīng)該去補(bǔ)充修改數(shù)據(jù)定義。
通過建立數(shù)據(jù)質(zhì)量評(píng)價(jià)體系,對(duì)整個(gè)流通鏈條上的數(shù)據(jù)質(zhì)量進(jìn)行量化指標(biāo)輸出,后續(xù)進(jìn)行問題數(shù)據(jù)的預(yù)警,使得問題一出現(xiàn)就可以暴露出來(lái),便于進(jìn)行問題的定位和解決,最終可以實(shí)現(xiàn)在哪個(gè)環(huán)節(jié)出現(xiàn)就在哪個(gè)環(huán)節(jié)解決,避免了將問題數(shù)據(jù)帶到后端及其質(zhì)量問題擴(kuò)大。
3.2 落實(shí)數(shù)據(jù)質(zhì)量信息的采集、分析與監(jiān)控
有評(píng)價(jià)體系作為參照,還需要進(jìn)行數(shù)據(jù)的采集、分析和監(jiān)控,為數(shù)據(jù)質(zhì)量提供全面可靠的信息。在數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)的關(guān)鍵點(diǎn)上設(shè)置采集點(diǎn),采集數(shù)據(jù)質(zhì)量監(jiān)控信息,按照評(píng)價(jià)體系的指標(biāo)要求,輸出分析報(bào)告。一個(gè)典型的數(shù)據(jù)流轉(zhuǎn)流程如圖2所示。
圖2 數(shù)據(jù)采集點(diǎn)位置
在此流程中,會(huì)有一系列的數(shù)據(jù)采集點(diǎn)。根據(jù)系統(tǒng)對(duì)數(shù)據(jù)質(zhì)量的要求,配置相應(yīng)的采集規(guī)則,通過在采集點(diǎn)處進(jìn)行質(zhì)量數(shù)據(jù)采集并進(jìn)行統(tǒng)計(jì)分析,就可以得到采集點(diǎn)處的數(shù)據(jù)分析報(bào)告。通過對(duì)來(lái)源數(shù)據(jù)的質(zhì)量分析,可以了解數(shù)據(jù)和評(píng)價(jià)接入數(shù)據(jù)的質(zhì)量;通過對(duì)上下采集點(diǎn)的數(shù)據(jù)分析報(bào)告的對(duì)比,可以評(píng)估數(shù)據(jù)處理流程的工作質(zhì)量。配合數(shù)據(jù)質(zhì)量的持續(xù)改進(jìn)工作機(jī)制,進(jìn)行質(zhì)量問題原因的定位、處理和跟蹤。
3.3 建立數(shù)據(jù)質(zhì)量的持續(xù)改進(jìn)工作機(jī)制
通過質(zhì)量評(píng)價(jià)體系和質(zhì)量數(shù)據(jù)采集系統(tǒng),可以發(fā)現(xiàn)問題,之后還需要對(duì)發(fā)現(xiàn)的問題及時(shí)作出反應(yīng),追溯問題原因和形成機(jī)制,根據(jù)問題種類采取相應(yīng)的改進(jìn)措施,并持續(xù)跟蹤驗(yàn)證改進(jìn)之后的數(shù)據(jù)質(zhì)量提升效果,形成正反饋,達(dá)到數(shù)據(jù)質(zhì)量持續(xù)改良的效果。在源頭建立數(shù)據(jù)標(biāo)準(zhǔn)或接入標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)定義,在數(shù)據(jù)流轉(zhuǎn)過程中建立監(jiān)控?cái)?shù)據(jù)轉(zhuǎn)換質(zhì)量的流程和體系,盡量做到在哪發(fā)現(xiàn)問題就在哪解決問題,不把問題數(shù)據(jù)帶到后端。
導(dǎo)致數(shù)據(jù)質(zhì)量產(chǎn)生問題的原因很多。有研究表示,從問題的產(chǎn)生原因和來(lái)源,可以分為四大問題域:信息問題域、技術(shù)問題域、流程問題域和管理問題域[8]。信息類問題是由于對(duì)數(shù)據(jù)本身的描述、理解及其度量標(biāo)準(zhǔn)偏差而造成的數(shù)據(jù)質(zhì)量問題。產(chǎn)生這類數(shù)據(jù)質(zhì)量問題的主要原因包括:數(shù)據(jù)標(biāo)準(zhǔn)不完善、元數(shù)據(jù)描述及理解錯(cuò)誤、數(shù)據(jù)度量得不到保證和變化頻度不恰當(dāng)?shù)?。技術(shù)類問題是指由于在數(shù)據(jù)處理流程中數(shù)據(jù)流轉(zhuǎn)的各技術(shù)環(huán)節(jié)異?;蛉毕荻斐傻臄?shù)據(jù)質(zhì)量問題,它產(chǎn)生的直接原因是技術(shù)實(shí)現(xiàn)上的某種缺陷。技術(shù)類數(shù)據(jù)質(zhì)量問題主要產(chǎn)生在數(shù)據(jù)創(chuàng)建、數(shù)據(jù)接入、數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)裝載、數(shù)據(jù)使用和數(shù)據(jù)維護(hù)等環(huán)節(jié)。流程類問題是指由于數(shù)據(jù)流轉(zhuǎn)的流程設(shè)計(jì)不合理、人工操作流程不當(dāng)造成的數(shù)據(jù)質(zhì)量問題。所有涉及到數(shù)據(jù)流轉(zhuǎn)流程的各個(gè)環(huán)節(jié)都可能出現(xiàn)問題,比如接入新數(shù)據(jù)缺乏對(duì)數(shù)據(jù)檢核、元數(shù)據(jù)變更沒有考慮到歷史數(shù)據(jù)的處理、數(shù)據(jù)轉(zhuǎn)換不充分等各種流程設(shè)計(jì)錯(cuò)誤、數(shù)據(jù)處理邏輯有缺陷等問題。管理類問題是指由于人員素質(zhì)及管理機(jī)制方面的原因造成的數(shù)據(jù)質(zhì)量問題。比如數(shù)據(jù)接入環(huán)節(jié)由于工期壓力而減少對(duì)數(shù)據(jù)檢核流程的執(zhí)行和監(jiān)控、缺乏反饋渠道及處理責(zé)任人、相關(guān)人員缺乏培訓(xùn)和過程資產(chǎn)繼承隨之帶來(lái)的一系列問題等。
了解問題產(chǎn)生的原因和來(lái)源后,就可以對(duì)每一類問題建立起識(shí)別、反饋、處理、驗(yàn)證的流程和制度。比如數(shù)據(jù)標(biāo)準(zhǔn)不完善導(dǎo)致的問題,這就需要有一整套數(shù)據(jù)標(biāo)準(zhǔn)問題識(shí)別、標(biāo)準(zhǔn)修正、現(xiàn)場(chǎng)實(shí)施和驗(yàn)證的流程,確保問題的準(zhǔn)確解決,不帶來(lái)新的問題。比如缺乏反饋渠道和處理責(zé)任人的問題,則屬于管理問題,則需要建立一套數(shù)據(jù)質(zhì)量的反饋和響應(yīng)機(jī)制,配合問題識(shí)別、問題處理、解決方案的現(xiàn)場(chǎng)實(shí)施與驗(yàn)證、過程和積累等多個(gè)環(huán)節(jié)和流程,保證每一個(gè)問題都能得到有效解決并有效積累處理的過程和經(jīng)驗(yàn),形成越來(lái)越完善的一個(gè)有機(jī)運(yùn)作體。
當(dāng)然,很多問題是相互影響的,單一地解決某一方面的問題可能暫時(shí)解決不了所發(fā)現(xiàn)的問題,但是當(dāng)多方面的持續(xù)改進(jìn)機(jī)制協(xié)同工作起來(lái)之后,互相影響,交錯(cuò)前進(jìn),一點(diǎn)點(diǎn)改進(jìn),最終就會(huì)達(dá)到一個(gè)比較好的效果。
3.4 完善元數(shù)據(jù)管理
數(shù)據(jù)質(zhì)量的采集規(guī)則和檢查規(guī)則本身也是一種數(shù)據(jù),在元數(shù)據(jù)中定義。元數(shù)據(jù)按照官方定義,是描述數(shù)據(jù)的數(shù)據(jù)。面對(duì)龐大的數(shù)據(jù)種類和結(jié)構(gòu),如果沒有元數(shù)據(jù)來(lái)描述這些數(shù)據(jù),使用者無(wú)法準(zhǔn)確地獲取所需信息。正是通過元數(shù)據(jù),海量的數(shù)據(jù)才可以被理解、使用,才會(huì)產(chǎn)生價(jià)值。
元數(shù)據(jù)可以按照其用途分為3類:技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)和管理元數(shù)據(jù)。技術(shù)元數(shù)據(jù):存儲(chǔ)關(guān)于信息倉(cāng)庫(kù)系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),適用于開發(fā)和管理數(shù)據(jù)而使用的數(shù)據(jù)。主要包括數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述,包括對(duì)數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)處理過程的特征描述,存儲(chǔ)方式和位置覆蓋整個(gè)涉及數(shù)據(jù)的生產(chǎn)和消費(fèi)環(huán)節(jié)。業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),提供了業(yè)務(wù)使用者和實(shí)際系統(tǒng)之間的語(yǔ)義層。主要包括業(yè)務(wù)術(shù)語(yǔ)、指標(biāo)定義、業(yè)務(wù)規(guī)則等信息。管理元數(shù)據(jù):描述系統(tǒng)中管理領(lǐng)域相關(guān)概念、關(guān)系和規(guī)則的數(shù)據(jù),主要包括人員角色、崗位職責(zé)、管理流程等信息。
由此可見,本文提出的解決思路都需要元數(shù)據(jù)管理系統(tǒng)的支持。良好的元數(shù)據(jù)管理系統(tǒng)能為數(shù)據(jù)質(zhì)量的采集、分析、監(jiān)控、改進(jìn)提供高效、有力的強(qiáng)大保障。同時(shí),良好的數(shù)據(jù)質(zhì)量管理系統(tǒng)也能促進(jìn)元數(shù)據(jù)管理系統(tǒng)的持續(xù)改進(jìn),互相促進(jìn)完善,共同為一個(gè)高質(zhì)量和高效運(yùn)轉(zhuǎn)的數(shù)據(jù)平臺(tái)提供支持。
數(shù)據(jù)質(zhì)量(DataQuality)管理貫穿數(shù)據(jù)生命周期的全過程,覆蓋質(zhì)量評(píng)估、數(shù)據(jù)監(jiān)控、數(shù)據(jù)探查、數(shù)據(jù)清洗、數(shù)據(jù)診斷等方面。數(shù)據(jù)源在不斷增多,數(shù)據(jù)量在不斷加大,新需求推動(dòng)的新技術(shù)也不斷誕生,這些都對(duì)大數(shù)據(jù)下的數(shù)據(jù)質(zhì)量管理帶來(lái)了困難和挑戰(zhàn)。因此,數(shù)據(jù)質(zhì)量管理要形成完善的體系,建立持續(xù)改進(jìn)的流程和良性機(jī)制,持續(xù)監(jiān)控各系統(tǒng)數(shù)據(jù)質(zhì)量波動(dòng)情況及數(shù)據(jù)質(zhì)量規(guī)則分析,適時(shí)升級(jí)數(shù)據(jù)質(zhì)量監(jiān)控的手段和方法,確保持續(xù)掌握系統(tǒng)數(shù)據(jù)質(zhì)量狀況,最終達(dá)到數(shù)據(jù)質(zhì)量的平穩(wěn)狀態(tài),為業(yè)務(wù)系統(tǒng)提供良好的數(shù)據(jù)保障。
[1] 谷斌.信息系統(tǒng)建設(shè)中的數(shù)據(jù)質(zhì)量管理體系研究[J].情報(bào)雜志,2007(5):65-65.
[2] BRYANT R E.Data-intensive supercomputing: the case for DISC[R].Technical Report, CMU-CS-0 7-128, Carnegie Mellon University,2007.
[3] GANTZ J,REINSEL D.Extracting value from chaos[R].Framingham:International Data Corporation,2011.
[4] 宗威,吳峰.大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J].西安交通大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2013,33(5):39-39.
[5] 王宏志.大數(shù)據(jù)質(zhì)量管理:?jiǎn)栴}與研究進(jìn)展[J].科技導(dǎo)報(bào),2014,32(34):78-78.
[6] 谷斌.信息系統(tǒng)建設(shè)中的數(shù)據(jù)質(zhì)量管理體系研究[J].情報(bào)雜志,2007,5:67-67.
[7] 網(wǎng)站數(shù)據(jù)分析.分析的前提——數(shù)據(jù)質(zhì)量[EB/OL]. http://webdataanalysis.net/data-collection-and-preprocessing/data-quality-1/.
[8] 趙翼春.淺談電信企業(yè)數(shù)據(jù)質(zhì)量管理[EB/OL]. http://doc.mbalib.com/view/6fa580a1ab7faccc3903d4d0b3947bc8.html.
(責(zé)任編輯:孫 娟)
劉金晶(1984-),女,湖北松滋人,碩士,北京銳安科技有限公司大數(shù)據(jù)分析部數(shù)據(jù)科學(xué)家,研究方向?yàn)樵獢?shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理;曹文潔(1976-),女,河北石家莊人,博士,北京銳安科技有限公司大數(shù)據(jù)分析部數(shù)據(jù)科學(xué)家,研究方向?yàn)槟J阶R(shí)別與智能系統(tǒng)。
10.11907/rjdk.162634
TP301
A
1672-7800(2017)003-0176-03