国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于數(shù)據(jù)質(zhì)量維度的數(shù)據(jù)清洗方法

2017-08-24 14:18李琳
科技創(chuàng)新與應(yīng)用 2017年21期
關(guān)鍵詞:數(shù)據(jù)質(zhì)量

李琳

摘 要:隨著社會(huì)經(jīng)濟(jì)的發(fā)展和大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)在人們?nèi)粘I钪邪缪莸慕巧絹碓街匾?。利用決策支持系統(tǒng)、客戶關(guān)系管理系統(tǒng)(CRM)等數(shù)據(jù)庫應(yīng)用項(xiàng)目,我們可以從海量數(shù)據(jù)中提取更有價(jià)值的信息。然而,調(diào)查發(fā)現(xiàn)很多數(shù)據(jù)庫應(yīng)用項(xiàng)目的運(yùn)行效果并不令人滿意。數(shù)據(jù)數(shù)量增長的同時(shí),數(shù)據(jù)質(zhì)量的控制也給廣大研究人員帶來一定的困擾。人們?cè)絹碓揭庾R(shí)到,高質(zhì)量的數(shù)據(jù)是商業(yè)成功的一個(gè)重要因素,而數(shù)據(jù)源中的“臟數(shù)據(jù)”是導(dǎo)致數(shù)據(jù)質(zhì)量低的一個(gè)重要原因。為了保證高質(zhì)量的數(shù)據(jù),企業(yè)需要采取一系列措施來控制數(shù)據(jù)質(zhì)量,并采用一定的手段來處理“臟數(shù)據(jù)”。然而現(xiàn)實(shí)中,檢測(cè)與清洗數(shù)據(jù)源中所有“臟數(shù)據(jù)”的開銷是昂貴的。因此,如何根據(jù)不同的商業(yè)的需求來揀選部分“臟數(shù)據(jù)”進(jìn)行清洗具有一定的現(xiàn)實(shí)意義。文章在文獻(xiàn)分析的基礎(chǔ)上,回顧了數(shù)據(jù)質(zhì)量、數(shù)據(jù)質(zhì)量維度的定義,探討了常見數(shù)據(jù)質(zhì)量問題,闡明了數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)清洗之間的關(guān)系。針對(duì)“臟數(shù)據(jù)”揀選問題提出了一種數(shù)據(jù)清洗方法。最后對(duì)數(shù)據(jù)清洗相關(guān)研究進(jìn)行了展望。

關(guān)鍵詞: 數(shù)據(jù)質(zhì)量;數(shù)據(jù)質(zhì)量維度;數(shù)據(jù)質(zhì)量規(guī)則;數(shù)據(jù)清洗

中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2017)21-0001-05

1 研究背景

目前,數(shù)據(jù)在人類日常生活中所扮演的角色越來越重要,利用決策支持系統(tǒng)、客戶關(guān)系管理系統(tǒng)(CRM)等數(shù)據(jù)庫應(yīng)用項(xiàng)目,我們可以從海量數(shù)據(jù)中獲得更有價(jià)值的信息。然而,調(diào)查發(fā)現(xiàn)很多數(shù)據(jù)庫應(yīng)用項(xiàng)目的運(yùn)行效果并不令人滿意。其中一個(gè)重要的因素就是數(shù)據(jù)質(zhì)量問題[1]。普華永道會(huì)計(jì)事務(wù)所在紐約的研究也表明,75%的被調(diào)查公司存在因“臟數(shù)據(jù)”問題造成經(jīng)濟(jì)損失的現(xiàn)象,只有35%的被調(diào)查公司對(duì)自己的數(shù)據(jù)質(zhì)量充滿信心[2]。據(jù)統(tǒng)計(jì),一些具有代表性的大公司的數(shù)據(jù)錯(cuò)誤率預(yù)期在大約1%~5%,大部分?jǐn)?shù)據(jù)源中都含有一定比例的“臟數(shù)據(jù)”[3]。數(shù)據(jù)是信息的載體,好的數(shù)據(jù)質(zhì)量是使各種數(shù)據(jù)分析(例如數(shù)據(jù)挖掘等)能夠得到有意義結(jié)果的基本條件。根據(jù)“進(jìn)去的是垃圾,出來的也是垃圾(garbage in, garbage out)”這條原則,“臟數(shù)據(jù)”的存在會(huì)造成信息失真[4]。在各種數(shù)據(jù)處理任務(wù)中,數(shù)據(jù)清洗這一任務(wù)是至關(guān)重要的。數(shù)據(jù)清洗是數(shù)據(jù)質(zhì)量提高技術(shù)研究的主要內(nèi)容,數(shù)據(jù)清洗主要研究如何檢測(cè)并消除數(shù)據(jù)中的錯(cuò)誤和不一致,以提高數(shù)據(jù)質(zhì)量,目前有很多數(shù)據(jù)清洗框架存在[5]。然而研究發(fā)現(xiàn),數(shù)據(jù)質(zhì)量問題并沒有引起大多數(shù)企業(yè)足夠的重視,同時(shí)這些企業(yè)也沒有應(yīng)用有效的方法和措施來提高其數(shù)據(jù)質(zhì)量。其中一個(gè)主要原因是這些企業(yè)缺少對(duì)各種臟數(shù)據(jù)類型的了解[6]。因此,為了提高數(shù)據(jù)質(zhì)量,有必要了解留存于數(shù)據(jù)源中的各類臟數(shù)據(jù)及其清洗方法。目前已有部分學(xué)者針對(duì)這一任務(wù),展開了研究[3][7][8][9]。在現(xiàn)實(shí)中,清洗所有數(shù)據(jù)源中的臟數(shù)據(jù)花銷是昂貴的,尤其是考慮到企業(yè)的實(shí)際需求時(shí),清洗所有數(shù)據(jù)源中的臟數(shù)據(jù)是不劃算的。比如某公司只考慮清洗某一組特定類型的臟數(shù)據(jù)用來提高數(shù)據(jù)的準(zhǔn)確率問題。這樣的問題涉及到如何在臟數(shù)據(jù)中揀選特定類型的臟數(shù)據(jù)進(jìn)行清洗。在本文中,該問題被定義為“臟數(shù)據(jù)選擇問題”(DDS)。雖然目前有不少文獻(xiàn)針對(duì)臟數(shù)據(jù)的分類進(jìn)行了研究,但對(duì)于DDS這一問題并沒有展開進(jìn)一步的研究。在現(xiàn)實(shí)中僅僅依靠各類臟數(shù)據(jù)的劃分,很難根據(jù)不同企業(yè)的實(shí)際需求來解決DDS問題來提高相應(yīng)的數(shù)據(jù)質(zhì)量。

為了解決這個(gè)問題(DDS),本文提出了一種數(shù)據(jù)清洗方法。從數(shù)據(jù)質(zhì)量維度的這一角度出發(fā),同時(shí)配合各類商業(yè)規(guī)則,將臟數(shù)據(jù)進(jìn)一步劃分。進(jìn)而解決DDS問題。利用該方法,用戶可以根據(jù)不同的商業(yè)需求來制定不同的優(yōu)先權(quán),選擇特定的臟數(shù)據(jù)進(jìn)行清洗。同時(shí)該方法為我們提供了一種基于數(shù)據(jù)質(zhì)量維度與數(shù)據(jù)質(zhì)量規(guī)則的臟數(shù)據(jù)劃分,該劃分為提高數(shù)據(jù)質(zhì)量問題進(jìn)一步提供了指導(dǎo)準(zhǔn)則。

2 數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量維度與數(shù)據(jù)質(zhì)量規(guī)則

基于目前現(xiàn)有的技術(shù),企業(yè)可以創(chuàng)建、存儲(chǔ)、處理大量的數(shù)據(jù)。但數(shù)據(jù)質(zhì)量問題的存在卻降低了某些數(shù)據(jù)庫應(yīng)用項(xiàng)目的處理效果。接下來,數(shù)據(jù)質(zhì)量、數(shù)據(jù)質(zhì)量維度、數(shù)據(jù)質(zhì)量規(guī)則的相關(guān)概念將進(jìn)一步討論。

2.1 數(shù)據(jù)質(zhì)量

針對(duì)數(shù)據(jù)質(zhì)量問題的研究,最早可以追溯到十九世紀(jì)60年帶,由Fellegi與Sunter等人提出[10]。然而,直到1990年,關(guān)于數(shù)據(jù)庫及數(shù)據(jù)倉庫系統(tǒng)中的數(shù)據(jù)質(zhì)量問題才在計(jì)算機(jī)科學(xué)領(lǐng)域中被正式研究。越來越多的人意識(shí)到,數(shù)據(jù)質(zhì)量的問題是導(dǎo)致數(shù)據(jù)庫應(yīng)用項(xiàng)目運(yùn)行失敗的一個(gè)重要因素。目前,數(shù)據(jù)質(zhì)量被廣泛的定義為“適合使用的程度(fitness for use)”。Orr提出數(shù)據(jù)質(zhì)量從本質(zhì)上講與我們?nèi)绾卧谙到y(tǒng)中使用數(shù)據(jù)有相當(dāng)大的關(guān)系[11]。我們可以從兩個(gè)方面對(duì)這一說法進(jìn)行解釋。第一,如果數(shù)據(jù)有效并且符合用戶需求,則該數(shù)據(jù)可以直接進(jìn)行使用。第二,在某些環(huán)境下符合用戶需求的數(shù)據(jù)有可能在另一環(huán)境中是不符合用戶需求的。例如,某公司的財(cái)務(wù)人員要求數(shù)據(jù)以萬為單位顯示來進(jìn)行數(shù)據(jù)分析,而同一公司的審計(jì)員則要求數(shù)據(jù)精確到分。也就是說公司的商業(yè)策略或者商業(yè)規(guī)則在此時(shí)決定了數(shù)據(jù)質(zhì)量。

通常來說,數(shù)據(jù)質(zhì)量可以借由數(shù)據(jù)維度來進(jìn)行衡量[12]。常用的數(shù)據(jù)質(zhì)量維度包括準(zhǔn)確度,完整度,時(shí)效度,一致度等。因此,數(shù)據(jù)質(zhì)量評(píng)估的核心在于如何具體地評(píng)估各個(gè)維度。對(duì)各個(gè)維度從定性的角度來分析其“好”或“壞”是目前數(shù)據(jù)質(zhì)量評(píng)估方法的主流。

2.2 數(shù)據(jù)質(zhì)量維度

文獻(xiàn)[12]指出, 數(shù)據(jù)質(zhì)量維度是一組數(shù)據(jù)質(zhì)量屬性的集合,每一種屬性代表著數(shù)據(jù)的某一特征。依靠調(diào)查研究報(bào)告而收集的179種數(shù)據(jù)質(zhì)量屬性,Wang和Strong等人將這些數(shù)據(jù)質(zhì)量屬性歸納為20種不同的維度。

這些維度從不同的角度對(duì)數(shù)據(jù)質(zhì)量進(jìn)行衡量,并且將衡量的結(jié)果歸納為不同的類別。Wang和Strong的研究工作認(rèn)為數(shù)據(jù)質(zhì)量的概念是一種多維的概念。文獻(xiàn)[13][14][15]也針對(duì)數(shù)據(jù)質(zhì)量維度展開了調(diào)查研究。大部分學(xué)者認(rèn)為以下六個(gè)數(shù)據(jù)維度組成了最基礎(chǔ)的衡量數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn):準(zhǔn)確度,完整度,一致度,現(xiàn)時(shí)度,可解釋性,以及易接近性。在這六個(gè)維度中,同具體數(shù)據(jù)值相關(guān)的數(shù)據(jù)質(zhì)量維度包括準(zhǔn)確度,完整度,一致度和現(xiàn)時(shí)度[16]。本文將以這四個(gè)數(shù)據(jù)質(zhì)量維度為基礎(chǔ)進(jìn)行臟數(shù)據(jù)的劃分。接下來,將對(duì)這四個(gè)數(shù)據(jù)質(zhì)量維度進(jìn)行簡(jiǎn)要的介紹。

2.2.1 準(zhǔn)確度(accuracy)

假設(shè)數(shù)據(jù)以的方式來進(jìn)行描述,其中e代表實(shí)體,a代表實(shí)體的屬性,v代表屬性a的值。則數(shù)據(jù)的準(zhǔn)確度表示值v與其真實(shí)值v'的接近程度。若v等同于v',則該數(shù)據(jù)被認(rèn)為是準(zhǔn)確的。例如,數(shù)據(jù)庫中某學(xué)生實(shí)體,姓名屬性的值被記錄為“Elizbeth Fraser”而非“Elizabeth Frazer”。這個(gè)值是不準(zhǔn)確的。

2.2.2 完整度(completeness)

Fox等人將數(shù)據(jù)的完整度定義為對(duì)于一切實(shí)體的所有屬性,其所對(duì)應(yīng)的值是否完整的程度[16]。數(shù)據(jù)的完整度可以由三個(gè)級(jí)別來進(jìn)行度量:紀(jì)錄級(jí)別,屬性級(jí)別與關(guān)系級(jí)別。紀(jì)錄級(jí)別的完整度代表數(shù)據(jù)庫中每條紀(jì)錄中已錄入的值與該條紀(jì)錄所有屬性應(yīng)具有的值的數(shù)量百分比。屬性級(jí)別的完整度代表數(shù)據(jù)庫中紀(jì)錄的每列屬性中非缺失值與全體值的數(shù)量百分比。關(guān)系級(jí)別的完整度代表每張數(shù)據(jù)表中所有非缺失值與全體值的數(shù)量百分比。

2.2.3 現(xiàn)時(shí)度(currentness)

數(shù)據(jù)庫中所記錄的某些數(shù)據(jù)是靜態(tài)的,也就是說其值是不可變的。比如某人的出生日期,出生地點(diǎn)等。相反人的年齡,住址,體重等信息會(huì)隨著時(shí)間的變化而發(fā)生改變。這樣的數(shù)據(jù)被稱為時(shí)態(tài)數(shù)據(jù)?,F(xiàn)時(shí)度就是為了衡量時(shí)態(tài)數(shù)據(jù)的一個(gè)維度。Fox等人提出,如果一個(gè)數(shù)據(jù)在t時(shí)刻是準(zhǔn)時(shí)的,則說明該數(shù)據(jù)的值在t時(shí)刻是正確的。如果一個(gè)數(shù)據(jù)在t時(shí)刻是過期數(shù)據(jù),說明該數(shù)據(jù)的值在t時(shí)刻是不正確的,但它在t時(shí)刻之前的某一時(shí)刻是正確的[16]。例如,某人在2008年居住在中國上海,其居住地址在數(shù)據(jù)庫中已有所記錄。在2016年這個(gè)人居住在英國倫敦,則數(shù)據(jù)庫中反映該人“現(xiàn)居住地址”的信息應(yīng)進(jìn)行更新。這樣的數(shù)據(jù)則被稱為現(xiàn)時(shí)度高的數(shù)據(jù)?,F(xiàn)實(shí)生活中,由于數(shù)據(jù)沒有被及時(shí)更新而造成的經(jīng)濟(jì)損失是非常高昂的。例如某調(diào)查研究表明,平均每公司每年因郵件地址信息過期而造成的損失高達(dá)9000美金[17]。

2.2.4 一致度

當(dāng)數(shù)據(jù)的值符合相應(yīng)的數(shù)據(jù)模型所定義的一系列約束條件時(shí),該數(shù)據(jù)是一致的數(shù)據(jù)。例如,由于不同的商業(yè)需求,數(shù)據(jù)庫在不同環(huán)境中可能被設(shè)計(jì)成不同的模式。因此同一數(shù)據(jù)的值在不同的數(shù)據(jù)庫中的表現(xiàn)形式也各不相同,其度量單位也會(huì)有差別。當(dāng)不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行抽取和整合時(shí),數(shù)據(jù)的不一致性問題就會(huì)出現(xiàn)。例如,為記錄某人的收入信息,在某些數(shù)據(jù)庫中該人的收入會(huì)以人民幣做為結(jié)算單位進(jìn)行記錄,在另一些數(shù)據(jù)庫中則以美元為結(jié)算單位進(jìn)行記錄。

2.3 數(shù)據(jù)質(zhì)量規(guī)則

根據(jù)Adelman等人的研究, 數(shù)據(jù)質(zhì)量規(guī)則可以被歸納為以下四組:商業(yè)實(shí)體規(guī)則, 商業(yè)屬性規(guī)則, 數(shù)據(jù)依賴規(guī)則以及數(shù)據(jù)有效性規(guī)則[19]。表1歸納了這四組規(guī)則。

在這四組規(guī)則當(dāng)中,數(shù)據(jù)有效性規(guī)則是專門用來考察同數(shù)據(jù)值相關(guān)的質(zhì)量規(guī)則。由于本文所考慮的數(shù)據(jù)質(zhì)量維度僅針對(duì)于數(shù)據(jù)值而言,因此本文將采用數(shù)據(jù)有效性規(guī)則這一組數(shù)據(jù)質(zhì)量規(guī)則應(yīng)用于所提出的清洗方法之中。根據(jù)文獻(xiàn)[19],數(shù)據(jù)有效性規(guī)則包含六條數(shù)據(jù)質(zhì)量規(guī)則,分別為數(shù)據(jù)完整規(guī)則,數(shù)據(jù)正確規(guī)則,數(shù)據(jù)準(zhǔn)確規(guī)則,數(shù)據(jù)單一規(guī)則以及數(shù)據(jù)一致規(guī)則。本文繼續(xù)將這六條規(guī)則進(jìn)行細(xì)分進(jìn)而形成更加詳細(xì)的數(shù)據(jù)質(zhì)量規(guī)則,并為每條規(guī)則配備一個(gè)規(guī)則號(hào)。詳細(xì)的內(nèi)容見表2所示。

根據(jù)表1,數(shù)據(jù)單一規(guī)則被歸入數(shù)據(jù)有效性規(guī)則組中。在表2中,規(guī)則R5.1與R5.2是專門用來衡量由于數(shù)據(jù)庫中冗余紀(jì)錄的存在而引起的一類特殊的數(shù)據(jù)質(zhì)量問題。現(xiàn)實(shí)中有很多原因會(huì)導(dǎo)致數(shù)據(jù)庫中冗余記錄的產(chǎn)生,例如數(shù)據(jù)錄入錯(cuò)誤,針對(duì)同一數(shù)據(jù)值的不同表達(dá)方式等。目前,針對(duì)于不同的研究領(lǐng)域,有不同的方法用來解決冗余記錄問題。同時(shí)很多學(xué)者也開展了相應(yīng)的研究工作[20]。因此,除了前文所提到的四個(gè)數(shù)據(jù)質(zhì)量維度,本文同時(shí)引入“單一度”作為另一數(shù)據(jù)質(zhì)量維度專門用來衡量冗余記錄存在的問題。

3 臟數(shù)據(jù)類型

臟數(shù)據(jù)分類系統(tǒng)可以幫助人們更好的理解數(shù)據(jù)質(zhì)量問題。目前針對(duì)臟數(shù)據(jù)分類問題已有很多工作展開了相關(guān)研究[3][7][8][9]。文獻(xiàn)[8]將數(shù)據(jù)質(zhì)量問題分為兩組:?jiǎn)螖?shù)據(jù)源問題、多數(shù)據(jù)源問題。在每一組中,又將對(duì)應(yīng)的數(shù)據(jù)質(zhì)量問題劃分為模式層問題與實(shí)例層問題。例如,在單數(shù)據(jù)源的實(shí)例層次上,數(shù)據(jù)的錯(cuò)誤有可能來自數(shù)據(jù)輸入的錯(cuò)誤,冗余記錄的存在以及矛盾數(shù)據(jù)的存在等。在多數(shù)據(jù)源實(shí)例層次上,不一致性數(shù)據(jù)的錯(cuò)誤會(huì)發(fā)生在數(shù)據(jù)整合的過程中。

文獻(xiàn)[7]針對(duì)數(shù)據(jù)質(zhì)量問題也提出一組臟數(shù)據(jù)的分類。這組分類包括詞匯錯(cuò)誤(Lexical error)、域值錯(cuò)誤(Domain format error)、不規(guī)則性錯(cuò)誤(Irregularities)、條件約束錯(cuò)誤(Constraint violation)、缺失值(Missing value),冗余值(Duplicates)以及無效記錄(Invalid tuple)。

相比前兩個(gè)分類,文獻(xiàn)[3]提出了一個(gè)更詳盡的臟數(shù)據(jù)分類,該分類以分層的方式來表現(xiàn)。根據(jù)不同的臟數(shù)據(jù)表現(xiàn)方式,從各類數(shù)據(jù)源中所捕獲的臟數(shù)據(jù)首先可以歸入以下三類:

(1)缺失值

(2)非缺失但錯(cuò)誤數(shù)據(jù)

(3)非缺失非錯(cuò)誤但無法使用的數(shù)據(jù)

這三類錯(cuò)誤數(shù)據(jù)組成了整個(gè)臟數(shù)據(jù)分類的主體。作者進(jìn)一步對(duì)這三類錯(cuò)誤數(shù)據(jù)進(jìn)行細(xì)分,最終提出了一個(gè)含有33種不同的臟數(shù)據(jù)類型的分類。

文獻(xiàn)[9]則提供了一個(gè)更加完整的臟數(shù)據(jù)分類系統(tǒng)。作者采用了一種自底向上的方式將臟數(shù)據(jù)進(jìn)行分類(從單一數(shù)據(jù)源中單一記錄的具體的屬性值問題到多數(shù)據(jù)源中存在的數(shù)據(jù)問題)。在單一數(shù)據(jù)源中,數(shù)據(jù)質(zhì)量問題從兩個(gè)方面進(jìn)行劃分,最終分為兩組。分別是單數(shù)據(jù)表數(shù)據(jù)質(zhì)量問題與多數(shù)據(jù)表中的數(shù)據(jù)質(zhì)量問題。在多數(shù)據(jù)源中,數(shù)據(jù)質(zhì)量問題被歸納為9類問題。表3總結(jié)了文獻(xiàn)[9]提出的數(shù)據(jù)質(zhì)量問題。

由于Oliveira等人的臟數(shù)據(jù)分類在目前現(xiàn)有的研究工作中比較完整地歸納了不同的臟數(shù)據(jù)類型,因此本文所提出的數(shù)據(jù)清洗方法將利用表3所提供的臟數(shù)據(jù)類型進(jìn)行描述。

4 基于數(shù)據(jù)質(zhì)量維度的數(shù)據(jù)清洗方法

根據(jù)前文所介紹的數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量維度,數(shù)據(jù)質(zhì)量規(guī)則,以及臟數(shù)據(jù)類型等概念,我們提出一種新的臟數(shù)據(jù)分類方法。

4.1 數(shù)據(jù)質(zhì)量規(guī)則與數(shù)據(jù)質(zhì)量維度的映射

在表1中所提到的四組數(shù)據(jù)質(zhì)量規(guī)則中,數(shù)據(jù)有效性規(guī)則組所定義的數(shù)據(jù)質(zhì)量規(guī)則用來專門制約與數(shù)據(jù)值相關(guān)的數(shù)據(jù)質(zhì)量[19]。因此該組提出的具體數(shù)據(jù)質(zhì)量規(guī)則將用來同前文所提到的五個(gè)數(shù)據(jù)質(zhì)量維度進(jìn)行匹配。表4總結(jié)了五個(gè)數(shù)據(jù)質(zhì)量維度與Adelman等人提出的數(shù)據(jù)質(zhì)量規(guī)則的映射結(jié)果。

為了將臟數(shù)據(jù)類型與數(shù)據(jù)質(zhì)量維度進(jìn)行匹配,需要進(jìn)一步將數(shù)據(jù)質(zhì)量規(guī)則與臟數(shù)據(jù)類型進(jìn)行匹配工作。

4.2 數(shù)據(jù)質(zhì)量規(guī)則與臟數(shù)據(jù)類型的映射

表3列舉了35種不同類型的臟數(shù)據(jù),并將每一類臟數(shù)據(jù)進(jìn)行了編號(hào)(DT.1~DT.35)。根據(jù)表2提出的數(shù)據(jù)質(zhì)量規(guī)則 (R1.1~R6.2),表5將這35種臟數(shù)據(jù)類型與表2提出的數(shù)據(jù)質(zhì)量規(guī)則進(jìn)行了匹配,結(jié)果見表5。

4.3 臟數(shù)據(jù)分類

綜合考慮表4與表5的匹配結(jié)果,我們得到了一種基于數(shù)據(jù)質(zhì)量維度的臟數(shù)據(jù)分類,其結(jié)果見表6所示。

4.4 臟數(shù)據(jù)清洗方法

David Loshin提出,企業(yè)的商業(yè)政策會(huì)對(duì)該企業(yè)的數(shù)據(jù)質(zhì)量造成影響[18]。為了量化數(shù)據(jù)質(zhì)量,各種度量標(biāo)準(zhǔn)信息應(yīng)在一個(gè)度量框架中有所分類,用來衡量數(shù)據(jù)是否符合企業(yè)所制定的各種標(biāo)準(zhǔn)。為了達(dá)到這一目標(biāo),數(shù)據(jù)質(zhì)量維度可以用來設(shè)計(jì)一系列的度量標(biāo)準(zhǔn)。企業(yè)所制定的各條政策準(zhǔn)則可以轉(zhuǎn)化為一組數(shù)據(jù)質(zhì)量規(guī)則。同時(shí)這組數(shù)據(jù)質(zhì)量規(guī)則可以用來衡量數(shù)據(jù)源中的各種數(shù)據(jù)缺陷[18]。

在本文中,臟數(shù)據(jù)被定義為不符合數(shù)據(jù)質(zhì)量規(guī)則的數(shù)據(jù)缺陷。因此,借由指定的商業(yè)政策標(biāo)準(zhǔn),我們可以定義一系列的數(shù)據(jù)質(zhì)量規(guī)則。臟數(shù)據(jù)的捕獲可以通過觀察該數(shù)據(jù)是否違反了數(shù)據(jù)質(zhì)量規(guī)則。同時(shí),由于數(shù)據(jù)質(zhì)量規(guī)則嵌入于不同的數(shù)據(jù)質(zhì)量維度之中,因此我們可以建立一種基于數(shù)據(jù)質(zhì)量維度與臟數(shù)據(jù)的映射。依靠這種映射(表6),本文提出一種臟數(shù)據(jù)清洗方法如下:

(1)依靠企業(yè)制定的優(yōu)先權(quán),將五個(gè)數(shù)據(jù)質(zhì)量維度進(jìn)行排序。

(2)識(shí)別企業(yè)的數(shù)據(jù)質(zhì)量問題。

(3)將第二步提出的數(shù)據(jù)質(zhì)量問題分別匹配到各數(shù)據(jù)質(zhì)

量維度中(依靠表6所示的臟數(shù)據(jù)分類)。

(4)根據(jù)企業(yè)能夠接受的開銷,選擇需要處理的數(shù)據(jù)質(zhì)量維度。

(5)為數(shù)據(jù)質(zhì)量維度中的各類臟數(shù)據(jù)選擇合適的數(shù)據(jù)清

洗算法。

(6)執(zhí)行各數(shù)據(jù)清晰算法進(jìn)行數(shù)據(jù)清洗。

5 一個(gè)實(shí)例演示

依靠本文提出的臟數(shù)據(jù)清洗方法,數(shù)據(jù)清洗可以視為基于五個(gè)數(shù)據(jù)質(zhì)量維度來提高數(shù)據(jù)質(zhì)量的過程。在此我們舉例來說明某企業(yè)如何應(yīng)用該方法進(jìn)行臟數(shù)據(jù)的清洗。

在某大學(xué)校園里,利用基于網(wǎng)絡(luò)的管理信息系統(tǒng),學(xué)生可以獲取各類信息。例如每學(xué)年的課程信息,本學(xué)年的課程考試信息等。假設(shè)該系統(tǒng)中反映學(xué)生考試的數(shù)據(jù)表中包含如下屬性:學(xué)生號(hào)、學(xué)生姓名、考試日期、考試地點(diǎn)、考試科目等。通過檢查各屬性值,根據(jù)表3我們有可能會(huì)在系統(tǒng)中發(fā)現(xiàn)以下臟數(shù)據(jù)的存在:拼寫錯(cuò)誤(DT.6),輸入值不在固定值內(nèi) (DT.5),單/多數(shù)據(jù)源中的數(shù)據(jù)冗余(DT.18,DT.33),屬性值的內(nèi)容不足(DT.7),單/多數(shù)據(jù)源中的語法不一致問題(DT.23,DT.27),缺失數(shù)據(jù)(DT.1),過期數(shù)據(jù),過期引用 (DT.3,DT.22)等。

依靠本文提出的臟數(shù)據(jù)分類方法,表7體現(xiàn)了該校園管理信息系統(tǒng)中的臟數(shù)據(jù)類型與對(duì)應(yīng)的數(shù)據(jù)質(zhì)量維度的映射。

如本文之前所提出的,在現(xiàn)實(shí)中,清洗所有數(shù)據(jù)源中的臟數(shù)據(jù)花銷是昂貴的,考慮到企業(yè)的實(shí)際需求時(shí),這一做法是不劃算的。因此基于數(shù)據(jù)質(zhì)量維度的權(quán)衡就必須在數(shù)據(jù)清洗時(shí)進(jìn)行考慮。數(shù)據(jù)質(zhì)量維度的權(quán)衡可以為我們提供有用的信息,例如哪些數(shù)據(jù)質(zhì)量維度具有比較高的優(yōu)先權(quán)。在上面所提到的具體實(shí)例中,假設(shè)該學(xué)校無法做到全部清洗表7中提出的全部臟數(shù)據(jù),則該學(xué)校所面臨的實(shí)際問題是如何根據(jù)學(xué)校制定的優(yōu)先權(quán)選擇一系列臟數(shù)據(jù)優(yōu)先進(jìn)行清洗。這一問題即是本文所提出的DDS問題。根據(jù)學(xué)校已制定的優(yōu)先權(quán)規(guī)則,針對(duì)網(wǎng)絡(luò)數(shù)據(jù)而言,時(shí)效性是首先必須滿足的。例如學(xué)生考試的時(shí)間,地點(diǎn)與科目對(duì)學(xué)生而言,該信息必須做到準(zhǔn)確與及時(shí)。學(xué)校需要保證系統(tǒng)中相關(guān)信息應(yīng)該是準(zhǔn)確而及時(shí)的以便為學(xué)生提供正確的考試信息。因此,相對(duì)與其他數(shù)據(jù)質(zhì)量維度,現(xiàn)時(shí)度與準(zhǔn)確度這兩個(gè)數(shù)據(jù)質(zhì)量維度就顯得尤為重要。根據(jù)該學(xué)校制定的優(yōu)先權(quán)規(guī)則,我們可以為五個(gè)數(shù)據(jù)質(zhì)量維度以優(yōu)先權(quán)降序的方式進(jìn)行排序,依次為現(xiàn)時(shí)度、準(zhǔn)確度、一致度,單一度和完整度。利用本文提出的數(shù)據(jù)清洗方法可以進(jìn)一步系統(tǒng)地進(jìn)行數(shù)據(jù)清洗。表7列舉出該校園系統(tǒng)中對(duì)應(yīng)于五個(gè)數(shù)據(jù)質(zhì)量維度的臟數(shù)據(jù)類型。我們很容易根據(jù)該表提供的信息找出對(duì)應(yīng)于現(xiàn)時(shí)度與準(zhǔn)確度這兩個(gè)數(shù)據(jù)質(zhì)量維度下的臟數(shù)據(jù)類型。這些臟數(shù)據(jù)類型是在本例中應(yīng)該最先被清洗的臟數(shù)據(jù)類型。因此,接下來的數(shù)據(jù)清洗任務(wù)則是根據(jù)已有的數(shù)據(jù)清洗算法或者方法針對(duì)以下臟數(shù)據(jù)類型首先進(jìn)行清洗:DT.3,DT.5,DT.6,DT.7和DT.22。

如果我們僅僅依靠目前存在的臟數(shù)據(jù)分類系統(tǒng),我們很難根據(jù)企業(yè)制訂的優(yōu)先權(quán)來選擇相應(yīng)的一組臟數(shù)據(jù)進(jìn)行清洗。利用本文提出的數(shù)據(jù)清洗方法,依靠數(shù)據(jù)質(zhì)量維度的優(yōu)先權(quán),我們可以直接選擇同現(xiàn)時(shí)度與準(zhǔn)確度這兩個(gè)數(shù)據(jù)質(zhì)量維度相關(guān)的臟數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。其具體清洗步驟如下:

(1)將數(shù)據(jù)質(zhì)量維度進(jìn)行排序:現(xiàn)時(shí)度、準(zhǔn)確度、一致度,單一度和完整度。

(2)識(shí)別系統(tǒng)中的數(shù)據(jù)質(zhì)量問題:DT1,DT3,DT5,DT6,DT7,DT18,DT22,DT23,DT27,DT33。

(3)映射工作:見表6。

(4)選擇需要處理的數(shù)據(jù)質(zhì)量維度:見表8。

(5)針對(duì)臟數(shù)據(jù)類型選擇合適的清洗算法。

(6)執(zhí)行各清洗算法。

6 結(jié)論和展望

本文在充分分析文獻(xiàn)的基礎(chǔ)上,回顧了數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量維度的定義,探討了常見數(shù)據(jù)質(zhì)量問題,闡明了數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)清洗之間的關(guān)系。針對(duì)臟數(shù)據(jù)揀選問題(DDS)提出了一種基于數(shù)據(jù)質(zhì)量維度的數(shù)據(jù)清洗方法,該方法可以有效地幫助企業(yè)提高數(shù)據(jù)質(zhì)量,同時(shí)解決DDS問題,降低數(shù)據(jù)清洗過程中的開銷。未來的研究工作包括數(shù)據(jù)清洗工具的開發(fā)。同時(shí),不同臟數(shù)據(jù)類型清洗順序是否對(duì)整體數(shù)據(jù)清洗的效率和效果有所影響,以及針對(duì)不同問題領(lǐng)域而進(jìn)行的數(shù)據(jù)清洗算法的選擇問題也是作者需要進(jìn)一步研究的問題。

參考文獻(xiàn):

[1]Ballou,D.P.,Tayi,G.K.: Enhancing data quality in data warehouse environments. Communications of the ACM,vo.42,No.1(1999).

[2]Pierce,E.M.:A progress Report from the MIT Information Quality Conference. http://www.tdan.com/view-articles/5143/.

[3]Kim,W.,Choi,B.,Hong,E.Y.,Kim,S.K.,Lee,D.: A taxonomy of dirty data. Data Mining and Knowledge Discovery,7,81-99(2003).

[4]Mong,L.:IntelliClean: A knowledge-based intelligent data cleaner. Proceedings of the ACM SIGKDD,Boston,USA (2000).

[5]Peng,T.: A Framework for Data Cleaning in Data Warehouses. Proc. of ICEIS 2008,pp.473-478,Spain (2008).

[6]Kim,W.:On three major holes in Data Warehousing Today. Journal of Object Technology,Vol.1,No.4 (2002).

[7]Müller,H.,F(xiàn)reytag,J.C.:Problems,Methods,and Challenges in Comprehensive Data Cleansing. Tech. Rep. HUB-1B-164(2003).

[8]Rahm,E.,Do,H.:Data Cleaning: Problems and Current Approaches. IEEE Bulletin of the Technical Committee on Data Engineering. vol.23,41,No.2 (2000).

[9]Oliveira,P.,Rodrigues,F(xiàn).T.,Henriques,P.,Galhardas,H.:A Taxonomy of Data Quality Problems. Second International Workshop on Data and Information Quality (in conjunction with CAISE'05), Porto,Portugal (2005).

[10]Fellegi,I.P.,Sunter,A.B.:A Theory for Record Linkage. Journal of the American Statistical Association,vol.64 (1969).

[11]Orr,K.:Data Quality and Systems. Communications of the ACM,Vol. 41,No. 2(1998).

[12]Wang,R.Y.,Strong,D.M.:Beyond Accuracy: What Data Quality Means to Data Consumers. Journal of Management Information Systems,12,4(1996).

[13]Redman,T.C.:Data Quality for the Information Age. Artech House (1996).

[14]Jarke,M.,Jeusfeld,M.A.,Quix,C.,Vassiliadis,P.:Architecture and Quality in Data Warehouses: an Extended Repository Approach. Information Systems,Vol.24,No.3 (1999).

[15]Bovee,M.,Srivastava,R.P.,Mak,B.:A conceptual Framework and Belief-Function Approach to Assessing Overall Information Quality. In Proceedings of the 6th International Conference on Information Quality. MIT Boston-MA (2001).

[16]Fox,C.,Levitin,A.,Redman,T.:The notion of data and its quality of dimensions. Information Processing & Management.,vol. 30,no. 1. pp. 9-19 (1994).

[17]Why Dirty Data May Cost You $180,000. http://www.melissadata.com/enews/articles/1206/1.htm.

[18]Monitoring Data Quality Performance Using Data Quality Metrics.http://www.it.ojp.gov/documents/Informatica_Whitepaper_Monitoring_DQ_Using_Metrics.pdf.

[19]Adelman,S.,Moss,L.,Abai,M.: Data Strategy. Addison-Wesley Professional (2005).

[20]Elmagarmid,A.K.,Ipeirotis,P.G.,VeryKios,V.S.:Duplicate Record Detection: A Survey. . IEEE Trans. on Knowl. and Data Eng. 19,1-16 (2007).

猜你喜歡
數(shù)據(jù)質(zhì)量
電子商務(wù)平臺(tái)數(shù)據(jù)質(zhì)量控制系統(tǒng)及仿真模型分析
基于大數(shù)據(jù)背景下提高供電局?jǐn)?shù)據(jù)質(zhì)量對(duì)策分析
強(qiáng)化統(tǒng)計(jì)執(zhí)法提高數(shù)據(jù)質(zhì)量
淺析統(tǒng)計(jì)數(shù)據(jù)質(zhì)量
金融統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管理的國際借鑒與中國實(shí)踐
淺談統(tǒng)計(jì)數(shù)據(jù)質(zhì)量控制
企業(yè)統(tǒng)計(jì)工作之我見
統(tǒng)計(jì)信用與統(tǒng)計(jì)數(shù)據(jù)質(zhì)量研究
丹巴县| 塘沽区| 石阡县| 三台县| 大田县| 新营市| 清丰县| 太保市| 上思县| 丰镇市| 黎川县| 从化市| 江达县| 舟曲县| 庄河市| 萝北县| 丹东市| 博野县| 深泽县| 礼泉县| 甘肃省| 合山市| 岳池县| 庆安县| 阜城县| 榆中县| 清流县| 扶风县| 滁州市| 西青区| 当阳市| 谢通门县| 文登市| 合作市| 洮南市| 射洪县| 都兰县| 视频| 文山县| 韶关市| 怀远县|