一種基于數(shù)據(jù)質(zhì)量維度的數(shù)據(jù)清洗方法

2017-08-24 14:18李琳

科技創(chuàng)新與應(yīng)用 2017年21期

李琳

摘要：隨著社會(huì)經(jīng)濟(jì)的發(fā)展和大數(shù)據(jù)時(shí)代的到來，數(shù)據(jù)在人們?nèi)粘Ｉ钪邪缪莸慕巧絹碓街匾?。利用決策支持系統(tǒng)、客戶關(guān)系管理系統(tǒng)（CRM）等數(shù)據(jù)庫應(yīng)用項(xiàng)目，我們可以從海量數(shù)據(jù)中提取更有價(jià)值的信息。然而，調(diào)查發(fā)現(xiàn)很多數(shù)據(jù)庫應(yīng)用項(xiàng)目的運(yùn)行效果并不令人滿意。數(shù)據(jù)數(shù)量增長的同時(shí)，數(shù)據(jù)質(zhì)量的控制也給廣大研究人員帶來一定的困擾。人們?cè)絹碓揭庾R(shí)到，高質(zhì)量的數(shù)據(jù)是商業(yè)成功的一個(gè)重要因素，而數(shù)據(jù)源中的“臟數(shù)據(jù)”是導(dǎo)致數(shù)據(jù)質(zhì)量低的一個(gè)重要原因。為了保證高質(zhì)量的數(shù)據(jù)，企業(yè)需要采取一系列措施來控制數(shù)據(jù)質(zhì)量，并采用一定的手段來處理“臟數(shù)據(jù)”。然而現(xiàn)實(shí)中，檢測(cè)與清洗數(shù)據(jù)源中所有“臟數(shù)據(jù)”的開銷是昂貴的。因此，如何根據(jù)不同的商業(yè)的需求來揀選部分“臟數(shù)據(jù)”進(jìn)行清洗具有一定的現(xiàn)實(shí)意義。文章在文獻(xiàn)分析的基礎(chǔ)上，回顧了數(shù)據(jù)質(zhì)量、數(shù)據(jù)質(zhì)量維度的定義，探討了常見數(shù)據(jù)質(zhì)量問題，闡明了數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)清洗之間的關(guān)系。針對(duì)“臟數(shù)據(jù)”揀選問題提出了一種數(shù)據(jù)清洗方法。最后對(duì)數(shù)據(jù)清洗相關(guān)研究進(jìn)行了展望。

關(guān)鍵詞：數(shù)據(jù)質(zhì)量；數(shù)據(jù)質(zhì)量維度；數(shù)據(jù)質(zhì)量規(guī)則；數(shù)據(jù)清洗

中圖分類號(hào)：TP311.13 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：2095-2945（2017）21-0001-05

1 研究背景

目前，數(shù)據(jù)在人類日常生活中所扮演的角色越來越重要，利用決策支持系統(tǒng)、客戶關(guān)系管理系統(tǒng)（CRM）等數(shù)據(jù)庫應(yīng)用項(xiàng)目，我們可以從海量數(shù)據(jù)中獲得更有價(jià)值的信息。然而，調(diào)查發(fā)現(xiàn)很多數(shù)據(jù)庫應(yīng)用項(xiàng)目的運(yùn)行效果并不令人滿意。其中一個(gè)重要的因素就是數(shù)據(jù)質(zhì)量問題[1]。普華永道會(huì)計(jì)事務(wù)所在紐約的研究也表明，75%的被調(diào)查公司存在因“臟數(shù)據(jù)”問題造成經(jīng)濟(jì)損失的現(xiàn)象，只有35%的被調(diào)查公司對(duì)自己的數(shù)據(jù)質(zhì)量充滿信心[2]。據(jù)統(tǒng)計(jì)，一些具有代表性的大公司的數(shù)據(jù)錯(cuò)誤率預(yù)期在大約1%～5%，大部分?jǐn)?shù)據(jù)源中都含有一定比例的“臟數(shù)據(jù)”[3]。數(shù)據(jù)是信息的載體，好的數(shù)據(jù)質(zhì)量是使各種數(shù)據(jù)分析（例如數(shù)據(jù)挖掘等）能夠得到有意義結(jié)果的基本條件。根據(jù)“進(jìn)去的是垃圾，出來的也是垃圾（garbage in， garbage out）”這條原則，“臟數(shù)據(jù)”的存在會(huì)造成信息失真[4]。在各種數(shù)據(jù)處理任務(wù)中，數(shù)據(jù)清洗這一任務(wù)是至關(guān)重要的。數(shù)據(jù)清洗是數(shù)據(jù)質(zhì)量提高技術(shù)研究的主要內(nèi)容，數(shù)據(jù)清洗主要研究如何檢測(cè)并消除數(shù)據(jù)中的錯(cuò)誤和不一致，以提高數(shù)據(jù)質(zhì)量，目前有很多數(shù)據(jù)清洗框架存在[5]。然而研究發(fā)現(xiàn)，數(shù)據(jù)質(zhì)量問題并沒有引起大多數(shù)企業(yè)足夠的重視，同時(shí)這些企業(yè)也沒有應(yīng)用有效的方法和措施來提高其數(shù)據(jù)質(zhì)量。其中一個(gè)主要原因是這些企業(yè)缺少對(duì)各種臟數(shù)據(jù)類型的了解[6]。因此，為了提高數(shù)據(jù)質(zhì)量，有必要了解留存于數(shù)據(jù)源中的各類臟數(shù)據(jù)及其清洗方法。目前已有部分學(xué)者針對(duì)這一任務(wù)，展開了研究[3][7][8][9]。在現(xiàn)實(shí)中，清洗所有數(shù)據(jù)源中的臟數(shù)據(jù)花銷是昂貴的，尤其是考慮到企業(yè)的實(shí)際需求時(shí)，清洗所有數(shù)據(jù)源中的臟數(shù)據(jù)是不劃算的。比如某公司只考慮清洗某一組特定類型的臟數(shù)據(jù)用來提高數(shù)據(jù)的準(zhǔn)確率問題。這樣的問題涉及到如何在臟數(shù)據(jù)中揀選特定類型的臟數(shù)據(jù)進(jìn)行清洗。在本文中，該問題被定義為“臟數(shù)據(jù)選擇問題”（DDS）。雖然目前有不少文獻(xiàn)針對(duì)臟數(shù)據(jù)的分類進(jìn)行了研究，但對(duì)于DDS這一問題并沒有展開進(jìn)一步的研究。在現(xiàn)實(shí)中僅僅依靠各類臟數(shù)據(jù)的劃分，很難根據(jù)不同企業(yè)的實(shí)際需求來解決DDS問題來提高相應(yīng)的數(shù)據(jù)質(zhì)量。

為了解決這個(gè)問題（DDS），本文提出了一種數(shù)據(jù)清洗方法。從數(shù)據(jù)質(zhì)量維度的這一角度出發(fā)，同時(shí)配合各類商業(yè)規(guī)則，將臟數(shù)據(jù)進(jìn)一步劃分。進(jìn)而解決DDS問題。利用該方法，用戶可以根據(jù)不同的商業(yè)需求來制定不同的優(yōu)先權(quán)，選擇特定的臟數(shù)據(jù)進(jìn)行清洗。同時(shí)該方法為我們提供了一種基于數(shù)據(jù)質(zhì)量維度與數(shù)據(jù)質(zhì)量規(guī)則的臟數(shù)據(jù)劃分，該劃分為提高數(shù)據(jù)質(zhì)量問題進(jìn)一步提供了指導(dǎo)準(zhǔn)則。

2 數(shù)據(jù)質(zhì)量，數(shù)據(jù)質(zhì)量維度與數(shù)據(jù)質(zhì)量規(guī)則

基于目前現(xiàn)有的技術(shù)，企業(yè)可以創(chuàng)建、存儲(chǔ)、處理大量的數(shù)據(jù)。但數(shù)據(jù)質(zhì)量問題的存在卻降低了某些數(shù)據(jù)庫應(yīng)用項(xiàng)目的處理效果。接下來，數(shù)據(jù)質(zhì)量、數(shù)據(jù)質(zhì)量維度、數(shù)據(jù)質(zhì)量規(guī)則的相關(guān)概念將進(jìn)一步討論。

2.1 數(shù)據(jù)質(zhì)量

針對(duì)數(shù)據(jù)質(zhì)量問題的研究，最早可以追溯到十九世紀(jì)60年帶，由Fellegi與Sunter等人提出[10]。然而，直到1990年，關(guān)于數(shù)據(jù)庫及數(shù)據(jù)倉庫系統(tǒng)中的數(shù)據(jù)質(zhì)量問題才在計(jì)算機(jī)科學(xué)領(lǐng)域中被正式研究。越來越多的人意識(shí)到，數(shù)據(jù)質(zhì)量的問題是導(dǎo)致數(shù)據(jù)庫應(yīng)用項(xiàng)目運(yùn)行失敗的一個(gè)重要因素。目前，數(shù)據(jù)質(zhì)量被廣泛的定義為“適合使用的程度（fitness for use）”。Orr提出數(shù)據(jù)質(zhì)量從本質(zhì)上講與我們?nèi)绾卧谙到y(tǒng)中使用數(shù)據(jù)有相當(dāng)大的關(guān)系[11]。我們可以從兩個(gè)方面對(duì)這一說法進(jìn)行解釋。第一，如果數(shù)據(jù)有效并且符合用戶需求，則該數(shù)據(jù)可以直接進(jìn)行使用。第二，在某些環(huán)境下符合用戶需求的數(shù)據(jù)有可能在另一環(huán)境中是不符合用戶需求的。例如，某公司的財(cái)務(wù)人員要求數(shù)據(jù)以萬為單位顯示來進(jìn)行數(shù)據(jù)分析，而同一公司的審計(jì)員則要求數(shù)據(jù)精確到分。也就是說公司的商業(yè)策略或者商業(yè)規(guī)則在此時(shí)決定了數(shù)據(jù)質(zhì)量。

通常來說，數(shù)據(jù)質(zhì)量可以借由數(shù)據(jù)維度來進(jìn)行衡量[12]。常用的數(shù)據(jù)質(zhì)量維度包括準(zhǔn)確度，完整度，時(shí)效度，一致度等。因此，數(shù)據(jù)質(zhì)量評(píng)估的核心在于如何具體地評(píng)估各個(gè)維度。對(duì)各個(gè)維度從定性的角度來分析其“好”或“壞”是目前數(shù)據(jù)質(zhì)量評(píng)估方法的主流。

2.2 數(shù)據(jù)質(zhì)量維度

文獻(xiàn)[12]指出，數(shù)據(jù)質(zhì)量維度是一組數(shù)據(jù)質(zhì)量屬性的集合，每一種屬性代表著數(shù)據(jù)的某一特征。依靠調(diào)查研究報(bào)告而收集的179種數(shù)據(jù)質(zhì)量屬性，Wang和Strong等人將這些數(shù)據(jù)質(zhì)量屬性歸納為20種不同的維度。

這些維度從不同的角度對(duì)數(shù)據(jù)質(zhì)量進(jìn)行衡量，并且將衡量的結(jié)果歸納為不同的類別。Wang和Strong的研究工作認(rèn)為數(shù)據(jù)質(zhì)量的概念是一種多維的概念。文獻(xiàn)[13][14][15]也針對(duì)數(shù)據(jù)質(zhì)量維度展開了調(diào)查研究。大部分學(xué)者認(rèn)為以下六個(gè)數(shù)據(jù)維度組成了最基礎(chǔ)的衡量數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)：準(zhǔn)確度，完整度，一致度，現(xiàn)時(shí)度，可解釋性，以及易接近性。在這六個(gè)維度中，同具體數(shù)據(jù)值相關(guān)的數(shù)據(jù)質(zhì)量維度包括準(zhǔn)確度，完整度，一致度和現(xiàn)時(shí)度[16]。本文將以這四個(gè)數(shù)據(jù)質(zhì)量維度為基礎(chǔ)進(jìn)行臟數(shù)據(jù)的劃分。接下來，將對(duì)這四個(gè)數(shù)據(jù)質(zhì)量維度進(jìn)行簡(jiǎn)要的介紹。

2.2.1 準(zhǔn)確度（accuracy）

假設(shè)數(shù)據(jù)以的方式來進(jìn)行描述，其中e代表實(shí)體，a代表實(shí)體的屬性，v代表屬性a的值。則數(shù)據(jù)的準(zhǔn)確度表示值v與其真實(shí)值v'的接近程度。若v等同于v'，則該數(shù)據(jù)被認(rèn)為是準(zhǔn)確的。例如，數(shù)據(jù)庫中某學(xué)生實(shí)體，姓名屬性的值被記錄為“Elizbeth Fraser”而非“Elizabeth Frazer”。這個(gè)值是不準(zhǔn)確的。

2.2.2 完整度（completeness）

Fox等人將數(shù)據(jù)的完整度定義為對(duì)于一切實(shí)體的所有屬性，其所對(duì)應(yīng)的值是否完整的程度[16]。數(shù)據(jù)的完整度可以由三個(gè)級(jí)別來進(jìn)行度量：紀(jì)錄級(jí)別，屬性級(jí)別與關(guān)系級(jí)別。紀(jì)錄級(jí)別的完整度代表數(shù)據(jù)庫中每條紀(jì)錄中已錄入的值與該條紀(jì)錄所有屬性應(yīng)具有的值的數(shù)量百分比。屬性級(jí)別的完整度代表數(shù)據(jù)庫中紀(jì)錄的每列屬性中非缺失值與全體值的數(shù)量百分比。關(guān)系級(jí)別的完整度代表每張數(shù)據(jù)表中所有非缺失值與全體值的數(shù)量百分比。

2.2.3 現(xiàn)時(shí)度（currentness）

數(shù)據(jù)庫中所記錄的某些數(shù)據(jù)是靜態(tài)的，也就是說其值是不可變的。比如某人的出生日期，出生地點(diǎn)等。相反人的年齡，住址，體重等信息會(huì)隨著時(shí)間的變化而發(fā)生改變。這樣的數(shù)據(jù)被稱為時(shí)態(tài)數(shù)據(jù)?，F(xiàn)時(shí)度就是為了衡量時(shí)態(tài)數(shù)據(jù)的一個(gè)維度。Fox等人提出，如果一個(gè)數(shù)據(jù)在t時(shí)刻是準(zhǔn)時(shí)的，則說明該數(shù)據(jù)的值在t時(shí)刻是正確的。如果一個(gè)數(shù)據(jù)在t時(shí)刻是過期數(shù)據(jù)，說明該數(shù)據(jù)的值在t時(shí)刻是不正確的，但它在t時(shí)刻之前的某一時(shí)刻是正確的[16]。例如，某人在2008年居住在中國上海，其居住地址在數(shù)據(jù)庫中已有所記錄。在2016年這個(gè)人居住在英國倫敦，則數(shù)據(jù)庫中反映該人“現(xiàn)居住地址”的信息應(yīng)進(jìn)行更新。這樣的數(shù)據(jù)則被稱為現(xiàn)時(shí)度高的數(shù)據(jù)?，F(xiàn)實(shí)生活中，由于數(shù)據(jù)沒有被及時(shí)更新而造成的經(jīng)濟(jì)損失是非常高昂的。例如某調(diào)查研究表明，平均每公司每年因郵件地址信息過期而造成的損失高達(dá)9000美金[17]。

2.2.4 一致度

當(dāng)數(shù)據(jù)的值符合相應(yīng)的數(shù)據(jù)模型所定義的一系列約束條件時(shí)，該數(shù)據(jù)是一致的數(shù)據(jù)。例如，由于不同的商業(yè)需求，數(shù)據(jù)庫在不同環(huán)境中可能被設(shè)計(jì)成不同的模式。因此同一數(shù)據(jù)的值在不同的數(shù)據(jù)庫中的表現(xiàn)形式也各不相同，其度量單位也會(huì)有差別。當(dāng)不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行抽取和整合時(shí)，數(shù)據(jù)的不一致性問題就會(huì)出現(xiàn)。例如，為記錄某人的收入信息，在某些數(shù)據(jù)庫中該人的收入會(huì)以人民幣做為結(jié)算單位進(jìn)行記錄，在另一些數(shù)據(jù)庫中則以美元為結(jié)算單位進(jìn)行記錄。

2.3 數(shù)據(jù)質(zhì)量規(guī)則

根據(jù)Adelman等人的研究，數(shù)據(jù)質(zhì)量規(guī)則可以被歸納為以下四組：商業(yè)實(shí)體規(guī)則，商業(yè)屬性規(guī)則，數(shù)據(jù)依賴規(guī)則以及數(shù)據(jù)有效性規(guī)則[19]。表1歸納了這四組規(guī)則。

在這四組規(guī)則當(dāng)中，數(shù)據(jù)有效性規(guī)則是專門用來考察同數(shù)據(jù)值相關(guān)的質(zhì)量規(guī)則。由于本文所考慮的數(shù)據(jù)質(zhì)量維度僅針對(duì)于數(shù)據(jù)值而言，因此本文將采用數(shù)據(jù)有效性規(guī)則這一組數(shù)據(jù)質(zhì)量規(guī)則應(yīng)用于所提出的清洗方法之中。根據(jù)文獻(xiàn)[19]，數(shù)據(jù)有效性規(guī)則包含六條數(shù)據(jù)質(zhì)量規(guī)則，分別為數(shù)據(jù)完整規(guī)則，數(shù)據(jù)正確規(guī)則，數(shù)據(jù)準(zhǔn)確規(guī)則，數(shù)據(jù)單一規(guī)則以及數(shù)據(jù)一致規(guī)則。本文繼續(xù)將這六條規(guī)則進(jìn)行細(xì)分進(jìn)而形成更加詳細(xì)的數(shù)據(jù)質(zhì)量規(guī)則，并為每條規(guī)則配備一個(gè)規(guī)則號(hào)。詳細(xì)的內(nèi)容見表2所示。

根據(jù)表1，數(shù)據(jù)單一規(guī)則被歸入數(shù)據(jù)有效性規(guī)則組中。在表2中，規(guī)則R5.1與R5.2是專門用來衡量由于數(shù)據(jù)庫中冗余紀(jì)錄的存在而引起的一類特殊的數(shù)據(jù)質(zhì)量問題。現(xiàn)實(shí)中有很多原因會(huì)導(dǎo)致數(shù)據(jù)庫中冗余記錄的產(chǎn)生，例如數(shù)據(jù)錄入錯(cuò)誤，針對(duì)同一數(shù)據(jù)值的不同表達(dá)方式等。目前，針對(duì)于不同的研究領(lǐng)域，有不同的方法用來解決冗余記錄問題。同時(shí)很多學(xué)者也開展了相應(yīng)的研究工作[20]。因此，除了前文所提到的四個(gè)數(shù)據(jù)質(zhì)量維度，本文同時(shí)引入“單一度”作為另一數(shù)據(jù)質(zhì)量維度專門用來衡量冗余記錄存在的問題。

3 臟數(shù)據(jù)類型

臟數(shù)據(jù)分類系統(tǒng)可以幫助人們更好的理解數(shù)據(jù)質(zhì)量問題。目前針對(duì)臟數(shù)據(jù)分類問題已有很多工作展開了相關(guān)研究[3][7][8][9]。文獻(xiàn)[8]將數(shù)據(jù)質(zhì)量問題分為兩組：?jiǎn)螖?shù)據(jù)源問題、多數(shù)據(jù)源問題。在每一組中，又將對(duì)應(yīng)的數(shù)據(jù)質(zhì)量問題劃分為模式層問題與實(shí)例層問題。例如，在單數(shù)據(jù)源的實(shí)例層次上，數(shù)據(jù)的錯(cuò)誤有可能來自數(shù)據(jù)輸入的錯(cuò)誤，冗余記錄的存在以及矛盾數(shù)據(jù)的存在等。在多數(shù)據(jù)源實(shí)例層次上，不一致性數(shù)據(jù)的錯(cuò)誤會(huì)發(fā)生在數(shù)據(jù)整合的過程中。

文獻(xiàn)[7]針對(duì)數(shù)據(jù)質(zhì)量問題也提出一組臟數(shù)據(jù)的分類。這組分類包括詞匯錯(cuò)誤（Lexical error）、域值錯(cuò)誤（Domain format error）、不規(guī)則性錯(cuò)誤（Irregularities）、條件約束錯(cuò)誤（Constraint violation）、缺失值（Missing value），冗余值（Duplicates）以及無效記錄（Invalid tuple）。

相比前兩個(gè)分類，文獻(xiàn)[3]提出了一個(gè)更詳盡的臟數(shù)據(jù)分類，該分類以分層的方式來表現(xiàn)。根據(jù)不同的臟數(shù)據(jù)表現(xiàn)方式，從各類數(shù)據(jù)源中所捕獲的臟數(shù)據(jù)首先可以歸入以下三類：

（1）缺失值

（2）非缺失但錯(cuò)誤數(shù)據(jù)

（3）非缺失非錯(cuò)誤但無法使用的數(shù)據(jù)

這三類錯(cuò)誤數(shù)據(jù)組成了整個(gè)臟數(shù)據(jù)分類的主體。作者進(jìn)一步對(duì)這三類錯(cuò)誤數(shù)據(jù)進(jìn)行細(xì)分，最終提出了一個(gè)含有33種不同的臟數(shù)據(jù)類型的分類。

文獻(xiàn)[9]則提供了一個(gè)更加完整的臟數(shù)據(jù)分類系統(tǒng)。作者采用了一種自底向上的方式將臟數(shù)據(jù)進(jìn)行分類（從單一數(shù)據(jù)源中單一記錄的具體的屬性值問題到多數(shù)據(jù)源中存在的數(shù)據(jù)問題）。在單一數(shù)據(jù)源中，數(shù)據(jù)質(zhì)量問題從兩個(gè)方面進(jìn)行劃分，最終分為兩組。分別是單數(shù)據(jù)表數(shù)據(jù)質(zhì)量問題與多數(shù)據(jù)表中的數(shù)據(jù)質(zhì)量問題。在多數(shù)據(jù)源中，數(shù)據(jù)質(zhì)量問題被歸納為9類問題。表3總結(jié)了文獻(xiàn)[9]提出的數(shù)據(jù)質(zhì)量問題。

由于Oliveira等人的臟數(shù)據(jù)分類在目前現(xiàn)有的研究工作中比較完整地歸納了不同的臟數(shù)據(jù)類型，因此本文所提出的數(shù)據(jù)清洗方法將利用表3所提供的臟數(shù)據(jù)類型進(jìn)行描述。

4 基于數(shù)據(jù)質(zhì)量維度的數(shù)據(jù)清洗方法

根據(jù)前文所介紹的數(shù)據(jù)質(zhì)量，數(shù)據(jù)質(zhì)量維度，數(shù)據(jù)質(zhì)量規(guī)則，以及臟數(shù)據(jù)類型等概念，我們提出一種新的臟數(shù)據(jù)分類方法。

4.1 數(shù)據(jù)質(zhì)量規(guī)則與數(shù)據(jù)質(zhì)量維度的映射

在表1中所提到的四組數(shù)據(jù)質(zhì)量規(guī)則中，數(shù)據(jù)有效性規(guī)則組所定義的數(shù)據(jù)質(zhì)量規(guī)則用來專門制約與數(shù)據(jù)值相關(guān)的數(shù)據(jù)質(zhì)量[19]。因此該組提出的具體數(shù)據(jù)質(zhì)量規(guī)則將用來同前文所提到的五個(gè)數(shù)據(jù)質(zhì)量維度進(jìn)行匹配。表4總結(jié)了五個(gè)數(shù)據(jù)質(zhì)量維度與Adelman等人提出的數(shù)據(jù)質(zhì)量規(guī)則的映射結(jié)果。

為了將臟數(shù)據(jù)類型與數(shù)據(jù)質(zhì)量維度進(jìn)行匹配，需要進(jìn)一步將數(shù)據(jù)質(zhì)量規(guī)則與臟數(shù)據(jù)類型進(jìn)行匹配工作。

4.2 數(shù)據(jù)質(zhì)量規(guī)則與臟數(shù)據(jù)類型的映射

表3列舉了35種不同類型的臟數(shù)據(jù)，并將每一類臟數(shù)據(jù)進(jìn)行了編號(hào)（DT.1～DT.35）。根據(jù)表2提出的數(shù)據(jù)質(zhì)量規(guī)則（R1.1～R6.2），表5將這35種臟數(shù)據(jù)類型與表2提出的數(shù)據(jù)質(zhì)量規(guī)則進(jìn)行了匹配，結(jié)果見表5。

4.3 臟數(shù)據(jù)分類

綜合考慮表4與表5的匹配結(jié)果，我們得到了一種基于數(shù)據(jù)質(zhì)量維度的臟數(shù)據(jù)分類，其結(jié)果見表6所示。

4.4 臟數(shù)據(jù)清洗方法

David Loshin提出，企業(yè)的商業(yè)政策會(huì)對(duì)該企業(yè)的數(shù)據(jù)質(zhì)量造成影響[18]。為了量化數(shù)據(jù)質(zhì)量，各種度量標(biāo)準(zhǔn)信息應(yīng)在一個(gè)度量框架中有所分類，用來衡量數(shù)據(jù)是否符合企業(yè)所制定的各種標(biāo)準(zhǔn)。為了達(dá)到這一目標(biāo)，數(shù)據(jù)質(zhì)量維度可以用來設(shè)計(jì)一系列的度量標(biāo)準(zhǔn)。企業(yè)所制定的各條政策準(zhǔn)則可以轉(zhuǎn)化為一組數(shù)據(jù)質(zhì)量規(guī)則。同時(shí)這組數(shù)據(jù)質(zhì)量規(guī)則可以用來衡量數(shù)據(jù)源中的各種數(shù)據(jù)缺陷[18]。

在本文中，臟數(shù)據(jù)被定義為不符合數(shù)據(jù)質(zhì)量規(guī)則的數(shù)據(jù)缺陷。因此，借由指定的商業(yè)政策標(biāo)準(zhǔn)，我們可以定義一系列的數(shù)據(jù)質(zhì)量規(guī)則。臟數(shù)據(jù)的捕獲可以通過觀察該數(shù)據(jù)是否違反了數(shù)據(jù)質(zhì)量規(guī)則。同時(shí)，由于數(shù)據(jù)質(zhì)量規(guī)則嵌入于不同的數(shù)據(jù)質(zhì)量維度之中，因此我們可以建立一種基于數(shù)據(jù)質(zhì)量維度與臟數(shù)據(jù)的映射。依靠這種映射（表6），本文提出一種臟數(shù)據(jù)清洗方法如下：

（1）依靠企業(yè)制定的優(yōu)先權(quán)，將五個(gè)數(shù)據(jù)質(zhì)量維度進(jìn)行排序。

（2）識(shí)別企業(yè)的數(shù)據(jù)質(zhì)量問題。

（3）將第二步提出的數(shù)據(jù)質(zhì)量問題分別匹配到各數(shù)據(jù)質(zhì)

量維度中（依靠表6所示的臟數(shù)據(jù)分類）。

（4）根據(jù)企業(yè)能夠接受的開銷，選擇需要處理的數(shù)據(jù)質(zhì)量維度。

（5）為數(shù)據(jù)質(zhì)量維度中的各類臟數(shù)據(jù)選擇合適的數(shù)據(jù)清

洗算法。

（6）執(zhí)行各數(shù)據(jù)清晰算法進(jìn)行數(shù)據(jù)清洗。

5 一個(gè)實(shí)例演示

依靠本文提出的臟數(shù)據(jù)清洗方法，數(shù)據(jù)清洗可以視為基于五個(gè)數(shù)據(jù)質(zhì)量維度來提高數(shù)據(jù)質(zhì)量的過程。在此我們舉例來說明某企業(yè)如何應(yīng)用該方法進(jìn)行臟數(shù)據(jù)的清洗。

在某大學(xué)校園里，利用基于網(wǎng)絡(luò)的管理信息系統(tǒng)，學(xué)生可以獲取各類信息。例如每學(xué)年的課程信息，本學(xué)年的課程考試信息等。假設(shè)該系統(tǒng)中反映學(xué)生考試的數(shù)據(jù)表中包含如下屬性：學(xué)生號(hào)、學(xué)生姓名、考試日期、考試地點(diǎn)、考試科目等。通過檢查各屬性值，根據(jù)表3我們有可能會(huì)在系統(tǒng)中發(fā)現(xiàn)以下臟數(shù)據(jù)的存在：拼寫錯(cuò)誤（DT.6），輸入值不在固定值內(nèi) （DT.5），單/多數(shù)據(jù)源中的數(shù)據(jù)冗余（DT.18，DT.33），屬性值的內(nèi)容不足（DT.7），單/多數(shù)據(jù)源中的語法不一致問題（DT.23，DT.27），缺失數(shù)據(jù)（DT.1），過期數(shù)據(jù)，過期引用（DT.3，DT.22）等。

依靠本文提出的臟數(shù)據(jù)分類方法，表7體現(xiàn)了該校園管理信息系統(tǒng)中的臟數(shù)據(jù)類型與對(duì)應(yīng)的數(shù)據(jù)質(zhì)量維度的映射。

如本文之前所提出的，在現(xiàn)實(shí)中，清洗所有數(shù)據(jù)源中的臟數(shù)據(jù)花銷是昂貴的，考慮到企業(yè)的實(shí)際需求時(shí)，這一做法是不劃算的。因此基于數(shù)據(jù)質(zhì)量維度的權(quán)衡就必須在數(shù)據(jù)清洗時(shí)進(jìn)行考慮。數(shù)據(jù)質(zhì)量維度的權(quán)衡可以為我們提供有用的信息，例如哪些數(shù)據(jù)質(zhì)量維度具有比較高的優(yōu)先權(quán)。在上面所提到的具體實(shí)例中，假設(shè)該學(xué)校無法做到全部清洗表7中提出的全部臟數(shù)據(jù)，則該學(xué)校所面臨的實(shí)際問題是如何根據(jù)學(xué)校制定的優(yōu)先權(quán)選擇一系列臟數(shù)據(jù)優(yōu)先進(jìn)行清洗。這一問題即是本文所提出的DDS問題。根據(jù)學(xué)校已制定的優(yōu)先權(quán)規(guī)則，針對(duì)網(wǎng)絡(luò)數(shù)據(jù)而言，時(shí)效性是首先必須滿足的。例如學(xué)生考試的時(shí)間，地點(diǎn)與科目對(duì)學(xué)生而言，該信息必須做到準(zhǔn)確與及時(shí)。學(xué)校需要保證系統(tǒng)中相關(guān)信息應(yīng)該是準(zhǔn)確而及時(shí)的以便為學(xué)生提供正確的考試信息。因此，相對(duì)與其他數(shù)據(jù)質(zhì)量維度，現(xiàn)時(shí)度與準(zhǔn)確度這兩個(gè)數(shù)據(jù)質(zhì)量維度就顯得尤為重要。根據(jù)該學(xué)校制定的優(yōu)先權(quán)規(guī)則，我們可以為五個(gè)數(shù)據(jù)質(zhì)量維度以優(yōu)先權(quán)降序的方式進(jìn)行排序，依次為現(xiàn)時(shí)度、準(zhǔn)確度、一致度，單一度和完整度。利用本文提出的數(shù)據(jù)清洗方法可以進(jìn)一步系統(tǒng)地進(jìn)行數(shù)據(jù)清洗。表7列舉出該校園系統(tǒng)中對(duì)應(yīng)于五個(gè)數(shù)據(jù)質(zhì)量維度的臟數(shù)據(jù)類型。我們很容易根據(jù)該表提供的信息找出對(duì)應(yīng)于現(xiàn)時(shí)度與準(zhǔn)確度這兩個(gè)數(shù)據(jù)質(zhì)量維度下的臟數(shù)據(jù)類型。這些臟數(shù)據(jù)類型是在本例中應(yīng)該最先被清洗的臟數(shù)據(jù)類型。因此，接下來的數(shù)據(jù)清洗任務(wù)則是根據(jù)已有的數(shù)據(jù)清洗算法或者方法針對(duì)以下臟數(shù)據(jù)類型首先進(jìn)行清洗：DT.3，DT.5，DT.6，DT.7和DT.22。

如果我們僅僅依靠目前存在的臟數(shù)據(jù)分類系統(tǒng)，我們很難根據(jù)企業(yè)制訂的優(yōu)先權(quán)來選擇相應(yīng)的一組臟數(shù)據(jù)進(jìn)行清洗。利用本文提出的數(shù)據(jù)清洗方法，依靠數(shù)據(jù)質(zhì)量維度的優(yōu)先權(quán)，我們可以直接選擇同現(xiàn)時(shí)度與準(zhǔn)確度這兩個(gè)數(shù)據(jù)質(zhì)量維度相關(guān)的臟數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。其具體清洗步驟如下：

（1）將數(shù)據(jù)質(zhì)量維度進(jìn)行排序：現(xiàn)時(shí)度、準(zhǔn)確度、一致度，單一度和完整度。

（2）識(shí)別系統(tǒng)中的數(shù)據(jù)質(zhì)量問題：DT1，DT3，DT5，DT6，DT7，DT18，DT22，DT23，DT27，DT33。

（3）映射工作：見表6。

（4）選擇需要處理的數(shù)據(jù)質(zhì)量維度：見表8。

（5）針對(duì)臟數(shù)據(jù)類型選擇合適的清洗算法。

（6）執(zhí)行各清洗算法。

6 結(jié)論和展望

本文在充分分析文獻(xiàn)的基礎(chǔ)上，回顧了數(shù)據(jù)質(zhì)量，數(shù)據(jù)質(zhì)量維度的定義，探討了常見數(shù)據(jù)質(zhì)量問題，闡明了數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)清洗之間的關(guān)系。針對(duì)臟數(shù)據(jù)揀選問題（DDS）提出了一種基于數(shù)據(jù)質(zhì)量維度的數(shù)據(jù)清洗方法，該方法可以有效地幫助企業(yè)提高數(shù)據(jù)質(zhì)量，同時(shí)解決DDS問題，降低數(shù)據(jù)清洗過程中的開銷。未來的研究工作包括數(shù)據(jù)清洗工具的開發(fā)。同時(shí)，不同臟數(shù)據(jù)類型清洗順序是否對(duì)整體數(shù)據(jù)清洗的效率和效果有所影響，以及針對(duì)不同問題領(lǐng)域而進(jìn)行的數(shù)據(jù)清洗算法的選擇問題也是作者需要進(jìn)一步研究的問題。

參考文獻(xiàn)：

[1]Ballou，D.P.，Tayi，G.K.： Enhancing data quality in data warehouse environments. Communications of the ACM，vo.42，No.1（1999）.

[2]Pierce，E.M.：A progress Report from the MIT Information Quality Conference. http：//www.tdan.com/view-articles/5143/.

[3]Kim，W.，Choi，B.，Hong，E.Y.，Kim，S.K.，Lee，D.： A taxonomy of dirty data. Data Mining and Knowledge Discovery，7，81-99（2003）.

[4]Mong，L.：IntelliClean： A knowledge-based intelligent data cleaner. Proceedings of the ACM SIGKDD，Boston，USA （2000）.

[5]Peng，T.： A Framework for Data Cleaning in Data Warehouses. Proc. of ICEIS 2008，pp.473-478，Spain （2008）.

[6]Kim，W.：On three major holes in Data Warehousing Today. Journal of Object Technology，Vol.1，No.4 （2002）.

[7]Müller，H.，F(xiàn)reytag，J.C.：Problems，Methods，and Challenges in Comprehensive Data Cleansing. Tech. Rep. HUB-1B-164（2003）.

[8]Rahm，E.，Do，H.：Data Cleaning： Problems and Current Approaches. IEEE Bulletin of the Technical Committee on Data Engineering. vol.23，41，No.2 （2000）.

[9]Oliveira，P.，Rodrigues，F(xiàn).T.，Henriques，P.，Galhardas，H.：A Taxonomy of Data Quality Problems. Second International Workshop on Data and Information Quality （in conjunction with CAISE'05）， Porto，Portugal （2005）.

[10]Fellegi，I.P.，Sunter，A.B.：A Theory for Record Linkage. Journal of the American Statistical Association，vol.64 （1969）.

[11]Orr，K.：Data Quality and Systems. Communications of the ACM，Vol. 41，No. 2（1998）.

[12]Wang，R.Y.，Strong，D.M.：Beyond Accuracy： What Data Quality Means to Data Consumers. Journal of Management Information Systems，12，4（1996）.

[13]Redman，T.C.：Data Quality for the Information Age. Artech House （1996）.

[14]Jarke，M.，Jeusfeld，M.A.，Quix，C.，Vassiliadis，P.：Architecture and Quality in Data Warehouses： an Extended Repository Approach. Information Systems，Vol.24，No.3 （1999）.

[15]Bovee，M.，Srivastava，R.P.，Mak，B.：A conceptual Framework and Belief-Function Approach to Assessing Overall Information Quality. In Proceedings of the 6th International Conference on Information Quality. MIT Boston-MA （2001）.

[16]Fox，C.，Levitin，A.，Redman，T.：The notion of data and its quality of dimensions. Information Processing & Management.，vol. 30，no. 1. pp. 9-19 （1994）.

[17]Why Dirty Data May Cost You $180，000. http：//www.melissadata.com/enews/articles/1206/1.htm.

[18]Monitoring Data Quality Performance Using Data Quality Metrics.http：//www.it.ojp.gov/documents/Informatica_Whitepaper_Monitoring_DQ_Using_Metrics.pdf.

[19]Adelman，S.，Moss，L.，Abai，M.： Data Strategy. Addison-Wesley Professional （2005）.

[20]Elmagarmid，A.K.，Ipeirotis，P.G.，VeryKios，V.S.：Duplicate Record Detection： A Survey. . IEEE Trans. on Knowl. and Data Eng. 19，1-16 （2007）.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于數(shù)據(jù)質(zhì)量維度的數(shù)據(jù)清洗方法