一種基于非監(jiān)控學習的數(shù)據(jù)清洗算法

2016-06-02 05:55:08李景民吉林工商學院長春130062

黑龍江科學 2016年3期

李景民（吉林工商學院，長春130062）

李景民
（吉林工商學院，長春130062）

摘要：在數(shù)據(jù)庫的應用中經(jīng)常會出現(xiàn)數(shù)據(jù)的“相似重復記錄”問題，筆者提出一種基于非監(jiān)控學習的數(shù)據(jù)清洗算法。這種算法主要采用了基于非監(jiān)控學習的方法，在學習過程中能夠結合需要增添新的聚類，去除錯誤聚類，進而能夠避免出現(xiàn)死神經(jīng)元問題，經(jīng)實驗數(shù)據(jù)證明可以有效地實體識別。

關鍵詞：非監(jiān)控學習；數(shù)據(jù)清洗；數(shù)據(jù)庫；數(shù)據(jù)轉換

在現(xiàn)代高等院?？蒲邢到y(tǒng)信息化的建設過程中，管理人員發(fā)現(xiàn)存在數(shù)量龐大的異構系統(tǒng)、海量的資源。面對如此多的不同來源、較為分散和清潔度不夠的信息，科研系統(tǒng)管理人員需要提煉有效信息，以供決策，因而急需信息集成和整合的行之有效的方法。創(chuàng)建數(shù)據(jù)倉庫的主要目標是提供準確的數(shù)據(jù)，為數(shù)據(jù)分析服務，為科研領導的決策提供參考。為了能夠對正確決策提供足夠的支持，需要依據(jù)的參考數(shù)據(jù)應該是可靠的，沒有偏差的，以體現(xiàn)科研的實際情況［1,2］。鑒于以上的環(huán)境及需求，ETL技術作為一種工具和手段蓬勃發(fā)展起來。ETL主要是指數(shù)據(jù)抽取、轉換、清洗、加載的過程。ETL是建立數(shù)據(jù)倉庫非常重要的一個步驟，管理員從數(shù)據(jù)源中提煉出需要的數(shù)據(jù)，經(jīng)過數(shù)據(jù)轉換及數(shù)據(jù)清洗過程，最后根據(jù)事先確定好的數(shù)據(jù)倉庫模型，把數(shù)據(jù)最終加載到數(shù)據(jù)倉庫中去。

在科研管理系統(tǒng)當中，由于數(shù)據(jù)倉庫中的數(shù)據(jù)可能來源于多種不同的數(shù)據(jù)源，該數(shù)據(jù)源又可能存在于差異的硬件平臺上，數(shù)據(jù)庫管理系統(tǒng)也千差萬別，這就導致這些數(shù)據(jù)在很多方面都是不同的，甚至是相互沖突的，所以控制數(shù)據(jù)質量成為極為重要的問題。

1　 ETL技術中的數(shù)據(jù)質量控制方法

1.1數(shù)據(jù)質量問題的類別

在科研管理系統(tǒng)中進行數(shù)據(jù)ETL過程時，管理者有可能碰到形形色色的數(shù)據(jù)質量問題，有必要將它們進行分類管理。通過總結該問題的產(chǎn)生究竟是在模式層還是在實例層，進而把數(shù)據(jù)質量問題進一步劃分成四大類：A.單數(shù)據(jù)源模式層問題。B.單數(shù)據(jù)源實例層問題。C.多數(shù)據(jù)源模式層問題。D.多數(shù)據(jù)源實例層問題。

如果在模式層次上存在問題，那么在實例層次上會有相應的體現(xiàn)，不好的數(shù)據(jù)模式設計、定義的完整性約束缺乏、多個數(shù)據(jù)源之間命名沖突以及結構沖突等，全部都是這類問題。人們可以采用改進模式設計、模式轉化和模式集成的方法解決模式層次上的問題。目前主流的方法是通過相關問題域的專家，采用手工方法來處理此類問題，但是效率低下。

1.2數(shù)據(jù)質量評估方法

在高?？蒲邢到y(tǒng)中，需要解決不同數(shù)據(jù)質量的異常問題，首要任務是分析產(chǎn)生異常的根源。導致數(shù)據(jù)異常的因素較多，可能是系統(tǒng)自身的原因，也可能是歷史因素［3］：在不同階段，系統(tǒng)的數(shù)據(jù)模型可能存在差異；相應的處理過程有所區(qū)別；新舊幾套系統(tǒng)模塊處理財務、人事等有關信息時有所區(qū)別；老舊系統(tǒng)與新增業(yè)務以及管理系統(tǒng)數(shù)據(jù)在進行集成時的不完備也會產(chǎn)生差異；源系統(tǒng)在數(shù)據(jù)輸入時沒有對數(shù)據(jù)進行數(shù)據(jù)驗證，無法攔截不合格的數(shù)據(jù)輸入到系統(tǒng)。分析數(shù)據(jù)質量應該從以上幾個方面進行考量，評估采集到的具體數(shù)據(jù)源，衡量數(shù)據(jù)源的質量，進而確定采用的ETL規(guī)則。

2　基于非監(jiān)控學習的數(shù)據(jù)清洗策略

2.1數(shù)據(jù)清洗

所謂數(shù)據(jù)清洗就是在檢測數(shù)據(jù)集中過程之后出現(xiàn)的錯誤和差異，并通過人工或者自動化工具將其刪除和修正，進而提升數(shù)據(jù)質量。

在對實例層次的數(shù)據(jù)進行清洗的過程中，即使通過模式轉化和集成取得了一致模式，在實例層上依舊需要對不一致性進行清除，關鍵是對缺損屬性修正，并進行相應的實體識別。處理缺損屬性時，主要是針對不確定信息的理論，對于不完全數(shù)據(jù)，需要進行推理和相應的研究，并且提出合適的規(guī)則。在實體識別時，對于相同的實體，在不同的數(shù)據(jù)源的記錄中，有可能標識的主鍵是不同的，這些信息在內容上互為補充，可能存在冗余情況，嚴重時甚至會有互相矛盾的情況。

針對相似重復記錄的處理方式，筆者采用了非監(jiān)控的學習方法，以此來處理數(shù)據(jù)集中過程中的實體識別困難。非監(jiān)控學習是針對海量的、未標記的數(shù)據(jù)分析的聚類技術。主要目的是提供一系列類，而且要求相同類中數(shù)據(jù)的特性要保持一致，類別不同的數(shù)據(jù)要有明顯的、便于區(qū)分的差異。

2.2非監(jiān)控學習算法

這種學習方法主要包括競爭學習和增強式學習兩種方法。筆者在實體識別中總結出采用基于Hebbian假設的一種非監(jiān)控的學習算法。

由Hebbian的假設，神經(jīng)元的學習規(guī)則能夠用如下的函數(shù)進行表示:

表達式中的W為突觸權值向量，X表示輸入樣本向量，ψ（）是可微函數(shù)，α≥0是遺忘系數(shù)。神經(jīng)元的輸出為:

2.3非監(jiān)控學習算法性能測試

在對非監(jiān)控學習算法性能進行測試的過程中，設計了兩組數(shù)據(jù)。其中一組是系數(shù)σ=0.05服從高斯分布的測試數(shù)據(jù)，另外一組是系數(shù)σ=0.5測試數(shù)據(jù)。結果是σ=0.05，數(shù)據(jù)相對集中，聚類邊界明顯；σ=0.5，數(shù)據(jù)不集中，聚類邊界不夠清晰。

因為從多數(shù)據(jù)源當中直接進行對象識別具有非常大的困難，所以我們可以把整個識別過程分成不同的階段來完成。

3　結論

在進行數(shù)據(jù)清洗操作中，利用非監(jiān)控學習算法處理在實體識別方面的問題，完成“相似重復記錄”的查詢，可以進一步提高清洗的準確程度。

參考文獻：

［1］Wand Y，Anchoring Wang R Y.Data Quality Dimensions In Ontological Foundations［J］.Commun ACM39，1996，（11）：86- 95.

［2］Strong Diane M，Lee Yang W，Wang Richard Y.Data Quality In Context［J］.Commun ACM40，1997，（05）：103- 110.

［3］郭志懋，周傲英(Guo Z.M., Zhou A.Y.).數(shù)據(jù)質量和數(shù)據(jù)清洗研究綜述(Research on Data Quality and Data Cleaning:a Survey)［J］軟件學報(Journal of Software)，2002，13（11）：2076- 2082.

中圖分類號：TP311.13

文獻標志碼：A

文章編號：1674- 8646（2016）02- 0044- 02

收稿日期：2015- 12- 19

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于非監(jiān)控學習的數(shù)據(jù)清洗算法

1 ETL技術中的數(shù)據(jù)質量控制方法

2 基于非監(jiān)控學習的數(shù)據(jù)清洗策略

3 結論

1　 ETL技術中的數(shù)據(jù)質量控制方法

2　基于非監(jiān)控學習的數(shù)據(jù)清洗策略

3　結論