李景民(吉林工商學院,長春130062)
?
一種基于非監(jiān)控學習的數(shù)據(jù)清洗算法
李景民
(吉林工商學院,長春130062)
摘要:在數(shù)據(jù)庫的應用中經(jīng)常會出現(xiàn)數(shù)據(jù)的“相似重復記錄”問題,筆者提出一種基于非監(jiān)控學習的數(shù)據(jù)清洗算法。這種算法主要采用了基于非監(jiān)控學習的方法,在學習過程中能夠結合需要增添新的聚類,去除錯誤聚類,進而能夠避免出現(xiàn)死神經(jīng)元問題,經(jīng)實驗數(shù)據(jù)證明可以有效地實體識別。
關鍵詞:非監(jiān)控學習;數(shù)據(jù)清洗;數(shù)據(jù)庫;數(shù)據(jù)轉換
在現(xiàn)代高等院??蒲邢到y(tǒng)信息化的建設過程中,管理人員發(fā)現(xiàn)存在數(shù)量龐大的異構系統(tǒng)、海量的資源。面對如此多的不同來源、較為分散和清潔度不夠的信息,科研系統(tǒng)管理人員需要提煉有效信息,以供決策,因而急需信息集成和整合的行之有效的方法。創(chuàng)建數(shù)據(jù)倉庫的主要目標是提供準確的數(shù)據(jù),為數(shù)據(jù)分析服務,為科研領導的決策提供參考。為了能夠對正確決策提供足夠的支持,需要依據(jù)的參考數(shù)據(jù)應該是可靠的,沒有偏差的,以體現(xiàn)科研的實際情況[1,2]。鑒于以上的環(huán)境及需求,ETL技術作為一種工具和手段蓬勃發(fā)展起來。ETL主要是指數(shù)據(jù)抽取、轉換、清洗、加載的過程。ETL是建立數(shù)據(jù)倉庫非常重要的一個步驟,管理員從數(shù)據(jù)源中提煉出需要的數(shù)據(jù),經(jīng)過數(shù)據(jù)轉換及數(shù)據(jù)清洗過程,最后根據(jù)事先確定好的數(shù)據(jù)倉庫模型,把數(shù)據(jù)最終加載到數(shù)據(jù)倉庫中去。
在科研管理系統(tǒng)當中,由于數(shù)據(jù)倉庫中的數(shù)據(jù)可能來源于多種不同的數(shù)據(jù)源,該數(shù)據(jù)源又可能存在于差異的硬件平臺上,數(shù)據(jù)庫管理系統(tǒng)也千差萬別,這就導致這些數(shù)據(jù)在很多方面都是不同的,甚至是相互沖突的,所以控制數(shù)據(jù)質量成為極為重要的問題。
1.1數(shù)據(jù)質量問題的類別
在科研管理系統(tǒng)中進行數(shù)據(jù)ETL過程時,管理者有可能碰到形形色色的數(shù)據(jù)質量問題,有必要將它們進行分類管理。通過總結該問題的產(chǎn)生究竟是在模式層還是在實例層,進而把數(shù)據(jù)質量問題進一步劃分成四大類:A.單數(shù)據(jù)源模式層問題。B.單數(shù)據(jù)源實例層問題。C.多數(shù)據(jù)源模式層問題。D.多數(shù)據(jù)源實例層問題。
如果在模式層次上存在問題,那么在實例層次上會有相應的體現(xiàn),不好的數(shù)據(jù)模式設計、定義的完整性約束缺乏、多個數(shù)據(jù)源之間命名沖突以及結構沖突等,全部都是這類問題。人們可以采用改進模式設計、模式轉化和模式集成的方法解決模式層次上的問題。目前主流的方法是通過相關問題域的專家,采用手工方法來處理此類問題,但是效率低下。
1.2數(shù)據(jù)質量評估方法
在高??蒲邢到y(tǒng)中,需要解決不同數(shù)據(jù)質量的異常問題,首要任務是分析產(chǎn)生異常的根源。導致數(shù)據(jù)異常的因素較多,可能是系統(tǒng)自身的原因,也可能是歷史因素[3]:在不同階段,系統(tǒng)的數(shù)據(jù)模型可能存在差異;相應的處理過程有所區(qū)別;新舊幾套系統(tǒng)模塊處理財務、人事等有關信息時有所區(qū)別;老舊系統(tǒng)與新增業(yè)務以及管理系統(tǒng)數(shù)據(jù)在進行集成時的不完備也會產(chǎn)生差異;源系統(tǒng)在數(shù)據(jù)輸入時沒有對數(shù)據(jù)進行數(shù)據(jù)驗證,無法攔截不合格的數(shù)據(jù)輸入到系統(tǒng)。分析數(shù)據(jù)質量應該從以上幾個方面進行考量,評估采集到的具體數(shù)據(jù)源,衡量數(shù)據(jù)源的質量,進而確定采用的ETL規(guī)則。
2.1數(shù)據(jù)清洗
所謂數(shù)據(jù)清洗就是在檢測數(shù)據(jù)集中過程之后出現(xiàn)的錯誤和差異,并通過人工或者自動化工具將其刪除和修正,進而提升數(shù)據(jù)質量。
在對實例層次的數(shù)據(jù)進行清洗的過程中,即使通過模式轉化和集成取得了一致模式,在實例層上依舊需要對不一致性進行清除,關鍵是對缺損屬性修正,并進行相應的實體識別。處理缺損屬性時,主要是針對不確定信息的理論,對于不完全數(shù)據(jù),需要進行推理和相應的研究,并且提出合適的規(guī)則。在實體識別時,對于相同的實體,在不同的數(shù)據(jù)源的記錄中,有可能標識的主鍵是不同的,這些信息在內容上互為補充,可能存在冗余情況,嚴重時甚至會有互相矛盾的情況。
針對相似重復記錄的處理方式,筆者采用了非監(jiān)控的學習方法,以此來處理數(shù)據(jù)集中過程中的實體識別困難。非監(jiān)控學習是針對海量的、未標記的數(shù)據(jù)分析的聚類技術。主要目的是提供一系列類,而且要求相同類中數(shù)據(jù)的特性要保持一致,類別不同的數(shù)據(jù)要有明顯的、便于區(qū)分的差異。
2.2非監(jiān)控學習算法
這種學習方法主要包括競爭學習和增強式學習兩種方法。筆者在實體識別中總結出采用基于Hebbian假設的一種非監(jiān)控的學習算法。
由Hebbian的假設,神經(jīng)元的學習規(guī)則能夠用如下的函數(shù)進行表示:
表達式中的W為突觸權值向量,X表示輸入樣本向量,ψ()是可微函數(shù),α≥0是遺忘系數(shù)。神經(jīng)元的輸出為:
2.3非監(jiān)控學習算法性能測試
在對非監(jiān)控學習算法性能進行測試的過程中,設計了兩組數(shù)據(jù)。其中一組是系數(shù)σ=0.05服從高斯分布的測試數(shù)據(jù),另外一組是系數(shù)σ=0.5測試數(shù)據(jù)。結果是σ=0.05,數(shù)據(jù)相對集中,聚類邊界明顯;σ=0.5,數(shù)據(jù)不集中,聚類邊界不夠清晰。
因為從多數(shù)據(jù)源當中直接進行對象識別具有非常大的困難,所以我們可以把整個識別過程分成不同的階段來完成。
在進行數(shù)據(jù)清洗操作中,利用非監(jiān)控學習算法處理在實體識別方面的問題,完成“相似重復記錄”的查詢,可以進一步提高清洗的準確程度。
參考文獻:
[1]Wand Y,Anchoring Wang R Y.Data Quality Dimensions In Ontological Foundations[J].Commun ACM39,1996,(11):86- 95.
[2]Strong Diane M,Lee Yang W,Wang Richard Y.Data Quality In Context[J].Commun ACM40,1997,(05):103- 110.
[3]郭志懋,周傲英(Guo Z.M., Zhou A.Y.).數(shù)據(jù)質量和數(shù)據(jù)清洗研究綜述(Research on Data Quality and Data Cleaning:a Survey)[J]軟件學報(Journal of Software),2002,13(11):2076- 2082.
中圖分類號:TP311.13
文獻標志碼:A
文章編號:1674- 8646(2016)02- 0044- 02
收稿日期:2015- 12- 19