国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于非監(jiān)控學習的數(shù)據(jù)清洗算法

2016-06-02 05:55:08李景民吉林工商學院長春130062
黑龍江科學 2016年3期
關鍵詞:數(shù)據(jù)庫

李景民(吉林工商學院,長春130062)

?

一種基于非監(jiān)控學習的數(shù)據(jù)清洗算法

李景民
(吉林工商學院,長春130062)

摘要:在數(shù)據(jù)庫的應用中經(jīng)常會出現(xiàn)數(shù)據(jù)的“相似重復記錄”問題,筆者提出一種基于非監(jiān)控學習的數(shù)據(jù)清洗算法。這種算法主要采用了基于非監(jiān)控學習的方法,在學習過程中能夠結合需要增添新的聚類,去除錯誤聚類,進而能夠避免出現(xiàn)死神經(jīng)元問題,經(jīng)實驗數(shù)據(jù)證明可以有效地實體識別。

關鍵詞:非監(jiān)控學習;數(shù)據(jù)清洗;數(shù)據(jù)庫;數(shù)據(jù)轉換

在現(xiàn)代高等院??蒲邢到y(tǒng)信息化的建設過程中,管理人員發(fā)現(xiàn)存在數(shù)量龐大的異構系統(tǒng)、海量的資源。面對如此多的不同來源、較為分散和清潔度不夠的信息,科研系統(tǒng)管理人員需要提煉有效信息,以供決策,因而急需信息集成和整合的行之有效的方法。創(chuàng)建數(shù)據(jù)倉庫的主要目標是提供準確的數(shù)據(jù),為數(shù)據(jù)分析服務,為科研領導的決策提供參考。為了能夠對正確決策提供足夠的支持,需要依據(jù)的參考數(shù)據(jù)應該是可靠的,沒有偏差的,以體現(xiàn)科研的實際情況[1,2]。鑒于以上的環(huán)境及需求,ETL技術作為一種工具和手段蓬勃發(fā)展起來。ETL主要是指數(shù)據(jù)抽取、轉換、清洗、加載的過程。ETL是建立數(shù)據(jù)倉庫非常重要的一個步驟,管理員從數(shù)據(jù)源中提煉出需要的數(shù)據(jù),經(jīng)過數(shù)據(jù)轉換及數(shù)據(jù)清洗過程,最后根據(jù)事先確定好的數(shù)據(jù)倉庫模型,把數(shù)據(jù)最終加載到數(shù)據(jù)倉庫中去。

在科研管理系統(tǒng)當中,由于數(shù)據(jù)倉庫中的數(shù)據(jù)可能來源于多種不同的數(shù)據(jù)源,該數(shù)據(jù)源又可能存在于差異的硬件平臺上,數(shù)據(jù)庫管理系統(tǒng)也千差萬別,這就導致這些數(shù)據(jù)在很多方面都是不同的,甚至是相互沖突的,所以控制數(shù)據(jù)質量成為極為重要的問題。

1  ETL技術中的數(shù)據(jù)質量控制方法

1.1數(shù)據(jù)質量問題的類別

在科研管理系統(tǒng)中進行數(shù)據(jù)ETL過程時,管理者有可能碰到形形色色的數(shù)據(jù)質量問題,有必要將它們進行分類管理。通過總結該問題的產(chǎn)生究竟是在模式層還是在實例層,進而把數(shù)據(jù)質量問題進一步劃分成四大類:A.單數(shù)據(jù)源模式層問題。B.單數(shù)據(jù)源實例層問題。C.多數(shù)據(jù)源模式層問題。D.多數(shù)據(jù)源實例層問題。

如果在模式層次上存在問題,那么在實例層次上會有相應的體現(xiàn),不好的數(shù)據(jù)模式設計、定義的完整性約束缺乏、多個數(shù)據(jù)源之間命名沖突以及結構沖突等,全部都是這類問題。人們可以采用改進模式設計、模式轉化和模式集成的方法解決模式層次上的問題。目前主流的方法是通過相關問題域的專家,采用手工方法來處理此類問題,但是效率低下。

1.2數(shù)據(jù)質量評估方法

在高??蒲邢到y(tǒng)中,需要解決不同數(shù)據(jù)質量的異常問題,首要任務是分析產(chǎn)生異常的根源。導致數(shù)據(jù)異常的因素較多,可能是系統(tǒng)自身的原因,也可能是歷史因素[3]:在不同階段,系統(tǒng)的數(shù)據(jù)模型可能存在差異;相應的處理過程有所區(qū)別;新舊幾套系統(tǒng)模塊處理財務、人事等有關信息時有所區(qū)別;老舊系統(tǒng)與新增業(yè)務以及管理系統(tǒng)數(shù)據(jù)在進行集成時的不完備也會產(chǎn)生差異;源系統(tǒng)在數(shù)據(jù)輸入時沒有對數(shù)據(jù)進行數(shù)據(jù)驗證,無法攔截不合格的數(shù)據(jù)輸入到系統(tǒng)。分析數(shù)據(jù)質量應該從以上幾個方面進行考量,評估采集到的具體數(shù)據(jù)源,衡量數(shù)據(jù)源的質量,進而確定采用的ETL規(guī)則。

2 基于非監(jiān)控學習的數(shù)據(jù)清洗策略

2.1數(shù)據(jù)清洗

所謂數(shù)據(jù)清洗就是在檢測數(shù)據(jù)集中過程之后出現(xiàn)的錯誤和差異,并通過人工或者自動化工具將其刪除和修正,進而提升數(shù)據(jù)質量。

在對實例層次的數(shù)據(jù)進行清洗的過程中,即使通過模式轉化和集成取得了一致模式,在實例層上依舊需要對不一致性進行清除,關鍵是對缺損屬性修正,并進行相應的實體識別。處理缺損屬性時,主要是針對不確定信息的理論,對于不完全數(shù)據(jù),需要進行推理和相應的研究,并且提出合適的規(guī)則。在實體識別時,對于相同的實體,在不同的數(shù)據(jù)源的記錄中,有可能標識的主鍵是不同的,這些信息在內容上互為補充,可能存在冗余情況,嚴重時甚至會有互相矛盾的情況。

針對相似重復記錄的處理方式,筆者采用了非監(jiān)控的學習方法,以此來處理數(shù)據(jù)集中過程中的實體識別困難。非監(jiān)控學習是針對海量的、未標記的數(shù)據(jù)分析的聚類技術。主要目的是提供一系列類,而且要求相同類中數(shù)據(jù)的特性要保持一致,類別不同的數(shù)據(jù)要有明顯的、便于區(qū)分的差異。

2.2非監(jiān)控學習算法

這種學習方法主要包括競爭學習和增強式學習兩種方法。筆者在實體識別中總結出采用基于Hebbian假設的一種非監(jiān)控的學習算法。

由Hebbian的假設,神經(jīng)元的學習規(guī)則能夠用如下的函數(shù)進行表示:

表達式中的W為突觸權值向量,X表示輸入樣本向量,ψ()是可微函數(shù),α≥0是遺忘系數(shù)。神經(jīng)元的輸出為:

2.3非監(jiān)控學習算法性能測試

在對非監(jiān)控學習算法性能進行測試的過程中,設計了兩組數(shù)據(jù)。其中一組是系數(shù)σ=0.05服從高斯分布的測試數(shù)據(jù),另外一組是系數(shù)σ=0.5測試數(shù)據(jù)。結果是σ=0.05,數(shù)據(jù)相對集中,聚類邊界明顯;σ=0.5,數(shù)據(jù)不集中,聚類邊界不夠清晰。

因為從多數(shù)據(jù)源當中直接進行對象識別具有非常大的困難,所以我們可以把整個識別過程分成不同的階段來完成。

3 結論

在進行數(shù)據(jù)清洗操作中,利用非監(jiān)控學習算法處理在實體識別方面的問題,完成“相似重復記錄”的查詢,可以進一步提高清洗的準確程度。

參考文獻:

[1]Wand Y,Anchoring Wang R Y.Data Quality Dimensions In Ontological Foundations[J].Commun ACM39,1996,(11):86- 95.

[2]Strong Diane M,Lee Yang W,Wang Richard Y.Data Quality In Context[J].Commun ACM40,1997,(05):103- 110.

[3]郭志懋,周傲英(Guo Z.M., Zhou A.Y.).數(shù)據(jù)質量和數(shù)據(jù)清洗研究綜述(Research on Data Quality and Data Cleaning:a Survey)[J]軟件學報(Journal of Software),2002,13(11):2076- 2082.

中圖分類號:TP311.13

文獻標志碼:A

文章編號:1674- 8646(2016)02- 0044- 02

收稿日期:2015- 12- 19

猜你喜歡
數(shù)據(jù)庫
數(shù)據(jù)庫
財經(jīng)(2017年15期)2017-07-03 22:40:49
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
兩種新的非確定數(shù)據(jù)庫上的Top-K查詢
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
數(shù)據(jù)庫
財經(jīng)(2015年3期)2015-06-09 17:41:31
數(shù)據(jù)庫
財經(jīng)(2014年21期)2014-08-18 01:50:18
數(shù)據(jù)庫
財經(jīng)(2014年6期)2014-03-12 08:28:19
數(shù)據(jù)庫
財經(jīng)(2013年6期)2013-04-29 17:59:30
贵阳市| 镇雄县| 莎车县| 林周县| 湖南省| 博客| 南开区| 安化县| 大同市| 沂源县| 崇礼县| 右玉县| 安达市| 六盘水市| 正镶白旗| 阿巴嘎旗| 洪洞县| 榆社县| 西宁市| 磴口县| 洛南县| 叶城县| 夹江县| 汝城县| 南投市| 剑川县| 盐城市| 都兰县| 多伦县| 綦江县| 长宁区| 南投县| 乐平市| 长顺县| 麦盖提县| 桓台县| 乐昌市| 镇平县| 尉氏县| 沂南县| 芜湖市|