楊家娥
摘 要:信息時代的來臨,對大數(shù)據(jù)的檢測和識別提出更高的要求,如檢測精度更高和檢測代價低廉。而傳統(tǒng)的重復(fù)記錄檢測方法其特征屬性繁多,數(shù)據(jù)源組成更為繁瑣,導(dǎo)致檢測精度不足和檢測代價高昂問題的出現(xiàn)。為此,本文探索分析了相似重復(fù)記錄檢測的特征優(yōu)選方案,從分組模糊聚類的原理出發(fā),對相似重復(fù)幾率的組內(nèi)計算方法進行剖析,探究其在大數(shù)據(jù)集中檢測精度和識別認識方面的優(yōu)勢。
關(guān)鍵詞:特征優(yōu)選;相似重復(fù)記錄;模糊聚類;相似度;策略
依據(jù)相關(guān)的研究文獻,可以發(fā)現(xiàn)傳統(tǒng)重復(fù)記錄檢測方法基于排序和組合的思想,對大數(shù)據(jù)進行識別和檢測,如優(yōu)先隊列技術(shù)、兩字符串距離指標計算技術(shù)、數(shù)據(jù)清洗識別技術(shù)、滑動窗口技術(shù)等。所有這些重復(fù)記錄檢測技術(shù)的原理基本一致,在實際應(yīng)用中存在檢測精度不足且實施檢測的成本高昂。如優(yōu)先隊列技術(shù)在應(yīng)用過程中篩選具有代表性的記錄能力不足;滑動窗口技術(shù)是基于相似重復(fù)記錄的傳遞性基礎(chǔ)上導(dǎo)致檢測精確度不足等等。面對傳統(tǒng)相似重復(fù)記錄檢測方法的不足和漏洞,一種的新的基于分組模糊聚類的記錄特征屬性優(yōu)選方法表現(xiàn)出其具有非常強的優(yōu)勢和彌補性。此種方法基于模糊聚類壓縮記錄的基礎(chǔ)上,對組內(nèi)具有代表性的記錄進行篩選,利用組內(nèi)相似度比較的算法對重復(fù)記錄進行有效的檢測和識別。這一理論具有完善的基礎(chǔ)理論體系,利用先進的理論分析方法和精確的設(shè)計思路,在實踐應(yīng)用中表現(xiàn)出高檢測精確度和低檢測成本的優(yōu)勢。
1 特征優(yōu)選的分組聚類的實現(xiàn)過程
1.1 記錄分組與組內(nèi)記錄屬性處理過程
就目前的相關(guān)研究而言,關(guān)鍵字屬性排序分組方法已經(jīng)成為幾率分組和聚集的應(yīng)用最為多的方法,這也是相似重復(fù)記錄檢測的初始步驟。關(guān)鍵字屬性排序分組方法對記錄的屬性值進行分割,形成大小適中的原字串,然后對每一個原子串進行數(shù)字化編碼,以正序和逆序編碼排序為原則,利用關(guān)鍵屬性對記錄進行排序,然后將具有相同的正序和逆序排列合并為一組。以此減少記錄分組過程中的誤差或者錯誤的出現(xiàn),如在關(guān)鍵屬性輸入錯誤的情況下,正序和逆序排列可能存在不一致性,導(dǎo)致記錄分組不在同一組別內(nèi)。
1.2 大數(shù)據(jù)集組內(nèi)屬性的處理
1.2.1 組內(nèi)無關(guān)屬性的處理方法
大數(shù)據(jù)集組內(nèi)屬性受特征屬性的影響,特征屬性越典型,分組越精確,越不典型,分組誤差越大。因此,對組內(nèi)每個記錄進行處理時,應(yīng)確保每一個維度上的特征屬性值都呈現(xiàn)高斯分布,將記錄的特征屬性值聚集在均值附近,以此減少偏差。特征屬性值越是聚集于均值附近,說明其越典型;反之則代表誤差過大,對分組越不利,即屬于分組無關(guān)的屬性。其衡量標準可以用下式驗證:
某一維屬性值同其均值偏差的表示方式,即其屬性方差:
其中 —— 代表第j維屬性的均值,P代表記錄的屬性維數(shù)。
1.2.2 組間特征屬性處理
所謂的典型特征的選擇,也即是對存在于組內(nèi)的且對分組無關(guān)的屬性進行刪除。這一選擇過程也即是組間特征屬性的處理過程。在記錄檢測過程中,對記錄集中最優(yōu)的特征屬性進行選取,避免因存在大量的相關(guān)屬性而影響記錄分組的精確度,降低重復(fù)記錄檢測的可分性。為此,組間特征屬性的處理可以利用算法進行處理。首先對特征屬性的數(shù)目進行自動確定,利用組間特征屬性之間的距離和相似矢量對其相似性進行處理。其次,借助聚類分析的方法,利用FCM對自動確定的特征屬性進行壓縮,其中FCM的算法如下:
其中FCM表示模糊C均值聚類算法,c=q。
對具有相似性的特征屬性的維度進行壓縮,有利于篩選出組內(nèi)最具有代表性的記錄,提高了相似重復(fù)記錄的識別精度。
2 組內(nèi)相似重復(fù)記錄的檢測
在組內(nèi)具有代表性記錄獲取之后,檢測重復(fù)記錄成為最關(guān)鍵性的工作?;诜纸M模糊聚類的相似度計算方法,可以對實際的記錄組內(nèi)的每個屬性值進行分割,每一個屬性值的集合其元素則是由分割而得到的原子串。在進行原子串分割、集合、編碼過程中,可充分利用中、西方文字進行混合使用,從而最大程度的降低因記錄輸入而出現(xiàn)的拼寫或者所寫錯誤,避免其對重復(fù)記錄檢測的影響。利用算法對不同記錄的相似度進行檢測,刪除超過閾值的幾率,最后檢測出記錄較為集中的記錄。其應(yīng)用到的算法如下:
其中 中 表示是原子串a(chǎn)與 原子串匹配的分值, 介于0到1之間。 的屬性長度為 ,其數(shù)量為m。
通過分析,我們了解到基于分組模糊聚類的相似重復(fù)記錄檢測的特征優(yōu)選方案,相比于傳統(tǒng)的排列和合并檢測方法具擁有檢測精度高、實施檢測成本低的特征。新的特征優(yōu)選方案對組間和組內(nèi)的特征屬性進行分組壓縮,降低其屬性的維數(shù),一方面利用FCM方法自動確定特征屬性的數(shù)量,最后將具有代表性的記錄與其他記錄進行比較,從而大大提高檢測的精度。
[參考文獻]
[1]宏圓,孫未未,施伯樂.一種使用雙閾值的數(shù)據(jù)倉庫環(huán)境下重復(fù)記錄消除算法[J].計算機工程與應(yīng)用,2005.41(1):168—171.
[2]李星毅,包從劍,施化吉.數(shù)據(jù)倉庫中的相似重復(fù)記錄檢測方法[J].電子科技大學學報,2007,36(6):1273-1277.