王爽 天津師范大學(xué) 天津 300387
引言
數(shù)據(jù)挖掘把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持服務(wù).大數(shù)據(jù)的出現(xiàn)在為人們提供研究樣本的同時,又由于數(shù)據(jù)質(zhì)量的參差不齊,為數(shù)據(jù)挖掘帶來了一定阻礙.以致于,數(shù)據(jù)挖掘之前的數(shù)據(jù)預(yù)處理顯得尤為重要.目前對數(shù)據(jù)挖掘的研究主要集中于挖掘技術(shù)、挖掘算法、挖掘語言等.而事實上數(shù)據(jù)挖掘?qū)λ幚淼臄?shù)據(jù)有嚴(yán)格的質(zhì)量要求.在數(shù)據(jù)挖掘過程中數(shù)據(jù)預(yù)處理至關(guān)重要.根據(jù)統(tǒng)計,在一個完整的數(shù)據(jù)挖掘過程中,數(shù)據(jù)預(yù)處理要花費60%左右的時間,而后的挖掘工作僅總工作量的10%左右.數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、集成、轉(zhuǎn)換和歸納.數(shù)據(jù)清理是處理數(shù)據(jù)中的遺漏和清洗臟數(shù)據(jù).數(shù)據(jù)集成將多數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行合并處理,解決語義模糊性并整合成一致的數(shù)據(jù)存儲.數(shù)據(jù)歸約將辨別出需要挖掘的數(shù)據(jù)集合,縮小處理范圍.
因為無法獲取或遺漏等原因造成某屬性值不存在,會導(dǎo)致在建模時丟失有用信息,空值數(shù)據(jù)也會使建模過程造成不可靠的輸出. 缺失值處理的有三種方法:直接使用含有缺失值的特征;刪除含有缺失值的特征,該方法在包含缺失值的屬性含有大量缺失值而僅僅包含極少量有效值時是有效的;缺失值補全.常見的缺失值補全方法包括均值插補、同類均值插補、建模預(yù)測、高維映射、多重插補、極大似然估計、壓縮感知和矩陣補全.目前最常用的方法是使用最可能的值填充缺失值,比如可以用回歸、貝葉斯形式化方法工具或判定樹歸納等確定缺失值.這類方法依靠現(xiàn)有的數(shù)據(jù)信息來推測缺失值,使缺失值有更大的機(jī)會保持與其他屬性之間的聯(lián)系.
異常值是數(shù)據(jù)集中偏離大部分?jǐn)?shù)據(jù)的數(shù)據(jù).從數(shù)據(jù)值上表現(xiàn)為:數(shù)據(jù)集中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的數(shù)據(jù),其中與平均值的偏差超過三倍標(biāo)準(zhǔn)差的數(shù)據(jù),稱為高度異常的異常值.異常值處理可以分為以下幾種:第一種,直接刪除異常值,這個方法的優(yōu)點是簡單易行.但缺點是在數(shù)據(jù)里少的情況下刪除會造成樣本量不足,直接刪除的記錄很可能會改變變量的原有分布,從而造成統(tǒng)計變量的原有分布,從而造成統(tǒng)計模型而不夠穩(wěn)定.第二種,暫且保留并,待結(jié)合整體模型綜合分析.第三種,均值或其他統(tǒng)計量取代.缺點是針對利用均值進(jìn)行建模的模型,用均值替代,客服丟失樣本的缺陷.但缺點是,利用均值替代方法丟失了樣本分布和特征.第四種,將其視為缺失值,利用統(tǒng)計模型填補.該方法可以利用現(xiàn)有變量的信息,對異常值增補.
數(shù)據(jù)集成是將來自多個數(shù)據(jù)源的數(shù)據(jù)合并在一起,形成一致的數(shù)據(jù)存儲,如將不同數(shù)據(jù)庫中的數(shù)據(jù)集成到一個數(shù)據(jù)倉庫中存儲.數(shù)據(jù)集成主要涉及冗余處理、模式集成和沖突數(shù)據(jù)檢測和處理.
(1)冗余處理:數(shù)據(jù)集成往往導(dǎo)致數(shù)據(jù)冗余,如同一屬性多次出現(xiàn)、同一屬性命名不一致等,對于屬性間冗余可以用相關(guān)分析檢測到,然后刪除;
(2)模式集成:涉及實體識別,即如何將不同信息源中的實體匹配來進(jìn)行模式集成.通常借助于數(shù)據(jù)庫或數(shù)據(jù)倉庫的元數(shù)據(jù)進(jìn)行模式識別;
(3)數(shù)據(jù)值沖突的檢測與處理:數(shù)據(jù)集成時將一個數(shù)據(jù)庫的屬性與另一個匹配時,要考慮數(shù)據(jù)的結(jié)構(gòu),用來保證原系統(tǒng)中的屬性函數(shù)依賴和參照約束與目標(biāo)系統(tǒng)中的匹配.
數(shù)據(jù)轉(zhuǎn)換是為了更高效率地數(shù)據(jù)挖掘,盡可能篩選更多具備實用價值的數(shù)據(jù),一般情況,數(shù)據(jù)預(yù)處理中的轉(zhuǎn)換技術(shù)采用平滑聚集、數(shù)據(jù)概化、語言修改等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式.數(shù)據(jù)預(yù)處理轉(zhuǎn)換技術(shù)能夠完成各類數(shù)據(jù)的轉(zhuǎn)換,不同格式、類型的數(shù)據(jù)均能有效地轉(zhuǎn)換成通用形式.
數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但是保持原始數(shù)據(jù)的完整性.也就是說,在歸約后的數(shù)據(jù)集上挖掘更有效果,仍然產(chǎn)生相同或幾乎形同的分析結(jié)果.數(shù)據(jù)歸約包括維歸約、數(shù)量歸約和數(shù)據(jù)壓縮.
(1) 維歸約:減少所考慮的隨機(jī)變量或?qū)傩缘膫€數(shù).維歸約方法包括小波變換和主成分分析,他們把原始數(shù)據(jù)變換或投影到較小的空間.屬性子集選擇是一種維歸約方法,其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測和刪除.
(2)數(shù)量歸約:用替代的、較小的數(shù)據(jù)表示形式替換原始數(shù)據(jù).
(3)數(shù)據(jù)壓縮:使用變換,以便得到原始數(shù)據(jù)的歸約或"壓縮"表示.如果原始數(shù)據(jù)可以從壓縮后的數(shù)據(jù)重構(gòu),而不損失信息,則該數(shù)據(jù)歸約稱為無損的.反之,稱之為有損的.維歸約和數(shù)量歸約也可以視為某種形式的數(shù)據(jù)壓縮.
在數(shù)據(jù)挖掘中,由于不同的數(shù)據(jù)源與數(shù)據(jù)挖掘目標(biāo),會有選擇的使用數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約等預(yù)處理方法和技術(shù).使用方式?jīng)]有先后順序,某一種預(yù)處理方法可循環(huán)多次使用,也有可能不需要使用.但數(shù)據(jù)預(yù)處理的方法和技術(shù)還不夠成熟,還需更進(jìn)一步深入研究.