唐成龍,諶 頏,唐海春,吳澤鋒
(1廣州理工學(xué)院 廣東 廣州 510540)
(2廣州科技貿(mào)易職業(yè)學(xué)院 廣東 廣州 511442)
在經(jīng)濟(jì)快速發(fā)展的背景下,各類新進(jìn)技術(shù)相繼興起應(yīng)用,以云計(jì)算、大數(shù)據(jù)為代表應(yīng)用頻次最高,其內(nèi)部蘊(yùn)含的價(jià)值不可估測(cè)?,F(xiàn)下海量數(shù)據(jù)高效處理,對(duì)目前技術(shù)應(yīng)用提出新的要求,為進(jìn)一步高效、及時(shí)獲取數(shù)據(jù)信息中有效信息,需選取高速分析處理技術(shù),對(duì)數(shù)據(jù)進(jìn)行系統(tǒng)性分析優(yōu)化升級(jí)。數(shù)據(jù)預(yù)處理工作是數(shù)據(jù)分析、挖掘前重要準(zhǔn)備工作,選取科學(xué)處理方式,是保證最終數(shù)據(jù)質(zhì)量及有效性舉措。有必要分析加大數(shù)據(jù)預(yù)處理方式研究,提高數(shù)據(jù)預(yù)處理水平。
現(xiàn)下數(shù)據(jù)信息爆發(fā)式增長(zhǎng),為快速?gòu)暮A繑?shù)據(jù)中提取有價(jià)值信息,應(yīng)選取有效技術(shù)措施,做好數(shù)據(jù)預(yù)處理工作,增強(qiáng)數(shù)據(jù)有效性。數(shù)據(jù)預(yù)處理作為數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)過程核心環(huán)節(jié)之一,加強(qiáng)數(shù)據(jù)預(yù)處理價(jià)值體現(xiàn)在以下幾方面:(1)海量原始數(shù)據(jù)中通常包含以下特征:①不完整。屬性值或僅包含聚離數(shù)據(jù);②含噪音。數(shù)據(jù)內(nèi)部含有錯(cuò)誤或存在偏離預(yù)期分散數(shù)值;③不一致。數(shù)據(jù)記錄規(guī)范性和邏輯性與其他數(shù)據(jù)未實(shí)現(xiàn)統(tǒng)一化,缺乏一定科學(xué)性。由于上述問題存在,人們使用數(shù)據(jù)過程中對(duì)其具有完整性、時(shí)效性及可靠性要求,所以需加強(qiáng)數(shù)據(jù)預(yù)處理,保證達(dá)成上述目標(biāo),為人們提供良好的服務(wù)。(2)由于數(shù)據(jù)采集規(guī)模較大,數(shù)據(jù)預(yù)處理通常需耗損大量時(shí)間,高質(zhì)量決策依附于可靠度較高的數(shù)據(jù),從實(shí)際中獲取數(shù)據(jù)大多結(jié)構(gòu)不一致、完整性不足等,無法實(shí)現(xiàn)直接利用目標(biāo)。因此,需加強(qiáng)數(shù)據(jù)預(yù)處理,提高數(shù)據(jù)自身質(zhì)量,為后續(xù)決策的正確性奠定良好基礎(chǔ)。
由于數(shù)據(jù)種類及組織模式呈現(xiàn)為多元化,內(nèi)部關(guān)聯(lián)性較為復(fù)雜,且數(shù)據(jù)質(zhì)量不盡相同,造成數(shù)據(jù)解讀、分析多個(gè)環(huán)節(jié)中存在部分不足。因此,數(shù)據(jù)預(yù)處理作為數(shù)據(jù)分析、挖掘的重要準(zhǔn)備工作,通過應(yīng)用數(shù)據(jù)預(yù)處理措施,初期將海量數(shù)據(jù)中與最終挖掘、決策相關(guān)性較低的數(shù)據(jù)去除,為挖掘算法提供可靠性較高的數(shù)據(jù)信息。數(shù)據(jù)挖掘前提條件是應(yīng)保證數(shù)據(jù)可靠性,去除其中“臟數(shù)據(jù)”,主要包含缺失數(shù)據(jù)、不確定數(shù)據(jù)等,對(duì)其進(jìn)行預(yù)處理的方法,主要包含以下幾方面。
采取高效的技術(shù)措施檢測(cè)原始數(shù)據(jù)質(zhì)量,判定其是否存在錯(cuò)誤、不一致等,選取各類清洗處理技術(shù),將數(shù)據(jù)進(jìn)行清洗,提高數(shù)據(jù)可靠性。數(shù)據(jù)清洗技術(shù)內(nèi)容較多,若想獲取良好的數(shù)據(jù)清洗成效,應(yīng)首先明確“臟數(shù)據(jù)”種類及形成因素,將其進(jìn)行處理,轉(zhuǎn)變?yōu)樗钄?shù)據(jù)。隨著信息業(yè)和商業(yè)高速發(fā)展,進(jìn)一步促進(jìn)數(shù)據(jù)清洗技術(shù)的良好發(fā)展。
3.1.1 重復(fù)數(shù)據(jù)的清洗
為從本質(zhì)層面保證數(shù)據(jù)分析、挖掘速度和精準(zhǔn)度,需將原始數(shù)據(jù)中疊加重復(fù)數(shù)據(jù)進(jìn)行去除,以免對(duì)數(shù)據(jù)分析最終結(jié)果造成干擾。初期數(shù)據(jù)中存在兩個(gè)或超過兩個(gè)實(shí)例,則將其視為重復(fù)數(shù)據(jù)。為高效、及時(shí)確定數(shù)據(jù)重復(fù),一般選取的措施為逐一將每一個(gè)實(shí)例進(jìn)行比較,確定與其相吻合的實(shí)例。為掌握實(shí)例中數(shù)據(jù)自身屬性,可通過統(tǒng)計(jì)學(xué)進(jìn)行檢測(cè),按照不同數(shù)值型屬性均值和標(biāo)準(zhǔn)方差值,布設(shè)相應(yīng)的屬性區(qū)間,并與上述數(shù)據(jù)一一對(duì)應(yīng),辨識(shí)數(shù)據(jù)集合中重復(fù)記錄,及時(shí)將重復(fù)數(shù)據(jù)去除。針對(duì)上述疊加數(shù)據(jù)通常選用相似度計(jì)算,以其作為去除準(zhǔn)則,判定數(shù)據(jù)相似度是否滿足要求。將兩條記錄相似度進(jìn)行比較,其數(shù)值超出一定限值,則判定兩條記錄吻合,反之兩者屬于不同實(shí)體[1]。
3.1.2 缺失數(shù)據(jù)清洗
完善缺失數(shù)據(jù)作為數(shù)據(jù)清洗過程中面臨的又一瓶頸,實(shí)際數(shù)據(jù)采集過程中,因人為操作不當(dāng)致使信息可靠性喪失等,造成數(shù)據(jù)內(nèi)容缺乏一定的完整性,會(huì)對(duì)抽取模式精準(zhǔn)性和導(dǎo)出標(biāo)準(zhǔn)造成一定干擾。錯(cuò)誤數(shù)據(jù)挖掘模型應(yīng)用于決策端口時(shí),會(huì)造成結(jié)果與決策偏離正確軌道,造成嚴(yán)重?fù)p失。針對(duì)缺失數(shù)據(jù)清洗,其選取方式包含兩方面:一方面,忽略缺失數(shù)據(jù)。原始數(shù)據(jù)收集、整理過程中,受多方面因素影響,造成部分?jǐn)?shù)據(jù)屬性不完善,為避免其對(duì)整個(gè)數(shù)據(jù)群造成影響,需選取忽略刪除方式去除。數(shù)據(jù)整體規(guī)模較小,且完整性數(shù)據(jù)較少條件下,一般選用該方式進(jìn)行數(shù)據(jù)清洗,此種方式應(yīng)用效率較高。若數(shù)據(jù)集合規(guī)模較大,一經(jīng)刪除部分記錄之后,造成后續(xù)數(shù)據(jù)規(guī)??s小,構(gòu)建模型典型性和適用性無法凸顯,可靠性降低。此外,刪除缺失數(shù)據(jù)過程中,可能將原有有價(jià)值數(shù)據(jù)去除,進(jìn)而對(duì)后續(xù)數(shù)據(jù)挖掘、模型構(gòu)建造成干擾,最終挖掘成果可靠性不佳,易對(duì)最終決策有所干擾。另一方面,基于填充技術(shù)缺失值插補(bǔ)算法。上述刪除法應(yīng)用過程中存在一定局限性,所以被應(yīng)用選擇頻次較低。為填充原始數(shù)據(jù)缺失內(nèi)容,可選取最接近缺失值替代,保證數(shù)據(jù)挖掘質(zhì)量及可靠性。填充方法存留原有潛在價(jià)值數(shù)據(jù),構(gòu)建最終模擬更具可靠性,為決策提供高質(zhì)量信息數(shù)據(jù)。
3.1.3 噪聲數(shù)據(jù)處理
數(shù)據(jù)正式挖掘之前,通常將數(shù)據(jù)設(shè)定為理想狀態(tài),但現(xiàn)實(shí)生活中收集、整理數(shù)據(jù)過程中,受多重因素干擾,會(huì)產(chǎn)生一定的噪音數(shù)據(jù),即“離群點(diǎn)”。由于噪聲數(shù)據(jù)偏離正確數(shù)據(jù)范圍內(nèi),難以保證最終數(shù)據(jù)分析、挖掘成果,影響其后續(xù)挖掘結(jié)果準(zhǔn)確性。一般常用消除噪聲數(shù)據(jù)方式包含兩種:(1)分箱法。將預(yù)處理數(shù)據(jù)分散至不同箱子中,以周圍實(shí)際平滑噪聲數(shù)據(jù)為基準(zhǔn),將其劃分為兩種類型。依照平均數(shù)值進(jìn)行平滑,提取平均數(shù)值,并將其作為整個(gè)箱子中數(shù)據(jù)代表值;按照中位數(shù)平滑,與上述方式相同;根據(jù)箱邊界平滑,定義箱邊界是箱中最大和最小數(shù)值。(2)噪聲過濾。選用聚類方法對(duì)離群點(diǎn)進(jìn)行分析、過濾。噪聲過濾中,常用算法主要包含EF算法、IPF算法[2]。
數(shù)據(jù)集成過程作為一項(xiàng)復(fù)雜性工作,主要將多文件或數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行整合匯總處理,從本質(zhì)層面消除語義的模糊性。數(shù)據(jù)變換主要是對(duì)原有數(shù)據(jù)進(jìn)行分析,掌握其特點(diǎn)規(guī)律,選取維變換或轉(zhuǎn)化方式,減少數(shù)據(jù)中有效量數(shù)目。數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)化為吻合數(shù)據(jù)挖掘需求各種形式,依照實(shí)際應(yīng)用數(shù)據(jù)挖掘算法,確定使用數(shù)據(jù)轉(zhuǎn)換具體方式。通常數(shù)據(jù)轉(zhuǎn)換方式較多,應(yīng)依照數(shù)據(jù)屬性實(shí)際狀況,選取科學(xué)、合理數(shù)據(jù)處理措施,如函數(shù)變換、數(shù)據(jù)規(guī)范化等,規(guī)范化有助于數(shù)據(jù)實(shí)現(xiàn)合理劃分類別,以及避免對(duì)度量單位依賴性。
數(shù)據(jù)歸納主要是對(duì)發(fā)現(xiàn)任務(wù)和數(shù)據(jù)自身解讀層面,探尋數(shù)據(jù)中表達(dá)特征,以此實(shí)現(xiàn)縮減數(shù)據(jù)模型,進(jìn)而保證數(shù)據(jù)原有形貌同時(shí)最大限度簡(jiǎn)化數(shù)據(jù)量,保證大數(shù)據(jù)挖掘更具高效性。數(shù)據(jù)規(guī)約包含兩種方式,即維規(guī)約、數(shù)量規(guī)約。數(shù)據(jù)規(guī)約過程中包含關(guān)鍵技術(shù)如下:(1)高維數(shù)據(jù)降維處理。數(shù)據(jù)規(guī)約過程中重點(diǎn)內(nèi)容是高效減少數(shù)據(jù)數(shù)量,提取其特性核心目的在于其是否可準(zhǔn)確展示相關(guān)問題屬性,且將多余屬性去除,保證其學(xué)習(xí)高效性增強(qiáng)。(2)實(shí)例歸納。現(xiàn)階段使用頻次較高的減少數(shù)據(jù)方式為實(shí)例規(guī)約方式,實(shí)現(xiàn)數(shù)據(jù)減少目標(biāo)同時(shí),保證數(shù)據(jù)處理質(zhì)量。應(yīng)用自動(dòng)生成實(shí)例方法,進(jìn)而降低數(shù)據(jù)宏觀整體規(guī)模,其包含技術(shù)較多,如實(shí)例選擇、實(shí)例生成等。實(shí)例選擇主要是生成一個(gè)最小數(shù)據(jù)集,將噪聲數(shù)據(jù)等多余數(shù)據(jù)去除,獨(dú)立之后進(jìn)行數(shù)據(jù)挖掘算法;實(shí)例生成主要是構(gòu)建多種實(shí)際案例,涉及相關(guān)算法包含LVQ。(3)離散化技術(shù)。數(shù)據(jù)離散化之前,需估測(cè)離散型數(shù)據(jù)整體規(guī)模,隨后將其數(shù)據(jù)按照一定順序排列,明確多個(gè)分裂點(diǎn)將數(shù)據(jù)劃分為多個(gè)區(qū)間。將處于同一區(qū)域內(nèi)全部連續(xù)性數(shù)據(jù),選取統(tǒng)一性方式匹配值相同離散型數(shù)據(jù)上。按照分裂點(diǎn)認(rèn)定方式不同,離散化主要?jiǎng)澐譃閮煞N方式,即自頂向下、自底向上。(4)不平衡學(xué)習(xí)。利用機(jī)器進(jìn)行學(xué)習(xí)形成數(shù)據(jù)模型過程中,針對(duì)不同種類數(shù)據(jù)集成上形成良好的差異。其中,多數(shù)標(biāo)準(zhǔn)分類學(xué)習(xí)算法會(huì)傾向于實(shí)例,對(duì)少數(shù)實(shí)例予以忽視。數(shù)據(jù)預(yù)處理相關(guān)技術(shù)可有效避免類型分布不均衡狀況,核心方式包含兩種,即欠采樣方法、過度采樣方法,前者是抽樣創(chuàng)建初期數(shù)據(jù)子集作為數(shù)據(jù)挖掘,建議將大多實(shí)例去除;后者實(shí)際抽樣過程中復(fù)制大量相同實(shí)例[3]。
多數(shù)方法可在數(shù)據(jù)清理和規(guī)約中應(yīng)用,且兩者在整合數(shù)據(jù)預(yù)處理過程中更為重要,特別是整個(gè)數(shù)據(jù)規(guī)約流程。原有應(yīng)用統(tǒng)計(jì)學(xué)對(duì)數(shù)據(jù)進(jìn)行處理時(shí),基于概率論下,以設(shè)計(jì)試驗(yàn)方法最終獲取相關(guān)數(shù)據(jù),從而保證數(shù)據(jù)吻合相關(guān)形成模型。數(shù)據(jù)挖掘面臨的是大規(guī)模數(shù)據(jù),數(shù)量、變量數(shù)較大,數(shù)據(jù)間關(guān)系較為復(fù)雜,兩者存在目標(biāo)相同,選取推導(dǎo)掌握整體數(shù)據(jù)規(guī)律,是統(tǒng)計(jì)學(xué)實(shí)施核心方式,數(shù)據(jù)挖掘更強(qiáng)調(diào)對(duì)整體規(guī)律分析。由上述分析獲知,掌握兩者間存在差異性,具體應(yīng)用過程中,掌握數(shù)據(jù)挖掘中數(shù)據(jù)特征,綜合應(yīng)用多學(xué)科知識(shí),高效融合統(tǒng)計(jì)學(xué)方法。
針對(duì)未來數(shù)據(jù)預(yù)處理方式改善建議如下:首先,注重?cái)?shù)據(jù)預(yù)處理應(yīng)與專業(yè)知識(shí)與知識(shí)應(yīng)用融合,且應(yīng)始終貫穿于數(shù)據(jù)預(yù)處理各環(huán)節(jié)中。其次,原始數(shù)據(jù)源獲取是數(shù)據(jù)預(yù)處理重要節(jié)點(diǎn),需嚴(yán)控其預(yù)處理各環(huán)節(jié)質(zhì)量,保證數(shù)據(jù)處理高效性及可靠性。最后,應(yīng)積極推行倡導(dǎo)對(duì)數(shù)據(jù)預(yù)處理實(shí)現(xiàn)循環(huán)模式[4]。
大數(shù)據(jù)時(shí)代背景下,各類先進(jìn)技術(shù)應(yīng)用于多個(gè)領(lǐng)域行業(yè)中,有助于推動(dòng)數(shù)據(jù)預(yù)處理方法提升和擴(kuò)展。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘基礎(chǔ)保證,通過高質(zhì)量數(shù)據(jù)預(yù)處理工作,將其中多余數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)等去除,及時(shí)填充缺失數(shù)據(jù),實(shí)現(xiàn)必需數(shù)據(jù)集成匯總,保證數(shù)據(jù)質(zhì)量可靠性,為決策提供完整、高效數(shù)據(jù)。