国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究

2015-08-06 11:56:18
關(guān)鍵詞:數(shù)據(jù)挖掘預(yù)處理噪聲

胡 秀

(荊楚理工學(xué)院 計(jì)算機(jī)工程學(xué)院,湖北 荊門 448000)

1 引言

隨著科學(xué)技術(shù)不斷發(fā)展,計(jì)算機(jī)信息技術(shù)在各個(gè)領(lǐng)域中得到了廣泛應(yīng)用,尤其是在原材料采購、金融、通信等方面,數(shù)據(jù)存儲和數(shù)據(jù)處理等技術(shù)更是被各個(gè)企業(yè)用來記錄企業(yè)運(yùn)營過程中各種信息數(shù)據(jù)的記錄和處理,以方便日后的企業(yè)財(cái)務(wù)管理和信息核對等操作.隨著時(shí)間的推移,各個(gè)領(lǐng)域的不同企業(yè)的數(shù)據(jù)信息存儲量越來越大,過量信息的處理是各個(gè)信息處理行業(yè)不得不面對的問題.同時(shí)由于這些信息對于日后用戶信息分類、信息推送、企業(yè)的決策等方面起著非常重要的作用,不可能人為地刪減信息來減少數(shù)據(jù)處理工作量,所以如何從爆炸式的數(shù)據(jù)信息中及時(shí)地提取有用的數(shù)據(jù)進(jìn)而為企業(yè)的各種信息分類和決策提供合理、科學(xué)的數(shù)據(jù)決策依據(jù),已經(jīng)成為了我們當(dāng)前面臨的亟需解決的重要課題.為了能夠使海量數(shù)據(jù)成為寶貴的資源,必須采取數(shù)據(jù)挖掘技術(shù)手段,結(jié)合相關(guān)的業(yè)務(wù)決策和企業(yè)戰(zhàn)略發(fā)展計(jì)劃,才能使企業(yè)在經(jīng)濟(jì)全球化的浪潮中在競爭日益激烈的環(huán)境下奪得先機(jī)而立于不敗之地.

2 數(shù)據(jù)挖掘及其過程介紹

數(shù)據(jù)挖掘的英文名稱為Data Mining(DM),是從企業(yè)的大型關(guān)系型數(shù)據(jù)庫中或數(shù)據(jù)倉庫中提取一些人們感興趣的潛在有用的信息數(shù)據(jù)處理過程,是一門從大型關(guān)系型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的預(yù)測性信息的新技術(shù).

圖1 數(shù)據(jù)挖掘邏輯結(jié)構(gòu)示意圖

數(shù)據(jù)挖掘的數(shù)據(jù)來源是數(shù)據(jù)挖掘技術(shù)處理的大數(shù)據(jù),常見數(shù)據(jù)挖掘的數(shù)據(jù)來源于有關(guān)系型數(shù)據(jù)庫、事務(wù)型數(shù)據(jù)庫等,然后經(jīng)過一定的清理和集成的過程以數(shù)據(jù)倉庫的形式存儲起來,為數(shù)據(jù)挖掘提供數(shù)據(jù)源.數(shù)據(jù)挖掘的邏輯過程是利用人工智能的、機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘技術(shù)對源數(shù)據(jù)進(jìn)行數(shù)據(jù)處理并提取對企業(yè)決策有用的數(shù)據(jù)過程.數(shù)據(jù)挖掘的過程是一個(gè)完整的系統(tǒng),是結(jié)合了多項(xiàng)技術(shù)完整的一個(gè)整體.從數(shù)據(jù)源開始,根據(jù)數(shù)據(jù)的挖掘?qū)τ诖髷?shù)據(jù)處理的邏輯過程大致可以分為以下:目標(biāo)數(shù)據(jù)樣本的準(zhǔn)備、數(shù)據(jù)挖掘過程以及挖掘結(jié)果分為三級,包含多個(gè)處理步驟,如圖1.所示,為數(shù)據(jù)挖掘的邏輯過程結(jié)構(gòu)示意圖.

由圖1可知,整個(gè)數(shù)據(jù)挖掘的過程包括從最原始的數(shù)據(jù)開始數(shù)據(jù)選取的過程,這里的原始數(shù)據(jù)一般指的是存在企業(yè)各種信息管理數(shù)據(jù)庫中的海量數(shù)據(jù),是雜亂無章的、不能以專業(yè)的良好的形式展現(xiàn)出來的原始數(shù)據(jù).通數(shù)據(jù)選取的過程,主要是選擇能夠參與數(shù)據(jù)挖掘過程的數(shù)據(jù),從而生成目標(biāo)數(shù)據(jù).得到目標(biāo)數(shù)據(jù)之后,就需要對其進(jìn)行數(shù)據(jù)預(yù)處理的過程,囊括了數(shù)據(jù)清洗(Data Cleaning)、數(shù)據(jù)變換(Data Transformation)、數(shù)據(jù)集成(Data Integration)、數(shù)據(jù)簡化(Data Reduction)等數(shù)據(jù)處理過程,主要包括了消除噪聲數(shù)據(jù)、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、按成數(shù)據(jù)類型轉(zhuǎn)換等數(shù)據(jù)操作.得到預(yù)處理數(shù)據(jù)之后,就可以利用數(shù)據(jù)挖掘的技術(shù),對這些數(shù)據(jù)進(jìn)行智能挖掘和分類的過程,主要是基于某種思想,設(shè)計(jì)相應(yīng)的算法,最后通過對預(yù)處理之后的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘算法的處理,最終是生成而分類的數(shù)據(jù).當(dāng)然,這時(shí)數(shù)據(jù)挖掘的過程并沒有結(jié)束,這些數(shù)據(jù)只是以某種數(shù)據(jù)挖掘的思想進(jìn)行分類存儲,并沒有以具有現(xiàn)實(shí)意義的形式展現(xiàn)出來,所以此時(shí)還需要開發(fā)人員,基于自己的業(yè)務(wù)邏輯和需求,開發(fā)相應(yīng)的分析或評估功能,對數(shù)據(jù)挖掘之后的數(shù)據(jù)進(jìn)行形象顯示,從而形成對企業(yè)有用的知識.

3 數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中必不可少的一部分,進(jìn)行數(shù)據(jù)預(yù)處理過程的主要原因是因?yàn)閺脑紨?shù)據(jù)選取的目標(biāo)數(shù)據(jù),是以原有的數(shù)據(jù)庫初始定義的格式和結(jié)構(gòu)進(jìn)行存儲的數(shù)據(jù),存在很多空白數(shù)據(jù)、重復(fù)數(shù)據(jù)、復(fù)雜數(shù)據(jù)、不可用數(shù)據(jù)等,這些數(shù)據(jù)對于數(shù)據(jù)挖掘來說非常不適用,而且會增加數(shù)據(jù)挖掘的復(fù)雜度,所以需要數(shù)據(jù)預(yù)處理的過程來對目標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,從而生成預(yù)處理之后的數(shù)據(jù).由圖1.可以看出,數(shù)據(jù)預(yù)處理的過程對于數(shù)據(jù)挖掘來說是非常重要的,是為后期數(shù)據(jù)挖掘過程奠定堅(jiān)實(shí)基礎(chǔ)的過程.常見的數(shù)據(jù)預(yù)處理的過程包括,數(shù)據(jù)清洗(Data Cleaning)、數(shù)據(jù)變換(Data Transformation)、數(shù)據(jù)集成(Data Integration)、數(shù)據(jù)簡化(Data Reduction)等內(nèi)容.其中數(shù)據(jù)清洗(Data Cleaning)的主要操作就是在根據(jù)一定的原則和規(guī)定對目標(biāo)數(shù)據(jù)樣本進(jìn)行消除無關(guān)數(shù)據(jù)或者噪聲數(shù)據(jù)的操作,包括處理數(shù)據(jù)樣本內(nèi)的重復(fù)數(shù)據(jù)以及缺省數(shù)據(jù)等.數(shù)據(jù)變換(Data Transformation)的操作主要是對處理后的數(shù)據(jù)進(jìn)行降維處理,從而消除原始特征力度無效屬性,找到真正有用的特征,以方便后期數(shù)據(jù)挖掘的處理和計(jì)算.數(shù)據(jù)集成(Data Integration)的操作主要是合并目標(biāo)數(shù)據(jù)樣本內(nèi)存在的異構(gòu)數(shù)據(jù),主要包括數(shù)據(jù)的選擇、不同數(shù)據(jù)庫文件之間的數(shù)據(jù)沖突以及不一致等問題的處理操作.數(shù)據(jù)簡化(Data Reduction)的過程是在挖掘目標(biāo)的有用特征以及對數(shù)據(jù)自身內(nèi)容理解的基礎(chǔ)上,盡量保持目標(biāo)數(shù)據(jù)樣本原有的數(shù)據(jù)特性的基礎(chǔ)上,最大限度地對目標(biāo)數(shù)據(jù)樣本進(jìn)行精簡處理的過程,主要包括數(shù)據(jù)樣本的參考屬性選擇以及數(shù)據(jù)抽樣的數(shù)據(jù)處理.

3.1 數(shù)據(jù)預(yù)處理主要方法

數(shù)據(jù)預(yù)處理的主要方法是填充目標(biāo)數(shù)據(jù)缺失值、消弱噪聲數(shù)據(jù)、數(shù)據(jù)集成等.

在我們設(shè)計(jì)信息管理系統(tǒng)伊始,會考慮到各種各樣的問題,所以在設(shè)計(jì)數(shù)據(jù)存儲表時(shí)會牽涉到各方面的信息,而在實(shí)際的應(yīng)用過程中,之前設(shè)計(jì)的數(shù)據(jù)表的內(nèi)容有很多時(shí)候并未有實(shí)際的數(shù)據(jù),而是使用了缺失值存儲,如果這些數(shù)據(jù)作為數(shù)據(jù)挖掘處理,會帶來諸多不便,所以對于這些缺失值的處理,可以直接使用人工填寫的方法來彌補(bǔ)缺失值,或者用該字段的所有屬性值的均值,其他同類的屬性值,利用回歸或貝葉形式化的推理工具得出的最有可能值或最鄰近的值的來代替,從而對缺失值進(jìn)行填充彌補(bǔ),形成完成的數(shù)據(jù).

此外,在目標(biāo)數(shù)據(jù)中,統(tǒng)一類的屬性值可能有某些偏離正常數(shù)據(jù),這些數(shù)據(jù)我們稱之為噪聲數(shù)據(jù),對于噪聲數(shù)據(jù)的數(shù)據(jù)預(yù)處理也需要專門的方法或技術(shù)來對其進(jìn)行噪聲消除.常見的方法有分箱法,即對某一個(gè)區(qū)域內(nèi)的近鄰數(shù)據(jù)進(jìn)行觀察,從而形成局部噪聲消除;回歸法則是利用回歸函數(shù)找出某兩個(gè)屬性值的回歸線,通過一個(gè)屬性來對另外一個(gè)屬性進(jìn)行預(yù)測;中心點(diǎn)距離法就是計(jì)算目標(biāo)數(shù)據(jù)的該屬性值的平均值,然后計(jì)算所有數(shù)據(jù)對象與中心點(diǎn)的歐氏距離,并對其進(jìn)行排序,而后根據(jù)數(shù)據(jù)性質(zhì)和背景知識確定一個(gè)距離閾值,而與中心點(diǎn)距離大于該閾值的數(shù)據(jù)對象則為孤立點(diǎn).

在我們設(shè)計(jì)信息系統(tǒng)數(shù)據(jù)表時(shí),各個(gè)表格之間需要存在一些冗余來提高各個(gè)表之間的關(guān)聯(lián)性,方便信息系統(tǒng)的數(shù)據(jù)表的關(guān)聯(lián)查詢.這也就導(dǎo)致了在得到的目標(biāo)數(shù)據(jù)中,可能是因?yàn)閿?shù)據(jù)信息的相同或者業(yè)務(wù)邏輯數(shù)據(jù)信息的類似,會有一部分的數(shù)據(jù)信息冗余,這些冗余對于數(shù)據(jù)挖掘來說也是沒有必要的,或者最后需要數(shù)據(jù)挖掘的對象是來自不通數(shù)據(jù)庫內(nèi)容的信息,所以要通過數(shù)據(jù)集成的方法來對冗余數(shù)據(jù)或者不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)進(jìn)行集成.在使用數(shù)據(jù)集成的方法來對數(shù)據(jù)信息進(jìn)行預(yù)處理時(shí),需要考慮到以下問題,第一就是集成的模式與原數(shù)據(jù)對象之間的匹配度的問題,現(xiàn)實(shí)生活中的很多數(shù)據(jù)存儲的形式多種多樣,在數(shù)據(jù)庫存儲的格式、類型、形式也不盡相同,而統(tǒng)一業(yè)務(wù)數(shù)據(jù)在不同的數(shù)據(jù)庫之間存儲后,能否最終以一種統(tǒng)一的數(shù)據(jù)格式來存儲;第二個(gè)問題就是不同屬性之間的冗余度的問題,不同的屬性值之間是否冗余,是否需要?jiǎng)h除某個(gè)屬性值來使最終得到的數(shù)據(jù)最大化精簡.關(guān)于不同屬性之間的相關(guān)度,可以通過專門的公式進(jìn)行計(jì)算,假如判斷A屬性和B屬性兩者之間是否是相互冗余的,可以通過以下公式來計(jì)算.

其中,N為A或者B屬性值的個(gè)數(shù),ai或bi為A,B屬性的各個(gè)屬性值,A軍,B軍為 A,B屬性的平均值,σA和 σB分別為兩個(gè)屬性的標(biāo)準(zhǔn)差,屬性的叉積的和.根據(jù)上述公式對A,B兩種屬性進(jìn)行判斷,如果rA,B的值大于0,則說明二個(gè)屬性是正相關(guān),而且該值越大,這說明相關(guān)性越強(qiáng),也就說明A,B二者之間存在數(shù)據(jù)冗余,可以刪除其中一個(gè)屬性.

3.2 數(shù)據(jù)預(yù)處理過程

數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的一個(gè)前期過程,是一個(gè)完整的數(shù)據(jù)操作階段,上述的數(shù)據(jù)預(yù)處理的操作步驟和預(yù)處理方法都是在數(shù)據(jù)預(yù)處理過程中應(yīng)用到的.在整個(gè)數(shù)據(jù)預(yù)處理的過程中,首先需要得到目標(biāo)數(shù)據(jù),然后利用數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)簡化等數(shù)據(jù)挖掘的操作,利用填充缺失值、弱化噪聲數(shù)據(jù)、數(shù)據(jù)集成等數(shù)據(jù)預(yù)處理方法,來完成數(shù)據(jù)預(yù)處理的過程.整個(gè)過程的實(shí)施,可以通過人工檢查的方式來實(shí)現(xiàn),也可以通過編寫專門的數(shù)據(jù)預(yù)處理軟件來實(shí)現(xiàn),或針對某個(gè)特定區(qū)域或接近某一類應(yīng)用于的數(shù)據(jù)預(yù)處理問題等來實(shí)現(xiàn)數(shù)據(jù)預(yù)處理的前期操作.然后要遵循某種模式或者基于某種統(tǒng)計(jì)方法、識別方法等發(fā)現(xiàn)目標(biāo)數(shù)據(jù)中的異常數(shù)據(jù),同時(shí)對這些異常數(shù)據(jù)進(jìn)行處理,例如通過校驗(yàn)的方法來識別元素的一致性以及內(nèi)容上的錯(cuò)誤,通過觀察記錄來找出數(shù)據(jù)中的重復(fù)或異常的數(shù)據(jù)等.最后要對這些數(shù)據(jù)進(jìn)行記錄,并以檔案化的形式存儲起來,從而使用戶對數(shù)據(jù)有更加深刻的認(rèn)識.

4 總結(jié)

數(shù)據(jù)挖掘的過程是一個(gè)復(fù)雜的過程,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘中對目標(biāo)數(shù)據(jù)進(jìn)行預(yù)先處理的過程,為后期的數(shù)據(jù)挖掘過程奠定基礎(chǔ).主要的數(shù)據(jù)預(yù)處理操作包括數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)簡化等,并通過填充缺失值、弱化噪聲數(shù)據(jù)、數(shù)據(jù)集成等技術(shù)并給予專門的數(shù)據(jù)預(yù)處理的流程來實(shí)現(xiàn)數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理的過程.

〔1〕白鳳偉.數(shù)據(jù)預(yù)處理系統(tǒng)的幾個(gè)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].北京交通大學(xué),2012.

〔2〕羅錦坤.數(shù)據(jù)預(yù)處理關(guān)鍵技術(shù)應(yīng)用研究[J].福建電腦,2014.

〔3〕解二虎.數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理關(guān)鍵技術(shù)研究[J].科技通報(bào),2013(12).

猜你喜歡
數(shù)據(jù)挖掘預(yù)處理噪聲
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
噪聲可退化且依賴于狀態(tài)和分布的平均場博弈
控制噪聲有妙法
基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
絡(luò)合萃取法預(yù)處理H酸廢水
基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
一種基于白噪聲響應(yīng)的隨機(jī)載荷譜識別方法
东阿县| 壶关县| 潜江市| 宝丰县| 安吉县| 泽州县| 四川省| 万宁市| 花莲县| 莱西市| 沙河市| 怀集县| 比如县| 彩票| 吴江市| 蓝山县| 南康市| 徐闻县| 林周县| 任丘市| 乡宁县| 商水县| 随州市| 遂川县| 固阳县| 临城县| 德昌县| 江津市| 东海县| 波密县| 赫章县| 福清市| 中宁县| 汉川市| 屏东市| 无锡市| 定安县| 台南市| 普陀区| 拜泉县| 锡林郭勒盟|