孔潔+劉楊
摘要:隨著時代的發(fā)展,人們對有價值的數(shù)據(jù)需求越來越迫切,因此,需要一種新的技術(shù)來處理大量的數(shù)據(jù)數(shù)據(jù),并從中抽取我們需要的信息。數(shù)據(jù)挖掘技術(shù)是一門涉及面很廣的學(xué)科,綜合了統(tǒng)計學(xué)的方法,同時又超越了傳統(tǒng)意義上的統(tǒng)計分析。數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)當(dāng)中,通過運(yùn)用技術(shù)手段,提煉出我們所需要的有用的數(shù)據(jù)的過程。該文介紹了數(shù)據(jù)挖掘技術(shù)的基本概念、數(shù)據(jù)挖掘的功能以及數(shù)據(jù)挖掘的常用的技術(shù)。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;OLAP
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)32-0009-02
1 什么是數(shù)據(jù)挖掘
數(shù)據(jù)挖掘就是通過一定的技術(shù)來分析大量的數(shù)據(jù),從中找出對我們有用的數(shù)據(jù)的過程,即從存放在數(shù)據(jù)庫中的數(shù)據(jù)中獲取有效的、有價值、最終能被我們所利用的數(shù)據(jù)。若我們在一個網(wǎng)站買書,系統(tǒng)會根據(jù)我們近期所購買的書的記錄進(jìn)行分析,然后在我們下次登錄該網(wǎng)站時,自行向我們推薦其他類型的書籍,這里就是用到了數(shù)據(jù)挖掘的理論和方法。
2 數(shù)據(jù)挖掘的功能
1) 分類
所謂分類就是按照分析對象的特征,建立類組。也就是說分類就是它所預(yù)測的結(jié)果是一個類別而不是一個具體的數(shù)。比如:我猜你是四川人,這個就是分類問題。在商業(yè)案例中分類問題很多,再比如通過銀行的一個客戶信息,可以預(yù)測一下他是否會購買基金,大概的數(shù)額;他是否會辦信用卡等等。
2) 聚類
面對海量的數(shù)據(jù),首先分類,然后是聚類,屬性接近的劃歸為一類,合理歸類以后,每一類有自己的特征。聚類問題主要解決把一定范圍內(nèi)的對象劃分為若干個組。它的特點(diǎn)是根據(jù)所選的目標(biāo)來進(jìn)行劃分。比如:銀行的客戶,我們首先選定幾個指標(biāo):年收入、年齡、性別等,然后對他們進(jìn)行劃分,特征相似的為一類,特征不同的分屬不同的類。
3) 估計與預(yù)測
估計就是根據(jù)已有的長期積累的數(shù)據(jù)來推測未知的信息,例如銀行根據(jù)信用卡申請人的單位性質(zhì)、年齡、性別等信息推算他的消費(fèi)水平。所使用的技術(shù)有統(tǒng)計方法中的相關(guān)分析、回歸分析等等。所謂預(yù)測就是根據(jù)對象屬性的過去值預(yù)測他的未來值。比如:通過查看一個持卡人以往的消費(fèi)值來預(yù)測他今后的消費(fèi),使用的技術(shù)包括回歸分析、時間序列分析等。
4) 關(guān)聯(lián)
就是找出在一個事件中同時出現(xiàn)的事情,確定那些相關(guān)的對象應(yīng)該放在一起。
5) 描述
描述的就是對復(fù)雜的數(shù)據(jù)庫提供簡單明了的說明,描述的主要目的是對數(shù)據(jù)先有個了解,這樣有助于怎樣去建模。
3 數(shù)據(jù)挖掘的主要方法
1) 決策樹法
決策樹是一種對實例進(jìn)行分類的樹形結(jié)構(gòu),由節(jié)點(diǎn)和有向邊組成。節(jié)點(diǎn)的類型有2種:內(nèi)部節(jié)點(diǎn)和葉子節(jié)點(diǎn)。內(nèi)部節(jié)點(diǎn)一般表示一個特征或?qū)傩缘臏y試條件,葉子節(jié)點(diǎn)則表示一個分類。
當(dāng)我們構(gòu)造了一個決策樹模型,以它為基礎(chǔ)來進(jìn)行分類是很容易的。具體就是:從根節(jié)點(diǎn)開始,按照實例的某一特征進(jìn)行測試,根據(jù)測試結(jié)構(gòu)將實例分配到子節(jié)點(diǎn),當(dāng)沿著該分支可能到達(dá)葉子節(jié)點(diǎn)或到達(dá)另一個內(nèi)部節(jié)點(diǎn)時,就使用新的測試條件遞歸執(zhí)行下去,直到到達(dá)一個葉子節(jié)點(diǎn)。當(dāng)?shù)竭_(dá)葉子節(jié)點(diǎn)時,就得到了最終的分類結(jié)果。
決策樹它是一種建立在信息論基礎(chǔ)之上的對數(shù)據(jù)分類的一種方法。具體就是:通過已知的一批樣本數(shù)據(jù)建立一棵決策樹,然后利用已經(jīng)建好的決策樹來對數(shù)據(jù)進(jìn)行預(yù)測。決策樹的建立過程我們可以看做是數(shù)據(jù)規(guī)則的生成過程。決策樹方法精確度高,效率也高,比較常用。
決策樹法是目前應(yīng)用非常廣泛的一種邏輯方法,生成決策樹一個著名的算法是C4.5算法。
2) 神經(jīng)網(wǎng)絡(luò)法
神經(jīng)網(wǎng)絡(luò)它是建立在數(shù)學(xué)模型之上的,我們通過對大量的、復(fù)雜的數(shù)據(jù)進(jìn)行分析研究,可以完成非常復(fù)雜的趨勢分析。神經(jīng)網(wǎng)絡(luò)系統(tǒng)它是由一系列類似于人腦神經(jīng)元的處理單元構(gòu)成的,我們稱之為節(jié)點(diǎn)。這些節(jié)點(diǎn)可以通過網(wǎng)絡(luò)進(jìn)行互聯(lián)。如果有數(shù)據(jù)輸入,就可以確定數(shù)據(jù)模式的工作。
3) 關(guān)聯(lián)規(guī)則法
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘技術(shù)中的一種技術(shù),它是一種非常簡單但很實用的一種規(guī)則,描述了一個事物如果某些屬性同時出現(xiàn)的規(guī)律。關(guān)聯(lián)規(guī)則分析就是根據(jù)一定的可信度、支持度等建立相關(guān)規(guī)則,可以幫助很多商務(wù)決策的制定。
4) 聚類分析法
聚類分析就是把一組信息按照相似度歸成若干類別。聚類方法包括統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)法和面向數(shù)據(jù)庫法等方法。聚類分析具體說就是依據(jù)樣本或變量之間關(guān)聯(lián)的量度標(biāo)準(zhǔn)將其自動分為幾個組,并且同一個群內(nèi)樣本相似,而不同組之間的樣本相異。
5) 遺傳算法
遺傳算法它是一種基于生物進(jìn)化論和分子遺傳學(xué)的算法,第一步,將問題的所有可能解按照某種方式進(jìn)行編碼;第二步,從中隨機(jī)地選取M個染色體作為初始種群;第三步,根據(jù)預(yù)定的評價函數(shù)對每個染色體計算適應(yīng)值,然后選擇適應(yīng)值較高的染色體進(jìn)行復(fù)制;最后通過遺傳算子生成新的能夠更好適應(yīng)環(huán)境的染色體,從而生成新的種群,直到最后成為一個最適應(yīng)環(huán)境的個體,得到問題的最優(yōu)解。
6) 聯(lián)機(jī)分析處理(OLAP)法
聯(lián)機(jī)分析處理就是通過多維的方式對數(shù)據(jù)進(jìn)行分析、查詢和報表。它主要用來完成用戶的事物處理,比如銀行儲蓄等。需要進(jìn)行大量的更新操作,對響應(yīng)時間要求高。
聯(lián)機(jī)分析處理它的核心概念是“維”,它支持?jǐn)?shù)據(jù)分析人員和決策人員從不同的角度、不同的級別對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行復(fù)雜查詢和多維分析處理,以直觀形象的方式將查詢和分析的結(jié)果反饋給決策人員。OLAP使用的模型是多維數(shù)據(jù)模型,主要用于分析大量的歷史數(shù)據(jù),提供匯總和聚集機(jī)制,訪問多是只讀操作。
隨著計算機(jī)計算能力的發(fā)展,數(shù)據(jù)的類型越來越多,越來越復(fù)雜,尤其在商業(yè)方面,需要對大量的數(shù)據(jù)分析,需要精確定位潛在的價值所在,數(shù)據(jù)挖掘技術(shù)可以自動探測以前未發(fā)現(xiàn)的模式。隨著數(shù)據(jù)挖掘技術(shù)的不斷成熟和完善,它將在各行各業(yè)的各個領(lǐng)域發(fā)揮其越來越大的作用。
總之,數(shù)據(jù)挖掘技術(shù)的前景是非常好的,我們要充分利用它來為我們今后的生活提供更多的有用的信息。
參考文獻(xiàn):
[1] 李航.統(tǒng)計學(xué)習(xí)方法[M].清華大學(xué)出版社,2017.
[2] 陳志泊.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].2版.清華大學(xué)出版社,2017.
[3] [美]Daniel T. Larose,Chantal D. Larose.數(shù)據(jù)挖掘與預(yù)測分析[M].2版,清華大學(xué)出版社,2017.
[4] 李春葆.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘應(yīng)用教程[M].清華大學(xué)出版社,2016.
[5] 毛國君.數(shù)據(jù)挖掘原理與算法[M].3版.清華大學(xué)出版社,2016.endprint