王翠紅
摘 要:隨著信息時(shí)代的發(fā)展變化,龐大的數(shù)據(jù)規(guī)模對(duì)于當(dāng)前數(shù)據(jù)挖掘算法處理的要求也越來(lái)越高。數(shù)據(jù)挖掘技術(shù)指的是從大量不完全的、模糊的以及隨機(jī)的數(shù)據(jù)中提取出具有潛在價(jià)值的信息的過(guò)程,其中的知識(shí)通常所指的有意義的規(guī)律。數(shù)據(jù)挖掘技術(shù)是隨著數(shù)據(jù)庫(kù)技術(shù)發(fā)展必然的產(chǎn)物,它能夠?qū)崿F(xiàn)據(jù)庫(kù)信息管理系統(tǒng)智能化,還能夠改善系統(tǒng)的實(shí)用性與有效性,為決策提供科學(xué)有效的依據(jù)。但是由于數(shù)據(jù)庫(kù)規(guī)模仍在不斷擴(kuò)大,個(gè)人電腦硬件配置也受到很大的限制,數(shù)據(jù)挖掘算法的效率面臨著較大的挑戰(zhàn)。在這樣的情況下,具有提高計(jì)算機(jī)效率的抽樣技術(shù)被廣泛應(yīng)用。由于抽樣技術(shù)需要計(jì)算科學(xué)、數(shù)據(jù)庫(kù)與統(tǒng)計(jì)學(xué)相關(guān)學(xué)科的支持,所以在數(shù)據(jù)挖掘中應(yīng)用抽樣技術(shù)還有待進(jìn)一步完善。本文首先論述數(shù)據(jù)挖掘及抽樣技術(shù)的概念,分析在數(shù)據(jù)挖掘中應(yīng)用抽樣技術(shù)的重要性,最后結(jié)合相關(guān)實(shí)例探討具體應(yīng)用方式。
關(guān)鍵詞:數(shù)據(jù)挖掘;抽樣技術(shù);統(tǒng)計(jì)學(xué);數(shù)據(jù)庫(kù)
計(jì)算機(jī)技術(shù)的高速發(fā)展使計(jì)算機(jī)的存儲(chǔ)能力和處理能力得到很大的提高,不同類型的數(shù)據(jù)庫(kù)應(yīng)用也越來(lái)越廣泛。由于計(jì)算機(jī)技術(shù)和信息技術(shù)的不斷融合,全球快速進(jìn)入信息化時(shí)代,產(chǎn)生興趣的渠道越來(lái)越多、信息量越來(lái)越大、信息更新的頻率也逐漸加快。面對(duì)如此龐大的信息量,人們獲取有價(jià)值的信息變得較為困難,數(shù)據(jù)庫(kù)應(yīng)用而生,數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(KDD)技術(shù)就是為了滿足這樣的需求發(fā)展而來(lái)。隨后數(shù)據(jù)挖掘作為一門新興的學(xué)科在企業(yè)決策、商業(yè)發(fā)展的沃土中快速成長(zhǎng)起來(lái)。就當(dāng)前的研究重點(diǎn)來(lái)看,人們普遍重視數(shù)據(jù)挖掘過(guò)程中使用的模型和算法,對(duì)于抽樣技術(shù)卻沒(méi)有給予應(yīng)有的關(guān)注。部分學(xué)者甚至認(rèn)為抽樣技術(shù)的應(yīng)用會(huì)導(dǎo)致信息丟失,且有其他技術(shù)能夠作為替代。盡管抽樣技術(shù)在數(shù)據(jù)挖掘過(guò)程中起到的并非決定性作用,但是其優(yōu)勢(shì)對(duì)于數(shù)據(jù)挖掘的收益也不能忽視。
1.數(shù)據(jù)挖掘及抽樣技術(shù)概述
1.1數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘指的是從存放在信息庫(kù)的海量數(shù)據(jù)中挖掘出有價(jià)值信息的過(guò)程,該技術(shù)從興起而來(lái)一直都是研究的熱門,到今天已經(jīng)有大量的實(shí)現(xiàn)算法支持。數(shù)據(jù)挖掘技術(shù)主要面對(duì)的對(duì)象是結(jié)構(gòu)化數(shù)據(jù)為主的數(shù)據(jù)倉(cāng)庫(kù),隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,類型復(fù)雜的數(shù)據(jù)不斷涌現(xiàn),其中隱藏著具有較高價(jià)值的知識(shí)與信息,復(fù)雜數(shù)據(jù)的挖掘主要包括對(duì)多媒體數(shù)據(jù)的挖掘、空間數(shù)據(jù)的挖掘、文本數(shù)據(jù)挖掘、流數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘。數(shù)據(jù)挖掘技術(shù)不但可以查詢以往數(shù)據(jù),還能夠?qū)?shù)據(jù)發(fā)展未來(lái)的趨勢(shì)進(jìn)行預(yù)測(cè),探索以往數(shù)據(jù)挖掘終未發(fā)現(xiàn)的模式,為人們的決策提供很好的支持。被挖掘出來(lái)的信息主要用于信息管理、決策、查詢處理、過(guò)程控制等應(yīng)用。
1.2抽樣技術(shù)
抽樣技術(shù)是選擇數(shù)據(jù)對(duì)象子集進(jìn)行分析的方法之一,在統(tǒng)計(jì)學(xué)中通常用于數(shù)據(jù)的事先調(diào)查和最終分析。抽樣調(diào)查是一種非全面性調(diào)查,從全部調(diào)查對(duì)象中抽取出部分樣本進(jìn)行調(diào)查,并根據(jù)結(jié)果對(duì)總體進(jìn)行推斷,其目的在于獲得能夠反映總體特性的信息,是統(tǒng)計(jì)學(xué)中非常重要的方法。
數(shù)據(jù)挖掘過(guò)程中,抽樣技術(shù)同樣具有較大的應(yīng)用,但是與統(tǒng)計(jì)學(xué)中的應(yīng)用動(dòng)機(jī)與作用有較大區(qū)別。在數(shù)據(jù)挖掘中,抽樣技術(shù)能夠?qū)φw特征進(jìn)行推斷,處理全部數(shù)據(jù)需要耗費(fèi)太高的時(shí)間和費(fèi)用,而應(yīng)用抽樣技術(shù)能夠壓縮數(shù)據(jù)量,很大的減少計(jì)算開銷,并產(chǎn)生與總體挖掘效果相近的結(jié)果。抽樣技術(shù)能夠貫穿于數(shù)據(jù)挖掘的全過(guò)程,在數(shù)據(jù)準(zhǔn)備階段、算法實(shí)現(xiàn)階段、效果評(píng)價(jià)階段都能夠看到抽樣技術(shù)的身影。抽樣技術(shù)的應(yīng)用不但可以提高數(shù)據(jù)挖掘效率,同時(shí)還能保證結(jié)果準(zhǔn)確性、給出具體的誤差范圍,從而獲得良好的成效。
2.抽樣技術(shù)在數(shù)據(jù)挖掘中的重要性
2.1提高數(shù)據(jù)挖掘的速度和效率
數(shù)據(jù)挖掘技術(shù)好壞的重要評(píng)價(jià)因素就是速度與效率,主要取決于系統(tǒng)軟硬件的配置、應(yīng)用的工具算法、數(shù)據(jù)的選擇方式以及數(shù)據(jù)集的特點(diǎn)。就調(diào)查而結(jié)果來(lái)說(shuō),當(dāng)前已經(jīng)存在的數(shù)據(jù)挖掘軟硬件系統(tǒng)進(jìn)方案中,能夠不使用統(tǒng)計(jì)抽樣方法節(jié)約成本與時(shí)間的方式是不存在的。通過(guò)應(yīng)用抽樣技術(shù)能夠確保大部分信息不發(fā)生丟失,與此同時(shí)提高計(jì)算速度、降低成本。數(shù)據(jù)挖掘工作人員將主要精力放在模型的建立和選擇上,而不是浪費(fèi)大把的時(shí)間等待系統(tǒng)運(yùn)算。
2.2輔助特殊性問(wèn)題的分析
特殊問(wèn)題的性質(zhì)與特點(diǎn)同樣會(huì)影響數(shù)據(jù)處理,在某些商業(yè)問(wèn)題中會(huì)涉及到破壞性試驗(yàn),傳統(tǒng)處理方法難以勝任。而選擇抽樣技術(shù),抽取其中一小部分產(chǎn)品進(jìn)行破壞性實(shí)驗(yàn)?zāi)軌蛲扑愠稣w結(jié)果,確保實(shí)驗(yàn)的經(jīng)濟(jì)和有效。
2.3滿足數(shù)據(jù)處理的需要
某些數(shù)據(jù)在收集過(guò)程中,可能受到數(shù)據(jù)庫(kù)中過(guò)期的、無(wú)效的、錯(cuò)誤的以及缺省的信息干擾,造成結(jié)果不準(zhǔn)確。因此在進(jìn)行數(shù)據(jù)挖掘之前應(yīng)當(dāng)對(duì)這一部分資料信息進(jìn)行刪除或修正,這一步驟也就是數(shù)據(jù)挖掘的數(shù)據(jù)清理。但是對(duì)所有元數(shù)據(jù)進(jìn)行清理同樣需要耗費(fèi)大量的時(shí)間和精力,在某些情況下,數(shù)據(jù)挖掘在已經(jīng)進(jìn)行預(yù)處理過(guò)的數(shù)據(jù)倉(cāng)庫(kù)中開展,但是在實(shí)際解決問(wèn)題過(guò)程中,仍然需要根據(jù)問(wèn)題進(jìn)一步對(duì)數(shù)據(jù)信息進(jìn)行調(diào)整,此時(shí)應(yīng)用抽樣技術(shù)顯得非常必要。
3.抽樣技術(shù)在數(shù)據(jù)挖掘中的具體應(yīng)用
3.1關(guān)聯(lián)規(guī)則中應(yīng)用
在關(guān)聯(lián)規(guī)則領(lǐng)域應(yīng)用抽樣技術(shù)首先由Toivonen提出來(lái),該算法的基本原理是得到一個(gè)隨機(jī)樣本之后在這個(gè)樣本基礎(chǔ)上發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,將得到的關(guān)聯(lián)規(guī)則作為整體數(shù)據(jù)規(guī)則,然后通過(guò)數(shù)據(jù)集中剩余的數(shù)據(jù)對(duì)規(guī)則進(jìn)行驗(yàn)證。通常情況下,該算法通過(guò)掃描整個(gè)數(shù)據(jù)集能夠發(fā)現(xiàn)所有的關(guān)聯(lián)規(guī)則。
確定某一個(gè)事物的集合T,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是指找到集合中支持度大于等于最小支持度、同時(shí)置信度大于等于最小置信度的全部規(guī)則。最原始的尋找關(guān)聯(lián)規(guī)則算法是將全部規(guī)則的支持度與置信度計(jì)算出來(lái),然后選擇滿足支持度閾值與置信度閾值的規(guī)則,由于該方法計(jì)算量大、但結(jié)果大多數(shù)無(wú)用。為了提高效率,通常情況下會(huì)對(duì)規(guī)則進(jìn)行修剪,這也就是當(dāng)前多數(shù)關(guān)聯(lián)規(guī)則使用的Apriori算法。FAST算法也屬于關(guān)聯(lián)規(guī)則算法,其方法為:首先通過(guò)抽樣生成樣本,然后通過(guò)數(shù)據(jù)樣本快速對(duì)數(shù)據(jù)集中每一個(gè)項(xiàng)目的支持度進(jìn)行估算;隨后得到數(shù)據(jù)項(xiàng)的支持度,對(duì)初始樣本中的離群數(shù)據(jù)進(jìn)行調(diào)整,或者是選取更加具有代表性的數(shù)據(jù)形成最終的樣板,這個(gè)最終樣本能夠很好地反映出數(shù)據(jù)集合的特性,并實(shí)現(xiàn)關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)。本文通過(guò)UCI機(jī)器學(xué)習(xí)褲中的部分?jǐn)?shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),驗(yàn)證關(guān)聯(lián)規(guī)則的有效性。該數(shù)據(jù)集中一共有448條記錄,包含17中不同的屬性,每天記錄都表示不同的人對(duì)于16個(gè)不同問(wèn)題的回答。也就是前16個(gè)屬性對(duì)應(yīng)問(wèn)題、最后1個(gè)屬性是人的身份(民主黨派或者是共和黨派),數(shù)據(jù)挖掘的目的在于找出問(wèn)題屬性與人的身份之間的關(guān)聯(lián)性,最終得到的部分運(yùn)算結(jié)果可見下表。
3.2分類中應(yīng)用
常見的分類法主要包含決策樹、統(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)法等,這些方法無(wú)疑都借助抽樣思想,因此可知分類和抽樣之間的密切聯(lián)系。例如判定樹歸納算法中使用的窗口就是一種典型的抽樣策略,其步驟為:在全部訓(xùn)練數(shù)據(jù)中隨機(jī)抽樣得到初始窗口;然后在窗口上生成決策樹,通過(guò)剩余的訓(xùn)練數(shù)據(jù)對(duì)決策樹進(jìn)行驗(yàn)證,直到滿意。例如在數(shù)據(jù)庫(kù)中進(jìn)行人口調(diào)查,通過(guò)基礎(chǔ)數(shù)據(jù)進(jìn)行修改得到數(shù)據(jù)集,應(yīng)用抽樣技術(shù)能夠很大程度上縮短分類時(shí)間,且不會(huì)影響分類結(jié)果的準(zhǔn)確性。
3.3應(yīng)用抽樣技術(shù)注意事項(xiàng)
3.3.1樣本量的問(wèn)題
基于數(shù)據(jù)源中實(shí)際數(shù)據(jù)分布,通過(guò)給出的精度閾值可以對(duì)對(duì)樣本容量以及挖掘結(jié)果的準(zhǔn)確性進(jìn)行分析,這一環(huán)節(jié)也被成為學(xué)習(xí)曲線逐步擬合的過(guò)程,在實(shí)施過(guò)程中能夠確定出滿徐精度需要的最小樣本容量。再確定一次抽樣樣本容量期間,不能夠以人的主觀感受為依據(jù),而是需要掌握數(shù)據(jù)分布特點(diǎn),在進(jìn)行深入學(xué)習(xí)之后進(jìn)行考量。這樣的方法確定的樣本容量才是考慮整體樣本分布的結(jié)果,才能夠保證進(jìn)行抽樣的數(shù)據(jù)和原有的數(shù)據(jù)集之間的良好的對(duì)應(yīng)關(guān)系。
3.3.2抽樣效率的問(wèn)題
在實(shí)際的應(yīng)用過(guò)程中,不同的抽樣技術(shù)相互之間也可以結(jié)合成為不同的抽樣方案,如分層抽樣和等距抽樣結(jié)合起來(lái),運(yùn)用得當(dāng)不同程度地提高抽樣精度。但是在數(shù)據(jù)挖掘過(guò)程中,設(shè)計(jì)抽樣方案期間不僅要考慮各種車輛技術(shù)對(duì)精度的影響,還應(yīng)當(dāng)結(jié)合抽樣效率進(jìn)行考慮。內(nèi)容數(shù)據(jù)探索、樣本的確定和分割等技術(shù)應(yīng)用期間是否具備靈活性,是否能夠提高抽樣效率等。做好這一點(diǎn)需要注意以下兩點(diǎn):首先,數(shù)據(jù)挖掘工作者應(yīng)當(dāng)了解源數(shù)據(jù)集,做好數(shù)據(jù)準(zhǔn)備階段的探索工作;再者,還需要根據(jù)解決的實(shí)際問(wèn)題選擇合適的抽樣技術(shù)才能夠確保抽樣效率。
結(jié)束語(yǔ)
數(shù)據(jù)挖掘是一個(gè)集合了多學(xué)科、多領(lǐng)域,融合了人工智能技術(shù)、數(shù)據(jù)庫(kù)技術(shù)、工程技術(shù)、統(tǒng)計(jì)學(xué)、高性能計(jì)算、面向?qū)ο蠓椒ㄒ约皵?shù)據(jù)可視化等多種技術(shù)的研究成果。之所以將數(shù)據(jù)挖掘成為未來(lái)信息處理的干技術(shù),其原因在于數(shù)據(jù)挖掘以及全新概念改變?nèi)藗兝脭?shù)據(jù)的方式。近年來(lái),大規(guī)模數(shù)據(jù)庫(kù)的挖掘工作界范圍內(nèi)的研究重點(diǎn),而抽樣技術(shù)是將工作者從海量數(shù)據(jù)挖掘工作中解放出來(lái)的重要手段。在數(shù)據(jù)挖掘中應(yīng)用抽樣技術(shù),能夠降低處理結(jié)果的規(guī)模、保證結(jié)果的準(zhǔn)確性,為決策提供精確的資料依據(jù)。本文通過(guò)研究抽樣技術(shù)在數(shù)據(jù)挖掘中的意義和重要性,探討實(shí)際應(yīng)用過(guò)程,證實(shí)了抽樣技術(shù)對(duì)于提高數(shù)據(jù)挖掘效率產(chǎn)生的重要作用。(作者單位:北京當(dāng)當(dāng)網(wǎng)信息技術(shù)有限公司)
參考文獻(xiàn):
[1] 殷賢君.基于增量存儲(chǔ)的商業(yè)數(shù)據(jù)流分類挖掘算法研究與應(yīng)用[D].浙江工商大學(xué),2011.
[2] 謝笑盈.數(shù)據(jù)挖掘中抽樣技術(shù)的應(yīng)用研究——方法改進(jìn)與實(shí)證分析[D].浙江工商大學(xué),2010.
[3] 湯曉超.基于數(shù)據(jù)挖掘技術(shù)的審計(jì)抽樣系統(tǒng)開發(fā)和研究[D].江蘇大學(xué),2010.
[4] 琚春華,殷賢君,許翀寰等.結(jié)合自助抽樣的動(dòng)態(tài)數(shù)據(jù)流貝葉斯分類算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(8):118-121,142.