梁金蘭 崔志鵬
摘 要: 數(shù)據(jù)挖掘是近年來(lái)新興的一門(mén)計(jì)算機(jī)邊緣學(xué)科,在我國(guó)也逐漸引起了越來(lái)越多人的關(guān)注,并且隨著數(shù)據(jù)挖掘技術(shù)的不斷改進(jìn)和數(shù)據(jù)挖掘工具的不斷完善,數(shù)據(jù)挖掘必將在各行各業(yè)中得到廣泛的應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘;應(yīng)用現(xiàn)狀;應(yīng)用前景
1 數(shù)據(jù)挖掘
1.1 數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘(英語(yǔ):Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-Discovery in Databases,簡(jiǎn)稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性(屬于Association rule learning)的信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。
1.2 數(shù)據(jù)挖掘的發(fā)展背景
近幾年,隨著IT技術(shù)的發(fā)展,尤其數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,數(shù)據(jù)挖掘工作與理論研究工作成為必要的現(xiàn)實(shí),也越來(lái)越引起學(xué)術(shù)界和企業(yè)的關(guān)注。究其原因,有以下三個(gè)方面:
①“激增的市場(chǎng)交易使得各企業(yè)所需儲(chǔ)存與處理的資料量越來(lái)越龐大,企業(yè)的焦點(diǎn)已從以往的資料整理與收集,轉(zhuǎn)變成如何有效且快速地從資料庫(kù)中取得有用的信息,以滿足消費(fèi)者的需要,擴(kuò)大市場(chǎng)”(張堯庭、謝邦昌、朱世武《數(shù)據(jù)挖掘入門(mén)及應(yīng)用——從統(tǒng)計(jì)技術(shù)看數(shù)據(jù)挖掘》)。
②數(shù)據(jù)挖掘是一種結(jié)合多種專(zhuān)業(yè)技術(shù)的應(yīng)用,它所運(yùn)用的方法和技術(shù)包括 : 計(jì)算機(jī)技術(shù),統(tǒng)計(jì)分析方法,各類(lèi)算法,協(xié)作代理和分布式目標(biāo)管理技術(shù)等,因此,數(shù)據(jù)挖掘方法和技術(shù)的拓展、開(kāi)發(fā)和應(yīng)用是數(shù)據(jù)挖掘研究的主要領(lǐng)域。
③數(shù)據(jù)挖掘功能的拓展和深化也是學(xué)術(shù)界關(guān)注的重要方面。顯然,數(shù)據(jù)挖掘工作將成為近時(shí)期企業(yè)關(guān)注和學(xué)術(shù)研究的熱門(mén)領(lǐng)域。
2 數(shù)據(jù)挖掘的應(yīng)用及其前景
數(shù)據(jù)挖掘所包含的功能領(lǐng)域應(yīng)當(dāng)相當(dāng)廣泛,其具體內(nèi)容尚處于進(jìn)一步的探討中。當(dāng)然,數(shù)據(jù)挖掘的功能分類(lèi)有所不同,比較普遍的分類(lèi)把它分為五項(xiàng):分類(lèi)、估計(jì)與預(yù)測(cè)、聚類(lèi)、關(guān)聯(lián)和序列發(fā)現(xiàn)、描述等。實(shí)現(xiàn)數(shù)據(jù)挖掘的上述功能(任務(wù))的方法(算法)包括諸如回歸分析、時(shí)間序列、判別分析、因子分析和聚類(lèi)分析等一些統(tǒng)計(jì)分析方法,也有粗集、模糊邏輯、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)理論以及規(guī)則歸納法為基礎(chǔ)的方法。對(duì)于統(tǒng)計(jì)分析方法,數(shù)據(jù)挖掘的應(yīng)用主要體現(xiàn)在高級(jí)多元統(tǒng)計(jì)方法的應(yīng)用,當(dāng)然這些方法有的已經(jīng)比較成熟,但數(shù)據(jù)挖掘的應(yīng)用是對(duì)這些方法的拓展和深化。粗集、模糊邏輯、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)理論以及規(guī)則歸納法等方法在數(shù)據(jù)挖掘中主要體現(xiàn)在工具開(kāi)發(fā)和應(yīng)用研究。這些方法(算法)在數(shù)據(jù)挖掘工作中的理論研究是學(xué)術(shù)界對(duì)數(shù)據(jù)挖掘的主要研究領(lǐng)域。
數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域隨著IT技術(shù)的發(fā)展和市場(chǎng)交易量的擴(kuò)大也愈來(lái)愈廣泛。目前,數(shù)據(jù)挖掘的研究領(lǐng)域已遍及的行業(yè)包括金融業(yè)、電信業(yè)、網(wǎng)絡(luò)相關(guān)行業(yè)、零售商、制造業(yè)、醫(yī)療保健及制藥業(yè)等。比如,在財(cái)務(wù)金融方面,預(yù)測(cè)市場(chǎng)動(dòng)向,防范犯罪詐欺和顧客吸引等;在電信行業(yè)針對(duì)用戶資費(fèi)進(jìn)行資費(fèi)改革,以提高經(jīng)營(yíng)效益等;在企業(yè)直銷(xiāo)行銷(xiāo)方面用于識(shí)別客戶和客戶行為分析;在體育方面識(shí)別運(yùn)動(dòng)員的特長(zhǎng)和缺點(diǎn);在天文上進(jìn)行星體分類(lèi)等。盡管數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域相當(dāng)廣泛,就我國(guó)當(dāng)前的應(yīng)用來(lái)看,尚處于萌芽階段,企業(yè)大規(guī)模地運(yùn)用數(shù)據(jù)挖掘技術(shù)尚不普遍,個(gè)別企業(yè)或部門(mén)僅零星地運(yùn)用數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘的工具已大量出現(xiàn),一類(lèi)是基于統(tǒng)計(jì)分析的軟件,如: SAS、SPSS 等;另一類(lèi)是應(yīng)用與新技術(shù)如模糊邏輯、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)理論的工具如: CBR Express、Esteen、Kate-CBR、FuzzyTECH for business、Aria、Neural network Browser等軟件, 但這些軟件并不是包羅萬(wàn)象地應(yīng)用于任何數(shù)據(jù)挖掘技術(shù)的軟件,而是有所側(cè)重。實(shí)際上,數(shù)據(jù)挖掘工具與實(shí)際應(yīng)用的問(wèn)題緊密聯(lián)系,實(shí)踐中要根據(jù)實(shí)際運(yùn)用去開(kāi)發(fā)適用于實(shí)際需要的數(shù)據(jù)挖掘工具。我們國(guó)家數(shù)據(jù)挖掘的軟件運(yùn)用和開(kāi)發(fā)也未全面展開(kāi),尤其模糊邏輯、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)中對(duì)數(shù)據(jù)挖掘工具的開(kāi)發(fā)不足。因此,開(kāi)拓?cái)?shù)據(jù)挖掘工具的應(yīng)用和實(shí)踐是未來(lái)數(shù)據(jù)挖掘工作中亟待解決的問(wèn)題。
3 數(shù)據(jù)挖掘的局限性
當(dāng)然,數(shù)據(jù)挖掘不是萬(wàn)能的,而只是一個(gè)工具。它不會(huì)坐在你的數(shù)據(jù)庫(kù)上一直監(jiān)視著數(shù)據(jù)庫(kù),然后當(dāng)它發(fā)現(xiàn)有意義的模型時(shí)給你發(fā)一封電子郵件。它仍然需要了解你的業(yè)務(wù),理解你的數(shù)據(jù),弄清分析方法。數(shù)據(jù)挖掘只是幫助商業(yè)人士更深入、更容易的分析數(shù)據(jù),它無(wú)法告訴你某個(gè)模型對(duì)你的企業(yè)的實(shí)際價(jià)值。而且數(shù)據(jù)挖掘中得到的模型必須要在現(xiàn)實(shí)生活中進(jìn)行驗(yàn)證。
數(shù)據(jù)挖掘中得到的預(yù)言模型并不會(huì)告訴你一個(gè)人為什么會(huì)做一件事、采取某個(gè)行動(dòng),它只會(huì)告訴你他會(huì)這樣做,為什么則需要人去考慮。比如,數(shù)據(jù)挖掘可能會(huì)告訴你,如果這個(gè)人是男的、年收入在5萬(wàn)到6萬(wàn)之間,那么他可能會(huì)買(mǎi)你的商品和服務(wù)。你可能會(huì)利用這條規(guī)則,集中向這類(lèi)人推銷(xiāo)你的商品而從中獲益,但是數(shù)據(jù)挖掘工具不會(huì)告訴你他們?yōu)槭裁磿?huì)買(mǎi)你的東西,也不能保證所有符合這條規(guī)則的人都會(huì)買(mǎi)。
為了保證數(shù)據(jù)挖掘結(jié)果的價(jià)值,用戶必須了解自己的數(shù)據(jù),這一點(diǎn)至關(guān)重要。輸入數(shù)據(jù)庫(kù)中的異常數(shù)據(jù)、不相關(guān)的字段或互相沖突的字段(比如年齡和生日不一致)、數(shù)據(jù)的編碼方式等都會(huì)對(duì)數(shù)據(jù)挖掘輸出結(jié)果的質(zhì)量產(chǎn)生影響。雖然一些算法自身會(huì)對(duì)上面提到的這些問(wèn)題做一些考慮,但讓算法自己做所有這些決定是不明智的。
數(shù)據(jù)挖掘不會(huì)在缺乏指導(dǎo)的情況下自動(dòng)地發(fā)現(xiàn)模型。用戶不能這樣對(duì)數(shù)據(jù)挖掘工具說(shuō),“幫我提高直接郵件推銷(xiāo)的響應(yīng)率”,用戶應(yīng)該讓數(shù)據(jù)挖掘工具找:(1)對(duì)用戶的推銷(xiāo)回應(yīng)的人,(2)回應(yīng)又做了大量訂單的人的特征。在數(shù)據(jù)挖掘中尋找這兩種模型是很不相同的。
雖然數(shù)據(jù)挖掘工具使用戶不必再掌握艱深的統(tǒng)計(jì)分析技術(shù),但用戶仍然需要知道所選用的數(shù)據(jù)挖掘工具是如何工作的,它所采用的算法的原理是什么。選用的技術(shù)和優(yōu)化方法會(huì)對(duì)模型的準(zhǔn)確度和生成速度產(chǎn)生很大影響。
數(shù)據(jù)挖掘永遠(yuǎn)不會(huì)替代有經(jīng)驗(yàn)的商業(yè)分析師或者管理人員所起的作用,它只是提供一個(gè)強(qiáng)大的工具。每個(gè)成熟的、了解市場(chǎng)的公司都已經(jīng)具有一些重要的、能產(chǎn)生高回報(bào)的模型,這些模型可能是管理人員花了很長(zhǎng)時(shí)間,作了很多調(diào)查,甚至是經(jīng)過(guò)很多失誤之后得來(lái)的。數(shù)據(jù)挖掘工具要做的就是使這些模型得到的更容易,更方便,而且有根據(jù)。
4 結(jié)語(yǔ)
數(shù)據(jù)挖掘技術(shù)是一新興的研究領(lǐng)域,商業(yè)利益的驅(qū)動(dòng)將會(huì)促使其不停地發(fā)展,每年都有新的數(shù)據(jù)挖掘方法和模型問(wèn)世,人們對(duì)它的研究正日益廣泛和深入,其商業(yè)價(jià)值也日益突顯。盡管對(duì)數(shù)據(jù)挖掘的研究仍面臨著諸多問(wèn)題和挑戰(zhàn),還存在很多問(wèn)題值我們?nèi)ヌ剿餮芯浚覀冇欣碛上嘈旁诓痪脤?lái)數(shù)據(jù)挖掘發(fā)揮的作用和價(jià)值會(huì)越來(lái)越大。
參考文獻(xiàn)
[1]吉根林,帥克,孫志揮.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].南京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2000,23(2):25-27.
[2]Han Jiawei,Micheline Kanmber.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯,北京:機(jī)械工業(yè)出版社,2001.149-175.
[3]Mehmed Kantardzic.數(shù)據(jù)挖掘:概念、模型、方法和算法[M].閃四清,等譯,北京:清華大學(xué)出版社,2003.144-169.
[4]湯宇松.數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)[J].系統(tǒng)工程理論與實(shí)踐,2000,(9):57-63.
作者簡(jiǎn)介
梁金蘭,女,漢族,河南周口人,鄭州大學(xué)環(huán)境工程2012級(jí)本科生。
崔志鵬,男,漢族,河南安陽(yáng)人,鄭州大學(xué)環(huán)境工程2012級(jí)本科生。