国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談數(shù)據(jù)挖掘應(yīng)用現(xiàn)狀及其應(yīng)用前景

2016-03-21 08:21:28梁金蘭崔志鵬
卷宗 2016年1期
關(guān)鍵詞:應(yīng)用前景應(yīng)用現(xiàn)狀數(shù)據(jù)挖掘

梁金蘭 崔志鵬

摘 要: 數(shù)據(jù)挖掘是近年來(lái)新興的一門(mén)計(jì)算機(jī)邊緣學(xué)科,在我國(guó)也逐漸引起了越來(lái)越多人的關(guān)注,并且隨著數(shù)據(jù)挖掘技術(shù)的不斷改進(jìn)和數(shù)據(jù)挖掘工具的不斷完善,數(shù)據(jù)挖掘必將在各行各業(yè)中得到廣泛的應(yīng)用。

關(guān)鍵詞:數(shù)據(jù)挖掘;應(yīng)用現(xiàn)狀;應(yīng)用前景

1 數(shù)據(jù)挖掘

1.1 數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘(英語(yǔ):Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-Discovery in Databases,簡(jiǎn)稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性(屬于Association rule learning)的信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。

1.2 數(shù)據(jù)挖掘的發(fā)展背景

近幾年,隨著IT技術(shù)的發(fā)展,尤其數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,數(shù)據(jù)挖掘工作與理論研究工作成為必要的現(xiàn)實(shí),也越來(lái)越引起學(xué)術(shù)界和企業(yè)的關(guān)注。究其原因,有以下三個(gè)方面:

①“激增的市場(chǎng)交易使得各企業(yè)所需儲(chǔ)存與處理的資料量越來(lái)越龐大,企業(yè)的焦點(diǎn)已從以往的資料整理與收集,轉(zhuǎn)變成如何有效且快速地從資料庫(kù)中取得有用的信息,以滿足消費(fèi)者的需要,擴(kuò)大市場(chǎng)”(張堯庭、謝邦昌、朱世武《數(shù)據(jù)挖掘入門(mén)及應(yīng)用——從統(tǒng)計(jì)技術(shù)看數(shù)據(jù)挖掘》)。

②數(shù)據(jù)挖掘是一種結(jié)合多種專(zhuān)業(yè)技術(shù)的應(yīng)用,它所運(yùn)用的方法和技術(shù)包括 : 計(jì)算機(jī)技術(shù),統(tǒng)計(jì)分析方法,各類(lèi)算法,協(xié)作代理和分布式目標(biāo)管理技術(shù)等,因此,數(shù)據(jù)挖掘方法和技術(shù)的拓展、開(kāi)發(fā)和應(yīng)用是數(shù)據(jù)挖掘研究的主要領(lǐng)域。

③數(shù)據(jù)挖掘功能的拓展和深化也是學(xué)術(shù)界關(guān)注的重要方面。顯然,數(shù)據(jù)挖掘工作將成為近時(shí)期企業(yè)關(guān)注和學(xué)術(shù)研究的熱門(mén)領(lǐng)域。

2 數(shù)據(jù)挖掘的應(yīng)用及其前景

數(shù)據(jù)挖掘所包含的功能領(lǐng)域應(yīng)當(dāng)相當(dāng)廣泛,其具體內(nèi)容尚處于進(jìn)一步的探討中。當(dāng)然,數(shù)據(jù)挖掘的功能分類(lèi)有所不同,比較普遍的分類(lèi)把它分為五項(xiàng):分類(lèi)、估計(jì)與預(yù)測(cè)、聚類(lèi)、關(guān)聯(lián)和序列發(fā)現(xiàn)、描述等。實(shí)現(xiàn)數(shù)據(jù)挖掘的上述功能(任務(wù))的方法(算法)包括諸如回歸分析、時(shí)間序列、判別分析、因子分析和聚類(lèi)分析等一些統(tǒng)計(jì)分析方法,也有粗集、模糊邏輯、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)理論以及規(guī)則歸納法為基礎(chǔ)的方法。對(duì)于統(tǒng)計(jì)分析方法,數(shù)據(jù)挖掘的應(yīng)用主要體現(xiàn)在高級(jí)多元統(tǒng)計(jì)方法的應(yīng)用,當(dāng)然這些方法有的已經(jīng)比較成熟,但數(shù)據(jù)挖掘的應(yīng)用是對(duì)這些方法的拓展和深化。粗集、模糊邏輯、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)理論以及規(guī)則歸納法等方法在數(shù)據(jù)挖掘中主要體現(xiàn)在工具開(kāi)發(fā)和應(yīng)用研究。這些方法(算法)在數(shù)據(jù)挖掘工作中的理論研究是學(xué)術(shù)界對(duì)數(shù)據(jù)挖掘的主要研究領(lǐng)域。

數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域隨著IT技術(shù)的發(fā)展和市場(chǎng)交易量的擴(kuò)大也愈來(lái)愈廣泛。目前,數(shù)據(jù)挖掘的研究領(lǐng)域已遍及的行業(yè)包括金融業(yè)、電信業(yè)、網(wǎng)絡(luò)相關(guān)行業(yè)、零售商、制造業(yè)、醫(yī)療保健及制藥業(yè)等。比如,在財(cái)務(wù)金融方面,預(yù)測(cè)市場(chǎng)動(dòng)向,防范犯罪詐欺和顧客吸引等;在電信行業(yè)針對(duì)用戶資費(fèi)進(jìn)行資費(fèi)改革,以提高經(jīng)營(yíng)效益等;在企業(yè)直銷(xiāo)行銷(xiāo)方面用于識(shí)別客戶和客戶行為分析;在體育方面識(shí)別運(yùn)動(dòng)員的特長(zhǎng)和缺點(diǎn);在天文上進(jìn)行星體分類(lèi)等。盡管數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域相當(dāng)廣泛,就我國(guó)當(dāng)前的應(yīng)用來(lái)看,尚處于萌芽階段,企業(yè)大規(guī)模地運(yùn)用數(shù)據(jù)挖掘技術(shù)尚不普遍,個(gè)別企業(yè)或部門(mén)僅零星地運(yùn)用數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘的工具已大量出現(xiàn),一類(lèi)是基于統(tǒng)計(jì)分析的軟件,如: SAS、SPSS 等;另一類(lèi)是應(yīng)用與新技術(shù)如模糊邏輯、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)理論的工具如: CBR Express、Esteen、Kate-CBR、FuzzyTECH for business、Aria、Neural network Browser等軟件, 但這些軟件并不是包羅萬(wàn)象地應(yīng)用于任何數(shù)據(jù)挖掘技術(shù)的軟件,而是有所側(cè)重。實(shí)際上,數(shù)據(jù)挖掘工具與實(shí)際應(yīng)用的問(wèn)題緊密聯(lián)系,實(shí)踐中要根據(jù)實(shí)際運(yùn)用去開(kāi)發(fā)適用于實(shí)際需要的數(shù)據(jù)挖掘工具。我們國(guó)家數(shù)據(jù)挖掘的軟件運(yùn)用和開(kāi)發(fā)也未全面展開(kāi),尤其模糊邏輯、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)中對(duì)數(shù)據(jù)挖掘工具的開(kāi)發(fā)不足。因此,開(kāi)拓?cái)?shù)據(jù)挖掘工具的應(yīng)用和實(shí)踐是未來(lái)數(shù)據(jù)挖掘工作中亟待解決的問(wèn)題。

3 數(shù)據(jù)挖掘的局限性

當(dāng)然,數(shù)據(jù)挖掘不是萬(wàn)能的,而只是一個(gè)工具。它不會(huì)坐在你的數(shù)據(jù)庫(kù)上一直監(jiān)視著數(shù)據(jù)庫(kù),然后當(dāng)它發(fā)現(xiàn)有意義的模型時(shí)給你發(fā)一封電子郵件。它仍然需要了解你的業(yè)務(wù),理解你的數(shù)據(jù),弄清分析方法。數(shù)據(jù)挖掘只是幫助商業(yè)人士更深入、更容易的分析數(shù)據(jù),它無(wú)法告訴你某個(gè)模型對(duì)你的企業(yè)的實(shí)際價(jià)值。而且數(shù)據(jù)挖掘中得到的模型必須要在現(xiàn)實(shí)生活中進(jìn)行驗(yàn)證。

數(shù)據(jù)挖掘中得到的預(yù)言模型并不會(huì)告訴你一個(gè)人為什么會(huì)做一件事、采取某個(gè)行動(dòng),它只會(huì)告訴你他會(huì)這樣做,為什么則需要人去考慮。比如,數(shù)據(jù)挖掘可能會(huì)告訴你,如果這個(gè)人是男的、年收入在5萬(wàn)到6萬(wàn)之間,那么他可能會(huì)買(mǎi)你的商品和服務(wù)。你可能會(huì)利用這條規(guī)則,集中向這類(lèi)人推銷(xiāo)你的商品而從中獲益,但是數(shù)據(jù)挖掘工具不會(huì)告訴你他們?yōu)槭裁磿?huì)買(mǎi)你的東西,也不能保證所有符合這條規(guī)則的人都會(huì)買(mǎi)。

為了保證數(shù)據(jù)挖掘結(jié)果的價(jià)值,用戶必須了解自己的數(shù)據(jù),這一點(diǎn)至關(guān)重要。輸入數(shù)據(jù)庫(kù)中的異常數(shù)據(jù)、不相關(guān)的字段或互相沖突的字段(比如年齡和生日不一致)、數(shù)據(jù)的編碼方式等都會(huì)對(duì)數(shù)據(jù)挖掘輸出結(jié)果的質(zhì)量產(chǎn)生影響。雖然一些算法自身會(huì)對(duì)上面提到的這些問(wèn)題做一些考慮,但讓算法自己做所有這些決定是不明智的。

數(shù)據(jù)挖掘不會(huì)在缺乏指導(dǎo)的情況下自動(dòng)地發(fā)現(xiàn)模型。用戶不能這樣對(duì)數(shù)據(jù)挖掘工具說(shuō),“幫我提高直接郵件推銷(xiāo)的響應(yīng)率”,用戶應(yīng)該讓數(shù)據(jù)挖掘工具找:(1)對(duì)用戶的推銷(xiāo)回應(yīng)的人,(2)回應(yīng)又做了大量訂單的人的特征。在數(shù)據(jù)挖掘中尋找這兩種模型是很不相同的。

雖然數(shù)據(jù)挖掘工具使用戶不必再掌握艱深的統(tǒng)計(jì)分析技術(shù),但用戶仍然需要知道所選用的數(shù)據(jù)挖掘工具是如何工作的,它所采用的算法的原理是什么。選用的技術(shù)和優(yōu)化方法會(huì)對(duì)模型的準(zhǔn)確度和生成速度產(chǎn)生很大影響。

數(shù)據(jù)挖掘永遠(yuǎn)不會(huì)替代有經(jīng)驗(yàn)的商業(yè)分析師或者管理人員所起的作用,它只是提供一個(gè)強(qiáng)大的工具。每個(gè)成熟的、了解市場(chǎng)的公司都已經(jīng)具有一些重要的、能產(chǎn)生高回報(bào)的模型,這些模型可能是管理人員花了很長(zhǎng)時(shí)間,作了很多調(diào)查,甚至是經(jīng)過(guò)很多失誤之后得來(lái)的。數(shù)據(jù)挖掘工具要做的就是使這些模型得到的更容易,更方便,而且有根據(jù)。

4 結(jié)語(yǔ)

數(shù)據(jù)挖掘技術(shù)是一新興的研究領(lǐng)域,商業(yè)利益的驅(qū)動(dòng)將會(huì)促使其不停地發(fā)展,每年都有新的數(shù)據(jù)挖掘方法和模型問(wèn)世,人們對(duì)它的研究正日益廣泛和深入,其商業(yè)價(jià)值也日益突顯。盡管對(duì)數(shù)據(jù)挖掘的研究仍面臨著諸多問(wèn)題和挑戰(zhàn),還存在很多問(wèn)題值我們?nèi)ヌ剿餮芯浚覀冇欣碛上嘈旁诓痪脤?lái)數(shù)據(jù)挖掘發(fā)揮的作用和價(jià)值會(huì)越來(lái)越大。

參考文獻(xiàn)

[1]吉根林,帥克,孫志揮.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].南京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2000,23(2):25-27.

[2]Han Jiawei,Micheline Kanmber.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯,北京:機(jī)械工業(yè)出版社,2001.149-175.

[3]Mehmed Kantardzic.數(shù)據(jù)挖掘:概念、模型、方法和算法[M].閃四清,等譯,北京:清華大學(xué)出版社,2003.144-169.

[4]湯宇松.數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)[J].系統(tǒng)工程理論與實(shí)踐,2000,(9):57-63.

作者簡(jiǎn)介

梁金蘭,女,漢族,河南周口人,鄭州大學(xué)環(huán)境工程2012級(jí)本科生。

崔志鵬,男,漢族,河南安陽(yáng)人,鄭州大學(xué)環(huán)境工程2012級(jí)本科生。

猜你喜歡
應(yīng)用前景應(yīng)用現(xiàn)狀數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
計(jì)算機(jī)應(yīng)用的現(xiàn)狀與計(jì)算機(jī)的發(fā)展趨勢(shì)
山火預(yù)警技術(shù)在輸電線路的應(yīng)用現(xiàn)狀
國(guó)有企業(yè)中管理會(huì)計(jì)的應(yīng)用及對(duì)策
單片機(jī)在企業(yè)生產(chǎn)中的應(yīng)用前景
LED集魚(yú)燈在遠(yuǎn)洋漁業(yè)的應(yīng)用前景探討
會(huì)計(jì)信息化檔案管理中存在的問(wèn)題及應(yīng)對(duì)
簡(jiǎn)析住宅建筑設(shè)計(jì)中BIM技術(shù)的應(yīng)用
對(duì)話教學(xué)在數(shù)學(xué)教學(xué)中的應(yīng)用分析
成才之路(2016年26期)2016-10-08 11:54:52
阿鲁科尔沁旗| 友谊县| 夏邑县| 金寨县| 霞浦县| 山东| 宜都市| 五峰| 双辽市| 荥经县| 宣化县| 淮北市| 绵竹市| 时尚| 万安县| 陆丰市| 安多县| 息烽县| 旺苍县| 南漳县| 庆元县| 庆云县| 平顶山市| 芜湖市| 东丰县| 武定县| 嘉兴市| 东乌| 桐柏县| 万全县| 延津县| 时尚| 公安县| 镇康县| 巨鹿县| 岑巩县| 石景山区| 夹江县| 广丰县| 民县| 延寿县|