Excel2007數(shù)據(jù)挖掘工具的研究與應(yīng)用

2013-04-29 00:44:03吳丹

電腦知識與技術(shù) 2013年8期

吳丹

摘要：為了解決現(xiàn)實(shí)生產(chǎn)中大量數(shù)據(jù)無法得到有效分析，且數(shù)據(jù)挖掘結(jié)果難以展示的問題，采用Excel2007結(jié)合SQL Server的SSAS組件對大量數(shù)據(jù)進(jìn)行挖掘分析，對挖掘結(jié)果進(jìn)行有效展示，彌補(bǔ)了傳統(tǒng)分析方法的不足。實(shí)際應(yīng)用結(jié)果表明，該方案可以有效提高數(shù)據(jù)挖掘效率，提高數(shù)據(jù)分析的可信度。

關(guān)鍵詞：Excel2007；數(shù)據(jù)挖掘；數(shù)據(jù)分析

中圖分類號：TP37 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-3044（2013）08-1736-03

隨著數(shù)據(jù)庫技術(shù)的發(fā)展和廣泛應(yīng)用，人們積累的業(yè)務(wù)和生產(chǎn)數(shù)據(jù)越來越多，激增的數(shù)據(jù)背后隱藏著許多重要的信息，簡單的報表查詢和統(tǒng)計已經(jīng)無法滿足商業(yè)和生產(chǎn)的實(shí)際需求，迫切需要一種手段去挖掘大量數(shù)據(jù)背后隱藏的知識。用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù)，用機(jī)器學(xué)習(xí)的方法來分析數(shù)據(jù)，從而挖掘大量數(shù)據(jù)背后的知識。這兩者的結(jié)合促成了數(shù)據(jù)庫中知識發(fā)現(xiàn)（KDD：Knowledge Discovery Databases）的產(chǎn)生[1]。

數(shù)據(jù)挖掘（Data Mining）是知識發(fā)現(xiàn)（KDD）最核心的部分[1]。早在1998年舉行的第四屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會議上不僅進(jìn)行了學(xué)術(shù)討論，同時也有30多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件，不少軟件已經(jīng)在歐洲、北美等地區(qū)得到了實(shí)際應(yīng)用。經(jīng)歷了十幾年的快速發(fā)展，數(shù)據(jù)挖掘已經(jīng)逐漸成為一個自成體系的應(yīng)用學(xué)科。

Excel2007數(shù)據(jù)挖掘客戶端是一個日常工作中經(jīng)常使用的功能強(qiáng)大的工具。它提供一個快速直觀的界面，可用于創(chuàng)建、測試和管理數(shù)據(jù)挖掘結(jié)構(gòu)和模型，同時不會降低 SQL Server Analysis Services 中的數(shù)據(jù)挖掘所提供的強(qiáng)大的自定義功能。

除了提供數(shù)據(jù)建模算法外，Excel 數(shù)據(jù)挖掘客戶端還提供一個集測試、預(yù)測和繪圖于一體的桌面數(shù)據(jù)挖掘解決方案。因此，Excel2007數(shù)據(jù)挖掘功能的有效利用將大幅提高數(shù)據(jù)挖掘的效率，使數(shù)據(jù)挖掘這種數(shù)據(jù)分析方法得到推廣和應(yīng)用。

1 數(shù)據(jù)挖掘簡單介紹

2 Excel2007數(shù)據(jù)挖掘插件介紹

3 Excel2007數(shù)據(jù)挖掘模塊的實(shí)際應(yīng)用

本文以針對油氣生產(chǎn)主題的數(shù)據(jù)挖掘?yàn)槔谏a(chǎn)調(diào)度數(shù)據(jù)倉庫的基礎(chǔ)之上，運(yùn)用SQL Server2005的Business Intelligence Development Studio的集成環(huán)境創(chuàng)建和使用數(shù)據(jù)挖掘模型，運(yùn)用該環(huán)境下的數(shù)據(jù)挖掘算法和工具生成油氣生產(chǎn)主題的數(shù)據(jù)挖掘解決方案。然后，借助Excel2007的數(shù)據(jù)挖掘功能對數(shù)據(jù)進(jìn)行挖掘分析，對挖掘結(jié)果進(jìn)行直觀展現(xiàn)。

油氣生產(chǎn)數(shù)據(jù)挖掘除了使用Excel2007進(jìn)行數(shù)據(jù)挖掘和前端展示外，還使用了SQL Server 2005的商業(yè)智能環(huán)境下的SSAS及其相關(guān)工具。

4 Excel2007數(shù)據(jù)挖掘結(jié)果展示

數(shù)據(jù)挖掘的模型所實(shí)現(xiàn)的功能都是通過特定的挖掘算法來實(shí)現(xiàn)的，每一個功能都和挖掘的核心算法緊密相連[4]。Excel2007作為一種先進(jìn)的數(shù)據(jù)挖掘工具提供多種數(shù)據(jù)挖掘算法。這是因?yàn)橐环N算法不可能完成所有不同類型的數(shù)據(jù)挖掘任務(wù)，對于某一種問題，數(shù)據(jù)本身的特性會影響用戶所選用的工具。所以用戶可能會需要用到多種不同的工具、技術(shù)、算法，從數(shù)據(jù)中找到最佳的模式。當(dāng)前數(shù)據(jù)挖掘各領(lǐng)域常用的算法，基本上都是發(fā)展比較成熟的算法。這些算法主要有：決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、遺傳算法、聚類分析等，如圖3所示。

本文結(jié)合具體的實(shí)際應(yīng)用以關(guān)聯(lián)規(guī)則算法為例。關(guān)聯(lián)規(guī)則算法的挖掘結(jié)果主要包括規(guī)則、項集和依賴關(guān)系網(wǎng)絡(luò)。針對油氣生產(chǎn)主題的原油生產(chǎn)維度表，關(guān)聯(lián)規(guī)則算法挖掘出來的部分規(guī)則如圖4所示。

關(guān)聯(lián)規(guī)則算法的依賴關(guān)系網(wǎng)絡(luò)顯示的是不同規(guī)則的關(guān)聯(lián)強(qiáng)弱，可以通過更改其強(qiáng)弱程度來查看所選結(jié)點(diǎn)都是由哪些結(jié)點(diǎn)來預(yù)測的。油氣生產(chǎn)數(shù)據(jù)涉及多個油田單位和不同的時間段，原油的日產(chǎn)數(shù)據(jù)和日注水量數(shù)據(jù)分布在不同的數(shù)據(jù)段，所以形成多個依賴網(wǎng)絡(luò)集，如圖5所示。

5 結(jié)論

Excel2007結(jié)合SQL Server的Business Intelligence Development Studio集成環(huán)境，在多種算法的支持下，具有很強(qiáng)的數(shù)據(jù)挖掘功能，同時能將挖掘結(jié)果很好的展示給用戶，在實(shí)際的生產(chǎn)或研究中對海量數(shù)據(jù)的分析具有重要意義，能基本滿足實(shí)際的數(shù)據(jù)分析需求。對于實(shí)際應(yīng)用中不同類型的數(shù)據(jù)，以及具體的分析需求需要選擇不同的算法去實(shí)現(xiàn)的問題，還需要進(jìn)一步的研究。

參考文獻(xiàn)：

[1] 張俊澤. 數(shù)據(jù)挖掘在石油行業(yè)資金管理中的應(yīng)用[D]. 天津：天津大學(xué)， 2008： 2.

[2] 董永剛. 數(shù)據(jù)挖掘在生產(chǎn)調(diào)度指揮系統(tǒng)中的應(yīng)用研究[D]. 西安：西安石油大學(xué)， 2011.

[3] 朱德利. SQL SERVER 2005數(shù)據(jù)挖掘與商業(yè)智能完全解決方案[M]. 北京：電子工業(yè)出版社， 2007.

[4] 張大可. 數(shù)據(jù)挖掘技術(shù)在火災(zāi)事故分析中的應(yīng)用研究[D]. 北京：首都經(jīng)濟(jì)貿(mào)易大學(xué)， 2010.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Excel2007數(shù)據(jù)挖掘工具的研究與應(yīng)用