吳丹
摘要:為了解決現(xiàn)實(shí)生產(chǎn)中大量數(shù)據(jù)無法得到有效分析,且數(shù)據(jù)挖掘結(jié)果難以展示的問題,采用Excel2007結(jié)合SQL Server的SSAS組件對大量數(shù)據(jù)進(jìn)行挖掘分析,對挖掘結(jié)果進(jìn)行有效展示,彌補(bǔ)了傳統(tǒng)分析方法的不足。實(shí)際應(yīng)用結(jié)果表明,該方案可以有效提高數(shù)據(jù)挖掘效率,提高數(shù)據(jù)分析的可信度。
關(guān)鍵詞:Excel2007;數(shù)據(jù)挖掘;數(shù)據(jù)分析
中圖分類號:TP37 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2013)08-1736-03
隨著數(shù)據(jù)庫技術(shù)的發(fā)展和廣泛應(yīng)用,人們積累的業(yè)務(wù)和生產(chǎn)數(shù)據(jù)越來越多,激增的數(shù)據(jù)背后隱藏著許多重要的信息,簡單的報表查詢和統(tǒng)計已經(jīng)無法滿足商業(yè)和生產(chǎn)的實(shí)際需求,迫切需要一種手段去挖掘大量數(shù)據(jù)背后隱藏的知識。用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機(jī)器學(xué)習(xí)的方法來分析數(shù)據(jù),從而挖掘大量數(shù)據(jù)背后的知識。這兩者的結(jié)合促成了數(shù)據(jù)庫中知識發(fā)現(xiàn)(KDD:Knowledge Discovery Databases)的產(chǎn)生[1]。
數(shù)據(jù)挖掘(Data Mining)是知識發(fā)現(xiàn)(KDD)最核心的部分[1]。早在1998年舉行的第四屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會議上不僅進(jìn)行了學(xué)術(shù)討論,同時也有30多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件,不少軟件已經(jīng)在歐洲、北美等地區(qū)得到了實(shí)際應(yīng)用。經(jīng)歷了十幾年的快速發(fā)展,數(shù)據(jù)挖掘已經(jīng)逐漸成為一個自成體系的應(yīng)用學(xué)科。
Excel2007數(shù)據(jù)挖掘客戶端是一個日常工作中經(jīng)常使用的功能強(qiáng)大的工具。它提供一個快速直觀的界面,可用于創(chuàng)建、測試和管理數(shù)據(jù)挖掘結(jié)構(gòu)和模型,同時不會降低 SQL Server Analysis Services 中的數(shù)據(jù)挖掘所提供的強(qiáng)大的自定義功能。
除了提供數(shù)據(jù)建模算法外,Excel 數(shù)據(jù)挖掘客戶端還提供一個集測試、預(yù)測和繪圖于一體的桌面數(shù)據(jù)挖掘解決方案。因此,Excel2007數(shù)據(jù)挖掘功能的有效利用將大幅提高數(shù)據(jù)挖掘的效率,使數(shù)據(jù)挖掘這種數(shù)據(jù)分析方法得到推廣和應(yīng)用。
1 數(shù)據(jù)挖掘簡單介紹
2 Excel2007數(shù)據(jù)挖掘插件介紹
3 Excel2007數(shù)據(jù)挖掘模塊的實(shí)際應(yīng)用
本文以針對油氣生產(chǎn)主題的數(shù)據(jù)挖掘?yàn)槔谏a(chǎn)調(diào)度數(shù)據(jù)倉庫的基礎(chǔ)之上,運(yùn)用SQL Server2005的Business Intelligence Development Studio的集成環(huán)境創(chuàng)建和使用數(shù)據(jù)挖掘模型,運(yùn)用該環(huán)境下的數(shù)據(jù)挖掘算法和工具生成油氣生產(chǎn)主題的數(shù)據(jù)挖掘解決方案。然后,借助Excel2007的數(shù)據(jù)挖掘功能對數(shù)據(jù)進(jìn)行挖掘分析,對挖掘結(jié)果進(jìn)行直觀展現(xiàn)。
油氣生產(chǎn)數(shù)據(jù)挖掘除了使用Excel2007進(jìn)行數(shù)據(jù)挖掘和前端展示外,還使用了SQL Server 2005的商業(yè)智能環(huán)境下的SSAS及其相關(guān)工具。
4 Excel2007數(shù)據(jù)挖掘結(jié)果展示
數(shù)據(jù)挖掘的模型所實(shí)現(xiàn)的功能都是通過特定的挖掘算法來實(shí)現(xiàn)的,每一個功能都和挖掘的核心算法緊密相連[4]。Excel2007作為一種先進(jìn)的數(shù)據(jù)挖掘工具提供多種數(shù)據(jù)挖掘算法。這是因?yàn)橐环N算法不可能完成所有不同類型的數(shù)據(jù)挖掘任務(wù),對于某一種問題,數(shù)據(jù)本身的特性會影響用戶所選用的工具。所以用戶可能會需要用到多種不同的工具、技術(shù)、算法,從數(shù)據(jù)中找到最佳的模式。當(dāng)前數(shù)據(jù)挖掘各領(lǐng)域常用的算法,基本上都是發(fā)展比較成熟的算法。這些算法主要有:決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、遺傳算法、聚類分析等,如圖3所示。
本文結(jié)合具體的實(shí)際應(yīng)用以關(guān)聯(lián)規(guī)則算法為例。關(guān)聯(lián)規(guī)則算法的挖掘結(jié)果主要包括規(guī)則、項集和依賴關(guān)系網(wǎng)絡(luò)。針對油氣生產(chǎn)主題的原油生產(chǎn)維度表,關(guān)聯(lián)規(guī)則算法挖掘出來的部分規(guī)則如圖4所示。
關(guān)聯(lián)規(guī)則算法的依賴關(guān)系網(wǎng)絡(luò)顯示的是不同規(guī)則的關(guān)聯(lián)強(qiáng)弱,可以通過更改其強(qiáng)弱程度來查看所選結(jié)點(diǎn)都是由哪些結(jié)點(diǎn)來預(yù)測的。油氣生產(chǎn)數(shù)據(jù)涉及多個油田單位和不同的時間段,原油的日產(chǎn)數(shù)據(jù)和日注水量數(shù)據(jù)分布在不同的數(shù)據(jù)段,所以形成多個依賴網(wǎng)絡(luò)集,如圖5所示。
5 結(jié)論
Excel2007結(jié)合SQL Server的Business Intelligence Development Studio集成環(huán)境,在多種算法的支持下,具有很強(qiáng)的數(shù)據(jù)挖掘功能,同時能將挖掘結(jié)果很好的展示給用戶,在實(shí)際的生產(chǎn)或研究中對海量數(shù)據(jù)的分析具有重要意義,能基本滿足實(shí)際的數(shù)據(jù)分析需求。對于實(shí)際應(yīng)用中不同類型的數(shù)據(jù),以及具體的分析需求需要選擇不同的算法去實(shí)現(xiàn)的問題,還需要進(jìn)一步的研究。
參考文獻(xiàn):
[1] 張俊澤. 數(shù)據(jù)挖掘在石油行業(yè)資金管理中的應(yīng)用[D]. 天津: 天津大學(xué), 2008: 2.
[2] 董永剛. 數(shù)據(jù)挖掘在生產(chǎn)調(diào)度指揮系統(tǒng)中的應(yīng)用研究[D]. 西安: 西安石油大學(xué), 2011.
[3] 朱德利. SQL SERVER 2005數(shù)據(jù)挖掘與商業(yè)智能完全解決方案[M]. 北京: 電子工業(yè)出版社, 2007.
[4] 張大可. 數(shù)據(jù)挖掘技術(shù)在火災(zāi)事故分析中的應(yīng)用研究[D]. 北京: 首都經(jīng)濟(jì)貿(mào)易大學(xué), 2010.