范蘇穎
重慶文理學(xué)院
數(shù)據(jù)挖掘可視化技術(shù)的研究與實現(xiàn)
范蘇穎
重慶文理學(xué)院
如果把數(shù)據(jù)挖掘和可視化技術(shù)結(jié)合起來,就可以彌補傳統(tǒng)數(shù)據(jù)挖掘中的缺陷,進而加強數(shù)據(jù)挖掘的處理過程。數(shù)據(jù)挖掘可視化正好把數(shù)據(jù)挖掘和可視化技術(shù)完美的結(jié)合在一起。
數(shù)據(jù)挖掘 可視化技術(shù) 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是把有意義的知識從數(shù)據(jù)倉庫、數(shù)據(jù)庫或者其他信息庫的大量數(shù)據(jù)中挖掘出來的過程。它是數(shù)據(jù)管理與分析技術(shù)不斷進化的結(jié)果。由于挖掘過程是看不見的,用戶很難參與進去,而挖掘出來的結(jié)果通常只有專業(yè)的數(shù)據(jù)挖掘人員才能夠理解,因此挖掘的結(jié)果很難取得用戶的信任。如何解決這個難題呢?因為顏色、圖形和圖像是很形象直觀的,所以可以把數(shù)據(jù)挖掘與可視化技術(shù)進行結(jié)合,這樣就可以彌補傳統(tǒng)數(shù)據(jù)挖掘中的缺陷,進而加強數(shù)據(jù)挖掘的處理過程。
數(shù)據(jù)挖掘可視化技術(shù)強調(diào)以人為本,充分利用人類在知識領(lǐng)域的感知能力,讓用戶對挖掘結(jié)果進行理解和利用。數(shù)據(jù)挖掘可視化技術(shù)的應(yīng)用具有形象性和直觀性,可以讓更多的人參與和指導(dǎo)挖掘過程,因而使數(shù)據(jù)挖掘結(jié)果的可理解性、可信度和可用性得到了提高。數(shù)據(jù)挖掘可視化技術(shù)是把可視化技術(shù)與數(shù)據(jù)挖掘技術(shù)結(jié)合在一起,數(shù)據(jù)挖掘中的可視化技術(shù)按目的可分為三類:表示型、探索型和驗證型。表示型是選擇有效的技術(shù)和手段來表示數(shù)據(jù);探索型是人們事先沒有任何關(guān)于數(shù)據(jù)的知識,通過利用可視化技術(shù)分析數(shù)據(jù)的結(jié)構(gòu)以及變化趨勢,進而得到有關(guān)數(shù)據(jù)的假設(shè);驗證型是人們利用可視化來驗證或者拒絕關(guān)于數(shù)據(jù)的假設(shè)。
數(shù)據(jù)挖掘可視化技術(shù)是把可視化技術(shù)與數(shù)據(jù)挖掘技術(shù)結(jié)合在一起,它通過運用圖像處理技術(shù)、計算機圖形學(xué)等,把數(shù)據(jù)挖掘的源數(shù)據(jù)、中間結(jié)果和最終挖掘結(jié)果,轉(zhuǎn)變成便于理解的圖形、圖像等方式,對理論、方法和技術(shù)進行交互處理。按照數(shù)據(jù)挖掘可視化技術(shù)應(yīng)用的不同階段,可以把數(shù)據(jù)挖掘可視化技術(shù)劃分為源數(shù)據(jù)的可視化、挖掘過程的可視化和結(jié)果的可視化。源數(shù)據(jù)的可視化是指在沒有進行挖掘算法之前就可以直接可視化數(shù)據(jù)。而源數(shù)據(jù)可視化是用來展示源數(shù)據(jù)是怎樣化分的,數(shù)據(jù)倉庫中的數(shù)據(jù)可以看成是不同粒度或者是不同的抽象級別,數(shù)據(jù)可以用多種可視性的方式來進行描述,比如三維立方體、曲線、數(shù)據(jù)分布圖表、盒狀圖、連接圖、曲面等,或者是由以上幾種方式的任意組合來完成數(shù)據(jù)組織的可視化。傳統(tǒng)的幾何方法可以根據(jù)數(shù)據(jù)分析的目的不同,采用點圖、餅圖、線圖、柱狀圖等不同的方法。數(shù)據(jù)挖掘過程可視化是指采用可視化的形式對數(shù)據(jù)挖掘過程進行描述,也就是說挖掘過程和可視化過程是同時進行的。伴隨著挖掘過程的進行,挖掘的中間結(jié)果和最終結(jié)果都會及時顯示出來。在這個過程中,用戶如果對挖掘的模式不滿意,可以隨時進行更改,調(diào)整系統(tǒng)參數(shù)甚至停止進行挖掘,然后再對挖掘進行指導(dǎo),直到滿意為止。在挖掘過程中,用戶可以觀察到數(shù)據(jù)是從哪里抽取的,如何抽取、怎么進行清理、集成、預(yù)處理以及挖掘的。并且可以指導(dǎo)如何表現(xiàn)挖掘的結(jié)果和把挖掘的結(jié)果放在哪里,做到在挖掘過程中及時和用戶進行交流。數(shù)據(jù)挖掘結(jié)果的可視化是指在對數(shù)據(jù)庫中的數(shù)據(jù)進行挖掘以后,可以把信息結(jié)果用可視化的方法表示出來。如果用戶對挖掘結(jié)果不滿意,可以重新可視化挖掘,最后形成知識??梢暬梢杂脳l形圖、時序列圖、高低區(qū)域圖、柱狀圖、餅圖來表示關(guān)聯(lián)規(guī)則、孤立點、決策樹、概化規(guī)則以及簇等。除此以外可視化技術(shù)還可以和一些變形與交互技術(shù)相結(jié)合,用以實現(xiàn)更有效的數(shù)據(jù)挖掘。比如可以采用標(biāo)準(zhǔn)2D/3D技術(shù)、基于圖標(biāo)技術(shù)、幾何轉(zhuǎn)換技術(shù)、分層技術(shù)、面向像素技術(shù)等。
數(shù)據(jù)挖掘可視化技術(shù)的研究與實現(xiàn)主要利用Java2D、AWT、Swing、技術(shù)結(jié)合JFreeChart開源工具包和Java3D技術(shù)開發(fā)實現(xiàn)。數(shù)據(jù)可視化技術(shù)的實現(xiàn)是指數(shù)據(jù)的可視化部分。包括兩個方面,一個是對單個數(shù)據(jù)屬性的二維展示,另一個是對整體數(shù)據(jù)集可視化的呈現(xiàn);結(jié)果可視化技術(shù)的實現(xiàn)是指采用基于三維坐標(biāo)的方法對挖掘結(jié)果可視化。這個方法可以清晰直觀的表示關(guān)聯(lián)規(guī)則??梢杂行У谋苊饨缑娴奈蓙y、歧義和遮蔽,也可以有效的表示出多對多和多維的關(guān)聯(lián)規(guī)則;可視化交互的實現(xiàn)是指用戶可以與可視化圖形交互,對它產(chǎn)生的關(guān)聯(lián)規(guī)則進行篩選和排序,除此之外還可以把結(jié)果進行縮放、旋轉(zhuǎn)、或者移動,從而得到關(guān)聯(lián)規(guī)則挖掘結(jié)果的多角度可視圖;過程可視化技術(shù)的實現(xiàn)是指為了方便比較和驗證過程可視化技術(shù)的有效性和優(yōu)越性,可以對挖掘過程采用文字化的表達(dá)方式,和基于平行坐標(biāo)的表示方法?;谄叫凶鴺?biāo)的方法是對傳統(tǒng)的平行坐標(biāo)方法的一種改進,可以對平行坐標(biāo)的每一條坐標(biāo)軸都進行一次掃描。所有的數(shù)據(jù)在軸上是均勻分布的。為了避免產(chǎn)生界面混亂的問題,各個項集支持度的軸間連線可以用不同的顏色來描述。并且用戶還可以根據(jù)中間結(jié)果來調(diào)整算法的參數(shù)以及約束條件以改善挖掘結(jié)果,使挖掘質(zhì)量得到提高,從而提升用戶對挖掘結(jié)果的信賴。
目前,數(shù)據(jù)挖掘可視化技術(shù)與知識發(fā)現(xiàn)的集成問題引起很多學(xué)者的重視,許多人開始了這方面的研究。通常人們認(rèn)為把數(shù)據(jù)挖掘可視化技術(shù)和知識發(fā)現(xiàn)結(jié)合在一起,關(guān)鍵在于建立共享的數(shù)據(jù)模型,從而能夠幫助用戶進行直觀的引導(dǎo)和選擇工具集。并且建立下個交互式的任務(wù)驅(qū)動,讓用戶可以根據(jù)中間結(jié)果對過程進行監(jiān)控和引導(dǎo),直到得到滿意的結(jié)果。
[1]余世銀、樂嘉錦等.數(shù)據(jù)挖掘可視化研究[K].東華大學(xué)學(xué)報(自然科學(xué)版),2001,(4):102-106
[2]楊俊、文堂柳.可視化數(shù)據(jù)挖掘方法與技術(shù)[J].福建電腦,2008,24(8):59,95
[3]還繼民.開發(fā)Eclipse插件[J].電腦知識與技術(shù),2005(3):22-25
[4]羅文靜.數(shù)據(jù)挖掘中可視化技術(shù)研究與實現(xiàn)[D].成都:電子科技大學(xué),2007
[5]劉玲.基于數(shù)據(jù)挖掘系統(tǒng)的可視化技術(shù)研究[D].北京:北京工業(yè)大學(xué),2010