国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘可視化系統(tǒng)設計與實現(xiàn)

2015-05-30 07:55楊健章關婷婷曲婷婷王璐
科技創(chuàng)新與應用 2015年16期
關鍵詞:數(shù)據(jù)預處理數(shù)據(jù)挖掘

楊健章 關婷婷 曲婷婷 王璐

摘 要:針對當前數(shù)據(jù)可視化工具的種類、質(zhì)量和靈活性上存在的不足,構建一個數(shù)據(jù)挖掘可視化平臺。將獲取的數(shù)據(jù)集上傳到系統(tǒng)分布式數(shù)據(jù)庫中,對數(shù)據(jù)集進行預處理,利用Mahout提供的分類、聚類等挖掘算法對數(shù)據(jù)集進行挖掘,使用ECharts將挖掘產(chǎn)生的結果進行可視化展示。

關鍵詞:數(shù)據(jù)挖掘;可視化展示;數(shù)據(jù)預處理;挖掘算法

引言

在大數(shù)據(jù)時代,通過數(shù)據(jù)挖掘可以對數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉換、分析和其他模型化處理,從而提取輔助商業(yè)決策的關鍵性信息,幫助企業(yè)做出決策。豐富而靈活的數(shù)據(jù)挖掘結果可視化技術使抽象的信息以簡明的形式呈現(xiàn)出來,加深用戶對數(shù)據(jù)含義的理解,更好地了解數(shù)據(jù)之間的相互關系和發(fā)展趨勢。然而當前數(shù)據(jù)可視化工具的種類、質(zhì)量和靈活性較大的影響數(shù)據(jù)挖掘系統(tǒng)的使用、解釋能力和吸引力。

這就需要使用分布式大數(shù)據(jù)處理技術進行數(shù)據(jù)的存儲和計算,構建一個數(shù)據(jù)挖掘可視化平臺,通過多種挖掘算法實現(xiàn)對原始數(shù)據(jù)集進行挖掘,從而發(fā)現(xiàn)數(shù)據(jù)中有用的信息。

1 關鍵技術

1.1 MapReduce離線計算框架

一種在YARN系統(tǒng)之上的大數(shù)集離線計算框架,使用MapReduce可以并行的對原始數(shù)據(jù)集進行計算處理,從而高效的得出結果。

1.2 HBase分布式數(shù)據(jù)庫

一個構建在Hadoop之上分布式的、面向列的開源數(shù)據(jù)庫。HBase不同于一般的關系數(shù)據(jù)庫,它是一個適合于非結構化數(shù)據(jù)存儲的數(shù)據(jù)庫。

1.3 Mahout

Apache Software Foundation旗下的一個開源項目,提供一些可擴展的機器學習領域經(jīng)典算法的實現(xiàn),包括聚類、分類、推薦過濾、頻繁子項挖掘等。

1.4 ECharts

一種商業(yè)級報表,創(chuàng)建了坐標系,圖例,提示,工具箱等基礎組件,并在此上構建出折線圖、柱狀圖、散點圖、K線圖、餅圖、雷達圖、地圖、和弦圖、力導向布局圖、儀表盤以及漏斗圖,同時支持任意緯度的堆積和多圖表混合實現(xiàn)。

2 系統(tǒng)設計

數(shù)據(jù)挖掘可視化系統(tǒng)包括數(shù)據(jù)預處理、挖掘算法、可視化顯示三大核心模塊。

2.1 數(shù)據(jù)預處理

通過上傳接口將數(shù)據(jù)集上傳到分布式數(shù)據(jù)庫HBase中,對數(shù)據(jù)進行預處理后,將處理后的的數(shù)據(jù)集存儲留待挖掘時使用。

2.2 挖掘算法

使用開源的數(shù)據(jù)挖掘框架Mahout,對所需挖掘的算法進行相關的參數(shù)設定,完成相關算法的挖掘。

2.3 可視化顯示

挖掘之后的相關結果存放到MySql數(shù)據(jù)庫中,前臺從數(shù)據(jù)庫中獲取挖掘結果,并且使用ECharts進行可視化顯示,用戶通過前臺提供的可視化結果進行數(shù)據(jù)分析,從而獲取所需要的信息。

3 系統(tǒng)實現(xiàn)

本系統(tǒng)在操作系統(tǒng)之上構造了HDFS分布式文件系統(tǒng),本地文件系統(tǒng)與分布式文件系統(tǒng)共同存在。在本地文件系統(tǒng)之上組織了關系型數(shù)據(jù)庫MySql和分布式數(shù)據(jù)庫HBase集群,其中MySql用來存儲管理員賬戶信息和少量的數(shù)據(jù)信息,HBase用來存儲用戶上傳的數(shù)據(jù)集。文件系統(tǒng)和數(shù)據(jù)庫之上使用分布式計算框架MapReduce和Mahout數(shù)據(jù)挖掘包,對用戶的數(shù)據(jù)集進行分類、聚類、關聯(lián)規(guī)則等挖掘。后臺管理員界面選擇數(shù)據(jù)集以及挖掘參數(shù)的設定,前臺用戶界面通過圖表形式展示挖掘結果,幫助用戶進行數(shù)據(jù)分析。系統(tǒng)中用到的開發(fā)工具如表1所示。

4 結束語

現(xiàn)有的數(shù)據(jù)挖掘可視化工具種類在國內(nèi)相對較少,在質(zhì)量上對用戶的展示缺乏交互性,且對于數(shù)據(jù)集的挖掘靈活性上比較欠缺。采用了當前在數(shù)據(jù)挖掘及其可視化領域相對比較成熟的技術,用戶可以對挖掘結果的展示進行交互、下載、打印等操作。用戶只需將數(shù)據(jù)集上傳到系統(tǒng)中,設置相關挖掘參數(shù)即可實現(xiàn)對數(shù)據(jù)集的挖掘,提取有用的數(shù)據(jù),通過直觀的圖表進行分析。

參考文獻

[1]胡俊.數(shù)據(jù)挖掘可視化模型機器應用[D].北京交通大學,2009.

[2]施惠娟,孫蕾,李由.關聯(lián)規(guī)則下數(shù)據(jù)挖掘可視化技術的探討與實現(xiàn)[D].華東師范大學,2010.

[3]李淵.基于K-means算法的數(shù)據(jù)挖掘可視化技術的應用研究[D].北京交通大學,2008.

作者簡介:楊健章(1991-),男,大四學生,專業(yè):計算機科學與技術。

*通訊作者:王璐(1980-),女,碩士,講師,主要研究方向:計算機應用。

猜你喜歡
數(shù)據(jù)預處理數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
基于小轎車車門拉手的逆向建模設計
自動氣象站數(shù)據(jù)預處理方法
數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
芻議電力系統(tǒng)規(guī)劃設計在電力工程設計中的應用
慢性乙肝癥狀與生物信息相關性的數(shù)據(jù)挖掘研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
中醫(yī)方劑數(shù)據(jù)庫文本挖掘數(shù)據(jù)預處理的嘗試
數(shù)據(jù)挖掘的分析與探索
旅游| 佛坪县| 庆阳市| 项城市| 浮梁县| 房产| 融水| 南城县| 都昌县| 和政县| 衡阳市| 宁夏| 广东省| 台前县| 靖宇县| 富锦市| 东明县| 米林县| 泽普县| 临沭县| 玉环县| 明光市| 信丰县| 穆棱市| 瓦房店市| 奉贤区| 怀柔区| 乌鲁木齐市| 喀喇| 黎平县| 资阳市| 绿春县| 阜宁县| 西安市| 信丰县| 成都市| 沈阳市| 仁化县| 崇左市| 安陆市| 襄城县|