基于XML的Web分布式數(shù)據(jù)挖掘系統(tǒng)研究

2013-12-29 00:00:00魏爽

電腦知識與技術(shù) 2013年13期

摘要：在目前很多網(wǎng)站都是基于HTML的，要對Web進(jìn)行挖掘面臨很多困難。XML的出現(xiàn)給基于Web的數(shù)據(jù)挖掘帶來便利。利用XML和分布式數(shù)據(jù)挖掘技術(shù)將分布在世界各地的Web數(shù)據(jù)映射為結(jié)構(gòu)化的數(shù)據(jù)，建立一個(gè)具有基本挖掘功能的分布式挖掘模型，并給出實(shí)現(xiàn)方案。

關(guān)鍵詞：Web；數(shù)據(jù)挖掘；分布式；Agent

中圖分類號：TP311 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-3044（2013）13-2964-03

Internet出現(xiàn)以來，以其豐富的資源吸引了大量的用戶。隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展，Web服務(wù)越來受歡迎，Web頁面的數(shù)量也在以驚人的速度增漲。而蘊(yùn)含在這些Web中的知識卻沒能得到充分的利用。近年來，數(shù)據(jù)挖掘與Web的研究成為了兩大研究課題，而兩者的結(jié)合更是構(gòu)成了一個(gè)新的課題，即Web數(shù)據(jù)挖掘研究。Internet是一個(gè)開放性的全球分布式網(wǎng)絡(luò)，Web分布在全世界的各個(gè)地方，且Web上的資源呈現(xiàn)出多樣性、半結(jié)構(gòu)化或非結(jié)構(gòu)化等特點(diǎn)，這都給Web數(shù)據(jù)挖掘帶來了一定的困難。XML能夠?qū)⒉煌瑏碓吹臄?shù)據(jù)很容易結(jié)合在一起，提供易于使用的數(shù)據(jù)，為Web數(shù)據(jù)挖掘帶來了新的契機(jī)。結(jié)合Web的分布式特性及Web數(shù)據(jù)的特點(diǎn)，提出一種基于XML的Web分布式數(shù)據(jù)挖掘模型。

1 Web數(shù)據(jù)挖掘技術(shù)

1.1 Web數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘就是從大量的、有噪聲的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中，提取隱含在其中的、人們感興趣的、潛在有用的信息和知識的過程[1，2]。隨著Internet的發(fā)展，越來越多的服務(wù)和信息通過Web的形式提供給使用者。這使得Web數(shù)據(jù)挖掘日益受到重視。相對在傳統(tǒng)的數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘而言，Web上的數(shù)據(jù)挖掘難度較大，體現(xiàn)出以下幾個(gè)特點(diǎn)：

1）半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點(diǎn)。

2）Web上的每一個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源，每個(gè)數(shù)據(jù)源都是異構(gòu)的，因而每一站點(diǎn)之間的信息和組織都不一樣，這就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。

3）Web頁面散布在世界各地的Web服務(wù)器上，形成了分布式數(shù)據(jù)源。

4）Web是一個(gè)動態(tài)性極強(qiáng)的信息源，不僅增長速度快，而且信息也在不斷的快速更新，各站點(diǎn)的鏈接信息和訪問記錄的更新非常頻繁。

5）Web包含了各種信息和資源，有文本數(shù)據(jù)、超文本數(shù)據(jù)、圖表、圖像、音頻和視頻等，具有多樣性和復(fù)雜性的特點(diǎn)。

1.2 XML基本概念

XML全稱為可擴(kuò)展標(biāo)記語言，是由標(biāo)準(zhǔn)通用標(biāo)記語言SGML派生而來的，是由國際互聯(lián)網(wǎng)協(xié)會在1998年正式提出來的[3]。XML是一種跨平臺標(biāo)準(zhǔn)，可運(yùn)行在任何平臺和操作系統(tǒng)上。XML具備自描述性、可擴(kuò)展性、結(jié)構(gòu)性、內(nèi)容和表現(xiàn)分離、平臺獨(dú)立性、靈活性、規(guī)范、簡單等特點(diǎn)。使用XML能夠?qū)⒉煌瑏碓吹臄?shù)據(jù)很容易地結(jié)合在一起，為解決Web數(shù)據(jù)挖掘的難題帶來了便利。

2 分布式數(shù)據(jù)挖掘的概念

分布式數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)和分布式計(jì)算的有機(jī)結(jié)合，主要用于分布式環(huán)境下的數(shù)據(jù)模式發(fā)現(xiàn)。

由于Web頁面散布在世界各地的服務(wù)器上，數(shù)據(jù)量大，如果將這些數(shù)據(jù)集中到一起進(jìn)行集中式數(shù)據(jù)挖掘?qū)a(chǎn)生明顯的缺陷：首先，把大量數(shù)據(jù)集中到一起響應(yīng)時(shí)間過長，浪費(fèi)大量網(wǎng)絡(luò)帶寬資源；其次，挖掘算法通常需要大量的計(jì)算資源，這對執(zhí)行挖掘的計(jì)算機(jī)的性能要求高；此外，數(shù)據(jù)的安全性、私有性等都會受到威脅和破壞。為了挖掘分散在Internet上的Web頁面信息，必須利用分布式數(shù)據(jù)挖掘技術(shù)。

Agent技術(shù)是在人工智能、網(wǎng)絡(luò)技術(shù)尤其是Internet發(fā)展以及決策支持系統(tǒng)等技術(shù)基礎(chǔ)上發(fā)展起來的。Agent能自我控制其狀態(tài)和行為，能在無人或其它程序介入時(shí)操作和運(yùn)行[4]。由Agent完成復(fù)雜的信息檢查、分析和處理工作，形成智能化的數(shù)據(jù)倉庫。并且多個(gè)Agent之間能進(jìn)行相互協(xié)作，共同完成復(fù)雜的任務(wù)。移動Agent可以自主地在異構(gòu)的網(wǎng)絡(luò)上，按照一定規(guī)則自行移動、尋找所需資源?？梢岳镁哂幸苿有缘腁gent在網(wǎng)絡(luò)上搜索Web信息。由于具有這些特點(diǎn)，Agent技術(shù)在分布式數(shù)據(jù)挖掘中得到越來越多的應(yīng)用。

3 基于XML的Web分布式數(shù)據(jù)挖掘系統(tǒng)模型

3.1 基本原理

本模型的基本思想是，通過把現(xiàn)有的Web頁面轉(zhuǎn)換成XML格式，通過處理XML結(jié)構(gòu)的數(shù)據(jù)以獲取感興趣的信息，將這些信息存儲在數(shù)據(jù)庫中備用。也可根據(jù)需要直接從Web上獲取轉(zhuǎn)換為XML的信息。

1）用戶層

該層提供用戶與系統(tǒng)進(jìn)行交互的接口，主要完成用戶身份驗(yàn)證、用戶輸入的數(shù)據(jù)采集、挖掘的過程和輸出最終結(jié)果等。用戶可以通過人機(jī)接口進(jìn)行選擇挖掘模型、數(shù)據(jù)源、知識類型、指定特定模型的相關(guān)參數(shù)等操作。

2）系統(tǒng)控制層

系統(tǒng)控制層控制整個(gè)系統(tǒng)的有效運(yùn)行，由用戶管理Agent、調(diào)度控制Agent、優(yōu)化Agent、知識過濾Agent、移動代理控制中心、元知識庫和全局知識庫組成。

用戶管理Agent負(fù)責(zé)處理用戶的輸入請求信息并向用戶輸出處理結(jié)果。調(diào)度控制Agent對系統(tǒng)各組成部分進(jìn)行協(xié)調(diào)，提供系統(tǒng)的狀態(tài)信息，對用戶的挖掘請求任務(wù)進(jìn)行解析、轉(zhuǎn)化、分解，形成一組子任務(wù)，交給移動代理控制中心。優(yōu)化Agent對可行的分布式數(shù)據(jù)挖掘方案進(jìn)行代價(jià)評估并做出最佳選擇。分布式數(shù)據(jù)挖掘移動代理控制中心負(fù)責(zé)對調(diào)度控制Agent的指示進(jìn)行響應(yīng)，激活、產(chǎn)生、派遣分布式數(shù)據(jù)挖掘所需的所有移動Agent，并將挖掘的知識存入知識庫中。知識過濾Agent負(fù)責(zé)篩選對用戶有用的知識，通過用戶管理Agent傳遞給人機(jī)接口端的用戶。元數(shù)據(jù)庫描述系統(tǒng)的數(shù)據(jù)和環(huán)境。全局知識庫存儲挖掘得到的知識。

3）數(shù)據(jù)挖掘?qū)?/p>

4）數(shù)據(jù)源層

3.3 系統(tǒng)模型的實(shí)現(xiàn)

Java語言具有良好的跨平臺性，對XML文件的處理支持比較全面，故本系統(tǒng)主要用Java實(shí)現(xiàn)：利用Java的Swing實(shí)現(xiàn)用戶界面；利用Java的JDBC實(shí)現(xiàn)數(shù)據(jù)庫的訪問操作；用Java及Java實(shí)現(xiàn)的解析器處理XML文件；通過Java的遠(yuǎn)程方法調(diào)用實(shí)現(xiàn)分布式計(jì)算。

4 結(jié)束語

Web的復(fù)雜性決定了Web數(shù)據(jù)挖掘不能用傳統(tǒng)的數(shù)據(jù)挖掘模式，該文根據(jù)Web資源的特性，結(jié)合XML的優(yōu)點(diǎn)及分布式數(shù)據(jù)挖掘的特點(diǎn)，提出了基于XML的Web分布式數(shù)據(jù)挖掘模型，并給出了實(shí)現(xiàn)方案。隨著人工智能技術(shù)的發(fā)展，越來越多的智能技術(shù)可以用到Web數(shù)據(jù)挖掘中來。

參考文獻(xiàn)：

[1] 蘇新寧. 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[M].北京：清華大學(xué)出版社，2006.

[2] 陳安，陳寧，周龍?bào)J.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京：科學(xué)出版社，2006.

[3] 崔建群.基于XML的Web數(shù)據(jù)挖掘關(guān)鍵技術(shù)的研究[J].計(jì)算機(jī)工程，2006（20）：43-77.

[4] 金劍. 基于移動代理的分布式知識發(fā)現(xiàn)系統(tǒng)研究[D].浙江：浙江大學(xué)，2005.

[5] 林亞男.一種基于Web服務(wù)的數(shù)據(jù)挖掘系統(tǒng)框架的研究與實(shí)現(xiàn)[D].武漢：華中科技大學(xué)，2007.

[6] 莊艷，陳繼明，徐丹，等.基于multi-agents系統(tǒng)的分布式數(shù)據(jù)挖掘[J].計(jì)算機(jī)科學(xué)， 2007，34（12）：163-167.

電腦知識與技術(shù)2013年13期

電腦知識與技術(shù)的其它文章: 高校辦公系統(tǒng)的分析與設(shè)計(jì); 基于SaaS模式的中小企業(yè)電子商務(wù)信息化服務(wù)平臺架構(gòu); 基于Simulink的光伏電池組件建模及仿真研究; 三維虛擬產(chǎn)品展示系統(tǒng)的開發(fā)與研究; DSP的軟件系統(tǒng)下的無線電雷達(dá)應(yīng)用技術(shù)研究; 計(jì)算機(jī)組裝與維修維護(hù)課的課程設(shè)計(jì)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于XML的Web分布式數(shù)據(jù)挖掘系統(tǒng)研究