摘要:在目前很多網(wǎng)站都是基于HTML的,要對Web進(jìn)行挖掘面臨很多困難。XML的出現(xiàn)給基于Web的數(shù)據(jù)挖掘帶來便利。利用XML和分布式數(shù)據(jù)挖掘技術(shù)將分布在世界各地的Web數(shù)據(jù)映射為結(jié)構(gòu)化的數(shù)據(jù),建立一個(gè)具有基本挖掘功能的分布式挖掘模型,并給出實(shí)現(xiàn)方案。
關(guān)鍵詞:Web;數(shù)據(jù)挖掘;分布式;Agent
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2013)13-2964-03
Internet出現(xiàn)以來,以其豐富的資源吸引了大量的用戶。隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,Web服務(wù)越來受歡迎,Web頁面的數(shù)量也在以驚人的速度增漲。而蘊(yùn)含在這些Web中的知識卻沒能得到充分的利用。近年來,數(shù)據(jù)挖掘與Web的研究成為了兩大研究課題,而兩者的結(jié)合更是構(gòu)成了一個(gè)新的課題,即Web數(shù)據(jù)挖掘研究。Internet是一個(gè)開放性的全球分布式網(wǎng)絡(luò),Web分布在全世界的各個(gè)地方,且Web上的資源呈現(xiàn)出多樣性、半結(jié)構(gòu)化或非結(jié)構(gòu)化等特點(diǎn),這都給Web數(shù)據(jù)挖掘帶來了一定的困難。XML能夠?qū)⒉煌瑏碓吹臄?shù)據(jù)很容易結(jié)合在一起,提供易于使用的數(shù)據(jù),為Web數(shù)據(jù)挖掘帶來了新的契機(jī)。結(jié)合Web的分布式特性及Web數(shù)據(jù)的特點(diǎn),提出一種基于XML的Web分布式數(shù)據(jù)挖掘模型。
1 Web數(shù)據(jù)挖掘技術(shù)
1.1 Web數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘就是從大量的、有噪聲的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們感興趣的、潛在有用的信息和知識的過程[1,2]。隨著Internet的發(fā)展,越來越多的服務(wù)和信息通過Web的形式提供給使用者。這使得Web數(shù)據(jù)挖掘日益受到重視。相對在傳統(tǒng)的數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘而言,Web上的數(shù)據(jù)挖掘難度較大,體現(xiàn)出以下幾個(gè)特點(diǎn):
1)半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點(diǎn)。
2)Web上的每一個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源,每個(gè)數(shù)據(jù)源都是異構(gòu)的,因而每一站點(diǎn)之間的信息和組織都不一樣,這就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。
3)Web頁面散布在世界各地的Web服務(wù)器上,形成了分布式數(shù)據(jù)源。
4)Web是一個(gè)動態(tài)性極強(qiáng)的信息源,不僅增長速度快,而且信息也在不斷的快速更新,各站點(diǎn)的鏈接信息和訪問記錄的更新非常頻繁。
5)Web包含了各種信息和資源,有文本數(shù)據(jù)、超文本數(shù)據(jù)、圖表、圖像、音頻和視頻等,具有多樣性和復(fù)雜性的特點(diǎn)。
1.2 XML基本概念
XML全稱為可擴(kuò)展標(biāo)記語言,是由標(biāo)準(zhǔn)通用標(biāo)記語言SGML派生而來的,是由國際互聯(lián)網(wǎng)協(xié)會在1998年正式提出來的[3]。XML是一種跨平臺標(biāo)準(zhǔn),可運(yùn)行在任何平臺和操作系統(tǒng)上。XML具備自描述性、可擴(kuò)展性、結(jié)構(gòu)性、內(nèi)容和表現(xiàn)分離、平臺獨(dú)立性、靈活性、規(guī)范、簡單等特點(diǎn)。使用XML能夠?qū)⒉煌瑏碓吹臄?shù)據(jù)很容易地結(jié)合在一起,為解決Web數(shù)據(jù)挖掘的難題帶來了便利。
2 分布式數(shù)據(jù)挖掘的概念
分布式數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)和分布式計(jì)算的有機(jī)結(jié)合,主要用于分布式環(huán)境下的數(shù)據(jù)模式發(fā)現(xiàn)。
由于Web頁面散布在世界各地的服務(wù)器上,數(shù)據(jù)量大,如果將這些數(shù)據(jù)集中到一起進(jìn)行集中式數(shù)據(jù)挖掘?qū)a(chǎn)生明顯的缺陷:首先,把大量數(shù)據(jù)集中到一起響應(yīng)時(shí)間過長,浪費(fèi)大量網(wǎng)絡(luò)帶寬資源;其次,挖掘算法通常需要大量的計(jì)算資源,這對執(zhí)行挖掘的計(jì)算機(jī)的性能要求高;此外,數(shù)據(jù)的安全性、私有性等都會受到威脅和破壞。為了挖掘分散在Internet上的Web頁面信息,必須利用分布式數(shù)據(jù)挖掘技術(shù)。
Agent技術(shù)是在人工智能、網(wǎng)絡(luò)技術(shù)尤其是Internet發(fā)展以及決策支持系統(tǒng)等技術(shù)基礎(chǔ)上發(fā)展起來的。Agent能自我控制其狀態(tài)和行為,能在無人或其它程序介入時(shí)操作和運(yùn)行[4]。由Agent完成復(fù)雜的信息檢查、分析和處理工作,形成智能化的數(shù)據(jù)倉庫。并且多個(gè)Agent之間能進(jìn)行相互協(xié)作,共同完成復(fù)雜的任務(wù)。移動Agent可以自主地在異構(gòu)的網(wǎng)絡(luò)上,按照一定規(guī)則自行移動、尋找所需資源??梢岳镁哂幸苿有缘腁gent在網(wǎng)絡(luò)上搜索Web信息。由于具有這些特點(diǎn),Agent技術(shù)在分布式數(shù)據(jù)挖掘中得到越來越多的應(yīng)用。
3 基于XML的Web分布式數(shù)據(jù)挖掘系統(tǒng)模型
3.1 基本原理
本模型的基本思想是,通過把現(xiàn)有的Web頁面轉(zhuǎn)換成XML格式,通過處理XML結(jié)構(gòu)的數(shù)據(jù)以獲取感興趣的信息,將這些信息存儲在數(shù)據(jù)庫中備用。也可根據(jù)需要直接從Web上獲取轉(zhuǎn)換為XML的信息。
1)用戶層
該層提供用戶與系統(tǒng)進(jìn)行交互的接口,主要完成用戶身份驗(yàn)證、用戶輸入的數(shù)據(jù)采集、挖掘的過程和輸出最終結(jié)果等。用戶可以通過人機(jī)接口進(jìn)行選擇挖掘模型、數(shù)據(jù)源、知識類型、指定特定模型的相關(guān)參數(shù)等操作。
2)系統(tǒng)控制層
系統(tǒng)控制層控制整個(gè)系統(tǒng)的有效運(yùn)行,由用戶管理Agent、調(diào)度控制Agent、優(yōu)化Agent、知識過濾Agent、移動代理控制中心、元知識庫和全局知識庫組成。
用戶管理Agent負(fù)責(zé)處理用戶的輸入請求信息并向用戶輸出處理結(jié)果。調(diào)度控制Agent對系統(tǒng)各組成部分進(jìn)行協(xié)調(diào),提供系統(tǒng)的狀態(tài)信息,對用戶的挖掘請求任務(wù)進(jìn)行解析、轉(zhuǎn)化、分解,形成一組子任務(wù),交給移動代理控制中心。優(yōu)化Agent對可行的分布式數(shù)據(jù)挖掘方案進(jìn)行代價(jià)評估并做出最佳選擇。分布式數(shù)據(jù)挖掘移動代理控制中心負(fù)責(zé)對調(diào)度控制Agent的指示進(jìn)行響應(yīng),激活、產(chǎn)生、派遣分布式數(shù)據(jù)挖掘所需的所有移動Agent,并將挖掘的知識存入知識庫中。知識過濾Agent負(fù)責(zé)篩選對用戶有用的知識,通過用戶管理Agent傳遞給人機(jī)接口端的用戶。元數(shù)據(jù)庫描述系統(tǒng)的數(shù)據(jù)和環(huán)境。全局知識庫存儲挖掘得到的知識。
3)數(shù)據(jù)挖掘?qū)?/p>
4)數(shù)據(jù)源層
3.3 系統(tǒng)模型的實(shí)現(xiàn)
Java語言具有良好的跨平臺性,對XML文件的處理支持比較全面,故本系統(tǒng)主要用Java實(shí)現(xiàn):利用Java的Swing實(shí)現(xiàn)用戶界面;利用Java的JDBC實(shí)現(xiàn)數(shù)據(jù)庫的訪問操作;用Java及Java實(shí)現(xiàn)的解析器處理XML文件;通過Java的遠(yuǎn)程方法調(diào)用實(shí)現(xiàn)分布式計(jì)算。
4 結(jié)束語
Web的復(fù)雜性決定了Web數(shù)據(jù)挖掘不能用傳統(tǒng)的數(shù)據(jù)挖掘模式,該文根據(jù)Web資源的特性,結(jié)合XML的優(yōu)點(diǎn)及分布式數(shù)據(jù)挖掘的特點(diǎn),提出了基于XML的Web分布式數(shù)據(jù)挖掘模型,并給出了實(shí)現(xiàn)方案。隨著人工智能技術(shù)的發(fā)展,越來越多的智能技術(shù)可以用到Web數(shù)據(jù)挖掘中來。
參考文獻(xiàn):
[1] 蘇新寧. 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2006.
[2] 陳安,陳寧,周龍?bào)J.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京:科學(xué)出版社,2006.
[3] 崔建群.基于XML的Web數(shù)據(jù)挖掘關(guān)鍵技術(shù)的研究[J].計(jì)算機(jī)工程,2006(20):43-77.
[4] 金劍. 基于移動代理的分布式知識發(fā)現(xiàn)系統(tǒng)研究[D].浙江:浙江大學(xué),2005.
[5] 林亞男.一種基于Web服務(wù)的數(shù)據(jù)挖掘系統(tǒng)框架的研究與實(shí)現(xiàn)[D].武漢:華中科技大學(xué),2007.
[6] 莊艷, 陳繼明,徐丹,等.基于multi-agents系統(tǒng)的分布式數(shù)據(jù)挖掘[J].計(jì)算機(jī)科學(xué), 2007,34(12):163-167.