潘慶超
〔摘 要〕網(wǎng)格的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術與網(wǎng)格計算的有機結合,文章介紹了網(wǎng)格數(shù)據(jù)挖掘的概念、特點、網(wǎng)格數(shù)據(jù)挖掘技術的優(yōu)點,網(wǎng)格數(shù)據(jù)挖掘的體系結構,討論了網(wǎng)格的數(shù)據(jù)挖掘的基本過程,并從開放網(wǎng)格服務體系結構出發(fā),給出了網(wǎng)格平臺下的信息服務質(zhì)量數(shù)據(jù)挖掘的功能和執(zhí)行過程。
〔關鍵詞〕網(wǎng)格;數(shù)據(jù)挖掘;服務質(zhì)量;數(shù)據(jù)庫
〔中圖分類號〕TP392 〔文獻標識碼〕B 〔文章編號〕1008-0821(2009)07-0141-03
Application of Grid Data Mining on Information Service QualityPan Qingchao
(College of Physics Science and Technology,Shenyang Normal University,Shenyang 110034,China)
〔Abstract〕Grid data mining is an integration of data mining and grid computing.The paper introduced the concept,characteristics,from the perspective of OGSA,it offered the functions and process of information service quality data mining under the platform of grid.
〔Key words〕grid;data mining;information service quality;database
1 網(wǎng)格數(shù)據(jù)挖掘概念[1]
網(wǎng)格的數(shù)據(jù)挖掘建立在數(shù)據(jù)網(wǎng)格的基礎設施和相關技術的基礎上,在廣域分布的海量數(shù)據(jù)和計算資源的環(huán)境中發(fā)現(xiàn)數(shù)據(jù)模式,獲取新的科學知識和規(guī)律。這個網(wǎng)格計算環(huán)境提供特殊的數(shù)據(jù)管理、數(shù)據(jù)存儲、數(shù)據(jù)復制和安全監(jiān)控等功能。用戶向網(wǎng)格系統(tǒng)提出的數(shù)據(jù)任務就是一種網(wǎng)格服務。執(zhí)行運算的處理器和存儲空間等視作資源,而與任務相關的數(shù)據(jù)庫或數(shù)據(jù)倉庫、數(shù)據(jù)挖掘算法等則可以看作是用戶擁有的特殊資源。
2 利用網(wǎng)格數(shù)據(jù)挖掘技術的優(yōu)點[2]
2.1 提高現(xiàn)有資源的利用率
通過資源的共享與整合,可以方便地彼此“借用”,減小資源的閑置,提高資源的使用效率。
2.2 從大量的數(shù)據(jù)中發(fā)現(xiàn)或“挖掘”有用的知識
網(wǎng)格中含有大量分布在各網(wǎng)格節(jié)點中的數(shù)據(jù),網(wǎng)格數(shù)據(jù)挖掘就需要跨多個網(wǎng)格節(jié)點實施全局數(shù)據(jù)挖掘。網(wǎng)格的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術和網(wǎng)格計算的有機結合,它通過共享解決方案、算法、計算、數(shù)據(jù)、存儲服務來實施可靠和可擴展的數(shù)據(jù)挖掘任務,能夠在動態(tài)變化的多個節(jié)點間共享資源和協(xié)調(diào)解決數(shù)據(jù)挖掘問題。
3 網(wǎng)格數(shù)據(jù)挖掘的體系結構[3]
3.1 網(wǎng)格的重要特點是分布性和動態(tài)性
網(wǎng)格的各種資源不是集中在一起的,而是分布在不同的地理位置,各種資源也是動態(tài)變化的。正是網(wǎng)格的這些特點及其分布式環(huán)境,使得網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng)不再局限于傳統(tǒng)的集中式數(shù)據(jù)挖掘系統(tǒng),而是和網(wǎng)格一樣具有分布性、動態(tài)性和自適應性。
3.2 網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng)采用分布式的組件架構和自適應的分布技術,由一系列的組件集成,組件之間可以實現(xiàn)互相通信和數(shù)據(jù)交換
這種基于分布式組件技術的體系結構允許更大的彈性,包括集成不同的協(xié)議、應用程序接口、應用程序、操作系統(tǒng)和硬件,能夠提供多級的抽象能力、高可靠性、可擴充性和安全性。其體系結構如圖1所示。
4 網(wǎng)格數(shù)據(jù)挖掘新技術的融合[4]
4.1 Web Service和網(wǎng)格技術融合
Web Service和網(wǎng)格技術融合可解決“無處不在的集成計算和資源共享”的應用技術問題。在HTML、SMTP等Internet標準協(xié)議的基礎上,使用基于XML的文本消息傳送模型進行通信,從而真正實現(xiàn)分布式Web系統(tǒng)間跨平臺、跨語言的無縫融合,從而解決傳統(tǒng)分布式體系架構無法解決的在Internet環(huán)境下的松耦合分布式異構問題。
4.2 網(wǎng)格與數(shù)據(jù)集成技術的結合
隨著網(wǎng)格技術的發(fā)展和商務處理的全球化,網(wǎng)格數(shù)據(jù)集成技術將成為下一代Internet網(wǎng)中的信息融合、信息處理、信息發(fā)布等關鍵技術。Web Service的不斷研究和發(fā)展給信息集成技術提供了更廣闊的發(fā)展空間。利用本體描述服務的結構、類型和語義,從而使Web Service語義表示模型化、統(tǒng)一化,從語義層就解決不同數(shù)據(jù)源或系統(tǒng)的異構問題。所以,網(wǎng)格數(shù)據(jù)集成技術將是充分利用傳統(tǒng)的信息集成。Web Service、本體、網(wǎng)格技術,構造一個虛擬的、實現(xiàn)更加高效、準確服務的具有超級計算能力的、能更好分析數(shù)據(jù)并獲得豐富知識的集成系統(tǒng)。
4.3 本體與Web Service的合成技術
Web Service是網(wǎng)格進行分布式計算的基本元素。分布在網(wǎng)格上的各種各樣的數(shù)據(jù)挖掘Web Service已經(jīng)成為一類重要的資源。當這些Web Service能夠在網(wǎng)格上真正實現(xiàn)自由的互聯(lián)、互通、協(xié)作和聯(lián)盟的時候,就形成了一種與當前的信息Web類似的軟件Web。所以,應使用本體與Web Service合成使這些Web Service能夠自主感應并實現(xiàn)它們所處的環(huán)境中的需求。而且,在單個Web Service不能實現(xiàn)全部需求的情況下,多個小粒度的Web Service能夠自主合成,形成更大粒度的Web Service,最終實現(xiàn)需求。
5 網(wǎng)格數(shù)據(jù)挖掘的基本過程
5.1 數(shù)據(jù)的處理
數(shù)據(jù)的處理階段主要完成從數(shù)據(jù)網(wǎng)格環(huán)境中收集廣域分布的數(shù)據(jù)和計算資源,并對原始數(shù)據(jù)進行歸檔處理,更正校對,過濾清理和數(shù)據(jù)的轉(zhuǎn)換、合并。最后再對經(jīng)過處理后的數(shù)據(jù)進行歸檔。這階段由于數(shù)據(jù)的歸檔處理,存在相對靜止的索引數(shù)據(jù),數(shù)據(jù)的處理功能比較穩(wěn)定,而且對歸檔的數(shù)據(jù)進行周期性的數(shù)據(jù)再處理。
5.2 數(shù)據(jù)的分析與挖掘
這階段主要完成對處理后的數(shù)據(jù)進行分析、概括和挖掘,生成關聯(lián)的規(guī)則,發(fā)現(xiàn)新的數(shù)據(jù)關系等,并歸檔概括出來的數(shù)據(jù)。
5.3 模式的評價
這階段對處理后的數(shù)據(jù)和歸納后的數(shù)據(jù)再次進行分析,得出一些數(shù)據(jù)模式,并評價數(shù)據(jù)挖掘結果的有效性和可靠性,提交得出的結論或新的關系和趨勢。
6 基于OGSA的信息服務評價數(shù)據(jù)挖掘
開放網(wǎng)格服務結構(Open Grid Service Architecture OGSA)是一個面向服務的網(wǎng)格體系結構,它建立在網(wǎng)格服務的基礎上,將一切都抽象為服務,包括計算資源、存儲資源、網(wǎng)絡、程序、數(shù)據(jù)庫、儀器設備等。OGSA中以網(wǎng)格服務為核心,通過網(wǎng)格服務提供的接口為網(wǎng)格用戶提供各方面的服務。網(wǎng)格服務由服務數(shù)據(jù)和實現(xiàn)組成,服務數(shù)據(jù)指的是該網(wǎng)格服務可以提供的資源屬性,實現(xiàn)是指對這些服務數(shù)據(jù)的訪問操作。
6.1 服務質(zhì)量評價的數(shù)據(jù)挖掘
網(wǎng)格數(shù)據(jù)挖掘技術在信息服務管理系統(tǒng)中起著重要作用。信息服務機構可以建立服務評價綜合管理系統(tǒng)。通過管理系統(tǒng)可以方便地獲得大量的服務數(shù)據(jù),把所有與服務相關的數(shù)據(jù)進行整合成面向主題的數(shù)據(jù)倉庫。然后應用數(shù)據(jù)挖掘工具對這些數(shù)據(jù)進行挖掘,以獲得服務管理決策中所需要的信息和模式。這些信息和模式可以為信息機構的管理決策和服務決策提供有力的依據(jù)。目前,網(wǎng)格數(shù)據(jù)挖掘技術在服務系統(tǒng)中的應用有以下幾個方面: