国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Web服務(wù)的數(shù)據(jù)挖掘系統(tǒng)算法的設(shè)計(jì)

2013-12-29 00:00:00劉佳
電腦知識(shí)與技術(shù) 2013年13期

摘要:與傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)的算法庫相比,在數(shù)據(jù)挖掘系統(tǒng)算法庫中引入Web服務(wù)可以實(shí)現(xiàn)數(shù)據(jù)、算法和接口的分離,極大的縮減了算法庫開發(fā)的復(fù)雜性并為動(dòng)態(tài)管理算法庫提供了便利。此外,從標(biāo)準(zhǔn)的平臺(tái)無關(guān)性的角度來看,采取Web服務(wù)的設(shè)計(jì)的系統(tǒng)具有了平臺(tái)無關(guān)性和語言無關(guān)性的特點(diǎn)。我們可以通過任何語言來實(shí)現(xiàn)將挖掘算法封裝到Web服務(wù)中,并從程序設(shè)計(jì)語言中分離出來,這樣就為算法設(shè)計(jì)提供了最大的自由度,提高了維護(hù)性能。因此,基于Web服務(wù)技術(shù)的數(shù)據(jù)挖掘系統(tǒng)對(duì)于提高數(shù)據(jù)挖掘的效率具有非常重要的意義。

關(guān)鍵詞:Web服務(wù);數(shù)據(jù)挖掘;算法庫

中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)13-2951-04

數(shù)據(jù)挖掘是一個(gè)從大量不完整的、冗余的、模糊的并且隨機(jī)的實(shí)際應(yīng)用的數(shù)據(jù)中提取潛在的有用的信息和未知知識(shí)的一個(gè)過程[1]。隨著信息技術(shù)在社會(huì)中各個(gè)領(lǐng)域中的廣泛應(yīng)用,可以用數(shù)據(jù)挖掘進(jìn)行提取的最初的數(shù)據(jù)也轉(zhuǎn)變?yōu)檩^復(fù)合的、有組織結(jié)構(gòu)或者半組織結(jié)構(gòu)的內(nèi)容,比如文本、圖標(biāo)、圖片數(shù)據(jù),甚至是網(wǎng)絡(luò)中混雜的分布式數(shù)據(jù)[2]。在數(shù)據(jù)外挖掘系統(tǒng)中,挖掘算法具有非常重要的作用。一個(gè)有效的數(shù)據(jù)挖掘系統(tǒng)必須有各種各樣的挖掘算法。通常來說,這些挖掘算法不能同時(shí)被開發(fā),但是通過算法的發(fā)展和對(duì)應(yīng)用的要求,它們也都不斷地得到相當(dāng)大的改進(jìn)。

通過最新的數(shù)據(jù)挖掘算法的研究,在數(shù)據(jù)挖掘系統(tǒng)中不但要有專用的、可共享的和動(dòng)態(tài)維護(hù)的算法庫,而且還要在現(xiàn)存的算法中增加新的算法來改進(jìn)系統(tǒng)[3]。難點(diǎn)在于傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)越來越適應(yīng)于需求以至于很難再提升算法庫。因此,研究如何根據(jù)不同的算法動(dòng)態(tài)添加挖掘算法和自動(dòng)生成輸入輸出接口,從而實(shí)現(xiàn)數(shù)據(jù)挖掘算法的自動(dòng)調(diào)用是本文的重點(diǎn)。

Web服務(wù)的結(jié)構(gòu)本質(zhì)上是面向服務(wù)的架構(gòu)(SOA),SOA框架被專門用于解決應(yīng)用整合領(lǐng)域里的兩個(gè)難題——異質(zhì)性數(shù)據(jù)和易變性數(shù)據(jù)。在數(shù)據(jù)挖掘的算法庫模塊中引入web服務(wù)有利于實(shí)現(xiàn)挖掘混雜的數(shù)據(jù)源,同時(shí),因?yàn)橥ㄟ^web服務(wù)封裝了大量的數(shù)據(jù)挖掘算法,壓縮了算法而節(jié)省了算法庫,那么數(shù)據(jù)挖掘系統(tǒng)和挖掘算法聯(lián)系就不用那么緊密,而且可以通過web服務(wù)在線調(diào)用挖掘算法,這樣就能夠使算法可以被重用,以及可以便利的動(dòng)態(tài)管理算法庫。

在最后,該文還介紹了用于數(shù)據(jù)挖掘系統(tǒng)的web服務(wù)技術(shù),提出了基于web服務(wù)的挖掘系統(tǒng)的算法庫模塊的基本框架,并研究了基于XML技術(shù)的元數(shù)據(jù)的描述。

1 數(shù)據(jù)挖掘系統(tǒng)元數(shù)據(jù)的描述

在數(shù)據(jù)挖掘系統(tǒng)中,數(shù)據(jù)是一個(gè)非常復(fù)雜的資源,并且從結(jié)構(gòu)數(shù)據(jù)到非結(jié)構(gòu)數(shù)據(jù)中還有大量的各種各樣的種類。我們可以把數(shù)據(jù)看成數(shù)據(jù)挖掘系統(tǒng)的操作基礎(chǔ)。在數(shù)據(jù)挖掘的過程中,需要用到各種普通或者特殊的算法,這些算法可以由系統(tǒng)或者外部對(duì)象提供。提供可靠的算法庫和生成數(shù)據(jù)挖掘系統(tǒng)的挖掘模式是數(shù)據(jù)挖掘系統(tǒng)中的重要部分。隨著傳統(tǒng)算法的持續(xù)改進(jìn)和新算法的持續(xù)開發(fā),數(shù)據(jù)挖掘系統(tǒng)需要通過確定的規(guī)范來存儲(chǔ)和管理各種算法,同時(shí)各種類別的用戶為了使用算法也需要一套特定的規(guī)范來形成隊(duì)列。因此,在算法庫的開發(fā)和維護(hù)過程中,它需要一個(gè)強(qiáng)大的動(dòng)態(tài)管理功能?;谶@個(gè)目的,算法描述和基本管理規(guī)范的編制就是開發(fā)算法庫模塊的關(guān)鍵問題。

對(duì)于數(shù)據(jù)挖掘系統(tǒng)來說,元數(shù)據(jù)是系統(tǒng)的核心部分。它的主要目的是描述數(shù)據(jù)的基本屬性和為數(shù)據(jù)挖掘提供支持。建立和執(zhí)行數(shù)據(jù)挖掘任務(wù)的整個(gè)過程都是在元數(shù)據(jù)的控制下進(jìn)行的。因此,對(duì)元數(shù)據(jù)的有效管理可以使系統(tǒng)更加的穩(wěn)固。通過使用XML語言對(duì)數(shù)據(jù)挖掘算法中的元數(shù)據(jù)進(jìn)行描述有利于算法的管理,這樣不但可以實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)的靈活放縮,有效的實(shí)現(xiàn)數(shù)據(jù)、算法和借口之間的自由聯(lián)系,而且解決了數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)應(yīng)用緊密聯(lián)系導(dǎo)致的對(duì)異質(zhì)性數(shù)據(jù)源挖掘的問題。

2 管理模塊算法的設(shè)計(jì)

將Web服務(wù)引入到數(shù)據(jù)挖掘系統(tǒng)中和將數(shù)據(jù)挖掘算法封裝到Web服務(wù)中都需要一個(gè)算法管理模塊來統(tǒng)一管理封裝到Web服務(wù)的數(shù)據(jù)挖掘算法[3-4]。通過邏輯和基于Web服務(wù)概念的分析,我們可以把算法管理模塊看成與由算法發(fā)行子模塊和算法搜尋子模塊構(gòu)成的算法寄存中心共同協(xié)作來完成操作。

算法寄存中心承擔(dān)了算法寄存和算法搜尋的任務(wù),它包括了所有的由算法提供者發(fā)型的算法的基本信息。算法寄存中心接受算法發(fā)行子模塊的申請(qǐng),為算法產(chǎn)生WSDL(WebServicesDescriptionLanguage)文檔,并保存挖掘算法的所有的其他信息(包括服務(wù)名稱和算法的URL地址等),這樣就能為算法寄存中心所用。同時(shí)算法寄存中心還接收算法搜尋子模塊的申請(qǐng)來查詢算法庫中滿足用戶條件的被發(fā)行的算法并返回相關(guān)信息[5]。算法發(fā)行子模塊主要提供發(fā)行接口,并且算法發(fā)行者就可以將算法封裝到web服務(wù)中。它最主要的功能是接收算法提供者的算法信息輸入,向算法寄存中心發(fā)送算法發(fā)行申請(qǐng),要求算法庫添加新的算法或者刪除和修改已有的算法等等。而算法搜尋模塊最主要的功能是讓算法申請(qǐng)者在算法庫中查詢挖掘算法。

現(xiàn)代軟件系統(tǒng)的結(jié)構(gòu)設(shè)計(jì)一般使用分層結(jié)構(gòu),這種結(jié)構(gòu)不但可以使系統(tǒng)中的組件相互獨(dú)立,而且當(dāng)它們需要更新、替換或者添加減少的時(shí)候可以很方便的獲得,這樣有利于系統(tǒng)的維護(hù)和管理。一個(gè)基于Web的算法管理系統(tǒng),分層次和模塊化可以在元數(shù)據(jù)管理的邏輯框架和Web服務(wù)技術(shù)的基礎(chǔ)上開發(fā)出來。它的系統(tǒng)框架被分成系統(tǒng)支持層、算法管理層、服務(wù)層和底部的演示層。

系統(tǒng)支持層包含了如計(jì)算機(jī)硬件、數(shù)據(jù)庫和網(wǎng)絡(luò)通信等的環(huán)境支持,它可以被抽象的看成數(shù)據(jù)層。系統(tǒng)的核心是在系統(tǒng)服務(wù)層中的各種功能模塊(包括算法輸入和輸出模塊、算法信息顯示模塊和算法檢索模塊等等)。這些功能模塊可以在算法元數(shù)據(jù)管理的核心模塊的基礎(chǔ)上來實(shí)現(xiàn)。

通過引入Web服務(wù)來開發(fā)數(shù)據(jù)挖掘系統(tǒng)中的算法庫,所有的算法都被以Web服務(wù)的方式封裝起來組成算法庫[6]。通過這種封裝的方式,在XML的基礎(chǔ)上描述算法元數(shù)據(jù)以及自動(dòng)的根據(jù)算法元數(shù)據(jù)生成Web接口組件是為了分隔數(shù)據(jù)、算法和接口,極大的縮減算法庫模塊開發(fā)的復(fù)雜性,有效的提高算法庫的維護(hù)能力,讓系統(tǒng)可以依靠靈活的動(dòng)態(tài)結(jié)構(gòu)來實(shí)現(xiàn)動(dòng)態(tài)管理算法庫。

3 生成動(dòng)態(tài)接口

基于XML的接口自動(dòng)生成技術(shù)涉及到通過接口描述的XML文檔、接口組件接收器、接口產(chǎn)生器以及編程語言的組件庫[7]。為了產(chǎn)生一個(gè)接口,首先需要提供XML接口的描述文檔和接口產(chǎn)生器組件。用于接口描述的XML文檔可以被編輯成XML編輯器或者自動(dòng)被其他數(shù)據(jù)源創(chuàng)造出來。接口描述的XML文檔使用到所有的XML文檔中的組件和屬性,包括名稱、大小、位置、布局以及相應(yīng)的產(chǎn)生器等等[8]。接口產(chǎn)生器組件負(fù)責(zé)監(jiān)控和處理相應(yīng)的接口描述的XML中的組件,如按鈕點(diǎn)擊操作。在對(duì)接口描述的XML文檔分析的過程中,接口產(chǎn)生器將根據(jù)文檔中組件的屬性值動(dòng)態(tài)的添加接收器并與相應(yīng)的組件綁定起來。當(dāng)特定的組件操作被觸發(fā)的時(shí)候,接收器中預(yù)定的操作將會(huì)被執(zhí)行。組件產(chǎn)生器是接口自動(dòng)生成技術(shù)的核心,它負(fù)責(zé)分析XML文檔、區(qū)分文檔中預(yù)定的組件信息、根據(jù)組件信息和已用的編程語言建立相應(yīng)的組件、設(shè)定屬性和綁定相應(yīng)的接收器、在組件容器中添加組件和最終向申請(qǐng)者返回自動(dòng)生成的接口。

因此,只需通過獲取服務(wù)的網(wǎng)絡(luò)位置和使用的服務(wù)方式的名稱就可以實(shí)現(xiàn)web服務(wù)的動(dòng)態(tài)調(diào)用。而服務(wù)的位置信息和服務(wù)方式的名稱可以通過XML文檔得到。

4 結(jié)論

與傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)的算法庫相比,在數(shù)據(jù)挖掘系統(tǒng)算法庫中引入web服務(wù)可以實(shí)現(xiàn)數(shù)據(jù)、算法和接口的分離,極大的縮減了算法庫開發(fā)的復(fù)雜性并為動(dòng)態(tài)管理算法庫提供了便利。此外,從標(biāo)準(zhǔn)的平臺(tái)無關(guān)性的角度來看,采取web服務(wù)的設(shè)計(jì)的系統(tǒng)具有了平臺(tái)無關(guān)性和語言無關(guān)性的特點(diǎn)。我們可以通過任何語言來實(shí)現(xiàn)將挖掘算法封裝到web服務(wù)中,并從程序設(shè)計(jì)語言中分離出來,這樣就為算法設(shè)計(jì)提供了最大的自由度,提高了維護(hù)性能。因此,基于web服務(wù)技術(shù)的數(shù)據(jù)挖掘系統(tǒng)對(duì)于提高數(shù)據(jù)挖掘的效率具有非常重要的意義。

參考文獻(xiàn):

[1] 江文斌,張仁津,張方霞.基于Web Services的電子商務(wù)系統(tǒng)的研究與架構(gòu)[J].電腦知識(shí)與技術(shù),2010(10).

[2] 徐建琳,陸一穎,吳毅堅(jiān),等.基于Web服務(wù)的客戶關(guān)系管理系統(tǒng)[J].計(jì)算機(jī)工程,2009(19).

[3] 羅可,林睦綱,郗東妹.數(shù)據(jù)挖掘中分類算法綜述[J]. 計(jì)算機(jī)工程,2005(1).

[4] 吳迪,陳鋼.新一代的Web Services技術(shù)[J].計(jì)算機(jī)應(yīng)用研究,2003(3).

[5] 涂占新.數(shù)據(jù)挖掘方法及其應(yīng)用展望[J].中南財(cái)經(jīng)政法大學(xué)學(xué)報(bào),2003(2).

[6] 皮德常.CIMS數(shù)據(jù)庫中數(shù)據(jù)挖掘關(guān)鍵技術(shù)的研究[D].南京:南京航空航天大學(xué),2002.

[7] Wang Wei-hua,Wang Wei-fu. The Research on the Distributed Computer Mode Based on Web Service[J].Computer Engineering and Design, 2008,29(17):4623-4625.

[8] Cui Jin-hong,Wang Xu.Research on Web Service Inheritage and Interface Mechanism[J].Computer Science, 2009,36(6):144-146.

平山县| 深泽县| 临沭县| 安陆市| 苏州市| 波密县| 桐庐县| 马尔康县| 汝城县| 河源市| 邮箱| 确山县| 泾川县| 临城县| 库伦旗| 电白县| 三台县| 江油市| 阳江市| 昌乐县| 道真| 云南省| 揭阳市| 辽中县| 英吉沙县| 林芝县| 云阳县| 长海县| 海南省| 巨鹿县| 仪征市| 伽师县| 望江县| 昭觉县| 万荣县| 武鸣县| 大理市| 木里| 阳曲县| 高邑县| 平凉市|