国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)頁發(fā)現(xiàn)服務(wù)的自主監(jiān)控構(gòu)架

2015-02-13 01:25尹志軍
關(guān)鍵詞:構(gòu)架分類器網(wǎng)頁

尹志軍

(太原師范學(xué)院 計(jì)算機(jī)中心,太原 030012)

網(wǎng)頁發(fā)現(xiàn)服務(wù)的自主監(jiān)控構(gòu)架

尹志軍

(太原師范學(xué)院 計(jì)算機(jī)中心,太原 030012)

提出了一種能夠自主監(jiān)控的網(wǎng)頁發(fā)現(xiàn)服務(wù)構(gòu)架.該構(gòu)架可以實(shí)時(shí)監(jiān)控統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議注冊(cè)中心中新出現(xiàn)的網(wǎng)頁服務(wù),并存儲(chǔ)新服務(wù).加入分類模塊,把自主監(jiān)控的網(wǎng)頁服務(wù)分類,然后區(qū)分類別在相應(yīng)類別服務(wù)里做相似度計(jì)算,選定查詢結(jié)果集.可獲得更好的查詢效率.

網(wǎng)頁服務(wù)發(fā)現(xiàn);自主監(jiān)控;搜索

網(wǎng)絡(luò)從誕生至今一直在飛速地發(fā)展,信息量越來越大,由于網(wǎng)絡(luò)信息保存在不同的網(wǎng)絡(luò)平臺(tái)中,從海量服務(wù)中不容易準(zhǔn)確迅速查找到適合的服務(wù).雖然現(xiàn)在已有較為成熟的網(wǎng)頁搜索引擎,能夠?qū)ヂ?lián)網(wǎng)海量信息資源進(jìn)行搜索,但由于Web服務(wù)有特定的描述方法,這些引擎并不能搜索Web服務(wù).

自主監(jiān)控構(gòu)架將提供網(wǎng)頁服務(wù)在統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議注冊(cè)中心注冊(cè)服務(wù).申請(qǐng)服務(wù)不必僅僅通過統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議注冊(cè)中心尋找服務(wù),而是利于該構(gòu)架來查尋.在搜索引擎中輸入關(guān)鍵詞,出現(xiàn)有關(guān)的網(wǎng)頁.該構(gòu)架可以為申請(qǐng)服務(wù)Web服務(wù)時(shí),就要去其他注冊(cè)中心查尋,這種方式并不利于用戶迅速準(zhǔn)確查找到Web服務(wù).本文提出了一種能夠自主監(jiān)控的網(wǎng)頁發(fā)現(xiàn)服務(wù)構(gòu)架.

1 網(wǎng)頁發(fā)現(xiàn)服務(wù)的自主監(jiān)控構(gòu)架

提供一個(gè)網(wǎng)頁服務(wù)搜索引擎.該構(gòu)架的解決方案具有可擴(kuò)展性,主要有如下優(yōu)點(diǎn):

1)該構(gòu)架可以實(shí)時(shí)監(jiān)控統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議注冊(cè)中心中新出現(xiàn)的網(wǎng)頁服務(wù),并存儲(chǔ)新服務(wù).改變了單個(gè)統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議存儲(chǔ)服務(wù)數(shù)量小、對(duì)象單一的情況.

2)在網(wǎng)頁發(fā)現(xiàn)服務(wù)中用到了數(shù)據(jù)挖掘,構(gòu)架中索引模塊,將對(duì)網(wǎng)頁服務(wù)分類,分類之后查找范圍變小,查找效率提高了.

3)查找模塊具有若干查找連接.構(gòu)架在原來的統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議注冊(cè)中心基礎(chǔ)上,除了提供根據(jù)詳細(xì)的關(guān)鍵詞等精確信息查找外,還提供根據(jù)網(wǎng)頁服務(wù)描述自然語言或WSDL文檔進(jìn)行查找,適合于多種使用場(chǎng)景.

4)網(wǎng)頁服務(wù)查找算法結(jié)合詞網(wǎng)本體庫(kù)提供的語義信息,在不用對(duì)語法級(jí)別的服務(wù)進(jìn)行手動(dòng)語義標(biāo)注的情況下,通過改善網(wǎng)頁服務(wù)匹配算法將語義信息和發(fā)現(xiàn)服務(wù)相結(jié)合,查找的效率和準(zhǔn)確率都會(huì)更高.

2 構(gòu)架詳細(xì)介紹

2.1自主監(jiān)控模塊

自主監(jiān)控模塊不是把INTERNET網(wǎng)上自主監(jiān)控網(wǎng)頁服務(wù),而會(huì)把主要的統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議注冊(cè)中心用在提供服務(wù),該模塊從這些注冊(cè)中心中監(jiān)控網(wǎng)頁服務(wù),提取核心信息,存儲(chǔ)在存儲(chǔ)模塊中,并建立和原統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議的一個(gè)對(duì)應(yīng)集合,以便查尋源.

通過統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議中的API中的發(fā)現(xiàn)方法,可以將統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議中的服務(wù)都獲取信息然后儲(chǔ)存.監(jiān)控網(wǎng)頁服務(wù)并不主要,主要是把握網(wǎng)頁服務(wù)的監(jiān)控進(jìn)程與獲取網(wǎng)頁服務(wù)信息然后儲(chǔ)存.

2.1.1如何對(duì)網(wǎng)頁服務(wù)監(jiān)控過程進(jìn)行控制

為了實(shí)現(xiàn)重復(fù)性檢查,系統(tǒng)設(shè)計(jì)兩個(gè)隊(duì)列用來標(biāo)記網(wǎng)頁服務(wù).WsTo爬行隊(duì)列和訪問Ws.WsTo爬行隊(duì)列是用來存放待存儲(chǔ)網(wǎng)頁服務(wù)的.網(wǎng)頁服務(wù)爬行器通過商業(yè)密鑰完成,服務(wù)密鑰依次提取服務(wù)的t模型密鑰,并根據(jù)該屬性檢查該服務(wù)是否已經(jīng)被提取.如果已完成提取,就丟掉,如沒提取就將網(wǎng)頁服務(wù)添加待保存隊(duì)列中.管理模塊負(fù)責(zé)從WsTo爬行隊(duì)列中取出服務(wù)相關(guān)信息并存儲(chǔ)到網(wǎng)頁服務(wù)存儲(chǔ)中.

訪問Ws用來儲(chǔ)存存儲(chǔ)器已有的服務(wù).如果抽取環(huán)節(jié)失敗,那么WsTo爬行資料損失,就要再到統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議中獲取服務(wù).網(wǎng)頁履帶式服務(wù)不清楚服務(wù)存儲(chǔ)器中有什么,重新獲取服務(wù),會(huì)浪費(fèi)系統(tǒng)的資源.當(dāng)WsTo爬行隊(duì)列信息丟失時(shí),用訪問Ws去重新恢復(fù)WsTo爬行,對(duì)于訪問Ws隊(duì)列中存在的服務(wù),不必重新抓取.

2.1.2如何有效地抽取網(wǎng)頁服務(wù)信息進(jìn)行存儲(chǔ)

系統(tǒng)內(nèi)自主監(jiān)控的網(wǎng)頁服務(wù)存儲(chǔ)時(shí)分為兩部分:從網(wǎng)頁服務(wù)中抽取的核心信息與統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議注冊(cè)中心建立的映射信息.在統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議注冊(cè)中心中,一個(gè)網(wǎng)頁服務(wù)對(duì)應(yīng)一個(gè)t模型,t模型密鑰屬性唯一地標(biāo)識(shí)了一個(gè)t模型,所以針對(duì)存儲(chǔ)在系統(tǒng)中的每個(gè)網(wǎng)頁服務(wù),采用t模型密鑰和統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議的地址信息作為在與統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議建立的映射信息中.通過t模型密鑰,可以在相應(yīng)的統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議中得到此服務(wù)的有關(guān)信息.

網(wǎng)頁服務(wù)在統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議中能得到兩個(gè)重要的信息是描述和抽象的WSDL信息[1].描述是關(guān)于服務(wù)的敘述,后者是網(wǎng)頁服務(wù)定義文檔所在的URL,即WSDL文件.描述中包含的信息是對(duì)網(wǎng)頁服務(wù)唯一的文字描述,系統(tǒng)會(huì)作為網(wǎng)頁服務(wù)的描述進(jìn)行存儲(chǔ)并參與分類.WSDL文件中主要包括兩部分?jǐn)?shù)據(jù)信息:

1)抽象接口信息,包含網(wǎng)頁服務(wù)的功能特性.

實(shí)現(xiàn)信息,和網(wǎng)頁服務(wù)調(diào)用細(xì)節(jié)有關(guān).

2)在網(wǎng)頁服務(wù)中,有通過給定請(qǐng)求WSDL文檔,需要查找目標(biāo)WSDL文檔[2].通過WSDL作為網(wǎng)頁服務(wù)查找接口.WSDL文檔也會(huì)作為本文抽取網(wǎng)頁服務(wù)信息的一部分.提出一種計(jì)算網(wǎng)頁服務(wù)相似性的算法.需要存儲(chǔ)在系統(tǒng)中的網(wǎng)頁服務(wù)信息包括三個(gè)部分:

1)描述;

2)抽象的WSDL接口信息;

3)t模型密鑰.

2.2分類模塊

構(gòu)架的核心是網(wǎng)頁服務(wù)分類模塊.要提高網(wǎng)頁發(fā)現(xiàn)服務(wù)的效率,通過自動(dòng)分類器對(duì)服務(wù)進(jìn)行分類[3].通過自主監(jiān)控模塊,存儲(chǔ)在統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議中的網(wǎng)頁服務(wù),通過功能、描述、參數(shù)信息提取可以表示成一個(gè)文本.所以,本文將自動(dòng)文本分類技術(shù)用于到網(wǎng)頁服務(wù)自動(dòng)分類中.

抓取網(wǎng)頁服務(wù)中的文本特點(diǎn);然后打造分類器;之后分類器分類新文本[4].指定了文本類別后,程序可以分辨出文本的類別.文檔自主分類系統(tǒng)能夠根據(jù)由訓(xùn)練數(shù)據(jù)得來的分類器去給文檔分類.在進(jìn)行網(wǎng)頁發(fā)現(xiàn)服務(wù)時(shí),對(duì)于給定網(wǎng)頁服務(wù)請(qǐng)求,表示成向量形式,通過分類器定位該請(qǐng)求所屬類別,然后在該類別中進(jìn)行通過向量相似度的計(jì)算,查找相似度滿足條件的網(wǎng)頁服務(wù)集,給出查找結(jié)果集合.

2.3查找模塊

查找模塊有兩種查找方法:描述和WSDL文件.把請(qǐng)求變成WSDL文件的方式,用于服務(wù)描述.WSDL文件有它的命名原則,從WSDL文件中提取的信息和存儲(chǔ)系統(tǒng)的網(wǎng)頁服務(wù)中的描述較為接近,有助于提高發(fā)現(xiàn)服務(wù)的準(zhǔn)確度.

3 兩種構(gòu)架的對(duì)比

本文提出的能夠自主監(jiān)控的網(wǎng)頁發(fā)現(xiàn)服務(wù)構(gòu)架與以前的網(wǎng)頁發(fā)現(xiàn)服務(wù)構(gòu)架主要有幾點(diǎn)不同:

1)取得網(wǎng)頁服務(wù)方法不同.本文的構(gòu)架由現(xiàn)有的統(tǒng)一發(fā)現(xiàn)、描述和集成協(xié)議注冊(cè)中心獲得服務(wù),能夠主動(dòng)發(fā)現(xiàn),集合網(wǎng)頁服務(wù),儲(chǔ)存服務(wù)數(shù)量也多,以前的構(gòu)架是由服務(wù)提供者注冊(cè)得到的.

2)存儲(chǔ)內(nèi)容不一樣.本文是從網(wǎng)頁服務(wù)文件中取出描述和功能信息作為文本來存儲(chǔ),服務(wù)和原統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議注冊(cè)中心存儲(chǔ)對(duì)應(yīng)[5].以前的構(gòu)架是依照統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議標(biāo)準(zhǔn)來存儲(chǔ).自主監(jiān)控的網(wǎng)頁發(fā)現(xiàn)服務(wù)構(gòu)架提取網(wǎng)頁服務(wù)有價(jià)值信息用來存儲(chǔ),然后再分類,可以在有限的存儲(chǔ)空間存儲(chǔ)更多的網(wǎng)頁服務(wù).自主監(jiān)控的網(wǎng)頁發(fā)現(xiàn)服務(wù)構(gòu)架有更好的存儲(chǔ)結(jié)構(gòu).

3)增添分類模塊.分類模塊把監(jiān)控到的網(wǎng)頁服務(wù)提取為文本信息,交由分類器區(qū)分類別,需要查尋時(shí),先區(qū)分類別,然后查尋具體的服務(wù),查尋效率較高;

4)網(wǎng)頁發(fā)現(xiàn)服務(wù)用到詞匯的網(wǎng)絡(luò)語義詞典[6].WSDL不考慮語義信息,只考慮語法的網(wǎng)頁描述語言,所以發(fā)現(xiàn)算法的結(jié)果就不夠好.本文提出的分類及查找算法,使用了語義詞典,把單詞變?yōu)楦拍?,用于語義信息的表示,提高了查找效率.

4 實(shí)驗(yàn)方法

本文從XMethods.net,XMLLogic,StrikeIron三個(gè)UDDI注冊(cè)中心取得了2 000個(gè)網(wǎng)頁發(fā)現(xiàn)服務(wù),把其分為4類:Mail,Graphics,HardWare,Math.每一類500個(gè)網(wǎng)頁發(fā)現(xiàn)服務(wù).把他們表示成基于詞根的特征向量和基于WordNet的概念特征項(xiàng)向量,使用樸素貝葉斯分類方法來分類,將查準(zhǔn)率、查全率和F1值作為比較基于概念向量空間模型和基于詞頻向量空間模型的Web服務(wù)發(fā)現(xiàn)算法性能的指標(biāo)[7].對(duì)于用WordNet生成的概念特征向量空間,對(duì)于一個(gè)服務(wù)請(qǐng)求,在所有服務(wù)中直接進(jìn)行相似度匹配獲得查詢結(jié)果集相比本文提出的框架中先分類后匹配獲得查詢結(jié)果集的方法,顯然后者的運(yùn)算時(shí)間更少,這種框架更加高效.

5 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)使用的算法是在Windows7系統(tǒng)中由JAVA語言完成的.實(shí)驗(yàn)使用內(nèi)存4GB,3.0GHZ P4的CPU的臺(tái)式機(jī).實(shí)驗(yàn)將數(shù)量不同的訓(xùn)練文本,分別使用WordNet本體庫(kù)的概念向量空間模型與詞根向量空間模型對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)分別選擇400,800,1 200,1 600篇文本記做編號(hào)1,2,3,4的4個(gè)集合來實(shí)驗(yàn),使用10重交叉驗(yàn)證的方法評(píng)價(jià)分類器,實(shí)驗(yàn)結(jié)果可以看出以上幾種狀態(tài)下分類器的查準(zhǔn)率、查全率、Fl值,得出以上4個(gè)集合的查全率、查準(zhǔn)率、Fl的平均值,實(shí)驗(yàn)結(jié)果如表1所示.

由實(shí)驗(yàn)結(jié)果可以看出使用WordNet本體庫(kù)的概念向量空間模型進(jìn)行文本分類比使用詞根的向量空間模型可以得到更好的查全率、查準(zhǔn)率和Fl值.當(dāng)訓(xùn)練文本集合較少時(shí),使用詞根的模型數(shù)據(jù)得到的有價(jià)值數(shù)據(jù)不足.而概念模型因?yàn)楦拍钣邢嚓P(guān)聯(lián)的關(guān)系,在分類時(shí)可能把相關(guān)詞根劃為同一概念,解決了數(shù)據(jù)少的問題.增加訓(xùn)練集合文本,詞形的方法也不會(huì)出現(xiàn)數(shù)據(jù)少的情況,所以同概念模型的方法的差別也變小.能夠得到結(jié)論:當(dāng)訓(xùn)練文本數(shù)量不多時(shí),概念模型比詞根模型能夠發(fā)現(xiàn)出更多的體現(xiàn)文本集合內(nèi)容的語義特征.

6 結(jié)論

現(xiàn)在的網(wǎng)頁發(fā)現(xiàn)服務(wù)構(gòu)架和算法得到的查準(zhǔn)率和查全率不能令人滿意,不能實(shí)現(xiàn)自主標(biāo)明語義信息.自主監(jiān)控的網(wǎng)頁發(fā)現(xiàn)服務(wù)構(gòu)架從統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議注冊(cè)中心主動(dòng)去發(fā)現(xiàn)服務(wù),獲取服務(wù)中有用的信息并存儲(chǔ).新加入的分類模塊將自主監(jiān)控到的網(wǎng)頁服務(wù)用分類器來完成分類服務(wù),查尋服務(wù)要將請(qǐng)求進(jìn)行類別查尋,在同類中的對(duì)比類似程度,得到滿意的查詢效率.

[1] CHRISTENSEN E,CURBERA F,MEREDITH G,et al.Web services description Language(WSDL)[EB/OL].http://www.w3.org/TR/wsdl20-primer/2007-06-26[2009-05-24]

[2] 王艷峰,王 峰.Web Service的資源中介-UDDI注冊(cè)中心介紹[R].北京:CNNIC技術(shù)部,2007

[3] 芮雄健,王忠民.UDDI的原理與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2005,26(6):1602-1605

[4] Miller G,Fellbaum C,Tengi R.WordNet3.0[EB/OL].http://wordnet.princeton.edu/2006-04-21[2009-05-24]

[5] 賈君枝,董 剛.漢語框架網(wǎng)絡(luò)本體與VerbNet,WordNet集成研究[J].圖書情報(bào)工作網(wǎng)刊,2008,23(2):34-38

[6] JIM Luo,BRUCE Montrose.Adding OWL-S Support to the Existing UDDI Infrastructure[C].IEEE International Conference on Web Services(ICWS'06),2006:125-130

[7] 陳江鋒,于建軍.基于擴(kuò)展VSM的Web服務(wù)發(fā)現(xiàn)[J].計(jì)算機(jī)工程,2008,34(12):25-27

Web Discovery Service Independent Monitoring Framework

YIN Zhijun

(Department of Computer Central,Taiyuan Normal University,Taiyuan 030012, China)

This paper presents a way to self-monitor web discovery service architecture. Can be real-time monitoring of the framework Universal Description, and Integration registry emerging Web service, and store the new service. Join the classification module, self-monitoring Web service classification, and then distinguish between category similarity calculation in the appropriate category services selected query result set. Obtain better query efficiency.

Web service discovery; self-monitoring; search

2015-03-29

基本項(xiàng)目:山西省高等學(xué)??萍紕?chuàng)新項(xiàng)目(20101114).

尹志軍(1970-),女,河北束鹿人,碩士,太原師范學(xué)院副教授,主要從事計(jì)算機(jī)應(yīng)用研究.

1672-2027(2015)03-0025-04

TP 30

A

猜你喜歡
構(gòu)架分類器網(wǎng)頁
建筑安裝造價(jià)控制核心要點(diǎn)構(gòu)架
基于HTML5與CSS3的網(wǎng)頁設(shè)計(jì)技術(shù)研究
急診PCI治療急性心肌梗死的護(hù)理探索構(gòu)架
高可靠全平臺(tái)ICT超融合云構(gòu)架的設(shè)計(jì)與實(shí)現(xiàn)
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
基于HTML5靜態(tài)網(wǎng)頁設(shè)計(jì)
略論意象間的主體構(gòu)架
基于差異性測(cè)度的遙感自適應(yīng)分類器選擇
基于實(shí)例的強(qiáng)分類器快速集成方法
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究