国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于領域本體的數(shù)據(jù)服務語義標注方法

2017-06-01 23:18郭超唐成務陳彥萍
電腦知識與技術 2017年8期
關鍵詞:數(shù)據(jù)服務

郭超 唐成務 陳彥萍

摘要:隨著互聯(lián)網(wǎng)技術的快速發(fā)展,越來越多的數(shù)據(jù)以服務的形式發(fā)布到Web上為用戶服務。由于數(shù)據(jù)服務發(fā)布者存在不同的領域或行業(yè),數(shù)據(jù)服務在描述存在語義異構性,為了更精準的匹配所需的數(shù)據(jù)服務,該文從對數(shù)據(jù)服務描述文檔進行解析,提取關鍵標簽的屬性值,形成代表該數(shù)據(jù)服務的特征詞文檔,再對特征詞文檔進行聚類分析,結合領域知識,構建領域本體庫,在領域本體庫的基礎之上,提出基于領域本體的數(shù)據(jù)服務語義標注方法,對數(shù)據(jù)服務進行語義標注,解決數(shù)據(jù)服務描述存在的語義異構性。

關鍵詞:數(shù)據(jù)服務;領域本體;語義標注

中圖分類號:TP319 文獻標識碼:A 文章編號:1009-3044(2017)06-0172-02

隨著“互聯(lián)網(wǎng)+”理念的涌現(xiàn),越來越多的企業(yè)或個人加入到互聯(lián)網(wǎng)中來,互聯(lián)網(wǎng)中的信息也越來越多,為了方便信息的傳遞和分享,一些企業(yè)或個人以服務的形式對外發(fā)布自己的數(shù)據(jù),為用戶提供服務,這種方式被稱為數(shù)據(jù)服務。然而,數(shù)據(jù)服務發(fā)布者存在不同的領域或行業(yè)背景,造成數(shù)據(jù)服務在描述上存在語義異構性,導致無法準確的匹配所需的數(shù)據(jù)服務,從而帶來資源的浪費。傳統(tǒng)的數(shù)據(jù)服務是數(shù)據(jù)密集型的Web服務,已有研究對數(shù)據(jù)服務的描述大多采用RESTAPI方式或者WS-DL式的Web服務,然而這類Web服務缺乏語義信息,在自動服務組合等方面存在不足。OWL-Sf ontology Web language forservices)實現(xiàn)了Web服務屬性和功能明確的形式化表示,使得服務的描述具有了語義。但OWL-S對服務的動態(tài)信息描述不足,不支持服務的動態(tài)復合。本文在語義標注概念的基礎上,結合領域本體及語義標注技術,提出來一種基于領域本體的數(shù)據(jù)服務語義標注方法,為后續(xù)的數(shù)據(jù)服務發(fā)現(xiàn)、調(diào)用提供基礎。

1領域本體

本體(Ontology)起源于哲學,即概念的明確規(guī)范說明,是對世界上客觀存在物的系統(tǒng)描述。近年來,人們將本體的概念引入人工智能、知識工程和圖書情報領域,用于解決信息提取、知識概念表示和知識組織體系方面的有關問題。

由于應用領域的不同,對本體研究的側重點也有所不同。涉及特定學科領域的本體,被稱為領域本體(Domain Ontolo-gy)。領域本體是領域術語集和領域知識集的總體,是領域的概念化詳細說明,可用本體語言將其詳細說明。領域本體的目標是捕獲相關的領域知識,提供對該領域知識的共同理解,確定該領域內(nèi)共同認可的概念,并從不同層次的形式化模型上給出這些概念和概念之間相互關系的明確定義,提供該領域中發(fā)生的活動以及該領域的主要理論和基本原理等。

由于本體工程到目前為止仍處于相對不成熟的階段,還沒有一個標準的本體構建方法。領域本體的建設還處于探索期,構建過程中存在著很多問題,主要問題分析如下:1)需求不充分和無計劃性;2)建設過程缺少規(guī)范性;3)成果沒有評價標準;4)忽視本體的共享和重用。用。

2基于領域本體的數(shù)據(jù)服務模型

由于數(shù)據(jù)服務描述中WSDL的語義缺乏性以及OWL-S存在著對服務動態(tài)信息描述不足、不支持服務動態(tài)復合的限制。本文將空間向量模型VSM引入進來,設計了一種基于領域本體的數(shù)據(jù)服務模型。使得數(shù)據(jù)服務兼具數(shù)據(jù)特征和語義雙重優(yōu)勢,并能很好地進行服務組合及規(guī)劃。

將數(shù)據(jù)服務中的WSDL文檔中元素屬性值進行解析,獲得表示該數(shù)據(jù)服務描述文檔的特征詞集合。利用特征詞向量之間的相似度和K中心算法對數(shù)據(jù)服務進行聚類,依據(jù)聚類的結果和相關領域信息構建相應的領域本體,即通過基于OWL-S將各個數(shù)據(jù)源的數(shù)據(jù)模型映射到一個全局共享語義本體上,實現(xiàn)跨領域用戶對數(shù)據(jù)服務語義的理解。結合構建的領域本體,計算每個特征詞的權重,將特征詞集合及其權重依據(jù)本體的空間向量模型VSM進行存儲,把含有這些特征詞的WSDL文檔與相應的特征詞進行關聯(lián),從而數(shù)據(jù)服務描述文檔與領域本體之間的概念相互關聯(lián),即可基于領域本體實現(xiàn)數(shù)據(jù)服務建模。

3基于領域本體的數(shù)據(jù)服務語義標注方法

為了解決Web上發(fā)布的數(shù)據(jù)服務之間存在的語義差異,本文結合構建的領域本體庫,提出一種新的數(shù)據(jù)服務語義標注方法,對數(shù)據(jù)服務進行語義標注,解決異構數(shù)據(jù)服務之間的語義差異問題。

對所有的WSDL描述文檔的特征詞構建空間向量模型(VSM),WSDL描述文檔以VSM特征項作為其表示的基本單位,所有特征項組成的一個n維特征空間向量:D=(T1,W1;T2,W2;Ti,Wi)表示一個WSDL描述文檔,其中Wi為第i個特征項Ti在WSDL描述文檔特征詞中的權重。fij表示特征詞i在第i個WSDL特征詞文檔中出現(xiàn)的頻率,N表示所有WS-DL特征詞文檔的總數(shù),ni表示出現(xiàn)有特征詞i的WSDL特征詞文檔的個數(shù)。權重的計算方法為權重計算公式(1):

由圖2可以看出,與領域本體庫相關的特征詞,特征詞在對應的特征詞文檔中的權重發(fā)生了變化,“travel”特征詞在WS-DL特征詞文檔DS1中沒有出現(xiàn),“travel”特征詞在WSDL特征詞文檔中的權重為0,但是結合領域本體改進權重計算公式之后,由于本體中與“travel”相關的概念在WSDL特征詞文檔DS,中有出現(xiàn),利用改進的權重公式計算,“travel”關于WSDL特征詞文檔DS,的權重變?yōu)?.1789而不是0,而與本體無關的“ip”的相應權重則不變。這樣當服務請求者以“travel”來查詢服務時,與“travel”相關的概念在WSDL特征詞文檔DS,中出現(xiàn),即使“trav-ez”沒有在WSDL特征詞文檔DS1中出現(xiàn),WSDL特征詞文檔DSl相對應的數(shù)據(jù)服務也能被檢索出來為數(shù)據(jù)服務請求者服務。

5總結與展望

本文主要從數(shù)據(jù)服務的語義標注方面進行研究,提出一種基于領域本體的數(shù)據(jù)服務語義標注方法,該方法在構建的領域本體基礎之上,結合數(shù)據(jù)服務描述文檔的特征詞向量,計算二者的語義相似度,完成對數(shù)據(jù)服務的語義標注,考慮如何對VSM進行改進以及對OWL-S的擴展是今后的工作中研究方向。

猜你喜歡
數(shù)據(jù)服務
大數(shù)據(jù)時代高校圖書館數(shù)據(jù)服務的困境及優(yōu)化路徑
地理空間大數(shù)據(jù)服務自然資源調(diào)查監(jiān)測的方向分析
基于數(shù)據(jù)中臺的數(shù)據(jù)服務建設規(guī)范研究
面向研究需求的數(shù)據(jù)服務體系構建與思考
NetApp將提供無縫混合多云體驗
面向科研用戶的嵌入式智慧數(shù)據(jù)服務模式研究*
大數(shù)據(jù)環(huán)境下我國大學圖書館數(shù)據(jù)服務調(diào)查分析
數(shù)據(jù)服務依賴圖模型及自動組合方法研究
大數(shù)據(jù)服務深度需求與SOA協(xié)作集成的異構系統(tǒng)融合機制
如何運用稅收大數(shù)據(jù)服務供給側結構性改革