国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

集成化本體管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)*

2013-03-15 03:56許德山張運(yùn)良中國(guó)科學(xué)技術(shù)信息研究所北京100038
數(shù)字圖書館論壇 2013年11期
關(guān)鍵詞:三元組知識(shí)庫(kù)結(jié)點(diǎn)

□ 許德山 張運(yùn)良 / 中國(guó)科學(xué)技術(shù)信息研究所 北京 100038

集成化本體管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)*

□ 許德山 張運(yùn)良 / 中國(guó)科學(xué)技術(shù)信息研究所 北京 100038

文章以本體管理與服務(wù)平臺(tái)的建設(shè)為主線,首先分析了集成化本體管理和服務(wù)系統(tǒng)的應(yīng)具備的各項(xiàng)功能,并設(shè)計(jì)了系統(tǒng)的整體架構(gòu)。其次從本體注冊(cè)、三元組檢索、可視化展示和Web services等方面詳細(xì)介紹平臺(tái)的實(shí)現(xiàn)思路。文章最后對(duì)目前項(xiàng)目進(jìn)行總結(jié)并提出了未來研究的重點(diǎn)方向。

本體管理,本體發(fā)布,知識(shí)服務(wù)

引言

本體作為一種概念體系的形式化描述為計(jì)算機(jī)處理領(lǐng)域知識(shí)帶來了便利,隨著各種應(yīng)用需求的增加,領(lǐng)域本體的建設(shè)也越來越多。國(guó)外研究機(jī)構(gòu)開發(fā)了多種管理工具來滿足不同用戶的使用需求[1-3],國(guó)內(nèi)學(xué)術(shù)界也在積極地開展本體存儲(chǔ)工具的研究[4-6]。隨著研究的深入和應(yīng)用的擴(kuò)展,中文本體的規(guī)模和數(shù)量逐漸增多。為了整合各種中文本體資源,向用戶提供有效的信息獲取服務(wù),構(gòu)建集本體管理、發(fā)布、檢索和服務(wù)于一體的平臺(tái)系統(tǒng)日益迫切。本文旨在對(duì)中文本體的管理和服務(wù)進(jìn)行探索,并利用開源存儲(chǔ)工具實(shí)現(xiàn)一個(gè)整合服務(wù)原型系統(tǒng),為后期深入研究提供參考經(jīng)驗(yàn)。

1 本體管理平臺(tái)的功能結(jié)構(gòu)

早期編制的詞表、分類表等信息組織系統(tǒng)主要供標(biāo)引人員使用,其內(nèi)部結(jié)構(gòu)未作明確的定義,要使計(jì)算機(jī)能夠自動(dòng)處理詞表信息,必須將其改造為更加規(guī)范的本體描述。本體管理平臺(tái)旨在為已創(chuàng)建的各種本體資源提供一套規(guī)范化的管理方式,并通過統(tǒng)一的服務(wù)接口供外部用戶使用。因此管理平臺(tái)除了具備本體資源的存儲(chǔ)和檢索功能,還應(yīng)該提供豐富的服務(wù)模式來滿足不同類型用戶的使用需求。整個(gè)管理平臺(tái)由用戶界面、服務(wù)處理和存儲(chǔ)管理3層結(jié)構(gòu)組成。其詳細(xì)情況如圖1所示。

(1)用戶界面

為了有效地展示本體的內(nèi)部結(jié)構(gòu)和結(jié)點(diǎn)描述,管理平臺(tái)提供了可視化界面,幫助用戶有效地獲取相關(guān)信息??梢暬缑鎸?duì)中間層的可視化模型、SPARQL構(gòu)造器、Web services接口等功能進(jìn)行了包裝,向用戶提供可視化檢索、ontology瀏覽以及services示范用例等便捷功能。檢索界面還設(shè)置了信息提示功能,用戶輸入概念詞匯后,系統(tǒng)將詞匯發(fā)送到服務(wù)處理器,檢索代理模塊立即在知識(shí)庫(kù)中查找與該詞匯相關(guān)的信息,并以列表形式返回檢索框,用戶可以進(jìn)一步選擇概念的某一個(gè)側(cè)面進(jìn)行提交,以便獲得更精確的檢索結(jié)果。

(2)服務(wù)處理層

服務(wù)處理層主要功能是檢索條件與三元組概念圖的匹配。存儲(chǔ)在后臺(tái)知識(shí)庫(kù)中的三元組必須讀入內(nèi)存形成完整的概念網(wǎng)絡(luò),才能實(shí)現(xiàn)需求與知識(shí)源的匹配。服務(wù)層接收用戶界面發(fā)送的概念、限定條件和URL等信息后,將其映射為滿足需求的SPARQL檢索式,然后將檢索式與概念模型進(jìn)行圖形匹配,返回命中的概念結(jié)點(diǎn)信息。

(3)存儲(chǔ)和管理層

存儲(chǔ)管理層的功能是將OWL描述的本體文件轉(zhuǎn)換成統(tǒng)一的三元組形式,并創(chuàng)建知識(shí)庫(kù)進(jìn)行存儲(chǔ)。同時(shí)還負(fù)責(zé)本體內(nèi)容的修改、實(shí)例的添加、多本體間的概念鏈接等操作。本體知識(shí)庫(kù)主要由Schema、領(lǐng)域規(guī)則和實(shí)例組成。Schema是整個(gè)系統(tǒng)的概念基礎(chǔ),它提供了領(lǐng)域概念知識(shí)的類別和層次結(jié)構(gòu),并建立了各概念知識(shí)的多種聯(lián)系,是定義領(lǐng)域規(guī)則和OWL描述實(shí)例的基礎(chǔ),同時(shí)也是生成查詢表達(dá)式的重要依據(jù)。領(lǐng)域規(guī)則是在領(lǐng)域本體的基礎(chǔ)上定義的,以SWRL語法描述了領(lǐng)域概念知識(shí)間的隱含關(guān)系,是進(jìn)行推理查詢的基礎(chǔ)。作為領(lǐng)域概念知識(shí)的具體形式,實(shí)例是三元組檢索主要的信息源,它不僅包含了直接以個(gè)體存儲(chǔ)的領(lǐng)域知識(shí),還包括經(jīng)過描述邏輯推理后的隱含信息。

2 本體注冊(cè)及存儲(chǔ)

本體文件的內(nèi)容描述通常與一個(gè)特定的領(lǐng)域有關(guān),其內(nèi)部的概念結(jié)點(diǎn)和關(guān)系構(gòu)建了領(lǐng)域知識(shí)框架。由于單個(gè)的本體文件所提供的信息有限,發(fā)布平臺(tái)通過識(shí)別詞匯和標(biāo)簽形式,將多個(gè)本體中相同或相似的概念建立了語義鏈接,本體注冊(cè)完成后,其內(nèi)部的各種信息以三元組的形式存儲(chǔ)到數(shù)據(jù)庫(kù)中,形成多領(lǐng)域的知識(shí)庫(kù)。三元組的后臺(tái)存儲(chǔ)使用Sesame工具包來完成[7],一個(gè)新的本體文件添加后,Sesame知識(shí)庫(kù)將以本體URL為命名空間生成存儲(chǔ)文件,同時(shí)將本體內(nèi)部的概念類、類間關(guān)系和屬性等結(jié)構(gòu)詞匯在瀏覽頁面中進(jìn)行發(fā)布。用戶可以查看本體頁面了解其內(nèi)部結(jié)構(gòu),還可以點(diǎn)擊相應(yīng)詞匯通過可視化的方式了解詞匯的關(guān)系和屬性等描述信息。本體注冊(cè)頁面的效果如圖2所示。

管理平臺(tái)設(shè)置了3種不同的用戶-管理員、注冊(cè)用戶和普通用戶。管理員負(fù)責(zé)本體文件的添加、刪除以及其他用戶的授權(quán)操作。注冊(cè)用戶可以使用平臺(tái)提供的Web services、可視化檢索、知識(shí)庫(kù)瀏覽、本體下載等功能。普通用戶無需注冊(cè),但僅能使用可視化檢索和知識(shí)庫(kù)瀏覽功能。

圖1 本體管理平臺(tái)架構(gòu)圖

圖2 本體注冊(cè)管理頁面

3 檢索模塊

本體信息的檢索是整個(gè)系統(tǒng)的基礎(chǔ)和核心功能,其檢索方式與資源組織形式關(guān)系密切。作為一種領(lǐng)域知識(shí)的整合工具,本體通過上下位概念、等同概念、參照概念等信息對(duì)重要的關(guān)鍵詞進(jìn)行語義擴(kuò)展,形成新的檢索向量。檢索模型首先尋找知識(shí)庫(kù)中與用戶輸入詞匯匹配的概念結(jié)點(diǎn),再以此結(jié)點(diǎn)為結(jié)點(diǎn),依次探尋與其相關(guān)的其他概念結(jié)點(diǎn),直到?jīng)]有新的概念可以發(fā)現(xiàn)。為了提高結(jié)果的精確性,檢索界面提供了領(lǐng)域篩選功能。初次檢索后,命中概念以及概念所在的本體文件會(huì)以列表的形式展示,用戶進(jìn)一步選擇后,系統(tǒng)再次將概念詞匯和本體URL發(fā)送給服務(wù)處理模塊,Services將根據(jù)不同的需求組裝相應(yīng)的SPARQL語句進(jìn)行檢索[8]。SPARQL檢索式由前綴、三元組變量及限定條件等部分組成,其語法結(jié)構(gòu)與SQL語言類似,SELECT后面緊跟表示結(jié)果的檢索變量,WHERE子句后則是以三元組形式表示的檢索條件。為了解決同一詞匯在多個(gè)領(lǐng)域中的使用問題,SPARQL檢索式在進(jìn)行三元組表示時(shí),利用命名空間的前綴來限定元素。

SPARQL查詢語言通過三元組圖形模式進(jìn)行匹配,三元組模式允許查詢變量出現(xiàn)在主體、謂詞或者客體的位置上。當(dāng)用戶從接口輸入檢索關(guān)鍵詞時(shí),輸入的關(guān)鍵詞與本體中的詞匯進(jìn)行相似度計(jì)算,映射為三元組中的各種元素。檢索前綴由本體注冊(cè)信息自動(dòng)生成,當(dāng)完成三元組分析和映射后,三元組列表與命名空間進(jìn)行組配,形成SPARQL檢索表達(dá)式。由于知識(shí)庫(kù)中概念信息按一定的順序進(jìn)行排列,用戶要檢索的信息可能處于三元組的主語位置,也可能處于賓語位置,在映射為三元組元素的過程中,要考慮兩種組配方式,避免信息的漏檢。例如詞匯“本體融合映射報(bào)告”可能存在于下面的事實(shí)知識(shí)中:

因此當(dāng)用戶輸入上述詞匯檢索有關(guān)信息時(shí),其三元組需映射為以下兩種形式。

圖3 SPARQL查詢端

管理平臺(tái)的SPARQL查詢端提供了檢索式的編輯功能,高級(jí)用戶可以根據(jù)需要?jiǎng)?chuàng)建復(fù)雜的三元組模式進(jìn)行知識(shí)庫(kù)檢索,查詢結(jié)果將以列表形式返回。SPARQL查詢端的設(shè)計(jì)效果如圖3所示。

4 可視化展示

查詢界面提供了多本體統(tǒng)一檢索功能,用戶輸入待檢概念后,系統(tǒng)會(huì)在知識(shí)庫(kù)中所有的領(lǐng)域本體中查找相關(guān)概念,然后將命中的本體文件以列表的形式返回用戶,待用戶再次確認(rèn)概念所屬領(lǐng)域后,便會(huì)生成相應(yīng)的結(jié)點(diǎn)網(wǎng)絡(luò)模型,并通過可視化界面顯示與輸入概念有關(guān)的各種資源??梢暬缑嬉暂斎敫拍顬橹行慕Y(jié)點(diǎn)向外輻射,與其產(chǎn)生聯(lián)系的其他概念會(huì)顯示在關(guān)系視圖中,而概念結(jié)點(diǎn)自身具有的信息則在屬性視圖中進(jìn)行展示。若輸入的概念為本體類,檢索結(jié)果將返回該類的描述模型列表。若輸入的為實(shí)例,則返回與該實(shí)例相關(guān)的其他概念結(jié)點(diǎn)及其屬性信息,同時(shí)在左側(cè)的結(jié)果面板中對(duì)概念結(jié)點(diǎn)進(jìn)行詳細(xì)說明。可視化界面使用了Ajax技術(shù)來實(shí)現(xiàn)結(jié)點(diǎn)形狀、顏色渲染等動(dòng)態(tài)效果,圖形結(jié)點(diǎn)還具備放大、縮小以及拖拽功能,可以根據(jù)用戶需求完成界面布局。關(guān)系視圖中每個(gè)關(guān)系結(jié)點(diǎn)的位置取決于該節(jié)點(diǎn)在樹中的層次,層次越深,圓環(huán)距離中心的根節(jié)點(diǎn)越遠(yuǎn)。視圖網(wǎng)絡(luò)的生成過程由以下7步驟組成:

概念結(jié)點(diǎn)有兩種組合方式:直接組合和間接組合。直接組合是指兩個(gè)概念間具有明確的聯(lián)系,其結(jié)構(gòu)可以直接利用三元組進(jìn)行表示。輸入詞匯和詞匯間的聯(lián)系分別映射為結(jié)點(diǎn)和關(guān)系弧,并以該輸入詞匯為中心元素向外輻射,形成知識(shí)地圖。間接組合是指概念間無法通過一個(gè)明確的語義產(chǎn)生聯(lián)系,但概念間存在一個(gè)關(guān)系鏈,可以利用其他概念作為中介,通過多個(gè)語義關(guān)系建立聯(lián)系。當(dāng)點(diǎn)擊選中的外圍結(jié)點(diǎn)時(shí),處理程序會(huì)以當(dāng)前結(jié)點(diǎn)作為中心結(jié)點(diǎn)探測(cè)與之相連的各種關(guān)系,然后通過環(huán)形的布局算法將樹圖轉(zhuǎn)換為圓環(huán)結(jié)構(gòu),其中根節(jié)點(diǎn)為中心節(jié)點(diǎn),關(guān)系結(jié)點(diǎn)分布在外圍的圓環(huán)上。可視化界面效果如圖4所示。

圖4 可視化檢索關(guān)系圖

5 Web Services接口

管理平臺(tái)除了提供本體信息的注冊(cè)和檢索功能外,還采用Web services方式為用戶提供了遠(yuǎn)程調(diào)用功能。管理平臺(tái)充當(dāng)了服務(wù)提供者和代理兩種角色,其內(nèi)部操作方法通過services代理注冊(cè)發(fā)布為服務(wù)接口。Services代理由action、model、sesame和services模塊組成,其中action負(fù)責(zé)檢索流程的控制和轉(zhuǎn)發(fā);model負(fù)責(zé)后臺(tái)數(shù)據(jù)的封裝和檢索模型的生成;sesame模塊負(fù)責(zé)知識(shí)庫(kù)的初始化和連接等操作;services模塊負(fù)責(zé)將用戶輸入的各項(xiàng)檢索條件映射為SPARQL表達(dá)式并將其檢索結(jié)果形式化。各模塊間的調(diào)用關(guān)系如圖5所示。

Web services接口由方法名、功能描述和wsdl文件組成,點(diǎn)擊相應(yīng)的wsdl后,頁面指向服務(wù)的引用地址(例如QueryService方法的引用地址為http://168.160. 18.252:8080/ontology/services/ ws_findAllClass?wsdl)。用戶在程序中可以直接訪問服務(wù)地址生成相應(yīng)的本地文件進(jìn)行方法調(diào)用。接口注冊(cè)和發(fā)布功能使用XFire工具包實(shí)現(xiàn)[9],XFire是新一代的Java Web服務(wù)引擎,其配置簡(jiǎn)單,使用方便,易于與前臺(tái)模塊集成。為了方便用戶使用,系統(tǒng)為每個(gè)Web services方法提供了示范用例,對(duì)services接口的功能和返回值類型作了說明。用戶點(diǎn)擊后,系統(tǒng)對(duì)相應(yīng)的概念信息進(jìn)行檢索,并把命中信息以xml形式返回給用戶。服務(wù)接口的詳細(xì)信息如圖6所示。

6 結(jié)語

如何有效地組織信息,并在此基礎(chǔ)上提供有效的服務(wù),一直是情報(bào)學(xué)領(lǐng)域研究的課題,其涉及的知識(shí)相當(dāng)廣泛,本文僅將就多本體資源的管理和使用技術(shù)進(jìn)行了探討。文章分析了一體化管理平臺(tái)應(yīng)具備的功能模塊,進(jìn)而通過各種工具實(shí)現(xiàn)了原型系統(tǒng),對(duì)可視化檢索、Web服務(wù)等前沿技術(shù)做了集成研究。為了驗(yàn)證集成管理平臺(tái)的功能效果,筆者添加了多個(gè)科研本體資源進(jìn)行了試用,為進(jìn)一步實(shí)現(xiàn)語義檢索和知識(shí)服務(wù)做了探索工作。本文實(shí)現(xiàn)的一體化管理服務(wù)平臺(tái)有以下特點(diǎn):

(1)本體注冊(cè)模塊具有整合功能。本體文件在存儲(chǔ)過程中進(jìn)行概念融合,將不同本體間的相關(guān)概念建立映射,檢索模型采取網(wǎng)絡(luò)擴(kuò)展結(jié)構(gòu)策略,以初始概念集合開始逐步擴(kuò)展,提高了知識(shí)庫(kù)的跨領(lǐng)域檢索功能。

(2)可視化瀏覽功能。本體發(fā)布頁面使用超鏈接與可視化模型相連,用戶瀏覽本體結(jié)構(gòu)時(shí),可以利用可視化模型了解每個(gè)概念結(jié)點(diǎn)的關(guān)系連接和描述信息。

(3)提供遠(yuǎn)程使用接口。為了方便程序開發(fā)中使用知識(shí)庫(kù)的檢索功能,管理平臺(tái)針對(duì)不同的檢索需求進(jìn)行了封裝,并以接口的形式發(fā)布到服務(wù)頁面,用戶瀏覽相應(yīng)的示范用例便可了解接口的功能和使用方法。

集成化管理系統(tǒng)為本體應(yīng)用服務(wù)提供了支撐平臺(tái),但由于技術(shù)所限,目前的集成管理系統(tǒng)還不具有大規(guī)模應(yīng)用的能力,后期將逐步采用分布式技術(shù)來實(shí)現(xiàn)多用戶訪問。同時(shí)也將繼續(xù)完善Web服務(wù)的動(dòng)態(tài)組裝功能,以應(yīng)對(duì)復(fù)雜多變的用戶需求。

圖5 模塊調(diào)用關(guān)系圖

圖6 Web services接口發(fā)布頁面

參考文獻(xiàn)

[1] IORDANOV B. HyperGraphDB: A Generalized Graph Database [C]// Proceedings of WAIM 2010 International Workshops, IWGD, 2010: 25-36.

[2] AllegroGraph 4.11 Introduction [EB/OL]. (2013-09-18) [2013-09-22]. http://www.franz.com/agraph/support/documentation/current/agraph-introduction.html.

[3] HARRIS S, LAMB N, SHADBOLT N. 4store: The Design and Implementation of a Clustered RDF Store [C]// 5th International Workshop on Scalable Semantic Web Knowledge Base Systems (SSWS2009), 2009.

[4] 李慧穎,瞿裕忠.KREAG:基于實(shí)體三元組關(guān)聯(lián)圖的RDF數(shù)據(jù)關(guān)鍵詞查詢方法[J].計(jì)算機(jī)學(xué)報(bào),2011,34(5): 825-835.

[5] 王鑫,馮志勇,杜樸風(fēng),等.Jingwei:一種分布式大規(guī)模RDF數(shù)據(jù)服務(wù)器[J].計(jì)算機(jī)研究與發(fā)展,2011,48(Z2):1-4.

[6] 袁平鵬,劉譜,張文婭,等.高可擴(kuò)展的RDF數(shù)據(jù)存儲(chǔ)系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2012(10):2131-2141.

[7] PRUD E, SEABORNE A. SPARQL Query Language for RDF [EB/OL]. (2008-01-15) [2013-09-22]. http://www.w3.org/TR/rdf-sparql-query/.

[8] User Document for Sesame 2.7 [EB/OL]. [2013-09-22]. http://openrdf.callimachus.net/sesame/2.7/docs/users.docbook?view.

[9] User Guide for XFire [EB/OL]. [2013-09-22]. http://xflre.codehaus.org/User%27s+Guide.

Design and Implementation of Integrated Ontology Management Platform

Xu Deshan, Zhang Yunliang / Institute of Scientiflc and Technical Information of China, Beijing, 100038

The work presented in this paper focuses on construction ideas of ontology management and services system. The functions that an integrated system should have are described flrstly, as well as the architecture of the platform. And then, the implementation methods about various modules - ontology registration, triples retrieval, visualization and Web services, are presented in detail. Finally, the paper gives a summary about the current work and proposes the research emphasis in the future.

Ontology management, Ontology publishing, Knowledge service

10.3772/j.issn.1673—2286.2013.11.004

許德山(1979- ),男,助理研究員。研究方向:為知識(shí)組織、文本挖掘、語義Web。E-mail: xuds@istic.ac.cn

張運(yùn)良(1979- ),男,博士,副研究員。研究方向:為知識(shí)組織、知識(shí)工程、自然語言處理、文本自動(dòng)分類。E-mail:zhangyl@istic.ac.cn

2013-10-09)

*本文系“十二五”國(guó)家科技支撐計(jì)劃項(xiàng)目“科技知識(shí)組織體系共享服務(wù)平臺(tái)建設(shè)”(編號(hào):2011BAH10B03-2)、中國(guó)科學(xué)技術(shù)信息研究所重點(diǎn)工作項(xiàng)目“漢語科技詞系統(tǒng)建設(shè)與應(yīng)用工程”(編號(hào):ZD2012-3-2)的研究成果之一。

猜你喜歡
三元組知識(shí)庫(kù)結(jié)點(diǎn)
基于八數(shù)碼問題的搜索算法的研究
特征標(biāo)三元組的本原誘導(dǎo)子
關(guān)于余撓三元組的periodic-模
基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
一個(gè)時(shí)態(tài)RDF存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個(gè)數(shù)估計(jì)
高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
三元組輻射場(chǎng)的建模與仿真
基于Raspberry PI為結(jié)點(diǎn)的天氣云測(cè)量網(wǎng)絡(luò)實(shí)現(xiàn)