李振超
摘要:該文介紹了當前萬維網(wǎng)存在的主要問題,從問題出發(fā),引入了語義Web的概念,并對語義Web的體系結(jié)構(gòu)及其發(fā)展進行了闡述,同時對當前基于語義Web的本體技術(shù)重點進行了研究分析。
關(guān)鍵詞:語義Web;描述邏輯;本體
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2012)23-5563-02
Semantic Web Technology Development and Research on Semantic Web-based Ontology Technology
LI Zhen-chao
(Guangdong Womens Polytechnic College, Guangzhou 511450, China)
Abstract: This article describes the main problems in the current World Wide Web, issues and away from the introduction of the concept of the Semantic Web and Semantic Web architecture and describes its development, at the same time, studies and analyses the focus on the current Semantic Web-based ontology technology .
Key words: Semantic Web; description logic; ontology
1萬維網(wǎng)現(xiàn)狀及存在的問題
1989年在歐洲的一個國際核能研究院中,Tim Berners-lee提出了一份關(guān)于信息管理的研究計劃,該計劃將超文本技術(shù)應用到計算機網(wǎng)絡之中,促成了萬維網(wǎng)(WWW或Web)的誕生[1]。萬維網(wǎng)誕生之后,得到了迅速的發(fā)展,并在人們的日常生活中發(fā)揮著越來越重要的作用。
萬維網(wǎng)是一個巨大的信息資源庫,幾乎包含了任何領(lǐng)域的文檔和媒體資源,并且允許用戶通過搜索引擎對數(shù)據(jù)進行查找和訪問。但是,在實際的應用中,對萬維網(wǎng)上進行信息查詢還存在很多問題[2]:
(1)高匹配、低精度。在搜索主要相關(guān)頁面的同時,還會搜到28758個低相關(guān)或不相關(guān)的頁面,檢索效果非常差。
(2)低匹配或無匹配。搜索到的結(jié)果漏掉了一些重要的相關(guān)頁面,或者搜索不到任何有用的結(jié)果。
(3)檢索結(jié)果對詞匯高度敏感。在使用最初填寫的關(guān)鍵詞進行搜索時,不能得到想要的結(jié)果,只能得到相似的結(jié)果,因為相關(guān)的文檔里可能使用了與檢索關(guān)鍵詞不一樣的術(shù)語。
(4)檢索結(jié)果是單一的網(wǎng)頁。假如需要的信息分布在不同的文檔中,則需要用多個查詢來收集相關(guān)的頁面,再對這些頁面中的相關(guān)信息進行提取后組織成一個整體。
(5)搜索結(jié)果與其它軟件處理的兼容性差。即使搜索到了需要的頁面,但由于其他軟件對現(xiàn)有網(wǎng)絡搜索的結(jié)果不容易進一步處理,對極其耗時的信息檢索本身來說,搜索引擎并不能提供太多的支持,可以說搜索引擎的應用往往是孤立的。
2語義Web的提出
以上問題的原因在于目前的萬維網(wǎng)是面向人而不是面向機器,人可以理解萬維網(wǎng)上Web頁面的內(nèi)容,但機器卻只能對Web頁面進行簡單的顯示,不能真正理解內(nèi)容的含義,也就不能對其進行自動處理。這使得萬維網(wǎng)上的一些應用(如智能Agent、信息檢索、電子商務等)無法真正實現(xiàn)智能化和自動化[1]。
為了使計算機能夠理解和處理網(wǎng)頁內(nèi)容,迅速準確地從海量Web頁面中查找需要的內(nèi)容,Tim Berners-Lee于1998年首次提出了語義網(wǎng)的概念,并且于2000年在召開的XML2000會議上進一步明確闡明了語義Web[3][4]。語義Web是對現(xiàn)有Web增加語義支持,是對現(xiàn)有萬維網(wǎng)的變革和延伸,目標是使網(wǎng)絡中的信息都具有語義,并幫助計算機在一定程度上理解信息的含義,從而實現(xiàn)高效的信息共享和機器智能協(xié)同。簡單地說,語義Web是以數(shù)據(jù)的內(nèi)容,即數(shù)據(jù)的語義為核心,用機器能夠理解和處理的方式鏈接起來的海量分布式數(shù)據(jù)庫[5]。因而語義Web研究的重點就是如何把信息知識表示成計算機能夠理解和處理的形式,使信息帶有語義。
3語義Web體系結(jié)構(gòu)
語義Web的實現(xiàn)是以現(xiàn)有的網(wǎng)絡環(huán)境為基礎,通過對其增加協(xié)議層來逐步提供語義Web承諾的各項功能,換句話說,高層是在低層的基礎上對其進行功能的擴展。在語義Web中,低層到高層的擴展,應該遵循以下兩個原則[2]:
(1)向下可兼容性。位于高層的代理應能理解和使用低層的相關(guān)信息。
(2)向上部分可理解性。位于低層的代理可以部分地使用高層的信息。
Tim Berners-Lee給出了語義Web體系結(jié)構(gòu)圖,如圖1所示[4][6]:
圖1語義Web的體系結(jié)構(gòu)
第一層:Unicode和URI層。該層是語義Web的基礎,其它各層都是在本層的基礎上實現(xiàn)的。Unicode是一個字符集,它的功能是對Web中的資源進行統(tǒng)一編碼,保證網(wǎng)絡用戶使用的字符集國際化、通用化,達到了構(gòu)建全球信息網(wǎng)絡的目的,并且在這個網(wǎng)絡中支持世界上所有的主要語言的混合,覆蓋不同語言的文字和的信息資源;URI的功能則是對Web資源進行定位標識。
第二層:XML+NS(名空間)+ XML模式層。該層主要功能是用來對數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容進行表示。XML是一個精簡的SGML(標準通用標記語言),它既具有SGML的豐富功能,又兼?zhèn)銱TML的易用性能,同時還克服了HTML的缺陷,可以允許用戶在文檔中任意加入結(jié)構(gòu)信息,且無需說明結(jié)構(gòu)的含義,因而與HTML文檔相比,XML文檔更容易被機器解讀。NS由URI索引確定,可以避免因不同的應用使用相同的字符描述不同的事物而衍生的問題。
第三層:RDF+ RDF模式層。該層主要作用是在Web中用元數(shù)據(jù)來描述資源及資源類型,實現(xiàn)機器可理解的信息互操作。RDF是一種描述萬維網(wǎng)上信息資源的描述語言,雖然稱之為“語言”,但實際上是一個由一系列陳述即“對象-屬性-值”三元組組成的數(shù)據(jù)模型,因而RDF的最終目的是建立一種可以供不同元數(shù)據(jù)標準共存的框架。它可以利用各種元數(shù)據(jù)的自身優(yōu)勢,對Web中的數(shù)據(jù)進行再利用或交換。
第四層:本體層。該層主要作用是在RDF的基礎上,通過嚴格的定義,對概念及其概念間的顯式或隱式的關(guān)系等應用領(lǐng)域的知識資源進行抽象描述,使其具有明確的含義,并實現(xiàn)對詞匯表的擴展。
第五層:邏輯層。該層的主要作用是依據(jù)前面四層對資源以及資源之間的關(guān)系進行邏輯上的推理,提供了推理規(guī)則的描述手段。
第六層:驗證層。該層主要作用是運用邏輯層提供的推理規(guī)則對邏輯陳述進行推理驗證,通過驗證得出相應的結(jié)論提供給用戶。
第七層:信任層。該層的主要作用是為用戶之間提供建立相互信任關(guān)系的保障。
在語義Web的七層結(jié)構(gòu)中,關(guān)鍵層是第二、三、四層,用來表示W(wǎng)eb信息的語義,它們是目前語義Web研究的熱點內(nèi)容。
4語義Web本體
從語義Web的定義可以看出,它是一個機器可理解的信息集合體。既然機器可以理解語義Web中的各種信息,那么機器也可以在理解的基礎上,對語義Web中的各種信息進行推理,從而根據(jù)信息的相互關(guān)系推導出隱含在信息之間的隱性信息。這是傳統(tǒng)的萬維網(wǎng)無法完成的,因為傳統(tǒng)的萬維網(wǎng)只能對信息進行存取和簡單的對比。
為了讓計算機能夠自動理解語義Web上的信息,主要任務就是要解決語義Web中信息的語義表達。為實現(xiàn)信息的分類并實現(xiàn)信息之間相互關(guān)系的語義表達,人們引入了“本體”[6]的概念。本體就是用規(guī)范化的精確定義來表達概念及概念之間的關(guān)系,它反映了事物或現(xiàn)象的抽象本質(zhì)并對其建立抽象模型。因為本體所具有知識表示和描述的能力,所以人們可以通過本體用統(tǒng)一標準實現(xiàn)資源的表示,從而產(chǎn)生機器能理解和處理的語義信息。本體作為語義信息的載體在語義Web中起著核心的作用,在語義Web中實現(xiàn)基于語義的互操作中起著關(guān)鍵作用,是解決語義層次上Web信息共享和交換的基礎。因此,本體推理成為語義Web研究的重點之一。
5本體描述語言的邏輯基礎——描述邏輯
描述邏輯是知識表示體系族中的一員,近年來得到廣泛的研究應用。描述邏輯對應用領(lǐng)域中的相關(guān)知識進行表示的過程實質(zhì)上就是對應用領(lǐng)域中的概念進行定義的過程,換句話說就是通過定義最基本的概念來實現(xiàn)領(lǐng)域個體及其性質(zhì)的描述[7]。描述邏輯語言的基本特點就是它具有形式的、基于邏輯的語義,并且能夠提供推理服務,通過推理我們可以由知識庫中的外層知識得到其內(nèi)部的蘊含知識,即可以由顯性知識推出隱性知識。
語義Web中本體的使用需要一種適合設計、方便定義并能與Web相容的本體語言。由于描述邏輯(DL)在語義、可判定性以及面向?qū)ο蟮姆诸惐硎镜确矫婢哂凶陨淼膬?yōu)點,所以一般的本體描述語言可以建立在描述邏輯的基礎之上[8],因此Franz Badder和Ian Horrocks等人提出在語義Web中引入描述邏輯,并將其作為本體描述語言進行了廣泛應用。描述邏輯推理也因此逐漸成為語義Web中研究的熱點,目前,越來越多的本體采用基DL的本體語言,W3C組織在2004年提出了國際通用的標準本體描述語言OWL-DL。這樣,本體既能對領(lǐng)域知識進行合理的表達,形成領(lǐng)域本體,又能利用DL的推理服務支持有效的推理。
6語義Web技術(shù)研究的重點內(nèi)容
語義Web的基本思想是借助元數(shù)據(jù)語言對Web信息資源中的內(nèi)容進行描述,使其具有語義,達到讓計算機利用這些語義信息對信息資源的內(nèi)容進行理解和處理的目的。因而對本體進行推理并獲取其中隱性信息成為語義Web技術(shù)中研究的熱點內(nèi)容。
目前語義Web中的本體推理機制主要是基于描述邏輯的,其完成的主要推理任務有:可滿足性檢測,包含關(guān)系檢測(也即層次化或分類推理),ABox的一致性檢測以及實例檢測等等。
知識庫中的術(shù)語(概念)集合一般具有分層結(jié)構(gòu),但概念的分類信息往往是不完整的,并且含有大量的隱藏知識,這就需要利用推理對其重新計算,從而將知識庫中的概念進行進一步的分類(層次化)。因此概念的分類是本體推理中的一個重要任務,也是語義Web技術(shù)研究的熱點內(nèi)容。
在實際的知識表示過程中,我們總希望知識表示系統(tǒng)能在合理有限的時間內(nèi)對查詢問題作出答復,所以,有效推理的過程(決策過程)也是語義Web研究的主要熱點之一。推理問題的確定度和時間復雜度是由描述邏輯的表達能力的好壞決定的,如何對描述邏輯的推理算法進行優(yōu)化,提高推理效率,并在其表達能力和推理問題的復雜性上得出一種更合理的折衷方案,是語義Web研究的最重要的熱點內(nèi)容。
參考文獻:
[1] BERNERS-LEE T,HENDLER J,LASSILA O.The Semantic Web [J].Scientific American, 2001,284(5): 34-43.
[2] ANTONIO G,HARMELEN F V,陳小平.語義網(wǎng)基礎教程[M].北京:機械工業(yè)出版社, 2008:1-2.
[3] BERNERS-LEE T.The Semantic Web[J]. Scienfic American,2001(6): 1-6.
[4] BERNERS-LEE T.Semantic Web-XML2000[EB/OL].(2000-12-06) [2008-10-11]. http://www.w3.org/2000/Talks/1206-xml2k-tbl/ slide10-0.html.
[5]金海,袁平鵬.語義網(wǎng)數(shù)據(jù)管理技術(shù)及應用[M].北京:科學出版社, 2010.
[6]劉華.基于語義網(wǎng)格的本體分割算法的研究與實現(xiàn)[D].沈陽:沈陽工業(yè)大學, 2007:13-14.
[7]魏榴花.基于描述邏輯的語義Web本體研究[D].揚州:揚州大學, 2008:21-26.
[8]蔣運承,湯庸,王駒,周生明.面向語義Web的描述邏輯[J].模式識別與人工智能, 2007, 20(1): 49.