国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語(yǔ)義網(wǎng)的主要功能及其在數(shù)字圖書(shū)館中的應(yīng)用*

2014-04-09 15:02:28歐石燕胡珊南京大學(xué)信息管理學(xué)院南京210093
數(shù)字圖書(shū)館論壇 2014年3期
關(guān)鍵詞:結(jié)構(gòu)化網(wǎng)頁(yè)本體

□ 歐石燕 胡珊/南京大學(xué)信息管理學(xué)院 南京 210093

語(yǔ)義網(wǎng)的主要功能及其在數(shù)字圖書(shū)館中的應(yīng)用*

□ 歐石燕 胡珊/南京大學(xué)信息管理學(xué)院 南京 210093

語(yǔ)義網(wǎng)自誕生以來(lái),其發(fā)展過(guò)程一直處于不斷的調(diào)整變化中,新的語(yǔ)義網(wǎng)標(biāo)準(zhǔn)規(guī)范不斷推出,其功能和應(yīng)用也不斷向深度和廣度擴(kuò)展。文章首先對(duì)語(yǔ)義網(wǎng)的誕生與發(fā)展過(guò)程進(jìn)行了回顧與分析,然后通過(guò)對(duì)語(yǔ)義網(wǎng)應(yīng)用的調(diào)研歸納總結(jié)出語(yǔ)義網(wǎng)的主要功能,最后對(duì)語(yǔ)義網(wǎng)功能在數(shù)字圖書(shū)館中的應(yīng)用進(jìn)行了分析與闡述。

語(yǔ)義網(wǎng),關(guān)聯(lián)數(shù)據(jù),數(shù)字圖書(shū)館

1 語(yǔ)義網(wǎng)的誕生與發(fā)展

自1991年萬(wàn)維網(wǎng)(簡(jiǎn)稱Web)誕生以來(lái),Web已經(jīng)發(fā)展成為一個(gè)擁有億級(jí)頁(yè)面的巨大分布式信息空間,為用戶提供海量的信息服務(wù)。二十多年來(lái),Web雖然經(jīng)歷了一系列變化與發(fā)展,但是無(wú)論是1.0時(shí)代的只讀靜態(tài)網(wǎng)頁(yè),還是2.0時(shí)代的交互式信息平臺(tái),基于超文本格式的非結(jié)構(gòu)化文檔之網(wǎng)(web of documents)的特性一直都沒(méi)有改變,這使得當(dāng)前Web還遠(yuǎn)遠(yuǎn)不能滿足人們對(duì)信息共享和處理的需要,主要表現(xiàn)在[1]:(1)當(dāng)前Web只能供人閱讀和進(jìn)行信息共享,計(jì)算機(jī)并不能“理解”Web的內(nèi)容,并在“理解”的前提下處理和利用這些信息;(2)即使目前有大量網(wǎng)頁(yè)的內(nèi)容是由來(lái)自底層數(shù)據(jù)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)自動(dòng)生成,但是網(wǎng)頁(yè)一經(jīng)生成,信息反而失去了在數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化特征,而這一特征對(duì)于機(jī)器理解和處理信息是非常有用的;(3)人們雖然能在HTML網(wǎng)頁(yè)中建立超鏈接關(guān)系,但是卻無(wú)法在生成這些網(wǎng)頁(yè)的底層數(shù)據(jù)間建立關(guān)聯(lián)關(guān)系,導(dǎo)致Web底層的海量數(shù)據(jù)孤立而分散地存在著,無(wú)法進(jìn)行集成和互操作,形成了一個(gè)個(gè)信息孤島。

正因如此,人類對(duì)當(dāng)前Web的利用無(wú)法得到軟件工具的很好支持。一直以來(lái),伴隨著Web誕生的搜索引擎是人們搜索和使用Web信息的幾乎唯一的、不可或缺的工具。 但是以關(guān)鍵詞匹配為核心的Web搜索引擎同樣面臨著一些嚴(yán)重問(wèn)題[1],如(1)高匹配但低精度;(2)低匹配或者無(wú)匹配;(3)查詢結(jié)果對(duì)查詢?cè)~高度敏感;(4)用戶必須自行在檢索結(jié)果中瀏覽和定位所需文檔并從中抽取有用信息進(jìn)行集成。雖然研究者們?cè)噲D采用各種手段提高搜索引擎的智能性和精度,但是上述問(wèn)題仍無(wú)法從根本上得以解決,這同樣歸因于當(dāng)前Web非結(jié)構(gòu)化、非語(yǔ)義化的信息表示形式,使得搜索引擎只能通過(guò)簡(jiǎn)單的關(guān)鍵詞匹配而非語(yǔ)義匹配來(lái)搜索相關(guān)信息,并且關(guān)鍵詞之間只能通過(guò)簡(jiǎn)單的布爾關(guān)系而非準(zhǔn)確的概念關(guān)系來(lái)描述。

面對(duì)著當(dāng)前Web在信息表達(dá)、組織、檢索中存在的嚴(yán)重缺陷與不足,有兩種可能的途徑來(lái)解決上述難題[1]:一種考慮是,采用人工智能和自然語(yǔ)言處理技術(shù)開(kāi)發(fā)出更為復(fù)雜的程序來(lái)對(duì)網(wǎng)頁(yè)上的非結(jié)構(gòu)化信息進(jìn)行處理。但是很遺憾,人工智能技術(shù)本身有著很大的局限性,再精妙的機(jī)器(計(jì)算機(jī)程序)也無(wú)法真正像人一樣進(jìn)行理解和思考,這一途徑無(wú)疑遇到了無(wú)法突破的瓶頸。另一種考慮是,能否采用一種適于機(jī)器理解和訪問(wèn)的新方式來(lái)表達(dá)Web上的內(nèi)容,從而方便機(jī)器的處理?這就是語(yǔ)義網(wǎng)想法的最初由來(lái)。1998年,萬(wàn)維網(wǎng)的發(fā)明人伯納斯-李在他的Web設(shè)計(jì)筆記里首次提出了對(duì)語(yǔ)義網(wǎng)的設(shè)想,即“一個(gè)在某種程度上類似于全局?jǐn)?shù)據(jù)庫(kù)的數(shù)據(jù)之網(wǎng)(web of data)”[2]。2001年5月,伯納斯及其合作者在Scientific American雜志上發(fā)表了題為“The Semantic Web”的論文[3],系統(tǒng)論述了他對(duì)下一代萬(wàn)維網(wǎng)架構(gòu)語(yǔ)義網(wǎng)的藍(lán)圖,這篇論文同時(shí)也被認(rèn)為是語(yǔ)義網(wǎng)誕生的標(biāo)志。

語(yǔ)義網(wǎng)的目標(biāo)是通過(guò)給萬(wàn)維網(wǎng)上的文檔添加能夠被計(jì)算機(jī)所理解的語(yǔ)義(Meta data),讓計(jì)算機(jī)能夠“理解”分布在網(wǎng)上的信息和知識(shí),并在“理解”的前提下更好地處理、利用這些信息和知識(shí),從而使整個(gè)Web成為一個(gè)支持全球化知識(shí)共享的智能信息服務(wù)平臺(tái)。由此看出,語(yǔ)義網(wǎng)相對(duì)于現(xiàn)有萬(wàn)維網(wǎng)的最大優(yōu)勢(shì)是“機(jī)器可理解”,它對(duì)Web的擴(kuò)展可以使得Web具有知識(shí)理解及一定的推理和自動(dòng)處理能力,它的出現(xiàn)給Web帶來(lái)了革命性的變化,使人和機(jī)器協(xié)同工作、理解并處理Web上的信息成為可能。因?yàn)檎Z(yǔ)義網(wǎng)的建立極大地涉及了人工智能領(lǐng)域的部分,與Web 3.0智能網(wǎng)絡(luò)的理念不謀而合,因此語(yǔ)義網(wǎng)也被看作是Web 3.0的重要特征之一。

在語(yǔ)義網(wǎng)出現(xiàn)的最初十年,語(yǔ)義網(wǎng)的各項(xiàng)語(yǔ)言規(guī)范得到制定和完善, 如RDF、RDFS、OWL、SKOS、SPARQL等,各種語(yǔ)義網(wǎng)實(shí)現(xiàn)工具也相繼被開(kāi)發(fā)出來(lái),譬如,RDF三元組存儲(chǔ)器3Store、Virtuoso和AllegroGraph,RDF數(shù)據(jù)轉(zhuǎn)換工具RDFizers,語(yǔ)義網(wǎng)開(kāi)發(fā)工具包Jena,本體編輯器Protégé和OntoEdit,本體推理機(jī)Pellet、RacerPro和FaCT++,從而使語(yǔ)義網(wǎng)技術(shù)有了在實(shí)踐中進(jìn)行應(yīng)用的可能。但是,相比Web當(dāng)初的發(fā)展,語(yǔ)義網(wǎng)的發(fā)展速度還顯得比較遲緩,對(duì)語(yǔ)義網(wǎng)的研究主要集中在高校和研究機(jī)構(gòu),缺乏企業(yè)界的普遍參與,除了在少數(shù)專業(yè)領(lǐng)域(如醫(yī)學(xué)和生物),幾乎沒(méi)有對(duì)廣大Web用戶有價(jià)值的語(yǔ)義網(wǎng)數(shù)據(jù)集的存在。原因主要在于:在語(yǔ)義網(wǎng)研究的早期,過(guò)分強(qiáng)調(diào)推理的必要性,大量依靠本體進(jìn)行知識(shí)建模和語(yǔ)義標(biāo)注,使得語(yǔ)義網(wǎng)的應(yīng)用只能局限在特定領(lǐng)域的狹小范圍,而無(wú)法擴(kuò)展至Web級(jí)的海量數(shù)據(jù),因此嚴(yán)重制約了語(yǔ)義網(wǎng)在整個(gè)Web上的推廣與應(yīng)用。

2006年,語(yǔ)義網(wǎng)的發(fā)明者伯納斯-李進(jìn)一步提出了關(guān)聯(lián)數(shù)據(jù)的概念[4]。關(guān)聯(lián)數(shù)據(jù)是指在網(wǎng)絡(luò)上發(fā)布、共享、連接各類數(shù)據(jù)、信息和知識(shí)的一種方式,是推薦的語(yǔ)義網(wǎng)最佳實(shí)踐[4]。關(guān)聯(lián)數(shù)據(jù)從技術(shù)上來(lái)說(shuō)雖然很簡(jiǎn)單,然而卻正在使Web發(fā)生深刻的改變,它摒棄了語(yǔ)義網(wǎng)早期過(guò)度依賴本體進(jìn)行知識(shí)建模和數(shù)據(jù)集成的做法,強(qiáng)調(diào)RDF數(shù)據(jù)的互聯(lián)與Web訪問(wèn),促進(jìn)了數(shù)據(jù)之網(wǎng)(Web of Data)的創(chuàng)建,為語(yǔ)義網(wǎng)的大規(guī)模應(yīng)用奠定了基礎(chǔ)。嚴(yán)格說(shuō)來(lái),數(shù)據(jù)之網(wǎng)并不能算是真正的語(yǔ)義網(wǎng),因?yàn)樗饕獜?qiáng)調(diào)數(shù)據(jù)結(jié)構(gòu)化和關(guān)聯(lián),還遠(yuǎn)未達(dá)到伯納斯所設(shè)想的語(yǔ)義與智能的程度,因此可將其看作是語(yǔ)義網(wǎng)的一個(gè)子集或初級(jí)階段。近年來(lái),許多機(jī)構(gòu)紛紛采用關(guān)聯(lián)數(shù)據(jù)作為發(fā)布結(jié)構(gòu)化數(shù)據(jù)的一種途徑,從而構(gòu)成了一個(gè)全球的數(shù)據(jù)空間。該數(shù)據(jù)空間的出現(xiàn)源自于語(yǔ)義網(wǎng)研究社區(qū)的努力,特別是得益于萬(wàn)維網(wǎng)聯(lián)盟(W3C)的“Semantic Web Education & Outreach”工作組支持的“關(guān)聯(lián)開(kāi)放數(shù)據(jù)(Linking Open Data,簡(jiǎn)稱LOD)”項(xiàng)目。截至2011年9月,在LOD云中已有310億個(gè)RDF三元組,被5.04億個(gè)RDF鏈接所連接,所關(guān)聯(lián)的數(shù)據(jù)集已達(dá)到295個(gè)[5]。整個(gè)LOD云以DBPedia①DBpedia是從Wikipedia詞條中抽取出結(jié)構(gòu)化數(shù)據(jù)并將其以關(guān)聯(lián)數(shù)據(jù)形式在網(wǎng)絡(luò)上發(fā)布的項(xiàng)目,見(jiàn)http://wiki.dbpedia.org/Datasets。為核心,囊括了地理、政府、媒體、生命科學(xué)、圖書(shū)館、用戶生成內(nèi)容等領(lǐng)域的數(shù)據(jù)以及一部分跨領(lǐng)域數(shù)據(jù),其中圖書(shū)館及其相關(guān)領(lǐng)域(如教育、出版)的關(guān)聯(lián)數(shù)據(jù)集有87個(gè),約占整個(gè)LOD云的9.33%[5]。目前,LOD云中的數(shù)據(jù)幾乎以每3年2個(gè)數(shù)量級(jí)的速度在增長(zhǎng),以致到了幾乎無(wú)法計(jì)量的地步。

在注重將現(xiàn)有結(jié)構(gòu)化數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)方式在Web上進(jìn)行發(fā)布的同時(shí),如何實(shí)現(xiàn)海量的傳統(tǒng)網(wǎng)頁(yè)向語(yǔ)義網(wǎng)的自然過(guò)渡更是值得考慮的問(wèn)題。通過(guò)基于本體的語(yǔ)義標(biāo)注將非結(jié)構(gòu)化的HTML網(wǎng)頁(yè)完全轉(zhuǎn)換為結(jié)構(gòu)化的RDF數(shù)據(jù),意味著完全放棄傳統(tǒng)Web及背后的成熟技術(shù),這種做法不僅復(fù)雜,而且事實(shí)證明也不被廣大Web用戶所接受。將RDF數(shù)據(jù)以RDF/XML格式直接嵌入到XHTML網(wǎng)頁(yè)中也是不可行的,因?yàn)檫@是目的和結(jié)構(gòu)完全不同的兩種表示格式,互不兼容。萬(wàn)維網(wǎng)聯(lián)盟(W3C)和Web民間社區(qū)殊途同歸地分別提出了三種功能相同的Web語(yǔ)義標(biāo)注格式:來(lái)自W3C的RDFa格式[6]、來(lái)自民間的微格式[7]和來(lái)自HTML5規(guī)范的微數(shù)據(jù)[8],這三種格式雖然具體的規(guī)則和表示不同,但是本質(zhì)上都是通過(guò)在原有HTML/XHTML網(wǎng)頁(yè)中嵌入語(yǔ)義標(biāo)簽,從而將傳統(tǒng)網(wǎng)頁(yè)在人類可讀的基礎(chǔ)上提高到機(jī)器可讀、可理解的狀態(tài)。2011年6月,微軟、谷歌和雅虎三大引擎聯(lián)手發(fā)起了schema.org網(wǎng)站[9],以幫助網(wǎng)站管理員在網(wǎng)頁(yè)里使用結(jié)構(gòu)化數(shù)據(jù)標(biāo)記來(lái)幫助搜索引擎更好地理解網(wǎng)頁(yè)里的內(nèi)容,那些符合schema.org標(biāo)注格式的網(wǎng)站,不僅能提高用戶檢索效率,也同時(shí)能增加網(wǎng)頁(yè)被檢索到的可能,這一措施無(wú)疑進(jìn)一步促進(jìn)了語(yǔ)義網(wǎng)技術(shù)的普及與應(yīng)用。

2 語(yǔ)義網(wǎng)的主要功能

通過(guò)對(duì)2008至2013年“語(yǔ)義網(wǎng)挑戰(zhàn)競(jìng)賽(Semantic Web Challenge)②The Semantic Web Challenge是在“國(guó)際語(yǔ)義網(wǎng)會(huì)議(ISWC)”中舉辦的一個(gè)競(jìng)賽,參賽者提交采用語(yǔ)義網(wǎng)技術(shù)開(kāi)發(fā)的面向終端用戶的在線應(yīng)用進(jìn)行評(píng)比,是反映最新語(yǔ)義網(wǎng)研究狀況的一個(gè)窗口?!敝械?4個(gè)語(yǔ)義網(wǎng)應(yīng)用進(jìn)行調(diào)研,以及對(duì)其它零星語(yǔ)義網(wǎng)應(yīng)用案例和部分文獻(xiàn)進(jìn)行梳理,筆者對(duì)語(yǔ)義網(wǎng)的主要功能進(jìn)行了歸納總結(jié)。在本文中,筆者定義:語(yǔ)義網(wǎng)功能是指計(jì)算機(jī)程序或系統(tǒng)依靠語(yǔ)義網(wǎng)技術(shù)能夠完成的一項(xiàng)特定任務(wù)或?qū)崿F(xiàn)的一個(gè)特定目的,多個(gè)功能的有機(jī)結(jié)合構(gòu)成一個(gè)完整的面向終端用戶的語(yǔ)義網(wǎng)應(yīng)用,如語(yǔ)義知識(shí)管理系統(tǒng)、語(yǔ)義門(mén)戶、語(yǔ)義推薦系統(tǒng)、語(yǔ)義數(shù)字圖書(shū)館等。

(1)語(yǔ)義標(biāo)注(Semantic Annotation)

語(yǔ)義標(biāo)注是指給傳統(tǒng)的HTML網(wǎng)頁(yè)添加語(yǔ)義信息,將其升級(jí)為機(jī)器可理解的語(yǔ)義網(wǎng)的過(guò)程[10]。早期的Web語(yǔ)義標(biāo)注主要依賴于本體進(jìn)行,首先要采用本體語(yǔ)言形式化地定義標(biāo)注詞匯(即本體的類和屬性)及其語(yǔ)義,然后利用這些詞匯作為語(yǔ)義標(biāo)簽對(duì)非結(jié)構(gòu)化信息進(jìn)行標(biāo)注,將其轉(zhuǎn)化為與使用的本體相兼容的RDF數(shù)據(jù)(即本體的實(shí)例),這種語(yǔ)義標(biāo)注方式也被稱為本體填充(Ontology Population)?;诒倔w的語(yǔ)義標(biāo)注實(shí)施起來(lái)比較復(fù)雜,不僅需要構(gòu)建本體,而且還需要學(xué)習(xí)不同于傳統(tǒng)HTML/XHTML格式的全新數(shù)據(jù)格式,不利于普通用戶掌握。為此,W3C和語(yǔ)義網(wǎng)民間社區(qū)分別推出了RDFa、微格式和微數(shù)據(jù)三種Web語(yǔ)義標(biāo)注語(yǔ)言,只采用簡(jiǎn)單的語(yǔ)法就能夠充實(shí)已有網(wǎng)頁(yè)的語(yǔ)義,避免使用重量級(jí)的語(yǔ)義網(wǎng)知識(shí)。目前,包括Google在內(nèi)的幾家搜索引擎巨頭大力提倡采用微格式對(duì)傳統(tǒng)網(wǎng)頁(yè)進(jìn)行標(biāo)注[9],這一舉措無(wú)疑將促使大量人類和機(jī)器同時(shí)可讀可理解的語(yǔ)義網(wǎng)頁(yè)的出現(xiàn),推動(dòng)語(yǔ)義網(wǎng)的發(fā)展。語(yǔ)義標(biāo)注可以通過(guò)手動(dòng)、半自動(dòng)和自動(dòng)的方式進(jìn)行,已經(jīng)有大量的基于本體的標(biāo)注工具存在,如SHOE Knowledge Annotator[11]、AeroDAML[12]等,支持手動(dòng)和半自動(dòng)標(biāo)注,但是構(gòu)建大規(guī)模語(yǔ)義網(wǎng)應(yīng)用關(guān)鍵還是要實(shí)現(xiàn)對(duì)大批量HTML網(wǎng)頁(yè)的自動(dòng)標(biāo)注,這往往需要采用自然語(yǔ)言處理、文本挖掘和機(jī)器學(xué)習(xí)技術(shù)來(lái)進(jìn)行,譬如進(jìn)行命名實(shí)體識(shí)別、關(guān)系抽取、語(yǔ)義相似度計(jì)算等。

(2)結(jié)構(gòu)化數(shù)據(jù)的RDF化轉(zhuǎn)換(RDF Conversion)

結(jié)構(gòu)化數(shù)據(jù)的RDF化轉(zhuǎn)換是指將特定應(yīng)用的結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),如關(guān)系型數(shù)據(jù)庫(kù)、Excel數(shù)據(jù)表、MARC格式的書(shū)目數(shù)據(jù)、BibTex格式的書(shū)目數(shù)據(jù)等, 轉(zhuǎn)換為RDF數(shù)據(jù)。目前已經(jīng)存在著大量RDF自動(dòng)化轉(zhuǎn)換工具,譬如SIMILE項(xiàng)目中開(kāi)發(fā)的RDFizers工具組件可實(shí)現(xiàn)近20種結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換[13]。自關(guān)聯(lián)數(shù)據(jù)出現(xiàn)以來(lái),出現(xiàn)了一些工具能夠?qū)㈥P(guān)系型數(shù)據(jù)庫(kù)直接以關(guān)聯(lián)數(shù)據(jù)的形式在網(wǎng)絡(luò)上發(fā)布,譬如D2R Server允許用戶使用D2RQ映射語(yǔ)言自定義映射關(guān)系,將關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)換為RDF數(shù)據(jù)并將使之可通過(guò)Web訪問(wèn)[14];內(nèi)容管理系統(tǒng)Drupal能夠借助導(dǎo)入的本體將結(jié)構(gòu)化數(shù)據(jù)進(jìn)行RDF化轉(zhuǎn)換并發(fā)布為關(guān)聯(lián)數(shù)據(jù)[15]。

(3)數(shù)據(jù)集成(Data Integration)

語(yǔ)義網(wǎng)一個(gè)很大的優(yōu)點(diǎn)就是能夠?qū)?lái)自多個(gè)數(shù)據(jù)源的異質(zhì)數(shù)據(jù)進(jìn)行集成。通過(guò)共同的領(lǐng)域本體,可以將同一領(lǐng)域的不同來(lái)源、不同格式的數(shù)據(jù)進(jìn)行整合。譬如,基于同一書(shū)目本體,能夠?qū)ARC格式、DC格式、BibTex格式的書(shū)目數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的RDF格式進(jìn)行整合[16]。對(duì)于具有相關(guān)性的不同領(lǐng)域的RDF數(shù)據(jù),可以通過(guò)建立RDF語(yǔ)義鏈接構(gòu)成關(guān)聯(lián)數(shù)據(jù),譬如,將語(yǔ)義書(shū)目數(shù)據(jù)、基于FOAF本體的表示個(gè)人/組織機(jī)構(gòu)的數(shù)據(jù)、SKOS的受控詞表相互關(guān)聯(lián),形成一個(gè)更大范圍的圖書(shū)館書(shū)目數(shù)據(jù)的語(yǔ)義視圖[16]。

(4)語(yǔ)義推理(Semantic Inference or Semantic Reasoning)

語(yǔ)義推理通常是指根據(jù)一組確定的事實(shí)或者公理推斷出邏輯結(jié)論的過(guò)程。這里的語(yǔ)義推理特指語(yǔ)義網(wǎng)上的推理(Inference on the Semantic Web or Semantic Web Inference)。推理是語(yǔ)義網(wǎng)的一個(gè)關(guān)鍵特性。在語(yǔ)義網(wǎng)上,數(shù)據(jù)被建模為一組資源之間的(被命名的)關(guān)系,推理就是基于這些數(shù)據(jù)和一套推理規(guī)則自動(dòng)發(fā)現(xiàn)或生成新關(guān)系的過(guò)程[17]。推理規(guī)則可通過(guò)詞表或者規(guī)則集來(lái)定義,這兩種方式都需要用到知識(shí)表示技術(shù)。通常來(lái)說(shuō),本體偏重于分類方法,重點(diǎn)定義類和子類以及實(shí)例與類之間的關(guān)系;而規(guī)則偏重于定義在已有關(guān)系基礎(chǔ)上發(fā)現(xiàn)和生成新關(guān)系的通用機(jī)制[17]。在語(yǔ)義網(wǎng)規(guī)范中,RDFS和OWL本體語(yǔ)言用于定義本體,而W3C新推出的規(guī)則交換格式RIF則被用于在已有的規(guī)則語(yǔ)言間進(jìn)行規(guī)則交換[18]。目前已經(jīng)出現(xiàn)了多種用于語(yǔ)義網(wǎng)推理的推理機(jī),如RacePro、Pellet、FaCT++等,基本上都采用一階謂詞邏輯進(jìn)行推理。語(yǔ)義網(wǎng)推理能夠通過(guò)數(shù)據(jù)中已知的關(guān)系發(fā)現(xiàn)未知的新關(guān)系,是實(shí)現(xiàn)Web智能的關(guān)鍵要素之一。通過(guò)推理,還能夠發(fā)現(xiàn)集成后數(shù)據(jù)中的不一致或者可能的不一致,是提高Web上數(shù)據(jù)集成質(zhì)量的重要手段之一。

(5)語(yǔ)義搜索(Semantic Search)

語(yǔ)義搜索是指通過(guò)理解用戶的檢索意圖和檢索詞在檢索空間的語(yǔ)境意義(即上下文意義)來(lái)提高檢索精度[19]。語(yǔ)義搜索對(duì)于傳統(tǒng)的搜索引擎來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn)。Google、Bing等搜索引擎巨頭紛紛采用各種手段在部分程度上實(shí)現(xiàn)對(duì)傳統(tǒng)Web的語(yǔ)義搜索,主要包括:考慮詞的語(yǔ)義變體、同義詞檢索、概念匹配檢索、泛化的和細(xì)化的查詢以及自然語(yǔ)言問(wèn)答式檢索等[19]。在實(shí)施上述方法時(shí),雖然本體常被用來(lái)支持對(duì)用戶查詢的分析,幫助理解查詢?cè)~的含義及相互間的關(guān)系,但從本質(zhì)上來(lái)說(shuō),上述語(yǔ)義搜索只是對(duì)傳統(tǒng)關(guān)鍵詞檢索進(jìn)行了增強(qiáng),并非利用語(yǔ)義網(wǎng)進(jìn)行純粹的語(yǔ)義搜索。 語(yǔ)義網(wǎng)的出現(xiàn)是緣于人們對(duì)傳統(tǒng)搜索引擎的不滿和對(duì)語(yǔ)義搜索的追求?;谡Z(yǔ)義網(wǎng)機(jī)器可讀可理解的語(yǔ)義數(shù)據(jù)模型,能夠在更高層次上實(shí)現(xiàn)語(yǔ)義檢索,目前已經(jīng)有以下幾種實(shí)現(xiàn)方式:

●豐富網(wǎng)頁(yè)摘要:通過(guò)采用RDFa、微格式、微數(shù)據(jù)標(biāo)記HTML網(wǎng)頁(yè),使搜索引擎能夠理解網(wǎng)頁(yè)上的內(nèi)容,提高搜索的準(zhǔn)確性,并在每條搜索結(jié)果下方顯示幾行文字(結(jié)構(gòu)化信息),幫助用戶了解搜索結(jié)果是否與搜索內(nèi)容相關(guān)。目前Google、Bing、Yandex、Baidu等著名搜索引擎都在一定程度上支持豐富網(wǎng)頁(yè)摘要[20]。

●面向關(guān)聯(lián)數(shù)據(jù)的自動(dòng)問(wèn)答式檢索:針對(duì)LOD云中的RDF數(shù)據(jù)集,允許以自然語(yǔ)言提問(wèn)的形式檢索信息。由于底層數(shù)據(jù)是具有語(yǔ)義的結(jié)構(gòu)化數(shù)據(jù),能夠進(jìn)行推理,實(shí)現(xiàn)真正的語(yǔ)義檢索,但其難點(diǎn)在于:如何將一個(gè)自然語(yǔ)言提問(wèn)準(zhǔn)確地轉(zhuǎn)換為一個(gè)結(jié)構(gòu)化的SPARQL查詢。目前有大量關(guān)于此方面的學(xué)術(shù)研究出現(xiàn),是一個(gè)研究熱點(diǎn)[21]。

●基于知識(shí)庫(kù)的檢索:當(dāng)用戶對(duì)一些著名人物(如愛(ài)因斯坦)進(jìn)行查詢時(shí),Google搜索引擎除了常規(guī)地返回一組包含查詢?cè)~的相關(guān)網(wǎng)頁(yè),還能夠從一個(gè)或多個(gè)知識(shí)庫(kù)中抽取出關(guān)于該人物的結(jié)構(gòu)化信息,經(jīng)集成后形成人物簡(jiǎn)介顯示在結(jié)果頁(yè)面的左側(cè)。目前已有的知識(shí)庫(kù)包括Freebase、DBPedia、美國(guó)中央情報(bào)局出版的The World Factbook等,這些知識(shí)庫(kù)其實(shí)是一種語(yǔ)義數(shù)據(jù)庫(kù),將各種對(duì)象通過(guò)語(yǔ)義鏈接相互關(guān)聯(lián)起來(lái),形成一個(gè)語(yǔ)義網(wǎng)絡(luò)。目前,Google正在打造知識(shí)圖譜(Knowledge Graph),一個(gè)綜合已有知識(shí)庫(kù)的更大知識(shí)庫(kù),為其語(yǔ)義檢索提供支持[22]。

(6)語(yǔ)義倉(cāng)儲(chǔ)(Semantic Repository)

語(yǔ)義倉(cāng)儲(chǔ),也被稱為語(yǔ)義網(wǎng)倉(cāng)儲(chǔ)(Semantic Web Repository),是類似于數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)的一個(gè)引擎,允許存儲(chǔ)、查詢和管理大量的RDF數(shù)據(jù),支持SPARQL查詢,并對(duì)RDFS和OWL表示的Schema和本體進(jìn)行解釋[23]。因此,這類引擎也自然承擔(dān)了語(yǔ)義網(wǎng)Web服務(wù)器的角色。語(yǔ)義倉(cāng)儲(chǔ)具有DBMS的某些功能和特性,但兩者的主要區(qū)別在于:(1)語(yǔ)義倉(cāng)儲(chǔ)采用本體作為語(yǔ)義模式,能夠?qū)?shù)據(jù)進(jìn)行自動(dòng)的語(yǔ)義推理;(2) 語(yǔ)義倉(cāng)儲(chǔ)采用靈活和通用的物理數(shù)據(jù)模型(如RDF圖),因此很容易理解并實(shí)時(shí)采用新本體或新元數(shù)據(jù)方案,也即接受數(shù)據(jù)結(jié)構(gòu)的改變[23]。換句話說(shuō),語(yǔ)義倉(cāng)儲(chǔ)可以看作是推理引擎和列存儲(chǔ)兩者的相加。語(yǔ)義倉(cāng)儲(chǔ)是語(yǔ)義網(wǎng)應(yīng)用的基礎(chǔ),其重要性就如同HTTP服務(wù)器之于傳統(tǒng)的Web應(yīng)用。具有代表性的語(yǔ)義倉(cāng)儲(chǔ)引擎包括Sesame、Jena SDB、OWLIM[24]、Virtuoso、AllegroGraph等。

(7)社交語(yǔ)義網(wǎng)(Social Semantic Web)

Web 2.0應(yīng)用在過(guò)去取得了巨大的成功,它的一個(gè)重要特征是促進(jìn)用戶間的合作與共享。社交網(wǎng)(Social Web)是一個(gè)用于描述具有高社交性、會(huì)話性和參與性的一類Web交互的術(shù)語(yǔ)[25],所代表的就是Web 2.0的這一特性。在當(dāng)前社交網(wǎng)中存在著一個(gè)很大局限,即社交站點(diǎn)之間是相互隔離的,猶如海洋中的一個(gè)個(gè)孤島,在各自封閉的世界和獨(dú)立的數(shù)據(jù)倉(cāng)中運(yùn)行[12]。導(dǎo)致這一現(xiàn)象出現(xiàn)的主要原因是:目前大多數(shù)社交網(wǎng)應(yīng)用或社區(qū)沒(méi)有共同的知識(shí)和信息交換標(biāo)準(zhǔn),不支持互操作,因此把用戶限制在某一站點(diǎn),使其無(wú)法在不丟失信息、聯(lián)系和歷史的情況下遷移到另一站點(diǎn)[25]。語(yǔ)義網(wǎng)的出現(xiàn)為上述難題的解決帶來(lái)了契機(jī),為定義靈活、可擴(kuò)展的信息交換和互操作標(biāo)準(zhǔn)提供了必要工具。

語(yǔ)義社交網(wǎng)是語(yǔ)義網(wǎng)和社交網(wǎng)兩者相結(jié)合的產(chǎn)物,集成了語(yǔ)義網(wǎng)、社交軟件和Web 2.0的技術(shù)、測(cè)量與方法[26]。語(yǔ)義網(wǎng)和社交網(wǎng)的結(jié)合在于兩方面:一方面,基于社交本體(如FOAF和SIOC),對(duì)社交數(shù)據(jù)采用統(tǒng)一的數(shù)據(jù)模型表示,使得在應(yīng)用之間進(jìn)行互操作和遷移變得更加容易;另一方面,利用Web 2.0 中的群體智慧可以創(chuàng)建大量的語(yǔ)義網(wǎng)數(shù)據(jù),譬如,社交站點(diǎn)用戶通過(guò)大眾分類(folksonomies)已經(jīng)并正在創(chuàng)建大量詞表和語(yǔ)義豐富的標(biāo)注[27]。因此,在語(yǔ)義社交網(wǎng)中,社交網(wǎng)和語(yǔ)義網(wǎng)不僅能夠互補(bǔ),而且能產(chǎn)生超過(guò)兩者之和的更大優(yōu)勢(shì)。孤立的社交網(wǎng)能夠通過(guò)語(yǔ)義技術(shù)進(jìn)行互聯(lián),而在用戶生成內(nèi)容中蘊(yùn)含的大量知識(shí)又起到了對(duì)語(yǔ)義網(wǎng)進(jìn)行增強(qiáng)的作用??偟膩?lái)說(shuō),社會(huì)語(yǔ)義網(wǎng)為自動(dòng)化程度的提高和信息傳播的增強(qiáng)提供了很多可能,諸如,從相關(guān)的社交空間獲得相關(guān)信息,允許用戶跨站點(diǎn)收集其貢獻(xiàn)和個(gè)人信息,避免用戶在多個(gè)社交空間重復(fù)多次表達(dá)同樣的信息,將Web作為一個(gè)剪貼板在各種合作應(yīng)用中進(jìn)行信息交換,提供對(duì)內(nèi)容進(jìn)行個(gè)性化和創(chuàng)建智能用戶界面的新方法,利用語(yǔ)義從內(nèi)容和嵌入的元數(shù)據(jù)中抽取更多的信息等等,而這些功能在當(dāng)前的社交軟件中是很難實(shí)現(xiàn)的[25]。目前,語(yǔ)義社交網(wǎng)已經(jīng)有了語(yǔ)義維基、語(yǔ)義博客、語(yǔ)義微博、語(yǔ)義社會(huì)化書(shū)簽、語(yǔ)義社交網(wǎng)絡(luò)等多種應(yīng)用。

(8)語(yǔ)義Web服務(wù)(Semantic Web Services or Semantic Services)

Web服務(wù)是一個(gè)設(shè)計(jì)用于支持網(wǎng)絡(luò)上計(jì)算機(jī)之間進(jìn)行交互的軟件系統(tǒng)[28]。因?yàn)槠渚哂兴缮Ⅰ詈?、即插即用等?yōu)點(diǎn),便于異構(gòu)系統(tǒng)間的互連、共享和組合,得到了廣泛的關(guān)注與使用。但是現(xiàn)有的基于XML的Web服務(wù)規(guī)范沒(méi)有提供足夠的手段來(lái)描述Web服務(wù),要想將Web上各種類型的Web服務(wù)加以組合和利用還需要大量手工操作,這極大地限制了Web服務(wù)的使用[29]。語(yǔ)義網(wǎng)技術(shù)的出現(xiàn)為解決Web服務(wù)的這些缺陷提供了方案。語(yǔ)義Web服務(wù)(簡(jiǎn)稱語(yǔ)義服務(wù))是傳統(tǒng)Web服務(wù)和語(yǔ)義網(wǎng)技術(shù)相結(jié)合的產(chǎn)物,它的出現(xiàn)使服務(wù)描述可以帶有語(yǔ)義信息,通過(guò)一種統(tǒng)一的、計(jì)算機(jī)可讀可理解的方式來(lái)和其他語(yǔ)義Web服務(wù)進(jìn)行交互[29]。實(shí)現(xiàn)語(yǔ)義Web服務(wù)自動(dòng)匹配的關(guān)鍵步驟是對(duì)Web服務(wù)進(jìn)行語(yǔ)義描述,目前主要有3種方法:OWL-S(Semantic Markup for Web Services)[30],WSMO(Web Service Modeling Ontology)[31]和SAWSDL(Semantic Annotations for WSDL and XML Schema)[32],這些方法都是利用本體來(lái)描述Web服務(wù),然后通過(guò)這些帶有語(yǔ)義信息的描述來(lái)實(shí)現(xiàn)服務(wù)的自動(dòng)發(fā)現(xiàn)、調(diào)用和組合,但是它們各自所用到的本體不僅僅在語(yǔ)義上有所區(qū)別,而且在表達(dá)能力上也各不相同。語(yǔ)義Web服務(wù)仍然是一個(gè)不斷發(fā)展的領(lǐng)域,雖然其在互操作和自動(dòng)化方面具有很大的優(yōu)勢(shì),但是它目前的能力還很有限,譬如無(wú)法提供推理能力來(lái)幫助用戶決定想要哪個(gè)服務(wù),而且支持語(yǔ)義Web服務(wù)的工具也不多,因此對(duì)語(yǔ)義Web服務(wù)的研究還將是一項(xiàng)長(zhǎng)期的任務(wù)。

3 語(yǔ)義網(wǎng)技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用

在語(yǔ)義網(wǎng)發(fā)展的早期,圖書(shū)館領(lǐng)域就對(duì)語(yǔ)義網(wǎng)技術(shù)給予了關(guān)注。雖然本體語(yǔ)言很早就被用來(lái)對(duì)元數(shù)據(jù)方案進(jìn)行規(guī)范化描述,產(chǎn)生了如BIBO等元數(shù)據(jù)本體[33],但是一直沒(méi)有大規(guī)模的語(yǔ)義網(wǎng)實(shí)踐出現(xiàn)。隨著SKOS語(yǔ)言的產(chǎn)生和關(guān)聯(lián)數(shù)據(jù)的興起,許多圖書(shū)館和相關(guān)機(jī)構(gòu)漸漸意識(shí)到了語(yǔ)義網(wǎng)技術(shù)在解決數(shù)字圖書(shū)館的語(yǔ)義互操作、信息集成、智能檢索等方面的巨大潛力,大力推廣語(yǔ)義網(wǎng)技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用。

2010年5月28日,W3C成立了圖書(shū)館關(guān)聯(lián)數(shù)據(jù)孵化小組(W3C Library Linked Data Incubator Group),專門(mén)探討如何利用現(xiàn)有的圖書(shū)館基石(如元數(shù)據(jù)模型、元數(shù)據(jù)方案,以及各種標(biāo)準(zhǔn)和協(xié)議)推動(dòng)圖書(shū)館數(shù)據(jù)在互聯(lián)網(wǎng)上的關(guān)聯(lián)與全球互操作,并為其他領(lǐng)域所用。2010年8月,IFLA成立了“語(yǔ)義網(wǎng)興趣小組(Semantic Web Special Interest Group)”,其目標(biāo)是詳細(xì)制定語(yǔ)義網(wǎng)相關(guān)的標(biāo)準(zhǔn)和準(zhǔn)則,增強(qiáng)和傳遞語(yǔ)義網(wǎng)方面的圖書(shū)館專門(mén)知識(shí),提高圖書(shū)館界對(duì)語(yǔ)義網(wǎng)技術(shù)與圖書(shū)館的相關(guān)性和應(yīng)用潛力的認(rèn)識(shí)。2011年6月,在美國(guó)舊金山舉辦了國(guó)際圖書(shū)館、檔案館和博物館關(guān)聯(lián)開(kāi)放數(shù)據(jù)峰會(huì)(The International Linked Open Data in Libraries, Archives, and Museums Summit,簡(jiǎn)稱LOD-LAM),超過(guò)85個(gè)團(tuán)體參加了本次峰會(huì),該峰會(huì)的宗旨是“促進(jìn)關(guān)聯(lián)開(kāi)放數(shù)據(jù)公布途徑的實(shí)用性和可行性”。

(1)語(yǔ)義元數(shù)據(jù)與語(yǔ)義檢索

從某種意義上來(lái)說(shuō),圖書(shū)館是關(guān)于元數(shù)據(jù)的科學(xué),旨在采用書(shū)目元數(shù)據(jù)對(duì)文獻(xiàn)資源進(jìn)行描述、組織和檢索。同時(shí),語(yǔ)義網(wǎng)的基石RDF數(shù)據(jù)模型本質(zhì)上是一種元數(shù)據(jù)語(yǔ)言,因此將其應(yīng)用于圖書(shū)館書(shū)目元數(shù)據(jù)具有天然的契合性。采用OWL本體語(yǔ)言形式化地描述元數(shù)據(jù)方案,能夠更加精確地定義元數(shù)據(jù)元素的語(yǔ)義和相互關(guān)系。基于元數(shù)據(jù)本體,能夠?qū)⒉煌愋?、不同格式的元?shù)據(jù)轉(zhuǎn)換為統(tǒng)一的以RDF格式表示的語(yǔ)義元數(shù)據(jù)。相比普通元數(shù)據(jù),語(yǔ)義元數(shù)據(jù)具有以下優(yōu)點(diǎn):(1)為書(shū)目元數(shù)據(jù)提供了一種統(tǒng)一的語(yǔ)義表達(dá)形式,能夠在原本基于不同元數(shù)據(jù)標(biāo)準(zhǔn)的元數(shù)據(jù)間實(shí)現(xiàn)語(yǔ)義互操作;(2)可進(jìn)行語(yǔ)義檢索,不僅能夠在檢索中實(shí)現(xiàn)概念匹配,還能夠基于元數(shù)據(jù)本體進(jìn)行一定程度的語(yǔ)義推理;(3)是實(shí)現(xiàn)圖書(shū)館關(guān)聯(lián)數(shù)據(jù)的基礎(chǔ),使同一數(shù)字圖書(shū)館系統(tǒng)中的不同數(shù)據(jù)集合,或者不同數(shù)字圖書(shū)館系統(tǒng)中的數(shù)據(jù)集合,實(shí)現(xiàn)集成與關(guān)聯(lián)。

(2)關(guān)聯(lián)數(shù)據(jù)與數(shù)據(jù)集成

圖書(shū)館擁有并一直在不斷生成大量高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),譬如書(shū)目數(shù)據(jù)、知識(shí)組織數(shù)據(jù)等,這些數(shù)據(jù)的發(fā)布、集成、發(fā)現(xiàn)是圖書(shū)館的核心工作之一,因此圖書(shū)館具有成為關(guān)聯(lián)數(shù)據(jù)實(shí)踐者和提供者的天然特性,可以利用關(guān)聯(lián)數(shù)據(jù)發(fā)布資源,擴(kuò)展資源發(fā)現(xiàn)服務(wù),進(jìn)行數(shù)據(jù)融合,促進(jìn)異構(gòu)關(guān)聯(lián)數(shù)據(jù)的開(kāi)放與復(fù)用,實(shí)現(xiàn)數(shù)字圖書(shū)館系統(tǒng)之間以及與其他信息系統(tǒng)之間的集成等。

圖書(shū)館采用關(guān)聯(lián)數(shù)據(jù)發(fā)布最多的是知識(shí)組織資源。在LOD云中,具有代表性的詞表數(shù)據(jù)有美國(guó)國(guó)會(huì)圖書(shū)館發(fā)布的美國(guó)國(guó)會(huì)圖書(shū)館標(biāo)題表LCSH[34],聯(lián)合國(guó)糧農(nóng)組織發(fā)布的多語(yǔ)言農(nóng)業(yè)詞表AGROVOC[35],OCLC發(fā)布的部分杜威十進(jìn)制分類法DDC[36],歐盟研究項(xiàng)目TELplus發(fā)布的法國(guó)國(guó)家圖書(shū)館主題詞表RAMEAU[37],德國(guó)國(guó)家經(jīng)濟(jì)圖書(shū)館發(fā)布的經(jīng)濟(jì)學(xué)詞表STW[38]等。這些關(guān)聯(lián)數(shù)據(jù)化的詞表通常采用標(biāo)準(zhǔn)SKOS語(yǔ)言和(或)SKOS標(biāo)簽擴(kuò)展(SKOS-XL)語(yǔ)言進(jìn)行表示,采用RDF存儲(chǔ)器進(jìn)行存儲(chǔ),支持基于HTML和RDF瀏覽器的瀏覽和通過(guò)SPARQL終端進(jìn)行查詢。

圖書(shū)館發(fā)布的第二大類關(guān)聯(lián)數(shù)據(jù)是書(shū)目數(shù)據(jù),代表性項(xiàng)目是瑞典國(guó)家圖書(shū)館將瑞典聯(lián)合書(shū)目LIBRIS發(fā)布為關(guān)聯(lián)數(shù)據(jù)[39],是首個(gè)實(shí)現(xiàn)圖書(shū)館書(shū)目數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)化的實(shí)例。2012年6月,OCLC將WorldCat.org①WorldCat.org是OCLC的全球圖書(shū)館和其他資料的在線編目聯(lián)合目錄,是世界最大的聯(lián)機(jī)書(shū)目數(shù)據(jù)庫(kù)。中的書(shū)目元數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),是目前Web上最大的關(guān)聯(lián)書(shū)目數(shù)據(jù)[40]。此外,RDF Book Mashup提供了一個(gè)虛擬的書(shū)目數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)化的發(fā)布和訪問(wèn)模式[41]。該項(xiàng)目是將來(lái)自多個(gè)不同Web APIs的書(shū)目信息集成到一個(gè)語(yǔ)義網(wǎng)界面中,其實(shí)質(zhì)是通過(guò)構(gòu)建一個(gè)包裝器使得需要用戶通過(guò)各個(gè)不同Web APIs訪問(wèn)的書(shū)目信息能夠統(tǒng)一地以關(guān)聯(lián)數(shù)據(jù)的虛擬形式進(jìn)行訪問(wèn)。

除了詞表數(shù)據(jù)和書(shū)目數(shù)據(jù),一些科技論文數(shù)據(jù)也被語(yǔ)義網(wǎng)實(shí)踐者們以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布為數(shù)據(jù)之網(wǎng)的一部分。德國(guó)柏林自由大學(xué)和漢諾威大學(xué)的研究者們采用D2R服務(wù)器將著名的計(jì)算機(jī)科技文獻(xiàn)書(shū)目數(shù)據(jù)庫(kù)DBLP發(fā)布為關(guān)聯(lián)數(shù)據(jù)[42,43]。英國(guó)南安普頓大學(xué)的研究者們采用RKB Explorer將DBLP發(fā)布為關(guān)聯(lián)數(shù)據(jù)[44]。RKB Explorer是歐盟ReSIST項(xiàng)目開(kāi)發(fā)的一個(gè)能夠?qū)?lái)自多種異質(zhì)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行集成并在語(yǔ)義網(wǎng)上統(tǒng)一發(fā)布的工具。除了DBLP,PKB Explorer還能夠發(fā)布來(lái)自Citeseer、ACM、NSF和部分IEEE會(huì)議的學(xué)術(shù)資源。由愛(ài)爾蘭和英國(guó)的研究者們共同開(kāi)發(fā)的Semantic Web Dog Food是一個(gè)以關(guān)聯(lián)數(shù)據(jù)形式發(fā)布的語(yǔ)義網(wǎng)學(xué)術(shù)會(huì)議資料庫(kù)[45]。在該項(xiàng)目中,開(kāi)發(fā)者采用OWL語(yǔ)言構(gòu)建會(huì)議本體,并依據(jù)會(huì)議本體將近200個(gè)語(yǔ)義網(wǎng)會(huì)議和專題討論會(huì)的元數(shù)據(jù)采用RDF格式進(jìn)行表示,最后采用Jena的RDF存儲(chǔ)器和Joseki SPARQL服務(wù)器存儲(chǔ)并發(fā)布RDF/XML格式的會(huì)議元數(shù)據(jù)[45]。

關(guān)聯(lián)數(shù)據(jù)除了是一種結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)絡(luò)發(fā)布方式,還是一種有效的數(shù)據(jù)集成手段。通過(guò)在不同數(shù)據(jù)集中建立RDF語(yǔ)義鏈接,能夠?qū)崿F(xiàn)文獻(xiàn)資源與知識(shí)組織資源等相關(guān)資源的集成,使圖書(shū)館內(nèi)部的各種資源構(gòu)成一個(gè)有機(jī)聯(lián)系的統(tǒng)一整體。此外,還能夠?qū)崿F(xiàn)圖書(shū)館內(nèi)部資源與外部資源(如DBPedia)的無(wú)縫連接,使圖書(shū)館數(shù)據(jù)成為整個(gè)LOD云的一部分,從而促進(jìn)圖書(shū)館資源的發(fā)現(xiàn)與利用[16]。

(3) 社會(huì)語(yǔ)義網(wǎng)與社會(huì)語(yǔ)義數(shù)字圖書(shū)館

語(yǔ)義數(shù)字圖書(shū)館是采用了語(yǔ)義網(wǎng)規(guī)范和技術(shù)的數(shù)字圖書(shū)館。相對(duì)于普通數(shù)字圖書(shū)館,語(yǔ)義數(shù)字圖書(shū)館有兩個(gè)主要優(yōu)點(diǎn):(1)提供了對(duì)信息空間新的搜索范式,如基于本體的搜索/分面搜索;(2)提供了數(shù)據(jù)層面的互操作,如集成各種不同來(lái)源的元數(shù)據(jù),在不同的數(shù)字圖書(shū)館系統(tǒng)之間建立連接[46]。目前具有代表性的語(yǔ)義數(shù)字圖書(shū)館項(xiàng)目有JeromeDL、SIMILE和Bricks。

SIMILE是麻省理工學(xué)院、萬(wàn)維網(wǎng)聯(lián)盟(W3C)和HP實(shí)驗(yàn)室聯(lián)合研制的一個(gè)數(shù)字圖書(shū)館項(xiàng)目,其目的是支持和擴(kuò)展DSpace數(shù)字資源管理系統(tǒng),提高它對(duì)分布存儲(chǔ)在不同地點(diǎn)和環(huán)境中的各類數(shù)字資產(chǎn)、概念體系(包括詞表和本體等)、元數(shù)據(jù)之間語(yǔ)義互操作的支持[47]。通過(guò)對(duì)RDF和語(yǔ)義網(wǎng)技術(shù)的應(yīng)用,SIMILE提供了一系列用于轉(zhuǎn)換、瀏覽、檢索和映射異質(zhì)元數(shù)據(jù)的工具,首先針對(duì)不同類型的元數(shù)據(jù)構(gòu)建元數(shù)據(jù)本體并在它們之間建立映射關(guān)系,然后依據(jù)各個(gè)本體對(duì)相應(yīng)的元數(shù)據(jù)類型進(jìn)行語(yǔ)義化轉(zhuǎn)換,最后通過(guò)元數(shù)據(jù)本體間的映射關(guān)系實(shí)現(xiàn)不同元數(shù)據(jù)間的互操作[47]。此外,SMILE還將不同類型的數(shù)據(jù)(包括數(shù)字資產(chǎn)的元數(shù)據(jù)、OCLC人名規(guī)范文檔、維基百科中的人物生平信息)進(jìn)行了關(guān)聯(lián),可以看作是關(guān)聯(lián)數(shù)據(jù)的雛形,但是因?yàn)闆](méi)有采用可參引的HTTP URI地址將關(guān)聯(lián)的數(shù)據(jù)在Web上發(fā)布,還不能看作是真正的關(guān)聯(lián)數(shù)據(jù)[47]。

BRICKS是一個(gè)歐盟研究項(xiàng)目,目的是建立分布式文化遺產(chǎn)數(shù)字圖書(shū)館網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)并實(shí)現(xiàn)互操作[48]。Bricks與SMILE實(shí)現(xiàn)元數(shù)據(jù)語(yǔ)義互操作的方法大致相同,都是采用元數(shù)據(jù)本體間相互映射的方法,但是Bricks是采用OAI-PMH協(xié)議①OAI-PMH:全稱Open Archives Initiative Protocol for Metadata Harvesting,用于收割基于XML的描述性元數(shù)據(jù)記錄,實(shí)現(xiàn)不同信息系統(tǒng)間互操作的協(xié)議標(biāo)準(zhǔn)。在不同數(shù)字圖書(shū)館系統(tǒng)之間實(shí)現(xiàn)互操作,而SIMILE則是在同一數(shù)字圖書(shū)館系統(tǒng)內(nèi)部實(shí)現(xiàn)不同元數(shù)據(jù)間的互操作。

Bricks和SIMILE都還僅是語(yǔ)義數(shù)字圖書(shū)館,側(cè)重于有意義信息的檢索,而非給用戶提供知識(shí)共享的機(jī)會(huì),而JeromeDL則是一個(gè)社會(huì)語(yǔ)義數(shù)字圖書(shū)館。社會(huì)語(yǔ)義數(shù)字圖書(shū)館是由愛(ài)爾蘭DERI研究所(Digital Enterprise Research Institute)的Kruk等人首先提出的一個(gè)概念,是建立在傳統(tǒng)數(shù)字圖書(shū)館、語(yǔ)義網(wǎng)、社會(huì)網(wǎng)絡(luò)和人機(jī)交互研究之上的一個(gè)新事物[46]。社會(huì)語(yǔ)義數(shù)字圖書(shū)館系統(tǒng)將傳統(tǒng)圖書(shū)館中的知識(shí)組織系統(tǒng)與語(yǔ)義網(wǎng)和社會(huì)網(wǎng)絡(luò)技術(shù)相結(jié)合,支持對(duì)信息的語(yǔ)義標(biāo)注和與其他信息系統(tǒng)間的語(yǔ)義互操作,并允許用戶參與到信息標(biāo)注和知識(shí)共享中來(lái),使信息發(fā)現(xiàn)變得更加容易。JeromeD是波蘭Gdansk理工大學(xué)圖書(shū)館與愛(ài)爾蘭DERI研究所合作進(jìn)行的一個(gè)社會(huì)語(yǔ)義數(shù)字圖書(shū)館項(xiàng)目,它采用一個(gè)共享的書(shū)目本體MarcOnt作為中介實(shí)現(xiàn)不同類型元數(shù)據(jù)(即Dublin Core、BibTeX和MARC21)的語(yǔ)義化轉(zhuǎn)換以及它們之間的互操作,從而在同一個(gè)數(shù)字圖書(shū)館內(nèi)部實(shí)現(xiàn)對(duì)各種資源的語(yǔ)義搜索和瀏覽[49]。此外,JeromeDL還采用社會(huì)化書(shū)簽(social bookmarking)技術(shù)實(shí)現(xiàn)對(duì)信息資源的社會(huì)化語(yǔ)義標(biāo)注以及對(duì)標(biāo)注的共享,并在此基礎(chǔ)上通過(guò)社會(huì)化語(yǔ)義協(xié)同過(guò)濾(social semantic collaborative filtering)技術(shù)實(shí)現(xiàn)信息推薦[49]。

4 結(jié)語(yǔ)

近5年來(lái),語(yǔ)義網(wǎng)在企業(yè)界的應(yīng)用呈井噴式增長(zhǎng),各種面向終端用戶的應(yīng)用系統(tǒng),如語(yǔ)義門(mén)戶、語(yǔ)義知識(shí)管理系統(tǒng)、語(yǔ)義推薦系統(tǒng)、語(yǔ)義搜索引擎等,如雨后春筍般出現(xiàn),語(yǔ)義數(shù)字圖書(shū)館是其中非常重要的一員。隨著知識(shí)經(jīng)濟(jì)的興起,數(shù)字圖書(shū)館不僅要作為信息庫(kù)而存在,更重要的是要成為人類知識(shí)的巨大寶庫(kù)和人類信息交互與共享的平臺(tái),能夠?yàn)橛脩籼峁Q策支持、專家咨詢、智能信息檢索、知識(shí)管理、信息推薦等多種功能,語(yǔ)義網(wǎng)技術(shù)以及其他新信息技術(shù)的出現(xiàn)和發(fā)展使建立更加智能的數(shù)字圖書(shū)館系統(tǒng)成為可能,它們?cè)跀?shù)字圖書(shū)館領(lǐng)域的應(yīng)用具有非常廣闊的空間。

隨著大數(shù)據(jù)時(shí)代的到來(lái),將語(yǔ)義網(wǎng)技術(shù)和大數(shù)據(jù)相結(jié)合是一種新的發(fā)展趨勢(shì)。 一方面,大數(shù)據(jù)的崛起有利于語(yǔ)義網(wǎng)技術(shù)的采用。采用RDF數(shù)據(jù)模型描述大數(shù)據(jù),能夠使數(shù)據(jù)具有機(jī)器可讀可理解的形式化語(yǔ)義,不僅豐富了大數(shù)據(jù)的語(yǔ)義,而且使大數(shù)據(jù)具有更好的互操作性[50]。采用關(guān)聯(lián)數(shù)據(jù)連接來(lái)源多樣的大數(shù)據(jù),能夠基于舊數(shù)據(jù)產(chǎn)生新數(shù)據(jù)、發(fā)現(xiàn)新知識(shí),從而支持更多的服務(wù),甚至新的商業(yè)模式[51]。另一方面,大數(shù)據(jù)技術(shù)也為Web上關(guān)聯(lián)數(shù)據(jù)的急劇增長(zhǎng)保駕護(hù)航,提供發(fā)布工具、RDF倉(cāng)儲(chǔ)解決方案、并行查詢和挖掘的實(shí)現(xiàn)手段以及各類管理工具等[51]??梢灶A(yù)見(jiàn),大數(shù)據(jù)將為語(yǔ)義網(wǎng)的發(fā)展和應(yīng)用提供更廣闊的空間,當(dāng)關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)量增長(zhǎng)到一定程度,大規(guī)模的語(yǔ)義數(shù)據(jù)在未來(lái)一定會(huì)引起Web的質(zhì)變,從而迎來(lái)真正的智能Web時(shí)代。

[1] ANTONIOU G, HARMELEN F. A Semantic Web Primer [M]. 2nd ed. The MIT Press, 2008.

[2] BERNERS-LEE T. Design Issues: What the Semantic Web can represent [EB/OL]. [2014-03-03]. http://www.w3.org/DesignIssues/ RDFnot.html.1998.

[3] BERNERS-LEE T, HENDLER J, LASSILA O. The Semantic Web [J]. Scientific American, 2001 [2014-03-03]. http://www.cs.umd. edu/~golbeck/LBSC690/SemanticWeb.html.

[4] BERNERS-LEE T. Design Issues: Linked data [EB/OL]. [2014-03-03]. http://www.w3.org/DesignIssues/LinkedData. html.2006.

[5] BIZER C, JENTZSCH A, CYGANIAK R. State of the LOD Cloud (version 0.3) [EB/OL]. [2014-03-03]. http://www4.wiwiss.fu-berlin. de/lodcloud/state/.

[6] HERMAN I, ADIDA B, SPORNY M, et al. RDFa 1.1 Primer [EB/ OL]. W3C Working Group Note 22 August 2013. [2014-03-03]. http://www.w3.org/TR/xhtml-rdfa-primer/.

[7] About Microformats [EB/OL]. [2014-03-03].http://microformats. org/about.

[8] HTML Microdata [EB/OL]. [2014-03-03]. http://www.w3.org/TR/ microdata/.

[9] What is Schema.org? [EB/OL]. [2014-03-03]. https://schema.org/.

[10] BONTCHEVA K, CUNNINGHAM H. Semantic Annotations and Retrieval: Manual, Semiautomatic, and Automatic Generation [G]// DOMINGUE J, FENSEL D, HENDLER J. A Handbook of Semantic Web Technologies. Heidelberg, Berlin: Springer, 2011: 77-116.

[11] HEFLIN J, HENDLER J. Dynamic Ontologies on the Web [C]//Proceedings of the 7th National Conference for Artificial Intelligence. Menlo Park, CA: AAAI/MIT Press, 2000: 443-449.

[12] KOGUT P, HOLMES W. AeroDAML: Applying Information Extraction to Generate DAML Annotations from Web [C/OL]//Proceedings of the Workshop on Knowledge Markup and Semantic Annotation at the 1st International Conference on Knowledge Capture, 2001 [2014-03-03]. http://km.aifb.kit.edu/ws/ semannot2001/positionpapers/AeroDAML3.pdf.

[13] RDFizers [EB/OL]. [2014-03-03]. http://simile.mit.edu/wiki/ RDFizers.

[14] D2R Server: Accessing database with SPARQL and as Linked data [EB/OL]. [2014-03-03]. http://d2rq.org/d2r-server.

[15] 夏翠娟,劉煒,趙亮,等.關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)及其實(shí)現(xiàn):以Drupal為例[J].中國(guó)圖書(shū)館學(xué)報(bào),2012,38(1):49-57.

[16] 歐石燕,胡珊,張帥.本體與關(guān)聯(lián)數(shù)據(jù)驅(qū)動(dòng)的圖書(shū)館信息資源語(yǔ)義整合方法及其測(cè)評(píng)[J].圖書(shū)情報(bào)工作,2014,58(2):5-13.

[17] W3C -Standarads-Semantic Web-Inference [EB/OL]. [2014-03-03]. http://www.w3.org/standards/semanticweb/inference.

[18] BOLEY H, HALLMARK G, KIFER M, et al. RIF Core Dialect (second edition) [EB/OL]. W3C Recommendation 5 February 2013 [2014-03-03]. http://www.w3.org/TR/2013/REC-rifcore-20130205/.

[19] JOHN T. What is Semantic Search and how it works with Google search [EB/OL]. [2014-03-03]. http://www.techulator.com/ resources/5933-What-Semantic-Search.aspx.

[20] 關(guān)于豐富網(wǎng)頁(yè)摘要和結(jié)構(gòu)化數(shù)據(jù)[EB/OL]. [2014-03-03]. https://support.google.com/webmasters/answer/99170?hl=zh-Hans.

[21] LOPEZ V, NIKOLOV A, SABOU M, et al. Scaling up Question-Answering to Linked Data [C]//Proceedings of the 17th international conference on Knowledge engineering and management by the masses. Heiderlberg, Berlin: Springer, 2010: 193-210.

[22] Google Knowledge Graph [EB/OL]. [2014-03-03]. http://www. google.com/insidesearch/features/search/knowledge.html.

[23] KIRYAKOV A, DAMOVA M. Storing the Semantic Web: Repositories [G]//DOMINGUE J, FENSEL D, HENDLER J. A Handbook of Semantic Web Technologies. Heidelberg, Berlin: Springer, 2011: 231-297.

[24] KIRYAKOV A, OGNYANOV D, MANOV D. OWLIM- a pragmatic semantic repository for OWL [C]//Proceedings of the 2005 International conference on Web Information Systems Engineering. Heiderlberg, Berlin: Springer, 2005:182-192.

[25] BRESLIN J G, PASSANT A, VRANDE?I? D. Social Semantic Web [G]//DOMINGUE J, FENSEL D, HENDLER J. A Handbook of Semantic Web Technologies. Heidelberg, Berlin: Springer, 2011: 467-506.

[26] WELLER K. Knowledge Representation in the Social Semantic Web [M]. Berlin: Walter de Gruyter, 2010.

[27] BRESLIN J G, PASSANT A, DECKER S. The Social Semantic Web [M]. Heiderlberg, Berlin: Springer, 2010.

[28] HAAS H, BROWN A. Web Services Glossary [EB/OL]. W3C Working Group Note 11 February 2004 [2014-03-03]. http://www. w3.org/TR/2004/NOTE-ws-gloss-20040211/#webservice.

[29] HEBELER J, FISHER M, BLACE R, et al. Semantic Web Programming [M]. Indianapolis, In: Wiley Publishing, Inc., 2009.

[30] MARTIN D, BURSTEIN M, HOBBS J, et al. OWL-S: Semantic Markup for Web Services [EB/OL]. W3C Member Submission 22 November 2004 [2014-03-03]. http://www.w3.org/Submission/ OWL-S/.

[31] BRUIJN J, BUSSLER C, DOMINGUE J, et al. Web Service Modeling Ontology (WSMO) [EB/OL]. W3C Member Submission 3 June 2005 [2014-03-03]. http://www.w3.org/Submission/ WSMO/.[32] FARRELL J, LAUSEN H. Semantic Annotations for WSDL and XML Schema [EB/OL]. W3C Recommendation 28 August 2007 [2013-03-03]. http://www.w3.org/TR/sawsdl/.

[33] D'ARCUS B, GIASSON F. The Bibliographic Ontology [EB/OL]. [2014-03-03]. http://bibliontology.com/.

[34] SUMMERS E, ISAAC A, REDDING C, et al. LCSH, SKOS and Linked Data [C]//Proceedings of the 2008 International Conference on Dublin Core and Metadata Applications. Singapore: Dublin Core Metadata Initiative, 2008: 25-33.

[35] CARACCIOLO C, STELLATO A, SACHIT R, et al. Thesaurus Maintenance, Alignment and Publication as Linked Data: The AGROVOC Use Case [C]//Proceedings of the 5th International Conference on Metadata and Semantics Research. Heidelberg: Springer, 2011:489-499.

[36] OCLC. Dewey Summaries as Linked Data [EB/OL]. [2014-03-03]. http://www.oclc.org/dewey/webservices/default.htm.

[37] MEIJ L, ISAAC A, ZINN C. A web-based repository service for vocabularies and alignments in the cultural heritage domain [C]//Proceedings of the 7th European Conference on the Semantic Web: Research and Applications -Volume Part 1. Heidelberg: Springer, 2010: 394-409.

[38] NEUBERT J. Bringing the "thesaurus for economics" on to the web of linked data [C/OL]//Proceedings of the WWW 2009 Workshop on Linked Data on the Web. CEUR-WS.org, 2009 [2014-03-03]. http://ceur-ws.org/Vol-538/ldow2009_paper7.pdf.

[39] MALMSTEN M. Making a Library Catalogue Part of Semantic Web [C]//Proceedings of the 2008 International Conference on Dublin Core and Metadata Applications. Singapore: Dublin Core Metadata Initiative, 2008: 146-152.

[40] WorldCat linked data [EB/OL]. [2014-03-03]. http://www.oclc.org/ data.html.

[41] BIZER C, CYGANIAK R, GAUSS T. The RDF book mashup: From web APIs to a web of data [C/OL]//Proceedings of the 3rd Workshop on Scripting for the Semantic Web. CEUR-WS.org, 2007 [2014-03-03]. http://ceur-ws.org/Vol-538/ldow2009_paper7.pdf.

[42] D2R server publishing the DBLP bibliography database [EB/OL]. [2014-03-03]. http://www4.wiwiss.fu-berlin.de/dblp/.

[43] D2R server publishing the DBLP bibliography database, hosted at L3S research center [EB/OL]. [2014-03-03]. http://dblp.l3s.de/d2r/.

[44] GLASER H, MILLARD I, JAFFRI A. RKBExplorer.com: A knowledge driven infrastructure for linked data providers [C]//Proceedings of the 5th European Conference on the Semantic Web: Research and Applications. Heidelberg, Berlin: Springer, 2008: 797-801.

[45] MOLLER K, HEATH T, HANDSCHUH S, et al. Recipes for semantic web dog food-the ESWC and ISWC metadata projects [C]//Proceedings of the 6th International Semantic Web Conference and 2nd Asian Semantic Web Conference. Heidelberg, Berlin: Springer, 2007: 802-815.

[46] KRUK S R, MCDANIEL B. Goals of semantic digital libraries [G]//KRUK S R, MCDANIEL B. Semantic Digital Libraries. Heidelberg, Berlin: Springer, 2009: 71-76.

[47] BUTLER M H, GILBERT J, SEABORNE A, et al. Data Conversion, Extraction and Record Linkage Using XML and RDF Tools in Project SIMILE [R]. HP Labs Technical Report HPL-2004-147. Bristol: HP Laboratories, 2004: 2-15.

[48] HASLHOFER B, HECHT R. Metadata Management in a Heterogeneous Digital Library [C]//Proceedings of the eChallenges 2005, Amsterdam: IOS Press, 2005: 1251-1558.

[49] KRUK S R, CYGAN M, CZELLA A, et al. JeromeDL- The social semantic digital library [G]//KRUK S R, MCDANIEL B. Semantic Digital Libraries [M]. Heidelberg: Springer, 2009: 139-150.

[50] 劉煒,夏翠娟,張春景.大數(shù)據(jù)與關(guān)聯(lián)數(shù)據(jù):正在到來(lái)的數(shù)據(jù)技術(shù)革命[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(4):2-9.

[51] Fujisu UK. Linked data connecting and exploiting big data [EB/ OL]. White Paper: Linked Data. 2012 [2014-03-03]. http://www. fujitsu.com/uk/Images/Linked-data-connecting-andexploiting-bigdata-(v1.0).pdf.

Main Functionalities of Semantic Web and Their Applications in Digital Libraries

Ou Shiyan/School of Information Management, Nanjing University, Nanjing, 210093
Hu Shan/School of Information Management, Nanjing University, Nanjing, 210093

Since the birth of the Semantic Web, its developing process is always under continuous changes and adjustments.New Semantic Web standards are frequently recommended, and the functionalities and applications of the Semantic Web are constantly expanded in depth and breadth. This paper first gives a review and analysis of the establishing and developing process of the Semantic Web, then summarizes the main functionalities of the Semantic Web by carrying out a survey on Semantic Web applications, and finally provides an analysis and description on the applications of these functionalities in digital libraries.

Semantic web, Linked data, Digital libraries

2014-03-04)

10.3772/j.issn.1673—2286.2014.03.001

*本文系國(guó)家社科基金重點(diǎn)項(xiàng)目“語(yǔ)義網(wǎng)應(yīng)用技術(shù)體系和發(fā)展戰(zhàn)略研究” (編號(hào):11AZD121)的研究成果之一。

歐石燕(1971- ), 女,南京大學(xué)信息管理學(xué)院教授。E-mail: oushiyan@nju.edu.cn

胡珊(1989- ), 女,南京大學(xué)信息管理學(xué)院碩士研究生。

猜你喜歡
結(jié)構(gòu)化網(wǎng)頁(yè)本體
Abstracts and Key Words
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
電子制作(2018年10期)2018-08-04 03:24:38
基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
麟游县| 禹州市| 紫金县| 丰城市| 南和县| 周口市| 靖远县| 泰和县| 桃园市| 铁力市| 额敏县| 黄浦区| 孟州市| 德庆县| 大埔县| 青川县| 电白县| 吉水县| 齐河县| 虎林市| 昌黎县| 太原市| 贵定县| 襄城县| 环江| 班戈县| 内黄县| 花莲市| 邵武市| 安西县| 镇江市| 龙山县| 东丽区| 营口市| 威远县| 天祝| 绥化市| 大田县| 桐庐县| 固安县| 中宁县|