国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應用展望

2011-01-27 01:42□劉
大學圖書館學報 2011年2期
關(guān)鍵詞:關(guān)聯(lián)語義圖書館

□劉 煒

關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應用展望

□劉 煒

概述了關(guān)聯(lián)數(shù)據(jù)概念的提出、基本內(nèi)涵、技術(shù)實現(xiàn)和當前國內(nèi)外的研究應用狀況,對其在圖書館行業(yè)的應用作了簡要介紹,點評了國內(nèi)該領(lǐng)域的研究開發(fā)情況,重點闡述了對于圖書館在Web上發(fā)布書目數(shù)據(jù)和規(guī)范數(shù)據(jù)的重要意義,認為關(guān)聯(lián)數(shù)據(jù)與網(wǎng)絡時代的圖書情報工作關(guān)系密切,是互聯(lián)網(wǎng)發(fā)展到語義網(wǎng)時代,對網(wǎng)上資源和數(shù)字對象進行“編目”和“規(guī)范控制”的基礎(chǔ)性技術(shù),是數(shù)字圖書館進行信息資源發(fā)布和服務的核心技術(shù)之一。最后作者呼吁我國圖書情報界重視這一技術(shù),及早投入一定的資源和人力進行研究開發(fā)和應用推廣,使圖書館大量的權(quán)威數(shù)據(jù)在互聯(lián)網(wǎng)上占據(jù)一席之地。

關(guān)聯(lián)數(shù)據(jù) Linked Data 規(guī)范控制 語義網(wǎng)

引言:一個有序的知識世界

哲學家波普爾的心中存在一個超然世外、遺世獨立的知識世界,負載卻不依賴于具體的物質(zhì)世界,依靠卻不附屬于個體的精神世界。這個世界總體上依賴于信息網(wǎng)絡和各類載體而存在,具體上卻不依附于任何個體的硬件設(shè)施;理解或解讀這個世界需要人類大腦的參與,但它卻有其自身的發(fā)展規(guī)律。遺憾的是在波普爾1994年去世前,這個世界還沒有像現(xiàn)在這么具體、形象和幾乎就要實現(xiàn)。這就是語義網(wǎng)的世界。

試想,如果每一本書都有一個獨立的網(wǎng)址,每一個作者都有一條可以公開訪問的記錄,每個刊物、出版社,每個主題詞、每個分類號……每個“知識點”,在網(wǎng)絡中都有一個唯一標識,所有這些“資源”之間的關(guān)系都能從其標識所指引的地址里找到詳盡的說明;甚至萬事萬物,不論是自然的、社會的或精神的,都有一個標識符,都建立起豐富的關(guān)聯(lián),計算機能夠自動通過網(wǎng)絡推理和挖掘知識,那將是一個多么有序的知識世界!

1 什么是關(guān)聯(lián)數(shù)據(jù)?

“關(guān)聯(lián)數(shù)據(jù)”所提出的技術(shù)架構(gòu),為實現(xiàn)這個有序的知識世界帶來了曙光。

關(guān)聯(lián)數(shù)據(jù)是國際互聯(lián)網(wǎng)協(xié)會(W3C)推薦的一種規(guī)范,用來發(fā)布和聯(lián)接各類數(shù)據(jù)、信息和知識,它希望在現(xiàn)有的萬維網(wǎng)基礎(chǔ)上,建立一個映射所有自然、社會和精神世界的數(shù)據(jù)網(wǎng)絡,通過對大千世界萬事萬物及其相互之間關(guān)系進行機器可讀的描述,使互聯(lián)網(wǎng)進化為一個富含語義的、互聯(lián)互通的知識海洋,從而使任何人都能夠借助整個互聯(lián)網(wǎng)的計算設(shè)施和運算能力,在更大范圍內(nèi),準確、高效、可靠地查找、分享、利用這些相互關(guān)聯(lián)的信息和知識。

從技術(shù)上看,關(guān)聯(lián)數(shù)據(jù)是在萬維網(wǎng)上發(fā)布任何“資源”的一種方式。語義萬維網(wǎng)將資源定義為“任何有URI標識的東西”,分為信息資源和非信息資源兩類,信息資源用以表達任何信息,通常以某種編碼的文件形式而存在;非信息資源用以指代大千世界中的各類實體對象,可以是自然界、人類社會以及人類意識所創(chuàng)造的精神世界(概念、觀念、抽象實體等)的所有對象。

關(guān)聯(lián)數(shù)據(jù)通過HT TP URI方式表示和存取“資源”。如果這個資源是信息資源,則可以直接通過傳統(tǒng)的Web方式獲取;如果是非信息資源,則鏈接到一個以RDF/XML編碼的、用以指代該“非信息資源”的數(shù)據(jù)文件,而不是其他任何格式的文檔。這個RDF/XML編碼的文件包含了關(guān)于這個“非信息資源”的元數(shù)據(jù)描述和與其他相關(guān)實體對象的關(guān)聯(lián)關(guān)系描述。對象之間的關(guān)聯(lián)關(guān)系通??梢杂帽倔w語言來編碼,許多領(lǐng)域應用的知識體系都有規(guī)范的、可重用的本體,可用來建立實體對象之間的關(guān)聯(lián)關(guān)系。

關(guān)聯(lián)數(shù)據(jù)的 URI除了能夠在萬維網(wǎng)范圍內(nèi)唯一標識資源對象之外,還能起到定位的作用,從而能夠用以“關(guān)聯(lián)”數(shù)據(jù)。具體的關(guān)聯(lián)是依靠RDF文件中的大量資源鏈接來實現(xiàn)的,這些鏈接不僅決定了數(shù)據(jù)的語義,也通過“屬性”而關(guān)聯(lián)到其所能鏈接到的、大量的相關(guān)資源實體。這些“屬性”本身也是資源,也應該有唯一標識符 URI加以定義和描述,我們通常所稱的“元數(shù)據(jù)方案”就是這類屬性的集合,規(guī)定了所需進行描述的語義及其相互關(guān)系,其本身就可以看成是描述某些特定對象的本體。

關(guān)聯(lián)數(shù)據(jù)的發(fā)明人蒂姆·伯納斯-李(Tim Berners-Lee)為關(guān)聯(lián)數(shù)據(jù)總結(jié)了四個原則,很好地概括了上述關(guān)聯(lián)數(shù)據(jù)的諸多特性:

(1)使用URI作為任何事物的標識名稱,不僅是標識文檔;

(2)使用 HT TP URI,使任何人都可以參引①注:這里的“參引”(dereference),意指“為了獲取引用資源的相關(guān)信息,在萬維網(wǎng)上查找U RI的過程”。下同。(dereference)這一全局唯一的名稱;

(3)當有人訪問名稱時,以RDF形式提供有用的信息;

(4)盡可能提供鏈接,指向其他的URI,以使人們發(fā)現(xiàn)更多的相關(guān)信息。

其中第三和第四點要求RDF文件包含有用信息以及盡可能多的URI,這就要求關(guān)聯(lián)數(shù)據(jù)的RDF文件盡可能不使用“空白節(jié)點(blank nodes)”和少使用普通“文字(literal)”。在這里,“空白節(jié)點”是沒有全局ID的本地資源(沒有定義命名域的 URI,如ISBN,DOI),“文字”指一個字串值(可以有類型以及語言屬性),由于這兩種描述方式都不能用來指代“資源”,因此過多地使用“空白節(jié)點”和“文字”不能起到數(shù)據(jù)(即資源)關(guān)聯(lián)的作用,實現(xiàn)關(guān)聯(lián)數(shù)據(jù)的目的。

總之,可以認為關(guān)聯(lián)數(shù)據(jù)是一組最佳實踐的集合,它采用RDF數(shù)據(jù)模型,利用URI(統(tǒng)一資源標識符)命名數(shù)據(jù)實體,來發(fā)布和部署實例數(shù)據(jù)和類數(shù)據(jù),從而可以通過 HTT P協(xié)議揭示并獲取這些數(shù)據(jù),同時它強調(diào)數(shù)據(jù)的相互關(guān)聯(lián)、相互聯(lián)系和有益于人機理解的語境信息。

2 關(guān)聯(lián)數(shù)據(jù)能做什么?

關(guān)聯(lián)數(shù)據(jù)可以看成是語義萬維網(wǎng)的一種簡化實現(xiàn),作為一種語義信息的編碼、發(fā)布和利用方式,它的作用是基礎(chǔ)性的和多方面的。從目前的研究開發(fā)項目來看,對關(guān)聯(lián)數(shù)據(jù)的應用主要體現(xiàn)了兩個方面的作用:一、提供“可信網(wǎng)絡”的語義要素;二、作為跨網(wǎng)域數(shù)據(jù)整合的通用API。它最終是為了用戶更準確地、從更大范圍、適時適地(just-in-time和just-incase)地獲取信息而服務的,但最終用戶無需知道這些服務背后的技術(shù)細節(jié),因此關(guān)聯(lián)數(shù)據(jù)的“用戶”,目前還主要是指圖書館、網(wǎng)站、信息提供商之類的機構(gòu)組織,常被稱為“信息中介”。

“可信網(wǎng)絡”意為其信息資源的來源可追蹤或可通過一定算法計算其“信度”的網(wǎng)絡。關(guān)聯(lián)數(shù)據(jù)的技術(shù)架構(gòu)不僅提供了信息資源可以追蹤來源(具有URI)的RDF語義描述,而且為各類對象實體以及所涉及的大量概念術(shù)語提供了規(guī)范控制。例如對每個作品、表達、表現(xiàn),或作者、機構(gòu)、家庭等實體提供一個唯一的URI參引,或?qū)γ總€主題、概念、術(shù)語、事件、分類詞或?qū)傩栽~等,提供一個唯一的出處。這實際上就是傳統(tǒng)圖書館學中“書目控制”(又稱權(quán)威控制)的擴展:當人們提及某一實體,或某一概念術(shù)語時,系統(tǒng)能夠給予自動的歸并或參照。這種機制,就是規(guī)范控制。規(guī)范控制的結(jié)果,就是信息在一定程度上更加可信。

若要進行跨網(wǎng)域的數(shù)據(jù)整合,關(guān)聯(lián)數(shù)據(jù)把API(應用程序接口)統(tǒng)一為HT TP一種,只不過經(jīng)過了簡單的擴展而已(指Hash或Slash方式轉(zhuǎn)發(fā))。也就是說關(guān)聯(lián)數(shù)據(jù)對數(shù)據(jù)訪問方式進行了標準化,用戶或代理無需知道某具體關(guān)聯(lián)數(shù)據(jù)發(fā)布網(wǎng)站的體系架構(gòu)、存儲方式等任何技術(shù)細節(jié),只要知道Web服務器地址,都可以直接用SPARQL進行訪問。

據(jù)此,目前的關(guān)聯(lián)數(shù)據(jù)應用系統(tǒng)的開發(fā),基本上也可分為兩類:“關(guān)聯(lián)數(shù)據(jù)倉儲系統(tǒng)”和“關(guān)聯(lián)數(shù)據(jù)服務系統(tǒng)”。前者關(guān)心的是將數(shù)據(jù)發(fā)布為面向網(wǎng)絡的關(guān)聯(lián)數(shù)據(jù)倉儲,后者關(guān)注不同倉儲的整合應用和互操作。當然,這兩者也不是截然分開的,某些應用兼而有之,是這兩者的聯(lián)合。

目前把各類數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)是一個熱點,圖書館行業(yè)在這方面已成為先鋒,不僅將本行業(yè)歷久彌新的各類概念體系受控詞表發(fā)布出來(即將各類知識組織體系發(fā)布成SKOS),越來越多的元數(shù)據(jù)方案、本體,乃至圖書館傳統(tǒng)的各類規(guī)范檔(如書目記錄、人名、地名、機構(gòu)名等)都在探索以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布,而且在發(fā)布過程中探索了領(lǐng)域本體(如FRBR)的應用。下一步我們可以期待,重點將會逐漸轉(zhuǎn)移到跨應用的語義整合服務,例如各類術(shù)語體系或元數(shù)據(jù)的映射等。

當然,關(guān)聯(lián)數(shù)據(jù)也不是萬能的,它最大的敵人就是封閉,無法對封閉系統(tǒng)中的資源進行整合。目前圖書館購買或租用的大量資源庫需要遠程訪問才能獲得,如果這些資源庫不提供一定的開放接口,關(guān)聯(lián)數(shù)據(jù)就無計可施,最多利用本體和術(shù)語規(guī)范的關(guān)聯(lián)數(shù)據(jù),從服務整合的角度,提供一定的資源導航或術(shù)語規(guī)范的支持。

總之,關(guān)聯(lián)數(shù)據(jù)相比于語義萬維網(wǎng)技術(shù)來說,其實現(xiàn)更加簡單,但背后同樣有數(shù)學和邏輯學的支持,具有規(guī)范性和可靠性。作為一種數(shù)據(jù)發(fā)布技術(shù),由于支持了語義描述,同時提供標準的服務接口,有效地提高了數(shù)據(jù)的可查找性和可重用性,其影響力正在日益顯現(xiàn),潛力十分巨大,已成為影響互聯(lián)網(wǎng)基礎(chǔ)結(jié)構(gòu)的關(guān)鍵技術(shù)之一。

3 關(guān)聯(lián)數(shù)據(jù)是如何實現(xiàn)的?

關(guān)聯(lián)數(shù)據(jù)是建立在Web技術(shù)之上的,Web技術(shù)主要涉及三個內(nèi)容:HT TP、URL和HTML。

·HTTP是服務器操作的指令,規(guī)定了遇到各種請求(如GET/PUT/POST/DELETE)服務器如何響應,怎么處理;

·HTML是存儲在服務器端的網(wǎng)頁文件,將根據(jù)請求傳送給瀏覽器,HTML的標準規(guī)定了文件的結(jié)構(gòu),允許包含豐富的超文本鏈接,并能嵌套各類其他文件格式,如果瀏覽器一端有相應的資源或程序就能夠調(diào)用或運行。正是由于H TML,使整個萬維網(wǎng)上布滿了相互鏈接的文件,成為一個巨大的、不斷膨脹的文件宇宙,這就是為什么說目前的萬維網(wǎng)是文件的萬維網(wǎng)(Web of Documents)的原因。

·URL本來是作為在這個文件宇宙中定位具體的文件而用的,后來演變成兼具名稱作用,從而連同URN一起,統(tǒng)一作為URI的子類。

關(guān)聯(lián)數(shù)據(jù)把上面三個技術(shù)作了進一步的限定和擴展,用URI同時解決命名和定位問題。在具體實現(xiàn)URI命名和定位時,由于該名稱有永久性和易實現(xiàn)的要求,路徑作為某個資源名稱的一部分,不允許隨意發(fā)生改變,并且在不同的軟硬件平臺和技術(shù)環(huán)境下都需要能夠正確編碼,這就需要作為關(guān)聯(lián)數(shù)據(jù)標識的URI符合CoolURI規(guī)范。

同時對于同一個對象,必須允許有不同的描述與表達方式,例如對于“http://www.kevenlw.name/about/index.php” 中 關(guān) 于 kevenlw 的FOAF①FOAF是個人信息描述的一種 RDF格式,參見:http://www.foaf-project.org/。描述,既要有html文件(php可以認為是動態(tài)生成的html文件),通過瀏覽器顯示給人看,又要有rdf文件描述kevenlw的各種性狀屬性以便機器獲取相關(guān)元數(shù)據(jù)信息,如foaf文件:http://www.kevenlw.name/kevenfoaf.rdf。這兩個文件其實描述的是同一個“東西”,因此不應該有不同的ID標識(注意:在這里是兩個不同的URI,這是不規(guī)范的),必須在一個URI中區(qū)分這兩類數(shù)據(jù),同時讓服務器有一種機制,能夠自動地根據(jù)請求方的不同,傳送不同格式的數(shù)據(jù)。

關(guān)聯(lián)數(shù)據(jù)的具體實現(xiàn)方式解釋如下:

一、對于來自客戶端的對任何非信息資源的所有URI“參引”請求,均采用HTT P協(xié)議中的“內(nèi)容協(xié)商”規(guī)則,返回其所請求的信息資源描述文件(對于非信息資源的請求是無法返回具體實物對象的,只能以描述該對象的代碼文件代替)。一般信息資源描述文件有兩類:即如果請求來自于普通瀏覽器(頭信息中包含text/html請求,其他MIME文件類型,如圖像文件、音視頻文件等,可歸入此類),則 返回HTML文件的網(wǎng)頁;如果請求為application/rdf+xml,則返回負責該對象語義描述的RDF文件。

二、具體的“內(nèi)容協(xié)商”方式,通常有兩種方案達成:

(1)采用 HT TP協(xié)議的303指令重定向功能(如圖1所示②示意圖來自BBC關(guān)聯(lián)數(shù)據(jù)項目報告,原圖地址:http://www.bbc.co.uk/blogs/radiolabs/s5/linked-data/ui/images/slash303conneg.png。)??蛻舳?瀏覽器)的URI請求由于不存在“東西”(非信息資源),服務器就會發(fā)送一個303See Other給客戶端,再由客戶端根據(jù)重定向規(guī)則發(fā)送請求,具體根據(jù)客戶端是H TML瀏覽器還是支持RDF的瀏覽器,決定HT TP文件頭請求何種類型的文件(HTML或者RDF)。

該過程的具體流程如圖2所示③原圖來自參考文獻14,地址:http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/deref-ont-uri-rdf.png:

圖1 HTTP協(xié)議303指令重定向示意圖

圖2 HTTP協(xié)議303指令重定向流程示意圖

圖3 采用“#”進行“內(nèi)容協(xié)商”定位資源描述的示意圖

URI重定向通常采用以下慣例:

(2)采用帶“#”號(hash)的 URI方式(如圖 3所示①示意圖來自BBC關(guān)聯(lián)數(shù)據(jù)項目報告,原圖地址:http://www.bbc.co.uk/blogs/radiolabs/s5/linked-data/ui/images/hashconneg.png。)?!?”號前面的 URI能夠便于瀏覽器進行解析定位,而與后面帶“#”號的片段標識符共同用來標識非信息資源,該片段標識符同時起到了類似于重定向的功能,允許支持RDF的瀏覽器參引到信息資源文件(在這里是靜態(tài)的RDF文件)的所需位置。這種方式要求該片段標識符必須在RDF文件中是唯一的,且整個RDF文件不可過大,否則非常影響查詢效率。

采用“#”號方式作為URI的例子如:

由于關(guān)聯(lián)數(shù)據(jù)從技術(shù)上看只是一種簡單的數(shù)據(jù)發(fā)布規(guī)范,規(guī)模較小的應用只需要對現(xiàn)有的Web服務器軟件進行一定的設(shè)置,設(shè)定好資源對象的URI命名規(guī)范(以如上所述的各種方式),并將這些資源的RDF描述以靜態(tài)文件的形式發(fā)布出來。對于海量數(shù)據(jù)倉儲,則后臺必須有支持關(guān)聯(lián)數(shù)據(jù)規(guī)范發(fā)布方式的數(shù)據(jù)庫管理平臺,目前開源軟件已經(jīng)有著名的內(nèi)容管理平臺Drupal②參見:http://drupal.org/全面支持關(guān)聯(lián)數(shù)據(jù),Ruby on Rails③參見:http://www.rubyonrails.org/據(jù)說也已開發(fā)了完整的支持模塊。另一個做法是利用關(guān)系型數(shù)據(jù)庫系統(tǒng)的管理功能,編制映射文件,實時地將數(shù)據(jù)表、行、列、值映射為RDF數(shù)據(jù)中的類、屬性、資源、屬性值(文本與連接)等。這種方式通常被稱為D2R方式,即從數(shù)據(jù)庫到RDF數(shù)據(jù)轉(zhuǎn)換的方式。這樣等于在原有的Web數(shù)據(jù)庫三層應用架構(gòu)基礎(chǔ)上增加了語義構(gòu)建層(即生成RDF數(shù)據(jù)以供SPARQL查詢),大大簡化了語義內(nèi)容的構(gòu)建難度,發(fā)布速度快,但也帶來了語義標注一致性差、質(zhì)量不高的問題。目前LOD④參見:http://linkeddata.org/(即開放關(guān)聯(lián)數(shù)據(jù)LOD:Linked Open Data)中有很多大型數(shù)據(jù)集都采用了這種方式發(fā)布。關(guān)于關(guān)聯(lián)數(shù)據(jù)發(fā)布的詳細解釋,可以參考 Chris Bizer、Richard Cyganiak和Tom Heath合著的How to Publish Linked Data on the Web一文⑤參見:Chris Bizer,Richard Cyganiak,Tom Heath.How to Publish Linked Data on the Web.[2011-01-18].http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/。

4 關(guān)聯(lián)數(shù)據(jù)在國外的研發(fā)應用現(xiàn)狀

2006年7月蒂姆·伯納斯-李提出關(guān)聯(lián)數(shù)據(jù),由于其主要是一套應用規(guī)范,而不是難度很高的技術(shù)開發(fā),很快成為互聯(lián)網(wǎng)研究和應用的一個熱點領(lǐng)域。在2007年開放關(guān)聯(lián)數(shù)據(jù)運動的推動下,不久便出現(xiàn)一大批實驗性的應用,表示關(guān)聯(lián)數(shù)據(jù)應用范圍的云圖不斷增大①參見:http://richard.cyganiak.de/2007/10/lod/,關(guān)聯(lián)的開放數(shù)據(jù)呈幾何級數(shù)飛速增長,截止2010年11月,LOD中的數(shù)據(jù)集合已有100多個,其中RDF三元組數(shù)據(jù)已達131億。其內(nèi)容也逐步擴展,從早期的地理信息、生命科學數(shù)據(jù)、百科詞條等,發(fā)展到目前涉及媒體、出版、政府信息、圖形圖像等,幾乎無所不包。

除了關(guān)聯(lián)數(shù)據(jù)專題會議之外,2007年以來幾乎每個互聯(lián)網(wǎng)國際會議都以關(guān)聯(lián)數(shù)據(jù)作為主題或最重要的分主題,如全球互聯(lián)網(wǎng)大會(WWW)、語義萬維網(wǎng)年會(ISWC)、AAAI年會、DCMI國際元數(shù)據(jù)年會等。自從W3C的2007年年會(即WWW2007)之后,關(guān)聯(lián)數(shù)據(jù)就開始作為一個專門的分會場——LDOW:Linked Data On the Web,于每年召開。該會議已成為關(guān)聯(lián)數(shù)據(jù)領(lǐng)域最重要的會議,會上所探討的主題代表了最新的研究和開發(fā)動向,目前已從最初的關(guān)聯(lián)數(shù)據(jù)的發(fā)布和瀏覽,到關(guān)聯(lián)數(shù)據(jù)的應用架構(gòu)、關(guān)聯(lián)算法、Web數(shù)據(jù)融合、關(guān)聯(lián)數(shù)據(jù)的消費和關(guān)聯(lián)服務等諸多方面。

關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的一個鮮明特點是邊研究邊應用,在實踐中不斷得到檢驗和完善。目前涌現(xiàn)出一批非常知名的應用,如美國和英國政府的政府信息、英國廣播公司(BBC)、紐約時報、路透社、百思買等。

以下以BBC為例,簡要介紹關(guān)聯(lián)數(shù)據(jù)對于組織機構(gòu)內(nèi)部數(shù)字資產(chǎn)管理和利用所帶來的變化。

BBC是世界上最大的廣播電視公司之一,創(chuàng)立于1920年,目前有32種語言的國際服務,8個全國電視頻道,1個高清頻道,大量的地方頻道,10個國家電臺,40多個地方電臺等,積累了難以想象的資料和素材,管理、發(fā)現(xiàn)和重用這些資源都是巨大的挑戰(zhàn),更別說開放出來給公眾使用。

BBC矢志成為業(yè)界翹楚。它的網(wǎng)站bbc.co.uk開設(shè)于1994年,是同行業(yè)中最早的網(wǎng)站,語義網(wǎng)技術(shù)使它燃起了新的希望,它希望建立先進的語義媒體庫,不僅利用網(wǎng)站進行節(jié)目推廣,而且可以發(fā)布、推送、組織和存檔節(jié)目,支持知識搜索,使其積累的大量內(nèi)容成為儲存人類記憶的腦庫。于是它利用關(guān)聯(lián)數(shù)據(jù)技術(shù),給每個節(jié)目(每一集)都建立了自己專屬的網(wǎng)頁和靜態(tài)地址(CoolURL),每個知識單元都有自己的結(jié)構(gòu)化描述和永久地址,而且每個網(wǎng)頁都可以由所有這些知識單元根據(jù)模版自動生成,同時以同樣的方法建立了455465位藝術(shù)家的信息,682473個播出節(jié)目,7851093個音軌,以及31112個Labels的完整資料。BBC還采用了鼓勵用戶貢獻信息和糾錯的機制,用戶的參與使信息庫的完整性和準確性不斷得到提高。BBC認為關(guān)聯(lián)數(shù)據(jù)技術(shù)使其網(wǎng)站和數(shù)據(jù)的可用性得到大大增強,用戶的體驗得到巨大提升,搜索引擎的查詢效果得到優(yōu)化,資源的可查找性、可點擊性和可傳播性都得到很大提高?,F(xiàn)在BBC的整個網(wǎng)站同時又是一個API平臺,它采用了RESTful發(fā)布,與Web無縫集成,保證了鏈接的永久性和數(shù)據(jù)的開放性,并且其系統(tǒng)的各組成部分松散耦合,互有聯(lián)系卻互不干擾,整個系統(tǒng)進入可持續(xù)發(fā)展的良性軌道。

5 圖書館行業(yè)的關(guān)聯(lián)數(shù)據(jù)應用

自從2008年瑞典國家圖書館首家以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布了LIBRIS國家書目,并將其中的數(shù)據(jù)與DBPedia相關(guān)聯(lián)之后,到2010年,已有逾20個圖書館的關(guān)聯(lián)數(shù)據(jù)集②來自Ross Singer2010年Code4Lib報告http://code4lib.org/conference/2010/singer中的圖書館關(guān)聯(lián)數(shù)據(jù)云圖。。

圖4 2010年已有的圖書館領(lǐng)域關(guān)聯(lián)數(shù)據(jù)集

其中至少有以下5個國際、國家級的書目數(shù)據(jù)/規(guī)范數(shù)據(jù)開放了關(guān)聯(lián)數(shù)據(jù)服務:

·美國國會圖書館及其主題標目(LCSH)(id.loc.gov)

·德國國家圖書館的聯(lián)合權(quán)威檔(Gemeinsame Normdatei)(d-nb.info/gnd/)

·法國國家圖書館(BnF)的RAMEAU主題標目(stitch.cs.vu.nl/rameau/)

·OCLC的杜威分類法及國際虛擬權(quán)威檔(VIAF)(dewey.info/和viaf.org/)

·匈牙利國家圖書館的目錄和敘詞表(oszkdk.oszk.hu/resource/DRJ/404)

另外DC元數(shù)據(jù)、應用了FRBR的RDA詞表、BIBO書目本體(http://bibliontology.com/)、SKOS知識組織編碼模式和OAI-ORE對象重用和交換模型都可作為數(shù)據(jù)關(guān)聯(lián)的語義工具。

目前這類詞表和KOS已經(jīng)如雨后春筍一般涌現(xiàn)出來。較著名的有:

·STW經(jīng)濟學敘詞表(zbw.eu/stw)

·社會科學敘詞表(lod.gesis.org)

·GEMET環(huán)境敘詞表(eionet.europa.eu/gemet)

·Agrovoc(聯(lián)合國糧農(nóng)組織敘詞表)(aims.fao.org/)

·紐約時報主題標目(data.nytimes.com/)

·科學出版物詞表(dblp.rkbexplorer.com)

因為有了如此進展,Antoine把2010年稱為圖書館關(guān)聯(lián)數(shù)據(jù)元年①參見:http://talis-linkeddata-libraries.s3.amazonaws.com/I-saac-LLD10.pdf slide 6:“2010,Year 1of Library Linked Data”。。

圖書館行業(yè)所具有的經(jīng)年累積的高質(zhì)量數(shù)據(jù),包含了大量的、值得揭示和參照復用的內(nèi)容實體,只是這些東西都隱藏在書目記錄內(nèi)部,沒有獨立標識,也缺乏結(jié)構(gòu)化描述,特別是其相互之間的隱含關(guān)系尤其值得揭示,但工作量浩大,必須開發(fā)一定的規(guī)則算法,由機器進行批處理。

IFLA也注意到了關(guān)聯(lián)數(shù)據(jù)與圖書館的密切聯(lián)系,于2010年6月發(fā)布了《關(guān)聯(lián)數(shù)據(jù)與圖書館》的專題報告[1],由德國國家圖書館的Jan Hannemann和Jürgen Kett執(zhí)筆。文章介紹了德國國家圖書館在應用關(guān)聯(lián)數(shù)據(jù)技術(shù)方面的進展,包括三個具體的實例:德國作家Bertolt Brecht的規(guī)范數(shù)據(jù)、國際圖聯(lián)(IFLA)海牙總部的機構(gòu)規(guī)范數(shù)據(jù)和主題“Führungskraft” (英語 :“Executive”)的標目 ,探討了關(guān)聯(lián)數(shù)據(jù)對于圖書館的意義和應用前景,對于全球圖書館如何互通互聯(lián)數(shù)據(jù)、并在此基礎(chǔ)上探索新的服務內(nèi)容和方式,進行了全面深入的思考。

由于圖書館行業(yè)有著獨特的“規(guī)范控制”經(jīng)驗和長期積累的數(shù)據(jù)優(yōu)勢,萬維網(wǎng)協(xié)會W3C專門成立了“圖書館關(guān)聯(lián)數(shù)據(jù)孵化小組(Library Linked Data Incubator Group)”②參見:http://www.w3.org/2005/Incubator/lld/,由 DCMI的元老 Thomas Baker領(lǐng)銜,匯集語義網(wǎng)、特別是關(guān)聯(lián)數(shù)據(jù)方面的高手,集思廣益,充分挖掘現(xiàn)有圖書館領(lǐng)域的相關(guān)專業(yè)知識,如元數(shù)據(jù)模型、元數(shù)據(jù)模式、標準和協(xié)議等,重新定義需求、編制指南、開發(fā)新的標準,鼓勵圖書館界將它們的各類數(shù)據(jù)和規(guī)范檔以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布到互聯(lián)網(wǎng)上,提高圖書館數(shù)據(jù)在萬維網(wǎng)上的互操作性,使圖書館行業(yè)成為萬維網(wǎng)上最重要的語義數(shù)據(jù)提供者,并探索和尋求與其他相關(guān)領(lǐng)域的數(shù)據(jù)和應用進行協(xié)同的可能性。

孵化小組目前已完成了約50多個用例(Use Cases)的收集和編寫③參加:http://www.w3.org/2005/Incubator/lld/wiki/UseCases,內(nèi)容涉及書目數(shù)據(jù)、規(guī)范控制、詞表發(fā)布、檔案和異構(gòu)數(shù)據(jù)、參考引文、數(shù)字對象、資源集合、社會性應用等各個方面,還在不斷增加,涵蓋非常廣泛,幾乎包括了圖書館行業(yè)數(shù)據(jù)可能想到的所有方面。

盡管已經(jīng)取得了不小的進展,圖書館界應用關(guān)聯(lián)數(shù)據(jù)的困難也十分明顯,主要表現(xiàn)在以下4個方面:一是缺乏可資利用的、公認的術(shù)語詞表,各類KOS、本體尚未經(jīng)過嚴格的編碼應用檢驗,而且目前也不夠用、不統(tǒng)一;二是缺乏成熟的方法和可以立即上手的工具;三是數(shù)據(jù)的版權(quán)屬性不明朗,有時可能有法律風險;四是做這個事情還是缺乏經(jīng)驗,需求掌握也不是很充分,為什么做?有什么用?能不能達到預期目的?還都是未知數(shù)。

6 國內(nèi)的研究與應用

國內(nèi)最早引介關(guān)聯(lián)數(shù)據(jù),應該是2008年12月在上海召開的“數(shù)字環(huán)境下圖書館前沿問題研討班”上,劉煒所作的“語義互操作與關(guān)聯(lián)數(shù)據(jù)”介紹①參見:http://www.lib.sjtu.edu.cn/adls/download/12-18/1218AM-C2.pdf,當時是為了宣傳次年在韓國召開的DC-2009國際元數(shù)據(jù)會議主題,希望國內(nèi)同行關(guān)注這一新的技術(shù)動向。美國著名圖書情報學家曾蕾教授在同一個會上所作的題為“術(shù)語注冊和網(wǎng)絡服務系統(tǒng)當前技術(shù)和應用”②參見:http://www.lib.sjtu.edu.cn/adls/download/12-17/1217PM-A7.pdf的報告,更為詳細地介紹了關(guān)聯(lián)數(shù)據(jù)技術(shù)及其應用現(xiàn)狀。隨后曾蕾教授前往中國國家圖書館和中國人民大學圖書館,又作了兩場同題報告,傳播了正在國外興起的“關(guān)聯(lián)數(shù)據(jù)”研究和應用。

關(guān)聯(lián)數(shù)據(jù)與元數(shù)據(jù)具有天然的聯(lián)系,從某種程度上可以說關(guān)聯(lián)數(shù)據(jù)是元數(shù)據(jù)語義表達和實現(xiàn)其功能需求的最佳方式,就像業(yè)界普遍認為RDF是當然的“元數(shù)據(jù)格式”一樣,RDF作為一種數(shù)據(jù)表達方式(三元組),其在Web上開放發(fā)布的最簡單便捷的形式,就是“關(guān)聯(lián)數(shù)據(jù)”的一整套被稱為“最佳實踐”的規(guī)范。盡管這些說法可能不是非常嚴格準確,但還是從某種程度上揭示了這些概念之間的關(guān)系。

DCMI的國際元數(shù)據(jù)年會從2008年柏林會議就有大量的關(guān)聯(lián)數(shù)據(jù)討論,這時已經(jīng)經(jīng)歷了國外2007年關(guān)聯(lián)數(shù)據(jù)的持續(xù)升溫。在美國雪城大學秦健教授的推薦下,劉煒為《現(xiàn)代圖書情報技術(shù)》組織了一個DC-2008年會會議錄中有關(guān)語義網(wǎng)應用的翻譯文章專輯,其中有兩篇涉及關(guān)聯(lián)數(shù)據(jù),分別介紹了瑞典國家圖書館以關(guān)聯(lián)數(shù)據(jù)形式發(fā)布書目數(shù)據(jù)[2],以及美國國會圖書館主題標目的關(guān)聯(lián)數(shù)據(jù)應用[3]。這兩個應用可以說是圖書館行業(yè)在這一領(lǐng)域應用的先驅(qū)和樣板。

由武漢華中科技大學主辦的2009年“數(shù)字環(huán)境下圖書館前沿問題研討班”③參見:http://202.114.9.60/dl6/又一次涉及了關(guān)聯(lián)數(shù)據(jù)主題。這次會議上由于有曾蕾教授的強烈推薦,引起了大家對關(guān)聯(lián)數(shù)據(jù)的高度重視和強烈興趣,開始認識到這是代表發(fā)展方向的一個技術(shù)領(lǐng)域,將對未來的網(wǎng)絡信息資源組織和應用產(chǎn)生重大影響。這次會議上曾蕾和劉煒分別作了“關(guān)聯(lián)的圖書館數(shù)據(jù)”④參見:http://202.114.9.60/dl6/pdf/26.pdf和“關(guān)聯(lián)數(shù)據(jù):意義及其實現(xiàn)”⑤參見:http://202.114.9.60/dl6/pdf/24.pdf的報告。

2010年8月上海市圖書館學會在普陀區(qū)圖書館召開了一年一度的“圖書館前沿技術(shù)論壇”,主題定為“關(guān)聯(lián)數(shù)據(jù)與書目數(shù)據(jù)的未來”⑥參見:http://www.libnet.sh.cn/tsgxh/list/list.aspx?id=6604,參加會議交流的除了上海市在該領(lǐng)域從事研究開發(fā)的一些專業(yè)人員之外,遠在大洋彼岸的曾蕾教授也通過遠程會議系統(tǒng)為會議作了第一個報告,會議特別邀請了新西蘭奧克蘭大學圖書館的資深技術(shù)專家林海青先生、中國科技信息研究所的白海燕女士和嘉興學院的黃田青先生,一共進行了8場專題報告⑦參見:http://www.kevenlw.name/archives/2199,最后還進行了討論和互動,全國各地約有近20位對關(guān)聯(lián)數(shù)據(jù)感興趣或正在從事研究的同行也參與了網(wǎng)絡直播和交流。上海圖書館學會學術(shù)委員會主任范并思教授在開幕致辭和閉幕總結(jié)中對這次會議給予了高度評價。

從國內(nèi)見諸專業(yè)刊物的文章來看,關(guān)聯(lián)數(shù)據(jù)的研究尚不普及。除了上面提到的兩篇翻譯文章之外,總共只有不超過10篇論文,其中有兩篇是綜述文章,黃永文的綜述[4]主要側(cè)重圖書館應用的角度,沈志宏、張曉林的綜述[5]則從技術(shù)發(fā)展所提供的可能性角度,介紹得更為全面系統(tǒng)。

其他文章也都較為詳盡地介紹了關(guān)聯(lián)數(shù)據(jù)技術(shù)的內(nèi)容和發(fā)展[6][7]以及國外有關(guān)項目的應用開發(fā)情況[8],白海燕[9][10]和范煒、鄒慶的論文[11]涉及了項目開發(fā)和技術(shù)實現(xiàn)。這些論文的作者單位也反映出國內(nèi)對關(guān)聯(lián)數(shù)據(jù)感興趣的機構(gòu)集中在中國科技信息研究所、中科院文獻情報中心等少數(shù)幾家。另外已經(jīng)有兩篇學位論文涉及了這一主題[12][13]。

中國科技信息研究所是國內(nèi)較早跟蹤關(guān)聯(lián)數(shù)據(jù)技術(shù),并積極探索其應用可能性的單位,曾經(jīng)有多個項目與此有關(guān),最早的項目可以追溯到2008年在國家科技圖書文獻中心立項的“NSTL聯(lián)合目錄的分層組織與關(guān)聯(lián)構(gòu)建”,該項目主要探討了FRBR在NSTL應用的可能性,提出了NSTL書目本體,并在DC-2009上發(fā)表了一篇短文(掛圖Poster)。后來該所又立項了“基于關(guān)聯(lián)數(shù)據(jù)的信息組織深度序化”,并成功申請2010年度國家社科基金項目“圖書館資源組織語義化研究”,全面研究了關(guān)聯(lián)數(shù)據(jù)的實現(xiàn)技術(shù),并進行了基本開發(fā)試驗。目前基于上述成果又開展了資源整合和服務整合的研究開發(fā),分別立項了“基于關(guān)聯(lián)數(shù)據(jù)的服務融合與資源擴展”和“基于DOI的科研資源整合研究”等項目,該所在十二五規(guī)劃中也打算基于關(guān)聯(lián)數(shù)據(jù)技術(shù),全面調(diào)研關(guān)聯(lián)數(shù)據(jù)在NSTL服務系統(tǒng)中的應用場景,探討利用該技術(shù)進行知識組織系統(tǒng)的構(gòu)建、知識關(guān)系抽取、海量文獻自動標引、檢索結(jié)果的擴展、異類資源整合檢索、多維分面信息資源的組織與檢索、數(shù)據(jù)融合與混搭等前沿領(lǐng)域應用的可能性。

7 問題與展望

關(guān)聯(lián)數(shù)據(jù)是一項與圖書情報工作密切相關(guān)的技術(shù),是互聯(lián)網(wǎng)發(fā)展到語義網(wǎng)時代、提供對任何網(wǎng)上資源和數(shù)字對象進行“編目”和“規(guī)范控制”的基礎(chǔ)性技術(shù),是數(shù)字圖書館進行信息資源發(fā)布和服務的核心技術(shù)之一??赡茑笥诩夹g(shù)障礙,我國圖書情報界還沒有充分認識到這一點,甚至還沒有引起一些大型的、肩負指引行業(yè)發(fā)展方向的機構(gòu)的充分重視,未能投入足夠的人力和資源進行跟蹤研究和開發(fā)試驗。目前僅有的一些研究由于缺乏必要的交流而很難達成一致理解,甚至無法避免謬誤和彎路。關(guān)聯(lián)數(shù)據(jù)從技術(shù)上看是非常簡單的,但要應用得好,必須要有領(lǐng)域?qū)<摇?nèi)容管理專家和網(wǎng)絡應用開發(fā)人員共同參與,仔細調(diào)研需求,同時需要對于標準規(guī)范有深刻的理解,在模型和架構(gòu)方面達成一致,即使可以邊摸索實踐邊服務推廣,也需要有一個基本的研究團隊和交流環(huán)境,這些是制約目前國內(nèi)關(guān)聯(lián)數(shù)據(jù)研發(fā)和應用的主要問題。希望通過本文的回顧、總結(jié)和呼吁,能夠使大家認識到關(guān)聯(lián)數(shù)據(jù)的價值、內(nèi)涵和意義,并引起一些相關(guān)機構(gòu)和專家的重視。

1 Jan Hannemann,Jürgen Kett.Linked Data and Libraries.[2011-01-18].http://www.ifla.org/files/hq/papers/ifla76/149-hannemann-en.pdf

2 Martin M almsten.將圖書館目錄納入語義萬維網(wǎng).李靜雯譯.現(xiàn)代圖書情報技術(shù),2009,3(3):2-8

3 Ed Summers,Antoine Isaac,Clay Redding,Dan K rech.LCSH,SKOS和關(guān)聯(lián)數(shù)據(jù).姚小樂、劉煒譯.現(xiàn)代圖書情報技術(shù),2009(3):8-14

4 黃永文.關(guān)聯(lián)數(shù)據(jù)在圖書館中的應用研究綜述.現(xiàn)代圖書情報技術(shù),2010(5):1-7

5 沈志宏,張曉林.關(guān)聯(lián)數(shù)據(jù)及其應用現(xiàn)狀綜述.現(xiàn)代圖書情報技術(shù),2010(11):1-9

6 黃永文.關(guān)聯(lián)數(shù)據(jù)驅(qū)動的Web應用研究.圖書館雜志,2010(7):55-59

7 李亞婷,曹潔,彭洋,鮑瑩.Web環(huán)境下關(guān)聯(lián)數(shù)據(jù)的應用.情報理論與實踐,2010(11):122-125

8 白海燕.關(guān)聯(lián)數(shù)據(jù)及DBpedia實例分析.現(xiàn)代圖書情報技術(shù),2010(3):33-39

9 白海燕,朱禮軍.關(guān)聯(lián)數(shù)據(jù)的自動關(guān)聯(lián)構(gòu)建研究.現(xiàn)代圖書情報技術(shù),2010,26(2):44-49

10 白海燕,喬曉東.基于本體和關(guān)聯(lián)數(shù)據(jù)的書目組織語義化研究.現(xiàn)代圖書情報技術(shù),2010.9.18-27

11 范煒,鄒慶.詞表資源關(guān)聯(lián)化.情報理論與實踐.2010(5):21-25

12 寧小敏.語義關(guān)聯(lián)數(shù)據(jù)模型及其檢索機制的研究[博士學位論文].武漢:華中科技大學,2008

13 婁秀明.用關(guān)聯(lián)數(shù)據(jù)技術(shù)實現(xiàn)網(wǎng)絡知識組織系統(tǒng)的研究[碩士論文].上海:華東師范大學,2010

Overview on Linked Data:Concept,Technology and Implementation

Liu Wei

The paper outlined the initiation of Linked Data,introduced its concept,implementation and current status of applications at home and abroad,and put emphasis on its deployment in library and information area.It also foresaw the impact on the library information services through the Web,and reviewed the related research and development in China.It concluded that,with the help of Linked data,it will be brought back the authority control to the Web at a certain level as bibliographical data and authority files in legacy library system transformed and uploaded onto the Web.Chinese librarianship has the responsibilities to catch up with the new achievement of the development of linked data technology.

Linked Data;Authority Control;Semantic Web;Bibliographic Record

上海圖書館,上海,200031

2011年2月8日

猜你喜歡
關(guān)聯(lián)語義圖書館
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
語言與語義
“一帶一路”遞進,關(guān)聯(lián)民生更緊
圖書館
奇趣搭配
智趣
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
去圖書館
語義分析與漢俄副名組合
名山县| 灌南县| 双桥区| 柳河县| 益阳市| 长寿区| 湖南省| 阜宁县| 易门县| 泗阳县| 新丰县| 紫云| 内乡县| 高台县| 吉林省| 瑞金市| 宜阳县| 福安市| 蒲江县| 汉川市| 建湖县| 德令哈市| 高平市| 定边县| 台前县| 景宁| 贡觉县| 武陟县| 萨迦县| 五寨县| 云浮市| 屯留县| 醴陵市| 凤城市| 远安县| 宝鸡市| 轮台县| 太保市| 西贡区| 扎赉特旗| 鹤岗市|