国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

傳統(tǒng)知識組織系統(tǒng)的關(guān)聯(lián)數(shù)據(jù)化發(fā)展*

2020-04-07 04:09:02賈君枝李衎
數(shù)字圖書館論壇 2020年3期
關(guān)鍵詞:詞表主題詞表分類法

賈君枝 李衎

知識組織與應(yīng)用

傳統(tǒng)知識組織系統(tǒng)的關(guān)聯(lián)數(shù)據(jù)化發(fā)展*

賈君枝1,2李衎1

(1. 山西大學(xué)經(jīng)濟(jì)與管理學(xué)院,太原 030006;2. 中國人民大學(xué)信息資源管理學(xué)院,北京 100872)

以受控詞表為核心的傳統(tǒng)知識組織系統(tǒng)在資源描述與表示中發(fā)揮著重要作用。本文在對大量研究文獻(xiàn)調(diào)查研究的基礎(chǔ)上,概述國內(nèi)外知識組織系統(tǒng)的關(guān)聯(lián)數(shù)據(jù)化發(fā)展研究情況,并通過對相關(guān)研究內(nèi)容的總結(jié)提煉,明確傳統(tǒng)知識組織系統(tǒng)語義化、關(guān)聯(lián)化的實施需經(jīng)過SKOS模型化、RDF序列化和關(guān)聯(lián)數(shù)據(jù)發(fā)布3個主要步驟,并對各部分進(jìn)行詳細(xì)描述,以期為其他傳統(tǒng)知識組織系統(tǒng)實現(xiàn)關(guān)聯(lián)數(shù)據(jù)化提供參考。此外,本文總結(jié)了傳統(tǒng)知識系統(tǒng)關(guān)聯(lián)化應(yīng)用主要體現(xiàn)在提高受控詞表的訪問量、有效地實現(xiàn)對數(shù)據(jù)集的描述表示,以及促進(jìn)數(shù)據(jù)集成實現(xiàn)。

知識組織系統(tǒng);關(guān)聯(lián)數(shù)據(jù);SKOS

數(shù)量龐大的數(shù)據(jù)資源由于缺乏形式化描述、缺少明確的模型和框架描述,而無法被有效利用和關(guān)聯(lián),致使這些人類生產(chǎn)的海量信息成為“信息孤島”。關(guān)聯(lián)數(shù)據(jù)的出現(xiàn),使得世界上數(shù)以萬計海量資源形式化、語義化、關(guān)聯(lián)化及共享化成為可能。關(guān)聯(lián)數(shù)據(jù)作為一種用來發(fā)布和聯(lián)接各類數(shù)據(jù)、信息和知識的規(guī)范,提供了機(jī)器可理解的表述方式,達(dá)到了消除歧義的效果,可以實現(xiàn)資源的真正共享,以其獨有的優(yōu)勢獲得了相關(guān)研究者的大量關(guān)注。自關(guān)聯(lián)數(shù)據(jù)提出以來,國內(nèi)外學(xué)者積極實踐,不僅將資源發(fā)布為關(guān)聯(lián)數(shù)據(jù),也先后將以受控詞表為核心的傳統(tǒng)知識組織系統(tǒng)發(fā)布為關(guān)聯(lián)數(shù)據(jù),旨在實現(xiàn)對資源的描述,并以此為核心實現(xiàn)多個關(guān)聯(lián)數(shù)據(jù)集之間的相互映射,達(dá)到知識資源融合、序化的效果。近年來關(guān)聯(lián)的開放數(shù)據(jù)呈幾何級飛速增長,截至2019年12月,關(guān)聯(lián)開放數(shù)據(jù)(Linked Open Data,LOD)云中使用簡單知識組織系統(tǒng)(Simple Knowledge Organization System,SKOS)描述的數(shù)據(jù)集達(dá)152個[1],在關(guān)聯(lián)開放詞表(Linked Open Vocabularies,LOV)中與SKOS關(guān)聯(lián)的詞匯表達(dá)264個[2]。

本文在對國內(nèi)外各類型受控詞表研究成果及實踐調(diào)查的基礎(chǔ)上,梳理從受控詞表到關(guān)聯(lián)數(shù)據(jù)的語義遷移路徑,分析受控詞表的關(guān)聯(lián)數(shù)據(jù)實現(xiàn)步驟,對其在網(wǎng)絡(luò)環(huán)境下應(yīng)用進(jìn)行系統(tǒng)分析。

1 傳統(tǒng)知識組織系統(tǒng)關(guān)聯(lián)數(shù)據(jù)化研究進(jìn)展

傳統(tǒng)知識組織系統(tǒng)旨在清晰地揭示知識的含義,充分表達(dá)知識系統(tǒng)之間的語義關(guān)系,為信息組織和檢索提供科學(xué)有效的途徑。各種知識組織系統(tǒng)從卡片式、書本式向機(jī)讀化轉(zhuǎn)變,但由于格式所限,各個詞表之間無法互相兼容,不能被萬維網(wǎng)所通用。關(guān)聯(lián)數(shù)據(jù)技術(shù)可實現(xiàn)對知識資源的立體化組織,方便用戶檢索利用、機(jī)器理解與共享,因此將傳統(tǒng)知識組織系統(tǒng)發(fā)布為關(guān)聯(lián)數(shù)據(jù)并建立互聯(lián)是傳統(tǒng)知識組織系統(tǒng)在語義網(wǎng)環(huán)境下的必然發(fā)展趨勢和要求。語義網(wǎng)環(huán)境下知識組織系統(tǒng)關(guān)聯(lián)化改造的關(guān)鍵是使用計算機(jī)可以理解的語言,形式化表示其結(jié)構(gòu)特征和內(nèi)容特征,構(gòu)建概念模型和語義關(guān)系,因此選擇合適的資源描述語言非常重要。針對受控詞表語義化描述,W3C提出的SKOS描述作為表示知識組織系統(tǒng)的標(biāo)準(zhǔn)規(guī)范,可將敘詞表、分類表、標(biāo)題表等各種傳統(tǒng)的知識組織系統(tǒng)以RDF方式描述,使之具有“機(jī)器可讀”能力,為語義網(wǎng)環(huán)境下的知識組織提供描述和轉(zhuǎn)化機(jī)制,解決數(shù)據(jù)資源間的語義互操作問題。SKOS發(fā)布以來,研究人員從不同角度開展了敘詞表、分類法、主題詞表等的SKOS轉(zhuǎn)化研究,促進(jìn)了敘詞表的進(jìn)一步利用和發(fā)展。綜合來看,相關(guān)的研究主要集中在對詞表轉(zhuǎn)換規(guī)則和轉(zhuǎn)換方法的理論研究、實踐及關(guān)聯(lián)發(fā)布3個方面。

1.1 轉(zhuǎn)換規(guī)則和轉(zhuǎn)換方法研究

這類研究視角較多存在于早期的相關(guān)研究中。國外學(xué)者Harper[3]探討運(yùn)用XSLT(Xtensible Stylesheet Language Trans-formations)對《美國國會圖書館標(biāo)題表》()的特點進(jìn)行深入分析,并完成SKOS描述;歐洲語義網(wǎng)高級開發(fā)項目推出了GEMET的SKOS格式[4],Assem等[5]《公共部門主題詞表》()、《荷蘭視聽檔案通用詞匯表》()及《醫(yī)學(xué)主題詞表》()敘詞表為例,討論了從敘詞表到SKOS的轉(zhuǎn)換方法。國內(nèi)學(xué)者范煒[6]對所選詞表中的Librarianship類進(jìn)行了SKOS化描述,對敘詞語義關(guān)系可視化表示以及網(wǎng)頁進(jìn)行主題標(biāo)引;賈君枝[7]對《漢語主題詞表》的部分?jǐn)⒃~及其關(guān)系用SKOS Core進(jìn)行了轉(zhuǎn)換描述;曾新紅[8]以SKOS Core為基礎(chǔ),以實現(xiàn)中文敘詞表和分類法等傳統(tǒng)受控詞表的全描述為目標(biāo),針對現(xiàn)有中文詞匯表中SKOS能夠描述的部分,研究制定了用SKOS描述的具體規(guī)范;段榮婷[9]以《中國檔案主題詞表》的語義置標(biāo)為例,詳細(xì)闡述了SKOS系統(tǒng)化與規(guī)范化控制的具體實現(xiàn);張士男等[10]論述了《科圖法》的SKOS化描述的技術(shù)方法;喻菲[11]提出了《中國分類主題詞表》“主題詞-分類法對應(yīng)表”部分的“主題詞規(guī)范數(shù)據(jù)格式”與SKOS詞匯的大致對應(yīng)關(guān)系;白華[12]以《中國圖書館分類法》為例,以SKOS語言為工具,探討了如何建構(gòu)分類本體,并研究如何描述分類本體中的復(fù)雜關(guān)系,為中文分類法建立一個輕量級本體奠定了方法基礎(chǔ);施國良[13]針對分面分類的特性、功能和優(yōu)勢,對SKOS的原有核心進(jìn)行擴(kuò)展,嘗試做出一個實例模型使其能夠表征分面分類表的結(jié)構(gòu)和標(biāo)引方法。

1.2 特定詞表的轉(zhuǎn)換實踐研究

學(xué)者針對特定詞表的轉(zhuǎn)換實踐也開展了相關(guān)研究。Assem等[5]提出了一種基于SKOS的敘詞表轉(zhuǎn)換RDF/OWL模式的方法,且將這種轉(zhuǎn)換方法應(yīng)用于、和,并通過案例研究評估了轉(zhuǎn)換方法和對SKOS敘詞表的適用性,其帶動了大量敘詞表轉(zhuǎn)換成果的出現(xiàn),如《德國經(jīng)濟(jì)學(xué)敘詞表》()、、《藝術(shù)與建筑敘詞表》()、《多語種農(nóng)業(yè)敘詞表》()、《通用多語種環(huán)境敘詞表》()、《美國農(nóng)業(yè)圖書館敘詞表》()、《歐洲聯(lián)盟多語種敘詞表》()等。其中,Harper[3]和Summers等[14]以為研究對象,分別進(jìn)行了MARC格式的到SKOS的轉(zhuǎn)換實驗;Morshed等[15]將進(jìn)行了SKOS轉(zhuǎn)化實驗;Smedt[16]針對進(jìn)行了SKOS轉(zhuǎn)化實驗。劉麗斌等[17]利用Java語言寫入SKOS描述,將《中國分類主題詞表》SKOS化;劉春艷等[18]應(yīng)用 SKOS Core詞匯表完成《英國檔案敘詞表》()節(jié)選段落到本體的轉(zhuǎn)換;劉華梅[19]對《中國分類主題詞表》主題詞進(jìn)行了SKOS化描述及自動轉(zhuǎn)換研究,提出了主題詞從MARC格式到SKOS格式的轉(zhuǎn)換方案;楊雪莉[20]以《中國圖書館分類法》為例,采用SKOS方法構(gòu)建分類法的本體模型;賈君枝等[21]討論《漢語主題詞表》的SKOS轉(zhuǎn)換過程,明確了從數(shù)據(jù)庫向SKOS語言表示的自動轉(zhuǎn)換思路,并且編寫Java代碼實現(xiàn)了該轉(zhuǎn)換功能。

1.3 關(guān)聯(lián)數(shù)據(jù)發(fā)布研究

關(guān)聯(lián)數(shù)據(jù)發(fā)布方面,許多圖書館機(jī)構(gòu)將自己的書目數(shù)據(jù)轉(zhuǎn)換成關(guān)聯(lián)數(shù)據(jù)發(fā)布,如瑞典皇家圖書館將書目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)并提供了與DBPedia的連結(jié)。書目數(shù)據(jù)的發(fā)布帶動了知識組織系統(tǒng)的關(guān)聯(lián)數(shù)據(jù)實現(xiàn)?!抖磐M(jìn)分類法》()進(jìn)行SKOS語義化描述,并在2009年將其前3級類目發(fā)布成為關(guān)聯(lián)數(shù)據(jù)形式。美國國會圖書館將《美國國會圖書館分類法》()在2012年以SKOS形式發(fā)布為關(guān)聯(lián)數(shù)據(jù)。此外,各種敘詞表、主題詞表也陸續(xù)被國外研究人員發(fā)布為關(guān)聯(lián)數(shù)據(jù),圖書館關(guān)聯(lián)數(shù)據(jù)孵化小組(Library Linked Data Incubator Group)的報告顯示,主題詞表方面有、《法國國立圖書館主題詞表》()、《德國國立圖書館受控詞表》()、《日本國立國會圖書館主題詞表》();敘詞表方面有、、、《圖形材料敘詞表》()、《地球環(huán)境敘詞表》()等。其中Neubert[22]和Albertoni等[23]分別利用SKOS來描述和,并對SKOS數(shù)據(jù)集進(jìn)行了關(guān)聯(lián)發(fā)布,實現(xiàn)了與其他外部資源(如DBpedia)的映射連接。Morshed等[24]對不同領(lǐng)域敘詞表間的自動匹配方法進(jìn)行比較評估,通過skos:exactMatch和skos:closeMatch術(shù)語精確匹配,實現(xiàn)與的映射。北卡羅來納州立大學(xué)和NESCent共同開發(fā)的跨學(xué)科詞匯輔助工程(HIVE),可以基于SKOS格式的受控詞表集合動態(tài)地集成和吸取跨學(xué)科的主題詞匯,創(chuàng)建自動化的元數(shù)據(jù)描述方式,實現(xiàn)術(shù)語系統(tǒng)之間的交互[25]。歐石燕[26]以《漢語主題詞表》為例,將其進(jìn)行了SKOS轉(zhuǎn)化實驗,利用Jena、Fuseki、Pubby的組合,將SKOS/RDF的詞表數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù);周峰[27]選取《地質(zhì)學(xué)漢語敘詞表》,設(shè)計了敘詞表的SKOS映射關(guān)系,將其轉(zhuǎn)換為RDF數(shù)據(jù),最后利用Jena和Pubby實現(xiàn)了關(guān)聯(lián)數(shù)據(jù)的發(fā)布;賈君枝等[28]以為例,探討了關(guān)聯(lián)數(shù)據(jù)從SKOS化到關(guān)聯(lián)發(fā)布的具體實現(xiàn);鮮國建等[29]基于SKOS及SKOS-XL規(guī)范和模型,將《農(nóng)業(yè)科學(xué)敘詞表》()中的敘詞及詞間語義關(guān)系進(jìn)行規(guī)范表達(dá)和關(guān)聯(lián)描述,成功轉(zhuǎn)化為CAT/SKOS,并與AGROVOC、等知識組織體系在概念實例層面建立語義關(guān)聯(lián),用Virtuoso構(gòu)建了關(guān)聯(lián)數(shù)據(jù)發(fā)布系統(tǒng);黃華軍等[30]以《中國圖書館分類法》(第四版)為例,采用CNKOS對分類法進(jìn)行語義化描述,使用Lucene全文檢索引擎、ExtJs插件、Axis SOAP引擎等關(guān)鍵技術(shù)實現(xiàn)了分類法共享服務(wù)(CLSS)原型系統(tǒng),發(fā)布了《中國分類主題詞表》的關(guān)聯(lián)數(shù)據(jù)服務(wù)。

LOD數(shù)據(jù)云中出版類數(shù)據(jù)集(目前包含150個數(shù)據(jù)集)中包含許多已經(jīng)發(fā)布為關(guān)聯(lián)數(shù)據(jù)的知識組織系統(tǒng),可將其歸為知識組織工具數(shù)據(jù)集類,其中包括敘詞表、分類表、元數(shù)據(jù)、規(guī)范文檔等知識組織工具,知識組織工具實現(xiàn)關(guān)聯(lián)發(fā)布的有30個(占比20%),使用SKOS描述的分類表和敘詞表有12個(占比8%),可看出敘詞表的數(shù)量遠(yuǎn)超過了分類表的數(shù)量,原因在于與敘詞表通過使用參照系統(tǒng)和索引系統(tǒng)揭示知識關(guān)聯(lián)不同,分類法主要通過隸屬、并列和設(shè)置交替類目、多重列類、類目參照等方式揭示知識關(guān)聯(lián),類目體系與敘詞表相比更加明確清晰和嚴(yán)格[31],因此在SKOS模型化過程中更容易受到“語義折扣化”影響,轉(zhuǎn)換過程通常會受到其本身結(jié)構(gòu)的影響而無法使分類法語義完整表達(dá),阻礙了分類表關(guān)聯(lián)化的進(jìn)程。與此同時,眾多已經(jīng)SKOS模型化和關(guān)聯(lián)發(fā)布的傳統(tǒng)知識組織系統(tǒng)并未在LOD平臺進(jìn)行發(fā)布,且沒有中文傳統(tǒng)知識組織系統(tǒng)發(fā)布,說明目前傳統(tǒng)知識組織系統(tǒng)關(guān)聯(lián)化水平依舊有待進(jìn)一步提高。

2 傳統(tǒng)知識組織系統(tǒng)關(guān)聯(lián)化的具體實現(xiàn)

通過對國內(nèi)相關(guān)文獻(xiàn)的分析,知識組織系統(tǒng)關(guān)聯(lián)化步驟基本分為三步(見圖1)。第一步為SKOS模型化,利用SKOS提供的一整套概念體系,包括概念、語義關(guān)系描述、注釋、映射關(guān)系等標(biāo)簽,表示傳統(tǒng)知識組織系統(tǒng)中的語義元素和概念體系。由于關(guān)聯(lián)數(shù)據(jù)要以RDF格式編碼和關(guān)聯(lián),SKOS核心詞表是RDF的應(yīng)用,可以比較完備地將傳統(tǒng)KOS的內(nèi)容結(jié)構(gòu)RDF序列化,為實現(xiàn)關(guān)聯(lián)化提供必要的基礎(chǔ)。第二步為RDF關(guān)聯(lián)化,包含URI命名、關(guān)聯(lián)數(shù)據(jù)鏈接和RDF表示,即先給傳統(tǒng)知識組織系統(tǒng)中的每個概念進(jìn)行唯一URI標(biāo)識,用RDF語言來描述實體間的關(guān)系。RDF語言通過引用命名空間中的屬性來對數(shù)據(jù)進(jìn)行語義描述,以實現(xiàn)數(shù)據(jù)的互聯(lián),以RDF三元組的形式清晰地表示知識組織系統(tǒng)的等級關(guān)系。第三步為關(guān)聯(lián)數(shù)據(jù)發(fā)布,包含外部關(guān)聯(lián)、建立SPARQL查詢、注冊有關(guān)平臺等。

2.1 SKOS模型化

SKOS為傳統(tǒng)知識組織系統(tǒng)(如敘詞表、分類法、主題詞表、術(shù)語表等)提供了一套語義環(huán)境下簡單靈活、機(jī)器可讀的描述和轉(zhuǎn)換機(jī)制,使敘詞表之間、敘詞表與本體之間的共享成為可能。W3C的SKOS數(shù)據(jù)模型提供了用于表達(dá)概念基本結(jié)構(gòu)和內(nèi)容的規(guī)范化標(biāo)準(zhǔn)。辭典、主題詞表和分類法等通過SKOS規(guī)范中定義的類和屬性表示為RDF模型圖,從而與語義網(wǎng)技術(shù)兼容。盡管語義更豐富的RDFS/OWL本體可以執(zhí)行更廣泛的邏輯推理功能,但在一般情況下,SKOS格式的敘詞表足以滿足日常需求[32]。然而,知識組織系統(tǒng)中包含大量復(fù)雜的語義信息,如組配概念、主題索引、非正式主題詞之間的映射、術(shù)語元數(shù)據(jù)(創(chuàng)建時間、最后修改日期、版本等)等[33],難以用SKOS直接描述,除使用SKOS-XL外,針對無法滿足需求的解決辦法主要有:自定義SKOS標(biāo)簽;將SKOS與RDF、OWL等其他建模原語結(jié)合。

傳統(tǒng)知識組織系統(tǒng)的SKOS化基本分為4個步驟。①確定概念體系,利用SKOS核心詞匯表完整地表達(dá)出知識組織系統(tǒng)的概念體系。每個知識組織系統(tǒng)都可以看作一個概念框架,即知識組織系統(tǒng)內(nèi)所有概念及概念之間的語義關(guān)系的集合,一個概念框架下可以有多個頂級概念,采用skos:ConceptScheme表示。因此,通過skos:ConceptScheme和skos:has-TopConcept對整個知識組織體系進(jìn)行概括說明,對每個概念通過skos:inScheme聲明其所屬關(guān)系。②定義概念,提取知識組織系統(tǒng)的概念、定義、注釋、標(biāo)簽等關(guān)鍵項,利用SKOS中的類和屬性標(biāo)簽分別對其進(jìn)行語義描述。每個概念均可用skos:Concept來進(jìn)行標(biāo)注。skos:preflabel用于描述正式的概念名稱,skos:altLabel是用于說明概念類的交替詞匯標(biāo)簽,當(dāng)使用多個詞匯標(biāo)簽表示同一概念時,可采用此詞匯標(biāo)簽。分別用skos:snopeNote和skos:notation對應(yīng)于敘詞的注釋和所屬范疇號。③描述概念間關(guān)系,SKOS定義了相應(yīng)的屬性標(biāo)簽來描述概念之間的語義關(guān)系,skos:broader和skos:narrower僅用來表示概念與其直接上下位概念的鏈接關(guān)系,不具有傳遞性。但為了兼容各方需求,SKOS又定義了兩個具有傳遞性的屬性(skos:broaderTransitive和skos:narrowerTransitive)來表示任意級別的上下位鏈接關(guān)系,這兩個屬性不能用作斷言聲明,僅用于推理或查詢擴(kuò)展等應(yīng)用。skos:related用來聲明具有關(guān)聯(lián)但又不是層級關(guān)系的類目的描述相關(guān)關(guān)系等[34],其具有對稱性,但不遺傳給其子關(guān)系,且SKOS較為松散,允許skos:related等屬性具有自反性(概念與其自身之間的關(guān)系)。

2.2 RDF關(guān)聯(lián)化

2.2.1 URI命名

關(guān)聯(lián)數(shù)據(jù)是通過URI識別實體的,明確實體之后,要對實體進(jìn)行URI命名。通過URI定位,能夠識別知識組織系統(tǒng)中的所有實體。傳統(tǒng)的知識組織系統(tǒng)是基于語詞的概念表達(dá)和組織的符號系統(tǒng),每一個款項單元都是一個語詞,而SKOS的建模方法是通過SKOS規(guī)范中定義的類和屬性表示為RDF模型圖,從而與語義網(wǎng)技術(shù)兼容。將傳統(tǒng)的知識組織系統(tǒng)轉(zhuǎn)換成機(jī)器可理解的形式時,要在模型上進(jìn)行修改,每個款項不再是一個語詞,而是一個概念,有其唯一的URI。網(wǎng)絡(luò)中的任何事物通過數(shù)據(jù)源的URI名稱都是可辨別的,為知識組織系統(tǒng)的每個概念分配唯一的URI標(biāo)識,便于之后進(jìn)行RDF數(shù)據(jù)互聯(lián),是知識組織系統(tǒng)關(guān)聯(lián)化至關(guān)重要的基礎(chǔ)。SKOS中的URI識別機(jī)制解決了概念歧義的問題。通過機(jī)器分配給每個實體特定的URI,除需自動定義詞表中擴(kuò)展詞匯的命名域外,所采用的 SKOS/RDF/RDFS/OWL詞匯使用其原有的命名域及縮寫(見表2)。

針對詞表的URI命名,首先以自定義命名域為基本地址,該地址即為該關(guān)聯(lián)數(shù)據(jù)的發(fā)布平臺。URI要求滿足唯一性,鑒于詞表中類號唯一的特點,采用分類號或敘詞名作為URI內(nèi)容。

2.2.2 RDF表示

經(jīng)過URI命名和SKOS模型化之后,便可以運(yùn)用RDF語言來描述實體間的關(guān)系。類及類間關(guān)系的RDF描述是整個RDF描述的主體,RDF多種詞匯表可以用來描述資源之間的關(guān)系。語義化詞表的關(guān)聯(lián)數(shù)據(jù)發(fā)布也可基于SKOS語言,其能夠把敘詞表內(nèi)容轉(zhuǎn)換為機(jī)器可讀可理解的RDF三元組格式,并且對不同詞表提供統(tǒng)一的語義互操作,而且能夠?qū)⒃~表數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)形式在網(wǎng)絡(luò)上發(fā)布并與其他資源(如語義化書目元數(shù)據(jù))建立關(guān)聯(lián)關(guān)系。

該過程分為兩部分,一是利用SKOS術(shù)語表示受控詞表之間的映射關(guān)系,二是將SKOS轉(zhuǎn)化為RDF描述。兩個詞表之間的映射關(guān)系可以分為等同、等級及相關(guān)3種關(guān)系,分別有SKOS語義關(guān)系標(biāo)簽定義這些關(guān)系,如skos:broadMatch、skos:narrowMatch表示兩個資源或知識組織系統(tǒng)之間具有上下位匹配關(guān)系,skos:exactMatch、skos:closeMatch表明具有精確或近似匹配關(guān)系,skos:relatedMatch表明具有相關(guān)關(guān)系,依此表示不同詞表的兩個概念之間的對應(yīng)關(guān)系。SKOS是簡單的結(jié)構(gòu)化語言,將各部分內(nèi)容與SKOS詞表的標(biāo)簽一一對應(yīng),寫入相應(yīng)標(biāo)簽,利用程序來對其進(jìn)行詞表向SKOS的自動轉(zhuǎn)化,形成RDF格式的文檔。此階段還要進(jìn)行數(shù)據(jù)SKOS語義化描述的質(zhì)量管理。在對傳統(tǒng)知識組織系統(tǒng)進(jìn)行SKOS轉(zhuǎn)化過程中,難免會出現(xiàn)語法、字符、編碼等格式問題,從而造成不能夠滿足SKOS的基本語法規(guī)定。因此,需要質(zhì)量管理來確保知識組織系統(tǒng)語義轉(zhuǎn)化的準(zhǔn)確性。qSKOS是基于Java的SKOS文件質(zhì)量檢測工具,支持對SKOS中的卷標(biāo)和文件、結(jié)構(gòu)、關(guān)聯(lián)數(shù)據(jù)、SKOS等4個方面的一致性檢驗,包括“語言卷標(biāo)遺漏或無效”“鏈接缺失”“壞連結(jié)”“資源未定義”等具體問題,進(jìn)行質(zhì)量驗證和錯誤糾正以后,可為關(guān)聯(lián)數(shù)據(jù)發(fā)布奠定一定的基礎(chǔ)[34]。

以《中國分類主題詞表》主題詞“魯迅”為例(見圖2),將其各部分SKOS模型化之后,對敘詞的屬性進(jìn)行映射,用關(guān)系標(biāo)簽進(jìn)行標(biāo)注,使得概念之間通過等同關(guān)系、等級關(guān)系以及相關(guān)關(guān)系相互連接起來,并形成SKOS形式的RDF文檔,將詞表各部分通過這種方式構(gòu)成一個完整的語義網(wǎng)絡(luò)。

2.3 關(guān)聯(lián)數(shù)據(jù)發(fā)布

關(guān)聯(lián)數(shù)據(jù)有利于在數(shù)據(jù)網(wǎng)絡(luò)環(huán)境中的資源導(dǎo)航,提高資源可獲取性,通過與更大的數(shù)據(jù)集建立鏈接,可以促進(jìn)相關(guān)知識的發(fā)現(xiàn)。將知識組織系統(tǒng)發(fā)布為關(guān)聯(lián)數(shù)據(jù),不僅提供概念體系的可視化瀏覽,還提供SPARQL端點供用戶下載數(shù)據(jù),以較好地崁入外部應(yīng)用。作為RDF數(shù)據(jù)集的一種類型,各類RDF數(shù)據(jù)集的關(guān)聯(lián)發(fā)布方法均適用于詞表。從關(guān)系數(shù)據(jù)庫的輸出角度來看,包括文本、數(shù)據(jù)庫及RDF文件(包括rdf/xml、owl、skos等)。目前已有多種關(guān)聯(lián)數(shù)據(jù)發(fā)布工具被開發(fā)出來,這些工具均支持URI到RDF描述的逆向引用,其中一些工具還為數(shù)據(jù)集提供SPARQL訪問并支持RDF集的發(fā)布。這些工具包括D2R Server服務(wù)器、OpenLink Virtuoso、Virtuoso RDF視圖、Tail Platform、Vapour、Pubby、Triplify、SparqPlug、OAI2LOD Server、SIOC Exporters等,其中D2R Server用于將關(guān)系型數(shù)據(jù)庫轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù),Virtuoso Universal Server提供RDF模式的關(guān)聯(lián)數(shù)據(jù)的存儲與檢索服務(wù),這些數(shù)據(jù)可以直接存儲到Virtuoso服務(wù)器中,也可以存儲到關(guān)系型數(shù)據(jù)庫中,然后映射為關(guān)聯(lián)數(shù)據(jù)。成熟的SKOS詞表關(guān)聯(lián)數(shù)據(jù)檢索系統(tǒng)Skosmos由芬蘭國家圖書館負(fù)責(zé)開發(fā),能完成RDF資料訪問和SPARQL檢索,目前已經(jīng)被用于包括、、、等在內(nèi)的13種通用或者專業(yè)敘詞表的SKOS檢索服務(wù),實現(xiàn)詞表知識概念的中英文瀏覽、查詢和檢索、可視化等應(yīng)用服務(wù)。

目前所提供的關(guān)聯(lián)數(shù)據(jù)服務(wù)平臺主要有3種類型。詞表提供者服務(wù)平臺,如美國國會圖書館關(guān)聯(lián)數(shù)據(jù)服務(wù)、MESH關(guān)聯(lián)數(shù)據(jù)服務(wù)、Getty LOD Vocab服務(wù);AAT、TGN、ULAN、垂直領(lǐng)域詞表服務(wù)平臺,如VIAF、文化遺產(chǎn)關(guān)聯(lián)數(shù)據(jù)詞表、斯坦福大學(xué)計算機(jī)及生物醫(yī)學(xué)信息研究所的生物醫(yī)學(xué)本體;詞表注冊服務(wù)平臺,如LOV。

3 傳統(tǒng)知識組織系統(tǒng)關(guān)聯(lián)數(shù)據(jù)化應(yīng)用發(fā)展

傳統(tǒng)知識組織系統(tǒng)關(guān)聯(lián)應(yīng)用發(fā)展可概括為:提高受控詞表的訪問量,提供對數(shù)據(jù)集的描述表示,促進(jìn)數(shù)據(jù)集成實現(xiàn)。

3.1 提高受控詞表訪問量

傳統(tǒng)知識組織系統(tǒng)發(fā)布為關(guān)聯(lián)數(shù)據(jù)之后,通過自身數(shù)據(jù)的開放與外部數(shù)據(jù)的互聯(lián),增加了對受控詞表的訪問入口,服務(wù)對象由原來的機(jī)構(gòu)內(nèi)部擴(kuò)展至網(wǎng)絡(luò)全體用戶,擴(kuò)大了用戶對詞表的訪問量,可以被越來越多的資源所應(yīng)用,方便用戶使用,促進(jìn)了知識組織系統(tǒng)的共享,未來可產(chǎn)生更多價值。目前有多個傳統(tǒng)知識組織系統(tǒng)發(fā)布了自己的瀏覽器,如MeSH Browser、STW Browse、AAT Brower等;也有美國國會圖書館在其網(wǎng)頁發(fā)布了ID.LOC.GOV關(guān)聯(lián)數(shù)據(jù)服務(wù)平臺,將LCSH、LCC、LCMPT、TGM等多個知識組織系統(tǒng)進(jìn)行集成,方便常用本體、受控詞匯表和其他書目描述列表的交互式和機(jī)器訪問。將知識組織系統(tǒng)與大規(guī)模百科數(shù)據(jù)庫如Wikidata等建立互聯(lián),擴(kuò)展了知識組織系統(tǒng)的訪問入口,可以提高詞表數(shù)據(jù)的開放性、可獲取性和可視化。

3.2 提供對數(shù)據(jù)集的描述表示

數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù)的集合,數(shù)據(jù)集中的每一個資源由一個實體元素(如類或?qū)傩裕┖驮撛氐囊粋€“值”組成。使用的元素通常從元數(shù)據(jù)元素集中的詞表進(jìn)行選擇,這些詞表重點在于為數(shù)據(jù)集提供類和屬性,如(都柏林核心元數(shù)據(jù))詞表、詞表等。元素的“值”取自值詞匯表,值詞匯表定義了用作元數(shù)據(jù)記錄中元素值的資源(如主題實例、藝術(shù)風(fēng)格或作者)。值詞匯表包括敘詞表、分類法、規(guī)范文檔、人名地名錄等類型的知識組織系統(tǒng)。因此,知識組織系統(tǒng)可以作為值詞匯表來提供對數(shù)據(jù)集的描述表示,可以填充數(shù)據(jù)集元數(shù)據(jù)記錄的“構(gòu)建塊”,許多數(shù)據(jù)集要求用特定的值詞匯表來作為特定的元數(shù)據(jù)元素選擇值,因此,值詞匯表代表一個元素允許值的“受控列表”,定義了文學(xué)作品的主題,如旅行等;《藝術(shù)和建筑詞典》()定義了作品的藝術(shù)風(fēng)格,如印象派等;虛擬名稱規(guī)范檔()定義了規(guī)范名稱,如馬克?吐溫等。通過共享詞表術(shù)語可以促進(jìn)詞表重用,一定程度上可以提高數(shù)據(jù)集之間的互操作能力,避免表述的歧義和沖突,提升數(shù)據(jù)集的質(zhì)量,促進(jìn)了知識組織系統(tǒng)的再利用,促進(jìn)了知識共享,為進(jìn)一步的應(yīng)用發(fā)展提供了廣泛空間。

3.3 促進(jìn)數(shù)據(jù)集成實現(xiàn)

知識組織系統(tǒng)關(guān)聯(lián)數(shù)據(jù)化可以促進(jìn)數(shù)據(jù)集成實現(xiàn),在此背景下,大規(guī)模的基于云平臺的數(shù)字資源整合項目如Europeana、Hathitrust、SaaS、LoCloud等發(fā)布使用。這些平臺要求提供者使用一個統(tǒng)一的元數(shù)據(jù)數(shù)據(jù)模型來描述數(shù)字資源,并且為了將對象集合與外部資源(如維基百科)之間和上下文信息之間建立鏈接,通過使用相似概念或相同的知識組織系統(tǒng)來促進(jìn)數(shù)據(jù)重用和數(shù)據(jù)共享。以Europeana為例,歐盟數(shù)字圖書館云平臺是歐盟圖書館開展的一個合作項目,整合了歐洲的博物館、圖書館與檔案館的文化遺產(chǎn)數(shù)據(jù),目前已獲得來自超過2?300個機(jī)構(gòu)的超過3?000萬的數(shù)字化對象,并允許第三方利用其匯集的數(shù)據(jù)開發(fā)工具和服務(wù),該平臺都采用RDF數(shù)據(jù)格式描述數(shù)據(jù)資源,將對象描述鏈接到知識組織系統(tǒng)的核心詞匯表,當(dāng)描述對象和其他數(shù)據(jù)資源相關(guān)時,通過資源間建立鏈接來獲得更多的相關(guān)數(shù)據(jù),并將多個知識組織系統(tǒng)鏈接起來豐富了對象描述元數(shù)據(jù),用知識組織系統(tǒng)術(shù)語來豐富了上下文信息,采用適當(dāng)?shù)乃阉鳈C(jī)制(如語義搜索)利用對象描述和上下文數(shù)據(jù),使用戶能夠檢索出需求匹配程度更高的對象,提高檢索效率,擴(kuò)大知識共享范圍,目前在Europeana平臺中使用的知識組織系統(tǒng)有VIAF、Geonames、TGN、AAT、DDC、UDC、ULAN等。

4 總結(jié)

傳統(tǒng)知識組織系統(tǒng)仍是信息組織和服務(wù)的基礎(chǔ),其通過與各種類型信息資源之間建立關(guān)聯(lián),達(dá)到對信息資源的集成管理、深度挖掘和高效利用,對于更好地建立信息資源索引、瀏覽和展示信息資源等方面將具有重要的作用。知識組織系統(tǒng)的關(guān)聯(lián)化可以用于資源發(fā)現(xiàn)、詞表的構(gòu)建與維護(hù)(重用)及自動標(biāo)引等知識組織處理過程中,所形成的詞表網(wǎng)絡(luò),可以有效地提高詞表的價值。傳統(tǒng)知識組織系統(tǒng)SKOS化,使其成為用于定義數(shù)據(jù)描述的潛在語義結(jié)構(gòu),作為值詞表或?qū)傩栽~表,為數(shù)據(jù)集描述提供屬性、屬性值取值來源,作為語義知識地圖,方便人或機(jī)器瀏覽領(lǐng)域內(nèi)知識體系。SKOS的一致性與良好兼容性為其實現(xiàn)提供了有利條件。通過在不同知識組織系統(tǒng)之間建立明確的對應(yīng)關(guān)系,從而提高了互訪效率,有助于實現(xiàn)跨庫、跨機(jī)構(gòu)的檢索,從而滿足用戶一站式瀏覽和檢索信息的需求。目前已有成熟的理論與方法支持受控詞表的關(guān)聯(lián)數(shù)據(jù)化,但是就當(dāng)前應(yīng)用看,如何充分利用以關(guān)聯(lián)數(shù)據(jù)表達(dá)的知識組織系統(tǒng)資源,還需進(jìn)一步在理論與實踐上深入探討。

[1] Planet Data. State of the LOD Cloud 2019[EB/OL].[2019-12-01]. http:// linkeddatacatalog.dws.informatik.uni-mannheim.de/state/.

[2] VANDENBUSSCHE P Y. Linked open vocabularies[EB/OL].[2019-12-01]. http://lov.Okfn.org/ dataset/lov/details/vocabulary skos.html.

[3] HARPER C A. Encoding library of congress subject headings in SKOS:authority control for the semantic web[C]//Proceedings of the 2006 International Conference on Dublin Core and Metadata Applications:Meadata for Knowledge and Learning.Dublin Core Metadata Initiative. 2006:89-94.

[4] SWAD-Europe Thesaurus Activity. RDF thesaurus prototype[EB/OL].[2020-03-20]. http://www.w3.org/2001/sw/Eu-rope/reports/thes/8.7.

[5] ASSEM M V,VéRONIGUE M,MILES A,et al. A method to convert thesauri to SKOS[EB/OL].[2020-02-01]. http://link. springer.c om/ehapter/10.1007/ 978-3-540-30475-3_3.

[6] 范煒. 語義網(wǎng)環(huán)境中的敘詞表實例研究——利用SKOS構(gòu)造機(jī)器可理解的知識組織體系[J]. 情報科學(xué),2006(7):1073-1077.

[7] 賈君枝. 簡單知識組織系統(tǒng)與漢語主題詞表[J]. 中國圖書館學(xué)報,2008(1):75-78,84.

[8] 曾新紅. 中文知識組織系統(tǒng)形式化語義描述標(biāo)準(zhǔn)體系研究(一)——擴(kuò)展SKOS實現(xiàn)傳統(tǒng)受控詞表全描述[J]. 中國圖書館學(xué)報,2012,38(3):57-68.

[9] 段榮婷. 基于簡約知識組織系統(tǒng)的主題詞表語義網(wǎng)絡(luò)化研究——以《中國檔案主題詞表》為例[J]. 中國圖書館學(xué)報,2011,37(3):54-65.

[10] 張士男,宋文. 《科圖法》SKOS描述方案設(shè)計[J]. 現(xiàn)代圖書情報技術(shù),2010(6):7-11.

[11] 喻菲. 《中國分類主題詞表》網(wǎng)絡(luò)化研究:從MARC到SKOS[C]//網(wǎng)絡(luò)環(huán)境下信息組織的創(chuàng)新與發(fā)展:全國第五次情報檢索語言發(fā)展方向研討會論文集. 北京:國家圖書館出版社,2009:139-147.

[12] 白華. 基于SKOS方法的分類法本體描述研究[J]. 圖書情報工作,2012,56(1):120-124,147.

[13] 施國良.基于分面分類應(yīng)用的SKOS擴(kuò)展模型[J]. 圖書情報工作,2009,53(10):95-97.

[14] SUMMERS E,ISAAC A,REDDING C,et al. LCSH,SKOS和關(guān)聯(lián)數(shù)據(jù)[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2009,3(3):8-14.

[15] MORSHED A,KEIZER J,JOHANNSEN G,et al. From AGROVOCOWL Model towards AGROVOC SKOS Model[EB/OL].[2019-07-10]. http://www.fao.org/docrep/012/al300e/al300e00.pdf.

[16] SMEDT J D. SKOS extensions for the EUROVOC thesaurus[EB/OL].[2019-07-04]. http://www.athenaeurope.org//get File.php?id=663.

[17] 劉麗斌,張壽華,濮德敏,等. 《中國分類主題詞表》的SKOS描述自動轉(zhuǎn)換研究[J]. 中國圖書館學(xué)報,2009,35(6):56-60.

[18] 劉春艷,陳淑萍,伍玉成. 基于SKOS的敘詞表到本體的轉(zhuǎn)換研究[J]. 現(xiàn)代圖書情報技術(shù),2007(5):32-35.

[19] 劉華梅.《中國分類主題詞表》主題詞SKOS化描述及自動轉(zhuǎn)換研究[J]. 圖書館建設(shè),2014(8):29-32,36.

[20] 楊雪莉. 《中國圖書館分類法》的SKOS化描述研究[J]. 圖書館論壇,2015,35(10):43-48.

[21] 賈君枝,楊潔,衛(wèi)榮娟. 《漢語主題詞表》簡單知識組織系統(tǒng)表示的自動轉(zhuǎn)換設(shè)計[J]. 情報理論與實踐,2011,34(5):14,54-57.

[22] NEUBERT R. Bringing the “Thesaurus for Economics” on to the Web of Linked Data[EB/OL].[2020-03-01]. doi:http://dx.doi.org/.

[23] ALBERTONI R,DE MARTINO M,DI FRANCO S,et al. EARTh:An environmental application reference thesaurus in the linked open data cloud[J]. Semantic Web,2014,5(2):165-171.

[24] MORSHED A,ZAPILKO B,JOHANNSEN G,et al. Evaluating approaches to automatically match thesauri from different domains for linked open data[EB/OL].[2019-11-01]. https://at-web1.comp.glam.ac.uk/pages/research/hypermedia/nkos/nkos2011/presentations/NKOS2011_Zapilko_Mayr_et_al.pdf.

[25] GREENBERG J,LOSEE R,AGüERA J R P,et al. HIVE:Helping inter-disciplinary vocabulary engineering[J]. Bulletin of the American Society for Information Science and Technology,2011,37(4):23-26.

[26] 歐石燕. 中文敘詞表的語義化轉(zhuǎn)換[J]. 圖書情報工作,2015,59(16):110-118.

[27] 周峰. 地學(xué)文獻(xiàn)資源的語義關(guān)聯(lián)數(shù)據(jù)構(gòu)建研究[D]. 北京:中國地質(zhì)大學(xué)(北京),2016.

[28] 賈君枝,趙潔. DDC關(guān)聯(lián)資料實現(xiàn)研究[J]. 中國圖書館學(xué)報,2014,40(4):76-82.

[29] 鮮國建,趙瑞雪,朱亮,等. 農(nóng)業(yè)科學(xué)敘詞表的SKOS轉(zhuǎn)化及其應(yīng)用研究[J]. 現(xiàn)代圖書情報技術(shù),2012(10):16-20.

[30] 黃華軍,曾新紅,林偉明,等. 中文知識組織系統(tǒng)形式化語義描述標(biāo)準(zhǔn)體系研究(二)——分類法共享服務(wù)系統(tǒng)CLSS研究與實現(xiàn)[J]. 中國圖書館學(xué)報,2015(2):17-28.

[31] 王知津,趙夢菊. 論知識組織系統(tǒng)中的語義關(guān)系(上)[J]. 圖書館工作與研究,2014(8):65-69.

[32] TUOMINEN J,F(xiàn)ROSTERUS M,VILJANEN K,et al. ONKI SKOS Server for Publishing and Utilizing SKOS Vocabularies and Ontologies as Services[EB/OL].[2020-03-01]. DOI: 10.1007/978-3-642-02121-3_56.

[33] BAKER T,BECHHOFER S,ISAAC A,et al. Key choices in the design of Simple Knowledge Organization System(SKOS)[J]. Journal of web semantics,2013,20(5):35-49.

[34] 石澤順,肖明. 基于網(wǎng)絡(luò)敘詞表的圖情學(xué)科SKOS構(gòu)建與可視化研究[J]. 情報學(xué)報,2018,37(3):274-284.

The Development of Linked Data of Traditional Knowledge Organization System

JIA JunZhi1,2LI Kan1

(1. School of Economics and Management, Shanxi University, Taiyuan 030006, China; 2. School of Information Resources Management in Renmin University of China, Beijing 100872, China )

The traditional knowledge organization system with controlled word list as the core plays an important role in the description and presentation of resources. This article through to a large number of research literature on the basis of investigation and research, summarizes the domestic and foreign correlation digital development related research of knowledge organization system, and through summarizing the content of the related research, puts forward the traditional semantic relevance knowledge organization system implementation steps, and clear the traditional knowledge organization systems association takes SKOS model, RDF serialization and associated data released three main steps, and carries on the detailed description of the parts, so as to provide reference for other related traditional knowledge organization system digital. The paper summarizes that the application of traditional knowledge system association is mainly reflected in improving the page view of the controlled word list, effectively realizing the description and representation of the data set, and promoting the realization of data integration.

Knowledge Organization System; Linked Data; SKOS

G254;TP18

10.3772/j.issn.1673-2286.2020.03.005

(2020-02-15)

*本研究得到國家社會科學(xué)基金項目“數(shù)據(jù)開放環(huán)境中的詞表重用問題研究”(編號:19BTQ023)資助。

賈君枝,女,1972年生,博士,教授,研究方向:信息組織與信息檢索、關(guān)聯(lián)數(shù)據(jù),E-mail:junzhij@163.com。

李衎,女,1995年生,碩士研究生,研究方向:信息組織與信息檢索、關(guān)聯(lián)數(shù)據(jù)。

猜你喜歡
詞表主題詞表分類法
《〈漢語主題詞表〉構(gòu)建研究》
《〈漢語主題詞表〉構(gòu)建研究》
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
英語世界(2021年13期)2021-01-12 05:47:51
分類法在高中化學(xué)中的應(yīng)用
《〈漢語主題詞表〉構(gòu)建研究》
《〈漢語主題詞表〉構(gòu)建研究》
K 近鄰分類法在巖屑數(shù)字圖像巖性分析中的應(yīng)用
錄井工程(2017年1期)2017-07-31 17:44:42
敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
基于貝葉斯分類法的股票選擇模型的研究
ABC分類法在介入耗材庫存管理中的應(yīng)用
建水县| 涡阳县| 西平县| 桃江县| 桐庐县| 元江| 宁强县| 凌云县| 乌拉特中旗| 波密县| 新民市| 正阳县| 洛隆县| 永和县| 丹阳市| 黎川县| 海阳市| 黄冈市| 兴国县| 汉川市| 通许县| 嘉定区| 义乌市| 阜新市| 彩票| 隆回县| 庆元县| 玛多县| 平顶山市| 叶城县| 当涂县| 和平县| 南投市| 武义县| 崇阳县| 丽江市| 尚义县| 黑山县| 保亭| 东兴市| 东台市|