国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語義出版及其應(yīng)用現(xiàn)狀研究

2021-07-19 00:45:06毛競永
理論與創(chuàng)新 2021年6期
關(guān)鍵詞:數(shù)字資源數(shù)字圖書館

毛競永

【摘? 要】語義出版是建立在資源深度揭示與高度集成基礎(chǔ)之上的,作為數(shù)字出版的高級形態(tài),語義出版的深入研究與探索不僅為豐富數(shù)字圖書館資源集成提供了合理導(dǎo)向與明確目標,更為數(shù)字圖書館將資源組織單位由出版單元或文獻細化到揭示資源“微內(nèi)容”特性的知識單元提供了可能。本文對語義出版模型與及其構(gòu)建工具、語義出版關(guān)鍵技術(shù)、語義出版實踐進行全面分析,旨在揭示語義出版在數(shù)字圖書館資源組織中的重要作用。

【關(guān)鍵詞】語義出版;數(shù)字圖書館;數(shù)字資源;關(guān)聯(lián)數(shù)據(jù)

引言

語義出版在語義網(wǎng)的基礎(chǔ)上發(fā)展而來,是數(shù)字出版的高級階段,語義出版的正式概念源自于David Shotton在2009年發(fā)表的《Semantic Publishing:the coming revolution in scientific journal publishing》一文,即,語義出版能增強已發(fā)表論文的含義,促進論文能自動化獲取,能鏈接到與其語義相關(guān)的文章,并提供多種獲取文章內(nèi)數(shù)據(jù)的訪問途徑,使得論文之間的數(shù)據(jù)整合變得更加容易。

經(jīng)過十年的發(fā)展,語義出版的對象已由狹義的學(xué)術(shù)期刊論文發(fā)展到圖書、學(xué)位論文等形式文獻型學(xué)術(shù)資源,其概念被不斷的豐富和充實,王曉光等人認為語義出版是基于語義技術(shù)及其相關(guān)信息技術(shù),通過語義標記豐富期刊文章的表現(xiàn)形式和顯性內(nèi)容,提高文章信息的可操作性和交互性,增強文章關(guān)聯(lián)度,從而改進出版流程,進而實現(xiàn)智能化出版的方式。程維紅等人認為語義出版是通過語義標記豐富期刊文章表現(xiàn)形式,提高文章信息可操作性和交互性、增強文章關(guān)聯(lián)度、改進出版流程的智能化出版方式。汪慶等人認為,語義出版可以定義為任何能夠增強期刊文章語義的出版形式,具有語義化、結(jié)構(gòu)化和關(guān)聯(lián)化的特征,能夠?qū)崿F(xiàn)機器自動處理、識別、集成與整合信息的目的。彭?,B等人則提出語義出版是通過揭示每篇論文中的知識單元及其語義類型和語義關(guān)系,并且與其他論文、期刊和知識資源中的知識單元進行關(guān)聯(lián),支持基于動態(tài)關(guān)聯(lián)的知識發(fā)現(xiàn)。許鑫等人認為,語義出版是一種語義增強的出版形式,通過對文章內(nèi)容和形式進行語義標記,增強內(nèi)容之間的關(guān)聯(lián),提高科研人員的檢索和獲取效率,實現(xiàn)智能化出版。

1.語義出版模型與及其構(gòu)建工具研究

隨著語義出版概念的不斷豐富,相關(guān)的語義出版模型與構(gòu)建工具也有了一定的成果。其中,語義出版建模的基本思路將出版物內(nèi)容結(jié)構(gòu)化和語義化,主要覆蓋了出版物的內(nèi)容要素、結(jié)構(gòu)要素、出版全流程三個層面。

出版關(guān)鍵內(nèi)容建模主要是對論文關(guān)鍵知識進行語義標注,促進計算機對論文關(guān)鍵貢獻的自動識別。如國際概念網(wǎng)絡(luò)聯(lián)盟)提出的納米出版物,由聲明、出處和出版物信息組成來表示可出版信息最小單元。其中,聲明使用主-謂-賓結(jié)構(gòu)表達的思想最小單元;出處用于描述如何得到此聲明的情景信息,包括方法和歸屬元數(shù)據(jù);出版物信息將前兩者作為一個整體進行表達。

對出版物結(jié)構(gòu)建模主要是對文檔的構(gòu)成要素進行結(jié)構(gòu)化組織,對象和關(guān)系的語義構(gòu)建。A.Bardi等人提出的增強型出版物元數(shù)據(jù)模型,描述了出版物的結(jié)構(gòu)和語義特征。該模型包括六部分:文檔構(gòu)成、嵌入部分、參考與引用、可執(zhí)行和可生成,并對各部分進行了對象和關(guān)系的RDF描述和序列化。J.Kircz提出的模塊化模型中,模塊被定義為具有獨一無二特性、自含概念表示的信息單元,將論文看成是整合了數(shù)據(jù)集、圖像、音頻、視頻等模塊的對象。另外,為便于交流,模塊被連接成固定單元。

對出版物全流程建模主要是對出版全流程(包括文檔信息和出版信息)的描述,支持全工作流的交互和共享。王文清等人報道的出版物內(nèi)容資源本體模型定義了多個類、屬性和約束,可對多種出版物數(shù)字資源進行統(tǒng)一建模和描述。此外,PUBO采用了OWL描述邏輯,可自動驗證模型的邏輯完整性,實現(xiàn)了資源統(tǒng)一管理、互相關(guān)聯(lián)與多系統(tǒng)復(fù)用。Hunter提出新信息格式的科學(xué)出版包,可用于封裝原始數(shù)據(jù)、來源產(chǎn)品、算法、軟件、文本、相關(guān)上下文環(huán)境以及元數(shù)據(jù),從而滿足科學(xué)家對科學(xué)結(jié)果的操作需求。

在論文編輯工具方面,典型的有BioLit項目和SCOPE項目。BioLit項目中可使用基于XML的寫作工具,利用美國醫(yī)學(xué)圖書館的文檔類型定義存儲標準化且機器可讀的出版物,該工具為開放文獻和生物學(xué)數(shù)據(jù)的集成提供方便,使用PLoS和Protein Data Bank(PDB)的全部語料做測試。

2.關(guān)鍵技術(shù)研究

XML。全稱為可擴展標記語言,是根據(jù)萬維網(wǎng)本身的特點從SGML所衍生出來的簡化格式。XML的設(shè)計目標是提出一種非常簡單的標記語言,并盡可能地減少抽象概念。XML提供了一個標準,使得開發(fā)人員可以根據(jù)實際需要定義自己的新的置標語言,并可為這個置標語言規(guī)定它特有的一套標記。與HTML相比,XML最大的優(yōu)點是它不是固定的標記,而是允許開發(fā)人員根據(jù)它所提供的規(guī)則,定義數(shù)量不限的標識和屬性來描述文檔中的資料,允許嵌套的結(jié)構(gòu)描述。

RDF。全稱為資源描述框架,其目的主要是提供一種通用的元數(shù)據(jù)結(jié)構(gòu)以滿足所有領(lǐng)域的使用要求使應(yīng)用程序之間能夠在Web上交換元數(shù)據(jù),以促進網(wǎng)絡(luò)資源的自動化處理。RDF的基本資料模型包括了三個對象類型:①資源。所有以RDF表示法來描述的東西都叫做資源,使用統(tǒng)一資源標識來命名,它可以是一個網(wǎng)站,可以是一個網(wǎng)頁,可以只是網(wǎng)頁中的某個部分,甚至是不存在于網(wǎng)絡(luò)的東西,如紙本文獻、器物、人等。②屬性。屬性是用來描述資源的特定特征或關(guān)系,每一個屬性都有特定的意義,用來定義它的屬性值和它所描述的資源形態(tài),以及和其它屬性的關(guān)系。RDF的在概念上和傳統(tǒng)的屬性是相同的。③陳述。特定的資源以一個被命名的屬性與相應(yīng)的屬性值來描述,稱為一個RDF陳述,其中資源是主詞,屬性是述詞,屬性值則是受詞,陳述的受詞除了可能是一個字符串,也可能是其它的資料形態(tài)或是一個資源。

關(guān)聯(lián)數(shù)據(jù)。是W3C建議的用來發(fā)布和聯(lián)接各類資源的一種規(guī)范,簡單地說,關(guān)聯(lián)數(shù)據(jù)就是一些RDF格式的數(shù)據(jù),使用三元組(主體,謂詞,客體)來表示資源,它希望用一種通用的機制將網(wǎng)絡(luò)中的數(shù)據(jù)進行發(fā)布,使任何人和機器都內(nèi)讀取和復(fù)用萬維網(wǎng)上的數(shù)據(jù)。語義萬維網(wǎng)將資源定義為“任何有URI標識的東西”,分為信息資源和非信息資源兩類,信息資源用以表達任何信息,通常以某種編碼的文件形式而存在;非信息資源用以指代大千世界中的各類實體對象,可以是自然界、人類社會以及人類意識所創(chuàng)造的精神世界的所有對象。

本體。本體(ontology)是實體和關(guān)系之間的一種形式化表達,起源于哲學(xué)領(lǐng)域,后引入進計算機領(lǐng)域,本體制定了一種規(guī)范,可以在語義和知識層次上描述知識,具有結(jié)構(gòu)化的特點。本體以樹狀結(jié)構(gòu)存儲,相鄰層次的節(jié)點之間有嚴格的包含關(guān)系。本體包含四層含義:概念模型、明確、形式化和共享。具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持,可以通過層次網(wǎng)絡(luò)圖來表示,圖中的每個節(jié)點對應(yīng)一個概念,節(jié)點之間通過有向邊來連接,表示概念與概念之間的關(guān)聯(lián)關(guān)系。

3.實踐研究

目前,出版機構(gòu)、信息服務(wù)商、圖書館等建設(shè)主體正積極開展語義出版實踐,如RSC、Elsevier和BBC等。

RSC。RSC是全球知名的化學(xué)科學(xué)出版社之一,目前已出版44個同行評議期刊,提供一系列在線數(shù)據(jù)庫和文獻更新服務(wù),是語義出版領(lǐng)域的重要范例。2007年,RSC提出“Science Come Alive”并進行積極探索,設(shè)立的RSC Prospect項目旨在通過語義增強實現(xiàn)期刊文章的機器可讀,豐富RSC期刊在線出版的功能。RSC語義出版模式的關(guān)鍵是利用本體和唯一的化合物標識符,使文章可被計算機識別。RSC的技術(shù)編輯在文章中標識出化合物、概念和數(shù)據(jù),將其鏈接至相關(guān)的學(xué)術(shù)環(huán)境,極大增強了RSC文章對學(xué)科知識的揭示和關(guān)聯(lián)能力。

RSC語義出版的核心要素包括:①關(guān)聯(lián)化學(xué)學(xué)術(shù)環(huán)境。為更好地實現(xiàn)化學(xué)學(xué)科相關(guān)內(nèi)容和數(shù)據(jù)的讀取、對比,RSC將本體與自建的基于Web的化學(xué)結(jié)構(gòu)數(shù)據(jù)庫關(guān)聯(lián),形成RSC語義出版自有的基礎(chǔ)信息系統(tǒng)。②結(jié)構(gòu)化描述與標記?;玖鞒贪╔ML預(yù)處理、XML編輯與修正、結(jié)合語境和主題領(lǐng)域?qū)?yīng)的XML標注。③嵌入式HTML的呈現(xiàn)。RSC語義出版的學(xué)術(shù)期刊以RichHTML形式發(fā)布,且標記為RichHTML的文章可實現(xiàn)全文嵌入式HTML標記,并以不同顏色突出顯示定義的詞匯,實現(xiàn)語義分類。

Elsevier。是全球領(lǐng)先的多媒體出版集團和科學(xué)、技術(shù)、醫(yī)學(xué)信息產(chǎn)品和服務(wù)提供商,其在語義出版方面進行了積極的嘗試與探索,也取得了一定的成果,典型的有Article of the Future項目、ClinicalKey平臺等。Elsevier的語義出版路線圖闡釋了語義出版的最終目標是使期刊論文變?yōu)楦缓Z義知識的智能內(nèi)容。

英國廣播公司(BBC)。2010年世界杯網(wǎng)站是BBC動態(tài)出版的首次成功應(yīng)用,如今,BBC已將動態(tài)語義出版由體育領(lǐng)域擴展到新聞、教育等多個領(lǐng)域。BBC動態(tài)領(lǐng)域出版模式是按需重組的機制,即根據(jù)應(yīng)用層用戶動態(tài)查詢的檢索詞,通過服務(wù)層獲取語義相關(guān)的內(nèi)容。該模式分為了數(shù)據(jù)層、服務(wù)層和應(yīng)用層。其中,數(shù)據(jù)層負責(zé)文字、圖片、視頻等多媒體類型資源的管理,利用自然語言處理技術(shù)對內(nèi)容進行基于領(lǐng)域本體的命名實體識別(實體抽?。?,并將識別結(jié)果以元數(shù)據(jù)的形式存儲在RDF三元組中;服務(wù)層負責(zé)對應(yīng)用層的請求響應(yīng)以及對數(shù)據(jù)層的內(nèi)容調(diào)用,是動態(tài)語義出版實現(xiàn)按需重組的核心,主要利用關(guān)聯(lián)數(shù)據(jù)等對調(diào)用的內(nèi)容進行語義增強,豐富用戶的檢索結(jié)果;應(yīng)用層負責(zé)按需重組在內(nèi)容上有語義關(guān)聯(lián)的不同資源并將其以一定的方式呈現(xiàn)給用戶。

4.結(jié)束語

國外的出版組織和圖書館對語義出版高度關(guān)注相比,我國的研究明顯滯后。從廣度上看,只有中國知網(wǎng)、萬方等少數(shù)學(xué)術(shù)數(shù)據(jù)庫服務(wù)商和出版機構(gòu)開展過語義技術(shù)的應(yīng)用;從深度上看,當(dāng)前研究多集中在語義出版的概念、形式、特征以及國外相關(guān)項目的介紹和分析上,理論探討較多,應(yīng)用研究較少?!靶枨鬀Q定服務(wù),服務(wù)選擇資源”,語義出版作為一種創(chuàng)新服務(wù)模式,對館藏資源組織與利用提出了更高要求,是信息服務(wù)產(chǎn)業(yè)鏈中至關(guān)重要的環(huán)節(jié)之一。

參考文獻

[1]Shotton D.Semantic Publishing:the coming revolution in scientific journal publishing[J].Learned Publishing,2009(22):85-94.

[2]王曉光,陳孝禹.語義出版:數(shù)字時代科學(xué)交流系統(tǒng)新模型[J].出版科學(xué),2012,20(04):81-86.

[3]程維紅,任勝利,沈錫賓,方梅,王應(yīng)寬.中國科協(xié)科技期刊數(shù)字出版及傳播力建設(shè)[J].中國科技期刊研究,2014,25(03):340-345.

[4]汪慶,任慧玲.新技術(shù)環(huán)境下STM出版發(fā)展趨勢探析[J].科技與出版,2014(09):123-127.

[5]彭?,B,張曉林.國際學(xué)術(shù)期刊的數(shù)字化發(fā)展趨勢[J].中國科技期刊研究,2013,24(06):1033-1038.

[6]許鑫,毛璐,江燕青.基于數(shù)字資源聚合的學(xué)術(shù)期刊語義出版研究[J].數(shù)字圖書館論壇,2019(07):2-8.

[7]Nanopub.org.What is a Nanopublication[EB/OL].[2019-12-24].http://nanopub.org/wordpress/?page_id=65.

Marcondes C H.A semantic model for scholarly electronic publishing[EB/OL][2020-10-24].http://www.ceur -ws.org/Vol-721/paper-06.pdf.

[8]Bardi A, Manghi P.Enhanced publications:data models and information systems[J].Liberquarterly,2014, 23(4):240-273.

[9]Kircz J G.Modularity:The Next Form of Scientific Information Presentation?[J].Journal of Documentation, 1998,54(2):210-235.

[10]Kircz J G.New Practices for Electronic Publishing 2:New Forms of the Scientific Paper [J].Learned Publishing,2002,15(1):27-32.

[11]王文清,劉春彤,張月祥,陳凌.PUBO:面向出版的數(shù)字資源本體建模[J].大學(xué)圖書館學(xué)報,2015,33(03):88-95.

[12]Hunter J. Scientific Publication Packages-A Selective Approach to the Communication and Archival of Scientific Output[J].Journal of Digital Curation,2006,1(1):3-16.

[13]Fink J L, Bourne P E. Reinventing Scholarly Communication for the Electronic Age [J].CTWatch Quarterly, 2007,3(3):26-31.

[14]Enhanced Publications[EB/OL].[2019-12-24].http://www.doc88.com/p-873117284280.html.

[15]翁彥琴,李苑,彭?,B.英國皇家化學(xué)會(RSC)——科技期刊語義出版模式的研究[J].中國科技期刊研究,2013,24(5):825-829.

[16]王莉莉,欒冠楠.英國廣播公司(BBC)動態(tài)語義出版模式研究[J].圖書情報工作,2017,61(08):126-132.

猜你喜歡
數(shù)字資源數(shù)字圖書館
美術(shù)教科書使用應(yīng)把握的幾個視角
高校圖書館的未來發(fā)展模式芻議
淺析“互聯(lián)網(wǎng)+”時代的圖書館管理
資治文摘(2016年7期)2016-11-23 01:00:24
高校數(shù)字圖書館資源整合的初探
商情(2016年39期)2016-11-21 09:27:10
圖書館員新角色
建立中文DOI標識在科技期刊出版中的作用
基于云計算的數(shù)字圖書館建設(shè)與服務(wù)模式研究
高校數(shù)字資源云服務(wù)平臺的建設(shè)研究
評價高校圖書館數(shù)字資源綜合服務(wù)能力
從谷歌案析數(shù)字圖書館對作品的使用行為
新郑市| 舒城县| 旬邑县| 聂荣县| 拜泉县| 三都| 玉门市| 准格尔旗| 舒兰市| 江城| 句容市| 离岛区| 垦利县| 康乐县| 大港区| 泉州市| 忻城县| 乌恰县| 泽库县| 紫阳县| 手游| 女性| 美姑县| 武汉市| 南康市| 靖州| 宜川县| 南昌市| 日土县| 景德镇市| 河东区| 大新县| 太仆寺旗| 宁明县| 望都县| 玉环县| 叙永县| 红原县| 班戈县| 西乡县| 青河县|