[摘 要] 自語義出版的概念正式提出后,工業(yè)界和學(xué)界對語義出版的關(guān)注越來越高,由于語義出版和Web技術(shù)密切相關(guān),近幾年Web等領(lǐng)域的發(fā)展給語義出版帶來了新動向,也出現(xiàn)了一些對語義出版內(nèi)涵的再思考。本文對目前主流的語義出版研究和實踐現(xiàn)狀進行梳理總結(jié),發(fā)掘了語義出版數(shù)據(jù)的開放共享、去中心化語義出版實踐、真正的語義出版等研究熱點,希望引起學(xué)界對這些研究方向的關(guān)注和重視。語義出版數(shù)據(jù)的開放共享、去中心化實踐是Web技術(shù)的開放性及數(shù)據(jù)科學(xué)發(fā)展的必然結(jié)果,伴隨著這些最新的技術(shù)和實踐原則的提出和推進,將進一步引起各界對語義出版研究與實踐的深化以及對什么是真正的語義出版的思考。
[關(guān)鍵詞] 語義出版 開放共享 FAIR 可信任 去中心化
[中圖分類號] G237 [文獻標識碼] A [文章編號] 1009-5853 (2018) 02-0016-07
[Abstract] After the definition of semantic publishing put forward in 2009, more and more attentions are paid from industry and academia. Due to the close relation between semantic publishing and web techniques, new trends from the field of web and related domains were brought into the scope of semantic publishing, and some new ideas about the original concept of semantic publishing emerged recently. In this paper, main stream of semantic publishing studies and practices were classified and summarized, and opening, sharing, decentralizing and genuine semantic publishing as the newest hotspots in semantic publishing field were proposed with expectation to bring more attentions to people in this field. It is an inevitable result of the openness of the Web and development of data science that opening, decentralizing as new trends come out in the development of semantic publishing. Together with these newly put forward techniques and principles, this will introduce more and more people to consider the connotation of the genuine semantic publishing in the future and promote more and more study and research in deep.
[Key words] Semantic publishing Opening and sharing FAIR Trusty publishing Decentralization
1 引 言
自肖頓(Shotton)[1][2]首次提出語義出版(semantic publishing)的概念后,語義出版在學(xué)術(shù)界和工業(yè)界的研究和實踐逐漸升溫。語義出版其實可以簡單地總結(jié)為任何可以增強出版物語義內(nèi)涵的技術(shù)手段,它是Web技術(shù)尤其是語義Web技術(shù)、文本分析等技術(shù)和出版領(lǐng)域?qū)嵺`的一次有意義的融合。Web技術(shù)中的信息發(fā)布、訪問協(xié)議以及標記語言等技術(shù)為語義出版物提供了開放的訪問存取環(huán)境,語義Web技術(shù)中的RDF/OWL標準、Linked Data技術(shù)及實踐原則為語義出版物提供了規(guī)范的表示模型,以自然語言處理為核心的文本分析與挖掘技術(shù)則為語義出版流程的自動化提供了支撐。因此,語義出版概念并不是作為一項新的技術(shù)被提出,它是各種現(xiàn)有技術(shù)在出版領(lǐng)域中廣泛應(yīng)用后自然而然被歸納總結(jié)的結(jié)果。具體而言,語義出版通過可視化、動態(tài)檢索等手段來增強出版物的語義,對相似內(nèi)容的出版物進行關(guān)聯(lián),共享出版物背后的科學(xué)數(shù)據(jù),增加豐富的出版物元數(shù)據(jù)來提高機器的可讀性,進而促進出版物的可發(fā)現(xiàn)性。
語義出版模式的流行對現(xiàn)有的基于科學(xué)論文層次的科學(xué)交流來講意義重大。傳統(tǒng)的科學(xué)出版模式將科學(xué)研究成果使用自然語言進行表達并集中存儲在數(shù)據(jù)庫中,實際上科學(xué)論文以這種方式呈現(xiàn)其中蘊含的知識被發(fā)現(xiàn)的概率并不高,科研人員需要進行繁瑣的出版物檢索、研讀等科研活動才能獲取并總結(jié)出所需的科研背景和現(xiàn)狀。而語義出版要求出版物具有豐富的元數(shù)據(jù)、細粒度的以及高度互聯(lián)的內(nèi)容片段,這可以極大地提高學(xué)術(shù)交流的效率以及新知識的發(fā)現(xiàn)概率[3],避免或者降低科學(xué)假設(shè)以及科學(xué)實驗的重復(fù)進行。本文簡要梳理了目前最新的主流語義出版的研究與實踐,重點分析在開放科學(xué)的環(huán)境下,語義出版研究與實踐的幾個最新的研究熱點,主要包括:語義出版數(shù)據(jù)開放共享、語義出版的去中心化實踐以及對什么是真正的語義出版的思考。
2 語義出版發(fā)展現(xiàn)狀
語義出版技術(shù)在出版業(yè)中的應(yīng)用越來越廣泛[4],國際諸多大型企業(yè)如威科集團[5]、愛思唯爾出版集團[6]、BBC[7][8]等早已將語義出版技術(shù)作為其創(chuàng)新戰(zhàn)略和商業(yè)實踐的一部分。國內(nèi)外對語義出版的科學(xué)研究與實踐也逐漸增多,已經(jīng)有語義出版相關(guān)的圖書及專著相繼問世,諸如文獻[9][10][11]等。語義出版相關(guān)的科學(xué)活動也相當(dāng)活躍,知名的要數(shù)最近幾年陸續(xù)組織的語義出版國際研討會(Semantic Publishing Workshop,SePublica)[12],致力于解決語義出版相關(guān)的各種原則、技術(shù)問題,以及每年舉辦的語義出版挑戰(zhàn)賽(Semantic Publishing Challenges)[13],主要以從科學(xué)文獻中自動抽取知識片段為任務(wù)目標。
和中文“出版”一詞的內(nèi)涵有一些差異,英文“Publishing”一詞具有“發(fā)布”的意思,其含義更為廣泛。同時,由于語義出版更多是一項實踐活動,目前的研究成果除了在科學(xué)文獻中體現(xiàn)外,更多是在各種數(shù)據(jù)集、語義出版工具和平臺中體現(xiàn)。另外,有時國內(nèi)的一些研究成果并不以“語義出版”來命名,因此,實際上現(xiàn)在對語義出版的研究及實踐已經(jīng)較為廣泛。從國外對語義出版的研究內(nèi)容來看,凡是涉及數(shù)據(jù)、信息、文獻、知識等內(nèi)容的細粒度組織與發(fā)布都是語義出版的范疇。語義出版物,除了傳統(tǒng)的科學(xué)論文這一主流的載體形態(tài)之外,還包括各種相關(guān)的科學(xué)數(shù)據(jù)、個人學(xué)術(shù)主頁等形式。排除語義出版相關(guān)的介紹性的研究之后,可將目前的語義出版研究與實踐大致分為如下幾個方面。
(1)語義出版元數(shù)據(jù)及本體等標準設(shè)計。用于對出版物進行標準化的組織,便于不同出版物之間的互聯(lián)與共享。最知名的比如SPAR語義出版系列本體[14],包含了語義出版流程本體、出版狀態(tài)本體、出版角色本體、引文本體等涵蓋出版諸多流程的本體集合。其他諸如Linked Science Core Vocabulary、BIBO、納米出版物模型、微型出版物等[15]。
(2)語義出版數(shù)據(jù)集開發(fā)及發(fā)布。開發(fā)語義出版物或相關(guān)的語義出版數(shù)據(jù)(Semantic Publishing Data)并發(fā)布,供用戶使用。比如Semantic Lancet項目數(shù)據(jù)集[16]、Linked Open Data中的出版物數(shù)據(jù)集[17]、CEUR-WS數(shù)據(jù)集[18]、科研數(shù)據(jù)集[19]、OpenCitations數(shù)據(jù)集[20],以及SciKG數(shù)據(jù)集[21]等。這些數(shù)據(jù)集一般是科研項目、期刊文獻、會議論文、作者信息、引文數(shù)據(jù)等各種粒度的出版物信息關(guān)聯(lián)數(shù)據(jù),一般都提供SPARQL訪問端、在線瀏覽、批量下載等訪問形式。
(3)語義出版物相關(guān)技術(shù)、工具及開發(fā)。圍繞語義出版物的形式及結(jié)構(gòu),采用各種技術(shù)手段,如實體鏈接技術(shù)、數(shù)據(jù)庫映射技術(shù)、結(jié)構(gòu)化與標準化技術(shù)、發(fā)布技術(shù)、眾包標注平臺設(shè)計等,來識別出版物中的結(jié)構(gòu)信息[22],進行文本轉(zhuǎn)換、切分、識別、抽取、結(jié)構(gòu)化等操作[23],以生成各種語義出版物。文獻[24]中總結(jié)了數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)存儲、數(shù)據(jù)可視化、數(shù)據(jù)質(zhì)量工具。具體的過程,如文獻[25],提出了一個從科學(xué)文獻中抽取知識的平臺,完成了句子修辭結(jié)構(gòu)分類和文本摘要抽取的方法。語義出版工具有Spotlight、Utopia Documents、CiTalO等。
(4)語義出版物的應(yīng)用與消費。語義出版物傾向于采用細粒度的數(shù)據(jù)組織方式,使得計算機更容易理解,某種程度上對人來說可能就不那么友好。因此,語義出版的應(yīng)用方面主要解決發(fā)布的語義出版物如何使用的問題。比如對語義出版物進行可視化[26]、設(shè)計語義出版物的瀏覽器[27]等,以及采用語義出版技術(shù)手段進行在線教育[28]、使用已有納米出版物(Nanopublications)進行疾病實驗數(shù)據(jù)探索[29]、將語義出版技術(shù)應(yīng)用于非遺數(shù)字資源[30]等。
3 語義出版技術(shù)研究熱點
上一節(jié)總結(jié)的關(guān)于語義出版的標準、數(shù)據(jù)、技術(shù)、應(yīng)用幾個研究與實踐維度,是目前語義出版研究的主流,尤其是技術(shù)環(huán)節(jié),目前已有大量的技術(shù)、工具、平臺在開發(fā)并應(yīng)用,大部分語義出版研究實踐都屬此類,這也充分顯示語義出版的實踐特性,其主要目的是加速語義出版物的自動化流程,增加語義出版物的發(fā)布效率。在這些主流的語義出版研究實踐中,伴隨著語義出版實踐的深化,語義出版數(shù)據(jù)的開放共享、語義出版的去中心化探索與實踐,以及什么是真正意義上的語義出版逐漸受到學(xué)者的關(guān)注和重視,成為當(dāng)前語義出版技術(shù)的研究熱點。
3.1 語義出版數(shù)據(jù)開放共享
開放是互聯(lián)網(wǎng)的固有特性,產(chǎn)生于互聯(lián)網(wǎng)技術(shù)環(huán)境下的語義出版物,作為一種細粒度的知識載體形態(tài),應(yīng)該適應(yīng)這種開放的趨勢。在語義出版領(lǐng)域,2017年的一個重大事件是開放引文數(shù)據(jù)倡議(Initiative for Open Citations,I4OC)[31]的提出,最初的動機正是開放共享的需求驅(qū)動的。科學(xué)論文的作者提供了論文的引文鏈接數(shù)據(jù),當(dāng)作者需要使用引文數(shù)據(jù)時,理應(yīng)免費獲取這些引文數(shù)據(jù),而這些數(shù)據(jù)卻被隱藏在各大出版商手中,不被論文的作者所使用。I4OC倡導(dǎo)引文數(shù)據(jù)應(yīng)該被免費合法的共享出來,建議各大出版商應(yīng)該把各自數(shù)據(jù)庫中的引文數(shù)據(jù)開放。引文數(shù)據(jù)的開放與共享,使得對科學(xué)的計量與評價更為便利與準確,避免了直接從數(shù)據(jù)庫檢索獲取引文數(shù)據(jù)的環(huán)節(jié),以及由此帶來的查詢不全面不準確、成本過高且耗時的問題,從而提高科學(xué)計量指標的準確度[32]。
目前I4OC已經(jīng)獲得了諸多出版商的響應(yīng)和支持,在https://i4oc.org/上可以找到目前最新的支持引文數(shù)據(jù)開放的出版商。當(dāng)談到I4OC時,不得不提的是上節(jié)提到的OpenCitations數(shù)據(jù)集[33],I4OC倡議就是基于這樣一個數(shù)據(jù)集的發(fā)布而出現(xiàn)的。OpenCitations是一個使用SPAR本體[34]描述的引文數(shù)據(jù)集,將使用Crossref和ORCID標引的文獻數(shù)據(jù)開放,該數(shù)據(jù)集于2011年在牛津大學(xué)創(chuàng)建,數(shù)據(jù)抓取自PubMed 中心的開放獲取數(shù)據(jù),可以通過HTTP直接訪問,也提供了SPARQL服務(wù)端以及批量下載的數(shù)據(jù)。
數(shù)據(jù)驅(qū)動的開放科學(xué)環(huán)境下,已經(jīng)出現(xiàn)了大量的開放獲取期刊、各種預(yù)印本服務(wù)以及科學(xué)數(shù)據(jù)共享政策。實際上在語義出版領(lǐng)域開放共享實踐也并不少見,除了提及的OpenCitations數(shù)據(jù)集外,語義出版在網(wǎng)絡(luò)自出版等分布式信息發(fā)布中的應(yīng)用也逐漸多起來。在學(xué)術(shù)界,很多學(xué)者一般都有自己的主頁來維護自己的科研成果和項目信息,相對于傳統(tǒng)的科學(xué)文獻數(shù)據(jù)庫,這種自出版方式可以極快地將自己最新發(fā)表的科研成果、研究進展、項目進度等發(fā)布出來,而不用等待很長的時間來讓常規(guī)的檢索服務(wù)來索引,極大地促進了科學(xué)交流的效率。這類似于目前流行的預(yù)印本服務(wù),其目的都是讓學(xué)術(shù)交流回歸本源,促進更廣泛的學(xué)術(shù)合作,只不過語義出版物本身的結(jié)構(gòu)化特征使其更便于知識的發(fā)現(xiàn)。也有學(xué)者[35]對自己的學(xué)術(shù)主頁進行了語義化,包括自己個人信息、發(fā)表的出版物等內(nèi)容,甚至提供語義檢索的接口??偟膩碚f,學(xué)術(shù)界中的科學(xué)數(shù)據(jù)包括語義出版數(shù)據(jù)的開放共享是大趨勢,數(shù)據(jù)開放越來越多地受到人們的關(guān)注甚至呼吁,出版商面臨這種趨勢需要權(quán)衡其現(xiàn)有利益,開放什么樣的數(shù)據(jù),數(shù)據(jù)共享到什么程度等都需要再思考。
3.2 語義出版的去中心化實踐
在去中心化的環(huán)境中并不存在一個具有明確角色的中心節(jié)點,所有的節(jié)點地位保持平衡。提姆·伯納斯·李(Tim Berners-Lee)等認為去中心化需要遵循幾個原則:數(shù)據(jù)存儲獨立于服務(wù)提供商、具有交互性、可訪問性,以及自由表達和處理網(wǎng)絡(luò)信任的能力[36]。結(jié)合語義出版的發(fā)展歷史,以及作為一種細粒度結(jié)構(gòu)化的科學(xué)成果形式,語義出版物天然符合上述的一些原則,但不是全部。
3.2.1 遵循FAIR原則
在2014年,來自學(xué)術(shù)界、工業(yè)界以及出版界等多個領(lǐng)域的機構(gòu)人員在荷蘭萊頓舉辦了一次研討會,并設(shè)計了一項關(guān)于科學(xué)數(shù)據(jù)管理與發(fā)布的一組指導(dǎo)原則FAIR(Findable, Accessible, Interoperable, Reusable),這是科學(xué)數(shù)據(jù)管理的最新進展[37]。其中可發(fā)現(xiàn)(Findable)是指數(shù)據(jù)資源需要被賦予一個可識別的標識,具有豐富的元數(shù)據(jù)并且可以被索引或被搜索到;可訪問(Accessible)是指通過標準的訪問協(xié)議,使用數(shù)據(jù)的標識符就可以檢索到數(shù)據(jù)資源,并且數(shù)據(jù)資源的元數(shù)據(jù)也可以訪問,即使數(shù)據(jù)資源不存在了;可交互(Interoperable)是指數(shù)據(jù)資源使用形式化的、共享的、廣泛采納的語言來表述知識;可重用(Reusable)是指數(shù)據(jù)資源需要使用準確的屬性來描述,包含清晰的數(shù)據(jù)使用許可以及具體的數(shù)據(jù)來源信息,同時也需要滿足特定領(lǐng)域的規(guī)范。FAIR中每一項原則都具有更細粒度的原則解釋??梢钥闯鯢AIR原則和提姆·伯納斯·李等學(xué)者提出的去中心化原則存在很大的重疊,F(xiàn)AIR原則是目前包括語義出版數(shù)據(jù)在內(nèi)的數(shù)據(jù)發(fā)布過程中廣泛采用的實踐原則。
FIAR作為一個頂層指導(dǎo)原則,它沒有規(guī)定具體的技術(shù)實現(xiàn)細節(jié)。因此,使用FAIR原則對語義出版物進行組織管理以及設(shè)計在被各界所認可的同時,也需要通過各種技術(shù)手段予以實現(xiàn)。諸如馬克·威爾金森(Mark D. Wilkinson )等學(xué)者[38]認為交互性是FAIR原則中最難實現(xiàn)的,他們采用W3C的關(guān)聯(lián)數(shù)據(jù)平臺、RDF映射語言、三元組模式片段等技術(shù)方案來實現(xiàn)遵循FAIR原則的學(xué)術(shù)出版實踐的底層基礎(chǔ)架構(gòu),并重點解決出版物交互性原則的設(shè)計問題。
3.2.2 語義出版物的可信任性
在去中心化的過程中,可信任性是作為一個需要遵循的原則或一個需要解決的技術(shù)問題,這類似于傳統(tǒng)電子出版過程中需要解決惡意復(fù)制粘貼、剽竊盜版等問題一樣。語義出版物的發(fā)布,尤其是網(wǎng)絡(luò)自出版以及納米出版物等形式的發(fā)布,經(jīng)過網(wǎng)絡(luò)傳播可能會出現(xiàn)很多版本,為了增強出版物的可信度,需要確認所檢索或瀏覽到的語義出版物內(nèi)容是權(quán)威可信的。比如,納米出版物中的Provenance要素就是為這一目的而設(shè)計的,以此表明其所呈現(xiàn)的語義數(shù)據(jù)的來源,包括該納米出版物由誰在何時創(chuàng)建、其斷言(Assertion)由誰聲明、可訪問的網(wǎng)絡(luò)地址、DOI信息等都需要提供以用來保證該納米出版物信息的真實可靠。然而,納米出版物采用的RDF的數(shù)據(jù)組織模式是基于開放世界假設(shè)的,這使得任何機構(gòu)或個人都可以生成自己的納米出版物信息,而這些信息目前不需要審核就可以發(fā)布,同時也可以對現(xiàn)有的納米出版物進行更改后再發(fā)布,這就使得納米出版物的內(nèi)容存在“不可信任”的風(fēng)險。這一點不同于目前主流的出版方式,我們可以通過權(quán)威的數(shù)據(jù)庫來獲取沒有經(jīng)過篡改的文獻。
因此,伴隨著數(shù)據(jù)開放共享以及去中心化的趨勢,語義出版物的這種可信任性越來越需要得到保證?;诓豢尚湃蔚臄?shù)據(jù)基礎(chǔ)之上的科學(xué)結(jié)論是值得懷疑的,不可信任的數(shù)據(jù)驅(qū)動的科學(xué)交流是有極大危害的。可信任的語義出版物是伴隨著互聯(lián)網(wǎng)語義數(shù)據(jù)的增長亟待解決的問題。在語義Web領(lǐng)域中,其實信任(Trust)早已經(jīng)是其技術(shù)棧的一個維度,因此關(guān)于Web上的信任機制的技術(shù)方案、信息安全領(lǐng)域的認證加密以及區(qū)塊鏈[39]等技術(shù)都可以被用來設(shè)計具有可信任特性的語義出版物。文獻[40]實現(xiàn)了一個可信任的URI技術(shù),將URI表征為帶有數(shù)字資源HASH值的形式來驗證該URI對應(yīng)的資源是否被更改,并將其應(yīng)用在納米出版物的設(shè)計過程中,以此保證納米出版物的可信任性。比較有名的語義出版工具Dokieli就是一個去中心化的寫作與語義標注網(wǎng)絡(luò)平臺[41],其使用HTML標簽來創(chuàng)作以及發(fā)布網(wǎng)絡(luò)文檔,使用Schema.org、Web Annotation等元數(shù)據(jù)及術(shù)語來結(jié)構(gòu)化社交用戶的標注信息,可以在不同用戶之間進行分享以及論文評議。
實際上,可信任性也可視為語義出版物質(zhì)量的一個維度,傳統(tǒng)的科學(xué)研究出版過程需要同行評議、編輯審校等環(huán)節(jié)來保證出版物內(nèi)容和形式上的準確,語義出版物的發(fā)布可以看作這一形式的發(fā)展和演變,當(dāng)然語義出版物的發(fā)布有其特殊性,它同樣需要解決其內(nèi)容和形式的正確性問題。目前主流的語義出版實踐都十分關(guān)注語義出版物的質(zhì)量問題,比如語義出版挑戰(zhàn)賽的任務(wù)評估就是通過語義出版數(shù)據(jù)抽取質(zhì)量來衡量的[42],通過挑戰(zhàn)的方式引入競爭,來提高語義數(shù)據(jù)的質(zhì)量,進而促進科學(xué)數(shù)據(jù)價值鏈的形成[43]。
3.3 真正的語義出版
目前大多數(shù)的語義出版實踐仍是傳統(tǒng)出版物的事后語義增強,比如對文獻進行語義標注、語義分割、語義映射以及語義關(guān)聯(lián)等操作,這仍將會在相當(dāng)長的一段時間內(nèi)是語義出版的主流。最近幾年的語義出版挑戰(zhàn)[44]也都是關(guān)于如何從科學(xué)文獻、引文等數(shù)據(jù)中抽取信息的任務(wù),以及這些實體之間的鏈接問題,比如2017年語義出版挑戰(zhàn)的任務(wù)是關(guān)于如何從論文表格以及全文中抽取信息、如何關(guān)聯(lián)這些信息等[45]。
真正的語義出版則是在出版物創(chuàng)作階段就進行各種語義分析與處理,對知識進行語義表達,以語義化的方式對創(chuàng)作的內(nèi)容進行編輯,文獻[46]給出了一個這樣的語義出版流程,包括傳統(tǒng)出版過程中的語義化預(yù)處理、語義內(nèi)容加工和語義內(nèi)容審核,以及形成語義出版物之后的自動語義分析。托拜厄斯·庫恩(Tobias Kuhn)[47]將這種觸及出版內(nèi)部流程的,直接對知識進行語義表達的語義出版方式稱為真正的語義出版(Genuine Semantic Publishing),并給出了具體的實現(xiàn)來證明真正的語義出版的可行性,同時指出肖頓[48]最初給出的語義出版定義的局限性:一方面語義出版物必須和原始的文獻同時提供的要求約束性太強,另一方面原始的定義給出的語義實現(xiàn)方法太過于膚淺。真正的語義出版應(yīng)該更符合人們的直覺,它不要求語義出版物必須伴隨著原始的文獻一起提供,它可以獨立存在,同時認為經(jīng)過語義表達的內(nèi)容應(yīng)該作為語義出版物的首要創(chuàng)建和發(fā)布的對象。這樣的語義出版物需要覆蓋科學(xué)研究最主要的聲明及發(fā)現(xiàn),并且由其作者創(chuàng)建以保證其權(quán)威性,即可信任性,同時可以脫離原始的文獻(如果存在的話)而獨立存在,并保證其輕量級和細粒度來滿足實際的實踐需求。與此觀點類似,荷蘭皇家藝術(shù)與科學(xué)院士弗蘭克·哈姆倫(Frank van Harmelen)[49]也認為我們不僅僅要進行目前主流的通過信息抽取、語義增強的方式來開展語義出版,還應(yīng)該支持從源頭就開始進行語義出版物的生產(chǎn)。
實際上,參照這種對語義出版內(nèi)涵的直觀理解,目前對于語義出版的研究中已經(jīng)有一些具有所謂的真正的語義出版的意味。諸如納米出版物就是對原始論文中核心斷言的語義陳述,可以獨立發(fā)布;微型出版物[50]則聚焦于論文的論證網(wǎng)絡(luò),也可以獨立發(fā)布,只是和納米出版物具有不同的粒度和處理視角;以及SPAR本體、各種文檔結(jié)構(gòu)化的元數(shù)據(jù)和文檔交互工具等,都已經(jīng)在為這種深度的真正的語義出版做鋪墊。只不過目前主流的語義出版實踐掩蓋了這些所謂的真正的語義出版形態(tài)而已。
目前普及這種真正的語義出版還有難度,一方面它需要對現(xiàn)有出版流程的各個環(huán)節(jié)進行重新審視和改進,要求作者、編輯人員掌握知識的語義表達的各種手段,當(dāng)然很多工具可以開發(fā)出來輔助語義出版物的生產(chǎn),但真正的語義出版物的內(nèi)容創(chuàng)作類似于傳統(tǒng)出版物的創(chuàng)作,是需要作者親自參與進來的,這一點目前看來似乎不可能被計算機所取代。另一方面語義出版物的出現(xiàn)是為了加速學(xué)術(shù)交流,促進知識發(fā)現(xiàn),使得知識越來越容易被機器所“理解”,這就帶來一個問題,對于已經(jīng)習(xí)慣于閱讀敘事型的文字和圖像符號的人類而言,閱讀這種語義出版物就比較困難。因此,真正的語義出版作為一個研究前沿,仍需要繼續(xù)探索。
4 結(jié) 論
本文從目前語義出版的研究與實踐中提煉出語義出版的若干研究熱點:語義出版數(shù)據(jù)的開放共享、語義出版的去中心化實踐以及真正的語義出版,分析了各自的內(nèi)涵及出現(xiàn)的必然性,以及這幾個方面對語義出版研究以及學(xué)術(shù)交流的價值。當(dāng)然這幾個維度是相互交疊的,也的確是整個語義出版研究與實踐需要解決和面對的問題和趨勢。在開放科學(xué)的大環(huán)境下,出版數(shù)據(jù)的開放共享趨勢很明顯,伴隨著開放共享,去中心化也逐漸走入人們的視野,該過程需要逐步推進,少不了出版商利益的權(quán)衡。語義出版數(shù)據(jù)的生產(chǎn)與發(fā)布需要遵循一定的原則,F(xiàn)AIR作為最新的數(shù)據(jù)組織管理原則已引起學(xué)者的廣泛關(guān)注。由于FAIR原則沒有規(guī)定具體的實現(xiàn)細節(jié),可預(yù)見未來對其內(nèi)涵的解讀仍將繼續(xù)深化,遵循FAIR原則的數(shù)據(jù)組織管理實踐也必將跟進。語義出版物及開發(fā)流程在這一原則指導(dǎo)下,也將向更為規(guī)范化的方向發(fā)展。
從實踐上看,語義出版物更多的是一種結(jié)構(gòu)化的知識組織形態(tài),最常見的比如納米出版物,蘊含了科學(xué)成果的斷言信息,已被視為科學(xué)交流的未來形態(tài)[51]。一方面,考慮到人類對敘事型文本、圖像等的閱讀習(xí)慣,也許目前主流的對出版物進行語義增強的方式對用戶來說仍是最好的形態(tài)。我們也看到已有很多相關(guān)的增強用戶交互功能的“可執(zhí)行”文檔,如基于Python語言的Jupyter Notebook代碼平臺[52],可以編輯敘事文字,也可以插入可執(zhí)行的代碼,可以加載后臺數(shù)據(jù),進行實時的數(shù)據(jù)結(jié)果驗證,現(xiàn)已經(jīng)被廣泛應(yīng)用。另一方面,如果對于語義出版物的編輯、可視化、呈現(xiàn)載體的設(shè)計等技術(shù)有新的突破,使得細粒度的語義出版物更容易被人們撰寫、生產(chǎn)和理解,那么也許不久的將來真正的語義出版物將成為常態(tài),語義出版物不再作為傳統(tǒng)科學(xué)出版物的衍生品,而是獨立發(fā)布,即真正的語義出版。
注 釋
[1][48]Shotton D. Semantic publishing: the coming revolution in scientific journal publishing[J]. Learned Publishing, 2009,22(2): 85-94
[2]Magazine D L. The five stars of online journal articles—a framework for article evaluation[J]. D-Lib Magazine, 2012,18(1/2)
[3]Schmidt N. Tackling complexity in an interdisciplinary scholarly network: Requirements for semantic publishing[J]. First Monday,2016,21(5)
[4]Pellegrini T. Semantic metadata in the publishing industry–technological achievements and economic implications[J]. Electronic Markets,2017,27(1):9-20
[5]Auer S, Bühmann L, Dirschl C, et al. Managing the life-cycle of linked data with the LOD2 stack[C]//International semantic Web conference. Springer, Berlin, Heidelberg,2012:1-16
[6]翁彥琴,彭希珺. 愛思唯爾(Elsevier)語義出版模式研究[J]. 中國科技期刊研究,2014,25(10):1256-1261
[7][28]Mikroyannidi E, Liu D, Lee R. Use of Semantic Web Technologies in the Architecture of the BBC Education Online Pages[M]//Open Data for Education. Springer International Publishing,2016: 67-85
[8]王莉莉,欒冠楠. 英國廣播公司(BBC)動態(tài)語義出版模式研究[J]. 圖書情報工作,2017,61(8):126-132
[9]Semantic Technologies in Content Management Systems: Trends, Applications and Evaluations[M]. Springer Science & Business Media,2012
[10]Peroni S. Semantic Publishing: issues, solutions and new trends in scholarly publishing within the Semantic Web era[D]. alma,2012
[11]Peroni S. Semantic Web Technologies and Legal Scholarly Publishing[M]. Springer,2014
[12]SePublica 2014 Semantic Publishing[EB/OL].[2017-12-05]. http://ceur-ws.org/Vol-1155
[13]Di Iorio A, Lange C, Dimou A, et al. Semantic publishing challenge–assessing the quality of scientific output by information extraction and interlinking[C]//Semantic Web Evaluation Challenge. Springer International Publishing, 2015: 65-80
[14][34]SPAR Ontologies.[EB/OL].[2017-12-05]. http://www.sparontologies.net
[15][46]徐雷. 語義出版應(yīng)用與研究進展[J]. 出版科學(xué),2016,24(3):33-39
[16]Semantic Lancet Project. [EB/OL].[2017-12-05]. http://www.semanticlancet.eu
[17]Linked Open Data. [EB/OL].[2017-12-05]. http://lod-cloud.net/versions/2017-08-22/lod.svg
[18]Ronzano F, Fisas B, del Bosque G C, et al. On the automated generation of scholarly publishing linked datasets: the case of CEUR-WS proceedings[C]//Semantic Web Evaluation Challenge. Springer International Publishing, 2015:177-188
[19]Hoekstra R, Groth P, Charlaganov M. Linkitup: Semantic Publishing of Research Data[C]//Semantic Web Evaluation Challenge. Springer, Cham,2014:95-100
[20][33]OpenCitations Corpus[EB/OL].[2017-12-05]. http://opencitations.net
[21]Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD'2008):990-998
[22]Di Iorio A, Peroni S, Poggi F, et al. Recognising document components in XML-based academic articles[C]//Proceedings of the 2013 ACM symposium on Document Engineering. ACM,2013: 181-184
[23]Ronzano F, Saggion H. Knowledge extraction and modeling from scientific publications[C]//International Workshop on Semantic, Analytics, Visualization. Springer, Cham,2016: 11-25
[24]Purohit S, Smith W, Chappell A, et al. Effective Tooling for Linked Data Publishing in Scientific Research[C]//Semantic Computing(ICSC), 2016 IEEE Tenth International Conference on. IEEE, 2016:24-31
[25]Ronzano F, Saggion H. Knowledge extraction and modeling from scientific publications[C]//International Workshop on Semantic, Analytics, Visualization. Springer, Cham, 2016:11-25
[26]Ding Y, Sun Y, Chen B, et al. Semantic web portal: a platform for better browsing and visualizing semantic data[J]. Active Media Technology, 2010:448-460
[27]VISUALIZE NANOPUBLICATION[EB/OL].[2017-12-05].http://dev.biosemantics.org/nanopubviz-old/nanopublication?uri=http://np.inn.ac/RAsGmevw3xWT0ICH2In5VhqUBZQFGLxdW4IXKUaap5DO8.nq
[29]Mina E, Thompson M, Kaliyaperumal R, et al. Nanopublications for exposing experimental data in the life-sciences: a Huntingtons Disease case study[J]. Journal of biomedical semantics, 2015,6(1):5
[30]翟姍姍,許鑫,夏立新,石義金. 語義出版技術(shù)在非遺數(shù)字資源共享中的應(yīng)用研究[J]. 圖書情報工作,2017,61(2):23-31
[31]I4OC. [EB/OL].[2017-12-05].https://i4oc.org
[32]Peroni S, Dutton A, Gray T, et al. Setting our bibliographic references free: towards open citation data[J]. Journal of Documentation, 2015, 71(2):253-277
[35]Verborgh R. Piecing the puzzle–Self-publishing queryable research data on the Web[C]//Proceedings of the 10th Workshop on Linked Data on the Web. 2017,1809:1-14
[36][41]Lange C, Auer S, Berners-Lee T. Decentralised Authoring, Annotations and Notifications for a Read-Write Web with dokieli[C]//Web Engineering: 17th International Conference, ICWE 2017, Rome, Italy, June 5-8, 2017, Proceedings. Springer, 2017, 10360:469
[37]許潔,王嘉昀. 基于區(qū)塊鏈技術(shù)的學(xué)術(shù)出版信任建設(shè)[J]. 出版科學(xué),2017(6):19-24
[38]Kuhn T, Dumontier M. Trusty URIs: Verifiable, immutable, and permanent digital artifacts for linked data[C]//European Semantic Web Conference. Springer, Cham,2014:395-410
[39]Dimou A, Vahdati S, Di Iorio A, et al. Challenges as enablers for high quality linked data: Insights from the semantic publishing challenge[J]. PeerJ Computer Science, 2017,3:e105
[40]Vahdati S, Dimou A, Lange C, et al. Semantic publishing challenge: bootstrapping a value chain for scientific data[C]//International Workshop on Semantic, Analytics, Visualization. Springer, Cham,2016:73-89
[42]Wilkinson M D, Dumontier M, Aalbersberg I J J, et al. The FAIR Guiding Principles for scientific data management and stewardship[J]. Scientific data, 2016, 3:160018
[43]Wilkinson M D, Verborgh R, da Silva Santos L O B, et al. Interoperability and FAIRness through a novel combination of Web technologies[J]. PeerJ Computer Science, 2017, 3:e110
[44]Lange C, Di Iorio A. Semantic publishing challenge–assessing the quality of scientific output[C]//Semantic Web Evaluation Challenge. Springer, Cham, 2014: 61-76
[45]Semantic publishing Challenge 2017[EB/OL].[2017-12-05]. https://github.com/ceurws/lod/wiki/SemPub2017
[47]Genuine Semantic Publishing.[EB/OL].[2017-12-05]. http://www.tkuhn.org/pub/sempub/sempub.dokieli.html
[49]The end of the scientific paper as we know it (or not...) FrankVanHarmelen[EB/OL].[2017-12-05]. https://www.slideshare.net/Frank.van.Harmelen/the-end-of-the-scientific-paper-as-we-know-it-or-not
[50]Clark T, Ciccarese P N, Goble C A. Micropublications: a semantic model for claims, evidence, arguments and annotations in biomedical communications[J]. Journal of biomedical semantics, 2014, 5(1): 28
[51]Mons B, van Haagen H, Chichester C, et al. The value of data[J]. Nature genetics, 2011, 43(4): 281-283
[52]Jupyter Notebook. [EB/OL].[2017-12-05]. http://jupyter.org/
(收稿日期:2017-12-06)