李楠 孫濟慶 馬卓
[摘 要] 指出語義出版以其對文獻知識內(nèi)容的結(jié)構(gòu)化發(fā)布與呈現(xiàn)成為備受關(guān)注的新興出版模式,通過梳理學術(shù)期刊的語義出版實踐,總結(jié)語義出版應(yīng)用的發(fā)展現(xiàn)狀,并在分析語義出版主要技術(shù)路線的基礎(chǔ)上建立語義出版的技術(shù)框架;重點關(guān)注學術(shù)文獻的語義建模問題,歸納代表性的應(yīng)用模型,并對文獻語義模型的未來發(fā)展趨勢進行展望。
[關(guān)鍵詞] 語義出版 語義增強 技術(shù)框架 文獻語義模型
[中圖分類號] G237 [文獻標識碼] A [文章編號] 1009-5853 (2015) 06-0085-08
Study on the Techniques Used in Academic Literature-Oriented Semantic Publishing
Li Nan Sun Jiqing Ma Zhuo
(Institute of Science and Technology information of East China University of Science and Technology,Shanghai, 200237)(Institute of Scientific and Technical Information of Ji-Lin Provence,Changchun,130033)
[Abstract] Semantic publishing becomes the newly an emerging mode which is renowned for its structured knowledge distribution and presentation for academic literature. The paper summarizes the state of the art development of semantic publishing through analyzing the cases of academic periodicals press,and builds a technical frame based on the main application implementation routes.Moreover,the semantic modeling issue on academic literature is focused on the disscussion, which mainly sums up all the typical application models so far as well as proposes a prospect towards the semantic modeling development tendency.
[Key words] Semantic publishing Semantic enrichment Technical frame Literature semantic model
1 引 言
隨著信息技術(shù)和大數(shù)據(jù)環(huán)境的發(fā)展,數(shù)字出版成為融合并超越傳統(tǒng)出版的重要出版模式,尤其在科學、技術(shù)和醫(yī)學領(lǐng)域(Science,Technology and Medicine,STM),數(shù)字出版進程正逐步加速,數(shù)字出版物市場占比不斷增大,無論從出版內(nèi)容、載體形態(tài)到呈現(xiàn)方式都日益豐富。然而,在數(shù)字出版蓬勃發(fā)展的同時,海量學術(shù)文獻資源在滿足科研人員信息需求的同時,也帶來了嚴重的信息過載壓力。在這種情況下,用戶只能借助文獻檢索技巧、戰(zhàn)略性閱讀等方式改善科學探索與知識獲取的效率。而作為知識傳播的主要媒介機構(gòu),信息服務(wù)商和出版商則致力于尋求優(yōu)化科學知識發(fā)布和共享的新途徑。其中,語義出版憑借其對文獻知識內(nèi)容的結(jié)構(gòu)化發(fā)布與呈現(xiàn)成為備受關(guān)注的新興出版形式。
早在21世紀初,語義網(wǎng)概念的興起就使得語義技術(shù)成為焦點,其核心在于為網(wǎng)絡(luò)資源嵌入機器可讀的語義標簽以實現(xiàn)網(wǎng)絡(luò)信息的智能化處理。隨著知識本體、自然語言處理等相關(guān)技術(shù)的發(fā)展,在語義檢索、個性化推薦等智能化的信息應(yīng)用服務(wù)中語義技術(shù)發(fā)揮著越來越重要的作用。受其影響,出版機構(gòu)也開始嘗試應(yīng)用語義技術(shù)改進出版流程。2009年,肖頓·戴維(Shotton D.)首次系統(tǒng)地提出語義出版概念,并將其界定為一種語義增強的期刊出版形式[1],通過語義標記豐富出版物的表現(xiàn)形式和知識內(nèi)容,提高出版物信息的可操作性、交互性和關(guān)聯(lián)性,最終實現(xiàn)智能化出版。語義出版一方面通過增強的出版功能改進傳統(tǒng)的知識發(fā)布形式,為科研用戶提供更加高效、精確的閱讀體驗,有助于提升科研人員的知識發(fā)現(xiàn)與創(chuàng)新效率,因此成為學術(shù)出版青睞的新型模式。另一方面,它也為圖書館、信息服務(wù)商等機構(gòu)的服務(wù)流程帶來沖擊。傳統(tǒng)信息資源開發(fā)與管理模式勢必需要適應(yīng)基于語義出版的信息環(huán)境,并在知識組織方法與策略上做出相應(yīng)調(diào)整。因此,語義出版的相關(guān)研究已成為近年來國際學術(shù)界在學術(shù)出版與信息資源管理領(lǐng)域普遍關(guān)心的熱點問題。
目前國內(nèi)尚未形成對語義出版技術(shù)的系統(tǒng)性研究,本文擬通過梳理和分析國外語義出版的應(yīng)用實踐和研究文獻,明確語義出版的基本技術(shù)路線,建立語義出版技術(shù)體系的基本框架,以期為我國語義出版的研究和實踐提供借鑒。
2 學術(shù)期刊的語義出版實踐
語義出版的價值在于通過出版物內(nèi)容的語義揭示以及外部資源的知識關(guān)聯(lián)實現(xiàn)學術(shù)出版功能的提升。這種通過結(jié)構(gòu)化描述實現(xiàn)計算機理解的方式,使得出版物內(nèi)容更易于直觀呈現(xiàn),能夠顯著提高讀者的閱讀效率。近年來,在英國皇家化學學會(RSC)、愛思唯爾(Elsevier)、自然出版集團(Nature)、美國科學公共圖書館(PLoS)等眾多知名學術(shù)組織及出版機構(gòu)的參與和共同推進下,語義出版已經(jīng)初步實現(xiàn)了從理念構(gòu)想向?qū)嵺`應(yīng)用的過渡,研究成果不斷涌現(xiàn)。愛斯唯爾開展的“未來的論文”計劃(Article of Future)從呈現(xiàn)(Presentation)、內(nèi)容(Content)、上下文(Context)三方面創(chuàng)新傳統(tǒng)的學術(shù)文獻服務(wù)。目前旗下的ScienceDirect平臺已經(jīng)在7個學科領(lǐng)域?qū)崿F(xiàn)了語義出版原型[2];皇家化學學會RSC最早推出Rich HTML形式的語義出版服務(wù),為平臺的部分期刊全文進行語義標注,并通過與多種類型化學及相關(guān)領(lǐng)域本體資源的關(guān)聯(lián)真正實現(xiàn)了語義層面的論文知識內(nèi)容擴充[3];PLoS系列期刊則通過與多種外部信息源及數(shù)據(jù)集建立鏈接的方式豐富文獻的有機內(nèi)容,并在此基礎(chǔ)上提供了論文級計量分析服務(wù)[4]。
2012年,肖頓歸納了語義出版實踐的基本形式與功能,認為學術(shù)期刊的語義增強主要體現(xiàn)為以下幾個方面[5]:① 增強對論文有機內(nèi)容的描述,如圖片、表格、參考文獻列表等包含有價值內(nèi)容的多模態(tài)信息的描述;② 增強對論文內(nèi)容描述的語義標注,如依據(jù)領(lǐng)域術(shù)語、概念等本體資源識別的命名實體;③ 提供與相關(guān)文獻等其他信息源的關(guān)聯(lián),如該文獻作者主頁、相關(guān)學術(shù)機構(gòu)網(wǎng)站等;④ 提供所有參考文獻的鏈接;⑤ 以XLS、CSV等可操作方式提供對文獻相關(guān)實驗數(shù)據(jù)的訪問;⑥ 提供對支持該文獻研究的全數(shù)據(jù)集的訪問;⑦ 實現(xiàn)對網(wǎng)絡(luò)上語義相關(guān)文獻的信息集成;⑧ 采用通用的數(shù)據(jù)描述規(guī)范發(fā)布文獻信息,實現(xiàn)開放訪問,包括文獻題錄信息、內(nèi)容摘要、參考文獻題錄信息等。
按照處理對象的不同,肖頓的語義增強功能可以分為兩種類型:一是對出版物外部特征的揭示,例如③④⑧提供了對基本題錄信息、參考文獻信息等的規(guī)范化描述,并依據(jù)這些外部特征建立起與外部資源的鏈接,豐富出版物的信息內(nèi)容;二是對出版物內(nèi)容特征的描述,指對出版物內(nèi)容和邏輯結(jié)構(gòu)的揭示,例如①實現(xiàn)論文章節(jié)、圖表等的結(jié)構(gòu)化,②對術(shù)語、概念等實體進行語義標注,⑦建立與語義相關(guān)文獻的關(guān)聯(lián)。第二種類型的功能應(yīng)用真正體現(xiàn)了從語義層面對出版形式的改變,即語義特征的形式化出版。
針對部分已開展語義出版嘗試的期刊或機構(gòu),調(diào)查上述8種語義增強功能的實現(xiàn)情況,部分結(jié)果如表1所示。
調(diào)查結(jié)果顯示:首先,語義出版的學術(shù)期刊基本以Rich HTML形式發(fā)布,這里借用了網(wǎng)絡(luò)開發(fā)術(shù)語“超文本鏈接標識語言”的概念,用于表示文獻內(nèi)容的發(fā)布已不再是簡單的文本形式,而是通過超鏈接方式實現(xiàn)了語義知識的擴展,增強了文獻的知識價值;其次,語義出版應(yīng)用多分布在生物、醫(yī)藥、化學等語義技術(shù)應(yīng)用廣泛且實踐成果豐富的領(lǐng)域,究其原因,語義出版的實現(xiàn)離不開語義技術(shù)以及領(lǐng)域本體等基礎(chǔ)知識資源的支持,而上述領(lǐng)域正是學術(shù)界語義技術(shù)應(yīng)用研究的高地,因而語義出版起步較早;值得注意的是,調(diào)查結(jié)果中幾乎所有的期刊都實現(xiàn)了①④⑧三項功能,而其他功能則出現(xiàn)明顯的發(fā)展不平衡現(xiàn)象,也就是說,針對文獻的基本題錄信息、章節(jié)圖表等內(nèi)容結(jié)構(gòu)與模塊信息的規(guī)范化、結(jié)構(gòu)化描述已成為業(yè)界認可的語義出版基本形式,而這些功能僅涉及了部分語義特征的描述,諸如命名實體標注、相關(guān)資源的語義集成等深層次的語義化功能則有待于進一步加強。
因此,如果將語義出版應(yīng)用的發(fā)展劃分為三個層次(如圖1所示):關(guān)注外部特征的初級階段、關(guān)注部分顯性或半隱性語義特征描述的過渡階段(淺層語義特征描述)以及全面實現(xiàn)語義特征標引的高級階段(深度語義特征標引),目前,相關(guān)實踐尚處于語義出版應(yīng)用的過渡階段。當然,在語義增強應(yīng)用需求的推動下,關(guān)于語義出版的應(yīng)用技術(shù)研究也不斷深入并取得一定的進展,相信隨著知識本體和自然語言處理等語義技術(shù)的發(fā)展,更多隱性的文獻特征將被挖掘出來并實現(xiàn)規(guī)范化描述,基礎(chǔ)數(shù)據(jù)、網(wǎng)絡(luò)資源等更多類型的信息源也將實現(xiàn)語義層面的有效集成。深度語義標引的高級階段是語義出版應(yīng)用發(fā)展的必然趨勢。
圖1 語義出版應(yīng)用的發(fā)展階段
3 語義出版的技術(shù)體系
語義出版模式對語義網(wǎng)技術(shù)提出了更高的應(yīng)用需求,相關(guān)研究也在不斷深入。目前,以本體和關(guān)聯(lián)數(shù)據(jù)技術(shù)為代表形成了兩條主要的技術(shù)路線。大量研究圍繞這兩條主線展開,為語義出版技術(shù)的發(fā)展奠定了堅實基礎(chǔ)。而圍繞語義出版的功能目標,在傳統(tǒng)出版流程的基礎(chǔ)上實現(xiàn)對出版物語義特征的深層揭示,語義出版的技術(shù)體系則融合了對文獻語義特征的知識挖掘以及關(guān)聯(lián),形成了以“特征描述、特征抽取和知識關(guān)聯(lián)”為主要內(nèi)容的語義出版技術(shù)框架。
3.1 主要技術(shù)路線
總體來看,有關(guān)語義出版的研究文獻總量較為豐富,其中以語義出版應(yīng)用的實現(xiàn)技術(shù)研究為主要方向,形成了兩條基本的技術(shù)路線。
(1)借助本體技術(shù)實現(xiàn)文獻對象及其知識內(nèi)容的語義描述。本體是一種形式化的,對于共享概念體系明確而又詳細的說明。因此,在計算機與信息科學領(lǐng)域,本體作為一種重要的用于描述特定領(lǐng)域中的對象,或者描述概念及其屬性、關(guān)系的工具,成為語義網(wǎng)應(yīng)用的基礎(chǔ)。根據(jù)應(yīng)用目標不同,可以把本體在語義出版中的應(yīng)用分為文獻本體和領(lǐng)域本體兩種類型。①文獻本體用于描述文獻題錄、內(nèi)容、結(jié)構(gòu)、論述等出版對象及其屬性,即出版對象的元數(shù)據(jù),包括用于描述書目及引用信息的本體(FRBR-aligned Bibliographic Ontology,F(xiàn)aBio;Citation Typing OntologymCito)[6]、應(yīng)用于出版內(nèi)容的納米語義模型Nano-Publication等。目前文獻本體的應(yīng)用能夠更為規(guī)范、清晰地描述文獻的內(nèi)容及外部特征,已被廣泛應(yīng)用于不同的語義出版實踐。例如,2011年歐洲創(chuàng)新藥物計劃(IMI)資助了為期3年的開放藥物學概念三元組倉儲(OpenPharmacological Concept Triple Store,Open PHACTS)項目,基于納米語義出版模型嘗試建立試驗數(shù)據(jù)和科學結(jié)論的規(guī)范語義描述本體,并在大規(guī)模生物醫(yī)藥文獻集上實現(xiàn)了開放的藥物學知識空間[7]。②領(lǐng)域本體是對領(lǐng)域知識中的概念及其屬性進行描述,即領(lǐng)域知識的元數(shù)據(jù)或?qū)I(yè)術(shù)語集,例如生物學基因本體(Gene Ontology,GO)、一體化醫(yī)學語言系統(tǒng)(Unified Medical Language System,UMLS)等,主要應(yīng)用于人工智能與機器理解,因此在語義出版領(lǐng)域的應(yīng)用也相當普遍。例如,奎拉爾(Queral-Rosinach N)等采用語義科學集成本體(Semantic Science Integrated Ontology,SIO)、美國國家癌癥中心術(shù)語資源系統(tǒng)(NCI Thesaurus)等進行基因疾病文獻的語義標注,并發(fā)布了94萬個描述規(guī)范的人類DNA科學陳述[8-9]。RSC數(shù)據(jù)庫為旗下眾多化學期刊論文進行全文語義標注,建立了與生物化學實體本體(Chemical Entities of Biological Interest,ChEBI)、化學方法本體(Chemical Methods Ontology,CMO)等的術(shù)語鏈接[10]。可以說,本體技術(shù)在語義出版過程中起著非常重要的作用,因而目前在本體資源較為豐富的化學、生物、醫(yī)學等領(lǐng)域,語義出版發(fā)展更為迅速,而在其他領(lǐng)域則需要著力推進知識資源建設(shè)的基礎(chǔ)工作。另外,基于本體的自動語義標注問題也是當前研究關(guān)注的重點,語義網(wǎng)技術(shù)強調(diào)對于語義的機器理解,但在已有較為成熟的應(yīng)用中仍是以人工處理方式為主,全自動的處理方法與實際應(yīng)用仍然存在差距,也是未來研究的發(fā)展方向。
(2)采用關(guān)聯(lián)數(shù)據(jù)為出版物連接更多外部開放的數(shù)據(jù)資源提供技術(shù)框架,使出版物知識內(nèi)容的豐富成為可能。傳統(tǒng)出版僅體現(xiàn)了文獻本身的基本內(nèi)容,對于語義相關(guān)的文獻、數(shù)據(jù)等資源并未涉及,而語義出版技術(shù)框架中明確了知識關(guān)聯(lián)的應(yīng)用需求,關(guān)聯(lián)數(shù)據(jù)則為這種知識關(guān)聯(lián)的建立提供了一種統(tǒng)一的資源描述框架。語義出版內(nèi)容的組織、關(guān)聯(lián)和共享都可以通過關(guān)聯(lián)數(shù)據(jù)得以實現(xiàn),后者因此成為語義出版應(yīng)用的熱點。米特拉切(Dumitrache A.)通過關(guān)聯(lián)數(shù)據(jù)建立DBpedia、機構(gòu)數(shù)據(jù)以及本體資源與出版物管理系統(tǒng)的鏈接[11];科羅塞特(Croset A.)提出利用維基百科、DBpedia、科學博客等資源進行集成語義分析[12];奇切斯特(Chichester C.)則為蛋白質(zhì)知識平臺neXtPro的文獻數(shù)據(jù)添加語義注釋,描述關(guān)于特定蛋白質(zhì)異形體轉(zhuǎn)錄后修飾的結(jié)論及其屬性,并表示成RDF/XML格式,其發(fā)布的neXtPro關(guān)聯(lián)數(shù)據(jù)集包含了圖結(jié)構(gòu)的語義出版單元[13]。事實上,對于語義出版而言,盡管外部數(shù)據(jù)資源的訪問、獲取等關(guān)聯(lián)數(shù)據(jù)消費行為對出版物知識內(nèi)容的豐裕程度有重要影響,但出版物知識內(nèi)容的組織和發(fā)布才是語義出版質(zhì)量的根基,知識單元的標引粒度、準確性、完備程度、有效性等則與關(guān)聯(lián)數(shù)據(jù)的建設(shè)有著密不可分的聯(lián)系。
3.2 語義出版技術(shù)框架
上述技術(shù)路線僅涉及面向語義出版應(yīng)用的兩個關(guān)鍵支撐技術(shù),反映了近年來相關(guān)研究密切關(guān)注的熱點主題。事實上,根據(jù)對語義出版實踐的梳理和總結(jié),語義出版的技術(shù)體系融匯了知識組織范疇下對文獻內(nèi)、外部特征的挖掘和知識關(guān)聯(lián)的構(gòu)建等更為廣泛的技術(shù)內(nèi)容,其基本技術(shù)框架如圖2所示,包含特征描述、特征抽取和知識關(guān)聯(lián)三個部分。
為了充分體現(xiàn)學術(shù)文獻的知識價值,學術(shù)出版必須盡可能完備地揭示文獻的主題內(nèi)容。因此,科學、全面地定義學術(shù)文獻的基本特征是語義出版中的基礎(chǔ)問題。而學術(shù)文獻的基本特征包括外部特征和語義特征兩部分:外部特征即文獻基本題錄項的描述,包括篇名、作者、機構(gòu)、作者關(guān)鍵詞、來源出版物、參考文獻等信息;語義特征則需要通過表達文獻知識內(nèi)涵、組成文獻主體的語義元素來刻畫。這些語義元素的有序組合形成了符合科學規(guī)律并具有邏輯關(guān)聯(lián)的知識單元,進而構(gòu)成文獻內(nèi)容的有機整體。按照表現(xiàn)形式,可以將語義元素分為以觀點、假設(shè)、事實、結(jié)論等科學陳述為基本形式的陳述型語義元素和以圖片、表格、實驗結(jié)果、基礎(chǔ)數(shù)據(jù)等為代表的多模態(tài)數(shù)據(jù)型語義元素兩種。上述文獻外部特征和語義特征共同構(gòu)成學術(shù)文獻出版模型,而在清楚定義文獻出版模型的基礎(chǔ)上,則可以利用本體、關(guān)聯(lián)數(shù)據(jù)等元數(shù)據(jù)解決方案實現(xiàn)文獻特征的規(guī)范化描述,為語義出版提供標準化的依據(jù)。由此形成的學術(shù)文獻出版模型及其資源描述方案成為語義出版技術(shù)體系的基礎(chǔ)與核心。
在明確出版目標學術(shù)文獻出版模型之后,語義出版的內(nèi)容基本確定。繼而需要思考的問題則是如何獲取出版內(nèi)容,即文獻特征的抽取問題,這也是語義出版的技術(shù)關(guān)鍵。根據(jù)文獻出版模型的定義,外部特征的抽取可通過對文獻題錄項信息的抽取獲得,一般為結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),處理難度較低。但是,近年來對于文獻題錄信息的抽取研究在新的應(yīng)用需求下有了新的發(fā)展方向,例如:對于參考文獻的標引從基本的參考文獻題錄信息的獲取,進而發(fā)展到對參考文獻的文內(nèi)位置等上下文信息的自動獲取[14];語義特征的抽取即實現(xiàn)文獻內(nèi)部語義元素的識別,針對不同類型的語義元素采用的處理技術(shù)也各不相同:對于陳述型語義元素,在文獻中多以自然語言論述的方式表達,因此在抽取時必須首先對文獻的內(nèi)容文本進行處理,包括語句切分、句法分析、語義分析等,這往往需要借助文本挖掘、自然語言理解等技術(shù)實現(xiàn)對語句特征的抽取,然后進行語義元素類別標注。目前相關(guān)研究集中在本體領(lǐng)域,根據(jù)對科學論述過程中邏輯組件的特征,人工識別假設(shè)、觀點、事實、結(jié)論等語義元素,尚未完全解決語義元素的自動標引問題;對于數(shù)據(jù)型語義元素,涉及圖片、表格、公式等多模態(tài)數(shù)據(jù)以及文獻相關(guān)的實驗數(shù)據(jù)集,其處理過程不僅需要考慮文獻內(nèi)容中各類數(shù)據(jù)的識別和抽取,還要考慮對圖片主題、表格信息、公式內(nèi)容等語義特征的描述,以及這些數(shù)據(jù)的語義特征與文本內(nèi)容的語義映射關(guān)系,因此多模態(tài)信息抽取技術(shù)是近年來相關(guān)領(lǐng)域關(guān)注的前沿熱點問題[15]。
關(guān)聯(lián)是知識組織的核心。語義出版將原本處于傳統(tǒng)出版之后的知識組織過程前移并融入出版流程,知識關(guān)聯(lián)因此也成為語義出版的重要內(nèi)容,進一步強化了出版過程中的知識多元化關(guān)聯(lián)和集成效應(yīng)。特征的描述和抽取過程實現(xiàn)了知識內(nèi)容的結(jié)構(gòu)化,為知識關(guān)聯(lián)從外部特征顯性相關(guān)向內(nèi)部語義特征相關(guān)的轉(zhuǎn)化提供了條件。因此,在語義出版環(huán)境下知識關(guān)聯(lián)突破作者、機構(gòu)、關(guān)鍵詞、引證文獻等傳統(tǒng)題錄項之間的顯性關(guān)系構(gòu)建,綜合了題錄、內(nèi)容、數(shù)據(jù)等多種類型外部特征和語義元素之間的語義連通路徑,實現(xiàn)動態(tài)、多維的知識關(guān)聯(lián)。知識關(guān)聯(lián)可以分為顯性和隱性兩種,其中對主題相關(guān)度、觀點相似性、事實相符度、數(shù)據(jù)一致性等不同層面知識范式的判定與度量成為語義出版中更為重要的關(guān)聯(lián)形式,而通過語義消歧、關(guān)系約簡及重構(gòu)等方式對顯性和隱性關(guān)聯(lián)進行融合則成為文獻層面語義關(guān)聯(lián)的未來發(fā)展方向。
4 學術(shù)文獻的語義模型研究
學術(shù)資源的價值體現(xiàn)于文獻中蘊含的豐富的知識單元。語義出版實質(zhì)上是通過語義描述及標引實現(xiàn)文獻知識的結(jié)構(gòu)化、豐富化,以促進資源的知識價值最大化。因此,文獻知識內(nèi)容的語義構(gòu)建是語義出版技術(shù)體系的核心問題,也是學界長期關(guān)注的基礎(chǔ)理論問題。2014年,魯伊斯-伊涅斯塔(Ruiz-Iniesta A.)曾撰文對當前可以用于描述學術(shù)文獻的本體模型進行了系統(tǒng)梳理,將文獻本體劃分為文檔本體、題錄和參考文獻本體以及科學論述本體三類[16]。本文結(jié)合目前領(lǐng)域研究現(xiàn)狀,將基于本體的文獻語義模型劃分為兩種:一是面向文獻結(jié)構(gòu)的語義模型,包含了對章節(jié)等文獻結(jié)構(gòu)部件、文獻題錄信息以及參考文獻信息的描述;二是面向文獻內(nèi)容的語義模型,專門用于對學術(shù)文獻中的研究目標、假設(shè)、論據(jù)、方法、試驗及結(jié)論等知識內(nèi)容進行描述,即描述科學論述信息的本體(Scientific discourse Ontology)。
4.1 面向文獻結(jié)構(gòu)的語義模型
在圖書情報領(lǐng)域,文獻元數(shù)據(jù)建設(shè)一直是研究的重點內(nèi)容。因此,以傳統(tǒng)的元數(shù)據(jù)模型為代表,相關(guān)研究開始較早并且已形成較為成熟的行業(yè)規(guī)范。近年來在語義網(wǎng)技術(shù)的推動下,基于本體的元數(shù)據(jù)方案不斷出現(xiàn),可應(yīng)用的本體實例相對較多,其中面向語義出版應(yīng)用最具代表性的是語義出版及引用本體(Semantic Publishing and Referencing Ontologies,SPAR),該模型為文獻標引提供了基本的語義框架。
如圖3所示,SPAR是由核心本體、相關(guān)本體、神經(jīng)醫(yī)學語義應(yīng)用本體(Semantic Web Applications in Neuromedicine,SWAN)本體[18]、本體設(shè)計模式、外部本體5種類型的本體構(gòu)成的本體集合。其中核心本體包括8個用于描述文獻題錄和參考文獻不同屬性特征的本體,如:面向FRBR的書目本體FaBiO;描述章、節(jié)、圖、表等文檔結(jié)構(gòu)部件的本體(Document Components Ontology,DoCO);包含不同引用關(guān)系以及類型定義的引用本體CiTO;反映參考文獻題錄及文內(nèi)引用特征的本體(Bibliographic Reference Ontology,BiRO;Citation Counting and Context Characterisation Ontology,C4O);以及與出版功能相關(guān)的出版角色本體(Publishing Roles Ontology,PRO)、出版狀態(tài)本體(Publishing Status Ontology,PSO)、出版流程本體(Publishing Workflow Ontology,PWO)。SWAN源自生物醫(yī)學領(lǐng)域的科學論述過程本體,可用于描述科研過程中的數(shù)據(jù)組織、提出假設(shè)、解釋推理及得出結(jié)論的整個知識生態(tài)。SPAR主要引用了其科學論述元素本體(Discourse Elements)部分。另外,SPAR還引入了書目模型(Functional Requirements for Bibliographic Records,F(xiàn)RBR)和作者及其關(guān)系描述本體(Friend-of-a-Friend,F(xiàn)OAF))等作為核心本體的補充。
如上所述,從基本書目題錄到參考文獻,再到參考文獻的題錄、引用位置、頻次等相關(guān)屬性,SPAR基本覆蓋了科學文獻的全部結(jié)構(gòu)性特征,同時SPAR本體集還引入了包括SWAN本體等在內(nèi)的科學論述過程本體,由此可以反映文獻語義建模從外部結(jié)構(gòu)逐步向內(nèi)容語義發(fā)展的趨勢。目前各領(lǐng)域正在致力于相關(guān)語義模型的完善,并且不斷加快SPAR本體的實例化進程,以促進多學科知識資源的共同繁榮。
4.2 面向文獻內(nèi)容的語義模型
本文整理了幾種代表性的面向文獻內(nèi)容的科學論述本體構(gòu)建實例,按照發(fā)展歷程科學論述本體的研究進展如圖4所示,相關(guān)研究正逐漸從科學論述的知識單元描述向具有邏輯關(guān)聯(lián)的科學論述過程描述過渡。早期的科學論述本體構(gòu)建關(guān)注對科學陳述中的基本知識單元的描述,例如科學論述本體(Scholarly Interpretation and Discourse,ScholOnto)[19]、科學文獻關(guān)鍵信息本體(Core Information about Scientific Papers,CISP)[20]、科學實驗本體(Common Ontology of Scientific Experiments,EXPO)[21]等,主要針對科學主張、假設(shè)、目標、背景、研究方法、實驗、模型、結(jié)論等科學論證過程的不同組成部分進行類和屬性定義,并應(yīng)用于領(lǐng)域文獻的自動標引。近年來研究則更加關(guān)注知識單元之間的邏輯關(guān)系即邏輯論證過程。例如科學論據(jù)描述本體(Argument Model Ontology,AMO)[22]根據(jù)圖爾敏(Toulmin)的科學論述理論提出,文獻闡述中包含科學主張、背景、依據(jù)等相互聯(lián)系的論述單元,單元之間又存在支持、包含、證實等邏輯屬性,由此進行了本體類及其屬性的定義??逅梗–arlos H.Marcondes)的文獻知識模型[23]則是在識別作者推理模式的基礎(chǔ)上,定位文獻中所有重要的結(jié)論并采用知識表達規(guī)范描述這些結(jié)論及其關(guān)系。在文獻本體構(gòu)建研究的發(fā)展過程中,出現(xiàn)了面向語義出版的語義應(yīng)用模型,增強了對文獻論述單元的規(guī)范化描述及其真實性的考證,例如,納米語義出版模型(NanoPublication)強調(diào)基本科學結(jié)論的描述必須包括出處、支持信息、完整性密鑰及唯一標識ID等信息,以反映核心內(nèi)容及其背景、語境信息,方便知識的集成、推理和發(fā)現(xiàn)[24-25]。微語義出版模型(Mircro Publication)則在此基礎(chǔ)上更加注重科學主張及其論據(jù)的關(guān)聯(lián)特征,通過自然語言陳述、數(shù)據(jù)、方法、材料支撐、分析、評論等多方面內(nèi)容形成文獻的科學論證鏈[26]。實際上,國內(nèi)早在2003年就由溫有奎等學者提出了知識元鏈接理論[27],將科學研究中的知識創(chuàng)新點視為知識元,認為文獻是由知識元構(gòu)成,并在后續(xù)研究中系統(tǒng)地論述了知識元的類型、標引方法、本體描述等[28-29]。但由于缺乏成熟的應(yīng)用環(huán)境,中文文獻本體構(gòu)建的應(yīng)用研究目前更多地停留在理論層面的描述,很少有簡單、清晰、規(guī)范的應(yīng)用實例開發(fā),因此相關(guān)研究仍有待進一步深入。
上述研究反映學術(shù)界早已開始關(guān)注學術(shù)文獻知識解構(gòu)問題。其中,結(jié)構(gòu)化知識部件的定義和描述一直是研究的重點,近年來也產(chǎn)生了大量從不同視角對文獻知識內(nèi)容進行本體建模的研究成果。然而,學術(shù)文獻是一個內(nèi)涵豐富的有機體。一方面文獻內(nèi)容(content)包含了表達科學知識的語義元素及邏輯關(guān)系,如文本的觀點闡述、論證過程信息等。另一方面,文獻也與科研的上下文環(huán)境(context)密切相關(guān),如研究環(huán)境、貢獻與角色、出版環(huán)境等。顯然已有研究成果并未能完全覆蓋上述內(nèi)容??梢哉f,目前學界對于文獻的這種富語義形態(tài)尚未形成系統(tǒng)、一致的認識與定義,構(gòu)建一種多元化的文獻富語義模型成為亟待解決的基礎(chǔ)研究問題。
5 總結(jié)與展望
傳統(tǒng)數(shù)字出版流程包括內(nèi)容制作、資源加工、內(nèi)容資源管理等環(huán)節(jié)。在資源加工過程中關(guān)注對作者、機構(gòu)、來源出版物以及參考文獻等外部文獻特征的揭示和報道。而語義出版則是在此基礎(chǔ)上將出版物的加工深度進一步提升到內(nèi)容層面,借助語義技術(shù)實現(xiàn)科學觀點、事實等真正有價值的知識單元的生產(chǎn)過程,并致力于在語義層面建立文獻之間、知識單元之間的知識關(guān)聯(lián)。通過對語義出版技術(shù)的研究,可以得出以下結(jié)論:①目前語義出版應(yīng)用實踐正處于淺層語義特征描述的過渡階段,隨著語義技術(shù)的發(fā)展必將向全面的深度語義化的知識關(guān)聯(lián)與集成邁進。②語義出版應(yīng)用技術(shù)融匯了對文獻內(nèi)、外部特征的挖掘以及多元化知識關(guān)聯(lián)的構(gòu)建,因此形成了“特征描述—特征抽取—知識關(guān)聯(lián)”三層技術(shù)框架,其中文獻特征的定義和描述是基礎(chǔ),文獻特征的抽取方法是技術(shù)關(guān)鍵,知識關(guān)聯(lián)則是語義出版知識增值的體現(xiàn)。③借助本體技術(shù)實現(xiàn)文獻對象及其知識內(nèi)容的語義描述是語義出版的主要技術(shù)路線,本體工程在語義出版應(yīng)用中的重要地位不會改變,在未來一段時期內(nèi)各學科領(lǐng)域的本體基礎(chǔ)建設(shè)將成為語義出版發(fā)展的重要推動力。④面向文獻結(jié)構(gòu)的語義模型已日趨成熟,未來將以其在各專業(yè)領(lǐng)域的實例化應(yīng)用研究為主,而面向文獻內(nèi)容的語義模型則有待完善,相關(guān)研究正從科學論述的知識單元描述向具有邏輯關(guān)聯(lián)的科學論述過程描述過渡。
總而言之,語義出版應(yīng)用研究在語義技術(shù)、信息科學等領(lǐng)域發(fā)展的推動下,正穩(wěn)步向成熟化和實例化邁進。未來語義出版技術(shù)的相關(guān)研究將繼續(xù)以“特征描述—特征抽取—知識關(guān)聯(lián)”技術(shù)框架為基礎(chǔ)不斷豐富和發(fā)展。其中,文獻的富語義建模研究仍有進一步發(fā)展空間,如何實現(xiàn)文獻語義特征的自動抽取等問題仍是未來各界關(guān)注的重點技術(shù)內(nèi)容。
注 釋
[1]Shotton D.Semantic Publishing:the coming revolution in scientific journal publishing[J].Learned Publishing,2009 (22):85-94
[2]The Article of the Future is now live[EB/OL]. [2015-04-24]. http://www.articleofthefuture.com/
[3]翁彥琴,李苑,彭?,B,等.英國皇家化學會(RSC)-科技期刊語義出版模式的研究[J].中國科技期刊研究,2013,24(5):825-829
[4]Shotton D, Portwin K, Klyne G, et al. Adventures in semantic publishing: exemplar semantic enhancements of a research article[J]. PLoS Computational Biology, 2009, 5(4): e1000361
[5]Shotton D . The Five Stars of Online Journal Articles - a Framework for Article Evaluation[EB/OL]. [2015-05-05]. http://www.dlib.org/dlib/january12/shotton/01shotton.html
[6]Peroni, S., Shotton, D. FaBiO and CiTO: ontologies for describing bibliographicresources and citations. Web Semantics: Science, Services and Agents on the WorldWide Web, 2012(17): 33-43
[7]Ratnam, Joseline; Zdrazil, Barbara; Digles, Daniela; et al. The Application of the Open Pharmacological Concepts Triple Store (Open PHACTS) to Support Drug Discovery Research[J].PLOS ONE, 2014,9(12): e115460
[8]Queralt-Rosinach N, Furlong L I. DisGeNET: from MySQL to Nanopublication, Modelling Gene-Disease Associations for the Semantic Web[C]. International School on Semantic Web Applications and Tools for Life Sciences , SWAT4LS. Aveiro, Portugal. 2012:1-4
[9]Queralt-Rosinacha N,Kuhnb T,Chichesterc C,et al.Publishing DisGeNET as Nanopublications[EB/OL]. [2015-05-05].
http://biorxiv.org/content/biorxiv/early/2014/10/16/010397.full.pdf
[10]RSC Publishing (Royal Society of Chemistry 2015). [2015-3-9]. http://pubs.rsc.org/
[11]Dumitrache A, Lange C. BauDenkMalNetz-Creating a Semantically Annotated Web Resource of Historical Buildings[C]. First Workshop on Semantic Publication (SePublica 2011) 8th Extended Semantic Web Conference Hersonissos, Crete, Greece, 2011: 30-41
[12]Croset A C S, Kafkas S, Liakata M, et al. Exploring the generation and integration of publishable scientific facts using the concept of nano-publications[C]. First Workshop on Semantic Publication (SePublica 2011) 8th Extended Semantic Web Conference Hersonissos, Crete, Greece, 2011: 13-17
[13]Chichester C, Karch O, Gaudeta P, et al. Converting neXtProt into Linked Data and nanopublications[EB/OL]. [2015-05-04]. http://www.semantic-web-journal.net/system/files/swj461.pdf
[14]Villegas N M, Tamura G, M€黮ler H A, et al. DYNAMICO: A reference model for governing control objectives and context relevance in self-adaptive software systems[M]. Software Engineering for Self-Adaptive Systems II. Springer Berlin Heidelberg, 2013: 265-293
[15]王睿佳,劉耀.面向科技文獻的多模態(tài)語義關(guān)聯(lián)特征提取與表達體系研究[J].大學圖書館學報,2012,30(5):71-76
[16]Ruiz-Iniesta, A., Corcho, O. A review of ontologies for describing scholarly and scientific documents[C]. CEUR Workshop Proceedings 2014(1155). 4th Workshop on Semantic Publishing, SePublica 2014. Co-located with the 11th Extended Semantic Web Conference, ESWC 2014; Anissaras; Greece, 2014: 1-12
[17]SPAR-semantic publishing and referencing [EB/OL]. [2015-4-24]. http://sempublishing.sourceforge.net/
[18]Semantic Web Applications in Neuromedicine (SWAN) Ontology[EB/OL]. [2015-04-24]. http://www.w3.org/TR/hcls-swan/
[19]Shum S B, Motta E, Domingue J. ScholOnto: an ontology-based digital library server for research documents and discourse[J]. International Journal on Digital Libraries, 2000, 3(3): 237-248
[20]Soldatova, L., Liakata, M. An ontology methodology and CISP - the proposed core information about scientific papers, JISC Project Report,2007 [EB/OL]. [2015-05-05]. http://ie-repository.jisc.ac.uk/137/
[21]Soldatova, L.N., King, R.D. An ontology of scientific experiments. Journal of The Royal Society Interface, 2006, 3(11):795-803
[22]The Argument Model Ontology (AMO)[EB/OL]. [2015-05-04]. http://www.essepuntato.it/2011/02/argument model
[23]Marcondes C H. A semantic model for scholarly electronic publishing[C]. First Workshop on Semantic Publication (SePublica 2011) 8th Extended Semantic Web Conference Hersonissos, Crete, Greece, 2011: 47-58
[24]Groth P, Gibson A, Velterop J. The anatomy of a nanopublication[J]. Information Services and Use, 2010, 30(1): 51-56
[25]Patrinos G P, Cooper D N, van Mulligen E, et al. Microattribution and nanopublication as means to incentivize the placement of human genome variation data into the public domain[J]. Human mutation, 2012, 33(11): 1503-1512
[26]Clark T, Ciccarese P, Goble C. Micropublications: a semantic model for claims, evidence, arguments and annotations in biomedical communications[J]. Journal of Biomedical Semantics, 2014, 5(1): 28
[27]溫有奎, 徐國華. 知識元鏈接理論[J]. 情報學報, 2003,22(6):665-670
[28]溫有奎, 溫浩, 徐端頤,等. 基于知識元的文本知識標引[J]. 情報學報, 2006,25(3):282-288
[29]溫浩, 溫有奎. 主題成因的知識元本體轉(zhuǎn)換模型研究[J]. 情報學報, 2011,30(11):1123-1128
(收稿日期:2015-07-19)