■翁彥琴 彭希珺
中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京市中關(guān)村北四環(huán)西路33號(hào) 100190,E-mail:wengyq@mail.las.ac.cn
科技期刊已完成從紙本印刷向數(shù)字化出版的轉(zhuǎn)型,數(shù)字形態(tài)成為學(xué)術(shù)期刊的主流形態(tài)[1]。隨著網(wǎng)絡(luò)環(huán)境的變化[2],期刊數(shù)字出版發(fā)展進(jìn)程可概括為逐步適應(yīng)數(shù)字化到主動(dòng)利用網(wǎng)絡(luò)技術(shù)的過(guò)程。考察網(wǎng)絡(luò)環(huán)境下科研人員的信息交流行為,除了搜索、下載、閱讀這些基本操作以外,還有一些關(guān)鍵應(yīng)用:核心資源的過(guò)濾抽??;信息加工(分類(lèi)、注釋、關(guān)聯(lián));群組內(nèi)的交互討論;根據(jù)個(gè)人需求定制。實(shí)際上,海量信息資源對(duì)于科研人員來(lái)說(shuō),篩選分辨的成本太高,組織加工的難度更大。因此,對(duì)于學(xué)術(shù)出版而言,不僅需要為讀者提供文本和簡(jiǎn)單的關(guān)鍵詞查詢,還需要能夠合理有效組織學(xué)術(shù)資源,利用語(yǔ)義網(wǎng)技術(shù)進(jìn)行深度描述與揭示,實(shí)現(xiàn)信息數(shù)字化、數(shù)字知識(shí)化、知識(shí)體系化,幫助用戶更有效地利用信息[3]。語(yǔ)義網(wǎng)的發(fā)展為學(xué)術(shù)文獻(xiàn)傳播帶來(lái)了新的可能,特別是W3C組織逐漸把語(yǔ)義網(wǎng)的相關(guān)標(biāo)準(zhǔn)(如OWL標(biāo)準(zhǔn))上升為國(guó)際標(biāo)準(zhǔn)之后,許多大的數(shù)據(jù)庫(kù)廠商開(kāi)始使用基于國(guó)際標(biāo)準(zhǔn)的方式來(lái)重新描述自己系統(tǒng)內(nèi)的數(shù)據(jù),使系統(tǒng)內(nèi)的數(shù)據(jù)逐漸以一種計(jì)算機(jī)可以理解的方式保存和檢索,并通過(guò)開(kāi)放數(shù)據(jù)鏈接(LOD),與外部數(shù)據(jù)實(shí)現(xiàn)基于知識(shí)的互聯(lián)互通?;谝陨媳尘埃瑖?guó)際知名出版機(jī)構(gòu)紛紛將語(yǔ)義網(wǎng)相關(guān)技術(shù)引入學(xué)術(shù)出版,嘗試將期刊內(nèi)容變成一種活的知識(shí)工具。David Shotton等[4]于2009年首次提出了語(yǔ)義出版的概念,即發(fā)掘并豐富文章的知識(shí)內(nèi)涵,使其在網(wǎng)絡(luò)上能夠更方便地被自動(dòng)發(fā)現(xiàn),可以自動(dòng)鏈接與之語(yǔ)義相關(guān)的文章;支持對(duì)文章中所包含的各種知識(shí)進(jìn)行訪問(wèn)并操作,文章之間各種知識(shí)能夠便捷的進(jìn)行關(guān)聯(lián)和集成。語(yǔ)義出版意味著出版機(jī)構(gòu)可以充分利用豐富的期刊內(nèi)容信息,提供知識(shí)的深度挖掘和關(guān)聯(lián)分析,進(jìn)而形成知識(shí)體系,幫助用戶發(fā)現(xiàn)或驗(yàn)證新知識(shí),這將成為期刊的新服務(wù)方向和新利潤(rùn)空間[5]。Outsell公司2012年的STM報(bào)告[6]提到“語(yǔ)義技術(shù)已成為STM期刊的主要技術(shù)發(fā)展趨勢(shì),至少在大型出版商或出版平臺(tái)中已成為主流。盡管尚不能實(shí)現(xiàn)完全意義上的語(yǔ)義網(wǎng),但出版商已經(jīng)開(kāi)始使用語(yǔ)義標(biāo)準(zhǔn)的‘關(guān)聯(lián)數(shù)據(jù)’使內(nèi)容更容易被檢索和再利用”。語(yǔ)義增強(qiáng)從更智能的內(nèi)容、實(shí)現(xiàn)新的產(chǎn)品和服務(wù)以及提高內(nèi)部生產(chǎn)效率三個(gè)方面促進(jìn)STM出版[7]。眾多知名出版機(jī)構(gòu),包括 PLoSOne、ACS、NEJM、Nature、IOPP、RSC[8]、Elsevier等紛紛推出自己的語(yǔ)義出版功能模塊。
我國(guó)STM期刊出版領(lǐng)域也逐漸開(kāi)始關(guān)注和嘗試語(yǔ)義出版方面的工作,但是,從編輯出版的視角進(jìn)行語(yǔ)義出版相關(guān)的案例研究還相對(duì)較少。繼英國(guó)皇家化學(xué)會(huì)(RSC)科技期刊語(yǔ)義出版案例研究[8]之后,本文對(duì)愛(ài)思唯爾ClinicalKey語(yǔ)義出版所關(guān)聯(lián)的學(xué)科知識(shí)環(huán)境(即相應(yīng)的各種信息資源)以及智能內(nèi)容(特別是Elsevier自主研發(fā)的全新醫(yī)學(xué)分類(lèi)法EMMeT)進(jìn)行了介紹,展示了其語(yǔ)義方面的實(shí)際應(yīng)用,并探討了學(xué)科化集成平臺(tái)的語(yǔ)義出版模式。作為語(yǔ)義出版在醫(yī)學(xué)領(lǐng)域的應(yīng)用實(shí)例,愛(ài)思唯爾ClinicalKey為學(xué)科出版平臺(tái)或數(shù)據(jù)庫(kù)的語(yǔ)義化發(fā)展提供了寶貴的經(jīng)驗(yàn)?;诖?,文章最后提出我國(guó)科技期刊語(yǔ)義出版模式的探索及發(fā)展對(duì)策。
愛(ài)思唯爾(Elsevier)[9]是全球領(lǐng)先的科技、醫(yī)學(xué)出版社,每年出版學(xué)術(shù)論文數(shù)量占市場(chǎng)1/4,包括2500多種同行評(píng)審期刊和15000多種圖書(shū),同時(shí)也出品EI、Scopus、Embase等創(chuàng)新型文獻(xiàn)檢索數(shù)據(jù)庫(kù)。
作為世界領(lǐng)先的科學(xué)、技術(shù)和醫(yī)學(xué)信息產(chǎn)品和服務(wù)提供商,愛(ài)思唯爾在語(yǔ)義出版方面進(jìn)行了積極地嘗試和開(kāi)發(fā)。
愛(ài)思唯爾的語(yǔ)義出版路線圖指出語(yǔ)義出版的最終發(fā)展方向?yàn)楦叨茸詣?dòng)化的富含語(yǔ)義知識(shí)的智能內(nèi)容(smart content),提升論文的附加值[1]。通過(guò)“Article of the Future”[10]項(xiàng)目,愛(ài)思唯爾重新定義SciVerse ScienceDirect的文章以及相關(guān)文章頁(yè)面,為科研提供更好的傳播與交流平臺(tái)。2009年,該項(xiàng)目最先在Cell出版社實(shí)施,發(fā)展至2012年,所有的期刊都加入其中?!癆rticle of the Future”的概念包含以下三個(gè)方面:即(1)呈現(xiàn)形式:提供最佳在線瀏覽及閱讀體驗(yàn);(2)內(nèi)容:作者可以分享的更多,比如數(shù)據(jù)、代碼、多媒體信息等;(3)相關(guān)信息:在線文章與來(lái)源可靠的科技信息鏈接,并在相關(guān)信息中呈現(xiàn)出來(lái),提升附加值。他們提出,未來(lái)學(xué)術(shù)出版將會(huì)實(shí)現(xiàn)各種數(shù)字信息之間的交流更順暢、可與多種外部信息互聯(lián)、支持互動(dòng)型信息、易閱讀且可導(dǎo)航,最終學(xué)術(shù)出版不僅是信息載體,也是研究工具。
愛(ài)思唯爾于2012年正式發(fā)布了醫(yī)學(xué)信息平臺(tái)ClinicalKey[11],首次將“智能內(nèi)容”引入臨床領(lǐng)域,擁有全球最大的醫(yī)學(xué)信息資源庫(kù),涵蓋所有醫(yī)學(xué)??啤linicalKey建立了自主知識(shí)產(chǎn)權(quán)的醫(yī)學(xué)分類(lèi)法系統(tǒng)——“愛(ài)思唯爾合并醫(yī)學(xué)分類(lèi)法”(Elsevier Merged Medical Taxonomy,EMMeT),對(duì)海量的醫(yī)學(xué)內(nèi)容進(jìn)行深度標(biāo)引。ClinicalKey的內(nèi)容和后臺(tái)技術(shù)都在不斷更新,從而保證用戶能夠快速訪問(wèn)最新的臨床答案。
基于數(shù)十年從事科技期刊數(shù)字出版方面的經(jīng)驗(yàn)、深入的市場(chǎng)調(diào)研和對(duì)2000多名醫(yī)學(xué)專業(yè)人士的咨詢,愛(ài)思唯爾開(kāi)發(fā)的醫(yī)學(xué)信息平臺(tái)ClinicalKey在檢索方面顯示出人性化、可定制的內(nèi)容服務(wù)。ClinicalKey的主要特色為:綜合全面、權(quán)威和準(zhǔn)確快捷,其關(guān)鍵在于語(yǔ)義技術(shù)的使用。
愛(ài)思唯爾全醫(yī)學(xué)平臺(tái)ClinicalKey提供綜合全面且權(quán)威的信息。該平臺(tái)擁有全球最大的在線醫(yī)學(xué)信息資源,涵蓋所有臨床???,并提供最新的同行評(píng)議的循證醫(yī)學(xué)信息——消除用戶對(duì)不準(zhǔn)確的醫(yī)學(xué)資源的依賴。ClinicalKey包括醫(yī)學(xué)圖書(shū)、醫(yī)學(xué)期刊,提供最新最相關(guān)的循證醫(yī)學(xué)答案,以及專家評(píng)論、MEDLINE摘要和精選的第三方期刊[12]。
ClinicalKey平臺(tái)擁有的資源十分豐富,主要包括以下門(mén)類(lèi)[13]:Medline:2000多萬(wàn)條醫(yī)學(xué)文摘,涵蓋全球最核心的5000多種醫(yī)學(xué)期刊;期刊:核心醫(yī)學(xué)期刊500多種(含北美臨床系列期刊),包括the Lancet,Cell等頂級(jí)期刊;北美臨床系列期刊:50多種,收錄最新最精的臨床問(wèn)題專家評(píng)論文章;圖書(shū):1100多種,包含Doody Core Titles收錄的95%以上的愛(ài)思唯爾圖書(shū),如《格氏解剖學(xué)》、《坎貝爾骨科手術(shù)學(xué)》等圣經(jīng)級(jí)參考書(shū),《奈特人體解剖圖譜》、《Robbins基礎(chǔ)病理學(xué)》等權(quán)威教材;圖片:超過(guò)4000000張,包括醫(yī)學(xué)影像、照片、圖片、圖表等;床旁治療:一期上線外科主題500多項(xiàng),以簡(jiǎn)明扼要的方式提供臨床決策所必需的信息;醫(yī)療操作:臨床操作視頻350多個(gè),并配有文字、圖解等詮釋操作流程和關(guān)鍵點(diǎn);醫(yī)療(手術(shù))視頻:18000多個(gè),包括Procedures Consult在內(nèi)的2500多個(gè)臨床視頻;循證醫(yī)學(xué):750多個(gè)First Consult醫(yī)學(xué)主題;藥物專論:2900 多個(gè),來(lái)源于 Gold Standard’smonographs;臨床試驗(yàn):13000多個(gè),來(lái)源于NIH在全球范圍的注冊(cè)的臨床試驗(yàn);診療指南:4000多個(gè),來(lái)源于歐美權(quán)威的專業(yè)學(xué)、協(xié)會(huì);患者教育:包括9000多份患者教育講義;醫(yī)學(xué)年鑒:近30種,收錄對(duì)全球數(shù)百種經(jīng)典醫(yī)學(xué)期刊文章的評(píng)論。
近年來(lái)語(yǔ)義出版在學(xué)術(shù)出版領(lǐng)域也越來(lái)越得到重視,尤其在STM領(lǐng)域進(jìn)行了一系列試驗(yàn)并逐步推出正式的服務(wù)。語(yǔ)義出版實(shí)踐者結(jié)合多種語(yǔ)義處理技術(shù)和網(wǎng)絡(luò)服務(wù)協(xié)議,如XML技術(shù)、自然語(yǔ)言處理技術(shù)、本體、語(yǔ)義網(wǎng)、信息可視化、API、SOAP、RSS、CrossRef、DOI等,分別從出版平臺(tái)、出版物和閱讀終端三個(gè)層面進(jìn)行語(yǔ)義增強(qiáng)。語(yǔ)義增強(qiáng)可以增強(qiáng)檢索和挖掘能力,通過(guò)新的方式發(fā)現(xiàn)相關(guān)內(nèi)容,探究新的領(lǐng)域,進(jìn)而將科學(xué)研究推進(jìn)到更廣闊的語(yǔ)境。
結(jié)構(gòu)化的XML允許各種系統(tǒng)理解和處理內(nèi)容,如識(shí)別摘要或參考文獻(xiàn);而智能內(nèi)容能夠更好地處理內(nèi)容背后的意義,如識(shí)別給定的文章或段落歸屬于某一特定主題,附加了豐富的語(yǔ)義信息[14]。ClinicalKey的強(qiáng)大功能以愛(ài)思唯爾Smart Content為源動(dòng)力,即根據(jù)EMMeT進(jìn)行深度標(biāo)引,支持語(yǔ)義檢索。
EMMeT是 Elsevier與 Healthline合作,花費(fèi)十余年時(shí)間開(kāi)發(fā)的分類(lèi)法。EMMeT選取 RxNorm、MeSH、SNOMED CT、ICD-9和LOINC臨床應(yīng)用方面的內(nèi)容,并結(jié)合其在UMLS的相互關(guān)系從而建立新的臨床分類(lèi)。通過(guò)內(nèi)容標(biāo)引,EMMeT將ClinicalKey平臺(tái)豐富的資源轉(zhuǎn)換成擁有25萬(wàn)核心醫(yī)學(xué)概念、大于1百萬(wàn)個(gè)同義詞、大于1百萬(wàn)個(gè)等級(jí)關(guān)系、1百萬(wàn)個(gè)本體關(guān)系的分類(lèi)系統(tǒng)體系和本體庫(kù)(圖 1)[15]。 以“Cancer(乳腺癌)”為例,其在EMMeT中的名稱包含醫(yī)學(xué)名詞、用戶常用名詞、同義詞、代碼、語(yǔ)義類(lèi)型(群組)、等級(jí)關(guān)系如上位詞(如乳腺疾病、胸部腫瘤等)和下位詞(如乳房肉瘤等)、以及語(yǔ)義關(guān)系如診斷方法、治療方法、用藥、預(yù)防、并發(fā)癥、風(fēng)險(xiǎn)等等。
圖1 EMM eT視圖[15]
語(yǔ)義網(wǎng)可提供基于領(lǐng)域知識(shí)庫(kù)的知識(shí)導(dǎo)航,而不是按目前的人為分類(lèi)導(dǎo)航,這對(duì)讀者有更大的意義,同時(shí),語(yǔ)義網(wǎng)可以為讀者提供更聰明的查詢,不僅提高了文獻(xiàn)檢索的效率,還可以對(duì)檢索結(jié)果進(jìn)行智能聚類(lèi)和智能分析。EMMeT使得ClinicalKey能夠理解龐大的醫(yī)學(xué)概念之間的聯(lián)系并找到最相關(guān)的內(nèi)容,通過(guò)把這些關(guān)系按照等級(jí)進(jìn)行整理,保證ClinicalKey能夠?yàn)橛脩舻臋z索請(qǐng)求提供具體并且有針對(duì)性的答案,并且也可以發(fā)現(xiàn)其他傳統(tǒng)搜索引擎可能忽略的內(nèi)容(圖2)。檢索結(jié)果可根據(jù)需要進(jìn)行分類(lèi),包括研究類(lèi)型(ClinicalKey包括系統(tǒng)性綜述、薈萃分析、隨機(jī)對(duì)照試驗(yàn)和敘述性綜述四大類(lèi)型)、出版時(shí)間(可按照出版日期,如近6個(gè)月、12個(gè)月、18個(gè)月、2年或5年出版)、??疲–linicalKey包含的所有臨床??疲?、資源類(lèi)型(ClinicalKey各大類(lèi)資源,可選擇一類(lèi)或多類(lèi))。例如,愛(ài)思唯爾智能內(nèi)容能使計(jì)算機(jī)識(shí)別不僅是關(guān)于“心肌梗死”的文章,而且包括其語(yǔ)義相關(guān)的各類(lèi)文章,如“心肌梗死”的同義詞“心臟病”,以及一個(gè)相應(yīng)的縮寫(xiě)“MI”;一種與高膽固醇相關(guān)的心血管疾病,MI可通過(guò)一定的藥物或外科手術(shù)治療。ClinicalKey還允許用戶根據(jù)有臨床意義的子分類(lèi)篩選檢索結(jié)果,比如內(nèi)容類(lèi)型、???、疾病名稱、身體部位等等。專門(mén)的專科工具幫助用戶快速?gòu)尼t(yī)學(xué)主題概述進(jìn)入深層次的??苾?nèi)容。
另外,從ClinicalKey中檢索到的信息可以非常方便地和他人分享,幫助用戶和同事同行進(jìn)行交流。例如,平臺(tái)嵌入了PPT制作工具,使得用戶和同事同行可以隨時(shí)交流最新醫(yī)學(xué)信息,用戶也可以通過(guò)郵件分享論文、圖書(shū)章節(jié)、影像、圖像或者視頻錄像。
圖2 ClinicalKey的工作方式[15]
《中國(guó)科協(xié)科技期刊發(fā)展報(bào)告(2014)》[16]指出目前大多數(shù)中國(guó)科協(xié)科技期刊的自建網(wǎng)站和在中國(guó)知網(wǎng)、萬(wàn)方數(shù)據(jù)等發(fā)布的全文內(nèi)容的數(shù)字化加工尚處于數(shù)字出版1.0階段(電子化階段),與國(guó)外相比差距很大。中國(guó)科協(xié)科技期刊啟用新媒體應(yīng)用的情況調(diào)查顯示,在參與調(diào)查的674個(gè)期刊編輯部中啟用語(yǔ)義出版的編輯部?jī)H有3個(gè),占0.4%。國(guó)內(nèi)學(xué)者和機(jī)構(gòu)對(duì)資源語(yǔ)義分類(lèi)與檢索技術(shù)在具體領(lǐng)域?qū)嵺`方面的研究還不夠深入,大部分僅停留在可行性分析與實(shí)驗(yàn)驗(yàn)證階段,具有實(shí)用價(jià)值的語(yǔ)義分類(lèi)與檢索系統(tǒng)還較少[17]。
中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心張曉林教授于2009年提出Journal 3.0模型,從Enriched Content、Linked&Mashed-up Discovery、Open&Collaborative Communication三個(gè)維度揭示期刊的數(shù)字化發(fā)展模型[18],率先在語(yǔ)義出版方面進(jìn)行積極探索。隨后,國(guó)內(nèi)大的數(shù)據(jù)庫(kù)商、編輯出版平臺(tái)提供商和部分期刊編輯部也逐步關(guān)注并涉足語(yǔ)義出版領(lǐng)域。目前取得的進(jìn)展包括:
(1)基礎(chǔ)數(shù)據(jù)的標(biāo)準(zhǔn)化輸出
隨著數(shù)字出版的快速發(fā)展,期刊編輯部也逐漸重視數(shù)字出版方面的工作。但是,在國(guó)內(nèi)發(fā)展數(shù)字出版特別是語(yǔ)義出版面臨的首要問(wèn)題即基礎(chǔ)數(shù)據(jù)復(fù)雜的技術(shù)實(shí)施過(guò)程。作為語(yǔ)義出版的基礎(chǔ),首先需要利用HTML5和XML等技術(shù)實(shí)現(xiàn)論文內(nèi)容的結(jié)構(gòu)化描述,從而達(dá)到內(nèi)容與形式版面的分離,支持對(duì)期刊內(nèi)容的計(jì)算機(jī)理解和處理。中文期刊長(zhǎng)期使用方正排版軟件,但是該軟件的輸出文件并不支持XML格式,排版文件不可編輯。近兩年,方正公司旗下的團(tuán)隊(duì)與各編輯出版平臺(tái)提供商如瑪格泰克公司、勤云公司合作研發(fā)的書(shū)暢自動(dòng)排版引擎,實(shí)現(xiàn)了編輯平臺(tái)到排版軟件的直接對(duì)接,可生成粗顆粒度的全文XML文件。也有編輯部改為直接使用word排版,導(dǎo)出數(shù)字出版所需的各類(lèi)文件。另外,基于大部分期刊尚不具備使用新軟件或word排版的現(xiàn)狀以及歷史數(shù)據(jù)回溯需求,也有公司(如瑪格泰克公司)開(kāi)發(fā)出各種排版結(jié)果文件(如word、書(shū)版文件、飛騰排版文件、Latex和Indesign等)轉(zhuǎn)化XML文件的服務(wù);還有另外一些公司,開(kāi)發(fā)出直接從PDF文件加工成XML文件的工具,進(jìn)而在XML文件的基礎(chǔ)上,生成各種新型出版形態(tài),即“后結(jié)構(gòu)化”。但是,這種服務(wù)僅可作為權(quán)宜之計(jì)。
(2)相關(guān)技術(shù)的開(kāi)發(fā)
鑒于標(biāo)準(zhǔn)數(shù)據(jù)輸出的完成,技術(shù)公司往往會(huì)率先進(jìn)入后續(xù)開(kāi)發(fā)階段。目前,技術(shù)公司[19]已實(shí)現(xiàn)以下功能:①對(duì)整個(gè)庫(kù)(如一本雜志或多本雜志的集群),建立知識(shí)元的云圖(Tag cloud);②建立圖片庫(kù),實(shí)現(xiàn)文中與圖相關(guān)的句子自動(dòng)抽取,并定位到文章。后續(xù)的開(kāi)發(fā)包括③針對(duì)單篇文章的Tag cloud,并實(shí)現(xiàn)從知識(shí)點(diǎn)→句子→段落的閱讀模式;④針對(duì)一個(gè)知識(shí)點(diǎn),自動(dòng)匯聚不同文章的句子或段落,實(shí)現(xiàn)文章之間基于知識(shí)的片段互聯(lián)。
(3)富媒體出版
技術(shù)問(wèn)題的解決,推動(dòng)中文期刊數(shù)字出版的步伐不斷加快。近些年,編輯出版平臺(tái)提供商及期刊數(shù)字出版服務(wù)公司紛紛推出期刊的全文html出版方案。中文科技期刊的網(wǎng)站終于不再只有下載PDF閱讀這種單一模式,越來(lái)越多的中文期刊網(wǎng)站采用全文html,圖表呈現(xiàn)更加直觀和美觀、能夠提供方便的文內(nèi)導(dǎo)航功能和全文檢索等等擴(kuò)展功能。其中,瑪格泰克公司推出的富媒體制作技術(shù)服務(wù)采用語(yǔ)義識(shí)別技術(shù),符合NLM DTD3.0規(guī)范,可實(shí)現(xiàn)期刊全文結(jié)構(gòu)化和富媒體出版,典型案例如《作物學(xué)報(bào)》的RichHTML出版。
(4)語(yǔ)義出版的初步嘗試
已有部分期刊、刊群或大型數(shù)據(jù)出版商在語(yǔ)義出版方面進(jìn)行了積極的探索和嘗試,并推出相應(yīng)的平臺(tái)。較為典型的案例包括:①Journal 3.0項(xiàng)目一期搭建的圖書(shū)情報(bào)知識(shí)服務(wù)平臺(tái)和化學(xué)研究集成服務(wù)平臺(tái),以不同學(xué)科的單刊作為試點(diǎn),基本實(shí)現(xiàn)文章題目摘要部分的語(yǔ)義增強(qiáng),通過(guò)計(jì)算知識(shí)點(diǎn)之間的相關(guān)度,建立知識(shí)點(diǎn)之間簡(jiǎn)單的關(guān)聯(lián)關(guān)系,以及知識(shí)點(diǎn)與文獻(xiàn)、知識(shí)點(diǎn)與作者之間的關(guān)聯(lián)關(guān)系。②資源環(huán)境科學(xué)數(shù)字知識(shí)庫(kù)Lore是以多刊集群提供個(gè)性化、語(yǔ)義化的數(shù)據(jù)增值服務(wù),實(shí)現(xiàn)知識(shí)檢索、內(nèi)容碎片化和可視化展示等功能。③JIS期刊集群管理系統(tǒng),建立專業(yè)化的期刊數(shù)字出版平臺(tái),可實(shí)現(xiàn)期刊管理、論文管理、知識(shí)挖掘、資訊管理等各方面的應(yīng)用,初步實(shí)現(xiàn)的案例包括中國(guó)光學(xué)期刊網(wǎng)、中國(guó)水產(chǎn)期刊網(wǎng)和腫瘤科學(xué)網(wǎng)。④萬(wàn)方醫(yī)學(xué)網(wǎng)擁有豐富的中文醫(yī)學(xué)資源并整合PubMed等外文資源,實(shí)現(xiàn)MeSH詞表的漢化,可進(jìn)行多途徑專業(yè)檢索,并提供知識(shí)鏈接服務(wù),如檢索結(jié)果科學(xué)聚類(lèi)、相關(guān)信息(相關(guān)主題詞、檢索詞、專家和機(jī)構(gòu))鏈接和DOI鏈接匹配。
語(yǔ)義出版改變的不僅是學(xué)術(shù)期刊的傳播形態(tài),還將為期刊內(nèi)容帶來(lái)全新的組織、表征、利用方式。與國(guó)外數(shù)據(jù)庫(kù)商摸索建設(shè)多年且成功實(shí)踐相比,我國(guó)語(yǔ)義出版的發(fā)展尚處于覺(jué)醒和初級(jí)發(fā)展階段,差距甚大。中文科技期刊語(yǔ)義出版的發(fā)展應(yīng)特別注意與國(guó)際通用標(biāo)準(zhǔn)(如OWL標(biāo)準(zhǔn))的對(duì)接,同時(shí),中文表述的本體(包括用戶描述通常語(yǔ)義關(guān)系的公共知識(shí)本體,如用于描述人、機(jī)構(gòu)、事物、語(yǔ)言及其關(guān)系以及用于描述本學(xué)科領(lǐng)域的知識(shí)關(guān)系本體)的開(kāi)發(fā)也應(yīng)引起期刊界同仁的足夠重視和關(guān)注。就我國(guó)科技期刊語(yǔ)義出版的未來(lái)發(fā)展,建議如下:
(1)以學(xué)科為紐帶推動(dòng)語(yǔ)義出版的發(fā)展。語(yǔ)義增強(qiáng)在一定程度上與學(xué)科的相關(guān)度較大,國(guó)外的成功模式也多是基于某一學(xué)科進(jìn)行語(yǔ)義架構(gòu)和關(guān)聯(lián)。鑒于數(shù)字化對(duì)期刊的積聚效應(yīng)和增值效應(yīng),刊群是數(shù)字化時(shí)代的產(chǎn)物,也是數(shù)字期刊的生存方式和發(fā)展方式[20],而學(xué)科化刊群又獨(dú)具學(xué)科優(yōu)勢(shì)。我國(guó)學(xué)科化刊群和學(xué)科平臺(tái)建設(shè)已有一定的基礎(chǔ)和規(guī)模,中國(guó)科協(xié)學(xué)科化刊群中期刊規(guī)模達(dá)到10種及以上的為24個(gè),期刊總量為549種,占中國(guó)科協(xié)科技期刊總量的51.9%,其中中國(guó)光學(xué)期刊網(wǎng)吸引了國(guó)內(nèi)50余種光學(xué)領(lǐng)域的期刊加盟,中國(guó)地學(xué)期刊網(wǎng)是已收錄232種地學(xué)期刊[16]。我國(guó)學(xué)科化刊群和學(xué)科平臺(tái)的資源優(yōu)勢(shì)非常突出,可率先在語(yǔ)義出版方面進(jìn)行積極的嘗試和實(shí)踐。
(2)建立和維護(hù)中文知識(shí)關(guān)聯(lián)環(huán)境。國(guó)外數(shù)據(jù)庫(kù)中除個(gè)別的站點(diǎn),如StemBook有獨(dú)立的文獻(xiàn)庫(kù)外,許多站點(diǎn)是以大量的公共資源本體(如PubMed、MeSH詞表、OBO、Cell Ontology、Sequence Ontology、ChEBI、RXNO、CMO、MOP、ChemSpider等)作為處理對(duì)象,提供基于語(yǔ)義的分析深度檢索和挖掘服務(wù)。我國(guó)尚缺乏可直接用于語(yǔ)義增強(qiáng)的中文本體庫(kù)資源。建立和維護(hù)標(biāo)準(zhǔn)的、可關(guān)聯(lián)的中文專業(yè)數(shù)據(jù)庫(kù)仍是目前亟待解決的問(wèn)題。
(3)以Web為期刊默認(rèn)形態(tài),重視基礎(chǔ)數(shù)據(jù)建設(shè)。盡管已經(jīng)積極嘗試各種新媒體出版,但是由于技術(shù)或觀念的限制,中文期刊仍無(wú)法擺脫紙本優(yōu)先的老路。未來(lái)的期刊出版還是應(yīng)考慮以Web作為期刊的默認(rèn)形態(tài),按照Web形式重新打造期刊的內(nèi)容組織、呈現(xiàn)和利用形態(tài),在編輯加工定稿后,應(yīng)該首先生成XML文件,然后再根據(jù)需要生成各種版式文件,如印刷版的PDF、Web版的HTML文件等,即“前結(jié)構(gòu)化”。
(4)重視技術(shù)人才,積極與技術(shù)公司合作。語(yǔ)義出版的實(shí)現(xiàn)遠(yuǎn)非編輯部甚至刊群一己之力能夠駕馭。國(guó)外出版商大都采用合作的方式來(lái)彌補(bǔ)技術(shù)方面的短板,RSC參與了出版商與劍橋大學(xué)的合作項(xiàng)目SciBorg用于解決化學(xué)領(lǐng)域核心詞匯的抽??;Elsevier與Healthline合作開(kāi)發(fā)EMMeT分類(lèi)法。中文科技期刊或刊群語(yǔ)義出版的真正實(shí)現(xiàn),有賴于與技術(shù)公司精誠(chéng)合作。隨著數(shù)字化、新媒體進(jìn)程的加快,編輯出版領(lǐng)域亟需引入有技術(shù)背景的編輯人才,如材料期刊網(wǎng)[21]引進(jìn)優(yōu)秀技術(shù)人才,在科技期刊網(wǎng)絡(luò)化、數(shù)字化出版以及網(wǎng)絡(luò)經(jīng)營(yíng)管理等方面進(jìn)行積極探索,并取得了較好的成效。
無(wú)論出版形態(tài)如何變化,科技期刊為讀者作者服務(wù)的宗旨不會(huì)改變。語(yǔ)義出版,強(qiáng)調(diào)合理有效組織學(xué)術(shù)資源以及深度描述與揭示信息,其目的也是更好地為讀者作者服務(wù)。本文介紹了Elsevier在語(yǔ)義出版方面的出色工作,并提出我國(guó)科技期刊語(yǔ)義發(fā)展的對(duì)策,以期引起國(guó)內(nèi)科技期刊同行對(duì)語(yǔ)義出版的關(guān)注和討論,探索適合中文科技期刊發(fā)展的語(yǔ)義出版進(jìn)程。
1 彭?,B,張曉林.國(guó)際學(xué)術(shù)期刊的數(shù)字化發(fā)展趨勢(shì).中國(guó)科技期刊研究,2013,24(6):1033-1038
2 董成悌,周維彬.面向服務(wù)的 Web3.0網(wǎng)絡(luò).情報(bào)探索,2010,(10): 108-110
3 Scope eKnowledge Center Pvt.Ltd.Semantic Enrichment.The Key to Successful Knowledge Extraction from STM Literature[R].October 2008
4 Shotton D.Semantic Publishing:the coming revolution in scientific journal publishing.Learned Publishing, 2009, 22(2): 85-94
5 Mayer D.Mainstream Semantic Enrichment[EB/OL].[2012-10-06].http://www.stm-assoc.org/2011_12_02_Innovations_Mayer_Mainstream_Semantic_Enrichment.pdf
6 Ware M, Mabe M.The STM report: An overview of STM publishing.Hague:International Association of Scientific Technical and Medical Publishers,2012
7 姚偉欣,馬建華.新學(xué)術(shù)環(huán)境下科技期刊數(shù)字出版平臺(tái)的技術(shù)發(fā)展趨勢(shì).中國(guó)科技期刊研究,2013,24(6):1039-1043
8 翁彥琴,李苑,彭?,B.英國(guó)皇家化學(xué)會(huì)(RSC)科技期刊語(yǔ)義出版模式的研究.中國(guó)科技期刊研究,2013,24(5):825-829
9 Elsevier.[EB/OL].[2014-05-15].http://www.elseviermed.cn/company/AboutUs.html
10 Elsevier.Article of the Future.[EB/OL].[2014-05-15].http://www.articleofthefuture.com/about
11 Elsevier.Clinicalkey.[EB/OL].[2014-05-15].https://www.clinicalkey.com/
12 Clinicalkey communication.[2014-05-15]. http://sns.elseviermed.cn/article/topic/2951
13 Clinicalkey introducation.[2014-05-15]. http://www.elseviermed.cn/company/ClinicalKey.html
14 Elsevier Smart Content and the Next Generation of Clinical Information[EB/OL].[2012-10-06].http://info.clinicalkey.com/docs/physicians/ClinicalKey-Smart-Content.pdf
15 孫杰.劃時(shí)代全醫(yī)學(xué)信息平臺(tái)-ClinicalKey[2013-05-15].http://lib.ccmu.edu.cn/attach/0/130508155435465.pdf
16 中國(guó)科學(xué)技術(shù)協(xié)會(huì).中國(guó)科協(xié)科技期刊發(fā)展報(bào)告(2014).北京:中國(guó)科學(xué)技術(shù)出版社,2014
17 胡澤文.基于WordNet和SUMO本體集成的自動(dòng)語(yǔ)義檢索及可視化模型.國(guó)家圖書(shū)館學(xué)刊,2012,(2):23-32
18 張曉林.科技期刊的數(shù)字戰(zhàn)略.中國(guó)科學(xué)院科技期刊主編崗位培訓(xùn)班.2009-07-04,北京
19 林家樂(lè).學(xué)術(shù)期刊若干前沿技術(shù).數(shù)字出版前沿技術(shù)研討會(huì).2014-04,北京
20 初景利.科技期刊刊群建設(shè)動(dòng)力機(jī)制.科技期刊刊群建設(shè)模式與機(jī)制學(xué)術(shù)研討會(huì).2013-11,蘇州
21 黃春曉.集群數(shù)字出版及采編排版一體化的實(shí)踐和探索.科技期刊出版與傳播專題培訓(xùn)班.2014-06-18,北京