蘇靜
?
面向科學交流的語義出版體系建設研究*
蘇靜
(陜西師范大學新聞與傳播學院,西安 710119)
作為新興的數(shù)字出版高級形式,語義出版有必要系統(tǒng)梳理正式交流和非正式交流的資源產(chǎn)出形態(tài),并設計語義知識網(wǎng)絡建設框架,以便有效滿足科學交流進程中的信息訴求。在對比數(shù)字出版和語義出版實現(xiàn)流程的基礎上,指出語義出版的實現(xiàn)流程應增加出版機構(gòu)主動式內(nèi)容采集過程,細化內(nèi)容編輯與發(fā)布環(huán)節(jié)的增值運作,并在內(nèi)容消費階段著重關注用戶反饋及其與作者、編輯之間的互動?;诖耍鶕?jù)語義出版的建設要求,提出從資源層、管理層、方法層和服務層4個層面構(gòu)建適用于現(xiàn)有學術信息環(huán)境和科研人員需求的體系框架。其中,語義出版的知識服務效應需在多源化、規(guī)?;Y源的基礎上實現(xiàn),深層次語義關聯(lián)與推薦是語義出版體系建設的關鍵。
科學交流;語義出版;知識組織;關聯(lián)數(shù)據(jù)
20世紀70年代,蘇聯(lián)情報學家Α.И.米哈依洛夫[1]便指出,科學交流是科學研究中不可分割的一部分,是科學賴以存在和發(fā)展的基本機制。一方面,當前圖書、期刊、報紙等傳統(tǒng)型科學交流信息載體已無法有效滿足科研用戶的多層次需求;另一方面,微博、微信、社區(qū)、論壇、預印本系統(tǒng)、機構(gòu)知識庫、學科倉儲等非正式交流方式應運而生,一定程度上擠壓了傳統(tǒng)科學交流渠道的生存空間,對原有的閉合式科學交流信息鏈造成沖擊。同時,科研過程中的實驗數(shù)據(jù)、視頻音頻、評述、討論、補充性材料等科學資源大量涌現(xiàn),碎片化內(nèi)容、微傳播內(nèi)容也影響著傳統(tǒng)出版形式的內(nèi)容價值。語義出版作為新興的數(shù)字出版高級形式,旨在滿足科學交流進程中的信息訴求,有必要全面梳理正式交流和非正式交流的資源產(chǎn)出形態(tài),以構(gòu)建多源化、規(guī)模化資源基礎上的語義知識網(wǎng)絡,減輕科研人員在學術信息檢索和利用方面的時間成本和智力成本,以期更好地發(fā)揮科學交流系統(tǒng)的整體功能。
由此,本文在對比數(shù)字出版和語義出版實現(xiàn)流程的基礎上,指出語義出版流程的獨特性,有助于語義出版建設主體理解出版流程融合或是再造時的重點環(huán)節(jié)。同時,根據(jù)語義出版的建設要求,提出適用于現(xiàn)有學術信息環(huán)境和科研人員需求的體系框架,具體從資源層、管理層、方法層和服務層4個層面構(gòu)建,以保障語義出版體系有效、穩(wěn)定和可持續(xù)地運行。
傳統(tǒng)出版是一種線型的內(nèi)容資源生產(chǎn)、編校和傳播的過程,是以著作權的權益讓渡為基礎,包括選題策劃、組稿審稿、編輯加工、批量復制和發(fā)行等環(huán)節(jié);編輯人員可根據(jù)策劃活動結(jié)果選擇合適的作者和作品,并將最終知識成果及其文化屬性固化于圖書、期刊等載體以進行交流和傳承[2]。由此可見,傳統(tǒng)出版流程是由選題、組稿、編輯、校對、裝幀設計、出版發(fā)行等一系列環(huán)節(jié)組成的完整流程,其中,選題的策劃、論證和組稿質(zhì)量直接影響出版產(chǎn)品的出版效益,也是傳統(tǒng)出版流程的側(cè)重點;內(nèi)容層面的描述局限于題名、出版者、出版時間、字數(shù)、定價等外部特征的揭示。
早期的數(shù)字出版流程是在傳統(tǒng)出版的基礎上,利用數(shù)字技術對已有出版內(nèi)容資源進行數(shù)字化加工和傳播的過程,具體而言,是通過對數(shù)字內(nèi)容產(chǎn)品的分類及編輯加工,進一步規(guī)范從內(nèi)容轉(zhuǎn)檔、內(nèi)容采編、內(nèi)容管理到內(nèi)容開發(fā)的數(shù)字化出版制作流程?,F(xiàn)階段的數(shù)字出版主要是基于XML(可擴展標記語言)解決版式和流式文件的轉(zhuǎn)換,產(chǎn)生HTML、PDF、FLASH、EPUB、Umd等電子服務格式[3],主要涵蓋內(nèi)容創(chuàng)作、內(nèi)容編輯與發(fā)布、內(nèi)容消費3個環(huán)節(jié)。其中,內(nèi)容編輯與發(fā)布環(huán)節(jié)包括編輯層面的協(xié)同管理、內(nèi)容標引與審校、版權服務管理的功能(見圖1)??芍?,數(shù)字出版流程側(cè)重以計算機或是類似設備對出版內(nèi)容資源的數(shù)字化,仍然屬于一種先生產(chǎn)后銷售的線型出版模式。
目前,數(shù)字出版的內(nèi)容編輯加工階段已經(jīng)基本實現(xiàn)外部內(nèi)容特征的揭示、章節(jié)結(jié)構(gòu)、圖表、視頻、公式等內(nèi)部內(nèi)容的模塊化抽取,以及基于字符串匹配的文本標注和關聯(lián),其結(jié)果是大規(guī)模數(shù)據(jù)集的集成整合和依據(jù)一定屬性對內(nèi)容進行分門別類地展示。如檢索某一主題的相關文獻,頁面顯示結(jié)果除文獻列表外,還會提供出版日期、學科分類、語種、作者、機構(gòu)、基金、文獻載體、文獻來源等內(nèi)容特征的分類選項。但是,依據(jù)分類選項而被劃分的下一級數(shù)據(jù)結(jié)果仍然存在數(shù)據(jù)規(guī)模較大、數(shù)據(jù)質(zhì)量參差不齊、數(shù)據(jù)相關性模糊的問題。針對于此,科研用戶往往需要基于自身知識結(jié)構(gòu),通過人工判斷和逐層點擊跳轉(zhuǎn)至目標信息界面,這不僅無法實現(xiàn)節(jié)約用戶時間的目的,反而會極大地干擾和分散用戶的思維邏輯。
究其原因,現(xiàn)有的數(shù)字出版實現(xiàn)流程大致面臨3個關鍵問題:①缺乏內(nèi)容資源的多源關聯(lián),表現(xiàn)為內(nèi)容載體的形態(tài)較為局限,僅包括期刊、圖書、學位論文等,用戶無法獲取專利、科技報告、標準等相關主題文獻,也無法訪問作者的研究工具和數(shù)據(jù);②缺乏內(nèi)容資源的深度加工,僅對內(nèi)容資源進行字面匹配,難以洞察和挖掘隱性語義關系;③缺乏內(nèi)容資源的語義推薦,未實現(xiàn)在某一類別內(nèi)按照一定學科/領域/自定義規(guī)則對內(nèi)容相關性和內(nèi)容質(zhì)量進行評價、篩選和排序的高級功能。
相較于數(shù)字出版流程,語義出版的實現(xiàn)流程有必要圍繞科研用戶需求和行為特征,以加強語境理解、提高閱讀效率為目標,增加出版機構(gòu)主動式內(nèi)容采集過程,細化內(nèi)容編輯與發(fā)布環(huán)節(jié)的增值運作,并在內(nèi)容消費階段著重關注用戶反饋及其與作者、編輯之間的互動(見圖2)。換言之,語義出版是以內(nèi)容和用戶需求為核心的出版行為,屬于先生產(chǎn)采集,再加工重組,后銷售的雙向、互動型出版模式。
具體來看,一是內(nèi)容采集資源和內(nèi)容創(chuàng)作資源構(gòu)成語義出版的資源基礎,使其不只局限于擁有版權屬性的本地資源倉儲,擴大了數(shù)字出版的關聯(lián)對象,為知識化服務奠定了堅實的數(shù)字資源基礎。二是語義出版的實現(xiàn)流程創(chuàng)新了學術資源組織與發(fā)布方式,使其更加側(cè)重于內(nèi)容的結(jié)構(gòu)化加工、語義化關聯(lián)、知識化挖掘和動態(tài)化重組與發(fā)布,包括從海量內(nèi)容資源中抽取知識單元,并進行語義化標引、關聯(lián)、分析和評價,進而形成機器可讀的規(guī)范化表示方式,以可視化、交互式的在線表現(xiàn)形式對外呈現(xiàn)出來,充分盤活出版內(nèi)容資源的知識屬性,提升內(nèi)容資源的檢索、聚類和應用的能力。三是在現(xiàn)有學術環(huán)境驅(qū)動下的語義出版,不僅僅是“生產(chǎn)-傳播-消費”的線性過程,編輯、作者和讀者的交互頻率明顯增強。借助多方主體共同完成的知識選擇、復制和消費環(huán)節(jié),編輯和作者能夠及時收到用戶反饋信息,編輯可以快速調(diào)整選題方案和設計知識服務產(chǎn)品,作者在與目標用戶的動態(tài)交互中深化研究重難點和擴展研究思維,促使語義出版的知識價值呈現(xiàn)螺旋式上升。同時,傳統(tǒng)式規(guī)模化批量制作的知識生產(chǎn)方式儼然已經(jīng)不適用于現(xiàn)有時代,需要與大眾參與方式相融合,如讓用戶參與語義標注等環(huán)節(jié)的構(gòu)建與更新。
需要注意的是,出版不再僅是出版社的行為,所有從事信息產(chǎn)業(yè)的內(nèi)容提供者都可成為出版者[4]。語義出版的建設主體既包括傳統(tǒng)出版企業(yè),又包括信息服務機構(gòu)、信息集成商和信息技術提供商等。其中,傳統(tǒng)出版企業(yè)自身擁有極為豐富和具有特定特征的內(nèi)容資源優(yōu)勢,信息技術提供商可通過語義技術開發(fā)并優(yōu)化內(nèi)容資源的采集、處理和用戶服務方式,圖書館等信息服務機構(gòu)可利用用戶使用日志分析用戶行為特征和完善用戶服務手段,信息集成商則在內(nèi)容資源和用戶資源方面占據(jù)優(yōu)勢。
目前,以出版機構(gòu)的數(shù)據(jù)資源來看,可以被稱為小規(guī)模、零散式、異構(gòu)化數(shù)據(jù)。其中,小規(guī)模是指數(shù)據(jù)存量不大、增量不大、實時性不強;零散式是指數(shù)據(jù)來源沒有標準化通道,數(shù)據(jù)存儲和管理則散布在不同系統(tǒng)和部門;異構(gòu)化是指數(shù)據(jù)存儲方式、管理方式、數(shù)據(jù)結(jié)構(gòu)、語義表示和知識內(nèi)容本身等問題的不統(tǒng)一。因此,語義出版的體系框架,應按照“統(tǒng)一數(shù)據(jù)標準、統(tǒng)一業(yè)務流程、統(tǒng)一信息服務、統(tǒng)一組織工具”的要求構(gòu)建,利用媒介融合、立足優(yōu)質(zhì)內(nèi)容、基于用戶定位,實質(zhì)性推動內(nèi)容生產(chǎn)向?qū)崟r生產(chǎn)、數(shù)據(jù)化生產(chǎn)、用戶參與生產(chǎn)的方向轉(zhuǎn)變,形成在文獻高度增值利用和知識發(fā)現(xiàn)驅(qū)動下的語義出版內(nèi)容傳播系統(tǒng)。
語義出版體系框架是基礎性、工程化的建設方案,可適用于一篇論文或一本圖書,但要形成語義出版的知識服務效應,需要在資源規(guī)?;?、多源化的集成基礎上實現(xiàn)。其中,深層次語義關聯(lián)與推薦是語義出版體系建設的關鍵。語義出版的語義關聯(lián)與推薦,對內(nèi)需要提升知識組織能力,對外需要知識呈現(xiàn)和管理能力,這既包括對語義出版對象集的質(zhì)量評價、遴選、確定和采集,也要設計和應用統(tǒng)一的標準和知識體系對語義出版對象集進行知識抽取、知識表示和知識關聯(lián),完成語義出版內(nèi)容資源的標引、管理、整合和展現(xiàn),以智能技術實現(xiàn)知識資源的動態(tài)構(gòu)建與擴展,還需提供對知識關聯(lián)結(jié)果進行深層次識別、評價、篩選和排序的解決方案,并且基于用戶行為和自身需求,以軟件系統(tǒng)為媒介提供內(nèi)容交互性強、精準度高的語義出版產(chǎn)品及其知識服務,以加強知識的易獲得性和可利用性。語義出版的體系框架見圖3。
語義出版具有高度關聯(lián)性,打破了文字和圖片、表格、數(shù)據(jù)、工具、軟件的桎梏,消解了學術期刊、圖書、科技報告、會議論文、光盤等信息載體的形式化。為適應“數(shù)據(jù)密集型科學研究”,語義出版需將資源對象擴展到視頻、音頻、實驗數(shù)據(jù)等原始數(shù)據(jù),帶來傳統(tǒng)出版形態(tài)與開放出版、社交出版[5]等新興出版形態(tài)的在線融合,幫助科研用戶對知識的相關性、影響力、質(zhì)量和可信性做出較為準確的判斷。因此,語義出版系統(tǒng)架構(gòu)的基礎層需要著重圍繞傳統(tǒng)出版物資源,聯(lián)合采集和存儲關聯(lián)數(shù)據(jù)資源、社交網(wǎng)絡資源、用戶行為數(shù)據(jù)和其他開放資源,共同推動數(shù)字出版向高級的語義出版及其知識服務轉(zhuǎn)型。
3.1.1 傳統(tǒng)出版物
傳統(tǒng)出版物包括圖書、期刊、科技報告、地方志、工具書、標準、法律法規(guī)、專利、統(tǒng)計年鑒等,屬于精英生產(chǎn)內(nèi)容,即具有嚴格的內(nèi)容評價與篩選機制,數(shù)據(jù)結(jié)構(gòu)完整統(tǒng)一,內(nèi)容表達符合語法規(guī)范,基本不存在異構(gòu)和混亂數(shù)據(jù),具有較高的知識價值含量。因此,利用已有的存量出版資源是建設領域本體、開發(fā)專業(yè)知識庫的基礎,是出版機構(gòu)向知識服務提供商轉(zhuǎn)型的發(fā)力點。
3.1.2 關聯(lián)數(shù)據(jù)資源
2006年,萬維網(wǎng)聯(lián)盟提出關聯(lián)數(shù)據(jù)的概念,強調(diào)數(shù)據(jù)的相互關聯(lián)和便于人機理解的語境信息,強調(diào)構(gòu)建具有結(jié)構(gòu)化和富含語義的數(shù)據(jù)網(wǎng)絡,強調(diào)在語義網(wǎng)絡發(fā)布、共享、鏈接各種數(shù)據(jù)集、信息及知識,其主要作用是為本地數(shù)據(jù)建立外部關聯(lián),形成多種數(shù)據(jù)混搭建立的新數(shù)據(jù)集,以助于語義挖掘和推理實現(xiàn)知識的發(fā)現(xiàn)[6-7]。具體而言,關聯(lián)數(shù)據(jù)是指一種在Web上以結(jié)構(gòu)化數(shù)據(jù)發(fā)布的推薦形式,其基本原則包括:一是使用URI作為事物的名稱;二是以HTTP/URI協(xié)議請求獲取事物;三是當有人查找URI時,需使用推薦的標準(RDF、SPARQL)提供有用信息;四是應包含其他事物的URI鏈接,以便關聯(lián)發(fā)現(xiàn)更多事物[8-9]。
2006年起,多領域的參與者將數(shù)據(jù)發(fā)布為關聯(lián)數(shù)據(jù)并相互關聯(lián),形成關聯(lián)數(shù)據(jù)集云圖(Linking Open Data)。據(jù)筆者統(tǒng)計,截至2018年10月31日,關聯(lián)數(shù)據(jù)類型包括跨學科(cross domain)、地理科學(geography)、政府數(shù)據(jù)(government)、生命科學(life sciences)、語言學(linguistics)、媒體(media)、出版物(publications)、社交媒體(social networking)和用戶生成(user generated)9大類,共有1?229個關聯(lián)數(shù)據(jù)集合被發(fā)布[10]。其中,出版物關聯(lián)數(shù)據(jù)集合數(shù)量為147條,僅占關聯(lián)數(shù)據(jù)總數(shù)的11.96%,并且與其他關聯(lián)數(shù)據(jù)集合的入鏈數(shù)和出鏈數(shù)的最高值為32和55,屬于中等偏下水平,說明出版物在關聯(lián)數(shù)據(jù)發(fā)布方面還有較大的提升和發(fā)展空間。此外,按照被鏈接次數(shù)統(tǒng)計,DBpedia、NCI Thesaurus(國家癌癥研究所詞表庫)、SNOMED Clinical Terms(系統(tǒng)臨床醫(yī)學術語集)、Medical Subject Headings(醫(yī)學主題詞表)、NIFSTD(神經(jīng)科學信息框架標準本體)等已成為各類關聯(lián)數(shù)據(jù)集相連的基礎資源。
關聯(lián)數(shù)據(jù)具有較強的數(shù)據(jù)整合和重用功能,可以有效實現(xiàn)出版內(nèi)容資源組織與語義網(wǎng)的融合,在未來的知識服務中必然發(fā)揮重要作用,而我國出版業(yè)界對于關聯(lián)數(shù)據(jù)建設方面的重視程度不足,這將限制語義出版數(shù)據(jù)集規(guī)模效應的發(fā)揮。因此,有必要在語義出版體系框架內(nèi)引入關聯(lián)數(shù)據(jù)的概念,一方面,可通過將MARC、本地XML格式的原數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為關聯(lián)數(shù)據(jù),采用開放的標準,結(jié)合部分擴展元素(如schema.org、FOAF、DC等),形成通用結(jié)構(gòu)的數(shù)據(jù)并以stylesheet輸出,以提升本地資源的對外顯示度和被鏈接的可能性;另一方面,著重關注和遴選適用于本地資源的關聯(lián)數(shù)據(jù)集合,尤其是已被業(yè)界認可的、鏈接度較高的關聯(lián)數(shù)據(jù)集合,以擴充語義出版知識資源的語義容量。
3.1.3 社交數(shù)據(jù)
2016年6月,美國陸軍部發(fā)布《2016—2045年新興科技趨勢——領先預測綜合報告》[11],認為在未來的30年內(nèi),社交媒體將會給人們帶來可以創(chuàng)造出各自微型文化群體的能力。目前,從中國數(shù)字內(nèi)容產(chǎn)業(yè)的整體發(fā)展趨勢來看[12],在內(nèi)容創(chuàng)造、內(nèi)容互動、內(nèi)容分享和內(nèi)容消費各個階段的社交用戶數(shù)量均呈現(xiàn)規(guī)?;卣?,分別為1.4億、2.7億、3.7億和5.1億,社交用戶生成的作品數(shù)量更是加速增長。由此,依托社交媒體形成的去中心化的學術網(wǎng)絡結(jié)構(gòu),會對基于正式交流渠道的傳統(tǒng)學術交流體系產(chǎn)生深遠影響,需要引入“贊”“評論”等即時性較強的社交媒體數(shù)據(jù),以補充傳統(tǒng)出版內(nèi)容生產(chǎn)流程復雜、周期過長而產(chǎn)生的非實時性評價數(shù)據(jù)。
3.1.4 其他開放資源
其他開放資源主要包括數(shù)據(jù)倉儲、政府統(tǒng)計數(shù)據(jù)與新聞公告、研究報告等。目前,學科常用的數(shù)據(jù)倉儲包括GenBank(基因數(shù)據(jù))、Dryad(綜合學科)、PANGAEA(地球科學)、Knowledge Network for Biocomplexity(KNB)(生態(tài)和環(huán)境科學)、National Biological Information infrastructure(生物科學)、DataBasin(空間科學)、DataONE(跨學科)、PaleoBiology Database(古生物科學)、Protein Data Bank(PDB)、the Universal Protein Resource(UniProt)(序列和注釋數(shù)據(jù))、INSPIRE(空間科學)。此外,開放知識基金會(Open Knowledge Foundation)是2004年在英國劍橋成立的一家非營利性機構(gòu)。它專注于在數(shù)字時代推進各種形式的開放數(shù)據(jù)和開放內(nèi)容,旗下的旗艦級開源軟件項目CKAN,是世界頂級的開源數(shù)據(jù)門戶解決方案,已經(jīng)被美國政府數(shù)據(jù)開放門戶網(wǎng)站(data.gov)、英國政府數(shù)據(jù)開放門戶網(wǎng)站(data.gov.uk)、歐盟開放數(shù)據(jù)平臺等諸多國家/組織的政府機構(gòu)用于建設數(shù)據(jù)門戶。該平臺也可作為開放資源的關聯(lián)對象之一。以我國而言,國家科技管理信息系統(tǒng)、國家自然科學網(wǎng)、國家社會科學網(wǎng)、中國科學院的科學數(shù)據(jù)共享平臺也可成為語義出版的重要數(shù)據(jù)來源。
管理層的核心是基于標準的規(guī)范化加工、識別、描述,以實現(xiàn)文本、圖表、公式、音頻、視頻、概念、實體等對象的抽取與結(jié)構(gòu)化集成,最終以“RDF+ XML+SKOS”進行語義表示。以形成結(jié)構(gòu)化、數(shù)據(jù)化、語義化結(jié)果為目標,對原始內(nèi)容資源進行細顆粒度加工工作,支持知識單元加工與管理過程中通用標準的應用,完成結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)、文檔的存儲,形成多個XML數(shù)據(jù)庫、關系數(shù)據(jù)庫等,為下一步構(gòu)建專業(yè)詞庫體系、專業(yè)內(nèi)容分類體系、知識關聯(lián)網(wǎng)狀體系等創(chuàng)新型知識網(wǎng)絡奠定基礎。其中,知識單元是管理層的核心概念,它包括兩個方面:一是文章、篇、章、節(jié)、段落等;二是如概念、原理、圖表、數(shù)據(jù)的知識元,有助于后期通過知識元的語義邏輯關系構(gòu)建知識網(wǎng)絡[13]。知識元具有極好的擴展性,在分類和索引數(shù)據(jù)中較為有用,由知識元鏈接形成的知識網(wǎng)絡,一方面通過知識元間的隱含邏輯關系和語義關聯(lián),可以較好地揭示概念對象間復雜豐富的語義關系;另一方面借助與更多知識領域達成的良好互動,能夠及時展現(xiàn)某一學科領域中信息吸收與知識擴散的發(fā)展演變,有利于潛在知識的發(fā)現(xiàn)和深度挖掘。因此,厘清知識元關系,加強知識元解釋至關重要,這就要求語義出版體系框架內(nèi)的管理層通過對數(shù)字內(nèi)容進行多元化資源管理,實現(xiàn)資源碎片化加工、標引標注、主題詞創(chuàng)建等技術處理,對知識單元的修改、標引、超鏈、備注、標簽、關聯(lián)等進行專業(yè)化編輯加工,對文字、圖標、公式、表格進行矢量化、深層次、準確地標引,從而確保信息提取的精確性,滿足分類存儲和數(shù)據(jù)挖掘的需要。
方法層的主要任務是通過領域(行業(yè))本體的構(gòu)建,借助多語種知識組織模型、學術資源語義關系模型、規(guī)范文檔等類型的知識組織體系,以及可視化分析工具和引文分析工具,實現(xiàn)知識單元的自動關聯(lián)、挖掘與動態(tài)重組。
同時,方法層又可以理解為語義層、邏輯層和評價層,具有知識計算、知識地圖和知識評價的功能。具體來看,一是根據(jù)知識組織體系和領域本體完成知識庫和知識網(wǎng)絡的構(gòu)建,達到語義唯一性、互操作、關聯(lián)揭示和富含一定邏輯推理關系的目標[14],揭示結(jié)果可以是面向某一項目、機構(gòu)、地區(qū)、學科、人物、主題的知識系統(tǒng);二是根據(jù)關聯(lián)權重進行推薦計算、評價與智能排序,含篩選功能,有助于進行個性化推薦;三是根據(jù)用戶定制需求完成瀏覽界面互動設計和渲染,主要完成文章、段落、圖表、數(shù)據(jù)、附件資料等對象的交互性設計,達到信息可視化和交互化的目的。
在此過程中,語義出版建設主體需要持續(xù)研究URI、researchID等規(guī)范標識應用于知識單元的語義關聯(lián)與映射方式,研究從出版內(nèi)容數(shù)據(jù)中挖掘關聯(lián)知識、分類知識、聚類知識、預測知識、時間序列知識等的知識發(fā)現(xiàn)理論和方法,研究語義出版內(nèi)容包含的文本、聲音、圖像、視頻等富媒體數(shù)據(jù)的組織方法、技術和工具,研究知識的標引、關聯(lián)和重組技術與工具,研究知識服務創(chuàng)新模式和知識應用方法。
服務層是用來對語義出版服務產(chǎn)品進行功能展示和在線發(fā)布的途徑,具有用戶服務、管理和知識產(chǎn)權保護的基礎功能。在服務功能方面,一是需具有開放的理念與平臺嵌入式接口,強化數(shù)據(jù)開放服務模塊,可提供OAI-PMH接口,支持第三方在遵循使用許可協(xié)議,使語義出版服務產(chǎn)品能在知識產(chǎn)權保護條件下,可以自由靈活地嵌入多種信息發(fā)布系統(tǒng)或應用環(huán)境,同時,支持多種屬性內(nèi)容資源標識符標準的注冊、登記,以滿足數(shù)據(jù)共享、集成與融匯的需求;二是具有語義索引、分面檢索、本體導航、多維語義揭示的基本功能,如通過概念級別的擴檢與縮檢,實現(xiàn)不同顆粒度的智能查詢;三是具有主題知識聚類、知識演化分析、知識推理分析、科研實體評價、科技熱點監(jiān)測、學科預測與規(guī)劃的定制功能,也可為期刊編輯部識別核心作者和潛在作者群,為研究人員識別科研合作對象,了解同類別的高被引核心期刊,為研究機構(gòu)識別科研合作對象,更好了解同類別機構(gòu),為管理部門遴選專家,進行科研評估參考;四是關注用戶反饋,借助COUNTER statistics和CrossRef等系統(tǒng)開展基于用戶興趣與行為的個性化推薦服務,以體現(xiàn)服務方式的差異性。
同時,服務層應加大關注協(xié)同創(chuàng)新發(fā)展,一方面優(yōu)化用戶參與和反饋機制,允許用戶添加語義標注的行為,及時收集用戶知識需求重點;另一方面,面向研究人員、工程技術人員及管理人員構(gòu)建學術研究、技術革新、產(chǎn)品發(fā)明、決策支持等的協(xié)同研究和創(chuàng)新平臺。此外,語義出版的版權環(huán)境,也是促進語義出版健康、穩(wěn)定發(fā)展的必要基礎,需要加強版權保護技術處理和其他版權保護形式,加快技術創(chuàng)新和標準制定,為版權保護提供有效的技術手段,達到進行數(shù)字內(nèi)容資源版權保護的目的,切實保障著作權人合法權益和出版機構(gòu)的合法利益。
面向科學交流的語義出版體系建設,應圍繞科研用戶行為和需求,通過資源購買、共享協(xié)議簽訂、數(shù)據(jù)交換等方式擁有數(shù)據(jù)的知識產(chǎn)權,提高數(shù)據(jù)采集、存儲、管理和運用能力,支持數(shù)字文獻資源的戰(zhàn)略保存管理與二次開發(fā)利用,加強出版內(nèi)容資源、產(chǎn)品主題知識庫、用戶數(shù)據(jù)庫的建設,服務功能層面則應支持可視化分析、排序、智能推薦、分享等。同時,提供開放性的API數(shù)據(jù)接口,保障數(shù)據(jù)資源在一定范圍內(nèi)的互通互享。在具體操作中,針對多源基礎資源采集與整合的難題,語義出版建設主體須從整體實際情況出發(fā),對內(nèi)容、渠道、技術、資本、產(chǎn)品、人才等內(nèi)外部資源進行統(tǒng)籌協(xié)調(diào),以提升各個環(huán)節(jié)及整體協(xié)作的效率,加快語義化轉(zhuǎn)型步伐。此外,還應做好具有實踐性、前瞻性的頂層設計,開拓融合發(fā)展思路,提升數(shù)字出版內(nèi)容質(zhì)量和產(chǎn)品技術應用深度,拓展內(nèi)容服務范疇,加強人才隊伍建設。
[1] Α. И. 米哈依洛夫. 科學交流與情報學[M]. 北京:科學技術文獻出版社,1980:5-10.
[2] 王勇安,張雅君. 論出版產(chǎn)業(yè)融合發(fā)展的戰(zhàn)略思維[J]. 出版發(fā)行研究,2016(4):14-18.
[3] 黃孝章,張志林,陳丹. 數(shù)字出版產(chǎn)業(yè)發(fā)展模式研究[M]. 北京:知識產(chǎn)權出版社,2012:42.
[4] 史領空. 數(shù)字時代的出版[J]. 編輯學刊,2000(4):11-15.
[5] TUTEN T L,SOLOMON M R. Social Media Marketing[M]. 2nd ed. Los Angeles:Sage,2015.
[6] HEATH T,BIZER C. Linked Data:Evolving the Web into a Global Data Space[M]. San Rafael:Morgan & Claypool,2011.
[7] 薩蕾. 數(shù)字圖書館元數(shù)據(jù)基礎[M]. 北京:中央編譯出版社,2015:25-30.
[8] BERNERS-LEE T. Linked Data-Design Issues[EB/OL].[2018-07-02]. http://www.w3.org/DesignIssues/LinkedData.html.
[9] BIZER C. Expert Report on Linking Data[R/OL].[2018-07-02]. http://151.1.219.218/b43d3f37-bd5d-4144- 9779-b27a0ca3d1d5.pdf.
[10] 關聯(lián)數(shù)據(jù)云(LOD Cloud)[EB/OL].[2018-10-18]. https://lod-cloud.net/versions/2018-10-31/lod-cloud.png.
[11] Office of the Deputy Assistant Secretary of the Army(Research & Technology). Emerging Science and Technology Trends:2016—2045——A Synthesis of Leading Forecasts Report[R/OL].[2018-10-05]. http://www.defenseinnovationmarketplace.mil/ resources/2016_SciTechReport_16June2016.pdf.
[12] 騰訊研究院:2016中國數(shù)字內(nèi)容產(chǎn)業(yè)全景解讀[EB/OL].[2018-10-22]. http://www.alibuybuy.com/posts/90054. html.
[13] 曾建勛. 知識鏈接的構(gòu)建方式研究[J]. 圖書情報工作,2010,54(12):32-35,77.
[14] 許鑫,江燕青,翟姍姍. 面向語義出版的學術期刊數(shù)字資源聚合研究[J]. 圖書情報工作,2016,60(17):122-129.
Research on the Construction of Semantic Publishing for Scientific Communication
SU Jing
( School of Journalism and Communication, Shaanxi Normal University, Xi’an 710119, China )
As an emerging advanced form of digital publishing, semantic publishing is necessary to systematically sort out the resource output form of formal communication and informal communication and its semantic network construction framework in order to effectively meet the information demands in the process of scientific communication. On the basis of comparing the implementation process of digital publishing and semantic publishing, this article points out that the implementation process of semantic publishing should increase the active content collection process of publishing institutions, refine the value-added operation of content editing and publishing, and pay attention to user feedback and interaction with authors and editors during the content consumption phase. Based on this, according to the construction requirements of semantic publishing, it proposes to construct an institutional framework suitable for the existing academic information environment and scientific research personnel from the four levels of resource layer, management layer, method layer and service layer. Among them, the knowledge service effect of semantic publishing needs to be realized on the basis of multi-source and large-scale resources. Simultaneously deep semantic association and recommendation is the key to the construction of semantic publishing system.
Scientific Communication; Semantic Publishing; Knowledge Organization; Linked Data
G237
10.3772/j.issn.1673-2286.2018.11.009
(2018-11-02)
蘇靜,女,1988年生,博士,講師,研究方向:數(shù)字出版與知識組織,E-mail:owensujing@163.com。
*本研究得到國家社會科學基金重點項目“基于知識組織的圖書館資源發(fā)現(xiàn)服務體系研究”(編號:17ATQ002)資助。