■向 颯
1)鄭州大學學報編輯部,河南省鄭州市高新區(qū)科學大道100號 4500012)鄭州大學新聞與傳播學院,河南省鄭州市高新區(qū)科學大道100號 450001
在全球大數據時代,隨著云計算、信息技術以及媒介融合的發(fā)展,發(fā)達國家的學術出版數字化已經越來越成熟, 學術出版正在走向數據化和智能化。未來30年,數據將成為生產資料,計算則是生產力。出版數據包括用戶數據、內容數據和交互數據。學術出版數字化和智能化發(fā)展的關鍵從以產品為中心轉向與科研用戶建立長期關系,即高效參與科學研究的每一個環(huán)節(jié),關注現在的學者需要什么、科研熱點是什么、同行在做什么、讀者要什么、我應該與誰合作等。各大國際學術出版集團以掌握的海量科研論文、科研人員信息為基礎,憑借強大的技術創(chuàng)新、資源創(chuàng)新、服務創(chuàng)新、平臺創(chuàng)新走在學術出版數字化和智能化發(fā)展的前列。
本研究采用文獻調研法和案例分析法,對國外學術出版數字化和智能化發(fā)展現狀進行了梳理。趙曉芳[1]指出越靠近最終用戶(或讀者)的公司,其數據的活性越高, 終端產品的價值越大, 在數字出版產業(yè)鏈上的發(fā)言權就越大。李娟等[2]認為國際學術出版集團都積極拓展數字出版業(yè)務,形成了多元化的數字出版業(yè)態(tài),并且在增強數字化基礎建設及完善數字出版產業(yè)鏈等方面加強戰(zhàn)略規(guī)劃。劉戰(zhàn)兵等[3]指出愛思唯爾利用大數據技術和人工智能提供全球專業(yè)信息解決方案,集團平均每年投入5 億英鎊用于技術創(chuàng)新。方卿等[4]指出數據倉儲技術、文本數據挖掘技術、語義技術、ORCID行業(yè)標準等已經成為海外學術出版的技術熱點。任翔[5]指出歐美學術傳播已經朝著數據化與智能化轉變。梁帆[6]指出社交媒體平臺已經和國際出版商進行深度合作。2017年5月發(fā)布的《STM出版2021技術趨勢》報告指出,基于文本分析和數據挖掘的智能服務、編輯流程的創(chuàng)新、基于用戶數據的個體化服務是未來科技出版的趨勢[7]??傮w來看,國外學術出版產業(yè)已經進入數據化、智能化發(fā)展階段。近些年,我國學術出版整體形勢向好,科技實力正處于從量的積累向質的飛躍轉化的關鍵時期,但與國外學術出版運營狀況相比,我國科技期刊的融合出版缺少強有力的技術支撐,媒體融合進展和成效仍顯遲緩,知識服務投入和收入較低,知識產品形態(tài)和服務形式單一,學術出版和知識服務市場需要做大做強[8]。因此,大力加強我國學術出版的數字化和智能化對于推進國家科技創(chuàng)新體系建設、提升科技主動權和主導權、使我國成為世界主要科學中心和創(chuàng)新高地具有重要戰(zhàn)略意義。
新一代數字技術深度重構期刊形態(tài),學術社交平臺、可視化技術、區(qū)塊鏈技術等快速滲透,孕育顛覆式力量的眾多數字出版平臺開始崛起,跨平臺、融媒體、多模態(tài)版本、數據化和智能化成為學術出版的新方向。越來越多的出版商、學術機構、知識服務平臺加快數字化和智能化創(chuàng)新的步伐,數據、平臺、技術、服務等因素協(xié)同關聯(lián),對學術出版產生以下影響:數字出版業(yè)務占比加大;關聯(lián)開放數據出版平臺進一步開發(fā);數據資源建設得到加強;學術出版流程得到優(yōu)化;數字分析決策工具進一步開發(fā);基于用戶導向的知識服務內涵發(fā)生變革;學術出版機構和社交媒體深度合作。國外學術出版機構頻繁和高科技、智能化公司以及社交媒體展開緊密而卓有成效的合作,例如:湯森·路透公司與文本分析處理公司Linguamatics合作,利用自然語言處理(Natural Language Processing,NLP)技術推出藥物研發(fā)綜合情報平臺Cortellis,為藥物發(fā)現、臨床開發(fā)、注冊信息提交和產品商業(yè)化提供精確和可操作的解決方案;施普林格出版集團和數碼科技公司Digital Science、智能搜索初創(chuàng)公司Unsilo、化學信息軟件公司InfoChem和語義技術開發(fā)公司Ontotext等展開合作,不僅為平臺核心基礎結構功能的開發(fā)提供了支持,而且為平臺提供了高質量的可靠數據集及能實現數據快速高效錄入的語義圖形數據集[9]。
國際出版集團紛紛建立集內容生產、傳播、數據檢索為一體的大型數字化內容資源平臺[10]。為了讓用戶獲得更好的體驗,國外學術出版平臺積極和社交平臺合作,以提升資源訪問量。例如,愛思唯爾的ScienceDirect期刊平臺特色是支持相關參考工具書鏈接、圖表搜索、多種瀏覽器批量下載、操作歷史記錄、快讀鏈接、分類選項利用和個人信息管理等,其每3個月就會更新使用模式和搜索方法。2017年,愛思唯爾收購了數字共享平臺——美國加州伯克利的Bepress公司,以擴大學術圖書館的影響力。施普林格的SpringerLink期刊平臺的特色是:郵件定制服務、個人收藏夾、在線優(yōu)先出版、RSS訂閱等。通過網絡平臺推送即將出版的期刊和圖書目次、電子樣書和樣刊,與Google Scholar建立合作關系,向Google等搜索引擎、報紙、科技網站推送相關的新聞。與施普林格合作推送新聞的媒體網站多達100個,包括英國廣播公司(British Broadcasting Corporation,BBC)、《經濟學人》《紐約時報》以及著名的科學博客[6]。約翰·威利的Interscience平臺特色是記錄個人文件、獲取期刊最新信息;預出版、推送電子郵件、查看引用論文的所有出版物、支持漫游和移動閱讀等功能,并和社交媒體Facebook、學術協(xié)作網絡合作。湯森·路透的ISI Web of Knowledge平臺的特色是跨庫檢索、引文檢索、基于內容和引文的跨庫交叉瀏覽、檢索結果分析、定題跟蹤服務、引文報告和信息管理等,可以定量分析和評估高校的科研產出和影響力。
在資源內容建設方面,國外學術出版集團的核心運營戰(zhàn)略一直是斥巨資投入科技研發(fā)、收購高新技術公司、并購相關同行機構,以獲取新的技術資源、擴大數據庫內容及提供增值服務。例如,愛思唯爾收購帕加蒙出版社(Pergamon Press)、北荷蘭出版社(North-Holland Publishing Co.)、美國學術出版社(Academic Press),其旗下有HPCC Technology、ScienceDirect、Scopus、Map of Science、SciVal、Clinicalkey、Reaxys、MD Consult、Nursing Consult等先進的數據處理技術、數據庫和在線解決方案系統(tǒng)。施普林格是全球最大的產品數字化創(chuàng)新者和開放研究領域的執(zhí)行者,先后收購了博思軟件、Business Insider等。2014年上半年,施普林格的數字業(yè)務在整個經營利潤中占比達到72.1%,達到32.9億歐元[4]。泰勒-弗朗西斯合并了Falmer、Crane Russak和Hemisphere等出版機構。英國出版科技集團的Advance復合出版系統(tǒng)可以選擇電子產品、紙質產品、音視頻和數據庫等10多個產品形態(tài)進行出版。2013年,牛津大學出版社出版包括學術期刊、學術參考文獻、學術圖書、辭典、高等教育教材、英語語言教育(English Language Teaching,ELT)和中小學教育出版物等40多個在線產品。
國際大型出版集團的學術出版逐漸由信息出版?zhèn)鞑ハ蛑R出版和服務轉變。從2009年開始,愛思唯爾陸續(xù)推出了一系列分析工具來更好地服務于科研用戶,2017年將信息解決方案向有更高附加值的數據決策分析工具轉型[11]。如科研管理工具SciVal可以根據機構在科研評估中的表現定位和探索各研究領域的前沿主題并挖掘潛在學者;全球最大的同行評議文摘及引文數據庫Scopus能追蹤、分析和可視化研究成果;工程問題分析工具Knove可以提供實操建議和有效公式,幫助企業(yè)快速解決難題;助力化學研究的Reaxys可以提升化學研究效率;企業(yè)研究管理工具Pure可以提升協(xié)作水平、簡化管理并提升科研影響力;在線工具Expert Lookup可以快速幫助用戶識別科學專家,找到符合需求的優(yōu)先級研究人員。2017年,愛思唯爾收購了美國Plum Analytics,該工具通過收集來自學術圈、平面媒體及社交媒體的替代性評價數據,與Mendeley、Scopus、ScienceDirect等的相關數據結合,對科研影響力進行計量分析。施普林格·自然集團和Altmetric合作推出圖書影響力分析工具Bookmetrix,對圖書進行實時分析評價,可以看到圖書的網絡關注和國際學術影響力。Re3data.org數據庫開發(fā)的Repository Finder,可以提供一種快速方法來檢索符合啟用FAIR數據項目建議標準的結果。
國際學術出版集團通過其建立的大型數據庫,將研究人員、出版商和數據存儲庫連接起來,通過大數據和人工智能技術幫助研究人員快速準確篩選熱點研究方向、找到有價值的內容、確定下一步的研究方向,幫助期刊優(yōu)化同行評審、檢索來稿內容并識別數據捏造、實現精準營銷。例如,愛思唯爾不僅用自主開發(fā)的Scopus搜索到全球一流學者并實現對接,對最重要的信息按主題進行內容分類和組織,從而使用戶更快地發(fā)現最前沿的學科發(fā)展趨勢,而且還開發(fā)了大量的服務于研究工作流程的產品,如實驗室管理產品Hivebench等。泰勒-弗朗西斯集團與丹麥人工智能UNSILO公司合作開發(fā)NLP技術,從學術文本中提取主題和概念,根據用戶閱讀內容進行相關推薦,使其更容易發(fā)現新研究,并在相關度、優(yōu)化搜索、查找同行評審專家方面豐富語義。2018年同行評議平臺ScholarOne與人工智能公司UNSILO合作,提高編輯的論文篩選能力,節(jié)省同行評議時間。德國新興出版社Inkitt則通過演算趨勢數據判斷用戶使用模式,根據作家、作品和讀者的互動頻次來修改作品,形成互動出版模式。
數據倉儲的構建在于為科研人員獲取和管理數據提供方便,促進數據開放共享,保護數據知識產權。數據倉儲不僅是數據存儲的倉庫,還提供管理和服務。國際上數據倉儲已經逐漸受到學術界的重視。2013年12月,歐盟推出開放獲取的“歐盟地平線2020”計劃;2018年9月,歐盟、歐洲研究委員會推出開放獲取Plan S計劃,所有歐盟成員國資助的研究項目的科研數據和數字化科研成果必須開放授權、免費獲取、自由使用。越來越多的資助機構和出版商要求在適當的存儲庫中提供研究數據,提升數據共享能力。2018年3月,據全球研究數據存儲注冊庫re3data.org的統(tǒng)計,全球共有2000多個研究型數據倉儲庫[12]。例如,施普林格相繼推出Recommended(為你推薦)、SharedIt(易分享)、SciGraph(科研圖譜)關聯(lián)開放數據平臺。開放數據平臺SciGraph整合了有關科研資助機構、科研機構、科研立項、撥款額度、相關會議以及成果出版的信息,截至2018年,該知識圖譜包含了10億條學術界關注對象的信息(三元組),為科研共同體提供服務[9]。2016年8月,愛思唯爾收購了學術社交網站Mendeley,上線數據倉儲平臺Mendeley Data,采用大數據分析技術進行數據出版。2018年,基于云計算技術的數據出版平臺Figshare與施普林格·自然、人文社科領域的泰勒-弗朗西斯合作進行數據出版。
一種內容、多種媒體、復合出版是大數據時代學術出版的要求。大規(guī)模、高質量的數據是知識圖譜的素材和標引的基礎,是學術出版的數據采集、存儲、標引、組合和計算的核心要素。學術資源的開發(fā)與生產是學術出版的核心競爭力,數據加上智能算法才能實現作者、讀者和內容的高效結合。因此,通過XML語義碎片化技術將內容碎片化,對知識數據進行深度標引與文本語義分析,將已有的內容切分成多個知識單元,將海量數據轉化為有效的結構型數據,實現知識的提純、內容的關聯(lián)以及資源的鏈接,完成元數據集、模型、圖表與網絡平臺、數據庫、社交媒體、移動端等類型數據集成連接,實現對知識內容的碎片化細微識別和精準的知識體系構建,生產出多模態(tài)的數字化內容出版物,完成知識數據資產內容的定制與重組、自主出版等[13]。優(yōu)質學術資源的開發(fā)和整合是通過精選數據內容資源并進行結構化、知識化的精加工,打造多種產品形式和服務形態(tài)實現的,真正做到跨平臺、融媒體、多模態(tài)產品的協(xié)同生產、同步上線。
大數據、云計算和人工智能將學術出版流程的選題策劃環(huán)節(jié)變得更為高效便捷;編輯出版環(huán)節(jié)實現編校的自動化和產品的多元化;生產印刷環(huán)節(jié)實現按需精準印刷;營銷發(fā)行環(huán)節(jié)實現讀者定位精準化。通過文本分析、語義分析、機器學習、智能搜索、模式識別、數據挖掘技術及智能算法等進行數據采集、數據集分析和數據處理,優(yōu)化了學術出版的運作流程[13],實現內容的精準抓取、準確推送、細粒度的個性化服務。新的互聯(lián)網技術協(xié)助作者創(chuàng)作內容、提高寫作效率;輔助出版商優(yōu)化同行評審、檢索內容、檢測重復率、識別數據捏造和提升用戶體驗。通過互聯(lián)網技術、信息技術實現內容的內部關聯(lián),實現內容智能化和用戶需求個性化,實現學術內容和用戶需求的精準匹配,開發(fā)出針對特定領域的內容產品;借助信息技術實現內容標注自動化、審稿評議機器化,識別抄襲論文,優(yōu)化審稿決策,提高出版流程內部工作效率。因此,通過對數據信息快速的獲取、存儲、管理,以及對用戶數據信息的深度挖掘,基于算法創(chuàng)新的學術出版將科研數據和知識服務深度融合,重構學術出版的多元化內容模態(tài),實現學術出版各環(huán)節(jié)全方位的變革,使得學術出版系統(tǒng)更加高效化、數字化和智能化。
越來越多的科研用戶希望智能化地利用知識資源和服務,使知識服務參與到其科研全過程。未來的學術出版就必須要跳出傳統(tǒng)的出版藩籬,形成以數據為生產要素的模式,不僅要為科研用戶提供社交化和個性化的閱讀服務,而且要提供高附加值的問題解決方案。它通過信息技術和知識經濟來引導用戶的需求,利用決策分析工具和應用程序將內容出版、數據出版以及信息服務變成一種知識出版的服務模式,提供整體解決方案,提升知識產品的服務功能,使得學術出版真正轉變成為用戶提供知識服務的解決方案??梢栽诳蒲辛㈨棥⑽墨I檢索、科研和教學指導、論文撰寫與編輯、學術評價、科研成果分享、影響力評估和學術交流等環(huán)節(jié)進行定制化、個性化服務。知識服務的發(fā)展方向是根據客戶的深層次需求,對目標客戶的個案進行分析并提供有價值的解決方案,以幫助其決策并完成工作的服務。因此,學術出版的知識服務環(huán)節(jié)是通過大數據技術的資源集成、資源拓展和信息關聯(lián),推進學術出版資源的開發(fā)及整合,準確打造多種產品形式和知識服務形態(tài),實現智能感知、智能分析和智能體驗的知識服務。
開放數據已經成為出版業(yè)和知識產業(yè)的共識,數字傳播和開放科學體系已經形成規(guī)模。開放獲取政策將會改變商業(yè)出版模式和產業(yè)業(yè)態(tài)。在2018年12月的柏林開放獲取會議上,中國國家自然科學基金委、國家科技圖書文獻中心、中國科學院文獻情報中心都支持OA2020倡議和開放獲取歐盟Plan S計劃提出的“將公共資金資助項目學術論文盡快轉變?yōu)榱⒓撮_放獲取”的要求,支持以靈活包容的多種措施實現這個目標。這一表態(tài)表明中國學術出版的發(fā)展方向:順應全球變革趨勢,創(chuàng)新學術傳播體系,建立更加高效合理和智能化的開放獲取科研成果的長期制度。因此,我國學術出版業(yè)應盡快通過數據共享建立經濟高效的開放出版支持機制,支持從科研經費中支付開放出版論文處理費(Article-Processing Charge,APC),建立公共資金資助的科研項目及成果的開放存繳制度[14],構建開放存繳的機構知識庫,支持利用大數據技術來評價開放科研成果,解決科研評價過分依賴國際出版商和高影響因子期刊,增強我國學術出版機構在全球學術交流和學術評價中的國際學術話語權。
我國學術出版產業(yè)由數字化向數據化和智能化發(fā)展,需要利用大數據、人工智能和云技術等來實現。將研究者和科研過程、科研數據真正融合,通過整合開發(fā)數字資源,創(chuàng)新內容生產、編輯、印刷、營銷等出版流程,深化知識服務,支持開放獲取等措施,將產品或服務的形態(tài)從單一的紙質產品衍變?yōu)殡娮映霭嫖铩祿?、知識庫,最終再到知識服務,推動學術出版的生產流程、內容建設、知識服務以及開放共享機制等環(huán)節(jié)的變革。因此,我國學術出版數字化和智能化發(fā)展的核心要素是實現資源、流程、服務和機制創(chuàng)新,其關鍵是通過整合優(yōu)質內容強化數字資源建設;采用智能技術優(yōu)化學術出版流程;深化具有高附加值問題解決方案的知識服務;建立基于開放獲取科研成果的長期制度。