■陳莉玥 馬 娜 劉筱敏
1)中國科學院文獻情報中心,北京市海淀區(qū)北四環(huán)西路33號 100190 2)中國科學院大學經(jīng)濟與管理學院信息資源管理系,北京市海淀區(qū)中關(guān)村東路80號 100190
隨著全球開放科學的發(fā)展,包括科技文獻、科學數(shù)據(jù)在內(nèi)的各類科研成果的開放共享程度不斷深化??茖W研究過程通過不斷積累融合科學數(shù)據(jù),最終形成論文成果,而論文通過提及、引用科學數(shù)據(jù)提升研究結(jié)論可信度,二者共同還原科學研究的原貌。出版模式的轉(zhuǎn)變,特別是科學數(shù)據(jù)存儲平臺的發(fā)展促進了科學數(shù)據(jù)的出版共享,在科技期刊論文中引用科學數(shù)據(jù)逐漸成為推動科研進展、促進學術(shù)交流的重要途徑。近年來國際知名出版商Springer Nature、Elsevier以及國際權(quán)威期刊Science、TheNewEnglandJournalofMedicine等紛紛針對科學數(shù)據(jù)管理和引用發(fā)布指南政策。相關(guān)政策推動論文引用科學數(shù)據(jù),能夠提升數(shù)據(jù)成果的能見度,避免數(shù)據(jù)的重復采集[1],提高數(shù)據(jù)生產(chǎn)者的學術(shù)影響力[2-3]。此外,通過引用科學數(shù)據(jù)能夠有效提升科學研究的可復現(xiàn)性[4],避免各類學術(shù)不端事件的發(fā)生。
目前經(jīng)濟合作與發(fā)展組織(Organization for Economic Co-Operation and Development,OECD)[5]、ESIP(Earth Science Information Partners)[6]、DataCite[7]和ANDS(Australian National Data Service)[8]等國際組織機構(gòu)都面向科學數(shù)據(jù)引用制定了規(guī)范文件,我國也于2017年12月正式發(fā)布了國家標準《科學數(shù)據(jù)引用》[9-10]。隨著科學數(shù)據(jù)引用標準規(guī)范的頒布和應用,一些學者對當前標準規(guī)范中數(shù)據(jù)引用的對象、元素、格式等細則進行梳理調(diào)研和對比分析[11-14]。王丹丹[15]和史雅莉[16]從論文作者、數(shù)據(jù)中心和期刊等主體的視角探究科學數(shù)據(jù)引用標準在實施過程中可能存在的問題。
與成熟的論文引用相比,數(shù)據(jù)引用是一種相對較新的引用行為,還處于探索階段。部分學者基于典型期刊和文獻集合對科學數(shù)據(jù)引用行為進行計量分析:Zhao等[17]和邱玉紅等[18]分析生物醫(yī)學領域論文數(shù)據(jù)引用行為,發(fā)現(xiàn)雖然該領域數(shù)據(jù)開放共享較為普遍,但是論文較少對數(shù)據(jù)進行正式引用。相比而言,科研人員更傾向于以非正式的形式引用或重用科學數(shù)據(jù)[19-20]。盡管目前數(shù)據(jù)引用規(guī)模較小,但是Thelwall等[21]研究發(fā)現(xiàn)分子流行病學領域引用科學數(shù)據(jù)的論文比例呈現(xiàn)逐年增長的趨勢,邱均平等[22]和丁文姚等[23]基于圖書情報學領域論文的分析也得出了相似結(jié)論。此外,一些研究基于不同學科領域分析數(shù)據(jù)引用趨勢,發(fā)現(xiàn)社會科學和工程學等的科學數(shù)據(jù)重復使用率僅為1%和3%,而經(jīng)濟與管理科學和基礎科學的數(shù)據(jù)引用和重復使用率則達到62%和43%[24-25]。
綜合來看,目前國內(nèi)外數(shù)據(jù)引用標準逐步指導實踐,現(xiàn)有研究從標準內(nèi)容和實施過程的視角對科學數(shù)據(jù)引用現(xiàn)狀進行了定性分析,近年來一些學者也針對論文中的科學數(shù)據(jù)引用特征進行量化分析。但這兩類研究未能形成關(guān)聯(lián),即缺乏從實際引用行為出發(fā)探究數(shù)據(jù)引用標準實施效果的量化研究。另外現(xiàn)有的科學數(shù)據(jù)引用特征分析多以某個學科領域為對象,數(shù)據(jù)分析體量較小,分析時間跨度較短,缺少對我國科技期刊論文在數(shù)據(jù)引用層面的全局性量化研究。針對這一問題,本研究以中國科學引文數(shù)據(jù)庫(Chinese Science Citation Database,CSCD)收錄的科技期刊論文為數(shù)據(jù)基礎,通過抽取論文中的科學數(shù)據(jù)引用信息進行大規(guī)模量化分析,探究目前我國科技期刊論文的數(shù)據(jù)引用實踐現(xiàn)狀,挖掘現(xiàn)有行為特征和潛在問題。本研究分析歸納的數(shù)據(jù)引用規(guī)律和面向科技出版提出的數(shù)據(jù)引用建設策略,對完善我國科學數(shù)據(jù)引用標準規(guī)范細則、推動科學數(shù)據(jù)共享重用、加強科技期刊科學數(shù)據(jù)管理都具有重要意義。
以CSCD為基礎,針對科學數(shù)據(jù)引用制定識別規(guī)則,通過規(guī)則方法在CSCD收錄期刊論文的參考文獻中識別“科學數(shù)據(jù)引用”,進而構(gòu)建計量分析的數(shù)據(jù)集合。CSCD創(chuàng)建于1989年,是我國第一個自然科學領域引文數(shù)據(jù)庫,其基于自主研制的定量方法對我國出版的自然科學、工程技術(shù)、醫(yī)學、管理科學類期刊進行遴選,目前收錄千余種我國中英文科技期刊,截至2023年已積累超過623萬條論文記錄和超過1億條引文記錄。CSCD學科覆蓋范圍廣、數(shù)據(jù)體量大,具有代表性;同時CSCD對論文題錄數(shù)據(jù)和引文數(shù)據(jù)進行充分的規(guī)范加工,數(shù)據(jù)質(zhì)量較高,能夠保證實驗的科學性。
科學數(shù)據(jù)是指科研人員通過基礎研究、應用研究、試驗開發(fā)等產(chǎn)生的數(shù)據(jù),以及通過觀測監(jiān)測、考察調(diào)查、檢驗檢測等方式取得并用于科學研究活動的原始數(shù)據(jù)及其衍生數(shù)據(jù)。由于科學數(shù)據(jù)類型復雜,論文引用的科學數(shù)據(jù)對象也表現(xiàn)出很高的多樣性。根據(jù)史雅莉等[26]的調(diào)研結(jié)果可知,科研論文引用的科學數(shù)據(jù)包括機構(gòu)數(shù)據(jù)(集)、政府數(shù)據(jù)文件、數(shù)據(jù)論文與項目報告、標準模型參數(shù)、產(chǎn)品專利數(shù)據(jù)(集)等。因此,面對類型多變的科學數(shù)據(jù),需要設計有針對性的識別方法以保證數(shù)據(jù)分析的全面性和準確性。需要說明的是,研究所指的科學數(shù)據(jù)引用主要是期刊論文對科學數(shù)據(jù)的正式引用或直接引用,即論文的參考文獻列表明確列出科學數(shù)據(jù)。
在科學數(shù)據(jù)引用識別方法方面,以數(shù)據(jù)引用的核心要素為基礎設計主要的識別規(guī)則,同時根據(jù)《信息與文獻 參考文獻著錄規(guī)則》(GB/T 7714—2015)對識別結(jié)果進行二次過濾,排除期刊文獻引用、方法工具引用等。國際通用的《FORCE11數(shù)據(jù)引用原則》[27]建議數(shù)據(jù)引用信息至少包括作者、標題、發(fā)布者(存儲庫名稱)、標識符;OECD等國外重要科學數(shù)據(jù)管理機構(gòu)的數(shù)據(jù)引用指南指出,數(shù)據(jù)引用必備元素包括作者、名稱、日期、數(shù)據(jù)出版商、持久標識符,其他較為常用的元素包括數(shù)據(jù)版本號、URL等[14];2017年我國發(fā)布的《信息技術(shù) 科學數(shù)據(jù)引用》規(guī)定引用科學數(shù)據(jù)時應明確作者、名稱、創(chuàng)建機構(gòu)、創(chuàng)建時間等9個引用元素。根據(jù)當前國內(nèi)外數(shù)據(jù)引用中的引用元素概況,確定了5個核心通用元素,包括數(shù)據(jù)作者、數(shù)據(jù)名稱、數(shù)據(jù)發(fā)布者、發(fā)布日期、數(shù)據(jù)唯一標識(解析地址)。其中,數(shù)據(jù)作者和發(fā)布日期通常不具有識別科學數(shù)據(jù)引用的直接屬性,因此不對這兩個元素進行規(guī)則約束。針對數(shù)據(jù)名稱、數(shù)據(jù)發(fā)布者和數(shù)據(jù)唯一標識(解析地址)3個引用元素,設計數(shù)據(jù)引用識別規(guī)則。
(1)數(shù)據(jù)名稱識別規(guī)則??茖W數(shù)據(jù)的名稱通常采用一些特定詞匯表述,例如“××數(shù)據(jù)集”“××圖”“××樣品”等。通過調(diào)研,將這些具有標識性的中英文指示詞進行分類匯總,采用指示詞和文本特定位置相結(jié)合的規(guī)則識別參考文獻中的科學數(shù)據(jù)引用,見表1。
表1 識別參考文獻信息中數(shù)據(jù)名稱的指示詞表
(2)數(shù)據(jù)發(fā)布者識別規(guī)則。針對數(shù)據(jù)發(fā)布者,主要考慮具有代表性的科學數(shù)據(jù)存儲庫或平臺以及數(shù)據(jù)期刊等。通過調(diào)研國際知名科學數(shù)據(jù)存儲庫、知名期刊的科學數(shù)據(jù)存儲庫推薦列表并結(jié)合相關(guān)研究[28-30],最終梳理出各平臺和期刊的中英文名稱及網(wǎng)址,用于補充實驗數(shù)據(jù)集合,部分規(guī)則如表2所示。
表2 識別參考文獻信息中數(shù)據(jù)發(fā)布者的名稱規(guī)則表(部分)
(3)數(shù)據(jù)唯一標識(解析地址)識別規(guī)則。針對數(shù)據(jù)名稱、數(shù)據(jù)發(fā)布者等信息不明顯的參考文獻文本,設計規(guī)則來匹配文本中的科學數(shù)據(jù)唯一標識或解析地址。
①數(shù)據(jù)唯一標識識別:首先,識別文本中是否包含數(shù)字對象唯一標識符(Digital Object Unique Identifier, DOI)或科技資源標識(China Science and Technology Resource,CSTR)。隨后,針對抽取的DOI,通過ScholeXplorer應用程序接口進行匹配,判斷是否為科學數(shù)據(jù)引用;針對抽取的CSTR,根據(jù)其中間段的資源類型編碼,判斷是否為科學數(shù)據(jù)引用(11代表科學數(shù)據(jù))。
②解析地址識別:首先識別文本中是否包含完整的URL信息,隨后針對抽取的URL通過匹配data、db等指示詞來判斷是否為科學數(shù)據(jù)引用。
使用Python軟件批量匹配CSCD中的科技期刊論文參考文獻信息,數(shù)據(jù)統(tǒng)計時間截至2023年6月26日?;谝陨蠑?shù)據(jù)引用識別方法,在1989—2023年數(shù)據(jù)中共識別出154509條科學數(shù)據(jù)引用記錄。針對抽取結(jié)果隨機抽取200條記錄進行人工判別,其中真實的科學數(shù)據(jù)引用占比為91%,說明識別結(jié)果具有代表性。
主要從3個定量維度和1個定性維度對科學數(shù)據(jù)引用特征進行分析,見圖1。在定量分析中,引用基礎分析描述目前我國科技期刊論文科學數(shù)據(jù)引用的概況,被引數(shù)據(jù)來源分析重點關(guān)注國內(nèi)外各類型數(shù)據(jù)來源的數(shù)據(jù)被引情況,引用的元數(shù)據(jù)要素和引用類型分析主要對我國科技論文參考文獻中的科學數(shù)據(jù)引用格式和規(guī)范情況進行量化描述,同時從數(shù)據(jù)類型視角探討不同時間節(jié)點下科技論文對各類科學數(shù)據(jù)資源的依賴情況是否發(fā)生變化。在定性分析中,以兩種典型期刊為案例分析國內(nèi)外科學數(shù)據(jù)引用的差異性,重點探究期刊的數(shù)據(jù)引用標準規(guī)則以及在相應政策指南作用下期刊論文引用科學數(shù)據(jù)的變化趨勢。
圖1 科學數(shù)據(jù)引用特征研究框架
2.1.1 施引文獻數(shù)量和科學數(shù)據(jù)被引頻次的逐年分布
引用信息的逐年分布情況能夠體現(xiàn)科學數(shù)據(jù)引用行為的發(fā)展趨勢。如圖2所示,在構(gòu)建的實驗數(shù)據(jù)集合中,施引文獻數(shù)量逐年增加,并且在2009年后快速增長。這一增長趨勢與國際上推動開放科學發(fā)展、美英等發(fā)達國家出臺數(shù)據(jù)管理與開放共享政策以及近年來我國逐步關(guān)注科學數(shù)據(jù)成果安全和管理共享等的整體趨勢相契合。雖然引用科學數(shù)據(jù)的文獻數(shù)量有較快增長的趨勢,但是科學數(shù)據(jù)集在單篇論文參考文獻中的出現(xiàn)頻次并不高,在1989—2023年保持穩(wěn)定的狀態(tài),單篇論文平均僅引用1個科學數(shù)據(jù)集。
圖2 科學數(shù)據(jù)的施引文獻數(shù)量和篇均引用頻次逐年分布
由統(tǒng)計結(jié)果可知,約90%的施引文獻為中文文獻,而施引文獻對中文和英文科學數(shù)據(jù)的引用比例則相對均衡,分別為53.52%和46.37%。英文科學數(shù)據(jù)是我國科學研究的重要支撐,科學數(shù)據(jù)開放共享對我國科研發(fā)展有重要影響。
2.1.2 施引文獻的學科領域分布
科學數(shù)據(jù)在不同學科領域的科技文獻中都發(fā)揮著不可或缺的作用。以中圖法的一級分類劃分出11個學科領域,在此基礎上統(tǒng)計各領域科學數(shù)據(jù)的施引文獻數(shù)量。根據(jù)科學數(shù)據(jù)引用的統(tǒng)計結(jié)果,工程技術(shù)領域的施引文獻總量最多,其次是地球科學和農(nóng)業(yè)科學領域;相比而言,數(shù)學、物理學和社會科學的科學數(shù)據(jù)施引文獻總量較少。
考慮到CSCD收錄的各學科論文數(shù)量不均衡的問題,統(tǒng)計各領域2014—2021年CSCD收錄論文總量,基于該數(shù)據(jù)對各領域施引文獻數(shù)量進行歸一化處理,計算結(jié)果如圖3所示。由結(jié)果可知,排除各領域文獻體量差異后,地球科學領域文獻對科學數(shù)據(jù)的引用傾向最明顯(歸一化得分為2.50);社會科學領域文獻的歸一化得分也明顯高于基線水平,僅次于地球科學,該結(jié)果與Zhao等[17]基于PLoSONE的分析結(jié)論一致。一方面,我國地球科學領域的資源體量和采集站點規(guī)模較大,并且數(shù)據(jù)存儲機構(gòu)和使用辦法發(fā)展較早,相比其他領域?qū)茖W數(shù)據(jù)的管理模式更加成熟;另一方面,地球科學和社會科學領域研究大多為時間敏感型研究,不同時間階段的研究可能產(chǎn)生不同的結(jié)論,因此對科學數(shù)據(jù)會產(chǎn)生更多引用。醫(yī)藥衛(wèi)生領域施引文獻絕對數(shù)量雖然較多,但是相比于其他學科領域,其文獻的歸一化得分明顯低于基線水平,說明醫(yī)藥衛(wèi)生領域研究未充分關(guān)注科學數(shù)據(jù)。此外,工程技術(shù)領域科學數(shù)據(jù)引用體量較大,該領域文獻的歸一化得分符合全領域基線水平,數(shù)據(jù)引用主要包括計算機科學研究對經(jīng)典或開源數(shù)據(jù)集的引用,還包括對數(shù)據(jù)集/數(shù)據(jù)庫/模型參數(shù)說明文檔、數(shù)據(jù)標準文件、數(shù)據(jù)研究報告等的參考使用。
圖3 各學科領域科學數(shù)據(jù)施引文獻數(shù)量的歸一化指標
2.2.1 各類型科學數(shù)據(jù)引用來源統(tǒng)計
基于被引用的科學數(shù)據(jù),發(fā)現(xiàn)其來源集中于出版商、數(shù)據(jù)期刊和數(shù)據(jù)存儲中心。在數(shù)據(jù)存儲中心方面,主要分析20個國家科學數(shù)據(jù)中心。
通過統(tǒng)計分別遴選了3類科學數(shù)據(jù)來源中被引頻次排名前10的來源,如圖4所示。分析出版商可知,中國統(tǒng)計出版社位于榜首,其次為Springer和科學出版社等。中國統(tǒng)計出版社主要出版中國各類統(tǒng)計年鑒、地域年鑒和《中國統(tǒng)計》,中國學者更傾向于引用這類權(quán)威性統(tǒng)計數(shù)據(jù)作為研究支撐依據(jù)。從數(shù)據(jù)期刊來看,對生物科學領域數(shù)據(jù)期刊的引用居多,例如ScientificData、BMCGenetics等;《中國科學數(shù)據(jù)》作為中國面向多學科領域的數(shù)據(jù)期刊,也進入前10名,表現(xiàn)出一定的數(shù)據(jù)影響力。在數(shù)據(jù)存儲中心方面,目前地球科學領域國家科學數(shù)據(jù)中心科學數(shù)據(jù)被引較多,包括國家氣象科學數(shù)據(jù)中心、國家青藏高原科學數(shù)據(jù)中心、國家地球系統(tǒng)科學數(shù)據(jù)中心等;相比而言,數(shù)理科學領域科學數(shù)據(jù)中心數(shù)據(jù)較少被引。
圖4 3類科學數(shù)據(jù)來源中被引頻次排名前10的來源
2.2.2 部分學科領域的典型數(shù)據(jù)來源被引分析
由前文分析結(jié)果可知,我國地球科學和生物科學領域科技期刊論文的科學數(shù)據(jù)引用發(fā)展更突出。主要針對這兩個領域,通過對比國內(nèi)外典型數(shù)據(jù)來源2013—2022年的數(shù)據(jù)被引情況,分析目前我國這兩個領域?qū)Σ煌茖W數(shù)據(jù)來源的依賴程度。針對生物科學領域,主要選取該領域國家科學數(shù)據(jù)中心為國內(nèi)數(shù)據(jù)來源,國外數(shù)據(jù)來源為美國國家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)系列數(shù)據(jù)庫(27個);針對地球科學領域,分別參考在實驗數(shù)據(jù)構(gòu)建階段調(diào)研的數(shù)據(jù)庫。
研究發(fā)現(xiàn),生物科學領域論文對NCBI系列數(shù)據(jù)庫的引用比例是對國家科學數(shù)據(jù)中心的2.6倍;相比而言,地球科學領域論文對國內(nèi)地學數(shù)據(jù)存儲庫的引用比例為8.84%,是對國外科學數(shù)據(jù)存儲平臺的3.8倍,說明對本國數(shù)據(jù)來源的依賴程度更高。主要原因可能是生物科學領域的序列數(shù)據(jù)、基因組、表達數(shù)據(jù)等具有通用性,而地球科學領域研究本身具有極高的地域性。應該注意到,生物科學領域的科學數(shù)據(jù)具有通用性,領域研究對科學數(shù)據(jù)的依賴程度較高,科學數(shù)據(jù)的開放共享和引用復用對領域發(fā)展具有重要作用。然而目前我國科技文獻對國內(nèi)外數(shù)據(jù)資源的使用程度仍存在明顯差距,一定程度上說明我國在相關(guān)領域的數(shù)據(jù)存儲管理能力和平臺推廣普及效果還有待提升。
如圖5所示,通過識別和統(tǒng)計各科學數(shù)據(jù)引用元數(shù)據(jù)中的要素可知,超過90%的科學數(shù)據(jù)引用信息都包含數(shù)據(jù)名稱、發(fā)布日期和數(shù)據(jù)作者;約65%的引用信息包含數(shù)據(jù)類型標志,約56%的引用信息包含數(shù)據(jù)發(fā)布者。引用信息基本涵蓋科學數(shù)據(jù)引用的關(guān)鍵要素。但是,絕大多數(shù)引用信息不包含數(shù)據(jù)唯一標識(解析地址):一方面,目前被引用的科學數(shù)據(jù)多來自出版商出版的年鑒等圖書專著,這類資源本身缺少唯一標識;另一方面,《信息與文獻 參考文獻著錄規(guī)則》(GB/T 7714—2015)目前僅要求在著錄電子文獻時提供資源解析地址,而科學數(shù)據(jù)與電子文獻之間的關(guān)系尚不明確、科學數(shù)據(jù)標注細則尚不完善,因此相應要素普遍缺失。
圖5 科學數(shù)據(jù)引用元數(shù)據(jù)中各要素的包含情況
如圖6所示,分析科學數(shù)據(jù)引用信息中的數(shù)據(jù)類型標志發(fā)現(xiàn),接近40%的引用信息未給出類型標志。給出的數(shù)據(jù)類型標志以[M]、[EB/OL]、[C]等為主,這一結(jié)果與前文分析結(jié)果呼應,即科學數(shù)據(jù)引用以統(tǒng)計年鑒書籍、會議論文集等為重要來源。這一結(jié)果表明,有關(guān)科學數(shù)據(jù)著錄的國家標準規(guī)范有待進一步完善。針對目前大批量的科學數(shù)據(jù)資源,應給出對應的數(shù)據(jù)類型標志,以便于讀者和科研人員識別和應用。
圖6 科學數(shù)據(jù)引用元數(shù)據(jù)中的各類型標志占比
為了探究我國科技期刊論文對各種類型科學數(shù)據(jù)的使用情況是否發(fā)生變化,借鑒史雅莉等[26]提出的科學數(shù)據(jù)引用類型體系將科學數(shù)據(jù)歸納為10種類型,并基于OpenAI公司開發(fā)的人工智能語言模型GPT 3.5自動識別每條引用信息記錄中被引數(shù)據(jù)的類型。如圖7所示,為了反映數(shù)據(jù)引用的變化趨勢,分別提取1990年、2000年、2010年和2020年的科學數(shù)據(jù)引用數(shù)據(jù)進行類型識別。圖7中每條橫向色帶代表一種類型的科學數(shù)據(jù),兩個年份間色帶的縱向?qū)挾却砗笳吣攴葜袑δ愁愋涂茖W數(shù)據(jù)的引用占比。
圖7 1980—2020年對10種類型科學數(shù)據(jù)的引用占比變化情況
由圖7可知,論文對圖片/圖集與年鑒、會議資料與項目報告的引用占比有明顯的下降趨勢,對機構(gòu)數(shù)據(jù)集、數(shù)據(jù)論文與專利數(shù)據(jù)的引用占比呈快速增長趨勢,對模型參數(shù)/軟件產(chǎn)品與標準文檔、政府統(tǒng)計數(shù)據(jù)的引用占比也有一定漲幅。在統(tǒng)計時間窗內(nèi),對其他類型科學數(shù)據(jù)的引用占比較為穩(wěn)定。結(jié)合前文分析結(jié)果可知,科學數(shù)據(jù)對學術(shù)研究的影響一直存在,且呈現(xiàn)增強趨勢,只是承載數(shù)據(jù)的介質(zhì)發(fā)生變化,其傳播和推廣模式也發(fā)生變化,例如由年鑒書籍和會議資料轉(zhuǎn)變?yōu)楦哂嗅槍π?、描述信息更豐富的數(shù)字化資源。
研究表明地球科學領域科學數(shù)據(jù)引用強度較高,因此重點選取兩種該領域的國內(nèi)外典型期刊為案例,對比分析期刊的科學數(shù)據(jù)引用標準政策以及期刊論文引用科學數(shù)據(jù)體量的差異,探究國內(nèi)外科技期刊引用科學數(shù)據(jù)的不同特征。選取的中國期刊為AdvancesinClimateChangeResearch(ACCR)、國外期刊為NatureClimateChange(NCC),二者均屬于大氣科學(氣象學)領域,期刊出版主題相同,創(chuàng)刊時間相近(分別于2010年和2011年創(chuàng)刊)。
在科學數(shù)據(jù)引用政策方面,兩種期刊均為科學數(shù)據(jù)引用制定了詳細的政策和指南。官網(wǎng)明確了投稿階段對科學數(shù)據(jù)引用的要求,包括數(shù)據(jù)引用的對象、要素、格式、來源和標準規(guī)范等維度,相關(guān)條款如表3所示。NCC在各維度均明確提出遵循Springer Nature的科學數(shù)據(jù)政策,并且在投稿指南中說明當前期刊的數(shù)據(jù)引用要求、格式及示例。ACCR在其作者投稿指南中描述了科學數(shù)據(jù)引用的要求以及數(shù)據(jù)引用示例;同時該期刊明確要求“作者在參考文獻列表中以‘[dataset]’標志標出數(shù)據(jù)引用”,并嚴格遵循Elsevier整體政策,以便于系統(tǒng)自動識別數(shù)據(jù)引用并提供相關(guān)關(guān)聯(lián)和訪問服務。
表3 國內(nèi)外典型科技期刊科學數(shù)據(jù)引用要求
進一步測度兩種期刊論文對科學數(shù)據(jù)的引用占比變化趨勢,由于ACCR于2015年開始被CSCD收錄,將統(tǒng)計時間窗設為2015—2023年。由圖8可知,兩種期刊中科學數(shù)據(jù)引用占當年參考文獻總量的比例均呈上漲趨勢,科學數(shù)據(jù)引用占比均值分別為1.38%和1.08%。對比來看,ACCR的科學數(shù)據(jù)引用占比增速更快(折線擬合斜率為0.1809),2015—2017年NCC的科學數(shù)據(jù)引用占比略高于ACCR,自2018年起ACCR的科學數(shù)據(jù)引用占比快速增長并反超NCC。綜合而言,兩種期刊的科學數(shù)據(jù)引用占比仍處于較低水平,但該比例均在其所屬出版商的引導下有所提升,二者處在相同的科學數(shù)據(jù)引用起跑線上。ACCR科學數(shù)據(jù)引用占比增速較快的原因可能是受到國家整體發(fā)展趨勢的影響:近年來我國重點推動科學數(shù)據(jù)管理和標準實施,強調(diào)在保證數(shù)據(jù)安全的同時推動數(shù)據(jù)開放共享,在此環(huán)境下以ACCR為代表的中國科技期刊的科學數(shù)據(jù)引用得以快速發(fā)展。
圖8 2015—2023年ACCR與NCC的科學數(shù)據(jù)引用占比
隨著數(shù)據(jù)密集型科學范式的發(fā)展,科學數(shù)據(jù)已經(jīng)成為一種新的“學術(shù)資本”,其地位發(fā)生根本的變化:不再僅是學術(shù)論文的附屬物,而可以作為科研活動重要組成要素獨立存在。因此,完善科學數(shù)據(jù)引用規(guī)范、擴大數(shù)據(jù)引用規(guī)模有助于還原科學研究原貌,加快學術(shù)交流傳播,促進科技創(chuàng)新發(fā)展。
從量化分析結(jié)果看,我國科技期刊論文中的科學數(shù)據(jù)引用具有如下特點。
(1)科學數(shù)據(jù)被引頻次整體呈現(xiàn)增長趨勢。引用科學數(shù)據(jù)的論文體量逐年增長,論文在參考文獻列表中對科學數(shù)據(jù)的正式引用數(shù)量相對穩(wěn)定,一篇論文一般引用1~2個科學數(shù)據(jù)集。
(2)各學科領域論文對科學數(shù)據(jù)的引用情況存在明顯差異。地球科學、社會科學領域論文對科學數(shù)據(jù)的引用規(guī)模明顯超過全領域平均水平,這種趨勢可能與兩個領域研究高度依賴分析對象、對時間相對敏感有關(guān),也說明這兩個領域在科學數(shù)據(jù)引用標準規(guī)范實施方面表現(xiàn)更優(yōu)。相比而言,醫(yī)藥衛(wèi)生領域的數(shù)據(jù)引用水平較低,這與基于國外期刊的分析結(jié)果相反[17],說明該領域的數(shù)據(jù)引用意識和標準實施水平還有待提升。
(3)在某些領域,我國科技期刊論文對國內(nèi)外科學數(shù)據(jù)資源的依賴程度存在一定差異。例如,生物科學領域論文對美國NCBI數(shù)據(jù)庫的依賴程度明顯更高,這主要與NCBI數(shù)據(jù)庫龐大的數(shù)據(jù)儲量和完備的數(shù)據(jù)管理服務有關(guān),并且由于政策干預,諸多科技期刊要求論文將科學數(shù)據(jù)存儲于指定的NCBI數(shù)據(jù)庫,這也促進了對NCBI數(shù)據(jù)庫數(shù)據(jù)的引用。相比而言,我國國家科學數(shù)據(jù)中心建設起步較晚,數(shù)據(jù)儲量相對較少,對數(shù)據(jù)服務模式和數(shù)據(jù)引用規(guī)范等仍處于探索階段。
(4)科學數(shù)據(jù)引用格式落實情況與國家標準規(guī)范還存在一定差距?,F(xiàn)有論文的科學數(shù)據(jù)引用信息主要標明了數(shù)據(jù)名稱、發(fā)布日期和數(shù)據(jù)作者要素,而其他要素的標注情況并不理想。此外,由于缺乏通用的類型標志,目前關(guān)于科學數(shù)據(jù)的類型標志也并不統(tǒng)一,甚至缺失。
(5)科學數(shù)據(jù)開放共享運動正在改變科研論文對各類科學數(shù)據(jù)的引用趨勢??茖W數(shù)據(jù)一直是學術(shù)活動的關(guān)鍵影響因素,這類資源早期以年鑒、會議資料等紙質(zhì)介質(zhì)傳播應用。開放科學時代,數(shù)字出版模式改變了科學數(shù)據(jù)的發(fā)布和出版方式,學者更強調(diào)被引數(shù)據(jù)的即時性和信息完整性,因此機構(gòu)數(shù)據(jù)集、數(shù)據(jù)論文等數(shù)字化資源逐漸成為被引對象。
結(jié)合以上特點和國內(nèi)外數(shù)據(jù)引用發(fā)展現(xiàn)狀,提出以下建議。
(1)從期刊出版視角鼓勵科研人員提高科學數(shù)據(jù)引用意識。2021年和2022年Digital Science發(fā)表的《開放數(shù)據(jù)報告》表明,科研人員認為促進他們分享和引用數(shù)據(jù)的一個關(guān)鍵要素是獲得更多關(guān)于訪問、分享和重用政策的信息以及長期存儲和數(shù)據(jù)管理策略。科技期刊作為科學傳播重要媒介,能夠為科研人員提供最直接的鼓勵和幫助。因此建議科技出版行業(yè)從出版視角鼓勵科研人員進行科學數(shù)據(jù)引用,通過宣傳、培訓等方式提升科研人員引用數(shù)據(jù)的主動性。要強調(diào)“科學即數(shù)據(jù),數(shù)據(jù)即科學”,如果數(shù)據(jù)不被引用,數(shù)據(jù)價值就會被低估或忽視。通過數(shù)據(jù)引用承認數(shù)據(jù)作者的貢獻,從而提升科研人員的學術(shù)影響力,激發(fā)科學家引用和生產(chǎn)數(shù)據(jù)的熱情,最終形成良性循環(huán)。
(2)完善科技期刊出版環(huán)節(jié)中科學數(shù)據(jù)引用標準的實施細則。通過對大氣科學領域國內(nèi)外典型期刊的科學數(shù)據(jù)引用要求和政策的定性研究發(fā)現(xiàn),Elsevier要求旗下科技期刊論文在引用科學數(shù)據(jù)時標明[dataset]標志,以便于其服務系統(tǒng)(例如Mendeley Data和Data Monitor)提供資源鏈接和其他衍生服務。在論文出版環(huán)節(jié)對科學數(shù)據(jù)引用提出明確要求和實施標準細則,有助于期刊和出版商打下更堅實的數(shù)據(jù)基礎,擴展數(shù)據(jù)服務范疇,同時也能提升刊載論文的引用質(zhì)量,逐步提升其學術(shù)影響力。
(3)以學科領域期刊聯(lián)盟形式落實期刊論文對科學數(shù)據(jù)的引用行為規(guī)范。國內(nèi)外關(guān)于科學數(shù)據(jù)引用的研究均發(fā)現(xiàn),論文對科學數(shù)據(jù)的正式引用非常少。規(guī)范引用行為不僅需要作者的積極性,還需要科技出版界為科研人員構(gòu)建良好的引用環(huán)境,其中就包括推廣數(shù)據(jù)引用標準和規(guī)范。目前我國發(fā)布的《信息技術(shù) 科學數(shù)據(jù)引用》規(guī)定了較為詳細的數(shù)據(jù)引用要素及格式,但面向各個學科領域的具體標準可能需要調(diào)整。建議各學科領域以期刊聯(lián)盟形式,在國家標準基礎上形成具體的數(shù)據(jù)引用指南文件,通過聯(lián)盟協(xié)作降低期刊個體實施成本,提升期刊的數(shù)據(jù)服務效率。
(4)加強科技期刊、科學數(shù)據(jù)存儲平臺與國家自主研發(fā)數(shù)字資源標識系統(tǒng)的合作。根據(jù)統(tǒng)計結(jié)果可知,目前論文很少標注數(shù)據(jù)唯一標識或解析地址,這一問題也與當前的資源標識體系建設有關(guān)。國家自主研發(fā)數(shù)字資源標識體系可以有效地管理我國科學數(shù)據(jù)資源,健全的標識體系能夠提升數(shù)據(jù)存儲質(zhì)量,從而間接增加數(shù)據(jù)引用和復用的機會。我國科技期刊和科學數(shù)據(jù)存儲平臺通過接入統(tǒng)一的數(shù)字資源標識系統(tǒng),能夠形成科技文獻與科學數(shù)據(jù)相互引用的關(guān)聯(lián)環(huán)境,進一步促進科技資源的開放共享。
本研究主要探究了我國科技期刊論文中的科學數(shù)據(jù)引用實踐情況,并從期刊出版視角針對科學數(shù)據(jù)引用標準實施提出相關(guān)建議。當前研究主要以中國出版的科技期刊為數(shù)據(jù)基礎,未來將結(jié)合國際期刊論文數(shù)據(jù)對我國科研人員科學數(shù)據(jù)引用及復用行為進行更深入的分析,同時對國內(nèi)外科技期刊科學數(shù)據(jù)引用政策進行更全面的質(zhì)性分析,從而為我國科技期刊出版中的科學數(shù)據(jù)管理與共享提供更多建議。