■高瑜蔚 朱艷華 孔麗華 胡良霖* 周建設 李 坤
1)首都師范大學中國語言智能研究中心,北京市海淀區(qū)西三環(huán)北路105號 100048 2)中國科學院計算機網絡信息中心,北京市海淀區(qū)東升南路2號 100083 3)國家基礎學科公共科學數據中心,北京市海淀區(qū)東升南路2號 100083
隨著開放科學蓬勃發(fā)展[1]以及數據密集型科學發(fā)現的科研第四范式到來,數據成為科研和創(chuàng)新的基礎驅動力,科學數據對科學研究的重要價值日益凸顯??蒲谐晒拈_放共享,尤其是科學數據的開放共享,是科研結果可驗證、可分享、可重現的基礎支撐[2]。數據出版是激勵數據傳播、促進數據共享的重要方式之一[3],數據論文出版的作用和價值也日益受到重視。近年來國際學術出版界在開放共享學術研究過程產生的數據上也逐步達成共識[4-5],越來越多的出版機構在混合型期刊(Overlay Journal)、純數據期刊(Pure Data Journal)[6]等載體上以同時發(fā)布數據論文(Data Paper)和科學數據集的方式[7]進行科學數據出版?;跀祿撐某霭娴男滦蛯W術出版形態(tài)已初步形成。
我國鼓勵關聯數據論文的科學數據出版。政策方面,《科學數據管理辦法》[8]提出“應積極推動科學數據出版”,《中國科學院科學數據管理與開放共享辦法》[9]提出 “鼓勵有條件的科研機構創(chuàng)辦數據論文期刊”。在期刊管理方面,國家新聞出版署和中國科學技術協會近年陸續(xù)采取舉措,將論文關聯數據平臺建設[10]、論文關聯數據匯交[11]、科學數據開放共享標準研制[12]納入重點工作。傳統(tǒng)出版機構對數據出版的關注與日俱增,如《中國科技術語》雜志社[13]等陸續(xù)通過與數據存儲平臺合作啟動數據論文形式的科學數據出版。但是關于如何實現該工作,業(yè)界尚無公開成熟的標準可供參考。具體實踐方面,我國數據論文出版起步較晚但發(fā)展較快。2015年起《中國科學數據(中英文網絡版)》(以下簡稱《中國科學數據》)、《全球變化數據學報(中英文)》(以下簡稱《全球變化數據學報》)、BigEarthData[14]、GigaScience等數據期刊相繼創(chuàng)立,將數據論文和關聯數據集在互聯網上進行關聯發(fā)布,實現公開檢索。目前,各個出版機構的數據信息描述及平臺運行模式差異較大,相關國家標準和行業(yè)標準缺乏,有些數據并未遵循國家要求取得中國科技資源標識(China Science and Technology Resource,CSTR)、運用中文描述、落實科學數據引用規(guī)范。這不僅阻礙我國科學數據出版工作總體進展,還不利于未來數據期刊管理、數據互操作及數據共享再利用等。
隨著20個國家科學數據中心正式成立[15]和中國科學院科學數據中心體系建設[16],越來越多的科學數據管理機構啟動數據期刊建設,數據論文形式的數據出版工作迎來大發(fā)展,標準化需求愈發(fā)急迫。在此背景下,筆者團隊基于實踐,總結前期國內外相關工作,對數據論文及其關聯科學數據集出版元數據標準開展研究,擬提出切實可行的標準方案,以期為創(chuàng)辦和運行數據期刊、推動傳統(tǒng)科技期刊落實數據論文出版工作提供規(guī)范化指導。此外,在此工作基礎上,筆者團隊牽頭制定的國家標準《數據論文出版元數據》(GB/T 42813—2023)于2023年8月正式發(fā)布[17],這對于我國數據論文出版標準化工作具有重要意義。
目前學界尚未明確數據出版的概念,對于數據出版內涵等認識主要來源于對實踐的歸納和提煉,本文在此基礎上初步梳理核心概念。
(1)數據出版。數據出版是指通過一定的公共機制發(fā)布科學數據集,使得公眾根據一定規(guī)則發(fā)現、獲取、評價和應用這些數據的過程,其中數據論文出版是得到廣泛認可的重要形式。作為復雜的系統(tǒng)工程,數據出版既有傳統(tǒng)學術出版的特點,又有由發(fā)布數據且與數據論文關聯等帶來的新需求。
(2)數據論文。國外學者先后對數據論文概念進行定義[18-19],強調描述科學數據集的收集方式、特征等,而不關注數據處理分析過程和學術創(chuàng)新。Candela等[20]認為數據論文至少包含2個具體信息對象——數據集和數據論文本身。具體來說,數據論文是通過網絡在線方式出版的一種學術出版物[21],其目的是讓科研群體更好地發(fā)現、獲取、理解與復用數據,從而促進科研創(chuàng)新[22]。一般情況下,數據論文發(fā)表在數據期刊上, 而科學數據存儲在數據知識庫中, 但數據論文須與其描述的公開發(fā)布的科學數據鏈接, 這個鏈接通常是URL或由數據知識庫分配給數據集的DOI[23]。
(3)數據期刊。數據期刊是指出版數據論文的期刊,已成為一種重要的出版形態(tài)[24]。習妍等[25]基于相關學者的研究統(tǒng)計發(fā)現目前全球出版的數據期刊數量在160種以上,其中純數據期刊(即出版的數據論文占比在50%以上)有20余種。
筆者團隊較早開始研究數據論文出版問題,胡良霖等[26]、孔麗華等[27]先后給出定義和實踐方法。相關學者在同行評議方法方面開展研究[28]。關聯研究方面,陳帥印等[29]基于元數據研究特定領域數據論文與期刊論文的關聯關系。技術標準方面,我國學者多聚焦傳統(tǒng)學術成果和相關科學數據集的關聯分析[30-32],目前暫時沒有面向數據論文及其關聯科學數據集一體化出版的元數據標準實踐。筆者認為,數據論文是指對科學數據集進行規(guī)范化描述并按照學術規(guī)范在線聯合出版的文章,一般由出版系統(tǒng)管理和發(fā)布。關聯數據集一般由獨立的科學數據存儲庫管理,并通過下載鏈接、標識和引用方式與數據論文實現關聯。
調研分析和實踐表明,數據論文出版能夠解決我國科學數據共享的五大問題:一是缺乏明確的激勵機制,作為數據生產者的科研人員及數據工作者缺乏開放共享數據的內生動力;二是知識產權模糊,將公共資助產生的數據置于公共領域而不保留任何權利的做法也并不能有效促進高質量數據共享和應用;三是數據來源和質控措施不清晰,數據質量無法保證;四是科學數據溯源困難,不完善、不規(guī)范的數據描述信息為理解和重用帶來阻礙;五是缺乏持久性的標識和訪問支持,數據難以在學術論文中規(guī)范引用。作為一種數據期刊出版形式,數據論文起到重要的描述作用,同時也是將數據轉為傳統(tǒng)意義學術成果的重要手段。但由于已發(fā)布的數據期刊數據論文出版標準不統(tǒng)一,加上科學數據具有抽象性和大規(guī)模性,用戶很難根據數據內容實現對科學數據的查詢和定位,這影響了科學數據的精準發(fā)現與再利用。因此,制定數據論文及關聯科學數據集出版元數據規(guī)范是指導數據期刊規(guī)范化出版數據論文、促進科研人員實現數據再利用的主要途徑。
通過文獻分析和網絡調研,以期刊網站和數據平臺發(fā)布的信息為主要依據進行內容對比分析和歸納總結,梳理研究對象的要素信息和關聯關系。數據期刊方面,基于對我國科研工作者發(fā)文量和認可度的調研結果,主要調研ScientificData、EarthSystemScienceData(ESSD)、GeoscienceDataJournal(GDJ)、BiodiversityDataJournal(BDJ)、DatainBrief、GigaScience、《地質科學數據專輯》《全球變化數據學報》《中國科學數據》等數據期刊,分析數據期刊出版數據論文的流程與特征。數據論文出版要素方面,重點分析數據論文在數據期刊出版平臺上的要素信息,并充分考慮我國對在線數據出版的政策及標準要求(如須依據CSTR、科學數據引用方面國家標準)。數據集出版要素方面,考慮到通用性和代表性,選取受數據期刊ScientificData認可的6個通用數據存儲庫進行關聯數據集要素的調研分析,主要包括Dryad Digital Repository、Figshare、Harvard Dataverse、Open Science Framework、Zenodo、Science Data Bank。標準研究方面,具體采用《科技平臺 元數據標準化基本原則與方法》(GB/T 30522—2014)規(guī)定的摘要表示的方式定義和描述元數據屬性等。應用實踐方面,結合《中國科學數據》實踐給出標準應用實例,驗證標準有效性。作為一種面向多學科領域科學數據出版的學術期刊,《中國科學數據》致力于科學數據的開放、共享和引用,推進科學數據的長期保存與數據資產管理,探索科學數據工作的有效評價機制,推動數據科學的發(fā)展,促進科學數據的可發(fā)現、可訪問、可互操作、可重用[33],目前已經成為中國科學引文數據庫(Chinese Science Citation Database,CSCD)核心庫來源期刊。
目前出版科學數據還只是各期刊出版單位或數據存儲中心(庫)的單獨行動,對領域之間乃至全社會各類數據資源的統(tǒng)一有效檢索和關聯使用尚未實現[34]。而要達到此目標,則有必要進一步規(guī)范科學數據出版過程中的出版規(guī)范和引用標準,以使數據能夠互聯互通,像學術論文那樣廣泛傳播、檢索、閱讀和引用。
元數據是推進科學數據共享、實現數據出版、支持數據可發(fā)現和利用的重要基礎[35-37]。建設元數據標準規(guī)范是完成數據集成整合、實現數據檢索與使用的關鍵環(huán)節(jié)[38]。目前,國際上已有一些通用標準,如《都柏林核心元數據集》[39]、W3C DCAT[40]、《機器可讀目錄》(Machine-Readable Cataloging,MARC)、《地球空間數據資產元數據》(美國國家標準)、《政府信息資源元數據》(Government Information Locater Service,GILS)等。我國也啟動相關標準研制工作,先后發(fā)布了《科技平臺 資源核心元數據》(GB/T 30523—2014)、《科技平臺 服務核心元數據》(GB/T 31073—2014)、《土壤科學數據元數據》(GB/T 32739—2016)。一些學者也在科學數據場景下對元數據標準適用性進行了比較研究[41-42]??傮w上現有元數據標準不能有效規(guī)范當前數據論文及其關聯數據集出版,無法厘清數據論文出版特征、數據論文和科學數據集的關聯關系。
從實踐分析來看,目前的數據出版平臺(如Figshare)數據的元數據僅按《都柏林核心元數據集》創(chuàng)建[43],由作者進行核查和修改[44],元數據過于簡單,并不能很好地支持對數據的深度揭示與利用,也無法描述數據論文這一新形態(tài)出版物。此外,科學數據有實驗數據、測量數據、統(tǒng)計數據、觀察數據、調查數據等,各個學科數據的特點不盡相同,數據種類和格式存在多樣性和復雜性,這給數據出版平臺設計和數據共享與利用帶來挑戰(zhàn)[45]。為了使數據更易于獲取、互連和發(fā)現,需要獲取高質量的元數據來幫助理解和使用[46],并定義數據論文和其關系。因此,在相關元數據標準制定方面,需要提出一套通用方案,再擴展更為專業(yè)的元數據標準,借助工具和技術實現對大規(guī)模數據的標引,最終實現科學數據的高質量出版和有效應用。
基于上述分析,本文以數據論文和其關聯的科學數據集為主要規(guī)范對象,通過分析和提煉特征要素定義二者在互聯網平臺上的出版狀態(tài)和關聯關系,實現標準研究。對國內外的主要數據期刊的學科領域覆蓋、數據共享協議、數據庫關聯情況、數據引用規(guī)范等進行調研和對比分析,分析數據論文及其關聯數據集出版元數據特征,見表1。
表1 國內外主要數據期刊數據論文及關聯數據集出版情況
根據調研可以看出,數據期刊在出版方面和傳統(tǒng)期刊具有一定的相似性。一般數據期刊面向特定學科領域,擁有ISSN,經過同行評議對數據論文和數據內容進行質量控制,有明確的論文引用規(guī)范,并收取一定出版費用。目前有兩種數據期刊出版模式:一是數據期刊獨立出版模式,數據期刊建設統(tǒng)一的出版平臺并發(fā)布數據論文及其關聯科學數據集,如《全球變化數據學報》;二是“數據期刊+數據存儲庫”合作模式,以ScientificData為例,數據論文在其期刊出版平臺發(fā)布,數據集在其認可的存儲庫中在線發(fā)布,《中國科學數據》也采取類似模式,指定 Science Data Bank為其數據集在線發(fā)布平臺[47]。因為大多數期刊并不具備存儲數據的技術條件,采用后者的數據期刊數量較多[48]。一般情況下,數據期刊出版平臺是數據論文的發(fā)布與共享平臺,處理數據論文的收集、評審和出版等??茖W數據存儲庫收集、長期存儲、在線展示數據,原則上支持多種數據格式,并提供科學數據歸檔、獲取、認證和引用服務。本文主要基于通用概念提出元數據的標準化建議,數據期刊可以根據自身情況選擇上述兩種模式。
數據論文出版的不同之處在于在線出版發(fā)布、論文關聯實體數據、期刊與關聯數據存儲庫合作、遵循數據共享協議等。數據論文出版以數據為核心,內容包括數據加工、數據整理、質量控制等。其在借鑒傳統(tǒng)學術文獻出版流程基礎上,充分體現了數據在線發(fā)布和服務特征,通過唯一標識等關聯關系構建數據論文和實體數據關系,為數據追溯和增值服務奠定基礎。具體流程見圖1。
圖1 數據論文及其關聯科學數據集出版一般流程
2.2.1 數據論文出版要素分析
通過對部分數據論文及關聯數據集出版元數據要素進行調研和對比分析,總結通用元數據要素,并構建數據論文和數據集實體間的關聯關系,見表2。從表2中可以看出,一般數據論文及關聯數據集出版都包含了數據論文作者信息、內容信息、出版信息和服務信息。
表2 國內外主要數據期刊的數據論文出版元數據要素對比分析
2.2.2 關聯數據集出版要素分析
一般情況下,數據期刊會通過認定第三方獨立數據存儲庫或自建存儲庫的方式為用戶提交的數據提供關聯、保存和共享服務。作為最有影響力的數據期刊之一,Springer Nature旗下的ScientificData認可了6個通用存儲庫和30多個學科領域數據存儲庫作為其關聯數據存儲平臺[49]??紤]到通用性和代表性,選取6個通用存儲庫進行關聯數據集出版元數據要素調研分析,主要包括Dryad Digital Repository、Figshare、Harvard Dataverse、Open Science Framework、Zenodo、Science Data Bank,見表3??茖W數據存儲庫通常在發(fā)布數據集過程中提供作者信息、描述/服務信息和出版信息,用戶可以通過相關元數據快速檢索和認知數據內涵,并按照數據協議獲取數據。需要說明的是,作為2個獨立實體,數據集和數據論文通常會被分配不同的唯一標識,通過標識、數據引用和頁面鏈接實現強關聯。同時,數據集和數據論文的作者信息、服務信息可能存在差異(有的數據集作者并非數據論文撰寫者),因此須單獨定義。此外,相關存儲庫采用了多種數據標準及機器可讀格式以提升可讀性和互操作性。
表3 數據論文關聯數據集出版元數據要素對比分析
數據論文出版元數據以描述具有一定主題的科學數據集為核心,融合學術論文出版特征、描述在線出版過程要素,能夠反映其來源、加工方式、質量控制和使用方法等信息,可實現規(guī)范引用和跟蹤統(tǒng)計服務,為我國數據期刊的創(chuàng)辦提供標準化指導。根據分析與實踐,數據論文及其關聯數據集出版元數據應滿足如下要求。(1)描述性:能夠依據系列準則來描述數據論文和其關聯數據集出版狀態(tài)的關鍵特征,實現對數據論文出版的標準化管理。(2)復雜性:既滿足國家戰(zhàn)略需要,又與現行國家標準協調一致,同時符合實際應用場景,根據數據論文出版階段按需使用。(3)多層次性:能夠以數據論文及其關聯數據集描述和關聯,可規(guī)范數據期刊編輯部、數據論文出版平臺、科學數據存儲庫、數據用戶等多方職責。(4)擴展性:具備強描述力和高可擴展性,以滿足不同的學科領域應用場景和出版機構實際工作需要。
數據論文出版的主要標準化對象包括數據論文及關聯數據集,其出版元數據主要包括數據論文出版元數據和數據集出版元數據兩部分。本文提出數據論文及其關聯數據集出版元數據架構(圖2),以滿足我國科學數據出版管理實際需要,同時面向國際通用交換共享服務的需要充分融合FAIR原則(可發(fā)現、可訪問、可交互和可重用)思想。具體采用《科技平臺 元數據標準化基本原則與方法》(GB/T 30522—2014)規(guī)定的摘要表示的方式定義和描述元數據,使用以下9個屬性進行定義:中文名稱、英文名稱、短名、定義、類型、值域、可選性、最大出現次數、注釋。受限于篇幅,僅列舉其中關鍵內容,并兼容其他國家標準規(guī)定。數據集出版元數據主要包括數據集描述信息、數據集出版信息和數據集服務信息,數據論文出版元數據主要包括數據論文內容信息、出版信息、服務信息,并支持領域擴展。
圖2 數據論文及其關聯數據集出版元數據標準架構
3.1.1 數據集描述信息
數據論文出版的核心是數據集,因此對數據集的描述既要與數據論文描述一致,又要反映豐富的數據描述信息,以便用戶檢索和精準獲取。數據集描述信息詳見表4,主要包括唯一標識符、數據集標題、摘要、范圍、數據集作者等。其中,為滿足我國科技資源管理實際需要,保障數據安全,標識符應符合《科技資源標識》(GB/T 32843—2016)規(guī)定,出版機構也可根據實際需要采取雙標識或多標識并兼容國際標識(如DOI等),但須保證標識符在每類標識系統(tǒng)中永久唯一。
3.1.2 數據集出版信息
數據集出版信息是數據集元數據的重要組成部分,主要定義數據集的發(fā)布日期、發(fā)表期刊和版本信息,可以全面呈現其出版過程關鍵信息,見表5。具體使用方式遵照數據出版機構的流程要求。
表5 數據集出版信息
3.1.3 數據集服務信息
數據論文提交至數據期刊的同時,關聯的科學數據存儲庫須為數據集分配資源唯一標識符、列明引用格式等,并為論文作者提供獲取服務,服務信息定義詳見表6。資源唯一標識符主要賦予數據論文關聯數據唯一標識編碼,支持永久在線解析、安全服務和關聯發(fā)現。作者能夠通過數據署名保護數據自主知識產權,他人應遵循共享協議和期刊政策利用公開出版的數據,同時以規(guī)范形式明確引用數據實體,如遵循國家標準《信息技術 科學數據引用》(GB/T 35294—2017)[50]。此外,數據期刊應在國家數據安全分類分級要求下出版數據,遵循開放共享協議(如CC0、CC BY等)或數據期刊獨立的數據政策,明確數據在線獲取和下載使用過程中應遵循的基本規(guī)則。
表6 數據集服務信息
3.2.1 數據論文內容信息
與傳統(tǒng)學術論文不同,數據論文的首要目的是描述數據及其生成、收集條件,一般不包括學術論文中的假設分析和結論成果[51]。數據論文內容信息結合傳統(tǒng)期刊論文結構化描述模式,對具有科學價值的某類或某個數據集進行規(guī)范化描述,使數據符合FAIR原則。數據論文內容信息主要包括標題、摘要、數據論文作者等,見表7。其中,引言、數據采集和處理方法、數據樣本描述、數據質量控制和評估、數據使用方法和建議體現了數據論文的核心內容特征。數據期刊可根據實際需要定義擴展內容,如ScientificData建議數據論文描述“軟件可用性聲明”等。唯一標識符單獨為數據論文分配,且根據我國科技資源管理需要,使用《科技資源標識》(GB/T 32843—2016)編碼方式。此外,需要說明的是,數據論文作者可能與數據集作者有差異,因此須單獨定義。
表7 數據論文內容信息
3.2.2 數據論文出版信息
數據論文出版流程的規(guī)范性和嚴謹性通過豐富的出版信息體現,見表8。主要通過科技期刊數據論文出版系統(tǒng)完成收稿日期、錄用日期、出版日期等信息的記錄,同時也對數據論文的同評日期、版本信息進行記錄和發(fā)布,以提高評審透明性和公眾參與度,提升用戶對數據的檢索和利用效率。
表8 數據論文出版信息
3.2.3 數據論文服務信息
數據論文服務信息建立在傳統(tǒng)科技期刊要素基礎上,通過數據論文下載地址、關聯數據集訪問地址、共享許可協議等體現,見表9。
表9 數據論文服務信息
基于元數據標準建議架構,通過獲取公開數據論文及關聯數據集信息給出元數據應用示例,說明數據論文及其關聯數據集出版元數據的描述方法,驗證該架構的可行性和有效性。圖3所示為數據集元數據示例,圖4所示為數據論文元數據示例,其中部分文字和圖表受限于篇幅略去。通過示例可以看出,該架構提供了支持數據論文出版平臺信息描述的最小子集,能夠實現定義和描述,并可構建數據論文和數據集的關聯關系。數據出版機構或數據管理機構可以根據數據期刊定位或出版平臺建設需要進行元數據擴展。
注:示例僅為說明數據論文及其關聯數據集出版元數據的描述方法,具體情況以實際為準。圖3 數據集元數據示例
注:示例僅為說明數據論文及其關聯數據集出版元數據的描述方法,具體情況以實際為準。圖4 數據論文元數據示例
數據論文是被國際科研界認可的數據出版形式。在我國,《中國科學數據》《全球變化數據學報》等數據期刊迅速發(fā)展,傳統(tǒng)期刊紛紛開展數據論文出版工作,這說明數據論文形式出版工作受到廣泛關注。但各個出版機構的數據信息描述及平臺運行模式差異較大,相關國家標準和行業(yè)標準缺乏,這不僅阻礙工作進展,也不利于未來數據期刊管理、數據互操作及數據共享再利用。建設數據論文及其關聯科學數據集出版元數據標準規(guī)范是完成數據集成整合、實現數據檢索與使用的關鍵環(huán)節(jié),因此亟需制定通用的元數據標準方案。
本文在梳理核心概念基礎上,通過文獻分析和網絡調研,以期刊網站和數據平臺發(fā)布的信息為主要依據進行內容對比分析和歸納總結,梳理研究對象的要素信息和關聯關系。重點分析了數據論文及科學數據出版元數據研究與實踐,分析數據論文出版特點。根據國家政策和標準要求,提出適應我國實際的數據論文及關聯數據集出版元數據標準,明確元數據要素定義和實踐方法,推動數據論文及其關聯數據集出版元數據標準化,為科技期刊開展相關創(chuàng)新實踐提供參考,以期推進我國科學數據產權保護,促進科學數據開放共享,充分釋放數據生產要素的深層次價值。
數據論文形式的科學數據出版作為創(chuàng)新數據共享模式,與傳統(tǒng)的文字出版物相比對技術要求較高。隨著2021年《中華人民共和國網絡安全法》[52]、《中華人民共和國數據安全法》[53]、《中華人民共和國個人信息保護法》[54]、《數據出境安全評估辦法(征求意見稿)》[55]等法律法規(guī)陸續(xù)發(fā)布,科學數據安全儲存、有序共享服務將面臨基礎設施建設、軟件技術升級、政策機制保障等方面的新挑戰(zhàn)。應根據不同學科領域,建立更符合數據倫理規(guī)范和數據使用習慣的數據政策;在激勵機制建設方面,進一步提倡用戶在學術成果中規(guī)范引用數據論文;在人員方面,遴選一批有數據處理經驗和科研能力的外審專家,全面推進數據論文聯合出版工作。