陳帥印 劉桂鋒, 劉瓊
(1. 江蘇大學(xué)科技信息研究所,鎮(zhèn)江 212013;2. 江蘇大學(xué)圖書館,鎮(zhèn)江 212013)
科學(xué)研究第四范式(數(shù)據(jù)密集型科學(xué))[1]的產(chǎn)生使得科研人員將關(guān)注的焦點(diǎn)轉(zhuǎn)向科學(xué)數(shù)據(jù)的組織、存儲(chǔ)、開放、共享與使用等方面??萍嘉墨I(xiàn)的出版是研究人員發(fā)布科研成果的重要途徑之一,而在科研過程中產(chǎn)生的科學(xué)數(shù)據(jù)有十分重要的意義。為使科學(xué)研究過程可以得到重現(xiàn)的同時(shí)保護(hù)數(shù)據(jù)工作者的知識(shí)產(chǎn)權(quán),一種可將數(shù)據(jù)以特定的形式“出版”,基于數(shù)據(jù)論文(data paper)概念的新數(shù)據(jù)出版模式開始被廣泛認(rèn)識(shí)并認(rèn)可[2-3],隨后出現(xiàn)了同時(shí)發(fā)表學(xué)術(shù)論文和數(shù)據(jù)論文的重疊期刊(overlay journal)、純數(shù)據(jù)期刊(pure data journal)[4]等新的出版物形式。數(shù)據(jù)論文率先出現(xiàn)在生物學(xué)、地球科學(xué)等領(lǐng)域[5]。早在2000年,美國(guó)生態(tài)學(xué)會(huì)(Ecological Society of America,ESA)[6]就在投稿須知中對(duì)數(shù)據(jù)論文進(jìn)行闡釋,認(rèn)為它是一種特殊類型的論文,用于展示大型或豐富的數(shù)據(jù)集,包括描述數(shù)據(jù)內(nèi)容、數(shù)據(jù)產(chǎn)生背景、數(shù)據(jù)質(zhì)量和結(jié)構(gòu)的元數(shù)據(jù)文件。
隨著科學(xué)數(shù)據(jù)對(duì)科學(xué)研究重要性的不斷顯著,數(shù)據(jù)論文的作用與價(jià)值也在學(xué)術(shù)出版中日益凸顯,不少學(xué)者對(duì)其概念、形式與結(jié)構(gòu)、出版流程、作用等進(jìn)行了研究:Candela等[7]認(rèn)為數(shù)據(jù)論文的概念應(yīng)至少包含兩個(gè)具體的信息對(duì)象——數(shù)據(jù)集(數(shù)據(jù)論文的描述對(duì)象)和數(shù)據(jù)論文本身(描述數(shù)據(jù)集的作品),其中數(shù)據(jù)論文一詞特指后者,數(shù)據(jù)論文與傳統(tǒng)期刊文章相同,包括標(biāo)題、作者、摘要、章節(jié)和參考文獻(xiàn)等內(nèi)容;屈寶強(qiáng)等[8]詳細(xì)地對(duì)數(shù)據(jù)論文的形式、內(nèi)容與結(jié)構(gòu)進(jìn)行闡述,并且總結(jié)數(shù)據(jù)論文的出現(xiàn)能夠強(qiáng)化數(shù)據(jù)利用、促進(jìn)數(shù)據(jù)價(jià)值升值;Roa-Martínez等[9]在Candela對(duì)15家出版平臺(tái)的數(shù)據(jù)期刊的投稿指南、寫作指導(dǎo)等板塊進(jìn)行分析后,進(jìn)一步提出了一種通用的數(shù)據(jù)論文構(gòu)成體例。總的來說,數(shù)據(jù)論文是對(duì)科研過程中數(shù)據(jù)收集、數(shù)據(jù)內(nèi)容、數(shù)據(jù)處理、數(shù)據(jù)格式等進(jìn)行詳細(xì)描述,類似于傳統(tǒng)期刊論文中的方法部分,但不提供任何數(shù)據(jù)的分析,也沒有產(chǎn)生新的研究結(jié)論,其內(nèi)容只是與科研過程產(chǎn)生的數(shù)據(jù)有關(guān),可以在數(shù)據(jù)制作完成后迅速發(fā)表[10-12]。
科學(xué)數(shù)據(jù)與期刊文獻(xiàn)是科學(xué)研究的重要學(xué)術(shù)成果,但二者通常是相互獨(dú)立地支持科學(xué)研究。若對(duì)數(shù)據(jù)與論文的關(guān)聯(lián)應(yīng)用進(jìn)行研究,探索其中的關(guān)聯(lián)特征與關(guān)聯(lián)模式,揭示論文與數(shù)據(jù)之間清晰的關(guān)聯(lián)性,可以更好地發(fā)揮二者的科學(xué)研究?jī)r(jià)值,更好地支撐數(shù)據(jù)高效應(yīng)用,對(duì)于科學(xué)數(shù)據(jù)的獲取與共享、科學(xué)數(shù)據(jù)的再利用和科研創(chuàng)新等有著重要的意義。部分學(xué)者在探討二者關(guān)聯(lián)問題時(shí),在科學(xué)數(shù)據(jù)的元數(shù)據(jù)質(zhì)量改善以及科學(xué)數(shù)據(jù)與期刊論文的關(guān)聯(lián)模式方面的研究缺乏實(shí)證、應(yīng)用層面的探索。因此,本文以元數(shù)據(jù)理論為基礎(chǔ),從科學(xué)數(shù)據(jù)生命周期理論、利益相關(guān)者理論等出發(fā),聚焦于探索數(shù)據(jù)論文與期刊論文的關(guān)聯(lián)模式,以實(shí)證應(yīng)用為側(cè)重點(diǎn),運(yùn)用有代表性的具體案例,將理論研究應(yīng)用到實(shí)踐中,切實(shí)實(shí)現(xiàn)科學(xué)數(shù)據(jù)能夠在科研成果中的可應(yīng)用、可共享和可推廣的目標(biāo),推動(dòng)科學(xué)數(shù)據(jù)高效流通、提高數(shù)據(jù)的應(yīng)用能力。
已有研究從多個(gè)角度對(duì)科學(xué)數(shù)據(jù)與文獻(xiàn)的關(guān)聯(lián)方式進(jìn)行分析與總結(jié)。例如:衛(wèi)軍朝[13]以Elsevier出版集團(tuán)的科學(xué)數(shù)據(jù)與文獻(xiàn)關(guān)聯(lián)實(shí)踐作為研究對(duì)象,總結(jié)歸納科學(xué)數(shù)據(jù)與文獻(xiàn)的4種關(guān)聯(lián)方式為可驗(yàn)證數(shù)據(jù)DOI、文本中的語義實(shí)體鏈接、數(shù)據(jù)倉(cāng)儲(chǔ)的橫幅標(biāo)識(shí)和集成數(shù)據(jù)App;姜恩波等[14]描述文獻(xiàn)與科學(xué)數(shù)據(jù)分離的現(xiàn)狀,并通過案例介紹科學(xué)數(shù)據(jù)與文獻(xiàn)關(guān)聯(lián)融合的呈現(xiàn)方式,把科學(xué)數(shù)據(jù)與文獻(xiàn)的關(guān)聯(lián)方式分為基于形式的硬關(guān)聯(lián)、基于內(nèi)容的軟關(guān)聯(lián)、基于語義的融合。
本研究從內(nèi)容、結(jié)構(gòu)和目的等方面對(duì)相關(guān)研究進(jìn)行歸納,將這些研究分為兩大類:基于引文的科學(xué)數(shù)據(jù)與文獻(xiàn)的關(guān)聯(lián),基于元數(shù)據(jù)的科學(xué)數(shù)據(jù)與文獻(xiàn)的關(guān)聯(lián)。
基于引文的科學(xué)數(shù)據(jù)與文獻(xiàn)的關(guān)聯(lián)研究主要以基于唯一標(biāo)識(shí)符的關(guān)聯(lián)和基于引文分析方法對(duì)參考文獻(xiàn)等引用與被引用現(xiàn)象進(jìn)行研究?jī)纱蠓矫鏋橹鳌?/p>
唯一標(biāo)識(shí)符具有用于科學(xué)數(shù)據(jù)、學(xué)術(shù)文獻(xiàn)等研究成果存儲(chǔ)以及發(fā)布時(shí)的引用功能,主要包括數(shù)字對(duì)象唯一標(biāo)識(shí)符(Digital Object Unique Identifier,DOI)、國(guó)際標(biāo)準(zhǔn)關(guān)聯(lián)(International Standard Link Identifier,ISLI)、統(tǒng)一資源名稱(Uniform Resource Name,URN)等。標(biāo)識(shí)符的使用能夠以可引用、可發(fā)現(xiàn)的方式使更多的數(shù)字資源、科學(xué)數(shù)據(jù)可見、可用和可搜索。孫文佳等[15]研究科學(xué)數(shù)據(jù)與科學(xué)文獻(xiàn)的關(guān)聯(lián)模式,并探討了DOI在實(shí)現(xiàn)科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究中的關(guān)鍵作用;朱江等[16]在《基于ISLI標(biāo)準(zhǔn)的科技文獻(xiàn)和科學(xué)數(shù)據(jù)的關(guān)聯(lián)》中,基于ISLI對(duì)科技文獻(xiàn)和科學(xué)數(shù)據(jù)關(guān)聯(lián)的ISLI元數(shù)據(jù)集擴(kuò)展、編碼體系設(shè)計(jì)等方面進(jìn)行研究;Kraft等[17]基于DOI對(duì)數(shù)字資源和文獻(xiàn)的關(guān)聯(lián)進(jìn)行研究并探索永久識(shí)別碼(Persistent Identifiers,PID)服務(wù)在學(xué)術(shù)內(nèi)容與數(shù)據(jù)關(guān)聯(lián)關(guān)系研究中的作用。
引文分析是對(duì)研究對(duì)象主要是學(xué)術(shù)文獻(xiàn)、期刊文獻(xiàn)、著者等的引用與被引用現(xiàn)象進(jìn)行分析與研究,是學(xué)者進(jìn)行關(guān)聯(lián)研究的重要方式之一。科技文獻(xiàn)引用科學(xué)數(shù)據(jù)是指科研人員在論文寫作中引用已有的科學(xué)數(shù)據(jù)作為研究資料進(jìn)行進(jìn)一步研究,或利用已有的科學(xué)數(shù)據(jù)來證明自己的研究成果等。郭學(xué)武[18]基于引文進(jìn)行了科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)研究,將科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)模式分為3種:基于引用的直接關(guān)聯(lián)、基于同被引的關(guān)聯(lián)、基于引文的擴(kuò)展關(guān)聯(lián);孫薇[19]使用引文分析等方法探索科技文獻(xiàn)關(guān)聯(lián)數(shù)據(jù)的科研關(guān)系發(fā)現(xiàn)模型;張?chǎng)蔚萚20]設(shè)計(jì)一種基于引文探針的關(guān)聯(lián)算法,在高能物理領(lǐng)域文獻(xiàn)與粒子關(guān)聯(lián)場(chǎng)景下實(shí)現(xiàn)該算法,通過對(duì)關(guān)聯(lián)度的計(jì)算發(fā)現(xiàn)更多的隱含關(guān)聯(lián),提高關(guān)聯(lián)的覆蓋率。
科學(xué)數(shù)據(jù)的元數(shù)據(jù)以科學(xué)數(shù)據(jù)為描述對(duì)象,是對(duì)科學(xué)數(shù)據(jù)開展描述、組織、出版等工作的重要工具??萍嘉墨I(xiàn)的元數(shù)據(jù)以文獻(xiàn)特征為描述對(duì)象,對(duì)文獻(xiàn)進(jìn)行知識(shí)組織、結(jié)構(gòu)描述等,不同文獻(xiàn)有著不同的元數(shù)據(jù)元素?;谠獢?shù)據(jù)的科學(xué)數(shù)據(jù)與文獻(xiàn)的關(guān)聯(lián)側(cè)重通過對(duì)科學(xué)數(shù)據(jù)的元數(shù)據(jù)與文獻(xiàn)的元數(shù)據(jù)進(jìn)行外部特征、內(nèi)容特征的對(duì)比,并對(duì)二者的相關(guān)性、關(guān)聯(lián)性進(jìn)行研究。黃筱瑾[21]從科學(xué)數(shù)據(jù)和科技文獻(xiàn)的元數(shù)據(jù)出發(fā),從兩者的元數(shù)據(jù)描述中提取表達(dá)內(nèi)容特征的元數(shù)據(jù)項(xiàng),并利用向量空間模型進(jìn)行特征的相似性計(jì)算,從而關(guān)聯(lián)科學(xué)數(shù)據(jù)與科技文獻(xiàn);韓濤[22]以生物信息學(xué)為例,對(duì)生物信息學(xué)科學(xué)數(shù)據(jù)庫(kù)與文獻(xiàn)庫(kù)的外部關(guān)聯(lián)和內(nèi)部關(guān)聯(lián)兩層關(guān)系進(jìn)行深度探究,基于內(nèi)外部關(guān)聯(lián)關(guān)系的交叉引用,對(duì)內(nèi)容層面和知識(shí)層面進(jìn)行聚合、關(guān)聯(lián)。
綜上可知,大多相關(guān)研究從不同角度對(duì)科學(xué)數(shù)據(jù)與文獻(xiàn)的關(guān)聯(lián)進(jìn)行分析,已有一定的理論基礎(chǔ),而基于引文的關(guān)聯(lián)和基于元數(shù)據(jù)的關(guān)聯(lián)之間基本上不會(huì)重疊,只有在一定程度上存在交叉關(guān)系。基于引文的關(guān)聯(lián)主要通過唯一標(biāo)識(shí)符和參考文獻(xiàn)兩個(gè)方面進(jìn)行探析,而元數(shù)據(jù)元素是對(duì)科學(xué)數(shù)據(jù)與文獻(xiàn)關(guān)聯(lián)關(guān)系研究的重要指標(biāo)之一,元數(shù)據(jù)元素根據(jù)各個(gè)研究?jī)?nèi)容及研究結(jié)構(gòu)的不同也會(huì)有不同的元數(shù)據(jù)元素分類,當(dāng)參考文獻(xiàn)或者唯一標(biāo)識(shí)符作為研究的元數(shù)據(jù)元素時(shí),則兩者之間必然存在一定的交叉關(guān)系。本研究在前期提取數(shù)據(jù)時(shí)發(fā)現(xiàn),參考文獻(xiàn)是元數(shù)據(jù)元素之一,這也表明基于引文的關(guān)聯(lián)與基于元數(shù)據(jù)的關(guān)聯(lián)在本研究不是并列關(guān)系,而是存在一定的相互交叉融合的關(guān)系。
全球變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)是中國(guó)科學(xué)院地理科學(xué)與資源研究所、中國(guó)地理學(xué)會(huì)主辦,以全球變化科學(xué)研究數(shù)據(jù)出版為核心的出版系統(tǒng)。該平臺(tái)從2014年開始收錄數(shù)據(jù)論文,每年期數(shù)不等,每期有10~20篇數(shù)據(jù)論文出版。截至2021年第12期,全球變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)平臺(tái)共有50期、數(shù)據(jù)論文總數(shù)量1019篇?!瓣P(guān)聯(lián)論文”字段是全球變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)平臺(tái)數(shù)據(jù)論文的元數(shù)據(jù)元素之一,通常指利用數(shù)據(jù)集完成的研究成果,該字段主要使讀者能夠快速檢索并閱讀與數(shù)據(jù)論文相關(guān)聯(lián)的期刊論文。因此,本研究以全球變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)為數(shù)據(jù)來源,對(duì)其數(shù)據(jù)論文及關(guān)聯(lián)論文字段進(jìn)行研究,以探索數(shù)據(jù)論文和期刊論文的關(guān)聯(lián)關(guān)系。
從全球變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)人工手動(dòng)采集2016年第1期至2021年第12期發(fā)表的全部存在“關(guān)聯(lián)論文”字段的數(shù)據(jù)論文相關(guān)數(shù)據(jù),包括數(shù)據(jù)論文題目、數(shù)據(jù)集貢獻(xiàn)者/作者、數(shù)據(jù)論文作者單位、數(shù)據(jù)論文關(guān)鍵詞、關(guān)聯(lián)論文篇數(shù)、關(guān)聯(lián)論文題目、關(guān)聯(lián)論文作者、關(guān)聯(lián)論文類型等,并通過“關(guān)聯(lián)論文”字段檢索到期刊論文,并采集相關(guān)數(shù)據(jù),包括期刊論文題名、作者、作者單位、關(guān)鍵詞等。數(shù)據(jù)收集時(shí)間截至2022年1月15日,收集數(shù)據(jù)論文總量938篇,其中擁有“關(guān)聯(lián)論文”字段的數(shù)據(jù)論文共有389篇。
與期刊論文一樣,數(shù)據(jù)論文的文獻(xiàn)特征也可以劃分為外部特征和內(nèi)容特征[23],具體見表1所示,可以看出兩者是一一對(duì)應(yīng)的關(guān)系。
表1 數(shù)據(jù)論文與期刊論文的外部特征與內(nèi)容特征
從數(shù)據(jù)論文及其關(guān)聯(lián)的期刊論文的發(fā)文數(shù)量及趨勢(shì)來看,2018年的關(guān)聯(lián)論文總量占數(shù)據(jù)論文總量比例最大,達(dá)63.10%,而2019年、2020年占比分別為32.89%、32.53%,原因在于2019—2021年該平臺(tái)出版大量屬于“全球變化數(shù)據(jù)大百科辭條”類型的數(shù)據(jù)論文,導(dǎo)致關(guān)聯(lián)論文的占比略有下降,但并不影響數(shù)據(jù)論文的發(fā)表數(shù)量及發(fā)表進(jìn)展。
從關(guān)聯(lián)論文的文獻(xiàn)類型看,大部分關(guān)聯(lián)論文的類型在2016年為“中文期刊”,2017年開始,關(guān)聯(lián)論文的文獻(xiàn)類型不再僅限于中文期刊、英文期刊,增加了“年度報(bào)告”,此后文獻(xiàn)類型逐漸豐富,發(fā)展至2021年,關(guān)聯(lián)論文類型呈現(xiàn)“中文期刊”“英文期刊”“專著”“年度報(bào)告”“學(xué)位論文”“論文集”等多樣化趨勢(shì),這意味著二者的關(guān)聯(lián)度更加緊密,而這樣的現(xiàn)象反映出科學(xué)數(shù)據(jù)在期刊論文中的應(yīng)用是多元化的。結(jié)合文獻(xiàn)類型的數(shù)量統(tǒng)計(jì)及每年的變化趨勢(shì)不難看出,數(shù)據(jù)論文與其關(guān)聯(lián)論文之間不再單一化,與數(shù)據(jù)論文對(duì)應(yīng)的關(guān)聯(lián)論文數(shù)量每年都有所改變,但文獻(xiàn)類型隨著時(shí)間的推進(jìn)而逐漸多樣化,因此形成了從原來的一篇數(shù)據(jù)論文僅有一篇關(guān)聯(lián)論文發(fā)展到一篇數(shù)據(jù)論文可以關(guān)聯(lián)到多篇期刊論文的現(xiàn)狀,并且與數(shù)據(jù)論文相關(guān)的關(guān)聯(lián)論文的文獻(xiàn)類型呈現(xiàn)多樣化趨勢(shì)。
從數(shù)據(jù)論文及其關(guān)聯(lián)期刊論文的作者來看,大部分都有合作關(guān)系。究其原因,在大數(shù)據(jù)時(shí)代背景下,大部分科學(xué)研究依賴實(shí)驗(yàn)、數(shù)據(jù)模擬或觀測(cè)等研究方法產(chǎn)生的海量數(shù)據(jù)(集)[24],而單個(gè)學(xué)者很難在兼顧科學(xué)研究的同時(shí)完成科學(xué)數(shù)據(jù)的采集、處理、加工、分析等全部工作,進(jìn)行作者合作完成數(shù)據(jù)共享已經(jīng)成為科學(xué)數(shù)據(jù)共享的主要形式。合作關(guān)系主要有弱合作、一般合作、強(qiáng)合作等層次的區(qū)分,強(qiáng)合作主要涵蓋的數(shù)據(jù)論文與其關(guān)聯(lián)密切的期刊論文的作者群一模一樣,弱合作主要指第一作者或者第一、第二作者相同。
元數(shù)據(jù)是指提供關(guān)于信息資源或數(shù)據(jù)的一種結(jié)構(gòu)化的數(shù)據(jù),是對(duì)信息資源結(jié)構(gòu)化的描述,其作用是描述信息資源或數(shù)據(jù)本身的特征和屬性。本研究對(duì)元數(shù)據(jù)描述資源框架的設(shè)計(jì)主要參考了DC元數(shù)據(jù)標(biāo)準(zhǔn)。通過對(duì)基本元素的復(fù)用,可以將元數(shù)據(jù)元素分為期刊論文元素修飾詞和數(shù)據(jù)論文元素修飾詞兩大項(xiàng)(見表2)。
表2 期刊論文元數(shù)據(jù)元素與數(shù)據(jù)論文元數(shù)據(jù)元素
對(duì)數(shù)據(jù)論文、期刊論文的元數(shù)據(jù)元素進(jìn)行修飾后,可以從單個(gè)元數(shù)據(jù)元素進(jìn)行相對(duì)應(yīng)的關(guān)聯(lián)應(yīng)用研究,從而探究數(shù)據(jù)論文與期刊論文基于元數(shù)據(jù)元素的關(guān)聯(lián)模式。具體而言,期刊論文與數(shù)據(jù)論文的關(guān)聯(lián)可以通過研究二者的元數(shù)據(jù)元素之間的關(guān)聯(lián)應(yīng)用使得二者的關(guān)聯(lián)模式更加清晰,進(jìn)而實(shí)現(xiàn)基于元數(shù)據(jù)的關(guān)聯(lián)。鑒于此構(gòu)建基于元數(shù)據(jù)元素的關(guān)聯(lián)應(yīng)用機(jī)制(見圖1),從數(shù)據(jù)集名稱、數(shù)據(jù)集貢獻(xiàn)者/作者、貢獻(xiàn)者/作者單位、出版時(shí)間等多個(gè)數(shù)據(jù)論文的元數(shù)據(jù)元素展開,與論文題名、論文作者、所屬單位、論文發(fā)表時(shí)間等期刊論文的元數(shù)據(jù)元素一一相照應(yīng),對(duì)二者的元數(shù)據(jù)元素進(jìn)行關(guān)聯(lián)應(yīng)用的深度探討。
圖1 基于元數(shù)據(jù)元素的關(guān)聯(lián)應(yīng)用機(jī)制
對(duì)于實(shí)驗(yàn)、觀測(cè)等科研過程中產(chǎn)生的數(shù)據(jù),數(shù)據(jù)生產(chǎn)者也就是研究人員在完成科技文獻(xiàn)的撰寫后,還會(huì)將這些數(shù)據(jù)整理成數(shù)據(jù)論文發(fā)表在數(shù)據(jù)期刊上,成為學(xué)術(shù)研究成果的一部分,那么該數(shù)據(jù)論文和期刊論文基于元數(shù)據(jù)或者其他因素都存在一定層面的關(guān)聯(lián)。
一般情況下,一項(xiàng)科學(xué)研究不僅靠一個(gè)研究人員就能完成,因此存在跨學(xué)科、跨領(lǐng)域等方式的科研合作關(guān)系,恰是作者合作關(guān)系網(wǎng)將本沒有關(guān)系的數(shù)據(jù)論文與科技文獻(xiàn)關(guān)聯(lián)起來。基于作者合作關(guān)系網(wǎng)的數(shù)據(jù)論文與期刊論文的關(guān)聯(lián)主要分為3種類型:不同作者或者研究團(tuán)隊(duì)共同完成數(shù)據(jù)論文的撰寫,并且該數(shù)據(jù)論文與不同作者各自完成的期刊論文構(gòu)成直接關(guān)聯(lián);不同作者合作完成的期刊論文與其中一個(gè)作者撰寫的數(shù)據(jù)論文構(gòu)成間接關(guān)聯(lián);同一作者完成的不同數(shù)據(jù)論文之間構(gòu)成互引式關(guān)聯(lián)。
數(shù)據(jù)論文和期刊論文一樣有外部特征和內(nèi)容特征,內(nèi)容特征主要包括論文(數(shù)據(jù)集)名稱、論文(數(shù)據(jù)集)摘要、關(guān)鍵詞。數(shù)據(jù)論文和期刊論文的元數(shù)據(jù)元素的修飾詞雖然有一定的差異,但其描述的元數(shù)據(jù)元素本質(zhì)內(nèi)容是相同的,尤其在內(nèi)容特征元素的描述上存在相互映射的聯(lián)系。通過提取二者的內(nèi)容特征進(jìn)行關(guān)聯(lián)應(yīng)用的研究,可以從內(nèi)容特征角度進(jìn)行內(nèi)容之間的關(guān)聯(lián),從而使得二者的關(guān)聯(lián)模式更加明晰。
數(shù)據(jù)論文的論文(數(shù)據(jù)集)名稱與其相關(guān)聯(lián)的期刊論文的題名存在一定的映射關(guān)系,期刊論文中使用的科學(xué)數(shù)據(jù)主要名稱大多會(huì)出現(xiàn)在數(shù)據(jù)論文的論文(數(shù)據(jù)集)名稱中。
期刊論文的摘要主要用于對(duì)整篇文章的內(nèi)容、研究方法、研究結(jié)論等進(jìn)行描述,能夠使讀者在閱讀完摘要后就能對(duì)整篇文章的結(jié)構(gòu)有一個(gè)較為清楚的認(rèn)識(shí)。數(shù)據(jù)論文的摘要內(nèi)容沒有過多對(duì)研究方法、研究流程的描述,大多會(huì)詳細(xì)地闡述該數(shù)據(jù)集的來源、用途、數(shù)據(jù)量、數(shù)據(jù)格式等。在常見的對(duì)科學(xué)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)計(jì)量與分析的文章中,可以明顯發(fā)現(xiàn)在摘要部分會(huì)提及數(shù)據(jù)的來源渠道等,鑒于此,二者的摘要部分有一定的關(guān)聯(lián)應(yīng)用。
期刊論文的關(guān)鍵詞一般包含研究對(duì)象、研究方法、研究主旨等,讀者通過關(guān)鍵詞能夠確定論文的研究主題等,對(duì)閱讀正文有一定的幫助。在數(shù)據(jù)論文中,關(guān)鍵詞主要涉及數(shù)據(jù)集的名稱、數(shù)據(jù)處理與分析工具、數(shù)據(jù)集指標(biāo)等,這與期刊論文的關(guān)鍵詞中有部分內(nèi)容的映射和重合。在使用科學(xué)數(shù)據(jù)的期刊論文中,部分論文會(huì)以數(shù)據(jù)集的研究對(duì)象名稱、數(shù)據(jù)集部分指標(biāo)等作為該論文的部分關(guān)鍵詞,其中有著基于內(nèi)容的關(guān)聯(lián)應(yīng)用。
引用行為是指在各種因素影響下,論文作者在撰寫相關(guān)的論文時(shí)參考或者借鑒其他學(xué)者的學(xué)術(shù)文獻(xiàn)并加以標(biāo)注說明的學(xué)術(shù)行為,無論是期刊論文還是數(shù)據(jù)論文都存在引用行為。數(shù)據(jù)論文的參考文獻(xiàn)主要涵蓋期刊文獻(xiàn)、會(huì)議報(bào)告等,科學(xué)數(shù)據(jù)集的形成是多源的,同一研究對(duì)象的數(shù)據(jù)在不同文獻(xiàn)類型出現(xiàn),作為數(shù)據(jù)論文需要將這些數(shù)據(jù)統(tǒng)一收集并出版。而對(duì)于期刊論文來說,參考文獻(xiàn)大多是其他學(xué)者的學(xué)術(shù)文獻(xiàn)等,但也不排除有部分期刊論文在撰寫過程中會(huì)用到數(shù)據(jù)論文或者數(shù)據(jù)集的情況?;谝梅绞浇嵌冗M(jìn)行數(shù)據(jù)論文的參考文獻(xiàn)以及期刊論文參考文獻(xiàn)之間的關(guān)聯(lián)應(yīng)用研究,可以更好地為二者的關(guān)聯(lián)模式提供參考。
引用位置指引用內(nèi)容在施引文獻(xiàn)中出現(xiàn)的位置,從引用位置角度進(jìn)行分析,能對(duì)引文出現(xiàn)位置的不同性與相似性進(jìn)行概述,為關(guān)聯(lián)研究提供思考的新角度。
“關(guān)聯(lián)論文”字段是全球變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)數(shù)據(jù)論文的元數(shù)據(jù)之一,該字段可以為閱讀者提供更便捷的方式去閱讀相對(duì)應(yīng)有數(shù)據(jù)關(guān)聯(lián)的論文。該關(guān)聯(lián)模式以數(shù)據(jù)論文和期刊論文之間是否有數(shù)據(jù)應(yīng)用關(guān)系為主要指標(biāo),涵蓋二者間的各類元數(shù)據(jù)元素、論文類型、論文內(nèi)容等,“關(guān)聯(lián)論文”字段的論文類型涉及多種文獻(xiàn)形式,包含中文期刊、英文期刊、數(shù)據(jù)論文、年度報(bào)告等。使用本體編輯和知識(shí)獲取軟件Protégé對(duì)此類數(shù)據(jù)進(jìn)行本體構(gòu)建,并對(duì)“期刊論文”和“數(shù)據(jù)論文”兩本體間構(gòu)建關(guān)聯(lián)關(guān)系為“關(guān)聯(lián)論文”(見圖2)。二者的屬性分布主要為論文的外部特征和內(nèi)容特征,看似無關(guān)聯(lián)的期刊論文和數(shù)據(jù)論文,在全球變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)上通過“關(guān)聯(lián)論文”字段有了內(nèi)容、元數(shù)據(jù)等方面的關(guān)聯(lián)應(yīng)用。
圖2 數(shù)據(jù)論文與期刊論文關(guān)聯(lián)的本體構(gòu)建與可視化
為驗(yàn)證上述提出的期刊論文與數(shù)據(jù)論文應(yīng)用關(guān)聯(lián)模式的適用性,遵循隨機(jī)抽樣性的原則從2020年、2021年的數(shù)據(jù)集中抽取含有“關(guān)聯(lián)論文”字段的數(shù)據(jù)論文及相對(duì)應(yīng)的期刊論文,并采集二者數(shù)據(jù)集的基本信息、數(shù)據(jù)集應(yīng)用與處理的軟件或者工具、數(shù)據(jù)集應(yīng)用在期刊論文中的位置、數(shù)據(jù)集應(yīng)用目的等數(shù)據(jù),進(jìn)行期刊論文與數(shù)據(jù)論文的應(yīng)用關(guān)聯(lián)分析(見圖3)。
圖3 基于數(shù)據(jù)集應(yīng)用的數(shù)據(jù)論文與期刊論文關(guān)聯(lián)
數(shù)據(jù)集的應(yīng)用格式主要以文字?jǐn)⑹?、表格、圖片3種類型為主,由于全球變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)的學(xué)科類型偏向地學(xué),數(shù)據(jù)集在期刊論文中的應(yīng)用格式絕大部分以圖片為主,在圖片的前后文會(huì)以文字形式進(jìn)行簡(jiǎn)單的概述和介紹。數(shù)據(jù)論文對(duì)數(shù)據(jù)集的元數(shù)據(jù)、外部特征、內(nèi)容特征、引用方式等多個(gè)維度進(jìn)行描述。科學(xué)研究從收集數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)到最終數(shù)據(jù)呈現(xiàn)形式的過程中,通常使用多種應(yīng)用方法或指標(biāo),通過不同的軟件、工具將數(shù)據(jù)轉(zhuǎn)化。該平臺(tái)數(shù)據(jù)集的應(yīng)用方法/指標(biāo)與其學(xué)科密切相關(guān),一般運(yùn)用到空間分區(qū)分類分析、各類指數(shù)分析、網(wǎng)絡(luò)分析、凝聚子群等多種與地學(xué)相關(guān)的研究方法或指標(biāo),采用的軟件/工具主要以Unicet、ArcGIS等為主,AR模型或者其他建模工具為輔,用于將前期的科學(xué)數(shù)據(jù)可視化。因此,數(shù)據(jù)論文描述的數(shù)據(jù)集實(shí)際應(yīng)用于期刊論文中,由數(shù)據(jù)集的應(yīng)用格式、方法或指標(biāo)、使用的軟件或工具等架構(gòu)二者之間的關(guān)聯(lián)。
除了對(duì)數(shù)據(jù)集的應(yīng)用格式、方法或指標(biāo)、軟件工具等進(jìn)行研究,還可以對(duì)數(shù)據(jù)集的應(yīng)用位置及數(shù)據(jù)集的應(yīng)用目的等進(jìn)行多個(gè)方向的闡述與分析。數(shù)據(jù)集的應(yīng)用位置主要出現(xiàn)在期刊論文的研究背景、數(shù)據(jù)來源、結(jié)果分析等部分中,即論文中使用數(shù)據(jù)集的位置大多是研究的主要內(nèi)容部分。研究背景部分是介紹研究的大背景及研究來源,數(shù)據(jù)集在此部分的應(yīng)用可以印證該研究的意義、佐證研究的可行性。數(shù)據(jù)來源部分是研究性論文的數(shù)據(jù)闡述部分,數(shù)據(jù)集在此部分的應(yīng)用能夠直觀表述數(shù)據(jù)源。結(jié)果分析是較多學(xué)者在對(duì)數(shù)據(jù)進(jìn)行采集、處理、分析后表述分析結(jié)果的部分,數(shù)據(jù)集應(yīng)用于結(jié)果分析部分為研究結(jié)論提供數(shù)據(jù)支撐,由此可見科學(xué)數(shù)據(jù)在一項(xiàng)科學(xué)研究過程中的重要性。
科學(xué)數(shù)據(jù)通過前期大量的數(shù)據(jù)采集、中期的處理、后期的分析,其最終的研究目標(biāo)是解決學(xué)術(shù)問題或未解決的實(shí)際問題,通過科學(xué)研究從而解決該問題,彰顯科學(xué)學(xué)術(shù)意義、為社會(huì)創(chuàng)造價(jià)值,因此數(shù)據(jù)的價(jià)值便在數(shù)據(jù)集的應(yīng)用目的這一方面得到凸顯。在變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)中,數(shù)據(jù)集在期刊論文中的應(yīng)用目的主要為構(gòu)建指數(shù)序列、呈現(xiàn)時(shí)空特征、構(gòu)建參數(shù)、分析時(shí)空格局演變、分析影響因素等。
關(guān)聯(lián)研究是研究不同知識(shí)、不同數(shù)據(jù)之間的相互關(guān)系,并從中發(fā)現(xiàn)研究對(duì)象之間的潛在關(guān)系[25]。將海量科學(xué)數(shù)據(jù)以數(shù)據(jù)論文的形式發(fā)表從而起到數(shù)據(jù)共享的目的,基于元數(shù)據(jù)對(duì)數(shù)據(jù)論文與期刊論文的關(guān)聯(lián)進(jìn)行分析,是科學(xué)數(shù)據(jù)共享成為大勢(shì)所趨的發(fā)展方向。本文以元數(shù)據(jù)為切入點(diǎn),通過對(duì)全球變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)的數(shù)據(jù)論文進(jìn)行元數(shù)據(jù)相關(guān)項(xiàng)的提取,并通過“關(guān)聯(lián)論文”字段提取相關(guān)聯(lián)的期刊論文元數(shù)據(jù)相關(guān)項(xiàng),對(duì)二者進(jìn)行關(guān)聯(lián)融合研究。先從論文的文獻(xiàn)特征、文獻(xiàn)類型、發(fā)文量與趨勢(shì)等方面對(duì)二者進(jìn)行論文文獻(xiàn)的計(jì)量與分析,接著選取代表性案例數(shù)據(jù)進(jìn)行深度探討,對(duì)論文進(jìn)行基于元數(shù)據(jù)的關(guān)聯(lián)應(yīng)用研究,概述該平臺(tái)的數(shù)據(jù)論文及關(guān)聯(lián)的期刊論文關(guān)聯(lián)模式主要為四大類:基于作者/作者單位的關(guān)聯(lián)、基于內(nèi)容特征的關(guān)聯(lián)、基于引用方式的關(guān)聯(lián)和基于“關(guān)聯(lián)論文”字段的關(guān)聯(lián)。本研究從數(shù)據(jù)的元數(shù)據(jù)、內(nèi)容到數(shù)據(jù)的應(yīng)用方式與應(yīng)用效果逐步進(jìn)行分析,側(cè)重?cái)?shù)據(jù)元素的應(yīng)用研究。
在知識(shí)創(chuàng)新日益重要的今天,對(duì)科學(xué)數(shù)據(jù)的研究不再停滯于理論層次,而是要對(duì)科學(xué)數(shù)據(jù)的應(yīng)用方式以及二次利用模式進(jìn)行探究。期刊論文是學(xué)術(shù)成果展示的重要形式之一,對(duì)數(shù)據(jù)論文與期刊論文的關(guān)聯(lián)進(jìn)行揭示,將對(duì)科學(xué)研究和科技創(chuàng)新產(chǎn)生重要的推動(dòng)作用?;谠獢?shù)據(jù)、數(shù)據(jù)應(yīng)用方式的關(guān)聯(lián)研究只是數(shù)據(jù)與文獻(xiàn)關(guān)聯(lián)的完整研究體系中的一部分,隨著科學(xué)的不斷發(fā)展,各個(gè)領(lǐng)域的科學(xué)研究將不斷產(chǎn)生新的科學(xué)數(shù)據(jù),新的學(xué)術(shù)成果展示形式也會(huì)不斷更新。因此,在今后的研究工作中還需從不同的視角對(duì)數(shù)據(jù)與文獻(xiàn)進(jìn)行探討分析,促進(jìn)科學(xué)數(shù)據(jù)與文獻(xiàn)之間的深度融合,進(jìn)而推進(jìn)關(guān)聯(lián)研究的深入發(fā)展。