国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

不同替代計(jì)量數(shù)據(jù)庫(kù)數(shù)據(jù)政策與數(shù)據(jù)數(shù)值的比較研究*

2021-05-29 01:57余厚強(qiáng)尹梓涵
情報(bào)雜志 2021年5期
關(guān)鍵詞:數(shù)據(jù)源計(jì)數(shù)計(jì)量

余厚強(qiáng) 尹梓涵

(1.中山大學(xué)信息管理學(xué)院 廣州 510006; 2.南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院 南京 210094)

0 引 言

隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,科學(xué)交流模式也發(fā)生著日新月異的變化,從傳統(tǒng)的科學(xué)圖書(shū)、科技期刊、聲像資料等的交流媒介,以及個(gè)人之間通過(guò)面談、書(shū)信等方式進(jìn)行的交流形式,到現(xiàn)在各種在線(xiàn)科學(xué)交流平臺(tái)和工具的興起,這為研究科學(xué)交流和科技評(píng)價(jià)提供了大量豐富的數(shù)據(jù),構(gòu)成了替代計(jì)量學(xué)研究的基礎(chǔ)[1]。NISO(National Information Standards Organization, 美國(guó)國(guó)家信息標(biāo)準(zhǔn)化組織)給出替代計(jì)量學(xué)的定義為,“替代計(jì)量學(xué)是一個(gè)寬泛的概念,囊括了與學(xué)術(shù)成果相關(guān)的一系列多樣化的數(shù)字化指標(biāo),這些指標(biāo)來(lái)源于學(xué)術(shù)生態(tài)系統(tǒng)乃至公共空間中各種不同利益相關(guān)者和學(xué)術(shù)成果的活動(dòng)和交互”[2]。

替代計(jì)量學(xué)研究離不開(kāi)高質(zhì)量的替代計(jì)量數(shù)據(jù)[3],影響替代計(jì)量數(shù)據(jù)質(zhì)量的因素有很多,替代計(jì)量數(shù)據(jù)的動(dòng)態(tài)性、準(zhǔn)確性、一致性和可重復(fù)性是影響替代計(jì)量數(shù)據(jù)質(zhì)量的主要因素[4]。為規(guī)范替代計(jì)量數(shù)據(jù)的使用,美國(guó)信息標(biāo)準(zhǔn)化組織對(duì)替代計(jì)量數(shù)據(jù)質(zhì)量提供了建議性標(biāo)準(zhǔn),從透明性、可重復(fù)性和準(zhǔn)確性三個(gè)方面進(jìn)行了規(guī)定。在此基礎(chǔ)上,劉曉娟等[5]從生命周期視角下,描述了數(shù)據(jù)產(chǎn)生、數(shù)據(jù)收集、數(shù)據(jù)聚合三個(gè)環(huán)節(jié)下存在的數(shù)據(jù)質(zhì)量問(wèn)題和出現(xiàn)問(wèn)題的原因。余厚強(qiáng)等[6]則通過(guò)對(duì)替代計(jì)量數(shù)據(jù)生產(chǎn)流程的梳理,對(duì)與數(shù)據(jù)質(zhì)量相關(guān)的主體要素進(jìn)行識(shí)別,構(gòu)建了替代計(jì)量數(shù)據(jù)質(zhì)量評(píng)估體系。這些研究為理解和評(píng)估替代計(jì)量數(shù)據(jù)質(zhì)量提供了框架性的指導(dǎo)。

準(zhǔn)確性是數(shù)據(jù)質(zhì)量的基本維度之一,指的是數(shù)據(jù)庫(kù)記錄下的數(shù)據(jù)與來(lái)源平臺(tái)真實(shí)的數(shù)據(jù)相一致的程度。針對(duì)替代計(jì)量數(shù)據(jù)庫(kù)的數(shù)據(jù)記錄開(kāi)展內(nèi)容分析,將數(shù)據(jù)庫(kù)提供的數(shù)據(jù)與來(lái)源平臺(tái)的原始數(shù)據(jù)進(jìn)行對(duì)比,可識(shí)別出潛在的錯(cuò)誤類(lèi)型。Zahedi等[7]對(duì)Mendeley元數(shù)據(jù)的準(zhǔn)確性研究發(fā)現(xiàn),學(xué)術(shù)成果的期刊標(biāo)題、頁(yè)碼的錯(cuò)誤普遍存在。Yu等[8]對(duì)政策文件替代計(jì)量數(shù)據(jù)的準(zhǔn)確性做了系統(tǒng)測(cè)定,識(shí)別出政策文件平臺(tái)和替代計(jì)量數(shù)據(jù)庫(kù)兩個(gè)方面的錯(cuò)誤類(lèi)型,并計(jì)算出了各種錯(cuò)誤類(lèi)型的比例。Ortega[9]則對(duì)替代計(jì)量數(shù)據(jù)庫(kù)中提供的博客和新聞數(shù)據(jù)做了研究,測(cè)定了所提供鏈接的可用性。

可重復(fù)性是數(shù)據(jù)質(zhì)量的另一個(gè)基本維度,指的是針對(duì)相同的對(duì)象采用相同的方法在多大程度上可以得到相同的結(jié)果。由于各個(gè)替代計(jì)量數(shù)據(jù)庫(kù)具體的數(shù)據(jù)處理方法無(wú)法獲取,相關(guān)研究將不同替代計(jì)量數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行對(duì)比,測(cè)度數(shù)據(jù)庫(kù)之間的數(shù)據(jù)一致性,以評(píng)估替代計(jì)量數(shù)據(jù)的可重復(fù)性。Zahedi等[10]比較了PLoS、Mendeley和Altmetric三種數(shù)據(jù)庫(kù)的數(shù)據(jù),對(duì)改進(jìn)不同替代計(jì)量數(shù)據(jù)服務(wù)平臺(tái)的數(shù)據(jù)一致性起到了參考性作用。Ortega等[11]從國(guó)家、語(yǔ)言和主題角度比較了Altmetric、CrossRef和PlumX在博客提及和新聞提及數(shù)據(jù)上的表現(xiàn),發(fā)現(xiàn)Altmetric在地理和語(yǔ)言上做的較好,博客的覆蓋率最高,PlumX收集的新聞媒體尤其是美國(guó)的地方報(bào)紙更多一些。不同替代計(jì)量數(shù)據(jù)庫(kù)提供的替代計(jì)量數(shù)據(jù)之間的差異,可能是訪(fǎng)問(wèn)社交媒體平臺(tái)數(shù)據(jù)的不同形式造成的,也可能與收集、處理、匯總和更新替代計(jì)量數(shù)據(jù)的不同方式有關(guān)[12]。

替代計(jì)量數(shù)據(jù)庫(kù)的數(shù)據(jù)政策,是數(shù)據(jù)庫(kù)獲取、處理、展示數(shù)據(jù)的根本依據(jù),對(duì)指導(dǎo)和保障數(shù)據(jù)質(zhì)量起到至關(guān)重要的作用。不同替代計(jì)量數(shù)據(jù)庫(kù)為保障數(shù)據(jù)的透明性、可重復(fù)性和準(zhǔn)確性,分別采取了不同的政策,對(duì)不同替代計(jì)量數(shù)據(jù)庫(kù)的數(shù)據(jù)政策進(jìn)行比較,有助于理解不同替代計(jì)量數(shù)據(jù)庫(kù)對(duì)相同的數(shù)據(jù)源在數(shù)據(jù)處理上的差異,以及這些差異可能對(duì)數(shù)據(jù)質(zhì)量造成的影響。不同替代計(jì)量數(shù)據(jù)庫(kù)數(shù)據(jù)數(shù)值的交叉比較,可以從整體上反映替代計(jì)量數(shù)據(jù)的穩(wěn)定性,并且發(fā)現(xiàn)不同替代計(jì)量數(shù)據(jù)庫(kù)在數(shù)據(jù)質(zhì)量上的差異,通過(guò)結(jié)合數(shù)據(jù)政策進(jìn)行分析,可以對(duì)差異形成的原因進(jìn)一步解讀,進(jìn)而幫助學(xué)者和研究人員在選取替代計(jì)量數(shù)據(jù)時(shí)根據(jù)不同的需求選擇合適的數(shù)據(jù)庫(kù)。

因此,本研究分析了目前主流替代計(jì)量數(shù)據(jù)庫(kù)的數(shù)據(jù)政策與數(shù)據(jù)數(shù)值,旨在解決以下兩個(gè)研究問(wèn)題:

a. 從數(shù)據(jù)質(zhì)量保障的政策來(lái)看,主要的替代計(jì)量數(shù)據(jù)庫(kù)存在什么異同?數(shù)據(jù)質(zhì)量保障政策包括保障數(shù)據(jù)透明性的政策,保障數(shù)據(jù)可重復(fù)性的政策和保障數(shù)據(jù)準(zhǔn)確性的政策。

b. 從數(shù)據(jù)交叉比較的分析角度,不同數(shù)據(jù)庫(kù)對(duì)相同數(shù)據(jù)來(lái)源捕捉的數(shù)據(jù)存在什么異同?針對(duì)相同的替代計(jì)量數(shù)據(jù)源,分析不同數(shù)據(jù)庫(kù)之間的替代計(jì)量數(shù)據(jù)差異,并根據(jù)這些差異對(duì)替代計(jì)量數(shù)據(jù)庫(kù)的特征進(jìn)行分析。

1 數(shù)據(jù)來(lái)源與處理

1.1研究對(duì)象的選取目前較為流行的替代計(jì)量數(shù)據(jù)庫(kù)有CrossRef、Altmetric.com、PLoS ALM、ImpactStory、PlumX和Kudos,共計(jì)6家。對(duì)比了這幾個(gè)替代計(jì)量數(shù)據(jù)服務(wù)平臺(tái)的服務(wù)范圍、受眾范圍、數(shù)據(jù)源等基本情況,本研究選取了Altmetric.com、CrossRef和PLOS ALM這3種替代計(jì)量數(shù)據(jù)庫(kù)作為比較分析的對(duì)象,因?yàn)椋篒mpactStory數(shù)據(jù)庫(kù)中的數(shù)據(jù)僅對(duì)研究者個(gè)人開(kāi)放使用,無(wú)法獲取替代計(jì)量數(shù)據(jù)來(lái)進(jìn)行數(shù)據(jù)庫(kù)的分析;只有少數(shù)幾家與PlumX合作的機(jī)構(gòu)公開(kāi)了它們的數(shù)據(jù),所以PlumX可以訪(fǎng)問(wèn)的數(shù)據(jù)很有限;關(guān)于CrossRef、PlumX和Altmetric.com數(shù)據(jù)庫(kù)的數(shù)據(jù)比較,Ortega等[11]已經(jīng)進(jìn)行了較為深入的研究;Kudos與Altmetric.com的數(shù)據(jù)存在重疊。

上述選取的Altmetric.com、CrossRef和PLOS ALM 3種數(shù)據(jù)庫(kù),所收集的替代計(jì)量數(shù)據(jù)來(lái)源種類(lèi)并不完全相同。為了進(jìn)行對(duì)比分析,本研究關(guān)注至少被其中兩種數(shù)據(jù)庫(kù)收集的替代計(jì)量數(shù)據(jù)來(lái)源,結(jié)果共有7種數(shù)據(jù)源,其定義和收集情況如表1所示。

表1 獲取的替代計(jì)量數(shù)據(jù)庫(kù)的數(shù)據(jù)源比較

1.2數(shù)據(jù)獲取過(guò)程針對(duì)各數(shù)據(jù)庫(kù)關(guān)于數(shù)據(jù)政策的比較分析,主要通過(guò)網(wǎng)絡(luò)調(diào)研,包括各個(gè)數(shù)據(jù)庫(kù)的網(wǎng)站和其他會(huì)議資料,收集各個(gè)數(shù)據(jù)庫(kù)在數(shù)據(jù)質(zhì)量方面采取的措施和制定的政策。

針對(duì)各數(shù)據(jù)來(lái)源的數(shù)值比較,首先利用自行編寫(xiě)的Python程序,對(duì)CrossRef數(shù)據(jù)(CED,CrossRef Events Data)2019年12月1日的數(shù)據(jù)進(jìn)行獲取,得到了414 132條數(shù)據(jù)。將這些數(shù)據(jù)涉及的學(xué)術(shù)成果DOI提取出來(lái),分別在PLoS ALM數(shù)據(jù)庫(kù)和Altmetric.com數(shù)據(jù)庫(kù)中進(jìn)行檢索,得到至少被兩個(gè)數(shù)據(jù)庫(kù)收錄的學(xué)術(shù)成果1 600個(gè)。對(duì)3個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)按照DOI進(jìn)行匹配,兩兩數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)對(duì)比,由于不同數(shù)據(jù)庫(kù)對(duì)于學(xué)術(shù)成果的收錄范圍、收錄時(shí)間的不同,不同數(shù)據(jù)庫(kù)檢索出來(lái)的論文數(shù)量有一定差異,分別獲得的論文數(shù)量如圖1所示。

圖1 三種替代計(jì)量數(shù)據(jù)庫(kù)收錄論文重疊情況

1.3數(shù)據(jù)分析步驟在得到每一項(xiàng)替代計(jì)量數(shù)據(jù)庫(kù)的數(shù)據(jù)項(xiàng)后,分別進(jìn)行數(shù)據(jù)庫(kù)之間的比較,比較方式有以下兩種:

a.利用不同數(shù)據(jù)庫(kù)之間數(shù)據(jù)的計(jì)數(shù)差反映差異。設(shè)DOI相同的學(xué)術(shù)成果為i,i在3個(gè)數(shù)據(jù)庫(kù)中某一類(lèi)型的替代計(jì)量數(shù)據(jù)(如Twitter)的提及量分別為Ci(CrossRef中提及量)、Ai(Altmetric.com提及量)和Pi(PLoS ALM提及量),用k表示兩個(gè)數(shù)據(jù)庫(kù)數(shù)據(jù)的差值,N(k)表示兩個(gè)數(shù)據(jù)庫(kù)差值為k的學(xué)術(shù)成果的總個(gè)數(shù)。

k=Ci-Ai

(1)

通過(guò)對(duì)比N(k),來(lái)反映不同替代計(jì)量數(shù)據(jù)庫(kù)的替代計(jì)量數(shù)據(jù)的差異。

b. 利用計(jì)數(shù)差的標(biāo)準(zhǔn)差反映不同替代計(jì)量數(shù)據(jù)庫(kù)之間的差異。將計(jì)數(shù)差進(jìn)行統(tǒng)計(jì)分析,標(biāo)準(zhǔn)差可以展現(xiàn)不同替代計(jì)量數(shù)據(jù)庫(kù)的差異,較集中的分布表明替代計(jì)量數(shù)據(jù)庫(kù)之間數(shù)據(jù)差異較小,普遍向一個(gè)替代計(jì)量數(shù)據(jù)庫(kù)傾斜的數(shù)據(jù)分布則表明,這個(gè)數(shù)據(jù)庫(kù)總是比其他數(shù)據(jù)庫(kù)提供更多或更少的替代計(jì)量事件。

2 不同替代計(jì)量數(shù)據(jù)庫(kù)數(shù)據(jù)政策的對(duì)比分析結(jié)果

NISO從透明性、可重復(fù)性和準(zhǔn)確性三個(gè)方面,提出了替代計(jì)量數(shù)據(jù)質(zhì)量的建議性規(guī)范和標(biāo)準(zhǔn)[3],替代計(jì)量數(shù)據(jù)庫(kù)服務(wù)商分別應(yīng)對(duì)NISO標(biāo)準(zhǔn)做出了回應(yīng)和調(diào)整,建立了相關(guān)數(shù)據(jù)政策,對(duì)數(shù)據(jù)庫(kù)的數(shù)據(jù)處理方式、數(shù)據(jù)質(zhì)量的保障方法、數(shù)據(jù)庫(kù)信息等進(jìn)行公示,這為對(duì)比不同替代計(jì)量數(shù)據(jù)庫(kù)數(shù)據(jù)政策,提供了依據(jù)和數(shù)據(jù)支撐。

2.1不同替代計(jì)量數(shù)據(jù)庫(kù)保障透明性數(shù)據(jù)政策的對(duì)比分析透明性是指所提供替代計(jì)量數(shù)據(jù)的信息和細(xì)節(jié)的清晰程度以及完整的文檔記錄,并將這些信息都向所有用戶(hù)開(kāi)放,以便進(jìn)行驗(yàn)證。NISO建議數(shù)據(jù)庫(kù)能夠提供以下信息來(lái)保障透明度:替代計(jì)量數(shù)據(jù)庫(kù)如何生成、收集和管理數(shù)據(jù);數(shù)據(jù)庫(kù)如何將數(shù)據(jù)聚合和生成派生數(shù)據(jù);數(shù)據(jù)庫(kù)更新數(shù)據(jù)的時(shí)間和頻率;如何訪(fǎng)問(wèn)數(shù)據(jù);數(shù)據(jù)庫(kù)如何監(jiān)控?cái)?shù)據(jù)質(zhì)量。

為保障替代計(jì)量數(shù)據(jù)的透明性,Altmetric.com、CED和PLoS ALM三個(gè)替代計(jì)量數(shù)據(jù)庫(kù)都對(duì)數(shù)據(jù)源及其收集方式、更新頻率和監(jiān)控?cái)?shù)據(jù)情況進(jìn)行公開(kāi)。三個(gè)替代計(jì)量數(shù)據(jù)庫(kù)的相同點(diǎn)體現(xiàn)在:都公開(kāi)了生成和管理數(shù)據(jù)的方式;獲取數(shù)據(jù)的途徑主要是各個(gè)數(shù)據(jù)平臺(tái)的API;提供數(shù)據(jù)訪(fǎng)問(wèn)的方式主要是API和可視化操作界面。不同點(diǎn)主要體現(xiàn)在:在數(shù)據(jù)庫(kù)數(shù)據(jù)更新上,PLoS ALM根據(jù)學(xué)術(shù)成果的發(fā)布時(shí)間進(jìn)行更新,而CED和Altmetric.com都是分時(shí)段或?qū)崟r(shí)更新;在監(jiān)控方式上,Altmetric.com采取多種數(shù)據(jù)監(jiān)控方式,如設(shè)置閾值自動(dòng)標(biāo)記可疑活動(dòng)、人工監(jiān)控等;在監(jiān)控?cái)?shù)據(jù)上,PLoS ALM采用24小時(shí)自動(dòng)監(jiān)控,并結(jié)合人工監(jiān)控。

2.2不同替代計(jì)量數(shù)據(jù)庫(kù)保障可重復(fù)性數(shù)據(jù)政策的對(duì)比分析可重復(fù)性是指一組數(shù)據(jù)在數(shù)據(jù)源和數(shù)據(jù)收集者之間以及在一段時(shí)間內(nèi)保持一致的程度。NISO建議替代計(jì)量數(shù)據(jù)庫(kù)通過(guò)以下方式來(lái)保障數(shù)據(jù)的可重復(fù)性:隨著時(shí)間的推移,數(shù)據(jù)庫(kù)生成所提供的替代計(jì)量數(shù)據(jù)的方式應(yīng)該是相同的;數(shù)據(jù)庫(kù)應(yīng)該記錄下收集和處理數(shù)據(jù)方法的變化及其造成的影響;數(shù)據(jù)庫(kù)對(duì)錯(cuò)誤進(jìn)行糾正后,數(shù)據(jù)的變化應(yīng)該被記錄在案;數(shù)據(jù)庫(kù)同時(shí)提供給不同用戶(hù)的替代計(jì)量數(shù)據(jù)應(yīng)該是相同的,如果提供的數(shù)據(jù)不同,則數(shù)據(jù)庫(kù)應(yīng)當(dāng)記錄不同用戶(hù)組訪(fǎng)問(wèn)的差異;替代計(jì)量數(shù)據(jù)庫(kù)應(yīng)該提供關(guān)于數(shù)據(jù)是否可以獨(dú)立驗(yàn)證以及如何獨(dú)立驗(yàn)證的信息。

為保障數(shù)據(jù)庫(kù)的可重復(fù)性,Altmetric.com、CED和PLoS ALM 3個(gè)替代計(jì)量數(shù)據(jù)庫(kù)都對(duì)提供的每個(gè)類(lèi)型的替代計(jì)量數(shù)據(jù)進(jìn)行了說(shuō)明。a.在數(shù)據(jù)的生成和處理上,Altmetric.com對(duì)于學(xué)術(shù)成果的替代計(jì)量關(guān)注度得分的加權(quán)算法、原始的計(jì)數(shù)在學(xué)術(shù)成果替代計(jì)量詳情頁(yè)都是公開(kāi)的;而PLoS ALM由于一些數(shù)據(jù)源的限制,部分?jǐn)?shù)據(jù)只能提供計(jì)數(shù),不能獲取數(shù)據(jù)來(lái)源詳情;CED更關(guān)注事件本身而不是對(duì)數(shù)據(jù)進(jìn)行度量,所以不對(duì)數(shù)據(jù)進(jìn)行計(jì)量處理。b.在數(shù)據(jù)的提供與跟蹤上,Altmetric.com所有替代計(jì)量數(shù)據(jù)都基于相同的數(shù)據(jù)庫(kù);CED數(shù)據(jù)庫(kù)直接傳遞替代計(jì)量事件的數(shù)據(jù),而不提供度量標(biāo)準(zhǔn),所有事件都有時(shí)間戳,用于表示它們發(fā)生的時(shí)間,因此,用于收集事件的程序可以用時(shí)間戳進(jìn)行匹配;PLoS ALM數(shù)據(jù)庫(kù)沒(méi)有審計(jì)跟蹤數(shù)據(jù),對(duì)于運(yùn)行ALM的開(kāi)源軟件,將可能影響數(shù)據(jù)的收集方式的變化都予以記錄。

2.3不同替代計(jì)量數(shù)據(jù)庫(kù)保障準(zhǔn)確性的數(shù)據(jù)政策對(duì)比準(zhǔn)確性是指收集到的數(shù)據(jù)描述的準(zhǔn)確程度。NISO建議數(shù)據(jù)庫(kù)確保以下幾點(diǎn)來(lái)保障數(shù)據(jù)的準(zhǔn)確性:替代計(jì)量數(shù)據(jù)庫(kù)提供的數(shù)據(jù)和數(shù)據(jù)庫(kù)聲明反映的數(shù)據(jù)一致;數(shù)據(jù)庫(kù)應(yīng)當(dāng)能夠識(shí)別和糾正已知的錯(cuò)誤;替代計(jì)量數(shù)據(jù)庫(kù)提供數(shù)據(jù)的任何限制都被說(shuō)明。

在保障數(shù)據(jù)的準(zhǔn)確性上,3個(gè)數(shù)據(jù)庫(kù)的共同點(diǎn)在于,都定義了不同類(lèi)型的數(shù)據(jù),但是采取了不同的措施:Altmetric.com對(duì)數(shù)據(jù)進(jìn)行監(jiān)控,并在學(xué)術(shù)成果替代計(jì)量詳情頁(yè)進(jìn)行解釋?zhuān)籆ED為保障數(shù)據(jù)的準(zhǔn)確性,對(duì)每個(gè)數(shù)據(jù)源都進(jìn)行監(jiān)視,以防服務(wù)中斷導(dǎo)致數(shù)據(jù)源不可用,但是不對(duì)數(shù)據(jù)進(jìn)行調(diào)整,只對(duì)新產(chǎn)生的數(shù)據(jù)標(biāo)上時(shí)間戳;PLoS ALM對(duì)新收集數(shù)據(jù)的數(shù)據(jù)質(zhì)量通過(guò)每24小時(shí)運(yùn)行一次的自動(dòng)過(guò)程進(jìn)行監(jiān)控,并尋找異常值,同時(shí)工作人員也對(duì)數(shù)據(jù)進(jìn)行人工監(jiān)控。

3 不同替代計(jì)量數(shù)據(jù)庫(kù)不同類(lèi)型數(shù)據(jù)的交叉比較分析

3.1 Twitter數(shù)據(jù)的交叉比對(duì)分析根據(jù)處理后的數(shù)據(jù),繪制數(shù)據(jù)庫(kù)之間計(jì)數(shù)差的直方圖,如圖2所示,其中白色柱狀代表Altmetric/CED,也就是學(xué)術(shù)成果的Twitter數(shù)據(jù)在Altmetric.com數(shù)據(jù)庫(kù)和CED數(shù)據(jù)庫(kù)計(jì)數(shù)差的累計(jì)總和。例如,橫坐標(biāo)為0的白色條形代表在Altmetric和CED兩個(gè)數(shù)據(jù)庫(kù)中,Twitter數(shù)據(jù)的數(shù)值相差為0的論文數(shù)量的值。

圖2 不同替代計(jì)量數(shù)據(jù)庫(kù)中Twitter提及數(shù)據(jù)分布差異

表2 不同替代計(jì)量數(shù)據(jù)庫(kù)Twitter提及數(shù)據(jù)分布統(tǒng)計(jì)參數(shù)差異

表2展現(xiàn)了Altmetric、CED、PLoS ALM 3個(gè)替代計(jì)量數(shù)據(jù)庫(kù)的Twitter替代計(jì)量數(shù)據(jù)分布差異,可以看出Altmetric的Twitter替代計(jì)量數(shù)據(jù)普遍比CED和PLoS ALM兩個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)要大,CED與PLoS ALM相差相對(duì)較小,但PLoS ALM部分?jǐn)?shù)據(jù)的計(jì)數(shù)比CED要大一些。

3.2 Wikipedia數(shù)據(jù)的交叉比對(duì)分析Wikipedia是目前全球最大的網(wǎng)絡(luò)參考工具書(shū)。圖3表示W(wǎng)ikipedia替代計(jì)量數(shù)據(jù)的不同數(shù)據(jù)庫(kù)的數(shù)據(jù)分布差異情況。從圖3中可以發(fā)現(xiàn)Altmetric/CED分布在坐標(biāo)軸0刻度的左側(cè),CED/PLoS ALM分布在坐標(biāo)軸0刻度右側(cè),因此CED的計(jì)數(shù)普遍高于Altmetric和PLoS ALM數(shù)據(jù)庫(kù)。

圖3 不同替代計(jì)量數(shù)據(jù)庫(kù)中Wikipedia提及數(shù)據(jù)分布差異

表3 不同替代計(jì)量數(shù)據(jù)庫(kù)Wikipedia提及數(shù)據(jù)分布統(tǒng)計(jì)參數(shù)差異

表3展現(xiàn)了Altmetric、CED、PLoS ALM 3個(gè)替代計(jì)量數(shù)據(jù)庫(kù)的Wikipedia替代計(jì)量的數(shù)據(jù)分布參數(shù)差異。從表3中可以看出CED的Wikipedia替代計(jì)量數(shù)據(jù)的計(jì)數(shù)普遍比其他兩個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)計(jì)數(shù)值大,從計(jì)數(shù)差的平均值來(lái)看,CED比Altmetric數(shù)據(jù)庫(kù)的數(shù)據(jù)平均值要高444.8,CED比PLoS ALM數(shù)據(jù)庫(kù)的平均值高325.2,從標(biāo)準(zhǔn)差來(lái)看,CED與其他兩個(gè)數(shù)據(jù)庫(kù)的計(jì)數(shù)差異的標(biāo)準(zhǔn)差分別為1147.1和995.1,標(biāo)準(zhǔn)差普遍偏高進(jìn)一步證明了CED替代計(jì)量數(shù)據(jù)庫(kù)對(duì)Wikipedia的引用數(shù)據(jù)的計(jì)數(shù)值更高一些。但是值得一提的是,3個(gè)數(shù)據(jù)庫(kù)的計(jì)數(shù)差為0的數(shù)據(jù)所占百分比都較大,其中Altmetric和PLoS ALM數(shù)據(jù)庫(kù)的Wikipedia替代計(jì)量數(shù)據(jù)一致性更高一些。

3.3 Reddit數(shù)據(jù)的交叉比對(duì)分析Reddit是一個(gè)集娛樂(lè)、社交和新聞一體的網(wǎng)站,網(wǎng)站上的內(nèi)容分類(lèi)包括新聞、電子游戲、電影、音樂(lè)、書(shū)籍、健身、食物和圖片分享等。Reddit替代計(jì)量數(shù)據(jù)不同數(shù)據(jù)庫(kù)的分布差異如圖4所示,可以看出Altmetric和CED數(shù)據(jù)庫(kù)的差值分布在坐標(biāo)軸0刻度的兩側(cè),可以把這種差異歸結(jié)為誤差所致。而Altmetric/PLoS ALM和 CED/PLoS ALM都在坐標(biāo)軸0刻度的右側(cè)分布多一些,說(shuō)明Altmetric數(shù)據(jù)庫(kù)和CED數(shù)據(jù)庫(kù)在Reddit替代計(jì)量數(shù)據(jù)上,比PLoS ALM數(shù)據(jù)庫(kù)的計(jì)數(shù)值都要大一些,而Altmetric數(shù)據(jù)庫(kù)和CED數(shù)據(jù)庫(kù)的數(shù)據(jù)一致性更強(qiáng)一些。

表4展現(xiàn)了Altmetric、CED、PLoS ALM 3個(gè)替代計(jì)量數(shù)據(jù)庫(kù)的Reddit替代計(jì)量的數(shù)據(jù)分布差異??梢钥闯鯝ltmetric/CED的Reddit數(shù)據(jù)的計(jì)數(shù)差平均值為-0.2,標(biāo)準(zhǔn)差為2.1,其中計(jì)數(shù)差為0的部分所占總體79.9%。從數(shù)據(jù)計(jì)數(shù)差值來(lái)看,3個(gè)數(shù)據(jù)庫(kù)計(jì)數(shù)差值都達(dá)到80%左右,相比其他替代計(jì)量數(shù)據(jù)源,Reddit的替代計(jì)量數(shù)據(jù)計(jì)數(shù)上相差比較小,數(shù)據(jù)的分布一致性較強(qiáng)。

圖4 不同替代計(jì)量數(shù)據(jù)庫(kù)中Reddit提及數(shù)據(jù)分布差異

表4 不同替代計(jì)量數(shù)據(jù)庫(kù)Reddit提及數(shù)據(jù)分布統(tǒng)計(jì)參數(shù)差異

3.4 F1000數(shù)據(jù)的交叉比對(duì)分析F1000是基于訂閱的文章推薦和文獻(xiàn)發(fā)現(xiàn)服務(wù),可幫助讀者篩選每天出版的數(shù)千篇有關(guān)生物學(xué)和醫(yī)學(xué)的期刊文章。圖5展現(xiàn)了Altmetric、CED、PLoS ALM 3個(gè)替代計(jì)量數(shù)據(jù)庫(kù)的F1000替代計(jì)量的數(shù)據(jù)分布差異。從圖5可以發(fā)現(xiàn)Altmetric/CED、Altmetric/PLoS和ALMCED/PLoS ALM在直方圖的分布上都在坐標(biāo)軸0刻度的左側(cè),但分布相對(duì)較少,這說(shuō)明CED數(shù)據(jù)庫(kù)在F1000替代計(jì)量數(shù)據(jù)的收集的數(shù)據(jù)相較于PLoS ALM和Altmetric數(shù)據(jù)庫(kù)更多一些。相比其他替代計(jì)量數(shù)據(jù)源,F(xiàn)1000的替代計(jì)量數(shù)據(jù)計(jì)數(shù)上相差小,數(shù)據(jù)的分布一致性強(qiáng)。

圖5 不同替代計(jì)量數(shù)據(jù)庫(kù)中F1000提及數(shù)據(jù)分布差異

表5 不同替代計(jì)量數(shù)據(jù)庫(kù)F1000提及數(shù)據(jù)分布統(tǒng)計(jì)參數(shù)差異

從表5中可以看出3個(gè)數(shù)據(jù)庫(kù)直接的計(jì)數(shù)差平均值都很小,相差都在0.05及以下,標(biāo)準(zhǔn)差都在0.04及以下,計(jì)數(shù)差為0的部分所占總體均在97.5%以上,進(jìn)一步證實(shí)數(shù)據(jù)分布的一致性較強(qiáng)。

3.5 Facebook數(shù)據(jù)的交叉比對(duì)分析Facebook是源于美國(guó)的社交網(wǎng)絡(luò)服務(wù)及社會(huì)化媒體網(wǎng)站,是用戶(hù)分享生活的主要平臺(tái)。圖6和表6展現(xiàn)了Altmetric和PLoS ALM兩個(gè)替代計(jì)量數(shù)據(jù)庫(kù)的Facebook替代計(jì)量的數(shù)據(jù)分布差異,由于CED數(shù)據(jù)庫(kù)沒(méi)有Facebook這一替代計(jì)量數(shù)據(jù)源,只對(duì)Altmetric和PLoS ALM數(shù)據(jù)庫(kù)進(jìn)行分析。

表6 不同替代計(jì)量數(shù)據(jù)庫(kù)Facebook提及數(shù)據(jù)分布統(tǒng)計(jì)參數(shù)差異

圖6 不同替代計(jì)量數(shù)據(jù)庫(kù)中Facebook提及數(shù)據(jù)分布差異

從圖6中可以看出直方圖的分布上在坐標(biāo)軸0刻度的兩側(cè),分布較為均勻,從圖中可以看出大于0所占的比例相對(duì)大一些。從表6中可以看出,兩個(gè)數(shù)據(jù)庫(kù)計(jì)數(shù)差平均值為-20.2,標(biāo)準(zhǔn)差為189.8,兩個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)分布存在一定的差異,兩個(gè)替代計(jì)量數(shù)據(jù)庫(kù)在Facebook替代計(jì)量數(shù)據(jù)數(shù)值差為0占總體的56.1%,計(jì)數(shù)差小于0占總體的20.4%,Altmetric數(shù)據(jù)庫(kù)比PLoS ALM 數(shù)據(jù)庫(kù)的數(shù)值多1的數(shù)據(jù)占比10.7%。所以Altmetric數(shù)據(jù)庫(kù)與PLoS ALM在Facebook上的數(shù)據(jù)存在一定差異。

3.6 DataCite數(shù)據(jù)的交叉比對(duì)分析DataCite是一個(gè)國(guó)際非營(yíng)利性組織,為研究數(shù)據(jù)和其他研究輸出提供持久性標(biāo)識(shí)符(DOI)。圖7和表7展現(xiàn)了CED和PLoS ALM兩個(gè)替代計(jì)量數(shù)據(jù)庫(kù)的DataCite替代計(jì)量數(shù)據(jù)的數(shù)據(jù)分布差異,由于Altmetric數(shù)據(jù)庫(kù)沒(méi)有DataCite這一替代計(jì)量數(shù)據(jù)數(shù)據(jù)源,只對(duì)CED和PLoS ALM數(shù)據(jù)庫(kù)進(jìn)行DataCite替代計(jì)量數(shù)據(jù)進(jìn)行分析。

圖7 不同替代計(jì)量數(shù)據(jù)庫(kù)中DataCite提及數(shù)據(jù)分布差異

表7 不同替代計(jì)量數(shù)據(jù)庫(kù)DataCite提及數(shù)據(jù)分布統(tǒng)計(jì)參數(shù)差異

從圖7中可以明顯地看出直方圖更多的分布在坐標(biāo)軸0刻度的右側(cè),也就是CED的數(shù)據(jù)值普遍會(huì)比PLoS ALM的要大一些。從表7中可以看出,兩個(gè)數(shù)據(jù)庫(kù)計(jì)數(shù)差平均值為5.5,標(biāo)準(zhǔn)差為100.8,計(jì)數(shù)差小于0僅占總體的0.1%,計(jì)數(shù)差為1占總體的0.2%,計(jì)數(shù)差為2占總體的0.3%,但其平均值5.5相對(duì)其他替代計(jì)量數(shù)據(jù)來(lái)說(shuō),平均值較小,說(shuō)明兩個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)相差不是特別大。

3.7 Wordpress數(shù)據(jù)的交叉比對(duì)分析Wordpress是一個(gè)開(kāi)源的博客軟件和內(nèi)容管理系統(tǒng),是目前最流行的博客系統(tǒng)之一。圖8和表8展現(xiàn)了CED和PLoS ALM兩個(gè)替代計(jì)量數(shù)據(jù)庫(kù)的Wordpress替代計(jì)量數(shù)據(jù)的數(shù)據(jù)分布差異,因?yàn)锳ltmetric數(shù)據(jù)庫(kù)并不包含Wordpress這一替代計(jì)量數(shù)據(jù)源,所以只對(duì)CED和PLoS ALM兩個(gè)數(shù)據(jù)庫(kù)的Wordpress的替代計(jì)量數(shù)據(jù)進(jìn)行分析。

圖8 不同替代計(jì)量數(shù)據(jù)庫(kù)中Wordpress提及數(shù)據(jù)分布差異

表8 不同替代計(jì)量數(shù)據(jù)庫(kù)Wordpress提及數(shù)據(jù)分布統(tǒng)計(jì)參數(shù)差異

從圖8中可以看出直方圖在坐標(biāo)軸0刻度兩側(cè)的分布比較均勻,可以理解為兩個(gè)數(shù)據(jù)庫(kù)的差異更多是由于隨機(jī)誤差導(dǎo)致的。從表8中可以看出,兩個(gè)數(shù)據(jù)庫(kù)計(jì)數(shù)差平均值為0.1,標(biāo)準(zhǔn)差為2.6,計(jì)數(shù)差小于0占總體的4.3%,計(jì)數(shù)差為0的數(shù)據(jù)占總體的91.0%。就平均值而言,相對(duì)其他替代計(jì)量數(shù)據(jù)數(shù)值小得多,一方面是本身替代計(jì)量數(shù)據(jù)為0的數(shù)量比較多,另一方面是在Wordpress這一平臺(tái)上被討論的學(xué)術(shù)成果相對(duì)偏少,但總的來(lái)說(shuō)Wordpress這一替代計(jì)量數(shù)據(jù)源在CED和PLoS ALM替代計(jì)量數(shù)據(jù)庫(kù)中的差異較小。

4 結(jié) 論

雖然理論上來(lái)說(shuō),不同替代計(jì)量數(shù)據(jù)庫(kù)應(yīng)該提供一致的替代計(jì)量數(shù)據(jù),但是由于替代計(jì)量數(shù)據(jù)本身的多源性,目前還沒(méi)有一家替代計(jì)量數(shù)據(jù)庫(kù)能夠涵蓋所有來(lái)源的數(shù)據(jù)。不同的替代計(jì)量數(shù)據(jù)庫(kù)在發(fā)展的過(guò)程中,都形成了自己特色的數(shù)據(jù)源,并且基于各自的愿景和目標(biāo),制定了不盡相同的數(shù)據(jù)政策。這些數(shù)據(jù)政策對(duì)數(shù)據(jù)數(shù)值有直接的影響,使得在某些替代計(jì)量數(shù)據(jù)上呈現(xiàn)出顯著差異。

本文通過(guò)對(duì)不同替代計(jì)量數(shù)據(jù)庫(kù)的數(shù)據(jù)政策和數(shù)據(jù)數(shù)值進(jìn)行對(duì)比,揭示了不同替代計(jì)量數(shù)據(jù)庫(kù)數(shù)據(jù)的特征,主要得出以下結(jié)論:

4.1 不同替代計(jì)量數(shù)據(jù)庫(kù)在保障數(shù)據(jù)透明性、可重復(fù)性和準(zhǔn)確性方面的政策不盡相同,并且各有特色

a.Altmetric.com對(duì)提供的每個(gè)替代計(jì)量數(shù)據(jù)都進(jìn)行了清晰定義,對(duì)于學(xué)術(shù)成果的替代計(jì)量關(guān)注度得分的加權(quán)算法也進(jìn)行了公布,原始的計(jì)數(shù)在學(xué)術(shù)成果替代計(jì)量詳情頁(yè)也可以看到,同時(shí)Altmetric.com也將不同數(shù)據(jù)源的采集方式公布。

b.CED的數(shù)據(jù)是通過(guò)從非學(xué)術(shù)來(lái)源進(jìn)行收集以及允許學(xué)術(shù)來(lái)源發(fā)送數(shù)據(jù)。與其他替代計(jì)量數(shù)據(jù)庫(kù)相比,CED更關(guān)注事件本身而不是對(duì)數(shù)據(jù)進(jìn)行度量,CED對(duì)每項(xiàng)替代計(jì)量數(shù)據(jù)數(shù)據(jù)的來(lái)源以及采集方式進(jìn)行了說(shuō)明,同時(shí)CED對(duì)每個(gè)事件都打上時(shí)間戳,所有的事件都會(huì)與這一時(shí)間戳匹配,所有數(shù)據(jù)都將有一個(gè)開(kāi)放的API。

c.PLoS ALM將所有數(shù)據(jù)源的供應(yīng)商進(jìn)行了公示,由于一些數(shù)據(jù)源的限制,部分?jǐn)?shù)據(jù)只能提供計(jì)數(shù),對(duì)于不同的數(shù)據(jù)源,PLoS ALM收集數(shù)據(jù)的時(shí)間間隔也不一樣,在論文發(fā)表的第一個(gè)月每天收集,在論文發(fā)表的一年內(nèi),每周收集,一年后,每個(gè)月收集一次。

4.2不同替代計(jì)量數(shù)據(jù)庫(kù)的數(shù)據(jù)存在顯著差異一是不同數(shù)據(jù)庫(kù)追蹤的替代計(jì)量數(shù)據(jù)源不同,二是不同數(shù)據(jù)庫(kù)在同一數(shù)據(jù)源上的數(shù)值也存在一定的差異。其中,在數(shù)據(jù)數(shù)值的比較上,對(duì)至少被兩種數(shù)據(jù)庫(kù)收錄的7種替代計(jì)量數(shù)據(jù)做了交叉對(duì)比,得到了具體的結(jié)論如下:

a.Twitter數(shù)據(jù)方面,Altmetric數(shù)據(jù)庫(kù)的Twitter數(shù)據(jù)計(jì)數(shù)值比CED和PLoS ALM替代計(jì)量數(shù)據(jù)庫(kù)高。這可能是因?yàn)橛?jì)數(shù)方式上的差異,Altmetric數(shù)據(jù)庫(kù)在獲取Twitter數(shù)據(jù)時(shí)將轉(zhuǎn)發(fā)也進(jìn)行計(jì)數(shù)。

b.Wikipedia數(shù)據(jù)方面,CED所提取Wikipedia的數(shù)據(jù)最為廣泛。3個(gè)替代計(jì)量數(shù)據(jù)庫(kù)搜集Wikipedia頁(yè)面的范圍不同,Altmetric數(shù)據(jù)庫(kù)只收集英文Wikipedia數(shù)據(jù),PLoS ALM只收集世界上最受歡迎的20個(gè)維基百科網(wǎng)站的維基百科頁(yè)面數(shù)。

c.Facebook數(shù)據(jù)方面,PLoS ALM的數(shù)據(jù)數(shù)值要大于Altmetric。這可能是因?yàn)锳ltmetric數(shù)據(jù)庫(kù)只獲取公開(kāi)的Facebook數(shù)據(jù),而PLoS ALM涉及私密的Facebook帖子。

d.Reddit、F1000、DataCite和Wordpress數(shù)據(jù)方面,三個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)一致性較強(qiáng),隨機(jī)誤差導(dǎo)致的數(shù)據(jù)分布差異較小。

猜你喜歡
數(shù)據(jù)源計(jì)數(shù)計(jì)量
計(jì)量檢定在食品行業(yè)中的重要性
古人計(jì)數(shù)
CPMF-I 取樣式多相流分離計(jì)量裝置
遞歸計(jì)數(shù)的六種方式
古代的計(jì)數(shù)方法
古代的人們是如何計(jì)數(shù)的?
利用屬性集相關(guān)性與源誤差的多真值發(fā)現(xiàn)方法研究
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
計(jì)量自動(dòng)化在線(xiàn)損異常中的應(yīng)用
數(shù)據(jù)有增加 圖表自適應(yīng)
文登市| 永修县| 封开县| 错那县| 县级市| 衡东县| 明光市| 维西| 余江县| 伊宁县| 兴国县| 武宣县| 双桥区| 凤山市| 沁阳市| 自治县| 罗甸县| 江津市| 开平市| 蓬溪县| 林周县| 剑阁县| 桑日县| 洱源县| 通海县| 泗阳县| 霍城县| 临武县| 饶河县| 双流县| 襄垣县| 珠海市| 五原县| 元朗区| 嘉禾县| 仙居县| 新津县| 大关县| 尼木县| 遂宁市| 临朐县|