国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

期刊論文被引次數(shù)與下載次數(shù)的關(guān)系研究

2017-12-07 05:24:14毛國(guó)敏吳何珍蔣知瑞生冬梅孫振凱袁志祥宋勝合
關(guān)鍵詞:概率密度期刊論文正態(tài)分布

毛國(guó)敏,吳何珍,任 蕾,蔣知瑞,生冬梅,孫振凱,袁志祥,宋勝合

(1.中國(guó)地震局地球物理研究所文獻(xiàn)信息中心,北京100081;2.首都醫(yī)科大學(xué)附屬北京口腔醫(yī)院《北京口腔醫(yī)學(xué)》編輯部,北京100050;3.中國(guó)地震局工程力學(xué)研究所,黑龍江 哈爾濱150080;4.《災(zāi)害學(xué)》編輯部,陜西西安710068;5.《地震》編輯部,北京100036)

0 引言

學(xué)術(shù)期刊論文下載次數(shù)和被引次數(shù)是兩個(gè)非??陀^的指標(biāo),顯示論文被使用和受重視的程度,論文下載或被引的次數(shù)越多說明該論文受到同行的關(guān)注和重視也越高.從直覺和常理推斷,論文下載次數(shù)會(huì)對(duì)被引次數(shù)產(chǎn)生正的影響.多年來,論文下載次數(shù)和被引次數(shù)之間的關(guān)系是期刊計(jì)量指標(biāo)分析中最簡(jiǎn)單、最為人們普遍關(guān)心的問題,引起相關(guān)學(xué)者的廣泛研究興趣[1~13].

萬錦堃等[1]分析了期刊論文網(wǎng)上下載頻次的年代分布和被引頻次的年代分布,得到“去年發(fā)表的論文下載多,前年發(fā)表的論文被引用多,當(dāng)年發(fā)表的論文下載頻次與被引頻次的比值高”;龐景安[2]對(duì)中文科技期刊的下載計(jì)量指標(biāo)和引用計(jì)量指標(biāo)進(jìn)行定量研究,利用Spearman等級(jí)相關(guān)分析方法,探討了中文科技期刊兩類計(jì)量指標(biāo)之間的相關(guān)性問題,認(rèn)為全部1 471種期刊總被引頻次與總下載頻次指標(biāo)間存在較強(qiáng)的相關(guān)關(guān)系;劉筱敏[3]以15種化學(xué)類電子期刊為統(tǒng)計(jì)樣本,分析2003~2005年的全文下載量,利用中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)中國(guó)科學(xué)院著者引用這15種期刊的引用數(shù)據(jù),分析下載行為與引用行為的相關(guān)關(guān)系,認(rèn)為下載行為與引用行為存在正向相關(guān)關(guān)系;趙大良[4]以1996~2000年發(fā)表在《西安交通大學(xué)學(xué)報(bào)》的論文為例,選取被引頻次最多的前100篇文章與訪問量最高的前100篇共22篇論文,統(tǒng)計(jì)其在發(fā)表以后的被引用頻次、網(wǎng)絡(luò)訪問量,發(fā)現(xiàn)無論是Web下載、網(wǎng)絡(luò)瀏覽還是訪問量的變化趨勢(shì)都與文章的被引用的發(fā)展趨勢(shì)相反,即呈負(fù)相關(guān)性;杜秀杰等[5]以《西安交通大學(xué)學(xué)報(bào)》的數(shù)據(jù)為例,對(duì)1994年第1期、2006年第1~3期和2007年第1期發(fā)表文章的下載頻率和被引頻率進(jìn)行相關(guān)分析,表明網(wǎng)絡(luò)傳播是提升期刊影響力的必要條件和手段;丁佐奇等[6]根據(jù)《中國(guó)天然藥物》和《中國(guó)藥科大學(xué)學(xué)報(bào)》2003~2008年發(fā)表的論文在中國(guó)知網(wǎng)《中國(guó)學(xué)術(shù)期刊文獻(xiàn)評(píng)價(jià)統(tǒng)計(jì)分析系統(tǒng)》下載數(shù)據(jù)庫(kù)與引證數(shù)據(jù)庫(kù)中的下載頻次與被引頻次,對(duì)兩種期刊下載與被引頻次最高的前20(Top20)篇文章進(jìn)行分析,探討影響科技論文被引頻次和下載頻次相關(guān)性,認(rèn)為單篇論文的被引頻次與下載頻次的相關(guān)性較差,不能用先期的下載次數(shù)對(duì)后期的被引次數(shù)進(jìn)行預(yù)測(cè);張小強(qiáng)[11]以中國(guó)知網(wǎng)中中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)(CSCD)和中國(guó)人文社會(huì)科學(xué)引文數(shù)據(jù)庫(kù)(CHSSCD)來源期刊為統(tǒng)計(jì)分析樣本,對(duì)下載頻次、被引頻次與影響因子之間的相關(guān)性進(jìn)行分析,表明期刊被引頻次與下載頻次具有高度的正相關(guān)性.

檢索相關(guān)研究文獻(xiàn)發(fā)現(xiàn),目前多數(shù)是針對(duì)特定時(shí)間段、多是以期刊或某期刊類別為觀察對(duì)象進(jìn)行分析,得到了一些有意義的研究結(jié)果,絕大多數(shù)忽略了研究指標(biāo)的分布問題或假定指標(biāo)是服從正態(tài)分布的.為此,本文在考慮原始數(shù)據(jù)概率密度分布的基礎(chǔ)上,通過對(duì)原數(shù)據(jù)的合理變換,運(yùn)用相關(guān)和線性回歸方法,對(duì)不同學(xué)科類別、載文規(guī)模和學(xué)術(shù)影響力、有一定代表性的3種期刊進(jìn)行分析,探討單刊論文全時(shí)域(從創(chuàng)刊至現(xiàn)在)下載次數(shù)與被引次數(shù)兩個(gè)變量之間的關(guān)系問題.

1 資料來源及數(shù)據(jù)樣本的基本情況

本文以《CT理論與應(yīng)用研究》期刊(簡(jiǎn)稱A刊)為例,研究學(xué)術(shù)期刊論文被引次數(shù)與下載次數(shù)之間的關(guān)系.A刊在中國(guó)學(xué)術(shù)期刊影響因子年報(bào)[14]中的學(xué)科類別為自動(dòng)化技術(shù)計(jì)算機(jī)技術(shù)(TP)類或軍事醫(yī)學(xué)與特種醫(yī)學(xué)(R8)類,2013年起科學(xué)類別更改為綜合性科學(xué)技術(shù)(N/Q,T/X)類或綜合性醫(yī)藥衛(wèi)生(R)類,學(xué)術(shù)影響力一般,載文規(guī)模較?。疄榱蓑?yàn)證期,我們?cè)倮闷渌麅煞N不同學(xué)科類別、載文規(guī)模和學(xué)術(shù)影響力的B刊和C刊資料,進(jìn)一步研究論文被引次數(shù)與下載次數(shù)相關(guān)性并作回歸分析.其中:B刊為某地球物理(P)類精品期刊,學(xué)術(shù)影響力較大,載文規(guī)模中等;C刊為某高校學(xué)報(bào),學(xué)術(shù)影響力較大,載文規(guī)模較大.

考慮到論文自發(fā)表至下載和被引的時(shí)滯,數(shù)據(jù)采集的時(shí)間段分別為各刊創(chuàng)刊年至2011年12月,3種期刊的樣本數(shù)據(jù)分別為1 059、2 156和14 017,原始數(shù)據(jù)來源于文獻(xiàn)15~16.表1為3種期刊論文下載次數(shù)和被引次數(shù)基本統(tǒng)計(jì)量情況,3種期刊論文下載次數(shù)和被引次數(shù)數(shù)據(jù)見表2.

表1 期刊論文下載次數(shù)和被引次數(shù)基本統(tǒng)計(jì)情況

表2 期刊論文下載次數(shù)和被引次數(shù)數(shù)據(jù)

2 原理

2.1 相關(guān)原理

設(shè)X=(x1,x2,…,xn),Y=(y1,y2,…,yn),分別為來自X和Y的兩個(gè)樣本,則樣本相關(guān)系數(shù)為[17]:

(1)

r取值在-1與1之間,它描述了兩變量(或兩指標(biāo))線性相關(guān)的方向和程度.r>0,兩變量之間為正相關(guān),r<0為負(fù)相關(guān).|r|≥0.8時(shí),可認(rèn)為兩變量之間高度相關(guān);0.5≤|r|<0.8時(shí),可認(rèn)為中度相關(guān);|r|<0.3時(shí),說明兩個(gè)變量之間的相關(guān)程度極弱,可視為不相關(guān)[17].

2.2 一元線性回歸

設(shè)X=(x1,x2,…,xn),Y=(y1,y2,…,yn)分別為來自X和Y的兩個(gè)樣本,樣本值(xi,yi),如果變量滿足一元線性方程

y=c+bx

(2)

則有n個(gè)方程,通過求解正規(guī)方程組,可得到c和b的最小二乘估計(jì)

3 分析方法

我們使用SPSS20軟件對(duì)3種期刊論文被引次數(shù)與下載次數(shù)分別進(jìn)行相關(guān)和回歸分析,相關(guān)和回歸分析要求分析變量的概率密度滿足正態(tài)分布[17、18].圖1為3種期刊原始被引次數(shù)v與下載次數(shù)u散布圖,由于v和u的概率密度都呈左偏(偏度系數(shù)S>0)、高窄(峰度系數(shù)K>0)態(tài),遠(yuǎn)離正態(tài)分布(|S|>3,|K|>8)(見表1),v和u值小的概率高,隨著v和u的增加,v和u的概率快速減小,高被引和高下載的概率僅占很小部分[19~21].因此,圖中左下方的數(shù)據(jù)點(diǎn)很密集,而在右上方數(shù)據(jù)點(diǎn)卻非常稀少,從圖中可看出原始下載次數(shù)u與被引次數(shù)v之間沒有明顯的關(guān)系.

因?yàn)檎撐南螺d次數(shù)u的概率密度服從對(duì)數(shù)正態(tài)分布[21],理論上,只要對(duì)u作對(duì)數(shù)變換,即令x=ln(u),那么x變量的概率密度就是正態(tài)分布的,可以利用x做各種對(duì)數(shù)據(jù)有要求的分析.

文獻(xiàn)[20]認(rèn)為,被引次數(shù)v的概率密度服從漂移冪律函數(shù)分布,理論上總能找到一種變換,使變換后的變量近似服從正態(tài)分布,但是考慮到簡(jiǎn)潔性,更主要是為了與下載次數(shù)的變換以及變換后的數(shù)值分度一致,我們也對(duì)v作簡(jiǎn)單的對(duì)數(shù)變換,即令y=ln(v+a),根據(jù)文獻(xiàn)[20]的結(jié)果,A、B和C三種期刊的a的取值分別為1.540、4.311和3.827.對(duì)v先平移再作對(duì)數(shù)變換的優(yōu)點(diǎn)是:(1)簡(jiǎn)單;(2)與x的變換一致;(3)與x值的分度一致;(4)避免了零被引(v=0)不能取對(duì)數(shù)的情況.其缺點(diǎn)是:y的概率密度并非完全正態(tài)分布,但y的偏度系數(shù)Sy和峰度系數(shù)Ky的絕對(duì)值遠(yuǎn)小于v的偏度系數(shù)Sv和峰度系數(shù)Kv的絕對(duì)值(表3),尤其是Ky與Kv相比有了很大的改善,y變量的峰態(tài)更接近標(biāo)準(zhǔn)正態(tài),Sv的絕對(duì)值小于8(表3),可以認(rèn)為y基本滿足正態(tài)分布的要求.

表3 三種期刊論文被引次數(shù)變換前后的偏度和峰度系數(shù)

3.1 相關(guān)分析

對(duì)下載次數(shù)v和被引次數(shù)u作變換得到y(tǒng)和x,表4為3種期刊論文被引次數(shù)y與下載次數(shù)x之間相關(guān)系數(shù)及其檢驗(yàn),經(jīng)統(tǒng)計(jì)檢驗(yàn)(表4),3種期刊y與x相關(guān)的顯著性P值均為0.000,相關(guān)系數(shù)分別為0.651、0.374和0.548.由此我們可以得出,至少在顯著性Pα=0.01的水平上,A刊、B刊和C刊論文的被引次數(shù)與下載次數(shù)有顯著正相關(guān)關(guān)系,其中A刊和C刊為中度正相關(guān),B刊為正弱相關(guān).3種期刊論文被引次數(shù)y和下載次數(shù)x的散布圖如圖2所示,從圖2中可以比較直觀地看出y與x呈正相關(guān)關(guān)系.

表4 三種期刊論文被引次數(shù)與下載次數(shù)相關(guān)分析及其檢驗(yàn)

3.2 回歸分析

表5 三種期刊論文被引次數(shù)與下載次數(shù)回歸模型檢驗(yàn)

注:均方和=平方和/自由度;F值=回歸均方和/殘差均方和;R2為模型的擬合優(yōu)度,R2=1-殘差平方和/總平方和.

(3)

類似于A刊的分析過程,經(jīng)檢驗(yàn)(表5和表6,見106頁),B刊和C刊論文被引次數(shù)與下載次數(shù)之間也存在線性關(guān)系,線性回歸方程分別為:

(4)

(5)

表6 三種期刊論文被引次數(shù)與下載次數(shù)回歸參數(shù)估計(jì)及其檢驗(yàn)

4 討論與結(jié)論

在撰寫本文過程中還做了一些探索性工作,我們對(duì)3種期刊論文被引次數(shù)y與下載次數(shù)x兩變量直接做回歸分析,也能得到模型參數(shù)并且各參數(shù)都通過統(tǒng)計(jì)檢驗(yàn),但是,回歸模型的擬合優(yōu)度差,決定系數(shù)R2分別為0.424、0.140和0.300,這說明A、B和C刊3種期刊變量y關(guān)于x的線性回歸模型不能成立.通過這些探索性的分析工作,表明當(dāng)原始的概率密度遠(yuǎn)偏離正態(tài)分布時(shí),需要對(duì)原始數(shù)據(jù)做必要的變換和適當(dāng)?shù)奶幚恚拍茏鲇嘘P(guān)的統(tǒng)計(jì)分析,得到合理的預(yù)期結(jié)果.

本文在了解原始數(shù)據(jù)概率密度分布的基礎(chǔ)上,通過對(duì)原數(shù)據(jù)作合理的變換,運(yùn)用相關(guān)和線性回歸方法,對(duì)不同學(xué)科類別、載文規(guī)模和學(xué)術(shù)影響力、有一定代表性的3種期刊進(jìn)行分析,探討單刊論文全時(shí)域(從創(chuàng)刊至現(xiàn)在)下載次數(shù)與被引次數(shù)兩個(gè)變量之間的關(guān)系問題,得出:(1)學(xué)術(shù)期刊原始論文被引次數(shù)v與下載次數(shù)u之間沒有明顯的關(guān)系;(2)經(jīng)變換,論文被引次數(shù)y與下載次數(shù)x呈正相關(guān)關(guān)系;(3)對(duì)數(shù)據(jù)再做適當(dāng)處理后,論文被引次數(shù)y和與平均下載次數(shù)存在簡(jiǎn)單的線性關(guān)系,隨著論文下載次數(shù)增加,與之對(duì)應(yīng)的論文被引次數(shù)也隨之而增加.本文的分析方法對(duì)今后其他類似利用非正態(tài)分布數(shù)據(jù)進(jìn)行相關(guān)和回歸分析也有一定的參考價(jià)值.

猜你喜歡
概率密度期刊論文正態(tài)分布
醫(yī)學(xué)期刊論文中常見統(tǒng)計(jì)學(xué)錯(cuò)誤
連續(xù)型隨機(jī)變量函數(shù)的概率密度公式
基于對(duì)數(shù)正態(tài)分布的出行時(shí)長(zhǎng)可靠性計(jì)算
正態(tài)分布及其應(yīng)用
正態(tài)分布題型剖析
公共圖書館不應(yīng)認(rèn)可的職稱期刊論文探析——基于重慶圖書館職稱期刊論文的實(shí)證調(diào)研
人文社科期刊論文被引頻次和下載頻次相關(guān)性研究
χ2分布、t 分布、F 分布與正態(tài)分布間的關(guān)系
Hunt過程在Girsanov變換下的轉(zhuǎn)移概率密度的表示公式
隨機(jī)變量線性組合的分布的一個(gè)算法
原平市| 绍兴市| 当雄县| 徐闻县| 莱芜市| 高邑县| 河源市| 常熟市| 旬阳县| 横峰县| 介休市| 威信县| 台东市| 通许县| 固原市| 洪江市| 芦山县| 金阳县| 温泉县| 连云港市| 瑞金市| 克东县| 界首市| 原平市| 军事| 和静县| 葫芦岛市| 万全县| 台南县| 临清市| 保亭| 民县| 武胜县| 彭泽县| 东源县| 乐都县| 嵊州市| 宜城市| 项城市| 阆中市| 沁阳市|