■嚴建新
1)廣西大學馬克思主義學院,廣西南寧市西鄉(xiāng)塘區(qū)大學東路100號 5300042)大連理工大學科學學與科技管理研究所暨WISE實驗室,遼寧省大連市甘井子區(qū)凌工路2號 116024
目前,初創(chuàng)于1972年的期刊影響因子(Journal Impact Factor,JIF)在許多國家的科研管理中仍是評價期刊、學者和科研機構的重要指標之一[1-3],我國許多科研機構也將成果發(fā)表期刊的影響因子作為分配科研經(jīng)費、晉升職稱和發(fā)放獎金的主要依據(jù)之一。不少學者分析了影響因子在時間窗口、數(shù)據(jù)采集、計算等方面存在的不足[4],但期刊被引量的偏態(tài)分布對影響因子評價功能所產(chǎn)生的影響仍有待深入探討。
國內外一些學者對計量指標分布問題的探索頗具啟發(fā)性。毛國敏等[5]分學科領域研究中國學術期刊的載文量、總被引量和影響因子在期刊間的分布,發(fā)現(xiàn)這些指標呈不均勻分布;俞立平等[6]研究發(fā)現(xiàn),影響因子、被引半衰期、特征因子等7項指標在期刊間均為右偏分布,并認為指標的平均值難以代表各期刊在該指標上的平均水平;Weale等[7]和Metze[8]指出,以影響因子評價期刊的前提是被引量在載文間呈正態(tài)分布,樣本呈正態(tài)分布時平均值才有意義;Bornmann等[9]在探討科研評價問題時提出,期刊被引量在載文間呈較高偏離程度的偏態(tài)分布時,期刊影響因子是失真的,但未提及具體細節(jié)及如何修正影響因子的失真。本研究以2011—2015年度7種物理學綜合期刊為樣本,分析期刊被引量在載文間的分布特征及不均勻程度,在此基礎上提出修正影響因子失真的方法。
影響因子是為表征并橫向比較期刊影響力而設計的指標。原則上,各期刊被引量與載文間應呈均勻分布或正態(tài)分布。當分布條件不能充分滿足時,影響因子將會出現(xiàn)失真。洛倫茲曲線和反映分布不均勻程度的基尼系數(shù)G已被廣泛應用于各種指標分布差異的研究。既然引用的不均勻分布能導致影響因子失真,可根據(jù)分布的均勻程度(1-G)對影響因子失真進行修正。
根據(jù)科睿唯安SCI-E數(shù)據(jù)庫的期刊分類和2015年度《期刊引證報告》(JournalCitationReport,JCR),筆者選擇物理學綜合類中影響因子不同的7種期刊(表1),按與影響因子相對應的時間窗口,逐年、逐篇從數(shù)據(jù)庫中提取各期刊學術載文的被引頻次。學術載文包括研究論文、綜述論文和會議論文。影響因子的計算還涉及少量其他類型文獻的被引頻次,但本研究僅探討此3類文獻的被引量在這些文獻間的分布。為行文方便,筆者將期刊的這3類文獻在某一年度的被引頻次之和簡稱為總被引量。
表1 2011—2015年7種物理學期刊的影響因子、載文被引頻次的標準差和引用分布曲線的偏度
以2015年度NatPhys為例。2013—2014年,NatPhys的載文量為253篇,其2015年總被引頻次為4616次。將各載文按被引頻次由低到高排序后進行被引頻次和篇數(shù)累積計算:
(1)
圖1 2015年度Nat Phys的洛倫茲曲線
式中xi和yi分別為載文數(shù)量和總被引頻次的累積坐標值,xiN為累積到第i篇載文的篇數(shù),yiC為累積到第i篇載文的被引頻次。以坐標值xi和yi繪制出總被引量在載文間分布的洛倫茲曲線L(圖1)。L將正方形對角線下方的三角形分為A和B兩個區(qū)域,基尼系數(shù)G為A的面積SA與三角形面積SΔ的比值。因SΔ=1/2,SA=SΔ-SB,SB近似等于各小梯形面積之和,因此基尼系數(shù)G為
(2)
期刊的影響力以其載文影響力為基礎。在紙刊時代,學者主要根據(jù)期刊影響力來有選擇地閱讀期刊并引用其文獻;而在網(wǎng)絡時代,學者則主要通過主題或關鍵詞檢索文獻,并且有選擇地閱讀和引用檢索到的但刊載于不同期刊的文獻。與紙刊時代相比,網(wǎng)絡時代的引用與期刊影響力之間的關聯(lián)已有所弱化,因此,對期刊全部載文的影響力進行整體評價更能客觀反映該期刊的影響力。
接Garfield[1]的定義,某期刊在t年度的影響因子為IJIF(t)=C/D,其中D為該刊t-2年和t-1年的載文篇數(shù),C為該刊在t年的總被引頻次??傮w而言,影響因子以載文篇均被引頻次來表征期刊影響力。被引量在載文間均勻分布或呈正態(tài)分布是其隱含的默認前提,即嚴格意義上,只有當各期刊的被引量在載文間均為均勻分布時,以載文被引頻次表征的期刊影響力才具有真實性和可比性,即使以篇均被引頻次表征期刊影響力,被引量在載文間也應呈正態(tài)分布。如果被引量既非均勻分布也非正態(tài)分布,篇均被引頻次就難以如實表征期刊的影響力。
通常情況下,學者主要根據(jù)相關性和重要性引用他人文獻。假設期刊M和N在t-2年和t-1年的載文各為100篇,且兩刊在t年總被引頻次各為100次,但M刊的被引量在載文間均勻分布,而N刊的100次被引僅集中于1篇載文。在影響因子的計算窗口內,M刊的全部載文在t年都各被引用1次意味著其載文均有引用價值,而N刊僅有1篇載文被引用則意味著另外99篇沒有引用價值。按影響因子定義,期刊M和N的影響因子均為1,兩者影響力相同;而從載文整體影響力評價,則M刊影響力高于N刊。這一虛擬例子表明,引用分布的均勻程度是期刊評價中不可忽略的因素,期刊被引量的非均勻分布將導致以影響因子表征的期刊影響力出現(xiàn)不同程度的失真,被引量分布越不均勻,失真就越嚴重。
據(jù)2011—2015年度上述7種期刊各載文的被引頻次,可繪制出期刊載文總被引頻次的分布曲線(圖2)。筆者發(fā)現(xiàn),7種期刊中,影響因子較高的RevModPhys和NatPhys均存在由少量高被引載文構成的“長尾”,影響因子較低的4種期刊則均存在由許多低被引載文構成的“高頭”,而影響因子居中等水平的PhysRevLett則既有“高頭”又有“長尾”。圖2所示為2015年度這7種期刊總被引頻次的分布曲線,其中縱向細線為相應期刊的影響因子,細斜線為分布曲線的“頭頂—末尾”連線,用以標示曲線的頭尾位置。
圖2 2015年度7種物理學期刊總被引量分布
根據(jù)統(tǒng)計原理,當偏度為0時,數(shù)據(jù)呈正態(tài)分布,偏度大于0和小于0時分別為右偏和左偏分布;標準差越大,數(shù)據(jù)的離散程度越大,平均值的代表性越低。從2011—2015年度這7種物理學期刊的影響因子、載文被引頻次的標準差和引用分布曲線的偏度(表1)可發(fā)現(xiàn),這些分布曲線的偏度均為正值,共同特征為右偏分布,且曲線偏度與影響因子大小無關。此外,影響因子較高,期刊標準差也較大;而影響因子較低,期刊標準差相對較小。這表明,影響因子較高的期刊,載文篇均被引頻次并不具有充分代表性。
當基尼系數(shù)G為0.3~0.4時,分布相對合理;0.4~0.5為差距較大;0.5以上則為差距懸殊,0.4被視為差距較大的警戒線。2011—2015年度,上述7種物理期刊影響因子IJIF、基尼系數(shù)G及修正后的影響因子IJIFG見表2,其中的G反映被引量分布的不均勻程度。期刊總被引量在載文間分布的另一個特征是G均高于警戒線0.4,分布差距較大甚至差距懸殊。
圖3~7為2011—2015年度各期刊的總被引頻次在載文間分布的洛倫茲曲線。影響因子計算窗口內,如有若干載文未被引用,則其被引頻次累積為0,洛倫茲曲線左端的相應部分與橫軸重合,因此,曲線與橫軸的分離點反映了未被引用載文在全部載文中所占的比例,即零被引率。影響因子較低的AmJPhys和MoscUPhysB+各年度G均大于0.68(表2),引用分布不均勻程度較高,其零被引率均在50%以上(圖3~7),影響因子僅由不足半數(shù)的載文支撐。其中,MoscUPhysB+在2011年度的影響力甚至僅由約10%的載文產(chǎn)生,G高達0.892。雖然AmJPhys和MoscUPhysB+有較小的標準差,但其被引載文不足總量的50%,篇均被引頻次也難以真實地代表載文的整體影響力。
表2 2011—2015年度7種物理期刊影響因子IJIF、基尼系數(shù)G及修正后的影響因子IJIFG
圖3 2011年度洛倫茲曲線
圖4 2012年度洛倫茲曲線
圖5 2013年度洛倫茲曲線
圖6 2014年度洛倫茲曲線
圖7 2015年度洛倫茲曲線
基于上述期刊樣本可知,被引頻次在載文間既非均勻分布,也非正態(tài)分布,這意味著影響因子存在不同程度的失真,載文被引頻次的標準差越大或者零被引率越高,期刊篇均被引頻次的代表性就越低。
一般認為,影響因子越高,總被引頻次在載文間的分布越不均勻[10],基尼系數(shù)越大。由圖8(a)、(b)可知,PhysRevLett的影響因子小于NatPhys,但前者的基尼系數(shù)卻大于后者;在這7種期刊中,RevModPhys、NatPhys和PhysRevLett既是影響因子最大,也是基尼系數(shù)最小的3種期刊。這表明影響因子并不與基尼系數(shù)同向變動,影響因子的失真程度與影響因子大小無關。
綜上所述,總被引量在載文間的非均勻分布導致影響因子存在不同程度的失真,基尼系數(shù)G越小,分布越均勻,影響因子的代表性越高。因此可考慮將表征分布均勻程度的(1-G)作為基尼修正系數(shù)對影響因子進行修正,修正后的影響因子IJIFG可表示為
IJIFG=IJIF×(1-G)。
(3)
就本研究的虛擬案例,M刊的100次被引量均勻分布在100篇載文中,因此G為0,修正后的影響因子IJIFG仍為1。N刊的100次被引量僅集中在1篇載文,G為0.99,修正后的影響因子IJIFG降至0.01。筆者認為,基尼修正系數(shù)可有效地修正由于引用的偏態(tài)分布而產(chǎn)生的影響因子失真問題。圖8(b)、(c)分別為前述7種期刊修正前、后的影響因子,修正后的影響因子均不同程度變小,具體數(shù)值見表2。其中,RevModPhys、NatPhys和PhysRevLett修正后影響因子的差距明顯縮小。在科研管理中,如果單純根據(jù)期刊影響因子獎勵科研人員,則可能因引用的偏態(tài)分布產(chǎn)生激勵不當?shù)膯栴}。
圖8 2011—2015年度7種期刊的基尼系數(shù)與修正前后的影響因子。(a)G;(b)IJIF;(c)IJIFG
期刊影響力源于期刊載文影響力,表征期刊影響力的指標應充分考慮期刊載文的整體影響力。影響因子所要求的分布條件在現(xiàn)實中難以保證,當被引量呈偏態(tài)分布,尤其大部分被引量集中于少數(shù)載文時,以影響因子表征的期刊影響力則出現(xiàn)失真,從而高估了期刊的影響力。從本研究的7種期刊樣本看,被引量在載文間均呈右偏分布,基尼系數(shù)均在0.4以上,因此對期刊影響力的評價應考慮被引量在載文間的分布狀況。筆者認為,引入基尼修正系數(shù)對影響因子進行修正,將有助于更真實地反映期刊的學術影響力,但修正后的實際效果還有待系統(tǒng)的實證檢驗。
[1] Garfield E. The history and meaning of the journal impact factor[J].TheJournaloftheAmericanMedicalAssociation,2006,295(1):90-93.
[2] Martin B R. Editors′ JIF-boosting stratagems: Which are appropriate and which not?[J].ResearchPolicy,2016,45(1):1-7.
[3] Stephan P,Veugelers R,Wang J. Reviewers are blinkered by bibliometrics[J].Nature,2017,544(7651):411-412.
[4] Vanclay J K. Impact factor: Outdated artifact or stepping-stone to journal certification?[J].Scientometrics,2012,92(2):211-238.
[5] 毛國敏,蔣知瑞,任蕾,等. 期刊信息量和影響力分布的不均勻性分析研究[J]. 中國科技期刊研究,2012,23(3):377-382.
[6] 俞立平,劉愛軍. 指標數(shù)據(jù)分布與內部差距對學術期刊評價的影響:以JCR數(shù)學期刊為例[J]. 圖書情報工作,2014,58(21):105-110.
[7] Weale A R,Bailey M,Lear P A. The level of non-citation of articles within a journal as a measure of quality:A comparison to the impact factor[J].BMCMedicalResearchMethodology,2004,4(1):14.
[8] Metze K. Bureaucrats,researchers,editors,and the impact factor-a vicious circle that is detrimental to science[J].Clinics,2010,65(10):937-940.
[9] Bornmann L,Mutz R,Neuhaus C,etal. Citation counts for research evaluation: Standards of good practice for analyzing bibliometric data and presenting and interpreting results[J].EthicsinScienceandEnvironmentalPolitics,2008,8(1):93-102.
[10] Stegmann J,Grohmann G. Citation rates,knowledge export and international visibility of dermatology journals listed and not listed in the Journal Citation Reports[J].Scientometrics,2001,50(3):483-502.