■汪林梓 章博昕 陳 銘
南京大學信息管理學院,江蘇省南京市棲霞區(qū)仙林大道163號 210046
開放獲取(Open Access,OA)是一種為促進學術信息資源共享、推動學術交流而提出的學術期刊出版模式[1]。OA期刊作為OA的主要產物,向公眾讀者免費開放已發(fā)表的文章,促進了學術成果更為高效、便捷的傳播。OA期刊出版商需要向作者收取相應的文章出版費用以保持運營與盈利,然而在此過程中有些不良出版商利用了這一模式,大批量地、不加審核地出版付費文獻,以實現利潤收入最大化。美國科羅拉多大學的圖書館員Beall[2]將利用OA模式進行偽造與虛假承諾,不負責任地收取作者的文章出版費用以獲利的期刊,稱為掠奪性期刊,掠奪性期刊隨即受到廣泛關注與討論。
掠奪性期刊利用OA的特征,掩蓋其欺騙偽造的本質,謀取私利,對OA運動產生一定干擾與破壞[3]。近年來,掠奪性期刊數量呈現快速增長趨勢,嚴重危害學術生態(tài)。Nature在2022年3月發(fā)表的數據表明,掠奪性期刊的數量已超過15500種并且快速增長[4]。然而,目前學術界對掠奪性期刊的識別研究還比較薄弱?,F有識別掠奪性期刊的方法主要依賴列表式方法,如Beall創(chuàng)建的“Potential,Possible,or Probable Predatory Scholarly Open-Access Publishers”清單及Kscien掠奪性名單委員會建立的“Kscien′s List”[5]。這類列表存在明顯局限性:一是生成和更新困難,新出現的掠奪性期刊難以被及時收錄;二是難以覆蓋所有掠奪性期刊,存在一定漏判率。因此隨著掠奪性期刊出版的文章數量逐年增多,如何識別、判斷掠奪性期刊成為迫切需要關注的問題。近年來,Altmetrics指標作為衡量學術影響力的新型指標受到廣泛關注,也為期刊評價提供了新的視角。本研究擬利用Altmetrics指標判斷掠奪性期刊,以期建立更為有效的識別方法。
鑒于掠奪性期刊在全球范圍帶來的巨大影響與危害,學者們從不同維度研究了掠奪性期刊不同于其他期刊的特征。2022年國際科學院組織(InterAcademy Partnership,IAP)發(fā)布的《打擊掠奪性期刊和會議》(Combatting Predatory Academic Journals and Conferences)[6]利用了圖譜方法,對各類期刊特征進行了具體區(qū)分,其中掠奪性期刊的典型特征包括不存在同行評議或存在不正確的同行評議、模仿其他期刊或網站、無編委或假編委、替代或虛假影響因子等。Shamseer等[7]曾指出,英文掠奪性科技期刊具有13個特征,包括網站拼寫和語法錯誤、承諾快速發(fā)表、沒有撤回政策等。Frandsen[8]發(fā)現在掠奪性期刊中發(fā)文多的作者在Scopus數據庫中的平均發(fā)文量(以及中位數)更高,二者呈現出一定的正相關關系。根據多維度的研究,發(fā)現掠奪性期刊在費用、宣傳、審理及政策等方面都存在一定的問題,這也成為了掠奪性期刊較為明顯的特征。
隨著掠奪性期刊特征不斷地被發(fā)現與總結,近年來研究人員對掠奪性期刊的識別指標與方法也相應地提出了許多觀點。針對掠奪性期刊的高昂出版費用,Xia[9]通過研究掠奪性期刊的收費情況,發(fā)現文章處理費(Article Processing Charges,APC)不能成為區(qū)分期刊是否為掠奪性期刊的唯一標準。而王凌峰等[10]通過提出評價學術期刊出版費用合理水平的JPI 指數,從版面費角度為精確界定掠奪性期刊提供了簡便有效的客觀方法。Ruiter-Lopez等[11]從期刊編委會角度出發(fā),使用定量的方法檢查了掠奪性期刊的編委會情況,發(fā)現其中大部分編委為高水平學者,發(fā)文量中位數為43篇,被引頻次為664次,H指數為14,這說明通過檢查編委會情況難以識別掠奪性期刊。對于期刊網站與用詞,Chen等[12]使用機器學習方法從主流掠奪性期刊網站和普通期刊網站中提取出網站文本內容、關鍵詞等特征,提出了一種基于新模型的掠奪性期刊分類系統(tǒng)。其后,Chen等[13]又發(fā)現通過差異評分衡量期刊之間特定詞頻的差異,提高詞袋模型和TF-IDF算法的分類效率,可以幫助識別掠奪性期刊特征詞。不過期刊網站和使用詞匯也可以進行調整與修飾,掠奪性期刊與低質量期刊之間的界限仍然比較模糊。Yeo-Teh等[14]認為區(qū)分掠奪性期刊的最重要標準是同行評議的嚴格性,而且作者的動機或意圖也至關重要??讜详系萚15]從學術出版合法性、商業(yè)欺詐行為、學術不端行為等6個維度進行對比分析,設置了18個二級指標,對識別到的“預警期刊”進行等級劃分。從動機、相關行為因素角度進行分析得出了更深層次的結論,但考慮到一些主觀因素較難搜集與判斷,識別結果的準確性可能會受到影響。因此,許多學者從引文角度對掠奪性期刊進行分析。Frandsen[16]追蹤了2013—2016年Scopus中124種掠奪性期刊的引用情況,發(fā)現這些期刊被引用了1295次,刊均被引約10.5次,并認為非掠奪性期刊文獻較少引用掠奪性期刊文獻。Bj?rk等[17]從Google Scholar中隨機選擇了250篇在掠奪性期刊上發(fā)表的文章,研究了這些文章5年內的被引數據,發(fā)現每篇文章平均被引用2.6次,其中56%的文章根本沒有被引用。
雖然傳統(tǒng)引文指標經常被用于衡量學術成果的影響力,但其存在著時間滯后、負面引用及自引等問題,并不能全面反映學術成果的影響力[18]。隨著在線社交媒體平臺的不斷發(fā)展,科研交流日益網絡化,學術活動逐漸開放化,越來越多的科研人員開始使用在線學術平臺以及社交媒體平臺等獲取、傳播學術資源,并開展學術交流。2010年Priem[19]在Twitter上首先提出Altmetrics這一概念,用來評估學術論文在社交網絡上的影響力,通過追蹤學術論文等學術成果在網絡中的傳播交流過程來測度其社會影響力。
Altmetrics指標作為新興的研究影響力指標,自提出便受到廣大學者的關注與研究?,F有文獻顯示,關于Altmetrics指標的應用研究多集中在論文或期刊影響力綜合評價方面。在論文方面,王艷波等[20]提出將衡量社會影響力的Altmetrics指標和衡量學術影響力的傳統(tǒng)引文指標相結合,構造出更綜合、全面的評價學術論文影響力的指標體系。在期刊維度,王凱利等[21]融合引文分析和Altmetrics方法,構建了期刊影響力評價體系,并運用于國際圖書情報領域期刊影響力分析;俞征鹿等[22]基于Altmetrics提及次數指標,對中國英文科技期刊社會影響力進行統(tǒng)計分析。上述研究表明,Altmetrics指標對論文或者期刊的影響力綜合評估的有效性已得到初步驗證。
盡管使用Altmetrics指標來識別掠奪性期刊的研究較少,但初步研究表明Altmetrics指標具有應用潛力。筆者曾分析圖書情報領域掠奪性期刊與非掠奪性期刊在Altmetrics指標上的表現,發(fā)現在圖書情報領域,掠奪性期刊的Altmetrics存在率比非掠奪性期刊低很多[23]。但因掠奪性期刊數據量的限制,未能明確得出利用Altmetrics指標可以有效識別掠奪性期刊的結論,其效用還有待大樣本系統(tǒng)研究驗證。基于上述情況,本文在已有研究的基礎上,選取掠奪性期刊分布廣泛的生物醫(yī)學領域開展研究,在傳統(tǒng)基于引文指標識別掠奪性期刊的基礎上引入Altmetrics指標,采用Logit回歸模型構建掠奪性期刊的判別模型,為掠奪性期刊識別提供新的指標和方法。
基于前文對掠奪性期刊和Altmetrics指標及被引指標的文獻綜述和分析,構建以下兩個假設,并擬利用Logit回歸模型,以期刊的被引指標和Altmetrics指標值為自變量、期刊掠奪性為因變量,驗證兩個假設。
假設1:被引指標與期刊掠奪性具有負相關關系,即被引指標越高,期刊被判定為掠奪性期刊的概率越小。
假設2:Altmetrics指標與期刊掠奪性具有負相關關系,即Altmetrics指標越高,期刊被判定為掠奪性期刊的概率越小。
Logit回歸模型,也被稱為“評定模型”或“分類評定模型”,是一種離散選擇法模型,用于預測事件發(fā)生的概率,主要分為二元Logit回歸模型和多元Logit回歸模型兩類。二元 Logit 回歸模型的因變量為二分類,常定義事件發(fā)生為“1”,未發(fā)生為“0”。多元Logit回歸模型適用于有多個因變量的情況。Logit回歸模型廣泛應用于社會學、生物統(tǒng)計學、計量經濟學等領域。在圖情領域中,任海芝等[24]使用多元Logit回歸模型對圖書出版企業(yè)官方微信公眾號傳播力的影響因素進行了實證分析。研究主要探討掠奪性期刊的識別問題,而二元Logit回歸模型能夠很好地刻畫“掠奪性期刊”及“非掠奪性期刊”。由于假設被引指標和Altmetrics指標與期刊掠奪性存在負相關關系,選擇使用二元Logit回歸模型進行期刊類型識別分析。
Logit回歸模型由傳統(tǒng)線性回歸模型衍生而來,在多元線性回歸模型中因變量的取值范圍是(-∞,+∞),而事件發(fā)生概率范圍為[0,1]。因此,需要對線性回歸模型進行Logit變換。首先,引入發(fā)生比(Odds),Odds表示事件發(fā)生概率和事件不發(fā)生概率的比值,Odds的計算方法為
(1)
式中:ROdds表示Odds值;P表示事件發(fā)生的概率。此時Odds的取值范圍是[0,+∞)。
對Odds取自然對數,就可以將P從[0,1]映射為(-∞,+∞),從而可以進行多元線性回歸建模,這個過程稱為Logit變化,表達式為
(2)
式中:xj為自變量;αj為自變量的系數;α0為截距項;ε為誤差項。
2.3.1 因變量定義及數據來源
采用期刊類型二分類離散變量作為因變量,并定義掠奪性期刊=1,非掠奪性期刊=0。Shen等[25]發(fā)現,掠奪性期刊的文章數量逐年迅速增加,從2010年的53000多篇上升至 2014 年的420000多篇,活躍掠奪性期刊約有8000種,這些掠奪性期刊絕大多數來自生物醫(yī)學領域。因此,從生物醫(yī)學領域隨機抽取掠奪性期刊和非掠奪性期刊各100種作為研究樣本。掠奪性期刊數據來源于“Kscien′s List”,非掠奪性期刊數據來源于DOAJ(Directory of Open Access Journals)。DOAJ是由瑞典隆德大學圖書館創(chuàng)建和維護的收錄經同行評議OA期刊的目錄網站,具有嚴格的期刊收錄標準和期刊評估流程[26]。由于“Kscien′s List”與DOAJ均收錄OA期刊,抽取的兩類期刊樣本具有可比性。
2.3.2 自變量定義及數據來源
被引頻次在一定程度上反映了文章或者期刊的學術影響力,是論文質量和價值的重要評價指標,也是計算期刊影響因子的核心指標。為消除期刊文章數量差異對被引頻次的影響,使用期刊平均被引頻次來衡量被引情況,并用變量x1表示。通過爬取期刊網站收集到2012—2022年期刊所發(fā)表的文章數量,并使用Web of Science查詢期間的期刊被引頻次。具體計算公式為
x1=C/N
(3)
式中:N為期刊發(fā)表的文章數量;C為期刊文章的被引頻次。
Altmetrics指標作為衡量學術成果的社會影響力的新指標,拓展了基于引文的傳統(tǒng)影響力評估,能更加全面地反映學術成果在數字網絡中的影響。自Altmetrics概念提出后,多種測量工具涌現,如Altmetric.com、PlumX和Crossref Event Data等。其中Altmetric.com信息源廣泛,已涵蓋全球5000多家主流媒體和1.5萬個學術及非學術博客[27],且向研究人員提供免費使用的機會,因此近年來大多數Altmetrics相關研究采用了Altmetric.com工具[28]。通過Altmetric.com的Altmetric Explorer工具,使用期刊ISSN作為檢索條件,獲取2012—2022年期刊的Altmetrics指標數據。為消除期刊規(guī)模差異影響,定義Altmetrics存在率指標,并用變量x2表示,具體計算公式為
x2=NA/N
(4)
式中:NA為有Altmetrics得分的文章數量。
從收集的200種掠奪性期刊及非掠奪性期刊的Altmetrics存在率和平均被引頻次的描述性統(tǒng)計表(表1)可以觀察到,掠奪性期刊的Altmetrics存在率平均值僅為0.0088:在100種掠奪性期刊中,有81種的Altmetrics存在率都為0,即81%的掠奪性期刊的文章沒有Altmetrics得分,這表明了掠奪性期刊文章較少受到社交媒體的關注與討論。這些掠奪性期刊的平均被引頻次均值為0.7210,即平均每篇文章被引用約0.7210次。
表1 掠奪性期刊及非掠奪性期刊數據描述性統(tǒng)計分析
相比掠奪性期刊,非掠奪性期刊的Altmetrics存在率平均值為0.3357,遠大于掠奪性期刊的0.0088,這表明了非掠奪性期刊在社交網絡上的影響力遠大于掠奪性期刊。對于非掠奪性期刊,僅有23種期刊的Altmetrics存在率為0,并且最高Altmetrics存在率達到0.9916,表明與掠奪性期刊相比,非掠奪性期刊在社交網絡上的受關注度和影響力更大。在期刊被引方面,非掠奪性期刊平均被引頻次的均值為5.1763,高于掠奪性期刊。這從側面反映了掠奪性期刊難以保證文章的質量,未必能提供建設性觀點,較少被引用,而非掠奪性期刊的文章質量可能更高,對科研人員的研究有實質的幫助,被引頻次更多。
由上述分析可得,掠奪性期刊和非掠奪性期刊的平均被引頻次和Altmetrics存在率存在著較大差異,那么是否可以把它們作為判定期刊掠奪性的指標呢?使用Stata 14.0軟件,建立和比較以下3個Logit回歸模型。首先基于平均被引頻次構造掠奪性期刊識別模型(模型1),然后探討使用Altmetrics存在率構建的判別模型(模型2)效果,最后結合平均被引頻次和Altmetrics存在率構建掠奪性期刊識別模型(模型3),并對這3個模型及效果進行比較分析。
3.2.1 模型1分析結果
通過使用Stata 14.0軟件對期刊的平均被引頻次進行Logit回歸分析,得出結果如表2所示。Logit回歸模型擬合結果的表達式為y=0.864-0.438x1??梢钥闯?平均被引頻次變量系數為-0.438(Sig值<0.05),這表明了平均被引頻次與期刊掠奪性呈顯著負相關,說明假設1成立,即當平均被引頻次較低時,期刊為掠奪性期刊的概率更大。
表2 模型1回歸結果
在計算模型參數后,需要對模型計算出的預期概率和實際概率能否有效擬合做出評價。如果實際觀測值與模型預測值有著較高的一致性,則認為該模型能夠擬合數據;反之,則不能接受該模型,需要重新設置模型的變量。采用Hosmer-Lemeshow檢驗對二元 Logit 回歸模型的擬合優(yōu)度進行檢驗。
Hosmer-Lemeshow 檢驗可體現預測值和觀測值的吻合程度。如Sig值<0.05,表明模型的預測值與觀測值存在顯著差異,模型工作效果欠佳;反之,Sig值>0.05則認為在可接受的水平上模型擬合了數據,模型工作效果良好。對模型1進行Hosmer-Lemeshow檢驗,得出Sig值<0.001,這一結果說明了僅依據平均被引頻次建立的Logit回歸模型的擬合效果欠佳,為此嘗試引入Altmetrics指標進行判別分析。
3.2.2 模型2分析結果
模型2擬合表達式為y=1.036-14.871x2,建模結果如表3所示。可以看出Altmetrics存在率的系數為-14.871(Sig值<0.05),表明了期刊的Altmetrics存在率與期刊掠奪性顯著負相關,假設2成立,即期刊的Altmetrics存在率越高,期刊為掠奪性期刊的概率越小。Altmetrics存在率能夠反映出期刊學術成果的社會影響力,因此這一結果也是合理的。繼續(xù)使用Hosmer-Lemeshow 檢驗來對模型擬合效果進行檢驗,得出模型2的Hosmer-Lemeshow 檢驗的Sig值為0.997(>0.05),說明該模型的擬合效果較好。
表3 模型2回歸結果
3.2.3 模型3分析結果
同時引入平均被引頻次和Altmetrics存在率變量,得出模型3表達式為y=1.220-0.204x1-12.015x2,回歸結果如表4所示。其中,平均被引頻次和Altmetrics存在率指標的Sig值分別為0.033和0.002,均<0.05,這表明擬合效果是顯著的,平均被引頻次和Altmetrics存在率對期刊掠奪性具有負向影響,假設1和假設2成立。即當平均被引頻次和Altmetrics存在率較低時,期刊為掠奪性期刊的概率更大,這與模型1和模型2得到的結果也是一致的。
表4 模型3回歸結果
利用Hosmer-Lemeshow 檢驗,得到Sig值為0.357(>0.05)。Hosmer-Lemeshow檢驗中,當Sig值>0.05的時候擬合效果較好,當 Sig值>0.1的時候擬合效果更佳,因此引入平均被引頻次和Altmetrics存在率后的判別模型擬合效果較好。
3.2.4 3個模型比較分析結果
使用受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)曲線下的面積(Area Under Curve,AUC)來檢驗模型預測準確率。當AUC>0.75時,模型有足夠的辨別力。AUC值越高,預測準確率越高。曲線越接近左上角(x越小,y越大),預測準確率越高。根據模型ROC擬合結果(表5)可以看出,模型3的預測效果優(yōu)于模型1和模型2,即模型3的預測準確率更高。也就是說,同時融合了平均被引頻次和Altmetrics存在率的模型要比單獨利用平均被引頻次、Altmetrics存在率的模型效果更好,單獨使用Altmetrics存在率構造的模型又比單獨使用平均被引頻次的模型效果更好,進而證明了引入Altmetrics指標進行掠奪性期刊判別的合理性和正確性。
表5 模型ROC擬合結果比較
為了對模型效果進行驗證,收集了筆者在近1年內收到的邀請投稿郵件中的期刊數據。Sureda-Negre等[29]對西班牙一所大學教育領域的3位教授在3個月內收到的邀請投稿郵件進行分析,發(fā)現發(fā)送郵件的大多數期刊(69.7%)在掠奪性期刊名單中,并認為通過郵箱向學者發(fā)送投稿邀請的大部分期刊質量不高。因此,選擇發(fā)送邀請投稿郵件期刊進行模型效果驗證是合理的。在剔除了在“Kscien′s List”中出現的期刊后,得到期刊如表6所示。
表6 投稿邀請郵件中的期刊信息
使用相同的數據收集方法對這些期刊的引文數據和Altmetrics數據進行收集,并將其代入模型3中進行驗證,最終得到結果如表7所示??梢钥吹皆谶@14種驗證期刊中僅有1種期刊HealthInformaticsJournal的預測概率為0.0003(<0.5)。查閱后發(fā)現,HealthInformaticsJournal為SCI期刊,JCR分區(qū)為Q3區(qū)。除此之外,余下13種期刊的預測概率>0.5,其中12種期刊的預測概率>0.7,這說明了雖然這些期刊還沒有出現在“Kscien′s List”中,但它們?yōu)槁訆Z性期刊的概率較高,這和Sureda-Negre等[29]提出的通過郵箱向學者發(fā)送投稿邀請的期刊質量不高的觀點相符合,也表明了融合平均被引頻次和Altmetrics存在率的掠奪性期刊判別模型是合理的。
表7 模型驗證結果
本研究基于Logit回歸模型,分別構建了僅含平均被引頻次、僅含Altmetrics存在率以及同時包含平均被引頻次和Altmetrics存在率指標的掠奪性期刊判別模型。通過模型比較分析后發(fā)現,僅含Altmetrics存在率指標與同時引入平均被引頻次和Altmetrics存在率的掠奪性期刊判別模型效果較優(yōu)。雖然學界普遍認為期刊的引文指標適用于衡量期刊學術影響力,但Oviedo-García[30]對掠奪性期刊出版商MDPI(Multidisciplinary Digital Publishing Institute)的分析顯示,某些掠奪性期刊有較高的自引率,導致部分掠奪性期刊有著較高的被引頻次。這說明,期刊的被引頻次存在被操縱的可能,純粹以引文指標判斷期刊是否為掠奪性期刊并不準確。在Web 2.0環(huán)境下,Altmetrics指標充分利用了學術社交網絡進行文獻計量,數據更新更加及時,進而能夠避免學術成果影響力評估的滯后性,并可以補充性地反映學術成果的社會影響力。通過共同應用Altmetrics指標和引文指標,可以更全面地評估學術成果的影響力。同時引入平均被引頻次和Altmetrics存在率構建的判別模型綜合了兩類指標的優(yōu)勢,因此在判斷期刊的掠奪性方面具有更好的效果。
在此基礎上,收集了投稿邀請郵件的期刊數據,將其代入同時引入平均被引頻次和Altmetrics存在率的掠奪性期刊判別模型,對該模型進行驗證。結果表明,發(fā)送投稿邀請郵件的期刊大概率為掠奪性期刊。這表明了Altmetrics指標在識別掠奪性期刊方面具有良好的效果,可以較好地判斷期刊的優(yōu)劣,為掠奪性期刊的識別提供新的指標和方法。
不可否認的是,本研究仍然存在一些局限性。首先,由于數據獲取困難,僅能初步驗證使用期刊引文指標和Altmetrics指標識別掠奪性期刊的有效性;其次,研究應用的方法還有待優(yōu)化。在未來的研究中,將嘗試從以下兩個方面進行改進:一是增加指標類型,加入更多能夠有效識別掠奪性期刊的指標,以豐富模型輸出;二是增加樣本量,并嘗試采用更為前沿的方法,如機器學習中的隨機森林模型,以提升識別效果和模型精度??傮w而言,本研究對于掠奪性期刊的識別具有一定啟發(fā)意義,但仍需在數據和方法上作進一步拓展。