国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

引文動態(tài)如何變化:文獻內(nèi)容特征的作用研究

2021-10-26 05:41:44李凌英嚴(yán)笑然
情報學(xué)報 2021年10期
關(guān)鍵詞:波峰次數(shù)數(shù)量

李凌英,閔 超,嚴(yán)笑然

(1. 南京大學(xué)信息管理學(xué)院,南京 210023;2. 之江實驗室人工智能研究院,杭州 311121)

1 引 言

科學(xué)系統(tǒng)包含科研人員、 科研機構(gòu)、 科研項目、科研成果等多類主體,作用機制十分復(fù)雜。其中,科研成果凝聚著科學(xué)家的研究智慧,研究者可以通過學(xué)術(shù)出版物窺探科學(xué)家的研究觀點。文獻的被引情況則反映了其在科研系統(tǒng)中的影響,這種影響的產(chǎn)生原因既包括文獻本身的內(nèi)部因素,如文獻的研究內(nèi)容、科研成果的質(zhì)量等;也包括科研系統(tǒng)的外部環(huán)境,如科技政策、作者知名度以及偶然因素等[1]。針對文獻因何被引用的持久討論,目前,已有較多的研究關(guān)注文獻自身的表層計量特征,如篇幅、標(biāo)題長度、標(biāo)點符號、作者、期刊等。但是,現(xiàn)有研究一方面忽視了文獻在時間上的引文動態(tài)表現(xiàn),另一方面由于文獻內(nèi)容特征較難量化,亦缺乏揭示內(nèi)容特征與被引表現(xiàn)之間關(guān)系的研究。因此,本文將文獻本身的內(nèi)容特征分解為研究質(zhì)量、創(chuàng)新類型和內(nèi)容多樣性三個方面,探究其分別對文獻引文動態(tài)尤其是引文波峰的影響。

2 理論背景與文獻綜述

2.1 文獻內(nèi)容特征的衡量

2.1.1 文獻質(zhì)量的衡量

基于科學(xué)性、創(chuàng)新性和價值性維度,許多研究者將文獻的研究質(zhì)量進行拓展,包括正確性、嚴(yán)謹(jǐn)性、清晰度、美觀性、重要性等。例如,M?rtens‐son 等[2]提出研究質(zhì)量可以拓展為:可靠性維度、貢獻維度、溝通性維度和可持續(xù)性維度。圍繞質(zhì)量的三大標(biāo)準(zhǔn)——科學(xué)性、創(chuàng)新性和價值性,對一篇文獻的各個維度進行評價后可以獲得文獻質(zhì)量得分。在Patterson 等[3]中,評定論文質(zhì)量等級是審稿人在原創(chuàng)性、穩(wěn)健性和重要性三個類別中為每篇論文分配1~10 分,根據(jù)審稿人給出的總分文獻被劃分為Q1~Q5 共5 個等級,得分最高的為Q1 等級。Ivars‐son 等[4]則基于嚴(yán)謹(jǐn)性和相關(guān)性兩個維度來衡量軟件工程領(lǐng)域的研究質(zhì)量。

Faculty Opinions (曾用名: F1000Prime) 始于2002 年,是全球第一個醫(yī)學(xué)同行評議系統(tǒng)。集合了全球8000 多名的生物和醫(yī)學(xué)專家,覆蓋40 多個研究領(lǐng)域,旨在利用F1000 專家的建議對已發(fā)表的學(xué)術(shù)著作進行評分,并展示其重要性[5]。專家對生物醫(yī)學(xué)相關(guān)的研究進行同行推薦并分為三類等級,即推薦(good)、必讀(must read or very good) 和杰出(exceptional),該系統(tǒng)加權(quán)計算專家的推薦分值,最終得到F1000 分值(F1000 score,又稱FFa score)。具體規(guī)則如下[6]:將文獻所收到的所有推薦得分中最高的等級作為基礎(chǔ)分?jǐn)?shù),推薦為6 分、必讀為8 分以及杰出為10 分,其他的評級為附加分值,推薦、 必讀、 杰出的附加分分別為1、 2、 3分,基礎(chǔ)分?jǐn)?shù)加總附加分,即文獻的F1000 分值。例如,文獻A 收到了2 個推薦、1 個必讀、1 個杰出,最高等級為杰出,故基礎(chǔ)得分為10,附加分值為1×2+2×1=4 分,則總的分值為10+4=14 分。如果文獻收到的推薦數(shù)越多,那么FFa 值越大,在F1000 的數(shù)據(jù)庫排名越高。研究表明,F(xiàn)1000 分值可以反映文獻的質(zhì)量[7]。Allen 等[8]發(fā)現(xiàn),專家評議的得分、F1000 得分以及被引次數(shù)均存在顯著的正相關(guān),Spearman 相關(guān)系數(shù)分別為0.450、 0.446,P<0.01,專家小組確定的論文重要性評級與F1000 的重要型評級的一致性,也說明了F1000 是生物醫(yī)學(xué)領(lǐng)域文獻出版后質(zhì)量評估的重要附加機制,這種附加機制有助于識別領(lǐng)域的重要文獻。Bornmann 等[9]贊同F(xiàn)1000 的FFa score 是研究質(zhì)量的重要指針,并探究研究質(zhì)量與被引之間的關(guān)系。 簡而言之,F(xiàn)1000 的評分機制能夠在一定程度上揭示文獻的重要性,F(xiàn)Fa score 作為一種同行評議的評價指標(biāo),可以被用來評估文獻的質(zhì)量。

2.1.2 創(chuàng)新類型的衡量

在Kuhn[10]的理論中,突破性研究被認(rèn)為與學(xué)科研究范式轉(zhuǎn)變以及科學(xué)革命存在關(guān)聯(lián)。在常規(guī)科學(xué)中,范式轉(zhuǎn)變的突破和科學(xué)革命在科學(xué)體系中相互補充。H?yrynen[11]則認(rèn)為,突破性研究,可能是對既有的理論和科學(xué)范式提出挑戰(zhàn)的研究,也可能是整合不同研究視角的跨學(xué)科研究。但對于這類研究,往往伴隨著較高的失敗風(fēng)險。van Raan[12]認(rèn)為,科學(xué)是個自組織的 “認(rèn)知生態(tài)系統(tǒng)”,科學(xué)發(fā)展過程中較大改進的突破性研究往往只占據(jù)少數(shù)一部分,大多數(shù)研究是科研體系中的小進步。 Savov等[13]認(rèn)為,文獻的創(chuàng)新與研究主題相關(guān),如果文獻討論的是在自發(fā)表日起遙遠(yuǎn)未來將會流行的主題,而這個主題在過去并未流行,那么可以將這篇文獻當(dāng)作具有創(chuàng)新性的文獻。

在本研究中,采用F1000 數(shù)據(jù)庫專家給予評級時給出的文獻標(biāo)簽,作為文獻的創(chuàng)新類型。專家會根據(jù)文獻的研究特點和文獻所作的創(chuàng)新貢獻類別,給文獻打上對應(yīng)的標(biāo)簽。研究者可以根據(jù)F1000 分值和專家給予的推薦理由,識別有價值的、自己感興趣的文獻。標(biāo)簽主要為文獻創(chuàng)新類型的分類,包括新發(fā)現(xiàn)(new finding)、 技術(shù)進展(technical ad‐vance)、 驗證性(confirmation)、 爭議性(contro‐versial)、 有趣的假說(interesting hypothesis) 等;也有文獻類型的分類,包括臨床試驗(clinical trial(non-RCT))、 綜 述/評 論(review/commentary)、 系統(tǒng)綜述(systematic review/meta-analysis)[14]。

Du 等[15]利用F1000 數(shù)據(jù)庫中文獻標(biāo)簽將文獻類型劃分為基于證據(jù)的、變革性和轉(zhuǎn)化型三類。具體如下,認(rèn)為帶有clinical trial(non-RCT)、review/com‐mentary、systematic review/meta-analysis標(biāo)簽的文獻是基于證據(jù)的研究;變革性研究主要包括帶有interesting hypothesis、controversial、refutation 標(biāo)簽的文獻;轉(zhuǎn)化型研究則是novel drug target、changes clinical practice等。

本文的評估標(biāo)準(zhǔn)和Du 等[15]的劃分標(biāo)準(zhǔn)具有一定相似性,結(jié)合數(shù)據(jù)實際情況,本文篩選了5 類占比較高的標(biāo)簽作為文獻的創(chuàng)新類型——confirma‐tion、 technical advance、 new finding、 controversial、interesting hypothesis,將文獻類型標(biāo)簽(如臨床試驗、綜述/評論、系統(tǒng)綜述) 和數(shù)量極少的標(biāo)簽舍棄。從標(biāo)簽定義來說,標(biāo)簽的創(chuàng)新水平由低到高的排序為: confirmation、 technical advance、 new find‐ing、 controversial、 interesting hypothesis。 爭 議 性(controversial) 標(biāo)簽由于與現(xiàn)有理論存在較大不一致的地方,可能對現(xiàn)有知識體系具有一定的沖擊,而interesting hypothesis 是提出新模型/假說,二者的創(chuàng)新水平更高。帶有創(chuàng)新水平越高的標(biāo)簽,越有可能是突破性研究,而創(chuàng)新水平稍弱的文獻則是帶有創(chuàng)新性排序最低標(biāo)簽的文獻。

2.1.3 文獻內(nèi)容多樣性的衡量

文獻在內(nèi)容上的多樣性可以由研究領(lǐng)域的多樣性反映。例如,Enduri 等[16]認(rèn)為,屬于不同領(lǐng)域的文獻擁有較高的多樣性,利用APS 物理評論(American Physical Society's Physical Review Journals) 數(shù)據(jù)庫中PACS (physics and astronomy classification scheme)編碼分析文獻的多樣性,PACS 編碼可以在一定程度上反映作者認(rèn)為其論文的所屬領(lǐng)域。 同時,PACS 編碼是層級結(jié)構(gòu)組織,因此,Enduri 等[16]借助Weitzman 公式來度量文獻的多樣性。 其中,Weitzman 公式衡量兩個結(jié)點在樹狀結(jié)構(gòu)的距離。若一篇文獻含有多個PACS 編碼,則可以利用Weitzman 公式計算編碼間的距離,最終得到文獻的多樣性。類似地,Rafols 等[17]和Schmidt 等[18]基于文獻的研究領(lǐng)域,采用Simpson index 和Gini-Simpson index 衡量文獻的多樣性。

本研究認(rèn)為,文獻內(nèi)容多樣性體現(xiàn)在文獻的主題多樣性,即跨多個子主題研究的程度。如果一篇文獻包含了不同種類或者方向上的主題,那么文獻的研究內(nèi)容是豐富且多樣的。一般認(rèn)為,文獻的內(nèi)容多樣性越高,文獻的內(nèi)容相似性越低。在實際操作中,文獻研究主題借助數(shù)據(jù)庫標(biāo)引的MeSH(medical subject headings) 主題詞來表示,MeSH 是由美國國立醫(yī)學(xué)圖書館設(shè)計的受控醫(yī)學(xué)主題詞表,具有層級結(jié)構(gòu)。假設(shè)文獻有n個MeSH 主題(只考慮含*的主題,含*主題為文獻的重要主題),若MeSH 主題詞之間的距離越遠(yuǎn),則相似性越低,文獻的內(nèi)容多樣性越高。MeSH 主題詞之間的距離可以用MeSH 詞種類數(shù)和MeSH 主題詞的相似性來度量,其中相似性的實現(xiàn)借鑒了R 包的MeSHSim[19]。MeSH 詞種類數(shù)是指其文獻有n個MeSH 主題所屬的種類,若種類數(shù)越多,則文獻的內(nèi)容越豐富?;驹頌楸倔w的語義相似度計算[20]。對于語義實體X和Y之間存在路徑(path) 將這兩個節(jié)點相連接,其中經(jīng)過m個節(jié)點,則X和Y的相似性可以概括為

其中,σ代表到下位概念的路徑權(quán)重;r為到上位概念的路徑權(quán)重;s為下位概念的層數(shù);g為上位概念的層數(shù)。在MeSHSim 中,運用shortest path 方法衡量相似度的方法為

其中,MAX 為兩個節(jié)點之間的最長路徑長度;L為兩個節(jié)點之間的最短路徑長度。

通過MeSHSim 的最短路徑方法計算,得到文獻的MeSH 詞之間的相似度之后,對詞之間的相似度進行平均計算,即該文獻的內(nèi)容相似度。本研究借助內(nèi)容相似度來反映文獻的內(nèi)容多樣性,若文獻的內(nèi)容相似度越高,則文獻的內(nèi)容多樣性越低,文獻可能集中研究某一特定內(nèi)容,跨方向內(nèi)容越少;若文獻的內(nèi)容相似度越低,則文獻的內(nèi)容多樣性越高,文獻可能研究跨方向或者跨領(lǐng)域的相關(guān)內(nèi)容。

2.2 文獻特征與被引

2.2.1 文獻內(nèi)容特征

影響文獻被引的重要因素之一就是文獻的質(zhì)量。許多研究者探討了文獻研究質(zhì)量與文獻的未來被引之間的關(guān)系。在這些研究中,部分研究發(fā)現(xiàn),高質(zhì)量的文獻往往會吸引更多的引文。 例如,Buela-Casal 等[21]發(fā)現(xiàn),質(zhì)量高的論文是期刊中經(jīng)由專家篩選的 “最佳文獻”,與同期的其他文獻相比,西班牙心理學(xué)學(xué)科的期刊中最佳文獻的被引次數(shù)比其他文獻的被引次數(shù)要高(P=0.001)。Patterson 等[3]發(fā)現(xiàn),每年的引文與質(zhì)量得分之間的相關(guān)性較低,但在統(tǒng)計學(xué)上具有顯著意義(2003 年為-0.227,P<0.001;2004 年為-0.238,P<0.001;2005 年為-0.154,P<0.01),最高質(zhì)量的論文Q1 (占已發(fā)表論文的10%) 被引用的次數(shù)是所有論文的平均值的2 倍。Molléri 等[22]發(fā)現(xiàn),研究的嚴(yán)謹(jǐn)性與文獻的引用次數(shù)存在正相關(guān)關(guān)系(r=0.263,P<0.01)。

理論上,文獻的創(chuàng)新類型和文獻在被引維度的表現(xiàn)具有一定關(guān)聯(lián),高創(chuàng)新級別的文獻往往可以吸引更多的引文,這體現(xiàn)在部分學(xué)者的研究當(dāng)中,例如,諾貝爾獎得主的文獻往往吸引更多的被引。Garfield 等[23]調(diào)研了諾貝爾獎得主和非諾貝爾獎得主的文獻生產(chǎn)力和文獻被引情況,研究發(fā)現(xiàn)兩者之間在文獻生產(chǎn)力方面并無較大差異,但諾貝爾獎得主的文獻被引次數(shù)顯著高于非諾貝爾獎得主的被引水平。Wagner 等[24]將在1969—2011 年獲得諾貝爾生理學(xué)或醫(yī)學(xué)獎得主與一組相匹配的科學(xué)家進行比較,研究發(fā)現(xiàn)獲獎?wù)甙l(fā)表的論文更少,但平均引用率更高。Savov 等[13]研究發(fā)現(xiàn),利用自己開發(fā)的創(chuàng)新得分公式對文獻的創(chuàng)新進行評估,并與文獻的被引次數(shù)進行相關(guān)性分析。文獻被引次數(shù)和文獻創(chuàng)新得分的相關(guān)系數(shù)為0.2944 (P<0.01),高被引次數(shù)的文獻往往也有較高的創(chuàng)新得分。Varga[25]將文獻的組合創(chuàng)新作為文獻創(chuàng)新度評價的尺度,其思想是,文獻的創(chuàng)新源于對過去知識體系的重新組織配置,這體現(xiàn)在參考文獻或者關(guān)鍵詞等知識要素的組合方式上,如果一篇文獻的參考文獻組合方式在之前沒有出現(xiàn),那么說明該文獻具有組合方式上的創(chuàng)新,進一步說明了該文獻的知識結(jié)構(gòu)創(chuàng)新。同時,也認(rèn)為這種 “組合創(chuàng)新” 會影響科學(xué)知識的傳播方式,這將在引文趨勢上體現(xiàn)。也有研究表明,引用的表現(xiàn)不能完全反映文獻的創(chuàng)新類型,例如,盡管發(fā)現(xiàn)文獻創(chuàng)新得分與文獻被引之間存在顯著的相關(guān),但Savov 等[13]認(rèn)為這種關(guān)系并非線性的,即文獻的高被引不一定揭示了文獻的高創(chuàng)新,其認(rèn)為一些真正具有創(chuàng)新性的文獻可能尚未引起學(xué)界的注意。

文獻多樣性程度越高,內(nèi)容越豐富,就越容易吸引信息接受者。Bessi 等[26]探索Facebook 上推送多種內(nèi)容的頁面與推送相似性內(nèi)容頁面的信息消費模式,發(fā)現(xiàn)內(nèi)容多樣性的頁面受歡迎程度更高。En‐duri 等[16]研究文獻多樣性和被引之間的關(guān)系,文獻的多樣性與自發(fā)表后收到的引文數(shù)量相關(guān)。與中度多樣性論文相比,多樣性較低和較高的論文被引用的次數(shù)較少。Chakraborty 等[27]利用文獻的主題多樣性和關(guān)鍵詞多樣性來預(yù)測文獻的被引次數(shù),其認(rèn)為主題多樣性有利于提升被引次數(shù)。而在Chen[28]的研究當(dāng)中也提出,文獻A 比文獻B 獲得更高引用的原因可能在于文獻A 比文獻B 囊括更多、更廣泛的主題,即更廣泛的主題范圍和更多的主題數(shù)量。例如,如果文獻A 綜合多個主題進行闡述,而文章B圍繞較少的主題進行探討,那么文獻A 就會由于主題多樣性更為豐富而獲得更高的引用次數(shù)。

2.2.2 其他控制變量

在被引數(shù)量上,已知存在的影響因素包括文獻本身維度、期刊維度以及作者維度等因素。為了保證較為準(zhǔn)確地評估上述三個因素對于引文數(shù)量、引文波峰特征的影響,本研究將在引文數(shù)量已知的因素當(dāng)中挑選重要的影響因素,作為模型的控制變量納入。在引文數(shù)量的影響因素當(dāng)中,學(xué)界主要關(guān)注的變量為文獻的篇幅長短、文獻類型、作者的合作情況、期刊影響因子等。

在文獻篇幅層面,被證實文獻篇幅越長,越能夠吸引更多的引用次數(shù)[29-30],即較長的論文比較短的論文受到更高的引用次數(shù)。其原因可能是,隨著文獻篇幅的增長,會包含越來越多的數(shù)據(jù)和想法,這些數(shù)據(jù)和想法為之后的研究人員提供更多的參考,所以得到引用的可能性更高。此外,文獻篇幅還與文獻的參考文獻數(shù)量有關(guān)[31],當(dāng)參考文獻數(shù)量增加時,由于學(xué)者可以通過引文之間的關(guān)聯(lián)搜尋該篇文獻,所以該篇文獻在學(xué)界的可見性增加。

在文獻類型上,Vanclay[31]研究發(fā)現(xiàn),綜述比研究型的文獻吸引的引文數(shù)量更多,綜合全面的綜述年均被引次數(shù)在2.0~3.9 次(生態(tài)學(xué)領(lǐng)域),但是低質(zhì)量的綜述不會得到這樣的結(jié)果。Patsopoulos 等[32]探討醫(yī)學(xué)領(lǐng)域的研究設(shè)計類型(元分析、隨機對照試驗、隊列研究、病例對照研究、病例報告等) 與被引之間的關(guān)聯(lián),發(fā)現(xiàn)元分析在短期被引和長期被引上更占優(yōu)勢。同時,隨機對照試驗與病例報告相比,在短期被引和長期被引上具有顯著的優(yōu)勢。

在作者的合作情況上,學(xué)界主要關(guān)注作者的合作規(guī)模和合作結(jié)構(gòu)。合作規(guī)模即合作數(shù)量,包括合作的作者數(shù)量、機構(gòu)數(shù)量和國家數(shù)量;而合作結(jié)構(gòu)是指跨學(xué)科合作等。研究表明,多作者合作的論文比單個作者的論文被施引的更為頻繁[33]。因合作而導(dǎo)致的被引數(shù)量增加,可能與論文的質(zhì)量改變有關(guān)[34],例如,論文由多領(lǐng)域的專家合作貢獻多方面的知識,從而在完成論文的過程中更加嚴(yán)格,文獻質(zhì)量也更高。也可能與論文的被引層面的因素相關(guān),例如,合作者的增加意味著當(dāng)作者自引時有更多的文獻選擇,與更高影響力的學(xué)者合作會增加文獻的可見性等[35]。但Bornmann[36]在研究中指出,文獻質(zhì)量指標(biāo)幾乎不受作者數(shù)量、機構(gòu)數(shù)量和國家數(shù)量的影響,即合作活動的增加,并不會增加文獻的質(zhì)量,說明這種因合作者增加而導(dǎo)致的被引優(yōu)勢,主要與被引層面的因素有關(guān)(如更多的自引可能性)。

在期刊層面,對被引起重要作用的是期刊影響因子[37]。一般來說,期刊的影響因子越高,吸引引文的能力越強。在影響因子較高的期刊上發(fā)表文獻,會提升知名度,從而獲得更多的引用。影響因子越高,期刊的威望越高,論文發(fā)表的可信度就越高,論文越容易被訪問。

總的來說,在文獻被引的影響因素研究的因變量中,主要關(guān)注文獻的被引數(shù)量,即靜態(tài)的總被引次數(shù),對動態(tài)的引文過程不夠重視,這可能會遺漏時間軸上重要的引文活動。波峰作為引文動態(tài)過程中的重要時間節(jié)點,揭示了文獻的動態(tài)被引特征,波峰的數(shù)量特征、時間特征和幅值特征從不同角度反映了文獻的被引表現(xiàn),包括生命周期特點、被引速度快慢和影響力大小。本次研究是一次新穎的嘗試,從波峰的三大特征指標(biāo)出發(fā),探究文獻在不同視角下的被引表現(xiàn)差異以及被引表現(xiàn)的影響因素,拓寬了引文分析領(lǐng)域的研究對象和研究方法。

在文獻被引的影響因素研究的自變量中,更多的研究聚焦在文獻的外部特征,如期刊、作者數(shù)量等,缺乏對文獻內(nèi)容特征的探討。有些研究者分別探究了文獻質(zhì)量、創(chuàng)新類型和文獻研究內(nèi)容多樣性對文獻總被引次數(shù)的影響,但沒有研究者將文獻的內(nèi)容特征歸納在一起進行系統(tǒng)性研究。本研究將從文獻本身的內(nèi)容特征出發(fā),深入分析三大文獻特征——文獻質(zhì)量、創(chuàng)新類型和文獻內(nèi)容多樣性,剖析文獻特征對文獻被引過程的貢獻,探索高質(zhì)量、高創(chuàng)新論文的波峰典型特征,從而為科研評價提供新的啟示。

3 研究假設(shè)

文獻質(zhì)量是指文獻的研究質(zhì)量,是一個極為復(fù)雜的概念。Polanyi[38]認(rèn)為,研究質(zhì)量分為科學(xué)性、創(chuàng)新性和科學(xué)價值。也就是說,一項質(zhì)量較高的研究,首先是基于研究證據(jù)進行的研究,同時研究過程嚴(yán)謹(jǐn),研究方法科學(xué)合理(即科學(xué)性);其次,是整個研究應(yīng)當(dāng)具備一定程度的創(chuàng)新,可以為現(xiàn)有科學(xué)體系提供新型知識(即創(chuàng)新性);最后,是對其他研究產(chǎn)生了重要影響(即科學(xué)價值性)。研究質(zhì)量是學(xué)術(shù)出版物得到認(rèn)可的重要途徑,因此,本文提出研究假設(shè)H1:

H1: 研究質(zhì)量對論文的被引表現(xiàn)產(chǎn)生正面影響。

文獻的創(chuàng)新類型是指文獻的創(chuàng)新程度。在科學(xué)的發(fā)展過程中,科學(xué)研究需要不斷突破,突破的水平程度可以理解為文獻的創(chuàng)新類型,覆蓋的層面包括新穎的假說、新穎的方法、新穎的理論、新穎的模型以及新穎的結(jié)果,既可能涵蓋對既有知識的增補/改進,也包括對現(xiàn)有研究的沖擊與突破[39]。一般認(rèn)為,對現(xiàn)有研究體系產(chǎn)生沖擊與突破的文獻具有更高的創(chuàng)新類型,而對既有知識進行增補與改進的研究,在創(chuàng)新類型的表現(xiàn)稍弱。高創(chuàng)新的文獻對現(xiàn)有體系的沖擊可能導(dǎo)致文獻在短期內(nèi)得不到廣泛認(rèn)可[40],因此,本文提出研究假設(shè)H2:

H2:與低創(chuàng)新的文獻相比,高度創(chuàng)新的論文被引表現(xiàn)較弱。

文獻多樣性是指文獻的研究內(nèi)容包含了多個領(lǐng)域或方向的研究內(nèi)容,這種多樣性在跨學(xué)科或者跨領(lǐng)域的研究中較為常見。許多學(xué)者通過研究合作者之間的跨學(xué)科來研究文獻的多樣性。 Huutoniemi等[41]認(rèn)為,來自不同領(lǐng)域的作者進行合作會貢獻不同的知識,從而對文獻的知識結(jié)構(gòu)產(chǎn)生影響。多學(xué)科性意味著將不同領(lǐng)域的專業(yè)知識進行組合,這將創(chuàng)造新的知識。然而,文獻作為科研知識的載體,其多樣性的差別不僅僅體現(xiàn)在作者的跨學(xué)科性,更體現(xiàn)在其內(nèi)容本身。即文獻在內(nèi)容上存在多樣性,稱為文獻內(nèi)容多樣性,是指信息載體在內(nèi)容上的豐富度。理論上,如果文獻多樣性程度越高,內(nèi)容越豐富,那么越容易吸引信息接受者。因此,本文提出研究假設(shè)H3:

H3:文獻的內(nèi)容多樣性對文獻的被引表現(xiàn)產(chǎn)生正面影響。

文獻被引表現(xiàn)最有代表性的指標(biāo)是文獻獲得的總被引次數(shù),因此,上述三個假設(shè)可以具體表示為:

H1a:研究質(zhì)量能夠提高論文的總被引次數(shù);

H2a:與低創(chuàng)新的文獻相比,高度創(chuàng)新的論文總被引次數(shù)更低;

H3a:研究內(nèi)容的多樣性能夠提高論文的總被引次數(shù)。

然而,文獻的被引是動態(tài)過程,僅以總被引次數(shù)并不能全面地表示文獻被引表現(xiàn)。引文波峰(ci‐tation peak) 是指文獻在被引過程中到達(dá)生命周期的最大值或者局部最大值時的點[42-43]。作為動態(tài)被引過程中的關(guān)鍵時點,對波峰及其規(guī)律的深度挖掘能夠進一步豐富引文分析工具,揭示引文過程中的科學(xué)問題,為引文分析提供新的視角。在上文的研究中,本文證實了引文波峰能夠有效反映文獻動態(tài)被引過程的模式特征。例如,波峰時刻累積的被引次數(shù)可以作為預(yù)測其最終被引次數(shù)的重要依據(jù),波峰到達(dá)的早晚可以衡量文獻在學(xué)界的認(rèn)可速度,通過波峰時刻被引量與周圍節(jié)點被引量的差距解釋當(dāng)年的研究環(huán)境變化等。本研究探究文獻特征對被引的影響將跳出靜態(tài)的總被引次數(shù)指標(biāo)限制,把能夠反映動態(tài)被引特點的引文波峰各項特征納入研究范疇,作為被引表現(xiàn)的指征。引文波峰分布特點可以從波峰的不同角度進行刻畫,包括波峰的數(shù)量特征、時間特征和幅值特征,三者構(gòu)成波峰的模式特征。

在數(shù)量特征上,有研究發(fā)現(xiàn),大多數(shù)文獻有且只有一個波峰,多波峰的出現(xiàn)提示二次或多次生命周期的出現(xiàn)。文獻在逐年被引曲線上表現(xiàn)為多波峰,一般是對多個領(lǐng)域產(chǎn)生影響,從而依次在各領(lǐng)域到達(dá)被引高峰。因此,本文提出研究假設(shè)H3b:

H3b: 文獻內(nèi)容多樣性對波峰數(shù)量產(chǎn)生正向影響。

在時間特征上,文獻集中在發(fā)表后的0~5 年內(nèi)到達(dá)首次波峰和最高峰;到達(dá)引文波峰的時間是文獻被引速度的有效反映,也可以揭示文獻特征。文獻質(zhì)量越高,逐年變化保持較高被引,波峰時間會較晚出現(xiàn);文獻創(chuàng)新程度越高,被學(xué)界接納需要更長時間,從而表現(xiàn)為較晚的波峰時間;文獻內(nèi)容越多樣,高被引狀態(tài)維持較長時間,波峰時間較晚出現(xiàn)。故提出研究假設(shè)H1b、H2b、H3c:

H1b:文獻質(zhì)量越高,波峰到達(dá)時間越晚;

H2b:與低創(chuàng)新的文獻相比,高度創(chuàng)新的論文波峰到達(dá)時間較晚;

H3c:文獻內(nèi)容越多樣,波峰到達(dá)時間越晚。

在幅值特征上,可以構(gòu)建波峰高度(peak height) 來揭示文獻在波峰時刻的幅值特點。定義為:文獻在波峰時刻的幅值與鄰居節(jié)點幅值的差距占波峰幅值的百分比。通過與鄰居節(jié)點對比得到波峰的相對高度。即對于序列C= [c1,c2,c3,…,cn],文獻在第p年到達(dá)波峰,波峰幅值為cp,波峰兩側(cè)節(jié)點的幅值平均值為neighborheight= avg {cp-Δt,…,cp-1,cp+1,…,cp+Δt},則

通過與鄰居節(jié)點對比,將絕對高度(波峰幅值) 轉(zhuǎn)化為相對高度(波峰高度),刻畫在波峰時刻文獻的影響力高峰。波峰高度反映的是波峰與鄰居節(jié)點幅值的差距,即波段附近的曲線變化,變化越大,波峰高度的值越接近于1。文獻質(zhì)量越高,則曲線變化越平緩,與周圍節(jié)點差別越小,波峰高度的值越?。粍?chuàng)新程度更高的文獻,在受到認(rèn)可之后,會表現(xiàn)為突然上升,故曲線會驟然變化,波峰高度的值更高。因此,本文提出研究假設(shè)H1c、H2c:

H1c:文獻質(zhì)量越高,波峰高度越??;

H2c:與低創(chuàng)新的文獻相比,高度創(chuàng)新的論文波峰高度更高。

4 數(shù)據(jù)和方法

4.1 數(shù)據(jù)集

文獻來源數(shù)據(jù)選取PubMed 收錄的醫(yī)學(xué)和生物學(xué)文獻,PubMed 是美國國家醫(yī)學(xué)圖書館建設(shè)的收錄醫(yī)學(xué)相關(guān)文獻的數(shù)據(jù)庫。根據(jù)MeSH 詞確定檢索詞,覆蓋醫(yī)學(xué)的12 個學(xué)科和生物學(xué)的10 個學(xué)科。為了保證文獻較長的被引時間窗口,發(fā)表時間截至2010 年12 月31 日。經(jīng)過去重處理后,得到文獻共836628 篇。由于PubMed 沒有文獻的被引數(shù)據(jù),所以文獻被引數(shù)據(jù)來自Web of Science (WoS) 核心合集,獲取截至2019 年的引文數(shù)據(jù),利用PMID(PubMed unique identifier) 匹配Web of Science 文獻的WoS-ID,一共匹配480725 篇,引文時間窗口大于等于10 年。為了避免極低被引的論文造成干擾,對總被引次數(shù)大于10 次的文獻進行波峰識別,識別方法參見文獻[43]。在識別出波峰的216719 篇文獻中,有2867 篇文獻被F1000 數(shù)據(jù)庫的專家推薦。F1000 數(shù)據(jù)庫的文獻需要經(jīng)專家挑選,存在一定的推薦門檻,生物醫(yī)學(xué)領(lǐng)域約有2% 的文獻會被納入該數(shù)據(jù)庫[44],故占比較低的結(jié)果符合預(yù)期。在這些文獻中,發(fā)表年最早為1948 年,其中發(fā)表年小于2001 年的文獻僅23 篇。由于時間跨度較大,而時間也會對文獻的被引產(chǎn)生一定影響,為方便進一步研究,本文將這些文獻剔除,最終剩下2844 篇文獻,文獻的發(fā)表時間跨度為2001—2010 年,引文時間窗為10~20 年。

數(shù)據(jù)處理流程如圖1 所示。

圖1 數(shù)據(jù)準(zhǔn)備處理流程圖

4.2 變量操作方法

4.2.1 因變量

本研究主要探討文獻內(nèi)容特征對文獻被引的影響。靜態(tài)的總被引次數(shù)在揭示文獻的被引模式存在局限,因此,除總被引次數(shù)之外,將引文波峰的各項特征作為因變量納入,包括波峰的數(shù)量特征、時間特征和幅值特征。其中,波峰的數(shù)量是文獻自發(fā)表后波峰曲線中被識別的波峰數(shù)量;時間特征則采用了最高峰的到達(dá)時間,即文獻在發(fā)表后第幾年到達(dá)最高峰;幅值特征的指標(biāo)為波峰高度,是最高峰與周圍節(jié)點比較得到的結(jié)果。

4.2.2 自變量

本研究的自變量包括文獻質(zhì)量、文獻創(chuàng)新類型以及文獻的內(nèi)容多樣性。 其中,文獻質(zhì)量借助F1000 數(shù)據(jù)庫同行評議的結(jié)果,F(xiàn)1000 將同行給出的good/very good/exceptional 標(biāo)簽轉(zhuǎn)化為FFa Score,故文獻質(zhì)量通過FFa 得分進行量化評估。對于文獻的創(chuàng)新類型,本研究采用專家對文獻給出的標(biāo)簽,由于文獻與標(biāo)簽之間存在一對多的關(guān)系,故在納入文獻標(biāo)簽時優(yōu)先納入?yún)^(qū)分度更高的標(biāo)簽,例如,new finding 標(biāo)簽最多,當(dāng)一篇文獻同時被標(biāo)注為new finding 和interesting hypothesis 時,會將其標(biāo)注為“interesting hypothesis”。 對于文獻的內(nèi)容多樣性,本研究利用文獻主題詞的種類數(shù)和主題詞之間的相似性均值來表示。

4.2.3 控制變量

本研究將上文探討的與文獻被引相關(guān)的影響因素:文獻篇幅、文獻類型、作者數(shù)量以及期刊影響因子均作為控制變量納入模型。在實際操作中,文獻篇幅為文獻的頁數(shù); 文獻類型為PubMed 中的publification type[45],在PubMed 數(shù)據(jù)庫中,publifica‐tion type 主要包括綜述類(review/system review/me‐ta analysis)、研究型(randomized controlled trial/clin‐ical trial/clinical study/comparative study/observational study)和期刊論文型(journal article)以及其他(letter/news 等)。由于本研究的數(shù)據(jù)樣本的最晚發(fā)表時間為2010 年,故采用2010 年的期刊影響因子數(shù)據(jù)作為期刊影響因子值。

4.3 統(tǒng)計方法

由于論文的被引次數(shù)呈偏態(tài)分布,并且是計數(shù)資料,在統(tǒng)計中,負(fù)二項回歸能夠較好地解決此類問題。因此,本研究采用負(fù)二項回歸來分析3 個自變量和4 個控制變量對文獻的被引數(shù)量的影響。本研究選擇波峰數(shù)量、波峰的到達(dá)時間、波峰高度這三個波峰特征指標(biāo)作為模型的因變量。波峰高度是0-1 的連續(xù)變量,所以模型采用最小二乘估計的多元線性回歸方法。波峰數(shù)量雖然呈偏態(tài)分布的計數(shù)資料,但因其數(shù)值只有1、2、3 三個數(shù)值,導(dǎo)致負(fù)二項回歸結(jié)果的不顯著性,故最終將其冪轉(zhuǎn)換后采用多元線性回歸。波峰時間本質(zhì)是連續(xù)變量,經(jīng)對數(shù)轉(zhuǎn)換后能夠轉(zhuǎn)為相對正態(tài)的變量,故采用多元線性回歸。自變量的文獻創(chuàng)新類型和控制變量中文獻類型均屬于分類變量,故需要進行啞變量處理。

模型采用逐步回歸方法,逐步回歸的過程,根據(jù)R2和P的結(jié)果分析模型的擬合優(yōu)度。由于在負(fù)二項回歸、邏輯回歸中采用的是極大似然估計方法,而不是最小二乘估計方法,故無法直接計算R2,模型利用偽R2來近似反映模型的擬合情況。如果模型較上一個模型的偽R2更大,同時在統(tǒng)計學(xué)上具有顯著意義,便認(rèn)為該模型比上一個模型有效。模型X1 為控制變量與因變量的回歸模型,作為基礎(chǔ)模型,而X2、X3、X4 則是在模型X1 之上分別加入某一自變量的回歸模型。

5 結(jié) 果

5.1 描述性統(tǒng)計

由表1 可知,在本研究的樣本中,文獻的平均篇幅為8.05 頁,平均作者數(shù)量為7.11。 在Falagas等[31]的研究中,醫(yī)學(xué)文獻篇幅的中位數(shù)為7.88 頁,合作作者數(shù)量為9.88。在文獻類型上,數(shù)量最多的為期刊論文,占比為73.18%;其次為臨床研究,占比為18.83%;綜述型文獻的占比為7.67%;其他類型的文獻占比為1.75%。期刊論文是NLM (The Na‐tional Library of Medicine) 數(shù)據(jù)庫的主要文獻類型,綜述型文獻因其需要在較多的研究型文獻之上,探討學(xué)科的發(fā)展方向,其信息綜合度更高。期刊影響因子的均值為12.56;Journal of Emergency Nursing的值最小,為0.43;New England Journal of Medicine的值最大,為53.48;期刊影響因子的中位數(shù)為8.23,數(shù)據(jù)呈右偏分布,說明在被挑選進F1000 數(shù)據(jù)庫的文獻并不集中在高影響因子的文獻范圍中。

表1 變量描述性統(tǒng)計

對于自變量X5,文獻質(zhì)量得分均值為7.56,靠近得分最小值6。進一步分析發(fā)現(xiàn),得分為6 的文獻數(shù)量較多,這說明該文獻只被推薦1 次,評級為good。在Waltman 等[45]的研究中,文獻得到平均推薦數(shù)量為1.30,81.1% 的文獻僅被推薦1 次。文獻被評為good、very good、exceptional 的占比分別約為60%、30% 和10%。

對于自變量X6,由于少量文獻專家在給予評分時未給出創(chuàng)新類型,在2844 篇文獻中2731 篇文獻擁有創(chuàng)新類型。本研究僅考慮了數(shù)量較多的5 個標(biāo)簽,其中比例最高的是new finding,比例最低的是controversial。

對于自變量X7,MeSH 詞種類數(shù)的均值為3.27,MeSH 詞相似性的均值為0.22,其中最小值0 值占比較大。測度主題相似性時,若兩個MeSH 詞屬于A 和B 兩個不同的樹(一層級別不同),則相似度為0,如B03.440.400.425.127.100 與C19.642.355.480.500二者的相似度為0。在結(jié)果中文獻內(nèi)容相似性0 值較多,說明這些文獻至少采用了2 個跨一層級別的MeSH 主題詞,可以認(rèn)為該文獻的內(nèi)容多樣性較大。

5.2 相關(guān)性分析

首先進行自變量相關(guān)性分析,以排除自變量間的多重共線性。 自變量間進行Pearson 相關(guān)分析,結(jié)果顯示自變量之間不存在強相關(guān)性。然后,經(jīng)VIF (variance inflation factor) 校驗,排除了自變量的多重共線性。表2 為自變量相關(guān)性分析結(jié)果。

表2 變量相關(guān)分析結(jié)果

5.3 回歸結(jié)果

對于因變量Y1 總被引次數(shù),模型采用的是負(fù)二項回歸方法,模型1.1~模型1.4 體現(xiàn)了逐步回歸的過程,模型1.1 為控制變量對文獻總被引次數(shù)的影響;模型1.2 加入自變量1——文獻質(zhì)量得分FFa score,探究文獻質(zhì)量與4 個控制變量對文獻總被引次數(shù)的影響;模型1.3 在模型1.1 的基礎(chǔ)之上加入文獻創(chuàng)新類型,探究文獻創(chuàng)新類型與4 個控制變量對文獻總被引次數(shù)的影響;模型1.4 在模型1.1 的基礎(chǔ)之上加入文獻內(nèi)容相似性,探究文獻內(nèi)容多樣性、文獻創(chuàng)新類型、文獻質(zhì)量和4 個控制變量綜合對文獻總被引次數(shù)的影響??紤]到時間可能會對總被引次數(shù)產(chǎn)生影響,本研究將文獻不同年發(fā)表的時間效應(yīng)控制住?;貧w結(jié)果如表3 所示。

由表3 可知,在模型1.1 中,自由度為2844,P<0.001,通過了卡方統(tǒng)計檢驗,偽R2為0.037,認(rèn)為該回歸模型是顯著的。對于自變量X1 文獻篇幅,其回歸系數(shù)為0.027,P<0.001,認(rèn)為具有顯性的正向效應(yīng)。在回歸過程中,當(dāng)文獻類型控制住之后,文獻篇幅的效應(yīng)為正,則說明文獻篇幅越長,其收到引用的概率越大。Falagas 等[31]的研究也支持了這一點。對于自變量X2 文獻類型,其基準(zhǔn)組為 “其他” 類型的文獻,對比 “其他” 類型的文獻,期刊論文與臨床研究的結(jié)果并不顯著,綜述型文獻更具有引用優(yōu)勢。相較于 “其他” 類型的文獻(如let‐ter/comments/news 等) 的即時性,綜述型文獻因其凝聚多項研究結(jié)果,對后續(xù)研究更具持久性影響。在X3 作者數(shù)量上,其與被引次數(shù)的回歸系數(shù)為0.027,P<0.001,作者的數(shù)量對文獻的總被引次數(shù)產(chǎn)生正向的影響。作者數(shù)量的增多,會促進文獻獲得更高的被引次數(shù)。X4 期刊影響因子與總被引次數(shù)的回歸系數(shù)為0.050,P<0.001,說明期刊影響因子對總被引次數(shù)產(chǎn)生顯著的正向效應(yīng),影響因子越高,文獻被引的可能性越大。

表3 總被引次數(shù)回歸結(jié)果

在模型1.2 中,自由度為2844,P<0.001,偽R2為0.040,與模型1.1 相比,偽R2增加,盡管增加量不大,但具有顯著性意義,可以認(rèn)為該回歸模型有效,認(rèn)為變量X5 文獻質(zhì)量的納入比控制變量建立的模型擬合效果更好。文獻質(zhì)量得分與總被引次數(shù)的回歸系數(shù)為0.075,P<0.001,說明能夠在99.9%的水平上拒絕原假設(shè),認(rèn)為文獻質(zhì)量得分對總被引次數(shù)存在顯著的正向效應(yīng)。文獻質(zhì)量是個復(fù)雜的概念,其包含了研究的科學(xué)性和研究的貢獻性,如果一項研究是高質(zhì)量的,那么文獻可能因為其科學(xué)性而成為示范,從而成為學(xué)科的經(jīng)典性文獻;也可能因為其貢獻性,導(dǎo)致社會價值和科學(xué)價值較大,影響范圍更廣,而獲得更多引用。

在模型1.3 中,自由度為2731,這是由于部分樣本在文獻創(chuàng)新類型字段上缺失,P<0.001 說明通過卡方有效性檢驗。而偽R2為0.040,與模型1.1 相比,偽R2增加,認(rèn)為該回歸模型有效,即認(rèn)為納入變量X6 文獻創(chuàng)新類型能夠提升模型的擬合效果。文獻創(chuàng)新類型中的基準(zhǔn)組為confirmation,與confir‐mation 相比,對總被引次數(shù)的效益具有顯著性差異的是technical advance;technical advance 是對研究進行技術(shù)點的創(chuàng)新,與confirmation 僅是對前人研究進行驗證相比,其創(chuàng)新類型更高,因此可以獲得更多的總被引次數(shù)。

在模型1.4 中,自由度為2844,P<0.001,模型通過卡方有效性檢驗。同時,可以觀察到偽R2為0.039,與模型1.1 相比,具有顯著性的微弱增長,認(rèn)為該回歸模型有效,納入變量X7 后,模型的擬合效果更佳。變量X7 主要分為兩個指標(biāo):MeSH 詞種類數(shù)與總被引次數(shù)的回歸系數(shù)為-0.087,P<0.05,說明主題詞種類越豐富,總被引次數(shù)越低;MeSH詞相似性與總被引次數(shù)的回歸系數(shù)為0.161,P<0.001。說明文獻內(nèi)容相似性越高,即文獻內(nèi)容多樣性越低,總被引次數(shù)越高。這與最開始的研究假設(shè)H3a 多樣性越高的文獻會吸引更多的引用的觀點相反。文獻內(nèi)容相似性高,說明其研究主題之間的距離較近,那么文獻比較可能是深入型研究。

對于因變量Y2 波峰數(shù)量,由于因變量的值為離散變量,最小值為1,最大值為3,故將其轉(zhuǎn)為以10 為底的冪指數(shù)后進行多元線性回歸。對于最小二乘法的線性回歸模型,采用R2估算模型的擬合度。由于R2的大小是自變量個數(shù)的非遞減函數(shù),即自變量的增加不會減小R2的值,所以單純比較模型R2大小不能判斷模型是否擬合得更好,因此,統(tǒng)計學(xué)上增加了調(diào)整后的R2,通過比較調(diào)整后的R2大小,可以判斷模型的擬合效果,故在表4 中列出的為調(diào)整后的R2。

表4 波峰數(shù)量回歸結(jié)果

由表4可知,在模型2.1 中,F(xiàn)=12.91,P<0.001,說明模型有效??刂谱兞恐袑Σǚ鍞?shù)量產(chǎn)生顯著影響的變量是期刊影響因子,回歸系數(shù)為-0.383,P<0.05,發(fā)表在高影響因子期刊的文獻,更多地表現(xiàn)為單波峰。在P<0.1 的水平下,臨床研究型的文獻與其他類型的文獻相比,被引曲線的波峰數(shù)量更少。

在模型2.2 中,F(xiàn)=12.39,P<0.001,調(diào)整后R2比模型2.1 稍高,說明模型有效。自變量X7 MeSH 詞相似性與波峰數(shù)量的回歸系數(shù)為-15.307,P<0.05,這種顯著的負(fù)效應(yīng)提示,文獻的內(nèi)容相似性越高,波峰數(shù)量越少,即文獻內(nèi)容越豐富,文獻的被引曲線就越有可能表現(xiàn)為多個波峰。

對于因變量Y3 波峰到達(dá)時間,因變量的值為離散變量,最小值為0,最大值為16,數(shù)據(jù)呈左偏分布,故將其數(shù)值加1 后取對數(shù),即因變量的數(shù)值轉(zhuǎn)化為ln(波峰到達(dá)時間+1),多元線性回歸結(jié)果如表5 所示。

表5 波峰到達(dá)時間回歸結(jié)果

由表5 可知,在模型3.1 中,F(xiàn)=3.38,P<0.001,模型有效。對波峰到達(dá)時間產(chǎn)生顯著效應(yīng)的是作者數(shù)量,作者數(shù)量越多,波峰到達(dá)時間越早(回歸系數(shù)為-0.006,P<0.001)。文獻的合作者越多,其影響力和可見度越高,這可能促進了文獻更早到達(dá)引文波峰。

在模型3.2 中,F(xiàn)=3.50,P<0.001,調(diào)整后R2為0.0139,較模型3.1 的調(diào)整后R2有所增長,說明新增加的自變量文獻質(zhì)量提高了模型的擬合優(yōu)度。文獻質(zhì)量對波峰到達(dá)時間的回歸系數(shù)為0.005,P<0.05,說明文獻質(zhì)量越高,波峰到達(dá)時間越晚。文獻質(zhì)量越高,吸引的引文越多,逐年被引次數(shù)都保持較高的被引水平,需要經(jīng)歷長持續(xù)的高被引狀態(tài)后才到達(dá)被引高峰,最終波峰到達(dá)時間較晚。

在模型3.3 中,F(xiàn)=2.63,P<0.001,調(diào)整后R2為0.0112,比模型3.1 的調(diào)整后R2低,說明X6 文獻創(chuàng)新類型的引入并未增加模型的擬合優(yōu)度。回歸系數(shù)和顯著性提示,與confirmation 相比,其他組的波峰到達(dá)時間并未出現(xiàn)顯著差別。

在模型3.4 中,F(xiàn)=3.43,P<0.001,調(diào)整后R2為0.0135,比模型3.1 的調(diào)整后R2高,說明文獻內(nèi)容多樣性變量的加入提高了模型的擬合優(yōu)度。MeSH詞種類數(shù)與波峰到達(dá)時間的回歸系數(shù)為0.047,P<0.05,說明文獻的主題詞種類越豐富,被引曲線的波峰到達(dá)時間越晚。因變量是最高峰的到達(dá)時間,對于種類越豐富的文獻,可能因為其影響的領(lǐng)域廣泛性,而出現(xiàn)了二次生命周期,故波峰到達(dá)時間較晚。

對于因變量Y4 波峰高度,因為其屬于連續(xù)型變量(范圍為0~1),本研究采用的是多元線性回歸方法;因為波峰高度偏態(tài)分布,故將波峰高度數(shù)值加1 取對數(shù)后再進行回歸。模型4.1 為控制變量對波峰高度的影響(控制變量為文獻類型、作者數(shù)量、期刊影響因子);模型4.2 加入自變量1——文獻質(zhì)量得分FFa score,探究文獻質(zhì)量與3 個控制變量對文獻波峰高度的影響;模型2.3 在模型4.1 的基礎(chǔ)之上加入文獻創(chuàng)新類型,探究文獻創(chuàng)新類型與3個控制變量對文獻波峰高度的影響;考慮到時間因素可能會對波峰高度產(chǎn)生影響,回歸時將文獻因發(fā)表年不同而產(chǎn)生的時間效應(yīng)也控制住。回歸結(jié)果如表6 所示。

表6 波峰高度回歸結(jié)果

由表6可知,在模型4.1中,F(xiàn)=29.47,P<0.001,說明該模型通過了檢驗,模型有效。文獻類型中選擇的基準(zhǔn)組為 “其他” 型文獻,與 “其他”型文獻相比,期刊論文和臨床研究型的波峰高度值分別是-0.025 和-0.017,但遺憾的是未通過顯著性檢驗,所以不能認(rèn)為期刊論文、臨床研究型文獻與“其他” 型文獻的波峰高度值存在顯著性差異。與“其他” 型文獻相比,存在顯著性差異的是綜述組,說明綜述組文獻的波峰高度與 “其他” 型文獻相比更低,即綜述型文獻的被引曲線在波峰附近的走勢更平緩(與 “其他” 型文獻相比)。作者數(shù)量與波峰高度的回歸系數(shù)為-0.002,P<0.001,說明作者數(shù)量對波峰高度產(chǎn)生負(fù)效應(yīng),作者數(shù)量的增加會降低被引曲線在波峰附近的突增性。期刊影響因子與波峰高度的回歸系數(shù)為-0.003,P<0.001,認(rèn)為期刊影響因子負(fù)向影響波峰高度,并且這種影響是顯著的。說明波峰高度會隨著期刊影響因子的增加而降低,在高影響因子期刊上發(fā)表的文獻,其在波峰附近展現(xiàn)為平緩上升平緩下降的可能性越高。

在模型4.2 中,F(xiàn)=29.18,P<0.001,同時模型調(diào)整后R2為0.137,比模型4.1 調(diào)整后的R2(0.130) 有所提升,認(rèn)為模型有效,即新增自變量X5 文獻質(zhì)量能夠有效提升模型的擬合優(yōu)度。文獻質(zhì)量得分與波峰高度呈現(xiàn)的是顯著的負(fù)向效應(yīng)(回歸系數(shù)為-0.007,P<0.001),說明文獻質(zhì)量越高,波峰高度越低,波峰附近的鄰居節(jié)點和波峰的差距縮小,文獻在波峰附近表現(xiàn)為平緩上升-平緩下降。

在模型4.3 中,F(xiàn)=22.40,P<0.001,但由于模型調(diào)整后R2為0.130,和模型4.1 相比沒有增加,則認(rèn)為模型在納入自變量X6 文獻創(chuàng)新類型后沒有提升模型的擬合優(yōu)度,故模型無效。同時,模型中文獻創(chuàng)新類型與波峰高度的回歸結(jié)果也表示,與基準(zhǔn)組conformation 相比,其他四組均未對波峰高度產(chǎn)生顯著的效應(yīng),因此,本研究拒絕了假設(shè)H2c——文獻創(chuàng)新類型對波峰高度產(chǎn)生影響。綜合因變量Y1總被引次數(shù)的回歸結(jié)果,文獻創(chuàng)新類型可以影響總被引次數(shù),但對波峰高度無顯著影響。

本研究探究了文獻特征對被引相關(guān)4 個因變量(含靜態(tài)的總被引次數(shù)和動態(tài)的波峰特征) 的影響,回歸結(jié)果匯總?cè)鐖D2 所示,在第3 節(jié)提出的研究假設(shè)中,文獻質(zhì)量對總被引次數(shù)、波峰時間、波峰高度均產(chǎn)生顯著的影響(H1a、H1b、H1c 成立),文獻創(chuàng)新類型對總被引次數(shù)產(chǎn)生顯著影響(H2a),文獻內(nèi)容多樣性被證實對總被引次數(shù)、波峰數(shù)量、波峰時間具有顯著作用(H3a、H3b、H3c 成立),文獻創(chuàng)新類型對波峰時間和波峰高度的影響尚不顯著(H2b、H2c 未能證明成立)。

圖2 變量關(guān)系回歸結(jié)果匯總

6 討論與結(jié)論

本研究主要分析文獻內(nèi)容特征對引文動態(tài)的影響。文獻內(nèi)容特征從三個方面切入,包括文獻的質(zhì)量、文獻的創(chuàng)新類型和文獻在內(nèi)容上的多樣性。在被引方面的指標(biāo),本研究選用了總被引次數(shù)、波峰數(shù)量、波峰到達(dá)時間和波峰高度。由于文獻的質(zhì)量和創(chuàng)新類型較難定量衡量,本研究最終利用了醫(yī)學(xué)生物學(xué)領(lǐng)域同行評議系統(tǒng)——F1000 數(shù)據(jù)庫的專家評價數(shù)據(jù)。采用F1000 數(shù)據(jù)庫根據(jù)專家意見所得到的文獻質(zhì)量得分FFa score 來表示文獻的質(zhì)量,采用專家給文獻打的標(biāo)簽作為創(chuàng)新類型。而在文獻內(nèi)容的多樣性上,本研究利用PubMed 數(shù)據(jù)庫的MeSH主題詞,根據(jù)MeSH 主題詞的種類數(shù)和MeSH 主題詞相似性,間接表示文獻內(nèi)容多樣性。

通過回歸分析發(fā)現(xiàn),文獻總被引次數(shù)受控制變量文獻篇幅、文獻類型、作者數(shù)量和期刊影響因子的影響,在自變量文獻特征上,文獻質(zhì)量、文獻創(chuàng)新類型以及文獻內(nèi)容相似性均存在顯著的影響效應(yīng)。波峰數(shù)量受文獻內(nèi)容多樣性的影響,研究內(nèi)容越豐富,越會增加文獻獲得二次生命周期的機會。波峰到達(dá)時間的回歸結(jié)果顯示,文獻質(zhì)量越高,越會表現(xiàn)為更晚的波峰到達(dá)時間;文獻內(nèi)容的多樣性會延遲波峰到達(dá)時間。波峰高度受控制變量文獻篇幅、文獻類型、作者數(shù)量、期刊影響因子的影響,在自變量中,僅文獻質(zhì)量與波峰高度具有顯著的作用。文獻質(zhì)量對波峰高度產(chǎn)生的效應(yīng)方向與其對總被引次數(shù)的效應(yīng)方向相反。由于波峰高度值越大的文獻,其在波峰處的變化性也越大,這說明文獻質(zhì)量越高,在被引上越會表現(xiàn)為更高的總被引次數(shù)和波峰處更平緩的曲線變化。文獻創(chuàng)新類型在波峰到達(dá)時間、波峰高度上的不顯著性,揭示了文獻在波峰幅值的被引表現(xiàn)受文獻創(chuàng)新程度的影響較小,因此,波峰高度和波峰到達(dá)時間指標(biāo)可更多地用于反映文獻的質(zhì)量;文獻被引曲線的波峰數(shù)量、波峰到達(dá)時間能夠在一定程度上揭示文獻的內(nèi)容多樣性。

本文存在一些不足。在研究數(shù)據(jù)上,波峰識別所采用的是醫(yī)學(xué)和生物學(xué)領(lǐng)域的數(shù)據(jù),其中文獻類型與其他學(xué)科的文獻類型劃分存在一定差異,故本研究的結(jié)論是否可以推廣至其他學(xué)科仍需要進一步探討。 此外,鑒于Faculty Opinions 數(shù)據(jù)庫的特殊性,其成立時間相對較晚,同時,專家推薦文獻時會有一定的專業(yè)門檻,導(dǎo)致最終進行實驗的文獻與初始數(shù)據(jù)集相差較大。由于文獻是經(jīng)由各位專家篩選的結(jié)果,故這些文獻可能擁有更高的被引次數(shù)和更高的研究質(zhì)量,這會導(dǎo)致研究結(jié)論存在一定的偏倚。后續(xù)研究中,可以嘗試文獻體量較大的同行評議數(shù)據(jù)庫為樣本,做相應(yīng)的研究補充,以保證結(jié)論的健壯性。本研究探討的文獻內(nèi)容特征中的文獻質(zhì)量與文獻特征,雖然在Mohammadi 等[7]、 Wang等[46]的研究中證實二者不存在較強關(guān)聯(lián),但往往專家在進行同行評議時會考慮文獻的創(chuàng)新性,在今后的研究中仍需探索優(yōu)化更合適的文獻內(nèi)容特征的量化指標(biāo)。本研究僅考慮了文獻內(nèi)容特征對波峰的影響,實際上,研究結(jié)果表明,尚存在其他因素等待進一步挖掘。例如,從引文網(wǎng)絡(luò)視角來看,被引和波峰的發(fā)生。在創(chuàng)新擴散的過程中,對于采納者來說,決定創(chuàng)新是否被采納起決定性作用的是采納者的主觀判斷,而不是這項創(chuàng)新本身的內(nèi)容。例如,如果采納者是創(chuàng)新先驅(qū)者,在創(chuàng)新問世之初他就會率先采納,而從眾者則在后期才采納這項創(chuàng)新。故從施引者角度,思考引文的擴散過程,也具有潛在的研究價值。

猜你喜歡
波峰次數(shù)數(shù)量
機場航站樓年雷擊次數(shù)計算
2020年,我國汽車召回次數(shù)同比減少10.8%,召回數(shù)量同比增長3.9%
商用汽車(2021年4期)2021-10-13 07:16:02
一類無界算子的二次數(shù)值域和譜
作用于直立堤墻與樁柱的波峰高度分析計算
統(tǒng)一數(shù)量再比較
依據(jù)“次數(shù)”求概率
兒童標(biāo)準(zhǔn)12導(dǎo)聯(lián)T波峰末間期的分析
頭發(fā)的數(shù)量
Dynamic Loads and Wake Prediction for Large Wind Turbines Based on Free Wake Method
我國博物館數(shù)量達(dá)4510家
云浮市| 阿城市| 青州市| 永顺县| 云安县| 建德市| 射阳县| 万源市| 泗洪县| 炉霍县| 额尔古纳市| 甘泉县| 望都县| 夏津县| 塔城市| 白城市| 哈尔滨市| 章丘市| 南乐县| 云龙县| 景泰县| 沙雅县| 中山市| 永新县| 辽源市| 杂多县| 加查县| 遂川县| 汾西县| 和林格尔县| 沧州市| 惠水县| 霍林郭勒市| 哈巴河县| 启东市| 定边县| 松原市| 汉川市| 古蔺县| 饶平县| 洞头县|