国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合K值算法與三指標的神經(jīng)科學領域“睡美人”論文識別及影響因素探析

2022-03-11 17:08胡澤文任萍沈佳慧
現(xiàn)代情報 2022年3期
關鍵詞:組合法睡美人次數(shù)

胡澤文 任萍 沈佳慧

關鍵詞:“睡美人”論文;神經(jīng)科學;K值算法;三指標法;被引延遲指數(shù);計量特征;影響因素

科學技術傳播方式的變革不斷改進科技文獻的開發(fā)與利用渠道,促進科學研究的價值發(fā)現(xiàn)與學術影響力提升。如何評價科學研究的價值和學術影響力,引起國內(nèi)外學者的廣泛關注,科技文獻價值的評價、識別與推薦研究越來越受到學術界的重視。然而,現(xiàn)階段學者關注更多的是單篇文獻的指標體系設計與綜合評價,評價指標較多且評價過程復雜。論文發(fā)表之后的引用軌跡能夠在一定程度上反映學術論文受國內(nèi)外學者的認可程度,因此,基于論文引用頻次隨時間的動態(tài)變化規(guī)律,從海量文獻中識別出已公認高價值的“睡美人”論文顯得更為高效簡單。通常,科技文獻出版之后的引用軌跡呈現(xiàn)出3類特征:①文獻發(fā)表之后很長時期未受到任何引用或很少引用,即零被引或低被引文獻;②文獻發(fā)表之后快速達到引用高峰,成為高被引或熱點文獻;③文獻發(fā)表之后很長周期內(nèi)未被及時發(fā)現(xiàn)或引用推廣,直到多年后才被發(fā)現(xiàn)和廣泛使用,即“睡美人”論文?!八廊恕闭撐膹目茖W計量學的角度,動態(tài)刻畫了文獻的引文特征及其隨時間變化的歷史過程,定量描述了各學科的前沿研究或變革性研究。超前研究和變革研究是“睡美人”論文形成的重要表現(xiàn)形式。超前研究是對現(xiàn)有研究的超越,由于科研人員并不了解該類研究的巨大潛在價值,所以往往被忽視;變革性研究會因為與主流研究的碰撞和不被科學界接受,而經(jīng)常受到抵制?!八廊恕闭撐耐匾难芯砍晒?,對其進行識別、評價與推薦,能夠充分發(fā)揮“睡美人”論文的巨大科學價值與現(xiàn)實指導意義。

早在20世紀60年代,已經(jīng)有科學家關注到了科技文獻中的“睡美人”現(xiàn)象。1989年,美國科學索引之父GarfieldE[1]提出了“延遲承認”這一理論,指的是發(fā)表初期未受到重視,但經(jīng)過一段時間后突然高被引的文獻。2004年,RaanAFJ[2]首次提出并定義“睡美人”論文的概念內(nèi)涵,同時提出了識別“睡美人”論文的主觀指標法。作者將“睡美人”論文的睡眠特征指標定義為:沉睡期大于等于5年,沉睡期年被引小于等于2次,且在喚醒后4年引用窗口被引頻次大于20次。2012年,OhbaN等[3]將“睡美人”論文的睡眠周期界定為7~59年,平均19.7年,睡眠期內(nèi)的年均被引頻次處于0.09~0.82之間,平均為0.45,在喚醒后的前5年中,年均被引頻次在3.60~17.80之間波動,平均被引用次數(shù)為8.51。2014年,姚建文等[4]學者通過測度國內(nèi)圖書館與情報學領域的“睡美人”現(xiàn)象,建議“睡美人”論文必須滿足至少5年不被引用,以及喚醒后被引用10次以上的指標要求。2016年,袁紅等[5]提出“睡美人”論文應符合沉睡期至少5年,喚醒拉升比大于等于5,喚醒持續(xù)時長至少5年的標準。為了解決主觀指標法的主觀性高和識別不夠精確的問題,國內(nèi)外學者提出識別“睡美人”論文的客觀指標法和曲線擬合法。在客觀指標識別法研究方面,2015年,KeQ等[6]學者基于文獻的引用頻次,設計出一個無參數(shù)指標“美麗系數(shù)(B)”對“睡美人”論文進行識別。當文獻睡眠區(qū)間越長,睡眠深度越深,覺醒強度越大時,所對應的“美麗系數(shù)”越大,越有可能成為“睡美人”論文。通過“美麗指數(shù)”能夠快速識別出“睡美人”論文,但卻無法反映年度被引次數(shù)達到峰值之后的被引狀況[7]。2015年,杜建等[8]在“美麗系數(shù)”的基礎上提出了Bcp指數(shù),把坐標系中的年被引量改為年度被引次數(shù)累積百分比,并在臨床醫(yī)學領域文獻中得到初步證實。YeFY等[9]通過引入動態(tài)引證角β來改進“美麗系數(shù)(B)”定量識別“睡美人”論文。此外,在識別“睡美人”的曲線擬合法研究方面,2014年,李江等[10]學者分析了341位化學、生理學、醫(yī)學和經(jīng)濟學領域諾貝爾獎獲得者文獻的引文曲線,明確提出了“睡美人”論文的引文曲線模型。以天文學和天體物理學領域為例,王海燕等[11]發(fā)現(xiàn),“睡美人”論文中的大多數(shù)引文曲線都呈現(xiàn)不斷上升的趨勢,“睡美人”論文中的引文曲線與學科發(fā)展趨勢相吻合。區(qū)別于曲線直接擬合的“睡美人”識別方式,一些學者從聚類分析的角度識別“睡美人”論文。1985年,AversaES[12]采用K-means聚類分析和判別法對400篇高被引文獻進行聚類分析,區(qū)分了睡美人與曇花一現(xiàn)型文獻的引文曲線。2013年,BaumgartnerSE等[13]借鑒“組基軌跡建模”,并將此模型首次用于研究文獻引用分布的年度特征。

綜上所述,現(xiàn)階段國內(nèi)外學者識別“睡美人”論文采用的方法中,曲線擬合方法具有識別準確率高、結(jié)果直觀清晰的優(yōu)點,但在處理數(shù)據(jù)量較大的樣本時效率較低,需要人工觀察[9];主觀指標法存在主觀性大和識別準確率低的缺點;客觀指標法為目前學者采用最多的方法,具有準確率與效率均高的優(yōu)點,但也存在引文曲線不完整等缺點。本文在綜合考慮的基礎上,最終選擇采用K值算法與三指標法相結(jié)合以及計算被引延遲指數(shù)兩種方法識別神經(jīng)科學領域的“睡美人”論文。

1方法和數(shù)據(jù)

1.1方法

1)三指標法。2004年,荷蘭科學家RaanAFJ首次提出睡眠深度、睡眠時長與喚醒強度3個指標去界定“睡美人”論文。睡眠深度即文獻在睡眠期間年均被引次數(shù),小于等于1次的為深度睡眠,小于等于2次的為淺度睡眠;睡眠時長即文獻淺度或深度睡眠所用時間;喚醒強度即文獻喚醒后4年內(nèi)的平均被引次數(shù)。本文在RaanAFJ等研究的基礎上,將“睡美人”論文的界定參數(shù)設定為睡眠深度小于等于2次,睡眠時長大于等于5年,喚醒強度大于等于5次。

2)K值算法。2017年,TeixeiraAAC等[14]、李秀霞等[15]提出K值算法,通過分析文獻按時間累積的被引次數(shù)量化文獻引用分布。K值算法表達式為:

式中,yop為文獻發(fā)表年份,noci為第i年被引次數(shù),N為文獻引文時間窗口。K取值范圍為0~1,K值越大,則文獻越有可能是“睡美人”論文。K值算法確?!八廊恕闭撐木哂休^長的清醒時間,同時能夠考察文獻完整的被引曲線。因此,K值算法能夠較為高效客觀地識別“睡美人”論文。

3)被引延遲指數(shù)。2013年,WangJ[16]提出被引速率指標,即一篇文獻從發(fā)表后能以多快的速度累積至它的總被引頻次。文獻的被引次數(shù)是一個從零開始增長的過程,任何非零被引文獻的被引次數(shù)曲線都是呈增長狀態(tài)的。睡美人型增長曲線為總被引頻次在文獻發(fā)表后的一段時間內(nèi)增長緩慢,在保持較長一段時間后突然快速增長,整體上被引速率較低。被引速率指標計算公式為:

式中,Ci為文獻第i年的累積被引次數(shù),Cn為文獻總被引頻次,n為文獻被引的時間跨度。被引延遲指數(shù)(D)為被引速率的反向指標,表達式為D=1-CS。文獻被引延遲指數(shù)反映了文獻的被引延遲程度,D值越大,文獻延遲承認程度越高,越有可能是“睡美人”論文。

1.2數(shù)據(jù)

數(shù)據(jù)均來源于WebofScience數(shù)據(jù)庫中的核心合集。在WebofScience平臺中,輸入檢索表達式:WC=Neurosciences,文獻類型限定為Review、Pro?ceedingsPaper和Article,語言為全語言,共檢索到神經(jīng)科學領域論文905418篇。論文的年度數(shù)量分布、國家(地區(qū))、語種、基金資助機構、來源出版物分布等基本信息如表1所示。

由表1可知,按照5年1個周期,可以看出神經(jīng)科學領域出版的論文數(shù)量呈現(xiàn)周期增長趨勢。2016—2019為4年周期,因此文獻量少于前一個5年周期。領域科研產(chǎn)出最多的5個國家分別為美國、德國、英國、日本和加拿大,其中美國發(fā)文量遠超其他國家。神經(jīng)科學領域98.2%的文獻語種為英語,此外,法語、俄語、西班牙語和日語文獻數(shù)量仍然占極低的比例。神經(jīng)科學領域科研產(chǎn)出較多的TOP5機構多為美國機構,其中美國衛(wèi)生與公共服務部、美國國立衛(wèi)生研究院的發(fā)文量分別達到20余萬篇,共計439514篇,占領域總文獻量的48.5%,TOP5機構的發(fā)文量占比達到70.7%。文獻數(shù)量的國家、機構和語種分布符合典型的馬太效應和二八定律,大部分論文多為美國出版,論文語種多為英語。然而神經(jīng)科學領域文獻數(shù)量的期刊分布相對均勻,其中《神經(jīng)科學雜志》和《大腦研究》出版的論文數(shù)量最多,分別為32801和30749篇。

為動態(tài)展示論文的年度被引頻次變化趨勢,保證待分析論文具有15~20年的引用期,本文選取1990—2005年發(fā)表的377007篇文獻為分析樣本。按三指標法的喚醒強度指標,“睡美人”論文首先應保證有一定數(shù)量的總被引頻次。本文綜合考慮領域文獻總量和引用頻次分布,剔除總被引頻次小于等于20次的文獻,最終以206015篇文獻為待識別樣本,選取樣本數(shù)量比例為總量的22.8%,符合典型的二八定律。

2結(jié)果分析

2.1基于K值算法與三指標法的睡美人文獻識別

以206015篇神經(jīng)科學領域文獻為數(shù)據(jù)基礎,利用K值計算方法測算出全部文獻的K值,然后將K值由大到小排序,并結(jié)合三指標法的識別標準,進行“睡美人”論文識別。剔除K值為1和0的文獻,K值為1表示只在被引時間跨度的最后一年被引用,K值為0表示只在文獻發(fā)表當年被引用,不符合“睡美人”論文的基本特征。K值變化曲線如圖1所示,其區(qū)間為(0.11,0.86)。根據(jù)現(xiàn)有研究發(fā)現(xiàn),“睡美人”論文通常占文獻出版總量的0.01%~0.1%,將K值由大到小排列,選擇前200篇文獻作為本文識別到的準“睡美人”論文。為提高識別準確度,對識別到的200篇“睡美人”論文運用三指標法進一步識別。分別計算準“睡美人”論文的睡眠深度、睡眠時長以及喚醒強度,要求睡眠深度小于等于2,睡眠時長大于等于5,喚醒強度大于5,最終篩選出神經(jīng)科學領域符合“睡美人”特征的文獻26篇,文獻的基本信息如表2所示。

2.2基于被引延遲指數(shù)的睡美人文獻識別

根據(jù)杜建等[17]學者的研究發(fā)現(xiàn),文獻延遲承認現(xiàn)象在高被引文獻中出現(xiàn)頻率較高,前人研究方法通常為篩選出高被引文獻,將研究樣本范圍縮小至TOP0.5%高被引論文。本文為了全面考察文獻的被引延遲承認情況,將待識別的206015篇文獻全部納入計算范圍。計算206015篇文獻被引延遲指數(shù),同樣剔除值為0和1的文獻,被引延遲指數(shù)變化曲線如圖2所示,其區(qū)間為(0.13,0.95)。被引延遲指數(shù)越高,則文獻被引次數(shù)累積得越慢,越有可能在一段時間內(nèi)快速積累,越有可能成為“睡美人”論文。杜建等[17]學者認定被引延遲指數(shù)大于等于0.6的文獻為“睡美人”論文,由此共得到14817篇準“睡美人”論文。因得到“睡美人”論文數(shù)量較大,通過引用軌跡觀察可以發(fā)現(xiàn),這14817篇文獻中有很大一部分不符合“睡美人”論文的沉睡特征。因此,在前人研究基礎上,本文設定文獻被引延遲指數(shù)大于0.8的文獻為“睡美人”論文,共有65篇,部分識別結(jié)果如表2所示。

2.3識別結(jié)果對比與分析

通過K值算法與三指標法的組合識別出神經(jīng)科學領域26篇“睡美人”論文,此外,基于被引延遲指數(shù)識別出65篇“睡美人”論文。其中兩類方法識別出的26篇共同“睡美人”論文基本信息如表2所示。

2.3.1“睡美人”論文的睡眠特征分析

從表2可以看出,在睡眠深度方面,26篇“睡美人”論文的睡眠深度范圍為0.11~1.63次,其中3篇文獻睡眠深度大于1,處于淺度睡眠狀態(tài),而大部分文獻睡眠深度小于1,為深度睡眠狀態(tài),可以發(fā)現(xiàn),神經(jīng)科學領域的“睡美人”論文在沉睡期間被引頻次極低,很難引起學者的關注,喚醒難度較大;在沉睡時長方面,26篇文獻的睡眠時長范圍為6~16年,其中14篇文獻睡眠時長超過了10年,平均時長為9.88年;在喚醒強度方面,26篇“睡美人”論文喚醒強度范圍為5~13次,與睡眠深度相比有大幅度提升,表示文獻已經(jīng)被領域?qū)W者充分發(fā)掘和利用,最大程度實現(xiàn)了文獻的科學價值。

2.3.2“睡美人”論文識別方法的識別效果差異從表2可以看出,兩種方法識別出的“睡美人”論文并非是同一批文獻,差異極大,指標排名靠前的26篇文獻幾乎沒有相同的。此外,兩類方法識別出的“睡美人”論文在沉睡期引用率和近5年引用率等指標方面也存在較大差異。借鑒趙又霖等[18]學者的定義,測算出“睡美人”論文的如下指標:①沉睡期引用率:文獻發(fā)表年至喚醒年期間的年均被引次數(shù)與整個引文窗內(nèi)最大被引次數(shù)的比值,保證“睡美人”論文在沉睡期一定的低被引。②近5年引用率:從“睡美人”論文引用周期截至年向前推4年,此期間論文的平均引用次數(shù)與最大被引次數(shù)的比值,保證“睡美人”論文覺醒之后保持一定的高被引。通過對K值算法與三指標組合法(簡稱K值算法)識別出的26篇“睡美人”論文與被引延遲指數(shù)(簡稱D值算法)排名靠前的26篇“睡美人”論文影響力指標之間差異進行T檢驗,檢驗的結(jié)果如表3所示。

由表3可以看出,“睡美人”論文沉睡期引用率、近5年引用率和論文年齡3個指標在K值算法與D值算法識別結(jié)果之間存在顯著差異。其中K值算法與三指標組合法識別出的“睡美人”論文沉睡期引用率和近5年引用率顯著高于被引延遲指數(shù)識別出的論文,說明K值算法識別出的“睡美人”論文睡眠期和喚醒之后仍然保持一定的高被引,避免被引頻次達到峰值后突然下降。然而,D值算法下的“睡美人”論文年齡顯著高于K值算法,表明D值算法對早期發(fā)表的“睡美人”論文更敏感。總被引頻次和年度最高被引頻次沒有顯著差異,但在均值上看,K值算法能夠識別出總被引頻次和年度被引頻次較低的“睡美人”論文。

2.3.3“睡美人”論文的引文曲線分析

基于K值算法與三指標組合法共識別出26篇“睡美人”論文,其中K值較大的前10篇論文的引用軌跡曲線如圖3所示。此外,被引延遲指數(shù)識別出的65篇“睡美人”論文中,被引延遲指數(shù)(簡稱D值)較大的10篇“睡美人”論文引用軌跡曲線如圖4所示。

從圖3和圖4“睡美人”論文的引用軌跡可以看出,兩種方法識別出的“睡美人”論文均存在有效性。K值算法能夠較為客觀高效地識別出“睡美人”論文,計算過程較為簡單,能夠考察論文的整個引用窗口。但是在實際操作中發(fā)現(xiàn),文獻K值區(qū)分度不夠,除兩端外,中間值分布緊密。若將K值從大到小排列并選取文獻總量的0.01%作為“睡美人”論文,很大程度上忽視了文獻總量的0.01%~0.1%這一部分文獻,造成識別結(jié)果準確度不夠。此外,三指標法因其主觀性較大,若直接使用則準確度較低。因此,將三指標法運用于K值識別方法之后,能夠進一步識別特征明顯的“睡美人”論文,提高了“睡美人”論文的識別效率與準確率。從圖3“睡美人”論文的被引次數(shù)隨時間變化的曲線可以發(fā)現(xiàn),組合識別法的識別準確率極高,“睡美人”論文引用軌跡極為明顯。然而圖4顯示的被引延遲指數(shù)識別出的部分“睡美人”論文引用軌跡不是特別明顯。被引延遲指數(shù)反映了文獻累計被引次數(shù)增長的速度,具有計算過程簡單,且對于高被引文獻識別準確度較高的優(yōu)點。由圖4可以發(fā)現(xiàn),對總被引次數(shù)大于50次的文獻識別準確率較高,而對總被引次數(shù)較少的文獻識別準確率較低,識別誤差大。同時,在實際計算過程中無法明確界定指數(shù)增長型文獻,需要對被引延遲指數(shù)范圍進行進一步的界定,存在一定的主觀性。

2.3.4“睡美人”論文影響因素分析

由于K值算法與三指標組合法識別出的“睡美人”論文更加準確,因此,以K值算法與三指標組合法識別出的26篇“睡美人”論文為計量分析對象,量化分析論文作者數(shù)量、期刊影響因子、論文篇幅、論文年齡、總被引頻次和最高被引頻次對26篇“睡美人”論文K值的影響。然而表4所示的實證結(jié)果表明,K值與6個指標均不顯著相關。為了擴大樣本考察哪些計量指標影響“睡美人”論文K值,將實驗數(shù)據(jù)擴展至K值較大的50篇“睡美人”論文(包含已識別出的26篇“睡美人”論文)。50篇論文的作者數(shù)量、期刊影響因子、論文篇幅、論文年齡、總被引頻次和最高被引頻次與“睡美人”論文K值之間的Person相關性分析結(jié)果如表5所示。

從表4可以看出,盡管作者數(shù)量、期刊影響因子、論文篇幅、論文年齡、總被引頻次和最高被引頻次與“睡美人”論文K值之間的相關系數(shù)處于-0.264~0.77之間,然而顯著性水平全部大于0.05,說明這些計量指標并沒有顯著影響“睡美人”論文K值。為了平衡樣本數(shù)量少的影響,表5擴展樣本數(shù)量后的相關性分析結(jié)果顯示,總被引頻次與“睡美人”論文K值之間存在-0.193的顯著負相關,即總被引頻次越低,識別“睡美人”K值反而越高。這說明“睡美人”論文并非都是高被引文獻,反而傾向于低被引文獻。同時也說明K值組合法能夠識別出總被引頻次較低的“睡美人”論文。除總被引頻次外,作者數(shù)量、期刊影響因子、論文篇幅、論文年齡和最高被引頻次與“睡美人”論文K值之間全部負相關性,且相關性都較弱,處于-0.118~-0.026,顯著性全部大于0.05,說明文獻原文特征及引文特征并不能顯著影響“睡美人”論文K值。從相關性的負值可以看出,文獻原文特征及引文特征值越大,反而更容易被早期發(fā)現(xiàn)和使用,不易成為“睡美人”論文。例如影響因子越高的期刊,論文刊載后可能受到科學家關注和廣泛利用的程度越高,反而不易成為“睡美人”論文。

3結(jié)語

神經(jīng)科學領域“睡美人”論文識別方法的融合及其應用研究,以及“睡美人”論文計量特征及影響因素的量化分析,有助于全面展示神經(jīng)科學領域的“睡美人”論文概況,最大程度實現(xiàn)領域潛在高價值文獻的科學價值。本文在前人研究的基礎上,為提高識別的有效性與準確度,提出主客觀結(jié)合的識別方法,采用K值算法與三指標法融合的方法以及計算文獻被引延遲指數(shù)的方法,識別出神經(jīng)科學領域的“睡美人”論文。研究結(jié)果顯示,①盡管K值算法與三指標組合法識別出的26篇“睡美人”論文遠比被引延遲指數(shù)識別出的65篇“睡美人”論文數(shù)量少,然而K值算法與三指標組合法識別出的26篇“睡美人”論文引用軌跡更明顯,呈現(xiàn)出前低后高、逐漸上升的典型“睡美人”論文引文曲線形態(tài),識別準確率相對較高;②K值與三指標組合法識別出的“睡美人”論文與被引延遲指數(shù)識別出的“睡美人”論文在文獻計量特征和引文特征方面差異較大,并且兩類方法識別出的兩批文獻并不相同,K值與三指標組合法能夠更容易識別出總被引頻次較低的文獻;③K值與三指標組合法識別出的26篇“睡美人”的睡眠深度范圍為0.11~1.63次,睡眠時長范圍為6~16年,平均時長達到9.88年,文獻喚醒強度范圍為5~13次;④K值較大的50篇“睡美人”論文作者數(shù)量、期刊影響因子、篇幅、論文年齡、總被引頻次和最高被引頻次6個指標與識別“睡美人”論文的K值之間呈現(xiàn)出-0.118~-0.026之間的負相關性,然而除總被引頻次與K值顯著負相關外,其他計量特征的顯著性值全部大于0.05,說明這些計量特征并不能顯著影響識別“睡美人”論文的K值。

本文的不足之處在于受數(shù)據(jù)量較大的影響,沒有采用曲線擬合的方法,無法比較曲線擬合方法在識別“睡美人”論文效果的優(yōu)劣。同時,本文的數(shù)據(jù)源為神經(jīng)科學領域相關文獻,無法得知K值與三指標組合法、被引延遲指數(shù)是否適用于其他學科,未來可以擴大數(shù)據(jù)樣本的學科范圍,以便進一步分析探討。

3723500338258

猜你喜歡
組合法睡美人次數(shù)
奇妙的組合法
《睡美人》
機場航站樓年雷擊次數(shù)計算
2020年,我國汽車召回次數(shù)同比減少10.8%,召回數(shù)量同比增長3.9%
一類無界算子的二次數(shù)值域和譜
數(shù)列前n項和的一種求法
睡美人
高速鐵路車站抗震計算的多維反應譜組合法
《睡美人怕什么》等