摘要:從學科主題角度探究被引頻次影響因素的差異,為科研人員撰寫和優(yōu)化論文提供有針對性的參考,也為科研評價研究提供新的視角和思路。以18種圖書情報學CSSCI收錄期刊在2011—2020年發(fā)表的43 228篇有效論文為樣本,運用LDA主題模型對論文摘要進行主題提取和識別,從總體、主題、主題分類3個角度采用負二項回歸模型對年均被引頻次的影響因素進行實證研究。研究表明,學科主題間年均被引頻次的影響因素存在共性和差異性?;鹳Y助、論文篇幅、論文年齡、下載量對年均被引頻次的影響具有一致性,標題長度、關鍵詞數量、作者數量等因素對年均被引頻次的影響呈現出差異性。
關鍵詞:被引頻次;主題分類;回歸分析;影響因素;圖書情報學
中圖分類號:G353.1 DOI:10.3772/j.issn.1673-2286.2024.09.002
引文格式:傅柱,張倩,劉鵬. 學科主題視角下的科學論文被引影響因素差異性研究:以圖書情報學科為例[J]. 數字圖書館論壇,2024,20(9):16-26.
*本研究得到國家社會科學基金青年項目“面向AI4S的場景化智慧知識服務框架研究”(編號:24CTQ030)資助。
學術論文的被引頻次指標是指論文正式發(fā)表之后被其他發(fā)表文獻引用的累積頻次,被引頻次作為學術論文的重要定量指標,在一定程度上可以反映論文質量,利用被引頻次來評判論文的質量也是最為常見的方式[1]。一方面,大量的引用總是集中于少量的論文,80%的引用來自20%的高被引論文;另一方面,大部分論文的被引頻次很少,甚至還有不少零被引論文。這一偏態(tài)分布現象已成為學界的共識[2]。被引頻次是評判論文質量的重要因素,質量越高的論文越能夠得到同行的認可,被引頻次相應更高。除論文自身質量以外,論文被引頻次還受到外在因素的影響。論文質量難以準確測量,但影響論文被引頻次的外在因素的測量具有現實的可行性。目前,學者們對論文被引頻次外部影響因素的研究較為成熟,但主要局限在單一學科的視角,未考慮學科內部主題不同是否會使被引頻次影響因素呈現不同的結果。為此,本文從學科主題角度進行研究,以期更加細致地了解不同主題研究成果的被引用情況。希望能夠為學術評價中的被引頻次影響因素研究提供新的視角,為研究者實施科研活動和撰寫高水平論文提供參考。
1 相關研究綜述
研究者們將文獻被引頻次的影響因素歸納為論文因素、作者因素、期刊因素,并針對這3類因素對被引頻次的影響展開大量研究。論文因素能夠直接影響被引頻次,常見的影響因素有參考文獻、標題、論文篇幅等。①參考文獻影響被引頻次的研究。Antoniou等[3]通過單變量和多元線性回歸模型評估了參考文獻的數量對被引頻次的影響,結果表明參考文獻的數量越多被引頻次也越多。Roth等[4]提出了一種基于參考文獻結構的引文預測方法,指出了參考文獻越新,論文越能夠獲得更多的被引頻次。②標題影響被引頻次的研究。Jacques等[5]研究標題與被引之間的關系,結果表明標題的字數和標題的結構對被引率有影響。Rossi等[6]指出,為了最大限度地提高論文的影響力,作者應有針對性地選擇準確且簡潔的標題。③論文篇幅影響被引頻次的研究。張振偉等[7]通過研究指出,論文的版面數越多,論文的被引頻次越多,此外是否為重點專題論文以及論文類型和學科分類也可能與被引頻次有關聯。
作者因素也會對被引頻次產生影響,具體包括作者數量、作者間合作關系、作者所屬機構等。Leimu等[8]在研究生態(tài)學被引頻次的影響因素時指出,作者數量對被引頻次有影響。Borsuk等[9]認為被引頻次與作者的性別無關。論文的被引頻次還與作者的聲望以及作者早期的被引頻次有關,作者的聲望和地位越高,被引頻次就越高。學者普遍認為合作網絡能夠影響作者獲取信息的能力,從而影響論文的影響力。部分學者對此進行了實證研究,如杜建等[10]對醫(yī)學領域不同學科作者的合作度與論文影響力之間的關系進行研究,發(fā)現多作者、國際、機構合作的論文被引頻次顯著高于單作者、國內和機構內合作論文。王崇鋒等[11]探討了合作網絡與知識網絡的中心性特征與結構特征對被引頻次的影響,合作網絡中心性特征對被引頻次有顯著的倒U型影響。
期刊因素對被引頻次的影響效果也十分顯著,發(fā)表在高影響力、高等級期刊上的論文更容易得到關注,有很大概率能夠成為高被引論文,這已經基本成為共識。此外,隨著期刊出版模式的發(fā)展和改變,論文是否開放獲取也會影響論文的受關注度和被引頻次。其中,研究者較多關注期刊影響因子對被引頻次的影響。研究人員傾向于將研究成果發(fā)表在影響因子高的期刊上,以此獲得更多的關注與引用。楊莉等[12]在對被引頻次的預測研究中加入了期刊影響因子指標進行預測。
對被引頻次影響因素的研究已經比較全面,在論文層面,大多數研究從標題長度、關鍵詞的數量、參考文獻的數量、基金資助、論文的篇幅等角度展開;在作者層面,主要從作者的數量、作者的年齡、作者之間的合作關系、第一作者的發(fā)文量等角度展開研究;在期刊層面,一般考慮期刊影響因子、期刊總發(fā)文量等。也有少數學者會考慮到論文的主題特征,如主題排名、主題規(guī)模、主題的多樣性等[13]。當融入主題因素進行評價研究時,能更為精確地反映主題內部的影響力情況。國外學者研究證明,主題對被引頻次的影響十分顯著,熱點主題往往會吸引更多的引用[14]。目前,隨著數據挖掘技術的不斷成熟與發(fā)展,國內外對主題的研究也相對成熟,但是從學科主題角度對被引頻次影響因素的研究還不夠普及[15-16]。屬于同一學科領域的文獻,由于研究主題方向不同,受關注度也有差異。因此,本研究從主題視角多層面研究各因素對被引頻次的影響,揭示不同主題下的共性影響因素和差異性影響因素,為科研評價提供重要參考。
2 主題抽取與文獻分類
2.1 數據采集與處理
(1)數據采集。研究數據來源于中國知網,通過高級檢索依次在文獻來源中輸入期刊名稱,主要選取圖書情報領域的18種CSSCI期刊,包括《大學圖書館學報》《國家圖書館學刊》《情報科學》《情報理論與實踐》《情報學報》《情報雜志》《情報資料工作》《圖書館》《圖書館工作與研究》《圖書館建設》《圖書館論壇》《中國圖書館學報》《圖書館學研究》《圖書館雜志》《圖書情報工作》《圖書情報知識》《圖書與情報》《數據分析與知識發(fā)現》。選定在2011年1月1日—2020年12月31日發(fā)表的期刊文獻,共檢索獲得47 034篇文獻,以來源庫、題名、作者、單位、文獻來源、關鍵詞、摘要、發(fā)表時間、基金、年、頁碼等為自定義字段導出題錄數據。研究框架如圖1所示。
缺失的數據通過Python程序爬蟲獲取,以年均被引頻次為因變量,以論文因素(標題長度、基金資助、關鍵詞數量、論文年齡、論文篇幅、中文參考文獻占比、參考文獻數量、下載量),作者因素(作者數量、第一作者發(fā)文量、第一作者平均下載量、第一作者機構、跨單位合作數量),期刊因素(期刊影響因子)為自變量獲取相關數據。具體變量及定義如表1所示。
(2)數據處理。去除征稿啟事、選題指南、序言,以及無摘要、無作者等無效文獻,共獲得有效文獻43 228篇。匯總摘要作為語料庫,運用jieba分詞工具對原始語料進行分詞、去停用詞。
2.2 LDA主題提取
利用LDA主題模型[17]對摘要語料庫進行主題提取,在主題模型訓練之前需要預先設定主題數量。困惑度和余弦相似度是目前自然語言處理中常用的評價指標。選取不同的主題數量,計算主題間的平均余弦相似度和困惑度,困惑度的得分越低,說明模型的效果越好。平均余弦相似度越小,主題的結構越穩(wěn)定。困惑度和余弦相似度的結果如圖2和圖3所示。
結合困惑度和余弦相似度的結果,確定最優(yōu)的主題數量為8個。使用sklearn庫對數據進行主題建模,LDA算法的參數設置為α=0.1,β=0.01,主題數量設置為8,迭代次數為1 000。根據LDA模型生成的各研究主題,人工確定8個研究主題標簽。LDA模型主題提取結果如表2所示。
2.3 文獻分類
利用LDA主題模型輸出的主題概率分布,將每篇文獻分配到最相關的主題下,文獻主題分類結果如表3所示。
3 實驗結果與分析
3.1 描述統(tǒng)計和相關分析
(1)描述性統(tǒng)計分析。對自變量和因變量進行描述性統(tǒng)計,統(tǒng)計結果如表4和表5所示。第一作者發(fā)文量、第一作者平均下載量、下載量標準差較大,呈現離散分布。標題長度均值為19.92,作者數量均值為2.03,跨單位合作數量均值為1.41,期刊影響因子均值為3.26,關鍵詞數量均值為4.03,論文年齡均值為8.02,論文篇幅均值為6.07,中文參考文獻占比均值為0.70,參考文獻數量均值為11.12。第一作者機構大多為“雙一流”高校以及普通高校,占比分別為40.77%、42.64%。受國家級基金資助的論文占比35.78%。
(2)多重共線性檢驗。解釋變量間的多重共線性會對回歸的結果產生影響。為了避免由變量之間顯著相關性導致的多重共線性問題,在回歸分析之前需要對各變量之間相關系數進行檢驗。采用Spearman相關系數對變量之間的相關性進行檢驗,如表6所示??梢钥闯觯蟛糠窒嚓P系數較小,進一步采用方差膨脹因子(Variance Inflation Factor,VIF)進行檢驗,VIF值均小于5。因此,各變量之間不存在嚴重的共線性問題,可以將數據導入回歸模型進行實證檢驗。
3.2 學科總體視角下年均被引頻次影響因素分析
年均被引頻次密度分布圖(見圖4)顯示,年均被引頻次呈左偏態(tài)分布,這意味著大部分數據點集中在數值較低的一端,而數值較高的數據較少。
由于年均被引頻次呈現偏態(tài)分布,傳統(tǒng)的多元線性回歸模型并不合適。年均被引頻次屬于離散型變量,取值是典型的計數型,因此考慮計數型回歸分析。為了選擇合適的回歸模型,使用Stata 18.0軟件[18]的泊松回歸、負二項回歸、零膨脹泊松回歸、零膨脹負二項回歸進行了回歸分析。研究發(fā)現,樣本的方差大于均值,可能存在過度離散現象,不符合泊松回歸模型的要求,因此選擇負二項回歸模型。使用負二項回歸和零膨脹負二項回歸進行數據分析與驗證,采用赤池信息準則(Akaike Information Criterion,AIC)、貝葉斯信息準則(Bayesian Information Criterion,BIC)進行模型的檢驗。AIC與BIC相類似,是衡量統(tǒng)計模型擬合優(yōu)良性的準則,定義式如式(1)和式(2)所示。
負二項回歸的似然比統(tǒng)計量為35 540.37,表明模型與零假設之間存在顯著差異,即模型整體是顯著的;R2為0.201 8,表明模型的擬合效果可以接受。總體視角下年均被引頻次影響因素的負二項回歸分析結果如表8所示,z為模型統(tǒng)計量,P小于0.1則變量的影響顯著。大多數解釋變量呈現顯著影響,說明整體回歸效果比較好。在1%水平下,作者數量、第一作者平均下載量、基金資助、期刊影響因子、論文篇幅、中文參考文獻占比以及下載量均對論文年均被引頻次產生顯著正向影響,第一作者發(fā)文量在10%水平下具有顯著正向作用;論文年齡在1%水平下對年均被引頻次具有顯著的負向作用;標題長度、第一作者機構、跨單位合作數量、關鍵詞數量、參考文獻數量在1%﹑5%﹑10%的水平(雙邊)下均未通過顯著性檢驗。
3.3 學科主題視角下年均被引頻次影響因素分析
受篇幅所限,對8個學科主題進行負二項回歸的過程不一一列出,各個回歸模型的簡略匯總結果如表9所示。
從表9可以看出,不同主題下年均被引頻次的影響因素存在一定差異。
(1)作者因素。總體回歸結果顯示,年均被引頻次與作者數量、第一作者發(fā)文量、第一作者平均下載量顯著相關。然而,學科主題回歸的發(fā)現與之不同。①作者數量對年均被引頻次的顯著正向作用只體現在學術評價與文獻計量、網絡輿情、文本挖掘3個主題中。在學術評價與文獻計量主題下,較多的作者數量可能反映了團隊合作,學術評價領域注重學術研究成果的評估、測量與分析,多作者合作可能提升了研究的可信度和影響力;網絡輿情主題通常涉及公眾關注度較高的話題,作者數量多,論文可能反映了多方面的專業(yè)意見和觀點,能吸引更多的引用;文本挖掘主題涉及復雜的文本數據,相關研究需要全面和深入的數據分析,多位作者之間的合作可以加強數據的多維度分析,也有助于提出更具有深度和廣度的解決方案,進而吸引更多的引用。②第一作者發(fā)文量在各主題下均未通過顯著性檢驗,說明第一作者發(fā)文量對論文被引頻次沒有顯著影響。③第一作者平均下載量對年均被引頻次的顯著正向作用體現在圖書館服務、信息教育和科研素養(yǎng)、企業(yè)和政府情報分析3個主題中。第一作者的平均下載量較高,表明該作者的論文受到更多的關注,這對該主題論文學術影響力的提高有幫助。雖然第一作者機構、跨單位合作數量在總體回歸中沒有體現出顯著作用,但是在文本挖掘主題中第一作者機構對年均被引頻次具有正向作用,企業(yè)和政府情報分析主題中第一作者機構對年均被引頻次具有負向作用,而跨單位合作數量僅在信息教育和科研素養(yǎng)主題中對年均被引頻次具有正向作用。在信息教育和科研素養(yǎng)主題中,通過跨單位合作能夠結合不同領域和學科的專業(yè)知識和研究資源,提升研究的多樣性和深度,從而提升研究的創(chuàng)新性和學術質量。
(2)期刊因素。在網絡輿情、用戶信息行為2個主題下期刊影響因子在1%的水平下通過顯著性檢驗,表明期刊影響因子在這2個主題下對年均被引頻次具有正向作用,但其影響在其他主題下未通過顯著性檢驗。
(3)論文因素?;鹳Y助、論文年齡、論文篇幅、下載量的分主題回歸結果與總體回歸結果保持一致。中文參考文獻占比僅在文本挖掘、企業(yè)和政府情報分析2個主題下對年均被引頻次沒有顯著影響,在其他6個主題中對年均被引頻次均有顯著正向作用。標題長度僅在網絡輿情主題中具有顯著正向作用。網絡輿情主題涉及公眾關注和信息傳播,較長的標題可能更能夠吸引注意,長標題傾向于包含更多的關鍵詞,這些關鍵詞與當時的熱門話題相關,進而增加被引用的可能性。參考文獻數量在學術評價與文獻計量主題下對年均被引頻次有顯著負向作用,在信息教育和科研素養(yǎng)主題下具有顯著正向作用。在學術評價與文獻計量主題下,研究往往涉及大量的文獻引用和計量分析,引用的大量參考文獻未必對新的研究有直接的貢獻,從而影響了學術影響力。信息教育和科研素養(yǎng)主題涉及科研實踐等方面,引用的文獻有助于建立堅實的理論和知識基礎,體現了研究者對該領域主題全面和深入的理解,能增強研究的可信度和引用價值。
通過對不同主題下年均被引頻次影響因素的分析,可以看出學術研究在不同主題下表現出顯著的差異,這些差異反映了各主題研究特定的引用習慣,解釋了不同因素在提升論文學術影響力方面的具體作用。通過深入理解這些因素在特定主題中的作用機制,能夠幫助學者提升學術影響力。
3.4 主題熱度分區(qū)視角下年均被引頻次影響因素分析
學者們往往以發(fā)文量和引文量為考察學科主題影響力的基本指標[19-20]。然而,不同主題文獻的外部特征、研究內容等具有較大差異。因此,進一步探究不同主題熱度下年均被引頻次影響因素的差異情況。參考李秀霞等[21]的研究,統(tǒng)計各研究主題的逐年累計引文量和發(fā)文量。設有R個主題,統(tǒng)計某年某個主題的引文量與發(fā)文量之比Er(r=1,…,R),某年所有主題對應文獻引文量與發(fā)文量之比Dr,根據Er、Dr計算引文等級qrt,如式(3)~式(5)所示。
某研究主題在某年的發(fā)文量記為Nrt,對qrt、Nrt的值與時間段進行Spearman相關系數分析,得到與時間段的相關系數,建立戰(zhàn)略坐標系。發(fā)文呈現遞增趨勢、引文也呈現遞增趨勢則劃分在熱門分區(qū),發(fā)文呈遞減趨勢、引文呈現遞增趨勢劃分為潛力分區(qū),發(fā)文呈遞減趨勢、引文呈現遞減趨勢劃分為衰退分區(qū),發(fā)文呈遞增趨勢、引文呈現遞減趨勢劃分為冷門分區(qū)。將各主題劃分到不同的分區(qū),探究不同熱度分區(qū)下年均被引頻次影響因素是否存在一定差異。圖書情報學主題熱度分區(qū)圖如圖5所示,將8個主題分類到各分區(qū)下,橫軸表示的是發(fā)文趨勢,縱軸表示的是引文趨勢。第一象限發(fā)文量大、被引頻次高,代表熱門分區(qū),包括用戶信息行為主題、文本挖掘主題;第二象限發(fā)文量小但被引頻次高,代表潛力分區(qū),包括企業(yè)和政府情報分析主題;第三象限發(fā)文量小、被引頻次低,代表衰退分區(qū),包括網絡輿情主題、圖書館服務主題、圖書館建設主題、學術評價與文獻計量主題、信息教育和科研素養(yǎng)主題;第四象限發(fā)文量大、被引頻次低,代表冷門分區(qū),目前無主題劃分,說明圖書情報學科的主要研究主題均處于較高熱度。
主題熱度分區(qū)下年均被引頻次影響因素的負二項回歸分析結果如表10所示。從作者角度看,作者數量在熱門和衰退分區(qū)下對年均被引頻次均具有顯著正向作用,第一作者平均下載量在潛力和衰退分區(qū)下對年均被引頻次具有正向作用,第一作者機構在潛力分區(qū)中對年均被引頻次具有顯著負向作用,第一作者發(fā)文量、跨單位合作數量對年均被引頻次沒有顯著影響。從期刊角度看,期刊影響因子僅在衰退分區(qū)下對年均被引頻次具有正向作用。衰退分區(qū)下,影響因子高的期刊能夠顯著提升論文的關注度,衰退分區(qū)的發(fā)文趨勢和引文趨勢均在減弱,受關注較少,而在高影響因子期刊上發(fā)表能夠增加被引用的機會。從論文角度看,基金資助、論文篇幅、下載量在3個分區(qū)都具有正向作用,但標題長度僅對衰退分區(qū)論文年均被引頻次具有正向作用。長標題通常能清楚地描述研究內容,從而吸引更多的引用,尤其在衰退分區(qū)下,長標題更為重要。中文參考文獻占比在熱門分區(qū)和衰退分區(qū)中均具有正向作用,關鍵詞數量在各分區(qū)中均未通過顯著性檢驗。此外,論文年齡在各分區(qū)中均有顯著負向影響?;诟饔绊懸蛩卦诓煌謪^(qū)的差異,學者可在不同分區(qū)主題下制定有效的研究和發(fā)表策略。
3.5 穩(wěn)健性分析
為了驗證不同主題下年均被引頻次影響因素的穩(wěn)定性,進一步采用零膨脹負二項回歸模型進行穩(wěn)健性檢驗。由負二項回歸模型和零膨脹負二項回歸模型的結果可知,兩個模型的參數估計和顯著性水平具有一致性,在主要影響因素如標題長度、作者數量、第一作者平均下載量、跨單位合作數量、期刊影響因子和中文參考文獻占比等變量上結果是一致的。將不同主題的數據分成2011—2015年、2016—2020年兩組分別進行負二項回歸,發(fā)現基金資助、論文年齡、論文篇幅、下載量對年均被引頻次的影響均保持一致。由于時間段的劃分,標題長度、關鍵詞數量、作者數量等因素的作用存在差異。
4 結論與啟示
以圖書情報學18種CSSCI收錄期刊為研究對象,采集了2011—2020年的共43 228篇有效論文相關數據。采用LDA主題模型和負二項回歸方法從學科主題的角度探究論文外部特征與年均被引頻次的影響關系,得出以下結論。
(1)從學科主題角度看,不同主題下年均被引頻次的影響因素存在顯著差異。作者數量在學術評價與文獻計量、網絡輿情、文本挖掘3個主題中顯著正向影響年均被引頻次;第一作者發(fā)文量在各主題中均無顯著影響;第一作者平均下載量僅在圖書館服務、企業(yè)和政府情報分析、信息教育和科研素養(yǎng)主題下有顯著正向作用;第一作者機構在文本挖掘主題下有正向作用,在企業(yè)和政府情報分析主題下有負向作用;跨單位合作數量在信息教育和科研素養(yǎng)主題中有正向作用;期刊影響因子在網絡輿情和用戶信息行為主題中有顯著正向作用;中文參考文獻占比在多數主題中有顯著正向作用;標題長度在網絡輿情主題中有顯著正向作用;參考文獻數量在學術評價與文獻計量主題中有顯著負向作用,在信息教育和科研素養(yǎng)主題中有顯著正向作用。
(2)從主題分類角度看,圖書情報學研究主題分為熱門、潛力和衰退3類。熱門分區(qū)包含用戶信息行為、文本挖掘2個主題;潛力分區(qū)包括企業(yè)和政府情報分析1個主題;衰退分區(qū)包括網絡輿情、圖書館服務、圖書館建設、學術評價與文獻計量、信息教育和科研素養(yǎng)5個主題。各分區(qū)下作者數量、第一作者平均下載量、第一作者機構、期刊影響因子等影響因素的作用均存在差異。相比熱門分區(qū)和潛力分區(qū),衰退分區(qū)論文年均被引頻次還受到標題長度和期刊影響因子的顯著正向影響。
(3)從學科總體、學科主題、主題熱度分區(qū)3個層次探究年均被引頻次影響因素,發(fā)現基金資助、論文篇幅、論文年齡、下載量對年均被引頻次的影響均保持一致。
本研究結論對科研工作者開展科研活動、撰寫論文具有一定的參考意義。①不同主題下被引頻次影響因素存在差異,因此科研工作者可以根據所研究的主題,觀察當前的研究主題受哪些特定因素的影響,有針對性地進行合理規(guī)劃,從而提升論文的學術影響力。②根據論文的發(fā)文趨勢和引文趨勢將主題歸為熱門、潛力、衰退分區(qū),能夠幫助科研工作者了解當前研究態(tài)勢。在選擇研究方向時可優(yōu)先考慮熱門分區(qū)主題,并對潛力分區(qū)的研究主題給予更多的關注,對于衰退分區(qū)研究主題則可通過有效的研究策略和學術合作,挖掘未來發(fā)展的新機遇。相對于熱門和潛力分區(qū),衰退分區(qū)下論文的年均被引頻次還受到標題長度、期刊影響因子的影響。衰退分區(qū)主題論文應注意優(yōu)化標題表達和期刊選擇,從而提高學術影響力。除此之外,本研究還可以為科研評價體系提供更為多樣化的評估標準,促進科研評價體系的完善??蒲泄芾碚咭部梢愿鶕芯恐黝}的特點,調整評價指標和權重,以更全面地評估研究成果的影響力,更準確地挖掘各主題下的高質量論文。
本研究仍存在一定的不足之處,如選取主題數量有限,無法全面地覆蓋圖書情報學領域全部的研究主題,未覆蓋的研究主題可能具有不同的特征和影響因素。數據收集時間范圍限定在2011—2020年,盡管覆蓋了較長的研究時間,但是未能捕捉到最新的研究動態(tài)和新興研究主題的影響。隨著時間的推移,學術研究的重點可能發(fā)生變化,新興主題可能具有不同的影響因素和發(fā)展趨勢。后續(xù)研究可考慮細化引用時間,深入挖掘各主題影響因素在時間上的動態(tài)變化。此外,本研究較為全面地考慮了論文外部因素對被引頻次的影響,但論文的研究方法、創(chuàng)新性、新穎性等內部因素未納入分析。后續(xù)研究可利用文本挖掘和語義分析技術,將內外部因素相結合進行綜合分析,并結合機器學習和深度學習模型建立預測模型,分析不同因素對預測結果的貢獻。
參考文獻
[1] WALTMAN L. A review of the literature on citation impact indicators[J]. Journal of Informetrics,2016,10(2):365-391.
[2] 徐慶富,康旭東,張春博. 多期刊比較視角下的論文被引頻次若干影響因素研究[J]. 情報雜志,2018,37(2):147-153.
[3] ANTONIOU G A,ANTONIOU S A,GEORGAKARAKOS E I,et al. Bibliometric analysis of factors predicting increased citations in the vascular and endovascular literature[J]. Annals of Vascular Surgery,2015,29(2):286-292.
[4] ROTH C,WU J,LOZANO S. Assessing impact and quality from local dynamics of citation networks[J]. Journal of Informetrics,2012,6(1):111-120.
[5] JACQUES T S,SEBIRE N J. The impact of article titles on citation hits:an analysis of general and specialist medical journals[J]. JRSM Short Reports,2010,1(1):2.
[6] ROSSI M J,BRAND J C. Journal article titles impact their citation rates[J]. Arthroscopy:The Journal of Arthroscopic Related Surgery,2020,36(7):2025-2029.
[7] 張振偉,梁明修,韓錕,等. 預防醫(yī)學類科技論文被引頻次的影響因素分析:以《中華預防醫(yī)學雜志》為例[J]. 中國科技期刊研究,2021,32(1):125-134.
[8] LEIMU R,KORICHEVA J. What determines the citation frequency of ecological papers?[J]. Trends in Ecology Evolution,2005,20(1):28-32.
[9] BORSUK R M,BUDDEN A E,LEIMU R,et al. The influence of author gender,national language and number of authors on citation rate in ecology[J]. The Open Ecology Journal,2009,2(1):25-28.
[10] 杜建,張玢,李陽. 我國醫(yī)學領域不同學科作者合作度與論文影響力的關系[J]. 中華醫(yī)學圖書情報雜志,2012,21(3):18-23.
[11] 王崇鋒,崔運周,楊簫. 合作網絡、知識網絡對論文被引量的影響:基于我國管理案例研究論文的統(tǒng)計分析[J]. 管理案例研究與評論,2020,13(3):356-367.
[12] 楊莉,熊澤泉,段宇鋒. 基于分位數回歸的期刊論文被引量預測研究[J]. 情報科學,2019,37(10):60-66.
[13] BUELA-CASAL G,ZYCH I. Analysis of the relationship between the number of citations and the quality evaluated by experts in psychology journals[J]. Psicothema,2010,22(2):270-276.
[14] FU L D,ALIFERIS C F. Using content-based and bibliometric features for machine learning models to predict citation counts in the biomedical literature[J]. Scientometrics,2010,85(1):257-270.
[15] YAN Y,TIAN S W,ZHANG J J. The impact of a paper’s new combinations and new components on its citation[J]. Scientometrics,2020,122(2):895-913.
[16] BLEI D M,NG A Y,JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research,2003,3:993-1022.
[17] LDA主題抽取[EB/OL]. [2024-01-02]. https://github.com/ldaproject/lda.
[18] Stata 18.0軟件[EB/OL]. [2024-01-02]. https://stata.com.
[19] 胡澤文,韓雅蓉,王夢雅. 基于LDA-Word2Vec的圖書情報領域機器學習研究主題演化與熱點主題識別[J]. 現代情報,2024,44(4):154-167.
[20] 陳穩(wěn),陳偉. 基于計量指標多變量LSTM模型的新興主題熱度預測研究[J]. 數據分析與知識發(fā)現,2022,6(10):35-45.
[21] 李秀霞,程結晶,韓霞. 發(fā)文趨勢與引文趨勢融合的學科研究主題優(yōu)先級排序:以我國情報學學科主題為例[J]. 圖書情報工作,2019,63(11):88-95.
作者簡介
傅柱,男,博士,副教授,研究方向:知識組織與挖掘。
張倩,女,碩士研究生,研究方向:信息管理與信息系統(tǒng)。
劉鵬,男,博士,副教授,通信作者,研究方向:復雜網絡分析,E-mail:liupeng19821017@126.com。
Difference of Influencing Factors of Citation in Scientific Papers from the Perspective of Subject Theme: An Empirical Study of Library and Information Science
FU Zhu ZHANG Qian LIU Peng
(School of Economics and Management, Jiangsu University of Science and Technology, Zhenjiang 212100, P. R. China)
Abstract: Examining the factors influencing citation frequency from the perspective of subject themes can provide targeted guidance for researchers in writing and optimizing their papers, and also provide a new perspective and idea for scientific research evaluation. This study uses 43 228 valid papers published in 18 CSSCI-indexed journals in library and information science from 2011 to 2020. By applying the LDA topic model to extract and identify themes from paper abstracts, and using a negative binomial regression model, we empirically investigate the factors influencing annual citation frequency from overall, thematic, and thematic classification perspectives. The findings reveal both commonalities and differences in the factors influencing annual citation frequency across subject themes. Consistent factors include funding support, paper length, paper age, and download frequency. In contrast, factors such as title length, number of keywords, and number of authors show varying impacts on annual citation frequency.
Keywords: Citation Frequency; Theme Classification; Regression Analysis; Influencing Factor; Library and Information Science
(責任編輯:王瑋)