□李凌 張若楠 崔佳楠 李鑫鑫
引文分析是一種通過對學(xué)術(shù)文獻(xiàn)之間的引用關(guān)系進(jìn)行分析,進(jìn)而對研究成果的價(jià)值做出判斷的科學(xué)評價(jià)方法,其基本原理是通過分析文獻(xiàn)被引用的次數(shù)和引用關(guān)系,揭示學(xué)術(shù)文獻(xiàn)之間的聯(lián)系和影響力[1]。學(xué)術(shù)界也將引文分析結(jié)果作為文獻(xiàn)或?qū)W者學(xué)術(shù)影響力、資源績效評估的重要參考依據(jù)之一。傳統(tǒng)引文分析主要基于引用頻次來量化分析文獻(xiàn)間的引用關(guān)系,或?qū)⒁妙l次作為評判資源質(zhì)量、保障率、甚至學(xué)術(shù)影響力的重要標(biāo)準(zhǔn),雖簡單直觀,卻無法揭示文獻(xiàn)間深層次引用關(guān)系,忽略了引文在研究中發(fā)揮的實(shí)際效用[2]。
從內(nèi)容效用的角度,引文對施引文獻(xiàn)研究論點(diǎn)、研究結(jié)果的創(chuàng)新性、科學(xué)性、可靠性的論證和支持作用,及對論據(jù)充分性、論證合理性具有直接貢獻(xiàn),可充分體現(xiàn)出引文的必要性及其引用價(jià)值[3]。因此,在論文中所引用的起到關(guān)鍵性學(xué)術(shù)論證作用、對施引文獻(xiàn)研究的內(nèi)容、方法、觀點(diǎn)發(fā)揮了重要支撐或參考作用的引文,可視為“核心效用引文”。通過引文效用分析可盡量降低“低效”甚至“無效”的引文干擾,從而為深入開展更加科學(xué)、客觀的測度和評價(jià)工作奠定基礎(chǔ),對科學(xué)計(jì)量學(xué)和科學(xué)學(xué)的發(fā)展大有裨益[4]。文章以學(xué)科期刊論文的參考文獻(xiàn)作為研究對象,從引文效用的視角,選擇引文屬性、引文功能、引用對象、引用情感等特征,建立引文標(biāo)注框架;并依此進(jìn)行人工標(biāo)注及大規(guī)模預(yù)訓(xùn)練語言模型的對話系統(tǒng)(Chat Generative Pretrained Transformer, ChatGPT)自動分類標(biāo)注;測試邏輯回歸分析、支持向量機(jī)等方法對引文效用分類的效果,擇優(yōu)構(gòu)建“效用視角下核心引文識別模型”,并探討該方法應(yīng)用拓展的可行性。
傳統(tǒng)引文分析法主要基于引用頻次來量化分析文獻(xiàn)間的引用關(guān)系,但為深入揭示文獻(xiàn)間深層次引用關(guān)系,學(xué)者們將引文分析逐步拓展至內(nèi)容層面,通過對引用位置、引用頻次、引用深度、引用對象等方面的分析,揭示引文之間語義關(guān)聯(lián)或引用行為特征,也證實(shí)了引用效用的差異性[5]。同時,結(jié)合不同角度對引文分類的體系、方法及相關(guān)應(yīng)用的研究也在不斷推進(jìn)。
為深入揭示文獻(xiàn)間的引用關(guān)系或引用行為,國內(nèi)外很多研究分別從“引用動機(jī)”“引用目的”“引文功能”等角度對其進(jìn)行分類并構(gòu)建相應(yīng)的引文分類體系[5]。早期,尤金·加菲爾德(Eugene Garfield)[6]提出基于15種引用動機(jī)構(gòu)建引文索引,包括支撐、批判、評價(jià)等,為后續(xù)引文分類研究奠定了基礎(chǔ)。隨后幾十年發(fā)展過程中,引文分類體系內(nèi)容逐步擴(kuò)充及深入。芬尼(Finney)[7]與博尼茨(Bonzis)[8]分別將引文位置、引用強(qiáng)度等特征引入了引文分類體系。奧彭海姆(Oppenheim)[9]將引文功能細(xì)分為“歷史背景”“相關(guān)工作的描述”“提供信息或數(shù)據(jù)”“比較”等7種類別。二十一世紀(jì)后,引文分類體系在指標(biāo)的深度與廣度方面進(jìn)一步延伸,也不斷推動著引文內(nèi)容標(biāo)注框架的發(fā)展。西蒙·泰弗(Simone Teufel)[10]提出“議論文式的分區(qū)”引文分類法,將引文區(qū)域進(jìn)一步細(xì)分為結(jié)論、證據(jù)、方法、背景、目標(biāo)、未來工作等,并將該分類法應(yīng)用于自動化文本信息提取。國內(nèi)也有學(xué)者提出“要結(jié)合引文分布、引文次數(shù)及被引內(nèi)容”綜合判斷引文效用[11],并從語法和語義方面對引文屬性、被引屬性及兩者間屬性展開深入分析,構(gòu)建相對全面的引文內(nèi)容分析框架[12],還出現(xiàn)了包含引文分類標(biāo)注體系、引用對象標(biāo)注體系及引文屬性標(biāo)注體系的面向引用關(guān)系的引文內(nèi)容標(biāo)注框架[13-14],較為全面地揭示出文獻(xiàn)引用關(guān)系及引文客觀特征。
引文標(biāo)注是進(jìn)行合理分類的前提,早期研究均采用人工標(biāo)注,雖準(zhǔn)確率高,但難以兼顧樣本量和標(biāo)注效率。隨著計(jì)算語言學(xué)、自然語言處理的成熟,從大規(guī)模科學(xué)文本中自動化抽取引文內(nèi)容進(jìn)行語義分析成為可能。隨之涌現(xiàn)出基于規(guī)則、基于機(jī)器學(xué)習(xí)、基于深度學(xué)習(xí)、基于語義相似度的引文自動分類方法。
基于規(guī)則的引文自動分類方法通常使用手工設(shè)計(jì)的規(guī)則集進(jìn)行引文分類[15]。其優(yōu)勢在于專人設(shè)計(jì)和維護(hù)規(guī)則集,能提供高度的可解釋性和可控性,且不需要大量的標(biāo)注數(shù)據(jù)。但規(guī)則集設(shè)計(jì)受限于編輯者的知識水平,在多種復(fù)雜的關(guān)系和模式時,規(guī)則集的設(shè)計(jì)不僅難度大幅增加,可能會出現(xiàn)疏漏和錯誤,需采用有效的設(shè)計(jì)和維護(hù)策略,以確保規(guī)則集的可靠性和適應(yīng)性。因此,在現(xiàn)實(shí)應(yīng)用中,基于規(guī)則的引文自動分類方法通常需與其他自動分類方法結(jié)合使用,以提高分類準(zhǔn)確率和可靠性[16]。
機(jī)器學(xué)習(xí)是引文自動分類領(lǐng)域中最常用的技術(shù)之一。通過使用分類器模型和特征工程等技術(shù),研究人員可以自動將引文分為不同的類別。其中,支持向量機(jī)(Support Vector Machine,SVM)、決策樹(Decision Tree,DT)、樸素貝葉斯(Naive Bayes,NB)和隨機(jī)森林(Random Forest,RF)等算法得到了廣泛應(yīng)用[17-18]。一些研究還探索了使用多個分類器模型進(jìn)行集成的方法,以進(jìn)一步提高分類的準(zhǔn)確率[19]。
深度學(xué)習(xí)是引文自動分類領(lǐng)域中的新興技術(shù),可自動地從數(shù)據(jù)中提取特征。其中卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[20]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[21]等深度學(xué)習(xí)模型得到了廣泛應(yīng)用。近年來,使用預(yù)訓(xùn)練模型的方法也成為了引文自動分類的熱門研究方向。但基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的分類效果依賴于前期語料庫質(zhì)量及規(guī)模,訓(xùn)練數(shù)據(jù)質(zhì)量差或語料庫規(guī)模小,均會導(dǎo)致訓(xùn)練模型效果不穩(wěn)定,分類優(yōu)勢無法發(fā)揮[5]。
引文分類應(yīng)用主要體現(xiàn)在引用規(guī)律及行為揭示、引文識別、學(xué)術(shù)影響力評價(jià)等方面。如采用情感詞匹配法識別論文引文的引用情感,并發(fā)現(xiàn)其引用行為特點(diǎn)及變化[22],或采用基于詞袋特征的SVM分類器對引文進(jìn)行情感分類[23]。還有通過人工標(biāo)注中文圖書在施引文獻(xiàn)中引文位置、情感并計(jì)算其長度和強(qiáng)度,發(fā)現(xiàn)不同學(xué)科領(lǐng)域?qū)χ形膱D書的引用行為差異[24]。在學(xué)術(shù)影響力評價(jià)應(yīng)用中,相關(guān)研究通過對引用主題、功能和情感進(jìn)行手工識別與分類,定性分析其學(xué)術(shù)影響力[25],或基于引用情感等特征進(jìn)行引文分類后加權(quán)計(jì)算單篇論文的學(xué)術(shù)影響力[23],還有研究加入引用強(qiáng)度、引用位置、引用情感等因素,利用層次分析法確定引用強(qiáng)度、引用位置的權(quán)重,結(jié)合引用強(qiáng)度計(jì)算作者學(xué)術(shù)影響力AAI指標(biāo)[26]。
綜上所述,學(xué)術(shù)界不斷探索引文分類體系與方法,發(fā)現(xiàn)引文行為特征、引文規(guī)律,并以此為基礎(chǔ)開展引文評價(jià)、學(xué)術(shù)成果影響力、學(xué)者影響力評估。但依然存在以下問題:分類體系缺乏統(tǒng)一標(biāo)準(zhǔn)、通用性不高,實(shí)踐中仍以引用頻次為主要依據(jù),基于引文效用分析的應(yīng)用場景較少。再者,現(xiàn)有應(yīng)用類研究中多采用先人工標(biāo)引后引文分類的方法,雖已有利用深度學(xué)習(xí)進(jìn)行自動分類的嘗試,但由于深度學(xué)習(xí)模型更依賴于語料的規(guī)模和質(zhì)量,鑒于目前訓(xùn)練數(shù)據(jù)偏少,其模型的優(yōu)勢無法發(fā)揮,效果還有待于進(jìn)一步驗(yàn)證。
問題一:引文效用分類特征選擇與自動提取。已有研究中提出的多樣化引文特征包括:引文的年份、內(nèi)容、上下文語句、頻次/強(qiáng)度、目的、動機(jī)、功能、位置、情感等。對引文以上特征展開全面細(xì)致的標(biāo)注無疑會增加標(biāo)注難度,對標(biāo)注者學(xué)科專業(yè)知識與信息專業(yè)技能要求較高,引文標(biāo)注的準(zhǔn)確性與特征提取的高效性很難兼顧。
問題二:效用視角下核心引文識別模型構(gòu)建。在選取引文分類關(guān)鍵特征的前提下,構(gòu)建高質(zhì)量分類模型是實(shí)現(xiàn)引文效用精準(zhǔn)識別的關(guān)鍵。現(xiàn)有研究中雖已有基于引文功能和情感、利用傳統(tǒng)機(jī)器學(xué)習(xí)方法或深度學(xué)習(xí)方法進(jìn)行引文自動分類,但其目的在于發(fā)現(xiàn)引文功能和情感的相關(guān)性,深入揭示科學(xué)發(fā)展規(guī)律、發(fā)現(xiàn)知識傳播路徑[5],缺少對引文效用的關(guān)注及其價(jià)值的利用。
研究以引文效用分類與核心文獻(xiàn)提取為目標(biāo),利用相關(guān)性矩陣和散點(diǎn)圖矩陣選擇關(guān)鍵特征構(gòu)建分類模型。再嘗試?yán)么笠?guī)模預(yù)訓(xùn)練語言模型、模式匹配等技術(shù)實(shí)現(xiàn)關(guān)鍵特征的自動提取。在此基礎(chǔ)上,利用邏輯回歸分析、支持向量機(jī)的方式,分別測試其對引文效用的分類效果,擇優(yōu)構(gòu)建“效用視角下核心引文識別模型”,進(jìn)而提升“核心引文”的識別效率,探索排除“低效”甚至“無效”的引文干擾的方法,為進(jìn)一步的測度和評價(jià)工作奠定科學(xué)基礎(chǔ)。研究主要分為數(shù)據(jù)獲取、引文內(nèi)容標(biāo)注框架設(shè)計(jì)及標(biāo)注、關(guān)鍵特征選取、分類模型建立、效果對比與分析等步驟。
在方法準(zhǔn)確性方面,研究方法聚焦于模型對引文效用的判斷與自動分類,模型的準(zhǔn)確性由訓(xùn)練數(shù)據(jù)質(zhì)量及模型質(zhì)量決定。一方面訓(xùn)練數(shù)據(jù)采用人工標(biāo)引方式,館員判斷引文特征,專業(yè)師生判斷引文效用,充分發(fā)揮人員專業(yè)特長,最大限度確保訓(xùn)練數(shù)據(jù)的詳細(xì)與準(zhǔn)確,進(jìn)而保證模型效用判斷的準(zhǔn)確。另一方面,模型質(zhì)量通過科恩卡帕系數(shù)及正確率評價(jià),可判斷模型是否具備良好的引文效用預(yù)測功能。
在數(shù)據(jù)保障方面,利用西安交通大學(xué)機(jī)構(gòu)知識庫,選取醫(yī)學(xué)部2022—2023年部分高質(zhì)量(ESI收錄、Q1等)論文的引文作為研究對象。考慮到綜述性文章的引文效用相似性較高,故去掉“綜述(Review)”類型文章,選擇“文章(Article)”的引文,經(jīng)篩選,最終選擇1778篇引文作為此次研究數(shù)據(jù),并將原始數(shù)據(jù)分為訓(xùn)練集、測試集和預(yù)測集三部分。其中隨機(jī)選取1424篇用作模型構(gòu)建,其中75%的數(shù)據(jù)(1068篇)用于識別核心引文關(guān)鍵特征的發(fā)現(xiàn)以及模型訓(xùn)練,25%的數(shù)據(jù)(356篇)用于模型效果測試。最后,選擇354篇引文用于核心引文的識別預(yù)測。
“核心”引文在不同應(yīng)用背景下具有不同內(nèi)涵。一指被SCI、EI等權(quán)威索引收錄可稱之為核心;另有從文獻(xiàn)利用的角度指被使用次數(shù)較多的高需求文獻(xiàn)。而文章中“核心引文”指在論文中所引用的起到關(guān)鍵性學(xué)術(shù)論證作用,對施引文獻(xiàn)研究的內(nèi)容、方法、觀點(diǎn)發(fā)揮了重要支撐或參考作用的引文。其重要程度需依據(jù)專業(yè)知識與信息素養(yǎng)綜合判斷,并通過五級分類法表示,即“非常重要”“重要”“一般”“不重要”“非常不重要”(具體描述見表1)。
表1 引文效用分類標(biāo)準(zhǔn)
在模型構(gòu)建階段,需將引文效用作為目標(biāo)值,進(jìn)行二分類處理,故需對定義進(jìn)行調(diào)整,其中非常重要、重要、不重要、非常不重要的分類傾向較為明確。“一般”通常為引文效用表現(xiàn)不突出,且容易出現(xiàn)效用的爭議,故歸為“非核心引文”。
本研究從引文效用角度出發(fā),設(shè)計(jì)了包括引文特征屬性、引文功能屬性、引用對象屬性、引用情感屬性在內(nèi)的引文內(nèi)容標(biāo)注體系(如表2所示)。引文特征屬性包括:引文年份、引文所在期刊、引文出現(xiàn)章節(jié)名稱、引文出現(xiàn)頻次、引文所在語句。引文功能劃分為“基于、使用、支撐、比較、相關(guān)研究、未來啟發(fā)、背景介紹”。引用對象是指施引文獻(xiàn)引用引文的對象,由于醫(yī)學(xué)類論文引用對象相較社科類引用對象更為簡單且形式固定,故本研究將引用對象歸納為“概念理論、方法、數(shù)據(jù)、其他”。引用情感分為積極、消極、中立三種情感。由于醫(yī)學(xué)論文多在于客觀論證或描述,因此,對施引文獻(xiàn)起正面支撐作用的引文均屬于積極,與研究結(jié)果相悖、指出現(xiàn)有成果不足、研究局限等引文表示消極,其余則均標(biāo)注為中立。
表2 引文內(nèi)容標(biāo)注框架
由于引文特征的判斷既需要文獻(xiàn)所涉及的學(xué)科專業(yè)知識,也需要信息專業(yè)技能,因此,選擇館員與專業(yè)師生兩組人員對引文的不同類特征分別標(biāo)注,有助于提升標(biāo)注結(jié)果的準(zhǔn)確性。由不同專業(yè)背景的學(xué)科館員依據(jù)引文標(biāo)注框架,分別對原始數(shù)據(jù)所有引文特征屬性、功能屬性、引用對象、引用情感等屬性進(jìn)行標(biāo)引。醫(yī)學(xué)專業(yè)教師及研究生若干,依據(jù)引文效用分類標(biāo)準(zhǔn)(表1)對訓(xùn)練集與測試集引文僅進(jìn)行引文效用判斷及標(biāo)注。
引文特征眾多,但并非所有特征都會對核心引文的判斷產(chǎn)生影響。筆者發(fā)現(xiàn),在眾多引文特征中,與“引文效用”相關(guān)性較強(qiáng)的部分特征作為模型建立的基礎(chǔ)尤為關(guān)鍵。在此基礎(chǔ)上,進(jìn)一步利用機(jī)器學(xué)習(xí)的方法構(gòu)建核心引文識別模型,既可以一定程度簡化引文特征標(biāo)注體系,也可以提升核心引文識別效率。研究通過KNIME軟件進(jìn)行邏輯回歸及支持向量機(jī)(SVM)模型的設(shè)計(jì)及訓(xùn)練,包括:數(shù)據(jù)讀取及觀察、特征篩選、模型訓(xùn)練、模型驗(yàn)證及評價(jià)4個模塊(如圖1所示)。
圖1 邏輯回歸與支持向量機(jī)模型訓(xùn)練流程圖
引文標(biāo)注體系包括引文題目、引文期刊、引文年份、引文所在章節(jié)名稱、引文出現(xiàn)頻次、引用情感、引文功能、引用對象類型、引文是否重要等9種引文特征指標(biāo),其中引文是否重要為目標(biāo)指標(biāo),通過相關(guān)性矩陣(如圖2所示)和散點(diǎn)圖矩陣(如圖3所示),觀察各指標(biāo)和目標(biāo)間的相關(guān)性。在相關(guān)性矩陣中,引文效用通過“是否重要”表示,依據(jù)表1中的五級分類法分為非常重要、重要、一般、不重要、非常不重要。在二分類處理后,其中非常重要、重要?dú)w為“核心引文”,一般、不重要、非常不重要?dú)w為“非核心引文”。
圖2 指標(biāo)相關(guān)性矩陣圖
圖3 各指標(biāo)散點(diǎn)圖
從相關(guān)性矩陣發(fā)現(xiàn)(如圖2與圖4所示)引文出現(xiàn)頻次和引文效用幾乎沒有相關(guān)性,引文所在章節(jié)名稱、引用情感、引文功能、引用對象類型等特征與引文效用相關(guān)性較強(qiáng),其中引文功能相關(guān)性最高,故以此特征值為起點(diǎn),依次加入其他特征值進(jìn)行測試,最終選定的特征為:引文所在章節(jié)名稱,引用情感,引文功能,引用對象類型。
圖4 指標(biāo)相關(guān)性矩陣參數(shù)圖
邏輯回歸(Logistic Regression,LR)算法是一種廣義的線性回歸分析模型,用于解決二分類問題的機(jī)器學(xué)習(xí)方法,可預(yù)測某種事物的可能性[27]。在本研究中即通過LR算法訓(xùn)練出的模型對某引文是否為核心引文進(jìn)行預(yù)測,并選用混淆矩陣(Scorer節(jié)點(diǎn)),預(yù)測準(zhǔn)確率(Accuracy)、科恩卡帕系數(shù)(Cohen’s Kappa)值以及受試者工作特征曲線 (Receiver Operating Characteristic Curve,ROC)[28]進(jìn)行評價(jià)。其中,科恩卡帕系數(shù)是可用于衡量分類效果的指標(biāo),即模型預(yù)測結(jié)果和實(shí)際分類結(jié)果是否一致,值越高表示該模型的分類結(jié)果與實(shí)際分類結(jié)果一致性越高。預(yù)測準(zhǔn)確率代表模型分類正確的樣本數(shù)除以所有樣本數(shù),準(zhǔn)確率越高分類器越好。訓(xùn)練過程中選用梯度下降算法 (Stochastic Average Gradient),設(shè)置學(xué)習(xí)率為0.001,最終訓(xùn)練的模型應(yīng)用到測試數(shù)據(jù)集上的結(jié)果如圖5及圖6所示。
圖5 邏輯回歸預(yù)測結(jié)果
圖6 邏輯回歸ROC曲線
訓(xùn)練結(jié)果發(fā)現(xiàn),邏輯回歸訓(xùn)練模型對核心引文預(yù)測結(jié)果與人工判斷結(jié)果相似度已達(dá)到較高水平,在356條數(shù)據(jù)中,誤將核心判定為非核心14篇,誤將非核心判定為核心18篇,預(yù)測準(zhǔn)確率為91.011%, 科恩卡帕系數(shù)值達(dá)到0.82,提示該預(yù)測模型與人工判斷的結(jié)果具有較高一致性。從受試者ROC曲線來看,曲線下方部分的面積(Area Under Curve,AUC)很大,說明此模型預(yù)測準(zhǔn)確率較高。
支持向量機(jī)(SVM)是按監(jiān)督學(xué)習(xí)方式對數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,通常用來進(jìn)行模式識別、分類以及回歸分析[29],在本研究中同樣通過該算法訓(xùn)練出的模型對某引文是否為核心引文進(jìn)行預(yù)測。SVM算法與LR算法原理不同,故將兩種算法訓(xùn)練出的模型進(jìn)行對比后,擇優(yōu)選擇。SVM算法進(jìn)行訓(xùn)練的流程和LR基本一致,但由于該算法需要所有的特征是數(shù)值,所以針對類型特征,要通過獨(dú)熱編碼(One-hot Encoder)進(jìn)行數(shù)據(jù)轉(zhuǎn)化處理。在使用相同訓(xùn)練數(shù)據(jù)集以及測試數(shù)據(jù)集的情況下,LR算法和SVM算法的模型評價(jià)結(jié)果對比如圖7所示。
邏輯回歸(LR) 支持向量機(jī)(SVM)圖7 LR與SVM預(yù)測結(jié)果對比圖
從SVM算法訓(xùn)練結(jié)果可見,該算法對核心引文預(yù)測結(jié)果較LR更高,在356條數(shù)據(jù)中,該算法誤將核心判定為非核心21篇,誤將非核心判定為核心6篇,預(yù)測準(zhǔn)確率為92.416%, 科恩卡帕系數(shù)值為0.848。
對比可見,兩個模型對“核心引文”預(yù)測準(zhǔn)確率都很高,其中SVM算法在準(zhǔn)確率以及科恩卡帕系數(shù)值上表現(xiàn)略好。故本研究選擇使用SVM算法建立的模型對預(yù)測集進(jìn)行預(yù)測,并根據(jù)預(yù)測的結(jié)果進(jìn)行后續(xù)研究分析。
此次建模所需的4項(xiàng)關(guān)鍵指標(biāo)中,除引文所屬章節(jié)名稱可通過讀取全文后進(jìn)行模式匹配獲取,引用情感、引文功能、引用對象類型均屬自然語言處理(Natural Language Processing,NLP)范疇,其中引用情感主要是情感分析,引文功能可理解為對引用意圖識別分類,引用對象類型則屬于文本分類問題。這些均可通過深度神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)并自動識別[5]。2022年底,隨著ChatGPT的“出圈”,ChatGPT在自然語言處理任務(wù)中文本分類、語義角色標(biāo)注、機(jī)器閱讀理解等方面的優(yōu)勢[30]與引文內(nèi)容特征分析、提取、標(biāo)注與分類的需求較為契合。因此,本研究進(jìn)一步測試了利用ChatGPT技術(shù)完成指標(biāo)自動獲取及標(biāo)注的效果。
4.4.1 特征指標(biāo)自動提取及問題設(shè)計(jì)
研究始于2023年2月,使用ChatGPT 3.5版本。測試ChatGPT能否直接根據(jù)引文內(nèi)容對其效用進(jìn)行分類,發(fā)現(xiàn)效果并不理想。后對整個提取流程進(jìn)行分解,先將施引文獻(xiàn)作為背景信息,再設(shè)計(jì)特征分類提示詞(Prompt),然后利用ChatGPT識別引文特征,最后寫入表格文件Excel,完成特征自動提取。
首先,將施引文獻(xiàn)作為背景信息通過共享pdf鏈接的方式輸入ChatGPT,以確保ChatGPT完全基于施引文獻(xiàn)背景輸出特征分類。
再進(jìn)行Prompt設(shè)置。Prompt可理解為分類標(biāo)準(zhǔn)的“提示語”,指輸入的文本段落或短語,作為生成模型輸出的起點(diǎn)或引導(dǎo),可以是一個問題、一段描述或任何形式的文本輸入[31]。Prompt需針對“引用情感、引文功能、引用對象類型”屬性及分類特征分別設(shè)置。分類依據(jù)引文內(nèi)容標(biāo)注框架,但為方便機(jī)器識別,將框架中引文功能簡化為研究基礎(chǔ)(基于、使用、支撐)、相關(guān)研究(比較、相關(guān)研究)、背景資料(背景介紹、未來啟發(fā))3類,經(jīng)多次交互提問及分類輸出效果測試后,確定關(guān)于“引用情感,引文功能,引用對象類型”特征的Prompt(如圖8所示)。
人工標(biāo)引數(shù)據(jù)SVM評價(jià)結(jié)果 自動獲取數(shù)據(jù)SVM模型評價(jià)結(jié)果圖8 自動獲取數(shù)據(jù)與人工標(biāo)引數(shù)據(jù)SVM算法預(yù)測結(jié)果對比圖
在數(shù)據(jù)輸入階段,輸入引文功能及引用對象的特征分類提示詞及引文列表即可識別相關(guān)特征,情感特征提取需輸入情感特征分類提示詞及引文所在語句。最后,對輸出結(jié)果進(jìn)行格式化處理,分別輸入到Excel文檔,完成特征自動提取。
4.4.2 模型分類效果對比
為檢測自動特征提取的分類效果,使用SVM算法及相同的訓(xùn)練集和測試集,分別對自動化處理后的數(shù)據(jù)和人工標(biāo)記數(shù)據(jù)進(jìn)行模型訓(xùn)練,對比發(fā)現(xiàn),雖然ChatGPT對于引文特征的自動分類無法達(dá)到人工標(biāo)引的高準(zhǔn)確率,但在保證較好的預(yù)測效果的同時,可有效提升特征提取效率。
研究核心在于排除僅依據(jù)頻次無法排除的“無效”引文。故針對研究全數(shù)據(jù)集,將基于效用與基于頻次的引文分析結(jié)果進(jìn)行對比發(fā)現(xiàn),集合1和2共有212種期刊重復(fù)(如圖9所示),說明區(qū)域2的212種期刊不僅引用頻次靠前,也屬于核心效用引文期刊。其中,集合1(實(shí)線部分)為利用本模型識別出核心效用引文分布的315 種期刊;集合2 ( 虛線部分) 為1778篇引文分布的570 種期刊按引用頻次降序排列的前315 個期刊。區(qū)域1的103種期刊雖然頻次較高,但從內(nèi)容效用的角度并非核心效用引文,不排除存在無效甚至惡意引用的干擾。區(qū)域3的103種期刊上的引文雖引用頻次不高,但卻對施引文獻(xiàn)發(fā)揮了相對較高的學(xué)術(shù)效用。由此可見,基于效用與基于頻次的引文分析結(jié)果存在一定差異,單純基于頻次的引文分析無法排除無效引文干擾,也存在丟失部分有效引文的風(fēng)險(xiǎn)?;谛в玫囊姆治隹膳懦糠址呛诵男в靡?更客觀地反映出“有效”引用,而依此開展的各項(xiàng)應(yīng)用也將更加科學(xué)。
圖9 高引用頻次期刊與核心引文期刊對比結(jié)果
在特定場景下,如資源保障評估、學(xué)術(shù)影響力評價(jià)等,有效引文才是評價(jià)結(jié)果科學(xué)客觀的基礎(chǔ)。行業(yè)中“他引”標(biāo)準(zhǔn)的提出與嚴(yán)控也正是引文效用價(jià)值的體現(xiàn)。由此,單純的頻次分析做出的判斷必然有失偏頗。同樣,在學(xué)術(shù)熱點(diǎn)追蹤、合作網(wǎng)絡(luò)發(fā)現(xiàn)過程中,過多的無效、虛假引用也將成為干擾導(dǎo)致“迷航”。因此在這類應(yīng)用場景下,引文效用所體現(xiàn)出的學(xué)術(shù)論證作用尤為重要,以此為基礎(chǔ)的數(shù)據(jù)分析也更加科學(xué)。
研究中通過LR方法與SVM訓(xùn)練結(jié)果對比發(fā)現(xiàn),兩個模型對核心引文預(yù)測的準(zhǔn)確率都很高,其中SVM預(yù)測效果相對更好。對比人工與自動分類標(biāo)引,自動分類雖需經(jīng)過輸入背景文獻(xiàn)、提示語、相關(guān)文本,導(dǎo)出并格式化輸出結(jié)果等步驟,但完成效率較人工逐條判斷仍有大幅提升。其預(yù)測結(jié)果準(zhǔn)確率雖略低于人工,但準(zhǔn)確率及科恩卡帕系數(shù)值也仍處于較為理想的范圍,可見“ChatGPT+SVM”模式可在保證較好預(yù)測效果的同時,顯著提升特征識別與分類效率,這為批量引文特征自動提取與分類提供了新思路。
本研究針對醫(yī)學(xué)學(xué)科論文使用ChatGPT3.5版本進(jìn)行引文特征的自動提取及分類,雖然數(shù)據(jù)量及學(xué)科范圍有一定局限,但其提取及分類效果已初現(xiàn)端倪。研究中采用少樣本學(xué)習(xí)(Few-shot Learning)模式,需反復(fù)給出提示詞進(jìn)行預(yù)訓(xùn)練。而問答字?jǐn)?shù)的限制,也使問答過程中出現(xiàn)“記憶缺失”的現(xiàn)象,影響分類效率。
2023年3月,隨著GPT-4的發(fā)布,ChatGPT對話生成能力、語言理解能力、模型可定制性等有所提升。于本研究而言,一方面,要客觀看待ChatGPT對于引文自動分類的作用。引文效用分類首要依據(jù)便是施引文獻(xiàn)內(nèi)容,其次仍需相關(guān)專業(yè)及信息知識。ChatGPT在語料庫增加、對話能力增強(qiáng)等方面的進(jìn)步,提升了其對文獻(xiàn)的理解能力,但對文獻(xiàn)內(nèi)容并無影響。換言之,在施引文獻(xiàn)內(nèi)容、引文相關(guān)屬性、分類原則確定的前提下,引文效用具備一定的客觀性,不會發(fā)生較大偏差。另一方面,ChatGPT所具備的微調(diào)(Fine-tuning)功能為構(gòu)建大規(guī)模引文自動分類模型提供了可能。微調(diào)功能相當(dāng)于利用在大數(shù)據(jù)集上預(yù)訓(xùn)練好的模型,通過自有的數(shù)據(jù)進(jìn)行模型微調(diào),即在底層數(shù)據(jù)上進(jìn)行模型的“特殊訓(xùn)練”。因此,可根據(jù)引文效用分類的具體應(yīng)用場景,準(zhǔn)備一定量訓(xùn)練數(shù)據(jù),設(shè)定引文分類標(biāo)準(zhǔn),實(shí)現(xiàn)引文分類定制化模型微調(diào)模型(Fine-tuned Model),既降低了構(gòu)建超大規(guī)模模型訓(xùn)練語料庫的操作難度,又可得到比直接用自己數(shù)據(jù)訓(xùn)練更好的效果。
本文從引文效用的角度構(gòu)建核心引文識別模型并探索了利用ChatGPT實(shí)現(xiàn)過程自動化的可行性。為基于引文內(nèi)容分析、引文自動分類及應(yīng)用提供了一種新思路。但本研究尚在探索階段,一方面數(shù)據(jù)選取存在學(xué)科與數(shù)據(jù)量的局限性,可能導(dǎo)致學(xué)科資源呈現(xiàn)不全面。另一方面,利用ChatGPT 3.5版本尚未充分挖掘并呈現(xiàn)出其對于引文特征識別與分類的顯著優(yōu)勢,對引文特征識別與提取的自動化程度也有待深入探索。在后續(xù)研究中,將擴(kuò)大取樣范圍及數(shù)量,也會進(jìn)一步探索基于各種大型語言模型提高引文自動化分類的效率與質(zhì)量的方法與路徑。