基于深度學(xué)習(xí)技術(shù)的科技文獻(xiàn)引文分類研究綜述

2023-08-25 01:08:14李俊飛徐黎明汪洋魏鑫

數(shù)據(jù)與計(jì)算發(fā)展前沿 2023年4期

李俊飛，徐黎明，汪洋＊，魏鑫

1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心，北京 100083

2.中國(guó)科學(xué)院大學(xué)，計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，北京 100049

引言

由于科技文獻(xiàn)中的引文具備一定的同行評(píng)議效果，所以科技文獻(xiàn)引文分析工作一直是文獻(xiàn)研究的重點(diǎn)。引文分類工作能夠?yàn)閷W(xué)術(shù)影響力評(píng)估[1-2]、文獻(xiàn)檢索推薦等提供基礎(chǔ)數(shù)據(jù)，是科技文獻(xiàn)引文分析的重要組成部分，得到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注?？萍嘉墨I(xiàn)引文分類研究經(jīng)歷了兩個(gè)階段，目前處于第二階段的快速發(fā)展期。第一階段：引文分類的必要性和可行性研究。該階段的研究者多為領(lǐng)域?qū)＜?，他們?cè)趯?duì)科技文獻(xiàn)引文內(nèi)容分析的基礎(chǔ)上，建立起引文分類體系；通過(guò)實(shí)驗(yàn)證實(shí)了引文分類的必要性和可行性；該階段的主要特點(diǎn)是人工進(jìn)行、小范圍、小樣本研究。第二階段：引文分類技術(shù)研究。該階段引文分類與計(jì)算機(jī)技術(shù)相結(jié)合，以引文分類的自動(dòng)化、規(guī)?；椭悄芑癁槟康?。引文分類系統(tǒng)由三部分構(gòu)成：引文分類體系、引文分類模型和數(shù)據(jù)集。本文主要關(guān)注引文分類模型的發(fā)展，同時(shí)對(duì)分類體系和數(shù)據(jù)集進(jìn)行了匯總。

近年來(lái)，隨著深度學(xué)習(xí)技術(shù)和預(yù)訓(xùn)練語(yǔ)言模型的發(fā)展，科技文獻(xiàn)引文分類已取得重大進(jìn)展。但目前仍然缺乏對(duì)現(xiàn)有方法和最新趨勢(shì)的全面調(diào)研。為了回顧已有的進(jìn)展，并幫助研究人員在未來(lái)開展新的工作，本文對(duì)近12 年來(lái)的科技文獻(xiàn)引文分類工作發(fā)展進(jìn)行了全面的調(diào)研和總結(jié)。盡管目前的科技文獻(xiàn)引文分類模型在標(biāo)準(zhǔn)數(shù)據(jù)集上取得了顯著的效果，但仍然存在較多問(wèn)題需要解決。例如，現(xiàn)有分類模型大部分基于通用文本分類模型，沒(méi)有針對(duì)科技文獻(xiàn)引文分類的專用模型，且分類準(zhǔn)確率相對(duì)通用領(lǐng)域的文本分類還有較大差距，影響了引文分類結(jié)果的推廣和應(yīng)用。本文對(duì)科技文獻(xiàn)引文分類的特點(diǎn)和挑戰(zhàn)進(jìn)行了詳細(xì)總結(jié)，也為科技文獻(xiàn)引文分類后續(xù)研究的重點(diǎn)提出了建議。

綜上所述，本文貢獻(xiàn)可以總結(jié)為以下幾點(diǎn)：

（1）總結(jié)歸納：本文對(duì)基于深度學(xué)習(xí)技術(shù)的科技文獻(xiàn)引文分類的發(fā)展進(jìn)行詳細(xì)總結(jié)，主要包括基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)的分類模型和基于預(yù)訓(xùn)練語(yǔ)言模型的分類模型。

（2）存在問(wèn)題和展望：本文討論并分析了現(xiàn)有分類模型存在的問(wèn)題和挑戰(zhàn)，提出了下一步研究工作應(yīng)該關(guān)注的方向和重點(diǎn)。

（3）豐富的數(shù)據(jù)集：本文收集了科技文獻(xiàn)引文分類的大量數(shù)據(jù)集。

本文組織結(jié)構(gòu)如下：第1 節(jié)概述了科技文獻(xiàn)引文分類體系，數(shù)據(jù)集和應(yīng)用廣泛的數(shù)據(jù)集；第2 節(jié)介紹基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的引文分類技術(shù)；第3 節(jié)介紹了基于深度學(xué)習(xí)技術(shù)的引文分類技術(shù)發(fā)展；第4節(jié)對(duì)全文進(jìn)行總結(jié)；第5 節(jié)對(duì)目前存在的問(wèn)題及下一步研究方向進(jìn)行討論。

1 科技文獻(xiàn)引文分類體系

1.1 科技文獻(xiàn)引文分類的起源

20 世紀(jì)60 年代，科學(xué)引文索引（Science Citation Index, SCI）的發(fā)展開創(chuàng)了引文分析的大規(guī)模實(shí)踐，其專注于學(xué)者間、期刊間的引用次數(shù)的統(tǒng)計(jì)，引用網(wǎng)絡(luò)的建立[3]。隨后，以引用頻次為基礎(chǔ)量化科研人員研究成果的h 指數(shù)（h-index）[4]、期刊影響因子（Impact Factor,IF）等指標(biāo)構(gòu)成了現(xiàn)有的科技評(píng)價(jià)[5]和學(xué)術(shù)影響力評(píng)估體系。然而這種將每次引用的重要性同等看待的評(píng)估方法受到眾多學(xué)者的詬病，他們認(rèn)為并非所有引用的重要性都是一樣的，并嘗試對(duì)引文按照一定的分類標(biāo)準(zhǔn)進(jìn)行分類（不同的類別表示不同的重要性），然后將分類的統(tǒng)計(jì)結(jié)果引入到學(xué)術(shù)影響力評(píng)估體系中構(gòu)建全面而合理的學(xué)術(shù)影響力評(píng)估體系。例如：Voos 等[6]第一次提出了引用平等性問(wèn)題，分析了引文在簡(jiǎn)介、方法、討論或者結(jié)論段落的位置后發(fā)現(xiàn)簡(jiǎn)介相對(duì)其他段落包含更多的被引文獻(xiàn)；因此他們認(rèn)為引文的貢獻(xiàn)不但應(yīng)該基于其數(shù)量，而且還與其在文獻(xiàn)中的位置相關(guān)。Herlach 等[7]擴(kuò)展了這個(gè)觀點(diǎn)，認(rèn)為對(duì)于被引文獻(xiàn)在方法或者討論段落再一次被引用應(yīng)該被認(rèn)為有更大的貢獻(xiàn)。Small[8]是第一個(gè)研究引用科學(xué)內(nèi)容的學(xué)者，他認(rèn)為被高度引用的文章并不是學(xué)科前沿的標(biāo)志。

1.2 科技文獻(xiàn)引文分類體系匯總

早期的一些領(lǐng)域?qū)＜覐囊脛?dòng)機(jī)、情感、目的等不同的角度對(duì)引文類別進(jìn)行劃分和小范圍的標(biāo)注，不同的標(biāo)注類別代表著引文在文章中不同的重要性。例如：Garfield[9]從作者引用其他文獻(xiàn)動(dòng)機(jī)的角度，通過(guò)觀察列出“提供閱讀背景、修正他人工作、給予相關(guān)榮譽(yù)”等15 種原因。這也是學(xué)界第一次從引用動(dòng)機(jī)的角度對(duì)引文進(jìn)行深層次的分析。

Michael 等[10]研究了引用的冗余模式，他們對(duì)30 篇理論高能物理學(xué)文章中575 篇參考文獻(xiàn)進(jìn)行了分析，從概念的使用、是否冗余、是否評(píng)論、觀點(diǎn)的肯定與否，將引用劃分為4 個(gè)大類，每個(gè)大類按照肯定、否定、中立劃分為3 個(gè)小類，共12 個(gè)小類，并且發(fā)現(xiàn)1/3 的參考文獻(xiàn)是冗余的，1/7 是否定的，2/5 是敷衍的。

早期的引文分類是學(xué)者們對(duì)少量的特定領(lǐng)域文獻(xiàn)引文分析后，提出的分類體系，其實(shí)證了引文分類的合理性[8-10]；同時(shí)導(dǎo)致了研究人員各自為政、標(biāo)注體系過(guò)多的問(wèn)題。學(xué)界和業(yè)界目前并沒(méi)有統(tǒng)一的標(biāo)注規(guī)范，影響研究成果的應(yīng)用和推廣。表1 展示了現(xiàn)有的引文分類體系和數(shù)據(jù)集，其中ALC-ARC和SciCite 數(shù)據(jù)集是現(xiàn)階段引文分類領(lǐng)域公認(rèn)的在分類標(biāo)準(zhǔn)和樣本數(shù)量方面較好的數(shù)據(jù)集，被廣泛使用，見表2、表3。

表1 科技文獻(xiàn)引文分類體系Table 1 Citation Function Classification Schemes

表2 ACL-ARC 數(shù)據(jù)集Table 2 ACL-ARC Datasets

表3 SciCite 數(shù)據(jù)集Table 3 SciCite Datasets

總之，學(xué)者們對(duì)引文從不同的角度進(jìn)行分析、構(gòu)造和命名了眾多的引文分類體系。本文認(rèn)為如從引用目的、引用動(dòng)機(jī)、引文功能、引用意圖等角度看，引文分類的本質(zhì)是通過(guò)對(duì)科技文獻(xiàn)中涉及的外來(lái)要素（引文）進(jìn)行定性分析，根據(jù)其在研究主題的邏輯鏈條中所起的不同作用或者角色，給予不同的標(biāo)簽（不同的標(biāo)簽體現(xiàn)了重要性的不同）；從整體上看，這些分類體系之間只是分類的角度、粒度不同，相互之間存在包含、相交或者并列關(guān)系。本文統(tǒng)稱為科技文獻(xiàn)引文分類體系。

2 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的引文分類研究

2010 年以前，計(jì)算語(yǔ)言學(xué)、統(tǒng)計(jì)機(jī)器學(xué)習(xí)技術(shù)的發(fā)展以及文獻(xiàn)全文獲取相對(duì)便捷，引文分類研究重點(diǎn)由分類體系轉(zhuǎn)向分類方法的研究，其中兩種主要的方法被提出：第一種方法使用基于規(guī)則的策略，通過(guò)預(yù)定義線索詞或者短語(yǔ)集合等語(yǔ)言學(xué)特征，利用決策樹分類器分類[20-22]；第二種方法使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)分類器，結(jié)合關(guān)鍵詞詞典或者線索短語(yǔ)進(jìn)行分類，如Teufel 等[11]使用將K 設(shè)置為3 的K-NN分類器[23]，Angrosh 等[24]使用條件隨機(jī)場(chǎng)分類器（Conditional Random Fields, CRF)[25]，尹莉等[26]使用支持向量機(jī)分類器（Support Vector Machines, SVM）[27]，柏晗[28]使用貝葉斯網(wǎng)絡(luò)算法進(jìn)行引文分類。以上基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法需要首先由語(yǔ)言學(xué)家人工抽取引文中的語(yǔ)言學(xué)特征，然后使用具備不同特征的樣本數(shù)據(jù)訓(xùn)練分類模型完成引文的自動(dòng)分類。使用基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法可以完成大規(guī)模的引文自動(dòng)分類，然而也存在兩個(gè)明顯的缺點(diǎn)：其一，由于需要人工抽取語(yǔ)言學(xué)特征，導(dǎo)致訓(xùn)練數(shù)據(jù)集規(guī)模不可能太大；其二，不同學(xué)科的語(yǔ)言學(xué)特征也存在差別，而語(yǔ)言學(xué)家由于缺乏相應(yīng)的專業(yè)知識(shí)背景，其提取精度也存在一定的偏差。

統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在進(jìn)行文本分類時(shí)需要事先設(shè)計(jì)特征模板，然后從語(yǔ)法、關(guān)鍵詞、線索詞組等語(yǔ)言學(xué)的角度人工抽取特征，但是大而全的特征組設(shè)計(jì)可能使許多特征在數(shù)據(jù)集中僅僅出現(xiàn)一次，這樣的特征在統(tǒng)計(jì)學(xué)上毫無(wú)意義。在完成特征抽取后，將這些特征輸入分類器進(jìn)行分類器的訓(xùn)練及預(yù)測(cè)。這種流水線式的作業(yè)方式存在嚴(yán)重的誤差傳播問(wèn)題，亦即前一個(gè)模塊產(chǎn)生的錯(cuò)誤被輸入到下一個(gè)模塊中產(chǎn)生更大的錯(cuò)誤，最終導(dǎo)致了整個(gè)系統(tǒng)的脆弱性。為了解決傳統(tǒng)機(jī)器學(xué)習(xí)與自然語(yǔ)言處理中的數(shù)據(jù)稀疏、人工特征模板和誤差傳播等問(wèn)題，人們將注意力轉(zhuǎn)向了另一種機(jī)器學(xué)習(xí)的重要分支——深度學(xué)習(xí)。

3 基于深度學(xué)習(xí)的引文分類研究

深度學(xué)習(xí)領(lǐng)域的兩大代表算法，卷積神經(jīng)網(wǎng)絡(luò)系列（Convolutional Neural Networks, CNNs）[29]、循環(huán)神經(jīng)網(wǎng)絡(luò)系列（Recurrent Neural Networks, RNNs）[30]各具特色。一般來(lái)說(shuō)，CNNs 能夠較好地挖掘輸入數(shù)據(jù)的局部依賴特征，因此適合于空間任務(wù)，如圖像處理等；RNNs 能夠較好地抽取序列數(shù)據(jù)的前后依賴特征，適合于序列任務(wù)，如語(yǔ)音、文本等。因此，在自然語(yǔ)言處理任務(wù)中使用RNNs 更為合適。特別是RNNs 家族中的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（Long Short-Term Memory, LSTM）[31]為建模句子中單詞之間的長(zhǎng)距離依存創(chuàng)造了條件。然而，RNNs 的缺陷在于難以并行化，而CNNs 在并行化方面具備天然優(yōu)勢(shì)。在句子顆粒度上進(jìn)行的基礎(chǔ)自然語(yǔ)言處理（Natural Language Processing, NLP）任務(wù)（中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別和句法分析等）經(jīng)常采用RNNs 來(lái)實(shí)現(xiàn)。自2018 年開始興起的一系列基于Transformer[32]的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型與基于CNNs 或LSTM 的上下文化嵌入模型相比，其使用更深層的網(wǎng)絡(luò)架構(gòu)，并在大量文本語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練，在許多下游NLP 任務(wù)中達(dá)到了新的技術(shù)水平。

3.1 基于卷積神經(jīng)網(wǎng)絡(luò)的引文分類研究

3.1.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)（CNN）最先用于圖像分類。對(duì)于文本分類任務(wù)，首先需要將文本表示為類似于圖像表示的向量，然后CNN 從多個(gè)角度提取文本特征。具體過(guò)程是：首先將輸入文本的詞向量拼接成矩陣，然后矩陣被送入卷積層，卷積層使用數(shù)個(gè)不同維數(shù)的卷積核進(jìn)行特征提取，最后卷積層的結(jié)果經(jīng)過(guò)池化層，獲得文本的最終向量表示，類別由最終向量預(yù)測(cè)。將CNNs 用于文本處理任務(wù)，最經(jīng)典的是2015 年Chen 提出Text-CNN 模型[33]，隨后CNNs 模型開始在文本分類任務(wù)上廣泛應(yīng)用。2016年，F(xiàn)acebook Research 開源了名為fasttext[34]的文本表達(dá)和分類的計(jì)算庫(kù)。fasttext 是基于Chen 等[33,35,36]所提出算法的實(shí)現(xiàn)，其針對(duì)變形詞匯表達(dá)，為線性分類優(yōu)化提供了優(yōu)秀的解決方案。有學(xué)者將CNN 和RNN 的文本分類能力進(jìn)行了對(duì)比實(shí)驗(yàn)，發(fā)現(xiàn)在一些任務(wù)上CNN 比RNN 表現(xiàn)要好[37]。

3.1.2 基于卷積神經(jīng)網(wǎng)絡(luò)的引文分類模型

Lauscher 等[38]第一次提出將CNN 應(yīng)用于定性的引文分析領(lǐng)域，分別從引文的情感和引用目的兩個(gè)方面進(jìn)行分類。在模型結(jié)構(gòu)方面，提出由詞嵌入（Word Embedding）技術(shù)結(jié)合CNN 分類模型以及SVM 分類模型結(jié)合進(jìn)行引文分類性能對(duì)比實(shí)驗(yàn)。在模型設(shè)計(jì)中，詞嵌入技術(shù)使用domain-specific word embeddings，即在訓(xùn)練詞向量時(shí)使用與待分類引文文獻(xiàn)領(lǐng)域背景相同或者相似的語(yǔ)料庫(kù)，并與通用語(yǔ)料庫(kù)中計(jì)算的詞向量進(jìn)行交叉對(duì)比，驗(yàn)證了domainspecific word embeddings 技術(shù)的有效性。從作者的實(shí)驗(yàn)效果看，展示出兩個(gè)結(jié)論：其一，無(wú)論是引文情感分類還是引用目的分類，采用domain-specific word embeddings 的正確率均略高于通用詞嵌入，驗(yàn)證了在具有領(lǐng)域背景的語(yǔ)料中進(jìn)行詞嵌入計(jì)算的有效性；其二，CNN 結(jié)構(gòu)的分類器分類準(zhǔn)確率高于SVM 分類器?？傊褂肅NN 技術(shù)進(jìn)行引文分類相對(duì)于傳統(tǒng)的SVM 分類器，其優(yōu)點(diǎn)是不需要人工進(jìn)行特征的提取和設(shè)計(jì)，在分類準(zhǔn)確率方面優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)的方法，但是從作者的實(shí)驗(yàn)結(jié)果來(lái)看，分類性能提升幅度并不大。

周文遠(yuǎn)等[39]使用稱之為AttentionSBGMC 的模型進(jìn)行引文情感和引用目的分類，使用BiGRU[40]和Multi-CNN 進(jìn)行引文的特征提取。由BiGRU 進(jìn)行序列全局特征的提取，由Multi-CNN 進(jìn)行序列局部特征的提取，在引文情感分類中得到了83.19%的F1 值，引用目的分類中得到了84.92%的F1 值。雖然作者在實(shí)驗(yàn)中取得了較好的指標(biāo)，但是其模型結(jié)構(gòu)復(fù)雜，基本上是熱點(diǎn)技術(shù)的拼接。實(shí)驗(yàn)結(jié)論對(duì)比目標(biāo)為較早時(shí)期的SVM、LSTM、CNN 等網(wǎng)絡(luò)結(jié)構(gòu)，缺乏最新的模型分類結(jié)果的對(duì)比，對(duì)于結(jié)構(gòu)中的各個(gè)模塊所起到的作用沒(méi)有進(jìn)行實(shí)驗(yàn)分析。上述觀點(diǎn)匯總見表4。

表4 基于卷積神經(jīng)網(wǎng)絡(luò)模型的分類性能Table 4 Classification performance based on convolutional neural network model

基于卷積神經(jīng)網(wǎng)絡(luò)的科技文獻(xiàn)引文分類模型優(yōu)缺點(diǎn)總結(jié)如下文。

優(yōu)點(diǎn)：基于CNN 的分類模型相對(duì)于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的分類方法而言，CNN 擅長(zhǎng)空間特征的學(xué)習(xí)和捕獲，卷積相當(dāng)于N-gram（使用一定長(zhǎng)度的卷積核），使用卷積核提取相關(guān)特征，避免了手工設(shè)計(jì)特征的步驟，具有高并行、快速分類的優(yōu)點(diǎn)。

缺點(diǎn)：CNN 模型提取依賴特征的長(zhǎng)度有限，并且不夠直觀、可解釋性差，尤其是在分析分類錯(cuò)誤原因時(shí)由于隱藏?cái)?shù)據(jù)的不可讀性，無(wú)法解釋分類錯(cuò)誤的原因。

3.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的引文分類研究

3.2.1 長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）將文本視為一個(gè)單詞序列，旨在捕獲文本的單詞依賴項(xiàng)和文本結(jié)構(gòu)，通過(guò)遞歸計(jì)算獲取長(zhǎng)期依賴性。RNN 模型學(xué)習(xí)歷史信息，考慮適合文本分類任務(wù)的所有單詞中的位置信息。在RNN 的反向傳播過(guò)程中，通過(guò)導(dǎo)數(shù)的連續(xù)乘法計(jì)算梯度來(lái)調(diào)整權(quán)重，如果導(dǎo)數(shù)非常小則可能會(huì)出現(xiàn)連續(xù)乘法導(dǎo)致梯度消失問(wèn)題。為了解決RNN 的梯度消失和梯度爆炸問(wèn)題而設(shè)計(jì)出的LSTM 網(wǎng)絡(luò)及其變種GRU[40]提取長(zhǎng)序列全局特征的能力較好。LSTM通過(guò)引入一個(gè)存儲(chǔ)單元來(lái)記憶任意時(shí)間間隔內(nèi)的值，以及3 個(gè)門（輸入門、輸出門、遺忘門）來(lái)調(diào)節(jié)信息進(jìn)出單元，解決了普通RNN 所面臨的梯度消失或爆炸問(wèn)題，在NLP 領(lǐng)域得到廣泛的應(yīng)用。GRU 的優(yōu)點(diǎn)是參數(shù)更少、更容易收斂，但是在數(shù)據(jù)集很大的情況下LSTM 表達(dá)性能更好[37]，其能夠?qū)卧~序列（或上下文）的長(zhǎng)期相關(guān)性進(jìn)行建模，在機(jī)器翻譯[41]、語(yǔ)音識(shí)別和文本蘊(yùn)涵識(shí)別[42]等各種NLP 任務(wù)中取得了顯著成功。

3.2.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的引文分類模型

Munkhdalai 等[43]提出一種新的復(fù)合注意力網(wǎng)絡(luò)（Compositional Attention Network, CAN），其使用雙向LSTM 網(wǎng)絡(luò)進(jìn)行單詞的編碼，將單詞序列按照3 個(gè)為一組進(jìn)行劃分，使用注意力機(jī)制提取局部特征，同時(shí)使用注意力機(jī)制進(jìn)行完整序列的全局特征提取，最后將局部特征和全局特征再次使用注意力機(jī)制進(jìn)行特征提取。作者根據(jù)樣本句子是否包含上下文句構(gòu)造兩個(gè)數(shù)據(jù)集，只包含引用句的F1 值為68.61%，包含引用句上下各一句的數(shù)據(jù)集F1 值達(dá)到了75.57%。作者提出的模型優(yōu)點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單，模型訓(xùn)練時(shí)間短，同時(shí)證明了引文上下文為分類提供了更多的語(yǔ)義信息，有利于提高分類正確率；缺點(diǎn)是沒(méi)有使用詞嵌入技術(shù)，直接使用LSTM 進(jìn)行編碼，導(dǎo)致分類準(zhǔn)確率偏低。

Hassan 等[44]通過(guò)專家標(biāo)注的方式將全文中的引文分為重要和不重要兩類，將分類結(jié)果作為評(píng)估文獻(xiàn)影響力的指標(biāo)之一。其使用雙層單向LSTM 網(wǎng)絡(luò)進(jìn)行單詞的編碼，輸出引文的類別預(yù)測(cè)。作者將分類結(jié)果與傳統(tǒng)機(jī)器學(xué)習(xí)分類器SVM、隨機(jī)森林（Random Forest, RF)[45]、樸素貝葉斯、決策樹等分類器進(jìn)行對(duì)比，取得了較好的成績(jī)。該分類網(wǎng)絡(luò)的結(jié)構(gòu)雖然具有簡(jiǎn)單、易訓(xùn)練等優(yōu)點(diǎn)，分類準(zhǔn)確率達(dá)到92.57%，但缺點(diǎn)也非常明顯，例如樣本類別過(guò)于簡(jiǎn)單、與其他引文分類體系相比沒(méi)有扎實(shí)的理論基礎(chǔ)、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)過(guò)于簡(jiǎn)單，并且未與雙向LSTM 網(wǎng)絡(luò)進(jìn)行對(duì)比驗(yàn)證等。

Prester 等[46]認(rèn)為普通的引文分類任務(wù)只是進(jìn)行了不同引文類型的分類，并不關(guān)注引文概念內(nèi)容和概念影響。為了解決這一問(wèn)題，作者提出了深層概念影響分類方法（Deep Content-Enriched Ideational Impact Classification, Deep-CENIC）。其分類模型整合了基于雙向LSTM 的編碼模塊和人工抽取的語(yǔ)法特征，將語(yǔ)義及上下文特征混合編碼，然后經(jīng)過(guò)全連接神經(jīng)網(wǎng)絡(luò)輸出分類結(jié)果。作者的這種將傳統(tǒng)的人工制定特征的方法與自動(dòng)抽取特征的深度學(xué)習(xí)的方法相結(jié)合是該模型的一個(gè)亮點(diǎn)，分類F1 值達(dá)到了83.36%。但是該模型的輸入還需要進(jìn)行人工的特征提取，與傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法相比并無(wú)二致，只是提高了F1 值。

Cohan 等[16]提出了一種基于神經(jīng)網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)框架進(jìn)行引文目的分類。該模型將詞嵌入（GloVe或者 ELMo）[15,47]結(jié)果輸入一個(gè)BiLSTM 網(wǎng)絡(luò)進(jìn)行詞編碼后結(jié)合注意力機(jī)制進(jìn)行序列的編碼，然后將編碼結(jié)果輸入引用功能、引文段落、引文價(jià)值3 個(gè)分類器進(jìn)行同步訓(xùn)練。作者在ACL-ARC[48]公開數(shù)據(jù)集上進(jìn)行了驗(yàn)證實(shí)驗(yàn)，取得了67.9%的F1 值；提出了截止2021 年為止最大的一個(gè)引文功能分類數(shù)據(jù)集SciCite[16]，并在該數(shù)據(jù)集上取得了84.0%的F1 值。作者驗(yàn)證了模型中使用的注意力機(jī)制、詞嵌入、多任務(wù)學(xué)習(xí)技術(shù)對(duì)引文功能分類任務(wù)準(zhǔn)確率的提升作用。但該方法也存在一些缺點(diǎn)：其一，訓(xùn)練數(shù)據(jù)準(zhǔn)備過(guò)于復(fù)雜，需要提取引文所在段落的標(biāo)題，并需要對(duì)引文的價(jià)值進(jìn)行評(píng)估；其二，作者將引文所在段落標(biāo)題作為分類任務(wù)之一，在一定程度上利用了引用在文獻(xiàn)中的位置分布特征，然而該特征并不是引文功能的確定特征，容易引入噪聲，影響分類準(zhǔn)確率。

Nicholson 等[49]為了彌補(bǔ)通用引文網(wǎng)絡(luò)只展示文獻(xiàn)元數(shù)據(jù)的問(wèn)題，提出了智能引文索引（smart citation index scite），通過(guò)將引文及周邊句子作為分類樣本，使用深度學(xué)習(xí)技術(shù)對(duì)樣本進(jìn)行分類來(lái)確定引用目的和情感。模型中作者使用ELMo 詞嵌入，將BiGRU 作為編碼和分類器、SciBERT[50]作為主要的對(duì)比模型，結(jié)果顯示SciBERT 在3 種分類標(biāo)簽的F1 值分別取得了58.97%、64.80%、97.28%的好成績(jī)。作者雖然在分類正確率上取得了較高的分值，使用了最新的SciBERT 作為詞嵌入手段，但是作者沒(méi)有從網(wǎng)絡(luò)結(jié)構(gòu)的角度對(duì)所使用的模型進(jìn)行優(yōu)缺點(diǎn)分析，并且實(shí)驗(yàn)結(jié)果中并沒(méi)有對(duì)分類結(jié)果進(jìn)行整體的F1 值統(tǒng)計(jì)，以及未對(duì)不同標(biāo)簽間指標(biāo)的差距進(jìn)行分析說(shuō)明。具體性能指標(biāo)總結(jié)見表5。

表5 基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的分類性能Table 5 Classification performance based on recurrent neural network model

該模型優(yōu)缺點(diǎn)總結(jié)如下。

優(yōu)點(diǎn)：基于LSTM 的模型可以在一定程度上彌補(bǔ)CNN 模型提取依賴特征長(zhǎng)度有限的缺點(diǎn)，在一定程度上改善了長(zhǎng)距依賴問(wèn)題。

缺點(diǎn)：存在處理長(zhǎng)文本時(shí)耗時(shí)較長(zhǎng)的問(wèn)題，考慮到上下文表示，一般還需采用雙向RNN 結(jié)構(gòu)，進(jìn)一步降低了處理效率；在模型效果上，由于數(shù)據(jù)需經(jīng)過(guò)很多個(gè)步驟的傳遞，導(dǎo)致有效信息減弱，對(duì)于長(zhǎng)距離依賴問(wèn)題的效果并不突出。

3.3 基于預(yù)訓(xùn)練語(yǔ)言模型的引文分類研究

3.3.1 預(yù)訓(xùn)練語(yǔ)言模型

預(yù)訓(xùn)練語(yǔ)言模型通常使用無(wú)監(jiān)督的方法自動(dòng)挖掘語(yǔ)義知識(shí)，然后構(gòu)造預(yù)訓(xùn)練目標(biāo)以便機(jī)器學(xué)習(xí)理解語(yǔ)義，其最大優(yōu)勢(shì)在于可以有效地學(xué)習(xí)全局語(yǔ)義表示。ELMo 是一種深層語(yǔ)境化的詞表示模型，很容易集成到模型中。它可以模擬單詞的復(fù)雜特征，學(xué)習(xí)不同語(yǔ)境下的不同表達(dá)；它利用雙向LSTM 根據(jù)上下文單詞學(xué)習(xí)每個(gè)單詞的嵌入向量。隨著基于Transformer 編碼器的BERT 預(yù)訓(xùn)練模型在NLP 領(lǐng)域的大放異彩，各種NLP 下游任務(wù)紛紛使用BERT 得到文本向量。Transformer 通過(guò)運(yùn)用Self-Attention 機(jī)制來(lái)并行計(jì)算句子中的每個(gè)單詞或記錄一個(gè)“注意分?jǐn)?shù)”，模擬每個(gè)單詞對(duì)另一個(gè)單詞的影響，從而克服了句子中單詞之間關(guān)系的計(jì)算成本隨著句子長(zhǎng)度的增加而增加的問(wèn)題[51]。例如，以Transformer 為基礎(chǔ)的ALBERT[52]、SciBERT[50]、XLNet[53]、RoBERTa[54]等模型使分類性能顯著提升。XLNet 是一種廣義自回歸預(yù)訓(xùn)練模型，與BERT 不同的是在第一階段不使用帶掩碼的去噪自動(dòng)編碼器，而是使用自回歸語(yǔ)言模型。它使整個(gè)因式分解順序排列的預(yù)期可能性最大化，以學(xué)習(xí)雙向上下文。為了減少參數(shù)，ALBERT 減少了碎片向量的長(zhǎng)度，并與所有編碼器共享參數(shù)。它還將下一個(gè)句子匹配任務(wù)替換為順序任務(wù)，并持續(xù)阻止碎片。在大規(guī)模中文語(yǔ)料庫(kù)上對(duì)ALBERT 模型進(jìn)行預(yù)訓(xùn)練時(shí)，參數(shù)更少、性能更好。RoBERTa 是BERT 的一個(gè)改進(jìn)版本，采用了動(dòng)態(tài)掩蔽方法，每次都會(huì)生成掩蔽圖案，并將一個(gè)序列輸入到模型中。它使用更多數(shù)據(jù)進(jìn)行更長(zhǎng)時(shí)間的預(yù)訓(xùn)練，并估計(jì)各種基本超參數(shù)的影響和訓(xùn)練數(shù)據(jù)的大小。

3.3.2 基于預(yù)訓(xùn)練語(yǔ)言模型的引文分類模型

Beltagy 等[50]使用由18%的計(jì)算機(jī)科學(xué)領(lǐng)域、82%的生物領(lǐng)域文獻(xiàn)構(gòu)成的共計(jì)1.14M 的文獻(xiàn)數(shù)據(jù)集，訓(xùn)練得到基于BERT 結(jié)構(gòu)的SciBERT 預(yù)訓(xùn)練語(yǔ)言模型，使用引文功能分類進(jìn)行模型性能驗(yàn)證。在SciCite 和ACL-ARC 兩個(gè)數(shù)據(jù)集上得到85.49%、70.98%的最好F1 值。SciBERT 的最大貢獻(xiàn)在于證明了在自然語(yǔ)言處理領(lǐng)域中背景知識(shí)的重要性，無(wú)論是文本分類還是摘要等各種下游任務(wù)的實(shí)施，使預(yù)訓(xùn)練語(yǔ)言模型具有相應(yīng)的背景知識(shí)是非常必要和重要的。

XLNet[53]是一種自回歸語(yǔ)言模型。其根據(jù)上文來(lái)預(yù)測(cè)下一個(gè)單詞，在上文中添加了下文信息，解決了BERT 模型忽略了被mask 的單詞之間的依賴性，以及被mask 帶來(lái)的不一致問(wèn)題和無(wú)法同時(shí)引入上下文信息的問(wèn)題。XLNet 在20 個(gè)任務(wù)上的表現(xiàn)優(yōu)于BERT，并在18 個(gè)任務(wù)中實(shí)現(xiàn)最先進(jìn)的結(jié)果。例如問(wèn)答、自然語(yǔ)言推理、情感分析和文檔排名等[55-59]。Mercier 等[60]提出了基于XLNet 的引文影響力分類方法ImpactCite。實(shí)驗(yàn)中與ALBERT、BERT、SciBERT 等預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行性能對(duì)比，在SciCite 數(shù)據(jù)集取得了88.93%的F1 值。作者雖然取得了最好的F1 值，但是并未對(duì)模型之間的結(jié)果差異進(jìn)行詳細(xì)的分析，對(duì)分類結(jié)果的提升部分作出模型結(jié)構(gòu)方面的關(guān)聯(lián)分析。具體性能指標(biāo)總結(jié)見表6。

表6 基于預(yù)訓(xùn)練語(yǔ)言模型的分類性能Table 6 Classification performance based on Pre-training model

Chen 等[62]使用BERT、XLNet 模型，通過(guò)微調(diào)（fine tuning）的方式進(jìn)行引文功能分類，分別在DFKI[63]、UMICH[64]、TKDE[65]數(shù)據(jù)集上取得了87.2%、86.9%、81.6%的F1 值。

Lauscher 等[66]認(rèn)為傳統(tǒng)的引文功能標(biāo)注體系將引文只分一個(gè)功能標(biāo)簽是不合理的。其通過(guò)專家標(biāo)注的方式將一個(gè)引用句標(biāo)注多個(gè)標(biāo)簽，并且對(duì)引文文本進(jìn)行擴(kuò)充，抽取引用句周邊與引用句語(yǔ)義上存在強(qiáng)相關(guān)的語(yǔ)句，與引用句一起組成gold 上下文（gold context），并構(gòu)建了MULTICITE 數(shù)據(jù)集。試驗(yàn)中作者同時(shí)將gold 上下文與引文固定尺寸的上下文（尺寸選擇為1 或2 或3+等）一起，使用SciBERT、RoBERTa 模型進(jìn)行性能驗(yàn)證。作者驗(yàn)證指出RoBERTa 在性能上略高于SciBERT，最高達(dá)到81%的F1 值[67]，同時(shí)gold 上下文的性能要高于固定尺寸的上下文。作者提出的引文功能多標(biāo)簽架構(gòu)及gold 上下文對(duì)于更一步分析和使用引文文本具有積極意義，但是作者并沒(méi)有對(duì)gold 上下文的標(biāo)注標(biāo)準(zhǔn)進(jìn)行闡述，并且在多標(biāo)簽的情況下，樣本標(biāo)簽預(yù)測(cè)正確個(gè)數(shù)設(shè)置越多，其預(yù)測(cè)準(zhǔn)確率越低，導(dǎo)致實(shí)用性不強(qiáng)。

該方法的優(yōu)缺點(diǎn)總結(jié)如下。

優(yōu)點(diǎn)：預(yù)訓(xùn)練語(yǔ)言模型可以有效地學(xué)習(xí)全局語(yǔ)義表示，并且比CNN 和RNN 更有利于并行化，使得在GPU 上高效地訓(xùn)練大型模型成為可能。

缺點(diǎn)：需要更多的數(shù)據(jù)資源、算力資源進(jìn)行模型的訓(xùn)練。

4 總結(jié)

科技文獻(xiàn)引文分類研究一直是引文分析的重點(diǎn)。1990 年代以前，學(xué)者們通過(guò)對(duì)文獻(xiàn)小范圍的分析后定義了各種分類框架，證實(shí)了通過(guò)引文分類進(jìn)行文獻(xiàn)重要性評(píng)估的可行性。但是由于這些分類體系的標(biāo)注需要領(lǐng)域?qū)I(yè)知識(shí)，且人工標(biāo)注的規(guī)模較小，致使分類體系應(yīng)用的普遍性和推廣性較差。

1990 年代以后，隨著機(jī)器學(xué)習(xí)技術(shù)、計(jì)算語(yǔ)言學(xué)的發(fā)展，使大規(guī)模的引文自動(dòng)分類成為可能。學(xué)者們構(gòu)建了基于不同分類框架的、各種大小的訓(xùn)練數(shù)據(jù)集，并將各種分類模型應(yīng)用在引文分類中實(shí)現(xiàn)了引文分類的自動(dòng)化，為推動(dòng)引文在推薦系統(tǒng)、信息檢索、文本摘要等各種場(chǎng)景下的廣泛應(yīng)用打下堅(jiān)實(shí)的基礎(chǔ)。然而這種技術(shù)體系也存在短板：輸入數(shù)據(jù)需要人工進(jìn)行語(yǔ)言特征的提取、人工設(shè)計(jì)特征模板，并且由于語(yǔ)言的復(fù)雜性，不同領(lǐng)域和學(xué)科在語(yǔ)言特征方面存在著差別，導(dǎo)致特征模板的設(shè)計(jì)并不完備，分類準(zhǔn)確率較低，推廣和實(shí)用性不強(qiáng)。

2010 年以后，深度學(xué)習(xí)技術(shù)促進(jìn)了自然語(yǔ)言處理領(lǐng)域的快速發(fā)展。RNN、CNN、LSTM、GRU 等深度學(xué)習(xí)模型均在引文分類任務(wù)中進(jìn)行了應(yīng)用。這些模型的優(yōu)點(diǎn)是無(wú)需人工抽取特征、人工設(shè)計(jì)特征模板，只需人工構(gòu)建訓(xùn)練數(shù)據(jù)集，由深度學(xué)習(xí)模型自動(dòng)完成特征的提取和引文分類。這一進(jìn)步不但使構(gòu)建新的學(xué)術(shù)影響力評(píng)估體系具備了實(shí)施的數(shù)據(jù)條件，也使引文分析進(jìn)入了語(yǔ)義分析的新階段。BERT、SciBERT、XLNet、RoBERTa、ALBERT等預(yù)訓(xùn)練語(yǔ)言模型在引文分類中的應(yīng)用使分類準(zhǔn)確率有了大幅的提高，特別是SciBERT 從預(yù)訓(xùn)練語(yǔ)言模型的領(lǐng)域背景方面證實(shí)了具備與下游任務(wù)一樣的背景知識(shí)的重要性。XLNet 彌補(bǔ)了BERT 結(jié)構(gòu)中忽略文本序列上下文依賴性的不足，達(dá)到了最好的88.93%的F1 值。

迄今，引文自動(dòng)分類技術(shù)在重構(gòu)文獻(xiàn)影響力評(píng)估方面還處于探討階段。但是在文獻(xiàn)推薦、信息檢索等方面已取得實(shí)質(zhì)性的成果。語(yǔ)義學(xué)者網(wǎng)（https://www.semanticscholar.org/）推出了基于引用目的的文獻(xiàn)推薦和評(píng)價(jià)系統(tǒng)，其將文獻(xiàn)的引文按照功能分為Background、Method、Result 三類，并在此基礎(chǔ)上設(shè)計(jì)出Highly Influential Citations，使文獻(xiàn)檢索讀者能夠快速查詢到重要的文獻(xiàn)，提高文獻(xiàn)檢索效率和精度。

5 討論

雖然深度學(xué)習(xí)技術(shù)極大地促進(jìn)了科技文獻(xiàn)引文自動(dòng)分類工作的發(fā)展，但是還存在一些不足。理論層面：第一，分類標(biāo)準(zhǔn)不統(tǒng)一，無(wú)法形成大家廣泛接受和認(rèn)可的分類體系，導(dǎo)致只能存在于研究層面，無(wú)法在科研界推廣使用；第二，包含豐富分類信息的引文上下文定義不明確，導(dǎo)致引文分類任務(wù)存在源數(shù)據(jù)的不確定性。技術(shù)層面：第一，具備領(lǐng)域背景知識(shí)的預(yù)訓(xùn)練語(yǔ)言模型訓(xùn)練難度大；第二，訓(xùn)練樣本數(shù)據(jù)不平衡，即不同類別的引文訓(xùn)練數(shù)據(jù)樣本數(shù)據(jù)量比例懸殊，導(dǎo)致分類模型對(duì)類別的識(shí)別性能差距較大，分類準(zhǔn)確率提升困難。

最后，對(duì)未來(lái)科技文獻(xiàn)引文分類研究的發(fā)展提出如下建議。理論方面：第一，研究發(fā)明出一個(gè)能夠?yàn)閺V大科研人員、管理者、讀者所接受的引文分類體系，提高分類結(jié)果的實(shí)用價(jià)值；第二，研究出引文上下文的準(zhǔn)確定義，使引文分析有確定的目標(biāo)數(shù)據(jù)，提升分類任務(wù)的統(tǒng)一性。技術(shù)方面：第一，研究出具備全領(lǐng)域背景知識(shí)的預(yù)訓(xùn)練語(yǔ)言模型或者編碼模型；第二，數(shù)據(jù)集研究，解決數(shù)據(jù)集標(biāo)簽不平衡問(wèn)題；第三，從引文抽取到分類的端到端的分類模型研究，提升引文自動(dòng)分類任務(wù)的準(zhǔn)確率。

利益沖突聲明

所有作者聲明不存在利益沖突關(guān)系。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡