李俊飛,徐黎明,汪洋*,魏鑫
1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100083
2.中國(guó)科學(xué)院大學(xué),計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049
由于科技文獻(xiàn)中的引文具備一定的同行評(píng)議效果,所以科技文獻(xiàn)引文分析工作一直是文獻(xiàn)研究的重點(diǎn)。引文分類工作能夠?yàn)閷W(xué)術(shù)影響力評(píng)估[1-2]、文獻(xiàn)檢索推薦等提供基礎(chǔ)數(shù)據(jù),是科技文獻(xiàn)引文分析的重要組成部分,得到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注??萍嘉墨I(xiàn)引文分類研究經(jīng)歷了兩個(gè)階段,目前處于第二階段的快速發(fā)展期。第一階段:引文分類的必要性和可行性研究。該階段的研究者多為領(lǐng)域?qū)<?,他們?cè)趯?duì)科技文獻(xiàn)引文內(nèi)容分析的基礎(chǔ)上,建立起引文分類體系;通過(guò)實(shí)驗(yàn)證實(shí)了引文分類的必要性和可行性;該階段的主要特點(diǎn)是人工進(jìn)行、小范圍、小樣本研究。第二階段:引文分類技術(shù)研究。該階段引文分類與計(jì)算機(jī)技術(shù)相結(jié)合,以引文分類的自動(dòng)化、規(guī)?;椭悄芑癁槟康?。引文分類系統(tǒng)由三部分構(gòu)成:引文分類體系、引文分類模型和數(shù)據(jù)集。本文主要關(guān)注引文分類模型的發(fā)展,同時(shí)對(duì)分類體系和數(shù)據(jù)集進(jìn)行了匯總。
近年來(lái),隨著深度學(xué)習(xí)技術(shù)和預(yù)訓(xùn)練語(yǔ)言模型的發(fā)展,科技文獻(xiàn)引文分類已取得重大進(jìn)展。但目前仍然缺乏對(duì)現(xiàn)有方法和最新趨勢(shì)的全面調(diào)研。為了回顧已有的進(jìn)展,并幫助研究人員在未來(lái)開展新的工作,本文對(duì)近12 年來(lái)的科技文獻(xiàn)引文分類工作發(fā)展進(jìn)行了全面的調(diào)研和總結(jié)。盡管目前的科技文獻(xiàn)引文分類模型在標(biāo)準(zhǔn)數(shù)據(jù)集上取得了顯著的效果,但仍然存在較多問(wèn)題需要解決。例如,現(xiàn)有分類模型大部分基于通用文本分類模型,沒(méi)有針對(duì)科技文獻(xiàn)引文分類的專用模型,且分類準(zhǔn)確率相對(duì)通用領(lǐng)域的文本分類還有較大差距,影響了引文分類結(jié)果的推廣和應(yīng)用。本文對(duì)科技文獻(xiàn)引文分類的特點(diǎn)和挑戰(zhàn)進(jìn)行了詳細(xì)總結(jié),也為科技文獻(xiàn)引文分類后續(xù)研究的重點(diǎn)提出了建議。
綜上所述,本文貢獻(xiàn)可以總結(jié)為以下幾點(diǎn):
(1)總結(jié)歸納:本文對(duì)基于深度學(xué)習(xí)技術(shù)的科技文獻(xiàn)引文分類的發(fā)展進(jìn)行詳細(xì)總結(jié),主要包括基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)的分類模型和基于預(yù)訓(xùn)練語(yǔ)言模型的分類模型。
(2)存在問(wèn)題和展望:本文討論并分析了現(xiàn)有分類模型存在的問(wèn)題和挑戰(zhàn),提出了下一步研究工作應(yīng)該關(guān)注的方向和重點(diǎn)。
(3)豐富的數(shù)據(jù)集:本文收集了科技文獻(xiàn)引文分類的大量數(shù)據(jù)集。
本文組織結(jié)構(gòu)如下:第1 節(jié)概述了科技文獻(xiàn)引文分類體系,數(shù)據(jù)集和應(yīng)用廣泛的數(shù)據(jù)集;第2 節(jié)介紹基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的引文分類技術(shù);第3 節(jié)介紹了基于深度學(xué)習(xí)技術(shù)的引文分類技術(shù)發(fā)展;第4節(jié)對(duì)全文進(jìn)行總結(jié);第5 節(jié)對(duì)目前存在的問(wèn)題及下一步研究方向進(jìn)行討論。
20 世紀(jì)60 年代,科學(xué)引文索引(Science Citation Index, SCI)的發(fā)展開創(chuàng)了引文分析的大規(guī)模實(shí)踐,其專注于學(xué)者間、期刊間的引用次數(shù)的統(tǒng)計(jì),引用網(wǎng)絡(luò)的建立[3]。隨后,以引用頻次為基礎(chǔ)量化科研人員研究成果的h 指數(shù)(h-index)[4]、期刊影響因子(Impact Factor,IF)等指標(biāo)構(gòu)成了現(xiàn)有的科技評(píng)價(jià)[5]和學(xué)術(shù)影響力評(píng)估體系。然而這種將每次引用的重要性同等看待的評(píng)估方法受到眾多學(xué)者的詬病,他們認(rèn)為并非所有引用的重要性都是一樣的,并嘗試對(duì)引文按照一定的分類標(biāo)準(zhǔn)進(jìn)行分類(不同的類別表示不同的重要性),然后將分類的統(tǒng)計(jì)結(jié)果引入到學(xué)術(shù)影響力評(píng)估體系中構(gòu)建全面而合理的學(xué)術(shù)影響力評(píng)估體系。例如:Voos 等[6]第一次提出了引用平等性問(wèn)題,分析了引文在簡(jiǎn)介、方法、討論或者結(jié)論段落的位置后發(fā)現(xiàn)簡(jiǎn)介相對(duì)其他段落包含更多的被引文獻(xiàn);因此他們認(rèn)為引文的貢獻(xiàn)不但應(yīng)該基于其數(shù)量,而且還與其在文獻(xiàn)中的位置相關(guān)。Herlach 等[7]擴(kuò)展了這個(gè)觀點(diǎn),認(rèn)為對(duì)于被引文獻(xiàn)在方法或者討論段落再一次被引用應(yīng)該被認(rèn)為有更大的貢獻(xiàn)。Small[8]是第一個(gè)研究引用科學(xué)內(nèi)容的學(xué)者,他認(rèn)為被高度引用的文章并不是學(xué)科前沿的標(biāo)志。
早期的一些領(lǐng)域?qū)<覐囊脛?dòng)機(jī)、情感、目的等不同的角度對(duì)引文類別進(jìn)行劃分和小范圍的標(biāo)注,不同的標(biāo)注類別代表著引文在文章中不同的重要性。例如:Garfield[9]從作者引用其他文獻(xiàn)動(dòng)機(jī)的角度,通過(guò)觀察列出“提供閱讀背景、修正他人工作、給予相關(guān)榮譽(yù)”等15 種原因。這也是學(xué)界第一次從引用動(dòng)機(jī)的角度對(duì)引文進(jìn)行深層次的分析。
Michael 等[10]研究了引用的冗余模式,他們對(duì)30 篇理論高能物理學(xué)文章中575 篇參考文獻(xiàn)進(jìn)行了分析,從概念的使用、是否冗余、是否評(píng)論、觀點(diǎn)的肯定與否,將引用劃分為4 個(gè)大類,每個(gè)大類按照肯定、否定、中立劃分為3 個(gè)小類,共12 個(gè)小類,并且發(fā)現(xiàn)1/3 的參考文獻(xiàn)是冗余的,1/7 是否定的,2/5 是敷衍的。
早期的引文分類是學(xué)者們對(duì)少量的特定領(lǐng)域文獻(xiàn)引文分析后,提出的分類體系,其實(shí)證了引文分類的合理性[8-10];同時(shí)導(dǎo)致了研究人員各自為政、標(biāo)注體系過(guò)多的問(wèn)題。學(xué)界和業(yè)界目前并沒(méi)有統(tǒng)一的標(biāo)注規(guī)范,影響研究成果的應(yīng)用和推廣。表1 展示了現(xiàn)有的引文分類體系和數(shù)據(jù)集,其中ALC-ARC和SciCite 數(shù)據(jù)集是現(xiàn)階段引文分類領(lǐng)域公認(rèn)的在分類標(biāo)準(zhǔn)和樣本數(shù)量方面較好的數(shù)據(jù)集,被廣泛使用,見表2、表3。
表1 科技文獻(xiàn)引文分類體系Table 1 Citation Function Classification Schemes
表2 ACL-ARC 數(shù)據(jù)集Table 2 ACL-ARC Datasets
表3 SciCite 數(shù)據(jù)集Table 3 SciCite Datasets
總之,學(xué)者們對(duì)引文從不同的角度進(jìn)行分析、構(gòu)造和命名了眾多的引文分類體系。本文認(rèn)為如從引用目的、引用動(dòng)機(jī)、引文功能、引用意圖等角度看,引文分類的本質(zhì)是通過(guò)對(duì)科技文獻(xiàn)中涉及的外來(lái)要素(引文)進(jìn)行定性分析,根據(jù)其在研究主題的邏輯鏈條中所起的不同作用或者角色,給予不同的標(biāo)簽(不同的標(biāo)簽體現(xiàn)了重要性的不同);從整體上看,這些分類體系之間只是分類的角度、粒度不同,相互之間存在包含、相交或者并列關(guān)系。本文統(tǒng)稱為科技文獻(xiàn)引文分類體系。
2010 年以前,計(jì)算語(yǔ)言學(xué)、統(tǒng)計(jì)機(jī)器學(xué)習(xí)技術(shù)的發(fā)展以及文獻(xiàn)全文獲取相對(duì)便捷,引文分類研究重點(diǎn)由分類體系轉(zhuǎn)向分類方法的研究,其中兩種主要的方法被提出:第一種方法使用基于規(guī)則的策略,通過(guò)預(yù)定義線索詞或者短語(yǔ)集合等語(yǔ)言學(xué)特征,利用決策樹分類器分類[20-22];第二種方法使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)分類器,結(jié)合關(guān)鍵詞詞典或者線索短語(yǔ)進(jìn)行分類,如Teufel 等[11]使用將K 設(shè)置為3 的K-NN分類器[23],Angrosh 等[24]使用條件隨機(jī)場(chǎng)分類器(Conditional Random Fields, CRF)[25],尹莉等[26]使用支持向量機(jī)分類器(Support Vector Machines, SVM)[27],柏晗[28]使用貝葉斯網(wǎng)絡(luò)算法進(jìn)行引文分類。以上基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法需要首先由語(yǔ)言學(xué)家人工抽取引文中的語(yǔ)言學(xué)特征,然后使用具備不同特征的樣本數(shù)據(jù)訓(xùn)練分類模型完成引文的自動(dòng)分類。使用基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法可以完成大規(guī)模的引文自動(dòng)分類,然而也存在兩個(gè)明顯的缺點(diǎn):其一,由于需要人工抽取語(yǔ)言學(xué)特征,導(dǎo)致訓(xùn)練數(shù)據(jù)集規(guī)模不可能太大;其二,不同學(xué)科的語(yǔ)言學(xué)特征也存在差別,而語(yǔ)言學(xué)家由于缺乏相應(yīng)的專業(yè)知識(shí)背景,其提取精度也存在一定的偏差。
統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在進(jìn)行文本分類時(shí)需要事先設(shè)計(jì)特征模板,然后從語(yǔ)法、關(guān)鍵詞、線索詞組等語(yǔ)言學(xué)的角度人工抽取特征,但是大而全的特征組設(shè)計(jì)可能使許多特征在數(shù)據(jù)集中僅僅出現(xiàn)一次,這樣的特征在統(tǒng)計(jì)學(xué)上毫無(wú)意義。在完成特征抽取后,將這些特征輸入分類器進(jìn)行分類器的訓(xùn)練及預(yù)測(cè)。這種流水線式的作業(yè)方式存在嚴(yán)重的誤差傳播問(wèn)題,亦即前一個(gè)模塊產(chǎn)生的錯(cuò)誤被輸入到下一個(gè)模塊中產(chǎn)生更大的錯(cuò)誤,最終導(dǎo)致了整個(gè)系統(tǒng)的脆弱性。為了解決傳統(tǒng)機(jī)器學(xué)習(xí)與自然語(yǔ)言處理中的數(shù)據(jù)稀疏、人工特征模板和誤差傳播等問(wèn)題,人們將注意力轉(zhuǎn)向了另一種機(jī)器學(xué)習(xí)的重要分支——深度學(xué)習(xí)。
深度學(xué)習(xí)領(lǐng)域的兩大代表算法,卷積神經(jīng)網(wǎng)絡(luò)系列(Convolutional Neural Networks, CNNs)[29]、循環(huán)神經(jīng)網(wǎng)絡(luò)系列(Recurrent Neural Networks, RNNs)[30]各具特色。一般來(lái)說(shuō),CNNs 能夠較好地挖掘輸入數(shù)據(jù)的局部依賴特征,因此適合于空間任務(wù),如圖像處理等;RNNs 能夠較好地抽取序列數(shù)據(jù)的前后依賴特征,適合于序列任務(wù),如語(yǔ)音、文本等。因此,在自然語(yǔ)言處理任務(wù)中使用RNNs 更為合適。特別是RNNs 家族中的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[31]為建模句子中單詞之間的長(zhǎng)距離依存創(chuàng)造了條件。然而,RNNs 的缺陷在于難以并行化,而CNNs 在并行化方面具備天然優(yōu)勢(shì)。在句子顆粒度上進(jìn)行的基礎(chǔ)自然語(yǔ)言處理(Natural Language Processing, NLP)任務(wù)(中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別和句法分析等)經(jīng)常采用RNNs 來(lái)實(shí)現(xiàn)。自2018 年開始興起的一系列基于Transformer[32]的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型與基于CNNs 或LSTM 的上下文化嵌入模型相比,其使用更深層的網(wǎng)絡(luò)架構(gòu),并在大量文本語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,在許多下游NLP 任務(wù)中達(dá)到了新的技術(shù)水平。
3.1.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)最先用于圖像分類。對(duì)于文本分類任務(wù),首先需要將文本表示為類似于圖像表示的向量,然后CNN 從多個(gè)角度提取文本特征。具體過(guò)程是:首先將輸入文本的詞向量拼接成矩陣,然后矩陣被送入卷積層,卷積層使用數(shù)個(gè)不同維數(shù)的卷積核進(jìn)行特征提取,最后卷積層的結(jié)果經(jīng)過(guò)池化層,獲得文本的最終向量表示,類別由最終向量預(yù)測(cè)。將CNNs 用于文本處理任務(wù),最經(jīng)典的是2015 年Chen 提出Text-CNN 模型[33],隨后CNNs 模型開始在文本分類任務(wù)上廣泛應(yīng)用。2016年,F(xiàn)acebook Research 開源了名為fasttext[34]的文本表達(dá)和分類的計(jì)算庫(kù)。fasttext 是基于Chen 等[33,35,36]所提出算法的實(shí)現(xiàn),其針對(duì)變形詞匯表達(dá),為線性分類優(yōu)化提供了優(yōu)秀的解決方案。有學(xué)者將CNN 和RNN 的文本分類能力進(jìn)行了對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)在一些任務(wù)上CNN 比RNN 表現(xiàn)要好[37]。
3.1.2 基于卷積神經(jīng)網(wǎng)絡(luò)的引文分類模型
Lauscher 等[38]第一次提出將CNN 應(yīng)用于定性的引文分析領(lǐng)域,分別從引文的情感和引用目的兩個(gè)方面進(jìn)行分類。在模型結(jié)構(gòu)方面,提出由詞嵌入(Word Embedding)技術(shù)結(jié)合CNN 分類模型以及SVM 分類模型結(jié)合進(jìn)行引文分類性能對(duì)比實(shí)驗(yàn)。在模型設(shè)計(jì)中,詞嵌入技術(shù)使用domain-specific word embeddings,即在訓(xùn)練詞向量時(shí)使用與待分類引文文獻(xiàn)領(lǐng)域背景相同或者相似的語(yǔ)料庫(kù),并與通用語(yǔ)料庫(kù)中計(jì)算的詞向量進(jìn)行交叉對(duì)比,驗(yàn)證了domainspecific word embeddings 技術(shù)的有效性。從作者的實(shí)驗(yàn)效果看,展示出兩個(gè)結(jié)論:其一,無(wú)論是引文情感分類還是引用目的分類,采用domain-specific word embeddings 的正確率均略高于通用詞嵌入,驗(yàn)證了在具有領(lǐng)域背景的語(yǔ)料中進(jìn)行詞嵌入計(jì)算的有效性;其二,CNN 結(jié)構(gòu)的分類器分類準(zhǔn)確率高于SVM 分類器??傊褂肅NN 技術(shù)進(jìn)行引文分類相對(duì)于傳統(tǒng)的SVM 分類器,其優(yōu)點(diǎn)是不需要人工進(jìn)行特征的提取和設(shè)計(jì),在分類準(zhǔn)確率方面優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,但是從作者的實(shí)驗(yàn)結(jié)果來(lái)看,分類性能提升幅度并不大。
周文遠(yuǎn)等[39]使用稱之為AttentionSBGMC 的模型進(jìn)行引文情感和引用目的分類,使用BiGRU[40]和Multi-CNN 進(jìn)行引文的特征提取。由BiGRU 進(jìn)行序列全局特征的提取,由Multi-CNN 進(jìn)行序列局部特征的提取,在引文情感分類中得到了83.19%的F1 值,引用目的分類中得到了84.92%的F1 值。雖然作者在實(shí)驗(yàn)中取得了較好的指標(biāo),但是其模型結(jié)構(gòu)復(fù)雜,基本上是熱點(diǎn)技術(shù)的拼接。實(shí)驗(yàn)結(jié)論對(duì)比目標(biāo)為較早時(shí)期的SVM、LSTM、CNN 等網(wǎng)絡(luò)結(jié)構(gòu),缺乏最新的模型分類結(jié)果的對(duì)比,對(duì)于結(jié)構(gòu)中的各個(gè)模塊所起到的作用沒(méi)有進(jìn)行實(shí)驗(yàn)分析。上述觀點(diǎn)匯總見表4。
表4 基于卷積神經(jīng)網(wǎng)絡(luò)模型的分類性能Table 4 Classification performance based on convolutional neural network model
基于卷積神經(jīng)網(wǎng)絡(luò)的科技文獻(xiàn)引文分類模型優(yōu)缺點(diǎn)總結(jié)如下文。
優(yōu)點(diǎn):基于CNN 的分類模型相對(duì)于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的分類方法而言,CNN 擅長(zhǎng)空間特征的學(xué)習(xí)和捕獲,卷積相當(dāng)于N-gram(使用一定長(zhǎng)度的卷積核),使用卷積核提取相關(guān)特征,避免了手工設(shè)計(jì)特征的步驟,具有高并行、快速分類的優(yōu)點(diǎn)。
缺點(diǎn):CNN 模型提取依賴特征的長(zhǎng)度有限,并且不夠直觀、可解釋性差,尤其是在分析分類錯(cuò)誤原因時(shí)由于隱藏?cái)?shù)據(jù)的不可讀性,無(wú)法解釋分類錯(cuò)誤的原因。
3.2.1 長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)將文本視為一個(gè)單詞序列,旨在捕獲文本的單詞依賴項(xiàng)和文本結(jié)構(gòu),通過(guò)遞歸計(jì)算獲取長(zhǎng)期依賴性。RNN 模型學(xué)習(xí)歷史信息,考慮適合文本分類任務(wù)的所有單詞中的位置信息。在RNN 的反向傳播過(guò)程中,通過(guò)導(dǎo)數(shù)的連續(xù)乘法計(jì)算梯度來(lái)調(diào)整權(quán)重,如果導(dǎo)數(shù)非常小則可能會(huì)出現(xiàn)連續(xù)乘法導(dǎo)致梯度消失問(wèn)題。為了解決RNN 的梯度消失和梯度爆炸問(wèn)題而設(shè)計(jì)出的LSTM 網(wǎng)絡(luò)及其變種GRU[40]提取長(zhǎng)序列全局特征的能力較好。LSTM通過(guò)引入一個(gè)存儲(chǔ)單元來(lái)記憶任意時(shí)間間隔內(nèi)的值,以及3 個(gè)門(輸入門、輸出門、遺忘門)來(lái)調(diào)節(jié)信息進(jìn)出單元,解決了普通RNN 所面臨的梯度消失或爆炸問(wèn)題,在NLP 領(lǐng)域得到廣泛的應(yīng)用。GRU 的優(yōu)點(diǎn)是參數(shù)更少、更容易收斂,但是在數(shù)據(jù)集很大的情況下LSTM 表達(dá)性能更好[37],其能夠?qū)卧~序列(或上下文)的長(zhǎng)期相關(guān)性進(jìn)行建模,在機(jī)器翻譯[41]、語(yǔ)音識(shí)別和文本蘊(yùn)涵識(shí)別[42]等各種NLP 任務(wù)中取得了顯著成功。
3.2.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的引文分類模型
Munkhdalai 等[43]提出一種新的復(fù)合注意力網(wǎng)絡(luò)(Compositional Attention Network, CAN), 其使用雙向LSTM 網(wǎng)絡(luò)進(jìn)行單詞的編碼,將單詞序列按照3 個(gè)為一組進(jìn)行劃分,使用注意力機(jī)制提取局部特征,同時(shí)使用注意力機(jī)制進(jìn)行完整序列的全局特征提取,最后將局部特征和全局特征再次使用注意力機(jī)制進(jìn)行特征提取。作者根據(jù)樣本句子是否包含上下文句構(gòu)造兩個(gè)數(shù)據(jù)集,只包含引用句的F1 值為68.61%,包含引用句上下各一句的數(shù)據(jù)集F1 值達(dá)到了75.57%。作者提出的模型優(yōu)點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,模型訓(xùn)練時(shí)間短,同時(shí)證明了引文上下文為分類提供了更多的語(yǔ)義信息,有利于提高分類正確率;缺點(diǎn)是沒(méi)有使用詞嵌入技術(shù),直接使用LSTM 進(jìn)行編碼,導(dǎo)致分類準(zhǔn)確率偏低。
Hassan 等[44]通過(guò)專家標(biāo)注的方式將全文中的引文分為重要和不重要兩類,將分類結(jié)果作為評(píng)估文獻(xiàn)影響力的指標(biāo)之一。其使用雙層單向LSTM 網(wǎng)絡(luò)進(jìn)行單詞的編碼,輸出引文的類別預(yù)測(cè)。作者將分類結(jié)果與傳統(tǒng)機(jī)器學(xué)習(xí)分類器SVM、隨機(jī)森林(Random Forest, RF)[45]、樸素貝葉斯、決策樹等分類器進(jìn)行對(duì)比,取得了較好的成績(jī)。該分類網(wǎng)絡(luò)的結(jié)構(gòu)雖然具有簡(jiǎn)單、易訓(xùn)練等優(yōu)點(diǎn),分類準(zhǔn)確率達(dá)到92.57%,但缺點(diǎn)也非常明顯,例如樣本類別過(guò)于簡(jiǎn)單、與其他引文分類體系相比沒(méi)有扎實(shí)的理論基礎(chǔ)、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)過(guò)于簡(jiǎn)單,并且未與雙向LSTM 網(wǎng)絡(luò)進(jìn)行對(duì)比驗(yàn)證等。
Prester 等[46]認(rèn)為普通的引文分類任務(wù)只是進(jìn)行了不同引文類型的分類,并不關(guān)注引文概念內(nèi)容和概念影響。為了解決這一問(wèn)題,作者提出了深層概念影響分類方法(Deep Content-Enriched Ideational Impact Classification, Deep-CENIC)。其分類模型整合了基于雙向LSTM 的編碼模塊和人工抽取的語(yǔ)法特征,將語(yǔ)義及上下文特征混合編碼,然后經(jīng)過(guò)全連接神經(jīng)網(wǎng)絡(luò)輸出分類結(jié)果。作者的這種將傳統(tǒng)的人工制定特征的方法與自動(dòng)抽取特征的深度學(xué)習(xí)的方法相結(jié)合是該模型的一個(gè)亮點(diǎn),分類F1 值達(dá)到了83.36%。但是該模型的輸入還需要進(jìn)行人工的特征提取,與傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法相比并無(wú)二致,只是提高了F1 值。
Cohan 等[16]提出了一種基于神經(jīng)網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)框架進(jìn)行引文目的分類。該模型將詞嵌入(GloVe或者 ELMo)[15,47]結(jié)果輸入一個(gè)BiLSTM 網(wǎng)絡(luò)進(jìn)行詞編碼后結(jié)合注意力機(jī)制進(jìn)行序列的編碼,然后將編碼結(jié)果輸入引用功能、引文段落、引文價(jià)值3 個(gè)分類器進(jìn)行同步訓(xùn)練。作者在ACL-ARC[48]公開數(shù)據(jù)集上進(jìn)行了驗(yàn)證實(shí)驗(yàn),取得了67.9%的F1 值;提出了截止2021 年為止最大的一個(gè)引文功能分類數(shù)據(jù)集SciCite[16],并在該數(shù)據(jù)集上取得了84.0%的F1 值。作者驗(yàn)證了模型中使用的注意力機(jī)制、詞嵌入、多任務(wù)學(xué)習(xí)技術(shù)對(duì)引文功能分類任務(wù)準(zhǔn)確率的提升作用。但該方法也存在一些缺點(diǎn):其一,訓(xùn)練數(shù)據(jù)準(zhǔn)備過(guò)于復(fù)雜,需要提取引文所在段落的標(biāo)題,并需要對(duì)引文的價(jià)值進(jìn)行評(píng)估;其二,作者將引文所在段落標(biāo)題作為分類任務(wù)之一,在一定程度上利用了引用在文獻(xiàn)中的位置分布特征,然而該特征并不是引文功能的確定特征,容易引入噪聲,影響分類準(zhǔn)確率。
Nicholson 等[49]為了彌補(bǔ)通用引文網(wǎng)絡(luò)只展示文獻(xiàn)元數(shù)據(jù)的問(wèn)題,提出了智能引文索引(smart citation index scite),通過(guò)將引文及周邊句子作為分類樣本,使用深度學(xué)習(xí)技術(shù)對(duì)樣本進(jìn)行分類來(lái)確定引用目的和情感。模型中作者使用ELMo 詞嵌入,將BiGRU 作為編碼和分類器、SciBERT[50]作為主要的對(duì)比模型,結(jié)果顯示SciBERT 在3 種分類標(biāo)簽的F1 值分別取得了58.97%、64.80%、97.28%的好成績(jī)。作者雖然在分類正確率上取得了較高的分值,使用了最新的SciBERT 作為詞嵌入手段,但是作者沒(méi)有從網(wǎng)絡(luò)結(jié)構(gòu)的角度對(duì)所使用的模型進(jìn)行優(yōu)缺點(diǎn)分析,并且實(shí)驗(yàn)結(jié)果中并沒(méi)有對(duì)分類結(jié)果進(jìn)行整體的F1 值統(tǒng)計(jì),以及未對(duì)不同標(biāo)簽間指標(biāo)的差距進(jìn)行分析說(shuō)明。具體性能指標(biāo)總結(jié)見表5。
表5 基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的分類性能Table 5 Classification performance based on recurrent neural network model
該模型優(yōu)缺點(diǎn)總結(jié)如下。
優(yōu)點(diǎn):基于LSTM 的模型可以在一定程度上彌補(bǔ)CNN 模型提取依賴特征長(zhǎng)度有限的缺點(diǎn),在一定程度上改善了長(zhǎng)距依賴問(wèn)題。
缺點(diǎn):存在處理長(zhǎng)文本時(shí)耗時(shí)較長(zhǎng)的問(wèn)題,考慮到上下文表示,一般還需采用雙向RNN 結(jié)構(gòu),進(jìn)一步降低了處理效率;在模型效果上,由于數(shù)據(jù)需經(jīng)過(guò)很多個(gè)步驟的傳遞,導(dǎo)致有效信息減弱,對(duì)于長(zhǎng)距離依賴問(wèn)題的效果并不突出。
3.3.1 預(yù)訓(xùn)練語(yǔ)言模型
預(yù)訓(xùn)練語(yǔ)言模型通常使用無(wú)監(jiān)督的方法自動(dòng)挖掘語(yǔ)義知識(shí),然后構(gòu)造預(yù)訓(xùn)練目標(biāo)以便機(jī)器學(xué)習(xí)理解語(yǔ)義,其最大優(yōu)勢(shì)在于可以有效地學(xué)習(xí)全局語(yǔ)義表示。ELMo 是一種深層語(yǔ)境化的詞表示模型,很容易集成到模型中。它可以模擬單詞的復(fù)雜特征,學(xué)習(xí)不同語(yǔ)境下的不同表達(dá);它利用雙向LSTM 根據(jù)上下文單詞學(xué)習(xí)每個(gè)單詞的嵌入向量。隨著基于Transformer 編碼器的BERT 預(yù)訓(xùn)練模型在NLP 領(lǐng)域的大放異彩,各種NLP 下游任務(wù)紛紛使用BERT 得到文本向量。Transformer 通過(guò)運(yùn)用Self-Attention 機(jī)制來(lái)并行計(jì)算句子中的每個(gè)單詞或記錄一個(gè)“注意分?jǐn)?shù)”,模擬每個(gè)單詞對(duì)另一個(gè)單詞的影響,從而克服了句子中單詞之間關(guān)系的計(jì)算成本隨著句子長(zhǎng)度的增加而增加的問(wèn)題[51]。例如,以Transformer 為基礎(chǔ)的ALBERT[52]、SciBERT[50]、XLNet[53]、RoBERTa[54]等模型使分類性能顯著提升。XLNet 是一種廣義自回歸預(yù)訓(xùn)練模型,與BERT 不同的是在第一階段不使用帶掩碼的去噪自動(dòng)編碼器,而是使用自回歸語(yǔ)言模型。它使整個(gè)因式分解順序排列的預(yù)期可能性最大化,以學(xué)習(xí)雙向上下文。為了減少參數(shù),ALBERT 減少了碎片向量的長(zhǎng)度,并與所有編碼器共享參數(shù)。它還將下一個(gè)句子匹配任務(wù)替換為順序任務(wù),并持續(xù)阻止碎片。在大規(guī)模中文語(yǔ)料庫(kù)上對(duì)ALBERT 模型進(jìn)行預(yù)訓(xùn)練時(shí),參數(shù)更少、性能更好。RoBERTa 是BERT 的一個(gè)改進(jìn)版本,采用了動(dòng)態(tài)掩蔽方法,每次都會(huì)生成掩蔽圖案,并將一個(gè)序列輸入到模型中。它使用更多數(shù)據(jù)進(jìn)行更長(zhǎng)時(shí)間的預(yù)訓(xùn)練,并估計(jì)各種基本超參數(shù)的影響和訓(xùn)練數(shù)據(jù)的大小。
3.3.2 基于預(yù)訓(xùn)練語(yǔ)言模型的引文分類模型
Beltagy 等[50]使用由18%的計(jì)算機(jī)科學(xué)領(lǐng)域、82%的生物領(lǐng)域文獻(xiàn)構(gòu)成的共計(jì)1.14M 的文獻(xiàn)數(shù)據(jù)集,訓(xùn)練得到基于BERT 結(jié)構(gòu)的SciBERT 預(yù)訓(xùn)練語(yǔ)言模型,使用引文功能分類進(jìn)行模型性能驗(yàn)證。在SciCite 和ACL-ARC 兩個(gè)數(shù)據(jù)集上得到85.49%、70.98%的最好F1 值。SciBERT 的最大貢獻(xiàn)在于證明了在自然語(yǔ)言處理領(lǐng)域中背景知識(shí)的重要性,無(wú)論是文本分類還是摘要等各種下游任務(wù)的實(shí)施,使預(yù)訓(xùn)練語(yǔ)言模型具有相應(yīng)的背景知識(shí)是非常必要和重要的。
XLNet[53]是一種自回歸語(yǔ)言模型。其根據(jù)上文來(lái)預(yù)測(cè)下一個(gè)單詞,在上文中添加了下文信息,解決了BERT 模型忽略了被mask 的單詞之間的依賴性,以及被mask 帶來(lái)的不一致問(wèn)題和無(wú)法同時(shí)引入上下文信息的問(wèn)題。XLNet 在20 個(gè)任務(wù)上的表現(xiàn)優(yōu)于BERT,并在18 個(gè)任務(wù)中實(shí)現(xiàn)最先進(jìn)的結(jié)果。例如問(wèn)答、自然語(yǔ)言推理、情感分析和文檔排名等[55-59]。Mercier 等[60]提出了基于XLNet 的引文影響力分類方法ImpactCite。實(shí)驗(yàn)中與ALBERT、BERT、SciBERT 等預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行性能對(duì)比,在SciCite 數(shù)據(jù)集取得了88.93%的F1 值。作者雖然取得了最好的F1 值,但是并未對(duì)模型之間的結(jié)果差異進(jìn)行詳細(xì)的分析,對(duì)分類結(jié)果的提升部分作出模型結(jié)構(gòu)方面的關(guān)聯(lián)分析。具體性能指標(biāo)總結(jié)見表6。
表6 基于預(yù)訓(xùn)練語(yǔ)言模型的分類性能Table 6 Classification performance based on Pre-training model
Chen 等[62]使用BERT、XLNet 模型,通過(guò)微調(diào)(fine tuning)的方式進(jìn)行引文功能分類,分別在DFKI[63]、UMICH[64]、TKDE[65]數(shù)據(jù)集上取得了87.2%、86.9%、81.6%的F1 值。
Lauscher 等[66]認(rèn)為傳統(tǒng)的引文功能標(biāo)注體系將引文只分一個(gè)功能標(biāo)簽是不合理的。其通過(guò)專家標(biāo)注的方式將一個(gè)引用句標(biāo)注多個(gè)標(biāo)簽,并且對(duì)引文文本進(jìn)行擴(kuò)充,抽取引用句周邊與引用句語(yǔ)義上存在強(qiáng)相關(guān)的語(yǔ)句,與引用句一起組成gold 上下文(gold context),并構(gòu)建了MULTICITE 數(shù)據(jù)集。試驗(yàn)中作者同時(shí)將gold 上下文與引文固定尺寸的上下文(尺寸選擇為1 或2 或3+等)一起,使用SciBERT、RoBERTa 模型進(jìn)行性能驗(yàn)證。作者驗(yàn)證指出RoBERTa 在性能上略高于SciBERT,最高達(dá)到81%的F1 值[67],同時(shí)gold 上下文的性能要高于固定尺寸的上下文。作者提出的引文功能多標(biāo)簽架構(gòu)及gold 上下文對(duì)于更一步分析和使用引文文本具有積極意義,但是作者并沒(méi)有對(duì)gold 上下文的標(biāo)注標(biāo)準(zhǔn)進(jìn)行闡述,并且在多標(biāo)簽的情況下,樣本標(biāo)簽預(yù)測(cè)正確個(gè)數(shù)設(shè)置越多,其預(yù)測(cè)準(zhǔn)確率越低,導(dǎo)致實(shí)用性不強(qiáng)。
該方法的優(yōu)缺點(diǎn)總結(jié)如下。
優(yōu)點(diǎn):預(yù)訓(xùn)練語(yǔ)言模型可以有效地學(xué)習(xí)全局語(yǔ)義表示,并且比CNN 和RNN 更有利于并行化,使得在GPU 上高效地訓(xùn)練大型模型成為可能。
缺點(diǎn):需要更多的數(shù)據(jù)資源、算力資源進(jìn)行模型的訓(xùn)練。
科技文獻(xiàn)引文分類研究一直是引文分析的重點(diǎn)。1990 年代以前,學(xué)者們通過(guò)對(duì)文獻(xiàn)小范圍的分析后定義了各種分類框架,證實(shí)了通過(guò)引文分類進(jìn)行文獻(xiàn)重要性評(píng)估的可行性。但是由于這些分類體系的標(biāo)注需要領(lǐng)域?qū)I(yè)知識(shí),且人工標(biāo)注的規(guī)模較小,致使分類體系應(yīng)用的普遍性和推廣性較差。
1990 年代以后,隨著機(jī)器學(xué)習(xí)技術(shù)、計(jì)算語(yǔ)言學(xué)的發(fā)展,使大規(guī)模的引文自動(dòng)分類成為可能。學(xué)者們構(gòu)建了基于不同分類框架的、各種大小的訓(xùn)練數(shù)據(jù)集,并將各種分類模型應(yīng)用在引文分類中實(shí)現(xiàn)了引文分類的自動(dòng)化,為推動(dòng)引文在推薦系統(tǒng)、信息檢索、文本摘要等各種場(chǎng)景下的廣泛應(yīng)用打下堅(jiān)實(shí)的基礎(chǔ)。然而這種技術(shù)體系也存在短板:輸入數(shù)據(jù)需要人工進(jìn)行語(yǔ)言特征的提取、人工設(shè)計(jì)特征模板,并且由于語(yǔ)言的復(fù)雜性,不同領(lǐng)域和學(xué)科在語(yǔ)言特征方面存在著差別,導(dǎo)致特征模板的設(shè)計(jì)并不完備,分類準(zhǔn)確率較低,推廣和實(shí)用性不強(qiáng)。
2010 年以后,深度學(xué)習(xí)技術(shù)促進(jìn)了自然語(yǔ)言處理領(lǐng)域的快速發(fā)展。RNN、CNN、LSTM、GRU 等深度學(xué)習(xí)模型均在引文分類任務(wù)中進(jìn)行了應(yīng)用。這些模型的優(yōu)點(diǎn)是無(wú)需人工抽取特征、人工設(shè)計(jì)特征模板,只需人工構(gòu)建訓(xùn)練數(shù)據(jù)集,由深度學(xué)習(xí)模型自動(dòng)完成特征的提取和引文分類。這一進(jìn)步不但使構(gòu)建新的學(xué)術(shù)影響力評(píng)估體系具備了實(shí)施的數(shù)據(jù)條件,也使引文分析進(jìn)入了語(yǔ)義分析的新階段。BERT、SciBERT、XLNet、RoBERTa、ALBERT等預(yù)訓(xùn)練語(yǔ)言模型在引文分類中的應(yīng)用使分類準(zhǔn)確率有了大幅的提高,特別是SciBERT 從預(yù)訓(xùn)練語(yǔ)言模型的領(lǐng)域背景方面證實(shí)了具備與下游任務(wù)一樣的背景知識(shí)的重要性。XLNet 彌補(bǔ)了BERT 結(jié)構(gòu)中忽略文本序列上下文依賴性的不足,達(dá)到了最好的88.93%的F1 值。
迄今,引文自動(dòng)分類技術(shù)在重構(gòu)文獻(xiàn)影響力評(píng)估方面還處于探討階段。但是在文獻(xiàn)推薦、信息檢索等方面已取得實(shí)質(zhì)性的成果。語(yǔ)義學(xué)者網(wǎng)(https://www.semanticscholar.org/)推出了基于引用目的的文獻(xiàn)推薦和評(píng)價(jià)系統(tǒng),其將文獻(xiàn)的引文按照功能分為Background、Method、Result 三類,并在此基礎(chǔ)上設(shè)計(jì)出Highly Influential Citations,使文獻(xiàn)檢索讀者能夠快速查詢到重要的文獻(xiàn),提高文獻(xiàn)檢索效率和精度。
雖然深度學(xué)習(xí)技術(shù)極大地促進(jìn)了科技文獻(xiàn)引文自動(dòng)分類工作的發(fā)展,但是還存在一些不足。理論層面:第一,分類標(biāo)準(zhǔn)不統(tǒng)一,無(wú)法形成大家廣泛接受和認(rèn)可的分類體系,導(dǎo)致只能存在于研究層面,無(wú)法在科研界推廣使用;第二,包含豐富分類信息的引文上下文定義不明確,導(dǎo)致引文分類任務(wù)存在源數(shù)據(jù)的不確定性。技術(shù)層面:第一,具備領(lǐng)域背景知識(shí)的預(yù)訓(xùn)練語(yǔ)言模型訓(xùn)練難度大;第二,訓(xùn)練樣本數(shù)據(jù)不平衡,即不同類別的引文訓(xùn)練數(shù)據(jù)樣本數(shù)據(jù)量比例懸殊,導(dǎo)致分類模型對(duì)類別的識(shí)別性能差距較大,分類準(zhǔn)確率提升困難。
最后,對(duì)未來(lái)科技文獻(xiàn)引文分類研究的發(fā)展提出如下建議。理論方面:第一,研究發(fā)明出一個(gè)能夠?yàn)閺V大科研人員、管理者、讀者所接受的引文分類體系,提高分類結(jié)果的實(shí)用價(jià)值;第二,研究出引文上下文的準(zhǔn)確定義,使引文分析有確定的目標(biāo)數(shù)據(jù),提升分類任務(wù)的統(tǒng)一性。技術(shù)方面:第一,研究出具備全領(lǐng)域背景知識(shí)的預(yù)訓(xùn)練語(yǔ)言模型或者編碼模型;第二,數(shù)據(jù)集研究,解決數(shù)據(jù)集標(biāo)簽不平衡問(wèn)題;第三,從引文抽取到分類的端到端的分類模型研究,提升引文自動(dòng)分類任務(wù)的準(zhǔn)確率。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。