郭晨睿 王佳敏 崔浩冉 武健
1. 武漢大學(xué)信息管理學(xué)院 武漢 430072;2.歐道明大學(xué)計算機(jī)科學(xué)系 諾福克 23529
引文上下文是指圍繞在引證文獻(xiàn)的引文標(biāo)記周圍用來描述被引文獻(xiàn)的一個或多個句子[1]。這些句子表征了被引文獻(xiàn)有代表性價值的觀點和方法。對引文上下文進(jìn)行分析對了解學(xué)術(shù)文獻(xiàn)引證時的引文習(xí)慣、被引原因、分析論文信息流向特點等有著重要價值。在引文分析領(lǐng)域,引文上下文使得僅依賴計量學(xué)所產(chǎn)生的引文分析偏差得到修正,是引用動機(jī)識別[2]、被引片段識別[3,4]、被引文獻(xiàn)自動摘要生成[5]等研究的基礎(chǔ)。隨著機(jī)器學(xué)習(xí)技術(shù)的飛速發(fā)展,引文上下文也在學(xué)術(shù)文獻(xiàn)檢索優(yōu)化[6]、主題識別[7]、增強(qiáng)和改進(jìn)關(guān)鍵字短語提取[8]等研究中發(fā)揮重要價值。
引文上下文分為兩種類型,其中顯性引文上下文是包含引用標(biāo)記的句子[9],隱性引文上下文是與被引文章在語義上相關(guān)但不包含引文標(biāo)記的句子[10]。在圖1的示例中,包含引用標(biāo)記“(Vogel et al., 1996)”的顯性引文上下文以綠色突出顯示,隱性引文上下文句子以黃色突出顯示,非突出顯示的句子不是給定引用的引用上下文。
圖1 顯性和隱性引文上下文示例
ParsCit[11]、GROBID[12]、ConSyn①http://consyn.elsevier.com等工具可以幫助研究者識別顯性引文上下文。但多數(shù)情況下,作者都會使用多個句子來總結(jié)對被引文獻(xiàn)的評述。同時,很多學(xué)者在研究中發(fā)現(xiàn)使用完整的引文上下文能夠很大程度上提升下游任務(wù)的效果。例如,Ritchie等[13]發(fā)現(xiàn)與僅使用顯性引文上下文相比,使用完整的引文上下文在文獻(xiàn)檢索任務(wù)上能取得更好效果。
造成引文上下文提取工具缺乏的原因重要有以下三點。首先,學(xué)術(shù)文獻(xiàn)數(shù)據(jù)往往是多源異構(gòu)的,不同類型和文件格式的文獻(xiàn)處理方式和難度都不同;其次,引文分析等任務(wù)往往需要同時處理大批量的學(xué)術(shù)文獻(xiàn);最后,與帶有引用標(biāo)記的顯性引文上下文句子不同,缺少引用標(biāo)記使隱性引用上下文識別具有一定的挑戰(zhàn)性,僅通過簡單的正則表達(dá)式無法實現(xiàn)對隱性引文上下文的識別。受限于引文上下文識別過程中的諸多瓶頸,科研工作者花費了大量的時間卻不一定能獲得有一定質(zhì)量的引文上下文數(shù)據(jù)[14]。SCC引文上下文識別系統(tǒng)[15]一定程度上解決了上述問題。
SCC系統(tǒng)采用了人工構(gòu)造特征基于SVM模型進(jìn)行文本分類的傳統(tǒng)方法。傳統(tǒng)方法中人工進(jìn)行特征工程成本較高,特征表達(dá)能力弱,所獲得模型往往效果有限,且缺乏拓展性。不同于傳統(tǒng)的基于特征工程的方法,預(yù)訓(xùn)練語言模型在文本表示能力上效果更優(yōu),可以自動獲取低維度、高密度的文本特征,且經(jīng)過大型語料庫上的預(yù)訓(xùn)練后會包含一定先驗知識,可在其他自然語言處理任務(wù)上進(jìn)行遷移學(xué)習(xí)。
基于上述背景,本研究對SCC系統(tǒng)核心識別算法進(jìn)行了優(yōu)化,開發(fā)了SmartCiteCon2.0(SCC2.0)系統(tǒng)。該系統(tǒng)基于預(yù)訓(xùn)練語言模型SciBERT設(shè)計,將顯性和隱性引文上下文的識別相結(jié)合,可以對PDF、XML和JSON等多種格式的文獻(xiàn)進(jìn)行處理,支持批處理等多種處理模式??梢杂行У貫橐姆治?、自動摘要、文獻(xiàn)檢索等引文上下文的相關(guān)任務(wù)提供支持,以彌補(bǔ)傳統(tǒng)工具在隱性引文上下文識別上的不足。
研究人員在引文上下文識別方法上已有很多探索。1999年Nanba等[16]將引文上下文的范圍定義為帶有引文標(biāo)記的句子(即引文句)前后的幾個連續(xù)句子。在另一項工作中,研究者使用了馬爾可夫模型來識別引文上下文[17]。2010年Sugiyama描述了一種支持向量機(jī)(SVM)和最大熵(ME)模型,通過使用一些淺層特征(例如專有名詞等)來對引文句前后的句子進(jìn)行分類以識別引文上下文[18],其訓(xùn)練樣本中的正例是通過使用正則表達(dá)式匹配含有引文標(biāo)記的句子,并不包括隱性引文上下文。2016年雷聲偉等[10]對引文上下文的特征進(jìn)行了細(xì)致的總結(jié)和分析,使用CRF模型和SVM模型對引文上下文進(jìn)行識別,發(fā)現(xiàn)基于文本分類思想的SVM模型效果要優(yōu)于基于序列標(biāo)注思想的CRF模型的實驗效果。雖然基于特征工程的有監(jiān)督學(xué)習(xí)算法,已經(jīng)在引文上下文識別上取得一定效果。但是受限于自然語言的復(fù)雜性,該方法難以涵蓋引文上下文的全部特征。
引文上下文識別工具為科研人員提供了工具支持。2008年開發(fā)的ParsCit就是一款用于引文解析和引文上下文提取的開源軟件[11],其使用條件隨機(jī)場(CRF)模型來解析引文字符串,通過提取引用標(biāo)記的任一側(cè)固定窗口長度的字符串(默認(rèn)為200個字符)作為引文上下文。2009年開發(fā)的GROBID是一個從學(xué)術(shù)文獻(xiàn)中提取信息的工具[12],該工具在顯性引文句子解析的F1值約為75%,它既可以正確識別引文標(biāo)記,又可以將其與參考文獻(xiàn)列表正確關(guān)聯(lián)。Elsevier自2011年以來開始提供XML格式的論文,并提供了ConSyn工具以識別和提取含有引文標(biāo)記的引文句。2013年Angrosh等使用詞匯特征基于CRF技術(shù)開發(fā)了CitContExt工具[19],該工具支持對隱性引文上下文的識別,但其使用的模型仍基于傳統(tǒng)的人工特征構(gòu)建,且僅支持純文本類型文獻(xiàn),不支持批處理功能。綜合來看,多數(shù)的引文上下文提取工具都側(cè)重于提取顯性引文上下文,對隱性引文上下文的關(guān)注不足,但是后者亦包含了與被引論文在語義上相關(guān)的信息。由于受到不同標(biāo)準(zhǔn)和文件格式的限制,多數(shù)工具僅支持符合特定標(biāo)準(zhǔn)的純文本類型的論文數(shù)據(jù)。
預(yù)訓(xùn)練技術(shù)將編碼好的數(shù)據(jù)輸入到預(yù)先設(shè)計好的深度網(wǎng)絡(luò)結(jié)構(gòu)中進(jìn)行訓(xùn)練,以提升模型的泛化能力。經(jīng)過預(yù)訓(xùn)練的模型含有大量的先驗知識,可以基于其在下游任務(wù)進(jìn)行微調(diào),無須從零開始訓(xùn)練。2000年,Alex等人嘗試將神經(jīng)網(wǎng)絡(luò)引入到語言模型中,并創(chuàng)造性地提出了詞向量的概念,實驗表明他們設(shè)計的NNLM模型相較于N-gram模型有更好的性能[20]。Collobert等[21]發(fā)現(xiàn)在未標(biāo)記的數(shù)據(jù)中嵌入預(yù)訓(xùn)練的詞可以明顯提升許多NLP任務(wù)的效果。Word2Vec模型正是基于詞嵌入技術(shù)提出的,與NNLM模型相比該模型更多地利用了詞的上下文信息,但無法解決一詞多義的問題。ELMo模型[22]采用雙向LSTM進(jìn)行預(yù)訓(xùn)練,可以結(jié)合上下文的語境對詞進(jìn)行建模,很好地解決了一詞多義、句法結(jié)構(gòu)理解等問題。BERT模型[23]將無監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練融合有監(jiān)督學(xué)習(xí)的微調(diào)的模式推廣到了更深層次的雙向結(jié)構(gòu)中,在多項NLP任務(wù)中取得較好表現(xiàn)。SciBERT[24]模型基于BERT模型的結(jié)構(gòu),使用大量的多領(lǐng)域?qū)W術(shù)文獻(xiàn)作為無監(jiān)督預(yù)訓(xùn)練語料,在基于學(xué)術(shù)文本的序列標(biāo)記、句子分類等任務(wù)中取得了比BERT更好的效果。
綜上所述,引文上下文是引文標(biāo)記周圍描述被引文獻(xiàn)的句子集合,既應(yīng)包含顯性引文上下文也應(yīng)包含隱性引文上下文。當(dāng)前主流的識別工具側(cè)重于識別顯性引文上下文,忽視了隱性引文上下文的識別,隱性引文上下文識別工具的缺失影響了下游任務(wù)發(fā)揮更好的效果。預(yù)訓(xùn)練語言模型近年來在文本表示和分類等任務(wù)中取得較好表現(xiàn),但基于這類模型進(jìn)行隱性引文上下文識別的研究還較少。因此,本文基于預(yù)訓(xùn)練語言模型SciBERT設(shè)計了一個能夠識別顯性和隱性的引文上下文,且支持多種標(biāo)準(zhǔn)和文件格式論文的引文上下文識別工具,為引文上下文及相關(guān)下游任務(wù)的研究者提供支持。
引文上下文識別是句子級別的分類任務(wù)。句子級的分類任務(wù)有兩種類型:(1)基于句子對的分類任務(wù);(2)基于單個句子的分類任務(wù)?;陬A(yù)訓(xùn)練語言模型的引文上下文識別任務(wù)應(yīng)屬于句子對分類任務(wù),下面做進(jìn)一步的說明。
傳統(tǒng)的引文上下文識別方法需要進(jìn)行大量的特征工程工作,這為總結(jié)引文上下文的特征打下了良好的基礎(chǔ)。2016年雷聲偉[10]通過總結(jié)前人研究和進(jìn)行實例分析較為完整地總結(jié)了五大類19種引文上下文的特征。在傳統(tǒng)基于特征工程的識別方法中,引文上下文識別任務(wù)被定義為:構(gòu)建適合的模型,使得在給定的目標(biāo)引文標(biāo)記XREF,及給定候選上下文句集合CANDIDATE_SET={s1,s2, ……,sn}情況下,可以給CANDIDATE_SET中每個句子一個標(biāo)記label,如果si(∈CANDIDATE_SET) 屬于目標(biāo)引文的上下文,則label為1,否則為0。該定義并沒有明確說明引文上下文識別任務(wù)是基于句子對的分類任務(wù)還是基于單個句子的分類任務(wù),在基于預(yù)訓(xùn)練語言模型的方法中需要對該問題進(jìn)行進(jìn)一步的明確。因此,如表 1筆者將上述19個特征從句子對分類的視角重新進(jìn)行歸納總結(jié)。
引文上下的特征主要分為句子特征,句間關(guān)系特征,引用關(guān)系特征和篇章或結(jié)構(gòu)特征四種類型的特征。句子特征是指描述句子本身所含有信息以及語法語義的特征。句間關(guān)系特征是指描述當(dāng)前句子與另一句相關(guān)連的語法語義的特征。引用關(guān)系特征是指當(dāng)前句與被引文獻(xiàn)信息相關(guān)連的語法語義特征。篇章與結(jié)構(gòu)特征是指當(dāng)前句與章節(jié)相關(guān)的位置或語法信息。
傳統(tǒng)特征工程所使用的19類特征,與上述四類特征的對應(yīng)關(guān)系如表 1。可以看出,傳統(tǒng)特征工程雖然將引文上下文分類看作基于單個句子的分類任務(wù),實際上是將許多句子間關(guān)系特征抽象到了單個句子上。引文上下文更多地是一種引文句和隱性引文上下文的關(guān)系,因此引文上下文識別應(yīng)當(dāng)看作基于句子對的分類任務(wù)。
同時,上述四大類特征可以進(jìn)一步被劃分為句子級文本特征與篇章或結(jié)構(gòu)特征。受限于文本特征的表達(dá)的能力,傳統(tǒng)的特征工程方法需要引入非常多篇章結(jié)構(gòu)特征來提升分類效果。辯證來看,相對于傳統(tǒng)特征工程方法,預(yù)訓(xùn)練語言模型的劣勢在于不能直接對篇章或結(jié)構(gòu)特征進(jìn)行建模,但優(yōu)勢在于其對文本特征的表達(dá)能力更強(qiáng),除了表 1中包含的句子級特征外,其還能表達(dá)更豐富和多層次的文本語義特征。
表1 句子對分類視角下的引文上下文特征歸類
綜合前述的分析,本文所定義的引文上下文識別任務(wù)為:構(gòu)建適合的模型,使得在給定含有目標(biāo)引文標(biāo)記的引文句csent,及給定候選上下文句集合CANDIDATESET={sent1,sent2,……,sentn}情況下,判定CANDIDATE_SET中任意句子senti與引文句csent所構(gòu)成的句子對(csent, senti)是否存在引文上下文關(guān)系f, 如果句子對 (csent, senti),si(∈CANDIDATESET)存在引文上下文關(guān)系,則f(csent,senti)=1,否則f(csent,senti)=0。
為了驗證本研究所使用的預(yù)訓(xùn)練語言模型在引文上下文識別任務(wù)上的有效性,本研究SCC系統(tǒng)中使用的SVM模型[10](下文簡稱:Lei_SVM)作為基準(zhǔn)研究,并對其進(jìn)行了復(fù)現(xiàn)。同時,為了盡可能地保證實驗有較強(qiáng)的對比價值,本研究所使用預(yù)訓(xùn)練語言模型也基于Lei_SVM模型所使用的數(shù)據(jù)集(下文簡稱:Lei_SVM數(shù)據(jù))進(jìn)行訓(xùn)練。
該數(shù)據(jù)來自國際計算語言學(xué)協(xié)會(Association for Computational Linguistics,ACL)數(shù)據(jù)集,該協(xié)會是計算語言學(xué)(CL)和自然語言處理(NLP)領(lǐng)域最重要的國際學(xué)術(shù)組織,包含34,000篇PDF格式會議論文。使用OCR技術(shù)將原始PDF文件轉(zhuǎn)換為包含完整參考文獻(xiàn)、段落和章節(jié)信息的XML格式[25]。Lei_SVM模型隨機(jī)選取了其中130篇文獻(xiàn),對XML數(shù)據(jù)進(jìn)行了清洗、句子分段、引文標(biāo)簽識別與標(biāo)注等工作。后由13名信息管理相關(guān)專業(yè)的研究生對該數(shù)據(jù)集進(jìn)行了引文上下文標(biāo)注,標(biāo)注結(jié)果已通過Cohen提出的Kappa系數(shù)(κ= 0.937)進(jìn)行了測試。
2.2.1 數(shù)據(jù)清洗
由于Lei_SVM數(shù)據(jù)是由PDF文件通過OCR技術(shù)識別獲得的,該數(shù)據(jù)存在部分?jǐn)?shù)據(jù)缺失和異常問題。Lei_SVM模型的特征是人工構(gòu)造的,包含較多非語義層面的特征且相對稀疏,因此部分?jǐn)?shù)據(jù)的缺失和異常并不會對實驗效果產(chǎn)生很大的影響。但是,預(yù)訓(xùn)練語言模型對語義層面的特征進(jìn)行建模,且特征相對稠密,數(shù)據(jù)集的質(zhì)量將對實驗效果產(chǎn)生較大的影響。因此,筆者對全量數(shù)據(jù)集進(jìn)行了人工復(fù)查,并對有缺失問題的數(shù)據(jù)進(jìn)行了補(bǔ)全,對異常問題的數(shù)據(jù)進(jìn)行了修改或刪除。在對全量數(shù)據(jù)的人工復(fù)查中,共發(fā)現(xiàn)ref_num屬性缺失項173個,人工匹配到45個,刪除非引文標(biāo)記的<ref/>標(biāo)簽21個。
2.2.2 預(yù)處理
為了更加完整地復(fù)現(xiàn)Lei_SVM模型,本研究參考其預(yù)處理流程對數(shù)據(jù)進(jìn)行了預(yù)處理。Lei_SVM模型的預(yù)處理流程依次為節(jié)點過濾、句子切分、引文標(biāo)記處理、分詞、非句法成分替換和詞性標(biāo)注。本研究在對Lei_SVM模型復(fù)現(xiàn)時對原預(yù)處理流程做了部分調(diào)整,這些調(diào)整包括:使用Standford Core NLP②https://stanfordnlp.github.io/CoreNLP/工具替代原有的正則表達(dá)式和Stanford Parser進(jìn)行分詞和詞性標(biāo)注,效果相對更優(yōu);用括號替換流程中識別轉(zhuǎn)義字符。由于Standford Core NLP工具在分詞后,會將左括號轉(zhuǎn)義為“-LRB-”,右括號轉(zhuǎn)義為“-RRB-”,這會導(dǎo)致原預(yù)處理流程中括號替換失效,因此需要用括號替換識別“-LRB-”和“-RRB-”兩個轉(zhuǎn)義字符。
由于預(yù)訓(xùn)練語言模型的輸入為純文本信息,因此將Lei_SVM數(shù)據(jù)應(yīng)用于預(yù)訓(xùn)練語言模型的預(yù)處理流程相對簡單,僅需要進(jìn)行節(jié)點過濾、句子對匹配和非句法成分處理操作即可。
2.2.3 數(shù)據(jù)采樣
相關(guān)理論表明,隱性引文上下文信息主要出現(xiàn)在以引文句為中心的前后四句的范圍內(nèi)[26]。Lei_SVM模型和本研究在數(shù)據(jù)采樣的過程中均沿用了上述方法。Lei_SVM模型的過程包含了特征識別工作,采樣為結(jié)果含有19個特征及其對應(yīng)值的libsvm格式文件,而預(yù)訓(xùn)練語言模型的采樣結(jié)果為包含句子對的CSV格式文件。為保證Lei_SVM模型和預(yù)訓(xùn)練語言模型所對應(yīng)的原始語料的一致性,兩者的數(shù)據(jù)采樣是同步進(jìn)行的。采樣后的數(shù)據(jù)按8:1:1的比例劃分為訓(xùn)練集、評估集和測試集,為保證三個集合中正例和負(fù)例數(shù)據(jù)比例的相對一致,在切分?jǐn)?shù)據(jù)集前對數(shù)據(jù)進(jìn)行了隨機(jī)化,同時為保證不同的數(shù)據(jù)集對應(yīng)的原始語料的一致性,隨機(jī)化種子SEED固定為100。為保證采樣結(jié)果中正負(fù)樣本的比例與實際樣本分布一致,本研究未對采樣后正負(fù)樣本數(shù)量進(jìn)行均一化,采樣結(jié)果如表 2所示。
表2 數(shù)據(jù)采樣結(jié)果
2.3.1 實驗環(huán)境
本研究進(jìn)行引文上下文識別的實驗環(huán)境如表3所示。
表3 實驗環(huán)境
2.3.2 實驗結(jié)果分析
為了驗證預(yù)訓(xùn)練語言模型在引文上下文識別任務(wù)上的有效性,本研究以Lei_SVM模型作為基準(zhǔn)研究,在相同的數(shù)據(jù)集上進(jìn)行同步采樣。由于預(yù)訓(xùn)練語言并未對篇章或結(jié)構(gòu)特征進(jìn)行表達(dá),因此本研究使用了Lei_SVM_10和Lei_SVM_19兩組模型做對照組。Lei_SVM_10模型訓(xùn)練時僅包含了表 1中的句子級文本特征,Lei_SVM_19訓(xùn)練時包含了全部的特征。
實驗結(jié)果通過召回率(recall,R)、準(zhǔn)確率(precision,P)和調(diào)和平均值(F1-score,F(xiàn)1值),以及按照正負(fù)樣本比例加權(quán)后的相應(yīng)Weight值作為評價指標(biāo)。實驗結(jié)果如表4所示。
從表 4可以看出,SciBERT模型在P、R、F1三個指標(biāo)上全面超越兩個SVM模型。相比于Lei_Svm_10模型,F(xiàn)1上提升了11%,Weight-F1值提升了7%。這說明在僅使用句子對文本特征情況下,SciBERT模型的分類效果大幅度高于SVM模型。表明SciBERT預(yù)訓(xùn)練模型有更好的文本特征表示能力,深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)捕獲了更多隱含的尚未被人為總結(jié)的特征,并且這些特征有效地提升了對引文上下文關(guān)系的識別效果。同時,相比于Lei_Svm_19模型,F(xiàn)1提升了3%,Weight-F1提升了2%,表明使用句子對文本特征的SciBERT模型較使用全部特征的SVM模型也有部分提升。綜合來看,基于SciBERT的引文上下文識別模型比傳統(tǒng)SVM模型效果更好,驗證了本文提出方法的有效性,為隱性引文上下文識別提供了新的有效模型和方法,也為類似的任務(wù)提供了一定的參考價值。
在前述SciBERT模型的基礎(chǔ)上,本研究設(shè)計了SCC2.0系統(tǒng),該系統(tǒng)在SCC系統(tǒng)[15]基礎(chǔ)上進(jìn)行加強(qiáng),在識別效果和效率上相對于SCC系統(tǒng)都有較大的提升,且提供了簡單易用的圖形化界面服務(wù)。
如圖2所示,SCC2.0通過四個流程完成引文上下文的識別工作:(1)文件類型識別;(2)預(yù)處理;(3)特征提??;(4)句子分類。輸出是一個包含顯性引文上下文和隱性引文上下文以及其他與引用相關(guān)的信息的JSON文件,該JSON文件的結(jié)構(gòu)可在源代碼Readme文件中查看。該工具基于Springboot框架,采用Java語言編寫而成,識別模型部分是基于Simple Transformers③https://simpletransformers.ai/框架實現(xiàn)的。
圖2 SCC2.0工具系統(tǒng)框架圖
文件類型識別和預(yù)處理模塊基于SCC系統(tǒng)設(shè)計,支持PDF、符合TEI或PloS ONE標(biāo)準(zhǔn)的XML和Semantic Scholar發(fā)布的S2ORC標(biāo)準(zhǔn)[27]的JSON格式的文獻(xiàn)。對多源異構(gòu)數(shù)據(jù)的處理,主要依賴于預(yù)處理流程。預(yù)處理流程將不同的文件類型規(guī)范為統(tǒng)一的XML格式用于后續(xù)的特征提取工作。SCC2.0使用Standford Core NLP工具替代SCC的正則表達(dá)式和Stanford Parser進(jìn)行分詞和詞性標(biāo)注。各預(yù)處理器雖然針對的文件類型不同,但主要的處理步驟是類似的,主要包括標(biāo)簽移除、句子分割和DOM結(jié)構(gòu)規(guī)范化。
SCC2.0系統(tǒng)使用的特征提取算法是基于第2小節(jié)中獲得的SciBERT模型,該模型將句子分類為隱性引文上下文和顯性引文上下文。此模塊從規(guī)范化的XML文件中提取出句子對,通過內(nèi)置Restful接口將句子對信息傳入Simple Transformer框架進(jìn)行分類,并輸出指示句子對是否為隱性引文上下文關(guān)系的結(jié)果。輸出的JSON文件包含引用標(biāo)記及其位置,引用語句和歸類為隱性引文上下文的語句。
本研究復(fù)現(xiàn)了SCC測試系統(tǒng)的性能的實驗。在表 3的所示的設(shè)備環(huán)境下測試SCC和SCC2.0系統(tǒng)。分別用同樣的PDF、XML、JSON格式的文獻(xiàn)各10篇,在4GB堆內(nèi)存線程數(shù)Np=8和Np=1的條件下運行系統(tǒng)并記錄平均處理單篇文獻(xiàn)的時間,結(jié)果如表 5所示??梢钥闯?,SCC2.0系統(tǒng)性能在處理各類文檔的效率上相對于SCC提升約10倍。
表5 SCC和SCC2.0 在Np=8和Np=1時平均處理單篇文獻(xiàn)所需時間(秒)
為方便研究人員基于不同的需求使用本系統(tǒng),本研究既開發(fā)了便于集成和部署的Restful API服務(wù),同時也提供了圖形化的使用界面。Restful API接口支持單文檔、批處理、本地超大批量處理三種處理模式。在單文檔和批處理提取模式下,API將返回含有引文上下文的JSON對象和執(zhí)行狀態(tài)。對于本地提取模式,API將返回執(zhí)行狀態(tài),并且結(jié)果將保存在JSON文件中。圖形化交互界面的實現(xiàn)采用的React前端框架實現(xiàn),主界面包含導(dǎo)航欄、文件檢索框、引文句列表欄、引文上下文列表欄。導(dǎo)航欄提供了便于用戶測試的案例文獻(xiàn),用戶可以點擊“Download Test Case”鏈接下載案例文獻(xiàn)。使用圖形化交互界面時僅需點擊檢索框,上傳需要處理的文獻(xiàn)。上傳后,前端會向后臺請求/extract服務(wù),后臺會將識別引文上下文的結(jié)果返回前端。
用戶可以非常便捷地在本地計算機(jī)上部署SCC2.0,部署方法可以參考源代碼中Readme文件。部署后可通過接口模式使用本研究所提供的引文上下文識別服務(wù)。本研究的源代碼發(fā)布于https://gitee.com/Lan_Tianchen/smart-cite-con,同時用戶也可通過http://47.117.112.104:8090/使用在線服務(wù)。
如圖3所示,SCC2.0對文獻(xiàn)Guiding Statistical Word Alignment Models With Prior Knowledge.XML進(jìn)行分析后,頁面左側(cè)的“Citation Sentences”列表中展示分析后獲得的引文句列表。用戶點擊其中任意一句引文句后“Citation Information”列表中展示對應(yīng)引文的作者、參考文獻(xiàn)標(biāo)題和引文上下文信息。圖3示例中獲得了兩句引文上下文句子,其中一句為引文當(dāng)前句,另一句為隱性引文上下文??梢钥闯?,引文句陳述了“研究表明,人類通過標(biāo)注的數(shù)據(jù)可以顯著提升模型的性能”的研究事實,所識別出的隱性引文上下文包含了“大多數(shù)模型取決于訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量”的觀點,兩個句子具有較高的相關(guān)性,共同構(gòu)成了該參考文獻(xiàn)的引文上下文。
圖3 SmartCiteCon 前端可視化界面
本文在SCC系統(tǒng)基礎(chǔ)上開發(fā)了引文上下文識別工具 SmartCiteCon2.0(SCC2.0),用于從學(xué)術(shù)文獻(xiàn)中提取顯性和隱性的引用上下文。該系統(tǒng)使用的微調(diào)后的SciBERT模型F1 值達(dá)到90%。 SCC2.0接受PDF、XML(符合PLoS ONE 或TEI標(biāo)準(zhǔn))和JSON(符合S2ORC標(biāo)準(zhǔn))格式的學(xué)術(shù)文獻(xiàn)。SCC2.0的輸出是一個JSON文件,其中包含對應(yīng)引文標(biāo)記的引用上下文和論文的元數(shù)據(jù)。
SCC2.0的局限性在于該模型是在計算機(jī)語言學(xué)相關(guān)的論文上進(jìn)行訓(xùn)練的,因此將模型應(yīng)用于其他領(lǐng)域時,應(yīng)進(jìn)行更仔細(xì)的評估和特征分布分析。后續(xù)將會在其他領(lǐng)域的數(shù)據(jù)上進(jìn)行評估分析,使得該系統(tǒng)在更多學(xué)科領(lǐng)域有更為廣泛的適用性。