国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科技論文引用對象和引文功能的聯(lián)合自動識別方法研究

2022-06-06 19:56唐曉波彭映寒
現(xiàn)代情報 2022年6期
關鍵詞:三元組自動識別類別

唐曉波 彭映寒

摘 要:[目的/意義]國家強調重視科技成果的質量,科技成果的質量體現(xiàn)了科技成果的學術價值和貢獻??萍颊撐氖强萍汲晒闹匾d體之一?;谖谋菊Z義分析識別科技論文的引用對象和引文功能,對于科技論文的學術貢獻和價值的評價具有重要的作用。[方法/過程]本文利用文本數(shù)據(jù)挖掘技術提出基于BERT-BiGRU-CRF的科技論文引用對象和引文功能的聯(lián)合自動識別方法模型。首先從知網數(shù)據(jù)庫獲取科技論文全文本,利用正則匹配引用標記的方式獲取科技論文引文內容;其次借鑒已有研究確定科技論文引用對象和引文功能標注方法,實現(xiàn)科技論文引文內容的人工標注;然后在預訓練語言模型BERT的基礎上結合BiGRU與CRF構建科技論文引文內容的序列標注模型,實現(xiàn)科技論文引用對象和引文功能的聯(lián)合自動識別,將識別結果利用三元組進行表達;最后采用圖情領域5本高質量期刊2021年上半年的科技論文文本數(shù)據(jù)進行實驗。[結果/結論]實驗結果表明,本文提出的方法模型在引用對象、引文功能和兩者聯(lián)合自動識別上的F1值分別為71.78%、68.33%、64.23%,均優(yōu)于對比模型,初步驗證了本文模型對于科技論文引用對象和引文功能自動識別的有效性。

關鍵詞:科技論文;價值評價;引用對象;引文功能;聯(lián)合自動識別;BERT-BiGRU-CRF

DOI:10.3969/j.issn.1008-0821.2022.06.004

〔中圖分類號〕G250.2 〔文獻標識碼〕A 〔文章編號〕1008-0821(2022)06-0038-11

Abstract:[Purpose/Significance]The state attaches importance to the quality of scientific and technological achievements,which reflects the academic value and contribution of scientific and technological achievements.Scientific papers are one of the important carriers of scientific and technological achievements.Identifying citation objects and citation functions of scientific papers based on text semantic analysis plays an important role in the evaluation of academic contribution and value of scientific papers.[Method/Process]Using text data mining technology,this paper proposed a joint automatic recognition method model of citation object and citation function of scientific papers based on Bert-BiGRU-CRF.Firstly,the full text of scientific papers was obtained from HowNet database,and the citation content of scientific papers was obtained by regular matching citation markers;Secondly,using the existing research to determine the citation object and citation function annotation method of scientific papers,the manual annotation of citation content of scientific papers could be realized;Then,based on the pre training language model Bert,combined with BiGRU and CRF,the sequence annotation model of citation content of scientific papers was constructed to realize the joint automatic recognition of citation objects and citation functions of scientific papers,and the recognition results were expressed by triples;Finally,the experiment was carried out with the text data of scientific and technological papers in five high-quality journals in the field of graphics and information in the first half of 2021.[Results/Conclusion]The experimental results show that the F1 values of the method model proposed in this paper are 71.78%,68.33% and 64.23% respectively,which are better than the comparison model,and preliminarily verify the effectiveness of this model for the automatic recognition of citation objects and citation functions of scientific and technological papers.901E1773-29E0-4DE9-B2FF-E1280F48292C

Key words:scientific papers;value evaluation;citation object and its relationship;joint automatic identification;BERT-BiGRU-CRF

近年來,國家提出“克服唯論文、唯職稱、唯學歷、唯獎項傾向”、破除“SCI至上”,強調科技成果的質量??萍颊撐氖菍W者在實驗研究或理論研究基礎上,分析、概括和闡明研究存在的現(xiàn)象或出現(xiàn)的問題,結合學者自身觀點對研究進一步總結和創(chuàng)新,最后根據(jù)各個科技期刊的要求進行撰寫和表達[1],是科技成果的重要載體之一??萍颊撐牡膶W術貢獻和價值體現(xiàn)了科技成果的質量,對其評價成為重要的研究問題。引文分析一直是科技論文學術價值的重要評價方法[2]。傳統(tǒng)的引文分析方法沒有明確引文被引用的具體內容和功能,無法從語義層面揭示科技論文的引用行為??萍颊撐脑谝梦墨I時提及引文中的具體內容對象稱為引用對象[3],被引文獻在施引文獻中的作用和功能稱為引文功能[4]??萍颊撐闹胁煌悇e的引用對象和引文功能的識別能夠進一步明確科技論文的引用行為,揭示引用關系的實質,為科技論文的學術貢獻和價值評價提供重要維度。隨著文本挖掘、深度學習等技術的發(fā)展,深入科技論文文本識別不同類別的引用對象和引文功能成為可能。

國內外學者對于科技論文引用對象、引用對象類別以及引文功能三者的研究已有一些成果。對科技論文引用對象的研究主要有人工識別和自動識別,如陸偉等[4]、Qazvinian V等[5]對論文引文內容中的引用對象和引文功能進行人工標注,驗證了文中提出的引文內容標注框架的可行性。章成志等采用不同機器學習模型,按不同粒度切分被引文本,對科技論文引用對象進行自動識別[6];Ma S T等在基于上下文的引文推薦方法中,介紹了通過識別引文文本和被引論文內容中最相關的部分實現(xiàn)引文推薦的方法[7];Khalid A等[8]利用引文上下文主題來表示科技論文的引用對象,但實驗結果表明,存在部分引文上下文主題無法準確反映引用對象的不足;馬娜等[9]嘗試將引用對象的識別轉化為序列標注問題,利用深度學習模型對引文內容中的術語型引用對象做自動識別,模型F1值為60.18%,但引用對象類別劃分粒度較粗,且只面向術語型引用對象進行識別研究。對引用對象類別的研究主要有不同學者提出的分類框架。對引文功能的研究主要有不同學者提出的分類框架和分類方法模型,如陳穎芳等[10]提出了引文功能分類框架并進行人工標注,探討科學知識的發(fā)展演進規(guī)律;尹莉等[11]在建立分類框架后利用機器學習模型對引文的功能和極性進行分類;Bakhti K等[12]針對6個類別的引文功能提出了一種半注釋標注方法,提高了引文功能的分類性能。目前較少有深入文本語義對科技論文引用對象做自動分類識別的研究;大多數(shù)現(xiàn)有研究僅面向科技論文引用對象和引文功能的其中一個問題進行研究,較少將兩者結合起來進行研究,無法全面揭示文獻間引用關系的實質。

本文提出基于BERT-BiGRU-CRF的科技論文引用對象和引文功能的聯(lián)合自動識別方法模型。首先,從知網數(shù)據(jù)庫獲取科技論文全文本,利用正則匹配引用標記的方式獲取科技論文引文內容;其次,借鑒已有研究確定引用對象和引文功能的標注方法,對科技論文引文內容進行人工標注;然后,利用BERT-BiGRU-CRF模型對科技論文文本進行序列標注,實現(xiàn)了引用對象和引文功能的聯(lián)合自動識別;最后,將識別結果用3個三元組進行表達。識別結果的三元組實際上是引文內容的知識表示,可以作為科技評價知識庫的一個重要組成部分。本文提出的方法模型深入科技論文文本語義,利用文本挖掘、深度學習方法將引用對象和引文功能的自動識別任務轉換為序列標注問題,將自動抽取結果表達為三元組,更好地揭示了科技論文的引用行為和文獻間的引用關系,為科技論文學術價值的評價提供了一定的參考意義。

1 相關研究

1.1 科技論文引用對象和引文功能的分類

科技論文是科研創(chuàng)新成果的重要載體之一,是最主要的科學技術信息傳播和交流手段/工具??萍颊撐囊脤ο笫鞘┮墨I引用被引文獻的具體內容,常以名詞或名詞術語的形式表示,是引文內容的概括性表達,解釋了施引文獻引用被引文獻的“什么”;科技論文引文功能是被引文獻在施引文獻中的具體作用,解釋了施引文獻為什么引用被引文獻[4]。

本文科技論文引用對象的識別是指科技論文引用對象及其類別的識別??萍颊撐囊脤ο蟮姆诸愂强萍颊撐囊脤ο箢悇e識別的基礎。現(xiàn)有研究對于科技論文引用對象的分類有很多成果。Garzone M等[13]將引用對象劃分為“材料、設備、工具”“公式”“方法、程序”等5個類別;張春博等[14]對一篇社會科學領域被撤銷的論文進行解構,將引用對象劃分為“概念、理論、方法、工具”等5個類別;Radoulov R[15]將引用對象分為“背景、歷史工作、概念、方法、數(shù)據(jù)”等9個類別;張夢瑩等[16]將引用對象劃分“定義、方法、理論、工具”等10個類別;陸偉等[4]將引用對象的類別劃分為“概念、方法、理論、工具”等11種。在已有研究中,部分引用對象的類別劃分粒度較粗,識別出的內容難以突出其意義和作用;部分引用對象的類別劃分粒度較細,人工識別過程的難度加大,識別結果的準確性降低。本文借鑒陸偉提出的11個類別的引用對象分類方案,考慮自動識別的準確度,將“方法、模型、算法”統(tǒng)一歸為“方法”,最終將科技論文引用對象的分類方案確定為“概念、方法、理論、工具、應用、數(shù)據(jù)、公式、結果和未提及”9個類別。

科技論文引文功能的分類是科技論文引文功能識別的基礎。已有研究對于引文功能的分類有很多成果。陸偉等提出了一個較小粒度的引文功能分類方法,將引文功能劃分為“基于、啟發(fā)、使用”等15類[4];尹莉等[11]將引文功能分為“使用、比較、批判、背景”4個大類,并分別對不同類別的功能進行詳細解釋;Bakhti K等[12]將引文功能劃分為“基于、有用的、承認已有工作、比較、批判”等6類;Jurgens D等[17]選擇自然語言處理領域的52篇文章進行標注,將引文功能分為“背景、使用、比較或對比、動機、擴展、未來展望”6個類別;Dong C等[18]將引文功能劃分為“背景、基本概念、技術基礎、比較”4類。已有引文功能分類體系在類別和數(shù)目上差別較大,本文在比較了這些分類體系后,認為尹莉的分類體系區(qū)分度較強,陸偉的分類體系更全面,但粒度較小,不易于自動識別。本文結合兩位學者的分類方案,認為陸偉提出的“基于”功能和“啟發(fā)、使用、拓展”3個功能有重疊?!霸敿氁?、肯定”功能含義比較籠統(tǒng),“啟發(fā)、使用、拓展”也包含了這兩個功能?!跋嗨啤惫δ芸梢园谒幸墓δ苤校痪哂袇^(qū)分度?!跋嚓P研究、簡單引用、相關工作之間比較、歷史背景”這幾個功能可以被尹莉提出的“背景”這一引文功能所概括。因此,本文將科技論文引文功能分類方案確定“啟發(fā)、使用、拓展、比較、背景、批判、未來工作”7個類別。901E1773-29E0-4DE9-B2FF-E1280F48292C

1.2 基于序列標注模型的實體關系聯(lián)合自動識別方法

科技論文引用對象是可以概括性表達引文內容的實體,科技論文引文功能反映的是施引文獻與引用對象的關系。科技論文引用對象和引文功能的自動識別可以借鑒實體關系自動識別的思路。已有多數(shù)實體關系識別的研究將實體和關系分開識別,存在忽略子任務模塊之間的關聯(lián)性及前一個子任務的錯誤順延到下一個子任務等問題。聯(lián)合識別是將實體和關系同時識別,這種方式避免了分開識別存在的問題[19]。本文借鑒實體關系聯(lián)合識別的方式來進行科技論文引用對象和引文功能的聯(lián)合識別。

序列標注方法用于實體關系聯(lián)合識別的思路由Zheng S等[20]于2017年提出,目前已有很多學者運用這種方法進行研究,并取得了不錯的成果。如Liu X Y等[21]將序列標注方法用于醫(yī)學領域文本,實現(xiàn)了實體和關系的聯(lián)合抽取;王仁武等[22]將序列標注方法用于抽取在線評論文本中的實體及其屬性關系,實驗證明,相較于傳統(tǒng)的基于規(guī)則或一般的機器學習方法,該方法具有更大優(yōu)勢;馬建紅等[19]提出了聯(lián)合抽取模型,對化學領域的資源實體及關系進行聯(lián)合抽取;王一釩等[23]將古漢語的實體關系的識別轉換為序列標注問題,并取得了較好的效果;唐曉波等[24]將利用序列標注模型對金融文本中的實體及其關系進行聯(lián)合抽取。

本文采用序列標注的方法實現(xiàn)科技論文引用對象和引文功能的聯(lián)合自動識別??萍颊撐囊脤ο蠛鸵墓δ艿淖R別依賴科技論文文本的語義信息,本文考慮結合深度學習方法,采用BERT-BiGRU-CRF序列標注模型,利用BERT模型的深層語義分析能力、BiGRU對于上下文語境的理解能力以及CRF的全局優(yōu)化處理能力,對科技論文的引用對象和引文功能做聯(lián)合自動識別研究。

2 科技論文引用對象和引文功能的聯(lián)合自動識別方法模型

本文提出的科技論文引用對象和引文功能的聯(lián)合自動識別方法模型包括4個部分,分別是科技論文引文內容的獲取、科技論文引文內容的序列標注、基于BERT-BiGRU-CRF模型的引用對象和引文功能的聯(lián)合自動識別以及引用對象和引文功能識別結果三元組表示。模型如圖1所示。

2.1 科技論文引文內容的獲取

科技論文引文內容的獲取包括以下步驟:

1)科技論文全文本的采集及清洗。從知網數(shù)據(jù)庫下載科技論文全文的PDF文件,利用Python語言將論文全文PDF轉化為TXT格式的文本,保留引用標記“[]”,剔除少數(shù)文本內容不全的論文文本。

2)科技論文引文內容的獲取。引文內容是指文獻正文中的引文句及其上下文[25],其中引文句是指引用標記所在句。本文借鑒李卓等[25]和周好等[26]的做法,將引文上下文確定為引文句的前兩句和后兩句,5個句子共同組成科技論文的引文內容,幫助識別科技論文的引用對象和引文功能。本文采用句號將科技論文文本切分為句子,利用正則匹配引用標記的方法獲得科技論文引文句及其上下文,實現(xiàn)科技論文引文內容的獲取。

2.2 科技論文引文內容的序列標注

本文在已有研究基礎上確定科技論文引文內容的標注方法。人工標注時首先通過引文句判斷句中的引用對象和引文功能,如果能夠準確判斷,則對引文句這一句話進行標注;如果通過引文句無法準確判斷,則進一步查找引文句的上下句,直到找到能夠準確識別引文句中的引用對象和引文功能的句子,并對這些句子進行人工標注。句中的每一個字都賦予一個標簽,標注示例如圖2所示。

2.2.1 引用對象和引文功能的標注

1)引用對象的標注

本文引用對象的標注是指引用對象名稱和引用對象類別的標注。在前文確定的9個類別的引用對象中,本文實驗部分將考慮選擇概念、理論、方法、工具這4類被學者納入分類框架最多的引用對象進行方法模型的驗證,借鑒陸偉和已有研究對這4類引用對象的定義,確定4類引用對象的標注方法。引用對象的標注描述(部分)如表1所示。

2)引文功能的標注

在前文確定的7個類別引文功能中,本文實驗部分將考慮選擇“使用”“背景”和“批判”這3類最具區(qū)分度且被學者納入分類框架最多的功能進行本文方法模型的驗證,借鑒陸偉和尹莉對這3類引文功能的定義,確定3類引文功能的標注方法。引文功能的標注描述(部分)如表2所示。

2.2.2 標簽類型

本文提出的標簽包含3部分,依次是引用對象邊界、引用對象類別和引文功能。對于引用對象邊界標簽,本文采用“BIO”標簽對引文內容進行字粒度的標注,其中,B表示引用對象的頭部,I表示引用對象的中部或尾部,O則表示該句中其他部分。

引用對象類別標簽由本文預先定義的類別來確定,由每種類別英文單詞的前3位大寫字母作為對應標簽。引文功能標簽由數(shù)字“1”“2”和“3”表示,其中數(shù)字“1”表示引文功能是“使用”,數(shù)字“2”表示引文功能是“背景”,數(shù)字“3”表示引文功能是“批判”。部分引用對象和引文功能的標簽類型如表3所示。

2.3 基于BERT-BiGRU-CRF模型的引用對象和引文功能的聯(lián)合自動識別

本文的科技論文引用對象和引文功能聯(lián)合識別是指將科技論文引用對象和引文功能同時進行識別,解決了將兩者分開識別存在的錯誤在任務間傳遞,無法更全面揭示文獻間引用關系實質[4]等不足。本文采用BERT-BiGRU-CRF模型,將科技論文引用對象和引文功能的聯(lián)合自動識別問題轉化為序列標注問題,模型的結構如圖3所示。整個模型依次由BERT層、BiGRU層和CRF層3部分組成。句子首先輸入BERT預訓練語言模型層獲得科技論文引文內容每個字基于上下文計算的向量表示,然后使用BiGRU提取前后上下文時序特征,得到科技論文引文內容每個字對于各引用對象和引文功能標簽的非歸一化概率分布,最后運用CRF層考慮相鄰標簽間依賴關系的優(yōu)勢,獲得全局最優(yōu)的標記序列[30]。901E1773-29E0-4DE9-B2FF-E1280F48292C

2.3.1 BERT詞向量層

BERT(Bidirectional Encoder Representations from Transformers)是一個語言表示模型,由Devlin J等[31]在2018年提出。相較于傳統(tǒng)的語言模型,BERT模型使用了雙向Transformer結構,在預訓練階段還使用了遮蔽語言模型(Masked Language Model,MLM)以及下一句預測(Next Sentence Prediction,NSP)兩個任務進行聯(lián)合訓練。

Transformer的本質是一個Encoder-Decoder模型[32],Transformer中的編碼單元主要由自注意力模塊和前饋神經網絡模塊構成,其中注意力模塊是編碼單元中最重要的結構,該模塊的核心目標是從眾多信息中選擇出對當前任務目標更關鍵的信息。BERT使用的雙向Transformer結構可以更好地融合上下文信息。預訓練階段的遮蔽語言模型任務是指隨機抹去一句話中15%的詞,要求模型根據(jù)剩余詞匯預測被抹去的部分;下一句預測任務的實質是一個二分類問題,在實際預訓練過程中判斷兩個句子是否是連續(xù)的。兩個任務的聯(lián)合訓練使模型輸出的每個字的向量表示都盡可能全面、準確地刻畫輸入文本的整體信息,適用于本文的任務。

2.3.2 BiGRU層

門控循環(huán)網絡(Gated Recurrent Unit Networks,GRU)在2014年由Cho K等[33]提出,是一種特殊的循環(huán)神經網絡。循環(huán)神經網絡(Recurrent Neural Network,RNN)的遞歸結構對于本文需結合文本語義識別實體關系的任務十分有效。但RNN模型在對長序列進行學習時會出現(xiàn)梯度消失(Gradient Vanishing)和梯度爆炸(Gradient Explosion)現(xiàn)象[34],無法掌握長時間跨度的非線性關系。在普通RNN的基礎上,GRU有效解決了長期記憶和反向傳播中的梯度等問題。相較于RNN的另一個變體LSTM(Long Short-Term Memory Network),GRU以更簡化的門控單元達到和LSTM相當?shù)墓δ埽喕擞柧毜某杀?,提升了訓練速度?/p>

BiGRU(Bidirectional Gated Recurrent Unit Networks)是由兩個單向、方向相反GRU組成的雙向門控循環(huán)網絡,可以分別處理正序和逆序的語言序列,再將處理結果進行合并[35],綜合考慮了上下文語義。科技論文引用對象和引文功能的識別依賴于引用對象所在引文句及其上下文的語義信息,而BiGRU模型能夠兼顧文本的上下文語義,避免了單向結構會造成的信息缺失的問題,適用于本文的研究。

2.3.3 CRF層

CRF(Conditional Random Field)是自然語言處理的基礎模型,其作為無向圖模型下的一種馬爾可夫網絡,在通過自定義特征模板的同時,通過實體左右兩邊的邊界特征以及內外部多重信息等,采用豐富特征集的辦法來提高識別精準度,從整體上考慮句子前后的標簽信息。在文本詞向量經過BiGRU層后,BiGRU層對標簽間的依賴關系的欠缺考慮可能會導致實體標簽的混淆。例如,實體邊界標簽“I”本應當出現(xiàn)在“B”之后,但預測的標簽結果出現(xiàn)“I”標簽在“B”標簽之前的情況;或在同一個實體中,每個字的類別標簽、引文功能標簽應當是一致的,但預測的標簽結果出現(xiàn)不一致的情況。此時模型中的CRF層結合句子前后的標簽特征,對以上可能出現(xiàn)的情況進行規(guī)避,對整體標簽進行全局優(yōu)化處理,最終輸出每個字對應的最優(yōu)標簽。

2.4 引用對象和引文功能識別結果的三元組表示

本文將模型正確識別出的科技論文引用對象和引文功能表示為3個三元組,包含引文功能三元組,引用對象文獻三元組和引用對象類別三元組。3個三元組共同表達科技論文引用行為,揭示引用關系實質。引文功能三元組表示為(施引文獻,引文功能,被引文獻),表達了施引文獻和被引文獻間的引用關系;引用對象文獻三元組表示為(引用對象,Part-of,被引文獻),表達了引用對象和被引文獻間的包含關系;引用對象類別三元組表示為(引用對象,ISA,引用對象類別),表達了引用對象的類別屬性。

引用對象和引文功能的正確識別須同時包含3個條件:首先,引用對象的實體標簽完整且實體邊界標簽符合“B”為頭部“I”為非頭部;其次,同一個引用對象每個字的引用對象類別標簽都相同且正確;最后,同一個引用對象每個字對應的引文功能標簽都相同且正確。本文的引用對象和引文功能三元組的表示思路如下:

1)通過引用對象實體邊界標簽獲取每個引文句中模型自動識別的引用對象,判斷引用對象類別和引文功能是否均標注正確。

2)保留正確標注的引用對象實體,將引用對象和引文功能標簽拆分為實體邊界、引用對象類別和引文功能3個部分,根據(jù)前文確定的標簽得到引用對象名稱、引用對象類別和引文功能。

3)根據(jù)前文確定的引用對象和引文功能的三元組表示方法,得到引用對象和引文功能三元組。

3 實驗與結果分析

3.1 數(shù)據(jù)采集與處理

本文選取《FMS管理科學高質量期刊推薦列表》中5本中文圖情領域期刊作為數(shù)據(jù)來源,分別是《中國圖書館學報》《情報學報》《圖書情報工作》《圖書情報知識》以及《數(shù)據(jù)分析與知識發(fā)現(xiàn)》。從知網數(shù)據(jù)庫下載5本期刊2021年上半年發(fā)表的PDF格式的論文全文190篇,共包含參考文獻6 832篇;利用Python將期刊論文全文PDF轉換為TXT格式;利用正則表達式匹配引用標記的方法,獲得科技論文的引文內容6 852條。本文隨機選取了1 145條引文內容進行人工標注,構建實驗數(shù)據(jù)集。平均每條引文內容83.75字,其中915條引文內容作為訓練集,230條引文內容作為測試集。實驗樣本標簽分布如表4所示。901E1773-29E0-4DE9-B2FF-E1280F48292C

本文由兩名具有領域知識的專業(yè)人員結合引文內容對科技論文中的引用對象和引文功能進行標注,初步篩查后去掉了樣本數(shù)量過少的CON-3、THE-3標簽,最終保留21個標簽。為驗證人工標注結果的一致性,本文隨機選取300條標注數(shù)據(jù)進行Kappa系數(shù)[36]的一致性檢驗。Kappa系數(shù)的計算方法如式(1)。

K=P(A)-P(E)1-P(E)(1)

其中P(A)表示標注結果一致性的實際值,P(E)表示標注結果一致性的期望值。本文計算得到兩位標注者標注結果的Kappa值為0.821。根據(jù)Carletta J[37]給出的一致性參考指標,本文的人工標注結果十分可靠。對于不一致的標注結果,由兩名標注人員探討后確定最終的標注方式。

3.2 實驗過程

本文使用BERT-BiGRU-CRF序列標注模型驗證引用對象和引文功能自動識別方法的有效性。隨機選取實驗樣本數(shù)據(jù)的80%作為模型的訓練集,20%作為模型的測試集,并從訓練集中隨機選取10%作為驗證集用于模型超參數(shù)的調整。BERT-BiGRU-CRF模型采用了Google提供的BERT-Base、Chinese版本,模型訓練階段選取的主要超參數(shù)(部分)如表5所示。

此外,本文采用了BiGRU-CRF和BERT-BiLSTM-CRF模型與本文提出的序列標注模型進行對比。BiGRU-CRF模型由BiGRU層和CRF層組成。BERT-BiLSTM-CRF模型由BERT層、BiLSTM層和CRF層3部分組成。BiGRU、CRF和BERT原理如前文所述。雙向長短時記憶網絡BiLSTM(Bidirectional LSTM)由前向和后向長短時記憶網絡LSTM組成。LSTM是循環(huán)神經網絡的一種變體,與RNN相比,其在隱藏層的神經元中加入特別設計的記憶單元,對輸入值進行遺忘、更新和保存后輸出,有效解決RNN在訓練中由于序列過長而產生的梯度彌散和梯度消失問題[38]。BiGRU-CRF模型用以對比BERT預訓練語言模型在本文任務中的效果。BERT-BiLSTM-CRF模型用以對比循環(huán)神經網絡變體的效果。

3.3 實驗結果與分析

本文使用分類問題中常用評價指標:精確率(Precision)、召回率(Recall)、F1值(F1-score)對本文的模型訓練結果進行評價。精確率是指預測為正的樣本中實際為正的占比;召回率是指實際為正的樣本中被預測為正的占比;F1值是調和平均數(shù),綜合指標P與R。3個指標的計算方法見式(2)~(4)。

P=TPTP+FP×100%(2)

R=TPTP+FN×100%(3)

F1=2PRP+R×100%(4)

其中,TP是指預測為正,實際為正;FP是指預測為正,實際為負;FN是指預測為負,實際為正;TN是指預測為負,實際為負。

實驗使用測試集對本文提出的模型以及對比模型進行試驗,引用對象、引文功能、引用對象和引文功能聯(lián)合識別在不同模型下的精確率、召回率、F1值如表6所示;引用對象和引文功能聯(lián)合識別正確三元組(示例)如表7所示;引用對象和引文功能聯(lián)合識別錯誤三元組(示例)如表8所示。

引用對象和引文功能聯(lián)合識別正確是指3個部分的標簽均識別正確的情況,即引用對象名稱、引用對象類別和引文功能均識別正確。而模型訓練結果可能出現(xiàn)引用對象和引文功能中的其中一個識別正確,而另一個識別錯誤的情況,例如引用對象名稱和引用對象類別識別正確,但引文功能識別錯誤。本文將這種情況視為引文功能識別錯誤,但引用對象識別正確。

表6的訓練結果表明,本文使用的方法模型在引用對象和引文功能的識別中取得了較好的效果,引用對象、引文功能、引用對象和引文功能聯(lián)合識別的F1值分別為71.78%、68.33%、64.23%。對比本文模型與BiGRU-CRF模型,引用對象、引文功能、引用對象和引文功能聯(lián)合識別的F1值分別提升了22.90%、20.89%、23.33%,相較于傳統(tǒng)的字向量表示方法,BERT模型對于本文的任務更有優(yōu)勢;對比本文模型與BERT-BiLSTM-CRF模型,本文模型在同等條件下以更簡單的結構達到了更好的識別效果。

對比引用對象和引文功能的聯(lián)合識別與分開識別結果,聯(lián)合識別結果略低于兩者分開識別結果,但在本文模型和對比模型中,引用對象和引文功能聯(lián)合識別與兩者分開識別得到的F1值相差均不超過8%。本文模型的聯(lián)合識別任務能更高效地達到與分開識別任務差別不大的結果。實驗結果初步驗證了本文模型對于引用對象和引文功能聯(lián)合自動識別的有效性。

表8呈現(xiàn)了模型聯(lián)合識別錯誤的示例。句1中是引用對象類別識別錯誤,模型將“扎根理論”這一方法識別為理論;句2中是引用對象名稱識別錯誤,模型將句中“可視化方法”這一非引用對象的方法實體錯誤地識別為引用對象;句3中是引文功能識別錯誤,模型將引文功能由“背景”錯誤識別為“使用”。針對本文模型識別錯誤的情況,在后續(xù)研究中可以進一步擴充模型的訓練樣本,讓模型更好地對不同語義下的引文句進行引用對象及其功能的自動識別。

4 結 語

本文提出了科技論文引用對象和引文功能的序列標注及聯(lián)合自動識別方法模型,將科技論文引用對象和引文功能識別轉化為序列標注的問題,利用BERT-BiGRU-CRF模型實現(xiàn)引用對象和引文功能的自動識別,最終得到引用對象和引文功能三元組,基于深層文本語義分析,解決了傳統(tǒng)引文分析方法的不足,為科技論文學術價值的評價提供了參考意義。

本文的創(chuàng)新點在于:①提出了新的科技論文文本序列標注方法,將科技論文引用對象和引文功能的識別問題轉換為序列標注問題;②利用BERT-BiGRU-CRF模型,基于深層文本語義實現(xiàn)了科技論文引用對象和引文功能的聯(lián)合自動識別。實驗結果驗證了本文方法模型的有效性。901E1773-29E0-4DE9-B2FF-E1280F48292C

本文的研究依然存在著局限和不足。圖情領域期刊論文引用對象中的方法較多,理論較少,標簽樣本中引用對象類型的不平衡影響了本模型的自動識別效果。在未來的研究中可以選擇更多的學科領域,增加并且平衡標簽樣本,使模型達到更好的識別效果。

參考文獻

[1]李潤竹.科技論文類型與影響力的相關性研究[D].濟南:山東師范大學,2021.

[2]姜霖,張麒麟.基于引文細粒度情感量化的學術評價研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(6):129-138.

[3]馬娜,張智雄,于改紅.科技論文引用對象研究綜述[J].圖書情報工作,2019,63(23):139-145.

[4]陸偉,孟睿,劉興幫.面向引用關系的引文內容標注框架研究[J].中國圖書館學報,2014,40(6):93-104.

[5]Qazvinian V,Radev D R.Scientific Paper Summarization Using Citation Summary Networks[C]//Proceedings of the 22nd International Conference on Computational Linguistics.Manchester:Association for Computational Linguistics,2008:689-696.

[6]章成志,徐津,馬舒天.學術文本被引片段的自動識別研究[J].情報理論與實踐,2019,42(9):139-145.

[7]Ma S T,Zhang C Z,Liu X Z.A Review of Citation Recommendation:From Textual Content to Enriched Context[J].Scientometrics,2020,122(3):1445-1472.

[8]Khalid A,Khan F A,Imran M,et al.Reference Terms Identification of Cited Articles as Topics from Citation Contexts[J].Computers & Electrical Engineering,2019,74:569-580.

[9]馬娜,張智雄,吳朋民.基于特征融合的術語型引用對象自動識別方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(1):89-98.

[10]陳穎芳,馬曉雷.基于引用內容與功能分析的科學知識發(fā)展演進規(guī)律研究[J].情報雜志,2020,39(3):71-80.

[11]尹莉,郭璐,李旭芬.基于引用功能和引用極性的一個引用分類模型研究[J].情報雜志,2018,37(7):139-145.

[12]Bakhti K,Niu Z D,Nyamawe A S.Semi-Automatic Annotation for Citation Function Classification[C]//2018 International Conference on Control,Artificial Intelligence,Robotics & Optimization(ICCAIRO),2018:43-47.

[13]Garzone M,Mercer R E.Towards an Automated Citation Classifier[C]//Advances in Artificial Intelligence.Berlin:Lecturenotes in Computer Science,2000:337-346.

[14]張春博,丁堃,王賢文,等.全文引文分析視角下的造假論文學術影響研究[J].科學學研究,2021,39(4):577-586.

[15]Radoulov R.Exploring Automatic Citation Classification[D].Waterloo:University of Waterloo,2008.

[16]張夢瑩,盧超,鄭茹佳,等.用于引文內容分析的標準化數(shù)據(jù)集構建[J].圖書館論壇,2016,36(8):48-53.

[17]Jurgens D,Kumar S,Hoover R,et al.Measuring the Evolution of a Scientific Field through Citation Frames[J].Transactions of the Association for Computational Linguistics,2018,6:391-406.

[18]Dong C,Schfer U.Ensemble-style Self-training on Citation Classification[J].International Joint Conference on Natural Language Processing,2011:623-631.

[19]馬建紅,魏字默,陳亞萌.基于信息融合標注的實體及關系聯(lián)合抽取方法[J].計算機應用與軟件,2021,38(7):159-166.

[20]Zheng S,Wang F,Bao H,et al.Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme[C]//Proceedings of the 55th Annual Meeting of the ACL.Stroudsburg,PA:ACL,2017:1227-1236.901E1773-29E0-4DE9-B2FF-E1280F48292C

[21]Liu X Y,Liu Y,Wu H Y,et al.A Tag Based Joint Extraction Model for Chinese Medical Text[J].Computational Biology and Chemistry,2021,93:107508.

[22]王仁武,孟現(xiàn)茹,孔琦.實體—屬性抽取的GRU+CRF方法[J].現(xiàn)代情報,2018,38(10):57-64.

[23]王一釩,李博,史話,等.古漢語實體關系聯(lián)合抽取的標注方法[J/OL].數(shù)據(jù)分析與知識發(fā)現(xiàn):1-18[2021-08-19].

[24]唐曉波,劉志源.金融領域文本序列標注與實體關系聯(lián)合抽取研究[J].情報科學,2021,39(5):3-11.

[25]李卓,趙夢圓,柳嘉昊,等.基于引文內容的圖書被引動機研究[J].圖書與情報,2019,(3):96-104.

[26]周好,王東波,黃水清.古籍引書上下文自動識別研究——以注疏文獻為例[J/OL].情報理論與實踐:1-10[2021-08-19].

[27]趙洪,王芳.理論術語抽取的深度學習模型及自訓練算法研究[J].情報學報,2018,37(9):923-938.

[28]章成志,張穎怡.基于學術論文全文的研究方法實體自動識別研究[J].情報學報,2020,39(6):589-600.

[29]劉昆雄,秦順,孔鵬,等.國內外高校圖書館科研數(shù)據(jù)管理工具應用現(xiàn)狀調查——以部分“雙一流”和世界一流大學圖書館為例[J].新世紀圖書館,2019,(6):67-72.

[30]吳俊,程垚,郝瀚,等.基于BERT嵌入BiLSTM-CRF模型的中文專業(yè)術語抽取研究[J].情報學報,2020,39(4):409-418

[31]Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of Deep Bidirectional Transform-ers for Language Understanding[J].arXiv Preprint arXiv:1810.04805,2018.

[32]Vaswani A,Shazeer N,Parmar N,et al.Attention is All You Need[C]//Advances in Neural Information Processing Systems,2017:5998-6008.

[33]Cho K,Merrinboer B,Gülehre ,et al.Learning Phrase Representations Using RNN Encoder-decoder for Statistical Machine Translation[J].arXiv Preprint arXiv:1406.1078,2014.

[34]張堯.激活函數(shù)導向的RNN算法優(yōu)化[D].杭州:浙江大學,2017.

[35]Schuster M,Paliwal K K.Bidirectional Recurrent Neural Networks[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.

[36]Warrens M J.Chance-Corrected Measures for 2×2 Tables That Coincide with Weighted Kappa[J].The British Journal of Mathematical and Statistical Psychology,2011,64 (2):355-365.

[37]Carletta J.Assessing Agreement on Classification Tasks:The Kappa Statistic[J].Computational Linguistics,1996,22(2):249-254.

[38]Sundermeyer M,Schlüter R,Ney H.LSTM Neural Networks for Language Modeling[C]//Proceedings of the 13th Annual Conference of the International Speech Communication Association,Portland,USA,2012:601-608.

(責任編輯:陳 媛)901E1773-29E0-4DE9-B2FF-E1280F48292C

猜你喜歡
三元組自動識別類別
基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質檢算法*
特征標三元組的本原誘導子
關于余撓三元組的periodic-模
自動識別系統(tǒng)
金屬垃圾自動識別回收箱
基于IEC61850的配網終端自動識別技術
服務類別
論類別股東會
蘭姆凹陷穩(wěn)頻工作點自動識別技術
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
久治县| 旬邑县| 龙井市| 梅州市| 锡林郭勒盟| 崇仁县| 邓州市| 综艺| 河池市| 南汇区| 沁水县| 信丰县| 仁布县| 阿巴嘎旗| 新密市| 衡东县| 平武县| 疏附县| 平远县| 铜鼓县| 四子王旗| 宝清县| 澳门| 三穗县| 清水县| 重庆市| 汉源县| 柳河县| 庄浪县| 莱芜市| 巴楚县| 荣成市| 宜兰市| 辽阳县| 长岛县| 汤阴县| 荣昌县| 习水县| 重庆市| 揭阳市| 永泰县|