国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科學文獻中的知識實體抽取與評價研究綜述

2023-12-18 11:07:53劉春麗陳爽
現(xiàn)代情報 2023年12期
關鍵詞:綜述

劉春麗 陳爽

關鍵詞: 知識實體; 實體抽??; 實體評價; 科學文獻; 實體計量學; 綜述

DOI:10.3969 / j.issn.1008-0821.2023.12.013

〔中圖分類號〕G254 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 12-0143-21

科學文獻是凝結(jié)眾多科研工作者智慧和汗水的結(jié)晶, 也是科研工作者獲取知識的重要資源[1] 。豐富的文獻資源為研究人員進行數(shù)據(jù)驅(qū)動的知識發(fā)現(xiàn)提供了大量的機會[2] 。隨著人工智能的快速發(fā)展,自然語言處理技術(shù)不斷進步, 學者們已經(jīng)從最初聚焦于科學文獻外部特征的研究逐步轉(zhuǎn)向內(nèi)容層面,開展更細粒度的研究, 并深入到對其中蘊含的知識實體進行挖掘、利用和評價, 以實現(xiàn)從文獻書目層面到內(nèi)容層面的知識組織與知識管理[3] ??茖W研究中的知識實體的進步、改進和應用對促進不同學科發(fā)展起著至關重要的作用[4] 。知識實體的抽取與評價對信息檢索、文本挖掘、信息推薦、自然語言處理、數(shù)字圖書館研究、科學決策等有較大的應用價值。

為了更全面地了解知識實體相關研究, 本文進行了中外文的文獻調(diào)研。首先, 分別在Web of Sci?ence 核心合集數(shù)據(jù)庫、谷歌學術(shù)和CNKI、萬方、維普數(shù)據(jù)庫中檢索相關論文。中文檢索策略是將實體、算法、軟件、數(shù)據(jù)集、知識元、術(shù)語等表示研究對象的名詞, 學術(shù)論文、學術(shù)文獻和科學文獻等表示研究領域的名詞, 以及表示抽取、評價、計量、評估等名詞進行組配檢索; 英文檢索策略是將“entity”“entities”“text”“name”“sentence”“term”“knowledge element”“knowledge unit”“Fine-grainedknowledge”“knowledge graph” 等表示研究對象的名詞, 和“scientific document”“scientific literature”“academic literature”“academic papers” 等表示研究領域的名詞, 以及“recognition”“extract”“textmining”“data mining”“metrics” “indicator”“en?titymetrics” “evaluation”“impact” 等詞進行組配檢索, 得到中英文文獻超過兩千篇。通過瀏覽每篇論文的標題、摘要, 甚至全文, 再進一步人工篩選更密切相關的外文文獻約779 篇, 中文文獻約289 篇。此外, 也通過專家咨詢、檢索密切相關文獻的參考文獻, 核心作者與相關會議名稱等檢索方式補充。

總體來看, 中外文相關文獻呈現(xiàn)逐年遞增的趨勢。20 世紀90 年代發(fā)表的密切相關論文較少;2000—2010 年, 科學文獻的文本挖掘、知識元(關鍵詞、主題詞等元數(shù)據(jù))、知識單元(篇章、句子、短語等) 的挖掘或知識抽取逐漸興起; 2010 年以后, 知識實體的抽取、實體評價及實體計量等概念與方法逐漸繁榮。早期的知識實體抽取與評價主要來自生物醫(yī)學領域, 如Bruijn B D 等[5] 于2002 年發(fā)表在International Journal of Medical Informatics 的一篇論文中總結(jié)了從Medline 摘要或全文文章中提取各種分子生物學發(fā)現(xiàn)的文本挖掘技術(shù), 包括文本分類、命名實體標記、事實提取和論文集合分析;Ding Y 等[6] 于2013 年提出實體計量學, 并以二甲雙胍為例, 構(gòu)建藥物相關實體引文網(wǎng)絡, 利用緊密中心度和中介中心性等指標評價生物實體的重要性。

2020 年以來, 隨著機器學習、自然語言處理等技術(shù)的發(fā)展, 以及相關國際學術(shù)會議、工作組會議的召開, 知識實體研究進入了嶄新的發(fā)展時期。近年來, 有少量學者發(fā)表相關中文綜述文章。如李廣建等[7] 聚焦于基于深度學習的知識單元抽取; 沈雪瑩等[3] 專注于知識單元的抽取與應用; 溫雯等[8]梳理了知識實體類型的抽取與標注; 盧超等[9] 從引文內(nèi)容計量和全文內(nèi)容計量兩大方面綜述了學術(shù)文獻的全文計量, 著重指出今后應重視語義特征分析的深化。在英文綜述文獻中, Wang Y Z 等[10] 對方法實體的抽取、評價和應用現(xiàn)況進行了闡述和分析; 此外, Zhang C Z 等[11-14] 先后撰寫了知識實體抽取、評價與應用方面的簡要綜述, 如在第4 屆科學文獻中知識實體抽取與評價(EEKE2023)和第3屆AI+信息計量學(ALL2013)聯(lián)合工作組會議網(wǎng)站上發(fā)布的會議宗旨中指出“要將信息計量學與人工智能技術(shù)相結(jié)合, 具有分析非結(jié)構(gòu)化可擴展數(shù)據(jù)和數(shù)據(jù)流、理解不確定語義以及開發(fā)健壯和可重復模型的能力[11] ”。在2023 年, Aslib Journal of In?formation Management 的EEKE2021 工作組會議特刊發(fā)表客座編輯社論文章, 簡要介紹知識實體及其關系的抽取、注釋工具及知識實體圖譜的構(gòu)建、知識實體的應用等[12] 。

隨著自然語言處理技術(shù)的發(fā)展, 知識實體的抽取已經(jīng)從深度學習更新到BERT 和ChatGPT, 而且知識實體的評價方法也在文獻計量和替代計量基礎上取得了更深入、更多元的進步。因此, 需要在前人建立的理論基礎上, 對最新的知識實體抽取與評價發(fā)展現(xiàn)況進行系統(tǒng)梳理與分析。本文著眼于科學文獻中的知識實體, 在范圍上覆蓋更廣的實體類型。不僅較為詳盡地梳理實體抽取方法, 還著重總結(jié)了最新的大語言模型在實體抽取方面的應用。此外, 對知識實體抽取的數(shù)據(jù)集的總結(jié)、相關學術(shù)會議內(nèi)容與主題的比較也是本研究的特色之處。在知識實體的評價方面, 除知識實體的提及頻率和替代計量外, 還梳理出提及頻率的影響因素、實體共現(xiàn)網(wǎng)絡與實體引文網(wǎng)絡、基于實體的同行評議、基于知識實體的論文新穎性和臨床轉(zhuǎn)化進展評價等最新的研究進展。

1什么是科學文獻中的知識實體

什么是科學文獻中的知識實體(Knowledge enti?ty, KEs)? 大致可以從廣義與狹義兩個層面進行定義, 一是廣義上的知識實體, 即綜合了所有學科領域具有普遍意義的實體。學者們對什么是知識實體各抒己見, 如溫雯等[8] 將知識實體定義為: 區(qū)別于一般的實體的、具有專業(yè)領域特性、能概括表達文獻中核心知識點的術(shù)語; Zhang C Z 等[4] 認為,知識實體是指作者提及或引用的知識, 反映了各種解決問題場景中的豐富資源; Xiao C 等[15] 定義知識實體為特定學科中相對獨立和完整的知識模塊;Ding Y 等[6] 指出, 知識實體作為科學文獻中知識單位的載體, 包括諸如關鍵詞、主題、學科類別、數(shù)據(jù)集、關鍵方法、關鍵理論和領域?qū)嶓w(如生物實體: 基因、藥物和疾?。0彩阑⒌龋郏保叮?將保存可用的知識表達, 但沒有先天知識處理能力的知識事物稱為知識實體。李廣建等[7] 將科技文獻中以詞或短語為載體、相對獨立完整的知識模塊稱為知識實體或“詞粒度知識單元”, 并指出其具有細粒度、專業(yè)性強的特點。二是狹義上的知識實體, 即領域知識實體(表1 展示了知識實體在不同領域中所指代的具體內(nèi)容或定義)。如生物醫(yī)藥領域中的病毒實體、疾病實體、細胞實體、化學成分實體、藥物實體、生物分子實體[17-19] ; 計算機領域的軟件知識實體、算法知識實體和方法實體等[20-23] 。此時, 知識實體的具體指代因其應用的學科領域、作者研究目的差異而不同。

雖然各個學者對各學科領域知識實體的定義表述不一, 但究其本質(zhì)仍有共同之處。本研究中對領域知識實體的定義是各學科領域內(nèi)的專業(yè)術(shù)語或融合了領域知識的實體。

2科學文獻中知識實體的抽取

2.1知識實體的抽取方法研究

知識實體抽取可以作為命名實體識別(NamedEntity Recognition, NER)的子任務, 是開展自然語言處理相關研究的先行步驟, 高效、準確地抽取知識實體更有利于后續(xù)研究的順利開展。隨著人工智能技術(shù)的不斷發(fā)展, 主流的知識實體抽取方法已經(jīng)由早期基于人工標注、基于規(guī)則等依賴人工的方法逐漸演變成更加側(cè)重于自動化的抽取方法, 如基于傳統(tǒng)的機器學習、深度學習、預訓練語言模型或者多種模型混合的方法, 這使得知識實體抽取效率大大提升, 實體抽取的準確性也在部分領域有了顯著的改善。如在醫(yī)學領域, 從文本中提取癥狀、診斷意見和藥物信息。在材料科學領域, 識別無機材料性能、聚合物、納米材料以及合成路線等實體。在生態(tài)環(huán)境領域, 識別生態(tài)治理技術(shù)領域知識實體及生態(tài)環(huán)境領域知識實體[42] 。

2.1.1基于人工標注的方法

基于人工標注的知識實體抽取方法一般是通過預先定義的知識體系, 聘請專家對學術(shù)論文進行標注, 多用于構(gòu)建領域數(shù)據(jù)集或語料庫[43] 。如He JX 等[44] 基于人工標注的方法, 從21 篇人文社科博士論文致謝文本中抽取了致謝實體, 構(gòu)建了致謝實體的細粒度分類體系, 為今后利用機器學習等方法抽取和分析提供了致謝實體語料庫。

人工標注的優(yōu)勢在于其具備一定的靈活性, 這是其他方法較難比擬的; 不足則在于人工的精力往往是有限的, 很難在短時間內(nèi)實現(xiàn)大量數(shù)據(jù)集的有效標注。人工標注的方法雖然略顯笨重并且耗時耗力, 但至今仍然未被淘汰, 主要原因是由于此方法在部分領域如古籍、古詩詞等復雜領域的標注靈活性, 并且人工標注的高質(zhì)量數(shù)據(jù)集也是其他知識實體抽取研究的基礎, 其他方法通過與人工標注方法的有效結(jié)合可以大大提升知識實體的抽取準確性和抽取效率。

2.1.2基于規(guī)則的方法

基于規(guī)則的知識實體抽取主要依靠人工定制的規(guī)則開展, 這些規(guī)則的定制依賴于具體的知識庫和詞典, 規(guī)則制定人員通過選取統(tǒng)計信息、關鍵字、指示詞等具體特征的方式制定規(guī)則模板[45] 。如化柏林[46] 采用基于規(guī)則的方法對中文學術(shù)文獻的情報學方法理論術(shù)語進行抽取研究。Bhatia S 等[47] 使用基于規(guī)則的方法識別學術(shù)論文中的算法, 并構(gòu)建了算法搜索系統(tǒng)。鄒洋杰等[48] 采用基于規(guī)則的方法從情報學與計算機科學文獻中抽取方法實體; 許華等[49] 基于語言規(guī)則對病癥菌實體進行抽取。DingY 等[6] 以治療糖尿病的藥物二甲雙胍為例, 采用字典匹配的方法抽取二甲雙胍相關文獻中的基因、疾病和藥物實體, 用于構(gòu)建實體—實體引文網(wǎng)絡。Wang S 等[50] 設計了一種詞干匹配方法來查找出現(xiàn)在引文句子和相應參考文獻中的名詞短語, 以探索從參考文獻到施引論文的知識傳播。

通過規(guī)則匹配抽取知識實體的優(yōu)勢在于可以精準有效地抽取大量知識實體, 對比人工標注效率有了很大的提升; 但也會存在一些規(guī)則無法涵蓋所有知識實體的特點, 因而產(chǎn)生實體抽取遺漏, 而且基于規(guī)則的方法具有鮮明的領域特點, 難以遷移至其他數(shù)據(jù)集或其他領域進行知識實體抽取。

2.1.3基于傳統(tǒng)機器學習的方法

基于傳統(tǒng)的機器學習方法一般將實體抽取看作分類任務或序列標注任務[45,51] 。具體過程為: 將實體通過一定粒度的分詞后進行特征提取, 結(jié)合詞法和句法特征轉(zhuǎn)換成特征向量, 然后采用某些算法、模型, 如隱馬爾可夫模型(Hidden Markov Models)、最大熵模型(Maximum Entropy Models)、條件隨機場(Conditional Random Fields, CRF)、決策樹模型(Decision Trees) 等機器學習模型,比較特征向量之間的相似度, 然后進行標注。此種方法已經(jīng)在實體抽取任務中取得一定成效, 緩解人工成本過高的同時提高了模型的泛化性, 但抽取精度有賴于訓練數(shù)據(jù)的標注質(zhì)量, 且不適用于大規(guī)模數(shù)據(jù)集[52-54] 。

基于CRF 的機器學習模型開展的知識實體抽取研究較多, 涉及領域也較為廣泛, 包括計算機領域[55] 、生物醫(yī)學領域[56] 、旅游領域[45] 等。由于CRF 模型復雜度較高、訓練代價較大, 因此常與深度學習模型結(jié)合, 聯(lián)合實現(xiàn)實體抽取任務[57] 。

2.1.4基于深度學習的方法

基于深度學習方法在文本挖掘領域具有較好的性能, 包括運用在文本分類、信息抽取、關系抽取等任務中, 并逐漸占據(jù)實體抽取技術(shù)的主導地位,與傳統(tǒng)的機器學習相比, 深度學習采用深度神經(jīng)網(wǎng)絡模型實現(xiàn)對知識實體的自動抽取, 自動學習語義依賴關系, 有助于自動發(fā)現(xiàn)隱藏的特征, 使得泛化能力得到了提升, 并且有效降低了大量的人工成本[58-59] 。仲雨樂等[25] 也在研究中指出, 深度學習模型在問題、方法實體識別的任務上取得了比傳統(tǒng)機器學習更好的性能。

應用較多的模型包括深度神經(jīng)網(wǎng)絡模型(DeepNeural Network, DNN)、卷積神經(jīng)網(wǎng)絡(Convolution?al Neural Network, CNN)、基于詞向量的雙向長短時記憶神經(jīng)網(wǎng)絡模型(Bi-directional Long Short-TermMemory, BiLSTM)、圖神經(jīng)網(wǎng)絡(Graph Neural Net?work, GNN)和注意力機制等[60] 。其中, BiLSTMCRF已成為基于深度學習的命名實體識別方法中的主要模型[61-62] , 在此基礎之上有學者提出Bert-BiLSTM-CRF[63-65] 、BiLSTM-CNNs-CRF[51] 、引入注意力機制的Att-BiLSTM-CRF 模型[66-67] 、AL?BERT-BiLSTM-CRF 模型[68] 等混合模型, 分別在中文景點實體、中文位置實體、術(shù)語實體、電子病歷、農(nóng)業(yè)文本中實體等的抽取有較為出色的表現(xiàn)。如Hou L 等[53] 應用了引入注意力機制的BiLSTMCNN-CRF 模型對文獻中的算法和數(shù)據(jù)集進行抽取, 其中注意力機制可以捕獲標記和上下文信息之間的長距離依賴關系, 通過選擇性地對一些重要信息給予更多的關注, 并賦予它們較高的權(quán)重, 以聚焦于句子的關鍵部分, 從而大大提升了模型的性能; 韓娜等[68] 采用ALBERT-BiLSTM-CRF 模型完成句子級事件的重要元素的抽取, 結(jié)果表明, 該模型與其他同類型模型相比, 準確率和F1 值均有所提升; 章成志等[69] 采用基于字向量的、結(jié)合條件隨機場的雙向長短時記憶網(wǎng)絡聯(lián)合訓練模型對研究方法實體識別進行識別, 模型表現(xiàn)性能較佳。

基于深度學習的方法抽取學術(shù)文獻中的知識實體受到廣泛關注, 也具有較大的發(fā)展?jié)摿?。此外,通過結(jié)合預訓練模型、遷移學習、圖神經(jīng)網(wǎng)絡、遠程監(jiān)督學習或引入注意力機制所提出的混合模型也有效提升了深度學習模型在知識實體抽取任務中的效果[25] 。

2.1.5基于大規(guī)模預訓練語言模型

大規(guī)模預訓練語言模型, 簡稱“大語言模型(Large Language Model, LLM)”, 是一種從預訓練語言模型擴展的人工智能模型, 旨在理解和生成人類語言。BERT 與ChatGPT 均是基于Transformer 架構(gòu)的大語言模型。通過在大規(guī)模語料庫上進行無監(jiān)督訓練, 大語言模型在多個自然語言處理任務上取得了重要突破, 甚至在語義理解、常識推理和對話生成等任務上超越了人類平均水平[70] 。

Devlin J 等[71] 于2019 年提出雙向預訓練語言模型BERT ( Bidirectional Encoder Representationsfrom Transformers) 是未來知識實體抽取的主流模型[52] 。該模型通過在大規(guī)模無監(jiān)督語料上進行預訓練, 學習通用的語言表示, 然后將這些學習到的表示用于各種下游任務, 在自然語言處理領域中的多個任務上得到了很好的應用。也由此衍生出針對特定領域的預訓練的語言模型, 如通過在生物醫(yī)學領域、醫(yī)療語料庫的大規(guī)模文獻數(shù)據(jù)上進行預訓練得到的BioBERT[72] 和SMedBERT[73] , 拓展了BERT在生物醫(yī)學語料庫上的應用, 可以用于生物醫(yī)學文本的實體抽取和關系抽取任務; Huang K 等[74] 通過在臨床醫(yī)學文獻和醫(yī)療記錄上進行預訓練而得到的ClinicalBERT, 考慮了臨床術(shù)語、疾病名稱等特定于臨床醫(yī)學的詞匯, 并能夠更好地處理與醫(yī)療相關的文本任務。Beltagy I 等[75] 通過在大量科學文獻數(shù)據(jù)上進行預訓練得到用于科學文獻領域的預訓練語言模型SciBERT, 它利用無監(jiān)督預訓練并顯著提高了BERT 模型在科學NLP 任務中的性能。

由于大規(guī)模的預訓練語言模型, 如ChatGPT 和GPT-4 在各個行業(yè)和領域的廣泛應用而獲得了廣泛的普及, 一些學者對ChatGPT 和GPT-4 在實體抽取中的性能進行了測試和評價。如Hu Y 等[76] 測試ChatGPT 在臨床實體識別中的應用; González-Gallardo C E 等[77] 在歷史文獻中運用ChatGPT 識別實體; Rehana H 等[78] 則評估基于GPT 和BERT 模型在生物醫(yī)學文本中識別蛋白—蛋白交互方面的性能。人們發(fā)現(xiàn), 大語言模型在命名實體識別(NER)任務上的表現(xiàn)相對較低, 這是因為NER 是一種序列標注任務, 而大語言模型是一種文本生成模型,兩者之間存在差距。為了解決這個問題, Wang SH 等[79] 提出了一種名為GPT-NER 的方法, 通過將序列標注任務轉(zhuǎn)化為生成任務, 使大型語言模型能夠更好地適應NER 任務。實驗結(jié)果顯示, 在資源稀缺和少樣本情況下, 即訓練數(shù)據(jù)非常有限時,GPT-NER 表現(xiàn)出更強的能力, 明顯優(yōu)于有監(jiān)督模型。另外, 張穎怡等[80] 設計了一種基于ChatGPT的學術(shù)論文實體識別方法, 并從性能、價格和時間3 個角度進行可用性分析。研究結(jié)果表明, 在不同學科領域下, 當人工標注數(shù)據(jù)集規(guī)模較小或缺少人工標注數(shù)據(jù)集時, 可以直接將ChatGPT 視為實體識別工具。但實體識別結(jié)果需要進行錯誤分析與過濾等后續(xù)處理。此外, 大語言模型在訓練時使用的語料庫可能存在樣本偏差, 導致在實體抽取任務中無法很好地處理特定領域或特定類型的實體。這可能需要額外的數(shù)據(jù)處理和領域適應方法來解決, 并且訓練和部署大語言模型通常需要的成本較高。

總的來講, 大規(guī)模預訓練語言模型通過在大規(guī)模語料庫上進行無監(jiān)督訓練, 能夠?qū)W習到豐富的語言知識和上下文理解能力。這使得它在實體抽取任務中能夠更好地理解文本中的語義和上下文信息;在進行微調(diào)時, 可以通過少量的標注數(shù)據(jù)進行學習, 甚至在零樣本設置下也能取得一定的性能。這對于實體抽取任務中的資源稀缺或少樣本情況下非常有用。而且大語言模型在實體抽取任務中具有上下文理解能力強、零樣本學習和可遷移性等優(yōu)點。但它也存在樣本偏差和計算資源需求高的缺點。在實際應用中, 需要權(quán)衡這些優(yōu)缺點, 并根據(jù)具體任務和資源限制來選擇合適的模型和方法。

表2 中展示了知識實體抽取方法的優(yōu)缺點比較??梢钥闯?, 在知識實體的抽取技術(shù)中, 基于人工注釋和基于規(guī)則的方法在抽取效率方面處于劣勢, 難以涵蓋所有語言場景, 應用起來耗時費力[53] , 但其優(yōu)勢在于可以通過實體標記, 構(gòu)建領域高質(zhì)量語料庫、字典等, 輔助機器學習算法對知識實體高效、準確地抽??; 傳統(tǒng)機器學習方法的出現(xiàn)有效地提升了知識實體的抽取效率, 但不足則在于其過度依賴人工標記的高質(zhì)量文本提取特征; 深度學習方法克服了傳統(tǒng)機器學習的局限性, 減少了對預處理的依賴性, 實現(xiàn)了對隱匿特征的自動提取, 并且在知識實體抽取任務中表現(xiàn)較為出色。但深度學習實現(xiàn)對知識實體抽取準確率的基礎在于對大量的高質(zhì)量標注數(shù)據(jù)的學習。而現(xiàn)實情況是, 在具體抽取知識實體的過程中的標注數(shù)據(jù)往往是少量的; 采用基于大語言模型的方法也可以減輕對標注數(shù)據(jù)集的依賴,從無標簽的非結(jié)構(gòu)化數(shù)據(jù)中自主學習知識, 具有上下文理解能力強和可遷移性等優(yōu)點。然而, 它也存在樣本偏差和計算資源需求高的缺點。在實際應用中, 需要權(quán)衡這些優(yōu)缺點, 并根據(jù)具體任務和資源限制來選擇合適的模型與方法。

針對以上知識實體抽取技術(shù)存在的問題, 本文認為, 其一, 著力開展領域標注數(shù)據(jù)集的構(gòu)建、模型訓練; 其二, 訓練出適用于多領域的實體抽取模型或增強已有模型的普適性; 其三, 在具體的知識實體抽取任務中, 應根據(jù)待抽取實體的特點, 選擇合適的模型。如李賀等[81] 在簡帛醫(yī)藥知識組織的研究中針對不同的數(shù)據(jù)集選擇了不同的模型抽取知識實體, 對于《足臂十一脈灸經(jīng)》和《陰陽十一脈灸經(jīng)》的文本, 采用構(gòu)建的詞典進行分詞, 并提取經(jīng)絡實體; 對于《病方》和《五十二病方》采用條件隨機場模型(CRF)進行實體識別。也有學者根據(jù)數(shù)據(jù)集的語言特點選擇或提出合適的模型,如張芳叢等[82] 為了更好地處理中文醫(yī)學文本, 提出基于RoBERTa-WWM-BiLSTM-CRF 的中文電子病歷命名實體識別模型, 在BERT 識別詞語義基礎上獲取詞的信息, 采用中文全詞遮掩技術(shù)和動態(tài)掩碼機制, 在大量無標簽文本的長序列訓練中, 模型可以生成含詞匯的語義信息, 有效改善中文文本識別中一詞多義、詞識別不全等問題。Kong H 等[83]開發(fā)了KorSciBERT-ME-J 和KorSciBERT-ME-J+C模型以提高韓國論文的元數(shù)據(jù)提取性能。實驗結(jié)果表明KorSciBERT-ME-J 表現(xiàn)出最高的性能, F1 分數(shù)為99.36%, 同時在自動提取各種格式的韓國學術(shù)論文的元數(shù)據(jù)方面表現(xiàn)穩(wěn)健。

此外, 也可以結(jié)合弱監(jiān)督、無監(jiān)督算法或遷移學習、強化學習等方法提高訓練數(shù)據(jù)的質(zhì)量, 減少模型對大規(guī)模訓練語料庫的依賴或降低獲取大規(guī)模訓練語料庫的成本[10] 。如在知識實體抽取任務中,遷移學習可以將標注好的數(shù)據(jù)或模型在某個領域、任務中學習到的知識、模式應用于其他領域、任務中去, 以此提升模型的泛化能力。即遷移學習在利用高資源數(shù)據(jù)集的同時, 增強了模型對低資源、特定任務文本數(shù)據(jù)集的概括能力[84] 。王紅斌等[85] 提出一種基于樣本的遷移學習算法—TLNER-Ada?Boost, 通過自動調(diào)整目標訓練樣本和輔助訓練樣本的權(quán)重, 擴充目標訓練樣本的規(guī)模, 以此提高訓練語料質(zhì)量, 實驗結(jié)果表明, 在相對較低的人工標注語料成本上, 遷移學習算法獲得較好的實體抽取效果。Boland K[86] 指出, 在實體抽取任務中, 大量帶有注釋的數(shù)據(jù)是十分重要的, 并且很難獲取, 因此, 提出了使用弱監(jiān)督方法和遠程監(jiān)督來創(chuàng)建銀標簽, 以利用遷移學習訓練監(jiān)督式軟件提取方法。研究表明, 即使僅結(jié)合少量弱監(jiān)督方法, 也可以創(chuàng)建一個銀標準語料庫, 作為遷移學習的有用基礎。Shao W 等[87] 提出了一種基于句子模式和句子POS序列的無監(jiān)督方法。這種方法可以在不學習標記數(shù)據(jù)的情況下提取術(shù)語, 只需要一些初始句型來冷啟動。然后它可以在未標記的數(shù)據(jù)上學習新的模式和POS 序列, 并使用它們來提取新的術(shù)語。Zha H等[88] 也基于弱監(jiān)督的方法從文本中抽取算法實體,用于構(gòu)建算法路線圖。Liu Q K 等[89] 在抽取數(shù)據(jù)集實體時, 對于長尾數(shù)據(jù)集實體(即在數(shù)據(jù)集中出現(xiàn)頻率較低的實體)的抽取采用了遠程監(jiān)督方法和兩種數(shù)據(jù)增強方法來獲取數(shù)據(jù)。然后, 使用BERTBiLSTM-CRF 模型來預測長尾數(shù)據(jù)集實體。以上研究均在知識實體抽取任務中取得了較好的結(jié)果。

2.2知識實體抽取的數(shù)據(jù)集

知識實體抽取流程較為固定, 對于主流模型來說, 高質(zhì)量的標注數(shù)據(jù)集頗為重要。針對已有研究來看, 現(xiàn)有領域數(shù)據(jù)集多集中于醫(yī)學、新聞、計算機科學、教育等領域。為推進各學科共同發(fā)展, 可以拓展領域數(shù)據(jù)集到其他領域; 此外, 有報告[90]指出, 目前只有一小部分語種出現(xiàn)在基礎模型中,而世界上有6 000多種語言, 對于一些少數(shù)語言或資源匱乏的語言, 由于缺乏大規(guī)模的標注數(shù)據(jù), 許多自然語言處理任務無法得到充分的發(fā)展和研究。表3 列舉了生物醫(yī)學領域可以用于知識實體抽取任務的標注數(shù)據(jù)集。

2.3知識實體抽取的軟件與工具

目前, 已經(jīng)開發(fā)眾多軟件或工具旨在自動化開展知識實體抽取任務。如Tong Y 等[92] 開發(fā)了ViM?RT, 用于自動識別病毒變異。Song M 等[93] 設計了PKDE4J——一個綜合的文本挖掘系統(tǒng), 它集成了基于字典的實體提取和規(guī)則, 還可以插入自然語言處理組件的各種組合, 以及添加詞典和豐富的規(guī)則集以識別準確的實體和關系。不僅適用于生物醫(yī)學領域, 也適用于其他領域。Yu L 等[94] 構(gòu)建了一個信息抽取和知識挖掘的智能平臺, IEKMMD。該平臺包含兩項創(chuàng)新技術(shù): 首先, 結(jié)合了神經(jīng)網(wǎng)絡和主動學習的短語級科學實體抽取模型, 可以有效降低模型對大規(guī)模語料庫的依賴; 其次, 提供了基于翻譯的關系預測模型, 通過優(yōu)化損失函數(shù)來改進關系嵌入。此外, 該平臺集成了先進的實體識別模型(spaCy.NER)和關鍵詞提取模型(RAKE)。它為細粒度和多維度的知識提供豐富的服務, 包括問題發(fā)現(xiàn)、方法識別、關系表示和熱點檢測。在人工智能、納米技術(shù)和基因工程3 個不同的領域進行了實驗,實體抽取的平均準確率分別為0.91、0.52 和0.76。表4 列舉了可以用于知識實體抽取的工具或軟件。

2.4知識實體抽取相關會議

近年來, 科學文獻中的知識實體抽取得到了廣泛的關注, 相關會議也紛紛召開, 如“科學文獻中知識實體抽取與評價研討會(Workshop on Extrac?tion and Evaluation of Knowledge Entities from Scien?tific Documents, EEKE)”“科學文本自然語言處理研討會(Workshop on Natural Language Processing forScientific Text, SciNLP)” 等旨在探索如何從科學文本中精準、高效地抽取知識實體。此外, 如“人工智能與信息計量學研討會(Workshop on AI+infor?metrics, AII)” 和“文獻計量學增強的數(shù)字圖書館信息檢索和自然語言處理研討會(Bibliometric-en?hanced Information Retrieval and Natural LanguageProcessing for Digital Libraries, BIRNDL)” 等會議的主題所示, 自然語言處理技術(shù)及人工智能方法在科學文獻中知識實體抽取和表示中的應用也增強和賦能了文獻計量學、信息計量學、信息檢索與信息處理、科學文獻處理和數(shù)字圖書館領域的發(fā)展。

表5 列舉了知識抽取的相關會議。這些會議中均涉及利用自然語言處理技術(shù)研究科學文獻中知識實體抽取與評價方面的主題, 但各個會議有自己的側(cè)重點。其中, JCDL、EEKE 和AII 會議在2023 年聯(lián)合舉辦。EEKE 專注于科學文獻中知識實體的抽取與評價, 從2020 年開始至今連續(xù)舉辦4 屆; AII會議強調(diào)自然語言處理技術(shù)在信息計量學中的應用, 從2021 年舉辦至今; JCDL 是由ACM 和IEEE專業(yè)協(xié)會聯(lián)合組織的數(shù)字圖書館會議, 從2001 年首次舉辦, 至今已舉辦23 屆。SDP 則側(cè)重于自然語言處理(NLP)等技術(shù)在學術(shù)文獻處理(SDP)中的應用, 從2020 年舉辦至今。有些會議在近年已經(jīng)停辦。如BIRNDL 關注自然語言處理技術(shù)、信息檢索和文獻計量學在數(shù)字圖書館中的應用, 從2016年開始, 每年舉辦1 次, 連續(xù)共舉辦4 年; WOSP則重視自然語言處理技術(shù)在科學出版物基礎設施、文本挖掘及影響力評價方面的應用, 從2012—2020年共舉辦了8 次; SciNLP 研討會主要關注自然語言處理技術(shù)在科學文本中知識抽取與表示方面的應用, 分別在2020 年和2021 年各舉辦1 次; CLBib 關注科學論文中文本和語義挖掘技術(shù)在文獻計量學中的應用, 僅在2015 年和2017 年各舉辦1 次會議。

3科學文獻中的知識實體的評價研究

隨著文本挖掘技術(shù)的成熟及全文文獻資源的增多, 知識實體抽取的范圍從文獻標題、摘要逐漸擴展到全文, 這使得基于知識實體的全文計量成為可能[99] 。我國文獻計量學的著名學者邱均平曾指出,文獻計量不能停留在文獻的篇、章、冊為單位的文獻單元的計量上, 而應該深入至文獻內(nèi)容對知識單元和文獻的相關信息進行計量研究[100-101] 。對知識單元的認知能夠使人們清楚地認識到學術(shù)論文評價的基礎元素, 這有利于把握評價主題、不失方向。姜春林等[102] 認為, 對學術(shù)論文評價的實質(zhì)是對論文中知識單元的識別、計量和評價。Ding Y 等[6]也提出一種使用實體“來測度影響力、知識使用和知識轉(zhuǎn)移以促進知識發(fā)現(xiàn)” 的策略, 即實體計量學(Entitymetrics)。作為一種表征知識單元影響的新方法, 實體計量學還被用于知識發(fā)現(xiàn)[103] , 如藥物再利用的量化[104] , 與其他文獻計量網(wǎng)絡的比較[104] , 以自我為中心的生物實體分析[105] 和作者個人資料分析[106] , 以及隱含的實體關系識別[107] 。通過梳理相關研究發(fā)現(xiàn), 基于知識實體的評價主要包括對知識實體的評價和基于知識實體的論文影響力評價兩個方面。目前, 大多數(shù)研究是利用文獻計量指標分析知識實體的影響力, 通常包括實體在學術(shù)論文中被提及、被引用的頻率和網(wǎng)絡中心性等指標[108] 。

3.1 知識實體的提及頻率、替代計量及影響因素

知識實體在不同研究中的提及頻率往往被認為是評價其重要性的基本指標, 被更多研究提及的實體被認為更受關注。如Li K 等[109] 的研究探討了R及其軟件包和功能是如何在PLoS 中被提及和引用的, 并評價了其在科學出版物中的影響。Wang Y Z等[110-111] 在研究中, 以提及某算法的文章數(shù)作為指標, 分析算法的影響力。如以自然語言處理(NLP)領域為例, 采用基于規(guī)則的方法抽取文獻中的方法實體, 利用提及方法實體的文章數(shù)評價實體影響,發(fā)現(xiàn)NLP 領域論文中影響力最高的Top10 種算法,分類算法在高影響力算法中占比最大, 并指出算法影響力的演變反映了該領域研究任務和主題的變化。Li X 等[2] 從生物醫(yī)學實體(疾病、藥物和基因)及其演化的角度理解藥物再利用, 基于某生物醫(yī)學實體的所有出版物的百分比量化個體生物醫(yī)學實體的學術(shù)重要性, 開發(fā)了人氣指數(shù)(P1)、前景指數(shù)(P2)、威望指數(shù)(P3)指標, 此外, 還基于提及某實體的文章的不同作者數(shù)的占比提出了反映生物醫(yī)學實體的研究強度協(xié)作指數(shù)(CI), 用于檢測藥物研究各個階段生物醫(yī)學實體的潛在模式, 并調(diào)查驅(qū)動藥物再利用的因素。He J 等[112] 選擇了14 種科學制圖工具實體, 并通過應用這些工具實體的文章數(shù)來分析工具實體的影響力。Pan X L 等[113] 通過抽取圖書館與情報科學領域研究論文中的學術(shù)軟件實體, 統(tǒng)計使用不同軟件的論文數(shù)、軟件的被提及數(shù)量以及軟件被引用的數(shù)量, 以評估軟件對LIS 研究的影響。

在提及頻率的基礎上, 學者們還提出一些其他指標, 從不同的方面分析知識實體的影響。章成志等[24] 以自然語言處理領域為例, 基于學術(shù)會議論文的全文本內(nèi)容, 人工標注知識實體并進行頻次統(tǒng)計, 利用Apriori 算法生成知識實體對, 基于頻次篩選出高頻知識實體對, 用非參數(shù)檢驗卡方值評價知識實體間關聯(lián)的強弱。Li X L 等[114] 提出了評估方法實體的影響的兩個指標: 一是論文數(shù)量: 對于每個實體, 統(tǒng)計提及相應實體的論文數(shù)量, 提及實體的論文越多, 代表該實體的影響力越大。另一個是年齡分布: 通過下載鏈接獲取提及實體的論文的發(fā)表時間, 以分析方法實體的影響力隨時間的變化。Pan X L 等[108] 從2014 年發(fā)表在PLoS ONE 上的論文中提取軟件實體, 通過統(tǒng)計每個軟件實體的提及次數(shù)和引用次數(shù)來衡量軟件實體的科學影響力。鄒洋杰等[48] 采用基于規(guī)則的方法從情報學與計算機科學文獻中抽取方法實體, 通過統(tǒng)計兩個領域中方法實體出現(xiàn)的頻次評價方法實體的影響力, 探析兩個學科領域研究方法的交流態(tài)勢, 對比分析了兩學科領域的高頻研究方法、已交流的研究方法、存在交流潛力的研究方法。和嘉昕等[115] 爬取中國社會科學領域21 個學科的博士學位論文, 共計6 萬余篇致謝文本, 抽取致謝實體, 發(fā)現(xiàn)不同類型致謝實體的提及頻次存在差異; 在不同學科論文中, 致謝實體類型的多樣性分布也呈現(xiàn)一定差異。

除了文獻計量學指標外, 一些替代計量學指標也被用來評估實體的影響力, 可以是實體的投票頻率、下載頻率和訪問頻率, 這些指標對實體的影響力和重要性評價提供了不同的視角[10] 。如ICDM(The IEEE International Conference on Data Mining)的組織者在2006 年通過專家的投票的方法來評估算法的影響力[116] 。據(jù)王玉琢和章成志的研究報道,“Stack Overflow 根據(jù)IT 領域從業(yè)者的投票來評估IT 技術(shù)和數(shù)據(jù)庫的影響力。TIOBE 綜合考慮程序員投票數(shù)、課程數(shù)和供應商數(shù)來計算不同編程語言的流行度和影響力”[10] 。Zhao R Y 等[117] 的研究利用開源項目Depsy 統(tǒng)計Python 第三方包的下載量、引用量、復用量, 從3 個方面對Python 的一些第三方包的影響力進行分析和評價。Amrollahi A 等[118]和Zhao Y H 等[119] 的研究回顧了開放源碼軟件成功領域的相關工作, 通過匯總相關研究指出, 可以用軟件下載量、開發(fā)者數(shù)量、項目等級、開發(fā)人員對項目中錯誤的修復能力作為軟件成功的衡量標準。

盧超等[9] 指出, 對于知識實體的評價, 不應局限于對其頻次、位置等語法層面的分析, 而應將語法特征與語義特征結(jié)合起來進行深入研究。知識實體的評價應不僅僅局限于數(shù)量指標, 而更應深入文本內(nèi)容, 揭示知識實體的功能、情感及引用動機。一些研究[121-122] 關注科學文獻對軟件的提及情況, 并指出實體的引用標準也會對實體影響力產(chǎn)生一定的影響。如大量的軟件在論文中被提及, 而提及的方式未能體現(xiàn)對軟件的正確引用會削弱其影響力。有學者認為, 軟件被非正式引用的原因是軟件引用標準的多樣化, 作者沒有遵循規(guī)范[109,123] 。Wang Y Z 等[10] 在研究中指出, 軟件的標準引用對于準確評估其影響力十分重要, 原因在于如果在計算對實體的引用時只考慮標準引用, 那么實體的影響力就會被削弱。Nangia U 等[120] 的研究中分析了2016 年1 月1 日—3 月31 日發(fā)表在《Nature》上的所有論文, 以了解它們對軟件的提及情況。Mat?thew S M 等[124] 討論了學者們在研究文獻中如何識別和引用數(shù)據(jù)集、軟件包、計算模型等知識實體,并表明衡量學術(shù)文獻的影響時應結(jié)合其中知識實體的應用情況。Li K 等[109] 提出了一種基于軟件名稱字典的軟件識別算法。通過提?。校蹋希?發(fā)表的論文中提到R 軟件包的句子, 他們分析了軟件包的共同提及網(wǎng)絡, 發(fā)現(xiàn)具有相似學科和功能的軟件包更有可能同時被提及。Yang B 等[125] 分析了文章與軟件之間的關系, 結(jié)果表明, 高質(zhì)量期刊發(fā)表的文章傾向于使用更新的軟件, 國際文章比中國文章更早使用新軟件。Tan F 等[126] 提出了一個分析醫(yī)學領域?qū)嶓w與實體之間關系的框架, 將生物醫(yī)藥實體與政府資金聯(lián)系起來, 從科研經(jīng)費的角度, 將實體計量學的思想應用于生物醫(yī)學領域, 進行初步的研究趨勢探索和知識發(fā)現(xiàn), 分析政府資助對醫(yī)學領域科研促進的作用, 幫助政府更加合理地管理科研經(jīng)費。

3.2實體共現(xiàn)網(wǎng)絡與實體擴散/ 引文網(wǎng)絡

有學者對同一篇論文中不同實體的共現(xiàn)現(xiàn)象,構(gòu)建實體間共現(xiàn)網(wǎng)絡, 利用網(wǎng)絡指標測度實體的重要性, 進而對知識實體的學術(shù)影響力進行評價。如Yu Q 等[127] 對COVID-19 文獻構(gòu)建了一個實體—實體共現(xiàn)網(wǎng)絡, 并利用網(wǎng)絡指標對提取的實體進行分析, 評估實體在網(wǎng)絡中的重要度。為此, 作者應用了幾個已建立的指標, 包括受歡迎程度、潛力指數(shù)和協(xié)作指數(shù), 以及PageRank、接近中心性、中介中心性、特征值中心性和平均度, 發(fā)現(xiàn)ACE-2 和c 反應蛋白是兩個非常重要的基因, 洛匹那韋和利托那韋是兩種非常重要的化學物質(zhì)。Liang X M 等[128] 使用Graph2vec 和Knowledge2vec 表示生物醫(yī)學實體及其在異構(gòu)網(wǎng)絡中的關系, 并采用級聯(lián)學習模型來尋找藥物、基因、疾病和治療之間的潛在相互作用。

微觀實體是驅(qū)動知識擴散的主要內(nèi)因, 通過實體間的引用關系可以從更細粒度上分析知識實體的擴散。前人多以篇章、作者或主題等作為知識擴散的主要載體, 較少關注來自文獻全文本內(nèi)容的微觀實體之間的引用關系[93] 。安欣等[129] 借助BiLSTMCRF構(gòu)建了微觀實體抽取模型, 從分子生物學1 000篇全文本數(shù)據(jù)中抽取理論概念類、工具技術(shù)類、數(shù)據(jù)信息類和特定領域類知識實體, 通過實體間引用關系構(gòu)建實體擴散網(wǎng)絡揭示知識實體在宏觀和微觀層面的擴散模式。Wang S 等[50] 通過應用詞干匹配方法, 從eHealth 論文的引文中提取了施引文獻及其參考文獻之間共享的相關知識短語(AssociatedKnowledge Phrases, AKP), 提出了一種考慮領域知識功能的分類模式, 以對已識別的AKP 進行分類, 分析了每種知識類型的來源學科, 應用定量指標和共現(xiàn)分析來揭示不同知識類型的整合模式, 提出了一種新的方法來探索跨學科領域知識整合的內(nèi)容特征。Ding Y 等[6] 通過抽取二甲雙胍相關文獻中的基因、疾病和藥物實體, 構(gòu)建實體—實體引文網(wǎng)絡。計算網(wǎng)絡特征并將生物實體的中心性等級與比較毒物基因組學數(shù)據(jù)庫(Comparative Toxicogenom?ics Database, CTD)的結(jié)果進行比較, 揭示了實體計量學方法在檢測絕大多數(shù)實體間交互作用方面的實用性。Nam D 等[130] 采用基于字典的方法(PKDE4J)抽取引文句子中的藥物、疾病、化合物、蛋白質(zhì)和治療方法5 類實體, 從直接引用和間接引用兩個視角構(gòu)建實體網(wǎng)絡, 進而衡量知識實體的影響。徐庶睿等[131] 提出, 結(jié)合術(shù)語和引文內(nèi)容探測學科交叉度的研究方法并進行實證分析。選取術(shù)語為知識載體,通過統(tǒng)計學科論文在引文內(nèi)容中引用這些術(shù)語的詞語量和頻次, 從而確定學科間的知識交叉情況。

3.3基于知識實體的同行評議

自然語言處理技術(shù)的發(fā)展使知識元抽取成為可能。同行評議實際上是對學術(shù)論文中知識元的評價,可以將其概括為問題知識元、過程知識元和結(jié)論知識元, 對其創(chuàng)新性、規(guī)范性、科學性和價值性進行評價。綜合上述分析, 索傳軍等[132] 提出一種基于論文知識元的同行評議研究思路。在學術(shù)同行的篩選中, 納入非科學家同行(如資深從業(yè)人員), 同時不再用以往簡單的主題匹配模式。首先, 通過對學術(shù)論文進行數(shù)據(jù)化, 抽取關鍵知識元, 依據(jù)知識元的內(nèi)容確定評審同行; 其次, 在同行的研究內(nèi)容匹配中, 深入分析專家特長, 如按照專家發(fā)表論文的貢獻內(nèi)容確定其研究專長等, 進而確定論文知識元的評審專家; 最后, 結(jié)合專家認知圖示和參照論文集, 進行學術(shù)論文的分析、比較、判斷, 得出評價結(jié)果。

3.4基于知識實體的論文新穎性評價

參照李晶等[133] 基于知識單元對論文新穎性的評價研究, 將其延伸至知識實體層面, 即新穎性可以細分為新穎知識實體、新穎知識實體組合兩方面,其中, 新穎的知識實體是與已有知識實體相對應的概念。而通過新穎知識實體組合測度新穎性, 是包括問題與方法組合、參考文獻與技術(shù)領域分類代碼組合、參考文獻與產(chǎn)出內(nèi)容組合、知識實體組合。如Savov P 等[134] 根據(jù)論文的潛在主題分布預測了未來的突破。一篇論文涉及的未來研究主題越多(而以前的主題越少), 該論文就越有創(chuàng)新性。通過測量專利之間的文本相似性, Kelly B 等[135] 確定了與前人有距離、與后續(xù)發(fā)明接近的重要創(chuàng)新, 而最重要的專利被認為是具有突破性創(chuàng)新的。

Wang Z 等[136] 提出, 基于正態(tài)云的期望曲線重疊的相似性云算法來測量知識實體間的相似度, 以此評估實體及提及相應實體文章的創(chuàng)新性, 并表明在同一研究領域下, 知識實體間相似度越高, 創(chuàng)新程度越低。Jacob G F 等[137] 通過從摘要中提取的化學相關實體構(gòu)建化學知識網(wǎng)絡, 發(fā)現(xiàn)文獻中提及的新的化學物質(zhì)或化學關系評價其創(chuàng)新性, 并將引入新的化學物質(zhì)和化學關系的研究稱為創(chuàng)新研究, 對于深入研究已知的化學物質(zhì)和化學關系的研究稱為傳統(tǒng)研究。Wang X 等[138] 將摘要中帶有線索詞(如“新見解”和“第一次”)的判斷句作為突破的表達,設計了深度學習模型來識別科學突破, 揭示文章的創(chuàng)新性。

而基于新穎知識實體組合評價論文的新穎性是指以“組合的異質(zhì)性” 為切入點, 關注參考文獻維度[139-142] 或關鍵詞[143] 的非典型性組合, 即不常見的組合。自此出現(xiàn)了一系列關注“組合” 的指標,衡量一篇論文對現(xiàn)有知識進行不尋常組合的能力程度, 包括關鍵詞[143] 、參考文獻所發(fā)表的期刊[140]等。也有研究[144] 通過測度新出現(xiàn)的實體組合或?qū)嶓w對的比例, 以此評估論文的新穎性。如Liu M等[145] 抽?。玻埃玻?年12 月及之前發(fā)表的CORD-19 相關論文標題和摘要中的基因、疾病等生物醫(yī)療領域知識實體并配對, 使用BioBERT 模型衡量論文中實體對間的余弦距離, 并定義頻率分布排在前10%的實體對為新穎的實體組合, 通過計算論文中新穎的實體組合數(shù)與所有可能的實體組合數(shù)之比作為論文的新穎性分數(shù)。Wang S Y 等[146] 以摘要數(shù)據(jù)為基礎,自動提取論文實體及實體組合, 以未出現(xiàn)在其參考文獻中的新知識單元和知識單元組合比例代表論文的創(chuàng)新性, 該值越高說明論文的創(chuàng)新性越強。

通過論文的引用模式來衡量論文對現(xiàn)有知識的顛覆或替代程度是評價論文顛覆性的傳統(tǒng)方法。舉例來說, 如果一篇論文經(jīng)常和它的參考文獻一起被引用, 那么它就可以被視為鞏固了現(xiàn)有的知識, 而如果對它的引用不承認它的知識先輩, 那么這篇論文就可以被視為顛覆性創(chuàng)新[147-148] 。與那些基于參考文獻的引用關系對論文的顛覆性測度方法不同,Wang S 等[149] 以更細粒度的知識實體為研究單位,通過實體間的引用情況評價論文的顛覆性, 提出基于知識實體的顛覆性指數(shù)。

3.5基于知識實體的論文臨床轉(zhuǎn)化進展評價

Li X 等[150] 首先利用超過3 000萬篇PubMed 文章訓練了生物醫(yī)學實體和文檔的語義表示模型(Bioentity2vec和Bio-doc2vec)。在此基礎上, 提出了一種新的度量方法——轉(zhuǎn)化進展(Translational Pro?gression, TP), 用于追蹤生物醫(yī)學文章在轉(zhuǎn)化連續(xù)性上的進展。其提出的測量方法可以幫助決策者實時監(jiān)測具有高轉(zhuǎn)化潛力的生物醫(yī)學研究, 并做出更好的決策。此外, 該方法還可以應用于其他領域,如物理學或計算機科學, 以評估科學發(fā)現(xiàn)的應用價值, 并進行改進。

綜上, 準確且全面地抽取出論文中的知識實體是開展實體計量評價的前提, 而且對知識實體的語義分析也是必不可少的環(huán)節(jié)。只有明晰了作者對實體的應用意圖, 才能在定量分析實體的提及、引用的頻率等指標時得出正確的結(jié)論, 也有利于深度剖析知識實體之間的關聯(lián)。同時, 當基于實體間引用關系構(gòu)建實體—實體引文網(wǎng)絡開展研究時, 有學者[151] 提出了兩點建議: 第一, 用于構(gòu)建引文網(wǎng)絡的實體應該從全文中獲取, 而非標題和摘要; 第二,構(gòu)建引用網(wǎng)絡時論文—實體引用網(wǎng)絡會比實體—實體引用網(wǎng)絡更能準確地體現(xiàn)引用關系。

4存在問題與未來展望

4.1存在問題

在知識實體的抽取方法方面: 首先, 當前的研究主要集中在文本數(shù)據(jù)的實體抽取上, 而對于如圖像、音頻、視頻等多模態(tài)數(shù)據(jù)中的實體抽取研究相對較少。聯(lián)合抽取科學文獻中的文本與多模態(tài)數(shù)據(jù)中的實體可以更加全面地反映文獻中的知識并且實現(xiàn)對文獻內(nèi)容的充分利用。然而, 由于缺乏高質(zhì)量的標注數(shù)據(jù)集、高質(zhì)量的模型構(gòu)建, 使得基于多模態(tài)數(shù)據(jù)的知識實體抽取極具挑戰(zhàn); 其次, 當前的研究主要集中在單一語言的實體抽取上, 對于跨語言實體抽取的研究相對較少??缯Z言實體抽取[152] 的目標是提升低資源自然語言的實體識別效果。不能理解為“單語言實體抽取” 與“機器翻譯” 兩者的簡單組合。從研究現(xiàn)狀來看, 跨語言實體抽取面臨著語言差異、語義差異等挑戰(zhàn), 需要開發(fā)跨語言的模型和方法來解決這些問題; 第三, 實體抽取算法通常需要大量的標注數(shù)據(jù)進行訓練和評估, 但目前缺乏大規(guī)模、高質(zhì)量的領域特定標注數(shù)據(jù)集。

在知識實體的評價方面: 首先, 對于抽取得到的實體, 研究者雖然嘗試使用一些文獻計量指標和替代計量指標, 如提及頻率、中介中心性、下載量等, 來評價知識實體的學術(shù)影響力、受歡迎程度和重要性。但目前來看, 現(xiàn)有知識實體的評價指標較為簡單、粗糙, 在多樣性、系統(tǒng)性與標準化方面還有很大提升空間, 而且評價指標的可靠性、有效性往往未經(jīng)充分驗證。由于對知識實體評價的相關研究剛剛起步不久, 還未建立標準化的評價指標體系,研究者在構(gòu)建指標時往往根據(jù)自身研究需求和實際情況出發(fā), 導致評價結(jié)果的可比性和一致性較差;其次, 隨著學術(shù)全文本數(shù)據(jù)集的日益增長與文本挖掘分析方法的快速發(fā)展, 從語詞層面、語句層面和語篇層面展開的, 基于知識實體的全文計量正在悄然興起, 已有學者基于知識實體構(gòu)建了新穎性、顛覆性、臨床轉(zhuǎn)化進展等指標評估論文的影響力, 但如何科學利用這些指標真正地評價研究論文的影響力還面臨著一定的困難[153] ; 第三, 在知識實體的評價指標之間、基于知識實體的論文評價指標之間的相關關系仍缺乏研究, 以便進一步對評價指標分類檢驗; 最后, 無論是知識實體的評價, 還是基于知識實體的科學文獻評價, 均受一些特征或因素的影響, 但這個視角的實證還十分缺乏。

4.2未來展望

鑒于上述分析的現(xiàn)有研究存在問題, 今后隨著科學文獻中知識實體抽取與評價的進一步發(fā)展, 未來研究可從以下幾方面深化調(diào)整。

在知識實體的抽取方面, 努力開發(fā)簡單、準確、靈活、有泛化能力且低成本的知識實體抽取方法,降低對大量標注數(shù)據(jù)的依賴, 可著手進行以下的策略調(diào)整: ①多模態(tài)實體抽取。研究如何將多模態(tài)數(shù)據(jù)進行融合和聯(lián)合建模, 以實現(xiàn)更全面和準確的實體抽取。可以探索多模態(tài)特征的提取和融合方法,設計適應多模態(tài)數(shù)據(jù)的實體抽取模型, 并構(gòu)建多模態(tài)實體抽取的標注數(shù)據(jù)集; ②跨語言實體抽取。研究跨語言實體抽取的方法和模型, 解決語言差異和語義差異帶來的挑戰(zhàn)??梢蕴剿骺缯Z言的特征表示方法、遷移學習和多語言知識圖譜等技術(shù), 提高跨語言實體抽取的性能和效果; ③領域高質(zhì)量標注數(shù)據(jù)集構(gòu)建。加大對領域特定標注數(shù)據(jù)集的構(gòu)建力度,提高標注數(shù)據(jù)的質(zhì)量和覆蓋范圍。可以利用半監(jiān)督學習、主動學習等方法, 降低標注數(shù)據(jù)的成本, 并結(jié)合領域?qū)<业闹R和經(jīng)驗進行標注數(shù)據(jù)的驗證和修正。

在知識實體的評價方面, 可重點從以下視角深入探索: ①重視知識實體評價指標的多樣化。不僅要酌情將傳統(tǒng)文獻計量學、信息計量學、科學計量學、替代計量學的評價指標移植到知識實體上, 而且更應根據(jù)知識實體的特征開發(fā)特異性的評價指標;②增加對知識實體評價指標的可靠性、有效性方面的性能檢驗的實證研究, 進一步還可考慮對指標的可獲取度、擴展性、標準化等方面進行系統(tǒng)評價;③進一步研究知識實體評價指標之間、基于知識實體的論文評價指標之間的相關關系, 及其可能受知識實體特征、科學文獻特征, 甚至引用動機、時間、空間、領域、政策環(huán)境等的影響; ④對于某些主觀性較強、不易量化的評價目的, 也需要借助專家評估或同行評議等質(zhì)性評價方法, 以保證評價結(jié)果的全面性和準確性。在解決具體領域問題的知識實體評價應用方面可通過因果推斷方法發(fā)現(xiàn)“因果關系”, 提升評價指標對研究結(jié)果的解釋力; ⑤在保證評價指標在細粒度、準確性、有效性、可靠性上相對傳統(tǒng)評價指標的絕對優(yōu)勢前提下, 構(gòu)建基于知識實體的論文影響力評價指標體系, 從本質(zhì)上提升科技評價質(zhì)量, 為科技評價改革注入新的活力與生機。

5結(jié)論

在大數(shù)據(jù)和人工智能時代, 隨著自然語言處理技術(shù)的飛速發(fā)展, 科學文獻中知識實體的識別與抽取方法也取得了巨大飛躍。未來相關工作將面向多模態(tài)、跨語言的知識實體抽取、領域高質(zhì)量標注數(shù)據(jù)集的構(gòu)建。與此相輔相成的是, 以自然語言處理技術(shù)為代表的AI 人工智能, 將進一步賦能“五計學”, 使文獻計量學、信息計量學、科學計量學、替代計量學與知識計量學煥發(fā)新的生機, 可以預見的是, 智能計量將引領未來科技評價的新賽道、新應用和新方向。

猜你喜歡
綜述
2021年國內(nèi)批評話語分析研究綜述
認知需要研究綜述
氫能有軌電車應用綜述
高速磁浮車載運行控制系統(tǒng)綜述
5G應用及發(fā)展綜述
電子制作(2019年10期)2019-06-17 11:45:16
SEBS改性瀝青綜述
石油瀝青(2018年6期)2018-12-29 12:07:04
NBA新賽季綜述
NBA特刊(2018年21期)2018-11-24 02:47:52
深度學習認知計算綜述
JOURNAL OF FUNCTIONAL POLYMERS
JOURNAL OF FUNCTIONAL POLYMERS
霞浦县| 汉阴县| 滦平县| 绍兴市| 板桥市| 湖州市| 尼勒克县| 周至县| 海伦市| 象州县| 广德县| 从江县| 盖州市| 泰兴市| 上栗县| 博罗县| 商南县| 刚察县| 扎鲁特旗| 菏泽市| 安丘市| 郴州市| 胶南市| 宿迁市| 济阳县| 汉沽区| 神农架林区| 海口市| 东港市| 盐边县| 永清县| 安阳县| 莫力| 响水县| 绥宁县| 长治县| 霍山县| 桂平市| 县级市| 陇南市| 新龙县|