科技文獻(xiàn)信息抽取方法淺析*

2022-04-20 10:21:38謝海先深圳職業(yè)技術(shù)學(xué)院廣東深圳518055

高校圖書(shū)館工作 2022年2期

●敖龍謝海先 (深圳職業(yè)技術(shù)學(xué)院廣東深圳 518055)

1 引言

科技文獻(xiàn)記錄了最新的科學(xué)研究進(jìn)展和成果，在科研工作中發(fā)揮著至關(guān)重要的作用。隨著自然科學(xué)、技術(shù)、管理、人文、社會(huì)科學(xué)等學(xué)科研究的迅速發(fā)展，越來(lái)越多的科技文獻(xiàn)形成了龐大的研究信息群體，提供了豐富的原始研究工作信息，是研究人員交流最新知識(shí)的載體。學(xué)者們需要捕捉其中的重點(diǎn)，對(duì)它們進(jìn)行有效的檢索，找到相似或相關(guān)的文獻(xiàn)并迅速獲得它們的具體內(nèi)容。因此，有必要開(kāi)展信息抽取工作。

信息抽取是指從特定領(lǐng)域的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取具有特定目標(biāo)、有意義的知識(shí)，它為獲取科技文獻(xiàn)中的信息內(nèi)容提供了新的途徑。從科技文獻(xiàn)中抽取信息的主要任務(wù)是對(duì)文獻(xiàn)內(nèi)容進(jìn)行結(jié)構(gòu)化處理，將其轉(zhuǎn)化為滿足用戶需求并能被用戶有效利用的信息。簡(jiǎn)而言之，這是一個(gè)將各種原始科技文獻(xiàn)轉(zhuǎn)化為特定格式的、獨(dú)特的信息的過(guò)程。

由于對(duì)科技文獻(xiàn)處理的需求多種多樣，信息抽取對(duì)于讀者檢索、分析和總結(jié)科技文獻(xiàn)具有重要意義?？偨Y(jié)這一領(lǐng)域的現(xiàn)狀和進(jìn)展，有助于讀者對(duì)信息抽取如何輔助科技文獻(xiàn)分析有一個(gè)清晰的概念，并且了解最先進(jìn)的抽取方法以及這一研究領(lǐng)域的發(fā)展方向。

2 研究目的和方法

本文的目的是通過(guò)系統(tǒng)地收集不同維度和層面的知識(shí)，調(diào)查這一領(lǐng)域的研究進(jìn)展并提供這一領(lǐng)域的概況，同時(shí)歸納信息抽取的方法，以幫助讀者深入了解這一領(lǐng)域。

本文所研究的科技文獻(xiàn)，主要是指發(fā)表在學(xué)術(shù)期刊、會(huì)議論文、畢業(yè)論文、書(shū)籍、技術(shù)報(bào)告和專利論文中的文章。所綜述的文獻(xiàn)范圍有：在Web of Science、Elsevier Science Direct、PubMed、ACM Digital Library和IEEE Xplore digital library等國(guó)際數(shù)據(jù)庫(kù)中檢索主題、標(biāo)題或關(guān)鍵詞中包含“information extraction”(信息抽取)、“l(fā)iterature”(文獻(xiàn))、“scientific literature”(科技文獻(xiàn))、“paper”(論文)、“article”(文章)、“publication”(出版物)和“extract”(抽取)等的文獻(xiàn)；發(fā)表時(shí)間為2013年1月1日至2019年12月31日。綜合考慮期刊或會(huì)議質(zhì)量和影響力、文獻(xiàn)本身質(zhì)量和影響力、文獻(xiàn)與本研究相關(guān)性等因素進(jìn)行篩選，最終獲得的文獻(xiàn)數(shù)量為63篇。

通過(guò)對(duì)文獻(xiàn)的閱讀和分析，本文設(shè)定了兩個(gè)方面的研究?jī)?nèi)容，具體表述如下。

(1)在現(xiàn)有的研究中，從科技文獻(xiàn)中抽取的主要信息是什么？關(guān)于此項(xiàng)問(wèn)題，本文提出了一個(gè)三層信息架構(gòu)，即將科技文獻(xiàn)中的信息分為不同的類別：結(jié)構(gòu)化信息、顯式信息和隱式信息。

(2)從科技文獻(xiàn)中抽取信息的最新最先進(jìn)的方法是什么？本文對(duì)近年來(lái)有關(guān)抽取方法的文獻(xiàn)進(jìn)行研究，發(fā)現(xiàn)統(tǒng)計(jì)學(xué)、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)方法是應(yīng)用比較廣泛的方法，其中機(jī)器學(xué)習(xí)方法是應(yīng)用最廣泛的方法。

3 抽取信息的內(nèi)容

本文定義的科技文獻(xiàn)中的第一層信息是指它們中的結(jié)構(gòu)化數(shù)據(jù)，也稱為結(jié)構(gòu)化信息?？萍嘉墨I(xiàn)中的每一章節(jié)都明確地展示了特定的信息。在科技文獻(xiàn)中的每一部分，文本、圖像、圖形和表格是基本的信息符號(hào)，在特定的布局中展現(xiàn)了文章中所有的內(nèi)容。它們不包含任何語(yǔ)義信息，提取過(guò)程只需要識(shí)別它們的標(biāo)簽即可。

在第一層信息的基礎(chǔ)上，抽取的是科技文獻(xiàn)的顯式信息，如標(biāo)題、摘要、引言、前人研究、方法、數(shù)據(jù)、實(shí)驗(yàn)、結(jié)果、討論和結(jié)論等。這些都是文獻(xiàn)不同部分的具體信息，在一定程度上表明了不同的含義，可以被用來(lái)對(duì)文獻(xiàn)進(jìn)行索引和分析。此外，它們還為更高級(jí)別的信息抽取提供原始數(shù)據(jù)源。最高層的是概念信息，也稱為隱式信息，這種信息的抽取相當(dāng)于文獻(xiàn)中語(yǔ)義信息的抽取和整合。不同層次的信息類別包含不同的內(nèi)容，如表1所示。

表1 科技文獻(xiàn)中的信息類別

3.1 結(jié)構(gòu)化信息

結(jié)構(gòu)化信息可以是文本、圖像、圖形和表格等。結(jié)構(gòu)化信息的抽取只需要識(shí)別和區(qū)分文獻(xiàn)不同部分的具體信息，不涉及信息的含義。可擴(kuò)展標(biāo)記語(yǔ)言(XML)是存儲(chǔ)和呈現(xiàn)科技文獻(xiàn)的常見(jiàn)格式，XML使得文獻(xiàn)可以在萬(wàn)維網(wǎng)上直接被閱讀。XML中的結(jié)構(gòu)識(shí)別也屬于結(jié)構(gòu)化信息抽取。與PDF相比，XML更清晰地描述了文獻(xiàn)的邏輯結(jié)構(gòu)，并且能夠呈現(xiàn)PDF的幾何排版標(biāo)記、字體和布局等。因此，XML中結(jié)構(gòu)化信息的抽取，本質(zhì)上是標(biāo)記和標(biāo)簽的識(shí)別[1]。

在大多數(shù)情況下，結(jié)構(gòu)化信息的定位和識(shí)別是顯式信息抽取的基礎(chǔ)。以往許多研究將結(jié)構(gòu)化信息的抽取和顯式信息的抽取結(jié)合在一起。

3.2 顯式信息

顯式信息的抽取包括標(biāo)題、作者、關(guān)鍵詞、參考文獻(xiàn)的抽取等?？萍嘉墨I(xiàn)的標(biāo)題是文章的觀點(diǎn)、發(fā)現(xiàn)和貢獻(xiàn)的濃縮，一些標(biāo)題甚至包含了整篇文獻(xiàn)的結(jié)論。標(biāo)題也是科技文獻(xiàn)的一種代表性概念，標(biāo)題的抽取為文獻(xiàn)綜述奠定了基礎(chǔ)。作者信息是抽取工作的另一個(gè)焦點(diǎn)。同一作者的文獻(xiàn)在某些方面往往是相互聯(lián)系的。作者信息抽取主要指抽取姓名、機(jī)構(gòu)、國(guó)家、資助機(jī)構(gòu)和項(xiàng)目?？萍嘉墨I(xiàn)作者的隸屬關(guān)系是重要的元數(shù)據(jù)之一，它可以幫助自動(dòng)處理和分析出版物記錄[2]。此外，作者的隸屬關(guān)系有助于作者的識(shí)別和姓名消歧。關(guān)鍵詞抽取要能夠自動(dòng)識(shí)別重要的、具有代表性的主題術(shù)語(yǔ)或概念，描述并總結(jié)文獻(xiàn)內(nèi)容。關(guān)鍵詞抽取有助于科技文獻(xiàn)的處理和檢索，被證明是輔助數(shù)據(jù)挖掘的有效方法。它也是信息檢索和自然語(yǔ)言處理的關(guān)鍵要素，例如科技文獻(xiàn)分類、總結(jié)、推薦和聚類[3]。參考文獻(xiàn)和引文抽取通常對(duì)科技文獻(xiàn)中的內(nèi)容和書(shū)目部分進(jìn)行抽取、分段和解析，從而獲得一系列的組成部分，如作者、標(biāo)題、年份、期刊名稱、會(huì)場(chǎng)類型、會(huì)議地點(diǎn)、地點(diǎn)、卷、頁(yè)以及引文主題和內(nèi)容等。從科技文獻(xiàn)中抽取參考文獻(xiàn)信息有三個(gè)步驟：第一步是參考文獻(xiàn)段的檢測(cè)；第二步是參考文獻(xiàn)的分割；最后是對(duì)每個(gè)信息字符串(如作者和標(biāo)題)的注釋[4-5]。

3.3 隱式信息

在科技文獻(xiàn)內(nèi)容層次信息的基礎(chǔ)上，還可以抽取更高層次的概念信息?？萍嘉墨I(xiàn)中包含科學(xué)陳述、新穎發(fā)現(xiàn)和科學(xué)知識(shí)。其中，科學(xué)知識(shí)包括事實(shí)、概念、假設(shè)、猜測(cè)、觀點(diǎn)和預(yù)測(cè)?？萍嘉墨I(xiàn)中的關(guān)鍵概念往往涉及主體思想、技術(shù)和應(yīng)用等，它們有助于將科技文獻(xiàn)的貢獻(xiàn)描述得更加清晰。在本研究中，隱式信息包括主題、新穎發(fā)現(xiàn)、知識(shí)、論證、情感等諸多方面，代表了科技文獻(xiàn)中深層的語(yǔ)義信息。

科技文獻(xiàn)中的知識(shí)來(lái)源于概念、內(nèi)容詞、實(shí)體和實(shí)體關(guān)系。知識(shí)抽取往往需要探索語(yǔ)義信息。以生物醫(yī)學(xué)文獻(xiàn)為例，從中抽取的知識(shí)信息有兩類：既有知識(shí)和新興知識(shí)，新興知識(shí)往往與某一特定領(lǐng)域的新發(fā)現(xiàn)或新觀點(diǎn)有關(guān)[6]。新的科學(xué)假說(shuō)在解決研究問(wèn)題方面發(fā)揮著重要作用，它們也可以從科技文獻(xiàn)的結(jié)構(gòu)內(nèi)容中抽取和生成。推測(cè)信息通常出現(xiàn)在包含實(shí)驗(yàn)性質(zhì)的科技文獻(xiàn)中，它是基于實(shí)驗(yàn)證據(jù)的假設(shè)表達(dá)，也為未來(lái)的研究提供了發(fā)展空間。論證是形成知識(shí)的關(guān)鍵過(guò)程，是科技文獻(xiàn)中的必要內(nèi)容。論證由論點(diǎn)和論證關(guān)系組成，而每個(gè)論點(diǎn)又由幾個(gè)關(guān)鍵部分組成。論證信息抽取需要自動(dòng)識(shí)別和鑒定前提、結(jié)論和論點(diǎn)之間的關(guān)系[7]。實(shí)體和實(shí)體關(guān)系的抽取主要是針對(duì)生物醫(yī)學(xué)、化學(xué)等領(lǐng)域的文獻(xiàn)。過(guò)去的研究探討了生物醫(yī)學(xué)實(shí)體與實(shí)體之間的關(guān)系，如基因表達(dá)關(guān)系、疾病—突變關(guān)系、藥物—疾病關(guān)系等[8]?；瘜W(xué)文獻(xiàn)中的信息抽取也包含命名實(shí)體識(shí)別和關(guān)系提取，其中化學(xué)藥物與疾病的關(guān)系是典型的被抽取信息。在隱式信息方面，雖然已經(jīng)在實(shí)體和實(shí)體關(guān)系抽取上獲取了大量信息，但長(zhǎng)短句和符號(hào)、部分、整體和瑣碎實(shí)體是目前實(shí)體識(shí)別中的一些挑戰(zhàn)。此外，描述某一特定領(lǐng)域概念的術(shù)語(yǔ)，也是另一類需要抽取的高層次隱式信息。除上述內(nèi)容外，科技文獻(xiàn)的隱式信息抽取還包括事件抽取、情感抽取等。

4 抽取信息的方法

從科技文獻(xiàn)中抽取信息最常見(jiàn)的挑戰(zhàn)是準(zhǔn)確性、覆蓋率和可擴(kuò)展性。根據(jù)信息類型和抽取需求，支持科技文獻(xiàn)信息抽取的方法可以分為三個(gè)不同的大類：統(tǒng)計(jì)學(xué)、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)。

(1)統(tǒng)計(jì)學(xué)：統(tǒng)計(jì)學(xué)方法是科技文獻(xiàn)中信息抽取的最基本方法。通常以詞為最小單位進(jìn)行抽取處理，如詞頻計(jì)算、詞頻—逆向文獻(xiàn)頻次計(jì)算等。近年來(lái)，統(tǒng)計(jì)學(xué)方法在這一領(lǐng)域已很少單獨(dú)使用，通常是與自然語(yǔ)言處理方法和機(jī)器學(xué)習(xí)方法結(jié)合使用。以下方法可以歸類到統(tǒng)計(jì)學(xué)方法中：網(wǎng)頁(yè)排名、單詞/短語(yǔ)頻次、條件隨機(jī)場(chǎng)、詞頻—逆文本頻率指數(shù)。

(2)自然語(yǔ)言處理：自然語(yǔ)言處理是一種基于統(tǒng)計(jì)方法與人工智能相結(jié)合的方法。一般來(lái)說(shuō)，在所綜述的文獻(xiàn)中，從科技文獻(xiàn)中抽取信息的自然語(yǔ)言處理方法包括斯坦福自然語(yǔ)言處理解析器、Python自然語(yǔ)言處理工具集(NLTK)、詞性、詞嵌入、本體論與詞匯模式、命名實(shí)體識(shí)別、語(yǔ)義演算、文檔向量、基于本體、分詞、詞干提取、詞形還原、基于詞匯、依存關(guān)系等。

(3)機(jī)器學(xué)習(xí)：在先前的研究中，機(jī)器學(xué)習(xí)已被用來(lái)做文本挖掘、文本分類和數(shù)據(jù)挖掘，以識(shí)別包含不同類型信息的文本模塊。機(jī)器學(xué)習(xí)方法可以分為監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法和無(wú)監(jiān)督學(xué)習(xí)方法。換句話說(shuō)，機(jī)器學(xué)習(xí)方法可以分為用標(biāo)記數(shù)據(jù)處理、非標(biāo)記數(shù)據(jù)處理以及兩者的整合。在科技文獻(xiàn)相關(guān)領(lǐng)域的信息抽取中，常用的機(jī)器學(xué)習(xí)方法包括基于網(wǎng)絡(luò)圖、分類器、支持向量機(jī)、邏輯回歸、K均值、邏輯模型樹(shù)、多元邏輯回歸、重復(fù)增量剪枝以減少誤差、線性邏輯回歸、隨機(jī)森林、決策樹(shù)、縮減誤差修減樹(shù)、決策表、隨機(jī)樹(shù)、樸素貝葉斯、決策樹(shù)樁、神經(jīng)網(wǎng)絡(luò)、向量空間模型、文檔主題生成模型等[9-10]。

在63篇文獻(xiàn)中，有28篇文獻(xiàn)至少應(yīng)用了三大類方法中的一種。而在三大類方法中，機(jī)器學(xué)習(xí)所占比例最大(占比約47%)，其次是自然語(yǔ)言處理(占比約39%)，最后是統(tǒng)計(jì)學(xué)(占比約14%)。

5 結(jié)語(yǔ)

本文首先從抽取內(nèi)容和抽取方法兩個(gè)不同的維度，介紹了當(dāng)前科技文獻(xiàn)信息抽取領(lǐng)域的研究?jī)?nèi)容。相關(guān)領(lǐng)域的研究人員進(jìn)行了大量的研究和探索，取得了一定的成果，成果體現(xiàn)了一定的價(jià)值。相關(guān)研究從結(jié)構(gòu)化信息、顯式信息和隱式信息三個(gè)層面對(duì)科技文獻(xiàn)進(jìn)行信息抽取，取得了很多突破。但是，以往的研究并沒(méi)有涉及到處理XML格式中具有相同標(biāo)簽的不同內(nèi)容，這會(huì)造成文獻(xiàn)內(nèi)部段落歧義的問(wèn)題；也沒(méi)有涉及PDF文件中跨頁(yè)表格的抽取等等。這個(gè)需要在未來(lái)的研究中加以重視。另外，關(guān)鍵詞和引文相關(guān)信息的抽取在這一領(lǐng)域也已經(jīng)有豐富的研究成果，但目前對(duì)于方法和算法的抽取研究?jī)H僅停留在“內(nèi)容層面”，即對(duì)顯式信息的抽取。未來(lái)有必要利用語(yǔ)義相關(guān)的方法來(lái)抽取方法和算法，通過(guò)識(shí)別和整合來(lái)挖掘其中的隱式信息。

其次，本文從方法層面對(duì)科技文獻(xiàn)的信息抽取方法進(jìn)行了總結(jié)。研究發(fā)現(xiàn)，統(tǒng)計(jì)學(xué)、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)三大類方法被廣泛應(yīng)用在相關(guān)研究中。其中，機(jī)器學(xué)習(xí)方法在研究工作中占據(jù)了最大的比例。

最后，本文對(duì)科技文獻(xiàn)信息的抽取內(nèi)容和抽取方法進(jìn)行了整合和總結(jié)，認(rèn)為科技文獻(xiàn)信息抽取面臨著新的挑戰(zhàn)。例如，從PDF和XML中抽取結(jié)構(gòu)化信息的研究仍存在一定的進(jìn)步空間。同時(shí)，語(yǔ)義信息的抽取具有挑戰(zhàn)性。除了已抽取的信息外，還有很多重要信息的抽取需求，例如，關(guān)鍵發(fā)現(xiàn)、前人研究工作、術(shù)語(yǔ)等。此外，應(yīng)用機(jī)器學(xué)習(xí)和自然語(yǔ)言處理是處理這一問(wèn)題的趨勢(shì)。如何將機(jī)器學(xué)習(xí)和自然語(yǔ)言處理結(jié)合起來(lái)，并在科技文獻(xiàn)的信息抽取中獲得良好的準(zhǔn)確性、覆蓋率和可擴(kuò)展性，仍然是一個(gè)挑戰(zhàn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡