国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科技文獻(xiàn)信息抽取方法淺析*

2022-04-20 10:21:38謝海先深圳職業(yè)技術(shù)學(xué)院廣東深圳518055
高校圖書(shū)館工作 2022年2期
關(guān)鍵詞:結(jié)構(gòu)化機(jī)器文獻(xiàn)

●敖 龍 謝海先 (深圳職業(yè)技術(shù)學(xué)院 廣東深圳 518055)

1 引言

科技文獻(xiàn)記錄了最新的科學(xué)研究進(jìn)展和成果,在科研工作中發(fā)揮著至關(guān)重要的作用。隨著自然科學(xué)、技術(shù)、管理、人文、社會(huì)科學(xué)等學(xué)科研究的迅速發(fā)展,越來(lái)越多的科技文獻(xiàn)形成了龐大的研究信息群體,提供了豐富的原始研究工作信息,是研究人員交流最新知識(shí)的載體。學(xué)者們需要捕捉其中的重點(diǎn),對(duì)它們進(jìn)行有效的檢索,找到相似或相關(guān)的文獻(xiàn)并迅速獲得它們的具體內(nèi)容。因此,有必要開(kāi)展信息抽取工作。

信息抽取是指從特定領(lǐng)域的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取具有特定目標(biāo)、有意義的知識(shí),它為獲取科技文獻(xiàn)中的信息內(nèi)容提供了新的途徑。從科技文獻(xiàn)中抽取信息的主要任務(wù)是對(duì)文獻(xiàn)內(nèi)容進(jìn)行結(jié)構(gòu)化處理,將其轉(zhuǎn)化為滿足用戶需求并能被用戶有效利用的信息。簡(jiǎn)而言之,這是一個(gè)將各種原始科技文獻(xiàn)轉(zhuǎn)化為特定格式的、獨(dú)特的信息的過(guò)程。

由于對(duì)科技文獻(xiàn)處理的需求多種多樣,信息抽取對(duì)于讀者檢索、分析和總結(jié)科技文獻(xiàn)具有重要意義??偨Y(jié)這一領(lǐng)域的現(xiàn)狀和進(jìn)展,有助于讀者對(duì)信息抽取如何輔助科技文獻(xiàn)分析有一個(gè)清晰的概念,并且了解最先進(jìn)的抽取方法以及這一研究領(lǐng)域的發(fā)展方向。

2 研究目的和方法

本文的目的是通過(guò)系統(tǒng)地收集不同維度和層面的知識(shí),調(diào)查這一領(lǐng)域的研究進(jìn)展并提供這一領(lǐng)域的概況,同時(shí)歸納信息抽取的方法,以幫助讀者深入了解這一領(lǐng)域。

本文所研究的科技文獻(xiàn),主要是指發(fā)表在學(xué)術(shù)期刊、會(huì)議論文、畢業(yè)論文、書(shū)籍、技術(shù)報(bào)告和專利論文中的文章。所綜述的文獻(xiàn)范圍有:在Web of Science、Elsevier Science Direct、PubMed、ACM Digital Library和IEEE Xplore digital library等國(guó)際數(shù)據(jù)庫(kù)中檢索主題、標(biāo)題或關(guān)鍵詞中包含“information extraction”(信息抽取)、“l(fā)iterature”(文獻(xiàn))、“scientific literature”(科技文獻(xiàn))、“paper”(論文)、“article”(文章)、“publication”(出版物)和“extract”(抽取)等的文獻(xiàn);發(fā)表時(shí)間為2013年1月1日至2019年12月31日。綜合考慮期刊或會(huì)議質(zhì)量和影響力、文獻(xiàn)本身質(zhì)量和影響力、文獻(xiàn)與本研究相關(guān)性等因素進(jìn)行篩選,最終獲得的文獻(xiàn)數(shù)量為63篇。

通過(guò)對(duì)文獻(xiàn)的閱讀和分析,本文設(shè)定了兩個(gè)方面的研究?jī)?nèi)容,具體表述如下。

(1)在現(xiàn)有的研究中,從科技文獻(xiàn)中抽取的主要信息是什么?關(guān)于此項(xiàng)問(wèn)題,本文提出了一個(gè)三層信息架構(gòu),即將科技文獻(xiàn)中的信息分為不同的類別:結(jié)構(gòu)化信息、顯式信息和隱式信息。

(2)從科技文獻(xiàn)中抽取信息的最新最先進(jìn)的方法是什么?本文對(duì)近年來(lái)有關(guān)抽取方法的文獻(xiàn)進(jìn)行研究,發(fā)現(xiàn)統(tǒng)計(jì)學(xué)、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)方法是應(yīng)用比較廣泛的方法,其中機(jī)器學(xué)習(xí)方法是應(yīng)用最廣泛的方法。

3 抽取信息的內(nèi)容

本文定義的科技文獻(xiàn)中的第一層信息是指它們中的結(jié)構(gòu)化數(shù)據(jù),也稱為結(jié)構(gòu)化信息??萍嘉墨I(xiàn)中的每一章節(jié)都明確地展示了特定的信息。在科技文獻(xiàn)中的每一部分,文本、圖像、圖形和表格是基本的信息符號(hào),在特定的布局中展現(xiàn)了文章中所有的內(nèi)容。它們不包含任何語(yǔ)義信息,提取過(guò)程只需要識(shí)別它們的標(biāo)簽即可。

在第一層信息的基礎(chǔ)上,抽取的是科技文獻(xiàn)的顯式信息,如標(biāo)題、摘要、引言、前人研究、方法、數(shù)據(jù)、實(shí)驗(yàn)、結(jié)果、討論和結(jié)論等。這些都是文獻(xiàn)不同部分的具體信息,在一定程度上表明了不同的含義,可以被用來(lái)對(duì)文獻(xiàn)進(jìn)行索引和分析。此外,它們還為更高級(jí)別的信息抽取提供原始數(shù)據(jù)源。最高層的是概念信息,也稱為隱式信息,這種信息的抽取相當(dāng)于文獻(xiàn)中語(yǔ)義信息的抽取和整合。不同層次的信息類別包含不同的內(nèi)容,如表1所示。

表1 科技文獻(xiàn)中的信息類別

3.1 結(jié)構(gòu)化信息

結(jié)構(gòu)化信息可以是文本、圖像、圖形和表格等。結(jié)構(gòu)化信息的抽取只需要識(shí)別和區(qū)分文獻(xiàn)不同部分的具體信息,不涉及信息的含義。可擴(kuò)展標(biāo)記語(yǔ)言(XML)是存儲(chǔ)和呈現(xiàn)科技文獻(xiàn)的常見(jiàn)格式,XML使得文獻(xiàn)可以在萬(wàn)維網(wǎng)上直接被閱讀。XML中的結(jié)構(gòu)識(shí)別也屬于結(jié)構(gòu)化信息抽取。與PDF相比,XML更清晰地描述了文獻(xiàn)的邏輯結(jié)構(gòu),并且能夠呈現(xiàn)PDF的幾何排版標(biāo)記、字體和布局等。因此,XML中結(jié)構(gòu)化信息的抽取,本質(zhì)上是標(biāo)記和標(biāo)簽的識(shí)別[1]。

在大多數(shù)情況下,結(jié)構(gòu)化信息的定位和識(shí)別是顯式信息抽取的基礎(chǔ)。以往許多研究將結(jié)構(gòu)化信息的抽取和顯式信息的抽取結(jié)合在一起。

3.2 顯式信息

顯式信息的抽取包括標(biāo)題、作者、關(guān)鍵詞、參考文獻(xiàn)的抽取等??萍嘉墨I(xiàn)的標(biāo)題是文章的觀點(diǎn)、發(fā)現(xiàn)和貢獻(xiàn)的濃縮,一些標(biāo)題甚至包含了整篇文獻(xiàn)的結(jié)論。標(biāo)題也是科技文獻(xiàn)的一種代表性概念,標(biāo)題的抽取為文獻(xiàn)綜述奠定了基礎(chǔ)。作者信息是抽取工作的另一個(gè)焦點(diǎn)。同一作者的文獻(xiàn)在某些方面往往是相互聯(lián)系的。作者信息抽取主要指抽取姓名、機(jī)構(gòu)、國(guó)家、資助機(jī)構(gòu)和項(xiàng)目??萍嘉墨I(xiàn)作者的隸屬關(guān)系是重要的元數(shù)據(jù)之一,它可以幫助自動(dòng)處理和分析出版物記錄[2]。此外,作者的隸屬關(guān)系有助于作者的識(shí)別和姓名消歧。關(guān)鍵詞抽取要能夠自動(dòng)識(shí)別重要的、具有代表性的主題術(shù)語(yǔ)或概念,描述并總結(jié)文獻(xiàn)內(nèi)容。關(guān)鍵詞抽取有助于科技文獻(xiàn)的處理和檢索,被證明是輔助數(shù)據(jù)挖掘的有效方法。它也是信息檢索和自然語(yǔ)言處理的關(guān)鍵要素,例如科技文獻(xiàn)分類、總結(jié)、推薦和聚類[3]。參考文獻(xiàn)和引文抽取通常對(duì)科技文獻(xiàn)中的內(nèi)容和書(shū)目部分進(jìn)行抽取、分段和解析,從而獲得一系列的組成部分,如作者、標(biāo)題、年份、期刊名稱、會(huì)場(chǎng)類型、會(huì)議地點(diǎn)、地點(diǎn)、卷、頁(yè)以及引文主題和內(nèi)容等。從科技文獻(xiàn)中抽取參考文獻(xiàn)信息有三個(gè)步驟:第一步是參考文獻(xiàn)段的檢測(cè);第二步是參考文獻(xiàn)的分割;最后是對(duì)每個(gè)信息字符串(如作者和標(biāo)題)的注釋[4-5]。

3.3 隱式信息

在科技文獻(xiàn)內(nèi)容層次信息的基礎(chǔ)上,還可以抽取更高層次的概念信息??萍嘉墨I(xiàn)中包含科學(xué)陳述、新穎發(fā)現(xiàn)和科學(xué)知識(shí)。其中,科學(xué)知識(shí)包括事實(shí)、概念、假設(shè)、猜測(cè)、觀點(diǎn)和預(yù)測(cè)??萍嘉墨I(xiàn)中的關(guān)鍵概念往往涉及主體思想、技術(shù)和應(yīng)用等,它們有助于將科技文獻(xiàn)的貢獻(xiàn)描述得更加清晰。在本研究中,隱式信息包括主題、新穎發(fā)現(xiàn)、知識(shí)、論證、情感等諸多方面,代表了科技文獻(xiàn)中深層的語(yǔ)義信息。

科技文獻(xiàn)中的知識(shí)來(lái)源于概念、內(nèi)容詞、實(shí)體和實(shí)體關(guān)系。知識(shí)抽取往往需要探索語(yǔ)義信息。以生物醫(yī)學(xué)文獻(xiàn)為例,從中抽取的知識(shí)信息有兩類:既有知識(shí)和新興知識(shí),新興知識(shí)往往與某一特定領(lǐng)域的新發(fā)現(xiàn)或新觀點(diǎn)有關(guān)[6]。新的科學(xué)假說(shuō)在解決研究問(wèn)題方面發(fā)揮著重要作用,它們也可以從科技文獻(xiàn)的結(jié)構(gòu)內(nèi)容中抽取和生成。推測(cè)信息通常出現(xiàn)在包含實(shí)驗(yàn)性質(zhì)的科技文獻(xiàn)中,它是基于實(shí)驗(yàn)證據(jù)的假設(shè)表達(dá),也為未來(lái)的研究提供了發(fā)展空間。論證是形成知識(shí)的關(guān)鍵過(guò)程,是科技文獻(xiàn)中的必要內(nèi)容。論證由論點(diǎn)和論證關(guān)系組成,而每個(gè)論點(diǎn)又由幾個(gè)關(guān)鍵部分組成。論證信息抽取需要自動(dòng)識(shí)別和鑒定前提、結(jié)論和論點(diǎn)之間的關(guān)系[7]。實(shí)體和實(shí)體關(guān)系的抽取主要是針對(duì)生物醫(yī)學(xué)、化學(xué)等領(lǐng)域的文獻(xiàn)。過(guò)去的研究探討了生物醫(yī)學(xué)實(shí)體與實(shí)體之間的關(guān)系,如基因表達(dá)關(guān)系、疾病—突變關(guān)系、藥物—疾病關(guān)系等[8]?;瘜W(xué)文獻(xiàn)中的信息抽取也包含命名實(shí)體識(shí)別和關(guān)系提取,其中化學(xué)藥物與疾病的關(guān)系是典型的被抽取信息。在隱式信息方面,雖然已經(jīng)在實(shí)體和實(shí)體關(guān)系抽取上獲取了大量信息,但長(zhǎng)短句和符號(hào)、部分、整體和瑣碎實(shí)體是目前實(shí)體識(shí)別中的一些挑戰(zhàn)。此外,描述某一特定領(lǐng)域概念的術(shù)語(yǔ),也是另一類需要抽取的高層次隱式信息。除上述內(nèi)容外,科技文獻(xiàn)的隱式信息抽取還包括事件抽取、情感抽取等。

4 抽取信息的方法

從科技文獻(xiàn)中抽取信息最常見(jiàn)的挑戰(zhàn)是準(zhǔn)確性、覆蓋率和可擴(kuò)展性。根據(jù)信息類型和抽取需求,支持科技文獻(xiàn)信息抽取的方法可以分為三個(gè)不同的大類:統(tǒng)計(jì)學(xué)、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)。

(1)統(tǒng)計(jì)學(xué):統(tǒng)計(jì)學(xué)方法是科技文獻(xiàn)中信息抽取的最基本方法。通常以詞為最小單位進(jìn)行抽取處理,如詞頻計(jì)算、詞頻—逆向文獻(xiàn)頻次計(jì)算等。近年來(lái),統(tǒng)計(jì)學(xué)方法在這一領(lǐng)域已很少單獨(dú)使用,通常是與自然語(yǔ)言處理方法和機(jī)器學(xué)習(xí)方法結(jié)合使用。以下方法可以歸類到統(tǒng)計(jì)學(xué)方法中:網(wǎng)頁(yè)排名、單詞/短語(yǔ)頻次、條件隨機(jī)場(chǎng)、詞頻—逆文本頻率指數(shù)。

(2)自然語(yǔ)言處理:自然語(yǔ)言處理是一種基于統(tǒng)計(jì)方法與人工智能相結(jié)合的方法。一般來(lái)說(shuō),在所綜述的文獻(xiàn)中,從科技文獻(xiàn)中抽取信息的自然語(yǔ)言處理方法包括斯坦福自然語(yǔ)言處理解析器、Python自然語(yǔ)言處理工具集(NLTK)、詞性、詞嵌入、本體論與詞匯模式、命名實(shí)體識(shí)別、語(yǔ)義演算、文檔向量、基于本體、分詞、詞干提取、詞形還原、基于詞匯、依存關(guān)系等。

(3)機(jī)器學(xué)習(xí):在先前的研究中,機(jī)器學(xué)習(xí)已被用來(lái)做文本挖掘、文本分類和數(shù)據(jù)挖掘,以識(shí)別包含不同類型信息的文本模塊。機(jī)器學(xué)習(xí)方法可以分為監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法和無(wú)監(jiān)督學(xué)習(xí)方法。換句話說(shuō),機(jī)器學(xué)習(xí)方法可以分為用標(biāo)記數(shù)據(jù)處理、非標(biāo)記數(shù)據(jù)處理以及兩者的整合。在科技文獻(xiàn)相關(guān)領(lǐng)域的信息抽取中,常用的機(jī)器學(xué)習(xí)方法包括基于網(wǎng)絡(luò)圖、分類器、支持向量機(jī)、邏輯回歸、K均值、邏輯模型樹(shù)、多元邏輯回歸、重復(fù)增量剪枝以減少誤差、線性邏輯回歸、隨機(jī)森林、決策樹(shù)、縮減誤差修減樹(shù)、決策表、隨機(jī)樹(shù)、樸素貝葉斯、決策樹(shù)樁、神經(jīng)網(wǎng)絡(luò)、向量空間模型、文檔主題生成模型等[9-10]。

在63篇文獻(xiàn)中,有28篇文獻(xiàn)至少應(yīng)用了三大類方法中的一種。而在三大類方法中,機(jī)器學(xué)習(xí)所占比例最大(占比約47%),其次是自然語(yǔ)言處理(占比約39%),最后是統(tǒng)計(jì)學(xué)(占比約14%)。

5 結(jié)語(yǔ)

本文首先從抽取內(nèi)容和抽取方法兩個(gè)不同的維度,介紹了當(dāng)前科技文獻(xiàn)信息抽取領(lǐng)域的研究?jī)?nèi)容。相關(guān)領(lǐng)域的研究人員進(jìn)行了大量的研究和探索,取得了一定的成果,成果體現(xiàn)了一定的價(jià)值。相關(guān)研究從結(jié)構(gòu)化信息、顯式信息和隱式信息三個(gè)層面對(duì)科技文獻(xiàn)進(jìn)行信息抽取,取得了很多突破。但是,以往的研究并沒(méi)有涉及到處理XML格式中具有相同標(biāo)簽的不同內(nèi)容,這會(huì)造成文獻(xiàn)內(nèi)部段落歧義的問(wèn)題;也沒(méi)有涉及PDF文件中跨頁(yè)表格的抽取等等。這個(gè)需要在未來(lái)的研究中加以重視。另外,關(guān)鍵詞和引文相關(guān)信息的抽取在這一領(lǐng)域也已經(jīng)有豐富的研究成果,但目前對(duì)于方法和算法的抽取研究?jī)H僅停留在“內(nèi)容層面”,即對(duì)顯式信息的抽取。未來(lái)有必要利用語(yǔ)義相關(guān)的方法來(lái)抽取方法和算法,通過(guò)識(shí)別和整合來(lái)挖掘其中的隱式信息。

其次,本文從方法層面對(duì)科技文獻(xiàn)的信息抽取方法進(jìn)行了總結(jié)。研究發(fā)現(xiàn),統(tǒng)計(jì)學(xué)、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)三大類方法被廣泛應(yīng)用在相關(guān)研究中。其中,機(jī)器學(xué)習(xí)方法在研究工作中占據(jù)了最大的比例。

最后,本文對(duì)科技文獻(xiàn)信息的抽取內(nèi)容和抽取方法進(jìn)行了整合和總結(jié),認(rèn)為科技文獻(xiàn)信息抽取面臨著新的挑戰(zhàn)。例如,從PDF和XML中抽取結(jié)構(gòu)化信息的研究仍存在一定的進(jìn)步空間。同時(shí),語(yǔ)義信息的抽取具有挑戰(zhàn)性。除了已抽取的信息外,還有很多重要信息的抽取需求,例如,關(guān)鍵發(fā)現(xiàn)、前人研究工作、術(shù)語(yǔ)等。此外,應(yīng)用機(jī)器學(xué)習(xí)和自然語(yǔ)言處理是處理這一問(wèn)題的趨勢(shì)。如何將機(jī)器學(xué)習(xí)和自然語(yǔ)言處理結(jié)合起來(lái),并在科技文獻(xiàn)的信息抽取中獲得良好的準(zhǔn)確性、覆蓋率和可擴(kuò)展性,仍然是一個(gè)挑戰(zhàn)。

猜你喜歡
結(jié)構(gòu)化機(jī)器文獻(xiàn)
機(jī)器狗
機(jī)器狗
Hostile takeovers in China and Japan
速讀·下旬(2021年11期)2021-10-12 01:10:43
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
大東方(2019年12期)2019-10-20 13:12:49
未來(lái)機(jī)器城
電影(2018年8期)2018-09-21 08:00:06
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
商情(2017年1期)2017-03-22 16:56:36
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
寻乌县| 曲靖市| 调兵山市| 荥阳市| 饶河县| 海宁市| 沧源| 北碚区| 定陶县| 德保县| 农安县| 桃源县| 个旧市| 哈巴河县| 新绛县| 广平县| 翁牛特旗| 榆社县| 高碑店市| 林西县| 黔东| 阜新| 仁化县| 江西省| 邵阳县| 方城县| 龙岩市| 班玛县| 云浮市| 芦溪县| 尉犁县| 万年县| 黔西| 芜湖县| 仁寿县| 时尚| 通辽市| 武平县| 邹平县| 盱眙县| 石景山区|