丁培 葉蘭
收稿日期:2020-10-10
基金項目:廣東省哲學社會科學規(guī)劃學科共建項目“支持深度知識發(fā)現(xiàn)的文內(nèi)數(shù)據(jù)與文獻關(guān)聯(lián)研究”(項目編號:GD18XTS07);教育部人文社會科學研究青年基金項目“基于成熟度視角的高校圖書館科學數(shù)據(jù)管理服務(wù)能力評價研究”(項目編號:19YJC870028);國家社會科學基金項目“科技論文全景式摘要知識圖譜構(gòu)建與應(yīng)用研究”(項目編號:19BTQ61)。
作者簡介:丁培(1987-),男,館員,博士研究生,研究方向:知識組織,科學數(shù)據(jù)管理。
通訊作者:葉蘭(1983-),女,副研究館員,碩士,研究方向:數(shù)字圖書館,科學數(shù)據(jù)管理。
摘要:[目的/意義]科研用戶需要學術(shù)圖表助力精準知識發(fā)現(xiàn)服務(wù)。圖表標注是學術(shù)圖表融入學術(shù)知識發(fā)現(xiàn)體系需要解決的核心問題。[方法/過程]定義學術(shù)圖表標注范疇,以歷史研究為脈絡(luò),梳理學術(shù)圖表發(fā)現(xiàn)研究及實踐發(fā)展階段,重點研究圖表標注的兩個核心問題:圖表標注組織和圖表標注實現(xiàn)。[結(jié)果/結(jié)論]總結(jié)現(xiàn)存研究問題,指出基于本體的學術(shù)圖表自動語義標注是支撐未來大規(guī)模學術(shù)圖表精準語義發(fā)現(xiàn)的圖表標注形態(tài)。未來還需要在學術(shù)圖表本體構(gòu)建、學術(shù)圖表異構(gòu)信息抽取等方面深入開展研究。
關(guān)鍵詞:科技文獻;學術(shù)圖表;圖表標注;知識組織;信息抽取;語義標注
DOI:10.3969/j.issn.1008-0821.2021.04.017
〔中圖分類號〕G254〔文獻標識碼〕A〔文章編號〕1008-0821(2021)04-0165-13
Research Progress of Academic Figures and
Tables Annotation in Scientific Literature
Ding PeiYe Lan*
(Library,Shenzhen University,Shenzhen 518060,China)
Abstract:[Purpose/Significance]Researchers need academic figures and tables to facilitate precise knowledge discovery services.Academic figures and tables annotation is a core problem to be solved when academic figures and tables are integrated into academic knowledge service system.[Method/Process]The authors define scope of academic figures and tables annotation.Taking the historical research as the context,the paper sorted out the development stage of academic figures and tables discovery in research and practical dimension,and then focued on the two core issues of academic figures and tables annotation:annotations organizational structure and annotating implementation.[Result/Conclusion]On the basis of summarizing the existing research problems,the paper pointed out that ontology-based automatic semantic annotation of academic figures and tables was the form of academic figures and tables annotation supporting the accurate semantic discovery of large-scale academic figures and tables in the future.In next,further research should be carried out in academic figures and tables ontology construction and heterogeneous information extraction of academic figures and tables.
Key words:scientific literature;academic figures and tables;academic figures and tables annotation;knowledge organization;information extraction;semantic annotation
學術(shù)圖表大量存在于科技文獻中。相關(guān)研究統(tǒng)計發(fā)現(xiàn),學術(shù)圖表正成為STEM期刊論文標配內(nèi)容[1-2]。學術(shù)圖表是一系列、多步驟科學研究過程的最終產(chǎn)物。它被作者用于體現(xiàn)不同的用途,如多維指標對比(表),復雜對象論證(復合圖),特殊對象展示(DNA圖),直觀實驗展示(照片、成像圖),對比/趨勢/統(tǒng)計數(shù)據(jù)分析等,助力讀者直觀理解論文,提供比正常摘要更多的信息內(nèi)容。通常STEM論文中,重要的科學研究結(jié)果需要借助圖表解釋說明;另一方面,讀者通過閱讀查看文獻內(nèi)學術(shù)圖表評估文檔的相關(guān)性,并借助圖表信息來提高檢索效率。同時,相當部分的學術(shù)圖表和學術(shù)研究中產(chǎn)生的科學數(shù)據(jù)同源,甚至是科學數(shù)據(jù)精華所在,因而學術(shù)圖表成為科技文獻和科學數(shù)據(jù)間關(guān)聯(lián)的紐帶。總之,提供給定信息快速發(fā)現(xiàn)相關(guān)學術(shù)圖表成為科研發(fā)現(xiàn)中越來越重要的需求。
學術(shù)圖表具有表現(xiàn)類型多樣化、信息內(nèi)容高度濃縮、與科學文獻內(nèi)容高度相關(guān)的特征。類型多樣化帶來圖表識別挑戰(zhàn),信息內(nèi)容高度濃縮需要構(gòu)建有效的模型來幫助知識呈現(xiàn),而與科學文獻內(nèi)容高度相關(guān)則帶來異構(gòu)內(nèi)容融合發(fā)現(xiàn)及建立文本內(nèi)容與圖表間關(guān)系的問題。這些致使學術(shù)圖表檢索發(fā)現(xiàn)難以融入當前學術(shù)知識發(fā)現(xiàn)體系。
未來學術(shù)知識服務(wù)體系需要細粒度知識組織、基于語義的知識關(guān)聯(lián)、面向全資源類型的知識發(fā)現(xiàn)以及有效支持智能問答、意圖精準刻畫的認知計算。學術(shù)圖表作為重要的學術(shù)知識表現(xiàn)對象,要融入未來學術(shù)知識服務(wù)體系,則需要解決學術(shù)圖表標注這一關(guān)鍵瓶頸問題。
1學術(shù)圖表標注
“標注”一詞的含義很多,如標注是對文本特定部分所添加的形式注釋[3],又如附加數(shù)據(jù)到其他類型的數(shù)據(jù)[4],筆者認為標注是為數(shù)字對象(包括文本對象和非文本對象)添加注釋數(shù)據(jù),這些注釋或是自身內(nèi)容語義深度挖掘,或是系統(tǒng)化組織,或是與其他對象關(guān)聯(lián),其目的是增強人或機器對數(shù)字對象理解。學術(shù)圖表標注指為科技文獻中的學術(shù)圖表添加形式化或形式化語義注釋內(nèi)容的過程及結(jié)果,其目的是理解學術(shù)圖表,發(fā)現(xiàn)學術(shù)圖表。
根據(jù)形式不同,標注可分為非形式化標注(如手寫筆記)、形式化標注及語義標注3種。形式化標注和語義標注按照一定的信息組織模式,均可用于機器理解,其中元數(shù)據(jù)組織標注作為一類形式化標注,已廣泛應(yīng)用于計算機信息處理和信息資源發(fā)現(xiàn)過程中。形式化標注解決簡單的圖表語義描述問題,但其靈活性同時產(chǎn)生“信息孤島”,因此無法解決資源集合之間的相互關(guān)系問題,這需要語義標注的幫助。
語義標注是指為信息資源增加形式化、語義注釋,其形式化語義內(nèi)容來源于本體(此處本體涵蓋領(lǐng)域敘詞表等語義組織體系),為信息資源提供標準化、形式化、抽象化的描述,也稱之為基于本體的語義標注。語義標注既是表示本體知識轉(zhuǎn)化為語義注釋的過程(包括信息抽取和實例標注),也是上述過程產(chǎn)生的語義注釋數(shù)據(jù)。通過語義形式化描述,它能幫助解決不同資源集合因不同描述產(chǎn)生的難以關(guān)聯(lián)問題,同時它將信息資源所隱藏的語義知識顯現(xiàn)地揭示出來,使這些內(nèi)容更加容易被發(fā)現(xiàn)、關(guān)注及應(yīng)用。學術(shù)圖表的語義標注是指基于本體對科技文獻中圖表信息內(nèi)容實施語義組織、揭示語義關(guān)聯(lián),形成語義標注內(nèi)容。
2學術(shù)圖表發(fā)現(xiàn)歷史
早在20世紀末數(shù)字圖書館興起之時,Bishop A P研究者就嘗試通過搜索特定期刊文章組成部分(圖、表格標題以及表格文字)來支持檢索科技期刊文章[5]。Futrelle R P發(fā)現(xiàn)在生物學領(lǐng)域中將近50%的論文文本內(nèi)容與圖形相關(guān)[6]。Stelmaszewska H等研究計算機科學家閱讀文章行為及需求時發(fā)現(xiàn),用戶閱讀文章時會重點查看圖、表、公式等非文本內(nèi)容,以此快速評估論文是否符合自身需求[7]。CSA通過期刊論文組件索引及檢索系統(tǒng)用戶需求的調(diào)查發(fā)現(xiàn),在檢索系統(tǒng)內(nèi)搜索表格、圖形、圖表和地圖對研究、教學均非常重要,期刊文章中包含的表格及圖像能使判斷文章的相關(guān)性變得更加容易。此外需求分析還發(fā)現(xiàn)用戶要求在支持圖表檢索的系統(tǒng)應(yīng)具有高精準度、靈活的檢索頁面、支持聯(lián)邦檢索、提供無縫的論文獲取、提供用于處理符號和支持符號檢索的標準化解決方案等功能[8]。
學術(shù)圖表的文本及視覺異物特征致使學術(shù)圖表的發(fā)現(xiàn)研究演進分化成兩條研究路徑。路徑一以學術(shù)圖表所涉及的文本信息為語義來源,通過信息抽取、知識組織將來源信息轉(zhuǎn)換為形式化標注內(nèi)容,進而實施圖表發(fā)現(xiàn)。路徑二以學術(shù)圖表自身的特征內(nèi)容(既包括圖像視覺特征,也包括圖表內(nèi)文本特征)為語義來源,借助信息抽取和視覺識別等技術(shù),并通過知識組織將來源信息轉(zhuǎn)換為形式化標注或語義標注內(nèi)容來實現(xiàn)圖表發(fā)現(xiàn)。表1對部分學術(shù)圖表發(fā)現(xiàn)研究進行了對比。
歷經(jīng)數(shù)十年的發(fā)展,學術(shù)圖表發(fā)現(xiàn)經(jīng)歷了三方面的轉(zhuǎn)變,分別是發(fā)現(xiàn)對象從單一表或圖轉(zhuǎn)向綜合性的圖表,語義來源從簡單的標題等內(nèi)容擴展到多模態(tài)信息復合,檢索支持從單一的關(guān)鍵詞檢索到關(guān)鍵詞檢索復合圖表分類及關(guān)聯(lián)發(fā)現(xiàn)。從發(fā)展歷史看,學術(shù)圖表發(fā)現(xiàn)總體經(jīng)歷三階段的發(fā)展變化。
第一階段的發(fā)現(xiàn)研究主要關(guān)注于單一圖或單一表的發(fā)現(xiàn),語義來源較為簡單,如標題、表條目、圖特征等,通過元數(shù)據(jù)方式組織所抽取信息,并提供基于關(guān)鍵詞的檢索發(fā)現(xiàn)。第二階段的發(fā)現(xiàn)研究將學術(shù)圖表作為統(tǒng)一發(fā)現(xiàn)對象,語義來源擴展到圖表上下文,圖表所在論文的元數(shù)據(jù)信息。此階段以元數(shù)據(jù)組織方式為主,配合以關(guān)鍵詞檢索。第三階段嘗試融合路徑一和路徑二,將學術(shù)圖表的文本特征、視覺特征、外部關(guān)聯(lián)信息綜合為語義信息來源,借助信息抽取、視覺識別、機器學習等技術(shù),基于元數(shù)據(jù)、圖表分類等組織方式形成形式化標注,并提供關(guān)鍵詞、簡單分類、主題語義等多維的圖表發(fā)現(xiàn)方式。
通過歷史研究發(fā)現(xiàn),無論哪個階段,學術(shù)圖表發(fā)現(xiàn)需要借助標注實現(xiàn),而標注需要解決兩個核心問題:圖表標注組織和圖表標注實現(xiàn)。前者為學術(shù)圖表標注提供結(jié)構(gòu)化、形式化內(nèi)容組織框架,幫助人和機器理解圖表的語義,后者通過技術(shù)建立學術(shù)圖表語義來源信息和組織模型間關(guān)聯(lián),并轉(zhuǎn)換為結(jié)構(gòu)化標注內(nèi)容。
3學術(shù)圖表標注組織
學術(shù)圖表發(fā)現(xiàn)過程需要將圖表涉及的將雜亂無序的語義信息來源內(nèi)容轉(zhuǎn)化為有序、結(jié)構(gòu)化的形式標注內(nèi)容,這一過程需要標注組織框架的幫助?,F(xiàn)有學術(shù)圖表標注組織框架涉及元數(shù)據(jù)組織、圖表分類組織及本體組織3種方式。
3.1元數(shù)據(jù)
元數(shù)據(jù)通過結(jié)構(gòu)化描述,對具體的情境進行定制化的解釋,實現(xiàn)對資源的組織、發(fā)現(xiàn)、互操作、歸檔和保藏等?;谄浔磉_的多樣化、靈活、門檻低的優(yōu)勢,元數(shù)據(jù)是最早應(yīng)用于學術(shù)圖表標注的信息組織方式,也是實踐中應(yīng)用最多的方式。
TableSeer[13]將學術(shù)表格信息組織為表格環(huán)境元數(shù)據(jù)(如文檔類型,表格所在文檔頁碼,文檔標題等)、表格框架元數(shù)據(jù)(記錄表格四周是否有框)、表格附屬元數(shù)據(jù)(表格標題、腳注、參考文獻)、表格布局元數(shù)據(jù)(如表寬、表長、行數(shù)、列數(shù)、分割線等)、表格內(nèi)容元數(shù)據(jù)(表格中的值)、表格內(nèi)容類型元數(shù)據(jù)(數(shù)值或非數(shù)值)等五類元數(shù)據(jù)。
CSA[14]通過深度索引技術(shù),抽取文獻中的表格、圖片等數(shù)據(jù),人工標引其元數(shù)據(jù)。標引的元數(shù)據(jù)框架包括圖表標題、圖表類別、DOI、地理術(shù)語、文獻作者、文獻標題、文獻摘要、期刊名稱、文獻主題等。
PMC[18]同樣基于元數(shù)據(jù)方式對論文中的學術(shù)圖進行增強表示,其學術(shù)圖的元數(shù)據(jù)包括圖標題、圖注、圖所在文章DOI、文章出版時間、同文圖片等。
CNKI[19]單獨抽取科技文獻中的學術(shù)圖片,使用15個元數(shù)據(jù)項描述圖片信息,包括圖片ID、圖片標題、圖片說明、圖片關(guān)鍵詞、圖詞、分類、圖片尺寸、圖片大小、圖片清晰度、圖片頁碼、圖片地址、同文圖片、語義相關(guān)圖片、讀者推薦圖片。
Open-i[22]是NIH開發(fā)的科研圖片數(shù)據(jù)庫,綜合來自Pubmed Central、Medpix、USC Orthopedic Surgical Anatomy、Images from the History of Medicine(NLM)、Indiana U.Chest X-rays等來源的科研圖片,其中Pubmed Central集合均是科技論文中的學術(shù)圖。其元數(shù)據(jù)組織內(nèi)容包括圖片標題、圖片注釋、圖片上下文提及文本、圖片分類、論文標題、論文摘要、所屬機構(gòu)、期刊名稱、MESH主題擴展等。
3.2圖表分類組織
圖表分類組織針對圖表視覺特征,從圖表類型上組織學術(shù)圖表信息。早在20世紀80年代,遙感領(lǐng)域[25]以及醫(yī)學領(lǐng)域[26]就研究各自領(lǐng)域中的學術(shù)圖像分類。圖表分類組織依賴計算機視覺識別和機器學習技術(shù),而組織體系尚無通用性的標準,研究人員基于任務(wù)需求、領(lǐng)域特征、分類算法建立不同的圖表分類組織模型。表2列舉部分研究使用的圖像分類組織模型等信息。
3.3本體組織
本體是一種形式化組織方式,通過賦予異構(gòu)數(shù)據(jù)以統(tǒng)一的語義信息,使得機器能夠理解信息并自動處理信息之間的語義聯(lián)系,從而提高異構(gòu)數(shù)據(jù)之間的互操作性。
學術(shù)圖表作為文獻的重要組成部分,較早出現(xiàn)于文獻組織本體中。DoCo[32]、Discourse Elements Ontology(DEO)[33]等文獻本體將學術(shù)圖表作為單獨類目描述。學術(shù)圖表類目僅描述圖表標題、注釋(Lable、表格框Box)等內(nèi)容。科學論文功能單元本體[34]嘗試組織學術(shù)圖表上下文內(nèi)容,將其組織數(shù)據(jù)分析、數(shù)據(jù)描述內(nèi)容,并匹配學術(shù)圖表的知識類型屬性(如確定性程度、情感傾向、來源),但未進一步細粒度分解學術(shù)圖表內(nèi)容。
學術(shù)表格有固有組織特性(橫縱坐標分明),因而部分研究者采用自定義本體或者領(lǐng)域本體來對其進行語義組織。Madin J等構(gòu)建了可擴展的觀測本體(Extensible Observation Ontology,OBOE),該本體由觀測、度量、實體、特征和度量標準5個核心概念構(gòu)成,不僅可以描述每項觀測變量的上下文環(huán)境以及觀測值之間的相互關(guān)系,還支持魯棒性的單位描述和換算以及領(lǐng)域詞匯擴展[35]。開放城市數(shù)據(jù)平臺利用城市數(shù)據(jù)模型本體(City Data Model Ontology)將不同來源的數(shù)據(jù)轉(zhuǎn)換為RDF數(shù)據(jù),轉(zhuǎn)換時根據(jù)一維表數(shù)據(jù)的特點(每一行對應(yīng)一個城市和每一列對應(yīng)一個統(tǒng)計指標),將每一行的數(shù)據(jù)映射到CityDataContext類的一個實例,每一列映射到一個屬性[36]。
領(lǐng)域敘詞表利用“用、代、屬、分、參、族”等關(guān)系對領(lǐng)域知識實施形式化組織,可看作一類簡單的領(lǐng)域知識本體。部分研究人員嘗試利用機器視覺識別、自然語言處理、機器學習算法等技術(shù),結(jié)合領(lǐng)域敘詞表對學術(shù)圖表實施語義標注。結(jié)構(gòu)化文本圖片發(fā)現(xiàn)系統(tǒng)(Structured Literature Image Finder System,SLIF)最早嘗試利用敘詞表語義組織圖表。它關(guān)注生物文獻中的顯微鏡成像圖,通過機器視覺識別的方法來發(fā)現(xiàn)成像圖中的基因、蛋白質(zhì)概念[11]。Human Brain Project(HBP)將大腦成像圖片的特定區(qū)域和受控詞表中的概念關(guān)聯(lián)[37]。EMAP(The Edinburgh Mouse Atlas Project)利用解剖學詞表概念對老鼠胚胎的3D圖片和2D組織切面進行標注[38]。
筆者早期研究學術(shù)圖表的專門本體組織,將學術(shù)圖表的視覺信息、內(nèi)外文本信息、學術(shù)圖表的外部關(guān)聯(lián)信息作為增強信息來源,梳理異構(gòu)信息間語義關(guān)系,基于Protégé工具構(gòu)建簡單文內(nèi)數(shù)據(jù)本體框架[39]。后續(xù)基于語義標注任務(wù)構(gòu)建水稻領(lǐng)域的學術(shù)圖表知識庫,并將其應(yīng)用于學術(shù)圖表發(fā)現(xiàn)任務(wù)中。
3.4知識圖譜
知識圖譜(Knowledge Graph)是近年以來的熱點,它是一種知識表示方式。學界對于知識圖譜并沒有明確的定義。有研究者認為知識圖譜是一個知識庫,如Rospocher M等認為知識圖譜是從結(jié)構(gòu)化知識庫或百科知識中抽取實體組成的事實知識庫[40]。部分研究者認為知識圖譜是基于圖的知識表示方式,如阮彤等定義知識圖譜是模式圖、數(shù)據(jù)圖及兩者關(guān)系組成的圖[41]。還有研究者把知識圖譜認為是一個本體,如認為知識圖譜是由實體、實體類型、屬性及關(guān)系構(gòu)成的大型網(wǎng)狀網(wǎng)絡(luò)[42]。Paulheim H等認為圖譜包括實例A-box和模式T-box,其中A-box數(shù)據(jù)量遠大于T-box[43]。
本研究認為知識圖譜是包含大量實體、關(guān)系、屬性的結(jié)構(gòu)化知識系統(tǒng)[44],它既包括模式層面的本體組織,也包括數(shù)據(jù)層的語義標注知識庫。簡而言之,知識圖譜包括本體和本體約束的實例內(nèi)容(可稱為知識庫),本體為圖譜提供抽象表達,知識庫是本體的實例化?;谥R范圍,圖譜分為通用知識圖譜和行業(yè)知識圖譜兩大類[45]。通用知識圖譜如普林斯頓大學的Wordnet、谷歌的Freebase、維基百科的Dbpedia、微軟的Concept Graph等。行業(yè)知識圖譜如地理領(lǐng)域的Geonames、生物領(lǐng)域的UniprotKB、腦科學領(lǐng)域的Linked Brain Data知識庫、旅游領(lǐng)域的中國旅游景點知識圖譜等。學術(shù)資源領(lǐng)域也有知識圖譜應(yīng)用,如微軟學術(shù)知識圖譜(MAKG)[46]、Springer Nature SciGraph[47]、學者網(wǎng)知識圖譜[48]、TechKG科技知識圖譜[49]等。目前暫未發(fā)現(xiàn)面向?qū)W術(shù)圖表知識組織的知識圖譜。
圖表標注實現(xiàn)的2個重點問題分別是學術(shù)圖表語義來源信息如何獲得,如何將無序的來源信息轉(zhuǎn)換為結(jié)構(gòu)化語義內(nèi)容,簡單而言,即信息抽取和實例標注。
4.1圖表信息抽取
信息抽取的覆蓋面及精準度直接影響到學術(shù)圖表標注的范圍和效果。學術(shù)圖表語義來源信息構(gòu)成較為復雜,包括3個方面內(nèi)容。第一方面內(nèi)容來自圖表本身,如圖表類型、圖表內(nèi)文本及數(shù)據(jù)(數(shù)據(jù)點、坐標軸、圖例、圖內(nèi)對象)等;第二方面是圖表內(nèi)容信息,包括圖表標題、圖表注釋、圖表上下文等;第三部分是圖表擴展信息,此部分信息能夠擴展圖表發(fā)現(xiàn)范圍,發(fā)現(xiàn)更多隱性關(guān)聯(lián)。包括論文信息、數(shù)據(jù)信息等。不同研究者基于不同來源信息對圖表實施信息抽取任務(wù),具體而言可分為學術(shù)圖表自身信息抽取、學術(shù)圖表內(nèi)容信息抽取、學術(shù)圖表擴展信息抽取。
4.1.1學術(shù)圖表自身信息抽取
學術(shù)圖表自身具有視覺信息和文本信息共存的特性。視覺信息一方面可用于增強表示為學術(shù)圖表類型;另一方面部分類型圖像視覺信息可以用于實體或概念標注(如成像圖、蛋白質(zhì)序列圖)。文本信息(如坐標軸、圖例、圖內(nèi)注釋等)則用于細粒度的知識描述。
1)圖像視覺信息抽取
視覺信息的抽取和標注通常結(jié)合在一起。抽取視覺信息標注圖表類型在3.2部分已有闡述。部分研究者針對照片、醫(yī)學圖像、成像圖等類型學術(shù)圖像,基于底層視覺信息,將視覺特征和文本特征共同考慮,利用視覺單詞或者領(lǐng)域術(shù)語來對圖像進行標注。Shamna P等將視覺信息位置信息補充到主題模型算法LDA中來抽取圖像視覺單詞,提高醫(yī)學成像圖的檢索精準度[50]。Kurtz C等基于圖像的顏色、位置、邊緣等特征,使用支持向量機(SVM)和Riesz小波自動學習方法,從醫(yī)學本體中自動注釋放射圖片[51]。深度卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模視覺對象識別任務(wù)中獲得了廣泛的普及,尤其是在通用圖像檢索和醫(yī)學圖像檢索任務(wù)的多模(文本特征、圖像特征)特征學習上表現(xiàn)優(yōu)異[52-54]。
2)圖像文本信息抽取
圖像文本信息抽取可歸納為4個步驟。
第一步是文本檢測,測定圖像中文本存在。蔣夢迪等總結(jié)現(xiàn)存6種文本區(qū)域檢測算法:基于邊緣、基于紋理、基于連通分量、基于筆畫、基于深度學習和其他算法[55]。
第二步是文本定位,確定圖像中文本位置并且生成文本邊界框。顏色、邊、紋理特征及文本特征是文本定位常規(guī)使用的特征,點、區(qū)域、角色外觀等特征也被部分研究者關(guān)注和探索[56-57]。
第三步是文本分割階段,從圖像背景中分割文本,提取字符塊精確輪廓[58]。鑒于學術(shù)圖像分辨率偏低的特點,此過程容易產(chǎn)生噪音,需要進行文本圖像增強。
第四步是使用光學字符識別OCR技術(shù)將提取的文本圖像轉(zhuǎn)換成純文本。
3)圖像數(shù)值信息抽取
對于統(tǒng)計類型圖像,研究者不僅研究文本抽取,還研究圖內(nèi)數(shù)據(jù)提取。學術(shù)圖像的數(shù)據(jù)提取可以分解為多個任務(wù)。在經(jīng)過文本檢測和識別步驟獲得坐標軸標簽、圖例、數(shù)據(jù)點值后,需要建立數(shù)據(jù)標簽和數(shù)據(jù)內(nèi)容之間的對應(yīng)關(guān)系。已有學者研究不同類型圖表的數(shù)據(jù)內(nèi)容提取,并嘗試開發(fā)相應(yīng)的數(shù)據(jù)提取工具。數(shù)據(jù)提取工具對比如表3所示。
4)表格文本信息抽取
表格中文本抽取分兩類方式。一類是將表格轉(zhuǎn)換為圖片格式,基于圖像文本抽取步驟實施;一類是基于表格特征抽取表格文本。
表格特征指表頭、數(shù)據(jù)區(qū)的布局、文本特征,當前基于表格特征抽取文本內(nèi)容又分為:
1)基于布局和樣式特征的自動抽?。簩⒈砀穹譃椴煌愋偷牟季?,采用貝葉斯分類算法或者樹形遍歷算法,基于單詞間距、空格位置、文字大小、文字粗細、文字位置、縮進等特征,對表格的標題、表頭、數(shù)據(jù)區(qū)域做區(qū)分[64-65]。
2)半監(jiān)督學習的抽?。和ㄟ^人工干預(yù),確定表格的部分特征,利用機器分類算法來幫助識別表頭、數(shù)據(jù)區(qū)域。如Nagy G等早期使用半自動的方式,借助WNT、TAT、VeriClick工具來協(xié)助表格結(jié)構(gòu)內(nèi)容的理解[66]。
4.1.2學術(shù)圖表內(nèi)容信息抽取
學術(shù)圖表的文本型信息包括圖表標題、注釋、上下文(論文正文中提及圖表的段落)。學術(shù)圖表的文本信息抽取的難點在于需要保證盡可能找到圖表所涉及的文本內(nèi)容,同時盡量少引入無關(guān)的文本信息。
早期研究關(guān)注圖表標題的抽取。例如ACM檢索系統(tǒng)[67],MARIE項目[68]。隨著對圖表精確檢索需求顯化,與此同時自然語言處理技術(shù)取得突破進展,研究人員更關(guān)注正文中圖表提及文本內(nèi)容的抽取。Demnerfushman D等強調(diào)分析與圖像關(guān)聯(lián)文本以理解圖像,并抽取醫(yī)學圖像的標題及論文中討論部分的圖表提及文本來增強醫(yī)學圖像的圖像注釋及檢索[69]。圖形摘要系統(tǒng)FigSum嘗試從醫(yī)學文獻中抽取出圖形的結(jié)構(gòu)性文本摘要,并將文本分類為簡介、方法、結(jié)果和討論[70]。
現(xiàn)有研究提出了幾種圖表上下文抽取的方法,分別是:
1)明確提示法:基于標示性文字來識別明確引用圖表的句子或者段落,例如借助Fig、Table等關(guān)鍵詞,識別圖表所引用的句子或者段落。
2)基于信息檢索的方法:以圖表標題、圖例信息、參考語句或段落(明確引用的語句)為基準,基于主題相關(guān)性來查找與圖表標題最相似的句子來查找與圖表關(guān)聯(lián)的語句。
3)基于位置的抽取方法:以明確引用語句為參考語句,抽取與參考語句間距離為N句的內(nèi)容。
Balaji P R等在生物學領(lǐng)域的圖像文本標注實驗中對比不同方法,發(fā)現(xiàn)明確提示法在精準度上獲得最好表現(xiàn),而基于信息檢索的方法在召回率上表現(xiàn)最佳,而混合兩者方法則在F值上表現(xiàn)最佳[71]。
4.1.3學術(shù)圖表外部關(guān)聯(lián)信息抽取
學術(shù)圖表外部關(guān)聯(lián)信息主要是指論文中的與圖表發(fā)現(xiàn)相關(guān)但并非對圖表進行直接描述的內(nèi)容,如論文信息(論文標題、論文作者、作者機構(gòu)、論文引用、論文關(guān)鍵詞等),數(shù)據(jù)信息(如補充數(shù)據(jù)標題、補充數(shù)據(jù)描述)和圖表引用信息(圖表引用文獻、圖表引用數(shù)據(jù))等。
針對論文信息抽取,薛歡歡[72]總結(jié)論文信息抽取3種方式,并指出基于規(guī)則的論文信息抽取方法準確度高但可擴展性差,基于模板的論文信息抽取方法下效率高但受制于模板構(gòu)建,基于機器學習的論文信息抽取方法靈活性、魯棒性最佳,但需要構(gòu)建訓練語料。李朝光等利用正則表達式直接從PDF文檔中抽取首頁元數(shù)據(jù),包括標題、作者、摘要和關(guān)鍵字[73]。更多的研究者利用工具將PDF轉(zhuǎn)換為XML格式文檔,基于XML規(guī)則來抽取論文信息,抽取信息有標題、作者名、地址、電子郵箱、摘要、關(guān)鍵字、引文[74-75]。Day M Y等采用模板匹配方法,設(shè)計層次化知識描述框架的InfoMap抽取論文中的引文元數(shù)據(jù)[76]。黃澤武也基于模板的方法識別與抽取標題、作者、摘要、參考文獻等信息[77]。機器學習的興起為論文信息抽取帶來新格局,研究者們采用包括SVM[78]、條件隨機場[79]、隱馬爾可夫模型[80]、深度神經(jīng)網(wǎng)絡(luò)[81]等分類算法,通過訓練語料并建立樣本的輸入與輸出之間的關(guān)系來預(yù)測論文信息所屬分類。
數(shù)據(jù)信息主要指論文中補充數(shù)據(jù)材料信息。由于現(xiàn)有科技文獻中補充數(shù)據(jù)并非必須字段,且不同數(shù)據(jù)庫平臺對補充數(shù)據(jù)表示不一,因而尚未有人專門研究補充數(shù)據(jù)信息抽取。Kafkas S等挖掘Europe PMC FTP上41萬篇XML格式論文,通過元素和數(shù)據(jù)庫登錄號等方式篩選,發(fā)現(xiàn)16.8%的文章包含可轉(zhuǎn)換格式的補充數(shù)據(jù)[82]。Li J等[83]、Zhao M N等[84]均基于XML全文分析模式對文章中引用科學數(shù)據(jù)情況實施統(tǒng)計,但未針對補充材料項實施抽取。
盡管尚未有專門針對圖表引用信息的抽取研究,但此任務(wù)與文本中引文發(fā)現(xiàn)和抽取類似。多數(shù)學者關(guān)注引文數(shù)據(jù)的抽取,如Cortez E等從已經(jīng)存在的領(lǐng)域訓練集元數(shù)據(jù)中自動生成模板,從而實現(xiàn)無監(jiān)督的引文元數(shù)據(jù)抽取[85],Peng F C等基于條件隨機場算法從Cora數(shù)據(jù)集中抽取引文元數(shù)據(jù)取得不錯效果[86]。部分學者對引文發(fā)現(xiàn)進行研究,如高良才等通過構(gòu)建融合序號規(guī)則、內(nèi)容規(guī)則、標點符號規(guī)則的特征集合從文本中發(fā)現(xiàn)、分割及標注引文信息[87]。還有學者研究引文上下文的抽取,如He Q等采用語言模型來定位引文內(nèi)容,并采用了文獻不同部分的上下文相似度以及給定的引文內(nèi)容聚類及概率模型的主題相關(guān)性來計算引文相關(guān)度值[88]。
4.2圖表實例標注
圖表實例標注是建立圖表標注組織模型和圖表語義信息內(nèi)容關(guān)聯(lián),產(chǎn)生標注數(shù)據(jù)的過程。其中圖表標注組織模型為實例標注提供語義描述框架。不同組織模型產(chǎn)生不同的圖表標注數(shù)據(jù)。學術(shù)圖表元數(shù)據(jù)標注采用元數(shù)據(jù)組織模型描述學術(shù)圖表的語義信息來源,以形式化標注方式展示于HTML或XML頁面中,例如CNKI學術(shù)圖片知識庫中的圖片條目。學術(shù)圖表分類標注是將圖表視覺信息標注為人和機器可讀的文本型形式化標注內(nèi)容,例如ReVision工具產(chǎn)生的圖類型標注結(jié)果。學術(shù)圖表語義標注以本體為組織模型,通過語義標注產(chǎn)生形式化語義標注內(nèi)容,最終以XML、RDF、關(guān)聯(lián)數(shù)據(jù)等方式呈現(xiàn)。
元數(shù)據(jù)標注是目前主流的學術(shù)圖表標注方式。上文研究提到的CSA llustrata、Open-i、TableSeer、CNKI圖片檢索等均實踐了元數(shù)據(jù)標注方式。圖表分類標注通常會和元數(shù)據(jù)方式結(jié)合,共同展示于圖表發(fā)現(xiàn)平臺中,例如CNKI圖片檢索提供學術(shù)圖像分類的元數(shù)據(jù)標注。語義標注方面,現(xiàn)有研究多數(shù)以領(lǐng)域敘詞表或者領(lǐng)域本體為語義組織框架對學術(shù)圖表進行語義標注。
從實現(xiàn)方式看,圖表實例標注可分為人工標注和自動標注兩大類型。學術(shù)圖像的實例標注多采用人工標注方式。例如CSA llustrata[21]、Human Brain Project(HBP)[37]、EMAP(The Edinburgh Mouse Atlas Project)[38]。自動實例標注在學術(shù)表格中實踐較多。例如SemAnn利用PDF文檔解析工具PDF.js和自定義抽取算法將PDF文檔中人工選中的表格轉(zhuǎn)換為CSV格式,然后利用CSV-To-RDF轉(zhuǎn)換工具結(jié)合嵌入本體(如DBpedia、FOAF或自定義)實現(xiàn)對抽取出來的表格數(shù)據(jù)進行自動的語義標注[89]。Cao H等通過構(gòu)建觀測事件模型,借助本體工具,利用規(guī)范化的觀測術(shù)語、實體對象,將觀測數(shù)據(jù)表格轉(zhuǎn)化為可理解的事件,進行自動語義標注[90]。Berkley C等對生態(tài)學領(lǐng)域用EML描述的一維表數(shù)據(jù)進行語義描述,采用的方法是首先采用OBOE本體描述數(shù)據(jù)的結(jié)構(gòu)(即區(qū)分觀測、度量、上下文和實體并識別它們之間的關(guān)系),然后識別每個度量的特性、標準、度量值和條件,最后進行領(lǐng)域本體擴展[91]。
5學術(shù)圖表標注的未來研究展望
學術(shù)圖表是一個復雜的數(shù)字對象,其兼具視覺及文本兩方面特征,同時與科技文獻、科學數(shù)據(jù)存在緊密關(guān)聯(lián)。未來圖表發(fā)現(xiàn)需要融入支持全類型資源發(fā)現(xiàn)、支持語義關(guān)聯(lián)、支持細粒度精準知識發(fā)現(xiàn)的學術(shù)知識服務(wù)體系,圖表標注作為圖表發(fā)現(xiàn)的基礎(chǔ),需要采用支持上述需求的圖表標注組織框架,并需要在面向海量圖表資源的自動圖表標注實現(xiàn)方面有所突破。
5.1構(gòu)建支持全類型資源發(fā)現(xiàn)、語義關(guān)聯(lián)、細粒度精準知識發(fā)現(xiàn)學術(shù)圖表本體
圖表標注組織框架方面,現(xiàn)有3種圖表組織模式各有所長,適用于不同階段、不同需求的圖表發(fā)現(xiàn)任務(wù)中。元數(shù)據(jù)組織表達多樣化、靈活、門檻低,但不同領(lǐng)域元數(shù)據(jù)模型造成的“信息孤島”阻礙了知識融合和交互。圖像分類組織方式解決學術(shù)圖表視覺特征語義表示的問題,但無法凸顯學術(shù)圖表的綜合知識內(nèi)容。本體組織以一種明確、形式化的方式表示信息資源,統(tǒng)一語義信息,但目前圖表的本體組織依托于其他學術(shù)知識本體或領(lǐng)域敘詞表知識組織,描述粒度粗,或僅表示領(lǐng)域知識,或未建立圖表與其他類型學術(shù)資源語義關(guān)聯(lián),難以滿足支持全類型資源發(fā)現(xiàn)、語義關(guān)聯(lián)、細粒度知識組織、精準知識發(fā)現(xiàn)需要。
從組織方式看,本體有支持跨學科形式化表達、支持細粒度語義關(guān)系擴展及支持語義推理等優(yōu)勢。本體結(jié)合知識圖譜等技術(shù)應(yīng)用,可形成結(jié)構(gòu)化、語義化、富關(guān)聯(lián)、可發(fā)現(xiàn)、可應(yīng)用的知識庫。故而本文以為基于本體對學術(shù)圖表實施語義組織更適應(yīng)未來發(fā)展趨勢。
一方面,可結(jié)合自上而下及自下而上的方式探索構(gòu)建內(nèi)容完整、關(guān)系清晰、知識可擴展、動態(tài)進化、機器可理解的學術(shù)圖表本體。通過解構(gòu)學術(shù)圖表的形式結(jié)構(gòu)(圖表本身、圖表內(nèi)容、圖表關(guān)聯(lián)信息),按照圖表語義邏輯重新構(gòu)造為圖表類型、圖表論證對象、圖表論證維度、圖表論證實驗內(nèi)容(如實驗背景、實驗?zāi)康?、實驗方法、實驗結(jié)果、實驗結(jié)論)、圖表論證關(guān)鍵特征(如對比、觀察、流程、分布等)、圖表外延內(nèi)容(如同文圖表、同證圖表、同項目圖表、同作者圖表、同被引圖表、同數(shù)據(jù)來源圖表、同主題圖表、引用文獻、引用數(shù)據(jù)等)等內(nèi)容,根據(jù)圖表語用邏輯,描繪學術(shù)圖表本體應(yīng)用于圖表發(fā)現(xiàn)場景,定義核心概念、關(guān)系、屬性,形成學術(shù)圖表本體,豐富本體實例,在領(lǐng)域?qū)W術(shù)圖表語義標注實踐中應(yīng)用本體,構(gòu)建可用于圖表發(fā)現(xiàn)的學術(shù)圖表領(lǐng)域知識庫,并基于本體的標注任務(wù)中對本體不斷進化;另一方面,可以采取自下而上的知識圖譜構(gòu)架模式,抽取圖表的實體、關(guān)系、屬性,對異構(gòu)數(shù)據(jù)進行實體消歧、實體共指消解、實體鏈接、關(guān)系融合等步驟,最后通過知識推理、邏輯公理總結(jié)形成學術(shù)圖表本體。
5.2深入研究面向海量圖表資源的自動圖表語義標注實現(xiàn)
海量學術(shù)圖表資源標注需要自動技術(shù)的支持。這包含圖表信息自動抽取和基于本體的自動標注。
圖表信息抽取是圖表標注的內(nèi)容基礎(chǔ),需要從工程化、自動化實現(xiàn)方面深化研究。PDF格式文檔中的圖表信息抽取要解決圖表的識別與提取的問題。將文檔轉(zhuǎn)換為圖片,基于圖像識別的位圖分割技術(shù)、區(qū)域分類或連接組件等技術(shù)方法可解決部分類型學術(shù)圖像和表格識別及提取問題,可以在新的神經(jīng)網(wǎng)絡(luò)算法支持下研究不同類型圖像識別的特征。
圖表自身信息抽取的4個子任務(wù)中,圖像中文本抽取、表格內(nèi)文本信息抽取兩個任務(wù)的技術(shù)相對更加成熟,自動抽取準確度較高。而另外兩個任務(wù)則還有較大的發(fā)展空間。
在圖像視覺信息抽取及標注任務(wù)方面,目前未有工具實現(xiàn)所有類型圖表的分類標注,并且部分類型圖像的分類準確度不足以用于大規(guī)模應(yīng)用。因而在圖表類型覆蓋以及分類精準度等方面還需深入研究。鑒于圖表類型在不同領(lǐng)域分類和分布不一,可結(jié)合圖表展示的視覺特征和圖表論證的內(nèi)容特征,形成特定領(lǐng)域的圖表分類,再從領(lǐng)域分類中歸納出部分通用圖表分類,并基于機器學習算法提取相關(guān)特征。此外,圖像分類中要關(guān)注復合圖識別和子圖分類問題??蓮幕趶秃蠄D文本特征、復合圖視覺特征、混合特征等角度來研究復合圖識別。復合圖的子圖識別是多標簽的分類任務(wù),可從復合圖分割并分類或多標簽學習方法的角度識別子圖類型。分類精準度方面,新的卷積神經(jīng)網(wǎng)絡(luò)算法相比傳統(tǒng)基于圖像低層特征的算法而言,可以獲得更高的分類精準度,其可擴展性和穩(wěn)定性都優(yōu)于傳統(tǒng)的分類算法??梢詫D像底層特征和圖表文本特征(如圖像的標題及圖注文本等)結(jié)合,基于神經(jīng)網(wǎng)絡(luò)學習算法提升圖表類型分類精準度。
學術(shù)圖像中數(shù)值信息抽取是一個具有挑戰(zhàn)性的任務(wù),已有研究多數(shù)針對折線圖、條形圖、散點圖、餅圖等圖像,其他圖像類型(如直方圖、氣泡圖、箱形圖、雷達圖、面積圖)的數(shù)據(jù)抽取精準度較低,需要基于這些圖形特征研究其數(shù)值信息的自動提取。此外,上述圖像數(shù)值抽取工具以半自動方式為主,需要人工輸入或者確定圖像的坐標軸信息(如起點、終點、截距等),應(yīng)進一步結(jié)合圖像視覺識別技術(shù),研究圖像內(nèi)數(shù)值信息的全自動抽取。
圖表內(nèi)容信息抽取技術(shù)相對成熟,在以下3個方面需要繼續(xù)研究。圖表標題和圖表本身匹配是重要的研究問題。自動抽取PDF格式論文內(nèi)圖表標題時需要基于不同的圖表—標題布局(如1-to-1、N-to-N、N-to-M)確定對應(yīng)關(guān)系。注釋內(nèi)容抽取,需要關(guān)注學術(shù)復合圖中子圖標題和子圖注釋抽取問題,可總結(jié)和構(gòu)建相關(guān)規(guī)則幫助抽取。重點關(guān)注圖表上下文提及內(nèi)容自動抽取的準確率及召回率,深入研究圖表所在篇章位置和抽取模式的關(guān)系。
當下,論文中的補充數(shù)據(jù)信息抽取和論文文本中的圖表引用信息抽取暫且空白,可借鑒現(xiàn)有論文元數(shù)據(jù)抽取及論文引文抽取的思路,通過構(gòu)建抽取規(guī)則、定義抽取模式或基于文本特征的機器學習方法來實現(xiàn)論文內(nèi)數(shù)據(jù)信息自動抽取和圖表引用信息自動抽取。
基于本體的自動標注是建立抽取內(nèi)容和學術(shù)圖表本體間關(guān)聯(lián)的過程。自動語義標注過程需要綜合圖表不同特征及本體中的概念、屬性、關(guān)系定義實施不同的語義實例標注方式。例如圖表標題、主題、圖表實驗信息等內(nèi)容的自動語義標注可基于文本特征或利用規(guī)則或借助機器學習分類算法來獲得,而圖表類型的語義標注要融合視覺特征及文本特征來實現(xiàn)。
6結(jié)語
基于本體的學術(shù)圖表自動語義標注是支撐未來大規(guī)模學術(shù)圖表精準語義發(fā)現(xiàn)的圖表標注形態(tài)。它通過學術(shù)圖表本體對科技文獻中圖表信息內(nèi)容實施多角度、深度語義組織,揭示學術(shù)圖表—論文—人—機構(gòu)—項目—基金—補充材料等科學實體間語義關(guān)聯(lián),借助自動信息抽取、自動語義標注等技術(shù)支持,最終形成支撐圖表內(nèi)容精準發(fā)現(xiàn),異構(gòu)科學實體的統(tǒng)一發(fā)現(xiàn)的語義標注內(nèi)容。現(xiàn)有研究和技術(shù)為基于本體的學術(shù)圖表自動語義標注創(chuàng)造部分條件,未來還需要在學術(shù)圖表本體構(gòu)建、學術(shù)圖表異構(gòu)信息抽取等方面深入開展研究。
參考文獻
[1]Siegel N,Lourie N,Power R,et al.Extracting Scientific Figures with Distantly Supervised Neural Networks[C]//ACM IEEE Joint Conference on Digital Libraries,2018:223-232.
[2]Lee P S,West J D,Howe B,et al.Viziometrics:Analyzing Visual Information in the Scientific Literature[J].IEEE Transactions on Big Data,2018,4(1):117-129.
[3]米楊.基于頂級本體整合的醫(yī)學領(lǐng)域語義標注研究[D].長春:吉林大學,2012.
[4]于曉繁.基于本體和元數(shù)據(jù)的語義標注平臺模型與系統(tǒng)架構(gòu)研究[D].淄博:山東理工大學,2012.
[5]Bishop A P.Document Structure and Digital Libraries:How Researchers Mobilize Information in Journal Articles[J].Information Processing and Management,1999,35(3):255-279.
[6]Futrelle R P.Handling Figures in Document Summarization[C]//Proceedings of the ACL-04 Workshop:Text Summarization Branches Out,2004:61-65.
[7]Stelmaszewska H,Blandford A.From Physical to Digital:A Case Study of Computer Scientists Behaviour in Physical Libraries[J].International Journal on Digital Libraries,2004,4(2):82-92.
[8]Sandusky R J,Tenopir C,Casado M M.Figure and Table Retrieval from Scholarly Journal Articles:User Needs for Teaching and Research[J].Proceedings of the American Society for Information Science and Technology,2007,44(1):1-13.
[9]Pyreddy P,Croft W B.TINTIN:A System for Retrieval in Text Tables[C]//ACM International Conference on Digital Libraries,1997:193-200.
[10]Futrelle R P.Summarization of Diagrams in Documents[J].Advances in Automated Text Summarization,1999:403-421.
[11]Murphy R F,Velliste M,Yao J,et al.Searching Online Journals for Fluorescence Microscope Images Depicting Protein Subcellular Location Patterns[C]//Bioinformatics and Bioengineering,2001:119-128.
[12]Wang Y,Hu J.A Machine Learning Based Approach for Table Detection on the Web[C]//The Web Conference,2002:242-250.
[13]Liu Y,Bai K,Mitra P,et al.TableSeer:Automatic Table Metadata Extraction and Searching in Digital Libraries[C]//ACM/IEEE Joint Conference on Digital Libraries,2007:91-100.
[14]Carol T,Robert J S,Margaret C.The Value of CSA Deep Indexing for Researchers(Executive Summary)[EB/OL].https://trace.tennessee.edu/cgi/viewcontent.cgi?article=1001&context=utk_infosciepubs,2020-08-31.
[15]Hearst M A,Divoli A,Guturu H,et al.BioText Search Engine:Beyond Abstract Search[J].Bioinformatics,2007;23(16):2196-2197.
[16]Ahmed A,Arnold A,Coelho L P,et al.Invited Paper:Structured Literature Image Finder:Parsing Text and Figures in Biomedical Literature[J].Journal of Web Semantics,2010,8(2):151-154.
[17]Charbonnier J,Sohmen L,Rothman J,et al.NOA:A Search Engine for Reusable Scientific Images Beyond the Life Sciences[C]//European Conference on Information Retrieval,2018:797-800.
[18]PMC[EB/OL].https://www.ncbi.nlm.nih.gov/pmc/,2020-08-31.
[19]CNKI學術(shù)知識圖片庫[EB/OL].http://image.cnki.net/Default.aspx,2020-08-31.
[20]Kim D,Ramesh B P,Yu H,et al.Automatic Figure Classification in Bioscience Literature[J].Journal of Biomedical Informatics,2011,44(5):848-858.
[21]Simpson M S,Demner-fushman D,Antani S K,et al.Multimodal Biomedical Image Indexing and Retrieval Using Descriptive Text and Global Feature Mapping[J].Information Retrieval,2014,17(3):229-264.
[22]Open-i[EB/OL].https://openi.nlm.nih.gov/,2020-08-31.
[23]Ramesh B P,Sethi R J,Yu H,et al.Figure-associated Text Summarization and Evaluation[J].Plos One,2015,10(2).
[24]Siegel N,Horvitz Z,Levin R,et al.FigureSeer:Parsing Result-Figures in Research Papers[C]//European Conference on Computer Vision,2016:664-680.
[25]王一達,沈熙玲,謝炯.遙感圖像分類方法綜述[J].遙感信息,2006,(5):67-71.
[26]李莉,木拉提·哈米提.醫(yī)學影像數(shù)據(jù)分類方法研究綜述[J].中國醫(yī)學物理學雜志,2011,28(6):3007-3011.
[27]Savva M,Kong N,Chhajta A,et al.ReVision:Automated Classification,Analysis and Redesign of Chart Images[C]//User Interface Software and Technology,2011:393-402.
[28]Prasad V S,Siddiquie B,Golbeck J,et al.Classifying Computer Generated Charts[C]//Content Based Multimedia Indexing,2007:85-92.
[29]Huang W,Zong S,Tan C L,et al.Chart Image Classification Using Multiple-Instance Learning[C]//Workshop on Applications of Computer Vision,2007:27-27.
[30]Tang B,Liu X,Lei J,et al.DeepChart:Combining Deep Convolutional Networks and Deep Belief Networks in Chart Classification[J].Signal Processing,2016:156-161.
[31]Kim D,Ramesh B P,Yu H,et al.Automatic Figure Classification in Bioscience Literature[J].Journal of Biomedical Informatics,2011,44(5):848-858.
[32]Constantin A,Peroni S,Pettifer S,et al.The Document Components Ontology(DoCO)[J].Semantic Web,2016,7(2):167-181.
[33]The Discourse Elements Ontology(DEO)[EB/OL].https://sparontologies.github.io/deo/current/deo.html,2020-05-02.
[34]王曉光,李夢琳,宋寧遠.科學論文功能單元本體設(shè)計與標引應(yīng)用實驗[J].中國圖書館學報,2018,(4):73-88.
[35]Madin J,Bowers S,Schildhauer M,et al.An Ontology for Describing and Synthesizing Ecological Observation Data[J].Ecological Informatics,2007,(2):279-296.
[36]Bischof S,Martin C,Polleres A,et al.Collecting,Integrating,Enriching and Republishing Open City Data as Linked Data[C]//International Conference on the Semantic Web-ISWC 2015.Berlin:Springer,2015:58-75.
[37]Gertz M,Sattler K U,Gorin F,et al.Annotating Scientific Images:A Concept-based Approach[C]//Scientific and Statistical Database Management,IEEE,2002:59-68.
[38]EMAGE.Data Annotation Methods[EB/OL].http://www.emouseatlas.org/emage/about/data_annotation_methods.html#auto_eurexpress,2015-11-02.
[39]丁培.科學論文內(nèi)的科學數(shù)據(jù)組織和發(fā)現(xiàn)研究[J].現(xiàn)代情報,2020,40(2):34-43.
[40]Rospocher M,Erp M V,Vossen P,et al.Building Event-Centric Knowledge Graphs from News[J].Web Semantic:Science,Service and Agent on the World Wide Web,2016:132-151.
[41]阮彤,王夢婕,王昊奮,等.垂直知識圖譜的構(gòu)建與應(yīng)用研究[J].知識管理論壇,2016,(3):226-234.
[42]Kroetsch M,Weikum G.Journal of Web Semantics:Special Issue on Knowledge Graphs[EB/OL].http://www.websemanticsjournal.org/2019/05/cfp-jws-special-issue-on-language.html,2020-11-16.
[43]Paulheim H,Cimiano P.Knowledge Graph Refinement:A Survey of Approaches and Evaluation Methods[J].Semantic Web,2017,8(3):489-508.
[44]Su Y,Zhang C,Li J,et al.Cross-Lingual Entity Query from Large-Scale Knowledge Graphs[C]//APWeb 2015 Workshops,2015:139-150.
[45]白林林.基于知識圖譜的領(lǐng)域知識結(jié)構(gòu)構(gòu)建方法研究[D].北京:中國科學院大學,2019.
[46]Microsoft Academic Knowledge Graph[EB/OL].http://ma-graph.org/,2020-11-10.
[47]SN SciGraph[EB/OL].https://www.springernature.com/gp/researchers/scigraph,2020-11-10.
[48]SCHOLAT學者網(wǎng)[EB/OL].http://www.scholat.com/,2020-11-10.
[49]東北大學-知識圖譜研究組[EB/OL].http://www.techkg.cn/,2020-11-10.
[50]Shamna P,Govindan V K,Nazeer K A,et al.Content Based Medical Image Retrieval Using Topic and Location Model[J].Journal of Biomedical Informatics,2019.
[51]Kurtz C,Depeursinge A,Napel S,et al.On Combining Image-based and Ontological Semantic Dissimilarities for Medical Image Retrieval Applications[J].Medical Image Analysis,2014,18(7):1082-1100.
[52]Frome A,Corrado G S,Shlens J,et al.DeViSE:A Deep Visual-Semantic Embedding Model[C]//Neural Information Processing Systems,2013:2121-2129.
[53]Weston J,Bengio S,Usunier N,et al.Large Scale Image Annotation:Learning to Rank with Joint Word-image Embeddings[C]//European Conference on Machine Learning,2010,81(1):21-35.
[54]Pereira J C,Vasconcelos N.Cross-modal Domain Adaptation for Text-based Regularization of Image Semantics in Image Retrieval Systems[J].Computer Vision and Image Understanding,2014:123-135.
[55]蔣夢迪,程江華,陳明輝,等.視頻和圖像文本提取方法綜述[J].計算機科學,2017,(2):8-18.
[56]Bschen F,Scherp A.A Comparison of Approaches for Automated Text Extraction from Scholarly Figures[C]//Conference on Multimedia Modeling,2017:15-27.
[57]Ye Q,Doermann D.Text Detection and Recognition in Imagery:A Survey[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(7):1480-1500.
[58]De S,Stanley R J,Cheng B,et al.Automated Text Detection and Recognition in Annotated Biomedical Publication Images[J].International Journal of Healthcare Information Systems and Informatics,2014,9(2):34-63.
[59]Jung D,Kim W,Song H,et al.ChartSense:Interactive Data Extraction from Chart Images[C]//Human Factors in Computing Systems,2017:6706-6717.
[60]Ankit Rohatgi.WebPlotDigitizer[EB/OL].https://automeris.io/WebPlotDigitizer,2020-09-02.
[61]Méndez G G,Nacenta M A,Vandenheste S,et al.iVoLVER:Interactive Visual Language for Visualization Extraction and Reconstruction[C]//Human Factors in Computing Systems,2016:4073-4085.
[62]DataThief III[EB/OL].https://www.datathief.org/,2020-09-02.
[63]Gross A,Schirm S,Scholz M,et al.Ycasd-A Tool for Capturing and Scaling Data from Graphical Representations[J].BMC Bioinformatics,2014,15(1):219-219.
[64]Nagy G.Learning the Characteristics of Critical Cells from Web Tables[C]//International Conference on Pattern Recognition,2012:1554-1557.
[65]Seth S C,Nagy G.Segmenting Tables via Indexing of Value Cells by Table Headers[C]//International Conference on Document Analysis and Recognition,2013:887-891.
[66]Nagy G,Tamhankar M.VeriClick:An Efficient Tool for Table Format Verification[C]//Document Recognition and Retrieval,2012.
[67]Guglielmo E J,Rowe N C.Natural-language Retrieval of Images Based on Descriptive Captions[J].ACM Transactions on Information Systems,1996,14(3):237-267.
[68]Rowe N C.Precise and Efficient Retrieval of Captioned Images:The MARIE Project[J].Library Trends,1999,48(2):475-495.
[69]Demner-fushman D,Antani S,Simpson M S,et al.Annotation and Retrieval of Clinically Relevant Images[J].International Journal of Medical Informatics,2009,78(12):59-67.
[70]Agarwal S,Yu H.FigSum:Automatically Generating Structured Text Summaries for Figures in Biomedical Literature[C]//American Medical Informatics Association Annual Symposium,2009:6-10.
[71]Balaji P R,Sethi R J,Hong Y,et al.Figure-associated Text Summarization and Evaluation[J].Plos One,2015,10(2).
[72]薛歡歡.基于條件隨機場的中文期刊論文信息識別與抽取[D].北京:中國農(nóng)業(yè)科學院,2019.
[73]李朝光,張銘,鄧志鴻,等.論文元數(shù)據(jù)信息的自動抽取[J].計算機工程與應(yīng)用,2002,38(21):189-191.
[74]Constantin A,Pettifer S,Voronkov A,et al.PDFX:Fully-automated PDF-to-XML Conversion of Scientific Literature[C]//Document Engineering,2013:177-180.
[75]陳俊林,張文德.基于XSLT的PDF論文元數(shù)據(jù)的優(yōu)化抽取[J].現(xiàn)代圖書情報技術(shù),2007,(2):18-23.
[76]Day M Y,Tsai R T H,Sung C L,et al.Reference Metadata Extraction Using a Hierarchical Knowledge Representation Framework[J].Decision Support Systems,2007,43(1):152-167.
[77]黃澤武.基于語義的科技文獻共享平臺的信息抽取系統(tǒng)[D].武漢:華中科技大學,2007.
[78]Kovacevic A,Ivanovic D,Milosavljevic B,et al.Automatic Extraction of Metadata from Scientific Publications for CRIS Systems[J].Program:Electronic Library and Information Systems,2011,45(4):376-396.
[79]Lopez P.GROBID:Combining Automatic Bibliographic Data Recognition and Term Extraction for Scholarship Publications[C]//European Conference on Research and Advanced Technology for Digital Libraries,2009:473-474.
[80]Cui B,Chen X.An Improved Hidden Markov Model for Literature Metadata Extraction[C]//International Conference on Intelligent Computing,2010:205-212.
[81]Liu R,Gao L,An D,et al.Automatic Document Metadata Extraction Based on Deep Networks[C]//Natural Language Processing and Chinese Computing,2018:305-317.
[82]Kafkas S,Kim J H,Pi X,et al.Database Citation in Supplementary Data Linked to Europe PubMed Central Full Text Biomedical Articles[J].Journal of Biomedical Semantics,2015,6(1).
[83]Li J,Zheng S,Kang H,et al.Identifying Scientific Project-generated Data Citation from Full-text Articles An Investigation of TCGA Data Citation[J].Journal of Data and Information Science,2016,(2):32-44.
[84]Zhao M N,Yan E,Li K.Data Set Mentions and Citations:A Content Analysis of Full-text Publication[J].Journal of the Association for Information Science & Technology,2017,69(1):32-46.
[85]Cortez E,Silva A S D,Mesquita F,et al.FLUX-CiM:Flexible Unsupervised Extraction of Citation Metadata[C]//Proceedings of the 7th ACM/IEEE-CS Joint Conference on Digital Libraries,ACM,2007:215-224.
[86]Peng F C,McCallum A.Accurate Information Extraction from Research Papers Using Conditional Random Fields[C]//Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics,Association for Computational Linguistics,2004:329-336.
[87]高良才,湯幟,陶欣,等.一種自動發(fā)現(xiàn)、分割與標注引文元數(shù)據(jù)的方法[J].北京大學學報:自然科學版,2010,46(6):893-900.
[88]He Q,Kifer D,Pei J,et al.Citation Recommendation Without Author Supervision[C]//Proceedings of the Fourth ACM International Conference on Web Search and Data Mining,ACM,2011:755-764.
[89]Takis J,Islam A Q M,Lange C,et al.Crowdsourced Semantic Annotation of Scientific Publications and Tabular Data in PDF[C]//Proceedings of the 11th International Conference on Semantic Systems.ACM,2015:1-8.
[90]Cao H,Bowers S,Schildhauer M P.Approaches for Semantically Annotating and Discovering Scientific Observational Data[C]//Database and Expert Systems Applications.Springer Berlin Heidelberg,2011:526-541.
[91]Berkley C,Bowers S,Jones M B,et al.Improving Data Discovery for Metadata Repositories Through Semantic Search[C]//International Conference on Complex,Intelligent and Software Intensive Systems.Fukuoka:IEEE,2009:1152-1159.
(責任編輯:孫國雷)