大規(guī)?？萍嘉墨I深度解析和檢索平臺構建

2020-07-20 06:41吳素研吳江瑞李文波

現代情報 2020年1期

吳素研吳江瑞李文波

摘要：[目的/意義]在信息檢索、科技論文評價和知識結構演化方面，引文分析都起著至關重要的作用。隨著格式化全文數據庫的出現，引文分析邁入了4.0時代——全文引文分析階段。但是，目前還沒有中文的格式化全文數據庫，這極大地制約了全文引文分析在我國科技文獻中的研究和應用。[方法/過程]在本文中我們提出建立高效的中文全文引文分析依賴的數據集和檢索平臺的方法，主要包括：1）提出了基于規(guī)則和SVM分類方法的論文元數據和引用提取方法;2）提出基于Spark平臺的實現高效引文內容分析標準化數據集生成方法;3）提出建立引用內容的科技文獻檢索平臺。[結果/結論]引文內容分析標準化數據集的建立將全面提升全文引文分析在我國科技領域中的研究效能，提高科技文獻查找精度。

關鍵詞：全文引文分析;信息抽取;信息檢索;Spark

DOI：10.3969/j.issn.1008-0821.2020.01.012

〔中圖分類號〕TP393 〔文獻標識碼〕A 〔文章編號〕1008-0821（2020）01-0110-06

Construction of Deep Resolution and Retrieval Platform for

Large Scale Scientific and Technical Literature

Wu Suyan1 Wu Jiangrui2 Li Wenbo3

（1.Beijing Institute of Science and Technology Information，Beijing 100044，China;

2.Henan Institute Technology，Xinxiang 453003，China;

3.Institute of Software Chinese Academy of Science，Beijing 100081，China）

Abstract：[Purpose/Significance]Citation analysis plays a vital role in the three aspects of information retrieval，scientific paper evaluation，revealing the knowledge structure evolution.With the appearance of full-text literature repositories，Citation analysis entered the 4 Era——full-text citation analysis age.However，there is no Chinese full-text literature database，which have greatly restricted the research and application of full text citation analysis in Chinese Literature.[Method/Process]In this paper，we proposed a method to establish efficient data set and retrieval platform for Chinese full text citation analysis，including：（1）the paper metadata and reference extraction methods based on rules and SVM classification methods were proposed;（2）a standard data set generator based on spark platform was proposed;（3）a scientific literature retrieval platform with reference content was put forward.[Result/Conclusion]The establishment of the standardized data set of the citation content analysis will improve the research efficiency of the full text citation analysis in the field of science and technology in our country and improve the search precision of the scientific and technological literature.

Key words：full text citation analysis;information extraction;retrieval;Spark

科技文獻是科學研究的結晶，是科技創(chuàng)新的成果，而創(chuàng)新的過程本身又是一個信息資源的沉淀過程，因此，科技情報服務工作很重要的一個研究領域——文獻計量學就是對海量的文獻進行分析，從中獲取到有價值的信息，如了解學科研究現狀及前沿領域的分布，把握學科的整體發(fā)展態(tài)勢，分析預測學科未來趨勢等。

自從16世紀后期論文引用制度形成以來，參考文獻成為學術論文的第二特征，也是合理有效地進行科學交流的必要部分，通過對學術文獻之間引用與被引用關系的研究，可以獲知學科之間的關系與發(fā)展以及學術傳播的歷程，進而可以感知研究近況和發(fā)展趨勢[1]。20世紀中期，美國霍普金斯大學Garfield E開創(chuàng)了科學引文索引（SCI），提出了通過引文索引來對科技文獻進行檢索的方法，從而開啟了從引文角度來研究文獻及科學發(fā)展動態(tài)的新領域，掀開了引文分析的新篇章[2]。網絡版數據庫WoS（Web of Science）[3]的問世進一步促進了引文分析的普及。在引文分析研究領域，文獻索引格式的發(fā)展程度決定了引文分析的發(fā)展程度。在過去50多年里，由于缺少可以提供全文信息的數據，引文分析主要集中在引用頻次分析研究中，引文內容分析也有所涉及，主要集中在對施引文獻的標題、關鍵詞和摘要的分析上。近年，隨著可擴展標簽語言技術的發(fā)展，出現了科學文獻全文電子數據庫，如世界著名科學期刊發(fā)行商Springer、Eldevier和Wiley等都提供或部分提供XML格式全文閱讀和下載。為引用內容深入分析研究提供了數據基礎，通過全文數據庫可以獲取引文在現實科學文本中引用的空間分布和語境信息，可以讓我們從空間維度和語義維度上展現科技文本中的知識流動，分析作者的引用動機和施引文獻與被引文獻之間的主題關聯性等，全文本蘊藏的豐富引文空間信息引領引文分析進入新階段，開創(chuàng)了引文分析4.0的時代，吸引大量學者對全文引文分析的探索[4]。

科技文獻檢索是引用內容分析主要的3個應用方面其中之一，傳統的共被引分析和文獻稱合分析都可以用于信息檢索，但文獻的相似度都是通過共被引文獻或親合文獻的共被引頻次或稱合頻次來測度的，在統計共被引頻次時，只是通過文獻著錄中的信息統計，并未深入到共被引文獻在施引文獻中的實際引用句子中進行研究，但是施引文獻的引用句子包含了引用性質、引用主題等更深層次、更細粒度的信息。因此將傳統引文索引理論與引文內容信息相結合作為指導，以信息檢索領域最新研究技術為基礎，對提高科技文獻査詢效率具有重要意義[5]。

進行引文內容層面上的分析需要依賴文獻全文數據庫，目前國際上已有可供學者分析的格式化全文數據庫，但是國內中文文獻數據庫一般都提供科技文獻全文下載技術，但一般都是PDF或者CAJ等格式，這些格式只是描述文檔的打印，并沒有描述文檔語義內容的數據結構，還不支持對引用內容信息的獲取。極大地抑制了全文引文分析在我國科技文獻中的研究和應用。本論文研究科技文獻深度解析方法，建立自動構建中文全文標注數據集平臺，并在此基礎上建立基于引用內容的科技文獻檢索平臺。

本文的主要貢獻如下：

1）提出了基于Spark平臺上，利用規(guī)則和SVM分類相結合的信息抽取方法，實現實時全文引用分析數據集的建立。

2）提出了基于引用內容的科技文獻檢索方法，實現引用信息在文獻檢索中的應用，提高檢索效率，優(yōu)化檢索結果。

1 相關工作

目前科技文獻數據抽取主要有兩條技術路線：基于規(guī)則的抽取和基于機器學習的抽取[6]?；谝?guī)則的方法根據文本結構特征，建立規(guī)則的語法、語義和規(guī)則庫，通過規(guī)則對信息進行抽取[7]，但科技文獻中很多信息沒有嚴格的格式，因此基于規(guī)則的抽取模型結果雖然比較精確，但通常很復雜，適應性較差，適合簡單元信息的抽取，不適合復雜信息的抽取?；跈C器學習的抽取模型主要包括：隱馬爾可夫模型（Hidden Markov Model，HMM）、條件隨機域模型（Conditional Random Fields，CRFs）和支持向量機模型（Support Vector Machine，SVM）等，基于HMM模型[8]的信息抽取通過文本的詞序列或語義塊序列來確定狀態(tài)序列實現了對論文頭部信息的抽取，因此必須作出嚴格的獨立性假設，無法考慮語境信息。CRFs[9]是一種復雜的全局HMM模型，避免了HMM模型中的強相關性假設，展現了優(yōu)于HMM的抽取效果，但缺點是訓練時間長?；赟VM模型抽取信息是將上下行的信息通過一種迭代算法加入文本行的特征向量中，在提高了準確率的同時也增加了計算量，總的準確率達到92.9%[10-12]?？傮w來說，科技文獻的信息抽取技術相對成熟，但是沒有針對大規(guī)模數據集設計高性能的、分布式計算分析系統。

本項目針對處理大批量國內PDF格式的科技論文，利用OCR（Optical Character Recog-nition，光學字符識別）文本識別、信息抽取、大規(guī)模數據處理等技術實現高效、自動抽取論文中引用句子，將科技文獻PDF論文構建成標準全文引文分析的數據集。

2 基于規(guī)則和SVM結合的內容抽取方法

中文出版網上出版平臺如CNKI、萬方、維普等，都提供科技文獻PDF格式全文下載。因早期PDF文科技文獻生成方式的不同以及參考文獻一般都是上角標的形式標注等因素，一般類庫提供的PDF解析文件不能正確提取正文中引用句子。與此同時，對印刷體的識別的OCR技術已經成熟和完善，對版面識別正確率達到90%以上。因此本項目技術流程如圖1所示。

2.1 語義標注的內容

首先是文獻基本元數據，如作者、機構、題目、摘要、關鍵詞、參考文獻列表等標注。其次根據目前全文引文分析研究關注的點，主要是引用位置、引用強度、引用語境3個方面。為了進行引用位置的分析，將文檔分為引言、文獻綜述、方法、結果、結論等5部分。需要標注引用出現文檔的位置。為進行引用強度的分析，需要標注引用出現的次數。為進行引用語境的分析需要標注引用在文中的句子，以及用+1和-1等設定引用出現的前后句子，叫做引用句子窗口。最后，需要對參考文獻列表進行標注，標注出參考文獻的作者、題目、出版物、出版年等信息。

2.2 基于規(guī)則和SVM分類相結合的信息抽取方法

對于作者、機構、參考文獻引用位置確定等具有明顯特征詞和特定構成規(guī)則的元數據抽取，采用基于規(guī)則的方法。例如對于作者元數據，首先構建姓氏特征詞字典，其次構建字符長度為2～4字符長度，且全為中文的字符的規(guī)則，采取正則表達式進行匹配。

對于參考文獻引用位置，采取字符“[”和“]”或者“（”和“）”為特征詞，二者符號之間必須包含阿拉伯數字，可以出現標點符號“，”或者“-”等規(guī)則進行匹配。

對于其他復雜信息的抽取，如題目、摘要、關鍵詞、文檔結構（即上面說的文檔5個部分分析），采取SVM分類方法，針對每種信息抽取任務建立單個SVM分類器。思路如下：首先針對不同的信息抽取分析信息的性質，提取特征集，然后通過標注數據訓練SVM模型，最后利用訓練模型對實際文獻進行信息抽取。對具有明顯特征詞和規(guī)則的信息抽取，可以將是否滿足規(guī)則作為SVM分類器的特征之一。例如，對文檔結構的提取，一般文章章節(jié)之間的標題都含有1、2、3、3.1等字符，但是單從含有這些字符不能確定是否章節(jié)標題，可以這些字符出現次數作為特征之一，在結合包含字符串段落長度、字符串的位置等特征，通過SVM進行判斷。

2.3 基于Spark平臺的實時引文內容分析的標準化數據集生成系統? 對科技文獻的分析和抽取計算量大，如果完成對大批文檔的實時分析和抽取，必須采用大數據處理技術，采用基于Spark計算引擎的大數據處理平臺，Spark是基于內存的分布式計算框架，其核心是彈性分布式數據集（Resilient Distributed Datasets，RDD），它是對集群上并行處理數據的分布式內存的抽象，Spark通過將中間結果緩存在內存減少磁盤I/O通信來提升性能。本項目將PDF文件解析算法、OCR文字識別算法和基于規(guī)則和SVM分類的信息抽取算法置于Spark平臺上，實現科技文獻快速轉化和抽取以及生成XML語義文檔，具體系統架構如圖2和圖3所示。

工作流程如下：1）每個工作節(jié)點初始化規(guī)則所依賴的字典表和軟聚類的簇中心，形成初始化彈性分布式數據集RDD，主節(jié)點等待新進入的科技文獻;2）如果有新進入的科技文獻，主節(jié)點對新進入科技文獻進行Map操作，進行PDF分析，生成JPG圖片格式，形成待OCR識別的RDD;3）對待識別的RDD執(zhí)行Map操作，通過OCR識別生待信息抽取的RDD;4）對待信息抽取RDD進行元數據、參考文獻、引用信息抽取。形成待進行標注的文本;5）最后，通過Reduce操作將待標注文本進行合并，進行語義標注。

3 基于引用內容的科技文獻檢索平臺

基于引用內容的科技文獻檢索平臺主要包含3個模塊，分別是數據處理模塊、檢索模塊和檢索結果可視化模塊。其中數據處理模塊是在本項目研究一的結果上進行處理，因此不包括傳統檢索系統的信息抽取的內容，只是對相關項建立索引，出了傳統文獻檢索的元數據題目、摘要、關鍵詞等，本項目將引用信息也作為檢索域進行索引。檢索系統模塊是核心，通過與用戶交互，獲取用戶查詢條件，通過分詞，將檢索項在各個檢索域的索引詞上進行相似度計算，得出各個域上的相似條目后，最后根據各個域的權重綜合計算對結果進行排序。結果可視化模塊是將結果以列表頁顯示出來，對關鍵字段如題目和作者顯示，同時對檢索項出現的檢索域部分以高亮顯示。在結果詳細頁，除了傳統檢索系統的文獻原文外，還以列表項顯示出該文獻出現在其他施引文獻中的引用信息。檢索平臺系統設計圖如圖4所示。

本論文采用Elasticsearch技術實現可擴展、高性能的科技文獻檢索平臺搜索引擎的搭建。分布式搜索引擎Elasticsearch是基于Lucene的開源分布式搜索引擎。Elasticsearch具有高可用、易擴展以及近實時的特點，可以實現穩(wěn)定、實時、可靠的檢索服務。同時采用RESTful風格的設計，能夠提供易用的查詢與共享接口。

基于引用內容的科技文獻檢索實驗平臺的Elasticsearch分布式集群模塊由5個節(jié)點構成，1個作為主控節(jié)點，4個作為數據節(jié)點，節(jié)點中分別部署Elasticsearch Server，設置服務集群為相同網段，利用Elasticsearch的廣播監(jiān)聽機制連接各個節(jié)點，組成分布式索引集群。論文數據中對題目、摘要、關鍵詞、引用信息、內容進行分詞后建立索引，對作者直接建立索引。

4 系統運行界面

4.1 引文內容分析的標準化數據集生成系統

該系統可以通過選擇一個PDF抽取論文的元數據和引用信息，也可以選擇一個文件夾，系統將進行遞歸調用，將選擇該文件夾下和其所有子文件夾下的所有PDF文件進行抽取，結果保存在數據庫中。下面將以一篇論文為例，查看其解析后的結果如圖5所示。

4.2 基于引用內容的科技文獻檢索系統

Elasticsearch是基于Lucene的開源分布式搜索引擎，首先將要查詢的目標文檔中的詞通過分詞提取出關鍵詞，計算關鍵詞TF/IDF后建立索引，再對索引進行搜索。當輸入一個查詢文本，搜索機制先把文本中的內容通過分詞切分成若干個關鍵詞，然后根據關鍵詞查詢索引，最終找到包含關鍵詞的文章，搜索結果按照喝查詢結果的相關性進行排序。基于引用內容的科技文獻檢索系統界面如圖7所示，通過輸入查詢條件，可以選擇在題目、摘要、關鍵詞和引用句子中查找，查找到的結果按照相關性排序，最相關的在前面;和查詢相匹配的查詢條件在結果總用紅色標識出來。

5 總結

本文根據中文科技論文多樣性的特點，提出了利用OCR技術提取內容的方法，同時采用基于規(guī)則和SVM的內容方法，對科技論文元數據和引用信息進行了抽取，并考慮到數據集的規(guī)模和計算量提出了基于Spark的高效處理技術，并結合Elasticsearch平臺建立了接近實時、高擴展的科技文獻引用檢索平臺，這對于建立中文引用內容分析平臺具有實際意義。

參考文獻

[1]梁永霞，劉則淵，楊中楷.引文分析學的知識流動理論探析[J].科學學學習，2010，28（5）：668-674.

[2]Garfield E.Citation Indexes for Science：A New Dimension in Documentation Through the Association of Ideas[J].Science，1955，（122）：108-111.

[3]Reuters T.Web of Science[EB/OL].http：//www.isiknowledge.com，2017.

[4]胡志剛.全文引文分析理論、方法與應用[M].北京：科學出版社，2016.

[5]王賢文.科學計量大數據[M].北京：科學出版社，2016.

[6]張銘，銀平，鄧志鴻，等.SVM+BiHMM：基于統計方法的元數據抽取混合模型[J].軟件學報，2008，19（2）：358-368.

[7]Kim J，Le D X，Thoma G R.Automated Labeling Algorithms for Biomedical Document Images[C]//7th World Multiconference on Systemic，Cybernetics and Informatic，Orlando：ISAS Press，2003：352-357.

[8]Lafferty J D，Mccallum A，Pereira F C N.Conditional Random Fields：Probabilistic Models for Segmenting and Labeling Sequence Data[J].2002，3（2）：282-289.

[9]于江德，樊孝忠，尹繼豪，等.基于隱馬爾可夫模型的中文科研論文信息抽取[J].計算機工程，2007，33（19）：190-192.

[10]Han H，Giles C，Manavoglu E，et al.Automatic Document Metadata Extraction Using Support Vector Machines[C]//3th Joint Conference on Digital Libraries，Pittsburgh：ACM Press，2003：37-48.

[11]劉宇，錢躍.基于字典匹配和支持向量機的中文科技論文元數據抽取[J].工程數學學報，2012，29（4）：586-592.

[12]張夢瑩，盧超，鄭茹佳，等.用于引文內容分析的標準化數據集構建[J].圖書館論壇，2016，36（8）：48-53.

（責任編輯：陳媛）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大規(guī)?？萍嘉墨I深度解析和檢索平臺構建