国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于引文上下文的相關研究輔助生成系統(tǒng)設計與實現(xiàn)*

2017-10-11 04:00:00王鑫程齊凱李信陸偉
數(shù)字圖書館論壇 2017年8期
關鍵詞:章節(jié)檢索聚類

王鑫,程齊凱,李信,陸偉

(1.武漢大學信息管理學院,武漢 430072;2.武漢大學信息檢索與知識挖掘研究所,武漢 430072)

基于引文上下文的相關研究輔助生成系統(tǒng)設計與實現(xiàn)*

王鑫1,2,程齊凱1,2,李信1,2,陸偉1,2

(1.武漢大學信息管理學院,武漢 430072;2.武漢大學信息檢索與知識挖掘研究所,武漢 430072)

本文對學術文本引文上下文的定義及其識別研究進展進行梳理,考慮科研人員在相關研究撰寫過程中或期刊編輯在審稿過程中的特定信息需求,探討基于引文上下文輔助生成相關研究章節(jié)的可行性。在此基礎上,對基于引文上下文的相關研究輔助生成系統(tǒng)的系統(tǒng)思路、功能模塊進行設計,并以ScienceDirect數(shù)據(jù)庫在1957—2014年收錄的289 926篇計算機領域的科研文獻全文網(wǎng)頁數(shù)據(jù)作為數(shù)據(jù)源,實現(xiàn)相關研究輔助生成系統(tǒng)RWGS。結果表明,RWGS可較好滿足科研人員在撰寫相關研究章節(jié)或期刊編輯在審稿時更細粒度的信息需求,對傳統(tǒng)學術數(shù)據(jù)庫的檢索結果有一定優(yōu)化效果,同時將文獻檢索、文獻閱讀和相關研究寫作三個過程有機地整合,有效改善系統(tǒng)用戶體驗,提升學術創(chuàng)作效率。

相關研究;輔助生成系統(tǒng);引文上下文;計算機領域

1 引言

科研工作者在進行學術創(chuàng)作時,需要廣泛收集和閱讀與研究主題相關的研究成果,以對主題的研究現(xiàn)狀、研究熱點、發(fā)展趨勢和存在問題進行全面準確地把握;并在此基礎上形成相關研究章節(jié),以支撐其研究,避免重復性和錯誤性的工作。然而,隨著學術文獻的爆炸式增長與多學科合作研究的廣泛開展,傳統(tǒng)的依靠人力來綜述文獻的方式越來越困難[1];同時,這也給學術期刊審稿的速度、效率和準確度帶來挑戰(zhàn)。因此,在科學創(chuàng)作和審稿過程中,針對特定研究主題,如何快速全面地獲取相關研究;如何快速對已有研究成果形成客觀全面的描述和評價;如何利用計算機自動進行文獻回顧,并完成相關研究章節(jié)的輔助生成等問題的解決,對提升科研人員的學術創(chuàng)作效率、輔助期刊編輯審稿和有效進行學術傳播具有重要的現(xiàn)實意義。通過文獻調研發(fā)現(xiàn),計算機科學、情報學和可視化等領域的學者已經(jīng)進行探索,并開發(fā)了一系列具有實用價值的學術創(chuàng)作輔助系統(tǒng)(如文獻分析系統(tǒng)CiteSpace[2]、CiteRiver[3],輔助寫作系統(tǒng)FLOW[4]、WriteAhead[5])。通過比較發(fā)現(xiàn),現(xiàn)有學術創(chuàng)作輔助系統(tǒng)大多將檢索文獻、閱讀文獻和論文寫作三個相輔相成、互為交替的過程進行人為分割,導致用戶體驗差,實際輔助效果不佳。傳統(tǒng)的文獻檢索系統(tǒng)僅對文獻的題錄信息建立索引,導致返回的結果無法滿足用戶在撰寫相關研究章節(jié)時的特定信息需求。此外,現(xiàn)有的文獻分析系統(tǒng)也基本上不涉及文獻的引文上下文;而當學者在撰寫論文的相關章節(jié)或期刊編輯在審稿時,很大程度上希望直接得到系統(tǒng)返回的結果是文獻中的相關研究章節(jié),甚至直接是相關研究章節(jié)對特定研究成果的描述和評價語句(即引文上下文)。

基于此,本文從學術文獻引文上下文的角度出發(fā),構建基于引文上下文的相關研究輔助生成系統(tǒng),將檢索文獻、閱讀文獻和相關研究章節(jié)寫作有機結合,在一定程度上彌補已有研究的不足。

2 相關研究綜述

2.1 學術創(chuàng)作輔助系統(tǒng)

隨著計算機信息技術的快速發(fā)展和學術大數(shù)據(jù)時代的來臨,為提升學術創(chuàng)作效率,計算機科學、信息科學和科學學領域的學者針對學術創(chuàng)作過程的不同環(huán)節(jié),設計和開發(fā)了相應學術創(chuàng)作輔助系統(tǒng),根據(jù)系統(tǒng)主要功能將其分為學術檢索系統(tǒng)、文獻分析系統(tǒng)和輔助寫作系統(tǒng)。

學術檢索系統(tǒng)主要基于數(shù)據(jù)庫和關聯(lián)數(shù)據(jù)技術,對科研文獻的元數(shù)據(jù)建立索引,為用戶提供文獻檢索和導航服務,并提供簡單的基于元數(shù)據(jù)的文獻統(tǒng)計分析功能,如Web of Science、ScienceDirect、PubMed、中國知網(wǎng)、萬方數(shù)據(jù)庫、維普網(wǎng)等。文獻分析系統(tǒng)的主要功能是幫助用戶更好地閱讀和理解科研文獻,這類系統(tǒng)通?;谖墨I計量理論和知識圖譜技術來實現(xiàn)對科研文獻的自動化語義分析和可視化,以使用戶快速全面地把握研究主題的熱點問題、整體態(tài)勢和研究趨勢,幫助用戶閱讀和理解科研文獻。具有代表性的文獻分析系統(tǒng)主要有CiteSpace[2]、VOSViewer[6]、NEViewer[7]和CiteRivers[3],CiteSpace和VOSViewer通過引文分析和可視化來向用戶直觀快速地展示研究領域的新興熱點、發(fā)展趨勢,而NEViewer和CiteRiver分別利用?;鶊D和河流圖等可視化技術,將文獻在時間序列上的統(tǒng)計信息返回給用戶。

輔助寫作系統(tǒng)旨在幫助用戶提高寫作效率。目前已有的輔助寫作系統(tǒng)主要分為雙語寫作系統(tǒng)、摘要生成系統(tǒng)和主題推薦系統(tǒng),這三類系統(tǒng)分別從語言學、自動摘要生成和引文推薦的角度來輔助用戶學術寫作。Chen等為非英語母語學者開發(fā)的輔助寫作系統(tǒng)FLOW[4]、楊秉哲開發(fā)的摘要輔助寫作系統(tǒng)WriteAhead[5]、孔行通過LDA主題模型開發(fā)的例句推薦輔助寫作系統(tǒng)[8]都是典型的輔助寫作系統(tǒng)。

國內外學者在提高用戶檢索、閱讀理解和學術論文寫作的效率上,已經(jīng)進行大量的嘗試,設計和開發(fā)了一系列學術創(chuàng)作輔助系統(tǒng),但仍存在不足。一方面,學術檢索系統(tǒng)僅依賴檢索詞進行字符匹配返回的檢索結果存在大量冗余、無關的文獻,無法滿足科研工作者在學術寫作時的特定信息需求;另一方面,現(xiàn)有的學術輔助創(chuàng)作系統(tǒng)大多是人為地將這個有機整體進行分割。此外,相關輔助寫作系統(tǒng)的研究還基本處于空白。

基于以上分析結果,本文聚焦相關研究輔助生成系統(tǒng)的設計和實現(xiàn),從引文上下文識別的視角出發(fā),充分考慮科研工作者在撰寫相關研究時的特定信息需求,有針對性地匹配檢索結果,從而對傳統(tǒng)學術數(shù)據(jù)庫的檢索結果進行優(yōu)化,改善系統(tǒng)的瀏覽和導航體驗。將文獻檢索、文獻閱讀和論文寫作三者有機地結合,利用引文上下文的自由組合和用戶自定義書寫的半自動化寫作模式,改善用戶體驗,提高論文寫作效率。

2.2 引文上下文及其自動識別

引文上下文的研究源于科學家對傳統(tǒng)計量視角的引文分析可靠性的懷疑,因其僅從引用的角度對施引文獻和被引文獻的關系進行探究,而忽視引文內容、功能、情感和重要性等語義信息。1975年,Chubin等提出引文內容分析,即以引文上下文為依據(jù)對引文的性質進行分析,深度挖掘施引文獻與被引文獻間的語義關系,但沒有具體給出引文上下文的定義[9];1999年,Nanba等給出“引用區(qū)域”的概念,即包含引用標識符的句子周圍的一個連續(xù)區(qū)域[10];2010年,Qazvinain等對引文句和上下文進行明確區(qū)分,指出引文上下文是一個引用區(qū)域內除包含標識符句子(引文據(jù))外的句子集合[11];2013年,張金松從NLP角度將引文上下文定義為:施引文獻為標記處被引文獻內容,而在引用標記符號所出現(xiàn)的位置前、后截取的n個詞[12];2014年,Parikshit等在總結前人關于引文上下文定義的基礎上,提出顯式引文上下文和隱式引文上下文的概念,分別對應Nanba和Qazvinain所定義的引文上下文[13]。由此可見,針對引文上下文的定義有狹義和廣義之分,狹義的引文上下文指包含引文標識符的句子;廣義的引文上下文包含引文句和在引用區(qū)域內引文句前、后句子的集合。

目前國際上關于引文上下文的研究還較少,由于引文上下文的自動識別是引文內容、引文功能、引文情感和引文重要性分析的前提和關鍵,有關引文上下文的研究主要集中在其自動識別和抽取上。1999年,Nanba等使用引文句中的代詞、連接詞和人稱詞等制定引文上下文識別規(guī)則和識別引用區(qū)域,取得80%的準確率和76%的召回率[10];Abu-Jbara等采用句法樹來改善引文句中含有多個引用的情況[14];Angrosh等針對文獻中相關研究章節(jié)的引文上下文,分析該章節(jié)的一般引用模式,并將引文上下文的識別轉化為分類實驗,使用條件隨機場進行分類模型訓練,最后取得96.51%的準確率[15];2012年,Abu-Jbara等將引文上下文自動識別問題分別轉化為單詞分類問題、序列標注問題和句子片段分類問題,發(fā)現(xiàn)基于句子片段的分類效果最好,取得81.80%的準確率[16];2013年,Angrosh使用詞匯特征構建CRF模型進行引文上下文識別,并基于此開發(fā)引文上下文自動抽取系統(tǒng)CitContExt[17];2014年,Sondhi等在構建文獻句數(shù)-引文數(shù)矩陣的基礎上,使用隱馬爾科夫模型進行引文上下文自動識別[18];Athar結合句法特征和詞匯特征訓練SVM分類器,并證明引文上下文對引文情感和重要性的識別效果可分別提升48%和17%[19]。

國內關于引文上下文自動識別的研究還處于起步階段。孫楓軍通過識別引文句進行概念抽取研究[20];張金松利用基于規(guī)則的方法識別引文上下文,并利用引文上下文的語義信息進行文獻檢索[12];雷聲偉等梳理引文上下文研究的現(xiàn)狀和自動識別研究的不足,歸納出五類特征,分別采用文本分類和序列標注的思想進行引文上下文識別,取得較好效果[21]。

綜上所述,引文上下文雖然提出較早,但相關研究數(shù)量還較少;計算機科學、情報學等領域的學者對引文上下文的自動識別研究已取得一定理論成果,但仍存在不足。引文上下文的自動識別主要分為兩個方面:一是基于機器學習思想,采用分類、序列標注和條件隨機場等模型構建特征工程,進行模型訓練和測試,這種方式速度快、自動化程度高,但需要大量人工標注,準確率低;二是基于規(guī)則的方式,通過觀察和分析引文上下文的行文規(guī)律,構建抽取規(guī)則,使用正則表達式進行匹配,這種方式準確率高,但需要人工構建抽取規(guī)則。為保證引文上下文抽取的準確度,本文采用第二種方式進行引文上下文自動識別。

3 系統(tǒng)思路與構建

科研人員在進行科研創(chuàng)作時,為避免重復性工作,需要廣泛地調研和閱讀研究領域相關研究成果,并對其核心內容進行歸納、總結和評述。在此情景下,本文假設對于一篇科研文獻而言,若有研究人員已對其進行歸納和評述,當這篇科研文獻被再次引用時,已有評述可被借鑒使用。因此,本文擬利用引文上下文自動識別技術將某一學科領域科研文獻集中相關研究部分的引文上下文識別并抽取,形成文獻-引文上下文數(shù)據(jù)集。在此基礎上,從引文上下文的視角實現(xiàn)相關研究的輔助生成,一方面為科研人員提供基于引文上下文的檢索和導航功能;另一方面,通過自動識別得到的相關研究引文上下文組合可快速全面地生成研究初稿,結合用戶自定義判斷和個性化修改,提升科研效率。此外,通過對引文上下文和文獻標題(摘要、全文)進行聚類分析,可進一步幫助科研人員對研究主題相關研究成果的整體態(tài)勢進行快速把握。對期刊編輯或審稿專家而言,該系統(tǒng)可幫助其檢查相關研究中針對某一研究成果的論述是否客觀、全面。

3.1 系統(tǒng)思路

為實現(xiàn)基于引文上下文的相關研究輔助生成系統(tǒng),首先需要解決人工獲取研究領域的科研文獻集合的問題,識別和抽取出每篇科研文獻中的相關研究部分,得到引文上下文集合;在此基礎上,對引文上下文進行分詞、去停用詞等文本預處理,作為檢索詞從人工收集的領域科研文獻集合中獲取對應的參考文獻及文獻題錄信息,得到文獻集合和對應的文獻-引文上下文數(shù)據(jù)集合。其次,將科研人員在書寫相關研究時的信息需求劃分為根據(jù)檢索“引文上下文”和檢索“相關文獻”,對引文上下文和文獻題錄信息分別建立索引,實現(xiàn)科研文獻語句層面的細粒度檢索。當用戶進行相關文獻檢索時,輸入關鍵詞即可得到相關文獻列表;當用戶繼續(xù)點擊文獻標題時,系統(tǒng)可交互式地返回關于該文獻的所有引文上下文集合、摘要及詳細的題錄信息,利用良好的用戶交互體驗和對信息需求的細化來優(yōu)化傳統(tǒng)學術數(shù)據(jù)庫的檢索結果和使用體驗。

為幫助科研工作者更好地完成論文寫作,系統(tǒng)需要加入寫作模塊。用戶可自由組合某一研究主題多篇文獻的多個引文上下文描述,形成較客觀和全面的論文初稿。由于初稿存在內容重復、語法錯誤等問題,寫作模塊還應提供相應的編輯模塊,使用戶可以對初稿的錯誤進行判斷和個性化修改,從而形成具有學者自身科研寫作風格的論文終稿。此外,某一研究主題可能含有較多相關研究成果,使檢索得到的文獻和引文上下文數(shù)量超過一定規(guī)模,造成瀏覽困難。為解決這一問題,系統(tǒng)提供相應聚類功能,用戶可限定使用文獻標題或引文上下文進行聚類。一方面使檢索結果分門別類,便于瀏覽和寫作;另一方面,對文獻或引文上下文進行聚類,可形成對研究主題的相關研究概覽,有助于研究人員對研究主題的整體態(tài)勢快速地把握。

3.2 系統(tǒng)構建

綜合考慮用戶的使用情景、需求和現(xiàn)有系統(tǒng)的功能,本文實現(xiàn)的相關研究輔助生成系統(tǒng)劃分為5個功能模塊:文獻檢索模塊、閱讀導航模塊、輔助寫作模塊、聚類分析模塊和數(shù)據(jù)管理模塊,系統(tǒng)功能框架見圖1。

圖1 系統(tǒng)功能框架

3.2.1 文獻檢索模塊

本系統(tǒng)的文獻檢索模塊通過分別對領域科研文獻的題錄信息和引文上下文建立索引,細化用戶信息需求,以優(yōu)化傳統(tǒng)數(shù)據(jù)庫的檢索結果。文獻檢索模塊包含兩個子模塊(相關文獻檢索和引文上下文檢索),二者的不同之處在于返回的對象不一樣,前者返回的是與輸入的研究主題詞或關鍵詞相關的文獻信息(包含文獻標題、摘要、作者、出版年份等);后者返回的是相關研究主題的引文上下文列表,即施引文獻中對被引相關文獻的描述句。

3.2.2 閱讀導航模塊

用戶在閱讀文獻時,通常希望直接閱讀主要關注的部分;科研人員在撰寫論文時,通常希望能直接獲取前人撰寫的對其所關注文獻的描述和評價。閱讀導航模塊的作用是將這些組織好的信息呈現(xiàn)給用戶,幫助用戶快速了解相關研究內容。閱讀導航模塊包含文獻列表導航、引文上下文閱讀和文獻摘要閱讀三個子模塊。文獻列表導航模塊提供文獻導航功能,用戶通過點擊列表文獻,系統(tǒng)可交互式地返回該文獻的摘要和引文上下文。后兩個子模塊作為容器分別呈現(xiàn)第一個模塊的返回值。摘要是科研文獻內容的濃縮(包括核心內容、主要觀點和基本情感等),幫助用戶確定文獻的利用價值;多個引文上下文是從更多的角度來闡釋和評價被引用文獻的主要內容。用戶可以通過協(xié)調三個子模塊,將線性閱讀和非線性閱讀結合起來形成交互式閱讀,從而滿足其個性化信息需求。

3.2.3 輔助寫作模塊

本系統(tǒng)直接關注用戶撰寫相關研究時的實際場景,并開發(fā)了實時輔助寫作模塊。該模塊主要實現(xiàn)引文上下文組合插入和用戶自定義書寫功能。上下文組合插入功能可幫助用戶快速生成某一研究主題的相關研究初稿和對應的參考文獻列表;系統(tǒng)在引文上下文閱讀子模塊提供選擇框,用戶可決定是否包含該引文上下文和該引文上下文在相關研究初稿中出現(xiàn)的相對位置。由于生成的相關研究初稿較粗糙,用戶自定義書寫功能允許用戶對相關研究初稿進行修改。例如,修飾潤色相關語句、修改行文風格、加入用戶對文獻的理解等。此外,用戶可隨時勾選引文上下文面板中的引文句,并插入到書寫框的光標處。用戶通過實現(xiàn)與系統(tǒng)各模塊的交互式閱讀和寫作,可高效地完成相關研究撰寫。此外,系統(tǒng)還提供自動導出功能,當用戶確認書寫完成后,可直接點擊“生成綜述”按鈕,系統(tǒng)將自動導出純文本格式,方便用戶保存和使用。

3.2.4 聚類分析模塊

在實際科學研究中,一個研究主題通常涉及多個相關主題的研究內容。例如,圖像檢索系統(tǒng)的相關研究主題包括用戶認知、信息檢索和圖像語義識別等。基于此,本系統(tǒng)在聚類分析模塊提供兩種聚類模式,即引文上下文聚類和文獻標題聚類。通過聚類分析,用戶可快速全面地把握某一研究主題的研究態(tài)勢。

3.2.5 數(shù)據(jù)管理模塊

數(shù)據(jù)管理模塊主要具備對系統(tǒng)數(shù)據(jù)進行增添、修改、刪除和維護等功能,共包含系統(tǒng)管理、數(shù)據(jù)采集管理和數(shù)據(jù)抽取管理三個子模塊。系統(tǒng)管理員可通過數(shù)據(jù)采集管理模塊定期采集數(shù)據(jù),對采集的數(shù)據(jù)進行解析和清洗等操作,通過系統(tǒng)管理模塊對已清洗的數(shù)據(jù)進行修改、維護等,通過抽取管理模塊可實現(xiàn)對語句分句、章節(jié)抽取規(guī)則的修改和增刪等。

4 系統(tǒng)實現(xiàn)

本文以計算機領域為例,構建基于引文上下文的相關研究輔助生成系統(tǒng)(Related Works Generation System,RWGS)。RWGS的實現(xiàn)過程分為五個步驟:原始數(shù)據(jù)采集和數(shù)據(jù)清洗;引文上下文的識別和抽取,構建文獻集、引文上下文集和文獻-引文上下文集,并分別建立索引;檢索和聚類模塊的實現(xiàn);輔助寫作模塊實現(xiàn);系統(tǒng)界面與調試(見圖2)。

圖2 RWGS系統(tǒng)實現(xiàn)過程框架

4.1 原始數(shù)據(jù)采集和數(shù)據(jù)清洗

在RWGS的首次數(shù)據(jù)采集中,本文采用人工收集的方式從Science Direct Onsite數(shù)據(jù)庫中獲取計算機領域117本英文期刊在1957—2014年收錄的共289 926篇科研文獻的全文網(wǎng)頁數(shù)據(jù)。從Science Direct Onsite獲取的數(shù)據(jù)是HTML格式,可避免煩瑣的PDF文檔解析過程,提高準確率;利用HTML解析器Jsoup對網(wǎng)頁無用信息進行過濾,將其處理為便于閱讀和爬取的XML文檔。在此基礎上,本文結合正則表達式和XML解析器Jdom對文獻數(shù)據(jù)進行信息抽取,獲得每篇文獻的題錄信息(包括標題、摘要、作者、發(fā)表時間、關鍵詞等)。同時,將文獻的正文數(shù)據(jù)單獨保存,為下一步識別和抽取文獻的相關研究章節(jié)提供數(shù)據(jù)基礎。此外,由于學術資源的動態(tài)性,系統(tǒng)管理員可根據(jù)需要對采集的數(shù)據(jù)進行周期性更新;普通用戶可通過數(shù)據(jù)管理維護模塊來手工定制檢索策略和采集周期,以構建滿足時效性和自身信息需求的領域科研文獻數(shù)據(jù)集。

4.2 文獻-引文上下文數(shù)據(jù)集構建

文獻-引文上下文數(shù)據(jù)集的構建主要依靠抽取器中章節(jié)抽取規(guī)則和引文上下文抽取規(guī)則來實現(xiàn)對正文章節(jié)和引文上下文進行識別和抽取。用戶可根據(jù)不同的科研文獻來源定制不同的章節(jié)抽取規(guī)則和引文上下文抽取規(guī)則,還可使用抽取管理模塊人工地對抽取規(guī)則進行增減、修改和配置。

4.2.1 抽取規(guī)則

以Communications of ACM刊為例,通過對文獻正文的HTML文本進行分析,統(tǒng)計發(fā)現(xiàn)大部分研究章節(jié)存在于標簽“

”和“

”下,且章節(jié)名稱符合一定的規(guī)律,如含有“relatedwork”“background”“l(fā)iterature”等詞匯。陸偉等在學術文本結構功能識別的系列研究中探討基于章節(jié)標題和段落的學術文本結構識別,并指出若章節(jié)標題存在詞典D={background,literatur,framework,previo,relat,measure,method}中任一詞干,則該章節(jié)很大可能是相關研究章節(jié)[22-24]。因此,本文首先從HTML文本中抽取存在于“

”和“

”標簽下的章節(jié)標題集合T={t1,t2,t3…tn},使用波特詞干提取法和自然語言處理工具OpenNLP對每個章節(jié)標題進行分詞和詞干提取,得到對應的詞干序列W={w1,w2,w3…wm}。通過觀察章節(jié)標題中的連接詞,本文構建了一個無意義詞表K={k1,k2,k3…kx},對每個詞干序列進行過濾得到核心詞干序列C。若某章節(jié)標題的核心詞干集中包含詞典D中的任一元素,則判定該章節(jié)為相關研究章節(jié)。

為識別相關研究章節(jié)中的引文上下文,需找到含有引用標識符的句子。通過觀察發(fā)現(xiàn),引用標識符在正文HTML文本中以“”標簽的形式出現(xiàn)。因此,本系統(tǒng)利用OpenNLP實現(xiàn)句子探測,來定向探測相關研究章節(jié)包含“”標簽的句子,并進行分句處理,從而得到相應的引文上下文集合。其中,為避免一個句子含有多個引用標識符時造成的重復計數(shù),須先對句子進行切分,然后再進行標簽探測。

為構建文獻-引文上下文數(shù)據(jù)集,需將文獻和其他相關章節(jié)中對該文獻進行描述的引文上下文對應起來。本系統(tǒng)將引文上下文進行分詞、去停用詞等文本預處理,然后將結果作為檢索詞對科研文獻集進行查找,得到對應被引用文獻。

4.2.2 抽取結果

利用得到的抽取規(guī)則,對計算機領域的28萬余篇文獻進行信息抽取和數(shù)據(jù)處理,由于部分文獻的全文數(shù)據(jù)缺失,最終得到192 876個不重復的相關研究章節(jié),223 674個不重復的引文上下文句子。為驗證抽取的準確性,隨機抽取2 000個相關研究章節(jié)進行人工標注,得到的準確率為98.52%。由于文獻可能多次引用或零引用,最終得到14 501個不重復的文獻-引文上下文對。通過對文獻集、引文上下文集、文獻-引文上下文集分別建立索引,RWGS可將與某一研究主題相關的文獻題錄信息、引文上下文以及文獻-引文上下文信息一同返回給用戶。

4.3 檢索和聚類模塊的實現(xiàn)

在檢索模塊,RWGS對采集的科研文獻進行整合,對元數(shù)據(jù)(文獻的標題、作者、出版年份等)、引文上下文、文獻-引文上下文集分別建立索引,并根據(jù)需要歸并各索引文件。在信息檢索過程中,本系統(tǒng)使用傳統(tǒng)的信息檢索模型和方法來對用戶查詢進行分詞處理、檢索和排序,通過可視化結構將結果返回文獻列表導航模塊。當用戶點擊文獻列表導航的文獻時,將激活系統(tǒng)檢索模塊,RWGS會自動檢索其他文獻在引用這篇文獻時對該文獻進行描述的引文上下文和文獻摘要。主題聚類模塊包括根據(jù)標題聚類和根據(jù)引文上下文聚類,RWGS采用TF-IDF算法計算語句相似度,并通過實現(xiàn)K-means聚類算法來對文獻列表和引文上下文列表中的文獻標題和引文上下文進行主題聚類。

4.4 輔助寫作模塊實現(xiàn)

輔助寫作模塊主要使用Ajax實現(xiàn)用戶與系統(tǒng)的交互。本系統(tǒng)設計在檢索得到的文獻列表點擊某篇文獻時,將在系統(tǒng)界面中出現(xiàn)該文獻的摘要信息以及其他文獻的相關引用語句。摘要幫助用戶了解全文概況,用戶可自行判斷此文獻是否能滿足其信息需求;相關語句的呈現(xiàn)可輔助用戶寫作。

當引文上下文列表存在滿足用戶寫作需求的條目時,直接勾選該條目,被勾選的語句會出現(xiàn)在寫作框,用戶即可進入編寫模式。當用戶寫完后,可點擊“生成綜述”將已編好的內容保存。

4.5 系統(tǒng)界面與運行情況

系統(tǒng)界面的實現(xiàn)采用JQuery EasyUI前端框架,主界面主要包含檢索欄、文獻列表導航界面、引文句界面、摘要閱讀界面、寫作面板、參考文獻界面。用戶在檢索框輸入檢索詞進行相關文獻搜索時,文獻列表導航界面會返回相關文獻的標題、作者和發(fā)表年份等信息,供用戶瀏覽和選擇。點擊作者,結果按照作者名字的首字母升序排列;點擊標題,結果按標題第一個單詞的首字母升序排列;點擊年份,結果按發(fā)表年份降序排列。當用戶點擊某篇感興趣的文獻標題時,引文句界面將返回其引文上下文。此外,系統(tǒng)還提供“語句分組”和“文獻分組”功能,分別用于激發(fā)基于引文上下文的主題聚類和基于文獻標題的主題聚類,來應對文獻和引文上下文較多的情況,幫助用戶全面、高效地完成論文寫作。

5 結語

本文從引文上下文的角度出發(fā),設計基于引文上下文的相關研究輔助生成系統(tǒng),并在計算機領域對該系統(tǒng)進行實現(xiàn)。雖然系統(tǒng)在一定程度上改善了已有研究成果,但仍然存在很多不足,需要進一步完善。本文將在后續(xù)研究中對原始數(shù)據(jù)集進行擴充,使其兼容更多的數(shù)據(jù)源,構建更大的文獻-引文上下文數(shù)據(jù)集,以提高系統(tǒng)結果的全面性和可靠性。針對主題聚類模塊,目前實現(xiàn)了基于引文句和文獻標題的聚類,下一步將考慮基于文本標題和摘要的聚類。此外,本系統(tǒng)在引文上下文的抽取中,為突出研究重點和保證抽取的準確性,采用基于規(guī)則模板的引文句抽取,下一步應嘗試基于機器學習和深度學習的引文上下文句子集合的抽取,從而增加系統(tǒng)的適應性和靈活性。

[1]DEMCHENKO Y,ZHAO Z,GROSSO P,et al.Addressing big data challenges for scientific data infrastructure[C]//IEEE,International Conference on Cloud Computing Technology and Science.Taipei:IEEE Computer Society,2012:614-617.

[2]陳超美,陳悅,侯劍華,等.CiteSpace Ⅱ:科學文獻中新趨勢與新動態(tài)的識別與可視化[J].情報學報,2009,28(3):401-421.

[3]HEIMERL F,HAN Q,KOCH S,et al.CiteRivers:visual analytics of citation patterns[J].IEEE Transactions on Visualization &Computer Graphics,2015,22(1):1.

[4]CHEN M H,HUANG S T,HSIEH H T,et al.Flow:a first-languageoriented writing assistant system[J].ACL System Demonstrations,2012,24(3):157-162.

[5]楊秉哲.WriteAhead:以學術論文寫作為目的之摘要寫作輔助系統(tǒng)[D].新竹:臺灣清華大學,2009.

[6]VAN ECK N J,WALTMAN L.Vosviewer:a computer program for bibliometric mapping[J].Social Science Electronic Publishing,2009,84(2):523-538.

[7]WANG X,CHENG Q K,LU W.Analyzing evolution of research topics with NEViewer:a new method based on dynamic co-word networks[J].Scientometrics,2014,101(2):1253-1271.

[8]孔行.基于主題推薦的輔助寫作系統(tǒng)[D].哈爾濱:哈爾濱工業(yè)大學,2015.

[9]CHUBIND E,MOITRA S D.Content analysis of references:adjunct or alternative to citation counting?[J].Social Studies of Science,1975,5(4):423-441.

[10]NANBA H,OKUMURA M.Towards multi-paper summarization using reference information[J].Ipsj Sig Notes,1999,98(82):79-86.

[11]QAZVINIAN V,RADEV D R.Identifying Non-explicit Citing Sentences for Citation-based Summarization[C]//ACL 2010,Proceedings of the Meeting of the Association for Computational Linguistics,July 11-16,2010,Uppsala,Sweden.DBLP,2010:555-564.

[12]張金松.基于引文上下文分析的文獻檢索技術研究[D].大連:大連海事大學,2013.

[13]SONDHI P,ZHAI C X.A constrained hidden markov model approach for non-explicit citation context extraction[M]//Proceedings of the 2014 SIAM International Conference on Data Mining.Pennsylvania:Society for Industrial and Applied Mathematics,2014:361-369.

[14]ABU-JBARA A,RADEV D.Coherent citation-based summarization of scientific papers[C]//Meeting of the Association for Computational Linguistics:Human Language Technologies.Portland:DBLP,2011:500-509.

[15]ANGROSHM A,CRANEFIELD S,STABGER N.Context identification of sentences in related work sections using a conditional random field:towards intelligent digital libraries[C]//Proceedings of the 10th annual joint conference on Digital libraries,Gold Coast:ACM,2010:293-302.

[16]ABU-JBARA A,RADEV D.Reference scope identification in citing sentences[C]//Proceedings of the 2012 Conference of the North American Chapter of ACM.Montreal:ACM,2012:80-90.

[17]ANGROSHM A,CRANEFIELD S,STANGER N.Contextidentification of sentences in research articles:towards developing intelligent tools for the research community[J].Natural Language Engineering,2013,19(4):481-515.

[18]SONDHI P,ZHAI C X.A constrained hidden markov model approach for non-explicit citation context extraction[C]//Proceedings of the 2014 SIAM International Conference on Data Mining.Philadelpha,Pennsylvania,2014:102-108.

[19]ATHAR A.Sentimental analysis of scientific citations[EB/OL].[2017-07-01].http://www.c1.cam.ac.uk/techreports/UCAM-CLTR-856.pdf.

[20]孫楓軍.引文上下文中的概念抽取[D].北京:中國科學技術信息研究所,2012.

[21]雷聲偉,陳海華,黃永,等.學術文獻引文上下文自動識別研究[J].圖書情報工作,2016(17):78-87.

[22]陸偉,黃永,程齊凱,等.學術文本的結構功能識別功能框架及基于章節(jié)標題的識別[J].情報學報,2014(9):979-985.

[23]黃永,陸偉,程齊凱,等.學術文本的結構功能識別——基于段落的識別[J].情報學報,2016,35(5):530-538.

[24]黃永,陸偉,程齊凱,等.學術文本的結構功能識別——在學術搜索中的應用[J].情報學報,2016,35(4):425-431.

Abstract:This article takes specific information needs when a scholar is writing related works or a edit reviews a paper to design and implement a related works assistant system based on citation context.Firstly,we expound the definition of citation context in academic texts and the progress of its recognition,then discuss the feasibility of implementation a system like this and design the thought and functional modules of it.Finally,the full text page data of 289 926 scientific literatures included in the Science Direct database from 1957 to 2014 were used as data sources to realize a related research assistant generation system RWGS based on citation context.The result shows that RWGS can meet the needs of scholars in the preparation of the related works chapter or journal editor in the review process with more detailed information needs,which have a certain optimization effect,while the literature search the traditional academic database search results.

Keywords:Related Works;Assistant Generation System;Citation Context;Computer Science

Design and Implementation of Related Works Generation System Based on Citation Context

WANG Xin1,2,CHENG QiKai1,2,LI Xin1,2,LU Wei1,2
(1.School of Information Management,Wuhan University,Wuhan 430072,China;2.Information Retrieval and Knowledge Mining Laboratory,Wuhan University,Wuhan 430072,China)

G250.7

10.3772/j.issn.1673-2286.2017.08.003

* 本研究得到中國博士后科學基金項目(編號:2016M602371)和國家自然科學基金青年項目“基于深度語義挖掘的引文推薦多樣化研究”(編號:71704137)資助。

王鑫,男,1996年生,碩士研究生,研究方向:信息檢索。

程齊凱,男,1989年生,博士,講師,研究方向:自然語言處理、文本挖掘、信息檢索,E-mail:cehngqikai0806@163.com。

李信,男,1991年生,博士研究生,研究方向:大數(shù)據(jù)分析、語義計量、醫(yī)學知識發(fā)現(xiàn),E-mail:lucian@whu.edu.cn。

陸偉,男,1974年生,教授,博士生導師,研究方向:信息檢索、文本挖掘和知識發(fā)現(xiàn),E-mail:weilu@whu.edu.cn。

2017-08-09)

猜你喜歡
章節(jié)檢索聚類
2019年第4-6期便捷檢索目錄
高中數(shù)學章節(jié)易錯點提前干預的策略研究
素養(yǎng)之下,美在引言——《“推理與證明”章節(jié)引言》一節(jié)比賽課的實錄
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
基于改進的遺傳算法的模糊聚類算法
黃廖本《現(xiàn)代漢語》詞匯章節(jié)中的幾個問題
一種層次初始的聚類個數(shù)自適應的聚類方法研究
八仙過海,各顯神通
自適應確定K-means算法的聚類數(shù):以遙感圖像聚類為例
桐庐县| 杭锦后旗| 西贡区| 离岛区| 栾川县| 汾阳市| 三穗县| 原平市| 唐河县| 洛川县| 家居| 临西县| 杭锦旗| 泉州市| 黄梅县| 陕西省| 都江堰市| 九龙城区| 永济市| 东乌珠穆沁旗| 吉安市| 建平县| 民乐县| 天津市| 民勤县| 遂平县| 南汇区| 康马县| 萝北县| 大荔县| 芜湖市| 云浮市| 涿州市| 宜春市| 台山市| 太白县| 石河子市| 阿鲁科尔沁旗| 谷城县| 原阳县| 建平县|