国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于科研知識圖譜的研究側(cè)寫生成方法研究與設(shè)計*

2022-08-17 03:00:28李嬌孫坦鮮國建黃永文
數(shù)字圖書館論壇 2022年7期
關(guān)鍵詞:圖譜實體領(lǐng)域

李嬌 孫坦 鮮國建,4 黃永文

(1. 中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2. 國家新聞出版署農(nóng)業(yè)融合出版知識挖掘與知識服務(wù)重點實驗室,北京 100081;3. 中國農(nóng)業(yè)科學(xué)院,北京 100081;4. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點實驗室,北京 100081)

開放科學(xué)背景下,科技論文等學(xué)術(shù)資源逐漸進入“大數(shù)據(jù)化”階段,誕生了數(shù)據(jù)密集型的知識發(fā)現(xiàn)范式,科學(xué)研究也進入新常態(tài),出現(xiàn)大量交叉學(xué)科研究、轉(zhuǎn)換型研究、跨學(xué)科及跨地域合作研究、開放眾包型科研[1]等。科技文獻(xiàn)的數(shù)量已遠(yuǎn)遠(yuǎn)超過人工處理的極限,傳統(tǒng)的文獻(xiàn)評價或綜述難以滿足科研人員快速、廣泛地了解領(lǐng)域科研發(fā)展情況的需求,知識服務(wù)元素從物理層次的文獻(xiàn)單元向認(rèn)知層次的知識單元轉(zhuǎn)換[2],研究者轉(zhuǎn)而探索一種基于大規(guī)模科技文獻(xiàn)信息的領(lǐng)域態(tài)勢監(jiān)測和分析方法——研究側(cè)寫(Research Profiling)[3],實現(xiàn)領(lǐng)域內(nèi)主題結(jié)構(gòu)、技術(shù)方法、重要研究人員等核心內(nèi)容的多角度挖掘和全景式揭示,進而改善科研人員知識獲取和科學(xué)探索的效率。2002年,美國知名情報研究專家Alan Porter首次系統(tǒng)地提出研究側(cè)寫概念,將其界定為一種對領(lǐng)域文獻(xiàn)信息進行大規(guī)模掃視的方法,通過采用數(shù)據(jù)挖掘等技術(shù)實現(xiàn)特定學(xué)科多維度因素的全面展示[3]。國內(nèi)對這一概念的引入相對較晚,2010年,趙琦[4]對研究側(cè)寫的方法和技術(shù)進行了全面的追蹤與分析,實際上相關(guān)研究則開展的更早,如清華Aminer(原ArnetMiner)基于學(xué)術(shù)社交網(wǎng)絡(luò)的研究者信息挖掘與側(cè)寫生成[5]。相較于傳統(tǒng)基于可視化分析工具(如CiteSpace、VOSviewer)或文字分析的文獻(xiàn)綜述,研究側(cè)寫更具綜合性,需要數(shù)據(jù)源、文本挖掘和知識組織技術(shù)、可視化展示等多方面的配合,以期賦予文獻(xiàn)觀察更深的視角??蒲兄R圖譜(Scientific Knowledge Graph,SKG)[6]——學(xué)術(shù)領(lǐng)域中涵蓋實體和關(guān)系的大型語義網(wǎng)絡(luò),可通過其語義規(guī)范性和鏈接思想將原本非結(jié)構(gòu)、無關(guān)聯(lián)的粗糙數(shù)據(jù)逐步提煉為結(jié)構(gòu)化、強關(guān)聯(lián)的高質(zhì)量知識,無疑為研究側(cè)寫中科技文獻(xiàn)結(jié)構(gòu)與主題信息的多角度組織與揭示提供了可能性。

科研知識圖譜通常包含描述出版物的元數(shù)據(jù)(如科研人員、科研機構(gòu)、期刊、資助項目、主題等),其價值在于通過數(shù)據(jù)關(guān)聯(lián)、互操作和數(shù)據(jù)挖掘等來提升學(xué)術(shù)內(nèi)容的可見性和可用性。近年來,在出版商、專業(yè)信息機構(gòu)等的參與和共同推進下,大規(guī)模高質(zhì)量的科研知識圖譜不斷涌現(xiàn),如Springer Nature推出Scigraph[7],上海交通大學(xué)構(gòu)建的語義異構(gòu)學(xué)術(shù)圖譜AceGK(Acemap Knowledge Graph)[8],開放學(xué)術(shù)組織發(fā)布的億級開放學(xué)術(shù)圖譜OAG(Open Academic Graph)[9]、學(xué)術(shù)界/行業(yè)動態(tài)知識圖譜AIDA(Academia/Industry DynAmics)[10]等。隨著文本挖掘、自然語言處理等智能技術(shù)的發(fā)展,科研知識圖譜研究實踐逐漸向領(lǐng)域知識深度揭示和應(yīng)用支撐邁進,如Tosi等[11]通過科研知識圖譜描述領(lǐng)域知識結(jié)構(gòu),超越傳統(tǒng)的元數(shù)據(jù)和引用關(guān)系;Dessì等[5]采用自然語言處理和機器學(xué)習(xí)技術(shù)對語義網(wǎng)領(lǐng)域?qū)W術(shù)文獻(xiàn)進行挖掘構(gòu)建科研知識圖譜;Huo等[12]集成出版物和醫(yī)學(xué)主題詞表MeSH并提出基于書目知識圖譜的熱點主題預(yù)測模型。

科研知識圖譜向領(lǐng)域的縱深發(fā)展為科研實體和領(lǐng)域知識的揭示融合及以此為基礎(chǔ)的知識應(yīng)用奠定了基礎(chǔ)。因此,本文在現(xiàn)有研究基礎(chǔ)上,針對海量科技文獻(xiàn)環(huán)境下的知識獲取困境,設(shè)計了基于科研知識圖譜的研究側(cè)寫生成方法,涵蓋從數(shù)據(jù)源獲取、科研知識圖譜構(gòu)建到存儲計算和場景服務(wù)的全過程。結(jié)合兩者理論和技術(shù)優(yōu)勢,深度融合科技文獻(xiàn)信息及領(lǐng)域知識,實現(xiàn)多維度、全景式的知識內(nèi)容揭示,以期為知識發(fā)現(xiàn)、科研評價等發(fā)揮支撐作用。

1 相關(guān)研究

研究側(cè)寫是一種針對大規(guī)模數(shù)據(jù)源的信息分析方法,關(guān)鍵在于揭示學(xué)科、專家、機構(gòu)等不同科研實體的研究情況,發(fā)現(xiàn)領(lǐng)域中的主題關(guān)系、發(fā)展趨勢等。按照分析對象的不同,研究側(cè)寫結(jié)果主要包含3種類型[13]:①領(lǐng)域?qū)W術(shù)地圖,描述出版物概況,如來源類型(期刊、會議、出版社等)、作者、機構(gòu)等;②主題領(lǐng)域概貌,通過分析主題內(nèi)容、核心參考文獻(xiàn)等在不同學(xué)科中的分布來探索領(lǐng)域的多學(xué)科特性;③主題分析,發(fā)現(xiàn)領(lǐng)域發(fā)展中的熱點前沿、高影響力專家和核心參考文獻(xiàn)等。

Porter等[3]歸納了研究側(cè)寫實踐效果影響因素(見表1),具體體現(xiàn)在以下6個方面:①數(shù)據(jù)可獲得性,數(shù)據(jù)源類型和數(shù)據(jù)的獲取權(quán)限,如文獻(xiàn)數(shù)據(jù)庫、數(shù)據(jù)可獲取規(guī)模和字段,選取開放數(shù)據(jù)庫往往能夠支持更大規(guī)模、更全信息的免費獲取,保證側(cè)寫數(shù)據(jù)源的質(zhì)量和范圍;②可用于研究側(cè)寫生成的時間和資源,越充足則側(cè)寫效果越好;③數(shù)據(jù)分析工具,相較于搜索引擎通過API接口返回的結(jié)構(gòu)化結(jié)果,可高效實現(xiàn)分類聚類、識別歸檔、數(shù)據(jù)組織的文本挖掘工具更能體現(xiàn)研究側(cè)寫方法的優(yōu)勢[14],這也是相關(guān)研究的側(cè)重點;④文本挖掘?qū)I(yè)度,即知識挖掘的細(xì)粒度、全面性等,越充分則研究側(cè)寫的可視化展示效果越好;⑤學(xué)科專業(yè)度,指領(lǐng)域主題及主題間關(guān)系的豐富度,級別越高,領(lǐng)域維度知識揭示越全面;⑥目標(biāo),由淺層的背景概覽到深層的領(lǐng)域內(nèi)主題分析,再到領(lǐng)域內(nèi)外的主題分析與知識發(fā)現(xiàn),其中領(lǐng)域內(nèi)外的主題分析與知識發(fā)現(xiàn)是研究側(cè)寫最高形態(tài),可識別交叉領(lǐng)域新的研究點或機會。

表1 研究側(cè)寫實踐效果影響因素

目前,研究側(cè)寫相關(guān)實踐展示形態(tài)、分析工具各異,標(biāo)準(zhǔn)化和創(chuàng)新[15]、內(nèi)部審計質(zhì)量[16]、多準(zhǔn)則決策[17]、學(xué)習(xí)型組織[18]等細(xì)分領(lǐng)域或?qū)n}均有應(yīng)用。Sudolska等[19-20]基于出版物元數(shù)據(jù)和引用關(guān)系,先后通過統(tǒng)計分析的方法實現(xiàn)云計算、負(fù)責(zé)任和可持續(xù)創(chuàng)新專題的研究側(cè)寫,包括出版物、學(xué)科領(lǐng)域、主題多個維度,以期探索領(lǐng)域主題邊界;Wójcicki等[21]針對Scopus數(shù)據(jù)(包括標(biāo)題、摘要和關(guān)鍵詞),采用可視化分析工具VOSviewer實現(xiàn)工業(yè)物聯(lián)網(wǎng)IIOT二維地圖式研究側(cè)寫生成。隨著文本挖掘和自然語言處理等技術(shù)的快速發(fā)展,相關(guān)研究正逐漸從淺層的主題聚類向深層關(guān)聯(lián)關(guān)系揭示過渡,部分研究者將知識圖譜與研究側(cè)寫結(jié)合起來,如Munir等[22]采用非關(guān)系型數(shù)據(jù)庫的監(jiān)控數(shù)據(jù)實現(xiàn)基于語義知識圖譜的工業(yè)4.0領(lǐng)域研究側(cè)寫生成及圖數(shù)據(jù)庫支撐的多維度側(cè)寫查詢。這一實踐使得研究側(cè)寫無論在技術(shù)方法還是服務(wù)形態(tài)上都向稍有不同的方向發(fā)展,知識圖譜通過具有復(fù)雜拓?fù)浣Y(jié)構(gòu)的圖模型組織和描述事物,是易于計算機處理的可計算模型,結(jié)構(gòu)化特征和關(guān)聯(lián)關(guān)系使其在研究側(cè)寫的生成及可視化展示方面優(yōu)勢盡顯。因此,本文將知識圖譜作為數(shù)據(jù)分析和挖掘方法應(yīng)用于文獻(xiàn)領(lǐng)域數(shù)據(jù)的研究側(cè)寫生成,并深入拓展領(lǐng)域知識維度,突破現(xiàn)有以統(tǒng)計分析或可視化分析軟件為主的研究側(cè)寫在主題挖掘深度、文獻(xiàn)和領(lǐng)域知識關(guān)聯(lián)方面的局限性。

2 基于科研知識圖譜的研究側(cè)寫架構(gòu)設(shè)計

基于科研知識圖譜的研究側(cè)寫生成與應(yīng)用本質(zhì)上是實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的有效組織,以及文獻(xiàn)知識的快速識別、聚類和可視化展示,需要緊密結(jié)合科技文獻(xiàn)資源特征與領(lǐng)域知識語義元素,明確研究側(cè)寫的目標(biāo)(尤其是應(yīng)用形態(tài)和服務(wù)場景),深層次挖掘揭示關(guān)鍵、核心的科研內(nèi)容。依據(jù)上述研究側(cè)寫效果影響因素標(biāo)準(zhǔn),本文設(shè)計出基于科研知識圖譜的研究側(cè)寫總體架構(gòu)(見圖1),自底向上依次包括數(shù)據(jù)獲取與預(yù)處理、科研知識圖譜構(gòu)建、知識存儲與計算、側(cè)寫生成與交互展示四個層次。

圖1 基于科研知識圖譜的研究側(cè)寫總體架構(gòu)

2.1 數(shù)據(jù)獲取與預(yù)處理

數(shù)據(jù)獲取與預(yù)處理主要是指結(jié)構(gòu)化語料的獲取解析與加工,解決語料數(shù)據(jù)異構(gòu)、缺省等問題,通過主題匹配的方式在科技文獻(xiàn)數(shù)據(jù)和領(lǐng)域知識數(shù)據(jù)之間建立相關(guān)關(guān)系。數(shù)據(jù)源方面,科技文獻(xiàn)數(shù)據(jù)可根據(jù)學(xué)科特點基于一定的檢索策略從主流的學(xué)術(shù)資源數(shù)據(jù)庫(如Web of Science、PubMed、Scopus等)中下載獲取,預(yù)處理包括基于永久標(biāo)識符PID(Persistent Identifier)和消歧算法的實體(科研人員及科研機構(gòu))消歧、多因子復(fù)合加權(quán)文獻(xiàn)重要度計算、基于語義匹配的文獻(xiàn)資源主題標(biāo)引3個子任務(wù),充分運用文本挖掘和自然語言處理技術(shù),研究中涉及相關(guān)算法模型與操作流程[23-24],限于篇幅此處不再贅述。領(lǐng)域知識數(shù)據(jù)通常是調(diào)研選取語義Web上開放或自建的優(yōu)質(zhì)本體、知識庫或領(lǐng)域小規(guī)模知識圖譜等,可直接采用RDF解析工具(如常用的Jena)進行格式解析與轉(zhuǎn)換。

2.2 科研知識圖譜構(gòu)建

知識圖譜邏輯上分為模式層和數(shù)據(jù)層,模式層即描述抽象知識的本體層,是知識圖譜的核心,構(gòu)建在數(shù)據(jù)層之上并用來約束數(shù)據(jù)層??蒲兄R圖譜模式層的構(gòu)建主要是基于科技文獻(xiàn)資源及領(lǐng)域知識語料分析設(shè)計實體類型及相應(yīng)的數(shù)據(jù)模型,并綜合應(yīng)用本體編輯工具(如Protégé、WebOnto等)、OWL和SKOS建模語言進行知識建模與實體管理。科研知識圖譜數(shù)據(jù)層的構(gòu)建則是從多源異構(gòu)數(shù)據(jù)中進行知識抽取,如結(jié)構(gòu)化數(shù)據(jù)可采用RDF ETL插件(RDFzier[25])生成RDF三元組圖數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)(主要是科技文獻(xiàn)的摘要和正文部分)可基于深度學(xué)習(xí)模型(如預(yù)訓(xùn)練語言表征模型BERT[26])進行實體和關(guān)系的識別。文獻(xiàn)實體及關(guān)系部分通常為基于科技文獻(xiàn)元數(shù)據(jù)信息的RDF三元組轉(zhuǎn)換,并通過主題類與領(lǐng)域知識節(jié)點關(guān)聯(lián)融合。圖譜質(zhì)量是研究側(cè)寫的基礎(chǔ)保障,知識建模的科學(xué)性、系統(tǒng)性以及實例數(shù)據(jù)的質(zhì)量、細(xì)粒度、相關(guān)性等直接關(guān)系研究側(cè)寫領(lǐng)域知識全貌。

2.3 知識存儲與計算

知識存儲與計算是支持查詢、分析等各種應(yīng)用的基礎(chǔ)條件,考慮到數(shù)據(jù)直觀性、計算效率、存儲靈活性等因素,選取原生圖數(shù)據(jù)庫Neo4j作為科研知識圖譜存儲和應(yīng)用的支撐工具??蒲兄R圖譜驅(qū)動的研究側(cè)寫數(shù)據(jù)展示原理是基于知識圖譜的內(nèi)容及文獻(xiàn)聚類計算融合,數(shù)據(jù)流以數(shù)據(jù)訪問接口Neo4j Cypher Java API為基礎(chǔ),需要結(jié)合圖譜數(shù)據(jù)特點及圖譜數(shù)據(jù)語義,定義語義查詢和推理的參數(shù)配置規(guī)則,通過圖算法調(diào)度圖譜節(jié)點、邊生成查詢計算的結(jié)果圖,支撐頂層系統(tǒng)的數(shù)據(jù)獲取及結(jié)果圖生成??蒲兄R圖譜上的關(guān)鍵詞查詢采用子圖定位策略,通過在關(guān)鍵詞和知識圖譜實體間建立索引,將關(guān)鍵詞查詢轉(zhuǎn)化為圖數(shù)據(jù)庫中的結(jié)構(gòu)化查詢,主要涉及4個關(guān)鍵步驟。

(1)關(guān)鍵詞映射。研究側(cè)寫前端服務(wù)場景中的查詢關(guān)鍵詞直接默認(rèn)為知識圖譜上的主題類實體類型進行精準(zhǔn)匹配,若用戶輸入的關(guān)鍵詞與圖譜上實體名稱存在如單復(fù)數(shù)、全稱和簡稱、別名等情況的差異,需要借助實體-實體指稱詞典或語料庫進行語義矯正,如通過設(shè)定可接受范圍的閾值進行校驗,繼而通過構(gòu)建的關(guān)鍵詞與知識圖譜實體、邊的索引將關(guān)鍵詞映射到知識圖譜上的實體,查詢結(jié)果具備可解釋性。

(2)結(jié)構(gòu)化查詢生成。基于確定的實體,結(jié)合研究側(cè)寫場景中的展示維度及知識圖譜中實體和關(guān)系的擴展生成局部的知識子圖,得到結(jié)構(gòu)化查詢需要的查詢圖。此情境下,在圖數(shù)據(jù)庫接口中可預(yù)先定義子圖的主實體類型,與語義檢索相比,本文中的結(jié)構(gòu)化查詢不生成多個局部子圖選項,因此不涉及基于相似度或者實體拓?fù)浞植嫉戎笜?biāo)的子圖得分排序。

(3)URI解析與baseURL獲取。結(jié)構(gòu)化查詢生成后需結(jié)合Neo4j接口進行圖數(shù)據(jù)庫操作,Neo4j支持資源URI解析并返回面向計算機的結(jié)構(gòu)化格式數(shù)據(jù),即baseURL(包含相關(guān)節(jié)點、關(guān)系及屬性的默認(rèn)地址)。

(4)實體及關(guān)系聚類。以baseURL為基礎(chǔ)的實體和關(guān)系聚類結(jié)果生成是指根據(jù)側(cè)寫前端待展示的維度調(diào)度圖譜數(shù)據(jù)中的節(jié)點和邊,輸出相關(guān)實體類型(主要指專題、論文和作者)實例及屬性值并聚類封裝。

2.4 側(cè)寫生成與交互展示

相較于傳統(tǒng)文獻(xiàn)綜述等評價方法,研究側(cè)寫力求從更多元、更微觀的分析視角揭示文獻(xiàn)的主題信息,揭示維度分為3個層次:①縱覽研究主題,即基于獲取的數(shù)據(jù)對象挖掘領(lǐng)域知識發(fā)展全貌;②了解研究社區(qū),主要是指從專家、機構(gòu)等科研主體視角揭示信息互動與流向等;③專題知識關(guān)聯(lián)分析與展示,厘清領(lǐng)域內(nèi)重要知識節(jié)點關(guān)系網(wǎng)狀圖,描述主題關(guān)聯(lián)關(guān)系。依據(jù)數(shù)據(jù)條件,本文研究側(cè)寫方案的設(shè)計與生成引入用戶交互功能,以關(guān)鍵詞查詢?yōu)槌霭l(fā)機制,支持科研用戶直觀表達(dá)信息需求,涉及領(lǐng)域知識關(guān)聯(lián)、文獻(xiàn)信息發(fā)展、科研主體推薦三方面知識揭示。

3 研究側(cè)寫系統(tǒng)方案設(shè)計

研究側(cè)寫旨在提高科研用戶在合理時間內(nèi)獲取相關(guān)研究專題知識的效率,或為科研新手提供快速部覽陌生專題的途徑,需綜合考慮科研用戶對內(nèi)容、類型、質(zhì)量及數(shù)量各方面的需求與處理能力,其中,內(nèi)容、類型、質(zhì)量依賴于科研知識圖譜的科學(xué)性及研究側(cè)寫模型層次設(shè)計的合理性,數(shù)量上則應(yīng)保持適度、保證用戶可以有效吸收消化,真正意義上解決“知識過載”問題。遵循基于科研知識圖譜的研究側(cè)寫生成方法與流程,結(jié)合圖譜計算驅(qū)動機制設(shè)計研究側(cè)寫系統(tǒng)方案,支持面向查詢的主題知識和文獻(xiàn)聚合及可視化展示,包含領(lǐng)域知識全景圖、熱點主題分析、維度側(cè)寫、高影響力專家推薦、側(cè)寫文檔生成與下載功能。

3.1 領(lǐng)域知識全景圖

可交互的領(lǐng)域知識全景圖旨在通過科研知識圖譜主題類揭示以查詢詞為核心的相關(guān)研究主題及內(nèi)在聯(lián)系,反映用戶查詢專題研究的總體概況(厘清主題內(nèi)重要知識節(jié)點的關(guān)系網(wǎng)狀圖),使其可以縱覽研究主題全貌?;陬I(lǐng)域知識模型對知識結(jié)構(gòu)進行可視化,包括是…的分支(multidisplineOf)、所屬學(xué)科(isKindOf)、應(yīng)用(application)、重要事件(keynode)等。以合成生物學(xué)專題為例,如合成生物學(xué)隸屬于生物科學(xué),是基因回路工程、生物技術(shù)等的重要分支,常應(yīng)用于細(xì)胞轉(zhuǎn)化、蛋白合成等場景。同時可提供鏈接互動功能,科研用戶在領(lǐng)域側(cè)寫圖內(nèi),可針對感興趣的主題/知識點進行點擊鏈接跳轉(zhuǎn)的方式進行定向的擴展部讀與了解,系統(tǒng)及時響應(yīng)生成該主題詞的知識全景圖。

3.2 熱點主題分析

研究主題的演化分析主要是揭示較長時間段內(nèi)領(lǐng)域?qū)n}的階段性發(fā)展重點及趨勢,可為科研主體進一步了解或確定研究方向提供支撐。側(cè)寫系統(tǒng)中的熱點主題分析主要是按時間周期統(tǒng)計文獻(xiàn)中標(biāo)引的主題詞頻并排序展示,通常給出Top 5的主題詞。以合成生物學(xué)為例,2018—2022年熱點主題除查詢詞以外,還有生物技術(shù)、基因回路、生物傳感器和系統(tǒng)生物學(xué)。從服務(wù)層面上看,展示的任一熱點主題可作為查詢詞進行擴展部讀,具體而言,用戶單擊任一主題詞即可跳轉(zhuǎn)至該主題詞的領(lǐng)域知識頁,相當(dāng)于主題詞查詢操作。

需要說明的是,對于臨近分析年份的潛在研究主題趨勢可基于文獻(xiàn)主題標(biāo)引過程中的新詞發(fā)現(xiàn)進行統(tǒng)計,克服文獻(xiàn)年份均衡性方面帶來的分析難題,這一過程的效率和準(zhǔn)確率嚴(yán)重依賴原始語料的規(guī)模、詞典質(zhì)量等,也需要大量的人工審核,更大規(guī)模的文獻(xiàn)處理時需要借助基于深度學(xué)習(xí)的新實體識別,也是未來研究的重點之一。

3.3 文獻(xiàn)維度側(cè)寫

文獻(xiàn)維度側(cè)寫主要是依據(jù)文獻(xiàn)的重要度打分展示主題詞維度及時間維度上的重要文獻(xiàn),以期為用戶提供最相關(guān)、最高質(zhì)量的文獻(xiàn),包括重要文獻(xiàn)推薦列表和文獻(xiàn)發(fā)展脈絡(luò)圖。

(1)重要文獻(xiàn)推薦列表。針對任一主題詞查詢頁面,提供依據(jù)文獻(xiàn)重要度排序的Top N(N=10/20/30)推薦論文,支持單擊跳轉(zhuǎn)至論文詳情頁查看元數(shù)據(jù)信息。

(2)文獻(xiàn)發(fā)展脈絡(luò)圖。支持查看查詢主題詞的文獻(xiàn)發(fā)展脈絡(luò),融合了專題知識及文獻(xiàn)信息并以可視化河流圖展示。以該主題詞相關(guān)所有文獻(xiàn)的出版時間跨度為橫軸,動態(tài)劃分為若干時間周期并展示各區(qū)間的重要文獻(xiàn),光標(biāo)所在之處顯示任一文獻(xiàn)的元數(shù)據(jù)及標(biāo)引的主題信息。為方便用戶的部讀設(shè)計時間分面,提供文獻(xiàn)詳細(xì)信息,包括主題詞、標(biāo)題、作者、語種、摘要、DOI,點擊DOI跳轉(zhuǎn)鏈接至原文,可實現(xiàn)文獻(xiàn)溯源或獲??;點擊文獻(xiàn)標(biāo)題可跳轉(zhuǎn)鏈接到系統(tǒng)本地數(shù)據(jù)庫的頁面瀏覽,查看更多元數(shù)據(jù),與常用文獻(xiàn)檢索頁協(xié)同。

未來可引入文獻(xiàn)間引用關(guān)系進行更多維度的分析展示,如文獻(xiàn)間的相互影響、觀點演化溯源等。

3.4 高影響力專家推薦

專家是推進專題研究發(fā)展的重要主體,高影響力專家的挖掘揭示可以輔助科研用戶跟蹤學(xué)術(shù)信息源,這一功能的實現(xiàn)主要是基于主題或主題子概念相關(guān)科技論文的作者影響力側(cè)寫數(shù)據(jù)(由h指數(shù)、篇均被引頻次等參數(shù)計算而來),可提供高影響力專家聯(lián)系信息,如ORCID、郵箱、單位地址等信息。

3.5 側(cè)寫文檔生成與下載

文檔格式仍是科研用戶部讀和存儲的主流形式,本文在重點調(diào)研分析部分中文核心期刊中綜述類科技論文格式的基礎(chǔ)上,歸納了研究側(cè)寫文本基本內(nèi)容模塊。研究側(cè)寫文檔生成可通過Apache插件POI(Poor Obfuscation Implementation)將特定的科研知識圖譜節(jié)點和邊嵌入預(yù)先編制的自然語言描述模板中,通過HWPF和XWPF端口實現(xiàn)Word文檔(doc和docx格式均可)的讀寫功能。研究側(cè)寫文檔主題內(nèi)容結(jié)構(gòu)主要包括標(biāo)題、摘要、章節(jié)和參考文獻(xiàn),其中章節(jié)涵蓋文獻(xiàn)數(shù)據(jù)源、專題知識結(jié)構(gòu)、主題演化分析、重要文獻(xiàn)發(fā)展脈絡(luò)、高影響力專家的圖文描述。科研知識圖譜與POI的匹配協(xié)同是通過調(diào)用圖數(shù)據(jù)庫Neo4j接口及POI接口實現(xiàn),以標(biāo)題的實現(xiàn)為例,POI通過接口讀取圖數(shù)據(jù)庫中面向關(guān)鍵詞查詢語義匹配得到的主題實例并書寫至Word文檔模板中指定的標(biāo)題位置,其他部分的實現(xiàn)原理也基本相似。

此外,可將側(cè)寫生成嵌入學(xué)術(shù)搜索引擎中的文獻(xiàn)檢索流程,即在文獻(xiàn)檢索頁面關(guān)鍵詞搜索時,若命中圖數(shù)據(jù)庫中主題詞,會在返回的文獻(xiàn)列表之外生成研究側(cè)寫入口,用戶通過點擊即可跳轉(zhuǎn)進行擴展部讀。

4 總結(jié)與展望

研究側(cè)寫是一種高效的多維度、全景式大規(guī)模科學(xué)文獻(xiàn)知識揭示方法,旨在提高學(xué)術(shù)內(nèi)容的可發(fā)現(xiàn)性和可用性。為實現(xiàn)科學(xué)文獻(xiàn)和領(lǐng)域知識的深度融合及學(xué)術(shù)資源的關(guān)聯(lián)發(fā)現(xiàn),本文設(shè)計了基于科研知識圖譜的研究側(cè)寫生成方法及系統(tǒng)方案,支持領(lǐng)域知識全景圖、熱點主題分析、重要文獻(xiàn)推薦列表、文獻(xiàn)發(fā)展脈絡(luò)圖、高影響力專家推薦、側(cè)寫文檔生成與下載等服務(wù)功能。該方法涉及名稱消歧、文獻(xiàn)重要度計算、主題標(biāo)引和知識計算等多種智能技術(shù),可一定程度克服以統(tǒng)計分析、可視化分析軟件等為主的研究側(cè)寫方法在主題挖掘深度、文獻(xiàn)和領(lǐng)域知識關(guān)聯(lián)方面的局限,實現(xiàn)領(lǐng)域內(nèi)主題結(jié)構(gòu)、文獻(xiàn)發(fā)展、科研主體等核心內(nèi)容的多角度挖掘。然而,本研究中科學(xué)文獻(xiàn)中的主題或?qū)嶓w識別主要通過主題標(biāo)引,知識抽取深度有所限制,未來預(yù)計使用深度學(xué)習(xí)方法進行大規(guī)模、細(xì)粒度知識的提取,并完善專家側(cè)寫、引入機構(gòu)層面?zhèn)葘憗砀倪M服務(wù)場景。此外,基礎(chǔ)數(shù)據(jù)學(xué)科范圍及時間跨度較大的情況下,也可衍生跨主題甚至跨領(lǐng)域的知識發(fā)現(xiàn),這是更為困難,也是極有價值的研究。

猜你喜歡
圖譜實體領(lǐng)域
繪一張成長圖譜
前海自貿(mào)區(qū):金融服務(wù)實體
中國外匯(2019年18期)2019-11-25 01:41:54
領(lǐng)域·對峙
青年生活(2019年23期)2019-09-10 12:55:43
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
補腎強身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
兩會進行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”
主動對接你思維的知識圖譜
新常態(tài)下推動多層次多領(lǐng)域依法治理初探
肯定與質(zhì)疑:“慕課”在基礎(chǔ)教育領(lǐng)域的應(yīng)用
巴塘县| 定边县| 曲沃县| 饶阳县| 博罗县| 北票市| 乃东县| 龙泉市| 香格里拉县| 花垣县| 昌平区| 东阳市| 商丘市| 余庆县| 云林县| 句容市| 广水市| 来宾市| 安岳县| 彭山县| 灵宝市| 钟山县| 丹江口市| 洪湖市| 成都市| 余干县| 原平市| 宣汉县| 柳林县| 德化县| 盈江县| 扶余县| 剑阁县| 时尚| 固镇县| 雅江县| 深水埗区| 青阳县| 竹山县| 鄱阳县| 清河县|