李紅芹 翟 軍
伴隨著信息技術(shù)的發(fā)展,科學出版物的數(shù)字訪問得到了提高,但科學研究的基本原則沒有變,文獻仍是主要的交流形式。內(nèi)容方面,科學文獻基本上是學術(shù)交流的唯一內(nèi)容,實驗數(shù)據(jù)、軟件和其他資料大多未提供。
現(xiàn)階段,以文獻為中心的科學研究能力已經(jīng)發(fā)揮到了極致,但在科學文獻檢索的全面性與高效性、同行評審的科學性和科學試驗的可重復性方面面臨著極大的考驗。美國國家科學基金會的統(tǒng)計報告顯示:2004年至2014年間,科學文獻幾乎翻了一番[1]。2018年全球發(fā)表的科學論文已達2 555 959篇,2008年至2018年間,每年增長約4%。2018年,中國超過美國和歐洲,成為全球最大的科研論文生產(chǎn)國。作為科研人員,要想弄清楚研究問題相關(guān)的所有論文、全局把握研究動態(tài)變得越來越困難,而文獻檢索的不全面可能導致科研的重復和低效。同樣的,作為評審人員,要想公正評價評審文章,也需借助文獻檢索,對研究內(nèi)容和已有研究成果全局把握。如此之快的發(fā)文增速導致尋找評審員和管理高質(zhì)量的同行評審過程很難。由此帶來的連鎖反應(yīng)就是原稿修訂時間和反饋周期不斷延長,文章發(fā)表期限被延期,進而出現(xiàn)研究成果在發(fā)表過程中變得過期無效[2],而科研人員始終無法獲取最新研究動態(tài)。針對科學試驗的可重復性,《自然》雜志對1576名不同領(lǐng)域的科研人員進行了在線網(wǎng)絡(luò)調(diào)查,52%的被調(diào)查者認為試驗可重復性是一個比較大的問題,超過70%的被調(diào)查者有過重復別人的試驗失敗的經(jīng)歷。當然,不同領(lǐng)域的情況也不相同,心理學和腫瘤生物學文獻的可重復性分別只有40%和10%[3]。計算機科學正在通過使用開源軟件、發(fā)布源代碼并允許他人使用來提高可重復性??茖W試驗的可重復性危機降低了科研的進展效率。
科學文獻檢索低效的根源在于基于文獻的科學研究機制不允許清晰地識別概念及其關(guān)系??蒲泄ぷ髡咄ㄟ^關(guān)鍵字查找所需文獻,但機器無法識別隱藏在文獻中的概念、術(shù)語和研究方法,科研工作者需要花費大量的時間來進行文獻檢索,從成百上千甚至成千上萬篇文獻中找到與研究內(nèi)容直接相關(guān)的文獻,然后通過閱讀在頭腦中建立自己的知識圖譜,在此基礎(chǔ)上與之互動。由此可見,基于關(guān)鍵字的信息檢索無法滿足數(shù)字時代科學研究的要求,解決這個問題的關(guān)鍵是如何借助機器實現(xiàn)文獻的高效檢索。
知識圖譜可以將文獻中隱含的信息結(jié)構(gòu)明確表示且直接可用,通過表達和表示結(jié)構(gòu)化、互連和語義豐富的信息,實現(xiàn)將以文獻為中心的科學研究信息流轉(zhuǎn)換成基于知識的信息流[4],使得科學信息和搜索結(jié)果無縫互聯(lián),研究結(jié)果直接可比且易使用,更好地滿足科研工作者的信息需求。當前,科學研究生態(tài)系統(tǒng)中的一些可用基礎(chǔ)設(shè)施已經(jīng)使用知識圖譜來增強其服務(wù),如學術(shù)搜索引擎。微軟學術(shù)知識圖(Microsoft Academic Knowledge Graph)[5]或文獻圖(Literature Graph)采用基于元數(shù)據(jù)的圖結(jié)構(gòu)將基于引用、共享作者、地點和關(guān)鍵字的研究文章鏈接起來。國外學術(shù)交流社區(qū)已啟動的關(guān)系密切的項目包括:RESEARCH GRAPH旨在鏈接研究對象,尤其是發(fā)表物、數(shù)據(jù)集、研究人員檔案[6];OpenAIRE[7]計劃將研究文章與數(shù)據(jù)集、源代碼、軟件和演示視頻等研究資料相鏈接;學術(shù)鏈接交換Scholix項目[8]旨在將學術(shù)文獻和發(fā)布者、數(shù)據(jù)存儲者、基礎(chǔ)設(shè)施如DataCite、Crossref和openAIRE等鏈接信息標準化。國內(nèi),白如江等定義了科學事件的實體及其關(guān)系,構(gòu)建了科學事件知識圖譜[9],研究重點是放在文獻的發(fā)布信息上,沒有深入到文獻內(nèi)容,如研究問題、研究方法、研究結(jié)果等。王月等提出了構(gòu)建科研數(shù)字資源平臺的整體架構(gòu)及其技術(shù)路線,將科研活動中產(chǎn)生的各種資源,包括文本、圖像、音視頻、模型和實驗數(shù)據(jù)等放到平臺上,為科學研究發(fā)展提供數(shù)據(jù)支撐[10]。然而,目前知識圖譜在科學研究中的應(yīng)用仍局限于百科全書式的事實信息描述,許多工作集中在書目元數(shù)據(jù)表示和管理,對學術(shù)文獻中的科學信息交流的形式化表示關(guān)注較少。本文以德國開放研究知識圖譜為例,介紹如何在開放研究中構(gòu)建知識圖譜。
LISA E和WOLFRAM W討論了“知識圖譜”這一術(shù)語,并基于當前科學研究工作的分析提出了“知識圖譜獲取并集成信息到本體中,并應(yīng)用推理機得到新的知識”[11]的定義并將之應(yīng)用于科學研究中,認為“科學知識圖譜獲取和集成科學知識庫中的信息,并應(yīng)用推理機或其他計算方法來獲取新信息?!笨茖W知識圖譜不僅包含書目元數(shù)據(jù)(如作者、會議、參考文獻),同時也包含了學術(shù)貢獻的語義描述(如研究問題、方法、解決方案、實現(xiàn)、評估)。另外,科學知識圖譜的構(gòu)建采用了眾包的方法,通過啟動一個開源軟件項目創(chuàng)建科學知識圖譜的原型,然后將模型放到開源社區(qū)使其開放可獲取,允許科研工作者、圖書管理員、評審員等自行加載文獻信息到知識圖譜,建立自己的研究與其他研究方法的鏈接。JARADEH等的研究[12]表明,作者愿意為他們的研究文章的描述貢獻相關(guān)服務(wù)。由于項目是開放可獲取的,以眾包的方式完成圖譜的填充,因此這個知識圖譜被稱為開放研究知識圖譜(Open Research Knowledge Graph,ORKG)[13]。開放研究知識圖譜以開放和透明的方式提供、交換和鏈接科學知識,是以機器可操作的方式表示、管理和探索學術(shù)知識的基礎(chǔ)設(shè)施。早在2013年,我國學者曾建勛就曾提出構(gòu)建開放式知識鏈接服務(wù)體系,認為其將成為下一步知識服務(wù)的關(guān)鍵業(yè)務(wù),可實現(xiàn)全球不同類型知識資源的無縫、開放的鏈接。
德國開放研究知識圖譜由漢諾威萊布尼茲大學的數(shù)據(jù)科學和數(shù)字圖書館教授、TIBLeibniz信息科學和技術(shù)中心主任SOREN A博士主持。SOREN A博士因其研究工作“科學圖譜——基于知識圖譜的學術(shù)交流表示、擴充和探索”獲得了歐洲研究委員會(ERC)的鞏固基金支持。項目設(shè)在萊布尼茨“數(shù)據(jù)科學與開放知識”聯(lián)合實驗室,由漢諾威萊布尼茲大學第三研究中心、TIB(Technische Informationsbibliothek) 和 InfAI(Institut für Angewandte Informatik)合作完成。研究周期為五年,從2019年5月1日至2024年4月30日。現(xiàn)有的科學研究知識圖譜側(cè)重于特定領(lǐng)域、管理元數(shù)據(jù)和搜索文獻的插件。項目組設(shè)計的知識圖譜愿景是通過文獻內(nèi)容的深度語義表示實現(xiàn)文獻間的鏈接,從而支持進一步的探索。項目的目標是開發(fā)一個新的模型,通過語義豐富、相互關(guān)聯(lián)的知識圖譜來表達和鏈接學術(shù)貢獻和相關(guān)的研究資料,以基于知識的方式來表示、分析、增強和開發(fā)科學研究。
體系結(jié)構(gòu)涉及多個方面,從定義數(shù)據(jù)模型,呈現(xiàn)資源,到通過API展示系統(tǒng)?;贠RKG的需求,項目組將體系結(jié)構(gòu)分為前端和后端兩大部分,具體如圖1所示。
圖1 ORKG體系結(jié)構(gòu)[14]
后端采用層次結(jié)構(gòu),包括應(yīng)用程序?qū)樱I(lǐng)域?qū)雍统志脤覽14-16]。作為體系結(jié)構(gòu)的最底層,持久層負責存儲數(shù)據(jù)。知識圖譜存儲需要實現(xiàn)能夠隨著時間的推移實現(xiàn)知識圖譜的演化(如添加新的知識類型),并以高效的方式訪問圖譜中的知識。持久層抽象數(shù)據(jù)存儲通過LPG、三元組存儲和關(guān)系數(shù)據(jù)庫存儲技術(shù)實現(xiàn),每種技術(shù)都有特定的用途。所有插入到知識圖中的數(shù)據(jù)將通過對特定存儲技術(shù)不敏感的持久層進行持久化。領(lǐng)域?qū)影⒅R圖譜的領(lǐng)域模型(如陳述、資源和文本),身份驗證,以及授權(quán)組件。需要注意的是,版本控制和溯源信息也是領(lǐng)域模型的一部分,溯源信息包括創(chuàng)作時間和作者,如一個實體何時由誰創(chuàng)建,以便跟蹤存儲數(shù)據(jù)的變化。身份驗證允許用戶使用單獨的工作單簽名進入ORKG,如ORCID,減少輸入障礙,促進合作。授權(quán)組件可實現(xiàn)復雜的角色管理,ORKG通過角色管理可實現(xiàn)各類用戶的授權(quán)。應(yīng)用層提供了與外部世界交流的端口,方便用戶界面訪問知識圖譜中的信息。REST API通過連接學術(shù)知識貢獻,引用和探索的特征和服務(wù),為前端知識圖譜可視化提供數(shù)據(jù)支持。ORKG還可通過REST API發(fā)送HTTP請求進行數(shù)據(jù)的修改和查詢,從而允許其他應(yīng)用與數(shù)據(jù)庫交流。其他可能的適配器包括SPARQL端點和GraphQL接口。業(yè)務(wù)邏輯的RDF導入和導出支持LPG和三元組存儲之間的數(shù)據(jù)同步,使得SPARQL和推理有效,處理查詢、更新并在數(shù)據(jù)庫中創(chuàng)建內(nèi)容的請求。
前端用戶界面負責查詢和顯示知識圖的數(shù)據(jù),項目組借鑒WikiData項目——基于中心社區(qū)創(chuàng)建的Wikipedia數(shù)據(jù)管理平臺的設(shè)計經(jīng)驗,目標是為用戶提供一個向?qū)В糜谥笇в脩魟?chuàng)建以圖形為基礎(chǔ)的研究貢獻表示,支持靈活性,可由用戶自定義域特定的交互。用戶界面設(shè)計的關(guān)鍵要求包括:(1)易用性,允許使用者在不了解系統(tǒng)需求的情況下使用系統(tǒng);(2)動態(tài)性,允許用戶最大程度控制數(shù)據(jù)引用,對所選學術(shù)數(shù)據(jù)進行調(diào)整;(3)查詢便捷性,知識圖譜不需要注冊即可查詢。
根據(jù)JEFF Z.P等[17]提出的大型組織開發(fā)知識圖譜的生命周期,知識構(gòu)建包括需求分析、知識建模和知識填充三個方面。
2.2.1 ORKG需求分析
需求分析是設(shè)計決策和方法選擇的基礎(chǔ),項目組遵循設(shè)計科學研究(DSR)方法論[18],通過研究系統(tǒng)文獻綜述指南[19],采訪計算機科學和環(huán)境科學領(lǐng)域的軟件工程師和研究人員,設(shè)計構(gòu)建ORKG的方法,最后由ORKG團隊成員對提出的需求和方法進行了評審[20]。項目組通過識別用例(如文獻回顧、剽竊檢測、同行評議)和利益相關(guān)者(如科研人員、圖書管理員、評審員、公眾)展開分析,具體需求如圖2所示[20]。
圖2 ORKG需求分析
圖2中的ORKG具體需求包括:(1)為了滿足研究人員能夠搜索或瀏覽到關(guān)心的研究領(lǐng)域,支持研究人員獲得研究領(lǐng)域的最新概況,系統(tǒng)應(yīng)以結(jié)構(gòu)化的方式維護此類調(diào)查。(2)研究人員在對相關(guān)工作提出相關(guān)研究文章查詢,進行細粒度或廣泛的搜索時,系統(tǒng)最好支持自然語言查詢方式,通過語義搜索和問答引擎返回一組相關(guān)文章。(3)在以文件為核心的學術(shù)交流中,給定一組相關(guān)文章來評估研究者是否感興趣時,需基于語義描述特性的分面深入方法以結(jié)構(gòu)化的方式向研究人員展示文章中最重要的區(qū)域,如研究問題、采用的方法或材料,或研究結(jié)果,將使研究人員能夠快速篩選和放大最相關(guān)的文獻。(4)為了解決特定的研究問題,系統(tǒng)應(yīng)支持研究人員從研究文章中提取詳細信息并在表格中顯示提取表單和文章的提取信息。(5)當研究者專注于某一特定文章時,系統(tǒng)應(yīng)推薦更多相關(guān)文章,例如解決相同研究問題或采用類似方法的文章。(6)系統(tǒng)在幫助研究人員深入理解研究文獻時,應(yīng)將文獻與會議視頻、演示文稿、源代碼、數(shù)據(jù)集等鏈接起來,并適當?shù)乜梢暬?。文本段落也可以相互鏈接,如維基百科中的方法解釋、算法或公式的源代碼。(7)系統(tǒng)應(yīng)提供搜索鏈接,以再現(xiàn)研究結(jié)果所需的所有事實,如數(shù)據(jù)集、源代碼、虛擬研究環(huán)境、研究材料等。
2.2.2 ORKG知識建模
如LISA E和WOLFRAM W[11]所述,本體是知識圖譜的核心元素,作為圖譜輸入而獲得的所有信息都集成到了圖譜背后潛在的本體網(wǎng)絡(luò)中。因此,本體是科學研究形式化的基礎(chǔ)和核心要素。本體設(shè)計主要從領(lǐng)域?qū)I(yè)化和粒度兩方面考慮:領(lǐng)域?qū)I(yè)化從本體中的概念應(yīng)該如何具體化出發(fā),采用領(lǐng)域無關(guān)還是領(lǐng)域特定的本體設(shè)計方法[21];本體的粒度則是從學術(shù)知識概念化需要哪種粒度考慮本體設(shè)計。
盡管已經(jīng)有一些覆蓋科學研究過程的本體論研究,然而,對于一些基本問題,如“學術(shù)交流的內(nèi)容是什么”“研究貢獻的重要組成部分是什么”,這類很難回答,也很難形式化。因此,項目組決定將“研究貢獻”作為本體論的頂級,定義詳細的知識工程流程,用于開發(fā)可用于科學圖譜基礎(chǔ)結(jié)構(gòu)以支持存儲查找信息的領(lǐng)域本體論。“研究貢獻”(Research Contribution)是ORKG的核心對象,與研究問題(Research Problem)、研究方法(Research Method)和研究結(jié)果(Research Result)相關(guān)。當前,對于這些資源的描述不做限制,用戶可以采用任何的第三方詞匯來描述問題、方法和結(jié)果。此外,為了支持溯源和論述,項目組計劃重用PROV本體和文檔組件本體[22]。
2.2.3 ORKG知識填充
知識填充需考慮三個方面的問題:一是實例數(shù)據(jù)的選?。欢侨绾螌崿F(xiàn)數(shù)據(jù)轉(zhuǎn)換;三是數(shù)據(jù)鏈接。
實例數(shù)據(jù)選取從覆蓋范圍和質(zhì)量兩方面考慮:實例數(shù)據(jù)的覆蓋范圍是指給定一個本體,在多大程度上能將研究文獻中的所有可能實例都用知識圖譜表示?如果所有實例都存在,那么該本體的實例數(shù)據(jù)將具有很高的覆蓋率。實例數(shù)據(jù)的質(zhì)量是指給定一個本體,對應(yīng)的實例需要什么質(zhì)量?高質(zhì)量的知識圖譜中,所有實例都應(yīng)符合本體論,并適當反映研究文獻的內(nèi)容。
知識圖譜的填充通常需要集成多種異構(gòu)數(shù)據(jù)源,常用方法是使用聲明性映射建立數(shù)據(jù)源和本體間的關(guān)系。然而,創(chuàng)建映射不是一項簡單的任務(wù),通常由專家執(zhí)行。為了簡化映射創(chuàng)建,項目組采用了在科學界常用的工具——電子表格,以確定語言獨立的映射規(guī)則。使用者可以在不知道任何映射語言的情況下創(chuàng)建規(guī)則,電子表格緊湊的結(jié)構(gòu)允許快速可視化所有規(guī)則。項目組通過一個真實的用例Bio2RDF項目,驗證了電子表格有助于映射創(chuàng)建和啟用映射規(guī)則的編輯和可視化[23]。
數(shù)據(jù)鏈接方面,為了使用其他元數(shù)據(jù)豐富ORKG數(shù)據(jù),可以從其他源加載或鏈接數(shù)據(jù),如 DataCite、Crossref、WikiData。數(shù)據(jù)鏈接的關(guān)鍵是有連接點,如DOI,ORCID等。
2.2.4 知識圖譜構(gòu)建方法
通過分析ORKG的需求、知識建模和知識填充方法,可得出ORKG適用的構(gòu)建方法,分析過程如表1。表1上半部分討論了ORKG需求在本體的領(lǐng)域?qū)I(yè)化和粒度,實例數(shù)據(jù)的覆蓋率和質(zhì)量四個維度方面的具體要求,并根據(jù)實際要求分成了高、中、低三個層次。下半部分對每種需求的手動和自動構(gòu)建過程進行了考察,檢查構(gòu)建過程的每個步驟是否適用于需求?!癤”表示步驟適用于需求;“(X)”表示步驟不適合需求,應(yīng)采用人工監(jiān)督。
表1 ORKG功能性需求與非功能性需求之間的對應(yīng)關(guān)系及其構(gòu)建方法[20]
下面從具體需求來展開分析。(1)提取相關(guān)信息并獲取研究領(lǐng)域概述:從相關(guān)研究文章中提取的數(shù)據(jù)是異構(gòu)的,高度依賴于研究者的意圖和研究問題。因此,本體必須是特定領(lǐng)域和細粒度的,以提供各種可能的理想信息。此外,所提供的信息必須是高質(zhì)量的。覆蓋率要求較低,對于研究人員來說,在圖譜中缺少某些問題的信息是可以容忍的。(2)獲得深入理解并再現(xiàn)結(jié)果:為這些需求提供的信息必須是高質(zhì)量的(如到數(shù)據(jù)集、源代碼、視頻、文章的準確鏈接)。用于表示相關(guān)資料的本體可以獨立于領(lǐng)域,覆蓋率要求低,缺少某些信息是可以容忍的。(3)發(fā)現(xiàn)相關(guān)工作并獲得推薦文章:在搜索相關(guān)工作時,一定不能漏掉相關(guān)文章。先前的研究表明,超過一半的搜索引擎存在著較高的靈敏度和生態(tài)科學度。通過搜索知識圖譜改進搜索結(jié)果的級別,因此,發(fā)現(xiàn)相關(guān)工作需求應(yīng)具有較高的覆蓋率,且具有較高的細粒度。由于研究者無法忍受研究結(jié)果的不完善性,低質(zhì)量的信息實例數(shù)據(jù)是可接受的。此外由于潛在的特征表示,本體可以與領(lǐng)域無關(guān)。即本體的特征表示、細粒度的科學實體和非完美的推薦是可以容忍的。(4)評估相關(guān)性:為了幫助研究人員根據(jù)自己的需要評估文章的相關(guān)性,系統(tǒng)應(yīng)突出文章中最基本的信息,以便快速獲得概述。所提供信息的覆蓋范圍和質(zhì)量不能太低,否則可能會影響用戶的判斷。然而,它可能是次優(yōu)的,當一些突出顯示的信息不是必需的或當一些重要信息丟失時,研究人員是可接受的。表示基本信息的本體應(yīng)該是特定領(lǐng)域的。
基于上述分析,項目組將需求分為兩組:第一組要求高質(zhì)量和高領(lǐng)域?qū)I(yè)化,但對覆蓋率要求很低(表1中的提取相關(guān)信息、研究領(lǐng)域概述、深度理解和再現(xiàn)結(jié)果);第二組要求高覆蓋率,但對質(zhì)量和領(lǐng)域?qū)I(yè)化的要求很低(表1中的發(fā)現(xiàn)相關(guān)工作、獲取推薦文章和評估相關(guān)性)。
具體構(gòu)建方法上,完全人工控制的時間太長,自動化程序不能達到必要的覆蓋范圍和精度。而且,圖書館員和信息科學家缺乏領(lǐng)域?qū)I(yè)知識,領(lǐng)域?qū)<胰狈χR表示方面的知識。為了把各種策略結(jié)合起來,充分發(fā)揮各自優(yōu)勢來容忍和彌補各自的不足,項目組設(shè)計了表1下半部分的分析表格。經(jīng)過分析,項目組認為第一組適合手工管理,第二組適合自動管理,通過在用戶界面中提供建議來補充手動管理。
手工管理的本體設(shè)計需要特定領(lǐng)域的細粒度的本體。項目組建議開發(fā)新的或重用的本體,以滿足各自的用例和特定的領(lǐng)域,可以在社區(qū)的幫助下發(fā)展,采用元建模,通過模板的元模型定義具體的模板,然后將其實例化。手工管理的知識圖譜填充需要借助用戶界面來實現(xiàn)手動填充,適當和簡單的用戶界面對于高效和方便的訪問是必要的。具體過程包括:(1)術(shù)語管理(例如特定研究領(lǐng)域);(2)通過定義相關(guān)模板來方便填充研究文章的語義內(nèi)容;(3)通過選擇研究文獻對應(yīng)的模板和填寫文獻的信息將相關(guān)研究文章分配給研究領(lǐng)域;(4)維護研究領(lǐng)域概述。此外,系統(tǒng)還提供API以支持第三方應(yīng)用程序的填充,例如:(1)提交文獻的門戶網(wǎng)站,如easychair.org;(2)作者創(chuàng)作時使用的軟件;(3)虛擬研究環(huán)境[24],用于在實驗和數(shù)據(jù)分析期間存儲評估結(jié)果以及與數(shù)據(jù)集和源代碼的鏈接等。
自動管理的本體設(shè)計可開發(fā)或重用相當簡單且與領(lǐng)域無關(guān)的本體,其中知識圖譜填充可以使用多種方法完成自動填充,其中實體和關(guān)系提取方法有助于用高覆蓋率填充細粒度的知識圖譜;實體鏈接方法可以將文本中的實體鏈接;科學文本的語句分類方法可以從語句層面提取相關(guān)信息。為了半自動地支持模板填寫,還可以為研究文章抽取相關(guān)模板并預先填寫相關(guān)信息。對于預填充,可以使用諸如用于排行榜構(gòu)建的自然語言推理或端到端問答的方法。此外,系統(tǒng)還支持為某些科學領(lǐng)域開發(fā)的外部信息提取器,以提取特定類型的信息。
知識應(yīng)用通過提供各種各樣的組件,使終端用戶更容易訪問存儲在圖譜中的知識,從而提高知識圖譜的利用率和服務(wù)效果。ORKG提供了基本的搜索服務(wù),可按照論文、研究問題、作者、比較、資源、地方、謂詞實現(xiàn)分類檢索,并提供檢索結(jié)果的按類顯示。下面介紹ORKG的特色應(yīng)用。
在進行科學研究時,尋找和比較文獻是一項重要活動。自動比較研究文獻是ORKG的主要特性之一。ORKG利用圖譜中存儲的文獻信息及其研究貢獻,基于結(jié)構(gòu)化和可比較的描述,可實現(xiàn)學術(shù)文獻中針對特定問題的貢獻比較。例如,利用計算機科學中排序算法的最佳、平均、最壞情況性能進行比較研究。比較研究貢獻提供了有關(guān)數(shù)十或數(shù)百篇文獻中的再搜索問題的關(guān)鍵信息的概述,是一種有價值的工具。
ORKG將比較研究貢獻任務(wù)分解為四個子任務(wù)[25]:(1)選擇比較候選。有兩種不同的方法來選擇比較資源,第一種自動選擇基于相似性的比較資源,貢獻相似度是發(fā)現(xiàn)或推薦可比較的貢獻的關(guān)鍵特性[26];第二種方法是人工添加資源。使用者可以利用右上方的“Add to comparison”功能人工添加資源。(2)選擇相關(guān)陳述。選擇上一步驟中返回的與用于比較的資源相關(guān)的陳述,陳述被傳遞性地選定,以匹配主體和客體。執(zhí)行搜索,直到達到預定義的最大傳遞深度。規(guī)律是屬性被嵌入的深度越深,比較的相關(guān)性越低。(3)映射屬性。文獻中經(jīng)常會出現(xiàn)用不同的屬性描述相同概念的情況,ORKG通過FastText[27]來確定屬性的相似性,映射屬性的執(zhí)行結(jié)果是返回每個比較資源的陳述列表。(4)可視化比較。以人類可理解的形式展示數(shù)據(jù),其中表單是最適合可視化比較的。另外,可視化比較還需考慮哪些屬性應(yīng)該顯示或考慮結(jié)果表現(xiàn)的可能形式。由于使用了基于相似性的屬性匹配和預定義閾值,用戶能夠啟用或禁用屬性,獲得關(guān)于屬性來源的反饋,實現(xiàn)手動修正系統(tǒng)問題,獲得更好的用戶體驗。項目組使用了不同數(shù)量的論文來測試系統(tǒng),獲取單篇文章的相關(guān)研究貢獻是60ms,表明ORKG可以處理大量的學術(shù)知識。下文展示了ORKG比較研究貢獻在COVID-19中的應(yīng)用。
2020年4月24日至26日,由生物化學、神經(jīng)科學領(lǐng)域?qū)<摇④浖_發(fā)、人工智能和自然語言處理專家組成的“TIB ORKG”參加了歐盟委員會舉辦的EUvsVirus泛歐黑客馬拉松,挑戰(zhàn)計劃是“開放研究知識圖譜中的COVID-19生物測定”[28],目標是“允許科學家使用他們的注釋生物測定輕松搜索相似的測定,并基于相似的特征比較數(shù)據(jù)存儲中各種生物測定。”TIB ORKG的研究成果如圖3所示。
圖3 基于關(guān)鍵特性和價值的COVID-19生物測定的結(jié)構(gòu)化比較[28]
參與比較的文獻有6篇,比較屬性包括保存日期、試驗方式、試驗方法、是否是實證分析等20個,如前所述,研究人員可以根據(jù)研究需求選擇參與比較的屬性,還可增加新的貢獻參與比較。這些屬性在非結(jié)構(gòu)化文檔中都是隱藏在內(nèi)容中,需要研究人員自己閱讀挖掘的,通過ORKG不但可以直觀顯示,還可與其他文獻進行比較。研究貢獻可以輸出為PDF、CSV、RDF、LaTex格式,滿足研究人員多方面的使用需求??梢赞D(zhuǎn)置比較表,可以共享比較鏈接,還可以發(fā)布遵循FAIR原則(Findable可查找、Accessible可訪問、Interoperable可互操作、Reusable可重復使用)的比較[29]:已發(fā)布的比較將向其他用戶公開,比較的狀態(tài)被保存并創(chuàng)建一個持久鏈接。比較貢獻的設(shè)計充分體現(xiàn)了ORKG易用性、動態(tài)性的設(shè)計思想。除此之外,ALLARD O等人還利用ORKG展示了如何組織COVID-19基本繁殖數(shù)[30]。
圖形視圖是一個用于圖形數(shù)據(jù)可視化探索的高級用戶界面,提供了一種與知識圖譜內(nèi)容交互的方式,它包含一系列使高度結(jié)構(gòu)化圖形數(shù)據(jù)的探索直觀的強大功能。由于ORKG是一個知識圖譜,因此文獻和研究貢獻描述可以可視化為一個圖。點擊圖3中的文章名,即可瀏覽文章,并進行圖形可視化,如圖4所示。
圖4 ORKG圖形可視化
ORKG圖形可視化以文獻為中心,研究貢獻和基本信息作為其下級節(jié)點展示,可通過Depth設(shè)置顯示深度,圖形在屏幕上自動優(yōu)化排列。節(jié)點可以很容易地展開、折疊或移除。此外,用戶還可在圖中搜索信息。圖4中顯示的文獻是利用SEIR模型估計的COVID-19在中國各個省份的具體發(fā)展情況,每個省份的研究數(shù)據(jù)作為一個研究貢獻,因此研究貢獻包含31個[31]。每個研究貢獻的描述包括研究方法、研究問題、研究日期、數(shù)據(jù)來源、地點、估計的案例數(shù)、報告的案例數(shù),這些之前被隱藏在非結(jié)構(gòu)化文章中的信息以可視化形式展現(xiàn)出來,用戶不需下載即可獲取文章內(nèi)的重點信息。
除了生命科學領(lǐng)域,ORKG在地球科學領(lǐng)域也得到了積極應(yīng)用,并在文獻的可再現(xiàn)性方面取得了研究進展[32]。Matti研究小組將他們的數(shù)據(jù)分析從本地計算環(huán)境(研究人員的工作站)轉(zhuǎn)移到D4Science虛擬研究環(huán)境(VRE)中。VRE使研究人員能夠集中精力分析數(shù)據(jù),從而解決科學問題,而基礎(chǔ)設(shè)施則負責其他一切。(1)將數(shù)據(jù)加載到計算環(huán)境中以進行后續(xù)分析;(2)根據(jù)相關(guān)詞匯表示數(shù)據(jù)及其在分析中導出的語義;(3)系統(tǒng)地獲取基礎(chǔ)設(shè)施中的衍生數(shù)據(jù),并將其登記在目錄中[33]。圖5顯示了Matti看到的Jupyter notebook,用來決定事件是否在給定的日期和地點發(fā)生,并描述事件的屬性。它演示了如何將數(shù)據(jù)分析作為一種基于Web的服務(wù)公開給研究人員,同時在可互操作的研究基礎(chǔ)設(shè)施上建立科學數(shù)據(jù)分析的未來原型。
圖5 JupyterLab提供的支持數(shù)據(jù)分析的Jupyter notebook[33]
從科學文獻中檢索答案是一項復雜的任務(wù)。人工檢索學術(shù)問題是麻煩的、耗時的。因此,需要一種自動回答有關(guān)科學內(nèi)容問題。ORKG設(shè)計了一個名為JarvisQA的問答系統(tǒng),它可以回答自然語言中關(guān)于學術(shù)知識圖譜的表格視圖的問題,具體的表格視圖包含來自科學文獻的研究貢獻信息,從而幫助研究者、圖書管理員和普通用戶以比傳統(tǒng)信息檢索方法更高的準確率查詢答案[34]。
JarvisQA系統(tǒng)由Table2Text(T2T)轉(zhuǎn)換器和QA核心引擎組成。T2T轉(zhuǎn)換器將表格信息轉(zhuǎn)換為文本描述(僅表示表中包含的信息,而不是文章的整個原始文本)。QA核心引擎使用T2T轉(zhuǎn)換器提供的上下文(表格的文本描述)對問題進行推理,并嘗試回答問題。圖6展示了結(jié)構(gòu)化學術(shù)貢獻描述的表格比較視圖。此外,還顯示了與比較表內(nèi)容相關(guān)的三個問題。問題的答案隱式或顯式地提供在表格中。JarvisQA可以回答不同類型的問題。對于第一個問題,答案與問題直接相關(guān)。對于第二個問題,系統(tǒng)首先在表中查找“knowledge representation”,然后從中找到查找出現(xiàn)頻率最多的值。對于第三個問題,首先在表格中找到另一條信息(即JarvisQA必須首先在表格中找到“RASH”),然后將搜索范圍縮小到該篇論文以找到正確答案。
圖6 ORKG問答系統(tǒng)——JarvisQA運行效果圖[34]
項目組還通過實證研究驗證了JarvisQA的效果,JarvisQA在精確性、召回率和F1評分方面優(yōu)于其他基線,但其代價是執(zhí)行時間和內(nèi)存要求更高。此外,JarvisQA還不能回答所有類型的問題,答案僅限于表中的信息(抽取法),在處理跨表信息提取、回答正確/錯誤的問題時會遇到困難。
數(shù)據(jù)通過發(fā)送HTTP請求查詢,返回JSON格式的結(jié)果[35],這允許其他應(yīng)用與數(shù)據(jù)庫交流,以超越項目組預期的方式處理數(shù)據(jù)。這種分離也可能導致項目在開發(fā)中有更多的靈活性。REST API遵守標準的HTTP和REST約定,當前已經(jīng)實現(xiàn)的操作包括GET(獲取資源)和POST(創(chuàng)建資源),具體操作見表2。
表2 ORKG的REST API操作
REST API操作的對象包括Statements(陳述)、Classes(類)、Resources(資源)、Predicates(謂詞)、Literals(文本)五類。其中,Statements表示知識圖譜中的一種語句,類似于RDF三元組。與真實語句類似,由主體、謂詞和客體組成。主體和客體表示圖中的節(jié)點,由資源構(gòu)成,客體也可以是文本值,謂詞表示圖中的邊(關(guān)系)。資源和謂詞由ID標識,陳述可以通過ID引用,以便存儲和檢索它們的溯源信息。陳述的操作包括所有陳述的列表(list)、根據(jù)ID查找陳述(fetch)、查找與給定主體相關(guān)的陳述(lookup statements by subject)、查找與給定謂詞相關(guān)的陳述(lookup statements by predicate)、創(chuàng)建陳述(create)。Classes表示知識圖譜中的概念,可附加到資源,以指示資源所屬的類。類的操作包括所有類的列表(list)、根據(jù)ID查找類(fetch)、查找給定標簽對應(yīng)的類(lookup a class by label)、創(chuàng)建類(create)。Resources表示知識圖譜中的節(jié)點,可以作為陳述的主體或客體。資源的操作包括所有資源的列表(list)、根據(jù)ID查找資源(fetch)、查找給定標簽對應(yīng)的資源(lookup a resource by label)、創(chuàng)建資源(create)。Predicates表示知識圖譜中的邊(節(jié)點之間的關(guān)系),謂詞的操作包括所有謂詞的列表(list)、根據(jù)ID查找謂詞(fetch)、查找給定標簽對應(yīng)的謂詞(lookup a resource by label)、創(chuàng)建謂詞(create)。Literals表示知識圖譜中的節(jié)點,可以作為客體,文本的操作包括所有文本的列表(list)、根據(jù)ID查找文本(fetch)、查找給定標簽對應(yīng)的文本(lookup a resource by label)、創(chuàng)建文本(create)。
科學研究水平是綜合國力的重要組成部分,國務(wù)院辦公廳印發(fā)《科學數(shù)據(jù)管理辦法》指出,應(yīng)積極推進科學數(shù)據(jù)的開發(fā)利用和開放共享。當前,建立開放、共享、高效的科學數(shù)據(jù)平臺已成為國內(nèi)外加強科學數(shù)據(jù)應(yīng)用效率和提高科研能力的研究熱點。多國已經(jīng)建立科學數(shù)據(jù)服務(wù)平臺并展開了合作。如國際虛擬天文臺聯(lián)盟、美國國家地理數(shù)據(jù)中心、日本社會科學數(shù)據(jù)存檔中心、我國的國家科技管理信息系統(tǒng)公共服務(wù)平臺等。開放研究知識圖譜為科學數(shù)據(jù)平臺的建設(shè)提供借鑒。此外,現(xiàn)有的學術(shù)交流激勵措施(如引文、h/i-10索引、影響因子)都是以文獻為中心,顯然我們需要基于科學知識圖譜的貢獻的激勵模型。以知識圖譜為中心的評估方法是對學術(shù)貢獻進行更準確評估的機會。