陳寶發(fā), 任 妮
(1.江蘇大學(xué)科技信息研究所,江蘇鎮(zhèn)江 212013; 2.江蘇省農(nóng)業(yè)科學(xué)院信息中心,江蘇南京 210014)
農(nóng)業(yè)作為國家的第一產(chǎn)業(yè),是國民經(jīng)濟中一個重要的產(chǎn)業(yè)部門,支撐著國民經(jīng)濟的建設(shè)和發(fā)展,農(nóng)業(yè)學(xué)者則是一個國家農(nóng)業(yè)發(fā)展水平的重要推動力,在農(nóng)業(yè)科技的生產(chǎn)創(chuàng)造、傳播和應(yīng)用等方面發(fā)揮著不可替代的作用。然而農(nóng)業(yè)學(xué)者的專業(yè)領(lǐng)域與科研成果卻散落在互聯(lián)網(wǎng)的各個角落,并沒有完善的一體化組織系統(tǒng),不利于農(nóng)業(yè)科研和生產(chǎn)活動的知識回顧與創(chuàng)新。隨著學(xué)術(shù)信息化建設(shè)的不斷進步,互聯(lián)網(wǎng)上公開的學(xué)者信息也在不斷完善,人們不僅對搜索不同類型的學(xué)術(shù)信息感興趣,如論文、期刊、作者等信息,對基于語義的信息搜索需求也日益增長,如結(jié)構(gòu)化的學(xué)者簡介、學(xué)術(shù)成果的主題分類等?,F(xiàn)有的學(xué)術(shù)信息檢索工具,如中國知網(wǎng)、百度學(xué)術(shù)和科研之友等平臺大多只是對學(xué)術(shù)成果的簡單羅列,而缺少基于文獻細粒度的語義信息;對學(xué)者信息的展示往往缺少簡介信息,或是未能將簡介信息結(jié)構(gòu)化、立體化地組織起來,最終導(dǎo)致不能建立起統(tǒng)一的學(xué)術(shù)網(wǎng)絡(luò)。本體(ontology)這一概念源自哲學(xué)領(lǐng)域,是對客觀世界本質(zhì)及其規(guī)律的抽象表示,20世紀90年代以來,其概念逐漸被引入人工智能、知識工程、圖書情報等領(lǐng)域。Perez等認為,本體可以用于在計算機領(lǐng)域表示知識,包含類、關(guān)系、公理、函數(shù)和實例5種要素[1],能夠規(guī)范特定范圍的基本概念、屬性、概念間的關(guān)系以及屬性和關(guān)系的約束規(guī)則[2]。在學(xué)術(shù)檢索系統(tǒng)中運用本體來表示知識,可以統(tǒng)一學(xué)者信息的組織形式,且在學(xué)者和學(xué)者之間、學(xué)者和研究成果之間建立起語義關(guān)聯(lián),為基于語義的檢索需求提供支撐。近年來,國內(nèi)外學(xué)者在生物醫(yī)學(xué)[3]、人文歷史[4]、商業(yè)智能[5]、農(nóng)業(yè)[6]等領(lǐng)域開展了大量本體構(gòu)建研究。在學(xué)術(shù)領(lǐng)域,Tang等擴展FOAF本體,針對機器學(xué)習(xí)領(lǐng)域提出基于條件隨機場算法的科研人員檔案抽取方法[7]。馬翠嫦等提出一種網(wǎng)絡(luò)學(xué)術(shù)文檔細粒度聚合本體構(gòu)建的方法,可以為網(wǎng)絡(luò)文獻聚合單元的細粒度組織提供參考[8]。鄭楊等研究現(xiàn)有的學(xué)者檢索工具,并對學(xué)者智能目錄體系的構(gòu)建提出建議[9]。然而當(dāng)前的研究大多僅針對特定的學(xué)科領(lǐng)域建立本體模型,鮮有對農(nóng)業(yè)領(lǐng)域?qū)W者和科研成果進行本體化組織,且未能將學(xué)者信息和學(xué)術(shù)成果信息在語義關(guān)聯(lián)的基礎(chǔ)上進行有機結(jié)合。因此,本研究對長三角地區(qū)農(nóng)業(yè)學(xué)者的簡介信息進行分析與處理,從文本數(shù)據(jù)中抽象出概念體系,提出農(nóng)業(yè)學(xué)者的本體設(shè)計模式,并與學(xué)術(shù)文獻的組織體系相結(jié)合,通過實證研究完成面向農(nóng)業(yè)學(xué)者及文獻細粒度的本體構(gòu)建,形成可以復(fù)用至其他學(xué)科領(lǐng)域的學(xué)術(shù)本體模型,進而為領(lǐng)域?qū)W者知識圖譜的構(gòu)建提供模式層框架。
學(xué)者本體構(gòu)建是以相關(guān)學(xué)者的工作實踐經(jīng)歷為基礎(chǔ),結(jié)合學(xué)者現(xiàn)有的學(xué)術(shù)成果,形成客觀明確的知識表示規(guī)范體系,并以結(jié)構(gòu)化的形式,通過本體描述語言和可視化工具最終實現(xiàn)學(xué)者本體的建模工作。
在本體構(gòu)建方面,目前較經(jīng)典的方法有骨架法、METHONTOLOGY法[10]、七步法[11]等,這些方法通常來源于具體的本體開發(fā)項目。但這些方法尚不符合軟件工程的生命周期演進思想,也缺乏本體的質(zhì)量評估過程[12],導(dǎo)致不能滿足知識圖譜不斷更新的需求。因此,本研究根據(jù)農(nóng)業(yè)學(xué)者信息的屬性特征,以網(wǎng)站數(shù)據(jù)庫Wikidata和Schema等關(guān)于研究人員的本體定義為參考,并加入實例填充、驗證評估與優(yōu)化迭代環(huán)節(jié),進而確定農(nóng)業(yè)學(xué)者本體的構(gòu)建流程(圖1)。
(1)確定本體的領(lǐng)域和范圍。構(gòu)建本體的第一步首先是確定本體的應(yīng)用領(lǐng)域和覆蓋范圍。本研究構(gòu)建的學(xué)者本體是面向長三角地區(qū)的農(nóng)業(yè)學(xué)者簡介信息,并結(jié)合這些學(xué)者所發(fā)表的文獻信息,以實現(xiàn)學(xué)者信息的結(jié)構(gòu)化和語義化組織,進而為后續(xù)構(gòu)建知識圖譜定義知識體系。
(2)構(gòu)建本體框架。該階段的主要目標(biāo)是對已獲取的領(lǐng)域內(nèi)信息進行分析總結(jié),抽象出領(lǐng)域內(nèi)的核心概念,定義類和類的結(jié)構(gòu),并確定類的對象屬性和數(shù)據(jù)屬性,從而形成一個完整的本體結(jié)構(gòu)模型。本研究參考Wikidata等的本體類[13-14],結(jié)合長三角地區(qū)農(nóng)業(yè)學(xué)者的信息和文獻信息,定義相關(guān)的核心類以及屬性,最終完成農(nóng)業(yè)學(xué)者信息的本體框架。
(3)本體形式化和可視化。本體框架構(gòu)建完成后,為了使計算機可以理解和存儲本體,應(yīng)該使用形式化的語言實現(xiàn)該本體,如RDF、OWL等本體描述語言,以增強本體的語義表達能力,此外還可以使用Protégé等工具實現(xiàn)本體的可視化呈現(xiàn)。
(4)創(chuàng)建實例。實例是領(lǐng)域本體中最小的概念,也是體現(xiàn)領(lǐng)域知識的重要組成部分。為了實現(xiàn)領(lǐng)域本體的知識服務(wù)功能,本研究基于設(shè)計完成的農(nóng)業(yè)學(xué)者領(lǐng)域本體,采用深度學(xué)習(xí)的方法對獲取到的長三角地區(qū)農(nóng)業(yè)學(xué)者主頁信息進行實體抽取,包括學(xué)者數(shù)據(jù)獲取、實體標(biāo)注、模型訓(xùn)練、實體抽取等步驟,并通過Neo4j圖數(shù)據(jù)庫存儲學(xué)者實體數(shù)據(jù)。
(5)本體驗證與評估。當(dāng)本體初步構(gòu)建完成后,須要對本體進行評估,以保證其能夠?qū)r(nóng)業(yè)學(xué)者的信息結(jié)構(gòu)體系進行充分有效的描述,并能夠識別出本體中存在的冗余部分,從而進一步完善本體的概念和屬性。
(6)本體優(yōu)化迭代更新。隨著時間的推移,領(lǐng)域內(nèi)的知識結(jié)構(gòu)可能會出現(xiàn)新的變化。所以,本體構(gòu)建也是動態(tài)變化的過程,在出現(xiàn)新的領(lǐng)域知識類別時,應(yīng)該重新對領(lǐng)域本體的結(jié)構(gòu)框架進行分析與調(diào)整,從而實現(xiàn)本體的更新迭代,以滿足其在新環(huán)境中的適用性。
本研究所構(gòu)建農(nóng)業(yè)學(xué)者本體的目標(biāo)是根據(jù)農(nóng)業(yè)學(xué)者的學(xué)術(shù)生涯,抽象出能夠完整描述學(xué)者信息的核心概念,再結(jié)合學(xué)者的學(xué)術(shù)成果信息建立可以復(fù)用的領(lǐng)域?qū)W者本體模型。本研究根據(jù)上述提出的構(gòu)建流程,首先確定農(nóng)業(yè)學(xué)者本體的領(lǐng)域和范圍,再定義本體的類和屬性,建立本體框架,并使用OWL語言和Protégé工具實現(xiàn)本體的保存與管理,最后對本體質(zhì)量進行評估。
本研究構(gòu)建的本體為后期建立農(nóng)業(yè)學(xué)者知識圖譜提供模式層架構(gòu),并以此建立面向長三角地區(qū)農(nóng)業(yè)從業(yè)人員的知識服務(wù)平臺。因此,該領(lǐng)域本體的覆蓋范圍為長三角地區(qū)的農(nóng)業(yè)學(xué)者信息和文獻信息。為了該目標(biāo),需要從學(xué)者主頁、百科網(wǎng)頁等渠道獲取長三角地區(qū)農(nóng)業(yè)學(xué)者的簡介信息,并從簡介信息中抽象出可以描述學(xué)者的核心類和屬性信息,如學(xué)者類、機構(gòu)類、職位類等,屬性信息有畢業(yè)院校、工作單位、研究方向等。此外,還需要將篇名、關(guān)鍵詞、研究方法等文獻屬性嵌入學(xué)者本體。最終實現(xiàn)由學(xué)者相關(guān)概念和文獻描述信息構(gòu)成的農(nóng)業(yè)學(xué)者領(lǐng)域本體。
2.2.1 定義類和類的結(jié)構(gòu) 目前有3種常用類的定義方法,分別是自頂向下、自底向上和二者結(jié)合定義[13]。其中,使用最多的方法是自頂向下構(gòu)建,該方法首先從頂層的抽象概念入手,再逐漸細化;自底向上的方法則是從具體類別著手,同時對概念逐漸歸類抽象,以形成完整的結(jié)構(gòu);二者結(jié)合定義可以先找到明確的具體概念,同時再對其進行泛華和細化。本研究的學(xué)者本體采用自頂向下的構(gòu)建方法,遵循從抽象到一般,再到具體概念的3層結(jié)構(gòu)。根據(jù)對獲取的長三角農(nóng)業(yè)學(xué)者文本信息進行分析,可以將該本體的最頂層抽象類定義為參與者類、對象類和事件類,將這些抽象概念進一步具體化,可以定義為5個一級子類(核心類)和8個二級子類(圖2)。
本研究構(gòu)建的本體中最頂層的抽象概念是參與者類、對象類和事件類,具備一定的通用性。而根據(jù)農(nóng)業(yè)學(xué)者本體的個性化需求,可以將上述3種抽象概念細化為學(xué)者類、機構(gòu)類、職稱類、研究方向類、文獻類5種核心類。本研究針對農(nóng)業(yè)學(xué)者的本體構(gòu)建,所以將學(xué)者定義為核心類,其實體可以具體為長三角地區(qū)的農(nóng)業(yè)學(xué)者。
在該本體中,對象類分為機構(gòu)類、職稱類、研究方向類3個核心類。其中,機構(gòu)類主要描述學(xué)者的畢業(yè)院校和所在單位,所以可以分為學(xué)校、科研院所、企業(yè)3個子類;職稱是區(qū)別科學(xué)技術(shù)人員的等級稱號,在農(nóng)業(yè)學(xué)者本體中創(chuàng)建職稱核心類可以豐富學(xué)者的描述信息,包含高級、中級、初級職稱3個子類;研究方向是學(xué)者的重要標(biāo)簽,能夠體現(xiàn)該學(xué)者當(dāng)前或歷史時期的主要成果所在領(lǐng)域,所以將研究方向類確定為該本體的核心類。
事件類是由參與者類的實體執(zhí)行的主動行為,在該本體中可以總結(jié)為農(nóng)業(yè)學(xué)者在特定時間、單位和期刊發(fā)表論文的行為,所以將文獻類定義為本體的核心類,即事件類的一級子類。文獻類通過外部特征和內(nèi)部特征描述文獻的關(guān)鍵信息,并基于文本細粒度分析得出文獻的主題分類,能夠更加細致地刻畫學(xué)者的研究領(lǐng)域。此外,根據(jù)文獻發(fā)表的渠道不同,文獻類包含會議論文和期刊論文2個子類。
2.2.2 定義類的屬性 在本體框架中定義類和類的結(jié)構(gòu)后,應(yīng)該定義組成類的不同屬性以及類與類之間的關(guān)系,以完善類的內(nèi)部數(shù)據(jù)結(jié)構(gòu),從而保證類的獨特性。本體中類的屬性包括對象屬性和數(shù)據(jù)屬性。其中對象屬性表示類與類之間的關(guān)系,其屬性值必須為另一個類;數(shù)據(jù)屬性則表示類的實例對象所具備的特征,屬性值為數(shù)據(jù)類型且只存在于類本身。通過參考Wikidata中researcher類的屬性定義以及數(shù)據(jù)源中學(xué)者簡介信息的共性描述,最終確定5個對象屬性和7個數(shù)據(jù)屬性(表1)。
表1 農(nóng)業(yè)學(xué)者本體屬性
在該本體中,以學(xué)者類為中心建立類的對象屬性和數(shù)據(jù)屬性,對象屬性表示學(xué)者類與其他類之間的關(guān)系,包括畢業(yè)院校、工作單位、職稱、研究方向和發(fā)表文獻,其定義域為學(xué)者類,值域分別為機構(gòu)類、職稱類、研究方向類和文獻類。數(shù)據(jù)屬性包括學(xué)者姓名、編號、學(xué)歷、職務(wù)、郵箱、標(biāo)簽以及個人簡介,其中學(xué)者標(biāo)簽描述是對學(xué)者文獻進行文本細粒度分析得出的興趣領(lǐng)域,能夠總結(jié)學(xué)者科研成果的方向,有利于建立基于標(biāo)簽的學(xué)者推薦系統(tǒng)。
此外,本研究還對文獻類的數(shù)據(jù)屬性進行定義。通過復(fù)用都柏林核心元素集(dublin core element set,DC)關(guān)于信息資源的元數(shù)據(jù)構(gòu)成,并從農(nóng)業(yè)學(xué)者本體構(gòu)建的實際需求出發(fā),最終定義文獻類的16個數(shù)據(jù)屬性(表2)。包括文獻編號(PaperID)、題名(PaperTitle)、作者編號(AuthorID)、作者(Author)、所屬單位(Organ)、文獻來源(Source)、關(guān)鍵詞(Keywords)、摘要(Abstract)、發(fā)表時間(Pubtime)、發(fā)表年份(Year)、卷(Volume)、期(Issue)、開始頁碼(Page_start)、結(jié)束頁碼(Page_end)、DOI碼(DOI)、研究主題(ResearchTopic)。其中,文獻編號是用于描述文獻的唯一標(biāo)志,是文獻數(shù)據(jù)庫的主鍵;作者編號是與學(xué)者數(shù)據(jù)進行關(guān)聯(lián)的標(biāo)志符,因為文獻存在多個作者,所以數(shù)據(jù)類型為列表;研究主題是基于文獻內(nèi)容的特征詞提取得出的文獻主題分布。
表2 文獻類數(shù)據(jù)屬性
最后,綜合農(nóng)業(yè)學(xué)者的對象屬性和數(shù)據(jù)屬性,并通過“發(fā)表文獻”屬性將學(xué)者類與文獻類進行關(guān)聯(lián),進而形成完整的農(nóng)業(yè)學(xué)者本體框架(圖3)。
在明確定義農(nóng)業(yè)學(xué)者本體類和屬性的基礎(chǔ)上,為實現(xiàn)本體在計算機中的存儲、更新與復(fù)用,應(yīng)該使用統(tǒng)一的本體描述語言對本體進行形式化描述。OWL是W3C Web本體工作組設(shè)計的一種知識表示語言,與其他描述語言相比(如XML、RDF),其優(yōu)勢是表示知識便于被計算機所理解和應(yīng)用,且擁有更豐富的推理方法和詞匯表。所以,本研究采用OWL語言對農(nóng)業(yè)學(xué)者本體進行形式化表示,并使用Protégé工具實現(xiàn)本體的可視化。
首先對農(nóng)業(yè)學(xué)者本體中的類使用OWL語言進行描述,代碼示例見圖4。在OWL中使用Class來表示類,如創(chuàng)建學(xué)者類,將其英文標(biāo)簽設(shè)置為“Scholar”,中文標(biāo)簽設(shè)置為“學(xué)者”,并繼承FOAF詞表[15]中的人物類(foaf:Person),以實現(xiàn)語義層次的知識共享。
對象屬性在OWL中以O(shè)bjectProperty表示,用于創(chuàng)建類與類之間的關(guān)系。 如使用OWL語言創(chuàng)建對象屬性“發(fā)表文獻(hasPublished)”,設(shè)置其定義域(domain)為學(xué)者類,值域(range)為文獻類,并與文獻類的作者屬性(hasAuthor)形成相對關(guān)系(inverseOf),代碼見圖5。
數(shù)據(jù)屬性在OWL中以DataProperty表示,用于展示類的實例屬性值,如創(chuàng)建文獻類的“摘要(Abstract)”屬性,其定義域(domain)設(shè)置為文獻類,并以range標(biāo)簽設(shè)置數(shù)據(jù)類型為字符串(string),代碼見圖6。
將使用OWL語言編輯完成的農(nóng)業(yè)學(xué)者本體文件導(dǎo)入Protégé軟件,利用OntoGraph功能進行本體的可視化展示。由圖7可知,實線部分為類的層級結(jié)構(gòu)關(guān)系,其中學(xué)者、文獻、職稱、機構(gòu)和研究方向均為超類“Thing”的子類;虛線為屬性關(guān)系,展示學(xué)者與其他類的對象屬性,其中文獻和學(xué)者定義了相對關(guān)系。
本研究通過scrapy爬蟲框架,從農(nóng)業(yè)科學(xué)院官網(wǎng)、農(nóng)科機構(gòu)知識庫聯(lián)盟等渠道獲取長三角地區(qū)江蘇省、浙江省、安徽省、上海市農(nóng)業(yè)科學(xué)院的專家學(xué)者信息為數(shù)據(jù)源,剔除部分缺失無效信息,共得到學(xué)者信息1 022條。此外,以作者和機構(gòu)為檢索詞,對知網(wǎng)上的相關(guān)學(xué)者論文進行檢索,共下載學(xué)者文獻數(shù)據(jù)52 000條。
由于數(shù)據(jù)源的學(xué)者信息來源多樣,多數(shù)為非結(jié)構(gòu)化文本數(shù)據(jù),且篇幅差異較大,所以本研究對學(xué)者的簡介信息進行相應(yīng)的刪減,使篇幅保持在300字以內(nèi),以便于后續(xù)實體抽取任務(wù)的開展。下載的文獻數(shù)據(jù)為CSV格式,通過python腳本將其轉(zhuǎn)化為json格式,并去除存在的換行符、空格等特殊符號。
根據(jù)定義的學(xué)者本體,本研究通過阿里云NLP自學(xué)習(xí)平臺對學(xué)者文本信息進行標(biāo)注,標(biāo)注的實體主要包括單位、二級單位、研究領(lǐng)域、教育、姓名、職稱、時間、職務(wù)、郵箱共9類實體。為了將數(shù)據(jù)輸入訓(xùn)練模型,需要對學(xué)者的文本數(shù)據(jù)進行標(biāo)簽化處理,本研究采用BMEO標(biāo)注法對上述已標(biāo)注實體進行標(biāo)簽轉(zhuǎn)換(表3)。
表3 學(xué)者文本標(biāo)注示例
將標(biāo)注完成的數(shù)據(jù)按照8 ∶ 2的比例構(gòu)建訓(xùn)練集和測試集,并輸入模型進行訓(xùn)練。
本研究采用BiLSTM-CRF模型進行命名實體識別研究,模型結(jié)構(gòu)見圖8。該模型主要包括Embedding層、BiLSTM雙向循環(huán)神經(jīng)網(wǎng)絡(luò)、CRF層3個部分。
Embedding層主要將學(xué)者的文本信息進行字符級別的編碼,通過Word2Vec的連續(xù)詞袋(CBOW)模型可以預(yù)測每個字符的出現(xiàn)概率,使句子表示為字符級特征向量,再將字符向量輸入到BiLSTM模型中。
長短期記憶網(wǎng)絡(luò)(long-short term memory,LSTM)是基于RNN模型(循環(huán)神經(jīng)網(wǎng)絡(luò))進行的變體,相較于傳統(tǒng)的RNN模型,引入記憶單元(memory cell)和門的控制結(jié)構(gòu)[15]。LSTM通過遺忘門決定上一時刻的記憶單元有多少保留到當(dāng)前時刻,通過輸入門決定當(dāng)前時刻網(wǎng)絡(luò)的輸入有多少保存到單元狀態(tài),通過輸出門控制單元狀態(tài)有多少輸出到LSTM的當(dāng)前輸出值,可以解決原始RNN模型無法處理長距離依賴關(guān)系的問題。而BiLSTM通過雙向循環(huán)結(jié)構(gòu)可以解決LSTM模型只能從前往后傳遞信息的問題,從而可以使模型結(jié)合正反2個方向的信息,最終輸出數(shù)據(jù)標(biāo)簽的分布概率。
條件隨機場(conditional random field,CRF)是一種條件概率分布模型,可以考慮上下文標(biāo)簽的依賴關(guān)系,對BiLSTM輸出的標(biāo)簽概率進行一定的約束,以保證最終的預(yù)測結(jié)果是有效的。其原理是設(shè)x=(x1,x2,…,xn),y=(y1,y2,…,yn)均為線性鏈表示的隨機變量序列,在給定隨機變量序列x的條件下,隨機變量y的條件概率分布P(y|x)構(gòu)成條件隨機場。當(dāng)隨機變量取值為x的條件下,隨機變量為y的條件概率有如下公式。
(1)
(2)
式中:tk、sl表示特征函數(shù),一般情況下,tk、sl的取值為1或0,即滿足特征條件時為1,不滿足則為0;λk、μl分別表示tk、sl所對應(yīng)的權(quán)值;Z(x)表示規(guī)范化因子,來保證P(y|x)的概率分布。
在訓(xùn)練時通過最大擬然估計求得最大概率,預(yù)測時利用維特比(Viterbi)算法進行解碼,預(yù)測出最大概率的標(biāo)簽序列。
本研究采用準(zhǔn)確率(P)、召回率(R)、F1值3個指標(biāo)作為模型的評價標(biāo)準(zhǔn)。其計算公式分別為
(3)
(4)
(5)
式中:準(zhǔn)確率(P)表示模型識別到的正確實體占識別總實體的比例;召回率(R)表示識別正確實體占原數(shù)據(jù)總實體的比例;F1值表示調(diào)和平均數(shù),綜合正確率和召回率,用于綜合反映模型整體的效果。
由表4可知,此模型在訓(xùn)練集上的命名實體識別準(zhǔn)確率、召回率、F1值較高,分別達到87.03%、83.99%、85.49%,而在測試集上的效果有一定的折損。比較表4和表5可知,單一的LSTM模型實體抽取效果較差,準(zhǔn)確率、召回率和F1值均有所下降,召回率下降較多,說明在整個數(shù)據(jù)集中識別到的正確實體數(shù)較少。而BiLSTM-CRF模型的F1值比LSTM模型高4.19百分點??梢?加入前后文信息并使用CRF層對BiLSTM輸出序列進行約束后,模型的命名實體識別效果有明顯提升。
表4 BiLSTM-CRF模型訓(xùn)練結(jié)果
表5 BiLSTM-CRF和LSTM模型對比試驗
本研究使用Neo4j圖數(shù)據(jù)庫對學(xué)者實體和文獻數(shù)據(jù)進行存儲和關(guān)系構(gòu)建以及可視化展示。Neo4j可以通過Cypher語言進行數(shù)據(jù)庫的操作,也可以通過交互式界面訪問圖譜數(shù)據(jù),可以輕易地表示出半結(jié)構(gòu)化的數(shù)據(jù)和數(shù)據(jù)間的關(guān)系。在獲取抽取的實體后,導(dǎo)出為json格式文件,使用腳本語言自動寫入Neo4j圖數(shù)據(jù)庫進行可視化存儲,并與文獻數(shù)據(jù)進行關(guān)聯(lián)(圖9)。最終構(gòu)建10多萬實體和40多萬組關(guān)系。
本體的評價指標(biāo)主要包括完整性、清晰性、一致性、可擴展性和兼容性[16]。本研究以長三角地區(qū)農(nóng)業(yè)專家學(xué)者信息為數(shù)據(jù)源,基于上述所構(gòu)建的學(xué)者本體,通過BiLSTM-CRF模型對農(nóng)業(yè)學(xué)者信息進行實體抽取和填充,并基于農(nóng)業(yè)學(xué)者實例結(jié)合上述指標(biāo)對該本體模型進行評估,以確保其能夠滿足知識服務(wù)平臺的建設(shè)需求。
由圖10可知,以“王才林”為學(xué)者實例,根據(jù)學(xué)者主頁的簡介信息進行實體抽取,對本體屬性進行填充,并通過“發(fā)表文獻”這一屬性關(guān)聯(lián)相關(guān)文獻,添加所屬單位、關(guān)鍵詞、摘要、文獻來源、文獻編號等屬性信息,最終實現(xiàn)以“王才林”為核心的農(nóng)業(yè)學(xué)者語義網(wǎng)絡(luò)。
從農(nóng)業(yè)學(xué)者本體的實例示意來看,在完整性方面,該本體參考Wikidata的researcher類對研究人員的描述以及都柏林核心集對信息資源的元數(shù)據(jù)定義,覆蓋面較完善,但是考慮到數(shù)據(jù)源存在缺失的可能性,所以在學(xué)者類中缺少對科研項目的定義,在后續(xù)增加可靠的數(shù)據(jù)源后,應(yīng)對本體進行更新補充。在清晰性方面,農(nóng)業(yè)學(xué)者本體擁有3類抽象概念、5個一級核心類以及8個二級子類,其概念和屬性關(guān)系定義明確。從本體實例來看,學(xué)者信息能夠準(zhǔn)確地填充進本體類和屬性中,避免了歧義,進而確保農(nóng)業(yè)學(xué)者本體的清晰性。在一致性方面,該本體從3類抽象概念出發(fā),自頂向下逐漸細化,形成邏輯一致的層次結(jié)構(gòu)。在可擴展性方面,本研究構(gòu)建的農(nóng)業(yè)學(xué)者本體以O(shè)WL語言進行本體描述,其語法靈活,能夠?qū)π鲁霈F(xiàn)的概念方便地進行描述,擴展性更好,還可以關(guān)聯(lián)豐富的詞匯表資源。在兼容性方面,農(nóng)業(yè)學(xué)者本體內(nèi)部可以實現(xiàn)學(xué)者與文獻資源的映射,并在構(gòu)建過程中聲明與FOAF本體Person類的繼承關(guān)系,從而保證該本體與其他信息組織資源的兼容與互操作。
本研究以長三角地區(qū)農(nóng)業(yè)學(xué)者為對象,優(yōu)化傳統(tǒng)的本體構(gòu)建方法,提出農(nóng)業(yè)學(xué)者本體構(gòu)建方法和流程。在厘清學(xué)者相關(guān)概念體系以及學(xué)術(shù)文獻關(guān)鍵屬性的基礎(chǔ)上,完成本體框架模型的設(shè)計。運用Protégé工具完成類和屬性的定義,建立農(nóng)業(yè)學(xué)者領(lǐng)域本體,并實現(xiàn)本體的形式化與可視化表示,最后以長三角地區(qū)農(nóng)業(yè)學(xué)者為例,采用深度學(xué)習(xí)算法對學(xué)者簡介信息進行實體抽取,完成本體實例的填充,大大減少了本體建模的人工依賴性,并利用Neo4j圖數(shù)據(jù)庫進行實體和關(guān)系的存儲以及可視化展示,還利用農(nóng)業(yè)學(xué)者實例開展本體的驗證與評估。但由于學(xué)者信息數(shù)據(jù)源的復(fù)雜多樣且沒有統(tǒng)一的內(nèi)容形式,以及隨著時代的進步發(fā)展,農(nóng)業(yè)學(xué)者信息的核心屬性存在變化的可能,所以在后續(xù)的研究與應(yīng)用中,該本體的內(nèi)容覆蓋上還存在優(yōu)化的空間。
在后續(xù)的研究中,將進一步完善農(nóng)業(yè)學(xué)者本體的概念體系和屬性結(jié)構(gòu),在應(yīng)用層面,該學(xué)者本體將作為知識圖譜的模式層,進一步結(jié)合深度學(xué)習(xí)算法實現(xiàn)專家興趣預(yù)測、農(nóng)業(yè)學(xué)者畫像等應(yīng)用,進而建立基于知識圖譜的面向農(nóng)業(yè)從業(yè)人員的知識服務(wù)平臺。