穆維松,劉天琪,苗子溦,馮建英
(中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083)
知識(shí)圖譜可以把復(fù)雜的知識(shí)領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識(shí)計(jì)量和圖形繪制顯示出來,揭示知識(shí)領(lǐng)域的動(dòng)態(tài)發(fā)展規(guī)律,為復(fù)雜問題的研究提供切實(shí)的、有價(jià)值的參考。知識(shí)圖譜的構(gòu)建技術(shù)已經(jīng)在各個(gè)領(lǐng)域得到廣泛應(yīng)用并取得了較好的效果,如航空系統(tǒng)故障診斷[1]、地質(zhì)災(zāi)害應(yīng)急決策[2]、網(wǎng)絡(luò)安全[3]等。隨著現(xiàn)代信息技術(shù)的不斷發(fā)展,知識(shí)圖譜的規(guī)模也在進(jìn)一步擴(kuò)大,在智能搜索、智能問答、推薦算法等領(lǐng)域都得到了廣泛應(yīng)用[4]。在農(nóng)業(yè)領(lǐng)域數(shù)據(jù)量積累越來越大、結(jié)構(gòu)越來越復(fù)雜的大背景下,將知識(shí)圖譜技術(shù)與農(nóng)業(yè)相結(jié)合,可以將農(nóng)業(yè)領(lǐng)域復(fù)雜的數(shù)據(jù)直觀化,有助于對(duì)農(nóng)業(yè)大數(shù)據(jù)進(jìn)行深入的關(guān)聯(lián)分析,解決農(nóng)業(yè)領(lǐng)域內(nèi)數(shù)據(jù)分散、多樣、孤島化、數(shù)據(jù)價(jià)值利用不高的問題。知識(shí)圖譜把領(lǐng)域知識(shí)做了顯性化沉淀和關(guān)聯(lián),利用原生圖的特征支撐數(shù)據(jù)的價(jià)值挖掘與分析。
知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)是農(nóng)業(yè)領(lǐng)域知識(shí)圖譜研究的基礎(chǔ),農(nóng)業(yè)知識(shí)圖譜構(gòu)建既須遵循知識(shí)圖譜構(gòu)建的通用技術(shù),也須具有農(nóng)業(yè)的特殊性。目前知識(shí)圖譜在農(nóng)業(yè)領(lǐng)域的應(yīng)用尚不廣泛,主要在農(nóng)業(yè)專題文獻(xiàn)計(jì)量研究、農(nóng)業(yè)知識(shí)問答等方面,可拓展的方向仍有待挖掘,因此本文首先對(duì)知識(shí)圖譜及其構(gòu)建技術(shù)進(jìn)行梳理,然后綜述知識(shí)圖譜在農(nóng)業(yè)領(lǐng)域的應(yīng)用方向,最后分析知識(shí)圖譜在農(nóng)業(yè)領(lǐng)域的研究趨勢,以期為今后知識(shí)圖譜在農(nóng)業(yè)領(lǐng)域的研究方向提供參考。
知識(shí)圖譜是一種含有豐富語義信息的網(wǎng)絡(luò)圖,早在2012 年,為使搜索引擎更加精準(zhǔn)和智能,Google 公司提出了知識(shí)圖譜的概念及其含義,此后知識(shí)圖譜成為了一大研究熱點(diǎn)。知識(shí)圖譜的構(gòu)建模式主要有自頂向下、自底向上和自頂向下與自底向上結(jié)合3 種[5]。
自頂向下的構(gòu)建模式需要先創(chuàng)建頂層知識(shí)庫,然后從海量數(shù)據(jù)中抽取本體和實(shí)體信息,并將它們添加到最初創(chuàng)建的頂層知識(shí)庫中。
自底向上的構(gòu)建模式需要先對(duì)數(shù)據(jù)進(jìn)行知識(shí)抽取,然后再將得到的實(shí)體、關(guān)系和屬性經(jīng)過實(shí)體對(duì)齊、語義融合、信息合并和知識(shí)加工等處理后,添加到知識(shí)圖譜中[6-7]。以這兩種模式構(gòu)建知識(shí)圖譜的流程如圖1 所示。
圖1 知識(shí)圖譜的構(gòu)建過程Fig.1 The construction process of knowledge graph
除了上述兩種常用的知識(shí)圖譜構(gòu)建模式外,近年來有不少學(xué)者采用將二者結(jié)合的方式構(gòu)建知識(shí)圖譜,這種構(gòu)建模式需要先在大量數(shù)據(jù)中構(gòu)建出最基本的模式層,然后通過不斷挖掘更有價(jià)值的知識(shí)更新模式層,最后設(shè)計(jì)模式層到數(shù)據(jù)層的映射,對(duì)實(shí)體進(jìn)行填充,形成較為完整的知識(shí)圖譜[8-9]。
表1 從知識(shí)圖譜的構(gòu)建模式、常用的應(yīng)用領(lǐng)域、適用的數(shù)據(jù)量以及優(yōu)缺點(diǎn)5 個(gè)方面歸納了知識(shí)圖譜3 種構(gòu)建模式。
表1 知識(shí)圖譜構(gòu)建模式的比較Table 1 Comparison of knowledge graph construction modes
農(nóng)業(yè)知識(shí)圖譜的構(gòu)建由于其領(lǐng)域的特殊性與較強(qiáng)的專業(yè)性常常采用自頂向下與自底向上結(jié)合的構(gòu)建模式,其中涉及到的關(guān)鍵技術(shù)主要有本體構(gòu)建、知識(shí)抽取、知識(shí)融合、知識(shí)推理和知識(shí)圖譜存儲(chǔ)及可視化,因此本文重點(diǎn)對(duì)這5 種技術(shù)進(jìn)行綜述,旨在為農(nóng)業(yè)知識(shí)圖譜的構(gòu)建研究提供有效參考。
農(nóng)業(yè)知識(shí)圖譜對(duì)農(nóng)業(yè)知識(shí)的專業(yè)度和精確度要求較高,需要在構(gòu)建知識(shí)圖譜時(shí)構(gòu)建抽象的模式層,因此本體的構(gòu)建對(duì)于農(nóng)業(yè)知識(shí)圖譜尤為重要[12]。本體的構(gòu)建方法主要有兩種,分別是人工構(gòu)建方法和使用計(jì)算機(jī)輔助的半自動(dòng)構(gòu)建方法,其中人工構(gòu)建方法中典型的構(gòu)建方法主要有Uschold 法、多倫多虛擬企業(yè)本體評(píng)價(jià)法(toronto virtual enterprise,TOVE)、集成化計(jì)算機(jī)輔助制造定義方法(integrated computer-aided manufacturing definition,IDEF)、Methontology 法,半自動(dòng)構(gòu)建方法中典型的構(gòu)建方法主要有七步法、五步循環(huán)法和循環(huán)獲取法[13]。
人工構(gòu)建方法由于其構(gòu)建過程存在很大的主觀性,本體之間容易出現(xiàn)概念偏差,不完全適用于知識(shí)結(jié)構(gòu)復(fù)雜的農(nóng)業(yè)領(lǐng)域,因此在進(jìn)行農(nóng)業(yè)本體構(gòu)建時(shí),半自動(dòng)構(gòu)建方法受到了許多研究者的關(guān)注[14]。以常用的七步法為例,構(gòu)建領(lǐng)域本體時(shí)需要經(jīng)過確定領(lǐng)域和范圍、復(fù)用現(xiàn)有本體、列舉專業(yè)術(shù)語、定義類和類層次結(jié)構(gòu)、定義屬性、定義約束、創(chuàng)建實(shí)例7 個(gè)步驟,清晰地規(guī)范了本體的構(gòu)建流程。該方法在構(gòu)建花卉病蟲害[15]、茶葉[16]、農(nóng)村金融[17]等農(nóng)業(yè)領(lǐng)域本體時(shí)發(fā)揮了較好的作用。此外,農(nóng)業(yè)本體構(gòu)建技術(shù)的發(fā)展離不開強(qiáng)大的構(gòu)建工具,Protégé軟件[18]和OWL(ontology web language)本體描述語言[19]在農(nóng)業(yè)領(lǐng)域最受歡迎。
知識(shí)抽取指的是從大量的數(shù)據(jù)中提取有用的知識(shí)并存儲(chǔ)到知識(shí)圖譜中,是構(gòu)建知識(shí)圖譜的前提。知識(shí)抽取的對(duì)象主要有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)3 種,目前研究的重點(diǎn)是針對(duì)結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識(shí)抽取[20]。知識(shí)抽取主要分為實(shí)體抽取、關(guān)系抽取和屬性抽取3 個(gè)方面,早期知識(shí)抽取技術(shù)發(fā)展不成熟,人們主要采用人工編寫的規(guī)則將農(nóng)業(yè)實(shí)體存儲(chǔ)到數(shù)據(jù)庫中來實(shí)現(xiàn)農(nóng)業(yè)知識(shí)的抽取,但這樣基于規(guī)則的抽取方法對(duì)于本體關(guān)系復(fù)雜、知識(shí)結(jié)構(gòu)不統(tǒng)一且數(shù)據(jù)種類龐大的農(nóng)業(yè)知識(shí)來說效率低下,而且要求規(guī)則的制定人員具備較高的語言學(xué)知識(shí)水平。
針對(duì)上述問題,許多學(xué)者在進(jìn)行農(nóng)業(yè)知識(shí)抽取時(shí)融入了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,它們比基于規(guī)則的知識(shí)抽取方法表現(xiàn)出更好的性能?;跈C(jī)器學(xué)習(xí)的知識(shí)抽取最早在2008 年應(yīng)用到農(nóng)業(yè)中,作者使用決策樹學(xué)習(xí)并建立一套有效規(guī)則,實(shí)時(shí)抽取農(nóng)田的作物、氣候等信息,用于預(yù)測植物的狀態(tài)[21]。但這種使用機(jī)器學(xué)習(xí)模型建立的規(guī)則仍需人工決策,于是研究者們把目光轉(zhuǎn)向文本本身的機(jī)器學(xué)習(xí)模型,如最大熵模型[22](max entropy model,MEM)、隱馬爾可夫模型[23](hidden Markov model,HMM)、支持向量機(jī)[24](support vector machine,SVM)和條件隨機(jī)場模型[25](conditional random field,CRF)。目前應(yīng)用最為廣泛的是綜合了MEM 和HMM 優(yōu)點(diǎn)的CRF 模型[26]。但是只使用單一的機(jī)器學(xué)習(xí)模型進(jìn)行知識(shí)抽取時(shí)需要研究者根據(jù)不同的領(lǐng)域?yàn)閿?shù)據(jù)設(shè)計(jì)不同的特征,模型的性能并不理想,因此不少學(xué)者開始將深度學(xué)習(xí)與上述模型進(jìn)行結(jié)合。
BiLSTM(bidirectional long short-term memory)結(jié)合了向前和向后的LSTM,能夠充分利用句子的上下文特征,提高標(biāo)注的準(zhǔn)確性,因此許多研究人員將其與CRF 模型進(jìn)行結(jié)合,并在農(nóng)業(yè)知識(shí)抽取領(lǐng)域取得了不錯(cuò)的成果。張海瑜等[27]使用BiLSTM-CRF 模型進(jìn)行了糧食作物知識(shí)的抽取,解決了農(nóng)業(yè)知識(shí)表達(dá)不規(guī)范和一物多詞與多解的問題;于合龍等[28]使用BiLSTM-CRF 模型進(jìn)行了水稻病蟲害知識(shí)的抽取,解決了水稻病蟲害知識(shí)檢索的不確定性。由此可見,BiLSTM-CRF 模型較適用于結(jié)構(gòu)復(fù)雜且命名難統(tǒng)一的農(nóng)業(yè)知識(shí)提取任務(wù);為解決知識(shí)抽取過程中長序列的語義稀釋問題,程名等[29]在BiLSTM-CRF 模型的基礎(chǔ)上融合了注意力機(jī)制,提高了漁業(yè)標(biāo)準(zhǔn)知識(shí)抽取的性能。
BiLSTM-CRF 模型對(duì)詞嵌入的依賴較小,但無法表示多義詞,因此部分學(xué)者開始在此基礎(chǔ)上引入BERT(bidirectional encoder representations from transformers)模型。該模型能夠?qū)⒆址途渥舆M(jìn)行預(yù)訓(xùn)練得到字向量,不僅包含了上下文信息,還能夠很好地表征字句的含義,可以較好地解決農(nóng)業(yè)文本中的一詞多義問題,隨后BERT-BiLSTM-CRF 模型成為了農(nóng)業(yè)知識(shí)抽取領(lǐng)域的熱門方向[30]。使用BERT-BiLSTM-CRF 模型進(jìn)行農(nóng)業(yè)知識(shí)抽取的流程是:首先通過BERT 獲得輸入語句的語義表示,生成字向量,然后通過BiLSTM 對(duì)字向量進(jìn)行進(jìn)一步的語義編碼,最后通過CRF 輸出最大概率標(biāo)簽序列。該模型于2020 年由吳賽賽等[31]用于作物病蟲害知識(shí)抽?。蝗捂碌萚32]在該模型的基礎(chǔ)上融合了注意力機(jī)制,實(shí)現(xiàn)了漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)知識(shí)抽取。目前,學(xué)者們將農(nóng)業(yè)知識(shí)抽取的重點(diǎn)放在了如何更好地結(jié)合農(nóng)業(yè)知識(shí)的特點(diǎn)上,韋紫君等[33]為解決農(nóng)業(yè)實(shí)體名稱較長導(dǎo)致的識(shí)別效果不理想的問題,在BERT-BiLSTM-CRF 模型的基礎(chǔ)上引入實(shí)體級(jí)遮蔽策略,提高了農(nóng)業(yè)知識(shí)抽取的性能;劉永波等[34]為解決茶葉語料庫不完善、多源異構(gòu)數(shù)據(jù)缺乏聚合能力的問題,使用全詞掩碼的BERT-WWM(whole word masking)替代原來的隨機(jī)掩碼BERT,提高了茶葉知識(shí)抽取的準(zhǔn)確率;劉巨升等[35]提出的BERTCaBiLSTM 模型解決了水產(chǎn)動(dòng)物疾病診治實(shí)體嵌套問題,提高了知識(shí)抽取的質(zhì)量。知識(shí)抽取技術(shù)在農(nóng)業(yè)領(lǐng)域的發(fā)展如圖2 所示。
圖2 知識(shí)抽取技術(shù)在農(nóng)業(yè)領(lǐng)域的發(fā)展Fig.2 Development of knowledge extraction technology in agriculture
知識(shí)融合建立在知識(shí)抽取的基礎(chǔ)之上,指的是將不同來源、異構(gòu)的數(shù)據(jù)在統(tǒng)一框架下進(jìn)行整合,使其能夠互相連通,目的是提高知識(shí)圖譜的質(zhì)量。由于領(lǐng)域的特殊性,農(nóng)業(yè)知識(shí)的來源較為復(fù)雜且命名較難統(tǒng)一,因此存在質(zhì)量參差不齊、一物多詞等問題,所以對(duì)農(nóng)業(yè)知識(shí)進(jìn)行有機(jī)整合,判斷實(shí)體的重復(fù)性是農(nóng)業(yè)知識(shí)融合中的重難點(diǎn)。知識(shí)融合的關(guān)鍵技術(shù)主要有實(shí)體對(duì)齊、語義融合和信息合并3 個(gè)方面,其中實(shí)體對(duì)齊技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用最廣。
在農(nóng)業(yè)知識(shí)融合過程中,為消除農(nóng)業(yè)實(shí)體名稱不一致或數(shù)據(jù)類型不同造成的沖突,早期研究者們通常會(huì)選擇基于傳統(tǒng)概率模型的對(duì)齊方法,即計(jì)算向量相似度的方法進(jìn)行實(shí)體對(duì)齊研究。曹雨晴等[36]首先對(duì)不同來源的知識(shí)進(jìn)行人工合并,然后再結(jié)合相似度對(duì)水稻粒型基因進(jìn)行了實(shí)體對(duì)齊;陳瑞[37]使用索俊鋒等[38]提出的農(nóng)產(chǎn)品語義相似度計(jì)算方法對(duì)不同來源的網(wǎng)絡(luò)農(nóng)產(chǎn)品進(jìn)行實(shí)體對(duì)齊。
雖然基于傳統(tǒng)概率模型的實(shí)體對(duì)齊方法在農(nóng)業(yè)知識(shí)融合中較為常見,但這類方法需要預(yù)先對(duì)大量的數(shù)據(jù)進(jìn)行標(biāo)記,處理大型數(shù)據(jù)時(shí)性能低下。有學(xué)者指出,實(shí)體對(duì)的匹配問題也可以轉(zhuǎn)換為分類問題[39],因此在理論上機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法可以提高農(nóng)業(yè)知識(shí)融合的效率。隨后在其他領(lǐng)域,使用決策樹、樸素貝葉斯、支持向量機(jī)等進(jìn)行實(shí)體對(duì)齊研究的學(xué)者越來越多且取得了不錯(cuò)的成果[40-43]。目前使用深度學(xué)習(xí)方法中的詞向量進(jìn)行農(nóng)業(yè)知識(shí)融合是最新的研究趨勢。MOSHOU 等[44]提出一種融合詞向量與語義余弦相似度的多模態(tài)農(nóng)業(yè)實(shí)體對(duì)齊方法,可以將不同數(shù)據(jù)源中的實(shí)體對(duì)齊;QIN 等[45]提出一種融合TF-IDF 和余弦相似度的農(nóng)業(yè)實(shí)體對(duì)齊方法,提升了農(nóng)業(yè)知識(shí)檢索的效率;鄭泳智等[46]使用BERT 得到詞向量并計(jì)算它們之間的余弦相似度,對(duì)荔枝和龍眼病蟲害實(shí)體進(jìn)行了對(duì)齊。但基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的實(shí)體對(duì)齊方法往往忽略了實(shí)體之間隱含的語義特征,有時(shí)效果并不十分理想,因此不斷有學(xué)者開始提出基于新技術(shù)的實(shí)體對(duì)齊方法。
知識(shí)表示學(xué)習(xí)可以將知識(shí)圖譜中的實(shí)體進(jìn)行低維的向量表示,然后把不同知識(shí)圖譜的嵌入空間映射到同一個(gè)向量空間中,最后通過計(jì)算向量空間中實(shí)體間的距離進(jìn)行實(shí)體對(duì)齊,相關(guān)技術(shù)主要有翻譯模型[47]、圖卷積網(wǎng)絡(luò)[48]、圖注意力網(wǎng)絡(luò)[49]等。目前基于知識(shí)表示學(xué)習(xí)的實(shí)體對(duì)齊技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用較少,因此未來農(nóng)業(yè)知識(shí)融合相關(guān)的研究需要密切關(guān)注最前沿的新技術(shù)和新方法。
知識(shí)推理指的是在已經(jīng)抽取的實(shí)體和關(guān)系中去發(fā)現(xiàn)新的知識(shí),從而豐富和擴(kuò)充知識(shí)圖譜。知識(shí)推理包括基于規(guī)則的知識(shí)推理、基于分布式表示特征的知識(shí)推理和基于深度學(xué)習(xí)的知識(shí)推理,起初基于規(guī)則的知識(shí)推理在農(nóng)業(yè)領(lǐng)域中應(yīng)用較為廣泛,于2016 年由牟向偉等[50]應(yīng)用到農(nóng)業(yè)領(lǐng)域中,作者提出的基于描述邏輯的CC-HACCP模型,實(shí)現(xiàn)了農(nóng)產(chǎn)品冷鏈知識(shí)推理;黃利斌[51]使用領(lǐng)域詞匯的統(tǒng)計(jì)特征量化了農(nóng)業(yè)詞匯的相關(guān)性,并結(jié)合互信息法完成了農(nóng)業(yè)語義推理;LIU 等[52]根據(jù)專家經(jīng)驗(yàn)制定了番茄病害診斷規(guī)則庫,并結(jié)合正向表示和推理模型完成了番茄病害的診斷。盡管基于規(guī)則的知識(shí)推理在農(nóng)業(yè)領(lǐng)域中已有應(yīng)用,但仍存在推理結(jié)果可解釋性弱的問題,為了改進(jìn)這一點(diǎn),于合龍等[28]開創(chuàng)性地將專家置信度確定性因子CF 融合到農(nóng)業(yè)知識(shí)推理中,提高了水稻病蟲害診斷的確定性。
雖然知識(shí)推理技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用已有一定的成效,但不可否認(rèn)的是,對(duì)農(nóng)業(yè)產(chǎn)生影響的因素較為復(fù)雜,在制定推理規(guī)則時(shí)困難較大,必要時(shí)需要考慮自然環(huán)境變化與氣候?qū)r(nóng)作物的影響,若溫度、光照或濕度稍有變化都可能導(dǎo)致推理結(jié)果出現(xiàn)較大的偏差,因此基于規(guī)則的知識(shí)推理只能在小范圍內(nèi)使用,難以進(jìn)行擴(kuò)展。相較之下基于分布式表示特征的知識(shí)推理和基于深度學(xué)習(xí)的知識(shí)推理更具優(yōu)勢,未來有望在農(nóng)業(yè)知識(shí)推理這一構(gòu)建環(huán)節(jié)得到廣泛應(yīng)用[53]。
基于分布式表示特征的知識(shí)推理主要包括翻譯模型和語義匹配模型兩個(gè)方面?;诜g模型的知識(shí)推理使用基于距離的評(píng)分方法,在稀疏知識(shí)圖譜上的推理結(jié)果表現(xiàn)較好,但這類模型往往容易忽略多跳知識(shí),語義解釋性較弱[54],最具代表性的就是基于Trans 系列的TransE[55]、TransH[56]、TransR[57]和TransD[58]模型,它們?cè)谠砩弦来芜f進(jìn)。目前,基于翻譯模型的知識(shí)推理在農(nóng)業(yè)領(lǐng)域的應(yīng)用剛剛起步,于2021 年GUAN 等[59]將這一技術(shù)引入農(nóng)業(yè)領(lǐng)域,作者使用TransR 對(duì)果樹病蟲害文本進(jìn)行編碼,提高了預(yù)測蘋果樹病蟲害的準(zhǔn)確率?;谡Z義匹配模型的知識(shí)推理使用基于相似度的評(píng)分方法,該方法通過匹配實(shí)體的潛在語義和向量空間表示中體現(xiàn)的關(guān)系來判斷事實(shí)的合理性,語義解釋性與翻譯模型相比較強(qiáng),但模型的復(fù)雜度較高[60],代表性模型有RESCAL[61]、DistMult[62]和HolE[63]等。
基于深度學(xué)習(xí)的知識(shí)推理可以自動(dòng)獲取特征,并將數(shù)據(jù)特征從原始空間映射到特征空間,進(jìn)而實(shí)現(xiàn)知識(shí)推理,這種方法對(duì)特征較為敏感,能夠很好地進(jìn)行特征捕捉[64],常用的技術(shù)主要有圖卷積模型[65]、循環(huán)神經(jīng)網(wǎng)絡(luò)[66](recurrent neural network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)[67](convolutional neural network,CNN)、Transformer[68]等。
知識(shí)圖譜只是對(duì)實(shí)體和關(guān)系進(jìn)行了最基本的描述和存儲(chǔ),若要觀察知識(shí)圖譜中實(shí)體間的關(guān)系和變化規(guī)律則需要對(duì)知識(shí)圖譜進(jìn)行存儲(chǔ)并可視化,幫助用戶從不同的角度分析數(shù)據(jù)[69]。目前主流的可視化工具主要有Neo4j[70]、D3.js[71]、Gephi[72]、Echarts[73]、Cytoscape[74]、CiteSpace[75]等,其中CiteSpace 常用于農(nóng)業(yè)專題文獻(xiàn)計(jì)量研究,Neo4j在農(nóng)業(yè)知識(shí)問答、農(nóng)業(yè)資源推薦以及農(nóng)業(yè)信息檢索等方面的應(yīng)用較多。
通過對(duì)農(nóng)業(yè)知識(shí)圖譜構(gòu)建技術(shù)的梳理可以發(fā)現(xiàn),本體構(gòu)建和知識(shí)抽取在農(nóng)業(yè)領(lǐng)域的研究較多且技術(shù)先進(jìn),而農(nóng)業(yè)知識(shí)融合與農(nóng)業(yè)知識(shí)推理環(huán)節(jié)的技術(shù)研究沒有得到足夠的重視,導(dǎo)致這兩方面的技術(shù)發(fā)展缺乏創(chuàng)新性。隨著農(nóng)業(yè)知識(shí)量的增長,農(nóng)業(yè)知識(shí)圖譜也在不斷膨脹,未來農(nóng)業(yè)數(shù)據(jù)會(huì)更加復(fù)雜,如何發(fā)展農(nóng)業(yè)知識(shí)圖譜的構(gòu)建技術(shù)以提升構(gòu)建效率將會(huì)是該領(lǐng)域的一大挑戰(zhàn)。本文將農(nóng)業(yè)知識(shí)圖譜構(gòu)建過程中使用的關(guān)鍵技術(shù)及其未來的可發(fā)展方向總結(jié)如表2 所示。
表2 農(nóng)業(yè)知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)及其發(fā)展難點(diǎn)Table 2 Key technologies and development difficulties of agricultural knowledge graph
知識(shí)圖譜在電商產(chǎn)品推薦、圖書情報(bào)和搜索引擎等領(lǐng)域得到了廣泛應(yīng)用,但在農(nóng)業(yè)領(lǐng)域的研究相對(duì)滯后,現(xiàn)有研究主要集中于農(nóng)業(yè)專題文獻(xiàn)計(jì)量研究、農(nóng)業(yè)信息檢索、農(nóng)業(yè)知識(shí)問答和農(nóng)業(yè)信息資源推薦4 個(gè)方面,如圖3 所示。
圖3 知識(shí)圖譜在農(nóng)業(yè)領(lǐng)域的應(yīng)用Fig.3 Application of knowledge graph in agriculture
在知識(shí)圖譜最初興起之時(shí),學(xué)者們專注于將知識(shí)圖譜作為分析農(nóng)業(yè)專題文獻(xiàn)的工具,用它來發(fā)現(xiàn)農(nóng)業(yè)領(lǐng)域的研究主題和技術(shù)熱點(diǎn),便于為農(nóng)業(yè)發(fā)展方向的實(shí)踐和探索提供參考和指導(dǎo)意見。周麗霞[81]用CiteSpace 對(duì)CSSCI 數(shù)據(jù)庫中與農(nóng)業(yè)規(guī)模經(jīng)營領(lǐng)域的發(fā)展歷史相關(guān)的文獻(xiàn)進(jìn)行了分析并發(fā)現(xiàn),適度規(guī)模經(jīng)營有助于農(nóng)業(yè)持續(xù)發(fā)展,誰來經(jīng)營、經(jīng)營多少以及如何實(shí)現(xiàn)是農(nóng)業(yè)規(guī)模經(jīng)營領(lǐng)域的三大要點(diǎn)。林偉君等[82]使用CiteSpace 對(duì)中國知網(wǎng)數(shù)據(jù)庫中與智慧農(nóng)業(yè)相關(guān)的文獻(xiàn)進(jìn)行分析,發(fā)現(xiàn)我國智慧農(nóng)業(yè)的前沿研究熱點(diǎn)是無線傳感器網(wǎng)絡(luò)、互聯(lián)網(wǎng)+以及物聯(lián)網(wǎng)等,這些技術(shù)已經(jīng)應(yīng)用到病蟲害防控、農(nóng)業(yè)遙感等領(lǐng)域。SONG 等[83]使用CiteSpace 對(duì)Web of Science數(shù)據(jù)庫中與農(nóng)業(yè)電子商務(wù)研究現(xiàn)狀相關(guān)的文獻(xiàn)進(jìn)行了分析,認(rèn)為農(nóng)業(yè)電子商務(wù)的模式和用戶滿意度在農(nóng)業(yè)電子商務(wù)未來的研究中需要重視。在農(nóng)業(yè)專題文獻(xiàn)計(jì)量分析中,CiteSpace 常被用來實(shí)現(xiàn)學(xué)科領(lǐng)域的共現(xiàn)分析,梳理領(lǐng)域發(fā)展態(tài)勢。
隨著知識(shí)圖譜構(gòu)建技術(shù)的不斷進(jìn)步,以信息搜索為主的普惠型信息服務(wù)開始逐漸面向農(nóng)業(yè)經(jīng)營主體,包括農(nóng)業(yè)信息檢索、農(nóng)業(yè)知識(shí)問答、農(nóng)業(yè)信息資源推薦等。使用知識(shí)圖譜構(gòu)建的農(nóng)業(yè)領(lǐng)域信息檢索系統(tǒng)可以將農(nóng)業(yè)知識(shí)規(guī)范化,避免知識(shí)零散和歧義帶來的問題。早期的農(nóng)業(yè)信息檢索研究嚴(yán)重依賴于人工數(shù)據(jù)標(biāo)注,現(xiàn)在則多采用深度學(xué)習(xí)方法識(shí)別農(nóng)業(yè)實(shí)體,如張海瑜等[27]提出一種基于語義知識(shí)圖譜的農(nóng)業(yè)知識(shí)智能檢索方法,首先人工構(gòu)建農(nóng)業(yè)本體,然后使用BiLSTM-CRF 模型抽取農(nóng)作物別名,最后使用Neo4j 進(jìn)行知識(shí)存儲(chǔ),實(shí)現(xiàn)了農(nóng)業(yè)知識(shí)的規(guī)范分類,解決了農(nóng)業(yè)知識(shí)一物多詞的問題;于婷婷[84]為實(shí)現(xiàn)農(nóng)作物信息的存儲(chǔ)檢索設(shè)計(jì)了農(nóng)作物知識(shí)圖譜,作者首先實(shí)現(xiàn)了從農(nóng)業(yè)科學(xué)敘詞表到農(nóng)作物本體的轉(zhuǎn)換,然后使用BERT-BiLSTM-CRF 模型進(jìn)行農(nóng)作物知識(shí)抽取,最后用Neo4j 進(jìn)行知識(shí)存儲(chǔ);沈利言[85]為提高水稻栽培技術(shù)的傳播效率構(gòu)建了水稻栽培方案知識(shí)圖譜,作者首先參考多種數(shù)據(jù)來源人工構(gòu)建了草莓知識(shí)本體,然后融合注意力機(jī)制和BiLSTM 模型進(jìn)行知識(shí)抽取,最后用Neo4j 圖數(shù)據(jù)庫存儲(chǔ)水稻知識(shí)圖譜并實(shí)現(xiàn)了可視化水稻栽培方案檢索。
使用知識(shí)圖譜技術(shù)構(gòu)建面向具體農(nóng)業(yè)任務(wù)的問答系統(tǒng)有助于幫助農(nóng)戶快速、精準(zhǔn)地解決某些領(lǐng)域內(nèi)的專業(yè)問題。最初農(nóng)業(yè)知識(shí)問答系統(tǒng)通過計(jì)算實(shí)體相似度實(shí)現(xiàn),需要匹配大量的農(nóng)業(yè)知識(shí)問答庫,效率較低?,F(xiàn)在隨著知識(shí)融合與知識(shí)推理技術(shù)在農(nóng)業(yè)中的不斷發(fā)展,農(nóng)業(yè)知識(shí)問答系統(tǒng)具有了一定的擴(kuò)展能力。李巖[86]首先使用Protégé工具構(gòu)建了禽畜疾病防治本體,然后使用基于規(guī)則的知識(shí)抽取方法從網(wǎng)頁中人工抽取知識(shí)并使用Neo4j對(duì)知識(shí)進(jìn)行存儲(chǔ),最后設(shè)計(jì)并實(shí)現(xiàn)了禽畜疾病領(lǐng)域問答系統(tǒng)使用,為禽畜疾病的重要技術(shù)提供了支撐;周子豪[87]提出了一種實(shí)體關(guān)系聯(lián)合抽取模型BERT-LCM-Tea 用于進(jìn)行茶葉知識(shí)抽取,解決了茶葉實(shí)體間關(guān)系重疊問題,然后作者又提出了CBOW-TransE 模型用于茶葉知識(shí)融合,最后使用Neo4j 存儲(chǔ)茶葉知識(shí),實(shí)現(xiàn)了茶葉知識(shí)問答系統(tǒng),該系統(tǒng)能夠幫助茶農(nóng)梳理茶葉種植和培育的專業(yè)知識(shí),為制茶企業(yè)提供輔助決策。王宇航等[76]將文本轉(zhuǎn)換為字符和詞對(duì)的序列,在此基礎(chǔ)上改進(jìn)了BERTBiLSTM-CRF 模型并進(jìn)行農(nóng)業(yè)知識(shí)抽取,然后用Neo4j存儲(chǔ),實(shí)現(xiàn)了農(nóng)業(yè)自動(dòng)問答系統(tǒng),該系統(tǒng)能夠高效高質(zhì)量地整合農(nóng)業(yè)知識(shí)應(yīng)用。在農(nóng)業(yè)知識(shí)問答中,知識(shí)抽取作為構(gòu)建知識(shí)圖譜必不可少的步驟在該應(yīng)用領(lǐng)域最為常用,Neo4j 圖數(shù)據(jù)庫由于其查詢高效的優(yōu)勢常被用作存儲(chǔ)知識(shí)。
基于知識(shí)圖譜進(jìn)行農(nóng)業(yè)領(lǐng)域的信息資源推薦可以有效篩選冗余信息,為用戶快速推薦符合其個(gè)性化需求的產(chǎn)品。最初的農(nóng)業(yè)信息資源推薦以分析語義為主,如郭偉光[69]針對(duì)用戶難以快速找到其偏好農(nóng)產(chǎn)品的問題設(shè)計(jì)了農(nóng)產(chǎn)品推薦系統(tǒng),作者首先使用Protégé工具構(gòu)建了農(nóng)產(chǎn)品本體,然后經(jīng)過語義查詢和分析為用戶推薦其感興趣的農(nóng)產(chǎn)品。后來隨著基于知識(shí)圖譜的個(gè)性化推薦算法的發(fā)展,學(xué)者們開始根據(jù)用戶的個(gè)性化需求、偏好和個(gè)人特征為其進(jìn)行推薦,如孫琳[88]針對(duì)農(nóng)戶搜尋有效信息效率底下的問題設(shè)計(jì)了基于知識(shí)圖譜的農(nóng)業(yè)在線信息資源推薦系統(tǒng),使用融合注意力機(jī)制的BiLSTM 模型抽取非結(jié)構(gòu)化農(nóng)業(yè)知識(shí),并將用戶對(duì)知識(shí)圖譜中實(shí)體的偏好程度融合到推薦算法中,實(shí)現(xiàn)農(nóng)業(yè)信息的個(gè)性化推薦;戈為溪等[89]首先使用PairRE 模型獲取實(shí)體和關(guān)系的向量表示,然后通過知識(shí)推理得到具體的施肥方案,最后根據(jù)相似的方案為農(nóng)戶推薦精確的施肥量。
知識(shí)圖譜在農(nóng)業(yè)領(lǐng)域應(yīng)用的比較如表3 所示,可以看出,本體構(gòu)建、知識(shí)抽取和知識(shí)圖譜存儲(chǔ)及可視化技術(shù)最為常用,但知識(shí)融合、知識(shí)推理在農(nóng)業(yè)應(yīng)用領(lǐng)域使用較少,這表明農(nóng)業(yè)知識(shí)圖譜在構(gòu)建過程中不夠規(guī)范、完整,因此農(nóng)業(yè)知識(shí)圖譜應(yīng)結(jié)合農(nóng)業(yè)知識(shí)特點(diǎn)重點(diǎn)關(guān)注構(gòu)建技術(shù)的發(fā)展與創(chuàng)新。
表3 知識(shí)圖譜在農(nóng)業(yè)領(lǐng)域應(yīng)用的比較Table 3 Comparison of knowledge graph applications in agriculture
本文通過梳理知識(shí)圖譜技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用研究進(jìn)展,總結(jié)了知識(shí)圖譜的構(gòu)建模式、農(nóng)業(yè)知識(shí)圖譜構(gòu)建的核心技術(shù)的發(fā)展過程、現(xiàn)狀和局限性,并綜述了當(dāng)前知識(shí)圖譜在農(nóng)業(yè)領(lǐng)域的應(yīng)用場景。主要結(jié)論如下:
1)在農(nóng)業(yè)知識(shí)圖譜的構(gòu)建技術(shù)中,知識(shí)抽取技術(shù)已經(jīng)發(fā)展較為成熟,以BERT-BiLSTM-CRF 為代表的模型得到了廣泛應(yīng)用,然而知識(shí)融合與知識(shí)推理在農(nóng)業(yè)知識(shí)圖譜的構(gòu)建過程中缺乏重視,使用的方法較為落后。隨著農(nóng)業(yè)知識(shí)數(shù)據(jù)量的增長,未來的農(nóng)業(yè)數(shù)據(jù)會(huì)更加復(fù)雜,為了提升農(nóng)業(yè)知識(shí)圖譜構(gòu)建的效率,在農(nóng)業(yè)知識(shí)融合階段可以參考知識(shí)表示學(xué)習(xí)方法,豐富農(nóng)業(yè)實(shí)體之間隱含的語義特征;在農(nóng)業(yè)知識(shí)推理階段可以參考基于分布式表示特征的方法和基于深度學(xué)習(xí)的方法,挖掘隱藏的農(nóng)業(yè)實(shí)體間的關(guān)系。
2)目前知識(shí)圖譜在農(nóng)業(yè)領(lǐng)域的應(yīng)用場景主要集中于農(nóng)業(yè)專題文獻(xiàn)計(jì)量研究、農(nóng)業(yè)知識(shí)問答、農(nóng)業(yè)信息資源推薦和農(nóng)業(yè)信息檢索等方面,但知識(shí)圖譜在這些場景中的應(yīng)用仍存在一些不足,表現(xiàn)為:農(nóng)業(yè)專題文獻(xiàn)計(jì)量研究的范圍較窄,無法從多個(gè)數(shù)據(jù)源同時(shí)獲取信息;農(nóng)業(yè)信息檢索的效果不夠理想,對(duì)于農(nóng)業(yè)工作人員來說使用的便利度不夠;農(nóng)業(yè)知識(shí)問答無法對(duì)復(fù)雜問題進(jìn)行實(shí)際推理,難以滿足實(shí)際需要;農(nóng)業(yè)信息資源推薦使用的算法較為落后,推薦精度較低。這些實(shí)際應(yīng)用上的缺陷仍需改進(jìn),知識(shí)圖譜技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用還有很大發(fā)展空間。
知識(shí)圖譜中包含的信息形式多樣且多源異構(gòu),含有豐富的語義關(guān)系,將知識(shí)圖譜相關(guān)技術(shù)應(yīng)用于農(nóng)業(yè)領(lǐng)域,有助于更深入地挖掘和表示農(nóng)業(yè)領(lǐng)域的知識(shí)關(guān)聯(lián)和規(guī)律。結(jié)合知識(shí)圖譜技術(shù)的發(fā)展趨勢、目前知識(shí)圖譜農(nóng)業(yè)應(yīng)用的不足和未來農(nóng)業(yè)發(fā)展對(duì)知識(shí)圖譜技術(shù)的要求,本文認(rèn)為未來應(yīng)關(guān)注以下幾方面的研究。
1)基于知識(shí)圖譜的農(nóng)產(chǎn)品電商推薦
目前,推薦算法已經(jīng)在各類電商平臺(tái)廣泛應(yīng)用,但這些推薦算法大多基于用戶的瀏覽、購買等歷史記錄進(jìn)行相似性推薦,面臨用戶-物品評(píng)分矩陣稀疏性和冷啟動(dòng)等問題,導(dǎo)致推薦結(jié)果不準(zhǔn)確,為解決上述問題,研究者們嘗試將知識(shí)圖譜作為輔助信息融入到傳統(tǒng)推薦算法中從而提升算法的性能,知識(shí)圖譜可以在不受用戶-物品評(píng)分矩陣稀疏性影響的同時(shí),為傳統(tǒng)推薦算法的結(jié)果提供可解釋性。
但當(dāng)考慮將基于知識(shí)圖譜的推薦算法應(yīng)用于農(nóng)產(chǎn)品電商推薦時(shí),難度仍然較大。目前針對(duì)農(nóng)產(chǎn)品知識(shí)圖譜的研究較為匱乏,農(nóng)產(chǎn)品的品種較為多樣且特征區(qū)分度不夠明顯,許多新品種對(duì)于多數(shù)消費(fèi)者來說更是聞所未聞,直接將推薦算法用于農(nóng)產(chǎn)品推薦難以滿足農(nóng)業(yè)工作者的需求。電商農(nóng)產(chǎn)品知識(shí)圖譜構(gòu)建中的實(shí)體和關(guān)系抽取都需要考慮農(nóng)產(chǎn)品的特殊性,電商農(nóng)產(chǎn)品推薦算法的精準(zhǔn)性也會(huì)是研究的難點(diǎn)。
2)動(dòng)態(tài)農(nóng)業(yè)知識(shí)圖譜的構(gòu)建
知識(shí)圖譜中的實(shí)體和關(guān)系在現(xiàn)實(shí)世界中具有時(shí)效性,構(gòu)建動(dòng)態(tài)的知識(shí)圖譜有利于根據(jù)真實(shí)環(huán)境的變化實(shí)時(shí)更新知識(shí)挖掘的結(jié)果,實(shí)現(xiàn)更為精準(zhǔn)的推薦或檢索。動(dòng)態(tài)農(nóng)業(yè)知識(shí)圖譜可以為農(nóng)戶提供最新的技術(shù)和相關(guān)信息,有助于農(nóng)戶和農(nóng)業(yè)相關(guān)技術(shù)人員對(duì)農(nóng)業(yè)任務(wù)進(jìn)行及時(shí)調(diào)整。但是構(gòu)建動(dòng)態(tài)農(nóng)業(yè)知識(shí)圖譜的過程中必須考慮到農(nóng)業(yè)實(shí)體的特殊性,在這類知識(shí)圖譜中不僅知識(shí)是變化的,甚至節(jié)點(diǎn)的數(shù)量也會(huì)根據(jù)實(shí)際情況(如農(nóng)作物不同生長期等)有所變化,因此時(shí)序動(dòng)態(tài)知識(shí)表示學(xué)習(xí)相關(guān)算法如何去適應(yīng)農(nóng)業(yè)實(shí)體特點(diǎn)將會(huì)是構(gòu)建動(dòng)態(tài)農(nóng)業(yè)知識(shí)圖譜的一大挑戰(zhàn)。
3)跨領(lǐng)域知識(shí)圖譜的構(gòu)建與關(guān)聯(lián)
目前知識(shí)圖譜在構(gòu)建過程中往往抽取的是同一領(lǐng)域中的實(shí)體信息,如何實(shí)現(xiàn)跨領(lǐng)域、跨來源的實(shí)體抽取成為了一大難題。構(gòu)建農(nóng)業(yè)范圍內(nèi)的跨領(lǐng)域知識(shí)圖譜可以將育種、種植、澆灌、病蟲害防治、物流、銷售等過程融合在一起,避免單一領(lǐng)域知識(shí)圖譜的局限性,考慮不同流程之間的影響和相互關(guān)系,實(shí)現(xiàn)多維度的推薦和檢索任務(wù),提供更全面的推薦和檢索結(jié)果。但是目前跨領(lǐng)域知識(shí)圖譜的研究尚未成熟,如何應(yīng)用到農(nóng)業(yè)領(lǐng)域也是將來一個(gè)較大的挑戰(zhàn)。