摘要:通過信息技術(shù)提高農(nóng)業(yè)生產(chǎn)的效率、優(yōu)化農(nóng)業(yè)生產(chǎn)中的問題對(duì)我國農(nóng)業(yè)發(fā)展至關(guān)重要。目前,信息技術(shù)的發(fā)展產(chǎn)生了海量數(shù)據(jù),這些數(shù)據(jù)大多以碎片化、非結(jié)構(gòu)化的形式分布在網(wǎng)絡(luò)上。尤其在農(nóng)業(yè)領(lǐng)域,使用傳統(tǒng)搜索引擎進(jìn)行信息檢索難以高效準(zhǔn)確地獲取其中有價(jià)值的農(nóng)業(yè)信息,往往需要消耗大量的時(shí)間和精力從海量無組織的數(shù)據(jù)中進(jìn)行二次收集和整理。針對(duì)上述問題,本文通過網(wǎng)絡(luò)爬蟲技術(shù)挖掘公開的農(nóng)業(yè)網(wǎng)站中的數(shù)據(jù),經(jīng)過自動(dòng)化或半自動(dòng)化數(shù)據(jù)清洗、去噪等過程,將非結(jié)構(gòu)化的數(shù)據(jù)重新組合成結(jié)構(gòu)化的數(shù)據(jù),最終以知識(shí)圖譜的方式進(jìn)行存儲(chǔ)。所構(gòu)建的農(nóng)業(yè)知識(shí)圖譜數(shù)據(jù)集包括糧食作物、經(jīng)濟(jì)作物、水果、蔬菜等11個(gè)農(nóng)業(yè)大類、共計(jì)8 481個(gè)小類的條目數(shù)據(jù),每個(gè)小類條目對(duì)應(yīng)一種農(nóng)業(yè)生物或藥物。具體包括糧食作物461種、經(jīng)濟(jì)作物2 208種、水果1 294種、蔬菜257種、食用菌118種、花木1 161種、水產(chǎn)142種、農(nóng)藥113種、農(nóng)作物病蟲害1 605種、獸藥519種、中草藥603種。根據(jù)該數(shù)據(jù)集構(gòu)建的農(nóng)業(yè)知識(shí)圖譜三元組達(dá)到90 508條,規(guī)模較大、覆蓋品類較為廣泛,能夠?yàn)檗r(nóng)業(yè)知識(shí)問答、推薦系統(tǒng)等人機(jī)交互友好的智能應(yīng)用研發(fā)提供基礎(chǔ)數(shù)據(jù)支撐;同時(shí),在生成式大模型中融入農(nóng)業(yè)領(lǐng)域知識(shí)圖譜,有助于在垂直領(lǐng)域上實(shí)現(xiàn)更為高效、精準(zhǔn)的信息檢索和智能決策。
關(guān)鍵詞:農(nóng)業(yè)數(shù)據(jù);網(wǎng)絡(luò)挖掘;知識(shí)圖譜;數(shù)據(jù)集
1? 引言
近些年,農(nóng)業(yè)信息化的發(fā)展在網(wǎng)絡(luò)上產(chǎn)生了海量數(shù)據(jù),這些數(shù)據(jù)大多以非結(jié)構(gòu)化、碎片化的形式存在,傳統(tǒng)搜索技術(shù)難以高效準(zhǔn)確地發(fā)現(xiàn)所需數(shù)據(jù),往往需要數(shù)據(jù)需求者消耗大量的時(shí)間和精力從海量無組織的數(shù)據(jù)中進(jìn)行二次收集和整理。因此,亟需一種結(jié)構(gòu)化的數(shù)據(jù)表示方法以剔除無關(guān)信息并有效組織有價(jià)值的信息,從而降低信息獲取、分析和應(yīng)用的難度。
2012年,谷歌提出的知識(shí)圖譜(Knowledge Graph)[1]采用<實(shí)體1,關(guān)系,實(shí)體2>三元組對(duì)知識(shí)進(jìn)行結(jié)構(gòu)化表示,構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)[2],可用于各類復(fù)雜場景的知識(shí)分析與智能決策,已在經(jīng)濟(jì)[3-4]、醫(yī)學(xué)[5]、藥物分析[6]等領(lǐng)域廣泛應(yīng)用。這為解決上述農(nóng)業(yè)領(lǐng)域知識(shí)表示與信息檢索的難題提供了良好的思路和參考。農(nóng)業(yè)知識(shí)圖譜可以實(shí)現(xiàn)分散數(shù)據(jù)集的相互關(guān)聯(lián)與有效整合,有助于實(shí)現(xiàn)高效的數(shù)據(jù)檢索[7]和知識(shí)推理[8],成為國內(nèi)外學(xué)者持續(xù)關(guān)注的研究主題。CHEN等[9]構(gòu)建的AgriKG是一個(gè)面向農(nóng)業(yè)全領(lǐng)域的知識(shí)圖譜,使用自然語言處理和深度學(xué)習(xí)技術(shù)識(shí)別非結(jié)構(gòu)化文本中的農(nóng)業(yè)實(shí)體和關(guān)系并鏈接到知識(shí)庫中;許鑫等[10]通過網(wǎng)絡(luò)爬蟲技術(shù)獲取小麥品種信息,對(duì)抓取的數(shù)據(jù)進(jìn)行清洗、抽取、融合、實(shí)體識(shí)別、關(guān)系抽取等處理,構(gòu)建了小麥品種知識(shí)圖譜;張嘉宇等[11]為解決農(nóng)業(yè)知識(shí)圖譜對(duì)病蟲害防治相關(guān)實(shí)體和關(guān)系刻畫不夠細(xì)致問題,構(gòu)建了蘋果病蟲害知識(shí)圖譜;陳明等[12]構(gòu)建了花卉病蟲害知識(shí)圖譜,使得花卉病蟲害知識(shí)更加規(guī)范、完整;張朋朋等[13]采用Python爬蟲和OCR技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理,最終獲得5類奶牛疫病261條數(shù)據(jù),構(gòu)建了中國奶牛疫病知識(shí)圖譜。
上述研究大多構(gòu)建的是某一種或某一類農(nóng)業(yè)對(duì)象的知識(shí)圖譜,規(guī)模相對(duì)較小,難以滿足農(nóng)業(yè)數(shù)據(jù)組織與搜索的需求。本研究通過網(wǎng)絡(luò)爬蟲技術(shù)快速挖掘網(wǎng)絡(luò)數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、去噪等一系列預(yù)處理,得到包括11個(gè)農(nóng)業(yè)大類、共計(jì)8 481個(gè)小類的條目數(shù)據(jù),據(jù)此構(gòu)建的農(nóng)業(yè)知識(shí)圖譜三元組達(dá)到90 508條,規(guī)模較大、覆蓋品類較為廣泛。
2? 數(shù)據(jù)采集與處理方法
構(gòu)建農(nóng)業(yè)知識(shí)圖譜數(shù)據(jù)集主要分為三個(gè)階段:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)采集主要是確定數(shù)據(jù)的來源以及數(shù)據(jù)的挖掘;數(shù)據(jù)預(yù)處理是將挖掘的數(shù)據(jù)進(jìn)行去噪、清洗等操作;數(shù)據(jù)存儲(chǔ)是選擇適當(dāng)?shù)男问酱鎯?chǔ)獲得的結(jié)構(gòu)化數(shù)據(jù),為后續(xù)抽取三元組、構(gòu)建知識(shí)圖譜做準(zhǔn)備。
2.1? 數(shù)據(jù)采集
網(wǎng)絡(luò)上的農(nóng)業(yè)數(shù)據(jù)雖然種類繁多,但是分類明確、屬性清晰的結(jié)構(gòu)化數(shù)據(jù)非常少。因此,在這樣的條件下,構(gòu)建農(nóng)業(yè)知識(shí)圖譜首先要篩選農(nóng)業(yè)領(lǐng)域分類清晰且每個(gè)農(nóng)業(yè)數(shù)據(jù)條目都附帶有相應(yīng)的屬性說明的網(wǎng)絡(luò)數(shù)據(jù)源。根據(jù)以上要求,作者在查閱眾多網(wǎng)站后,采用“中國農(nóng)業(yè)網(wǎng)(http://www.zgny.com/)”和“農(nóng)博數(shù)據(jù)(http://shuju.aweb.com.cn/breed/breed-1-1.shtml)”這兩個(gè)公開網(wǎng)站作為數(shù)據(jù)挖掘的來源。
同時(shí),不同網(wǎng)站數(shù)據(jù)結(jié)構(gòu)和屬性不同,根據(jù)構(gòu)建知識(shí)圖譜所要求的數(shù)據(jù)完整性和類型一致性等約束條件,最終選擇了11類屬性條目相對(duì)完整且一致的農(nóng)業(yè)數(shù)據(jù)作為構(gòu)建知識(shí)圖譜的數(shù)據(jù)來源。如圖1所示,花卉類需要具有分類名稱、品種名稱、國家級(jí)審定編號(hào)等屬性。數(shù)據(jù)來源確定后,使用Python語言編寫腳本用于目標(biāo)網(wǎng)頁數(shù)據(jù)的爬取,其中主要采用requests和xpath庫進(jìn)行html頁面解析并挖掘文本數(shù)據(jù)。獲得的原始數(shù)據(jù)包括11個(gè)農(nóng)業(yè)大類、共計(jì)8 481個(gè)小類的條目數(shù)據(jù),具體包括糧食作物461種、經(jīng)濟(jì)作物2 208種、水果1 294種、蔬菜257種、食用菌118種、花木1 161種、水產(chǎn)142種、農(nóng)藥113種、農(nóng)作物病蟲害1 605種、獸藥519種、中草藥603種。
2.2? 數(shù)據(jù)預(yù)處理
從網(wǎng)絡(luò)挖掘的文本數(shù)據(jù)一般存在兩個(gè)問題:一是屬性及其描述通常包含在大段非結(jié)構(gòu)化的文本中,且文本中包含特殊符號(hào)等噪聲;二是即使數(shù)據(jù)類別相同,其包含的數(shù)據(jù)屬性也是不一致的,如圖2所示。因此,需要對(duì)挖掘的數(shù)據(jù)進(jìn)行清洗、去噪等預(yù)處理。
首先,采用腳本語言編寫正則表達(dá)式以批量去除文本中的網(wǎng)頁標(biāo)記等特殊字符,示例如圖3所示,能夠?qū)τ⑽淖帜复笮?、阿拉伯?dāng)?shù)字、標(biāo)點(diǎn)等特殊字符進(jìn)行相應(yīng)的處理。
然后,對(duì)文本使用隨機(jī)采樣的方式抽取每類數(shù)據(jù)中所包含的屬性,進(jìn)行篩選后確定每類數(shù)據(jù)最終的屬性構(gòu)成,如表1所示。最后,按屬性名稱從長文本段落中提取相應(yīng)的屬性描述。完整的數(shù)據(jù)預(yù)處理流程如圖4所示。
2.3? 數(shù)據(jù)存儲(chǔ)
基于預(yù)處理后的數(shù)據(jù)構(gòu)建知識(shí)圖譜,需要進(jìn)行實(shí)體識(shí)別、關(guān)系抽取等前期工作才能獲得相應(yīng)的三元組。為了簡化這些工作,本文進(jìn)一步將預(yù)處理后數(shù)據(jù)以結(jié)構(gòu)化的形式進(jìn)行存儲(chǔ),使得能夠較為方便地從其中的單條數(shù)據(jù)構(gòu)建出多個(gè)<實(shí)體,屬性名,屬性描述>或<實(shí)體1,關(guān)系,實(shí)體2>形式的三元組。如圖5所示,以花木數(shù)據(jù)中虎眼萬年青條目為例,可以構(gòu)成<虎眼萬年青,別名,海蔥>、<虎眼萬年青,產(chǎn)地,原產(chǎn)南非>等三元組。
3? 數(shù)據(jù)內(nèi)容
本文構(gòu)建的農(nóng)業(yè)知識(shí)圖譜包含11個(gè)農(nóng)業(yè)大類、共計(jì)8 481個(gè)小類的條目數(shù)據(jù),具體每類數(shù)據(jù)的數(shù)據(jù)量如表1所示,每類數(shù)據(jù)保存在相應(yīng)的JSON文件中,以大類的英文命名。
條目具體內(nèi)容包括品種名稱和品種屬性描述,其中品種名稱作為鍵,屬性描述作為值,以字典形式存儲(chǔ),如圖6所示。示例中,“紫云英”“小麗花”等品種名稱作為鍵,其“別名”“產(chǎn)地”“習(xí)性”等屬性的描述作為值,形成字典形式的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ)。
根據(jù)上述數(shù)據(jù)存儲(chǔ)方式能夠較為方便地抽取出90 508條知識(shí)圖譜三元組,從而構(gòu)建農(nóng)業(yè)知識(shí)圖譜。所構(gòu)建的知識(shí)圖譜部分如圖7所示。
4? 質(zhì)量控制和技術(shù)驗(yàn)證
在數(shù)據(jù)采集階段,采用多種方法控制數(shù)據(jù)質(zhì)量,其中為獲取到分類明確、屬性清晰的農(nóng)業(yè)數(shù)據(jù),對(duì)農(nóng)業(yè)領(lǐng)域網(wǎng)站進(jìn)行搜索和篩選,最終選擇較為專業(yè)且規(guī)范的網(wǎng)站作為數(shù)據(jù)來源,保證每條農(nóng)業(yè)數(shù)據(jù)的來源真實(shí)可靠。
在數(shù)據(jù)預(yù)處理階段,除了數(shù)據(jù)清洗、噪聲去除等自動(dòng)化方式,作者團(tuán)隊(duì)中還配備長期從事農(nóng)業(yè)信息化研究的科研人員對(duì)所挖掘的農(nóng)業(yè)數(shù)據(jù)及類別進(jìn)行檢查和分析,逐條檢查預(yù)處理之后的文本,糾正可能存在的數(shù)據(jù)錯(cuò)誤,包括文本噪聲完全去除和數(shù)據(jù)類型及屬性是否與表1一致等檢查,進(jìn)一步保證了數(shù)據(jù)的準(zhǔn)確性和一致性。
在數(shù)據(jù)存儲(chǔ)階段,以規(guī)范的JSON格式存儲(chǔ)數(shù)據(jù),結(jié)構(gòu)清晰,便于自動(dòng)化解析和處理,提高構(gòu)建農(nóng)業(yè)知識(shí)圖譜的效率。
在數(shù)據(jù)的技術(shù)驗(yàn)證階段,首先依據(jù)此數(shù)據(jù)集構(gòu)建了農(nóng)業(yè)知識(shí)圖譜。然后,對(duì)知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)行完整性檢查。由于受限于數(shù)據(jù)來源網(wǎng)站,所構(gòu)建的數(shù)據(jù)集不可避免地存在數(shù)據(jù)不完整的現(xiàn)象。對(duì)于原始數(shù)據(jù)中缺失的部分屬性,在構(gòu)建的結(jié)構(gòu)化數(shù)據(jù)中相應(yīng)地標(biāo)注為“未知”,以便為后續(xù)知識(shí)圖譜擴(kuò)充或知識(shí)補(bǔ)全方法的研究提供標(biāo)簽信息。最后,為驗(yàn)證該數(shù)據(jù)集的有效性,搭建了基于文本分類的農(nóng)業(yè)知識(shí)問答系統(tǒng)[14],基于構(gòu)建的農(nóng)業(yè)知識(shí)圖譜進(jìn)行答案的檢索,從系統(tǒng)應(yīng)用的角度對(duì)數(shù)據(jù)集進(jìn)行驗(yàn)證。
5? 數(shù)據(jù)價(jià)值與使用建議
目前農(nóng)業(yè)知識(shí)圖譜大多只包含某一種或某一類農(nóng)業(yè)對(duì)象,本數(shù)據(jù)集涵蓋11個(gè)大類的農(nóng)業(yè)數(shù)據(jù),共計(jì)8481個(gè)小類,根據(jù)此數(shù)據(jù)集構(gòu)建的農(nóng)業(yè)知識(shí)圖譜規(guī)模較大、覆蓋品類較為廣泛。數(shù)據(jù)價(jià)值主要體現(xiàn)在如下兩方面。
(1)直接作為知識(shí)推理研究的知識(shí)庫??稍谠摂?shù)據(jù)的基礎(chǔ)上利用知識(shí)補(bǔ)全等方法對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充,進(jìn)一步提高知識(shí)的完整性。
(2)為智能農(nóng)業(yè)應(yīng)用研發(fā)提供基礎(chǔ)數(shù)據(jù)支撐。研究人員可以結(jié)合自然語言處理技術(shù),快速搭建農(nóng)業(yè)知識(shí)問答[14-15]、推薦系統(tǒng)[8]等應(yīng)用軟件。
隨著生成式大模型的快速發(fā)展,在大模型中融入農(nóng)業(yè)領(lǐng)域知識(shí)圖譜,有助于在垂直領(lǐng)域上實(shí)現(xiàn)更為高效、更為精準(zhǔn)的信息檢索和智能決策。
6? 數(shù)據(jù)可用性
數(shù)據(jù)庫(集)的訪問與獲取信息如下:
中國科技資源標(biāo)識(shí)碼(CSTR):17058.11.sciencedb. agriculture.00016;
數(shù)字對(duì)象標(biāo)識(shí)碼(DOI):10.57760/sciencedb. agriculture.00016。
數(shù)據(jù)服務(wù)系統(tǒng)網(wǎng)址:https://doi.org/10.57760/ sciencedb.agriculture.00016,允許公開獲取。
數(shù)據(jù)作者分工職責(zé)
陳雷,數(shù)據(jù)分析、質(zhì)量控制及論文撰寫指導(dǎo)。
周娜,數(shù)據(jù)匯總及論文撰寫。
朱芃璇,數(shù)據(jù)獲取、質(zhì)量控制及匯總整理。
袁媛,數(shù)據(jù)分析、質(zhì)量控制及論文撰寫指導(dǎo)。
倫理聲明
本文數(shù)據(jù)不涉及倫理聲明相關(guān)的內(nèi)容。
利益沖突聲明
作者聲明,全部作者均無會(huì)影響研究公正性的財(cái)務(wù)利益沖突或個(gè)人利益沖突。
參考文獻(xiàn)
[1] SINGHAL A. Introducing the knowledge graph: things, not strings [EB/OL]. (2012-05-16) [2023-08-22]. https://blog.google/products/ search/introducingknowledge-graph-things-not/.
[2] 劉嶠,李楊,段宏,等. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展, 2016, 53(3): 582-600. DOI:10.7544/issnl000-1239.2016. 20148228.
[3] 陳曉軍,向陽. 企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜的構(gòu)建及應(yīng)用[J]. 計(jì)算機(jī)科學(xué), 2020, 47(11): 237-243. DOI:10.11896/jsjkx.191000015.
[4] 楊波,廖怡茗. 面向企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)的知識(shí)圖譜構(gòu)建與應(yīng)用研究[J]. 現(xiàn)代情報(bào), 2021, 41(3): 110-120. DOI:10.3936/j.issn.1008-0821.2021. 03.011.
[5] SONG Y, CAI L, ZHANG K, et al. Construction of Chinese Pediatric Medical Knowledge Graph[C]. Joint International Semantic Technology Conference, Hangzhou, China, November 25-27, 2019. DOI:10.1007/ 978-981-15-3412-6_21.
[6] GONG F, WANG M, WANG H, et al. SMR: Medical knowledge graph embedding for safe medicine recommendation[J]. Big Data Research, 2021, 23:100174. DOI:10.1016/j.bdr.2020.100174.
[7] 王棟,周菲,李穎芳,等. 我國甜櫻桃產(chǎn)業(yè)知識(shí)圖譜構(gòu)建研究[J]. 中國果樹, 2023, 2023(1): 104-108. DOI:10.16626/j.cnki.issn1000-8047. 2023.01.021.
[8] 趙繼春,孫素芬,郭建鑫,等. 農(nóng)業(yè)在線學(xué)習(xí)資源知識(shí)圖譜構(gòu)建與推薦技術(shù)研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2022, 39(8): 69-75. DOI:10. 3969/j.issn.1000-386x.2022.08.010.
[9] CHEN Y, KUANG J, CHENG D, et al. AgriKG: an agricultural knowledge graph and its applications[C]. Database Systems for Advanced Applications, Chiang Mai, Thailand, April 22-25, 2019. DOI:10.1007/978-3-030-18590-9_81.
[10] 許鑫,岳金釗,趙錦鵬,等. 小麥品種知識(shí)圖譜構(gòu)建與可視化研究[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2021, 30(6): 286-292. DOI:10.15888/j.cnki.csa. 007986.
[11] 張嘉宇,郭玫,張永亮,等. 細(xì)粒度蘋果病蟲害知識(shí)圖譜構(gòu)建研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(5): 270-280. DOI:10.3778/j.issn.1002- 8331. 2205-0556.
[12] 陳明,朱玨樟,席曉桃. 基于知識(shí)圖譜的花卉病蟲害知識(shí)管理方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2023, 54(3): 291-300. DOI:10.6041/j.issn.1000-1298. 2023.03.029.
[13] 張朋朋,李全勝,孔繁濤,等. 中國奶牛疫病知識(shí)圖譜構(gòu)建數(shù)據(jù)集[J]. 中國科學(xué)數(shù)據(jù), 2023, 8(2): 257-264. DOI:10.11922/11-6035.nasdc. 2022.0011.zh.
[14] ZHU P, YUAN Y, CHEN L, et al. Question answering on agricultural knowledge graph based on multi-label text classification[C/OL]. Seventh International Conference on Cognitive Systems and Information Processing (ICCSIP2022), December 17-18, 2022, Fuzhou. DOI:10.1007/978-981-99-0617-8_14.
[15] 封晨,楊文,孫冠群. 基于知識(shí)圖譜的智能問答系統(tǒng)研究[C]. 第三十七屆中國(天津)2023I、網(wǎng)絡(luò)、信息技術(shù)、電子、儀器儀表創(chuàng)新學(xué)術(shù)會(huì)議,天津, 2023. DOI:10.26914/c.cnkihy.2023.022844.
引用格式:陳雷,周娜,朱芃璇,袁媛.農(nóng)業(yè)知識(shí)圖譜構(gòu)建數(shù)據(jù)集[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào),2024,6(1): 1-8. DOI: 10.19788/j.issn.2096-6369.100002.
CITATION: CHEN Lei, ZHOU Na, ZHU PengXuan, YUAN Yuan. A Dataset for Constructing Agricultural Knowledge Graph[J]. Journal of Agricultural Big Data, 2024,6(1): 1-8. DOI: 10.19788/j.issn.2096-6369.100002.
A Dataset for Constructing Agricultural Knowledge Graph
CHEN Lei1,2, ZHOU Na1, ZHU PengXuan2, YUAN Yuan1,2*
1. School of Electronic and Information Engineering, Anhui Jianzhu University, Hefei 230601, China; 2. Institute of Intelligent Machines, Hefei Institutes of Physical Science, Chinese Academy of Sciences, Hefei 230031, China
Abstract: Improving the efficiency of agricultural production and optimizing the problems in agricultural production through information technology is crucial for the development of agriculture in China. At present, the development of information technology has generated massive amounts of data, which are mostly distributed on the Internet in fragmented and unstructured forms. Especially in the domain of agriculture, using traditional search engines for information retrieval is difficult to efficiently and accurately obtain valuable agricultural information, often requiring a lot of time and effort to collect and organize secondary data from massive unorganized data. To address the above issues, this paper utilizes web crawler technology to mine data from publicly available agricultural websites. Through automatic or semi-automatic data cleaning, denoising, and other processes, unstructured data are recombined into structured data, which is ultimately stored in the form of a knowledge graph. The dataset for constructing agricultural knowledge graph includes item data for 11 agricultural categories, such as grain crops, cash crops, fruits, vegetables, etc. Specifically, it includes 461 types of grain crops, 2 208 types of cash crops, 1 294 types of fruits, 257 types of vegetables, 118 types of edible fungi, 1 161 types of flowers and trees, 142 types of aquatic products, 113 types of pesticides, 1 605 types of crop diseases and pests, 519 types of veterinary drugs, and 603 types of Chinese herbal medicines, totaling 8 481 subcategories. The agricultural knowledge graph constructed based on this dataset has 90 508 triplets, which can provide basic data support for the development of human-machine interactive intelligent applications such as agricultural knowledge Q&A and recommendation systems. Meanwhile, integrating agricultural knowledge graph into generative large language models can help achieve more efficient and accurate information retrieval and intelligent decision-making in vertical domains.
Keywords: agricultural data; network mining; knowledge mapping; datasets
農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào)2024年1期