李悅 孫坦 鮮國(guó)建,3 趙瑞雪,3 李嬌 黃永文 羅婷婷
(1. 中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2. 中國(guó)農(nóng)業(yè)科學(xué)院,北京 100081;3. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081)
農(nóng)業(yè)在我國(guó)經(jīng)濟(jì)體系中占有重要比重,農(nóng)作物病蟲(chóng)害是制約“農(nóng)業(yè)增效、糧食增產(chǎn)、農(nóng)民增收”的重要災(zāi)害之一,僅常見(jiàn)病蟲(chóng)害就在1 400種以上,其爆發(fā)成災(zāi)往往直接影響社會(huì)經(jīng)濟(jì)的健康發(fā)展。農(nóng)業(yè)農(nóng)村部發(fā)文指出[1],2019年我國(guó)水稻病蟲(chóng)害將呈偏重發(fā)生態(tài)勢(shì),發(fā)生面積11.9億畝次,其中,稻飛虱、二化螟、紋枯病偏重發(fā)生,局部大發(fā)生;稻縱卷葉螟、稻瘟病、稻曲病中等發(fā)生,局部偏重發(fā)生;穗腐病、南方水稻黑條矮縮病等病毒病、白葉枯病、細(xì)菌性基腐病等次要病蟲(chóng)在局部稻區(qū)發(fā)生呈上升態(tài)勢(shì),需采取及時(shí)有效的防控措施,最大限度降低糧食風(fēng)險(xiǎn)。堅(jiān)持農(nóng)業(yè)科技自立自強(qiáng),形成科學(xué)有效的方法體系是防治農(nóng)作物病蟲(chóng)害的關(guān)鍵環(huán)節(jié)。農(nóng)作物病蟲(chóng)害防治體系的科學(xué)化、專業(yè)化對(duì)知識(shí)服務(wù)提出新的要求。同年,面對(duì)草地貪夜蛾對(duì)糧食作物造成的危害,中國(guó)農(nóng)業(yè)科學(xué)院通過(guò)明確生態(tài)學(xué)規(guī)律,確定害蟲(chóng)基因組類型、繁殖區(qū)域,研發(fā)形成一整套針對(duì)草地貪夜蛾病蟲(chóng)害的防控技術(shù),彰顯出強(qiáng)化農(nóng)業(yè)科技,健全農(nóng)作物病蟲(chóng)害防治體系的重要作用。
農(nóng)作物病蟲(chóng)害數(shù)據(jù)廣泛存在于農(nóng)業(yè)知識(shí)在線資源、農(nóng)業(yè)科學(xué)數(shù)據(jù)庫(kù)和科學(xué)專著中,數(shù)據(jù)表示、組織方式等不盡相同,信息資源處于相對(duì)無(wú)序的分散狀態(tài)。隨著數(shù)據(jù)密集型科學(xué)研究第四范式的提出,如何整合多源異構(gòu)病蟲(chóng)害數(shù)據(jù),挖掘隱含在文本內(nèi)的知識(shí),為農(nóng)作物病蟲(chóng)害的科學(xué)防治提供服務(wù)成為當(dāng)前重要的研究課題。
本體最初源于哲學(xué),20世紀(jì)80年代本體的概念被引入計(jì)算機(jī)領(lǐng)域用來(lái)刻畫(huà)知識(shí),包含類、關(guān)系、公理、函數(shù)和實(shí)例5種要素[2],是揭示領(lǐng)域概念體系的重要手段。同時(shí),本體也是構(gòu)成知識(shí)圖譜語(yǔ)義模型的基礎(chǔ)[3],在語(yǔ)義層面規(guī)范與約束了知識(shí)圖譜的數(shù)據(jù)填充,使得知識(shí)圖譜能夠大規(guī)模構(gòu)建并支撐上層應(yīng)用。近年來(lái),國(guó)內(nèi)外學(xué)者開(kāi)展了大量關(guān)于構(gòu)建農(nóng)作物病蟲(chóng)害本體進(jìn)行知識(shí)組織與管理的研究,并將其應(yīng)用于專家診斷、領(lǐng)域知識(shí)管理、智能搜索、智能問(wèn)答等場(chǎng)景,進(jìn)一步發(fā)揮了本體的應(yīng)用價(jià)值:Chaudhary等[4]構(gòu)建了包含農(nóng)作物、病蟲(chóng)害、土壤、栽培過(guò)程等信息的棉花本體,并開(kāi)發(fā)了農(nóng)業(yè)咨詢服務(wù)系統(tǒng),該系統(tǒng)能夠回答農(nóng)民查詢的領(lǐng)域知識(shí),有助于縮小農(nóng)民和農(nóng)業(yè)領(lǐng)域?qū)<抑g的差距,為棉農(nóng)的生產(chǎn)實(shí)踐提供指導(dǎo);鄭穎等[5]通過(guò)資源整合構(gòu)建了五大類小麥病蟲(chóng)害本體,并將其應(yīng)用于問(wèn)答系統(tǒng);Chougule等[6]提出了一種蟲(chóng)害關(guān)鍵詞提取算法構(gòu)建作物蟲(chóng)害本體,使之作為農(nóng)業(yè)專家系統(tǒng)的一部分;鞏如悅[7]采用基于文獻(xiàn)的領(lǐng)域本體構(gòu)建方法,構(gòu)建包含蘋(píng)果病蟲(chóng)害、病變部位、病變癥狀、發(fā)病時(shí)期、防治辦法等核心概念的蘋(píng)果病蟲(chóng)害本體,并將領(lǐng)域本體引入到垂直搜索引擎中,有效提升了蘋(píng)果病蟲(chóng)害信息檢索的準(zhǔn)確率。Lagos-Ortiz1等[8]提出了一個(gè)基于本體的甘蔗、水稻、大豆和可可作物蟲(chóng)害防治決策支持系統(tǒng),為蟲(chóng)害診斷和防治提供指導(dǎo);Chougule等[9]通過(guò)將不同形式的葡萄作物病蟲(chóng)害知識(shí)轉(zhuǎn)化為本體,并利用氣象條件與病蟲(chóng)害發(fā)生的關(guān)系,開(kāi)發(fā)了葡萄酒病蟲(chóng)害管理系統(tǒng),該系統(tǒng)幫助葡萄種植者盡量減少殺蟲(chóng)劑的使用,從而降低化學(xué)藥劑對(duì)環(huán)境的副作用;丁浩宸等[10]從不同知識(shí)維度構(gòu)建了包含7個(gè)一級(jí)類、15個(gè)二級(jí)類的油茶本體,并基于本體構(gòu)建了油茶領(lǐng)域知識(shí)圖譜,實(shí)現(xiàn)智能搜索、智能問(wèn)答等應(yīng)用。
然而,上述研究涉及的領(lǐng)域要素相對(duì)比較單一,對(duì)于覆蓋農(nóng)作物病蟲(chóng)害全領(lǐng)域所構(gòu)建的本體較少,存在研究粒度較粗的問(wèn)題,本體概念體系的全面性、可擴(kuò)展性與泛化能力有待進(jìn)一步提升。因此,本文通過(guò)對(duì)農(nóng)作物病蟲(chóng)害全領(lǐng)域的信息資源進(jìn)行深入分析與加工處理,總結(jié)與抽象領(lǐng)域概念體系,并與科技文獻(xiàn)知識(shí)以及現(xiàn)有的知識(shí)組織體系深度融合,大幅拓展現(xiàn)有農(nóng)作物病蟲(chóng)害本體中知識(shí)單元的廣度、粒度與深度,使得所構(gòu)建的領(lǐng)域本體在應(yīng)用場(chǎng)景上能夠滿足精準(zhǔn)問(wèn)答、精準(zhǔn)推薦等精細(xì)化多場(chǎng)景[11]的農(nóng)業(yè)專業(yè)知識(shí)服務(wù)需求,進(jìn)而為構(gòu)建基于多源高質(zhì)量數(shù)據(jù)的領(lǐng)域知識(shí)圖譜提供語(yǔ)義框架基礎(chǔ),以期促進(jìn)農(nóng)作物病蟲(chóng)害領(lǐng)域的知識(shí)共享與應(yīng)用。
農(nóng)作物病蟲(chóng)害本體的構(gòu)建目標(biāo)是依照植物保護(hù)領(lǐng)域的專業(yè)知識(shí),對(duì)農(nóng)作物病蟲(chóng)害知識(shí)體系進(jìn)行建模,并與通用的科技文獻(xiàn)本體以及傳統(tǒng)的知識(shí)組織體系進(jìn)行深度融合,形成客觀且明確的描述規(guī)范,大幅度拓展當(dāng)前農(nóng)作物病蟲(chóng)害知識(shí)庫(kù)中知識(shí)單元的廣度、粒度與深度,在結(jié)構(gòu)化、形式化和語(yǔ)義化層面提高其描述與表達(dá)知識(shí)的能力,并通過(guò)本體描述語(yǔ)言使知識(shí)能夠被計(jì)算機(jī)理解和處理,為構(gòu)建基于多源高質(zhì)量數(shù)據(jù)的農(nóng)作物病蟲(chóng)害領(lǐng)域知識(shí)圖譜奠定基礎(chǔ)。
構(gòu)建領(lǐng)域本體的常用方法是七步法[12]。然而,七步法沒(méi)有運(yùn)用軟件工程生命周期管理的思想,也缺少對(duì)本體質(zhì)量的評(píng)估過(guò)程,導(dǎo)致將其運(yùn)用于領(lǐng)域本體構(gòu)建會(huì)存在本體的更新迭代受限以及無(wú)法滿足特定領(lǐng)域業(yè)務(wù)需求的問(wèn)題。因此,本文結(jié)合農(nóng)作物病蟲(chóng)害領(lǐng)域特點(diǎn),遵循本體構(gòu)建原則,在七步法的基礎(chǔ)上改進(jìn)構(gòu)建步驟,將本體驗(yàn)證與評(píng)估、編程語(yǔ)言描述本體及迭代優(yōu)化的環(huán)節(jié)補(bǔ)充進(jìn)領(lǐng)域本體的構(gòu)建流程中,如圖1所示。
圖1 農(nóng)作物病蟲(chóng)害本體構(gòu)建流程
(1)確定本體描述的專業(yè)領(lǐng)域。全領(lǐng)域所包含的數(shù)據(jù)或者知識(shí)太過(guò)廣泛,即使是同一領(lǐng)域,因側(cè)重點(diǎn)不同所建立的本體也有較大差異,因此,在構(gòu)建本體之前首先需要確定本體所描述的領(lǐng)域范疇以及邊界。本文構(gòu)建的農(nóng)作物病蟲(chóng)害領(lǐng)域本體的范圍覆蓋農(nóng)作物病蟲(chóng)害資源中的基礎(chǔ)知識(shí)、相關(guān)的科技文獻(xiàn)知識(shí)以及現(xiàn)有的知識(shí)組織體系,以實(shí)現(xiàn)多元化語(yǔ)義關(guān)聯(lián),解決各類資源間的語(yǔ)義互操作問(wèn)題。
(2)基于參考的數(shù)據(jù)源設(shè)計(jì)本體概要模型。該階段的任務(wù)是盡可能全面地搜集領(lǐng)域內(nèi)的信息資源,以充分了解相關(guān)的知識(shí)體系,對(duì)概念進(jìn)行總結(jié)、抽象從而建立本體概要模型,形成農(nóng)作物病蟲(chóng)害本體的框架。本文參照的專業(yè)資源包括系統(tǒng)劃分并概括組織了農(nóng)業(yè)學(xué)科主題概念的《農(nóng)業(yè)科學(xué)敘詞表》[13]、蘊(yùn)含豐富語(yǔ)義信息的病蟲(chóng)害科學(xué)專著《中國(guó)農(nóng)作物病蟲(chóng)害(第三版)》[14]以及學(xué)術(shù)科研領(lǐng)域相關(guān)的期刊文獻(xiàn)。
(3)定義核心類及類的層次結(jié)構(gòu)。對(duì)本體概要模型進(jìn)行細(xì)化和補(bǔ)充,圍繞需要解決的問(wèn)題和應(yīng)用場(chǎng)景,梳理、精煉核心概念及概念類間的層次結(jié)構(gòu)。
(4)定義核心屬性。通過(guò)定義本體類的屬性關(guān)系,可將病蟲(chóng)害自身的特征信息,以及病蟲(chóng)害與科技文獻(xiàn)、現(xiàn)有的知識(shí)組織體系的語(yǔ)義關(guān)聯(lián)引入本體模型,以完整地展現(xiàn)農(nóng)作物病蟲(chóng)害的知識(shí)關(guān)聯(lián)體系。
(5)本體驗(yàn)證與評(píng)估。初步構(gòu)建領(lǐng)域本體后,為了保證其能夠充分描述農(nóng)作物病蟲(chóng)害知識(shí)體系,滿足業(yè)務(wù)需求,需要通過(guò)創(chuàng)建實(shí)例來(lái)驗(yàn)證本體的可用性,并從本體結(jié)構(gòu)、應(yīng)用場(chǎng)景等方面對(duì)所構(gòu)建的本體進(jìn)行評(píng)估,實(shí)現(xiàn)本體的修正與完善。
(6)編程語(yǔ)言描述本體。驗(yàn)證與評(píng)估通過(guò)后,運(yùn)用OWL+SKOS語(yǔ)言對(duì)本體模型進(jìn)行形式化表示以增強(qiáng)本體的表達(dá)能力。
(7)本體迭代優(yōu)化。領(lǐng)域本體的構(gòu)建是一個(gè)動(dòng)態(tài)的過(guò)程,后續(xù)出現(xiàn)的新知識(shí)經(jīng)過(guò)上述流程綜合分析后,可擴(kuò)充到農(nóng)作物病蟲(chóng)害本體中,以進(jìn)一步迭代和完善本體。
圖2 農(nóng)作物病蟲(chóng)害本體概要模型
農(nóng)作物病蟲(chóng)害本體模型的設(shè)計(jì)和構(gòu)建應(yīng)與領(lǐng)域特點(diǎn)緊密結(jié)合,且該領(lǐng)域本體模型應(yīng)具有可復(fù)用性。本節(jié)根據(jù)提出的農(nóng)作物病蟲(chóng)害本體的構(gòu)建流程,遵循領(lǐng)域本體獨(dú)立性、共享性特征,設(shè)計(jì)本體概要模型、定義核心類及層次結(jié)構(gòu)、定義核心屬性、本體驗(yàn)證與評(píng)估,并使用本體開(kāi)發(fā)工具Protégé對(duì)農(nóng)作物病蟲(chóng)害本體進(jìn)行構(gòu)建和管理。
本體概要模型描述了在抽象層次由概念及其間關(guān)系建立的邏輯模型,借助概要模型可以梳理本體構(gòu)建的概念范圍及核心屬性的取值范圍。本文以農(nóng)作物病蟲(chóng)害為主要研究對(duì)象,在充分參考主要數(shù)據(jù)源的基礎(chǔ)上,通過(guò)設(shè)計(jì)全面細(xì)粒度揭示病蟲(chóng)害資源的本體概要模型,使資源充分發(fā)揮價(jià)值,為進(jìn)一步本體模型的詳細(xì)設(shè)計(jì)奠定基礎(chǔ)。
概要模型中各要素的收集,包括抽象層面自頂向下的要素列舉,及數(shù)據(jù)層面自底向上的要素總結(jié)、抽象,如枚舉《農(nóng)業(yè)科學(xué)敘詞表》中敘詞等級(jí)體系下的相關(guān)概念、查閱文獻(xiàn)數(shù)據(jù)庫(kù)中表的字段及每條記錄,總結(jié)并提煉《中國(guó)農(nóng)作物病蟲(chóng)害(第三版)》等科學(xué)專著中隱性知識(shí)的知識(shí)單元、語(yǔ)義關(guān)系等。最終得到的農(nóng)作物病蟲(chóng)害本體的概要模型如圖2所示。
模型從核心描述對(duì)象農(nóng)作物病蟲(chóng)害出發(fā),建立病蟲(chóng)害類,將其分為病害和蟲(chóng)害兩類。病蟲(chóng)害類通過(guò)對(duì)象屬性危害與農(nóng)作物類建立關(guān)聯(lián),描述病蟲(chóng)害危害的農(nóng)作物;通過(guò)對(duì)象屬性發(fā)生分別與國(guó)家類、地區(qū)類建立關(guān)聯(lián),描述不同的病蟲(chóng)害發(fā)生的國(guó)家和地區(qū);通過(guò)對(duì)象屬性影響分別與植物發(fā)育過(guò)程類、植物生物過(guò)程類建立關(guān)聯(lián),通過(guò)對(duì)象屬性導(dǎo)致與植物性狀類建立關(guān)聯(lián),描述病蟲(chóng)害影響農(nóng)作物的發(fā)育過(guò)程和生物過(guò)程,其產(chǎn)生葉片干枯等植物性狀,造成糧食減產(chǎn)。同時(shí),添加了描述病蟲(chóng)害類自身的數(shù)據(jù)屬性:防治技術(shù)、癥狀描述、造成減產(chǎn)。對(duì)于病害類,通過(guò)對(duì)象屬性病原與微生物類建立關(guān)聯(lián),描述病害存在病原微生物,氣候和地理環(huán)境的差異會(huì)使病原毒性有所不同。對(duì)于蟲(chóng)害類,通過(guò)對(duì)象屬性是媒介與病害類建立關(guān)聯(lián),描述蟲(chóng)害會(huì)成為病害傳播的媒介;通過(guò)對(duì)象屬性有捕食性天敵、有寄生性天敵分別與動(dòng)物界類、微生物類建立關(guān)聯(lián),描述蟲(chóng)害在動(dòng)物界及微生物中有天敵,可采用釋放蟲(chóng)害天敵的方法進(jìn)行生物防治。描述蟲(chóng)害自身的數(shù)據(jù)屬性主要有形態(tài)特征、年發(fā)生代數(shù)、遷飛路徑。
此外,將具有標(biāo)題、作者、關(guān)鍵詞等文獻(xiàn)信息屬性的科技文獻(xiàn)本體,以及知識(shí)組織領(lǐng)域的農(nóng)業(yè)科學(xué)敘詞表敘詞概念引入領(lǐng)域本體中,分別形成期刊論文類和農(nóng)業(yè)科學(xué)敘詞表概念類。病蟲(chóng)害類通過(guò)對(duì)象屬性相關(guān)的研究論文與期刊論文類建立關(guān)聯(lián),通過(guò)對(duì)象屬性有相同的敘詞表概念與農(nóng)業(yè)科學(xué)敘詞表概念類建立關(guān)聯(lián),實(shí)現(xiàn)病蟲(chóng)害領(lǐng)域資源與通用的科技文獻(xiàn)本體以及傳統(tǒng)的知識(shí)組織體系的深度融合。
在本體中,類(Class)用于描述具有相同屬性的一類概念的集合,是構(gòu)成本體的重要成分,屬性(Property)和實(shí)例(Individual)都是對(duì)類的明確和說(shuō)明。類的上下位關(guān)系表達(dá)了類之間的基本關(guān)系,主要根據(jù)一級(jí)類對(duì)其他類進(jìn)行子類的劃分,并通過(guò)SubClassOf描述。
基于上文設(shè)計(jì)的本體概要模型進(jìn)行本體中類及層次結(jié)構(gòu)的詳細(xì)設(shè)計(jì),最終定義了農(nóng)作物病蟲(chóng)害本體包含11個(gè)一級(jí)類、8個(gè)二級(jí)類。同時(shí),為了使本體的構(gòu)建、管理過(guò)程更加規(guī)范,便于后續(xù)的編程工作,本文對(duì)本體中的類和屬性運(yùn)用英文名稱進(jìn)行定義,并為其設(shè)置了帶有釋義的中文和英文標(biāo)簽(rdfs:label)以方便相關(guān)人員查看。本體中的核心類具體為以下11類。①病蟲(chóng)害類(DiseaseAndPest)。本文研究的是農(nóng)作物病蟲(chóng)害領(lǐng)域本體構(gòu)建并將其進(jìn)行形式化表示,因此在本體的構(gòu)建中以病蟲(chóng)害類作為核心類。病蟲(chóng)害描述為害各類農(nóng)作物的病害和害蟲(chóng),因此將其分為病害(Disease)和蟲(chóng)害(Pest)2個(gè)子類。②文獻(xiàn)類(Literature)。文獻(xiàn)的基本信息可以描述農(nóng)作物病蟲(chóng)害相關(guān)文獻(xiàn)的外部特征和內(nèi)容特征,為了將其融入領(lǐng)域本體中,創(chuàng)建了文獻(xiàn)類并添加期刊論文(JournalArticle)子類。③農(nóng)業(yè)科學(xué)敘詞表概念類(CAT)。農(nóng)業(yè)科學(xué)敘詞表的病蟲(chóng)害敘詞概念具有上下位關(guān)系,如“塊莖病”有上位詞“莖病”和下位詞“塊莖腐病”等上下位語(yǔ)義關(guān)系。將其融入領(lǐng)域本體中并與病蟲(chóng)害類實(shí)例建立連接,可提升所建本體的專業(yè)性與關(guān)聯(lián)性,實(shí)現(xiàn)領(lǐng)域本體與外部知識(shí)的集成、關(guān)聯(lián)與共享。④植物界類(Plant)。根據(jù)生物分界系統(tǒng)的劃分,植物界是生物的一界。在本體中創(chuàng)建植物界一級(jí)類,為其添加農(nóng)作物類(Crop)子類,描述植物界下包含的農(nóng)作物,也是病蟲(chóng)害為害的對(duì)象。⑤動(dòng)物界類(Animal)。根據(jù)生物分界系統(tǒng)的劃分,動(dòng)物界也是生物的一界。在本體中創(chuàng)建動(dòng)物界用來(lái)描述蟲(chóng)害在動(dòng)物界的天敵。⑥植物生物過(guò)程類(PlantBiologicalProcess)。植物生物過(guò)程描述植物發(fā)生光合作用等生物過(guò)程。⑦植物發(fā)育過(guò)程類(PlantDevelopmentProcess)。植物發(fā)育過(guò)程描述萌芽期、幼苗期等各個(gè)植物生長(zhǎng)發(fā)育時(shí)期。⑧植物性狀類(PlantTraits)。植物性狀描述植物的表型特征,分為外源物刺激性狀(ExogenousStimulatingTraits)和癥狀類型(SymptomType)2個(gè)子類。⑨微生物類(Microorganism)。微生物描述病害的病原微生物,分為真菌(Fungus)、細(xì)菌(Germ)、病毒(Virus)3個(gè)子類。⑩國(guó)家類(Nation)。其表述病蟲(chóng)害最早被發(fā)現(xiàn)的國(guó)家,以及主要分布的國(guó)家。?地區(qū)類(Region)。其表述病蟲(chóng)害發(fā)生的地區(qū)。
此外,本文將病害類(Disease)、蟲(chóng)害類(Pest)、植物界類(Plant)和動(dòng)物界類(Animal)與SKOS概念體系中具體的概念(skos:Concept)建立等價(jià)關(guān)系(Equivalent To),形成農(nóng)作物病蟲(chóng)害核心本體與領(lǐng)域本體的結(jié)合。
類本身不足以描述專業(yè)領(lǐng)域的知識(shí)體系,故有必要通過(guò)定義類的內(nèi)部屬性信息和外部關(guān)系信息來(lái)描述概念的具體內(nèi)涵。本體中,類的屬性用于描述類具有的特征,其分為兩種。其中,對(duì)象屬性揭示了類之間的語(yǔ)義關(guān)系,是在本體中進(jìn)行邏輯推理的基礎(chǔ),決定了知識(shí)圖譜的豐富程度和應(yīng)用效果。數(shù)據(jù)屬性描述了類自身的特點(diǎn),通常使用具體的數(shù)據(jù)類型進(jìn)行表示,不同數(shù)據(jù)屬性的取值類型可能有所差異,一般包括文本、數(shù)值、日期等多種類型。
通過(guò)參照數(shù)據(jù)源分別為核心類填充具體實(shí)例,實(shí)例間多次出現(xiàn)的語(yǔ)義關(guān)系構(gòu)成類的對(duì)象屬性,實(shí)例自身的共性描述構(gòu)成類的數(shù)據(jù)屬性。最終定義了16個(gè)一級(jí)對(duì)象屬性,同時(shí)為了增強(qiáng)語(yǔ)義嚴(yán)謹(jǐn)性設(shè)置對(duì)象屬性的定義域、值域的取值范圍(見(jiàn)表1)。
表1 農(nóng)作物病蟲(chóng)害本體的核心對(duì)象屬性
為描述類自身的特征,在本體中為農(nóng)作物病蟲(chóng)害類(DiseaseAndPest)、期刊論文類(JournalArticle)和農(nóng)業(yè)科學(xué)敘詞表概念類(CAT)復(fù)用、定義了共計(jì)31個(gè)一級(jí)數(shù)據(jù)屬性,4個(gè)二級(jí)數(shù)據(jù)屬性。
對(duì)于農(nóng)作物病蟲(chóng)害類(DiseaseAndPest),復(fù)用、定義了12個(gè)一級(jí)數(shù)據(jù)屬性、4個(gè)二級(jí)數(shù)據(jù)屬性,包括復(fù)用SKOS本體模型中詞法標(biāo)簽下的概念skos:prefLabel來(lái)標(biāo)識(shí)病害的名稱和蟲(chóng)害的名稱;skos:altLabel來(lái)標(biāo)識(shí)病害的別名和蟲(chóng)害的異名;定義了標(biāo)識(shí)符(identifier)用來(lái)唯一標(biāo)識(shí)類的實(shí)例;最早被發(fā)現(xiàn)的時(shí)間(earliest time be discovered)描述每種病蟲(chóng)害最早被發(fā)現(xiàn)的時(shí)間;造成減產(chǎn)(cause crop failure)描述病蟲(chóng)害會(huì)造成農(nóng)作物減產(chǎn)的數(shù)量;年發(fā)生代數(shù)(annual generation)描述蟲(chóng)害在不同環(huán)境下的年發(fā)生代數(shù);世代及發(fā)生期(generation and emergence period)描述蟲(chóng)害的世代發(fā)生期;壽命(lifetime)描述蟲(chóng)害各代數(shù)的壽命;形態(tài)特征(morphological characteristics)描述蟲(chóng)害的體長(zhǎng)及生長(zhǎng)發(fā)育各階段的形態(tài)特征;遷飛路徑(moved way)描述蟲(chóng)害的遷飛路徑;癥狀描述(sy mptom description)是指農(nóng)作物遭遇病蟲(chóng)害后的癥狀表現(xiàn);防治技術(shù)(control technology)描述病蟲(chóng)害的防治方法,包括農(nóng)業(yè)防治(agricultural measure)、生物防治(biological measure)、物理防治(physical measure)和藥劑防治(potion measure)4個(gè)二級(jí)數(shù)據(jù)屬性。
對(duì)于期刊論文類(JournalArticle),復(fù)用、定義了17個(gè)一級(jí)數(shù)據(jù)屬性,包括復(fù)用都柏林核心元素集中的語(yǔ)種(dc:language)描述期刊論文的語(yǔ)種;定義了標(biāo)識(shí)符(gid)對(duì)期刊論文類資源進(jìn)行唯一的標(biāo)識(shí)、標(biāo)題(title)、作者(author)、所屬機(jī)構(gòu)(affiliate institution)、摘要(abstract)、關(guān)鍵詞(keywords)、分類號(hào)(classification)、doi碼(doi)、發(fā)表年份(year)、發(fā)表時(shí)間(create time)、期刊名稱(journal name)、是否為核心期刊(isCore)、出版商(publisher)、期號(hào)(issue)、卷(volume)、頁(yè)碼(page)。
對(duì)于農(nóng)業(yè)科學(xué)敘詞表概念類(CAT),復(fù)用、定義了4個(gè)一級(jí)數(shù)據(jù)屬性,包括同樣復(fù)用了SKOS本體模型中的skos:prefLabel來(lái)標(biāo)識(shí)敘詞表中的概念名稱,skos:altLabel標(biāo)識(shí)敘詞概念的別名,定義了敘詞概念編號(hào)(termcode)用來(lái)唯一標(biāo)識(shí)敘詞概念,分類編號(hào)(catid)描述敘詞概念所在的學(xué)科領(lǐng)域分類。
本節(jié)根據(jù)病蟲(chóng)害信息資源為本體增加實(shí)例進(jìn)行驗(yàn)證,并基于本體評(píng)估標(biāo)準(zhǔn)對(duì)初步構(gòu)建的農(nóng)作物病蟲(chóng)害本體模型進(jìn)行評(píng)估和迭代修正,以保證所建本體的規(guī)范性、專業(yè)性和適用性,使其能夠充分描述領(lǐng)域的概念體系,滿足實(shí)際的知識(shí)服務(wù)需求。
圖3 農(nóng)作物病蟲(chóng)害本體實(shí)例示意
農(nóng)作物病蟲(chóng)害本體為病蟲(chóng)害相關(guān)的信息資源提供了一套語(yǔ)義表示框架,可對(duì)多來(lái)源、多載體的專業(yè)資源進(jìn)行結(jié)構(gòu)化的知識(shí)描述。白葉枯病是我國(guó)水稻生產(chǎn)中的“三大病害”之一,嚴(yán)重影響水稻的產(chǎn)量和品質(zhì)[15]。選取水稻白葉枯病這一典型實(shí)例對(duì)農(nóng)作物病蟲(chóng)害領(lǐng)域本體模型進(jìn)行驗(yàn)證與評(píng)估,采用的主要數(shù)據(jù)來(lái)源于《中國(guó)農(nóng)作物病蟲(chóng)害(第三版)》中水稻白葉枯病相關(guān)的文本數(shù)據(jù),該數(shù)據(jù)涉及的知識(shí)面廣,知識(shí)單元類別多樣,詳細(xì)介紹了水稻白葉枯病的分布和危害、癥狀、病原、防治技術(shù)等信息。圖3為對(duì)農(nóng)作物病蟲(chóng)害本體進(jìn)行實(shí)例填充后的示意,展示了以“水稻白葉枯病”為核心的農(nóng)作物病蟲(chóng)害領(lǐng)域語(yǔ)義網(wǎng)絡(luò),說(shuō)明了水稻白葉枯病相關(guān)的研究論文,該論文的作者、所屬機(jī)構(gòu)、關(guān)鍵詞、分類號(hào)、期刊名稱、發(fā)表年份、發(fā)表時(shí)間、頁(yè)碼、期號(hào)等外部特征和內(nèi)容特征信息,水稻白葉枯病與農(nóng)業(yè)科學(xué)敘詞表相同的概念,該敘詞概念含有唯一標(biāo)識(shí)編號(hào)、分類編號(hào),水稻白葉枯病的病原、癥狀類型、發(fā)生的國(guó)家和地區(qū)、危害對(duì)象,影響光合作用、養(yǎng)分輸送等植物生物過(guò)程,導(dǎo)致葉片干枯等外源物刺激性狀,及水稻白葉枯病自身的別名、農(nóng)業(yè)防治措施等屬性特征。由此可驗(yàn)證,農(nóng)作物病蟲(chóng)害領(lǐng)域本體實(shí)現(xiàn)了多種資源的整合與關(guān)聯(lián),為下一步基于多源數(shù)據(jù)構(gòu)建領(lǐng)域知識(shí)圖譜提供語(yǔ)義基礎(chǔ)。
本體的評(píng)估標(biāo)準(zhǔn)一般包括清晰性、一致性、完善性和可擴(kuò)展性[16]。清晰性指所定義的類和屬性是明確的,不存在歧義;一致性指類間的關(guān)系在邏輯上是一致的;完善性指所定義的領(lǐng)域內(nèi)類和屬性是完整的,可以用于描述主要參考數(shù)據(jù)源中的知識(shí)體系;可擴(kuò)展性指當(dāng)農(nóng)作物病蟲(chóng)害領(lǐng)域內(nèi)出現(xiàn)新的概念時(shí),本體可規(guī)?;?cái)U(kuò)展。筆者邀請(qǐng)植物保護(hù)領(lǐng)域?qū)<覍?duì)本體進(jìn)行評(píng)估,經(jīng)過(guò)討論,專家認(rèn)為農(nóng)作物病蟲(chóng)害科學(xué)著作描述了病蟲(chóng)害的各方面信息,卻缺乏病蟲(chóng)害領(lǐng)域概念體系間的語(yǔ)義關(guān)聯(lián),農(nóng)業(yè)科學(xué)敘詞表僅使用“用、代、屬、分、族參”描述敘詞概念的層級(jí)關(guān)系,科技文獻(xiàn)本體同樣缺乏對(duì)于病蟲(chóng)害的清晰針對(duì)性描述。因此,總的來(lái)說(shuō),本文構(gòu)建的領(lǐng)域本體相較于單一資源包含了較為完整的農(nóng)作物病蟲(chóng)害概念體系,類的層次結(jié)構(gòu)及屬性可以清晰、有邏輯、細(xì)粒度地揭示水稻白葉枯病的相關(guān)知識(shí)以及知識(shí)間的語(yǔ)義關(guān)聯(lián),通過(guò)迭代優(yōu)化可實(shí)現(xiàn)本體的擴(kuò)充與優(yōu)化。因此,本文所構(gòu)建領(lǐng)域本體符合上述評(píng)估標(biāo)準(zhǔn),同時(shí)通過(guò)填充水稻病蟲(chóng)害實(shí)例驗(yàn)證了本體的有效性,可適用于大規(guī)模的農(nóng)作物病蟲(chóng)害領(lǐng)域本體構(gòu)建,為進(jìn)一步實(shí)現(xiàn)農(nóng)業(yè)智能化知識(shí)服務(wù)奠定基礎(chǔ)。
本體的描述語(yǔ)言可以使本體的表示更加形式化,并且可以使其被計(jì)算機(jī)所理解和處理。其中,OWL語(yǔ)言具有較好的語(yǔ)義表達(dá)能力,病害、蟲(chóng)害的名稱可以作為SKOS[17]詞表中概念(skos:Concept)下的實(shí)例進(jìn)行聲明,概念在傳統(tǒng)的知識(shí)組織體系中也大量存在,運(yùn)用SKOS語(yǔ)言可以繼承其中的知識(shí),形成領(lǐng)域概念體系,以提高與敘詞表等知識(shí)組織體系的共享和互操作,因此本文釆用OWL+SKOS語(yǔ)言對(duì)農(nóng)作物病蟲(chóng)害領(lǐng)域本體進(jìn)行形式化的表示,具體如下。
(1)類的OWL+SKOS表示。農(nóng)作物病蟲(chóng)害本體中的類用OWL中的類Class進(jìn)行表示,類間的層次關(guān)系用subClassOf來(lái)體現(xiàn)。如創(chuàng)建病蟲(chóng)害類(DiseaseAnd Pest)的子類蟲(chóng)害(Pest),設(shè)置其中文標(biāo)簽為“蟲(chóng)害”,英文標(biāo)簽為“Pest”,同時(shí)用skos:Concept將其定義為領(lǐng)域內(nèi)的一類概念,OWL+SKOS代碼如下。
(2)對(duì)象屬性的OWL表示。對(duì)象屬性即Object Property,對(duì)象屬性用于創(chuàng)建類之間的關(guān)系。如創(chuàng)建對(duì)象屬性影響(affect)并設(shè)置其定義域?yàn)椴『︻悾―isease),值域?yàn)橹参锷镞^(guò)程類(PlantBiologicalProcess),英文標(biāo)簽為“affect”,中文標(biāo)簽為“影響”,OWL代碼如下。
(3)數(shù)據(jù)屬性的OWL表示。數(shù)據(jù)屬性即Datatype Property,數(shù)據(jù)屬性可以為實(shí)體賦予一個(gè)具體的屬性值。如建立在數(shù)據(jù)屬性防治技術(shù)(control technology)下的子數(shù)據(jù)屬性藥劑防治(potion measure),并設(shè)置其英文標(biāo)簽為“potion measure”,中文標(biāo)簽為“藥劑防治”O(jiān)WL代碼如下。
上述基于OWL+SKOS的農(nóng)作物病蟲(chóng)害本體形式化表示,通過(guò)將語(yǔ)義信息存儲(chǔ)為結(jié)構(gòu)化的形式化代碼,實(shí)現(xiàn)了領(lǐng)域知識(shí)從計(jì)算機(jī)可讀向計(jì)算機(jī)可理解、可推理發(fā)展,為農(nóng)作物病蟲(chóng)害語(yǔ)義共享與互操作、語(yǔ)義推理和語(yǔ)義檢索提供支撐。
中國(guó)農(nóng)作物病蟲(chóng)害種類繁多,每年因病蟲(chóng)害導(dǎo)致農(nóng)作物減產(chǎn)的現(xiàn)象屢見(jiàn)不鮮。本體建模是有效揭示農(nóng)作物病蟲(chóng)害概念體系的重要手段。本文針對(duì)農(nóng)業(yè)植物保護(hù)領(lǐng)域的特點(diǎn)提出了農(nóng)作物病蟲(chóng)害本體的構(gòu)建目標(biāo)與構(gòu)建流程,詳細(xì)介紹了本體構(gòu)建流程中的各個(gè)步驟。完成了本體概要模型設(shè)計(jì),運(yùn)用Protégé工具完成了核心類及屬性的定義,并將領(lǐng)域本體與通用的科技文獻(xiàn)本體及現(xiàn)有的農(nóng)業(yè)科學(xué)敘詞表敘詞概念進(jìn)行深度融合,以水稻白葉枯病實(shí)例開(kāi)展了本體的驗(yàn)證與評(píng)估,最后基于本體描述語(yǔ)言對(duì)農(nóng)作物病蟲(chóng)害本體進(jìn)行了形式化表示,以期為農(nóng)業(yè)植物保護(hù)領(lǐng)域提供可復(fù)用的本體構(gòu)建流程以及規(guī)范化的語(yǔ)義表示模型,促進(jìn)領(lǐng)域知識(shí)與外部知識(shí)的深度融合與共享,提升知識(shí)的利用效率。
知識(shí)圖譜是人工智能的重要組成部分,也是機(jī)器實(shí)現(xiàn)認(rèn)知智能的基石。未來(lái),在應(yīng)用層面,基于本文所構(gòu)建的面向多源數(shù)據(jù)深度融合的農(nóng)作物病蟲(chóng)害本體,可結(jié)合深度學(xué)習(xí)算法應(yīng)用于領(lǐng)域知識(shí)圖譜構(gòu)建中的實(shí)體識(shí)別、關(guān)系抽取、屬性抽取等場(chǎng)景,進(jìn)而支撐病蟲(chóng)害輔助分析、決策支持、知識(shí)推理、智能問(wèn)答等應(yīng)用。