鄭增威 ,李彥臻 ,3,劉 益 ,3,林中琦 ,向正哲 ,何夢竹 ,孫 霖 ※
(1. 浙大城市學院計算機與計算科學學院,杭州 310015;2. 智能植物工廠浙江省工程實驗室,杭州 310015;3. 浙江大學計算機科學與技術(shù)學院,杭州 310027)
中國葡萄種植面積大、產(chǎn)量高,是主要的水果之一[1]。在葡萄園作物栽培管理過程中,蟲害是制約其品質(zhì)改良和產(chǎn)量增長的主要因素,正確診斷作物害蟲類別是科學防治的必要前提。 隨著人工智能技術(shù)的發(fā)展,利用計算機視覺技術(shù)對農(nóng)作物害蟲圖像進行自動識別和診斷已經(jīng)成為國內(nèi)外一大研究熱點。
深度學習作為其中一項關(guān)鍵技術(shù),彌補了傳統(tǒng)圖像分類方法特征提取能力差、效率低等缺陷,被廣泛應用于農(nóng)作物害蟲的識別與診斷中。AYAN 等[2]集成Inception-V3[3]、Xception[4]和MobileNet[5],提出了GAEnsemble 模型,通過遺傳算法確定預訓練模型權(quán)重,該模型具備良好的穩(wěn)定性和作物害蟲識別準確性。蘇仕芳等[6]利用ImageNet-21k 預訓練VGG-16[7-8],并在葡萄葉片病害數(shù)據(jù)集上微調(diào),通過數(shù)據(jù)增強技術(shù)結(jié)合遷移學習的訓練方式,該模型對褐斑病、黑腐病等葡萄葉常見病害的識別準確率均達到90%以上。孫鈺等[9]將VGG-16 用于無人機上對森林害蟲進行檢測。梁萬杰等[10]提出一種卷積神經(jīng)網(wǎng)絡(luò)模型的水稻害蟲識別方法。TURKOGLU 等[11]提出了一種基于LSTM(long short-term memory)[12]的卷積神經(jīng)網(wǎng)絡(luò)模型MLP-CNNs,實現(xiàn)了蘋果害蟲的精確識別。王林惠等[13]優(yōu)選MoblieNet 作為害蟲圖像特征提取網(wǎng)絡(luò)對柑橘害蟲進行準確識別。
雖然上述研究在一定程度上解決了農(nóng)作物害蟲的識別問題,但是目標種物僅僅局限于小麥、蘋果、柑橘等,對于葡萄園中的害蟲識別仍然存在識別精度不足、針對性不強等問題。針對此,找到一種能夠更加精準識別葡萄園害蟲種類的模型和方法已成為葡萄園提高產(chǎn)量和品質(zhì)的迫切需求。
知識圖譜(knowledge graph, KG)作為一種能夠精確描述領(lǐng)域內(nèi)復雜知識的數(shù)據(jù)模型,被廣泛應用于智能搜索、個性化推薦等領(lǐng)域。在農(nóng)業(yè)領(lǐng)域知識圖譜方面,于何龍等[14]構(gòu)建了包含害蟲種類、病害類別、病斑顏色、發(fā)病階段等信息的水稻病害蟲本體,并開發(fā)了知識圖譜與確定性因子模型相結(jié)合的水稻病害蟲知識推理和智能診斷系統(tǒng),該系統(tǒng)支持領(lǐng)域知識檢索,能夠為水稻作物生產(chǎn)實踐提供指導。戈為溪等[15]提出了一種基于知識圖譜和案例推理的水稻精準施肥推薦模型,該施肥推薦模型能夠輸出詳細的施肥方案和精確的施肥量。吳賽賽等[16]提出了一種基于深度學習的實體-關(guān)系抽取模型,成功實現(xiàn)多源數(shù)據(jù)中有用知識的準確抽取,所構(gòu)建的病害蟲知識圖譜能夠為其他農(nóng)作物相關(guān)下游任務提供高質(zhì)量的知識基礎(chǔ)。鄭泳智等[17]對荔枝和龍眼害蟲知識進行了研究,并基于知識圖譜開發(fā)了智能問答系統(tǒng),為害蟲診斷和防治提供指導。知識圖譜技術(shù)的引入實現(xiàn)了數(shù)據(jù)信息的有效利用,同時提高了專業(yè)知識在農(nóng)業(yè)領(lǐng)域的應用能力。
然而,現(xiàn)有研究中知識圖譜主要用于農(nóng)業(yè)領(lǐng)域的知識檢索和智能診斷,很少涉及將知識圖譜與計算機視覺技術(shù)相結(jié)合以提高害蟲圖像識別精度的研究。同時對于覆蓋果蔬作物害蟲知識圖譜的深入研究較少,尤其是針對葡萄園害蟲這一垂直領(lǐng)域的系統(tǒng)仍有待開發(fā)。為解決上述問題,本研究提出了一種基于屬性特征知識圖譜的細粒度葡萄園害蟲識別方法ACKGViT(attribute characteristics knowledge graph enhanced vision transformer),利用從農(nóng)業(yè)科學等網(wǎng)站收集的大量葡萄害蟲相關(guān)知識語料,由領(lǐng)域?qū)<抑笇?gòu)建了害蟲屬性特征知識圖譜,用于增強視覺編碼器對害蟲圖像細粒度特征信息的感知能力,從而實現(xiàn)葡萄園害蟲精確識別。該方法可作為葡萄園害蟲信息檢索、智能推薦等下游應用的知識庫基礎(chǔ),可以有效應用于作物品種選擇、害蟲防控等農(nóng)業(yè)生產(chǎn)方面。
由于葡萄園害蟲領(lǐng)域暫時沒有公開可用的資料庫和數(shù)據(jù)庫能夠直接作為試驗材料,本研究涉及的葡萄害蟲相關(guān)知識和數(shù)據(jù)通過專業(yè)農(nóng)業(yè)網(wǎng)站、昆蟲科學網(wǎng)站、維基百科、百度百科等知識庫獲取。利用Scrapy 框架,共爬取包括綠盲蝽、大青葉蟬、葡萄二星葉蟬等21 種葡萄園常見害蟲在內(nèi)的數(shù)據(jù)1 264 條。通過正則表達式等數(shù)據(jù)清洗方式,將爬取的數(shù)據(jù)轉(zhuǎn)化為規(guī)范化的葡萄害蟲語料。清洗后的數(shù)據(jù)包括半結(jié)構(gòu)化和非結(jié)構(gòu)化兩種類型:
1)半結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)包括例如“形態(tài)特征”“生活習性”等目錄或標題在內(nèi)的半結(jié)構(gòu)化信息,通過構(gòu)造相應規(guī)則直接進行實體抽取。
2)非結(jié)構(gòu)化數(shù)據(jù)。將整段、整篇文本作為屬性的數(shù)據(jù),采用深度學習模型Bi-LSTM-CRF[18]對該類型的數(shù)據(jù)進行實體抽取,以將實體-屬性抽取轉(zhuǎn)換為序列標注任務。
知識圖譜構(gòu)建包括“自底向上”和“自頂向下”兩種方式。自底向上是一種數(shù)據(jù)驅(qū)動方式,適用于開放領(lǐng)域的知識圖譜構(gòu)建;而自頂向下的構(gòu)建方式是指在構(gòu)建知識圖譜之前,預先定義本體和模式。根據(jù)本研究是垂直于“葡萄園”種植行業(yè)的研究這一特性,采用自頂向下的方式構(gòu)建葡萄園害蟲屬性特征知識圖譜。將實例集合定義為 <害蟲類別,關(guān)系,屬性特征> 的三元組,并選用圖數(shù)據(jù)庫Neo4j 作為知識存儲方式。
為了更加精準地描述葡萄園害蟲實體、屬性特征以及實體關(guān)聯(lián)信息,本文確定了常見葡萄園害蟲的種類、生命周期、分布區(qū)域,以及它們對葡萄產(chǎn)量和品質(zhì)的影響程度,從而更全面地理解葡萄園害蟲問題。此外,還研究了針對不同害蟲種類的防治策略和方法,在這項研究中,對害蟲的屬性特征進行了細致的分析,包括顏色特征、紋理特征和輪廓特征。這些特征有助于區(qū)分不同種類的害蟲,為識別模型提供了豐富的信息,使得模型識別準確率得以上升。除此之外,還深入研究了害蟲的生物學特性,如生活習性、繁殖方式、天敵關(guān)系等。通過對害蟲的分類體系的了解,可以為知識圖譜構(gòu)建提供更為精細的分類依據(jù)。在收集了大量葡萄害蟲相關(guān)知識語料后,本研究構(gòu)建出了一個能夠精確反映葡萄園害蟲實體屬性和關(guān)聯(lián)信息的知識圖譜,最終知識圖譜部分搭建效果展示如圖1 所示。
圖1 知識存儲示例Fig.1 Example of storing knowledge
如圖2 所示,本文所提出的ACKGViT 模型采用雙分支結(jié)構(gòu),構(gòu)建包括:基于屬性特征知識圖譜(attribute characteristics knowledge graph, ACKG)的害蟲屬性特征及關(guān)聯(lián)特征提取分支,和基于深度學習網(wǎng)絡(luò)ViT[19](vision transformer, ViT)的害蟲圖像高層語義表征提取分支,結(jié)合兩個分支獲取的特征向量,用于葡萄害蟲圖像分類研究。ACKG 通過圖卷積網(wǎng)絡(luò)實現(xiàn)映射。其中值得說明的是,在僅使用單一知識圖譜進行訓練時,網(wǎng)絡(luò)初始化參數(shù)可能會對最終優(yōu)化效果造成干擾,因此,為了讓知識圖譜學習到的關(guān)系更符合實際領(lǐng)域知識,本文還引入了傳統(tǒng)特征信息,作為知識圖譜特征學習的目標,用于優(yōu)化訓練。
圖2 ACKGViT 模型示意圖Fig.2 Illustration of the ACKGViT(attribute characteristics knowledge graph enhanced vision transformer) model
2.1.1 傳統(tǒng)特征提取模塊
ACKGViT 組合顏色特征、紋理特征和輪廓特征作為傳統(tǒng)手工特征向量。對于輸入的每一張圖像,將顏色矩作為圖像顏色表征,定義為fc;使用局部二值模式(local binary patterns)[20]和灰度共生矩陣(gray-level co-occurrence matrix)[21]分別提取圖像紋理特征并進行拼接(Concatenate),所得向量作為全局紋理特征ft;輪廓特征fo基于Canny 邊緣檢測算法進行提取。最終傳統(tǒng)特征fMF由上述3 種特征通過拼接操作得到:
2.1.2 屬性特征知識圖譜ACKG本研究利用GAT(graph attention network, GAT)[22]網(wǎng)絡(luò)將葡萄園病害蟲知識圖譜ACKG 映射為可以進行訓練的神經(jīng)網(wǎng)絡(luò)模塊。GAT 是由VELICKOVIC P 等[22]在2018 年提出的一種圖卷積網(wǎng)絡(luò)模型,由堆疊圖注意力(Attention)層構(gòu)成,利用自注意力機制(Self-attention)聚合鄰居節(jié)點信息,通過在訓練過程中自適應學習鄰居權(quán)值的方式,使得模型具備良好的可解釋性和準確性。知識圖譜中的點包括害蟲類別Nl和害蟲特征Nf兩種類型:
式中n和m分別代表害蟲類別總數(shù)和圖譜中所有屬性節(jié)點的數(shù)量。l0代表害蟲類別的第一個索引。式(2)表示知識圖譜中害蟲類別節(jié)點的集合,其中Nl0是第一個害蟲類別節(jié)點,Nl1是第二個害蟲類別節(jié)點,依次類推,直到Nln為第n個害蟲類別節(jié)點。同樣,式(3)表示知識圖譜中害蟲特征節(jié)點的Nf集合,包括m個特征節(jié)點。
ACKG 的訓練包括兩個步驟:首先,基于輸入害蟲圖像的標簽(Label)在知識圖譜中進行索引,得到該類害蟲在知識圖譜中對應節(jié)點的屬性特征向量,記為fCF;然后,與手工特征向量fMF進行余弦相似度計算,得到相似度損失 Ls:
式中,k代表特征向量的維度,與害蟲類別總數(shù)相等。fMFi代表手工特征向量fMF的第i個分量,fCFi代表屬性特征向量fCF的第i個分量。式(4)計算的是相似度損失Ls,其目的是衡量手工特征向量fMF與知識圖譜中屬性特征向量fCF之間的相似度。這里使用了余弦相似度作為相似度的度量方法,因為它能夠很好地捕捉兩個向量之間的角度關(guān)系,而不受長度影響。式(4)的分子部分計算了fMF和fCF之間的點積,而分母部分計算了各自的模長乘積。通過將點積除以模長乘積,可以得到兩個向量之間的余弦相似度。這個相似度值可以用于評估手工特征與知識圖譜中屬性特征之間的一致性。在訓練過程中,希望最小化相似度損失 Ls,以便使得手工特征與知識圖譜中的屬性特征更加一致。
測試時,利用每張圖像的手工特征向量,與ACKG中所有表示害蟲類別的節(jié)點所對應的特征向量進行余弦相似度計算,組合得到屬性相似性特征向量fCL。用lk表示害蟲類別節(jié)點索引,則fCL表示為
由于視覺編碼器ViT[19]在多種預訓練網(wǎng)絡(luò)模型中表現(xiàn)最為優(yōu)異,本研究將ViT 作為提取圖像高層語義表征信息的骨干網(wǎng)絡(luò)。
ViT 是由Google 團隊在2020 年提出的一種圖像分類模型,通過在視覺任務中引入Transformer[23]機制,ViT 表現(xiàn)出了良好的性能與可擴展性,現(xiàn)被廣泛應用于各類視覺任務。
對于輸入圖像X∈RH×W×C,即高、寬、通道數(shù)分別為H、W、C,ViT 會首先將其切分為多個子圖塊(Patch),并展平為一維輸入序列。令圖塊大小為P×P,則該子圖塊序列表示為
式中,N表示子圖塊數(shù)目。
接下來,將每個子塊投影為固定長度D的向量再輸入到Transformer 編碼器,即有:
在序列頭部嵌入特殊字符CLS,從而將視覺問題轉(zhuǎn)化為seq2seq 問題。經(jīng)過位置編碼、層歸一化以及多層感知機進行維度變換之后,得到最終圖像表征輸出向量,記為fSF。為了獲得更好的遷移效果,本研究所使用的是經(jīng)過ImageNet-21k 預訓練的ViT 網(wǎng)絡(luò)。
ACKGViT 結(jié)合知識圖譜提取的圖像屬性特征和ViT 提取的圖像高層語義表征特征用于訓練分類器。訓練、測試時融合后的特征ftrain、ftest分別表示為
分類器由全連接網(wǎng)絡(luò)和Softmax 函數(shù)構(gòu)成。輸入是害蟲圖像特征向量,即ftrain或ftest,輸出是害蟲類別。
模型損失 L用交叉熵損失函數(shù) Lc和余弦損失函數(shù)Ls表示:
式中,yi和y?i分別表示輸入害蟲圖像的真實標簽和預測標簽,p(y?)表示y?的預測概率。
訓練分類器方法依據(jù)與原理如下:1)圖像屬性特征提?。豪弥R圖譜中的概念節(jié)點和它們之間的關(guān)系來捕捉圖像中的屬性信息。知識圖譜通過對領(lǐng)域知識的結(jié)構(gòu)化表示,為模型提供了關(guān)于病害蟲的高級信息。利用圖注意網(wǎng)絡(luò)(graph attention networks,GAT)對知識圖譜進行編碼,從而為每個概念節(jié)點生成一個特征向量。這些特征向量可以視為害蟲類別的屬性特征。2)高層語義表征特征提?。菏褂肰iT 從圖像中提取高層語義表征特征。ViT 通過將圖像分割為固定大小的patches,并將它們線性嵌入到特征空間中,然后應用Transformer 結(jié)構(gòu)進行特征抽取。這樣,ViT 可以捕獲圖像中的全局上下文信息,從而生成具有高層語義的特征表示。3)訓練階段:將知識圖譜提取的圖像屬性特征與ViT 提取的高層語義表征特征進行融合。融合通過特征加法操作進行融合。融合后的特征向量包含了病害蟲的屬性信息和圖像的高級語義信息,可以更好地表征害蟲類別,提高分類性能。這樣做可以進一步引導模型關(guān)注與目標類別相關(guān)的特征,減小背景噪聲的影響。具體過程如圖3 所示。
圖3 ACKGViT 模型具體運作機理Fig.3 Specific operating mechanism of ACKGViT(attributecharacteristics knowledge graph enhanced vision transformer) model
本研究測試所用數(shù)據(jù)集包括從大規(guī)模公開數(shù)據(jù)集IP102[24]中挑選的GP21 數(shù)據(jù)集和從農(nóng)業(yè)生產(chǎn)基地實地采集的GP8 數(shù)據(jù)集。
GP21 數(shù)據(jù)集。GP21 數(shù)據(jù)集來源于IP102[24]數(shù)據(jù)集,該數(shù)據(jù)集包括從專業(yè)農(nóng)業(yè)網(wǎng)站和昆蟲科學網(wǎng)站上收集的共計75 222 個樣本。由于本任務聚焦于葡萄園害蟲的細粒度識別問題,所以從中挑選了21 種葡萄園常見害蟲圖像,構(gòu)成GP21 數(shù)據(jù)集,用于分類研究,其中,訓練樣本和測試樣本總數(shù)分別為10 303 和1 714。
GP8 數(shù)據(jù)集。該數(shù)據(jù)集采集于杭州浙大城市學院植物工廠基地。如表1 所示,在3 位農(nóng)業(yè)專家指導下,利用遠程可視化自動害蟲監(jiān)測系統(tǒng)iMETOS iSCOUT,采集了包含綠盲蝽、大青葉蟬和麥二叉蚜等在內(nèi)的8 種當季葡萄園害蟲圖像,通過人工篩選和標注,最終獲得GP8 數(shù)據(jù)集,如圖4 所示,其樣本總數(shù)為1 365。將GP8數(shù)據(jù)集按照3:1 的比例進行劃分,得到訓練集和測試集。其中,訓練樣本總數(shù)為1 023,測試樣本總數(shù)為342。
表1 GP8 數(shù)據(jù)集包含害蟲類別及相應樣本量Table 1 Taxonomy and its corresponding sample size of the GP8 dataset
圖4 GP8 數(shù)據(jù)集中的樣本示例Fig.4 Different example images of the GP8 dataset
本文所提出的ACKGViT 模型采用兩層的GAT 網(wǎng)絡(luò),所含MLP(multi-layer perceptron, MLP)隱藏層維度為16,注意力頭Z設(shè)置為4,輸出結(jié)點數(shù)目與數(shù)據(jù)集中害蟲類別總數(shù)保持一致;ViT 使用默認參數(shù)配置。在將圖像輸入到網(wǎng)絡(luò)進行特征提取之前,通過縮放操作(Resize)保證其空間尺度為224× 224。訓練時觀察到模型在50 個輪次時已完全收斂,本試驗將訓練輪次設(shè)置為50,學習率設(shè)置為0.001。
相關(guān)試驗在裝有NVIDIA RTX 3 090 GPU 和Intel Core i9 10900K CPU 的機器上進行。訓練過程使用SGD優(yōu)化器,GP21 數(shù)據(jù)集和GP8 數(shù)據(jù)集完成50 個輪次的訓練分別需要大約4 和0.5 h。與其他數(shù)據(jù)集相關(guān)文獻一致,本試驗將準確率(accuracy,A)作為評估模型性能的指標,同時也列舉了F1 分數(shù)(F1),精確率(precision,P),召回率(recall,R)指標的計算結(jié)果。
式中,Tp是正確預測的正樣本數(shù)量,Tn是正確預測的負樣本數(shù)量,F(xiàn)p是錯誤預測的正樣本數(shù)量,F(xiàn)n是錯誤預測的負樣本數(shù)量。
在評估所提出的葡萄園害蟲識別模型的性能之外,還需要關(guān)注算法復雜度和計算量等方面的分析。這些分析有助于了解模型在實際應用中的效率和可擴展性。
首先,考慮模型的時間復雜度。模型的主要組成部分包括視覺編碼器(ViT)和圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)。對于ViT,其時間復雜度主要取決于圖像的分辨率和ViT 的層數(shù)。假設(shè)輸入圖像的大小為H×W,ViT 的層數(shù)為L,那么ViT 的時間復雜度大致為O(L×H×W)。對于GCN,其時間復雜度主要取決于圖的節(jié)點數(shù)和GCN 的層數(shù)。假設(shè)知識圖譜有N個節(jié)點,GCN 的層數(shù)為K,那么GCN 的時間復雜度大致為O((K×N)2)。因此,整個模型的時間復雜度大約為O(L×H×W+(K×N)2)。
其次,關(guān)注模型的空間復雜度。同樣地,模型的空間復雜度主要取決于ViT 和GCN。對于ViT,其空間復雜度主要與圖像分辨率和ViT 的參數(shù)數(shù)量有關(guān)。設(shè)ViT的參數(shù)數(shù)量為Pv,那么ViT 的空間復雜度大約為O(Pv)。對于GCN,其空間復雜度主要與知識圖譜的節(jié)點數(shù)和GCN 的參數(shù)數(shù)量有關(guān)。設(shè)GCN 的參數(shù)數(shù)量為Pg,那么GCN 的空間復雜度大約為O(Pg+N)。因此,整個模型的空間復雜度大約為O(Pv+Pg+N)。
最后,討論模型的計算量。計算量主要受輸入圖像大小、模型參數(shù)數(shù)量以及訓練迭代次數(shù)等因素的影響。在訓練階段,模型需要對大量圖像進行前向傳播和反向傳播,以更新模型參數(shù)。設(shè)訓練迭代次數(shù)為T,那么整個模型的計算量大約為O(T(L×H×W+(K×N)2))。
綜上所述,本研究所提出的模型在時間復雜度、空間復雜度和計算量方面的分析表明,雖然引入知識圖譜和圖卷積網(wǎng)絡(luò)增加了一定的計算負擔,但總體上仍在可接受范圍內(nèi)。此外,隨著硬件性能的提升和算法優(yōu)化技術(shù)的發(fā)展,該模型在實際應用中將具有較高的效率和可擴展性。
表2 分別列出了預訓練網(wǎng)絡(luò)VGG-16、ResNet-152[21]、Inception-V3、 Xception、 MobileNet、 SqueezeNet[22]和ViT 在GP21 和GP8 測試集上的性能。
表2 不同模型在GP21 和GP8 數(shù)據(jù)集上的性能對比Table 2 Performance comparison of the different models on the GP21 and GP8 datasets.%
從表2 中可以看出,ViT 模型在Accuracy 和F1指標上都明顯優(yōu)于其他模型。相比于目前視覺任務中最高頻使用的模型之一ResNet-152,ViT 的Accuracy 和F1 值在GP21 數(shù)據(jù)集上分別提高了2.08 和3.46 個百分點,在GP8 數(shù)據(jù)集上分別提高了2.63 和2.72 個百分點。這是因為相比于卷積神經(jīng)網(wǎng)絡(luò)模型,ViT 的注意力機制使得它具備低層的全局特征學習能力,所以利用ViT 提取的高層表征能夠更精細地整合害蟲圖像全局和局部信息,因此,本研究將ViT 作為骨干網(wǎng)絡(luò)構(gòu)建ACKGViT 模型。
ACKGViT 的性能在表3 最后一行展示,相比于ViT,ACKGViT 的Accuracy 和F1值在GP21 數(shù)據(jù)集上分別提高了1.64 和2.90 個百分點,在GP8 數(shù)據(jù)集上分別提高了1.17 和1.93 個百分點,這是因為ViT 在識別形狀相似的物體時能力不足[27],而知識圖譜能夠提供不同類別害蟲之間的細節(jié)信息,從而輔助ViT 區(qū)分害蟲類型。
表3 知識圖譜和手工特征消融試驗結(jié)果Table 3 Ablation study results of knowledge graph and handcrafted features%
為了進一步分析知識圖譜的引入對于葡萄園害蟲分類性能的提升作用,本研究設(shè)計了3 組消融試驗:1)將ACKGViT 模型移除手工特征(w/o MF),使提取的手工特征不參與特征融合;2)將ACKGViT 模型移除知識圖譜(w/o KG),使知識圖譜提取的屬性特征不參與特征融合;3)同時移除手工特征和知識圖譜(w/oMF∪KG),使得手工特征和知識圖譜提取的屬性特征均不參與特征融合。
3 組消融試驗結(jié)果如表3 所示。從表3 中可以看出,移除知識圖譜和手工特征(w/oMF∪KG)使得模型性能accuracy 和F1在GP21 數(shù)據(jù)集上分別下降1.64 和2.9個百分點,在GP8 數(shù)據(jù)集上分別下降2.34 和2.96 個百分點。移除手工特征(w/o MF)和移除知識圖譜(w/o KG)使得模型性能accuracy 在GP21 數(shù)據(jù)集上分別下降1.35 和1.55 個百分點,在GP8 數(shù)據(jù)集上分別下降1.46和1.76 個百分點,同時,F(xiàn)1在GP21 數(shù)據(jù)集上分別下降2.32 和2.36 個百分點,在GP8 數(shù)據(jù)集上分別下降2.10和2.60 個百分點。上述結(jié)果表明:1)通過引入知識圖譜的方式輔助ViT 獲取更加精確的害蟲信息是有效的;2)僅使用傳統(tǒng)特征和知識圖譜在提升模型性能上作用不大,主要原因是:傳統(tǒng)特征提取方法在表達圖像高層語義信息方面存在缺陷,而僅使用知識圖譜無法有效訓練圖卷積網(wǎng)絡(luò),從而使得結(jié)點特征向量表征不足;3)在ACKGViT 模型學習中,知識圖譜作用大于傳統(tǒng)特征,這是因為除了圖像淺層表征外,知識圖譜還能夠提供不同類別之間的關(guān)聯(lián)特征等額外信息作為輔助分類的線索。例如,如圖1 所示,知識圖譜能夠通過“足”的長短、“后翅”顏色等屬性特征來區(qū)分都含有“體暗褐色”特征的“斜紋夜蛾”和“葡萄短須螨”。另一方面,知識圖譜基于卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn),能夠從原始圖像中提取到復雜抽象的深層特征,這些特征可以增強模型對于分類任務的健壯性。
為了驗證知識圖譜的引入在葡萄園害蟲特征挖掘方面的可用性,本研究進一步比較了ACKGViT 模型與骨干網(wǎng)絡(luò)ViT 模型學習到的害蟲特征向量,并利用可視化技術(shù)[28]直觀展示對比結(jié)果。
如圖5 所示,在不同復雜程度的背景條件下,對于不同類別的害蟲,ACKGViT 方法都可以準確關(guān)注到害蟲區(qū)域。
圖5 ACKGViT 和 ViT 可視化結(jié)果對比Fig.5 Visualization of ACKGViT method and ViT method
此外,相比于ViT 方法,ACKGViT 能夠更加準確地將害蟲區(qū)域和背景環(huán)境區(qū)分,并且描繪出更加清晰的輪廓曲線,證明ACKGViT 方法能夠捕捉到更加細節(jié)、更加完整的害蟲特征信息并用于分類研究。
在本章節(jié)中將對不同相似度計算方法進行對比試驗,以評估它們在葡萄園害蟲識別任務中的性能。相似度計算方法是評估兩個實體之間相似程度的關(guān)鍵因素,對于基于知識圖譜的葡萄園害蟲識別方法來說尤為重要。通過比較不同相似度計算方法,可以找到適合該任務的最佳方法,從而提高識別精度和效率。為了達到上述目的,本研究選取了以下幾種常見的相似度計算方法進行對比試驗:余弦相似度、歐幾里得距離、曼哈頓距離、皮爾森相關(guān)系數(shù)、Jaccard 系數(shù)。為了確保試驗結(jié)果的可靠性,將在相同的數(shù)據(jù)集上對各種相似度計算方法進行評估。試驗結(jié)果如表4 所示。
表4 不同相似度計算方法的性能對比Table 4 Performance comparison of the different similarity calculation methods%
根據(jù)試驗結(jié)果分析,在GP21 數(shù)據(jù)集上,使用余弦相似度相比于歐幾里得距離、曼哈頓距離、皮爾森相關(guān)系數(shù)和Jaccard 系數(shù),準確率分別提高了15.96 個百分點、7.35 個百分點、8.80 個百分點和3.58 個百分點;F1分數(shù)分別提高了20.21 個百分點、11.33 個百分點、12.76 個百分點和5.03 個百分點。在GP8 數(shù)據(jù)集上,使用余弦相似度相比于歐幾里得距離、曼哈頓距離、皮爾森相關(guān)系數(shù)和Jaccard 系數(shù),準確率分別提高了16.67 個百分點、7.92 個百分點、8.79 個百分點和3.8 個百分點;F1分數(shù)分別提高了17.56 個百分點、8.74 個百分點、10.42 個百分點和4.83 個百分點。通過上述分析可以得出余弦相似度計算方法在葡萄園害蟲識別任務中性能表現(xiàn)最優(yōu)的結(jié)論,通過對比試驗為該任務找到了最佳的相似度計算方法,從而為后續(xù)研究和實際應用提供了有益的啟示。
本研究基于領(lǐng)域農(nóng)業(yè)專家的豐富經(jīng)驗和害蟲知識語料構(gòu)建了一套詳盡的葡萄園害蟲屬性特征知識圖譜。在此基礎(chǔ)上,本研究提出了一種基于知識圖譜的細粒度害蟲分類雙分支模型ACKGViT。該模型利用圖卷積網(wǎng)絡(luò)GAT 將知識圖譜轉(zhuǎn)化為可供訓練的神經(jīng)網(wǎng)絡(luò)模塊,同時結(jié)合傳統(tǒng)特征對網(wǎng)絡(luò)參數(shù)進行訓練和優(yōu)化。主要結(jié)論如下:
1)與骨干網(wǎng)絡(luò)ViT 相比,ACKGViT 在葡萄園害蟲分類任務中表現(xiàn)出了明顯的性能提升。具體而言,ACKGViT 在GP21 數(shù)據(jù)集上的準確率和F1指標分別提高了1.64 和2.90 個百分點,而在GP8 數(shù)據(jù)集上,這兩個指標分別提高了1.17 和1.93 個百分點。
2)知識圖譜和手工特征消融試驗結(jié)果表明:移除知識圖譜所在分支使得模型性能準確率和F1分數(shù)在GP21數(shù)據(jù)集上分別下降1.64 和2.90 個百分點,在GP8 數(shù)據(jù)集上分別下降2.34 和2.96 個百分點。移除手工特征和移除知識圖譜使得模型性能Accuracy 在GP21 數(shù)據(jù)集上分別下降1.35 和1.55 個百分點,在GP8 數(shù)據(jù)集上分別下降1.46 和1.76 個百分點,同時,F(xiàn)1在GP21 數(shù)據(jù)集上分別下降2.32 和2.36 個百分點,在GP8 數(shù)據(jù)集上分別下降2.10 和2.60 個百分點。證明本文所提方法的有效性。
3)不同相似度計算方法的性能對比試驗結(jié)果表明:在GP21 數(shù)據(jù)集上,使用余弦相似度相比于其他相似度計算方法,準確率和F1分數(shù)分別提高了最多15.96 個百分點和20.21 個百分點。相應地,在GP8 數(shù)據(jù)集上,準確率和F1分數(shù)相比于其他方法最多提高了16.67 個百分點和17.56 個百分點。這些結(jié)果充分證明,余弦相似度在葡萄園害蟲識別任務中的性能表現(xiàn)最優(yōu)。
在未來的研究中將會繼續(xù)深入探索知識圖譜在害蟲圖像分類任務中的應用:1)圖譜權(quán)重優(yōu)化:研究如何更有效地利用知識圖譜中的權(quán)重信息,進一步提高害蟲圖像分類的性能;2)動態(tài)知識圖譜構(gòu)建:實時更新和擴展知識圖譜,以適應不斷變化的農(nóng)業(yè)環(huán)境和新出現(xiàn)的病害蟲類型;3)多模態(tài)數(shù)據(jù)融合:探討將其他數(shù)據(jù)源(例如氣象數(shù)據(jù)、土壤信息等)與圖像數(shù)據(jù)融合,提供更豐富的上下文信息以提高分類準確性。通過以上研究方向的探索,期望為智慧農(nóng)業(yè)的發(fā)展貢獻力量,從解決實際問題出發(fā),促進農(nóng)業(yè)生產(chǎn)的可持續(xù)發(fā)展。