王忠培 董偉 朱靜波 謝成軍
摘要:準(zhǔn)確、快速地識別水稻病害并及時(shí)采取防治措施,是減少水稻產(chǎn)量損失和提高水稻質(zhì)量的有效途徑之一。以生產(chǎn)上常見的6種水稻病害為研究對象,提出一種簡單的三維注意力機(jī)制水稻識別模型。不同于通道注意力或空間注意力方法將研究對象特征分開考慮而導(dǎo)致研究對象本身固有的三維特性丟失的現(xiàn)象,本研究借鑒人類觀察物體時(shí)將觀察主體作為三維整體考慮的特點(diǎn),提出算法。不同于SimAM算法將輸入圖像中的激活像素人為設(shè)置+1作為正樣本、不激活像素設(shè)置-1作為負(fù)樣本的假定,本研究不對輸入圖像的每個(gè)像素作人為硬性閾值的設(shè)定,而是保留其本身輸入特征大?。贿@種設(shè)定不會(huì)破壞研究對象本身的固有屬性,更符合研究主題自身的特性。研究結(jié)果表明,在自建水稻病害識別數(shù)據(jù)集達(dá)到的最高準(zhǔn)確率為98.6%,比SimAM算法提高0.84百分點(diǎn);相比經(jīng)典網(wǎng)絡(luò)模型ResNet50、MobileNetV2、EfficientNet_B0、DenseNet分別提高1.71、1.93、1.93、0.84百分點(diǎn);相比通道注意力機(jī)制模型 SENe、ECA模型分別提高1.20、1.28百分點(diǎn),表明本模型能夠?yàn)樽匀画h(huán)境下水稻病害的智能識別提供技術(shù)支持。
關(guān)鍵詞:水稻病害;識別;三維注意力;注意力機(jī)制
中圖分類號:TP391.41文獻(xiàn)標(biāo)志碼:A
文章編號:1002-1302(2023)20-0186-07
水稻是我國第二大糧食作物,種植面積約占我國耕地面積的1/4,水稻產(chǎn)量關(guān)系到國計(jì)民生。水稻病蟲害對水稻產(chǎn)量產(chǎn)生重要影響。據(jù)農(nóng)業(yè)技術(shù)推廣中心的預(yù)報(bào),2023年預(yù)計(jì)水稻病蟲害發(fā)生 7 733.3萬次/hm2,同比增加25.1%;其中,“三蟲兩病”(稻飛虱、稻縱卷葉螟、二化螟、紋枯病、稻瘟病)發(fā)生6 720萬次/hm2,同比增加29.0%[1]。因此,準(zhǔn)確識別病蟲害并及時(shí)進(jìn)行防治,有助于減少水稻產(chǎn)量的損失。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)技術(shù)由于其性能的優(yōu)越性,已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域獲得大量的應(yīng)用,在農(nóng)業(yè)領(lǐng)域也得到學(xué)者的關(guān)注并取得良好的效果。趙立新等使用遷移學(xué)習(xí)方法,實(shí)現(xiàn)棉花病蟲害的智能識別[2]。樊湘鵬等將遷移學(xué)習(xí)的方法應(yīng)用到葡萄葉片病害識別[3]。劉斌等將深度可分離卷積和通道混洗ALS模塊引入輕量化模型ShuffleNetV2,提出輕量化識別模型ALS-Net,模型大小只有 1.64 MB,但識別精度達(dá)到99.43%,可實(shí)現(xiàn)移動(dòng)端蘋果葉病害的實(shí)時(shí)識別[4]。張善文等將可變形卷積神經(jīng)網(wǎng)絡(luò)引入VGG-16模型,解決識別對象大小、形態(tài)、姿態(tài)變化等問題[5]。Espejo-Garcia等使用遷移學(xué)習(xí)的方法,基于EfficientNetB4模型在自建數(shù)據(jù)集上進(jìn)行微調(diào),可以實(shí)現(xiàn)作物營養(yǎng)缺乏癥狀的診斷[6]。營養(yǎng)缺乏癥可以實(shí)現(xiàn)作物早期診斷,避免重大性農(nóng)業(yè)損失。Peng等為解決稻田雜草和水稻的相似性問題,提出基于RetinaNet的WeedDet模型,該模型的mAP值為94.1%,比基準(zhǔn)模型RetinaNet提高5.5%的準(zhǔn)確率[7]。由以上研究可知,深度學(xué)習(xí)技術(shù)在農(nóng)業(yè)方面的應(yīng)用主要包括遷移學(xué)習(xí)方法、卷積神經(jīng)網(wǎng)絡(luò)技術(shù)及深度可分離卷積、可變形卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)。
隨著研究的深入,一些學(xué)者針對卷積神經(jīng)網(wǎng)絡(luò)提出通道注意力機(jī)制。Hu等首先提出的SENet網(wǎng)絡(luò)模型取得2017年ILSVRC(imagenet large scale visual recognition challenge)競賽圖像分類子任務(wù)中的第1名,并且top-5的錯(cuò)誤率相對于2016年的第1名提升了大約25%,證明通道注意力機(jī)制具備有效性[8]。Zhao等使用遷移學(xué)習(xí)結(jié)合注意力機(jī)制提出DTL-SE-ResNet50模型,該模型主要將SENet方法引入ResNet50模型[9]。Zhao等將改進(jìn)的塊注意力模塊(convolutional block attention module,CBAM)引入網(wǎng)絡(luò),實(shí)現(xiàn)對玉米、土豆、西紅柿病害葉片的分類識別,3種作物的整體識別準(zhǔn)確率達(dá)到99.55%[10]。趙輝等將高效通道注意力機(jī)制(efficient channel attention,ECA)引入DenseNet-121網(wǎng)絡(luò)結(jié)構(gòu),并應(yīng)用到田間雜草識別任務(wù),改進(jìn)后模型的平均識別準(zhǔn)確率提高了2.09百分點(diǎn),為智能除草機(jī)器人的開發(fā)奠定了技術(shù)基礎(chǔ)[11-12]。孫俊等將輕量型坐標(biāo)注意力機(jī)制引入MobileNet-V2模型,并將分組卷積引入模型,實(shí)現(xiàn)田間農(nóng)作物葉片病害的識別[13]。甘雨等將坐標(biāo)注意力機(jī)制(coordinate attention,CA)引入EfficientNet網(wǎng)絡(luò)結(jié)構(gòu),提出了一種改進(jìn)的輕量化作物害蟲識別模型 CA-EfficientNet[14-15]。宋懷波等將擠壓激發(fā)塊(Squeeze-and-Excitation block)和非局部塊(Non-Local block)這2種注意力方法引入YOLO v4網(wǎng)絡(luò)模型,提出一種改進(jìn)的YOLO v4-SENL模型,在蘋果幼果的檢測任務(wù)中可以達(dá)到96.9%的平均檢測精度[16-17]。
以上研究表明,現(xiàn)階段注意力機(jī)制在農(nóng)業(yè)方面主要使用通道注意力的應(yīng)用方法,部分使用通道注意力結(jié)合空間注意力機(jī)制方法,鮮有應(yīng)用三維注意力機(jī)制。本研究提出一種簡單的三維注意力實(shí)現(xiàn)方法,不改變輸入圖像特征的固有屬性,通過對輸入圖像的三維整體乘以激活函數(shù)獲得三維圖像每個(gè)像素的激活值,將獲得的激活值乘以輸入圖像以獲得輸入圖像的三維注意力。同時(shí)探討不同激活函數(shù)對算法性能的影響,結(jié)果表明Sigmoid激活函數(shù)可以獲得最好的性能,最終選取Sigmoid函數(shù)作為本研究激活函數(shù)。
1 數(shù)據(jù)集
本研究以常見6種對水稻產(chǎn)量影響較大的病害作為研究主體,分別是水稻胡麻斑病、水稻白葉枯病、水稻細(xì)菌性條紋病、稻曲病、稻瘟病。為了真實(shí)反應(yīng)自然場景,所有病害圖像均使用佳能單反相機(jī)在田間直接拍攝。
6種主要水稻病害的部分示例如圖1所示。6種病害的樣本量如表1所示,共計(jì) 6 938 幅病害圖像。由表1可知,這些病害樣本量分布具有不平衡性,比如稻瘟病的樣本量是水稻紋枯病的近4倍。
2 簡單三維注意力機(jī)制
2.1 三維注意力機(jī)制
當(dāng)前注意力機(jī)制實(shí)現(xiàn)主要有2種方法:通道注意力、空間注意力。通道注意力只能激活通道相關(guān)特征,空間注意力只能激活物體二維空間特征,而人在觀察物體時(shí)是按照物體固有的三維特性作為觀察目標(biāo),因此三維注意力機(jī)制更符合人類觀察物體的特點(diǎn)。Yang等提出一種被稱為SimAM的三維注意力機(jī)制實(shí)現(xiàn)方式[18]。SimAM模型基于神經(jīng)學(xué)理論,將神經(jīng)學(xué)的空間抑制性轉(zhuǎn)化為二分類問題,實(shí)現(xiàn)三維注意力機(jī)制[19]。該模型是一種無參模型,且二分類的優(yōu)化可以求出一個(gè)簡單的閉式解,可以實(shí)現(xiàn)快速計(jì)算以及可解釋性。
Webb等的研究結(jié)果證明,被激活的神經(jīng)元通常會(huì)抑制周圍的神經(jīng)元,這種特性被稱為空間抑制性[19]??臻g抑制性說明被激活的神經(jīng)元應(yīng)該被賦予較高的權(quán)重,而在它周圍的神經(jīng)元被賦予較低的權(quán)重。為了實(shí)現(xiàn)該特性,需要將激活神經(jīng)元和非激活神經(jīng)元進(jìn)行區(qū)分,一種簡單的方法是將其轉(zhuǎn)換為簡單的分類任務(wù)。因此,定義如下?lián)p失函數(shù):
(1)
式中:et表示能量方程;y表示標(biāo)簽;yt表示目標(biāo)的真實(shí)標(biāo)簽;yo表示除了目標(biāo)之外的標(biāo)簽。 t^=wtt+bt中,t表示目標(biāo)神經(jīng)元;wt表示權(quán)重;bt表示偏置。x^i=wtxi+bt中,xi表示輸入特征的第i個(gè)神經(jīng)元,輸入特征表示為X∈RC×H×W,其中,X表示經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取的特征,C、H、W分別表示輸入特征的信道數(shù)、高度、寬度,R表示實(shí)數(shù)集合。M=H×W,表示神經(jīng)元的總數(shù)目,這里表示輸入圖像的像素總數(shù),i表示(H×W-1)個(gè)值的總和。
為了簡單起見,將激活神經(jīng)元設(shè)置為+1,其周圍的神經(jīng)元設(shè)置為-1,即yt設(shè)置為+1,yo設(shè)置為-1。同時(shí)為提高泛化能力,添加正則項(xiàng),可得到最終的損失函數(shù):
(2)
公式(2)是一個(gè)凸函數(shù),因此有簡單的閉式解:
其中,μt表示除了激活神經(jīng)元之外的其他神經(jīng)元的平均值,σt表示除了激活神經(jīng)元之外的其他神經(jīng)元的方差值。
最終可以求得公式(2)的最小值為:
(3)
公式(3)既是公式(2)的最小值,其中,μ^=1/M∑M/i=1xi,σ^2=1/M∑M/i=1(xi-μ^)2。e*t表示求得的最小能量值,值越小表明神經(jīng)元t與周圍神經(jīng)元的區(qū)別越大;當(dāng)輸入的是圖像時(shí),表示激活的像素值和周圍的像素值之間的區(qū)別越大。所以,每個(gè)神經(jīng)元的重要性可以通過1/e*得到,該值表示了每個(gè)像素的權(quán)重大小,然后經(jīng)過Sigmoid函數(shù)作一次非線性化處理再乘以輸入圖像,就能得到圖像每個(gè)像素的激活值大小,最終實(shí)現(xiàn)圖像的三維注意力機(jī)制。
(4)
式中:X表示輸入的圖像或者特征值 X~表示經(jīng)過Sigmoid激活以后的值,E表示對e*分別在空間維度和信道維度進(jìn)行計(jì)算后的值。
2.2 簡單三維注意力機(jī)制
2.2.1 網(wǎng)絡(luò)整體結(jié)構(gòu)
本研究提出的簡單三維注意力機(jī)制模型是以ResNet50模型為基礎(chǔ),整體的網(wǎng)絡(luò)結(jié)構(gòu)如圖 2-A所示。
輸入圖像首先經(jīng)過1個(gè)卷積層,該卷積層的卷積核大小設(shè)置為(7×7),padding大小設(shè)置為3,stride設(shè)置為2,然后經(jīng)過16個(gè)被稱為BottleNeck的單元。其中第1個(gè)BottleNeck的層數(shù)是3層,輸出大小設(shè)置為256;第2個(gè)BottleNeck的層數(shù)是4層,輸出大小設(shè)置為512;第3個(gè)BottleNeck的層數(shù)是6層,輸出大小設(shè)置為1 024;第4個(gè)BottleNeck的層數(shù)是3層,輸出大小設(shè)置為2 048。最后輸入1個(gè)全連接層,最終得出每個(gè)類別的概率值。
2.2.2 BottleNeck結(jié)構(gòu)
BottleNeck的結(jié)構(gòu)設(shè)置如圖 2-B所示。分別由(1×1)卷積、(3×3)卷積、簡單三維注意力機(jī)制、(1×1)卷積相連接,并使用殘差的方式和初始輸入連接。
2.2.3 簡單三維注意力機(jī)制
Yang等提出的SimAM算法對輸入圖像的三維結(jié)構(gòu)實(shí)現(xiàn)整體操作,同時(shí)借助神經(jīng)學(xué)理論,將每一個(gè)像素轉(zhuǎn)換為二分類問題。受到SimAM算法的啟發(fā),本研究提出一種簡單的三維注意力機(jī)制實(shí)現(xiàn)方法。SimAM算法為了實(shí)現(xiàn)每個(gè)像素的激活值,需要設(shè)置正負(fù)樣本并通過二分類算法求解,例如將正樣本設(shè)置為+1,負(fù)樣本設(shè)置為-1。本研究認(rèn)為這種假定是一種硬性閾值設(shè)置的方式,不符合每個(gè)像素的真實(shí)值大小。本研究不對每個(gè)像素的標(biāo)簽做硬性假定,而是保留每個(gè)像素的實(shí)際值,經(jīng)過一個(gè)激活函數(shù)就可以得到每個(gè)像素的權(quán)重大小,將得到的激活值乘以輸入圖像,如公式(5)所示。
(5)
公式(5)是對輸入圖像的整體操作,是一種三維注意力機(jī)制實(shí)現(xiàn)方式,保留了原始輸入圖像特征的固有屬性大小,沒有作人為預(yù)設(shè)假定,更能真實(shí)反映輸入圖像本身的固有屬性。
3 試驗(yàn)設(shè)置
3.1 試驗(yàn)環(huán)境
本研究使用Pytorch軟件進(jìn)行仿真。電腦配置為:CPU,Intel i7-9700@3.00 GHz;GPU,英偉達(dá)GeForce RTX2060,顯存大小為6 GB。
3.2 試驗(yàn)參數(shù)設(shè)置
將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集,各占80%、20%;并將批處理大小設(shè)置為16,一共迭代訓(xùn)練100次。本研究使用SGD優(yōu)化器,優(yōu)化器學(xué)習(xí)率設(shè)置為0.001,動(dòng)量因子(momentum)設(shè)置為0.9,權(quán)重衰減系數(shù)(weight_decay)設(shè)置為0.005。
3.3 數(shù)據(jù)預(yù)處理方法
為了保證訓(xùn)練的穩(wěn)定性,需要對圖像做歸一化處理,即對圖像的R、G、B這3個(gè)通道分別減去均值并除以標(biāo)準(zhǔn)差。均值和標(biāo)準(zhǔn)差的值分別設(shè)置為(0.485、0.456、0.406)和(0.229、0.224、0.225),以上均值和標(biāo)準(zhǔn)差由ImageNet數(shù)據(jù)集中所有圖像計(jì)算所得。
因?yàn)槟P陀?xùn)練要求輸入的圖像尺寸一致,先將圖像的短片大小調(diào)整為256像素,再從圖像中心選?。?24×224)像素作為訓(xùn)練圖像的輸入尺寸。
4 試驗(yàn)結(jié)果與分析
為了公平性,對比分析的所有算法都以ResNet50作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行仿真試驗(yàn)。
4.1 本研究算法與SimAM模型對比試驗(yàn)
因?yàn)镾imAM算法是三維注意力機(jī)制模型,而本研究算法是另一種三維注意力機(jī)制模型,所以需要對這2種模型進(jìn)行對比分析。2組試驗(yàn)所有參數(shù)設(shè)置一致,經(jīng)過100次迭代后,在驗(yàn)證集上的識別準(zhǔn)確率曲線如圖3所示。
由圖3可知,經(jīng)過50次訓(xùn)練后,本研究所提算法的準(zhǔn)確率就開始優(yōu)于SimAM,而且隨著訓(xùn)練的進(jìn)行,這種趨勢一直保持,證明了本研究算法的優(yōu)越性和穩(wěn)定性。
2種算法的最高準(zhǔn)確率以及對應(yīng)出現(xiàn)的輪次如表2所示。本研究模型比SimAM模型的最高準(zhǔn)確率提高0.84百分點(diǎn)。證明雖然本研究算法簡單,但因沒有破壞三維物體固有的屬性特點(diǎn),反而優(yōu)于較為復(fù)雜的SimAM算法。
4.2 不同激活函數(shù)對比試驗(yàn)
為了驗(yàn)證本研究算法的性能表現(xiàn),嘗試使用不同的激活函數(shù)進(jìn)行對比試驗(yàn)。現(xiàn)階段已提出的激活函數(shù)包括:ReLU、ReLU6、PReLU、LeakyReLU、RReLU、ELU、SELU、CELU、GELU、SiLU、Mish、Softplus、Sigmoid、Tanh等。通過查看以上激活函數(shù)的圖形,可以將其分為三大類:將ReLU、ReLU6、PReLU、LeakyReLU、RReLU統(tǒng)一稱為ReLU系列;ELU、SELU、CELU、GELU、SiLU、Mish稱為ELU系列;而將Softplus、Sigmoid、Tanh劃分為其他系列,因?yàn)檫@3種激活函數(shù)既有相似特性又有不同特點(diǎn),比如Softplus、Sigmoid在0軸時(shí),其對應(yīng)的激活值不等于0,Sigmoid、Tanh將激活值限定在一個(gè)區(qū)間內(nèi),Sigmoid將激活值限定在[0,1]區(qū)間,Tanh將激活值限定在[-1,1]區(qū)間。本研究從以上激活函數(shù)類別中選取有各自特點(diǎn)的函數(shù)進(jìn)行仿真驗(yàn)證,經(jīng)過100輪訓(xùn)練后,識別率結(jié)果如圖4所示。
由圖4可知,使用Sigmoid激活函數(shù)取得了最好的結(jié)果,而且一直保持優(yōu)于其他激活函數(shù)。使用Tanh激活函數(shù)取得了第3位的效果。相反,ReLU系列以及ELU系列的效果是最差的,說明以上2個(gè)系列的激活函數(shù)不適應(yīng)于本研究模型。
為了做進(jìn)一步分析,對不同激活函數(shù)在驗(yàn)證集上的最高識別準(zhǔn)確率以及對應(yīng)的輪次進(jìn)行比較(表3),結(jié)果表明,Sigmoid激活函數(shù)最適用于本研究算法。
4.3 不同網(wǎng)絡(luò)模型性能對比試驗(yàn)
為了驗(yàn)證本研究算法的性能優(yōu)勢,與三維注意力機(jī)制SimAM模型和通道注意力機(jī)制模型SENet、ECA模型[12]做對比;并同時(shí)與經(jīng)典網(wǎng)絡(luò)模型ResNet模型[20]、MobileNetV2模型[21]、DenseNet模型[22]、EfficientNet模型[23]做對比試驗(yàn)。為保證對比的公平性,所有試驗(yàn)參數(shù)設(shè)置一致。各模型經(jīng)過100次訓(xùn)練后,識別準(zhǔn)確率如圖5所示。
試驗(yàn)結(jié)果表明,本研究提出的模型性能是最好的,而表現(xiàn)最差的是EfficientNet_b0模型。同時(shí),本研究模型優(yōu)于2個(gè)通道注意力機(jī)制模型SENet、ECA模型,證明了三維注意力機(jī)制模型優(yōu)于單純的通道注意力機(jī)制方法。
為了進(jìn)一步分析各模型的準(zhǔn)確率,分別統(tǒng)計(jì)了各模型的最高準(zhǔn)確率以及對應(yīng)的輪次。
從表4可以看出,8種模型的最高準(zhǔn)確率都在96%以上,本研究提出的模型取得了98.60%的最高準(zhǔn)確率,比ResNet50、MobileNetV2、EfficientNet_b0、DenseNet模型分別提高1.71、1.93、1.93、0.84百分點(diǎn),比通道注意力機(jī)制模型SENet、ECA模型分別提高1.20、1.28百分點(diǎn)。本研究的模型優(yōu)于一些經(jīng)典網(wǎng)絡(luò)模型和通道注意力機(jī)制模型,證明三維注意力機(jī)制具有優(yōu)越性。
4.4 水稻病害識別結(jié)果定性分析
混淆矩陣常用來對模型性能做可視化分析,展示每類水稻病害的識別準(zhǔn)確率情況。圖6為6種常見水稻病害的分類混淆矩陣。
圖6中,橫坐標(biāo)編號代表每種水稻病害的ID:10000表示水稻胡麻斑??;10017表示水稻白葉枯?。?10018表示水稻紋枯??; 10021表示水稻細(xì)菌性條斑病;10046表示稻曲病;10047表示稻瘟病。對角線上的數(shù)字表示預(yù)測正確的個(gè)數(shù),非對角線上的數(shù)字表示預(yù)測為其他類別的數(shù)目。比如,水稻細(xì)菌性條斑病在測試集上一共有298幅圖像,被正確預(yù)測的有293幅,5幅水稻細(xì)菌性條斑病被預(yù)測為其他病害,其中有2幅被預(yù)測為水稻胡麻斑病,剩余的3幅分別被預(yù)測為水稻白葉枯病、水稻紋枯病、稻瘟病。
4.5 水稻病害識別結(jié)果定量分析
為了對每種水稻病害做定量分析,本研究選用以下評價(jià)指標(biāo):精度、召回率、特異度、F1得分、平均準(zhǔn)確率。
精度P(Precision)公式定義為:
(6)
精度表示正樣本的數(shù)量有多少被正確預(yù)測。公式(6)中:TP(true positive)稱為真正類,表示樣本的真實(shí)值為正且預(yù)測值也為正的數(shù)量;FP(false positive)稱為假正類,表示樣本的真實(shí)值為負(fù)卻被預(yù)測為正樣本的數(shù)量。
特異度S(Specificity)公式為:
(7)
特異度表示真實(shí)標(biāo)簽是負(fù)樣本同時(shí)也被預(yù)測為負(fù)樣本的數(shù)量與真實(shí)負(fù)樣本標(biāo)簽的數(shù)量比例。公式(7)中TN(true negative)稱為真負(fù)類,表示樣本的真實(shí)標(biāo)簽為負(fù)且預(yù)測值也為負(fù)類的數(shù)量。
召回率R(Recall)公式為:
(8)
召回率也稱之為查全率,表示預(yù)測正確的正樣本占所有真實(shí)正樣本標(biāo)簽的比例,值越大表示模型的預(yù)測能力越好。公式(8)中FN(false negative)稱為假負(fù)類,表示樣本的真實(shí)標(biāo)簽是正類卻被預(yù)測為負(fù)類。
F1得分的公式為:
(9)
精度和召回率是一對矛盾的指標(biāo),當(dāng)精度高時(shí)召回率往往偏低,而精度低時(shí)召回率往往偏高。F1得分綜合考慮了精度和召回率,其核心思想是提高精度和召回率的同時(shí),也希望兩者之間的差異盡可能小。
準(zhǔn)確率Acc(Accuracy)的公式為:
(10)
表示預(yù)測正確的樣本數(shù)占總樣本數(shù)的比例。但是當(dāng)正、負(fù)樣本不均衡時(shí),該指標(biāo)有一定的缺陷。
根據(jù)以上定義,分別計(jì)算出每種水稻病害的精度、召回率、特異度、F1得分、平均準(zhǔn)確率,結(jié)果如表5所示。
表5結(jié)果表明,精度最低的是水稻白葉枯病(96.9%),召回率最低的是水稻紋枯?。?8.1%),特異度各病害差別不大,F(xiàn)1得分最低的是水稻紋枯病(96.7%),其次是水稻白葉枯?。?6.9%)。該模型對水稻白葉枯病和水稻紋枯病的識別效果不太好。
5 結(jié)論
為了快速準(zhǔn)確地識別水稻病害,本研究針對6種常見水稻病害提出一種簡單的三維注意力機(jī)制識別模型。首先自建水稻病害數(shù)據(jù)集,然后針對通道注意力機(jī)制以及空間注意力機(jī)制的不足,提出三維注意力機(jī)制識別模型。不同于SimAM方法將輸入圖像的每個(gè)像素按照硬性閾值來劃分正負(fù)樣本的做法,本研究不對每個(gè)像素做人為劃分而是保留圖像本身的固有屬性,這種方法更符合圖像本身的特性。通過對比分析,本研究算法的最高準(zhǔn)確率可以達(dá)到98.6%,相對于SimAM算法提高了0.84百分點(diǎn)。同時(shí),相對于通道注意力模型SENet、ECA模型,本研究算法分別提高1.20、1.28百分點(diǎn),證明三維注意力機(jī)制具備相對優(yōu)越性,表明本研究模型可以有效解決大田復(fù)雜環(huán)境下水稻病害的識別問題。
參考文獻(xiàn):
[1]劉 杰,曾 娟,楊清坡,等. 2023年全國農(nóng)作物重大病蟲害發(fā)生趨勢預(yù)報(bào)[J]. 中國植保導(dǎo)刊,2023,43(1):32-35.
[2]趙立新,侯發(fā)東,呂正超,等. 基于遷移學(xué)習(xí)的棉花葉部病蟲害圖像識別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(7):184-191.
[3]樊湘鵬,許 燕,周建平,等. 基于遷移學(xué)習(xí)和改進(jìn)CNN的葡萄葉部病害檢測系統(tǒng)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(6):151-159.
[4]劉 斌,賈潤昌,朱先語,等. 面向移動(dòng)端的蘋果葉部病蟲害輕量級識別模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(6):130-139.
[5]張善文,許新華,齊國紅,等. 基于可形變VGG-16模型的田間作物害蟲檢測方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(18):188-194.
[6]Espejo-Garcia B,Malounas I,Mylonas N,et al. Using EfficientNet and transfer learning for image-based diagnosis of nutrient deficiencies[J]. Computers and Electronics in Agriculture,2022,196:106868.
[7]Peng H X,Li Z H,Zhou Z Y,et al. Weed detection in paddy field using an improved RetinaNet network[J]. Computers and Electronics in Agriculture,2022,199:107179.
[8]Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141.
[9]Zhao X ,Li K Y,Li Y X,et al. Identification method of vegetable diseases based on transfer learning and attention mechanism[J]. Computers and Electronics in Agriculture,2022,193:106703.
[10]Zhao Y,Sun C D,Xu X,et al. RIC-Net:a plant disease classification model based on the fusion of Inception and residual structure and embedded attention mechanism[J]. Computers and Electronics in Agriculture,2022,193:106644.
[11]趙 輝,曹宇航,岳有軍,等. 基于改進(jìn)DenseNet的田間雜草識別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(18):136-142.
[12]Wang Q L,Wu B G,Zhu P F,et al. ECA-net:efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020.Seattle,WA,USA.IEEE,2020:11531-11539.
[13]孫 俊,朱偉棟,羅元秋,等. 基于改進(jìn)MobileNet-V2的田間農(nóng)作物葉片病害識別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(22):161-169.
[14]甘 雨,郭慶文,王春桃,等. 基于改進(jìn)EfficientNet模型的作物害蟲識別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(1):203-211.
[15]Hou[KG*2]Q[KG*2]B,Zhou[KG*2]D[KG*2]Q,F(xiàn)eng[KG*2]J[KG*2]S.[KG*2]Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 20-25,2021.Nashville,TN,USA.IEEE,2021:13713-13722.
[16]宋懷波,江 梅,王云飛,等. 融合卷積神經(jīng)網(wǎng)絡(luò)與視覺注意機(jī)制的蘋果幼果高效檢測方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(9):297-303.
[17]Wang X L,Girshick R,Gupta A,et al. Non-local neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018.Salt Lake City,UT,USA.IEEE,2018:7794-7803.
[18]Yang L,Zhang R Y,Li L,et al. Simam:a simple,parameter-free attention module for convolutional neural networks[C]//International conference on machine learning. PMLR,2021:11863-11874.
[19]Webb B S,Dhruv N T,Solomon S G,et al. Early and late mechanisms of surround suppression in striate cortex of macaque[J]. The Journal of Neuroscience,2005,25(50):11666-11675.
[20]He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016.Las Vegas,NV,USA.IEEE,2016:770-778.
[21]Sandler M,Howard A,Zhu M L,et al. MobileNetV2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018.Salt Lake City,UT.IEEE,2018:4510-4520.
[22]Huang G,Liu Z A,van Der Maaten L,et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017.Honolulu,HI.IEEE,2017:4700-4708.
[23]Tan M,Le Q. Efficientnet:rethinking model scaling for convolutional neural networks[C]//International conference on machine learning. PMLR,2019:6105-6114.
收稿日期:2023-01-31
基金項(xiàng)目:國家自然科學(xué)基金(編號:32171888)。
作者簡介:王忠培(1981—),男,安徽金寨人,博士,助理研究員,研究方向?yàn)橹悄苻r(nóng)業(yè)技術(shù)。E-mail:wangzhongpei@aaas.org.cn。
通信作者:董 偉,碩士,副研究員,研究方向?yàn)橹参锉Wo(hù)信息化技術(shù)。E-mail:dongwei@ aaas.org.cn。