鄧昀 馮琦堯 牛照文 康燕萍
摘要:隨著深度學(xué)習(xí)應(yīng)用的普及和飛速發(fā)展,基于深度學(xué)習(xí)的圖像識(shí)別方法廣泛應(yīng)用于農(nóng)作物病蟲害領(lǐng)域,但大部分的神經(jīng)網(wǎng)絡(luò)重視識(shí)別準(zhǔn)確率的提高,卻忽略神經(jīng)網(wǎng)絡(luò)龐大的參數(shù)計(jì)算量。為解決這個(gè)問題,基于漸進(jìn)式生成對(duì)抗網(wǎng)絡(luò)判別器模型和卷積注意力模塊,提出一種改進(jìn)的漸進(jìn)式生成對(duì)抗網(wǎng)絡(luò)判別器CPDM網(wǎng)絡(luò)模型對(duì)農(nóng)作物病蟲害進(jìn)行識(shí)別。通過對(duì)漸進(jìn)式生成對(duì)抗網(wǎng)絡(luò)判別器網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整,采用均衡學(xué)習(xí)率、像素級(jí)特征向量歸一化和卷積注意力模塊增強(qiáng)CPDM網(wǎng)絡(luò)模型的特征提取能力,提高對(duì)真實(shí)圖片的識(shí)別準(zhǔn)確率。試驗(yàn)在PlantVillage數(shù)據(jù)集上進(jìn)行,將該模型與VGG16、VGG19和ResNet18進(jìn)行比較,得到TOP-1準(zhǔn)確率分別為99.06%、96.50%、96.65%、98.86%,分別提高2.56%、2.41%、0.2%,且參數(shù)量僅為8.2 M。試驗(yàn)證明提出的CPDM網(wǎng)絡(luò)模型滿足在保證分類準(zhǔn)確率的基礎(chǔ)上,有效控制神經(jīng)網(wǎng)絡(luò)參數(shù)計(jì)算量的目的。
關(guān)鍵詞:農(nóng)作物病蟲害;漸進(jìn)式生成對(duì)抗網(wǎng)絡(luò);卷積注意力模塊;細(xì)粒度分類
中圖分類號(hào):S435: TP391? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2095-5553 (2024) 03-0156-08
Fine-grained classification of crop diseases and pests based on progressive growing of GANs
Deng Yun1, 2, Feng Qiyao1, 2, Niu Zhaowen1, 2, Kang Yanping1, 2
(1. School of Information Science and Engineering, Guilin University of Technology, Guilin, 541004, China;2. Guangxi Key Laboratory of Embedded Technology and Intelligent System, Guilin, 541004, China)
Abstract:
With the popularity and rapid development of deep learning applications, image recognition methods based on deep learning are widely used in the field of crop diseases and insect pests. However, most neural networks attach importance to the improvement of recognition accuracy, but ignore the huge parameter computation amount of neural networks. In order to solve this problem, based on the progressive growing of GANs discriminator model and convolutional attention module. an improved CPDM network model was proposed to identify crop pests and diseases. By adjusting the network structure of the progressive growing of GANs discriminator, the feature extraction capability of CPDM network model was enhanced by using balanced learning rate, pixel-level feature vector normalization and convolutional attention module, and the recognition accuracy of real images was improved. The experiment was carried out on the PlantVillage dataset, and compared with VGG16, VGG19 and ResNet18, the TOP-1 accuracy was 99.06%, 96.50%, 96.65% and 98.86%, respectively, which was improved by 2.56%, 2.41% and 0.2%, respectively. And the number of parameters was only 8.2 M. The experimental results show that the proposed CPDM network model meets the purpose of effectively controlling the calculation amount of neural network parameters on the basis of ensuring the classification accuracy.
Keywords:crop diseases and pests; progressive growing of GANs; CBAM; fine-grained classification
0 引言
農(nóng)作物病蟲害作為對(duì)農(nóng)作物產(chǎn)量和質(zhì)量危害最大的影響因素之一,每年造成的農(nóng)業(yè)經(jīng)濟(jì)損失可達(dá)20%~50%[1]。如何有效地發(fā)現(xiàn)及預(yù)防農(nóng)作物病害成為農(nóng)作物病害防治工作的重要環(huán)節(jié)?;谌斯さ淖R(shí)別方法對(duì)人力和物力都產(chǎn)生了巨大的消耗,造成了嚴(yán)重的經(jīng)濟(jì)負(fù)擔(dān)[2]。隨著深度學(xué)習(xí)算法的逐漸興起,如何利用深度學(xué)習(xí)算法快速有效地識(shí)別農(nóng)作物病蟲害成為相關(guān)研究者的新方向。
Mohanty等[3]在2016年利用GoogleNet卷積神經(jīng)網(wǎng)絡(luò),通過使用遷移學(xué)習(xí)對(duì)模型進(jìn)行訓(xùn)練,共分析了14種農(nóng)作物包括26類病害的共54306幅農(nóng)作物病害圖像,證明了深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型可以同時(shí)識(shí)別多類農(nóng)作物病蟲害的圖像數(shù)據(jù);Lü等[4]基于Alex Net網(wǎng)絡(luò),使用批量歸一化、PRelu激活函數(shù)等提高網(wǎng)絡(luò)收斂性,避免過擬合,并結(jié)合使用了拓展卷積和多尺度卷積以提高網(wǎng)絡(luò)特征提取能力,證明對(duì)特征增強(qiáng)的算法可以有效地提高網(wǎng)絡(luò)對(duì)特征的提取能力,提升識(shí)別準(zhǔn)確率;Pandian等[5]利用基于圖像處理和深度學(xué)習(xí)的圖像增強(qiáng)技術(shù)對(duì)農(nóng)作物病害數(shù)據(jù)集進(jìn)行增強(qiáng),并通過使用利用遷移學(xué)習(xí)技術(shù)的對(duì)抗生成網(wǎng)絡(luò)和神經(jīng)樣式轉(zhuǎn)移對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充和增強(qiáng),試驗(yàn)結(jié)果表明,使用這種增強(qiáng)方式的數(shù)據(jù)集可以獲得更高準(zhǔn)確率;Zeng等[6]利用深度卷積生成對(duì)抗網(wǎng)絡(luò)將原始訓(xùn)練數(shù)據(jù)集增加了2倍,采用Inception_v3模型進(jìn)行識(shí)別,平均準(zhǔn)確率為92.60%,比利用原始訓(xùn)練數(shù)據(jù)集訓(xùn)練的識(shí)別準(zhǔn)確率提高近20%,證明了使用深度卷積生成對(duì)抗網(wǎng)絡(luò)生成的數(shù)據(jù)集具有更加明顯的特征;項(xiàng)小東等[7]基于Xception,提出一種采用帶有通道分配權(quán)重的多尺度深度卷積與組卷積結(jié)合的通道擴(kuò)增模塊,并且對(duì)網(wǎng)絡(luò)結(jié)構(gòu)采取了通道擴(kuò)張—保持—再擴(kuò)張—壓縮的策略,引入密集連接方式,對(duì)10種農(nóng)作物的50類病害圖像進(jìn)行分類,試驗(yàn)證明這種對(duì)通道權(quán)重進(jìn)行重分配的方式可以在特征提取上有更好的效果;王美華等[8]通過對(duì)CBAM注意力機(jī)制的改進(jìn),將通道注意力和空間注意力原本的串聯(lián)連接改為了并聯(lián)連接,并通過試驗(yàn)證明了并聯(lián)的連接方式可以對(duì)農(nóng)作物病蟲害細(xì)粒度分類產(chǎn)生更高的準(zhǔn)確率。
深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的高速發(fā)展與應(yīng)用為農(nóng)作物病蟲害識(shí)別帶來了新的解決問題的方式。近年來GANs的廣泛流行為研究學(xué)者提供了新的解決問題的思路[9]。漸進(jìn)式生成對(duì)抗網(wǎng)絡(luò)(Progressive Growing of GANs,ProGAN)[10]作為較為成熟的GANs[11],相較于之前的GANs,可以生成更高質(zhì)量的圖像,且訓(xùn)練過程趨于穩(wěn)定。因?yàn)槠浞€(wěn)定的訓(xùn)練過程和對(duì)圖像特征的學(xué)習(xí)能力,本文以ProGAN判別器采用圖像像素級(jí)別的識(shí)別方法[12]進(jìn)行農(nóng)作物病害分類,通過對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整,使用像素級(jí)別的特征向量歸一化以及卷積注意力模塊(Convolutional Block Attention Module,CBAM)[13]對(duì)ProGAN判別器進(jìn)行優(yōu)化,主要針對(duì)農(nóng)作物病蟲害數(shù)據(jù)集子類別類間差異小、類內(nèi)差異大的特點(diǎn)進(jìn)行研究,本文使用弱監(jiān)督細(xì)粒度圖像算法[14],設(shè)計(jì)CPDM網(wǎng)絡(luò)模型對(duì)農(nóng)作物病蟲害進(jìn)行細(xì)粒度分類。
1 試驗(yàn)材料與方法
1.1 數(shù)據(jù)預(yù)處理
本文使用的圖像數(shù)據(jù)集為PlantVillage農(nóng)作物病蟲害數(shù)據(jù)集,其中包括蘋果、葡萄、小麥、馬鈴薯等14種作物共38個(gè)病害類別共有54 303張健康和病害圖片。部分農(nóng)作物病蟲害數(shù)據(jù)集圖像及標(biāo)簽如圖1所示。
為能夠更好地訓(xùn)練模型,防止過擬合,提高網(wǎng)絡(luò)模型的魯棒性,通過數(shù)據(jù)增強(qiáng)策略擴(kuò)充數(shù)據(jù)集。首先對(duì)數(shù)據(jù)圖像進(jìn)行訓(xùn)練集和測試集的劃分,按照8∶2的比例劃分為訓(xùn)練集和測試集,之后對(duì)訓(xùn)練集數(shù)據(jù)圖像采取水平鏡像操作,擴(kuò)充到81 454張圖片,作為擴(kuò)充后的訓(xùn)練集。最后對(duì)數(shù)據(jù)圖像的分辨率大小進(jìn)行重構(gòu),統(tǒng)一為256×256分辨率大小,之后按照均值和標(biāo)準(zhǔn)差來標(biāo)準(zhǔn)化圖像。
1.2 研究方法
1.2.1 漸進(jìn)式生成對(duì)抗網(wǎng)絡(luò)
漸進(jìn)式生成對(duì)抗網(wǎng)絡(luò)(ProGAN)作為較為成熟的GAN網(wǎng)絡(luò),其主要思想為漸進(jìn)式,即對(duì)數(shù)據(jù)圖像進(jìn)行從低分辨率圖像逐漸增長到高分辨率圖像的特征學(xué)習(xí)。ProGAN的實(shí)驗(yàn)原理是在生成器生成相應(yīng)分辨率的圖片后,判別器會(huì)搭建相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)生成圖片進(jìn)行判斷。以1 024×1 024分辨率圖片為例,ProGAN判別器結(jié)構(gòu)如表1所示。
其中WE_Conv為經(jīng)過初始化權(quán)重的卷積層,LRelu為LeakyRelu激活函數(shù)[15],Downsample為下采樣,Avg_Pool為均值池化。通過均衡學(xué)習(xí)率[16]來保證每個(gè)權(quán)重都有相同的動(dòng)態(tài)范圍,公式如式(1)所示。
Wf=Wi×2k×k×θ(1)
式中:Wf——該層通道權(quán)重;Wi——初始化權(quán)重;k——該層卷積核分辨率;θ——該層歸一化常數(shù)。
通過這種方法,確保所有權(quán)重?fù)碛邢嗤膭?dòng)態(tài)范圍和學(xué)習(xí)率。
ProGAN在生成器訓(xùn)練過程中摒棄了批標(biāo)準(zhǔn)化,而是采用一種像素級(jí)別的特征向量歸一化來對(duì)圖像進(jìn)行像素歸一化。為了避免生成器和判別器中的像素幅度由于競爭而失控,在每個(gè)卷積層之后將每個(gè)像素在生成器中的特征向量規(guī)范化為統(tǒng)一的長度,因此使用局部響應(yīng)規(guī)范化,公式如式(2)所示。
bx,y=ax,y1M∑M-1j=0(ajx,y)2+ε(2)
式中:M——特征映射通道數(shù);a、b——圖像在x、y位置時(shí)的像素值;ε——恒值,ε為10-8。
基于像素級(jí)特征的特征向量歸一化可以有效地限制像素特征的幅度變化范圍,對(duì)像素級(jí)別的特征變化更加敏感,加深全局特征與局部特征的關(guān)聯(lián)性。
1.2.2 CBAM注意力機(jī)制
CBAM作為一種輕量的注意力模塊,考慮圖像特征的通道和空間之間的關(guān)聯(lián)性,可以在通道和空間維度上對(duì)輸入特征進(jìn)行權(quán)重的重分配,使神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中對(duì)圖像中對(duì)分類起到關(guān)鍵作用的像素區(qū)域分配較大的權(quán)重,對(duì)影響較低的像素區(qū)域分配較小的權(quán)重,從而可以忽略無關(guān)區(qū)域,添加到神經(jīng)網(wǎng)絡(luò)上可以使模型具有更好的性能和解釋性。CBAM包含兩個(gè)獨(dú)立的模塊,分別為通道注意力模塊和空間注意力模塊。其中通道注意力模塊關(guān)注輸入特征通道之間的關(guān)聯(lián),空間注意力模塊關(guān)注輸入特征像素空間內(nèi)的相關(guān)性。CBAM注意力機(jī)制結(jié)構(gòu)如圖2所示。
圖2中,SymbolEC@表示基于張量的加和操作,SymbolDC@表示特征之間的加權(quán)運(yùn)算。特征圖像通過CBAM注意力機(jī)制的處理后,加深新得到的特征圖像的通道特征和空間特征的聯(lián)系,能夠有效地提高網(wǎng)絡(luò)特征提取的能力。
1.2.3 CPDM網(wǎng)絡(luò)模型
考慮試驗(yàn)的實(shí)際情況,對(duì)農(nóng)作物病害進(jìn)行分類不需要從低分辨率到高分辨率漸進(jìn)式地學(xué)習(xí)特征,這種漸進(jìn)式的學(xué)習(xí)只會(huì)增加網(wǎng)絡(luò)參數(shù),不能在圖像分類方面產(chǎn)生較好的效果,因此舍棄生成器,直接使用判別器進(jìn)行農(nóng)作物病蟲害圖片的特征學(xué)習(xí)與分類??紤]到試驗(yàn)數(shù)據(jù)集PlantVillage中所有圖片分辨率被統(tǒng)一為256像素×256像素,對(duì)原判別器進(jìn)行改動(dòng)。
使用CBAM注意力機(jī)制、均衡學(xué)習(xí)率和像素級(jí)別的特征向量歸一化來完成對(duì)特征圖像像素空間的注意力分配、重分配的過程,不斷地更新像素空間特征的權(quán)重,即通過CBAM注意力對(duì)通道特征和空間特征權(quán)重的重分配后,使用均衡學(xué)習(xí)率對(duì)特征圖像的空間特征進(jìn)行權(quán)重動(dòng)態(tài)范圍的更新,并對(duì)每個(gè)卷積層的輸出特征圖像進(jìn)行像素級(jí)別的特征向量歸一化。
CPDM網(wǎng)絡(luò)模型整體結(jié)構(gòu)如圖3所示,根據(jù)原ProGAN判別器結(jié)構(gòu),圖片輸入后會(huì)分別進(jìn)入兩個(gè)網(wǎng)絡(luò)分支進(jìn)行訓(xùn)練,圖3中網(wǎng)絡(luò)左分支對(duì)數(shù)據(jù)圖像進(jìn)行卷積操作,網(wǎng)絡(luò)右分支則進(jìn)行下采樣操作(Downsample),最后由淡入(Fade In)操作對(duì)特征圖像進(jìn)行點(diǎn)加操作,如式(3)所示。
F=α×Lnew+(1-α)×Downsample(Lold)(3)
式中:F——淡入后特征圖像;α——當(dāng)前網(wǎng)絡(luò)層的權(quán)重;Lnew——網(wǎng)絡(luò)左分支訓(xùn)練得到的新的特征圖像;Lold——輸入數(shù)據(jù)圖像。
α設(shè)置為默認(rèn)值0.2。為避免參數(shù)混淆,將下采樣Downsample中的平均池化操作改為最大池化操作。
由圖3可見,為能夠加快網(wǎng)絡(luò)收斂,提升梯度下降的效果,同時(shí)防止過擬合并提高網(wǎng)絡(luò)模型的魯棒性,特征圖像在淡入操作后會(huì)進(jìn)行批量歸一化(Batch Normalization)操作[17]。
為能夠更好地突出CBAM注意力機(jī)制對(duì)像素級(jí)權(quán)重的分配表現(xiàn),本文使用搭載了均衡學(xué)習(xí)率的WEConv和普通的卷積層與像素級(jí)特征向量歸一化共同搭建了一個(gè)卷積模塊Conv_Block,其結(jié)構(gòu)如圖4所示,特征圖像在經(jīng)過WEConv后,通過LeakyRelu激活函數(shù),進(jìn)行第一次像素級(jí)的特征向量歸一化,之后通過卷積層Conv,再進(jìn)行一次像素級(jí)的特征向量歸一化,以達(dá)到網(wǎng)絡(luò)反向傳播時(shí)可以更好地初始化卷積層權(quán)重的目的。并將WE_Conv卷積層的卷積核尺寸改為1×1[18, 19],保留了特征圖的像素信息的同時(shí)進(jìn)行升維,擴(kuò)充網(wǎng)絡(luò)通道,有效地減少了網(wǎng)絡(luò)參數(shù)。
為能夠進(jìn)一步提高網(wǎng)絡(luò)反向傳播時(shí)對(duì)權(quán)重的分配能力,本文在集成的卷積網(wǎng)絡(luò)層Conv_Block_List中,在每一個(gè)Conv_Block前面添加了CBAM注意力機(jī)制,以提高網(wǎng)絡(luò)對(duì)權(quán)重的分配,為了避免參數(shù)混淆,將平均池化(Average Pooling)改為最大池化(Max Pooling),如圖5所示,按照這種結(jié)構(gòu)共搭建5個(gè)網(wǎng)絡(luò)層,加強(qiáng)對(duì)數(shù)據(jù)圖像像素級(jí)特征的提取能力。
特征圖像在經(jīng)過Conv_Block_List后,經(jīng)由小批量標(biāo)準(zhǔn)偏差(Minibatch Standard Deviation),通過計(jì)算小批量上像素空間上的特征的標(biāo)準(zhǔn)差后,對(duì)所有的標(biāo)準(zhǔn)差值進(jìn)行平均得到一個(gè)值,并將該值連接到每一個(gè)小批量的空間特征上,從而產(chǎn)生了一個(gè)額外的特征圖像。為了底層神經(jīng)網(wǎng)絡(luò)可以更好地提取特征,最后輸出特征圖保留特征維度為4×4。以試驗(yàn)圖像數(shù)據(jù)分辨率為256像素×256像素為標(biāo)準(zhǔn),詳細(xì)的CPDM網(wǎng)絡(luò)結(jié)構(gòu)及操作如表2所示。
2 試驗(yàn)結(jié)果分析
2.1 試驗(yàn)環(huán)境
試驗(yàn)環(huán)境使用Python3.6,深度學(xué)習(xí)框架Pytorch10.2,Cuda10.2,操作系統(tǒng)為Windows10。CPU為Intel(R) Core(TM) i7-7820X CPU @ 3.60 GHz,GPU為NVIDIA GeForce RTX 2070,顯存8 GB。在模型訓(xùn)練環(huán)節(jié),以每批次8張圖像為基準(zhǔn),選取隨機(jī)批次的圖像進(jìn)行訓(xùn)練,共訓(xùn)練20次。選取優(yōu)化器為隨機(jī)梯度下降優(yōu)化算法,損失函數(shù)為交叉熵?fù)p失函數(shù)。學(xué)習(xí)率為0.001。
2.2 評(píng)價(jià)標(biāo)準(zhǔn)與損失函數(shù)
本文選擇TOP-1準(zhǔn)確率作為試驗(yàn)部分的評(píng)價(jià)標(biāo)準(zhǔn)。TOP-1準(zhǔn)確率將會(huì)根據(jù)神經(jīng)網(wǎng)絡(luò)輸出的特征向量,選取特征向量中得分最高的類別與真實(shí)類別進(jìn)行判斷,如果相等則為真,否則為否,最后對(duì)每個(gè)類別樣本進(jìn)行統(tǒng)計(jì),輸出每個(gè)類別的準(zhǔn)確率。
本文選擇交叉熵函數(shù)作為CPDM網(wǎng)絡(luò)模型訓(xùn)練的損失函數(shù)。交叉熵函數(shù)通常用來對(duì)比兩個(gè)分布的異同程度,應(yīng)用在深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練中可以衡量真實(shí)數(shù)據(jù)概率分布和預(yù)測數(shù)據(jù)概率分布的異同。一般來說,得到的交叉熵值越小,則訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)收斂性越好,神經(jīng)網(wǎng)絡(luò)的預(yù)測性能越高。交叉熵?fù)p失函數(shù)的公式如式(4)所示。
Loss=-1N∑i∑Cc=1yiclog(pic)(4)
式中:Loss——損失值;N——樣本總數(shù);C——類別總數(shù);yic——第i個(gè)樣本類別c的標(biāo)簽;pic——第i個(gè)樣本類別c的概率。
2.3 結(jié)果與分析
原ProGAN判別器模型的應(yīng)用在于對(duì)生成器生成圖像的真?zhèn)闻袛?,由于本文使用的圖像數(shù)據(jù)集中的圖片的分辨率統(tǒng)一為256像素×256像素,所以為了能讓原ProGAN判別器模型適用于試驗(yàn)數(shù)據(jù)集,對(duì)其進(jìn)行了網(wǎng)絡(luò)結(jié)構(gòu)上的調(diào)整,通過對(duì)卷積層和下采樣的刪減,確保最后全連接層的輸出格式大小不變,改變其全連接層輸出通道為38,以適應(yīng)農(nóng)作物病蟲害分類問題。使用本文提出的CPDM網(wǎng)絡(luò)模型與原ProGAN判別器模型,在農(nóng)作物病蟲害數(shù)據(jù)集PlantVillage上分別進(jìn)行訓(xùn)練,得到TOP-1準(zhǔn)確率以及損失值并進(jìn)行對(duì)比,以證明CPDM在農(nóng)作物病蟲害分類上的可行性。
由圖6、圖7可見,本文提出的CPDM模型比較原ProGAN判別器更適合對(duì)圖像進(jìn)行分類,CPDM網(wǎng)絡(luò)模型在農(nóng)作物病蟲害分類上的表現(xiàn)明顯優(yōu)于原ProGAN判別器網(wǎng)絡(luò)模型。CPDM網(wǎng)絡(luò)模型在第5次訓(xùn)練中就可以達(dá)到95%的TOP-1準(zhǔn)確率,并開始逐漸擬合。而原ProGAN判別器模型在訓(xùn)練結(jié)束20次后,TOP-1準(zhǔn)確率僅可達(dá)42%,且訓(xùn)練梯度較低,擬合過程較慢。由此證明了改進(jìn)后的ProGAN判別器模型的可行性。
為進(jìn)一步驗(yàn)證CPDM網(wǎng)絡(luò)模型的可行性,本文使用VGG16、VGG19[20]、ResNet18[21]與CPDM網(wǎng)絡(luò)模型進(jìn)行對(duì)比試驗(yàn)。在農(nóng)作物病蟲害數(shù)據(jù)集PlantVillage上分別進(jìn)行訓(xùn)練,得到TOP-1準(zhǔn)確率和損失值并進(jìn)行對(duì)比,同時(shí)證明CPDM網(wǎng)絡(luò)模型的優(yōu)越性。
從圖8可以看出,CPDM網(wǎng)絡(luò)模型確實(shí)保持了一定的優(yōu)越性。
第一次訓(xùn)練過程,CPDM網(wǎng)絡(luò)模型表現(xiàn)優(yōu)于VGG16和VGG19,差于ResNet18,TOP-1準(zhǔn)確率可達(dá)67.6%,優(yōu)于VGG16和VGG19的50.9%和58.5%TOP-1準(zhǔn)確率,比ResNet18的76.9%TOP-1準(zhǔn)確率相差9.3%。但是從第三次訓(xùn)練過程后,CPDM網(wǎng)絡(luò)模型的TOP-1準(zhǔn)確率開始超過ResNet18,TOP-1準(zhǔn)確率可以達(dá)到91.5%,比ResNet18的88.9%TOP-1準(zhǔn)確率高了2.6%。并且在之后的訓(xùn)練過程中,CPDM網(wǎng)絡(luò)模型基本可以保持對(duì)ResNet18、VGG16和VGG19在TOP-1準(zhǔn)確率上的領(lǐng)先。
結(jié)合圖9可以看出,CPDM網(wǎng)絡(luò)模型的損失值曲線下降明顯。雖然第一次訓(xùn)練過程得到的損失值高于ResNet18,但是CPDM網(wǎng)絡(luò)模型損失值下降的梯度較優(yōu),對(duì)隨機(jī)梯度下降的適應(yīng)要優(yōu)于ResNet18,損失值下降較快,且相較于ResNet18的損失值曲線更加穩(wěn)定,網(wǎng)絡(luò)的魯棒性較優(yōu)。以此證明了CPDM網(wǎng)絡(luò)模型的優(yōu)越性。
2.4 參數(shù)分析
為進(jìn)一步證明CPDM網(wǎng)絡(luò)模型的優(yōu)越性,本文使用VGG16、VGG19、ResNet18和原ProGAN判別器模型與CPDM網(wǎng)絡(luò)模型進(jìn)行參數(shù)對(duì)比。原ProGAN判別器的參數(shù)有23.1 M,由于本文根據(jù)圖像數(shù)據(jù)分辨率對(duì)其結(jié)構(gòu)進(jìn)行了調(diào)整,使其網(wǎng)絡(luò)參數(shù)量下降為20.7 M。網(wǎng)絡(luò)參數(shù)對(duì)比結(jié)果如表3所示。
由表4可知,VGG19的TOP-1準(zhǔn)確率比VGG16提高了0.15%,其中的原因和VGG19的網(wǎng)絡(luò)參數(shù)量比VGG16多有關(guān),而本文試驗(yàn)設(shè)計(jì)的CPDM網(wǎng)絡(luò)模型在網(wǎng)絡(luò)參數(shù)上,比原ProGAN判別器的參數(shù)量減少了60%,與VGG16和VGG19高達(dá)134.4 M和139.7 M的參數(shù)量相比,減少的較明顯。本文對(duì)比試驗(yàn)重點(diǎn)是與ResNet18的比較,在TOP-1準(zhǔn)確率的比較上,CPDM網(wǎng)絡(luò)模型比ResNet18高0.2%;但是在參數(shù)量的比較上,CPDM的參數(shù)量要比ResNet18減少3 M。試驗(yàn)證明,CPDM網(wǎng)絡(luò)模型在保證準(zhǔn)確率的基礎(chǔ)上,有效控制網(wǎng)絡(luò)參數(shù)計(jì)算量的目的。
3 結(jié)論
1) 本文通過對(duì)ProGAN在農(nóng)作物病蟲害分類問題上的可行性分析,因其優(yōu)越的特征學(xué)習(xí)和穩(wěn)定的訓(xùn)練過程,選取ProGAN判別器模型進(jìn)行農(nóng)作物病蟲害分類,設(shè)計(jì)了CPDM網(wǎng)絡(luò)模型。通過均衡學(xué)習(xí)率配合使用CBAM注意力機(jī)制,并使用像素級(jí)特征向量歸一化的方式對(duì)特征權(quán)重進(jìn)行重分配。并針對(duì)其網(wǎng)絡(luò)結(jié)構(gòu),通過增加1×1卷積,改變卷積層,調(diào)整全連接層,降低通道數(shù)量的方式調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),減少網(wǎng)絡(luò)參數(shù)量。并與VGG16、VGG19、ResNet18和原ProGAN判別器模型進(jìn)行對(duì)比試驗(yàn)。
2) 通過試驗(yàn),驗(yàn)證了均衡學(xué)習(xí)率、CBAM注意力機(jī)制和像素級(jí)特征向量歸一化結(jié)合使用對(duì)模型性能的實(shí)際提升能力。特征圖在經(jīng)過CBAM注意力機(jī)制和像素級(jí)特征向量歸一化后,可以有效地提升通道特征和空間特征的相關(guān)性,提升了對(duì)有效特征的提取能力。配合使用均衡學(xué)習(xí)率,可以使神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)更加穩(wěn)定。
3) ?通過試驗(yàn)對(duì)比,CPDM網(wǎng)絡(luò)模型可以在PlantVillage農(nóng)作物病蟲害數(shù)據(jù)集上達(dá)到99.06%的TOP-1準(zhǔn)確率,且CPDM網(wǎng)絡(luò)模型總參數(shù)量8.2 M,實(shí)際參數(shù)大小為32.84 MB。與VGG16、VGG19和ResNet18進(jìn)行對(duì)比,驗(yàn)證了本文設(shè)計(jì)的CPDM網(wǎng)絡(luò)模型整體性能更優(yōu)。試驗(yàn)證明,CPDM網(wǎng)絡(luò)模型實(shí)現(xiàn)了在獲得較高識(shí)別準(zhǔn)確率的同時(shí),減少網(wǎng)絡(luò)參數(shù)計(jì)算量的目的。
參 考 文 獻(xiàn)
[1]Barbedo J. Factors influencing the use of deep learning for plant disease recognition [J]. Biosystems Engineering, 2018, 172: 84-91.
[2]翟肇裕, 曹益飛, 徐煥良, 等. 農(nóng)作物病蟲害識(shí)別關(guān)鍵技術(shù)研究綜述[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2021, 52(7): 1-18.Zhai Zhaoyu, Cao Yifei, Xu Huanliang, et al. Review of key techniques for crop disease and pest detection [J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(7): 1-18.
[3]Mohanty S P, Hughes D P, Salathe M. Using deep learning for image-based plant disease detection [J]. Frontiers in Plant Science, 2016, 7.
[4]Lü M, Zhou G, He M, et al. Maize leaf disease identification based on feature enhancement and DMS-Robust Alexnet [J]. IEEE Access, 2020, 8: 57952-57966.
[5]Pandian J A, Geetharamani G, Annette B. Data augmentation on plant leaf disease image dataset using image manipulation and deep learning techniques [C]. 2019 IEEE 9th International Conference on Advanced Computing (IACC). IEEE, 2019: 199-204.
[6]Zeng Q, Ma X, Cheng B, et al. Gans-based data augmentation for citrus disease severity detection using deep learning [J]. IEEE Access, 2020, 8: 172882-172891.
[7]項(xiàng)小東, 翟蔚, 黃言態(tài), 等. 基于Xception-CEMs神經(jīng)網(wǎng)絡(luò)的植物病害識(shí)別[J]. 中國農(nóng)機(jī)化學(xué)報(bào), 2021, 42(8): 177-186.Xiang Xiaodong, Zhai Wei, Huang Yantai, et al. Plant disease recognition based on Xception-CEMs neural network [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(8): 177-186.
[8]王美華, 吳振鑫, 周祖光. 基于注意力改進(jìn)CBAM的農(nóng)作物病蟲害細(xì)粒度識(shí)別研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2021, 52(4): 239-247.Wang Meihua, Wu Zhenxin, Zhou Zuguang. Fine-grained identification of crop pests and diseases based on improved CBAM via attention [J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(4): 239-247.
[9]賈少鵬, 高紅菊, 杭瀟. 基于深度學(xué)習(xí)的農(nóng)作物病蟲害圖像識(shí)別技術(shù)研究進(jìn)展[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2019, 50(S1): 313-317.Jia Shaopeng, Gao Hongju, Hang Xiao. Research progress on image recognition technology of crop pests and diseases based on deep learning [J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(S1): 313-317.
[10]Karras T, Aila T, Laine S, et al. Progressive growing of gans for improved quality, stability, and variation [J]. arXiv Preprint arXiv: 1710.10196, 2017.
[11]Creswell A, White T, Dumoulin V, et al. Generative adversarial networks: An overview [J]. IEEE Signal Processing Magazine, 2018, 35(1): 53-65.
[12]金耀, 徐陽, 韓飛楊, 等. 基于深度學(xué)習(xí)語義分割的橋梁病害圖像像素級(jí)識(shí)別方法[J]. 公路交通科技(應(yīng)用技術(shù)版), 2020, 16(1): 183-188.Jin Yao, Xu Yang, Han Feiyang, et al. Pixel-level recognition method for bridge disease images based on deep learning semantic segmentation [J]. Journal of Highway and Transportation Research and Development (Application Technology Edition), 2020, 16(1): 183-188.
[13]Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module [C]. Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[14]羅建豪, 吳建鑫. 基于深度卷積特征的細(xì)粒度圖像分類研究綜述[J]. 自動(dòng)化學(xué)報(bào), 2017, 43(8): 1306-1318.Luo Jianhao, Wu Jianxin. A survey on fine-grained image categorization using deep convolutional features [J]. Acta Automatica Sinica, 2017, 43(8): 1306-1318.
[15]Demir A, Yilmaz F. Inception-ResNet-v2 with LeakyReLU and average pooling for more reliable and accurate classification of chest X-ray images [C]. 2020 Medical Technologies Congress (TIPTEKNO). IEEE, 2020: 1-4.
[16]He K, Zhang X, Ren S, et al. Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification [C]. Proceedings of the IEEE International Conference on Computer Vision, 2015: 1026-1034.
[17]Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift [C]. International Conference on Machine Learning. PMLR, 2015: 448-456.
[18]Lin M, Chen Q, Yan S. Network in network [J]. arXiv Preprint arXiv: 1312.4400, 2013.
[19]Szegedy C, Liu W, Jia Y, et al.Going deeper with convolutions [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.
[20]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [J]. Computer Science, 2014.
[21]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
基金項(xiàng)目:廣西科技計(jì)劃項(xiàng)目(桂科AD16380059);廣西自然科學(xué)基金項(xiàng)目(2018GXNSFAA281235)
第一作者:鄧昀,男,1980年生,廣西桂林人,碩士,教授;研究方向?yàn)榍度胧脚c物聯(lián)網(wǎng)、數(shù)據(jù)分析、圖像分類。E-mail: 574359451@qq.com
通訊作者:康燕萍,女,1987年生,廣西桂林人,碩士,實(shí)驗(yàn)師;研究方向?yàn)槲锫?lián)網(wǎng)、數(shù)據(jù)分析。E-mail: 460843302@qq.com