徐艷蕾,孔朔琳,陳清源,高志遠(yuǎn),李陳孝
基于Transformer的強(qiáng)泛化蘋果葉片病害識(shí)別模型
徐艷蕾,孔朔琳,陳清源,高志遠(yuǎn),李陳孝※
(吉林農(nóng)業(yè)大學(xué)信息技術(shù)學(xué)院,長春 130118)
模型泛化能力是病害識(shí)別模型多場景應(yīng)用的關(guān)鍵,該研究針對不同環(huán)境下的蘋果葉片病害數(shù)據(jù),提出一種可以提取多類型特征的強(qiáng)泛化蘋果葉片病害識(shí)別模型CaTNet。該模型采用雙分支結(jié)構(gòu),首先設(shè)計(jì)了一種卷積神經(jīng)網(wǎng)絡(luò)分支,負(fù)責(zé)提取蘋果葉片圖像的局部特征,其次構(gòu)建了具有擠壓和擴(kuò)充功能的視覺Transformer分支,該分支能夠提取蘋果葉片圖像的全局特征,最后將兩種特征進(jìn)行融合,使Transformer分支可以學(xué)習(xí)局部特征,使卷積神經(jīng)網(wǎng)絡(luò)分支學(xué)習(xí)全局特征。與多種卷積神經(jīng)網(wǎng)絡(luò)模型和Transformer模型相比,該模型具有更好的泛化能力,僅需學(xué)習(xí)實(shí)驗(yàn)室環(huán)境葉片數(shù)據(jù),即可在自然環(huán)境數(shù)據(jù)下達(dá)到80%的識(shí)別精度,相較卷積神經(jīng)網(wǎng)絡(luò)EfficientNetV2的72.14%精度和Transformer網(wǎng)絡(luò)PVT的52.72%精度均有較大提升,能夠有效提升對不同環(huán)境數(shù)據(jù)的識(shí)別精度,解決了深度學(xué)習(xí)模型訓(xùn)練成本高,泛化能力弱的問題。
圖像識(shí)別; 農(nóng)業(yè);卷積神經(jīng)網(wǎng)絡(luò);蘋果葉片病害;Transformer模型;強(qiáng)泛化性;特征融合
蘋果是重要的農(nóng)業(yè)經(jīng)濟(jì)作物,具有很高的營養(yǎng)價(jià)值和經(jīng)濟(jì)價(jià)值。然而,蘋果葉片極易感染銹病、炭疽病等病害,導(dǎo)致蘋果產(chǎn)量和質(zhì)量嚴(yán)重下降。因此,對蘋果病害的高效、精準(zhǔn)識(shí)別是防治蘋果病害的關(guān)鍵。
近年來,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)的蘋果病害識(shí)別成為代替人工識(shí)別和傳統(tǒng)機(jī)器學(xué)習(xí)識(shí)別的方法。很多研究人員針對蘋果葉片的實(shí)驗(yàn)室數(shù)據(jù)進(jìn)行了相應(yīng)的研究,取得了較好的識(shí)別結(jié)果。郝菁等[1]以4種蘋果葉片病害圖像作為研究對象,對Resnet 50、Mobilenet v2、Vgg16、Vgg19、Inception v3進(jìn)行遷移學(xué)習(xí),其中識(shí)別效果最佳的模型正確率達(dá)97.40%。Zhong等[2]在DenseNet-121網(wǎng)絡(luò)的基礎(chǔ)上,分別使用Focal損失函數(shù)、邏輯回歸和多標(biāo)簽分類方法對不平衡的蘋果葉片病害進(jìn)行識(shí)別,達(dá)到93.51%、93.31%和93.71%識(shí)別準(zhǔn)確率。劉斌等[3]以Inception- ResNet V2為基礎(chǔ)模型,引入CBAM模塊和焦點(diǎn)損失函數(shù),實(shí)現(xiàn)蘋果黑星病和銹病程度90.82%的平均識(shí)別精準(zhǔn)度。
這些研究雖然識(shí)別準(zhǔn)確率高,但不適合應(yīng)用在實(shí)際生產(chǎn)中。針對復(fù)雜自然環(huán)境下的蘋果病害識(shí)別,很多研究人員也進(jìn)行了深入的研究。Singh等[4]提出一種僅有8層深度的CNN網(wǎng)絡(luò),以田間拍攝的兩種蘋果病害葉片圖像作為試驗(yàn)數(shù)據(jù),獲得99.2%的準(zhǔn)確率。Chao等[5]以SENet為基礎(chǔ),設(shè)計(jì)出的SE-DEEPBlock與Xception模型結(jié)合,在復(fù)雜背景的蘋果葉片病害上得到99.40%的識(shí)別準(zhǔn)確率。Li等[6]使用NAS搜索算法設(shè)計(jì)出輕量CNN網(wǎng)絡(luò)RegNet,在具有復(fù)雜背景的蘋果葉片病害上實(shí)現(xiàn)了99.23%的識(shí)別準(zhǔn)確率。Fu等[7]使用多尺度模塊、空洞卷積對AlexNet進(jìn)行輕量化改進(jìn),并應(yīng)用于五類復(fù)雜背景的蘋果葉片病害識(shí)別任務(wù)中,獲得97.36%的準(zhǔn)確率。
以上研究無論是針對實(shí)驗(yàn)室數(shù)據(jù)還是自然環(huán)境數(shù)據(jù),識(shí)別準(zhǔn)確率都很高,然而很多研究證明以數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)模型在訓(xùn)練與識(shí)別數(shù)據(jù)為不同地點(diǎn)的圖像時(shí),會(huì)造成模型識(shí)別精度的衰退。Mohanty等[8]發(fā)現(xiàn),使用卷積神經(jīng)網(wǎng)絡(luò)GoogLeNet模型分類病害圖像,能獲得99.34%的極高準(zhǔn)確率,但對不同條件下拍攝的圖像進(jìn)行識(shí)別時(shí),模型的準(zhǔn)確性大幅降低,僅略高于31%。Ferentinos等[9]使用PlantVillage數(shù)據(jù)和自然環(huán)境數(shù)據(jù),分別對模型進(jìn)行訓(xùn)練,試驗(yàn)表明AlexNetOWTBn與VGG模型使用實(shí)驗(yàn)室條件圖像進(jìn)行訓(xùn)練并識(shí)別自然圖像時(shí)準(zhǔn)確度僅為32.23%和33.27%。因此,目前迫切需要研究一種泛化性強(qiáng)的深度學(xué)習(xí)模型,對不同背景、不同采集地點(diǎn)的蘋果葉片病害都能夠進(jìn)行高效精準(zhǔn)的識(shí)別。
最近,受Transformer模型在自然語言處理領(lǐng)域成功應(yīng)用的啟發(fā),Dosovitskiy等[10]提出一種適用于計(jì)算機(jī)視覺的Transformer模型ViT。該模型是一種提取全局特征的非局部(Non-local)模型[11],在不使用卷積核的情況下能夠達(dá)到極高的識(shí)別精度,并且具有較強(qiáng)泛化能力[12-14]。此外,該模型在圖像上加入了可學(xué)習(xí)的位置信息,解決了CNN中沒有可用的空間信息[15]以及在圖像中融入不同的紋理會(huì)導(dǎo)致CNN識(shí)別出現(xiàn)極大偏差[16]的問題,相較于CNN模型,ViT模型具有更好的穩(wěn)健性。PVT模型[17]是對ViT模型的進(jìn)一步改進(jìn),通過卷積的方式,以卷積核的尺寸控制數(shù)據(jù)塊的尺寸,降低了Transformer模型的計(jì)算量。此外,Transformer模型具有更高的魯棒精度,更科學(xué)的特征學(xué)習(xí)方式[18-20]。視覺Transformer模型作為一種Non-local模型,雖然依靠弱偏置歸納、易并行結(jié)構(gòu)成為計(jì)算機(jī)視覺(Computational Vision)領(lǐng)域中的新熱點(diǎn),但目前并沒有研究證明全局信息絕對優(yōu)于局部信息。并且因?yàn)門ransformer模型幾乎沒有偏置歸納,導(dǎo)致在小數(shù)據(jù)上有著更高的過擬合風(fēng)險(xiǎn)以及訓(xùn)練成本高的問題[21]。
為了提升深度學(xué)習(xí)模型泛化能力,使蘋果病害識(shí)別模型可以在更多場景達(dá)到較高識(shí)別精準(zhǔn)度。該研究以5中蘋果葉片為研究對象,從多尺度特征融合模型得到啟發(fā)[22-24],將CNN和Transformer模型進(jìn)行改進(jìn)并結(jié)合,設(shè)計(jì)了一種通過雙分支結(jié)構(gòu)提取全局特征和局部特征的強(qiáng)泛化深度學(xué)習(xí)模型CaTNet。該研究有效降低了深度學(xué)習(xí)模型訓(xùn)練成本,為設(shè)計(jì)泛化能力強(qiáng)的深度學(xué)習(xí)模型提供了思路。
為驗(yàn)證模型的泛化能力,不僅需要簡單背景的實(shí)驗(yàn)室數(shù)據(jù)還需要復(fù)雜背景的自然數(shù)據(jù)。該研究數(shù)據(jù)集由3個(gè)公開數(shù)據(jù)具和自建數(shù)據(jù)構(gòu)成,涉及蘋果健康葉片、銹病、炭疽病、斑點(diǎn)落葉病和花葉病,公開數(shù)據(jù)集來自PlantVillage[25]、Plant pathology[26]、Ai Studio[27]。自建數(shù)據(jù)集為自然環(huán)境與實(shí)驗(yàn)室數(shù)據(jù)混合的5種蘋果葉片病害數(shù)據(jù)。其中自然環(huán)境數(shù)據(jù)拍攝于吉林省延邊朝鮮族自治州安圖縣蘋果園。首先,在自然環(huán)境中直接拍攝蘋果葉片獲取自然環(huán)境蘋果葉片數(shù)據(jù)。其次,采摘各類別蘋果葉片,放置于實(shí)驗(yàn)室桌面上,葉片下鋪墊白色PVC板進(jìn)行拍攝。拍攝工具為智能手機(jī),型號為Oneplus8pro,共拍攝973張RGB圖像,圖像像素3 000×3 000。PlantVillage數(shù)據(jù)集為多種作物病害實(shí)驗(yàn)室數(shù)據(jù),該研究采用PlantVillage數(shù)據(jù)集中蘋果健康葉片和炭疽病葉片圖像數(shù)據(jù)。Plant pathology數(shù)據(jù)集為4種蘋果葉片病害自然環(huán)境數(shù)據(jù),Ai Studio數(shù)據(jù)集為自然環(huán)境與實(shí)驗(yàn)室數(shù)據(jù)混合的5種蘋果葉片病害數(shù)據(jù)。為更客觀驗(yàn)證模型泛化能力,該研究數(shù)據(jù)集中,除了使用自建數(shù)據(jù)中實(shí)驗(yàn)室數(shù)據(jù)構(gòu)建訓(xùn)練數(shù)據(jù)集,使用自然環(huán)境數(shù)據(jù)構(gòu)建測試數(shù)據(jù)集。還在健康葉片訓(xùn)練數(shù)據(jù)中加入PlantVillage數(shù)據(jù),測試數(shù)據(jù)中加入Plant pathology數(shù)據(jù);在銹病訓(xùn)練數(shù)據(jù)中加入Ai Studio數(shù)據(jù),測試數(shù)據(jù)中加入Plant pathology數(shù)據(jù);在炭疽病訓(xùn)練數(shù)據(jù)中加入PlantVillage數(shù)據(jù),測試數(shù)據(jù)中加入Plant pathology自然環(huán)境數(shù)據(jù);在斑點(diǎn)落葉病的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)中加入Ai Studio數(shù)據(jù);在花葉病訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)中加入Ai Studio數(shù)據(jù)。蘋果葉片病害數(shù)據(jù)集中,部分實(shí)驗(yàn)室數(shù)據(jù)如圖1a所示,部分自然數(shù)據(jù)如圖1b所示。從圖中可以看出,不同條件下的蘋果葉片圖像中,蘋果葉片擺放姿態(tài)不同,特征差異較大,證明以該數(shù)據(jù)集為訓(xùn)練數(shù)據(jù)將有效證明模型泛化能力。
圖1 蘋果葉片病害圖像
經(jīng)過整理后的每類病害以及數(shù)據(jù)來源和數(shù)據(jù)量如表 1所示,其中銹病、斑點(diǎn)落葉病和花葉病數(shù)據(jù)過多,炭疽病數(shù)據(jù)過少。數(shù)據(jù)不平衡會(huì)導(dǎo)致模型對稀疏樣本識(shí)別能力下降,因此該研究對數(shù)據(jù)進(jìn)行預(yù)處理來平衡各數(shù)據(jù)數(shù)量,提高模型識(shí)別精度。
表1 蘋果葉片數(shù)據(jù)詳細(xì)信息
首先對圖像數(shù)據(jù)尺寸統(tǒng)一至224×224像素。其次對取自Ai Studio數(shù)據(jù)集的銹病訓(xùn)練數(shù)據(jù),斑點(diǎn)落葉病測試數(shù)據(jù),花葉病測試數(shù)據(jù)中部分相似圖像進(jìn)行刪減。然后,對炭疽病和健康葉片數(shù)據(jù)進(jìn)行擴(kuò)充,擴(kuò)充操作為隨機(jī)色彩抖動(dòng)和添加噪點(diǎn)。最后,對自然環(huán)境數(shù)據(jù)進(jìn)行裁剪,保留大部分病害特征,減少復(fù)雜背景面積。通過對數(shù)據(jù)的預(yù)處理得到最終數(shù)據(jù)集,總共15 567張RGB圖像數(shù)據(jù)。蘋果葉片數(shù)據(jù)信息如表1所示,其中訓(xùn)練數(shù)據(jù)均為實(shí)驗(yàn)室數(shù)據(jù),測試數(shù)據(jù)均為自然環(huán)境數(shù)據(jù),訓(xùn)練集數(shù)據(jù)處理后總量達(dá)12 567張,測試集數(shù)據(jù)處理后總量達(dá)3 728張,訓(xùn)練集與測試集比約7∶3。
CaTNet模型由CNN分支和Transformer分支構(gòu)成,兩分支輸出的特征進(jìn)行融合促使深度學(xué)習(xí)模型同時(shí)關(guān)注全局與局部特征,增強(qiáng)了模型的泛化能力,而且CNN網(wǎng)絡(luò)解決了Transformer網(wǎng)絡(luò)計(jì)算速度慢,計(jì)算量大的問題。CaTNet模型結(jié)構(gòu)如圖2所示,其主體結(jié)構(gòu)由多個(gè)Block、降采樣、自適應(yīng)池化和全連接層構(gòu)成。Block由CNN分支與Transformer分支組成。CNN分支中包含多個(gè)CNN塊,CNN塊由深度卷積層和點(diǎn)卷積層構(gòu)成。其中深度卷積層由尺寸3×3大小,分組數(shù)為輸入特征圖通道數(shù)的卷積核、批歸一化和激活函數(shù)構(gòu)成。點(diǎn)卷積層由尺寸1×1大小的卷積核、批歸一化、激活函數(shù)構(gòu)成。兩分支通過融合操作將特征進(jìn)行融合,在輸入下一個(gè)Block前進(jìn)行降采樣減少特征圖尺寸,因此模型具有特征金字塔結(jié)構(gòu)。最后一個(gè)Block將不再進(jìn)行降采樣操作,經(jīng)過融合的特征將直接輸入1×1自適應(yīng)池化層,然后輸入全連接層得到蘋果葉片圖像的病害類型。
注:Block為多個(gè)CaTNet Block堆疊結(jié)構(gòu),Conv(Ks=3 G=Input)表示以卷積核大小為3×3,分組數(shù)為輸入通道的卷積層(Convolution),其中Ks為卷積核大?。↘ernel size),G為分組數(shù)(Group),Conv(Ks=1)表示以卷積核大小為1×1的卷積層,BN表示批歸一化層,ReLU表示ReLU激活函數(shù),F(xiàn)ull connection layer表示全連接層,Multi-head attention layer表示多頭注意力層。
CaTNet模型不同層中特征圖尺寸、分支中塊的重復(fù)次數(shù)和不同分支間融合方式如表2所示,模型在Block1-4采用維度融合(Concat),在Block5采用數(shù)值融合(Add)。維度融合利于雙分支學(xué)習(xí)不同特征,數(shù)值融合利于分類操作。CNN分支與Transformer分支中塊的重復(fù)次數(shù)相同,如表2中塊重復(fù)次數(shù)所示。
表2 CaTNet網(wǎng)絡(luò)參數(shù)
為了解決上述問題,提高Transformer模型計(jì)算速度,降低訓(xùn)練成本,本文首先對Transformer分支進(jìn)行改進(jìn),其次對分支中Transformer塊(TR塊)進(jìn)行改進(jìn)。
針對Transformer分支部分,本文設(shè)計(jì)出一種具有擠壓功能的擠壓模塊,將輸入特征圖通道維度進(jìn)行縮減,擠壓模塊由卷積層、歸一化層構(gòu)成,卷積層由1×1大小的卷積核組成,使用卷積對通道維度進(jìn)行縮減,將盡可能避免因通道維度縮減導(dǎo)致的信息流失,解決Softmax激活函數(shù)易造成顯存溢出的問題。其次,在Transformer分支最后添加了通道擴(kuò)充模塊,對通道維度進(jìn)行擴(kuò)充,與來自卷積神經(jīng)網(wǎng)絡(luò)分支的特征圖通道維度匹配。擴(kuò)充模塊與擠壓模塊結(jié)構(gòu)相似,通過卷積層對特征通道維度進(jìn)行擴(kuò)充,在歸一化操作后使用激活函數(shù)ReLU6對特征進(jìn)行非線性化處理。ReLU6相較ReLU激活函數(shù),最大輸出值為6,對多數(shù)以Float16作為計(jì)算單位的移動(dòng)設(shè)備更加友好,模型更易于移植到小型移動(dòng)設(shè)備上。具有通道擠壓和通道擴(kuò)充模塊的Transformer分支結(jié)構(gòu)如圖3所示,其中TR塊為Transformer模型。
圖3 CaTNet中Transformer分支結(jié)構(gòu)
針對Transformer塊部分,Transformer模型結(jié)構(gòu)過于復(fù)雜,本文對Transformer分支中每個(gè)負(fù)責(zé)提取全局信息的TR塊進(jìn)行優(yōu)化。首先對Transformer模型結(jié)構(gòu)進(jìn)行優(yōu)化,僅使用一個(gè)多頭注意力和兩個(gè)全連接神經(jīng)網(wǎng)絡(luò)搭建,大幅簡化傳統(tǒng)Transformer模型,確保Transformer塊僅提取序列數(shù)據(jù)間的序列關(guān)系特征。其次,使用全連接網(wǎng)絡(luò)替換傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)。TR塊結(jié)構(gòu)如圖4所示,首先將數(shù)據(jù)輸入全連接層得到、和向量,然后進(jìn)入多頭注意力層得到全局特征,之后將特征輸入全連接神經(jīng)網(wǎng)絡(luò)得到最終序列特征。在全連接網(wǎng)絡(luò)后添加Dropout層對低權(quán)重神經(jīng)元進(jìn)行刪減,降低Transformer模型在小數(shù)據(jù)上的過擬合風(fēng)險(xiǎn)。
圖4 Transformer塊結(jié)構(gòu)
Transformer分支中設(shè)定的參數(shù)也會(huì)影響模型的性能與訓(xùn)練成本。為了保持Transformer分支提取全局信息的能力并提高計(jì)算速度,本文設(shè)置序列數(shù)據(jù)為特征圖尺寸的1/8,多頭注意力中頭初始數(shù)量設(shè)置為2并從第二個(gè)Block后每次增加2,從而保證模型具有較高計(jì)算精度的同時(shí),盡可能減少模型算力消耗。Transformer分支中,每個(gè)Transformer模塊中頭的數(shù)量,序列數(shù)據(jù)尺寸以及通過通道縮減模塊后輸出的通道數(shù)如表3所示。
表3 Transformer分支在各Block中輸入的超參數(shù)
目前多數(shù)CNN網(wǎng)絡(luò)如MobileNet系列[28-30],EfficientNet系列[31-32]均以輕量化為前提對網(wǎng)絡(luò)進(jìn)行設(shè)計(jì),為匹配計(jì)算量較大的Transformer分支并提供局部特征,該研究同樣以輕量化為前提設(shè)計(jì)CaTNet的CNN分支。CNN分支中由多個(gè)CNN塊構(gòu)成,CNN塊結(jié)構(gòu)如圖 5所示,由深度卷積層、歸一化、激活函數(shù)和點(diǎn)卷積層構(gòu)成。相較多種CNN網(wǎng)絡(luò),本文首先在深度卷積層同時(shí)進(jìn)行特證信息擴(kuò)充和局部特證信息提取,避免計(jì)算冗余。其次,點(diǎn)卷積層并未對通道數(shù)進(jìn)行縮減,避免了信息的流失,提高特征信息流動(dòng)性。最后將輸出數(shù)據(jù)和輸入該塊的原始數(shù)據(jù)進(jìn)行相加,構(gòu)成短路連接并輸入激活函數(shù),使模型學(xué)習(xí)不同層次特征,解決網(wǎng)絡(luò)退化問題。
圖5 CaTNet中CNN塊結(jié)構(gòu)
降采樣使得深度學(xué)習(xí)模型具有金字塔結(jié)構(gòu),幫助深度學(xué)習(xí)模型提取不同尺寸的特征信息,提高模型性能,擴(kuò)大模型應(yīng)用場景。過去,深度學(xué)習(xí)模型多以不可學(xué)習(xí)的最大池化和平均池化操作進(jìn)行降采樣[33-34]。隨著CNN模型的發(fā)展,模型開始使用卷積核進(jìn)行降采樣。CaTNet模型中Transformer模型負(fù)責(zé)提取全局信息,如果使用卷積核進(jìn)行降采樣操作,存在破壞全局特征的可能。由于目前沒有研究證明卷積核對全局特征具有破壞性,因此該研究針對CaTNet模型的每個(gè)Block中的降采樣層,設(shè)計(jì)了多種使用不同降采樣操作的CaTNet模型變體,并在后續(xù)(3.3節(jié))進(jìn)行大量試驗(yàn)充分驗(yàn)證各種降采樣層對全局特征的影響。
這些變體分別是,使用3×3尺寸卷積核進(jìn)行降采樣的CaTNet(conv)模型,使用1×1尺寸卷積核進(jìn)行降采樣的CaTNet(pconv)模型,使用最大池化進(jìn)行降采樣的CaTNet(mp)模型,使用平均池化進(jìn)行降采樣的CaTNet(ap)模型。
試驗(yàn)基于Pytorch1.9.1深度學(xué)習(xí)框架和Python3.9.0搭建,使用TitanX GPU對模型進(jìn)行訓(xùn)練。在訓(xùn)練過程中,使用SGD優(yōu)化器[35]更新模型參數(shù),使用交叉熵?fù)p失函數(shù)計(jì)算模型輸出與真實(shí)值的差異,SGD優(yōu)化器學(xué)習(xí)率每10輪訓(xùn)練衰退0.1倍,計(jì)算動(dòng)量0.7。模型共經(jīng)歷40輪訓(xùn)練,每批次輸入16張圖片。
該研究使用準(zhǔn)確率(Accuracy),F(xiàn)1值(F1score),精準(zhǔn)率(Precision, P)和召回率(Recall, R)衡量模型識(shí)別性能。準(zhǔn)確率計(jì)算如式(4)所示。TP(True Positive)為正確分類的正樣本數(shù),TN(True Negative)為正確分類為負(fù)樣本數(shù),F(xiàn)P(False Positive)為錯(cuò)誤分類的正樣本數(shù),F(xiàn)N(False Negative)為錯(cuò)誤分類的負(fù)樣本數(shù)。訓(xùn)練準(zhǔn)確率為使用實(shí)驗(yàn)室數(shù)據(jù)對模型訓(xùn)練得到的準(zhǔn)確率,測試準(zhǔn)確率為模型對自然環(huán)境數(shù)據(jù)識(shí)別得到的準(zhǔn)確率。F1值均衡了精準(zhǔn)率與召回率,同時(shí)使用F1值和準(zhǔn)確率可以更客觀地衡量模型性能,F(xiàn)1值計(jì)算如式(5)所示。為了避免出現(xiàn)F1值相差較小導(dǎo)致無法衡量模型性能的情況發(fā)生,該研究還使用精準(zhǔn)率和召回率對模型進(jìn)行評價(jià)。精準(zhǔn)率代表預(yù)測為正的結(jié)果中,有多少是真實(shí)為正,如式(6)所示。召回率代表模型對正樣本預(yù)測效果,即預(yù)測了多少真實(shí)為正,如式(7)所示。
使用不同池化操作的CaTNet模型各變體在實(shí)驗(yàn)室數(shù)據(jù)(訓(xùn)練)與自然數(shù)據(jù)(測試)的準(zhǔn)確率如表4所示。可以看出,所有模型在實(shí)驗(yàn)室數(shù)據(jù)下都達(dá)到理想準(zhǔn)確率,約99%。但各模型在自然數(shù)據(jù)下的識(shí)別效果參差不齊。CaTNet(ap)與CaTNet(mp)模型識(shí)別準(zhǔn)確率達(dá)近80%,遠(yuǎn)大于使用卷積進(jìn)行降采樣的CaTNet(conv)與CaTNet(pconv)模型74.06%與67.95%的準(zhǔn)確率,這證明了使用卷積核進(jìn)行降采樣對特征具有一定的破壞性,導(dǎo)致模型精度下降。
表4 不同降采樣的CaTNet訓(xùn)練結(jié)果
CaTNet模型4種變體的F1值、精準(zhǔn)率和召回率,如表5所示。其中,使用卷積核進(jìn)行降采樣的CaTNet(conv)和CaTNet(pconv)模型在4種病害及健康葉片的F1值均低于使用池化進(jìn)行降采樣的CaTNet(mp)和CaTNet(ap)模型,進(jìn)一步證明使用卷積核進(jìn)行降采樣會(huì)降低模型識(shí)別精度。其次,使用最大池化的CaTNet(mp)模型雖然在健康葉片,炭疽病獲得78.52%和71.96%的F1值,高于CaTNet(ap)模型但相差不大。CaTNet(mp)模型在銹病、炭疽病和斑點(diǎn)落葉病的精準(zhǔn)率為90.41%、70.96%和72.16%,對比CaTNet(ap)模型精確率更高,說明CaTNet(mp)模型判定為這3類病害中真正為這3類病害的比重更大,可信度更高。此外CaTNet(ap)模型在銹病,炭疽病,斑點(diǎn)落葉病和花葉病的召回率為82.21%、75.30%、89.15%和63.97%,對比CaTNet(mp)模型召回率更高,證明CaTNet(ap)模型可以將更多上述3類病害圖像識(shí)別出來,對正例的查全能力更強(qiáng)。
表5 CaTNet各模型在5種葉片類型的識(shí)別F1、精準(zhǔn)率和召回率
CaTNet模型4種變體訓(xùn)練過程中,模型每個(gè)步長的準(zhǔn)確率曲線(Accuracy)和損失值曲線(Loss)如圖6所示。圖6a、6b為使用4種降采樣的CaTNet變體模型在實(shí)驗(yàn)室數(shù)據(jù)中40次迭代下的準(zhǔn)確率與損失曲線,圖6c、6d為這些變體對自然環(huán)境數(shù)據(jù)進(jìn)行識(shí)別得到的準(zhǔn)確率與損失曲線。結(jié)合這些信息可以發(fā)現(xiàn),這些變體在實(shí)驗(yàn)室數(shù)據(jù)下,不論是準(zhǔn)確率曲線還是損失曲線都非常平滑,但這些模型在實(shí)際自然數(shù)據(jù)上的識(shí)別準(zhǔn)確率與損失曲線卻有著較大波動(dòng),說明雖然在數(shù)值上各模型在實(shí)驗(yàn)室數(shù)據(jù)上已經(jīng)達(dá)到擬合,但實(shí)際上,這些模型經(jīng)過每一次迭代后,所學(xué)習(xí)的具體特征有著較大差距。
CaTNet變體模型中,使用平均池化進(jìn)行降采樣的CaTNet(ap)模型準(zhǔn)確率和損失曲線相對其余3種模型更加平滑,如圖6a、6b所示。此外,CaTNet(ap)模型相較CaTNet(mp)召回率更高,在實(shí)際作業(yè)中較高的召回率還有助于模型進(jìn)行檢測與分割等任務(wù),因此選擇CaTNet(ap)模型進(jìn)行后續(xù)試驗(yàn)。
a. 實(shí)驗(yàn)室數(shù)據(jù)準(zhǔn)確率曲線a. Accuracy curve of laboratory datab. 實(shí)驗(yàn)室數(shù)據(jù)損失曲線b. Loss curve of laboratory datac. 自然環(huán)境數(shù)據(jù)準(zhǔn)確率曲線c. Accuracy curve of natural datad. 自然環(huán)境數(shù)據(jù)損失曲線d. Loss curve of natural data
為驗(yàn)證CaTNet模型有效性,該研究選擇CNN模型和Transformer模型同時(shí)與CaTNet(ap)模型進(jìn)行對比,其中CNN模型包括EfficientNetV2、ResNext[36]、ShuffleNetV2[37]。Transformer模型包括ViT與PVT。各模型訓(xùn)練指標(biāo)如表6所示,所有模型在實(shí)驗(yàn)室數(shù)據(jù)上的表現(xiàn)較好,均能達(dá)到98%以上。而對自然數(shù)據(jù)的測試準(zhǔn)確率中,本文設(shè)計(jì)的CaTNet(ap)模型的自然數(shù)據(jù)測試準(zhǔn)確率達(dá)到79.35%,F(xiàn)1值達(dá)到78.33%,遠(yuǎn)遠(yuǎn)高于其他模型。
表6 多種模型蘋果葉片病害識(shí)別結(jié)果
從計(jì)算速度上看,CaTNet(ap)計(jì)算單張圖片時(shí)間為0.108 2 s,僅慢于ShuffleNetV2 0.5和ShuffleNetV2 1.0。但ShuffleNetV2為單分支網(wǎng)絡(luò),并且測試準(zhǔn)確率極低(58.77%),因此證明了CaTNet(ap)模型很好的平衡了計(jì)算效率和計(jì)算精度。相較CNN中精度最高的EfficientNetV2 s 模型計(jì)算速度更快,證明并行的雙分支結(jié)構(gòu)可以在更短時(shí)間內(nèi)調(diào)動(dòng)更多神經(jīng)元進(jìn)行計(jì)算,具有高效計(jì)算能力的模型能夠適用于更多場景,極大地拓寬了深度學(xué)習(xí)的使用范圍。
從該表中還可以發(fā)現(xiàn),CNN模型在自然數(shù)據(jù)準(zhǔn)確率普遍比Transformer模型高,CNN模型中表現(xiàn)最佳的EfficientNetV2 s準(zhǔn)確率為72.14%,F(xiàn)1值為73.76%,大幅超越Transformer模型中表現(xiàn)最佳的PVT m模型,驗(yàn)證了Transformer模型在小數(shù)據(jù)集中不易提取正確信息特征,而使用雙分支結(jié)構(gòu)的CaTNet模型解決了CNN的泛化能力弱和Transformer模型在小數(shù)據(jù)集表現(xiàn)不佳的問題。
為了進(jìn)一步對比CNN模型、Transformer模型和CaTNet模型的性能,該研究對CaTNet(ap)、EfficientNetV2 s、ResNext50、ShuffleNetV2 1.0、ViT和PVT m模型的準(zhǔn)確率和損失曲線進(jìn)行對比,結(jié)果如圖7所示。由圖7a、7b中各模型在實(shí)驗(yàn)室數(shù)據(jù)準(zhǔn)確率、損失曲線可以看出,這些模型的訓(xùn)練曲線非常平滑,且都在最后達(dá)到了擬合。而對自然數(shù)據(jù)進(jìn)行識(shí)別的準(zhǔn)確度曲線,如圖7d、7c所示,CNN模型(EfficientNetV2 s,ResNext50,ShuffleNetV2 1.0)與Transformer模型(ViT,PVT m)有較大不同。相對CNN模型,Transformer模型的自然數(shù)據(jù)曲線不論是準(zhǔn)確率還是損失曲線,都隨著訓(xùn)練趨近平滑,即模型對特征的提取穩(wěn)定,但由于Transformer弱偏置歸納的缺點(diǎn)導(dǎo)致其準(zhǔn)確率較低,損失較高,并產(chǎn)生了過擬合現(xiàn)象。而CNN模型,包括本文設(shè)計(jì)的CaTNet(ap)模型,它們的自然數(shù)據(jù)準(zhǔn)確率和損失曲線在后期都有一定程度的振蕩,但CaTNet(ap)曲線相對兩種CNN模型更平滑,沒有出現(xiàn)每輪學(xué)習(xí)后,模型準(zhǔn)確率值變化較大的情況。這證明通過Transformer分支提取全局特征有效的緩解了CNN分支中局部特征造成的特征偏離,使CaTNet(ap)模型的精度相較CNN模型和Transformer模型更高。同時(shí)CaTNet(ap)模型的CNN分支也使CaTNet模型獲得偏置歸納能力,有效解決了Transformer模型在小數(shù)據(jù)集上識(shí)別精度低,易過擬合的缺點(diǎn)。
a. 實(shí)驗(yàn)室數(shù)據(jù)準(zhǔn)確率曲線a. Accuracy curve of laboratory datab. 實(shí)驗(yàn)室數(shù)據(jù)損失曲線b. Loss curve of laboratory datac. 自然環(huán)境數(shù)據(jù)準(zhǔn)確率曲線c. Accuracy curve of natural datad. 自然環(huán)境數(shù)據(jù)損失曲線d. Loss curve of natural data
為驗(yàn)證該研究提出模型CaTNet先進(jìn)性,本文首先和對作物葉片病害識(shí)別模型泛化能力的研究進(jìn)行對比。由于各研究試驗(yàn)所用硬件環(huán)境不同,為了更客觀地對比各研究中給出的計(jì)算速度,本文對各研究中給出的目標(biāo)模型計(jì)算速度進(jìn)行標(biāo)準(zhǔn)化,即使用對比研究中給出的某一易復(fù)現(xiàn)的模型,計(jì)算出該模型在本文環(huán)境下的計(jì)算速度S并記錄該模型在對比研究中計(jì)算的速度S。之后通過二者的比值與需要對比的模型計(jì)算速度S相乘,得到對比模型在本文實(shí)驗(yàn)環(huán)境中的近似計(jì)算速度,標(biāo)準(zhǔn)化速度計(jì)算過程如式(8)所示。
如表7所示,本文提出的CaTNet(ap)測試準(zhǔn)確率為79.35%,相較Mohanty等[8]、Ferentinos等[9]測試準(zhǔn)確率(31%,32.23%,33.27%)有極大提升,計(jì)算速度相較Ferentinos等[9]研究中使用的模型計(jì)算速度更快。
表7 作物病害識(shí)別模型泛化能力對比
其次,目前多數(shù)蘋果葉片病害識(shí)別研究,使用的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集為同源數(shù)據(jù)。為了進(jìn)一步驗(yàn)證模型先進(jìn)性,和同源數(shù)據(jù)病害識(shí)別研究進(jìn)行對比,本文對CaTNet模型重新進(jìn)行了訓(xùn)練。與針對實(shí)驗(yàn)室數(shù)據(jù)研究進(jìn)行對比中,本文使用1.1節(jié)中采集的實(shí)驗(yàn)室數(shù)據(jù)數(shù)據(jù)對模型進(jìn)行訓(xùn)練。與針對自然環(huán)境數(shù)據(jù)研究進(jìn)行對比中,使用本文采集的自然環(huán)境數(shù)據(jù)對模型進(jìn)行訓(xùn)練。這些試驗(yàn)中所用數(shù)據(jù)以7∶3比例進(jìn)行訓(xùn)練并測試數(shù)據(jù)集劃分并進(jìn)行2倍隨機(jī)角度旋轉(zhuǎn)擴(kuò)充。
表8中的各項(xiàng)研究數(shù)據(jù)可以看出,本文模型在實(shí)驗(yàn)室環(huán)境數(shù)據(jù)與自然環(huán)境數(shù)據(jù)上的準(zhǔn)確率均高于其他6種研究,相較Fu等[7]以輕量化為主題的模型計(jì)算速度更快,充分證明了CaTNet模型先進(jìn)性。
表8 多種蘋果葉片病害模型對比
本文基于CNN模型與Transformer模型,研究開發(fā)了可以增強(qiáng)模型泛化能力的雙分支深度學(xué)習(xí)模型CaTNet,并用于對蘋果健康和患病的葉片圖像進(jìn)行識(shí)別。通過對降采樣層、CNN模型、Transformer模型以及模型結(jié)構(gòu)對模型的影響進(jìn)行了分析,并得出以下結(jié)論:
1)使用卷積進(jìn)行降采樣的CaTNet(conv)獲得74.06%測試準(zhǔn)確率,遠(yuǎn)低于使用池化進(jìn)行降采樣的CaTNet(ap)測試準(zhǔn)確率為79.35%,證明使用卷積進(jìn)行降采樣會(huì)破壞來自Transformer的全局特征信息。
2)CNN模型EfficientNetV2 s的測試準(zhǔn)確率為72.14%,遠(yuǎn)高于Transformer模型PVT m的52.72%,說明Transformer模型在小型數(shù)據(jù)集中更難擬合。
3)CaTNet(ap)獲得79.35%的測試準(zhǔn)確率,相較CNN模型72.14%和Transformer模型52.72%的測試準(zhǔn)確率大幅提升。相較文獻(xiàn)[8-9]的研究,準(zhǔn)確率從30%提升至79%,為提升模型泛化能力提供了更細(xì)致和科學(xué)的方法。
4)具有雙分支結(jié)構(gòu)的CaTNet模型雖然集成了兩套模型,但訓(xùn)練成本并未增加,計(jì)算速度0.108 2 s/幀,證明本文提出的雙分支結(jié)構(gòu)以及各種優(yōu)化方法可以降低訓(xùn)練成本,提高神經(jīng)元利用效率。
[1] 郝菁,賈宗維. 基于圖像識(shí)別的蘋果葉片病害識(shí)別模型對比研究[J]. 中國農(nóng)學(xué)通報(bào),2022,38(12):153-158.
Hao Qing, Jia Zongwei. Comparative study on apple leaf disease identification models based on image recognition[J]. Chinese Agricultural Science Bulletin, 2022, 38(12): 153-158. (in Chinese with English abstract)
[2] Zhong Y, Zhao M. Research on deep learning in apple leaf disease recognition[J]. Computers and Electronics in Agriculture, 2020, 168: 105146.
[3] 劉斌,徐皓瑋,李承澤,等. 基于快照集成卷積神經(jīng)網(wǎng)絡(luò)的蘋果葉部病害程度識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(6):286-294.
Liu Bin, Xu Haowei, Li Chengze, et al. Identification of apple leaf disease degree based on snapshot integrated convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Machinery, 2022, 53(6): 286-294. (in Chinese with English abstract)
[4] Singh S, Gupta I, Gupta S, et al. Deep learning based automated detection of diseases from apple leaf images[J]. CMC-Computers, Materials & Continua, 2022, 71(1): 1849-1866.
[5] Chao F, Hu X, Feng Z, et al. Construction of apple leaf diseases identification networks based on xception fused by SE module[J]. Applied Sciences, 2021, 11(10): 4614.
[6] Li L, Zhang J, Wang B. Apple leaf disease identification with a small and Imbalanced dataset based on lightweight convolutional networks[J]. Sensors, 2021, 22(1): 173.
[7] Fu L, Li S, Sun Y, et al. Lightweight-convolutional neural network for apple leaf disease identification[J]. Frontiers in Plant Science, 2022, 13: 831219.
[8] Mohanty S P, Hughes D P, Salathé M. Using deep learning for image-based plant disease detection[J]. Frontiers in Plant Science, 2016, 7: 1419.
[9] Ferentinos K P. Deep learning models for plant disease detection and diagnosis[J]. Computers and electronics in agriculture, 2018, 145: 311-318.
[10] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[EB/OL]. (2020-06-03)[2022-04-18]. org/abs/2010. 11929.
[11] Wang L, Girshick R B, Gupta A, et al. Non-local neural networks[EB/OL]. (2018-04-13)[2022-04-18]. https://arxiv. org/abs/1711. 07971.
[12] Zhang C, Zhang M, Zhang S, et al. Delving deep into the generalization of vision transformers under distribution shifts[C]/IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans: IEEE, 2022: 7277-7286.
[13] Fang Y, Liao B, Wang X, et al. You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection[EB/OL]. (2021-10-27)[2022-04-18]. https://arxiv. org/abs/2106. 00666.
[14] Nasser M, Ranasinghe K, Khan S, et al. Intriguing Properties of Vision Transformers[EB/OL]. (2021-3-21)[2022-04-18]. https://arxiv.org/abs/2105. 10497.
[15] Sabour S, Frosst N, Hinton G E. Dynamic routing between capsules[J]. Advances in Neural Information Processing Systems, 2017, 30: 3859-3869.
[16] Geirhos R, Rubisch P, Michaelis C, et al. ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness[EB/OL]. (2019-01-14)[2022-04-18]. https://arxiv.org/abs/1811. 12231.
[17] Wang H, Xie E, Fan P, et al. Pyramid vision Transformer: A versatile backbone for dense prediction without convolutions[C]//International Conference on Computer Vision (ICCV). Online: IEEE, 2021: 568-578.
[18] 賈偉寬,孟虎,馬曉慧,等. 基于優(yōu)化Transformer網(wǎng)絡(luò)的綠色目標(biāo)果實(shí)高效檢測模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(14):163-170.
Jia Weikuan, Meng Hu, Ma Xiaohui, et al. Efficient detection model of green target fruit based on optimized Transformer network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(14): 163-170. (in Chinese with English abstract)
[19] Tuli S, Dasgupta I, Grant E, et al. Are Convolutional Neural Networks or Transformers more like human vision?[EB/OL]. (2021-07-01)[2022-04-18]. https://arxiv.org/abs/2105. 07197.
[20] Landau B, Smith L B, Jones S. Syntactic context and the shape bias in children's and adults' lexical learning[J]. Journal of Memory and Language, 1992, 31(6): 807-825.
[21] Lin Y, Wang X, Liu Y, et al. A survey of Transformers[EB/OL]. (2021-06-15)[2022-04-18]. https:// arxiv.org/abs/2106. 04554.
[22] Gong J, Shen H, Zhang M, et al. Highly Efficient 8-bit Low Precision Inference of Convolutional Neural Networks with Intelcaffe[M]. NewYork: IEEE, 2018.
[23] Wang F, Wang J, Li R, et al. T-CNN: Trilinear convolutional neural networks model for visual detection of plant diseases[J]. Computers and Electronics in Agriculture, 2021, 190: 106468.
[24] Gao M, Yang Y, Chen H, et al. A multiscale dual-branch feature fusion and attention network for hyperspectral images classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 8180-8192.
[25] Hughes D, Salathé M. An open access repository of images on plant health to enable the development of mobile disease diagnostics[EB/OL]. (2016-04-12)[2022-04-18]. https://arxiv. org/abs/1511. 08060.
[26] Thapa R, Snavely N, Belongie S, et al. The Plant Pathology 2020 challenge dataset to classify foliar disease of apples[EB/OL]. (2020-04-24)[2022-04-18]. https://arxiv.org/abs/2004. 11958.
[27] AiStudio. Pathological image of apple leaves[EB/OL]. (2019-11-17)[2022-04-18]. https: //aistudio. baidu. com/aistudio/datasetdetail/11591/0.
[28] 孫俊,朱偉棟,羅元秋,等. 基于改進(jìn)MobileNet-V2的田間農(nóng)作物葉片病害識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(22):161-169.
Sun Jun, Zhu Weidong, Luo Yuanqiu, et al. Recognizing the diseases of crop leaves in fields using improved Mobilenet-V2[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(22): 161-169. (in Chinese with English abstract)
[29] Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lack: IEEE, 2018: 4510-4520.
[30] Howard A, Sandler M, Chu G, et al. Searching for mobilenetv3[C]/IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE, 2019: 1314-1324.
[31] 甘雨,郭慶文,王春桃,等. 基于改進(jìn)EfficientNet模型的作物害蟲識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(1):203-211.
Gan Yu, Guo Qingwen, Wang Chuntao, et al. Recognizing crop pests using an improved EfficientNet model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(1): 203-211. (in Chinese with English abstract)
[32] Tan Mingxing, Le Q. Efficientnetv2: Smaller models and faster training[C]//International Conference on Machine Learning (ICML). Online: IMLS, 2021: 10096-10106.
[33] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014-09-04)[2022-04-18]. https: //arxiv. org/abs/1409. 1556.
[34] Krizhevsky A, Sutskever I, Hinton G E. Imagenet ilassification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25: 84-90.
[35] Bottou L. Stochastic Gradient Descent Tricks[M]. Berlin: Springer, 2012.
[36] 宋磊,李嶸,焦義濤,等. 基于ResNeXt單目深度估計(jì)的幼苗植株高度測量方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(3):155-163.
Song Lei, Li Rong, Jiao Yitao, et al. Method for measuring seedling height based on ResNeXt monocular depth estimation[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(3): 155-163. (in Chinese with English abstract)
[37] Ma N, Zhang X, Zheng H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//15th European Conference on Computer Vision (ECCV). Munich: Springer, 2018: 116-131.
Model for identifying strong generalization apple leaf disease using Transformer
Xu Yanlei, Kong Shuolin, Chen Qingyuan, Gao Zhiyuan, Li Chenxiao※
(,,130118,)
Apple diseases have pose a serious risk on the income of orchards in recent years. An accurate and rapid identification of apple diseases can be great benefit to better prevent and control diseases. Most effort has been made in the laboratory to train the identification model, due mainly to the limited condition for the deliberately infect apples in the real orchard. However, most models cannot fully meet the requirement of the disease detection in the large-scale production. In this study, a deep learning model (called CaTNet) was proposed to extract both the global and local information from the diseases of apple leaf. The image data of disease was collected from the apple orchards in the Jilin Province of China. A total of 16,464 images were obtained from the several publicly available datasets with the laboratory and natural environmental data collected from the field. Firstly, a model structure was constructed with both Transformer and convolutional neural network (CNN). Global and local information was extracted from the original images using the two branches. The strong generalization ability of the model was improved to learn a wider variety of features. Meanwhile, the global features were acquired to improve the resistance of the model to interference. Secondly, the Transformer block in the Transformer branch was optimized to make the structure simpler. In addition, a channel compression and expansion module was designed in the Transformer branch, in order to reduce the training cost of CaTNet for the less channel dimension of the input features. Afterwards, the multiple multilayer perceptrons were replaced by the grouped convolutional layers to further improve the computational speed of the model. Thirdly, the lightweight CNN branch was constructed with an inverse residual structure to fuse the point convolution of the expanded channels with the 3×3 convolution of the extracted information. The CNN branch was utilized to extract the local features of the image. As such, the model was more sensitive to the fine-grained features. Finally, the concat operation was implemented to fuse the different output of features from the two branches. After that, the CNN branch was selected to extract the local features from the global ones, whereas, the Transformer branch was extracted the global from the local. The multiple features to be cycled were also improved the generalization of the model. A comparison was made to clarify the effect of different down-sampling on the two-branch network. Specifically, an accuracy rate of 79.35%, 74.06% and 67.95% were obtained using pooling, 3×3 size convolution kernel, and 1×1 size convolution kernel for the down-sampling, respectively. The CaTNet model with two branches showed a computational speed of 0.108 2 s/Frame), which was faster than the various deep learning models, such as the EfficientNetV2 s (0.383 2 s/Frame) and PVT t (0.177 8 s/Frame). Consequently, the two-branch structure can be expected to accommodate more computation for the much higher computational speed. This finding can provide a design approach to build the deep learning models with the high generalization capability, particularly on the training with the high accuracy under only easily accessible data.
image identification;agriculture; convolutional neural networks; apple leaf disease; Transformer model; strong generalization ability; feature fusion
10.11975/j.issn.1002-6819.2022.16.022
TP391.4
A
1002-6819(2022)-16-0198-09
徐艷蕾,孔朔琳,陳清源,等. 基于Transformer的強(qiáng)泛化蘋果葉片病害識(shí)別模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(16):198-206.doi:10.11975/j.issn.1002-6819.2022.16.022 http://www.tcsae.org
Xu Yanlei, Kong Shuolin, Chen Qingyuan, et al. Model for identifying strong generalization apple leaf disease using Transformer[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(16): 198-206. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.16.022 http://www.tcsae.org
2022-04-18
2022-08-01
吉林省科技廳國際科技合作項(xiàng)目(20200801014GH);長春市科技局重點(diǎn)科技攻關(guān)項(xiàng)目(21ZGN28)
徐艷蕾,博士,教授,博士生導(dǎo)師,研究方向?yàn)檗r(nóng)業(yè)信息化。Email:yanleixu@jlau.edu.cn
李陳孝,博士,講師,碩士生導(dǎo)師,研究方向?yàn)橹悄軅鞲衅骷稗r(nóng)業(yè)信息化。Email: licx@jlau.edu.cn