劉敏,周麗
(1. 湖南科技職業(yè)學(xué)院軟件學(xué)院,長(zhǎng)沙市,410004; 2. 湖南農(nóng)業(yè)大學(xué)經(jīng)濟(jì)學(xué)院,長(zhǎng)沙市,410128)
蘋果具有較高的經(jīng)濟(jì)價(jià)值和營(yíng)養(yǎng)價(jià)值,種植面積和產(chǎn)量逐年增加。據(jù)估計(jì),2021年中國(guó)蘋果總產(chǎn)量達(dá)到4 597.34萬噸,同比2020年增長(zhǎng)了4.33%。在蘋果生長(zhǎng)過程中,葉片的病害是導(dǎo)致蘋果產(chǎn)量和質(zhì)量下降的主要因素。常見的蘋果葉片病害主要有花葉病、落葉病、霉心病、灰斑病等[1-2]。因此,及時(shí)準(zhǔn)確地檢測(cè)出這些蘋果病害,對(duì)于提高蘋果產(chǎn)量和質(zhì)量具有重要的意義。
現(xiàn)有的蘋果病害診斷方法主要依靠人工經(jīng)驗(yàn)進(jìn)行檢測(cè)[3-4],通過判斷葉片的各種顏色變化來實(shí)現(xiàn)病害的分類,此類方法雖然可以借助豐富的專家經(jīng)驗(yàn)進(jìn)行病蟲害的檢測(cè),然而主觀性較強(qiáng),效率低,成本高,極易錯(cuò)過最佳蘋果病害的控制期。近年來,隨著人工智能技術(shù)的快速發(fā)展,計(jì)算機(jī)技術(shù)在農(nóng)業(yè)圖像處理領(lǐng)域引起了眾多學(xué)者的廣泛關(guān)注[5-6]。研究者通過使用支持向量機(jī)、K-means聚類、隨機(jī)森林、集成學(xué)習(xí)、濾波分割等方法提高了對(duì)農(nóng)作物病害檢測(cè)的效率和準(zhǔn)確性,降低了模型對(duì)專家知識(shí)的依賴[7]。然而,傳統(tǒng)圖像處理方法極易受到環(huán)境因素的影響,使得提取的特征魯棒性不強(qiáng),在實(shí)際應(yīng)用中檢測(cè)效果不佳。
隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的成功應(yīng)用,特別是以卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等深度網(wǎng)絡(luò)的不斷完善[8-9],圖像檢測(cè)的實(shí)用性和魯棒性大幅提高。將深度學(xué)習(xí)引入農(nóng)業(yè)領(lǐng)域,開展農(nóng)作物病害的自動(dòng)檢測(cè),成為研究者關(guān)注的熱點(diǎn)課題。如于雪瑩等[10]針對(duì)蘋果病害數(shù)據(jù)樣本不足的問題,提出一種基于生成對(duì)抗網(wǎng)絡(luò)的蘋果病害葉片檢測(cè)模型,通過利用注意力機(jī)制改進(jìn)深度殘差網(wǎng)絡(luò),在提高蘋果病害圖像特征空間表達(dá)能力的同時(shí),降低了模型的參數(shù)量。Yan等[11]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的蘋果葉片霉心病、灰斑病和雪松蘋果銹病等類型的檢測(cè)模型,通過采用全局平均池化層代替Vgg-16網(wǎng)絡(luò)的全連接層,減少了模型參數(shù),并結(jié)合遷移學(xué)習(xí)緩解了現(xiàn)有模型檢測(cè)精度不高的問題。類似地,Yu等[12]提出一種基于改進(jìn)殘差網(wǎng)絡(luò)的蘋果葉片病害檢測(cè)方法。通過對(duì)卷積核進(jìn)行分解,減少殘差模塊的數(shù)量,從而達(dá)到降低檢測(cè)時(shí)間開銷的問題。Bi等[13]針對(duì)深度網(wǎng)絡(luò)模型參數(shù)量大,導(dǎo)致檢測(cè)時(shí)間開銷大的問題,提出一種基于輕量級(jí)的Mobile-Net葉片病害檢測(cè)模型,并在移動(dòng)端進(jìn)行了部署與測(cè)試。潘仁勇等[14]針對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)的蘋果葉片病害檢測(cè)模型收斂速度慢的問題,提出一種新的變形卷積網(wǎng)絡(luò),用于蘋果葉片的病害檢測(cè)任務(wù)中,通過在Plant Village數(shù)據(jù)集上驗(yàn)證了設(shè)計(jì)的合理性。
綜上,雖然上述基于深度學(xué)習(xí)模型的蘋果病害葉片檢測(cè)模型緩解了傳統(tǒng)基于機(jī)器學(xué)習(xí)或手工檢測(cè)模型的性能過度依賴專家知識(shí)的問題,但現(xiàn)有主流模型主要利用單一的卷積神經(jīng)網(wǎng)絡(luò)提取病害葉片圖像在空間維度上的全局特征,忽略了邊緣、紋理等局部細(xì)節(jié)特征,導(dǎo)致模型的檢測(cè)精度不高。為此,本文提出了一種基于多尺度特征融合注意力網(wǎng)絡(luò)的蘋果病害葉片檢測(cè)模型,旨在提高模型對(duì)病蟲害葉片的檢測(cè)性能。此外,通過改進(jìn)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),緩解現(xiàn)有深度模型參數(shù)量大,導(dǎo)致模型復(fù)雜度高的問題。
數(shù)據(jù)集來自“2008年人工智能挑戰(zhàn)者全球挑戰(zhàn)賽”官方開源的蘋果病害葉片檢測(cè)數(shù)據(jù)[11]。本文僅選擇數(shù)據(jù)集中的蘋果病害葉片檢測(cè)樣本,蘋果病害葉片的類型與對(duì)應(yīng)的樣本總數(shù)如表1所示。所有圖片的大小均被調(diào)整為3×224×224。經(jīng)過去重操作后,數(shù)據(jù)集總共包含24 602張圖片,并利用旋轉(zhuǎn)、濾鏡、裁剪等數(shù)據(jù)增強(qiáng)方法擴(kuò)展原始數(shù)據(jù)樣本為11 010張,并按照8∶2的比例劃分為訓(xùn)練集和測(cè)試集。圖1給出了部分蘋果病害葉片的案例。
(a) 健康葉片
表1 病害類型與對(duì)應(yīng)的樣本數(shù)量Tab. 1 Corresponding between number and disease classes
Vgg-16卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、檢測(cè)、目標(biāo)定位等各個(gè)領(lǐng)域得到了廣泛的應(yīng)用[15-16]。然而,標(biāo)準(zhǔn)的Vgg-16網(wǎng)絡(luò)涉及的模型參數(shù)量大,在實(shí)際應(yīng)用中收斂速度慢,訓(xùn)練時(shí)間長(zhǎng),不符合實(shí)際生活中對(duì)于實(shí)時(shí)性的高要求。受深度可分離卷積網(wǎng)絡(luò)在改進(jìn)深度卷積網(wǎng)絡(luò)中的成功應(yīng)用[17-18],本文利用圖2所示的深度可分離卷積代替?zhèn)鹘y(tǒng)標(biāo)準(zhǔn)卷積塊,通過將標(biāo)準(zhǔn)的深度Vgg-16網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積塊分解為多個(gè)深度卷積和逐點(diǎn)卷積,通過減少參數(shù)量來降低模型的時(shí)間開銷;其次,并利用改進(jìn)后的Vgg-16作為蘋果病害葉片圖片的全局特征提取器。改進(jìn)后的Vgg-16網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 改進(jìn)后的Vgg-16網(wǎng)絡(luò)結(jié)構(gòu)
如圖2所示,首先利用深度卷積網(wǎng)絡(luò)將蘋果的病害葉片圖片映射到深度特征空間S中,生成多張?zhí)卣鲌DFDC={F1,F2,…,Fm};然后,利用l個(gè)大小為κ×κ的卷積核將FDC沿通道方向進(jìn)行組合;最后,將組合后的特征圖作為逐點(diǎn)卷積網(wǎng)絡(luò)的輸入,即將FDC利用k個(gè)大小為1×1的卷積核進(jìn)行卷積運(yùn)算。Vgg-16網(wǎng)絡(luò)進(jìn)行全局特征提取的計(jì)算如式(1)所示。
Fg=VS{f(Ii)→h(FDC)}
(1)
式中:Fg——蘋果病害葉片圖片映射到深度特征空間的全局特征圖;
f(Ii)——深度可分離卷積操作;
h(FDC)——逐點(diǎn)卷積操作。
此外,相比標(biāo)準(zhǔn)Vgg-16卷積網(wǎng)絡(luò)的參數(shù)計(jì)算量,改進(jìn)后的Vgg-16模型參數(shù)的計(jì)算如式(2)和式(3)所示。
P1=κ×κ×l+l×k×1×1
(2)
(3)
式中:Pdsc——深度可分離卷積的參數(shù);
PVgg-16——Vgg的參數(shù)。
當(dāng)深度卷積網(wǎng)絡(luò)中卷積核的個(gè)數(shù)l較大時(shí),改進(jìn)后的Vgg-16網(wǎng)絡(luò)參數(shù)相當(dāng)于標(biāo)準(zhǔn)Vgg-16模型參數(shù)計(jì)算量的1/κ2。
雖然現(xiàn)有基于深度學(xué)習(xí)的蘋果病害葉片檢測(cè)模型從全局特征的角度實(shí)現(xiàn)了較好的檢測(cè)性能,然而,早期的病害區(qū)域小、斑點(diǎn)模糊,紋理不清晰,僅利用全局特征難以捕獲邊緣、紋理等細(xì)節(jié)特征。為此,本文在全局編碼的基礎(chǔ)上,利用Swin Transformer網(wǎng)絡(luò)提取蘋果病害葉片的局部特征。Swin Transformer編碼[19]結(jié)構(gòu)如圖3所示。
Swin Transformer局部特征提取模塊的核心包括窗口多頭自注意力(W-MSA)和偏移窗口多頭自注意力(SW-MSA)[20]。此處,引入偏移窗口多頭自注意力(SW-MSA),旨在緩解傳統(tǒng)基于注意力機(jī)制的全局編碼網(wǎng)絡(luò)極易導(dǎo)致目標(biāo)細(xì)節(jié)信息丟失的問題,同時(shí)Swin Transformer通過不同倍率的下采樣獲得多層次特征,有效挖掘了邊緣、紋理等細(xì)粒度的信息。Swin Transformer進(jìn)行局部特征提取的計(jì)算如式(4)~式(9)所示。
(4)
(5)
(6)
(7)
(8)
(9)
式中:LN(·)——線性映射函數(shù);
MLP(·)——多層感知機(jī);
Fl-1——多頭自注意力窗口的輸入特征;
l——用于標(biāo)識(shí)不同窗口之間特征前后處理的順序。
圖4給出了基于多尺度特征融合網(wǎng)絡(luò)的蘋果病害葉片檢測(cè)模型的檢測(cè)流程。具體實(shí)現(xiàn)細(xì)節(jié)如下。
圖4 蘋果病害葉片檢測(cè)模型
1) 全局特征提取:利用深度可分離卷積改進(jìn)的輕量級(jí)Vgg-16作為全局特征提取器,利用式(1)獲得蘋果病害葉片的全局特征Fglobal。
2) 局部特征提取:利用Swin Transformer提取蘋果病害葉片的局部特征。局部特征Flocal計(jì)算如式(4)~式(9)所示。
3) 多尺度特征融合:當(dāng)前主流的蘋果病害葉片檢測(cè)模型主要借助卷積神經(jīng)網(wǎng)絡(luò)提取葉片的全局特征,然而,早期的蘋果病害葉片區(qū)域不明顯,僅利用全局特征極易導(dǎo)致信息的丟失,造成病害最佳治療期的延誤。為此,本文利用一種多尺度特征融合網(wǎng)絡(luò)對(duì)局部特征和全局特征進(jìn)行融合,融合流程如圖5所示。
圖5 多尺度特征融合網(wǎng)絡(luò)
首先,將全局特征和局部特征利用全連接層FC進(jìn)行維度的轉(zhuǎn)換并將其拼接;然后,利用sigmoid函數(shù)計(jì)算拼接特征的權(quán)重分布。計(jì)算如式(10)所示。
綜上所述,對(duì)重度的股骨粗隆間骨折患者,采用硬膜外麻醉處理能更好地穩(wěn)定血液流變學(xué)指標(biāo),避免術(shù)后深靜脈血栓的發(fā)生。但本研究樣本量較小,今后需擴(kuò)大樣本量進(jìn)一步驗(yàn)證。
w=δ[φ(Flocal)⊕φ(Fglobal)]
(10)
式中:φ(·)——FC運(yùn)算;
δ(·)——sigmoid函數(shù)。
最后,利用式(11)對(duì)全局特征和局部特征進(jìn)行對(duì)應(yīng)位置的權(quán)重注意力分布計(jì)算,得到最終的融合特征
F=w(Flocal+Fglobal)
(11)
4) 全局平均池化和歸一化:為了進(jìn)一步減少模型參數(shù),加快收斂速度,此處將融合后的特征F依次作為全局平均池化層(global average pooling,GAP)和批歸一化層(Batch Normalization,BN)的輸入。
5) 全連接層:為了使模型具有分類能力,將歸一化后的融合特征作為全連接層的輸入,并利用softmax函數(shù)實(shí)現(xiàn)蘋果病害葉片的分類;最后,利用交叉熵?fù)p失函數(shù)計(jì)算真實(shí)標(biāo)簽與預(yù)測(cè)結(jié)果之間的損失,根據(jù)損失值端到端優(yōu)化模型參數(shù)。
采用Windows 10操作系統(tǒng),編程語言為python 3.7.3;采用Pytorch深度學(xué)習(xí)框架,Tesla T4 GPU,CUDA 10.1。
由于超參數(shù)的設(shè)置對(duì)于模型的性能影響較大,本文通過對(duì)比測(cè)試,設(shè)定初始學(xué)習(xí)率為0.008,采用隨機(jī)梯度下降策略SGD來優(yōu)化模型,批量大小為25,訓(xùn)練迭代次數(shù)為20。各項(xiàng)超參數(shù)的對(duì)比試驗(yàn)如圖6所示。
(a) 學(xué)習(xí)率與準(zhǔn)確率的對(duì)應(yīng)關(guān)系
為了驗(yàn)證本文模型的性能,采用精準(zhǔn)率、準(zhǔn)確率、召回率和F1-score作為評(píng)價(jià)指標(biāo)。計(jì)算如式(12)所示。
(12)
式中:TP——模型預(yù)測(cè)正確的樣本數(shù);
TN——模型預(yù)測(cè)錯(cuò)誤的樣本數(shù);
FP——誤報(bào)樣本個(gè)數(shù);
FN——漏報(bào)樣本個(gè)數(shù)。
為驗(yàn)證本文基于多尺度特征融合網(wǎng)絡(luò)的蘋果病害葉片檢測(cè)模型的有效性,在相同的試驗(yàn)環(huán)境下與當(dāng)前主流的目標(biāo)檢測(cè)模型Faster R-CNN,Yolov5,Resnet-50、Vgg-16和GoogleNet進(jìn)行對(duì)比試驗(yàn),詳細(xì)結(jié)果如表2所示,部分檢測(cè)可視化結(jié)果如圖7所示。不同方法的混淆矩陣如圖8所示。
(a) 褐斑病
(a) Faster R-CNN
表2 不同模型的性能對(duì)比Tab. 2 Performance comparison of different models %
由表2可知,本文模型在四個(gè)評(píng)價(jià)指標(biāo)下優(yōu)勢(shì)明顯。具體地,相比所有對(duì)比模型中表現(xiàn)最好的兩個(gè)模型,在準(zhǔn)確率評(píng)價(jià)指標(biāo)下,相比GoogleNet和Resnet-50模型,分別提升了1.24%(92.83%→93.98%)和1.99%(92.15%→93.98%);在精準(zhǔn)率下,相比GoogleNet和Resnet-50模型,分別提升了1.17%(93.02%→94.11%)和2.18%(92.10%→94.11%);在召回率下,相比GoogleNet和Vgg-16模型,分別提升了0.82%(93.17%→93.93%)和2.09%(92.01%→93.93%);在F1指標(biāo)下,相比Vgg-16和Resnet-50模型,分別提升了1.70%(93.04%→94.62%)和1.53%(93.19%→94.62%)。上述結(jié)果進(jìn)一步驗(yàn)證了本文模型的有效性,究其原因是相比傳統(tǒng)采用單一局部或全局特征的檢測(cè)模型,本文模型利用局部和全局多尺度融合特征,充分利用了蘋果病害葉片圖片的信息。
此外,為了進(jìn)一步驗(yàn)證本文模型的魯棒性,分別利用Faster R-CNN、Yolov5、Resnet-50、Vgg-16、GoogleNet對(duì)褐斑病(01)、灰斑病(02)、落葉病(03)、銹病(04)和花葉病(05)五種常見的蘋果病害葉片進(jìn)行檢測(cè)。
為了分析各種改進(jìn)模塊對(duì)于檢測(cè)性能的整體影響,進(jìn)行消融試驗(yàn),如表3所示。表3中,全局表示僅使用Vgg-16作為主干網(wǎng)絡(luò);局部表示僅利用Swin Transformer作為主干網(wǎng)絡(luò);改進(jìn)全局表示利用深度可分離卷積改進(jìn)標(biāo)準(zhǔn)Vgg-16作為主干網(wǎng)絡(luò)。可以看出,雖然利用改進(jìn)后的Vgg-16結(jié)合局部Swin Transformer作為主干網(wǎng)絡(luò),可以提取更具有魯棒性的特征,然而,在模型參數(shù)方面,開銷較大。綜合模型參數(shù)量和蘋果病害葉片的檢測(cè)性能,選擇改進(jìn)后的全局Vgg-16結(jié)合局部Swin Transformer作為特征主干網(wǎng)絡(luò)。
表3 不同變體模型的性能對(duì)比Tab. 3 Performance comparison of different variant models
針對(duì)現(xiàn)有蘋果病害葉片檢測(cè)模型信息利用不充分的問題,提出了一種基于多尺度特征融合網(wǎng)絡(luò)的蘋果病害葉片檢測(cè)模型。通過提取蘋果病害葉片圖片的全局和局部特征,強(qiáng)化了深度空間特征的表達(dá)能力;此外,利用深度可分離卷積替換標(biāo)準(zhǔn)卷積塊,通過減少模型參數(shù)來降低系統(tǒng)時(shí)間開銷,有效緩解了深度網(wǎng)絡(luò)因參數(shù)量多導(dǎo)致時(shí)間開銷大的問題。
1) 通過在開源的蘋果病害葉片檢測(cè)數(shù)據(jù)集上進(jìn)行測(cè)試,本文模型可以實(shí)現(xiàn)93.98%的準(zhǔn)確率、94.11%的精準(zhǔn)率、93.93%的召回率和94.62%的F1值。
2) 僅利用單一的局部或全局特征,極易忽略目標(biāo)主體的邊緣、紋理等細(xì)節(jié)特征或顏色、形狀等整體特征。本文利用局部和全局的多尺度融合特征,有效緩解了傳統(tǒng)模型信息利用不充分的問題。
3) 傳統(tǒng)基于深度網(wǎng)絡(luò)的目標(biāo)檢測(cè)模型參數(shù)量大,導(dǎo)致時(shí)間開銷較大,不符合實(shí)際應(yīng)用中對(duì)于實(shí)時(shí)性的高要求。