国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多尺度注意力卷積網(wǎng)絡(luò)的作物害蟲(chóng)檢測(cè)

2021-07-23 02:49張善文邵彧齊國(guó)紅許新華
關(guān)鍵詞:注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)

張善文 邵彧 齊國(guó)紅 許新華

摘要: 田間作物害蟲(chóng)檢測(cè)是精確防治蟲(chóng)害和減少農(nóng)藥使用量的前提。由于田間害蟲(chóng)種類(lèi)多,同種害蟲(chóng)個(gè)體間差異大,田間同一只害蟲(chóng)的大小、顏色、姿態(tài)、位置和背景變化多樣、無(wú)規(guī)律,而且田間背景復(fù)雜、對(duì)比度低,使得傳統(tǒng)的作物害蟲(chóng)檢測(cè)方法的性能不高?,F(xiàn)有的基于深度學(xué)習(xí)的作物害蟲(chóng)檢測(cè)方法需要大量高質(zhì)量的標(biāo)注訓(xùn)練樣本,而且訓(xùn)練時(shí)間長(zhǎng)。在VGG16模型的基礎(chǔ)上,本研究提出一種基于多尺度注意力卷積網(wǎng)絡(luò)(Multi-scale convolutional network with attention, MSCNA)的作物害蟲(chóng)檢測(cè)方法。在MSCNA中,多尺度結(jié)構(gòu)和注意力模型用于提取多尺度害蟲(chóng)檢測(cè)特征,增強(qiáng)對(duì)形態(tài)較小害蟲(chóng)的檢測(cè)能力;在訓(xùn)練過(guò)程中引入二階項(xiàng)殘差模塊,減少網(wǎng)絡(luò)損失和加速網(wǎng)絡(luò)訓(xùn)練。試驗(yàn)結(jié)果表明,該方法能較好地檢測(cè)到農(nóng)田中各種各樣、大小不同的害蟲(chóng),檢測(cè)平均準(zhǔn)確率為92.44%。說(shuō)明該方法能夠?qū)崿F(xiàn)自然場(chǎng)景下作物害蟲(chóng)的精準(zhǔn)檢測(cè),可應(yīng)用于田間作物害蟲(chóng)自動(dòng)檢測(cè)。

關(guān)鍵詞: 作物害蟲(chóng)檢測(cè);注意力機(jī)制;卷積神經(jīng)網(wǎng)絡(luò);多尺度注意力卷積網(wǎng)絡(luò)

中圖分類(lèi)號(hào): TP391.41;S432 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1000-4440(2021)03-0579-10

Crop pest detection based on multi-scale convolutional network with attention

ZHANG Shan-wen, SHAO Yu, QI Guo-hong, XU Xin-hua

(School of Electronics and Information Engineering, Zhengzhou SIAS University, Zhengzhou 451150, China)

Abstract: Detection of crop pests in field is the prerequisite for accurate pest control and reduction of pesticide dosage. The performance of the traditional detection methods for crop pests is not high, due to the reasons such as various varieties of pests in the field, the difference between different pest individuals of the same variety is great. Besides, the size, color, posture, position and background of the same pest in the field are various and irregular, and the field background is complex and has low contrast. The existing crop pest detection methods based on deep learning require a large number of labeled training samples with high quality, and the training time is long. A multi-scale convolutional network with attention (MSCNA) method based on VGG16 model was proposed for crop pest detection. In MSCNA, the multi-scale structure and attention model were used to extract the detection features of pests on multi-scale and to enhance the ability in detecting smaller pests. Second-order term residual module was introduced in the training process to reduce network loss and accelerate network training. The experimental results showed that, the proposed method could detect various pests with different sizes in the farmland preferably, and the average detection accuracy was 92.44%. The results indicated that this method can detect crop pests accurately in natural scenes and can be applied in the automatic detection of crop pests in the field.

Key words: crop pest detection;attention mechanism;convolutional neural network (CNN);multi-scale convolutional neural network with attention (MSCNA)

作物害蟲(chóng)檢測(cè)和識(shí)別是害蟲(chóng)防治的一個(gè)重要步驟。目前已有很多作物害蟲(chóng)檢測(cè)和識(shí)別方法。Martineau等[1]綜述了44種昆蟲(chóng)分類(lèi)方法,并介紹了害蟲(chóng)圖像采集、特征提取和測(cè)試數(shù)據(jù)集構(gòu)建等。Yaakob等[2]提取昆蟲(chóng)圖像的形狀特征的6種不變矩,并驗(yàn)證了該方法的有效性。Fedor等[3]介紹了基于數(shù)字圖像分析和人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)的半自動(dòng)害蟲(chóng)識(shí)別和監(jiān)測(cè)工具,并提取害蟲(chóng)的頭部、鎖骨、翅膀、產(chǎn)卵器長(zhǎng)度和寬度等形態(tài)特征,構(gòu)成特征向量,最后由神經(jīng)網(wǎng)絡(luò)進(jìn)行害蟲(chóng)識(shí)別。Wen等[4]提出了一種基于尺度不變特征描述子的昆蟲(chóng)分類(lèi)方法,并在果園常見(jiàn)昆蟲(chóng)數(shù)據(jù)集上取得了較高的識(shí)別率。然后,提出了一種基于圖像的昆蟲(chóng)自動(dòng)分類(lèi)方法[5],該方法利用仿射不變量局部特征建立昆蟲(chóng)識(shí)別和分類(lèi)的局部不變特征模型,建立了54個(gè)全局特征的昆蟲(chóng)識(shí)別分類(lèi)模型和基于局部特征與全局特征的層次組合模型,最后利用組合模型進(jìn)行田間昆蟲(chóng)圖像分類(lèi)。Boissard 等[6]提出了一種基于視頻信息的害蟲(chóng)檢測(cè)系統(tǒng),該系統(tǒng)能夠?qū)Τ墒祀A段的白粉虱進(jìn)行自動(dòng)檢測(cè)和計(jì)數(shù)。Zhu等 [7]提出了一種基于局部平均顏色特征和支持向量機(jī)(SVM)的昆蟲(chóng)自動(dòng)識(shí)別和分類(lèi)方法,首先對(duì)采集的昆蟲(chóng)圖像進(jìn)行分割,去掉圖像的背景,再進(jìn)行分割,得到昆蟲(chóng)的2個(gè)翅膀圖像,然后對(duì)它們的位置進(jìn)行校準(zhǔn),最后從2個(gè)翅膀圖像中提取1個(gè)480維的紅綠藍(lán)顏色特征向量,由SVM對(duì)昆蟲(chóng)進(jìn)行分類(lèi)。Fina等[8]將K-均值聚類(lèi)算法與自適應(yīng)濾波器相結(jié)合,通過(guò)提取害蟲(chóng)與其棲息地(葉、莖)之間的不同特征屬性,獲得不同圖像的相關(guān)峰值,利用自適應(yīng)濾波器對(duì)作物害蟲(chóng)進(jìn)行識(shí)別,結(jié)果表明該濾波器能夠識(shí)別任意拍攝角度的害蟲(chóng)。Jayme[9]提出了一種基于傳統(tǒng)數(shù)字圖像處理的大豆葉片白粉虱害蟲(chóng)識(shí)別方法,該方法易于實(shí)現(xiàn)和擴(kuò)展應(yīng)用到其他作物中。為了提高作物害蟲(chóng)分類(lèi)精度,Xie等[10]開(kāi)發(fā)了一個(gè)基于多任務(wù)稀疏表示和多核學(xué)習(xí)方法的昆蟲(chóng)識(shí)別系統(tǒng),該系統(tǒng)結(jié)合多種昆蟲(chóng)種類(lèi)特征來(lái)提高識(shí)別性能,采用稀疏編碼直方圖表示昆蟲(chóng)圖像,而不是使用手工制作的描述符,由此能很好地量化顏色、形狀和紋理等原始特征,通過(guò)共同優(yōu)化核權(quán)值,有效地優(yōu)化該學(xué)習(xí)模型。Zhang等[11]設(shè)計(jì)了1種田間害蟲(chóng)識(shí)別系統(tǒng),該系統(tǒng)需要從二值化圖像中提取害蟲(chóng)的7個(gè)形態(tài)特征,并進(jìn)行歸一化,根據(jù)9種害蟲(chóng)的特征均值和特征標(biāo)準(zhǔn)差,建立了標(biāo)準(zhǔn)向量模型庫(kù)和隸屬度函數(shù)。薊馬蠅是為害草莓大棚的害蟲(chóng)之一,Ebrahimi等[12]采用差分核函數(shù)SVM方法對(duì)薊馬蠅進(jìn)行分類(lèi)和檢測(cè),以大直徑與小直徑之比作為區(qū)域指標(biāo),以色調(diào)、飽和度、強(qiáng)化度作為顏色指標(biāo)設(shè)計(jì)SVM結(jié)構(gòu),利用均方誤差、均方根誤差、平均絕對(duì)誤差和平均百分比誤差評(píng)估分類(lèi)效果。為了提高害蟲(chóng)圖像分割的準(zhǔn)確性和穩(wěn)定性,Wang等[13]提出了一種分割害蟲(chóng)圖像的方法:首先對(duì)害蟲(chóng)圖像進(jìn)行分塊,然后采用自適應(yīng)學(xué)習(xí)算法精確選擇初始聚類(lèi)中心,再利用K-均值聚類(lèi)得到初步的分割結(jié)果,最后利用3個(gè)數(shù)字形態(tài)特征分割害蟲(chóng)圖像。

上述傳統(tǒng)的害蟲(chóng)檢測(cè)和識(shí)別算法研究取得了較好的結(jié)果,但這些算法都有一定的局限性,比如他們的檢測(cè)與識(shí)別性能特別依賴(lài)于預(yù)先設(shè)計(jì)的手工特征提取效果以及選擇的分類(lèi)器的性能。由于同種或異種作物害蟲(chóng)在不同時(shí)期甚至不同時(shí)刻具有不同的表型,如圖1所示,害蟲(chóng)的大小、顏色和形狀各異,姿態(tài)和位置變化多樣,背景復(fù)雜,所以利用傳統(tǒng)的模式識(shí)別方法很難準(zhǔn)確描述害蟲(chóng)圖像。

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)具有很強(qiáng)的圖像分類(lèi)特征學(xué)習(xí)能力,能夠從輸入圖像中學(xué)習(xí)到深度高階特征,在復(fù)雜圖像的目標(biāo)檢測(cè)、分割和分類(lèi)等方面具有明顯優(yōu)勢(shì)[14-15],能夠自動(dòng)學(xué)習(xí)復(fù)雜圖像的形狀、顏色、紋理等多層次特征。農(nóng)作物害蟲(chóng)圖像復(fù)雜無(wú)規(guī)律,因此CNN可能適合于作物害蟲(chóng)圖像特征提取[16]。Bhatt等[17]將3種廣泛使用的CNN模型應(yīng)用于昆蟲(chóng)識(shí)別,并比較了3種模型的性能。Nanni等[18]提出了一種顯著性模型與CNN相結(jié)合的自動(dòng)分類(lèi)器,其中3種顯著性模型用于圖像預(yù)處理,突出顯示圖像中最相關(guān)的像素。Witenberg等[19]提出了一種基于改進(jìn)殘差CNN模型的害蟲(chóng)識(shí)別方法,并在原始害蟲(chóng)圖像和增強(qiáng)圖像數(shù)據(jù)集上進(jìn)行了試驗(yàn)。Xia等[20]利用CNN模型解決農(nóng)作物昆蟲(chóng)的多分類(lèi)問(wèn)題,采用區(qū)域建議網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)的選擇性搜索技術(shù),生成較少的建議窗,用于分類(lèi)特征提取,提高了預(yù)測(cè)精度和加速了網(wǎng)絡(luò)訓(xùn)練。Liu等[21]提出了一種基于CNN的大規(guī)模害蟲(chóng)檢測(cè)分類(lèi)方法,該方法利用害蟲(chóng)圖像的位置敏感得分圖代替CNN的全連接層,極大提高了CNN的分類(lèi)性能。為了檢測(cè)自然場(chǎng)景下的水稻害蟲(chóng),錢(qián)蓉等[22]提出了一種基于權(quán)重參數(shù)為16層的經(jīng)典網(wǎng)絡(luò)(VGG16)的水稻害蟲(chóng)智能識(shí)別方法,該方法根據(jù)水稻害蟲(chóng)的個(gè)體特征和自然場(chǎng)景對(duì)VGG16的卷積層局部調(diào)整,優(yōu)化模型的主要參數(shù),實(shí)現(xiàn)了水稻害蟲(chóng)的智能識(shí)別。注意力機(jī)制推動(dòng)了深度學(xué)習(xí)的發(fā)展,已成為深度學(xué)習(xí)的重要組成部分,在自然語(yǔ)言處理、統(tǒng)計(jì)學(xué)習(xí)、圖像識(shí)別及語(yǔ)音識(shí)別等領(lǐng)域得到了充分研究和成功應(yīng)用[23-24]。梁斌等[25]提出了一種基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析方法,該網(wǎng)絡(luò)能夠接收平行化輸入的文本信息,大大降低網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間,有效彌補(bǔ)僅依賴(lài)內(nèi)容層面注意力機(jī)制的不足。樂(lè)毅等[26]提出了一種分段CNN與多層注意力機(jī)制相結(jié)合的遠(yuǎn)程監(jiān)督關(guān)系抽取方法,并應(yīng)用于作物病蟲(chóng)害檢測(cè)中,取得了較高的識(shí)別率。

在多尺度CNN和注意力機(jī)制的啟發(fā)下[27],本研究提出一種多尺度注意力卷積網(wǎng)絡(luò)(Multi-scale convolutional network with attention, MSCNA)模型,應(yīng)用于多尺度害蟲(chóng)檢測(cè),并驗(yàn)證該模型的有效性。

1 材料與方法

1.1 圖像采集與擴(kuò)充

葉蟬、盲蝽、飛蛾和夜蛾幼蟲(chóng)是農(nóng)業(yè)生產(chǎn)中常見(jiàn)的4種害蟲(chóng),本研究選擇這4種害蟲(chóng)的圖像為研究對(duì)象。所有圖像均在大田自然背景下采集,為后期實(shí)際推廣應(yīng)用奠定基礎(chǔ)。圖像采集設(shè)備為iPhone7、華為P10、WIFI控制攝像頭和物聯(lián)網(wǎng)等。構(gòu)建1個(gè)原始的害蟲(chóng)圖像數(shù)據(jù)集,包含1 000幅不同大小的害蟲(chóng)圖像,每一種害蟲(chóng)250幅圖像,每幅圖像分辨率約為4 928×3 264像素。由于iPhone通常能夠捕捉更清晰的視頻,所以大部分害蟲(chóng)視頻圖像由iPhone7拍攝。部分作物害蟲(chóng)圖像如圖2所示,從圖2可以看出,同一種害蟲(chóng)甚至同一只害蟲(chóng)的形狀、顏色、大小、姿態(tài)和所處位置以及背景環(huán)境等多種多樣,而且在圖像中害蟲(chóng)尺寸相對(duì)較小。

訓(xùn)練數(shù)據(jù)集規(guī)模對(duì)訓(xùn)練網(wǎng)絡(luò)的性能影響很大。當(dāng)樣本的特征空間維度大于訓(xùn)練樣本數(shù)目時(shí),模型容易出現(xiàn)過(guò)擬合現(xiàn)象。為了增強(qiáng)網(wǎng)絡(luò)的魯棒性和泛化能力,一般通過(guò)對(duì)有限的訓(xùn)練樣本進(jìn)行擴(kuò)充,增加訓(xùn)練樣本數(shù)目。常用的擴(kuò)充方法包括:圖像平移,使得網(wǎng)絡(luò)學(xué)習(xí)到平移不變的特征;圖像旋轉(zhuǎn),使得網(wǎng)絡(luò)學(xué)習(xí)到旋轉(zhuǎn)不變的特征。一般情況下,害蟲(chóng)圖像有多種不同的姿態(tài),圖像旋轉(zhuǎn)可以彌補(bǔ)樣本中姿態(tài)較少的問(wèn)題;圖像鏡像,與旋轉(zhuǎn)的功能類(lèi)似;圖像加噪聲,可以用不同的模板卷積產(chǎn)生含噪圖像,使得網(wǎng)絡(luò)學(xué)習(xí)到含噪圖像的特征;圖像亮度變化,使得網(wǎng)絡(luò)學(xué)習(xí)到不同亮度條件下的圖像的特征;裁剪、縮放等操作,模擬多種實(shí)際情況下的樣本。

采用以上擴(kuò)充方法,可以將每幅圖像擴(kuò)充到20幅。圖2E為1幅圖像的20幅擴(kuò)充圖像。盡管這些害蟲(chóng)圖像具有一定誤差且圖像質(zhì)量較差,但能夠增強(qiáng)網(wǎng)絡(luò)的魯棒性和泛化能力。最后得到一個(gè)包含21 000幅害蟲(chóng)圖像的數(shù)據(jù)集。

1.2 試驗(yàn)方法

1.2.1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)

與人工神經(jīng)網(wǎng)絡(luò)相比,CNN具有局部(稀疏)連接和權(quán)值(參數(shù))共享的特點(diǎn),從而大大降低了網(wǎng)絡(luò)的參數(shù)數(shù)量。CNN直接以原始圖像作為輸入,無(wú)需進(jìn)行復(fù)雜的圖像預(yù)處理。與前饋神經(jīng)網(wǎng)絡(luò)的全連接不同,CNN中卷積層的神經(jīng)元僅與其相鄰層的神經(jīng)元連接,而不是與全部神經(jīng)元連接。CNN的局部連接能夠提高網(wǎng)絡(luò)結(jié)構(gòu)的穩(wěn)定性和泛化能力,避免過(guò)擬合問(wèn)題,減少權(quán)重參數(shù)的總量,加速網(wǎng)絡(luò)訓(xùn)練,且在計(jì)算時(shí)減少了內(nèi)存開(kāi)銷(xiāo)[20]。圖3為經(jīng)典的VGG-16結(jié)構(gòu)[22],包括13個(gè)卷積層、5個(gè)池化層、3個(gè)全連接層和1個(gè)分類(lèi)層,具有局部連接、權(quán)值共享、池化等特點(diǎn)。其結(jié)構(gòu)比較簡(jiǎn)單,但它的權(quán)重?cái)?shù)目很大,導(dǎo)致訓(xùn)練時(shí)間過(guò)長(zhǎng),計(jì)算量很大,而且需要較大的儲(chǔ)存空間,不利于部署到算力受限的環(huán)境。

1.2.2 注意力機(jī)制 在深度CNN中,高層次特征圖的判別能力強(qiáng),但目標(biāo)模糊;低層次特征圖的目標(biāo)定位比較準(zhǔn)確,但分類(lèi)能力較差,虛擬目標(biāo)信息和場(chǎng)景內(nèi)容較多。為了整合高層次特征圖和低層次特征圖的優(yōu)點(diǎn),在CNN中加入注意力機(jī)制,生成粗略的注意圖[23]。在CNN中,注意力一般可分為通道注意力和空間注意力模塊,如圖4所示,其中通道注意力能夠?qū)νǖ肋M(jìn)行選擇,表示圖像不同的特征信息,空間注意力用于選取圖像特征圖中所注意的區(qū)域。

對(duì)于給定的F∈RH×W×C,其中H、W和C分別表示特征圖的長(zhǎng)度、寬度和通道數(shù),經(jīng)過(guò)通道和空間卷積注意力模塊后分別得到通道注意力(MC)的特征圖和空間注意力(MS)的特征圖:

F′=MC(F)F

F″=MS(F′)F′(1)

其中,F(xiàn)、F′和F″分別為輸入特征圖、通道注意力特征圖和空間注意力特征圖,表示注意力圖與輸入的特征圖相乘,用于特征的自適應(yīng)學(xué)習(xí)。

通過(guò)通道注意力和空間注意力模塊可以使CNN聚焦于最具有判別性的局部特征圖,同時(shí)結(jié)合殘差連接提高網(wǎng)絡(luò)模型的判別能力。注意力機(jī)制可以應(yīng)用到CNN中的原始圖像、特征圖甚至特征圖的每個(gè)像素上。將注意力機(jī)制應(yīng)用于圖像的空間尺度,可以對(duì)不同的空間區(qū)域賦予權(quán)重;將其應(yīng)用于通道尺度,可以對(duì)不同的通道特征賦予權(quán)重。

1.2.3 多尺度注意力卷積網(wǎng)絡(luò) 為了提高基于VGG16的作物害蟲(chóng)檢測(cè)方法的識(shí)別率,在分層多尺度卷積特征提取方法[27]的啟發(fā)下,在VGG16中引入通道和空間注意力機(jī)制以及殘差模型,構(gòu)建一種多尺度注意力卷積網(wǎng)絡(luò)(MSCNA)模型,其結(jié)構(gòu)如圖5所示。

多尺度注意力卷積網(wǎng)絡(luò)模型的訓(xùn)練具體步驟如下:

(1)分別使用3×3、5×5和7×7 大小的3個(gè)卷積核對(duì)原始害蟲(chóng)圖像進(jìn)行卷積,提取不同尺度下的特征圖,然后利用文獻(xiàn)[28]中的整合方法F1=max[0,concat(F11,F(xiàn)12,F(xiàn)13)](其中F11、F12、F13分別為3個(gè)不同卷積核得到的卷積圖,concat為連接運(yùn)算)合并三通道特征圖,再進(jìn)行卷積、池化、卷積。

(2)在注意力機(jī)制模塊中,沿通道維度分別計(jì)算每幅特征圖的全局平均池化及全局最大池化操作,然后相加得到通道注意力參數(shù)和特征圖(F),再經(jīng)過(guò)通道注意力(MC)和空間注意力(MS),由公式(1)得到特征圖F′和F″;

(3)在注意力機(jī)制模塊前后的第3和第4個(gè)卷積層之間,引入殘差連接模塊,能夠融合多尺度特征和注意力機(jī)制模塊的輸入信息,從而在一定程度上對(duì)損失的信息進(jìn)行補(bǔ)充,解決了特征信息傳輸過(guò)程中的信息丟失現(xiàn)象,進(jìn)一步增強(qiáng)特征融合。

(4)第4個(gè)卷積層后的結(jié)構(gòu)與VGG16基本相同[22,29],不同之處是將VGG16的3個(gè)全連接層用1個(gè)全局池化層代替,以極大地減少網(wǎng)絡(luò)參數(shù)。

在MSCNA的注意力模塊中,平均池化操作可以濾掉目標(biāo)對(duì)象的全局背景信息,而最大池化可以突出目標(biāo)對(duì)象的顯著性。設(shè)輸入的特征圖為X=[x1,x2,…,xc],其中xc為第c個(gè)灰度值,則平均池化和最大池化操作的輸出分別為Avgpool(F)∈R1×1×C和Maxpool(F)∈R1×1×C,計(jì)算如下:

Avgpool(F)=1H×WHi=1Wj=1xc(i,j)(2)

Maxpool(F)=maxHi=1Wj=1xc(i,j)(3)

在公式(1)中使用1個(gè)共享的多層感知機(jī)(MLP)進(jìn)行注意力推斷來(lái)保存參數(shù),則通道注意力(MC)和空間注意力(MS)分別表示為:

MC(F)=σ{MLP[Avgpool(F)]+MLP[Maxpool(F)]}(4)

MS(F)=σ{f7×7[Avgpool(F);Maxpool(F)]}(5)

其中,Avgpool(F)和Maxpool(F)為在空間維度上使用的平均池化和最大池化操作,f7×7為7×7大小的卷積操作,σ為Sigmoid函數(shù),網(wǎng)絡(luò)模型中的參數(shù)都通過(guò)Sigmoid來(lái)進(jìn)行歸一化。

第3和第4個(gè)卷積層之間的殘差模塊中,將第3個(gè)卷積層的特征發(fā)送到第4個(gè)卷積層,能夠最大程度地保留淺層的全局特征,在訓(xùn)練時(shí)有助于保持反向傳播的梯度穩(wěn)定性。傳統(tǒng)殘差網(wǎng)絡(luò)(Residual networks, ResNet)的連接方式是一種線性連接,限制了網(wǎng)絡(luò)對(duì)特征空間復(fù)雜分布的學(xué)習(xí)能力。MSCNA的特征提取操作可以看作一個(gè)深度全卷積網(wǎng)絡(luò)(Fully convolutional networks, FCN),F(xiàn)CN利用大量的殘差連接引導(dǎo)淺層特征的傳遞和梯度的流動(dòng),考慮到注意力模塊產(chǎn)生的特征信息更有意義,在殘差連接上增加二階項(xiàng)和偏置項(xiàng),提高網(wǎng)絡(luò)的非線性程度,改進(jìn)的二階項(xiàng)連接殘差網(wǎng)絡(luò)如圖6所示[30-31]。

A:傳統(tǒng)的殘差連接;B:二階項(xiàng)殘差。

假設(shè)第3個(gè)卷積層得到的特征圖為x,第4個(gè)卷積層得到的特征圖為x′,則輸出為:

f=X+X′+G″(6)

其中,G″=g(X⊙X′+ξ),⊙為矩陣間元素的乘法,ξ為調(diào)優(yōu)偏移參數(shù),g為可微函數(shù)。

采用平方根形式對(duì)g進(jìn)行梯度推導(dǎo),反向更新傳播參數(shù)。改進(jìn)殘差連接計(jì)算如下:

f=X+X′+ReLU(X)⊙ReLU(X′)+ξ(7)

其中,g取偏移量ξ=0.000 1用以保持反向傳播過(guò)程中的梯度穩(wěn)定性。

對(duì)經(jīng)過(guò)2種注意力和殘差重組后的特征圖進(jìn)行元素歸一化后再相加,其結(jié)果表示為:

F=F″+f(8)

由于在矩陣和特征矩陣中的元素可能為負(fù),計(jì)算前需要進(jìn)行非負(fù)處理。為了有效地融合多層卷積特征,利用雙線性插值將所有的特征映射調(diào)整為固定大小。本研究將特征圖的大小固定為224×224?;贛SCNA的田間害蟲(chóng)檢測(cè)方法的檢測(cè)流程圖見(jiàn)圖7。

具體步驟如下:(1)采用不同尺度的滑動(dòng)窗口掃描并截取圖像,找到待檢測(cè)圖像中可能存在害蟲(chóng)的候選窗口;(2)將候選窗口中的圖像歸一化為32×32像素大小;(3)將歸一化后的圖像作為訓(xùn)練后MSCNA的輸入,計(jì)算網(wǎng)絡(luò)輸出;(4)刪除步驟(3)中判定為非害蟲(chóng)的候選窗口,剩余的候選窗口為圖像中害蟲(chóng)的位置信息。

2 結(jié)果與分析

在實(shí)際害蟲(chóng)圖像數(shù)據(jù)庫(kù)上驗(yàn)證基于MSCNA的作物害蟲(chóng)圖像的檢測(cè)方法,并將基于局部特征和神經(jīng)網(wǎng)絡(luò)(Local features and neural network, LFNN)[3]、基于局部不變特征和支持向量機(jī)(Local invariant features and supported vector machines, LFSVM)[4]、基于深度學(xué)習(xí)模型的玉米害蟲(chóng)檢測(cè)識(shí)別(Deep learning, DL)[19]、基于改進(jìn)CNN的作物害蟲(chóng)檢測(cè)與分類(lèi)方法(Improved CNN, ICNN)[20]和基于VGG16的害蟲(chóng)檢測(cè)(VGG16)[22]5種害蟲(chóng)圖像識(shí)別方法與其進(jìn)行比較。其中,LFNN和LFSVM為2種傳統(tǒng)的害蟲(chóng)圖像識(shí)別方法,DL、ICNN和VGG16為3種基于深度學(xué)習(xí)的害蟲(chóng)檢測(cè)方法。所有試驗(yàn)實(shí)現(xiàn)環(huán)境為操作系統(tǒng)Win10 64bit、處理器Intel Xeon E5-2643v3@3.40 GHz CPU、內(nèi)存64 GB、NVidia Quadro M4000 GPU、顯存8 GB、CUDA Toolkit 9.0、CUDNN V7.0、Python版本3.6.4、Tensorflow-GPU 1.8.0框架。

在Matlab平臺(tái)上完成自動(dòng)裁切工作,得到裁切后的圖像。將所有圖像集按照6∶4隨機(jī)分成訓(xùn)練子集和測(cè)試子集,其中12 600幅圖像用于訓(xùn)練模型,8 400幅圖像用于測(cè)試模型。采用LabelImg工具標(biāo)注訓(xùn)練圖像,用于深度學(xué)習(xí)訓(xùn)練。6∶4劃分試驗(yàn)重復(fù)100次,得到穩(wěn)定可靠的檢測(cè)平均結(jié)果。在試驗(yàn)中,分多批進(jìn)行網(wǎng)絡(luò)訓(xùn)練,每批使用35幅圖像,批處理設(shè)置為1,最大迭代次數(shù)為10 000,權(quán)重衰減指數(shù)設(shè)置為0.000 1,動(dòng)量參數(shù)設(shè)置為0.9,初始學(xué)習(xí)率設(shè)置為0.01,在1 000次、2 000次、4 000次、6 000次、8 000次迭代時(shí),權(quán)重指數(shù)衰減降低到0.000 1。引入權(quán)值衰減,使權(quán)值衰減到一個(gè)較小的值,從而緩解過(guò)擬合問(wèn)題。在對(duì)比試驗(yàn)中,將參數(shù)設(shè)置為合適的值。在測(cè)試時(shí),采用5折交叉驗(yàn)證方法將樣本集隨機(jī)分為5等份,輪流選取其中1份組成測(cè)試集,剩余的組成訓(xùn)練集,重復(fù)5次交叉驗(yàn)證,將5次交叉驗(yàn)證結(jié)果的平均值作為MSCNA最終的識(shí)別率。

為了分析訓(xùn)練性能,采用相同的試驗(yàn)參數(shù)對(duì)3個(gè)用于比較的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,以保證比較結(jié)果的可靠性。圖8為MSCNA和VGG16的迭代誤差和識(shí)別率與迭代次數(shù)的關(guān)系。由圖8A可以看出,MSCNA的結(jié)果優(yōu)于VGG16,在1 500次迭代前,其訓(xùn)練過(guò)程相對(duì)穩(wěn)定,并且在1 500次迭代后,VGG16的下降速度比MSCNA慢很多。由圖8B可以看出,在整體上MSCNA的識(shí)別率高于VGG16。結(jié)果表明,MSCNA的收斂性?xún)?yōu)于VGG16,在2 500次迭代后,MSCNA的訓(xùn)練性能有了很大提高。主要原因是MSCNA中利用了殘差的密集模塊和注意力機(jī)制。

在訓(xùn)練過(guò)程中,將害蟲(chóng)訓(xùn)練圖像輸入到MSCNA中,通過(guò)幾個(gè)卷積層和池化層逐步提取特征圖。為了測(cè)試MSCNA的檢測(cè)性能,從數(shù)據(jù)集中隨機(jī)選取1幅夜蛾幼蟲(chóng)圖像,將檢測(cè)結(jié)果可視化(圖9)。通過(guò)圖9中的可視化特征圖可以發(fā)現(xiàn),MSCNA能夠捕捉到害蟲(chóng)圖像的精細(xì)細(xì)節(jié),較淺的卷積核可提取出害蟲(chóng)的輪廓,較深的卷積核可提取出害蟲(chóng)的紋理和細(xì)節(jié)特征。從圖9E中可以發(fā)現(xiàn),卷積特征圖沒(méi)有明顯的銳化邊緣,并且逐漸褪色,這是因?yàn)槟P椭幸胱⒁饬C(jī)制,更多關(guān)注害蟲(chóng)圖像區(qū)域,而不是害蟲(chóng)圖像的邊緣。從圖9F可以看出,第一幅特征圖靠近輸出層,害蟲(chóng)圖像區(qū)域更加集中。

由圖9可以看出,害蟲(chóng)圖像的低階卷積特征包含更多的細(xì)節(jié)信息,高層卷積特征包含害蟲(chóng)的關(guān)鍵信息。第一層的卷積核比較大,包含稀疏的正負(fù)響應(yīng)的平面,從而增加包含適當(dāng)特征的機(jī)會(huì);第二層的卷積核比較小,容易訓(xùn)練,梯度較低,在容量方面也比較理想。進(jìn)一步分析得出,在淺層卷積層中大量特征圖受到背景特征影響,只有少部分能得到害蟲(chóng)特征圖。隨著層次的深入,卷積特征圖忽略不相關(guān)的背景,突出更抽象的高維分類(lèi)特征。由圖9還可以觀察到,底層特征包含一些非害蟲(chóng)信息,低層卷積特征的背景信息分布較為分散,這就導(dǎo)致了低層卷積層很難直接去除非害蟲(chóng)信息。因此,為了有效地將低層卷積特征與高層卷積特征連接起來(lái),獲得增強(qiáng)鑒別能力的卷積特征,我們采用注意力機(jī)制選擇害蟲(chóng)的特征,去除低層卷積特征的非害蟲(chóng)信息。表1為L(zhǎng)FNN[3]、LFSVM[4]、DL[19]、ICNN[20]、VGG16[22]和本研究提出的MSCNA模型對(duì)4種害蟲(chóng)圖像的檢測(cè)結(jié)果。圖10為6種方法對(duì)4種害蟲(chóng)的檢測(cè)準(zhǔn)確率。

LFNN:基于局部特征和神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法;LFSVM:基于局部不變特征和支持向量機(jī)的檢測(cè)方法;DL:基于深度學(xué)習(xí)模型的玉米害蟲(chóng)檢測(cè)識(shí)別方法;ICNN:基于改進(jìn)CNN的作物害蟲(chóng)檢測(cè)與分類(lèi)方法;VGG16:基于權(quán)重參數(shù)為16的經(jīng)典網(wǎng)絡(luò)的檢測(cè)方法;MSCNA:基于多尺度注意力卷積網(wǎng)絡(luò)檢測(cè)方法。

從表1看出,基于DL、ICNN、VGG16和本研究模型(MSCNA)的4種深度學(xué)習(xí)方法的檢測(cè)精度遠(yuǎn)大于LFNN和LFSVM 2種傳統(tǒng)方法,其原因是深度學(xué)習(xí)能夠從復(fù)雜圖像中自動(dòng)學(xué)習(xí)圖像的分類(lèi)特征,而傳統(tǒng)方法很難提取到害蟲(chóng)的魯棒特征,因?yàn)樵谔镩g即使是同一只害蟲(chóng)每時(shí)每刻也變化多樣。一般傳統(tǒng)方法都需要對(duì)害蟲(chóng)圖像進(jìn)行預(yù)處理,再進(jìn)行害蟲(chóng)圖像分割,表1的6種方法都采用原始圖像及其擴(kuò)展圖像進(jìn)行試驗(yàn),由于2種傳統(tǒng)方法不能提取有效的分類(lèi)特征,所以他們的識(shí)別率很低。4種基于深度學(xué)習(xí)的方法的訓(xùn)練時(shí)間遠(yuǎn)長(zhǎng)于2種傳統(tǒng)方法,其原因是,與LFNN和LFSVM相比,深度學(xué)習(xí)需要花大量時(shí)間訓(xùn)練模型中的參數(shù)。對(duì)于訓(xùn)練好的LFNN、LFSVM和4種深度學(xué)習(xí)模型,測(cè)試時(shí)間差異不大。本研究方法(基于MSCNA檢測(cè)方法)優(yōu)于其他方法,檢測(cè)率最高,檢測(cè)時(shí)間最少。

綜合來(lái)看,基于MSCNA方法在少量數(shù)據(jù)的基礎(chǔ)上進(jìn)行有監(jiān)督學(xué)習(xí),避免了復(fù)雜的圖像處理過(guò)程,在準(zhǔn)確率、訓(xùn)練和測(cè)試時(shí)間方面相比其他方法較好,說(shuō)明MSCNA具有很好的分類(lèi)性能。主要原因是多尺度和注意力機(jī)制引入到MSCNA,在特征提取階段,將卷積后的加權(quán)特征向量替換原來(lái)的特征向量用于殘差融合,再利用二階項(xiàng)在訓(xùn)練過(guò)程中減少信息損失和加快網(wǎng)絡(luò)訓(xùn)練。

3 討論

及時(shí)、準(zhǔn)確地檢測(cè)到作物害蟲(chóng),是作物害蟲(chóng)精準(zhǔn)防治的前提[32-33]。由于大田背景復(fù)雜,大田害蟲(chóng)種類(lèi)多,同一只害蟲(chóng)的姿態(tài)和形態(tài)多種多樣,所以作物害蟲(chóng)檢測(cè)是一項(xiàng)重要且具有挑戰(zhàn)性的研究[34-35]。本研究將注意力機(jī)制、殘差模型與VGG16相結(jié)合,提出了一種MSCNA模型,并應(yīng)用于多尺度害蟲(chóng)檢測(cè)中。該模型在特征提取過(guò)程中引入注意力機(jī)制,然后用濾波后的加權(quán)特征向量代替原始特征向量,再進(jìn)行殘差融合,最后在訓(xùn)練過(guò)程中引入二階殘差項(xiàng),由此減少信息損失,加快網(wǎng)絡(luò)訓(xùn)練速度。在害蟲(chóng)圖像數(shù)據(jù)集上的試驗(yàn)結(jié)果表明,MSCNA是一種有效的害蟲(chóng)檢測(cè)模型,其檢測(cè)精度達(dá)到90%以上。試驗(yàn)中的害蟲(chóng)圖像均在大田條件下采集,而不是在理想條件下采集,這使得提出的模型具有較強(qiáng)的抗干擾能力。基于MSCNA的害蟲(chóng)識(shí)別方法可以在圖像中定位害蟲(chóng),而其他方法主要實(shí)現(xiàn)害蟲(chóng)圖像分類(lèi)。所以,本研究方法能有效地緩解數(shù)據(jù)處理中人為因素的干擾和人為負(fù)擔(dān)。該方法可應(yīng)用于作物害蟲(chóng)自動(dòng)檢測(cè)與識(shí)別。未來(lái)的工作重點(diǎn)主要有:害蟲(chóng)數(shù)據(jù)庫(kù)不足以反映所提方法的可行性,需要擴(kuò)充,后期利用物聯(lián)網(wǎng)自動(dòng)采集害蟲(chóng)圖像,擴(kuò)大數(shù)據(jù)集。在害蟲(chóng)防治過(guò)程中,害蟲(chóng)分類(lèi)要求更加細(xì)致,害蟲(chóng)的生長(zhǎng)周期需要?jiǎng)澐?,需要根?jù)害蟲(chóng)生長(zhǎng)的不同時(shí)期識(shí)別害蟲(chóng)類(lèi)別,由此采取不同的防治措施。

參考文獻(xiàn):

[1] MARTINEAU M, CONTE D, RAVEAUX R, et al. A survey on image-based insect classification [J]. Pattern Recognition, 2017, 65:273-284.

[2] YAAKOB S N, JAIN L. An insect classification analysis based on shape features using quality threshold ARTMAP and moment invariant [J]. Applied Intelligence, 2012, 37(1):12-30.

[3] FEDOR P, JAROMíR V, HAVEL J, et al. Artificial intelligence in pest insect monitoring [J]. Systematic Entomology, 2009, 34(2):398-400.

[4] WEN C, GUYER D E, LI W. Local feature-based identification and classification for orchard insects [J]. Biosystems Engineering, 2009, 104(3):299-307.

[5] WEN C, GUYER D. Image-based orchard insect automated identification and classification method [J]. Computers & Electronics in Agriculture, 2012, 89:110-115.

[6] BOISSARD P, MARTIN V, MOISAN S. A cognitive vision approach to early pest detection in greenhouse crops[J]. Computers & Electronics in Agriculture, 2008, 62(2):81-93.

[7] ZHU L Q, ZHANG Z. Automatic insect classification based on local mean colour feature and supported vector machines [J]. Oriental Insects, 2012, 46(3/4):260-269.

[8] FINA F, BIRCH P, YOUNG R, et al. Automatic plant pest detection and recognition using k-means clustering algorithm and correspondence filters [J]. International Journal of advanced Biotechnology & Research, 2013, 4:189-199.

[9] JAYME G A. Using digital image processing for counting whiteflies on soybean leaves [J]. Journal of Asia Pacific Entomology, 2014,17 (4):685-694.

[10]XIE C, ZHANG J, LI R, et al. Automatic classification for field crop insects via multiple-task sparse representation and multiple-kernel learning [J]. Computers & Electronics in Agriculture, 2015, 119:123-132.

[11]ZHANG H T, HU Y X, ZHANG H Y. Extraction and classifier design for image recognition of insect pests on field crops [J]. Advanced Materials Research, 2013(756/759):4063-4067.

[12]EBRAHIMI M A, KHOSHTAGHAZA M H, MINAEI S, et al. Vision-based pest detection based on SVM classification method [J]. Computers & Electronics in Agriculture, 2017, 137:52-58.

[13]WANG Z B, WANG K Y, LIU Z Q, et al. A cognitive vision method for insect pest image segmentation [J]. IFAC-Papers On Line, 2018, 15(17): 85-89.

[14]周飛燕,金林鵬,董 軍. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2017,40(6): 1229-1251.

[15]BERNAL J, KUSHIBAR K, ASFAW D S, et al. Deep convolutional neural networks for brain image analysis on magnetic resonance imaging: a review[J]. Artificial Intelligence in Medicine, 2019, 95:64-81.

[16]TRKOLU M, HANBAY D. Plant disease and pest detection using deep learning-based features [J]. Turkish Journal of Electrical Engineering and Computer, 2019, 27(3):1636-1651.

[17]BHATT N, PATEL D. Insect identification among deep learnings meta-architectures using tensorflow [J]. International Journal of Engineering and Advanced Technology, 2019,9(1):1910-1914

[18]NANNI L, MAGUOLO G, PANCINO F. Insect pest image detection and recognition based on bio-inspired methods [J].Ecological Informatics, 2020, 57:101089.

[19]WITENBERG S R, ADAO N A, D′IBIO L B. A deep learning model for recognition of pest insects in maize plantations [C]//FANTI M P,ZHOU M C. IEEE International Conference on Systems, Man and Cybernetics (SMC).Bari Italy:IEEE Press,2019.

[20]XIA D, CHEN P, WANG B. Insect detection and classification based on an improved convolutional neural network[J]. Sensors, 2018, 18(12):4169.

[21]LIU L, WANG R, XIE C, et al. Pestnet: an end-to-end deep learning approach for large-scale multi-class pest detection and classification [J]. IEEE Access, 2019, 7:45301-45312.

[22]錢(qián) 蓉,孔娟娟,朱靜波,等. 基于VGG-16卷積神經(jīng)網(wǎng)絡(luò)的水稻害蟲(chóng)智能識(shí)別研究[J]. 安徽農(nóng)業(yè)科學(xué), 2020, 48(5):235-238.

[23]徐誠(chéng)極,王曉峰,楊亞?wèn)|. Attention-YOLO:引入注意力機(jī)制的YOLO檢測(cè)算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(6):19-29,131.

[24]BARROS P, PARISI G I, WEBER C, et al. Emotion-modulated attention improves expression recognition: a deep learning model[J]. Neurocomputing, 2017, 253(30):104-114.

[25]梁 斌,劉 全,徐 進(jìn).基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析[J]. 計(jì)算機(jī)研究與發(fā)展,2017,54(8): 1724-1735.

[26]樂(lè) 毅,王文宇,張 凱,等.基于多層注意力機(jī)制的農(nóng)業(yè)病蟲(chóng)害遠(yuǎn)程監(jiān)督關(guān)系抽取研究[J]. 安徽農(nóng)業(yè)大學(xué)學(xué)報(bào),2020,47 (4):189-193.

[27]孫皓澤,常天慶,王全東,等.一種基于分層多尺度卷積特征提取的坦克裝甲目標(biāo)圖像檢測(cè)方法[J]. 兵工學(xué)報(bào), 2017(9):1681-1691.

[28]MUSTAFA H T, YANG J, ZAREAPOOR M. Multi-scale convolutional neural network for multi-focus image fusion [J]. Image and Vision Computing, 2019, 85(5):26-35.

[29]LIU Z, WU J, FU L, et al. Improved kiwifruit detection using pre-trained VGG16 with RGB and NIR information fusion[J]. IEEE Access, 2020, 8(1):2327-2336.

[30]WANG X, GU Y, GAO X, et al. Dual residual attention module network for single image super resolution[J]. Neurocomputing, 2019, 364:269-279.

[31]LIU Z, HUANG J, ZHU C, et al. Residual attention network using multi-channel dense connections for image super-resolution[J]. Applied Intelligence, 2020(1): 1-15.

[32]陶震宇,孫素芬,羅長(zhǎng)壽. 基于Faster-RCNN的花生害蟲(chóng)圖像識(shí)別研究[J]. 江蘇農(nóng)業(yè)科學(xué),2019,47(12):247-250.

[33]邢 鯤,曹俊宇,王媛媛,等. 設(shè)施蔬菜昆蟲(chóng)群落結(jié)構(gòu)與時(shí)序動(dòng)態(tài)[J].江蘇農(nóng)業(yè)學(xué)報(bào),2019,35(3):564-574.

[34]梁 勇,趙 健,林營(yíng)志,等. 基于紅外傳感器的實(shí)蠅類(lèi)害蟲(chóng)實(shí)時(shí)監(jiān)測(cè)裝置的設(shè)計(jì)[J].江蘇農(nóng)業(yè)科學(xué),2020,48(4):230-234.

[35]馬 林,林金盛,陸 娜,等. 江浙地區(qū)秀珍菇雙翅目害蟲(chóng)鑒定及防治[J].南方農(nóng)業(yè)學(xué)報(bào),2019,50(1):68-73.

(責(zé)任編輯:陳海霞)

猜你喜歡
注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動(dòng)態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問(wèn)題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類(lèi)中的研究
InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)