張震明,黃子琦,王東,寧堂原,孫剛,姜紅花*
基于深度學(xué)習(xí)的田間麥穗檢測
張震明1,黃子琦1,王東2,寧堂原3,孫剛4,姜紅花1*
1. 山東農(nóng)業(yè)大學(xué)信息科學(xué)與工程學(xué)院, 山東 泰安 271018 2. 西北農(nóng)林科技大學(xué)農(nóng)學(xué)院, 陜西 楊凌 712100 3. 山東農(nóng)業(yè)大學(xué)農(nóng)學(xué)院, 山東 泰安 271018 4. 中國科學(xué)院空天信息創(chuàng)新研究院, 北京 100101
大田小麥麥穗識別是小麥估產(chǎn)的重要環(huán)節(jié),準(zhǔn)確快速的麥穗檢測識別是產(chǎn)量估算的前提。利用深度學(xué)習(xí)技術(shù)識別大田圖像中的麥穗,可以大幅提高麥穗計數(shù)的效率。針對大田小麥植株互相遮擋和光照不均等問題,本文將通道注意力模塊添加到PPYOLO網(wǎng)絡(luò)中,構(gòu)建了注重檢測精度和檢測速度相平衡的麥穗檢測網(wǎng)絡(luò)PPYOLO-SE,并將該網(wǎng)絡(luò)與原PPYOLO網(wǎng)絡(luò)、SSD、YOLOv3和Faster-RCNN網(wǎng)絡(luò)進行對比試驗,PPYOLO-SE模型檢測精度為95.75%,每幅圖像檢測時間0.6s,優(yōu)于上述其他網(wǎng)絡(luò),驗證了PPYOLO-SE模型的有效性。本研究提高了小麥麥穗識別環(huán)節(jié)的準(zhǔn)確性和效率,降低了勞動成本,為田間小麥的自動化管理提供參考。
麥穗檢測; 圖像增強; 產(chǎn)量評估; 深度學(xué)習(xí)
大田小麥麥穗檢測是小麥估產(chǎn)的重要環(huán)節(jié),準(zhǔn)確快速的麥穗檢測識別可以大大提高產(chǎn)量估算的效率[1,2]。當(dāng)前麥穗識別方法主要有基于人工特征提取的傳統(tǒng)方法和深度學(xué)習(xí)方法[3-7]:前者將圖像中的紋理、顏色和光譜等特征提取,利用聚類或分類方法學(xué)習(xí)特征,實現(xiàn)目標(biāo)識別[8,9];后者利用深度神經(jīng)網(wǎng)絡(luò)提取圖像特征并對提取的特征進行學(xué)習(xí),實現(xiàn)目標(biāo)的分類識別。深度學(xué)習(xí)技術(shù)可以自主提取圖像特征,較深層的網(wǎng)絡(luò)結(jié)構(gòu)有強大的特征學(xué)習(xí)能力,因此利用深度學(xué)習(xí)方法進行麥穗識別相比于傳統(tǒng)方法更加有優(yōu)勢。
近年來國內(nèi)外學(xué)者利用深度學(xué)習(xí)方法在小麥麥穗識別任務(wù)中取得了較好成果。Hasan MM等采用Faster-RCNN網(wǎng)絡(luò)訓(xùn)練麥穗識別模型,模型最高檢測精度達到了93.4%[10]。He MX等構(gòu)建基于改進YOLOv4網(wǎng)絡(luò)的模型,使用預(yù)測框回歸方法,麥穗識別精確度為77.68%[11]。張領(lǐng)先等首先擴充了數(shù)據(jù)集,使用CNN訓(xùn)練麥穗識別模型,麥穗的識別準(zhǔn)確率達到99.7%[12]。高云鵬等提出了基于YOLOv3和Faster-RCNN的小麥麥穗檢測方法,兩種方法分別取得了87.12%和97.00%的識別準(zhǔn)確率,單張檢測速度分別為0.12 s和0.94 s[13]。鮑文霞等使用擁擠場景識別網(wǎng)絡(luò)(CSRNet)訓(xùn)練麥穗密度估計模型,采用遷移學(xué)習(xí)預(yù)訓(xùn)練模型,對模型參數(shù)調(diào)整,模型識別精度為82.11%[14]。郝王麗等使用Faster-RCNN、YOLOv2和YOLOv3網(wǎng)絡(luò)分別在小麥圖像數(shù)據(jù)集上訓(xùn)練小麥識別模型,最終的小麥識別精度達到了93%[15]。章權(quán)兵等使用Faster-RCNN網(wǎng)絡(luò)為基礎(chǔ)框架,在網(wǎng)絡(luò)中加入注意力機制,將區(qū)域建議網(wǎng)絡(luò)加權(quán)處理,提高了網(wǎng)絡(luò)檢測性能,平均檢測精度達到了88.5%[16]。麥田麥穗圖像背景復(fù)雜,種植密度較大,基于圖像框檢測的方法,在遮擋嚴(yán)重情況下,通用深度學(xué)習(xí)網(wǎng)絡(luò)識別效率低,誤差較大。
為改善大田復(fù)雜環(huán)境下的麥穗檢測問題,本文將圖像處理和深度學(xué)習(xí)相結(jié)合,構(gòu)建基于深度學(xué)習(xí)的大田小麥麥穗檢測模型,降低了勞動成本,為田間小麥自動化管理提供參考。
本文的主要貢獻包括3個方面:
(1)針對復(fù)雜背景下大田小麥麥穗檢測識別和小麥估產(chǎn)問題,本研究構(gòu)建了基于PPYOLO網(wǎng)絡(luò)的小麥麥穗檢測模型,對采集到的小麥圖像數(shù)量進行擴充,通過圖像增強處理,提高了麥穗檢測模型的準(zhǔn)確性和魯棒性;
(2)在PPYOLO網(wǎng)絡(luò)的基礎(chǔ)上添加了注意力機制SE模塊得到PPYOLO-SE網(wǎng)絡(luò),并使用大田小麥數(shù)據(jù)集進行了訓(xùn)練,檢測精度相較PPYOLO網(wǎng)絡(luò)構(gòu)建的模型提高了2.14%,較其他幾種網(wǎng)絡(luò)模型有明顯提高;
(3)PPYOLO-SE模型的單張圖像識別速度達到了0.6 s每張。
本研究小麥圖像的采集日期時間為2021年5月上午9時至15時,天氣晴朗光照充足,小麥灌漿期(麥穗外形基本不再變化),在山東農(nóng)業(yè)大學(xué)農(nóng)學(xué)實驗站采集濟麥22圖像,麥田總面積約為4 050 m2。為確定拍攝圖像畫幅尺寸,在小麥冠層上放置參照物,相機垂直向下距離小麥冠層60~70 cm拍攝,共采集1320張小麥圖像,采集大田如圖1所示,拍攝的部分小麥圖像如圖2所示。
圖1 圖像采集大田
圖2 大田小麥圖像
為了加快模型的訓(xùn)練速度,將圖像統(tǒng)一化處理。使用Photoshop按照參照物將圖像裁剪并調(diào)整尺寸為960×960像素,保留麥穗圖像特征的同時減小圖片大小。為了克服光照、陰影和遮擋問題,提高模型對小麥麥穗特征的學(xué)習(xí)能力,使用Matlab對小麥圖像進行灰度化,添加噪聲,模糊處理和直方圖均衡化增強處理,使用LabelImg軟件標(biāo)注穗圖像,處理完成后共得到4000張小麥圖像,增強后的圖像效果如圖3所示。
麥田麥穗圖像背景復(fù)雜,且小麥的種植密度一般較大,可以通過圖像分割和圖像去噪等處理減少復(fù)雜背景對圖像的影響,使用支持向量機等分類方法學(xué)習(xí)麥穗和其他部分的特征。這種方法提高了麥穗的識別準(zhǔn)確率,但不同條件下麥穗頭部的特征變化較大,要取得更好的識別效果需要研究更多的特征參數(shù),識別模型的魯棒性會有所下降。而在使用深度學(xué)習(xí)進行麥穗識別的研究中,性能較好的網(wǎng)絡(luò)可以多維度的自主學(xué)習(xí)麥穗圖像的特征,面對不同條件下的麥穗圖像表現(xiàn)出較為穩(wěn)定的識別準(zhǔn)確率,但基于麥穗識別場景的復(fù)雜性和特殊性,通用的深度學(xué)習(xí)網(wǎng)絡(luò)在麥穗識別任務(wù)中識別精度相較于特征分類方法較低。
由百度開發(fā)的開源檢測網(wǎng)絡(luò)PPYOLO使用多種深度學(xué)習(xí)技巧優(yōu)化網(wǎng)絡(luò)[17],基于百度開源深度學(xué)習(xí)框架PaddlePaddle開發(fā)的檢測網(wǎng)絡(luò),PPYOLO網(wǎng)絡(luò)由骨干網(wǎng)絡(luò),檢測頸和檢測頭組成。PPYOLO注重于將不同的訓(xùn)練技巧結(jié)合,實現(xiàn)更好的檢測結(jié)果。在各個領(lǐng)域的目標(biāo)檢測中都取得了較高準(zhǔn)確率。
相對于新的網(wǎng)絡(luò)結(jié)構(gòu),注意力機制的出現(xiàn)使得深度學(xué)習(xí)網(wǎng)絡(luò)不再盲目的學(xué)習(xí)特征,而是對更有用的特征進行著重學(xué)習(xí),網(wǎng)絡(luò)可以專注于輸入的某個特定部分。Hu J等提出的SE注意力機制模塊在嵌入不同網(wǎng)絡(luò)后,網(wǎng)絡(luò)的檢測精度均有所提升[17]。注意力機制SE網(wǎng)絡(luò),給特征圖中每個通道賦予不同權(quán)重,網(wǎng)絡(luò)專注于輸入特征圖的特定部分,提高網(wǎng)絡(luò)的檢測精度,解決網(wǎng)絡(luò)中不同特征圖不同通道使用相同權(quán)值導(dǎo)致的偏差問題。
針對大田麥穗識別率低的問題,本文基于PPYOLO目標(biāo)檢測網(wǎng)絡(luò),在其骨干網(wǎng)絡(luò)的特征提取層后添加注意力機制SE(Squeeze and Excitation)模塊,高效的提取麥穗特征,并進行學(xué)習(xí),以提高模型檢測麥穗的準(zhǔn)確率。構(gòu)建PPYOLO-SE網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 PPYOLO-SE網(wǎng)絡(luò)結(jié)構(gòu)
由圖4可知,PPYOLO-SE網(wǎng)絡(luò)結(jié)構(gòu)是由骨干網(wǎng)絡(luò)、檢測頸及檢測頭組成,在骨干網(wǎng)絡(luò)的不同特征體積層后添加SE模塊。
為了驗證PPYOLO-SE網(wǎng)絡(luò)模型的有效性,在相同的數(shù)據(jù)集上訓(xùn)練了PPYOLO網(wǎng)絡(luò)以及SSD,YOLOv3和Faster-RCNN三種常用目標(biāo)檢測網(wǎng)絡(luò)作為對比。
本研究的硬件環(huán)境:操作系統(tǒng)為Windows10專業(yè)版;CPU為Intel i7-11700 2.5 GHz,16 GB計算機內(nèi)存,圖形處理器為Nvidia GeForce GTX 1080Ti 11 GB;Python版本3.7.0;軟件環(huán)境:PPYOLO-SE網(wǎng)絡(luò)和PPYOLO網(wǎng)絡(luò)的深度學(xué)習(xí)框架為PaddlePaddle 2.1.0,其余網(wǎng)絡(luò)為Tensorflow1.15.0框架。網(wǎng)絡(luò)主要參數(shù):學(xué)習(xí)率設(shè)置為0.001,Batch_size為16,Epoch為1200。數(shù)據(jù)集共4000張,訓(xùn)練集、驗證集和測試集比例3:1:1,即訓(xùn)練集2400張,驗證集800張,測試集800張。
為確定模型的有效性,PPYOLO-SE網(wǎng)絡(luò)和其他網(wǎng)絡(luò)均使用相同的訓(xùn)練集和測試集訓(xùn)練,圖5為各個網(wǎng)絡(luò)的訓(xùn)練Loss曲線。
圖5 各網(wǎng)絡(luò)訓(xùn)練Loss曲線圖
由圖5可知,相同情況下,PPYOLO-SE網(wǎng)絡(luò)相比其他4種網(wǎng)絡(luò)收斂值更小,相比PPYOLO收斂較慢,是因為在網(wǎng)絡(luò)結(jié)構(gòu)中添加SE模塊增加了額外的計算量所導(dǎo)致的。綜上,PPYOLO-SE的Loss曲線收斂值最小且趨于穩(wěn)定,訓(xùn)練效果較好。
本文使用卷積神經(jīng)網(wǎng)絡(luò)AlexNet模型[14]提取圖像的特征信息,AlexNet網(wǎng)絡(luò)使用(11×11、5×5、3×3)的卷積核,其結(jié)構(gòu)簡單,可以快速的提取圖像的多維度空間語義信息,其特征可視化圖如圖3所示。卷積神經(jīng)網(wǎng)絡(luò)的卷積函數(shù)為X+1=act(XW+b),其中X表示()層特性輸入,X+1表示()層特性輸出。當(dāng)()為0時,0是原始圖像。W是()層權(quán)值矩陣,b是()層的偏移向量,act是激活函數(shù)(Relu),llXW為輸入特征與卷積核權(quán)重的卷積乘積。
本文使用的模型評價指標(biāo)為召回率Recall和模型準(zhǔn)確率Precision以及模型對單張圖片的檢測速度。召回率的意義為正確的樣本中被成功預(yù)測出來的比例,召回率Recall的計算公式為:
式(1)中代表成功預(yù)測出的樣本個數(shù),為未能被預(yù)測出的樣本個數(shù)。
準(zhǔn)確率的含義為成功預(yù)測出的樣本中的正確比例,準(zhǔn)確率Precision的計算公式為:
式(2)中為預(yù)測出的樣本中正確的樣本個數(shù),代表預(yù)測出的樣本中錯誤樣本的個數(shù)。
平均精度AP(Average Precision)代表預(yù)測類中每個召回率中最大精確率的平均數(shù),mAP(mean Average Precision)即為各個預(yù)測類的平均精度,在本文麥穗檢測問題中,mAP即為AP。各個模型的平均檢測精度mAP,單張檢測速度,召回率和精確率如表1所示。
表1 模型指標(biāo)
由表1知,PPYOLO-SE的平均精度比PPYOLO,SSD,YOLOv3和Faster-RCNN高,召回率和精確率分別達到97.62%和97.06%,比PPYOLO有所提升,單張圖片檢測速度0.6 s,相較于PPYOLO較慢,原因是SE模塊增加了推理時間。
由(1)和(2)兩式的定義可知模型的召回率和準(zhǔn)確率同時趨近1時模型精度最高,將模型召回率值作為坐標(biāo)系軸橫,準(zhǔn)確率作為縱軸繪制P-R曲線圖,5種網(wǎng)絡(luò)的P-R曲線圖如圖6所示。
圖6 各網(wǎng)絡(luò)P-R曲線圖
Fig.6 All networks P-R curve
模型訓(xùn)練完成后采用同一張小麥圖像對5種模型進行試驗測試,檢測結(jié)果如圖7所示,可以看出PPYOLO-SE模型較準(zhǔn)確的檢測出了圖中所有的麥穗頭部,相對于其他網(wǎng)絡(luò)錯誤較少,識別效果較好,而PPYOLO及其他三種模型存在漏檢、錯檢和重復(fù)檢測情況。綜合試驗結(jié)果及網(wǎng)絡(luò)模型評估,PPYOLO-SE網(wǎng)絡(luò)相較于PPYOLO檢測精度提升了2.14%,達到了95.75%,相較于其它3種常見的檢測網(wǎng)絡(luò)較高,檢測速度為每張圖像0.6 s,因此,改進的PPYOLO-SE網(wǎng)絡(luò)性能滿足實時識別要求。
圖7 各網(wǎng)絡(luò)檢測效果圖
針對復(fù)雜背景下大田小麥麥穗檢測識別和小麥估產(chǎn)問題,本研究構(gòu)建了基于PPYOLO網(wǎng)絡(luò)的小麥麥穗檢測模型,通過預(yù)處理和圖像增強處理,對采集到的小麥圖像進行數(shù)據(jù)集擴充,提高了麥穗識別模型的準(zhǔn)確性和魯棒性。在PPYOLO網(wǎng)絡(luò)的基礎(chǔ)上添加了注意力機制SE模塊得到PPYOLO-SE網(wǎng)絡(luò),并使用大田小麥數(shù)據(jù)集進行了訓(xùn)練。結(jié)果表明,PPYOLO-SE網(wǎng)絡(luò)構(gòu)建的小麥麥穗識別模型準(zhǔn)確率達到了95.75%,相較PPYOLO網(wǎng)絡(luò)構(gòu)建的模型提高了2.14%,較其他幾種網(wǎng)絡(luò)模型有明顯提高;PPYOLO-SE模型的單張圖像識別速度約為0.6 s。
構(gòu)建的PPYOLO-SE小麥檢測模型雖在測試集上取得了較高的檢測準(zhǔn)確率,但使用的訓(xùn)練數(shù)據(jù)集為小麥灌漿期采集的,小麥品種較為單一,模型在小麥其他生長時期或不同小麥品種的檢測任務(wù)中可能效果不佳。后期通過使用不同品種的小麥數(shù)據(jù)集訓(xùn)練可以使模型具有更高的適應(yīng)性。在當(dāng)前研究中,利用植物冠層多光譜進行產(chǎn)量估計取得了較好效果,若將深度學(xué)習(xí)與小麥冠層多光譜圖像結(jié)合進行小麥估產(chǎn),使用無人機代替人工采集圖像,就可以實現(xiàn)大范圍的小麥估產(chǎn)。
[1] 李毅念,杜世偉,姚敏,等.基于小麥群體圖像的田間麥穗計數(shù)及產(chǎn)量預(yù)測方法[J].農(nóng)業(yè)工程學(xué)報,2018,34(21):185-194
[2] 李易人.中外農(nóng)業(yè)信息化發(fā)展問題比較研究[D].洛陽:河南科技大學(xué),2014
[3] 鄭遠(yuǎn)攀,李廣陽,李曄.深度學(xué)習(xí)在圖像識別中的應(yīng)用研究綜述[J].計算機工程與應(yīng)用,2019,55(12):20-36
[4] 翁楊,曾睿,吳陳銘,等.基于深度學(xué)習(xí)的農(nóng)業(yè)植物表型研究綜述[J].中國科學(xué):生命科學(xué),2019,49(6):698-716
[5] Su D, Kong H, Qiao Y,. Data augmentation for deep learning based semantic segmentation and crop-weed classification in agricultural robotics [J]. Computers and Electronics in Agriculture, 2021,190:106418
[6] Jiang H, Zhang C, Qiao Y,. CNN feature based graph convolutional network for weed and crop recognition in smart farming [J]. Computers and Electronics in Agriculture, 2020,174:105450
[7] Xue T, Qiao Y, Kong H,. One-shot learning-based animal video segmentation [J]. IEEE Transactions on Industrial Informatics, 2022,18(6):3799-3807
[8] Hasan MM, Chopin JP, Laga H,. Detection and analysis of wheat spikes using Convolutional Neural Networks [J]. Plant Methods, 2018,14(1):100
[9] 劉哲,黃文準(zhǔn),王利平.基于改進K-means聚類算法的大田麥穗自動計數(shù)[J].農(nóng)業(yè)工程學(xué)報,2019,35(3):174-181
[10] He MX, Hao P, Xin YZ. A robust method for wheatear detection using UAV in natural scenes [J]. IEEE Access, 2020,8:189043-189053
[11] 張領(lǐng)先,陳運強,李云霞,等.基于卷積神經(jīng)網(wǎng)絡(luò)的冬小麥麥穗檢測計數(shù)系統(tǒng)[J].農(nóng)業(yè)機械學(xué)報,2019,50(3):144-150
[12] 高云鵬.基于深度神經(jīng)網(wǎng)絡(luò)的大田小麥麥穗檢測方法研究[D].北京:北京林業(yè)大學(xué),2019
[13] 鮑文霞,張鑫,胡根生,等.基于深度卷積神經(jīng)網(wǎng)絡(luò)的田間麥穗密度估計及計數(shù)[J].農(nóng)業(yè)工程學(xué)報,2020,36(21):186- 193,323
[14] 郝王麗,尉培巖,韓猛,等.基于YOLOv3網(wǎng)絡(luò)的小麥麥穗檢測及計數(shù)[J].湖北農(nóng)業(yè)科學(xué),2021,60(2):158-160,183
[15] 馬艷軍,于佃海,吳甜,等.飛槳:源于產(chǎn)業(yè)實踐的開源深度學(xué)習(xí)平臺[J].數(shù)據(jù)與計算發(fā)展前沿,2019,1(5):105-115
[16] 朱張莉,饒元,吳淵,等.注意力機制在深度學(xué)習(xí)中的研究進展[J].中文信息學(xué)報,2019,33(6):1-11
[17] Hu J, Li S, Gang S. Squeeze-and-Excitation Networks [C]. Salt Lake City USA: IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018:7132-7141
Field Wheat Ear Detection Based on Deep Learning
ZHANG Zhen-ming1, HUANG Zi-qi1, WANG Dong2, NING Tang-yuan3, SUN Gang4, JIANG Hong-hua1*
1.271018,2.712100,3.271018,4.100101,
Ear recognition of field wheat is an important step in wheat yield estimation. Accurate and rapid ear recognition is the premise of yield estimation. Using deep learning technology to recognize wheat ears in field image can greatly improve the efficiency of counting. Aiming at the problems of mutual occlusion and unequal illumination of wheat plants in the field, this paper added channel attention module to the PPYOLO network, and constructed a wheat ear detection network PPYOLO-SE that paid attention to the balance between recognition accuracy and speed. The network was compared with the original PPYOLO network, SSD, YOLOv3 and Faster-RCNN network in this paper. The recognition accuracy of the PPYOLO-SE is 95.75%, and the recognition time of each image is 0.6s, which is superior to other networks mentioned above, thus verifying the effectiveness of PPYOLO-SE model. This study improved the accuracy and efficiency of wheat ear recognition, reduced the labor cost, and provided a reference for the automatic management in wheat field.
Wheat ear detection; image enhancement; yield assessment; deep learning
TP399
A
1000-2324(2022)05-0790-06
2021-11-18
2022-02-10
山東省重大科技創(chuàng)新工程項目(2019JZZY010716); 山東省農(nóng)業(yè)重大應(yīng)用技術(shù)創(chuàng)新項目(SD2019NJ001)
張震明(1998-),男,在讀研究生,專業(yè)方向:農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)與工程. E-mail:2021120975@sdau.edu.cn
通訊作者:Author for correspondence. E-mail:j_honghua@sdau.edu.cn