梁俊歡,董 巒,孫宗玖,馬海燕,艾尼玩·艾買爾,阿 仁,魏 鵬,田 聰,阿斯婭·曼力克,鄭逢令*
(1.新疆農(nóng)業(yè)大學(xué)草業(yè)學(xué)院,烏魯木齊 830052;2.新疆畜牧科學(xué)院草業(yè)研究所,烏魯木齊 830057;3.新疆畜牧科學(xué)院天山北坡草地生態(tài)環(huán)境野外定位觀測(cè)研究站,烏魯木齊 830057;4.新疆農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,烏魯木齊 830052)
草原是我國(guó)重要的戰(zhàn)略資源之一,近幾年由于載畜量不斷增加,草地植被遭受一定影響,毒害草肆意蔓延。毒害草不僅破壞生態(tài)系統(tǒng)的平衡,而且也制約了畜牧業(yè)的發(fā)展[1]。目前,新疆的毒害草危害面積居全國(guó)首位,草地資源受到破壞,加之過(guò)度放牧和生態(tài)平衡破壞,毒害草如毒瘤般危害草原生長(zhǎng)環(huán)境,因此,毒害草防除檢測(cè)工作刻不容緩[2]。白喉烏頭(Aconitum leucostomum)是伊犁的主要毒害草之一,其中伊犁州東部地區(qū)白喉烏頭分布面積達(dá)到了1 192.47 km2[3]??焖儆行У谋O(jiān)測(cè)白喉烏頭分布和長(zhǎng)勢(shì)對(duì)防治白喉烏頭尤為重要。
傳統(tǒng)的毒害草調(diào)查耗時(shí)費(fèi)力,只能獲取點(diǎn)狀數(shù)據(jù),應(yīng)用衛(wèi)星遙感技術(shù),可在大范圍內(nèi)監(jiān)測(cè)草原,但分辨率差、易受天氣影像而且時(shí)效性不高[4]。近幾年,隨著無(wú)人機(jī)技術(shù)的不斷發(fā)展,基于無(wú)人機(jī)搭載傳感器的低空遙感技術(shù)在精度、尺度和靈活等方面優(yōu)勢(shì)明顯,擁有廣泛的應(yīng)用前景[5,6]。韓蕊等[7]利用無(wú)人機(jī)影像結(jié)合深度學(xué)習(xí)的方法準(zhǔn)確獲取柑橘樹(shù)冠范圍,在調(diào)查精度和調(diào)查效率上兩者兼得。張瑞杰等[8]利用無(wú)人機(jī)影像和深度學(xué)習(xí)技術(shù)幫助農(nóng)業(yè)管理人員有效的完成大范圍油菜作物的長(zhǎng)勢(shì)情況監(jiān)測(cè)。
無(wú)人機(jī)影像數(shù)據(jù)空間分辨率較高,結(jié)合深度學(xué)習(xí)提取無(wú)人機(jī)影像的目標(biāo)特征進(jìn)行識(shí)別,可以獲得草原毒害草分布情況[9]。近年來(lái),隨著深度學(xué)習(xí)[10]不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)廣泛運(yùn)用于目標(biāo)檢測(cè)領(lǐng)域[11]。目前,目標(biāo)檢測(cè)算法有兩類,分別是One-stage目標(biāo)檢測(cè)算法和Two-stage目標(biāo)檢測(cè)算法兩類代表算法。第一類目標(biāo)檢測(cè)算法,采用端到端的檢測(cè)方法,速度快,但是精度不高,代表算法有YOLO(you only look once)[12]、SSD[13];第二類目標(biāo)檢測(cè)算法相對(duì)于第一類,能實(shí)現(xiàn)更高的檢測(cè)精度[14],滿足對(duì)不同環(huán)境下精度較高的要求,代表算法有Fast R-CNN[15]、Faster R-CNN[16]以及本文所采用的方法Mask-RCNN[17]基于卷積神經(jīng)網(wǎng)絡(luò)和RPN網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法。Mask-RCNN在Faster R-CNN基礎(chǔ)上增加了語(yǔ)義分割的分支,不僅能實(shí)現(xiàn)目標(biāo)的具體類別和物體框,而且能對(duì)目標(biāo)實(shí)例分割。鐘偉鎮(zhèn)等[18]開(kāi)展了基于Mask-RCNN深度學(xué)習(xí)分割和識(shí)別植物葉片相關(guān)研究,且識(shí)別效果良好,表明該算法具有強(qiáng)大的遷移能力。喬虹等[19]利用Mask-RCNN算法對(duì)不同天氣下正常的葡萄葉片、病害葉片以及不同品種的葡萄葉片圖像進(jìn)行分割,證明該方法在不同天氣及復(fù)雜背景下的實(shí)例分割魯棒性較強(qiáng)。
本研究通過(guò)無(wú)人機(jī)正射影像得到白喉烏頭的影像數(shù)據(jù)集,通過(guò)對(duì)數(shù)據(jù)集裁剪、標(biāo)注一系列處理,采用Mask-RCNN目標(biāo)檢測(cè)算法,對(duì)比研究ResNet50和ResNet101兩種主干網(wǎng)絡(luò)的優(yōu)缺點(diǎn),篩選出檢測(cè)精度高的模型應(yīng)用于白喉烏頭自動(dòng)檢測(cè),為毒害草監(jiān)測(cè)防治毒害草工作提供數(shù)據(jù)支撐和技術(shù)參考。
研究區(qū)位于新疆伊寧縣托乎拉蘇牧場(chǎng),環(huán)境為山地,地勢(shì)崎嶇,海拔高度約在900~1 700 m,平均氣溫10℃左右,氣候類型是溫帶大陸性氣候,光照充足、熱量充沛、晝夜溫差大、降水充沛。
研究區(qū)域?yàn)樯降?,地?shì)崎嶇。無(wú)人機(jī)采用的是極俠無(wú)人機(jī)(Xmission),攜帶正射相機(jī),于2021年6月25日,天氣晴朗無(wú)風(fēng)的環(huán)境下航拍白喉烏頭。獲取地面分辨率為3 cm的正射影像,飛行高度150 m,航拍航向重復(fù)50%。無(wú)人機(jī)數(shù)據(jù)覆蓋區(qū)域設(shè)定為2 km×2 km,影像為TIFF圖片格式。該研究區(qū)白喉烏頭均勻分布,株高50 cm左右,白喉烏頭跟草原背景的顏色相似、但株型較大。
1.2.1 數(shù)據(jù)集制作
獲取正射影像經(jīng)初步篩選后,使用Photoshop 2020把影像裁剪為512×512像素大小的樣本200張作為Faster-RCNN的數(shù)據(jù)集,單株白喉烏頭總計(jì)5 600株。采用LabelIme軟件標(biāo)注數(shù)據(jù)集,然后將標(biāo)注好的數(shù)據(jù)集轉(zhuǎn)換成網(wǎng)絡(luò)訓(xùn)練所用的COCO數(shù)據(jù)集格式,最后按照8∶2隨機(jī)劃分訓(xùn)練集和測(cè)試集。
計(jì)算機(jī)的顯存和內(nèi)存要滿足各個(gè)算法的需要,本實(shí)驗(yàn)處理器Intel(R)Core(TM)i7-6700KCPU@4.00GHz,GPU是NVIDIA GeForce GTX 2080Ti,顯存為11G。下載Anaconda3,在此基礎(chǔ)上搭建Pytorch深度學(xué)習(xí)框架,并用Python語(yǔ)言編程,完成模型的訓(xùn)練和測(cè)試工作。
1.4.1 Mask-RCNN算法
如圖1所示,白喉烏頭數(shù)據(jù)集圖像經(jīng)過(guò)一系列預(yù)處理后輸入到網(wǎng)絡(luò)CNN中,首先利用預(yù)訓(xùn)練的模型特征提取網(wǎng)絡(luò)ResNet50+FPN或者ResNet101+FPN提取相應(yīng)的特征信息;其次輸入到區(qū)域建議網(wǎng)絡(luò)RPN生成多個(gè)對(duì)應(yīng)白喉烏頭圖像候選區(qū)ROI,特征圖feature map和ROI區(qū)域,此時(shí)ROI區(qū)域已經(jīng)將一些多余的信息過(guò)濾,這些信息特征共同進(jìn)入感興趣區(qū)域(Region of Interest Align)RoIAlign層,得到將特征圖和原始圖像像素完全對(duì)應(yīng),生成像素信息,最后在輸入到全連接層(FCLayers)和全卷積網(wǎng)絡(luò)(FCN)對(duì)白喉烏頭進(jìn)行目標(biāo)分類和實(shí)例分割,實(shí)現(xiàn)對(duì)目標(biāo)類別、邊界框和掩碼mask。
圖1 Mask-RCNN模型示意圖
由于需要對(duì)白喉烏頭的識(shí)別結(jié)果評(píng)價(jià),所以評(píng)價(jià)指標(biāo)需要同時(shí)考慮準(zhǔn)確率和召回率AP(Average Precision)值來(lái)衡量,AP可以測(cè)試當(dāng)前訓(xùn)練模型類別的好壞。AP是由準(zhǔn)確率(Precision)和召回率(Recall)組成的,其中準(zhǔn)確率代表預(yù)測(cè)結(jié)果有多少是正確的,而召回率表示正確的結(jié)果有多少被找到了,AP的值越高,那么模型的識(shí)別準(zhǔn)確率就越好。
P表示為準(zhǔn)確率,R表示為召回率。TP表示為實(shí)際為白喉烏頭且被模型預(yù)測(cè)為白喉烏頭的個(gè)數(shù),即正樣本被檢測(cè)為正樣本;FP為實(shí)際為背景卻被模型預(yù)測(cè)為白喉烏頭的個(gè)數(shù),即負(fù)樣本被檢測(cè)出為正樣本;FN為實(shí)際為白喉烏頭但沒(méi)有被識(shí)別為白喉烏頭的個(gè)數(shù),即正樣本未被檢測(cè)出為正樣本。
采用ResNet50和ResNet101預(yù)訓(xùn)練模型進(jìn)行模型訓(xùn)練,對(duì)預(yù)先處理好白喉烏頭的數(shù)據(jù)集,以單分類進(jìn)行訓(xùn)練識(shí)別。訓(xùn)練過(guò)程利用Tensorboard繪制兩個(gè)訓(xùn)練的loss曲線圖,通過(guò)曲線可以看出訓(xùn)練模型的損失值是否收斂,模型訓(xùn)練的好壞和收斂速度的快慢。
2.1.1 訓(xùn)練誤差
如圖2所示是ResNet50和ResNet101識(shí)別白喉烏頭的總體損失值,通過(guò)對(duì)比可以看到,ResNet50相比ResNet101損失值下降明顯,在迭代36 000次時(shí)兩個(gè)最終loss值分別為0.245和0.268,兩個(gè)loss都小于0.3,兩者之間沒(méi)有很大的區(qū)別,在迭代25 000之前訓(xùn)練平滑且訓(xùn)練正常,迭代25 000次之后仍能平滑下降,直到下降到0.3以下。模型訓(xùn)練迭代30 000次時(shí)擬合,繼續(xù)訓(xùn)練會(huì)導(dǎo)致過(guò)擬合,魯棒性較差。ResNet50相比ResNet101主干網(wǎng)絡(luò)更容易收斂。
圖2 ResNet50和ResNet101的訓(xùn)練損失值
如圖3所示,ResNet50和ResNet101識(shí)別白喉烏頭的訓(xùn)練精度,通過(guò)對(duì)比,訓(xùn)練精度在迭代36 000次時(shí)精度分別是94.79%和93.88%,隨著迭代次數(shù)的不斷增加其精度也在不斷上升,迭代次數(shù)在25 000次之前訓(xùn)練精度在顯著性增加,直到迭代25 000次后精度增加緩慢,當(dāng)?shù)_(dá)到一定值精度時(shí)不再增加,從整體而言,ResNet50的訓(xùn)練精度要高于ResNet101。
圖3 ResNet50和ResNet101的訓(xùn)練精度
2.1.2 訓(xùn)練精度
如表1所示,模型訓(xùn)練之后通過(guò)測(cè)試得到ResNet50和ResNet101的結(jié)果分別是66.0%和65.3%,ResNet50主干網(wǎng)絡(luò)比ResNet101的mAP值高0.7%。特征提取網(wǎng)絡(luò)的深度越深時(shí),對(duì)于一些少量數(shù)據(jù)集在深度較深的網(wǎng)絡(luò)中并沒(méi)有明顯的提升。實(shí)驗(yàn)證明:少量數(shù)據(jù)集不適宜深度較深的網(wǎng)絡(luò),數(shù)據(jù)集較少時(shí)訓(xùn)練采用較深的網(wǎng)絡(luò)識(shí)別性能并不能得到滿意的結(jié)果[20]。
表1 模型性能評(píng)價(jià)結(jié)果
圖4、圖5、圖6、圖7分別為ResNet50和ResNet101不同像素的識(shí)別結(jié)果,從整體上看兩種不同ResNet網(wǎng)絡(luò)不同像素之間識(shí)別效果相比,兩者之間差異不明顯。圖4和圖6分別是1024×1024像素的圖像測(cè)試識(shí)別且識(shí)別效果很好,雖然有蓋度較小的白喉烏頭沒(méi)有識(shí)別出來(lái),但總體識(shí)別效果很好;圖5和圖7分別是512×512像素的圖像識(shí)別效果,基本上可以實(shí)現(xiàn)對(duì)白喉烏頭的精準(zhǔn)識(shí)別。模型訓(xùn)練和測(cè)試時(shí)用512×512像素的圖像進(jìn)行測(cè)試識(shí)別效果表現(xiàn)好。
圖4 基于主干網(wǎng)絡(luò)ResNet50識(shí)別效果(1024×1024像素)
圖5 基于主干網(wǎng)絡(luò)ResNet50識(shí)別效果(512×512像素)
圖6 基于主干網(wǎng)絡(luò)ResNet101識(shí)別效果(1024×1024像素)
圖7 基于主干網(wǎng)絡(luò)ResNet101識(shí)別效果(512×512像素)
應(yīng)用基于ResNet50和ResNet101主干網(wǎng)絡(luò)的Mask-RCNN算法進(jìn)行白喉烏頭的實(shí)例分割,識(shí)別單株白喉烏頭并得到目標(biāo)的具體位置,模型在測(cè)試集上的識(shí)別精度ResNet50和ResNet101分別是66.0%和65.3%,基本上能精準(zhǔn)識(shí)別白喉烏頭。張磊[21]同樣通過(guò)Mask-RCNN算法使用ResNet50作為提取青椒目標(biāo)檢測(cè)模型,訓(xùn)練識(shí)別后mAP值為92.7%,能夠滿足機(jī)器人對(duì)果實(shí)目標(biāo)實(shí)時(shí)識(shí)別的要求,其mAP值與本文相差較大,主要是因?yàn)榘缀頌躅^在無(wú)人機(jī)正射影像中的像素大小基本上在20左右,小目標(biāo)造成識(shí)別較困難;成偉[22]在復(fù)雜背景下對(duì)番茄植株莖稈進(jìn)行識(shí)別,類別為兩類,分別是主莖和分叉莖,以Mask-RCNN算法和主干網(wǎng)絡(luò)ResNet50訓(xùn)練識(shí)別后番茄的莖稈的mAP值68%,識(shí)別效果與本實(shí)驗(yàn)相差不大;于晨[23]基于Mask-RCNN實(shí)例分割的方法同樣利用ResNet殘差網(wǎng)絡(luò)對(duì)礦山環(huán)境遙感地物識(shí)別,基本實(shí)現(xiàn)了礦山地物的目標(biāo)識(shí)別和分割。李大軍等[24]也是采用無(wú)人機(jī)影像獲取建筑物的遙感影像,在Mask-RCNN算法中以ResNet101主干網(wǎng)絡(luò)進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果滿足對(duì)建筑物的識(shí)別。
本文應(yīng)用實(shí)例分割算法Mask-RCNN以ResNet50和ResNet101主干網(wǎng)絡(luò)進(jìn)行特征提取,在白喉烏頭正射影像數(shù)據(jù)集上訓(xùn)練深度學(xué)習(xí)模型。以mAP為評(píng)價(jià)指標(biāo),ResNet50的識(shí)別精度高于ResNet101;從識(shí)別效果看,基于兩個(gè)主干網(wǎng)絡(luò)的Mask-RCNN算法識(shí)別模型能夠?qū)崿F(xiàn)無(wú)人機(jī)影像中單株白喉烏頭較為準(zhǔn)確的實(shí)例分割,基本能勝任自動(dòng)識(shí)別和快速監(jiān)測(cè)毒害草白喉烏頭的任務(wù)。