趙艷杰,郭曉麗,劉洋,娜茜泰,李雅婷,張銘梓,秦文強(qiáng)
(內(nèi)蒙古大學(xué)電子信息工程學(xué)院,呼和浩特 010021)
圖像分割是理解和分析圖像的重要環(huán)節(jié),即基于圖像的顏色、灰度、紋理等特征對圖像的主體部分進(jìn)行提?。?],目前被廣泛的應(yīng)用于目標(biāo)識別、目標(biāo)追蹤、3D重構(gòu)等技術(shù)的基礎(chǔ)處理過程,本文主要的分割對象為野外采集的花朵型植物和葉片型植物。T.Saitoh等人[2]通過選擇局部代價(jià)與路徑長度之比最小的路徑來提取邊界,并開發(fā)了一種分割識別一體的界面,實(shí)驗(yàn)對600幅圖片進(jìn)行測試,獲得了97%的花朵分割準(zhǔn)確率,但是當(dāng)待分割主體中心處有清晰邊緣時(shí),會出現(xiàn)分割不完整需要手動(dòng)在邊界輸入分割點(diǎn)的情況。K Yang[3]等人通過收集標(biāo)注得到2500張復(fù)雜背景葉片圖像,分割和識別網(wǎng)絡(luò)分別為Mask-R-CNN和VGG16,網(wǎng)絡(luò)的第一部分選擇候選目標(biāo)區(qū)域,接著將目標(biāo)候選區(qū)域輸入網(wǎng)絡(luò)的第二部分產(chǎn)生葉片分割圖和識別率,最終的誤分率(Misclassification Error,ME)為1.15%,但其實(shí)驗(yàn)數(shù)據(jù)量不夠充足且模型訓(xùn)練和驗(yàn)證的時(shí)間相對較長。劉永波等人[4]使用兩組U-Net進(jìn)行并行計(jì)算,實(shí)現(xiàn)玉米的葉部病斑分割,其葉片分割的MIOU值達(dá)到96.33%,但其只考慮了對葉片的分割,很多病癥存在于植物果實(shí)等部位,不具有普適性。鄧穎等人[5]針對花量密集、多遮擋場景,證明當(dāng)以ResNeXt50為主卷積網(wǎng)絡(luò),Mask-R-CNN獲得較高準(zhǔn)確率和較低誤差率且模型運(yùn)行時(shí)間短,該方法創(chuàng)造性的實(shí)現(xiàn)了密集、大量場景中花朵數(shù)量的統(tǒng)計(jì)但其準(zhǔn)確率有待進(jìn)一步提升。鐘偉鎮(zhèn)等人[6]為對植物后續(xù)的生長狀態(tài)識別和監(jiān)控,提出一種基于Mask-RCNN網(wǎng)絡(luò)的分割和識別復(fù)雜背景多葉片的情況,其中將ResNet101和FPN作為系統(tǒng)的主干架構(gòu)用于圖片的特征提取,興趣區(qū)域(Region of Interest,ROI)分類器將最終的植物進(jìn)行分類,另外系統(tǒng)還設(shè)置了邊框回歸器來對目標(biāo)區(qū)域進(jìn)行位置校正,另一網(wǎng)絡(luò)分支為FCN網(wǎng)絡(luò)[7,8]來實(shí)現(xiàn)對植物圖像的分割,最終將識別和分割的網(wǎng)絡(luò)相結(jié)合生成一幅與原始圖片大小相同的輸出,但是其樣本圖片拍攝時(shí)對背景要求較高,模型效果容易受拍攝角度、光照等的影響。Hu J等人[9]提出一種在多通道關(guān)系上搭建的注意力模型[10-13],在分類任務(wù)中取得了更好的識別率,實(shí)驗(yàn)表明注意力機(jī)制的應(yīng)用可以有效的提高網(wǎng)絡(luò)整體性能。仝真等人[14]結(jié)合ResNet34[15]和U-Net網(wǎng)絡(luò)特點(diǎn)形成ResNet-U-Net模型對立木圖像進(jìn)行初步分割,后使用動(dòng)態(tài)閾值分割前景和背景,最后驗(yàn)證該方法誤分率降低了3.5%,運(yùn)用評分獎(jiǎng)懲思想,在立木分割中獲得較高準(zhǔn)確率和較強(qiáng)的魯棒性,但是當(dāng)光照出現(xiàn)過亮過暗的情況時(shí),其圖像分割誤差較大。
在對植物分割過程中其花朵和葉片都是主要研究部位,針對目前網(wǎng)絡(luò)對于兩種植物部位分割缺乏普適性,且植物生長環(huán)境中圖片數(shù)據(jù)取樣存在多尺度、分辨率等問題,本文提出多尺度Res-Att-UNet模型,實(shí)驗(yàn)表明該方法具有較強(qiáng)的泛化性,無論在花朵型數(shù)據(jù)集還是葉片型植物數(shù)據(jù)集中都表現(xiàn)出良好的收斂性、較高的精度等特點(diǎn)。
實(shí)驗(yàn)中整個(gè)項(xiàng)目流程如圖1所示,本文的工作內(nèi)容主要為第三部分即將無人機(jī)回傳的植物圖片進(jìn)行分割操作。分割作為后期識別的基礎(chǔ),分割的好壞直接決定了植物識別準(zhǔn)確率的高低。
圖1 項(xiàng)目實(shí)施過程
由于原始U-Net網(wǎng)絡(luò)在植物圖像分割過程中存在特征提取不夠全面、缺乏對多尺度植物圖像包容性等問題,并不適合實(shí)際項(xiàng)目需求,故基于U-Net模型做出如下三方面改進(jìn):
(1)殘差模塊:針對U-Net網(wǎng)絡(luò)層數(shù)少提取到的植物圖像特征信息并不充分,網(wǎng)絡(luò)中增加殘差模塊在提升網(wǎng)絡(luò)性能的同時(shí)避免了模型加深導(dǎo)致的梯度消失問題。
(2)多尺度機(jī)制:無人機(jī)在野外拍攝植物圖片時(shí),由于拍攝角度等原因會采集到不同尺度的圖像,在網(wǎng)絡(luò)的收縮部分引入多尺度輸入機(jī)制。輸入U(xiǎn)-Net網(wǎng)絡(luò)中的不同尺度數(shù)據(jù)與本身對應(yīng)通道信息融合可以提取到更加豐富的上下文信息,無論大尺度還是小尺度植物圖片均能取得較好的分割效果。
(3)雙通道注意力機(jī)制:為了使網(wǎng)絡(luò)對植物的主體部分實(shí)現(xiàn)更精準(zhǔn)的捕捉,在模型的擴(kuò)張部分增加雙通道注意力機(jī)制,可以有效提高整個(gè)網(wǎng)絡(luò)的分割準(zhǔn)確度。改進(jìn)后的U-Net模型結(jié)構(gòu)如圖2所示。
圖2 改進(jìn)后的U‐Net分割模型
由于原始U-Net網(wǎng)絡(luò)層數(shù)較少,對于植物圖像的特征信息提取不夠全面準(zhǔn)確,造成分割后的圖像粗糙且精度低,于是本文提出在原有的U-Net網(wǎng)絡(luò)中加入殘差塊,其獨(dú)特的shortcut連接方式,相當(dāng)于在網(wǎng)絡(luò)中加入了一條跳過權(quán)重層的新路徑,即在最終的輸出上新增一項(xiàng)沒有經(jīng)過權(quán)重衰減的梯度,可以融合植物圖像淺層和深層特征信息。目前殘差塊有兩層或者三層如圖3所示,由于該場景下兩層和三層殘差塊得到的分割準(zhǔn)確率相差十分微小,考慮減少訓(xùn)練時(shí)間復(fù)雜度,本文改進(jìn)的模型中采用兩層殘差塊。引入殘差塊解決了當(dāng)網(wǎng)絡(luò)加深到某一程度,由于梯度消失導(dǎo)致模型的分割效果出現(xiàn)不升反降的情況。
圖3 ResNet的殘差學(xué)習(xí)塊[16]
在原始U-Net模型中加入殘差塊,使得網(wǎng)絡(luò)模型在相對簡單的情況下[17],降低模型訓(xùn)練參數(shù)和訓(xùn)練時(shí)長且可以在本層的末端引入了初始端的植物特征信息,增強(qiáng)了各層之間的特征融合,并在一定程度上解決了網(wǎng)絡(luò)層加深后導(dǎo)致分割模型性能退化的問題,但是野外拍攝植物圖片時(shí)由于距離角度等原因得到的多尺度圖片同樣會影響分割精度,接下來將利用多尺度目標(biāo)分割模塊對該問題做出解決。
在實(shí)際項(xiàng)目中,無人機(jī)對植物的拍攝會得到不同尺度的植物圖像,這為植物圖像分割帶來了一定難度。從SPPNET[18]中將多尺度特征融合的思想引用至本文的模型中。為了得到不同尺度的輸入圖片,首先將已有的植物圖片通過連續(xù)下采樣之后得到分辨率逐漸降低的一系列圖像構(gòu)成圖像金字塔,其次將得到的多尺度圖像輸入構(gòu)建好的網(wǎng)絡(luò)提取不同尺度下的特征信息,最后使用相應(yīng)尺寸下的Label圖對植物分割結(jié)果進(jìn)行深監(jiān)督。
如圖2所示,模型的左側(cè)為多輸入的下采樣部分,通過對原始圖片進(jìn)行縮小,得到相當(dāng)于原始圖片大小1/2、1/4、1/8的三組數(shù)據(jù),原始尺寸圖像輸入網(wǎng)絡(luò)之后經(jīng)過兩個(gè)3×3的卷積層以及池化層得到1/2原始圖像大小的特征圖,此時(shí)輸入該層的多尺度圖像經(jīng)過兩層卷積以及批量歸一化,再經(jīng)過ReLu激活函數(shù)進(jìn)行非線性映射與上一層得到的特征圖進(jìn)行特征拼接,新得到的拼接特征再進(jìn)行兩次卷積、批量歸一化、激活函數(shù)、最大池化,以此類推。在模型的上采樣部分,對Sigmoid函數(shù)輸出的分割預(yù)測圖,使用與該分割圖相對應(yīng)尺度監(jiān)督標(biāo)簽樣本進(jìn)行深監(jiān)督,以此加快網(wǎng)絡(luò)收斂速度。
多尺度輸入機(jī)制解決了多尺度圖像對后期分割帶來的困難。融合了金字塔結(jié)構(gòu)的U-Net網(wǎng)絡(luò)把提取到的多尺度信息與本身網(wǎng)絡(luò)對應(yīng)通道信息進(jìn)行融合從而實(shí)現(xiàn)不同感受野的上下文信息融合以及植物圖像的表層輪廓信息和深層紋理信息的融合,無論是大尺度目標(biāo)分割還是小尺度目標(biāo)分割均可以獲得更完備的語義信息。但是由于U-Net獨(dú)特的結(jié)構(gòu)特征在對編碼和解碼特征進(jìn)行融合的同時(shí),一些對分割無用的信息同樣被傳遞到了解碼層造成分割精度降低,針對這樣的問題提出雙通道注意力機(jī)制來抑制分割過程的無關(guān)信息表達(dá)。
注意力模型最初是由人類的注意力機(jī)制啟發(fā)而來。仿照人類這一機(jī)制衍生的注意力模型首先被應(yīng)用于機(jī)器翻譯中,后期被廣泛的用于計(jì)算機(jī)、語音、自然語言處理等領(lǐng)域[19]。
由于傳統(tǒng)的U-Net網(wǎng)絡(luò)為融合更加豐富的信息,在模型的擴(kuò)張網(wǎng)絡(luò)部分會接收到模型收縮網(wǎng)絡(luò)中的淺層信息,在接收到有用特征信息的同時(shí)會接收到對最終分割目標(biāo)無用的特征信息,此時(shí)注意力機(jī)制的引入會讓網(wǎng)絡(luò)學(xué)習(xí)我們更為關(guān)注的區(qū)域,增強(qiáng)模型的分割性能。為此本文融合了兩種注意力機(jī)制用于提高網(wǎng)絡(luò)信息處理的效率和準(zhǔn)確性。
(1)通道注意力機(jī)制
通道注意力機(jī)制(Channel Attention,CA)[20]概念同樣來源于人類的注意力機(jī)制,在神經(jīng)網(wǎng)絡(luò)中,每一張輸入圖片可以表示為(W,H,C)形式,其中W和H分別為輸入圖像的長和寬,C為圖像的通道數(shù)。例如在植物圖像分割網(wǎng)絡(luò)中,輸入的初始圖像(256,256,3)通過不同卷積核來提取圖像中的特征信息,在經(jīng)過64的卷積核后變?yōu)椋?56,256,64)新的特征圖,64個(gè)特征圖中有的特征圖上占據(jù)的關(guān)鍵信息較多,有的對于最終的分割任務(wù)并沒有多大作用,此時(shí)就需要對各個(gè)特征圖進(jìn)行權(quán)值分配來調(diào)節(jié)對最終結(jié)果影響程度的比例。
在U-Net網(wǎng)絡(luò)中不同的特征通道對于最終的表現(xiàn)各不相同,同樣的在響應(yīng)的過程中很可能有一些重要的信息被削弱,在上采樣的自下而上的三層輸出端各加入通道注意力,使得特征通道對最終的分割表現(xiàn)有高響應(yīng)性。用x表示網(wǎng)絡(luò)模型某一層的特征圖,x=[x1,x2,...,xc]中的xi表示第i個(gè)特征圖,然后需要對c個(gè)特征圖做平均合并得到該通道的特征向量,之后通過兩個(gè)全連接層來得到各通道之間的關(guān)聯(lián)關(guān)系,最終使用Sigmoid函數(shù)將特征向量映射到[0,1]范圍之間。
本文的通道注意力模塊的設(shè)計(jì)如圖4所示:
圖4 通道注意力模塊
上述公式中,W表示該通道注意力模塊中所有的參數(shù),σ表示Sigmoid函數(shù),fc表示全連接層,δ為ReLu函數(shù),得到每層特征圖的CA系數(shù)后,對各層特征圖進(jìn)行加權(quán)得到最終輸出特征值:
通道注意力機(jī)制的本質(zhì)是給不同特征賦以不同的權(quán)重,從而學(xué)習(xí)對植物分割任務(wù)更有用的特征通道。
(2)空間注意力機(jī)制
在圖像處理過程中,低級特征往往存在很多圖像的細(xì)節(jié)信息,分割任務(wù)中我們更希望得到目標(biāo)區(qū)域和背景之間的邊界輪廓,對其余區(qū)域的細(xì)節(jié)紋理信息不進(jìn)行過多關(guān)注,即對圖像所有的空間信息不能進(jìn)行同等考慮。如果將通道注意力機(jī)制比作讓網(wǎng)絡(luò)去看什么,那空間注意力機(jī)制(Spatial Attention,SA)[21-22]則是讓網(wǎng)絡(luò)去看哪里,具體模型如圖5所示,模型中為了擴(kuò)大感受野和獲取更加豐富的全局特征,使用兩個(gè)相鄰的卷積核,最后使用Sigmoid函數(shù)將最終特征映射到[0,1]之間。
圖5 中的特征圖2 為經(jīng)過通道注意力機(jī)制得到的高維特征圖,特征圖1為當(dāng)前通道特征圖,現(xiàn)將涉及到的公式列舉如下:
圖5 空間注意力機(jī)制模塊
最終的輸出結(jié)果為:
其中的W為空間注意力模塊的參數(shù),conv1、conv2為卷積層,表示經(jīng)過通道注意力機(jī)制得到的高維特征圖,σ為Sigmoid 函數(shù),C1、C2為實(shí)現(xiàn)擴(kuò)大感受野及捕獲高維特征空間信息得到的兩分支卷積輸出值,xl為當(dāng)前通道的低維特征圖。在進(jìn)行圖像分割時(shí),注意力機(jī)制的引用可以更好的關(guān)注任務(wù)相關(guān)區(qū)域,提高模型的分割準(zhǔn)確率。
融合后的注意力模塊見圖6所示,其中高維輸出特征圖經(jīng)過通道注意力機(jī)制后進(jìn)行上采樣,再通過空間注意力模塊與經(jīng)過跳躍結(jié)構(gòu)后低維特征1相乘,相乘之后的結(jié)果與經(jīng)過上采樣后高維特征融合,得到處理之后的低維特征2,通道注意力機(jī)制和空間注意力機(jī)制的融合可以使模型在學(xué)習(xí)過程中抑制無用特征信息表達(dá)。
圖6 雙注意力通道模塊
為確保實(shí)驗(yàn)數(shù)據(jù)的有效性和準(zhǔn)確性,本文所有實(shí)驗(yàn)均采用同一計(jì)算機(jī)進(jìn)行實(shí)驗(yàn)完成,計(jì)算機(jī)的相關(guān)硬件配置及所用軟件環(huán)境情況如表1所示:
表1 實(shí)驗(yàn)中計(jì)算機(jī)的硬件配置和軟件環(huán)境
實(shí)驗(yàn)中所用到的花朵型植物數(shù)據(jù)集為Oxford 102flowers 見圖7 所示,由于該數(shù)據(jù)集最初用于植物的識別領(lǐng)域,故本文對該數(shù)據(jù)集中的8189張圖片進(jìn)行手動(dòng)分割,分割軟件采用圖像標(biāo)注軟件Labelme,葉片型植物數(shù)據(jù)集采用cvppp 數(shù)據(jù)集如圖8 所示,由于該數(shù)據(jù)集中只有810 張已經(jīng)分割好的圖片,為提高模型的泛化能力,對已有的圖片進(jìn)行圖像角度變換、翻轉(zhuǎn)、尺度變換、對比度變換、添加噪聲等[23]數(shù)據(jù)增強(qiáng)操作,將植物葉片數(shù)據(jù)集擴(kuò)充為8870張。
圖7 花朵部分?jǐn)?shù)據(jù)集
圖8 葉片部分?jǐn)?shù)據(jù)集
為了確保模型的有效性,本文采用多指標(biāo)來對分割結(jié)果進(jìn)行評估。其中FN表示被模型錯(cuò)誤的分為負(fù)例,實(shí)際是正例;FP為被模型錯(cuò)誤的分為正例,實(shí)際是負(fù)例;TP為被模型正確的分為正例,實(shí)際為正例;TN為被模型正確的分為負(fù)例,實(shí)際為負(fù)例。
(1)像素準(zhǔn)確率
像素準(zhǔn)確率(Pixel accuracy,PA)是一種比較簡單的評價(jià)指標(biāo),它表示的是像素被正確分類的個(gè)數(shù)與總像素的比值,即圖像中像素被正確分類的百分比,像素準(zhǔn)確率的表達(dá)式為:
(2)均交并比
均交并比(Mean Intersection over Union,MIOU)是對IOU 指標(biāo)優(yōu)化的結(jié)果,IOU 表示真實(shí)Label 值與預(yù)測值之間的交集同真實(shí)值與預(yù)測值之間并集的比值,而MIOU 是分別計(jì)算每個(gè)類的IOU,然后對所有類的IOU 求取均值,MIOU 被廣泛的用于各種分割場景中。MIOU的表達(dá)式為:
(3)F1 score(Dice score)
F1 score 又稱為Dice score,是統(tǒng)計(jì)學(xué)用來衡量二分類任務(wù)模型精確度的指標(biāo),其數(shù)學(xué)表達(dá)式為。
實(shí)驗(yàn)過程分為兩個(gè)部分,分別為花朵型植物數(shù)據(jù)集以及葉片型植物數(shù)據(jù)集在改進(jìn)后的U-Net 和FCN模型的對比情況,實(shí)驗(yàn)中使用的圖片大小均為256×256×3,在每層卷積操作之后都使用批量歸一化和Re-Lu 函數(shù),在模型訓(xùn)練過程中使用Adam 優(yōu)化器,初始學(xué)習(xí)率設(shè)置為2e-4,batch_size 設(shè)置為2,迭代次數(shù)為100次,參數(shù)設(shè)置見表2所示。
表2 訓(xùn)練過程部分超參數(shù)
(1)花朵型數(shù)據(jù)集各模型分割精度對比
圖9 為花朵型數(shù)據(jù)集在FCN-8s、原始U-Net、Res-Unet、多尺度Res-Unet、多尺度Res-Att-Unet 模型訓(xùn)練過程中Loss值的變化情況對比。
從圖9 可以看到在100次迭代范圍內(nèi)五條曲線的Loss值均經(jīng)過持續(xù)下降趨于收斂,證明模型對于該場景的植物圖像分割有效,其中多尺度Res-Att-Unet 模型在經(jīng)過短暫的訓(xùn)練之后達(dá)到收斂,模型的訓(xùn)練時(shí)間短且模型訓(xùn)練過程Loss曲線穩(wěn)定下降,模型穩(wěn)定性及用時(shí)均優(yōu)于其他模型。
圖9 網(wǎng)絡(luò)訓(xùn)練過程中各模型Loss值
表3為各訓(xùn)練模型最終在三種精度評價(jià)指標(biāo)上的表現(xiàn)情況,由表可知U-Net的整體表現(xiàn)要優(yōu)于FCN-8s模型,這是由于U-Net 獨(dú)特的結(jié)構(gòu)融合了植物圖像的淺層輪廓信息和深層紋理信息,改進(jìn)后的多尺度Res-Att-Unet模型像素準(zhǔn)確率、MIOU、F1 score指標(biāo)較原始U-Net網(wǎng)絡(luò)分別提高0.1274、0.1209、0.1402。
表3 花朵型數(shù)據(jù)集在不同模型上的精度表現(xiàn)情況
表3表明改進(jìn)后的模型在主體為花朵的植物數(shù)據(jù)集中取得較FCN-8s、原始U-Net模型更優(yōu)的分割準(zhǔn)確率。
現(xiàn)將測試圖片輸入已經(jīng)訓(xùn)練好的模型中觀測最終分割效果,各模型分割對比情況如圖10所示,其中(a)為原始圖像(b)原始圖像對應(yīng)圖片的Label圖(c)為FCN-8s模型分割圖(d)為U-Net模型分割圖像(e)為加入殘差模塊Res-Unet模型的分割效果圖(f)為加入殘差模塊及多輸入機(jī)制的多尺度Res-Unet模型的分割圖(g)為加入殘差模塊、多尺度輸入機(jī)制及雙通道注意力機(jī)制的多尺度Res-Att-UNet模型的分割效果。
圖10 各模型測試情況
觀測圖10,可以看到雖然FCN-8s模型融合了底層的特征信息,但是其對圖像細(xì)節(jié)區(qū)域的分割仍十分粗糙,U-Net網(wǎng)絡(luò)融合了各自通道的淺層信息,其分割效果雖優(yōu)于FCN-8s模型,但由第一幅圖像可以看出U-Net進(jìn)行分割的過程中仍將葉子誤分為花朵,在模型中加入殘差結(jié)構(gòu)和多尺度輸入機(jī)制后該現(xiàn)象有明顯好轉(zhuǎn)但是部分細(xì)節(jié)信息表現(xiàn)仍欠佳,在引入雙通道注意力機(jī)制后基本實(shí)現(xiàn)花朵主體部分的分割。第二張對于圖像主體和背景顏色差異非常小的植物圖片,原始U-Net模型和FCN-8s模型均將與分割主體顏色很相近的白云誤分為花朵,優(yōu)化后的模型該誤分現(xiàn)象被有效避免。
(2)葉片型數(shù)據(jù)集各模型分割精度對比
項(xiàng)目后續(xù)的植物識別操作主要是對植物的主體部分進(jìn)行特征識別,由于有的植物并沒有花朵結(jié)構(gòu),所以對葉片型植物進(jìn)行分割同樣十分必要?,F(xiàn)就葉片型植物在各模型上進(jìn)行分割對比驗(yàn)證。圖11為FCN-8s和多尺度Res-Att-Unet模型在訓(xùn)練過程中損失函數(shù)的變化情況??梢钥吹絻蓷l曲線在開始時(shí)損失值快速下降,當(dāng)下降到一定程度曲線趨于平緩,證明模型在訓(xùn)練過程中均達(dá)到收斂,但是多尺度Res-Att-Unet模型收斂時(shí)間和最終的損失值均優(yōu)于FCN-8s模型。
圖11 FCN‐8s和改進(jìn)U‐Net訓(xùn)練過程Loss值
表4為FCN經(jīng)過三種不同上采樣得到的模型與已改進(jìn)的U-Net模型進(jìn)行分割效果的對比情況??梢钥吹紽CN-32s模型是直接將conv7層的特征圖進(jìn)行32倍上采樣,其準(zhǔn)確率分別為0.8719、0.7119、0.8986。對于FCN-16s的模型,將conv7進(jìn)行一次卷積操作,得到的特征圖的大小為conv7的2倍大小,此時(shí)2倍大小的conv7與pool4的特征圖大小相同,將2×conv7與pool4進(jìn)行拼接,并進(jìn)行16倍的上采樣后得到的分割準(zhǔn)確率分別為0.9233、0.7284、0.9123。對于FCN-8s模型先將conv7進(jìn)行4倍的上采樣,pool4經(jīng)過2倍的上采樣,再將pool3、2×pool4、4×conv7進(jìn)行拼接,最后增加一個(gè)8倍的上采樣層得到和原始圖片相同大小的圖像。此時(shí)的準(zhǔn)確率分別為0.9354、0.7389、0.9225。當(dāng)在模型中增加多尺度殘差雙注意力機(jī)制后準(zhǔn)確率則達(dá)到了0.9462、0.8232、0.9365。相比表現(xiàn)效果最佳的FCN-8s模型準(zhǔn)確率分別提高0.0108、0.0843、0.014。
表4 葉片型植物數(shù)據(jù)集在不同模型上的精度表現(xiàn)情況
現(xiàn)將葉片測試圖片分別輸入訓(xùn)練好的FCN-8s、FCN-16s、FCN-32s 和多尺度Res-Att-Unet 模型得到圖12。因?yàn)镕CN 模型在進(jìn)行像素分類的過程中沒有充分考慮像素與像素之間的關(guān)系,其分割邊緣存在明顯鋸齒狀。采用多尺度Res-Att-Unet模型來進(jìn)行葉片圖像的分割,得到的葉片分割圖像與Label 圖像非常接近,這是因?yàn)槎喑叨萊es-Att-Unet 模型在模型構(gòu)建過程中融合了多層信息,且多尺度機(jī)制可以學(xué)習(xí)更加豐富的尺度信息,雙通道注意力機(jī)制使模型更加專注圖像分割主體,最終得到的分割圖更加細(xì)膩精確。實(shí)驗(yàn)證明改進(jìn)后的多尺度Res-Att-Unet模型在葉片型植物分割中同樣取得不錯(cuò)的效果,達(dá)到預(yù)期分割要求。
圖12 改進(jìn)后的U‐Net與FCN三種模型的測試效果
本文從實(shí)際項(xiàng)目需求背景出發(fā),考慮到無人機(jī)采集到的野外植物圖片存在多尺度問題,以及目前的網(wǎng)絡(luò)對于花朵植物和葉片型植物缺乏普適性,對比驗(yàn)證了U-Net 網(wǎng)絡(luò)和FCN 網(wǎng)絡(luò)在兩部分?jǐn)?shù)據(jù)集上的表現(xiàn),對表現(xiàn)較優(yōu)的U-Net 模型做出如下改進(jìn),針對其網(wǎng)絡(luò)層數(shù)少導(dǎo)致分割精度低的問題,在網(wǎng)絡(luò)中加入殘差塊;其次野外植物拍攝的多尺度問題通過帶監(jiān)督的多尺度模塊得以解決;最后由于U-Net 網(wǎng)絡(luò)自身的不足在融合底層有利信息的同時(shí)也融合到無關(guān)特征的問題,在網(wǎng)絡(luò)解碼部分加入雙通道注意力機(jī)制。最終改進(jìn)的多尺度Res-Att-Unet模型無論對于花朵型植物還是葉片型植物都具有不錯(cuò)的分割效果,證明了該分割算法在本項(xiàng)目背景下具有一定的可行性和有效性。
接下來的工作進(jìn)一步探究將項(xiàng)目中無人機(jī)的植物圖片自主采集、雙目標(biāo)定算法確定植物的具體位置、本文的植物圖片分割、后續(xù)植物種類的識別這四個(gè)部分更好的結(jié)合起來,實(shí)現(xiàn)全自動(dòng)植物種類識別,另外目前對于卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練往往都需要大量的數(shù)據(jù)集進(jìn)行深監(jiān)督,但是在很多植物生長的環(huán)境中獲取大量樣本本身不是一件容易的事,在以后將針對小樣本數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練研究。