趙露露 ,鄧寒冰 ,2※,周云成 ,2,苗 騰 ,2,趙 凱 ,楊 景 ,張羽豐
(1. 沈陽農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,沈陽 110866;2. 遼寧省農(nóng)業(yè)信息化工程技術(shù)研究中心,沈陽 110866)
隨著信息技術(shù)與農(nóng)業(yè)生產(chǎn)過程的不斷融合,計(jì)算機(jī)視覺技術(shù)被廣泛用于獲取植物表型信息。智能化植物表型監(jiān)測技術(shù)能夠監(jiān)測農(nóng)作物生長情況,通過分析表型特征并采取對策,有效緩解由氣候變化、耕地減少等原因?qū)е碌募Z食安全問題,加速育種與現(xiàn)代化農(nóng)業(yè)的進(jìn)步。相較于人工獲取植物表型信息,傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)可以針對目標(biāo)區(qū)域提供一種基于圖像的非接觸式檢測手段[1],如基于Otsu 與分水嶺結(jié)合的兩級分割算法結(jié)合梯度Hough 圓變換[2],基于LAB 顏色空間的圖像分割[3]、基于統(tǒng)計(jì)直方圖K-means 聚類算法的圖像聚類分割[4]等,這些方法可以在圖像背景信息相對簡單時(shí)發(fā)揮分割優(yōu)勢。而當(dāng)圖像背景復(fù)雜度提高時(shí),可以使用基于樸素貝葉斯分類的圖像分割方法,通過引入概率因素提高分割準(zhǔn)確率,實(shí)現(xiàn)復(fù)雜背景下植物特定區(qū)域的信息提取[5]。另外,基于多階段柯西灰狼算法的多閾值圖像分割優(yōu)化器也成功實(shí)現(xiàn)了分割[6]。然而,利用傳統(tǒng)計(jì)算機(jī)視覺方法獲得較好的分割結(jié)果需要圖像質(zhì)量、構(gòu)圖內(nèi)容、主要目標(biāo)占比和位置等素滿足一定要求,因此這些方法往往不具有普適性和通用性。
近些年深度學(xué)習(xí)技術(shù)蓬勃發(fā)展,特別是在圖像的實(shí)例分割技術(shù)領(lǐng)域取得了實(shí)質(zhì)性的進(jìn)步[7]。自HARIHARAN等[8]首次利用深度學(xué)習(xí)模型同步實(shí)現(xiàn)“目標(biāo)檢測+分割”任務(wù)以來,基于深度學(xué)習(xí)技術(shù)的實(shí)例分割方法開始迅速發(fā)展,并通過不斷優(yōu)化使實(shí)例分割模型的性能得到顯著提升[9-12]。研究人員利用圖像實(shí)例分割技術(shù)能夠?qū)崿F(xiàn)更精準(zhǔn)的單體植株、葉片、器官、果實(shí)等信息提取,通過使用深度卷積神經(jīng)網(wǎng)絡(luò)提高實(shí)例分割模型對圖像復(fù)雜背景的適應(yīng)能力[13-14]。如孫紅等[15]利用SSDLite-MobileDet網(wǎng)絡(luò)模型實(shí)現(xiàn)了玉米冠層的快速檢測;王璨等[16]通過改進(jìn)雙注意力機(jī)制結(jié)合形態(tài)學(xué)處理方法,實(shí)現(xiàn)玉米圖像中的雜草目標(biāo)分割;TURGUT 等[17]采用基于注意力機(jī)制的深度學(xué)習(xí)架構(gòu),通過提取上下文特征并進(jìn)行特征傳播,以分層方式處理點(diǎn)區(qū)域?qū)崿F(xiàn)植物器官分割;ZENKL 等[18]利用DeepLab V3+模型實(shí)現(xiàn)室外條件下冬小麥植物分割。
然而,目前的深度學(xué)習(xí)方法多采用全監(jiān)督學(xué)習(xí)模式,即模型訓(xùn)練時(shí)需要提供“圖像+像素級標(biāo)簽”,模型精度依賴于大規(guī)模的、精細(xì)到像素粒度的人工標(biāo)注數(shù)據(jù)集。而植物表型領(lǐng)域的公開數(shù)據(jù)集較少,且數(shù)據(jù)種類單一,不具有普適性,研究人員往往要根據(jù)需求創(chuàng)建個(gè)性化的數(shù)據(jù)集,導(dǎo)致人工標(biāo)注成本一直居高不下。為了緩解這一問題,一些研究人員嘗試降低模型訓(xùn)練過程對標(biāo)簽精度的要求,通過使用圖像級標(biāo)簽[19-22]或邊界框標(biāo)簽[23-25]這種非精準(zhǔn)標(biāo)簽訓(xùn)練深度學(xué)習(xí)模型,在弱監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)的模式下實(shí)現(xiàn)分割,DiscoBox[26]以及FreeSOLO[27]等方法顯著縮小了與完全監(jiān)督學(xué)習(xí)的差距,為農(nóng)業(yè)圖像實(shí)例分割技術(shù)提供了有效的技術(shù)方法;趙亞楠等提出基于邊界框標(biāo)注掩膜的深度卷積神經(jīng)網(wǎng)絡(luò),利用偽標(biāo)簽代替像素級標(biāo)簽作為訓(xùn)練樣本實(shí)現(xiàn)玉米植株圖像的高精度分割[28];ZHUANG 等[29]利用深度卷積神經(jīng)網(wǎng)絡(luò),基于框級標(biāo)注和顏色相似性的弱監(jiān)督學(xué)習(xí)方式對綠葉蔬菜實(shí)現(xiàn)了實(shí)例分割;周云成等[30]提出基于稠密卷積自編碼器的無監(jiān)督深度估計(jì)模型,以番茄植株的雙目圖像為訓(xùn)練數(shù)據(jù),通過估計(jì)深度誤差以及閾值的精度為依據(jù)實(shí)現(xiàn)番茄植株圖像的深度估計(jì);LU 等[31]以無人機(jī)航拍圖像獲取冠層面積、冠幅、位置等信息,提出一種無監(jiān)督圖像分割方法,用于在自然光照條件下快速獲取果樹冠層。
實(shí)際上,弱監(jiān)督學(xué)習(xí)仍然依賴于包含強(qiáng)大本地化信息的標(biāo)注,盡管采取邊界框標(biāo)注圖像的時(shí)間少于像素級標(biāo)注,但為了獲取更精準(zhǔn)的分割結(jié)果,往往需要大量的訓(xùn)練數(shù)據(jù),對于大田玉米圖像,由于拍攝中存在光照、葉片重疊、雜草等影響,弱監(jiān)督學(xué)習(xí)需要的標(biāo)簽依舊存在標(biāo)注成本高的問題。而無監(jiān)督學(xué)習(xí)不存在標(biāo)注成本問題,但是由于沒有標(biāo)簽對目標(biāo)區(qū)域的范圍界定,其分割精度不足以支撐對植物特征信息的描述,尤其是玉米植株這種形態(tài)復(fù)雜的對象,其分割效果不具優(yōu)勢,因此弱監(jiān)督與無監(jiān)督學(xué)習(xí)不適用于大部分的農(nóng)作物圖像實(shí)例分割任務(wù)。為了有效降低人工標(biāo)注成本,又能較好地描述圖像細(xì)節(jié)得到高精度的分割結(jié)果,本研究設(shè)計(jì)了一種基于自生成標(biāo)簽的實(shí)例分割網(wǎng)絡(luò),以弱監(jiān)督實(shí)例分割模型為基礎(chǔ),在主干網(wǎng)絡(luò)前加入弱標(biāo)簽自生成模塊,利用顏色空間轉(zhuǎn)換、輪廓跟蹤和最小外接矩形在玉米苗期圖像(頂視圖)中生成目標(biāo)邊界框(自生成標(biāo)簽),利用自生成標(biāo)簽代替人工標(biāo)簽參與弱監(jiān)督模型訓(xùn)練,最終在無人工標(biāo)簽條件下實(shí)現(xiàn)玉米苗期圖像的實(shí)例分割。
本試驗(yàn)選擇的玉米品種為“先玉 335”,該品種的植物性狀表現(xiàn)為在幼苗期長勢較強(qiáng),成株葉片數(shù)在 20 片左右,具有高抗莖腐病,中抗黑粉病、彎孢菌葉斑病,大斑病、小斑病、矮花葉病等,其優(yōu)越的抗病性可以讓玉米在其營養(yǎng)生長期保持個(gè)體健康和株形完整。玉米播種時(shí)間在 4 月份,播種方式為機(jī)播,播種行距為 50 cm,株距為 30 cm。
在苗期階段(單體株高在20~30cm,葉片數(shù)3-4 葉),試驗(yàn)數(shù)據(jù)由無人機(jī)(大疆“精靈4-RTK”)高空俯視平行地面拍攝獲取。為保證玉米植株的基本形態(tài)穩(wěn)定以及數(shù)據(jù)采集時(shí)光照條件的相似性,航拍時(shí)選擇在晴朗無風(fēng)的天氣,采集時(shí)間在9:00-11:00,無人機(jī)航飛高度距地面8m,采集數(shù)據(jù)過程中,飛行航線自動覆蓋玉米植株生長的整片試驗(yàn)田。
試驗(yàn)中獲取的原始圖像像素大小為5472×3078,人工篩選出500 張滿足試驗(yàn)要求玉米苗期圖像(俯視圖且去除擁有大面積雜草的圖像),每張圖像包含7~9 列玉米幼苗。為了適應(yīng)模型的網(wǎng)絡(luò)深度,降低模型的過擬合幾率,提高網(wǎng)絡(luò)的泛化能力,試驗(yàn)對基礎(chǔ)數(shù)據(jù)集中的原始圖像進(jìn)行數(shù)據(jù)增強(qiáng)處理。對全部原始圖像進(jìn)行鏡像翻轉(zhuǎn)、添加高斯噪聲、隨機(jī)改變亮度等操作實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),其中增強(qiáng)操作可以疊加使用,默認(rèn)至少有一種增強(qiáng)生效,每張圖像增強(qiáng)兩次,將數(shù)據(jù)集擴(kuò)增到1 500 張,在基礎(chǔ)數(shù)據(jù)集和數(shù)據(jù)增強(qiáng)的數(shù)據(jù)集中分別按照8∶1∶1 的比例隨機(jī)劃分訓(xùn)練集、驗(yàn)證集與測試集,以保障數(shù)據(jù)分布的合理差異性,其中1 200 張作為訓(xùn)練數(shù)據(jù),150 張作為驗(yàn)證數(shù)據(jù)集,150 張作為模型的測試數(shù)據(jù)集。
本研究旨在構(gòu)建具備標(biāo)簽自動生成的弱監(jiān)督圖像實(shí)例分割模型,以實(shí)現(xiàn)大田環(huán)境下低成本、高精度的玉米苗期圖像實(shí)例分割,總體模型框架主要包括:1)圖像采集與預(yù)處理:通過無人機(jī)采集大田玉米苗期頂視圖,并根據(jù)試驗(yàn)需要人工篩選可以進(jìn)行訓(xùn)練和測試的圖像,通過數(shù)據(jù)增強(qiáng)方法提高樣本多樣性;2)標(biāo)簽自生成模塊:在HSV 顏色空間中進(jìn)行閾值分割、膨脹前景植株區(qū)域并刪除小噪聲點(diǎn)得到僅含前景玉米植株的二值圖像,利用二值圖像信息進(jìn)行輪廓檢測并生成最小外接矩形,在原始圖像中自動產(chǎn)生主要目標(biāo)對象的邊界框信息,并利用閾值篩選最終邊界框,自動生成圖像的弱標(biāo)簽;3)構(gòu)建并優(yōu)化弱監(jiān)督深度卷積神經(jīng)網(wǎng)絡(luò)模型:利用弱標(biāo)簽對弱監(jiān)督深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,最終獲得可用于玉米苗期圖像實(shí)例分割的網(wǎng)絡(luò)模型。具體如圖1 所示。
圖1 總體模型框架圖Fig.1 Overall model framework
為了保證模型訓(xùn)練過程的公平性,同時(shí)提高訓(xùn)練效率,試驗(yàn)中使用2 種計(jì)算平臺,平臺的具體參數(shù)如表1 所示,其中平臺1 由于計(jì)算卡性能更優(yōu),承擔(dān)所有模型的預(yù)訓(xùn)練任務(wù);平臺2 用于所有預(yù)訓(xùn)練模型的遷移學(xué)習(xí)和調(diào)優(yōu)。
表1 試驗(yàn)平臺參數(shù)Table 1 Parameters of experimental platform
在標(biāo)記熟練的情況下使用LabelMe 軟件標(biāo)注單幅玉米苗期圖像(頂視圖),像素級標(biāo)注時(shí)間約為1 127 s,邊界框標(biāo)注時(shí)間約為100 s,雖然采用邊界框標(biāo)注能節(jié)省標(biāo)記的時(shí)間,但當(dāng)數(shù)據(jù)增多時(shí),即便邊界框標(biāo)注也需要耗費(fèi)大量的時(shí)間成本,因此,本研究設(shè)計(jì)了圖像標(biāo)簽自生成方法,整個(gè)過程不需要對圖像進(jìn)行人工標(biāo)注,便能夠根據(jù)圖像中玉米植株的位置自動生成邊界框(弱標(biāo)簽)。
弱標(biāo)簽自生成模塊主要包括2 個(gè)部分:1)顏色閾值分割:將圖像由RGB 轉(zhuǎn)換為HSV 顏色空間,通過設(shè)定玉米植株的顏色閾值范圍將圖像背景區(qū)域去除,消除地面影子、土地等對前景信息的影響;2)基于輪廓跟蹤的最小外接矩形法:將閾值分割后的二值圖像進(jìn)行邊緣檢測,得到前景植株的輪廓點(diǎn)集,最后利用得到的輪廓點(diǎn)集坐標(biāo)生成前景目標(biāo)的最小外接矩形從而獲得邊界框標(biāo)簽。
2.2.1 顏色閾值分割
在大田環(huán)境下,玉米植株受光照影響會在植株周圍地面形成影子,這些影子在頂視圖中會呈現(xiàn)出與植株形態(tài)相似的像素區(qū)域。試驗(yàn)中發(fā)現(xiàn),直接在RGB 圖像上進(jìn)行閾值分割容易將植株影子劃入前景信息,導(dǎo)致后續(xù)生成邊界框時(shí)將影子也框入邊界框,降低邊界框標(biāo)簽質(zhì)量,并且陰影與植株邊緣信息極度相似,影響分割精度。為解決陰影對前景植株信息的影響,本試驗(yàn)將圖像由RGB顏色空間轉(zhuǎn)為HSV 顏色空間再進(jìn)行閾值分割。HSV 能夠描述圖像的色調(diào)(H)、飽和度(S)以及明度(V),在HSV 顏色空間上可以準(zhǔn)確地對指定的顏色進(jìn)行分割。對于存在多種顏色的數(shù)據(jù)集,可參考HSV 基本顏色分量增設(shè)不同顏色的閾值進(jìn)行分割。圖2 為本試驗(yàn)中玉米苗期圖像分別在H、S 與V 分量上的像素值分布,根據(jù)圖2設(shè)置H 的像素值范圍為[15, 35] 和[45, 70] ,S 的像素值范圍為[15, 255] ,V 的像素值范圍為[40, 255] 。
圖2 玉米苗期圖像的H、S、V 分量統(tǒng)計(jì)直方圖Fig.2 Statistical histogram of H, S, V components of maize seedling images
基于HSV 閾值的分割結(jié)果如圖3 所示,通過觀察發(fā)現(xiàn)圖像中存在一些離散的小面積噪聲點(diǎn),因此本試驗(yàn)在顏色閾值分割后增加一次膨脹處理,刪除小聯(lián)通區(qū)域的冗余噪聲點(diǎn),分割結(jié)果如圖3d,由圖3c 與3d 中前景植株內(nèi)部孔洞對比可以看出,通過膨脹處理可以有效解決閾值分割造成的小部分像素缺失,保持了玉米植株的實(shí)例完整,刪除小連通區(qū)域既去除了冗余噪聲點(diǎn),又有效抑制了膨脹后未成功連接到玉米植株實(shí)例的小面積區(qū)域,避免了一個(gè)實(shí)例被隔開的情況。
圖3 基于HSV 顏色空間的閾值分割Fig.3 Threshold segmentation based on HSV color space
2.2.2 基于輪廓跟蹤的最小外接矩形法
在獲得圖像前景信息(玉米植株)后,需要根據(jù)玉米植株的位置獲得對應(yīng)的邊界框信息,本研究采取的方法為在二值圖像中對前景目標(biāo)進(jìn)行邊緣檢測,識別前景目標(biāo)邊緣后再繪制其最小外接矩形。為了獲取前景目標(biāo)輪廓,本研究采用文獻(xiàn)[32] 的方法解析二值圖像的拓?fù)浣Y(jié)構(gòu),獲取二值圖像前景的邊界的包圍關(guān)系。具體算法如下:
1)確定點(diǎn)邊界類型。定義輸入的二值圖像F={fij},初始化邊界序號NBD=1,前一個(gè)邊界的編號LNBD=1,并且每一行掃描開始,LNBD重置為1。使用光柵掃描輸入的二值圖像,找到點(diǎn)(i,j)滿足邊界跟蹤初始點(diǎn)的條件則終止掃描。條件為:若fij= 1 并且fi,j-1= 0,則(i,j)是外邊界開始點(diǎn),NBD=NBD+ 1,(i2,j2) = (i,j-1),該點(diǎn)是一個(gè)外邊界;若fij≥ 1 并且fi,j+1= 0,則(i,j)是孔邊界開始點(diǎn),NBD=NBD+1,(i2,j2) = (i,j+1)。如果fij≥ 1,則LNBD=fij,該點(diǎn)是一個(gè)孔邊界。
如果點(diǎn)(i,j)同時(shí)滿足以上2 個(gè)條件,則該點(diǎn)作為外邊界的起始點(diǎn)。
2)基于邊界類型決定當(dāng)前邊界的父邊界。判斷規(guī)則如表2 所示。
表2 新邊界的父邊界判斷規(guī)則Table 2 Judgment rules for parent boundary of new boundary
3)從邊界起始點(diǎn)(i,j)開始,跟蹤已檢測到的邊界。以(i2,j2)為起始點(diǎn),按順時(shí)針方向查找以(i,j)為中心的8 鄰域的第一個(gè)非0 像素點(diǎn)(前景目標(biāo)),記錄為(i1,j1);再以(i1,j1)的下一個(gè)點(diǎn)為起始點(diǎn),按逆時(shí)針方向查找以(i3,j3)為中心的8 鄰域的第一個(gè)非0 像素點(diǎn)為(i4,j4);更新邊界序號NBD,迭代更新起始點(diǎn),直至掃描到圖像的右下角頂點(diǎn)時(shí)結(jié)束,邊界序號相同的像素點(diǎn)屬于同一個(gè)邊界。
利用該算法得到的玉米苗期輪廓圖像如圖4 所示,通過提取圖像前景目標(biāo)的邊界信息,得到玉米植株的外輪廓點(diǎn)集S= {S1,S2, …,Sn}后,遍歷一個(gè)植株點(diǎn)集Sk內(nèi)所有像素點(diǎn),將Sk內(nèi)i值最小與j值最大的點(diǎn)記為(imin,jmax),作為外接矩形的左上頂點(diǎn),將Sk內(nèi)i值最大與j值最小的點(diǎn)記為(imax,jmin),作為外接矩形的右下頂點(diǎn)。
圖4 基于二值圖像生成的內(nèi)部輪廓圖像Fig.4 Interior contour images based on binary images
通過這2 個(gè)頂點(diǎn)可以得出外接矩形的頂點(diǎn)與長寬,繪制出輪廓的垂直邊界最小矩形,這個(gè)矩形與圖像上下邊界平行,保證了與手動標(biāo)注矩形框在方向上的一致性,同時(shí)解決了由手動標(biāo)注的隨機(jī)性導(dǎo)致的冗余背景、前景植株框定不完全等問題。
此外,本研究對自動生成的邊界框做優(yōu)化處理:1)自動生成的邊界框(初始矩形框,如圖5a)中會有一些不包含植株的矩形區(qū)域(例如小面積雜草),這些信息是在顏色閾值分割后殘留的信息,因此在自動生成矩形時(shí)要設(shè)定矩形長與寬的閾值,使小于閾值的矩形框不被繪制;2)相鄰玉米植株葉片部分可能出現(xiàn)互相遮擋的情況,因此在生成輪廓點(diǎn)集時(shí)會有多株玉米被分在一個(gè)輪廓里,導(dǎo)致生成的邊界框包含多個(gè)玉米植株,影響分割效果。為此,本研究統(tǒng)計(jì)了全部自動生成矩形邊框的長、寬值,利用長、寬的均值作為邊界框大小的閾值,將長、寬值過大的矩形框進(jìn)行均分,以保證一個(gè)邊界框只有一株玉米植株,處理結(jié)果如圖5b 所示。將自動生成的邊界框信息作為弱監(jiān)督學(xué)習(xí)模型的標(biāo)簽信息(偽標(biāo)簽),由于標(biāo)簽生成方過程中沒有人工標(biāo)注,因此不產(chǎn)生人工成本,偽標(biāo)簽及其可視化圖如圖5c 和5d 所示。
圖5 最小外接矩形和自動生成的邊界框標(biāo)簽Fig.5 Smallest enclosed rectangle and automatic generated bounding box labels
以基于邊界框標(biāo)注的弱監(jiān)督實(shí)例分割模型(BoxInst[33])為基礎(chǔ),增加標(biāo)簽自生成模塊,對玉米植株RGB 圖像上的目標(biāo)區(qū)域(植株)自動生成邊界框,替代構(gòu)建訓(xùn)練樣本中的人工標(biāo)注過程。以全卷積的方式利用動態(tài)卷積濾波器在全圖上動態(tài)獲取每一個(gè)實(shí)例的掩膜,由于對每個(gè)實(shí)例都是在全圖尺度上的預(yù)測,因此可以更好地分割不規(guī)則的形狀,適用于大田環(huán)境下玉米苗期圖像的實(shí)例分割。而大田場景下的玉米苗期圖像背景復(fù)雜,需要對株型、葉片細(xì)節(jié)等部分的特征進(jìn)行精確提取,雖然越深的網(wǎng)絡(luò)分類準(zhǔn)確度越高,但考慮到本試驗(yàn)的數(shù)據(jù)樣本類別單一,數(shù)據(jù)集相較于公開數(shù)據(jù)集(COCO)小很多,為了減少網(wǎng)絡(luò)過深造成的過擬合風(fēng)險(xiǎn),因此選擇ResNet50 作為主干特征提取網(wǎng)絡(luò),并采用雙向特征金字塔網(wǎng)絡(luò)(bidirectional feature pyramid network,BiFPN)作為特征提取網(wǎng)絡(luò),BiFPN 能夠在不增加原有模型計(jì)算量的情況下在不同特征層進(jìn)行加權(quán)以平衡不同尺度的特征信息,達(dá)到更高效的多尺度融合,其中高分辨率的特征保留空間位置信息,低分辨率的特征保留類別相關(guān)的抽象信息,能夠?qū)δ繕?biāo)進(jìn)行準(zhǔn)確分類并減少小目標(biāo)的漏檢情況。
模型結(jié)構(gòu)如圖6 所示,主要分為2 部分:第一部分利用全卷積網(wǎng)絡(luò)提取特征做逐像素回歸,根據(jù)共享檢測頭得出目標(biāo)實(shí)例的類別和動態(tài)生成濾波器參數(shù),其中分類分支(classification)預(yù)測每個(gè)像素的類別,控制器分支(controller)用于產(chǎn)生掩膜分支(mask branch)的網(wǎng)絡(luò)參數(shù),該參數(shù)可在全局上對每個(gè)實(shí)例生成一個(gè)掩膜。
圖6 動態(tài)掩膜過程Fig.6 Dynamically mask process
第二部分為掩膜分支,根據(jù)第一部分檢測頭動態(tài)產(chǎn)生的掩膜參數(shù),結(jié)合經(jīng)過主干網(wǎng)絡(luò)特征提取后卷積生成的掩膜特征圖作為輸入,且由于每個(gè)實(shí)例都獨(dú)有對應(yīng)掩膜分支,包含實(shí)例的形狀和大小等信息,所以當(dāng)掩膜分支作用于全局掩膜特征圖上時(shí),就可以區(qū)分當(dāng)前實(shí)例和背景信息,從而預(yù)測出每一個(gè)實(shí)例的掩膜。圖6 中Mask head 有3 個(gè)1×1 卷積,每個(gè)卷積有8 個(gè)通道,采用ReLU函數(shù)作為激活函數(shù),不使用歸一化層,最后一層有一個(gè)輸出通道,并使用Sigmoid 預(yù)測每個(gè)類別的概率。具體步驟如下:
1)原始圖像經(jīng)過標(biāo)簽自生成模塊得到用于網(wǎng)絡(luò)訓(xùn)練的帶有邊界框掩膜的訓(xùn)練樣本;
2)利用卷積神經(jīng)網(wǎng)絡(luò)提取特征并在分類分支上實(shí)現(xiàn)分類和中心度檢測,過濾效果不好的檢測框;
3)利用動態(tài)卷積濾波器對多個(gè)實(shí)例動態(tài)生成多個(gè)不同的掩膜參數(shù),結(jié)合經(jīng)主干網(wǎng)絡(luò)特征提取再卷積生成的掩膜特征,區(qū)分當(dāng)前實(shí)例和背景信息,從而預(yù)測出每一個(gè)實(shí)例的掩膜。
對于深度學(xué)習(xí)模型,網(wǎng)絡(luò)越深模型收斂所需要的訓(xùn)練樣本數(shù)越多。為了避免樣本數(shù)量少導(dǎo)致模型普適性差的問題,采用公開數(shù)據(jù)集對模型進(jìn)行預(yù)訓(xùn)練,再將學(xué)習(xí)到的特征遷移到新的學(xué)習(xí)任務(wù)中。本文首先利用COCO公開數(shù)據(jù)集對主干網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,將預(yù)訓(xùn)練權(quán)重遷移到本文網(wǎng)絡(luò)模型中,將模型卷積層參數(shù)初始化,以提高卷積層的特征提取能力和泛化能力。采用隨機(jī)梯度下降進(jìn)行網(wǎng)絡(luò)訓(xùn)練,由于訓(xùn)練中使用的GPU 顯存有限,而原始圖像的分辨率較高,因此設(shè)置較小的batch size,具體參數(shù)及其初始值為:圖像批量數(shù)為2,學(xué)習(xí)率 為0.01,訓(xùn)練步數(shù)2 000,初始動量0.9。
在試驗(yàn)中,為了保證模型評估的公平性,AutoLNet以及所有其他弱監(jiān)督模型的訓(xùn)練過程都使用自生成的邊界框標(biāo)簽,有監(jiān)督模型使用像素級人工掩膜標(biāo)簽。
本文的分割任務(wù)是實(shí)現(xiàn)大田場景下的玉米苗期圖像實(shí)例分割,為了解決圖像像素不均衡問題,本研究采用的損失函數(shù)計(jì)算式為
式中Lfcos表示檢測頭產(chǎn)生的損失,Lmask表示實(shí)例分割的掩膜損失,通過權(quán)重 λ平衡兩個(gè)損失,Lcls表示分類損失,Lloc表示回歸損失,Lctr表示中心度損失,Lpro j表示投影損失,Lpairwise表示成對損失。
由于訓(xùn)練模型使用自動生成的邊界框掩膜作為訓(xùn)練樣本,需要驗(yàn)證自動生成邊界框的精度。本文選取距離交并比DIoU作為評價(jià)指標(biāo),如式(2)所示,距離交并比不僅考慮2 個(gè)邊界框的交并比,同時(shí)考慮邊界框的距離、重疊率及尺度,可以更好地衡量自動生成邊界框的精度。
式中num表示樣本集合,k表示一個(gè)樣本中的實(shí)例個(gè)數(shù),G代表真值標(biāo)注圖像,A代表自動標(biāo)注圖像,(G∩A)表示第i個(gè)樣本中第j個(gè)實(shí)例真值標(biāo)注與自動生成邊界框的交集面積,(G∪A)表示第i個(gè)樣本中第j個(gè)實(shí)例真值標(biāo)注與自動生成邊界框的并集面積,b代表邊界框的中心點(diǎn),c為包含2 種邊界框的最小閉合區(qū)域的對角線距離, ρ代表兩點(diǎn)間的歐氏距離。
余弦相似度用向量空間中兩個(gè)向量夾角的余弦值衡量兩個(gè)個(gè)體間的差異大小,將圖像表示成一個(gè)向量,通過計(jì)算向量間的余弦距離表征兩張圖像的相似度,可以檢測二維空間中兩張圖像的相似度,用于不同分割方法生成的二值圖像與真值圖像的對比,其中前景像素值為1 (白色),背景像素值為0(黑色)。按照式(3)計(jì)算余弦值。
式中P代表預(yù)測生成的二值圖像,T代表真值圖像,表示第i個(gè)預(yù)測的分割圖像中第j個(gè)向量,表示第i個(gè)真值標(biāo)簽圖像中的第j個(gè)向量,k表示每個(gè)圖像的像素點(diǎn)個(gè)數(shù)。
為了驗(yàn)證網(wǎng)絡(luò)模型的圖像分割精度,本文采用的評價(jià)指標(biāo)為平均精度(average precision,AP),如式(4)所示。
式中AP 的值為PR 曲線下的面積,p為精度,r為召回率,計(jì)算式如式(5)和式(6)所示。
式中TP 表示真正例,表示預(yù)測掩膜置信度大于置信度閾值且真實(shí)掩膜覆蓋度最高的像素集合;FP 為預(yù)測掩膜像素集合減去TP 像素集合;FN 為真值掩膜像素集合減去TP 像素集合。精度p代表被預(yù)測為正例的結(jié)果占真正例的比值,召回率r代表真樣本中被預(yù)測為正例的比值,AP 值越大,模型的性能越好。
為了評估標(biāo)簽自生成模塊得到的邊界框標(biāo)簽質(zhì)量,選取大津閾值分割、全局閾值分割和自適應(yīng)閾值分割方法,分別用分割后的二值圖像以及生成的邊界框與真值進(jìn)行對比。邊界框質(zhì)量與分割產(chǎn)生的二值圖掩膜質(zhì)量密切相關(guān),根據(jù)2.2 節(jié),使用式(3)獲得掩膜與真值間的余弦相似度,使用式(2)獲得掩膜對應(yīng)的邊界框與真值標(biāo)注的邊界框間的距離交并比。圖7 給出了相關(guān)分割方法得到的二值圖像及對應(yīng)的邊界框信息與真值的對比情況。
圖7 不同分割方法的二值掩膜與邊界框標(biāo)簽對比Fig.7 Comparison of binary masks and bounding box labels with different segmentation methods
如圖7 所示,標(biāo)簽自生成模塊能夠生成與真值圖像基本一致的二值掩膜圖,并且由此得到的邊界框標(biāo)簽也與真值有相同的空間分布。表3 給出了不同方法產(chǎn)生的掩膜及標(biāo)簽與真值之間的余弦相似度與距離交并比。標(biāo)簽自生成模塊對應(yīng)的掩膜圖像與真值圖像的余弦相似度達(dá)到94.10%,自生成的邊界框與真值邊界框的距離交并比達(dá)到95.23%,2 個(gè)指標(biāo)都遠(yuǎn)高于其他方法。
表3 自動標(biāo)注與人工標(biāo)注的標(biāo)簽質(zhì)量對比Table 3 Label quality comparison of automatic labeled with manual labeled (%)
標(biāo)簽質(zhì)量対比結(jié)果表明,標(biāo)簽自生成模塊可以生成用于弱監(jiān)督訓(xùn)練的有效標(biāo)簽,在無人工參與情況下能夠?qū)崿F(xiàn)大田圖像的高質(zhì)量自動標(biāo)注,而高質(zhì)量的標(biāo)簽可以保證模型訓(xùn)練過程的穩(wěn)定性。如圖8 所示,在相同硬件平臺和網(wǎng)絡(luò)訓(xùn)練參數(shù)條件下,分別使用自生成標(biāo)簽與人工標(biāo)簽進(jìn)行訓(xùn)練,兩種樣本的6 種訓(xùn)練損失的變化趨勢基本一致,即具有相似的收斂趨勢,可見標(biāo)簽自生成方法產(chǎn)生的邊界框標(biāo)簽樣本完全可以代替真值標(biāo)注進(jìn)行模型訓(xùn)練,能夠獲得與真值標(biāo)注樣本相似的穩(wěn)定性。
圖8 人工標(biāo)簽與自動標(biāo)簽樣本的訓(xùn)練損失Fig.8 Training loss of manual label and automatic generated label samples
選擇AP50~AP75、APL與AP 驗(yàn)證網(wǎng)絡(luò)模型的實(shí)例分割精度(詳見表4)。在構(gòu)建AutoLNet 模型時(shí),分別選用4 種主干網(wǎng)絡(luò)進(jìn)行測試。如表4 所示,使用自生成標(biāo)簽為樣本進(jìn)行訓(xùn)練時(shí),AutoLNet 模型使用ResNet50+BiFPN 主干網(wǎng)絡(luò)得到的預(yù)測框和掩膜精度最好,模型的AP 值分別為68.69%和35.07%,其中,模型在交并比閾值大于等于0.75 時(shí)(AP75),預(yù)測框精度為73.67%,掩膜精度為12.03%,當(dāng)交并比閾值大于等于0.5 時(shí)(AP50),預(yù)測框精度達(dá)到96.39%,掩膜精度達(dá)到91.75%,表明隨著預(yù)測值與真值間交并比閾值的降低,AutoLNet 預(yù)測的平均精度隨之升高;主干網(wǎng)絡(luò)為ResNet50+BiFPN 時(shí),由于BiFPN 可以引入學(xué)習(xí)權(quán)重學(xué)習(xí)不同輸入特征,并應(yīng)用自頂向下和自底向上的多尺度融合方式進(jìn)行特征提取,因此相較于ResNet50+FPN,其預(yù)測框和掩膜的平均精度提高了4.47 個(gè)百分點(diǎn)(其中ResNet50+BiFPN 的AP 值為68.69%,ResNet50+FPN 的AP 值為64.22%)和2.4 個(gè)百分點(diǎn)(其中ResNet50+BiFPN 的AP 值為35.07%,Res-Net50+FPN 的AP 值為32.67%);主干網(wǎng)絡(luò)為ResNet101+BiFPN 時(shí),預(yù)測框和掩膜精度的AP 值分別下降了2.63(其中ResNet50+BiFPN 的AP 值為68.69%,ResNet101+BiFPN 的AP 值66.06%)和6.51 個(gè)百分點(diǎn)(其中ResNet50+BiFPN 的AP 值為35.07%,ResNet101+BiFPN 的AP 值28.56%),AP 值并未隨主干網(wǎng)絡(luò)的加深而提高,這是由于本試驗(yàn)樣本數(shù)據(jù)僅有1 類,且樣本總體數(shù)量不及公開數(shù)據(jù)集,在僅使用邊界框標(biāo)注進(jìn)行訓(xùn)練時(shí),網(wǎng)絡(luò)深度的增加反而會導(dǎo)致某些淺層的學(xué)習(xí)能力下降,限制深層網(wǎng)絡(luò)的學(xué)習(xí),從而降低特征提取能力。另外, AutoLNet 模型在交并比超過70%后的掩膜精度降幅明顯,而預(yù)測框精度降幅穩(wěn)定,其原因是AutoLNet 模型以邊界框?yàn)楸O(jiān)督,通過網(wǎng)絡(luò)學(xué)習(xí)的像素級細(xì)節(jié)不如有監(jiān)督模型,當(dāng)交并比閾值較高時(shí),預(yù)測的掩膜精度通常不如預(yù)測框精度,易出現(xiàn)較大幅度下降。
表4 AutoLNet 模型在不同主干網(wǎng)絡(luò)下的平均精度Table 4 Average precision of AutoLNet under different backbone network(%)
由表4 可知,自生成標(biāo)簽與人工標(biāo)簽皆在主干網(wǎng)絡(luò)為ResNet50+BiFPN 時(shí)有最好的精度表現(xiàn),且自生成標(biāo)簽在預(yù)測框與掩膜的平均精度(AP)分別高出人工標(biāo)簽10.83(其中ResNet50+BiFPN 的自生成標(biāo)簽AP 值為68.69%,人工標(biāo)簽AP 值為57.86%)與3.42 個(gè)百分點(diǎn)(其中ResNet50+BiFPN 的自生成標(biāo)簽AP 值為35.07%,人工標(biāo)簽AP 值為31.65%),這是因?yàn)橄噍^于人工標(biāo)簽,自生成標(biāo)簽?zāi)軌驅(qū)δ繕?biāo)實(shí)例的邊界進(jìn)行更精準(zhǔn)的定位,極大地減少了人工標(biāo)注的隨機(jī)性與不確定性,使更精準(zhǔn)的前景信息被模型網(wǎng)絡(luò)學(xué)習(xí),從而獲得更高的精度。
為比較AutoLNet 模型與其他基于邊界框標(biāo)簽的弱監(jiān)督實(shí)例分割模型的平均精度,本試驗(yàn)選取2 個(gè)較為成熟的弱監(jiān)督模型DiscoBox 和Box2Mask 進(jìn)行對比。為保證公平性,DiscoBox 和Box2Mask 使用與AutoLNet相同的人工標(biāo)簽作為訓(xùn)練樣本。由表5 可知,AutoLNet模型對應(yīng)的預(yù)測框平均精度和掩膜平均精度都高于DiscoBox 和Box2Mask 模型。在全局平均精度(AP)方面,AutoLNet 預(yù)測框精度比DiscoBox 模型高11.28個(gè)百分點(diǎn)(其中AutoLNet 的AP 值為68.69%, DiscoBox的AP 值為57.41%),比Box2Mask 模型高8.79 個(gè)百分點(diǎn)(其中AutoLNet 的AP 值為68.69%,Box2Mask 的AP 值為59.90%);而掩膜精度方面,AutoLNet 比DiscoBox 模型高12.75 個(gè)百分點(diǎn)(其中AutoLNet 的AP 值為35.07%,DiscoBox 的AP 值為22.32%),比Box2Mask 模型高10.72 個(gè)百分點(diǎn)(其中AutoLNet 的AP 值為35.07%,Box2Mask 的AP 值為24.35%)??梢宰C明,AutoLNet 的網(wǎng)絡(luò)結(jié)構(gòu)在全圖的掩膜特征中動態(tài)地為每一個(gè)實(shí)例生成一個(gè)掩膜的分割方式,在實(shí)現(xiàn)基于邊界框標(biāo)注的弱監(jiān)督實(shí)例分割方面是有效的,能夠以更高的精度完成大田環(huán)境下玉米苗期圖像的實(shí)例分割。
表5 AutoLNet 與弱監(jiān)督模型(DiscoBox 和Box2Mask)的平均精度對比Table 5 Comparison of average precision between AutoLNet and weak supervised models (DiscoBox and Box2Mask)(%)
為了比較AutoLNet 模型在圖像實(shí)例分割精度上與全監(jiān)督模型的差別,本文選擇全監(jiān)督模型CondInst 和Mask R-CNN 與AutoLNet 進(jìn)行對比。如表6 所示,與CondInst模型對比,AutoLNet 模型的預(yù)測框與掩膜精度略低于主干網(wǎng)絡(luò)為ResNet101+BiFPN 的CondInst 模型,分別達(dá)到CondInst 模型的94.32%和83.14%,全局平均精度(AP)分別相差4.14(其中CondInst 的AP 值為72.83%,AutoLNet 的AP 值為68.69%)和7.11 個(gè)百分點(diǎn)(其中CondInst 的 AP 值為 42.18%, AutoLNet 的 AP 值為35.07%),接近于主干網(wǎng)絡(luò)為ResNet50+FPN 的CondInst模型,掩膜的AP 值低3.84 個(gè)百分點(diǎn)(其中CondInst 的AP 值為38.91%,AutoLNet 的AP 值為35.07%),而預(yù)測框的AP 值則高出4.76 個(gè)百分點(diǎn)(其中AutoLNet 的AP 值為68.69%,CondInst 的AP 值為63.93%),尤其在交并比閾值大于等于0.5 時(shí)(AP50),AutoLNet 模型的預(yù)測框精度與掩膜精度高于CondInst 模型2.08(其中AutoLNet 的AP50 值為96.39%,CondInst 的AP50 值為94.31%)和3.81 個(gè)百分點(diǎn)(其中AutoLNet 的AP50 值為91.75%,CondInst 的AP50 值為87.94%),說明交并比閾值要求較低時(shí),AutoLNet 模型優(yōu)于CondInst 模型;與Mask R-CNN 模型對比,在預(yù)測框精度與掩膜精度上AutoLNet 模型皆優(yōu)于Mask R-CNN 模型,相較于基于ResNet101+FPN 主干網(wǎng)絡(luò)的Mask R-CNN 模型,AutoLNet在全局平均精度(AP)上高出7.54(其中AutoLNet 的AP 值為68.69%,Mask R-CNN 的AP 值為61.15%)和3.28 個(gè)百分點(diǎn)(其中AutoLNet 的AP 值為35.07%,Mask R-CNN 的AP 值為31.79%)。結(jié)果表明,在玉米苗期圖像實(shí)例分割任務(wù)中,AutoLNet 模型的分割精度接近全監(jiān)督模型CondInst,且優(yōu)于Mask R-CNN 模型,原因是AutoLNet 模型雖然以邊界框?yàn)楸O(jiān)督,但在自生成邊界框時(shí)利用圖像的紋理、色彩等基本特征對目標(biāo)實(shí)例生成了最小包圍邊界框,能夠去除多余背景信息對模型學(xué)習(xí)效果的影響,因此AutoLNet 模型能夠達(dá)到接近于全監(jiān)督的實(shí)例分割效果。
表6 AutoLNet 與全監(jiān)督模型(CondInst 和Mask R-CNN)的平均精度對比Table 6 Comparison of average precision between AutoLNet and fully supervised models(CondInst and Mask R-CNN)(%)
圖9 為AutoLNet 與全監(jiān)督實(shí)例分割模型CondInst和Mask R-CNN 的分割效果對比。從圖中可以看出,對于大田環(huán)境下無人機(jī)拍攝的玉米苗期圖像,AutoLNet 與全監(jiān)督模型的分割結(jié)果非常接近。AutoLNet 的標(biāo)簽自生成模塊能夠替代樣本標(biāo)簽的人工標(biāo)注過程,降低了人工時(shí)間成本,并能準(zhǔn)確分割小目標(biāo)的苗期玉米植株,去除圖像中由于光照產(chǎn)生的植株影子,避免影響對玉米植株的分割,達(dá)到無需標(biāo)注的高精度實(shí)例分割。
圖9 不同模型的分割效果對比Fig.9 Comparison of segmentation effects of different models
本研究設(shè)計(jì)了一種基于自生成標(biāo)簽的弱監(jiān)督實(shí)例分割模型AutoLNet,利用大田場景下玉米苗期圖像的色彩信息自生成邊界框標(biāo)簽作為弱監(jiān)督訓(xùn)練樣本,最終實(shí)現(xiàn)AutoLNet 模型的訓(xùn)練。本文研究主要得到以下結(jié)論:
1)所設(shè)計(jì)標(biāo)簽自生成模塊利用顏色空間轉(zhuǎn)換、輪廓跟蹤和最小外接矩形在玉米苗期圖像中自動生成目標(biāo)前景的邊界框(自生成標(biāo)簽),通過自生成標(biāo)簽代替弱監(jiān)督模型中的人工標(biāo)簽,其標(biāo)簽精度達(dá)到95.23%。
2)設(shè)計(jì)了基于自生成邊界框標(biāo)簽的弱監(jiān)督學(xué)習(xí)模型,在弱監(jiān)督模型的基礎(chǔ)上優(yōu)化了主干網(wǎng)絡(luò),利用ResNet-50+BiFPN 提高特征提取能力,以動態(tài)卷積濾波器在全圖上動態(tài)地為每一個(gè)實(shí)例生成一個(gè)掩膜,在基于邊界框標(biāo)簽的弱監(jiān)督模型中對形態(tài)結(jié)構(gòu)復(fù)雜的玉米苗期圖像實(shí)現(xiàn)高精度實(shí)例分割,在主干網(wǎng)絡(luò)為ResNet50+BiFPN 的AutoLNet 模型中,自生成標(biāo)簽相較于人工標(biāo)簽在預(yù)測框與掩膜的平均精度上分別高出10.83 和3.42 個(gè)百分點(diǎn);與DiscoBox 和Box2Mask 弱監(jiān)督模型相比,AutoLNet的預(yù)測框精度分別高11.28 和8.79 個(gè)百分點(diǎn),掩膜精度分別高12.75 和10.72 個(gè)百分點(diǎn)。
3)在玉米苗期圖像實(shí)例分割任務(wù)中,AutoLNet 與全監(jiān)督模型的分割效果相似。AutoLNet 可以在訓(xùn)練中通過降低投影損失與成對損失實(shí)現(xiàn)弱監(jiān)督學(xué)習(xí)精度的提高,在模型表現(xiàn)最好的主干網(wǎng)絡(luò)下,AutoLNet 的預(yù)測框與掩膜精度可以達(dá)到 CondInst 模型的94.32%(其中AutoLNet的AP 值為68.69%,CondInst 的AP 值為72.83%)與83.14%(其中AutoLNet 的AP 值為35.07%,CondInst 的AP 值為42.18%);而對比Mask R-CNN 模型,AutoLNet的預(yù)測框精度高7.54 個(gè)百分點(diǎn),掩膜精度高3.28 個(gè)百分點(diǎn)。
綜上所述,針對無人機(jī)玉米苗期圖像(頂視圖)的實(shí)例分割任務(wù),AutoLNet 模型可以在無人工標(biāo)簽的條件下實(shí)現(xiàn)高精度實(shí)例分割。與同樣基于邊界框標(biāo)簽的弱監(jiān)督模型(DiscoBox 和Box2Mask)相比,AutoLNet 模型得到的掩膜精度和預(yù)測框精度都高于DiscoBox 和Box2Mask。而在交并比閾值大于等于0.5 的前提下,AutoLNet 的分割效果要優(yōu)于全監(jiān)督模型Mask R-CNN,且與CondInst 接近。因此,利用AutoLNet 可以實(shí)現(xiàn)在大田環(huán)境下玉米苗期圖像的實(shí)例分割,模型利用標(biāo)簽自生成模塊代替手動標(biāo)注過程,節(jié)省了大量的人工標(biāo)注成本,可為大田環(huán)境下的玉米苗期圖像實(shí)例分割任務(wù)提供解決方案和技術(shù)支持。