王海燕 江燁皓 黎 煊 馬云龍 劉小磊
(1.華中農(nóng)業(yè)大學(xué)深圳營養(yǎng)與健康研究院, 深圳 518000; 2.中國農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所, 深圳 518000;3.華中農(nóng)業(yè)大學(xué)信息學(xué)院, 武漢 430070; 4.嶺南現(xiàn)代農(nóng)業(yè)科學(xué)與技術(shù)廣東省實驗室深圳分中心, 深圳 518000;5.農(nóng)業(yè)農(nóng)村部智慧養(yǎng)殖技術(shù)重點實驗室, 武漢 430070; 6.農(nóng)業(yè)動物遺傳育種與繁殖教育部重點實驗室, 武漢 430070)
隨著生豬養(yǎng)殖規(guī)模增大,現(xiàn)代化養(yǎng)殖技術(shù)對其幫助越發(fā)重要。利用人工智能技術(shù)豐富我國智慧農(nóng)場解決方案,研發(fā)生豬養(yǎng)殖過程中的豬只信息智能感知、個體精準(zhǔn)飼喂、養(yǎng)殖環(huán)境智能調(diào)控等核心技術(shù)與裝備,正成為推動我國生豬養(yǎng)殖業(yè)健康發(fā)展的關(guān)鍵因素[1-3]。近年來,深度學(xué)習(xí)的興起不斷推動計算機視覺技術(shù)發(fā)展,研究者將深度學(xué)習(xí)引入到豬場豬只個體識別跟蹤、姿態(tài)行為分類及體尺體重測量等任務(wù)中,取得了令人滿意的效果[4-13]。
在豬只計數(shù)、行為識別、體重體尺測量等任務(wù)中,首要任務(wù)都是將豬只從圖像中分割出來。目前,以深度學(xué)習(xí)為基礎(chǔ)的圖像實例分割正逐漸取代傳統(tǒng)的機器學(xué)習(xí)前景背景分離算法,被應(yīng)用到多數(shù)研究中。李丹等[14]通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,分割得到圖像中豬只的面積以識別豬只爬跨行為;胡云鴿等[15]通過人工標(biāo)注1 900幅圖像制作數(shù)據(jù)集,在Mask R-CNN[16]中的特征金字塔[17](Feature pyramid network, FPN)模塊,使用輪廓邊緣特征連接高層特征,極大提升了豬只邊緣模糊目標(biāo)識別的效果,并且能夠滿足單欄飼養(yǎng)密度為1.03~1.32頭/m2的養(yǎng)殖場的豬只盤點需求。上述研究證明,圖像實例分割在智能化養(yǎng)殖產(chǎn)業(yè)所起的作用越發(fā)重要。
由于需要對圖像的深層語義信息進(jìn)行提取并預(yù)測,因此實例分割不僅需要大量的圖像用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練,還需要訓(xùn)練樣本擁有像素級別的掩碼信息(需要進(jìn)行精細(xì)的標(biāo)注)。而在豬只圖像實例分割任務(wù)中,制作一個強監(jiān)督(像素級標(biāo)注)的數(shù)據(jù)集相當(dāng)耗費人力,特別是圖像中豬只個數(shù)多、產(chǎn)生堆疊、光照、噪聲等因素影響,都會對精細(xì)標(biāo)注效率產(chǎn)生影響[18]。因此,擺脫對高質(zhì)量數(shù)據(jù)集的需求,正在成為分割領(lǐng)域研究的重點工作之一。當(dāng)前,已有研究人員提出弱監(jiān)督學(xué)習(xí)的概念[19],通過使用弱監(jiān)督數(shù)據(jù)集,即采取粗糙標(biāo)注的方式制作的數(shù)據(jù)集,通過改變神經(jīng)網(wǎng)絡(luò)對特征信息的處理模式,減少圖像實例分割對像素級信息的過分依賴。國內(nèi)現(xiàn)在已有針對農(nóng)業(yè)領(lǐng)域使用弱監(jiān)督學(xué)習(xí)方法的研究,趙亞楠等[20]提出基于邊界框掩碼的深度卷積神經(jīng)網(wǎng)絡(luò),通過引入偽標(biāo)簽生產(chǎn)模塊,用低成本的弱標(biāo)簽實現(xiàn)玉米植株圖像實例分割;黃亮等[21]結(jié)合RGB波段最大差異法,實現(xiàn)對無人遙感燈盞花的弱監(jiān)督實例分割。上述研究方案在節(jié)約數(shù)據(jù)集標(biāo)注成本的同時,還取得了較高的精度,這也證明了弱監(jiān)督圖像實例分割在豬只養(yǎng)殖等智能化農(nóng)業(yè)領(lǐng)域具有很大的研究和應(yīng)用價值。
為了解決豬只圖像實例分割中制作強監(jiān)督數(shù)據(jù)集耗時耗力的問題,本文使用粗糙標(biāo)注的方法構(gòu)建弱監(jiān)督數(shù)據(jù)集;從優(yōu)化圖像特征提取和處理過程,以此提升弱監(jiān)督實例分割效果的角度出發(fā),結(jié)合第2代可變形卷積、空間注意力機制和involution算子,提出新的特征提取骨干網(wǎng)絡(luò)RdsiNet;通過使用Mask R-CNN分割模型進(jìn)行訓(xùn)練,以驗證RdsiNet網(wǎng)絡(luò)改進(jìn)的有效性;最后使用僅需邊界框作為監(jiān)督信息的BoxInst[22]弱監(jiān)督實例分割模型訓(xùn)練數(shù)據(jù)集,以本文的RdsiNet作為特征提取骨干網(wǎng)絡(luò),在進(jìn)一步驗證RdsiNet有效性的同時,提升豬只的分割效果。
弱監(jiān)督實例分割(Weakly supervised instance segmentation)是一種使用較少的監(jiān)督信息進(jìn)行訓(xùn)練的實例分割方法。通常只需要圖像級別的標(biāo)簽,而不需要每個像素的精確標(biāo)注,根據(jù)標(biāo)注方式的不同可以細(xì)分為無監(jiān)督、粗監(jiān)督、不完全監(jiān)督等類型[23],分別對應(yīng)無標(biāo)注、粗糙標(biāo)注和部分標(biāo)注的數(shù)據(jù)集制作方法。考慮到豬舍豬只不斷運動的特性,其分幀后得到的圖像會帶有豬只的行為信息,不同圖像中同一豬只的空間信息對于實例分割神經(jīng)網(wǎng)絡(luò)模型有著重要的意義。因此,為了能為神經(jīng)網(wǎng)絡(luò)模型提供更有效的特征區(qū)域和空間信息,同時減少每幅圖像的標(biāo)注時間,本文采取粗糙的輪廓標(biāo)注框作為數(shù)據(jù)集的標(biāo)注方式。
LU等[24]針對豬只圖像分割研究,制作了一個規(guī)模較大的數(shù)據(jù)集(包括訓(xùn)練集15 184幅圖像,驗證集1 898幅圖像,測試集1 900幅圖像);該數(shù)據(jù)集圖像由公開的豬場監(jiān)控視頻分幀而成[25],本文對其進(jìn)行篩選,選取其中10~18周齡且處于同一場景下的7頭豬只的監(jiān)控視頻圖像,共選出17 980幅豬只圖像作為本文研究的原始數(shù)據(jù)。其后本文使用Labelme軟件,對此原始數(shù)據(jù)所有圖像進(jìn)行基于弱監(jiān)督的粗糙的輪廓標(biāo)注(共標(biāo)注17 980幅)。像素級標(biāo)注要求標(biāo)注框緊密貼合豬只身體輪廓,并且給不同的豬只打上專屬的編號,每幅圖像耗時約10 min。圖1為本文采用的粗糙標(biāo)注方式的標(biāo)注效果,和逐像素方式相比,標(biāo)注框不再呈現(xiàn)豬只背部的幾何結(jié)構(gòu),而是以圖1b所示的多邊形直接覆蓋豬只,每幅圖像只需2 min就可以完成標(biāo)注,比起逐像素方式工作效率提高了5倍,大大節(jié)約了標(biāo)注時間成本。最后在進(jìn)行神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練之前將所有標(biāo)注圖像進(jìn)行訓(xùn)練集、驗證集、測試集的劃分,劃分比例為8∶1∶1,共得到訓(xùn)練集14 384幅圖像、驗證集1 798幅圖像和測試集1 798幅圖像。
圖1 粗糙輪廓標(biāo)注樣式展示Fig.1 Display of rough contours annotation style
盡管粗糙的輪廓標(biāo)注可以極大地節(jié)約數(shù)據(jù)集制作時間成本,但是其提供的低質(zhì)量的真值標(biāo)簽,在實例分割神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,會造成網(wǎng)絡(luò)學(xué)習(xí)性能的下降。尤其在神經(jīng)網(wǎng)絡(luò)反向傳播的過程中,一方面標(biāo)注框同時包含分割實例和背景信息,會導(dǎo)致某些權(quán)重的梯度異常或是下降方向錯亂,造成梯度稀疏、混淆等問題[25];另一方面,逐像素的標(biāo)注框能為神經(jīng)網(wǎng)絡(luò)提供更多特征信息,而粗糙的標(biāo)注框卻無法做到,甚至?xí)峁╁e誤的特征信息,最終影響訓(xùn)練結(jié)果[26-28]。
2.1.1引入第2代可變形卷積
因為粗監(jiān)督數(shù)據(jù)集的標(biāo)注框不貼合豬只,這會導(dǎo)致標(biāo)注框內(nèi)同時包含背景像素值和豬只的像素值,且這兩種像素值差距較大,在神經(jīng)網(wǎng)絡(luò)反向傳播過程中,會影響網(wǎng)絡(luò)對豬只邊緣信息的優(yōu)化過程。為解決此問題,本文從特征提取角度出發(fā)引入可變形卷積,在特征提取過程中將更多的背景像素加入特征圖中,擴(kuò)大網(wǎng)絡(luò)感受野。第1代可變形卷積由DAI等[29]提出,通過在傳統(tǒng)卷積操作中引入偏移量概念,將傳統(tǒng)卷積核由固定結(jié)構(gòu)變?yōu)榘l(fā)散性結(jié)構(gòu),從而擴(kuò)大特征提取的感受野,其特征值計算公式為
(1)
式中p0——特征圖中進(jìn)行卷積的采樣點
y(p0)——卷積輸出的特征值
pn——采樣點在卷積核范圍內(nèi)的偏移量
w(pn)——卷積核權(quán)重
x(p0+pn+Δpn)——加上偏移量后采樣位置的特征值
R——卷積核感受野區(qū)域
盡管通過網(wǎng)絡(luò)學(xué)習(xí)偏移量可以增大骨干網(wǎng)絡(luò)的感受野,但網(wǎng)絡(luò)同時也會通過可變形卷積學(xué)習(xí)許多無關(guān)信息,造成混亂。ZHU等[30]在第1代的基礎(chǔ)上,提出了第2代可變形卷積操作,通過增加一個權(quán)重系數(shù)Δmpn,增大網(wǎng)絡(luò)對于卷積操作的自由度,可以在學(xué)習(xí)中弱化或舍棄某些無關(guān)采樣點權(quán)重,計算公式為
(2)
在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的過程中,通過對Δmpn進(jìn)行賦值,可以對學(xué)習(xí)到的特征值進(jìn)行區(qū)分,將不需要的特征值舍去。
文獻(xiàn)[31-32]為了解決傳統(tǒng)卷積感受野不夠?qū)е聦D像復(fù)雜信息提取能力差的問題,通過引入第2代可變形卷積操作,使得網(wǎng)絡(luò)感受野和圖像特征建立變化性關(guān)系,使其可以自適應(yīng)地融合每個像素點相鄰的相似結(jié)構(gòu)信息,進(jìn)而提高檢測的準(zhǔn)確率。因此,本文在骨干網(wǎng)絡(luò)中使用第2代可變形卷積,可以使特征圖包含更多背景信息,將網(wǎng)絡(luò)感受野擴(kuò)大以匹配粗監(jiān)督標(biāo)注框,減少錯誤信息帶來的影響,網(wǎng)絡(luò)通過不斷地迭代和反向傳播,可以提升最終分割效果。
2.1.2空間注意力機制模塊
空間注意力機制由WOO等[33]提出,是一種模仿人眼視覺的一種處理機制。在圖像處理中,空間注意力機制通過生成權(quán)值矩陣的方式,對主干網(wǎng)絡(luò)所提取的不同特征賦予不同的權(quán)重,以此在眾多信息中選取關(guān)鍵的部分。如圖2所示,輸入尺寸為H×W×C的特征圖,通過最大池化和平均池化得到尺寸為H×W×1的兩幅特征圖,將這兩幅特征圖按照通道維度拼接,然后再使用7×7的卷積核和Sigmoid函數(shù),得到權(quán)重矩陣Ms,計算公式為
圖2 空間注意力機制Fig.2 Spatial attention mechanisms
Ms(F)=σ(f7×7([AvgPool(F),MaxPool(F)]))
(3)
式中F——輸入的初始特征圖
Ms(F)——空間注意力機制得到的權(quán)重矩陣
σ()——Sigmoid函數(shù)
AvgPool()——平均池化操作
MaxPool()——最大池化操作
將Ms與輸入的特征圖相乘,就為神經(jīng)網(wǎng)絡(luò)模型加入了空間注意力。
俞利新等[34]針對特征圖提取過程中冗余信息過多的問題,通過引入空間注意力機制以減弱源圖像中的冗余信息從而突出目標(biāo),并通過消融實驗驗證了該方法的有效性?;诖?本文在骨干網(wǎng)絡(luò)中加入空間注意力機制,用于對特征通道中不同特征映射賦予權(quán)重,將強有用的特征映射值如豬只輪廓、紋理、顏色等,平均到每個通道特征圖中,擴(kuò)大其在網(wǎng)絡(luò)中的影響因子。
2.1.3involution算子
對于圖像實例分割任務(wù)而言,核心思想在于對深層的抽象特征進(jìn)行語義預(yù)測。但是隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的加深,骨干網(wǎng)絡(luò)會失去大量的空間信息,導(dǎo)致網(wǎng)絡(luò)區(qū)分不同實例能力不足。尤其對本文所使用的弱監(jiān)督數(shù)據(jù)集而言,其中豬只聚集、移動等場景較多,對分割產(chǎn)生的挑戰(zhàn)很大。基于此問題,本文在骨干網(wǎng)絡(luò)中引入LI等[35]提出的involution算子,區(qū)別于傳統(tǒng)的特征提取方式,它將空間各異性和通道共享性作為設(shè)計出發(fā)點,楊洪剛等[36]為提升神經(jīng)網(wǎng)絡(luò)模型對細(xì)粒度圖像的能力,使用involution算子提取了圖像的底層語義信息和空間結(jié)構(gòu)信息進(jìn)行了特征融合,并驗證了其有效性,其結(jié)構(gòu)如圖3所示。
圖3 involution算子提取特征模式圖Fig.3 Feature pattern diagram extracted by involution operator
假設(shè)輸入尺寸為H×W×C的特征圖,對1×1×C的像素點的特征向量作下一步特征提取時,使用卷積操作先將其通道數(shù)C壓縮至K2,再將獲得的K2個通道數(shù)作為新的大小為K的卷積核;其后將初始的1×1×C特征向量在特征圖中擴(kuò)展至K×K大小的區(qū)域,與上一步中得到的卷積核相乘并相加,得到最終的結(jié)果。與卷積相比,involution算子對于具體空間位置的卷積核由該位置的特征向量決定,并且對不同的輸出通道使用相同的卷積核,具有了空間特異性和通道共享性。
本文通過使用involution算子,不僅可以解決深層網(wǎng)絡(luò)空間信息丟失的問題,還可以將深層的語義信息和特征通道中被賦予空間注意力的信息連接,加強網(wǎng)絡(luò)對于豬只圖像分割的學(xué)習(xí),提升分割的精度。
2.1.4RdsiNet特征提取骨干網(wǎng)絡(luò)結(jié)構(gòu)
本文提出的RdsiNet骨干網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,其中藍(lán)色虛線框中展示了本文通過對傳統(tǒng)殘差塊加入空間注意力機制和involution算子后得到的殘差-空間注意力機制模塊和殘差-involution模塊。參考ResNet-50[37]中3、4、6、3層的殘差模塊分布概念,在ResNet-50的殘差結(jié)構(gòu)后加入空間注意力機制,提出殘差-空間注意力模塊,作為新的特征提取模塊,并且在Layer1中串聯(lián)使用3塊。在Layer 2和Layer 3中,將第2代可變形卷積加入殘差-空間注意力模塊,替代原本3×3卷積操作,分別使用4塊和6塊;最后,將ResNet-50殘差模塊中的3×3卷積操作替換為involution算子,構(gòu)建殘差-involution模塊,在Layer 4中同樣串聯(lián)3個此模塊。
圖4 RdsiNet骨干網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of RdsiNet backbone network
2.2.1實驗分割模型選擇
為驗證RdsiNet骨干網(wǎng)絡(luò)的有效性,本文選取兩種實例分割模型進(jìn)行訓(xùn)練:需要像素級掩碼標(biāo)注進(jìn)行訓(xùn)練的Mask R-CNN;僅需要邊界框標(biāo)注進(jìn)行訓(xùn)練的弱監(jiān)督實例分割模型BoxInst。
由于本文標(biāo)注的掩碼標(biāo)簽(Mask label)無法為Mask R-CNN提供準(zhǔn)確、高質(zhì)量的掩碼監(jiān)督信息(Mask ground truth),因此最終的實例分割效果不如逐像素標(biāo)注的效果,但另一方面,這也更能反映不同骨干網(wǎng)絡(luò)對于豬只圖像的特征提取能力,因此本文使用Mask R-CNN以驗證本文所提RdsiNet骨干網(wǎng)絡(luò)的有效性。
2.2.2Mask R-CNN分割模型
圖5展示了本文使用的RdsiNet的設(shè)計結(jié)構(gòu)和Mask R-CNN實例分割模型的訓(xùn)練過程。圖5a是第2代可變形卷積的實現(xiàn)過程,其發(fā)散性的特征提取方式擴(kuò)大了網(wǎng)絡(luò)的感受野,用于Layer2和Layer3層。圖5b是豬只的輪廓紋理特征圖像,圖5c是RdsiNet網(wǎng)絡(luò)特征提取過程中不同特征通道的圖像展示結(jié)果,通過將輪廓紋理特征矩陣平均加至不同的特征通道內(nèi),實現(xiàn)增加實例分割模型對豬只輪廓的注意力,用于Layer1、Layer2和Layer3層。圖5d展示了由特征圖上某一點像素的不同特征通道所生成的卷積核,將其與該像素相乘并相加,實現(xiàn)特征通道和圖像像素的交互,用于最后一層(Layer4層)。
圖5 Mask R-CNN分割模型訓(xùn)練框架Fig.5 Framework of Mask R-CNN
Mask R-CNN是一種基于像素級掩碼標(biāo)注的全監(jiān)督實例分割模型,其分割模型步驟如圖5所示,通過對RdsiNet提取的特征圖進(jìn)行感興趣區(qū)域(ROI)和RoIAlign操作,在特征圖上生成感興趣空間并將其與輸入圖像像素區(qū)域?qū)R,之后對空間內(nèi)物體進(jìn)行類別、邊界框和掩碼的預(yù)測及損失函數(shù)(包括Losscls、Lossbox、Lossmask)的反向傳播,最終經(jīng)不斷迭代完成訓(xùn)練。
2.2.3BoxInst分割模型
BoxInst是一種基于邊界框標(biāo)注(Bounding box)的弱監(jiān)督實例分割模型,主要由骨干提取網(wǎng)絡(luò)、FPN層、共享Head層(Controller Head)和Mask預(yù)測分支(Mask Branch)組成,其僅需使用邊界框的標(biāo)注(Box label)作為監(jiān)督信息去訓(xùn)練實例分割網(wǎng)絡(luò)。本文使用RdsiNet作為BoxInst特征提取骨干網(wǎng)絡(luò),并通過FPN加強對不同尺度實例的學(xué)習(xí)能力。而對于掩碼預(yù)測部分,這個過程由2個分支組成,分別為共享的Head層和Mask預(yù)測分支。共享Head層用來預(yù)測實例及其最小外接框,Mask預(yù)測分支則用來對預(yù)測的外界框內(nèi)所有像素進(jìn)行前景背景預(yù)測,最終實現(xiàn)物體的分割。如圖6所示,BoxInst采用動態(tài)卷積的思想對每一個實例編碼,通過共享Head層,對不同尺度特征圖進(jìn)行實例預(yù)測,獲取每個實例的類別及動態(tài)生成其Controller參數(shù);而在Mask預(yù)測分支中,將FPN層得到的特征圖和每個實例的相對位置相加輸出為總特征圖,將共享Head層得到的每個實例參數(shù)分別作用在總特征圖上以生成不同的掩碼預(yù)測區(qū)域,并預(yù)測其邊界框和掩碼。在獲取實例邊界框后,一方面通過對邊界框的左上角和右下角頂點坐標(biāo)值進(jìn)行反向傳播,如圖6所示,提升邊界框的精準(zhǔn)度;另一方面計算其內(nèi)部所有像素之間的相似性,引入如圖6所示的相鄰像素顏色相似度(pairwise)屬性關(guān)系進(jìn)一步約束前景、背景像素,并使用Lab色彩空間下顏色的相似度作為真實標(biāo)簽,對不同的像素進(jìn)行聚類,最終實現(xiàn)不依靠標(biāo)注的掩碼監(jiān)督信息實現(xiàn)實例分割;其中Lproj表示邊界框兩個頂點坐標(biāo)的損失值,而Lpairwise表示掩碼的損失值,其中邊界框的損失值由數(shù)據(jù)集提供的邊界框標(biāo)注計算,而掩碼損失值由模型迭代過程中通過學(xué)習(xí)到的像素間顏色關(guān)系計算得到。
圖6 本文BoxInst分割模型訓(xùn)練框架Fig.6 Framework of BoxInst segmentation model
本文基于Mmdetection框架進(jìn)行實驗,使用的核心計算顯卡為2塊GeForce GTX 2080Ti,顯存為22 GB,顯卡驅(qū)動CUDA版本為10.1,Python版本為3.7.13,Pytorch版本為1.7.1,mmcv版本為1.5.0,mmdet版本為2.25.2。
實驗過程中模型訓(xùn)練輪數(shù)為12輪,學(xué)習(xí)率設(shè)為0.001,采用AdamW優(yōu)化器,權(quán)重衰減(weight_decay)設(shè)為0.05。
Loss函數(shù)是評價模型性能的主要指標(biāo)之一,其可以反映模型訓(xùn)練過程中的穩(wěn)定性和衡量模型。圖7為使用RdsiNet作為特征提取網(wǎng)絡(luò)的Mask R-CNN和BoxInst的loss函數(shù)曲線,可以看出,隨著訓(xùn)練輪數(shù)的增加,兩種模型損失值都呈現(xiàn)平穩(wěn)下降趨勢,且曲線平滑,在迭代了10 000次后逐漸趨于收斂,這表明RdsiNet骨干提取網(wǎng)絡(luò)設(shè)計合理,訓(xùn)練時間和成本可控,具有較強的魯棒性。
圖7 Mask R-CNN和BoxInst訓(xùn)練Loss曲線Fig.7 Loss curve graphs of Mask R-CNN and BoxInst
3.4.1Mask R-CNN訓(xùn)練結(jié)果
對于Mask R-CNN實例分割模型,本文分別使用ResNet-50、GCNet[38]、RegNet[39]、ResNeSt[40]、CotNet[41]和提出的RdsiNet骨干網(wǎng)絡(luò)進(jìn)行實驗,實驗結(jié)果如表1所示。在實驗效果評估中,使用mAPBbox和mAPSemg評價回歸的邊界框和豬只分割精度。
表1 不同骨干網(wǎng)絡(luò)訓(xùn)練結(jié)果對比Tab.1 Comparison of different backbone network training results
平均精度均值(mAP)指所有類的平均精度(AP)的平均值,用來衡量多類別目標(biāo)檢測效果。表1顯示,本文改進(jìn)后的骨干網(wǎng)絡(luò)具有最高的mAPBbox和mAPSemg值,分別為93.4%和88.6%。同GCNet、ResNeSt和CotNet相比,以更少的參數(shù)獲得了更好的實例分割效果,而對比ResNet-50,在小幅提升參數(shù)量的情況下,mAPBbox和mAPSemg獲得了較大的增益,體現(xiàn)了RdsiNet骨干網(wǎng)絡(luò)的優(yōu)越性。
3.4.2Mask R-CNN分割模型測試圖像
為進(jìn)一步驗證RdsiNet的效果,本文分別使用參數(shù)量低于4×107的4種骨干網(wǎng)絡(luò)進(jìn)行模型分割效果測試,圖8為在豬只扎堆、粘連等條件下,ResNet-50、GCNet、RegNet和RdsiNet骨干網(wǎng)絡(luò)在Mask R-CNN分割模型下的圖像測試效果。對比 4種骨干網(wǎng)絡(luò)下圖像分割效果可以看出,ResNet-50、GCNet、RegNet對于豬只聚集情況,均無法準(zhǔn)確提取有效空間信息,以輔助分割模型判別豬只實例個數(shù)及空間位置,造成大量錯檢等問題;而本文所提出的RdsiNet網(wǎng)絡(luò),明顯具有更強的特征提取能力,且可以準(zhǔn)確判斷聚集條件下豬只實例個數(shù),主要體現(xiàn)在特征提取和處理的過程中:擴(kuò)大感受野、為特征信息添加注意力、將深層語義信息和通道特征交互連接,可以更好地定位圖像實例,增強分割模型對圖像的學(xué)習(xí)能力。
圖8 Mask R-CNN模型中4種骨干網(wǎng)絡(luò)分割效果對比Fig.8 Comparison of segmentation effects of four backbone networks of Mask R-CNN
3.4.3BoxInst訓(xùn)練結(jié)果
由于Mask R-CNN必須依靠像素級的掩碼信息進(jìn)行反向傳播,才能得到優(yōu)秀的實例分割效果,3.4.2節(jié)同樣說明了盡管RdsiNet骨干網(wǎng)絡(luò)改善了特征提取的過程,但最終測試圖像中掩碼仍較為粗糙。基于此,考慮到本文制作的數(shù)據(jù)集可以提供準(zhǔn)確的邊界框信息,因此再次使用僅需邊界框作為監(jiān)督信息的BoxInst實例分割模型訓(xùn)練此數(shù)據(jù)集。
表2展示了基于BoxInst分割模型,ResNet-50和RdsiNet骨干網(wǎng)絡(luò)的參數(shù),由于BoxInst只使用邊界框作為監(jiān)督信息,因此測試數(shù)據(jù)集中只計算mAPBbox來衡量模型的性能。如表2所示,RdsiNet的mAPBbox較ResNet-50提升2.2個百分點,達(dá)到89.6%,這說明使用RdsiNet骨干網(wǎng)絡(luò)的BoxInst對于邊界框的預(yù)測更加精準(zhǔn)。
表2 2種骨干網(wǎng)絡(luò)訓(xùn)練結(jié)果對比Tab.2 Comparison of results by using two backbone networks
為進(jìn)一步測試BoxInst分割模型的分割效果,本文在測試集中隨機抽取了50幅圖像,進(jìn)行了像素級掩碼標(biāo)注,將標(biāo)注掩碼作為真值,同模型預(yù)測的掩碼求不同閾值下的交并比,以此計算mAPSemg。計算結(jié)果如表2所示,RdsiNet的mAPSemg為95.2%,遠(yuǎn)高于ResNet的76.7%,這體現(xiàn)了BoxInst分割模型下,RdsiNet不僅分割效果更好,且具有更好的魯棒性。
3.4.4BoxInst分割模型測試圖像
圖9展示了BoxInst弱監(jiān)督實例分割模型在ResNet-50和RdsiNet骨干網(wǎng)絡(luò)下最終的測試圖像,可以明顯看出,BoxInst分割模型在RdsiNet骨干網(wǎng)絡(luò)下具有更好的分割效果,其掩碼不僅緊密地貼近豬只輪廓,呈現(xiàn)明顯的豬只幾何形狀,而且在豬只移動的不同場景下依舊可以完美分割。而ResNet-50的圖像分割效果出現(xiàn)較多問題,包括掩碼過度覆蓋、豬只漏檢等,這說明本文所提出的RdsiNet骨干網(wǎng)絡(luò)對于提升弱監(jiān)督實例分割效果具有很大的作用。
圖9 BoxInst下兩種骨干網(wǎng)絡(luò)分割效果對比Fig.9 Comparison of segmentation effects of two backbone networks of BoxInst
3.5.1實驗結(jié)果對比
本文使用ResNet-50骨干網(wǎng)絡(luò)、添加空間注意力機制和第2代可變形卷積操作的ResNet-50網(wǎng)絡(luò)以及本文提出的RdsiNet骨干網(wǎng)絡(luò),在Mask R-CNN分割模型上進(jìn)行消融實驗,表3是消融實驗的結(jié)果。上述3種網(wǎng)絡(luò)分別表示為ResNet-50、ResNet-50+SPA+DCN和RdsiNet。如表3所示,空間注意力機制和第2代可變形卷積對圖像實例分割效果的提升具有重要作用,額外增加involution算子之后的RdsiNet骨干網(wǎng)絡(luò)相比較原始的ResNet-50,mAPBbox和mAPSemg提升4.2、4.8個百分點,總計達(dá)到93.4%和88.6%。實驗結(jié)果表明involution算子不僅可以提升模型的性能,還可以大幅降低網(wǎng)絡(luò)參數(shù)。表3中的數(shù)據(jù)表明,本文提出的骨干網(wǎng)絡(luò)在提升分割精度的同時,還將參數(shù)量控制在合理范圍內(nèi),以較低的代價換取了更好的性能。
表3 消融實驗骨干網(wǎng)絡(luò)結(jié)果對比Tab.3 Comparison of backbone performance in ablation experiments
3.5.2類激活圖
由于神經(jīng)網(wǎng)絡(luò)具有不可解釋性,因此很難從正向推導(dǎo)的方式去判定不同特征提取方式的作用。但特征圖的權(quán)重可以認(rèn)為是被卷積核過濾后而保留的有效信息,其值越大,表明特征越有效,對網(wǎng)絡(luò)預(yù)測結(jié)果越重要。基于此,本文使用Grad-CAM[42]對輸入圖像生成類激活的熱力圖,如圖10所示,顏色越深紅的地方表示值越大,其值越大,表明特征越有效,表示原始圖像對應(yīng)區(qū)域?qū)W(wǎng)絡(luò)的響應(yīng)越高、貢獻(xiàn)越大,對網(wǎng)絡(luò)預(yù)測結(jié)果越重要。對比消融實驗中3個骨干網(wǎng)絡(luò)的類激活圖,可以看出增加了第2代可變形卷積核空間注意力機制后,網(wǎng)絡(luò)感受野明顯增大,但無法做到對豬只有效范圍的提取精度;而增加了involution算子的RdsiNet網(wǎng)絡(luò)不僅具有更大的感受野,而且其紅色范圍更加準(zhǔn)確,進(jìn)一步證明了其對有效特征提取的準(zhǔn)確度較高。
圖10 3種骨干網(wǎng)絡(luò)類激活圖Fig.10 Heatmaps of three backbone networks
(1)提出使用弱監(jiān)督學(xué)習(xí)的方法進(jìn)行豬只圖像實例分割,制作粗糙輪廓標(biāo)注的弱監(jiān)督數(shù)據(jù)集,解決了逐像素標(biāo)注數(shù)據(jù)集過程中具有的時間成本高、效率低、標(biāo)注難等問題。同時,為解決弱監(jiān)督會造成網(wǎng)絡(luò)學(xué)習(xí)性能下降的問題,使用第2代可變卷積、空間注意力機制和involution算子搭建RdsiNet特征提取骨干網(wǎng)絡(luò),在對圖像進(jìn)行特征提取和處理的過程中,擴(kuò)大網(wǎng)絡(luò)感受野、加強重要特征信息和解決深層網(wǎng)絡(luò)空間信息丟失問題,并且將骨干網(wǎng)絡(luò)深層中提取出來的抽象語義信息和特征映射相連接,優(yōu)化了豬只圖像實例分割的效果。通過消融實驗驗證了RdsiNet骨干網(wǎng)絡(luò)在弱監(jiān)督數(shù)據(jù)集上的有效性。
(2)基于Mask R-CNN分割模型,將ResNet-50、GCNet、RegNet、ResNeSt、CotNet和本文提出的RdsiNet骨干網(wǎng)絡(luò)做對比實驗,RdsiNet取得了最高的mAPBbox和mAPSemg,分別為93.4%和88.6%,比ResNet-50分別提高5.6、5.5個百分點。在分割測試圖像方面中,RdsiNet同樣具有最好的表現(xiàn),尤其在豬只堆疊、模糊的情況下, RdsiNet比ResNet-50具有更好的空間位置特征提取能力;最后通過使用消融實驗和類激活圖進(jìn)一步驗證了RdsiNet構(gòu)建的合理性和有效性。
(3)為進(jìn)一步改善分割效果,使用基于邊界框作為監(jiān)督信息的BoxInst實例分割模型,分別使用ResNet-50和RdsiNet骨干網(wǎng)絡(luò)進(jìn)行訓(xùn)練。對比之下,RdsiNet不僅有更高的mAPBbox和mAPSemg,且具有更好的分割效果,同樣表明了RdsiNet在圖像特征提取過程中的優(yōu)勢,可以為豬只體重預(yù)測、個體識別跟蹤等任務(wù)提供參考。