李西明,趙澤勇,吳精乙,黃永鼎,高月芳,溫嘉勇
(華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院,廣東 廣州 510642)
【研究意義】雞群均勻度是判斷當(dāng)前雞群生長情況的一個重要指標(biāo),可描述雞只在育成過程中是否正常生長。計(jì)算雞群均勻度需要對肉雞進(jìn)行稱重,傳統(tǒng)測量肉雞體重的方法存在難度大、誤差大、費(fèi)時耗力等缺點(diǎn),而且會增加肉雞的應(yīng)激反應(yīng),應(yīng)激嚴(yán)重時還會導(dǎo)致肉雞死亡,因此自動化和智能化計(jì)算雞群均勻度成為當(dāng)務(wù)之急。為解決這一問題,首先需要開展基于計(jì)算機(jī)視覺的肉雞圖像分割研究。
【前人研究進(jìn)展】傳統(tǒng)二維圖像的信息量已不能滿足精準(zhǔn)圖像分割的需求,人們開始把研究重點(diǎn)放在信息量更大的三維圖像上[1-3]。其中,深度圖像(depth image)是一類特殊形式的圖像,成像獲得的是二維圖像,即偽彩色圖,但沿?cái)z像機(jī)光軸方向的深度信息存儲在深度圖像的像素點(diǎn)中,而普通二維圖像則缺失這部分深度信息。深度圖像的成像方式與傳統(tǒng)光學(xué)圖像不一樣,主要由光源、深度相機(jī)和物體三者的相互位置和運(yùn)動情況所決定。從20 世紀(jì)70 年代開始,相關(guān)領(lǐng)域的研究人員不斷嘗試研究圖像分割技術(shù),而最早應(yīng)用圖像分割技術(shù)的是醫(yī)學(xué)影像處理領(lǐng)域,該領(lǐng)域通過基于閾值[4-8]的簡單方法進(jìn)行粗糙像素級別的分割。隨著需求的增加,圖像分割場景逐漸復(fù)雜,對分割技術(shù)的要求也越來越高,陸續(xù)出現(xiàn)了基于邊緣[9-14]、區(qū)域[15-16]、聚類[17-21]等的分割方法,這些方法的應(yīng)用使得復(fù)雜場景下的分割效果得到改善。而近年隨著深度學(xué)習(xí)的迅速發(fā)展,一些學(xué)者使用深度學(xué)習(xí)[22-32]進(jìn)行圖像分割,并提出了許多有效、準(zhǔn)確的圖像分割模型,如全卷積網(wǎng)絡(luò)FCN[22]、U-net[23]、金字塔場景解析網(wǎng)絡(luò)(Pyramid Scene Parsing Network,PSPNet)[24]、DeepLab[25-28]、Mask R-CNN[29]等,這些模型的出現(xiàn)不但提高了圖像分割的準(zhǔn)確度,而且使分割過程更加便捷。
【本研究切入點(diǎn)】前人研究對肉雞圖像的分割主要采用二維圖像,主要研究方法包括顏色空間轉(zhuǎn)換、肉雞背景分割、形態(tài)學(xué)處理、噪聲過濾、提取特征、閾值選擇等。這些方法并沒有考慮圖像本身的語義信息,使得分割場景復(fù)雜的圖像非常困難。本研究基于深度學(xué)習(xí)提出一種能快速、準(zhǔn)確實(shí)現(xiàn)肉雞深度圖像端到端分割的方法,無需閾值分割、去噪等繁瑣的圖像處理過程?!緮M解決的關(guān)鍵問題】本研究對收集的4 058 張深度圖像制作成肉雞深度圖數(shù)據(jù)集,并采用FCN、U-net、PSPNet、DeepLab、Mask RCNN 等5 個圖像分割模型對上述數(shù)據(jù)集進(jìn)行試驗(yàn),分析不同圖像分割方法對肉雞深度圖像的分割效果與性能,根據(jù)準(zhǔn)確率、精確率、召回率、調(diào)和平均數(shù)和交并比5 個指標(biāo)對不同圖像分割方法進(jìn)行比較與評價。
1.1.1 數(shù)據(jù)采集 試驗(yàn)使用英特爾 RealSense D435i 深度相機(jī)分別于2020 年11 月20 日、12 月3 日,2021 年1 月12 日、29—30 日、2 月6 日5 個時間段在廣東省新興縣簕竹鎮(zhèn)非雷村試驗(yàn)雞場,采集一批現(xiàn)實(shí)場景中的肉雞深度圖像。采集方法有兩種:(1)單只雞放在簡易雞籠中以分辨率為1 280×720 的標(biāo)準(zhǔn)進(jìn)行拍照;(2)以幀率為6、分辨率為1 280×720 的標(biāo)準(zhǔn)拍攝視頻,并從視頻中以每2 s 1 幀的頻率截取深度圖像。
對采集的肉雞深度圖像按照圖1A 流程構(gòu)建深度圖數(shù)據(jù)集。最終得到的肉雞深度圖集包含238 只不同肉雞共4 058 張標(biāo)注完備的深度圖像,肉雞深度圖數(shù)據(jù)集結(jié)構(gòu)的格式如圖1B 所示,通過標(biāo)注肉雞的輪廓生成標(biāo)注文件,以.jpg 格式存儲。肉雞深度圖數(shù)據(jù)集中的數(shù)據(jù)種類非常豐富,包括不同背景、光照強(qiáng)度、拍攝角度下的不同品種、日齡、姿勢形態(tài)的肉雞(圖2)。
圖1 肉雞深度圖數(shù)據(jù)集構(gòu)建流程(A)及結(jié)構(gòu)(B)Fig.1 Construction process (A) and structure (B) of broiler depth map data set
圖2 肉雞深度圖數(shù)據(jù)集Fig.2 Broiler depth map dataset
1.1.2 數(shù)據(jù)集處理 拍攝過程中肉雞不停運(yùn)動,存在姿勢各異、遮擋嚴(yán)重、拍攝不全等情況,剔除在圖像邊緣拍攝不完整的肉雞,不對其進(jìn)行標(biāo)注。采用CVAT 軟件對肉雞深度圖像進(jìn)行標(biāo)注。為了達(dá)到理想的分割結(jié)果,人工標(biāo)注肉雞邊界輪廓時,將肉雞深度圖像放大到極限后再進(jìn)行細(xì)致的標(biāo)注(圖3),平均每只雞的輪廓有300~500個標(biāo)注點(diǎn)。標(biāo)注完成后,將生成的標(biāo)注圖(存儲格式為.jpg)、json點(diǎn)標(biāo)簽文件(包含各個點(diǎn)的坐標(biāo))以及原深度圖像導(dǎo)出。
圖3 肉雞深度圖像標(biāo)注細(xì)節(jié)Fig.3 Labeling details of broiler depth map
將肉雞深度圖數(shù)據(jù)集中的訓(xùn)練集用于訓(xùn)練分別以FCN、U-Net、PSPNet、DeepLab、Mask R-CNN等5 種神經(jīng)網(wǎng)絡(luò)為骨干網(wǎng)絡(luò)的分割模型,然后將測試集輸入到訓(xùn)練好的分割模型中,得到單只雞的圖像。具體流程見圖4。
圖4 肉雞深度圖像分割流程Fig.4 Segmentation process of broiler depth map
為了客觀、準(zhǔn)確地評估和比較上述5 種模型對肉雞深度圖集分割的效果,統(tǒng)一使用肉雞深度圖數(shù)據(jù)集進(jìn)行試驗(yàn),其中訓(xùn)練集∶驗(yàn)證集∶測試集=6∶2∶2,并采用準(zhǔn)確率(Accuracy,A)、精確率(Precision,P)、召回率(Recall,R)、調(diào)和平均數(shù)(F1)和交并比(Intersection Over Union,IOU)作為肉雞深度圖集分割效果的衡量指標(biāo)。計(jì)算公式如下:
式中,TP表示圖像中正確預(yù)測肉雞的像素?cái)?shù),TN表示圖像中正確預(yù)測背景的像素?cái)?shù),F(xiàn)P表示圖像中將背景預(yù)測為肉雞的像素?cái)?shù),F(xiàn)N表示圖像中將肉雞預(yù)測為背景的像素?cái)?shù)。
根據(jù)所使用池化層的不同,F(xiàn)CN 模型可分為FCN-32s、FCN-16s、FCN-8s 等3 種類型。表1為不同F(xiàn)CN 模型在肉雞深度圖集上分割的準(zhǔn)確率和交并率,采用不同F(xiàn)CN 模型對同一圖像進(jìn)行分割的結(jié)果(圖5)顯示,F(xiàn)CN 模型的分割效果并不理想,沒有考慮圖像上下文信息,且由于像素點(diǎn)間的關(guān)聯(lián)性較低,導(dǎo)致目標(biāo)邊界模糊。
表1 FCN 使用不同池化層的分割結(jié)果Table 1 Segmentation results of different pooling layers used by FCN
圖5 不同 FCN 模型對肉雞深度圖像的分割效果Fig.5 Segmentation effects of broiler depth map by different FCN models
采用U-net 模型對肉雞深度圖像進(jìn)行分割,結(jié)果(圖6)顯示,分割后的圖像中能明顯將前景目標(biāo)切割出來,且目標(biāo)邊緣輪廓清晰,說明該模型能夠?qū)崿F(xiàn)細(xì)粒度的分割。
圖6 U-Net 模型對肉雞深度圖像的分割效果Fig.6 Segmentation effects of broiler depth map by U-Net model
采用 PSPNet 模型對肉雞深度圖像進(jìn)行分割,結(jié)果(圖7)顯示,雖然能夠較好地將前景目標(biāo)分割出來,但是對目標(biāo)邊緣分割的處理較為模糊,導(dǎo)致目標(biāo)邊緣較為圓滑,不夠精細(xì)。
圖7 PSPNet 模型對肉雞深度圖像的分割效果Fig.7 Segmentation effects of broiler depth map by PSPNet model
采用Deeplab 模型目前最新的版本DeepLabv3+對肉雞深度圖像進(jìn)行分割,由圖8 可知,雖然DeepLab-v3+能夠明顯區(qū)分出前景目標(biāo)和背景,肉雞輪廓清晰,但是相比于標(biāo)注圖,邊緣部分的細(xì)節(jié)沒能準(zhǔn)確分割出來。
圖8 DeepLab-v3+模型對肉雞深度圖像的分割效果Fig.8 Segmentation effects of broiler depth map by Deeplab-v3+model
采用Mask R-CNN 模型對肉雞深度圖像進(jìn)行分割,結(jié)果(圖9)顯示,該模型能夠精確識別不同數(shù)量的肉雞并分割出來,每只肉雞的輪廓清晰,邊緣處理非常細(xì)致。
圖9 Mask R-CNN 模型對肉雞深度圖像的分割效果Fig.9 Segmentation effects of broiler depth map by Mask R-CNN model
從上述不同模型的分割效果(表2)可見,Mask R-CNN 模型對肉雞深度圖像的分割效果最佳,其調(diào)和平均數(shù)F1為95.03%,交并比IOU 為94.69%,其分割精度細(xì),能夠清晰地將肉雞從深度圖像中分割出來,并且對目標(biāo)邊緣分割的處理較為細(xì)致,分割得到肉雞輪廓明顯;FCN-8s 模型的分割效果僅次于Mask R-CNN 模型,其準(zhǔn)確率A 為98.81%,調(diào)和平均數(shù)F1為94.58%,交并比IOU 為94.17%,并且其精確率P 在5 個模型中最高,為95.78%;而PSPNet 模型雖然能夠?qū)⒕植颗c全局的信息融合一起,分割精度細(xì),能夠清晰地將肉雞從深度圖像中分割出來,但存在對目標(biāo)邊緣分割處理較為粗糙的缺點(diǎn);而U-Net 模型雖能夠?qū)崿F(xiàn)像素級別的分割,分割得到的目標(biāo)輪廓清晰,分割準(zhǔn)確度A 高達(dá)97.99%,但是交并比IOU 則較低,僅有89.62%;DeepLab v3+模型的IOU 最低,僅為58.23%,雖然其對目標(biāo)邊緣分割的準(zhǔn)確度高于PSPNet,但相比于Mask R-CNN模型,其對邊緣部分仍有一些細(xì)節(jié)沒有準(zhǔn)確分割出來,這會影響后續(xù)對分割后圖像的研究效果。
表2 基于深度學(xué)習(xí)的圖像分割方法性能對比Table 2 Performance comparison of image segmentation methods based on deep learning
綜上,Mask R-CNN 模型對肉雞深度圖像的分割效果最佳,其準(zhǔn)確率、召回率、調(diào)和平均數(shù)以及交并比均最高,對肉雞的邊緣部分分割最準(zhǔn)確。因此后續(xù)研究將主要使用Mask R-CNN 模型作為分割模型,并且增加模型訓(xùn)練數(shù)據(jù)集的多樣性,包括肉雞品種、日齡、光線等,以提高模型識別和分割性能。
本研究針對在復(fù)雜環(huán)境背景匯總難以識別分割多只肉雞的問題,使用FCN、U-Net、PSPNet、DeepLab、Mask R-CNN 5 種經(jīng)典、熱門的分割算法對肉雞深度圖像集進(jìn)行分割試驗(yàn),探討基于深度學(xué)習(xí)實(shí)現(xiàn)對多只肉雞深度圖分割的方法。其中,F(xiàn)CN 引領(lǐng)了將深度學(xué)習(xí)應(yīng)用于圖像分割的潮流,其與CNN 不同之處在于模型的最后沒有使用全連接層,而是以全卷積的方式實(shí)現(xiàn)整個模型。為了實(shí)現(xiàn)全卷積,Long 等[22]主要采用卷積化、上采樣和跳層連接3 種技術(shù):卷積化即是將普通分類網(wǎng)絡(luò)的全連接層換成對應(yīng)的卷積層;上采樣就是反卷積,由于經(jīng)池化操作圖片尺寸會縮小,而圖像語義分割的輸出分割圖一般要與輸入圖像尺寸相同,因此需要進(jìn)行上采樣,也就是卷積的反向傳播;跨層連接的主要作用是優(yōu)化結(jié)果,將不同池化層的結(jié)果進(jìn)行上采樣后優(yōu)化輸出。但FCN 的網(wǎng)絡(luò)結(jié)構(gòu)相對較大,對圖像的細(xì)節(jié)不夠敏感,且僅對各個像素進(jìn)行分類,沒有考慮到像素間的關(guān)系,缺乏空間一致性,此外分割并非實(shí)例級別,效率也不夠?qū)崟r,因此,很少有人將FCN 應(yīng)用在具有復(fù)雜信息的深度圖像分割上。
為了解決FCN 在效率上不夠及時的問題,Ronneberger 等[23]在FCN 的基礎(chǔ)上進(jìn)行改進(jìn),創(chuàng)建出端到端全卷積網(wǎng)絡(luò)U-Net,其具有兩個優(yōu)點(diǎn):一是局部感知能力,二是用于訓(xùn)練的樣本遠(yuǎn)大于訓(xùn)練圖像的數(shù)量。其網(wǎng)絡(luò)架構(gòu)主要由用于捕捉語義的收縮路徑和用于精確定位的擴(kuò)展路徑組成,整個網(wǎng)絡(luò)共有 23 個卷積層。
PSPNet 能彌補(bǔ)FCN 缺乏空間一致性的缺陷,具有理解全局語境信息的能力,能充分利用全局信息,從而有效地在場景分析任務(wù)中產(chǎn)生高質(zhì)量的結(jié)構(gòu),并且為像素級預(yù)測提供優(yōu)越的框架。PSPNet 在場景解析和語義分割任務(wù)中能夠融合合適的全局特征,將局部和全局信息融合一起,并提出一個適度監(jiān)督損失的優(yōu)化策略,在多個數(shù)據(jù)集上表現(xiàn)優(yōu)異。
Deeplab 系列是由谷歌團(tuán)隊(duì)提出的,主要針對語義分割任務(wù)而設(shè)計(jì),其結(jié)合了深度卷積神經(jīng)網(wǎng)絡(luò)、概率圖模型、空洞卷積、全連接條件隨機(jī)場、多尺度預(yù)測等方法,改進(jìn)語義分割的效果。目前Deeplab 系列已有4 個版本,分別是Deeplab v1[25]、Deeplab v2[26]、Deeplab v3[27]和Deeplab v3+[28]。
Mask R-CNN 由何凱明等[29]基于Faster R-CNN[32]改進(jìn)的用于圖像分割的深度卷積網(wǎng)絡(luò),可以用來完成目標(biāo)分類、目標(biāo)檢測、實(shí)例分割等計(jì)算機(jī)視覺任務(wù)。雖然Mask R-CNN 的大體框架仍是Faster R-CNN 的框架,在基礎(chǔ)特征網(wǎng)絡(luò)之后加入了全連接的分割子網(wǎng),但Faster R-CNN 添加了一個預(yù)測分割Mask 的分支以實(shí)現(xiàn)實(shí)例分割,并將ROI Pooling 層替換成ROI Align 層以提高實(shí)例分割的準(zhǔn)確率。不同于用于語義分割的FCN、U-Net、PSPNet 和DeepLab 等模型,Mask R-CNN的功能更強(qiáng)大,還可以實(shí)現(xiàn)實(shí)例分割。語義分割可以識別圖像中屬于同一類的目標(biāo)以及位置,而實(shí)例分割還可以區(qū)分同一類目標(biāo)中的不同個體。
從FCN、U-Net、PSPNet、DeepLab、Mask R-CNN 等模型對肉雞深度圖像分割的試驗(yàn)結(jié)果可知,語義分割并不適用于包含多只肉雞的深度圖像分割,雖然FCN、U-Net、PSPNet、DeepLab 模型的準(zhǔn)確率分別有98.81%、97.99%、98.02%、86.38%,即對像素級別分類非常準(zhǔn)確,但當(dāng)多只肉雞之間互相有遮擋時,分割出來完全看不出是一只雞的形狀,這對后續(xù)應(yīng)用(如單只肉雞體重預(yù)測)作用不大。而使用Mask R-CNN 則可解決問題,即采用實(shí)例分割,肉雞之間出現(xiàn)遮擋的情況,被遮擋到的肉雞分割出來的形狀不完整,對于這些殘缺的肉雞形狀,應(yīng)該根據(jù)實(shí)際生產(chǎn)環(huán)境的需求而作取舍決定,例如如果后續(xù)用其來預(yù)測肉雞體重,則應(yīng)將其舍棄,否則可能會影響到整個雞群的均勻度。
此外,雖然本研究中Mask R-CNN 模型對多只肉雞深度圖像的分割表現(xiàn)最佳且達(dá)到實(shí)際生產(chǎn)環(huán)境的要求,但Mask R-CNN 并非當(dāng)前最新、性能最好的分割模型,后續(xù)將會加入其他分割模型進(jìn)行研究對比,如目前受到廣泛關(guān)注的基于Transformer[33]的分割模型,以及研究各種基于深度學(xué)習(xí)的圖像分割算法與傳統(tǒng)的圖像分割算法(基于閾值[4-8]、邊緣[9-14]、區(qū)域[15-16]、聚類[17-21]等)結(jié)合在肉雞深度圖集上的表現(xiàn)。
本研究分析了基于深度學(xué)習(xí)的圖像分割算法在肉雞深度圖集上的性能表現(xiàn),對從廣東省新興縣非雷試驗(yàn)雞場多批次收集的4 058 張深度圖像采用CVAT 軟件進(jìn)行標(biāo)注,以訓(xùn)練集∶驗(yàn)證集∶測試集=6∶2∶2 的比例制作成肉雞深度圖數(shù)據(jù)集?;贛ask R-CNN 模型對肉雞深度圖像進(jìn)行識別與分割,能夠精準(zhǔn)識別并分割復(fù)雜環(huán)境下的多只肉雞,分割準(zhǔn)確率為98.96%,交并比為94.69%,基本上能滿足生產(chǎn)實(shí)際中的肉雞識別與分割要求。與FCN、U-Net、PSPNet、DeepLab 模型相比,Mask R-CNN 模型對多只肉雞深度圖像分割效果的各項(xiàng)評價指標(biāo)(準(zhǔn)確率、召回率、調(diào)和平均數(shù)以及交并比)均最佳,說明在復(fù)雜的生產(chǎn)環(huán)境中,Mask R-CNN 肉雞分割模型具有較好的識別分割效果。