圖像分割算法在肉雞深度圖集上的研究

2022-03-03 11:03李西明趙澤勇吳精乙黃永鼎高月芳溫嘉勇

廣東農(nóng)業(yè)科學(xué) 2022年1期

李西明，趙澤勇，吳精乙，黃永鼎，高月芳，溫嘉勇

（華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院，廣東廣州 510642）

【研究意義】雞群均勻度是判斷當(dāng)前雞群生長情況的一個重要指標(biāo)，可描述雞只在育成過程中是否正常生長。計(jì)算雞群均勻度需要對肉雞進(jìn)行稱重，傳統(tǒng)測量肉雞體重的方法存在難度大、誤差大、費(fèi)時耗力等缺點(diǎn)，而且會增加肉雞的應(yīng)激反應(yīng)，應(yīng)激嚴(yán)重時還會導(dǎo)致肉雞死亡，因此自動化和智能化計(jì)算雞群均勻度成為當(dāng)務(wù)之急。為解決這一問題，首先需要開展基于計(jì)算機(jī)視覺的肉雞圖像分割研究。

【前人研究進(jìn)展】傳統(tǒng)二維圖像的信息量已不能滿足精準(zhǔn)圖像分割的需求，人們開始把研究重點(diǎn)放在信息量更大的三維圖像上［1-3］。其中，深度圖像（depth image）是一類特殊形式的圖像，成像獲得的是二維圖像，即偽彩色圖，但沿?cái)z像機(jī)光軸方向的深度信息存儲在深度圖像的像素點(diǎn)中，而普通二維圖像則缺失這部分深度信息。深度圖像的成像方式與傳統(tǒng)光學(xué)圖像不一樣，主要由光源、深度相機(jī)和物體三者的相互位置和運(yùn)動情況所決定。從20 世紀(jì)70 年代開始，相關(guān)領(lǐng)域的研究人員不斷嘗試研究圖像分割技術(shù)，而最早應(yīng)用圖像分割技術(shù)的是醫(yī)學(xué)影像處理領(lǐng)域，該領(lǐng)域通過基于閾值［4-8］的簡單方法進(jìn)行粗糙像素級別的分割。隨著需求的增加，圖像分割場景逐漸復(fù)雜，對分割技術(shù)的要求也越來越高，陸續(xù)出現(xiàn)了基于邊緣［9-14］、區(qū)域［15-16］、聚類［17-21］等的分割方法，這些方法的應(yīng)用使得復(fù)雜場景下的分割效果得到改善。而近年隨著深度學(xué)習(xí)的迅速發(fā)展，一些學(xué)者使用深度學(xué)習(xí)［22-32］進(jìn)行圖像分割，并提出了許多有效、準(zhǔn)確的圖像分割模型，如全卷積網(wǎng)絡(luò)FCN［22］、U-net［23］、金字塔場景解析網(wǎng)絡(luò)（Pyramid Scene Parsing Network，PSPNet）［24］、DeepLab［25-28］、Mask R-CNN［29］等，這些模型的出現(xiàn)不但提高了圖像分割的準(zhǔn)確度，而且使分割過程更加便捷。

【本研究切入點(diǎn)】前人研究對肉雞圖像的分割主要采用二維圖像，主要研究方法包括顏色空間轉(zhuǎn)換、肉雞背景分割、形態(tài)學(xué)處理、噪聲過濾、提取特征、閾值選擇等。這些方法并沒有考慮圖像本身的語義信息，使得分割場景復(fù)雜的圖像非常困難。本研究基于深度學(xué)習(xí)提出一種能快速、準(zhǔn)確實(shí)現(xiàn)肉雞深度圖像端到端分割的方法，無需閾值分割、去噪等繁瑣的圖像處理過程?！緮M解決的關(guān)鍵問題】本研究對收集的4 058 張深度圖像制作成肉雞深度圖數(shù)據(jù)集，并采用FCN、U-net、PSPNet、DeepLab、Mask RCNN 等5 個圖像分割模型對上述數(shù)據(jù)集進(jìn)行試驗(yàn)，分析不同圖像分割方法對肉雞深度圖像的分割效果與性能，根據(jù)準(zhǔn)確率、精確率、召回率、調(diào)和平均數(shù)和交并比5 個指標(biāo)對不同圖像分割方法進(jìn)行比較與評價。

1 材料與方法

1.1 試驗(yàn)材料

1.1.1 數(shù)據(jù)采集試驗(yàn)使用英特爾 RealSense D435i 深度相機(jī)分別于2020 年11 月20 日、12 月3 日，2021 年1 月12 日、29—30 日、2 月6 日5 個時間段在廣東省新興縣簕竹鎮(zhèn)非雷村試驗(yàn)雞場，采集一批現(xiàn)實(shí)場景中的肉雞深度圖像。采集方法有兩種：（1）單只雞放在簡易雞籠中以分辨率為1 280×720 的標(biāo)準(zhǔn)進(jìn)行拍照；（2）以幀率為6、分辨率為1 280×720 的標(biāo)準(zhǔn)拍攝視頻，并從視頻中以每2 s 1 幀的頻率截取深度圖像。

對采集的肉雞深度圖像按照圖1A 流程構(gòu)建深度圖數(shù)據(jù)集。最終得到的肉雞深度圖集包含238 只不同肉雞共4 058 張標(biāo)注完備的深度圖像，肉雞深度圖數(shù)據(jù)集結(jié)構(gòu)的格式如圖1B 所示，通過標(biāo)注肉雞的輪廓生成標(biāo)注文件，以.jpg 格式存儲。肉雞深度圖數(shù)據(jù)集中的數(shù)據(jù)種類非常豐富，包括不同背景、光照強(qiáng)度、拍攝角度下的不同品種、日齡、姿勢形態(tài)的肉雞（圖2）。

圖1 肉雞深度圖數(shù)據(jù)集構(gòu)建流程（A）及結(jié)構(gòu)（B）Fig.1 Construction process (A) and structure (B) of broiler depth map data set

圖2 肉雞深度圖數(shù)據(jù)集Fig.2 Broiler depth map dataset

1.1.2 數(shù)據(jù)集處理拍攝過程中肉雞不停運(yùn)動，存在姿勢各異、遮擋嚴(yán)重、拍攝不全等情況，剔除在圖像邊緣拍攝不完整的肉雞，不對其進(jìn)行標(biāo)注。采用CVAT 軟件對肉雞深度圖像進(jìn)行標(biāo)注。為了達(dá)到理想的分割結(jié)果，人工標(biāo)注肉雞邊界輪廓時，將肉雞深度圖像放大到極限后再進(jìn)行細(xì)致的標(biāo)注（圖3），平均每只雞的輪廓有300～500個標(biāo)注點(diǎn)。標(biāo)注完成后，將生成的標(biāo)注圖（存儲格式為.jpg）、json點(diǎn)標(biāo)簽文件（包含各個點(diǎn)的坐標(biāo)）以及原深度圖像導(dǎo)出。

圖3 肉雞深度圖像標(biāo)注細(xì)節(jié)Fig.3 Labeling details of broiler depth map

1.2 試驗(yàn)方法

將肉雞深度圖數(shù)據(jù)集中的訓(xùn)練集用于訓(xùn)練分別以FCN、U-Net、PSPNet、DeepLab、Mask R-CNN等5 種神經(jīng)網(wǎng)絡(luò)為骨干網(wǎng)絡(luò)的分割模型，然后將測試集輸入到訓(xùn)練好的分割模型中，得到單只雞的圖像。具體流程見圖4。

圖4 肉雞深度圖像分割流程Fig.4 Segmentation process of broiler depth map

為了客觀、準(zhǔn)確地評估和比較上述5 種模型對肉雞深度圖集分割的效果，統(tǒng)一使用肉雞深度圖數(shù)據(jù)集進(jìn)行試驗(yàn)，其中訓(xùn)練集∶驗(yàn)證集∶測試集=6∶2∶2，并采用準(zhǔn)確率（Accuracy，A）、精確率（Precision，P）、召回率（Recall，R）、調(diào)和平均數(shù)（F1）和交并比（Intersection Over Union，IOU）作為肉雞深度圖集分割效果的衡量指標(biāo)。計(jì)算公式如下：

式中，TP表示圖像中正確預(yù)測肉雞的像素?cái)?shù)，TN表示圖像中正確預(yù)測背景的像素?cái)?shù)，F(xiàn)P表示圖像中將背景預(yù)測為肉雞的像素?cái)?shù)，F(xiàn)N表示圖像中將肉雞預(yù)測為背景的像素?cái)?shù)。

2 結(jié)果與分析

2.1 FCN 模型對肉雞深度圖像的分割結(jié)果

根據(jù)所使用池化層的不同，F(xiàn)CN 模型可分為FCN-32s、FCN-16s、FCN-8s 等3 種類型。表1為不同F(xiàn)CN 模型在肉雞深度圖集上分割的準(zhǔn)確率和交并率，采用不同F(xiàn)CN 模型對同一圖像進(jìn)行分割的結(jié)果（圖5）顯示，F(xiàn)CN 模型的分割效果并不理想，沒有考慮圖像上下文信息，且由于像素點(diǎn)間的關(guān)聯(lián)性較低，導(dǎo)致目標(biāo)邊界模糊。

表1 FCN 使用不同池化層的分割結(jié)果Table 1 Segmentation results of different pooling layers used by FCN

圖5 不同 FCN 模型對肉雞深度圖像的分割效果Fig.5 Segmentation effects of broiler depth map by different FCN models

2.2 U-Net 模型對肉雞深度圖像的分割結(jié)果

采用U-net 模型對肉雞深度圖像進(jìn)行分割，結(jié)果（圖6）顯示，分割后的圖像中能明顯將前景目標(biāo)切割出來，且目標(biāo)邊緣輪廓清晰，說明該模型能夠?qū)崿F(xiàn)細(xì)粒度的分割。

圖6 U-Net 模型對肉雞深度圖像的分割效果Fig.6 Segmentation effects of broiler depth map by U-Net model

2.3 PSPNet 模型對肉雞深度圖像的分割結(jié)果

采用 PSPNet 模型對肉雞深度圖像進(jìn)行分割，結(jié)果（圖7）顯示，雖然能夠較好地將前景目標(biāo)分割出來，但是對目標(biāo)邊緣分割的處理較為模糊，導(dǎo)致目標(biāo)邊緣較為圓滑，不夠精細(xì)。

圖7 PSPNet 模型對肉雞深度圖像的分割效果Fig.7 Segmentation effects of broiler depth map by PSPNet model

2.4 DeepLab 模型對肉雞深度圖像的分割結(jié)果

采用Deeplab 模型目前最新的版本DeepLabv3+對肉雞深度圖像進(jìn)行分割，由圖8 可知，雖然DeepLab-v3+能夠明顯區(qū)分出前景目標(biāo)和背景，肉雞輪廓清晰，但是相比于標(biāo)注圖，邊緣部分的細(xì)節(jié)沒能準(zhǔn)確分割出來。

圖8 DeepLab-v3+模型對肉雞深度圖像的分割效果Fig.8 Segmentation effects of broiler depth map by Deeplab-v3+model

2.5 Mask R-CNN 模型對肉雞深度圖像的分割結(jié)果

采用Mask R-CNN 模型對肉雞深度圖像進(jìn)行分割，結(jié)果（圖9）顯示，該模型能夠精確識別不同數(shù)量的肉雞并分割出來，每只肉雞的輪廓清晰，邊緣處理非常細(xì)致。

圖9 Mask R-CNN 模型對肉雞深度圖像的分割效果Fig.9 Segmentation effects of broiler depth map by Mask R-CNN model

2.6 不同模型對肉雞深度圖像分割結(jié)果的比較

從上述不同模型的分割效果（表2）可見，Mask R-CNN 模型對肉雞深度圖像的分割效果最佳，其調(diào)和平均數(shù)F1為95.03%，交并比IOU 為94.69%，其分割精度細(xì)，能夠清晰地將肉雞從深度圖像中分割出來，并且對目標(biāo)邊緣分割的處理較為細(xì)致，分割得到肉雞輪廓明顯；FCN-8s 模型的分割效果僅次于Mask R-CNN 模型，其準(zhǔn)確率A 為98.81%，調(diào)和平均數(shù)F1為94.58%，交并比IOU 為94.17%，并且其精確率P 在5 個模型中最高，為95.78%；而PSPNet 模型雖然能夠?qū)⒕植颗c全局的信息融合一起，分割精度細(xì)，能夠清晰地將肉雞從深度圖像中分割出來，但存在對目標(biāo)邊緣分割處理較為粗糙的缺點(diǎn)；而U-Net 模型雖能夠?qū)崿F(xiàn)像素級別的分割，分割得到的目標(biāo)輪廓清晰，分割準(zhǔn)確度A 高達(dá)97.99%，但是交并比IOU 則較低，僅有89.62%；DeepLab v3+模型的IOU 最低，僅為58.23%，雖然其對目標(biāo)邊緣分割的準(zhǔn)確度高于PSPNet，但相比于Mask R-CNN模型，其對邊緣部分仍有一些細(xì)節(jié)沒有準(zhǔn)確分割出來，這會影響后續(xù)對分割后圖像的研究效果。

表2 基于深度學(xué)習(xí)的圖像分割方法性能對比Table 2 Performance comparison of image segmentation methods based on deep learning

綜上，Mask R-CNN 模型對肉雞深度圖像的分割效果最佳，其準(zhǔn)確率、召回率、調(diào)和平均數(shù)以及交并比均最高，對肉雞的邊緣部分分割最準(zhǔn)確。因此后續(xù)研究將主要使用Mask R-CNN 模型作為分割模型，并且增加模型訓(xùn)練數(shù)據(jù)集的多樣性，包括肉雞品種、日齡、光線等，以提高模型識別和分割性能。

3 討論

本研究針對在復(fù)雜環(huán)境背景匯總難以識別分割多只肉雞的問題，使用FCN、U-Net、PSPNet、DeepLab、Mask R-CNN 5 種經(jīng)典、熱門的分割算法對肉雞深度圖像集進(jìn)行分割試驗(yàn)，探討基于深度學(xué)習(xí)實(shí)現(xiàn)對多只肉雞深度圖分割的方法。其中，F(xiàn)CN 引領(lǐng)了將深度學(xué)習(xí)應(yīng)用于圖像分割的潮流，其與CNN 不同之處在于模型的最后沒有使用全連接層，而是以全卷積的方式實(shí)現(xiàn)整個模型。為了實(shí)現(xiàn)全卷積，Long 等［22］主要采用卷積化、上采樣和跳層連接3 種技術(shù)：卷積化即是將普通分類網(wǎng)絡(luò)的全連接層換成對應(yīng)的卷積層；上采樣就是反卷積，由于經(jīng)池化操作圖片尺寸會縮小，而圖像語義分割的輸出分割圖一般要與輸入圖像尺寸相同，因此需要進(jìn)行上采樣，也就是卷積的反向傳播；跨層連接的主要作用是優(yōu)化結(jié)果，將不同池化層的結(jié)果進(jìn)行上采樣后優(yōu)化輸出。但FCN 的網(wǎng)絡(luò)結(jié)構(gòu)相對較大，對圖像的細(xì)節(jié)不夠敏感，且僅對各個像素進(jìn)行分類，沒有考慮到像素間的關(guān)系，缺乏空間一致性，此外分割并非實(shí)例級別，效率也不夠?qū)崟r，因此，很少有人將FCN 應(yīng)用在具有復(fù)雜信息的深度圖像分割上。

為了解決FCN 在效率上不夠及時的問題，Ronneberger 等［23］在FCN 的基礎(chǔ)上進(jìn)行改進(jìn)，創(chuàng)建出端到端全卷積網(wǎng)絡(luò)U-Net，其具有兩個優(yōu)點(diǎn)：一是局部感知能力，二是用于訓(xùn)練的樣本遠(yuǎn)大于訓(xùn)練圖像的數(shù)量。其網(wǎng)絡(luò)架構(gòu)主要由用于捕捉語義的收縮路徑和用于精確定位的擴(kuò)展路徑組成，整個網(wǎng)絡(luò)共有 23 個卷積層。

PSPNet 能彌補(bǔ)FCN 缺乏空間一致性的缺陷，具有理解全局語境信息的能力，能充分利用全局信息，從而有效地在場景分析任務(wù)中產(chǎn)生高質(zhì)量的結(jié)構(gòu)，并且為像素級預(yù)測提供優(yōu)越的框架。PSPNet 在場景解析和語義分割任務(wù)中能夠融合合適的全局特征，將局部和全局信息融合一起，并提出一個適度監(jiān)督損失的優(yōu)化策略，在多個數(shù)據(jù)集上表現(xiàn)優(yōu)異。

Deeplab 系列是由谷歌團(tuán)隊(duì)提出的，主要針對語義分割任務(wù)而設(shè)計(jì)，其結(jié)合了深度卷積神經(jīng)網(wǎng)絡(luò)、概率圖模型、空洞卷積、全連接條件隨機(jī)場、多尺度預(yù)測等方法，改進(jìn)語義分割的效果。目前Deeplab 系列已有4 個版本，分別是Deeplab v1［25］、Deeplab v2［26］、Deeplab v3［27］和Deeplab v3+［28］。

Mask R-CNN 由何凱明等［29］基于Faster R-CNN［32］改進(jìn)的用于圖像分割的深度卷積網(wǎng)絡(luò)，可以用來完成目標(biāo)分類、目標(biāo)檢測、實(shí)例分割等計(jì)算機(jī)視覺任務(wù)。雖然Mask R-CNN 的大體框架仍是Faster R-CNN 的框架，在基礎(chǔ)特征網(wǎng)絡(luò)之后加入了全連接的分割子網(wǎng)，但Faster R-CNN 添加了一個預(yù)測分割Mask 的分支以實(shí)現(xiàn)實(shí)例分割，并將ROI Pooling 層替換成ROI Align 層以提高實(shí)例分割的準(zhǔn)確率。不同于用于語義分割的FCN、U-Net、PSPNet 和DeepLab 等模型，Mask R-CNN的功能更強(qiáng)大，還可以實(shí)現(xiàn)實(shí)例分割。語義分割可以識別圖像中屬于同一類的目標(biāo)以及位置，而實(shí)例分割還可以區(qū)分同一類目標(biāo)中的不同個體。

從FCN、U-Net、PSPNet、DeepLab、Mask R-CNN 等模型對肉雞深度圖像分割的試驗(yàn)結(jié)果可知，語義分割并不適用于包含多只肉雞的深度圖像分割，雖然FCN、U-Net、PSPNet、DeepLab 模型的準(zhǔn)確率分別有98.81%、97.99%、98.02%、86.38%，即對像素級別分類非常準(zhǔn)確，但當(dāng)多只肉雞之間互相有遮擋時，分割出來完全看不出是一只雞的形狀，這對后續(xù)應(yīng)用（如單只肉雞體重預(yù)測）作用不大。而使用Mask R-CNN 則可解決問題，即采用實(shí)例分割，肉雞之間出現(xiàn)遮擋的情況，被遮擋到的肉雞分割出來的形狀不完整，對于這些殘缺的肉雞形狀，應(yīng)該根據(jù)實(shí)際生產(chǎn)環(huán)境的需求而作取舍決定，例如如果后續(xù)用其來預(yù)測肉雞體重，則應(yīng)將其舍棄，否則可能會影響到整個雞群的均勻度。

此外，雖然本研究中Mask R-CNN 模型對多只肉雞深度圖像的分割表現(xiàn)最佳且達(dá)到實(shí)際生產(chǎn)環(huán)境的要求，但Mask R-CNN 并非當(dāng)前最新、性能最好的分割模型，后續(xù)將會加入其他分割模型進(jìn)行研究對比，如目前受到廣泛關(guān)注的基于Transformer［33］的分割模型，以及研究各種基于深度學(xué)習(xí)的圖像分割算法與傳統(tǒng)的圖像分割算法（基于閾值［4-8］、邊緣［9-14］、區(qū)域［15-16］、聚類［17-21］等）結(jié)合在肉雞深度圖集上的表現(xiàn)。

4 結(jié)論

本研究分析了基于深度學(xué)習(xí)的圖像分割算法在肉雞深度圖集上的性能表現(xiàn)，對從廣東省新興縣非雷試驗(yàn)雞場多批次收集的4 058 張深度圖像采用CVAT 軟件進(jìn)行標(biāo)注，以訓(xùn)練集∶驗(yàn)證集∶測試集=6∶2∶2 的比例制作成肉雞深度圖數(shù)據(jù)集?；贛ask R-CNN 模型對肉雞深度圖像進(jìn)行識別與分割，能夠精準(zhǔn)識別并分割復(fù)雜環(huán)境下的多只肉雞，分割準(zhǔn)確率為98.96%，交并比為94.69%，基本上能滿足生產(chǎn)實(shí)際中的肉雞識別與分割要求。與FCN、U-Net、PSPNet、DeepLab 模型相比，Mask R-CNN 模型對多只肉雞深度圖像分割效果的各項(xiàng)評價指標(biāo)（準(zhǔn)確率、召回率、調(diào)和平均數(shù)以及交并比）均最佳，說明在復(fù)雜的生產(chǎn)環(huán)境中，Mask R-CNN 肉雞分割模型具有較好的識別分割效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡