国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的檳榔輪廓圖像分割算法的應(yīng)用

2023-06-22 23:25:01程盼
現(xiàn)代信息科技 2023年5期

摘? 要:針對(duì)目前檳榔點(diǎn)鹵工藝中鹵水量不好精確控制的問題,文章提出采用深度學(xué)習(xí)的方式對(duì)檳榔內(nèi)輪廓進(jìn)行語義分割,分離出內(nèi)輪廓并計(jì)算出相應(yīng)面積,最后推算出比較準(zhǔn)確的鹵水量。其中,網(wǎng)絡(luò)模型以UNet為基礎(chǔ)模型,考慮到模型的通用性,將UNet的encoder特征提取部分替換成VGG16網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)模型對(duì)于檳榔內(nèi)外腔的分割效果很好,分割精度達(dá)到97%以上,性能優(yōu)于不進(jìn)行遷移學(xué)習(xí)的UNet。

關(guān)鍵詞:語義分割;UNet;VGG16;檳榔輪廓分割

中圖分類號(hào):TP391.4? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)05-0149-04

Application of Areca Nut Contour Image Segmentation Algorithm Based on Deep Learning

CHENG Pan

(Sankyo-HZ Precision Co., Ltd., Huizhou? 516006, China)

Abstract: Aiming at the problem that the brine amount is not well controlled accurately in the process of adding brine to areca nut at present, this paper proposes to use the deep learning method to perform semantic segmentation on the inner contour of areca nut, after separating the inner contour and calculating the corresponding area, and it finally calculates the more accurate brine amount. The network model is based on UNet model. Considering the universality of the model, the encoder feature extraction part of UNet is replaced by VGG16 network. The experimental results show that the network model has a good segmentation effect for the internal and external cavities of areca nut, with the segmentation accuracy of more than 97%, and its performance is better than that of UNet without migration learning.

Keywords: semantic segmentation; UNet; VGG16; areca nut contour segmentation

0? 引? 言

目前我國(guó)檳榔產(chǎn)品主要以青果和煙果為主,其生產(chǎn)流程主要工藝包括選籽、切片、去芯、點(diǎn)鹵、包裝等工藝。其中,點(diǎn)鹵工藝為其中一環(huán)。由于檳榔本身差異性很大,設(shè)備很難準(zhǔn)確控制鹵水量,而鹵水量的準(zhǔn)確度直接影響檳榔的食用口感,導(dǎo)致該工藝主要以人工點(diǎn)鹵為主。通過機(jī)器視覺技術(shù)分析檳榔內(nèi)輪廓的面積,進(jìn)而推算出需要的鹵水量,成為自動(dòng)化方向的首選。然而,檳榔本身形態(tài)多變,內(nèi)外輪廓特征的準(zhǔn)確分割成為一大難題。

傳統(tǒng)的圖像分割算法往往基于閾值、區(qū)域/邊緣、紋理、聚類等,算法相對(duì)簡(jiǎn)單,但是效率低,準(zhǔn)確度不高。近年來,隨著計(jì)算機(jī)視覺技術(shù)的興起,特別是涉及深度學(xué)習(xí)非常關(guān)鍵的算法、算力、數(shù)據(jù)的不斷發(fā)展,基于計(jì)算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí)的圖像分割技術(shù)受到了人們的廣泛關(guān)注。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)是圖像分割或分類任務(wù)的佼佼者[1-3]。2014年Simonyan等[4]提出基于小卷積核和池化核的VGG卷積神經(jīng)網(wǎng)絡(luò)模型,該模型在2014年的ImageNet挑戰(zhàn)賽(ILSVRC -2014)中獲得了亞軍,后被廣泛應(yīng)用于分類和定位任務(wù)中。2015年,Ronneberger[5]等提出基于Encoder-Decoder結(jié)構(gòu)的UNet網(wǎng)絡(luò)模型。跳躍連接(Skip-Connection)有別于全卷積網(wǎng)絡(luò)[6](Fully Convolutional Network,F(xiàn)CN)采用的加操作(Summation),UNet采用堆疊操作(Concatenation),這樣的結(jié)構(gòu)使得網(wǎng)絡(luò)在上采樣(Decoder)階段更加利于空間信息等特征的保留。由于UNet的下采樣階段(Encoder)的網(wǎng)絡(luò)結(jié)構(gòu)與VGG高度相似,考慮到可以使用VGG預(yù)訓(xùn)練的成熟模型來進(jìn)行遷移學(xué)習(xí),從而起到加速UNet的訓(xùn)練的效果。結(jié)合VGG與UNet網(wǎng)絡(luò)模型,2018年,Iglovikov等[7]演示了如何通過使用預(yù)訓(xùn)練的編碼器模型來改進(jìn)UNet的架構(gòu),其中采用預(yù)訓(xùn)練權(quán)重的VGG-UNet網(wǎng)絡(luò)模型的語義分割效果明顯優(yōu)于沒有預(yù)訓(xùn)練權(quán)重的模型。

UNet網(wǎng)絡(luò)模型及其變種模型通常用在醫(yī)學(xué)圖像、遙感圖像等的語義分割上,并取得了非常好的效果。2016年,F(xiàn)austod等[8]提出了一種基于體積、全卷積神經(jīng)網(wǎng)絡(luò)的3D圖像分割方法V-Net。2018年Zongwei Zhou等[9]提出醫(yī)學(xué)圖像分割架構(gòu)UNet++,其本質(zhì)上是一個(gè)深度監(jiān)督的Encoder-Decoder網(wǎng)絡(luò),其中Encoder與Decoder子網(wǎng)絡(luò)通過一系列嵌套的密集跳躍路徑連接。重新設(shè)計(jì)的跳躍路徑旨在減少編碼器和解碼器子網(wǎng)絡(luò)的特征圖之間的語義差距。2021年,Ali Nawaz等[10]提出用于腦腫瘤分割的VGG19-UNet和用于生存預(yù)測(cè)的集成學(xué)習(xí)模型。

考慮到醫(yī)學(xué)圖像與檳榔圖像的共性:語義較為簡(jiǎn)單和結(jié)構(gòu)相對(duì)固定,本文采用VGG-UNet網(wǎng)絡(luò)模型,用于檳榔圖片的語義分割任務(wù)中。其中,以UNet為基礎(chǔ)模型,下采樣部分用VGG16代替。

1? VGG-UNet網(wǎng)絡(luò)結(jié)構(gòu)

VGG-UNet網(wǎng)絡(luò)可以看作UNet網(wǎng)絡(luò)的一種改進(jìn),而UNet本身也可以歸類為FCN網(wǎng)絡(luò)。典型的UNet包括下采樣和上采樣兩部分,分別對(duì)應(yīng)Encoder和Decoder。從結(jié)構(gòu)上看,本文使用的網(wǎng)絡(luò)與UNet網(wǎng)絡(luò)主要改進(jìn)在于:(1)下采樣部分采用VGG16網(wǎng)絡(luò)結(jié)構(gòu),但是去掉了全連接層;(2)上采樣部分采用兩倍上采樣+拼接,單層輸出與跳躍連接輸入的通道數(shù)保持一致。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

本文的VGG-UNet網(wǎng)絡(luò)中,卷積操作用于特征提取,絕大部分使用的卷積核(kernel)大小為3×3,步長(zhǎng)(striding)為1,各邊緣填充(padding)等于1,這樣保證了卷積前后的長(zhǎng)寬不變;最大池化操作使用2倍下采樣,用于降低維度和減少噪聲。反卷積操作采用2倍上采樣,用于維度的恢復(fù)。跳躍連接則主要用于底層的空間位置信息與深層特征的語義信息的融合,減少空間信息的丟失。具體流程如下,如表1所示。

(1)Input:輸入圖像大小為512×512×3。

(2)下采樣階段:

1)Block 1:輸入圖像大小為512×512×3,使用大小為3×3的64通道卷積核進(jìn)行2次卷積,再進(jìn)行減半池化;

2)Block 2:輸入圖像大小為256×256×64,使用大小為3×3的128通道卷積核進(jìn)行2次卷積,再進(jìn)行減半池化;

3)Block 3:輸入圖像大小為128×128×128,使用大小為3×3的256通道卷積核進(jìn)行3次卷積,再進(jìn)行減半池化;

4)Block 4:輸入圖像大小為64×64×256,使用大小為3×3的512通道卷積核進(jìn)行3次卷積,再進(jìn)行減半池化;

5)Block 5:輸入圖像大小為32×32×512,使用大小為3×3的512通道卷積核進(jìn)行3次卷積。

(3)上采樣階段:

1)Block 1:輸入圖像大小為32×32×512,采用2倍反卷積+拼接,然后使用大小為3×3的512通道卷積核進(jìn)行2次卷積;

2)Block 2:輸入圖像大小為64×64×512,采用2倍反卷積+拼接,然后使用大小為3×3的256通道卷積核進(jìn)行2次卷積;

3)Block 3:輸入圖像大小為128×128×256,采用2倍反卷積+拼接,然后使用大小為3×3的128通道卷積核進(jìn)行2次卷積;

4)Block 4:輸入圖像大小為256×256×128,采用2倍反卷積+拼接,然后使用大小為3×3的64通道卷積核進(jìn)行2次卷積。

(4)Output:輸入圖像大小為512×512×64,使用大小為1×1的3通道卷積核進(jìn)行1次卷積,得到輸出圖像大小為512×512×3。

2? 實(shí)驗(yàn)及分析

2.1? 數(shù)據(jù)集

檳榔放置于料盤上,檳榔切口水平朝上時(shí)為正常狀態(tài)??紤]到檳榔的識(shí)別效果易受檳榔形狀、姿態(tài)等影響,在取圖時(shí)部分檳榔會(huì)故意將切口傾斜、整體姿態(tài)傾斜,異常檳榔約占整體數(shù)量的5%,與實(shí)際生產(chǎn)情況保持一致。另外,實(shí)際生產(chǎn)過程中料盤經(jīng)常會(huì)沾到鹵水,在取圖時(shí)也需要考慮。數(shù)據(jù)采集使用130萬象素相機(jī)采集,一次拍6個(gè)檳榔,圖片大小1 280×960,總數(shù)量923張。打光采用回型背光源,通過旋轉(zhuǎn)角度,將數(shù)據(jù)增廣到3 692張。隨機(jī)選取90%作為訓(xùn)練集,10%作為驗(yàn)證集。相機(jī)采集到的檳榔圖片示例如圖2所示。

2.2? 模型訓(xùn)練及評(píng)價(jià)指標(biāo)

本文使用的VGG-UNet網(wǎng)絡(luò)模型采用Pytroch深度學(xué)習(xí)框架進(jìn)行訓(xùn)練,系統(tǒng)環(huán)境為Win 10,GPU使用NVIDIAGeforce RTX 2080 Ti。數(shù)據(jù)集圖片以長(zhǎng)邊保持比例縮放到512×512,短邊不足部分補(bǔ)齊,灰度值設(shè)置為全白255。整個(gè)模型輸入圖片大小為512×512×3,語義分割類別有3類,分別是背景,外腔,內(nèi)腔。輸出圖片大小與輸入一致。

采用的語義分割常用的評(píng)價(jià)指標(biāo)為像素準(zhǔn)確率(PA)和Dice系數(shù),其中,PA用來預(yù)測(cè)正確的樣本數(shù)量占全部樣本的百分比,Dice系數(shù)則用于評(píng)估兩集合的相似度。

由表2可以看出,VGG-UNet的像素準(zhǔn)確率為97.25%,比UNet的高出0.48%;VGG-UNet的Dice系數(shù)為89.58%,比UNet的高出0.38%。采用預(yù)訓(xùn)練的VGG-UNet無論在準(zhǔn)確度和Dice系數(shù)上的表現(xiàn)都要優(yōu)于UNet。

從圖3的效果對(duì)比可以看出,VGG-UNet在圖像的細(xì)節(jié)分割更加準(zhǔn)確。比如,UNet處理的外輪廓明顯會(huì)更多受到盤子特征的影響更多;當(dāng)內(nèi)輪廓分界線不是很明顯時(shí)容易丟失部分內(nèi)輪廓面積。

3? 結(jié)? 論

由于先驗(yàn)知識(shí)的加入,使得VGG-UNet網(wǎng)絡(luò)模型在訓(xùn)練時(shí)收斂性更快,對(duì)圖像分割效果更加穩(wěn)定,具有更好的魯棒性。實(shí)際在生產(chǎn)的過程中,模型的分割效果跟樣本本身也有很大關(guān)系,要注意不良樣本的比例要與實(shí)際生產(chǎn)保持一致。另外,此方法的不足之處還有,當(dāng)兩個(gè)檳榔相連時(shí),檳榔輪廓會(huì)找錯(cuò)。輪廓的平滑性還是有些許不足,訓(xùn)練比較耗時(shí),這將是后期亟須完善的地方。

參考文獻(xiàn):

[1] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-2324.

[2] KRIZHEVSKY A,SUTSKEVER I,HINTON G. ImageNet Classification with Deep Convolutional Neural Networks [J].Advances in neural information processing systems,2012,25(2):75-79.

[3] TAIGMAN Y,YANG M,RANZATO M,et al. DeepFace:Closing the Gap to Human-Level Performance in Face Verification [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus:IEEE,2014:1701-1708.

[4] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J/OL].arXiv:1409.1556 [cs.CV].(2015-04-10).https://arxiv.org/abs/1409.1556.

[5] RONNEBERGER O,F(xiàn)ISCHER P,BROX T. U-Net:Convolutional Networks for Biomedical Image Segmentation [C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015.Cham:Springer,2015:234-241.

[6] SHELHAMER E,LONG J,DARRELL T. Fully Convolutional Networks for Semantic Segmentation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,39(4):640-651.

[7] IGLOVIKOV V,SHVETS A. TernausNet:U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation [J/OL].arXiv:1801.05746 [cs.CV].(2018-01-17).https://arxiv.org/abs/1801.05746.

[8] MILLETARI F,NAVAB N,AHMADI S A. V-Net:Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation [C]//2016 Fourth International Conference on 3D Vision (3DV).Stanford:IEEE,2018:565-571.

[9] ZHOU Z,SIDDIQUEE M,TAJBAKHSH N,et al. UNet++:A Nested U-Net Architecture for Medical Image Segmentation [C]//DLMIA 2018,ML-CDS 2018.Cham:Springer,2018:3-11.

[10] NAWAZ A,AKRAM U,SALAM A,et al. VGG-UNET for Brain Tumor Segmentation and Ensemble Model for Survival Prediction [C]//2021 International Conference on Robotics and Automation in Industry (ICRAI).Rawalpindi:IEEE,2021:1-6.

作者簡(jiǎn)介:程盼(1988—),男,漢族,湖北天門人,高級(jí)工程師,碩士,研究方向:機(jī)器視覺。

收稿日期:2022-12-26

安达市| 达日县| 若羌县| 九江市| 军事| 贡觉县| 胶南市| 万全县| 慈利县| 乐亭县| 册亨县| 府谷县| 遵化市| 政和县| 武威市| 乐山市| 武山县| 昌江| 和平区| 东光县| 苗栗县| 文昌市| 清流县| 正定县| 剑川县| 射洪县| 顺平县| 筠连县| 宁晋县| 夏津县| 凉山| 屯昌县| 博野县| 孝昌县| 长丰县| 龙门县| 楚雄市| 同仁县| 木里| 昭苏县| 昂仁县|