基于激勵(lì)壓縮空洞卷積改進(jìn)U-Net網(wǎng)絡(luò)的物流托盤圖像分割算法

2021-11-13 09:52魏占國(guó)宋婭萍

包裝學(xué)報(bào) 2021年5期

關(guān)鍵詞：空洞卷積物流

魏占國(guó) 宋婭萍李亞

中南林業(yè)科技大學(xué)

物流與交通學(xué)院

湖南長(zhǎng)沙 410004

0 引言

托盤在現(xiàn)代物流運(yùn)輸行業(yè)中起著關(guān)鍵的作用，它可以將包裹規(guī)格化和模塊化，從而極大地提高運(yùn)輸效率。傳統(tǒng)的人工叉車已不能滿足現(xiàn)代物流運(yùn)輸搬運(yùn)作業(yè)的高效率要求。因此，基于托盤智能分割識(shí)別的自動(dòng)化叉車成為智慧物流行業(yè)的前沿?zé)狳c(diǎn)。自動(dòng)化叉車高效精準(zhǔn)的作業(yè)關(guān)鍵在于可視化識(shí)別系統(tǒng)的物流托盤分割算法能準(zhǔn)確識(shí)別托盤圖像。

隨著算法的提升和深度學(xué)習(xí)技術(shù)的飛速發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNN）在圖像語(yǔ)義分割[1-3]任務(wù)上表現(xiàn)出了強(qiáng)大的性能。圖像語(yǔ)義分割是一種將圖像分割成具有精確語(yǔ)義類別屬性的區(qū)域序列方法，即利用每個(gè)像素及其周圍的圖像塊獨(dú)立地對(duì)每個(gè)像素進(jìn)行分類。加州大學(xué)伯克利分校的J. Long等提出的全卷積網(wǎng)絡(luò)（fully convolutional networks，F(xiàn)CN）推廣了傳統(tǒng)的CNN結(jié)構(gòu)，能在不帶全連接層的情況下進(jìn)行密集預(yù)測(cè)，但是FCN會(huì)造成圖像位置信息的丟失[4-7]。為使語(yǔ)義分割能夠完全貼合圖像，保留圖像位置信息，研究者提出了兩種不同形式的結(jié)構(gòu)：

1）編碼器-解碼器（encoder-decoder）結(jié)構(gòu)。編碼器利用池化層逐漸減小輸入數(shù)據(jù)的空間維度，而解碼器則利用像反卷積層這樣的網(wǎng)絡(luò)層來(lái)逐步修復(fù)目標(biāo)對(duì)象的細(xì)節(jié)和空間維度。編碼器和解碼器通常有直接的信息連接，因而解碼器可以更好地恢復(fù)目標(biāo)對(duì)象細(xì)節(jié)。編碼器-解碼器結(jié)構(gòu)的典型網(wǎng)絡(luò)包括U-Net[8]、SegNet[9]。

2）空洞卷積（dilated convolutions）結(jié)構(gòu)[10-12]。空洞卷積結(jié)構(gòu)可以在去除池化層的情況下擴(kuò)大視野域，避免池化處理帶來(lái)的位置信息丟失。該結(jié)構(gòu)的典型網(wǎng)絡(luò)包括DeepLab V1、DeepLab V2[10-11]。

受工業(yè)生產(chǎn)環(huán)境下物流托盤易被遮擋、光照條件變化以及托盤類型繁多等因素的影響，現(xiàn)有物流托盤分割算法難以進(jìn)行精準(zhǔn)的圖像識(shí)別和有效分割，進(jìn)而影響自動(dòng)化叉車的精準(zhǔn)裝卸作業(yè)?；诖?，本文以U-Net作為主干網(wǎng)絡(luò)，提出一種新穎的激勵(lì)壓縮空洞卷積模塊（squeeze excitation dilated convolution，SEDC）來(lái)改進(jìn)U-Net網(wǎng)絡(luò)，通過(guò)對(duì)特征通道間的相關(guān)性進(jìn)行建模，強(qiáng)化重要特征，提升物流托盤圖像分割的準(zhǔn)確率。

1 網(wǎng)絡(luò)模型

1.1 改進(jìn)的U-Net網(wǎng)絡(luò)

為實(shí)現(xiàn)物流托盤的精準(zhǔn)分割，本文構(gòu)建了一個(gè)輕量級(jí)的物流托盤分割模型即基于SEDC模塊改進(jìn)的U-Net網(wǎng)絡(luò)[12-14]，網(wǎng)絡(luò)模型如圖1所示。在SEDC模塊（如圖2所示）中，先用1×1×1卷積進(jìn)行數(shù)據(jù)降維，以降低計(jì)算量，再用傳統(tǒng)卷積與膨脹率為2的空洞卷積獲取多尺度感受視野下的圖像特征，并通過(guò)SE模塊（squeeze-and-excitation）提升U-Net網(wǎng)絡(luò)對(duì)通道特征的敏感性，使其更加有效地對(duì)不同層的重要程度進(jìn)行自動(dòng)學(xué)習(xí)，最后以1×1×1卷積進(jìn)行數(shù)據(jù)升維。

圖1 基于SEDC模塊改進(jìn)的U-Net網(wǎng)絡(luò)Fig. 1 Improved U-Net network model based on SEDC module

圖2 SEDC模塊示意圖Fig. 2 SEDC module

1.2 SEDC模塊

1.2.1 1×1×1卷積

采用1×1×1卷積的動(dòng)機(jī)如下。

1）實(shí)現(xiàn)跨通道的交互和信息整合

1×1×1卷積對(duì)多個(gè)特征進(jìn)行線性組合，能夠保持?jǐn)?shù)據(jù)的寬度、高度與深度不變，實(shí)現(xiàn)跨通道的特征整合，提升網(wǎng)絡(luò)的表征能力。

2）實(shí)現(xiàn)卷積核通道數(shù)的降維和升維

3×3×3卷積在幾百個(gè)過(guò)濾器的卷積層上做卷積操作非常耗時(shí)，因此使用1×1×1卷積在3×3×3卷積層前后進(jìn)行數(shù)據(jù)降維與升維操作，使參數(shù)數(shù)量進(jìn)一步減少，縮短網(wǎng)絡(luò)的訓(xùn)練時(shí)間。

1.2.2 空洞卷積

空洞卷積是在標(biāo)準(zhǔn)的卷積映射里注入空洞。相比傳統(tǒng)卷積，空洞卷積多了一個(gè)超參數(shù)，即膨脹率（dilation rate），它代表卷積核（kernel）的間隔數(shù)量（傳統(tǒng)卷積的卷積核膨脹率為1）?？斩淳矸e的優(yōu)點(diǎn)是在不做池化操作、丟失特征信息的情況下，加大感受視野，讓每個(gè)卷積輸出都包含較大尺度的信息[15-16]。

1.2.3 SE模塊

SE模塊[17]的主要作用是關(guān)注通道之間的關(guān)系，使模型可以自動(dòng)學(xué)習(xí)到不同通道特征的重要程度。SE模塊包括壓縮和激勵(lì)兩個(gè)關(guān)鍵操作，如圖3所示。圖中，W′、H′表示特征圖寬和高，C′表示通道數(shù)，輸入特征圖大小為W′×H′×C′。壓縮操作是對(duì)卷積得到的特征圖進(jìn)行聚合，將維度為W×H的特征圖作為特征描述器，以此獲得全局感受視野信息。激勵(lì)操作是一種自篩選機(jī)制，使用樣例特化激活函數(shù)對(duì)所有通道進(jìn)行權(quán)值評(píng)比。

圖3 SE模塊Fig. 3 SE module

SE模塊可以適用于任何映射Ftr:X→U，X∈RH′×W′×C′,U∈RH×W×C。以卷積過(guò)程為例，卷積核為V=[v1,v2, …,vC]，那么輸出為U=[u1,u2,…,uC]。

式中：*為卷積操作；vc為第c個(gè)卷積核；vcs為第s個(gè)通道的第c個(gè)卷積核；xs為第s個(gè)通道像素。輸入一個(gè)通道上的空間特征，卷積核會(huì)學(xué)習(xí)特征空間關(guān)系。由于對(duì)各個(gè)通道的卷積結(jié)果做了求和運(yùn)算，因而通道的特征關(guān)系與卷積核學(xué)習(xí)到的空間關(guān)系被混合在一起。而SE模塊可抽離這種混雜，使得模型能夠直接學(xué)習(xí)到通道特征關(guān)系。

2 實(shí)驗(yàn)

2.1 評(píng)估指標(biāo)

為了驗(yàn)證本模型對(duì)物流托盤圖像分割任務(wù)的有效性及分割效果，本文采用自行采集的物流托盤圖像集（如圖4所示）訓(xùn)練與測(cè)試網(wǎng)絡(luò)模型，用精度（P）、召回率（R）和F1分?jǐn)?shù)3個(gè)評(píng)價(jià)指標(biāo)評(píng)價(jià)算法的分割性能。3個(gè)評(píng)價(jià)指標(biāo)的公式如下：

圖4 采集的物流托盤圖像以及分割后的樣例Fig. 4 An example of the image of collected logistics pallet

式中：TP為預(yù)測(cè)具有正類別標(biāo)簽數(shù)據(jù)的正類別數(shù)量（即物流托盤被正確檢測(cè)到的像素?cái)?shù)）；FP為預(yù)測(cè)具有負(fù)類別標(biāo)簽數(shù)據(jù)的正類別數(shù)量；（即物流托盤被錯(cuò)誤檢測(cè)的像素?cái)?shù)）；FN為預(yù)測(cè)具有正類別標(biāo)簽數(shù)據(jù)的負(fù)類別數(shù)量（即物流托盤被正確檢測(cè)但又被錯(cuò)誤識(shí)別的像素?cái)?shù)）。

2.1.1 指標(biāo)函數(shù)

1）Dice系數(shù)

Dice系數(shù)，即重合索引，在信息檢索領(lǐng)域也稱之為F1分?jǐn)?shù)，其目標(biāo)是在驗(yàn)證物流托盤圖像分割效果時(shí)保證高查全率和查準(zhǔn)率[18]。較之自動(dòng)分割結(jié)果與原標(biāo)簽數(shù)據(jù)的差異比較方法，Dice系數(shù)可以更好地刻畫分割效果。Dice系數(shù)公式為：

式中：G為原標(biāo)簽數(shù)據(jù)的真實(shí)分割結(jié)果；R′為測(cè)試數(shù)據(jù)的自動(dòng)分割結(jié)果。理想情況下，原標(biāo)簽數(shù)據(jù)的真實(shí)分割結(jié)果應(yīng)與自動(dòng)分割結(jié)果完全重合，即G=R′，Dice系數(shù)的值為1。

2）豪斯多夫距離

豪斯多夫距離表示一個(gè)集合到另一個(gè)集合中最近點(diǎn)的最大距離[17]。從集合A到集合B的豪斯多夫距離是一個(gè)極大值函數(shù)，即：

式中d(a,b)為a、b兩點(diǎn)之間的歐幾里得距離。

豪斯多夫距離用來(lái)刻畫輪廓的相似性，值越大代表越不相似，反之，值越小代表越相似。

3）平均交并比

平均交并比（mean intersection over union，MIoU）是用于分割性能評(píng)價(jià)的常用指標(biāo)，計(jì)算兩個(gè)集合的交集和并集的比率[19]。在本文中，平均交并比是原標(biāo)簽數(shù)據(jù)的真實(shí)分割結(jié)果和預(yù)測(cè)結(jié)果的比率，即：

式中：MIoU為平均交并比；pii為真正樣本；pij′為假正樣本；pij為假負(fù)樣本。

2.1.2 損失函數(shù)

用 Adam作為算法優(yōu)化器，因?yàn)樗哂锌焖偈諗康奶匦訹20]。將一階矩估計(jì)的指數(shù)衰減率設(shè)置為 0.99；二階矩估計(jì)的指數(shù)衰減率設(shè)置為 0.999；Epsilon設(shè)置為1e-8；Decay學(xué)習(xí)率衰減設(shè)置為3e-8。

2.2 實(shí)驗(yàn)分析

本實(shí)驗(yàn)采用的硬件平臺(tái)為英特爾酷睿i7-8700K CPU @ 3.70 GHz，GPU為GeForce GTX 1080，RAM為16.0 GB，操作系統(tǒng)為Windows 10 專業(yè)版，編程語(yǔ)言為Python 3.6.5，深度學(xué)習(xí)開(kāi)發(fā)庫(kù)為Keras 2.1.5。

2.2.1 消融實(shí)驗(yàn)

為驗(yàn)證SEDC模塊的有效性，本文對(duì)模型進(jìn)行消融實(shí)驗(yàn)。5個(gè)測(cè)試樣本從測(cè)試集中隨機(jī)選取，消融實(shí)驗(yàn)結(jié)果見(jiàn)圖5和表1。其中，U-Net with SE表示使用SE模塊改進(jìn)的U-Net網(wǎng)絡(luò)，U-Net with SE and 1×1×1 conv表示使用SE和1×1×1卷積改進(jìn)的U-Net網(wǎng)絡(luò)。

表1 4種網(wǎng)絡(luò)模型對(duì)物流托盤圖像的分割效果對(duì)比Table 1 The results of the four network models compared on the logistics pallet image data set

圖5 樣本1對(duì)比實(shí)驗(yàn)的可視化結(jié)果Fig. 5 Visualized results of the comparative experiment on the first sample

由表1可知：

1）與傳統(tǒng)U-Net網(wǎng)絡(luò)相比，U-Net with SE網(wǎng)絡(luò)的性能有小幅提升，但參數(shù)量有小幅增長(zhǎng)。

2）與U-Net with SE網(wǎng)絡(luò)相比，U-Net with SE and 1×1×1 conv網(wǎng)絡(luò)的參數(shù)量?jī)H為U-Net with SE網(wǎng)絡(luò)的39%，但網(wǎng)絡(luò)性能明顯減弱。

3）與傳統(tǒng)U-Net網(wǎng)絡(luò)相比，本文模型的參數(shù)量下降了54.5%，網(wǎng)絡(luò)結(jié)構(gòu)更加輕量化。在大幅降低網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度的情況下本文模型的性能沒(méi)有大幅度變化?？梢?jiàn)，本文模型在盡可能保證圖像分割性能的情況下大幅降低了模型的計(jì)算量，并提升了網(wǎng)絡(luò)的魯棒性。

2.2.2 不同模型性能對(duì)比實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證本文模型的優(yōu)越性，將本文模型與Attention U-Net模型[17]、SegNet模型和 PSPNet模型[21]進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。

表2 物流托盤圖像分割對(duì)比實(shí)驗(yàn)結(jié)果Table 2 The results compared on the logistics pallet image data set

由表2可知，本文模型的性能均優(yōu)于其他3種模型，其原因是本文模型有效地關(guān)注了通道之間的關(guān)系，自動(dòng)學(xué)習(xí)不同通道特征的重要程度，從而得到更優(yōu)的分割效果。

3 結(jié)語(yǔ)

本文提出了一種新穎的基于激勵(lì)壓縮空洞卷積改進(jìn)的U-Net網(wǎng)絡(luò)用于物流托盤圖像分割識(shí)別任務(wù)。利用1×1×1卷積降低參數(shù)量，使用傳統(tǒng)卷積與膨脹率為2的空洞卷積獲取多尺度感受視野下的圖像特征，同時(shí)引入SE模塊有效對(duì)不同層的重要程度進(jìn)行自動(dòng)學(xué)習(xí)，提高模型魯棒性。消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)的結(jié)果證明了本文模型的有效性。未來(lái)的研究工作將進(jìn)一步研究編碼與解碼之間的關(guān)聯(lián)性，充分利用低級(jí)特征與語(yǔ)義信息對(duì)模型進(jìn)行優(yōu)化。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡