魏占國(guó) 宋婭萍 李 亞
中南林業(yè)科技大學(xué)
物流與交通學(xué)院
湖南 長(zhǎng)沙 410004
托盤在現(xiàn)代物流運(yùn)輸行業(yè)中起著關(guān)鍵的作用,它可以將包裹規(guī)格化和模塊化,從而極大地提高運(yùn)輸效率。傳統(tǒng)的人工叉車已不能滿足現(xiàn)代物流運(yùn)輸搬運(yùn)作業(yè)的高效率要求。因此,基于托盤智能分割識(shí)別的自動(dòng)化叉車成為智慧物流行業(yè)的前沿?zé)狳c(diǎn)。自動(dòng)化叉車高效精準(zhǔn)的作業(yè)關(guān)鍵在于可視化識(shí)別系統(tǒng)的物流托盤分割算法能準(zhǔn)確識(shí)別托盤圖像。
隨著算法的提升和深度學(xué)習(xí)技術(shù)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)在圖像語(yǔ)義分割[1-3]任務(wù)上表現(xiàn)出了強(qiáng)大的性能。圖像語(yǔ)義分割是一種將圖像分割成具有精確語(yǔ)義類別屬性的區(qū)域序列方法,即利用每個(gè)像素及其周圍的圖像塊獨(dú)立地對(duì)每個(gè)像素進(jìn)行分類。加州大學(xué)伯克利分校的J. Long等提出的全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)推廣了傳統(tǒng)的CNN結(jié)構(gòu),能在不帶全連接層的情況下進(jìn)行密集預(yù)測(cè),但是FCN會(huì)造成圖像位置信息的丟失[4-7]。為使語(yǔ)義分割能夠完全貼合圖像,保留圖像位置信息,研究者提出了兩種不同形式的結(jié)構(gòu):
1)編碼器-解碼器(encoder-decoder)結(jié)構(gòu)。編碼器利用池化層逐漸減小輸入數(shù)據(jù)的空間維度,而解碼器則利用像反卷積層這樣的網(wǎng)絡(luò)層來(lái)逐步修復(fù)目標(biāo)對(duì)象的細(xì)節(jié)和空間維度。編碼器和解碼器通常有直接的信息連接,因而解碼器可以更好地恢復(fù)目標(biāo)對(duì)象細(xì)節(jié)。編碼器-解碼器結(jié)構(gòu)的典型網(wǎng)絡(luò)包括U-Net[8]、SegNet[9]。
2)空洞卷積(dilated convolutions)結(jié)構(gòu)[10-12]。空洞卷積結(jié)構(gòu)可以在去除池化層的情況下擴(kuò)大視野域,避免池化處理帶來(lái)的位置信息丟失。該結(jié)構(gòu)的典型網(wǎng)絡(luò)包括DeepLab V1、DeepLab V2[10-11]。
受工業(yè)生產(chǎn)環(huán)境下物流托盤易被遮擋、光照條件變化以及托盤類型繁多等因素的影響,現(xiàn)有物流托盤分割算法難以進(jìn)行精準(zhǔn)的圖像識(shí)別和有效分割,進(jìn)而影響自動(dòng)化叉車的精準(zhǔn)裝卸作業(yè)?;诖?,本文以U-Net作為主干網(wǎng)絡(luò),提出一種新穎的激勵(lì)壓縮空洞卷積模塊(squeeze excitation dilated convolution,SEDC)來(lái)改進(jìn)U-Net網(wǎng)絡(luò),通過(guò)對(duì)特征通道間的相關(guān)性進(jìn)行建模,強(qiáng)化重要特征,提升物流托盤圖像分割的準(zhǔn)確率。
為實(shí)現(xiàn)物流托盤的精準(zhǔn)分割,本文構(gòu)建了一個(gè)輕量級(jí)的物流托盤分割模型即基于SEDC模塊改進(jìn)的U-Net網(wǎng)絡(luò)[12-14],網(wǎng)絡(luò)模型如圖1所示。在SEDC模塊(如圖2所示)中,先用1×1×1卷積進(jìn)行數(shù)據(jù)降維,以降低計(jì)算量,再用傳統(tǒng)卷積與膨脹率為2的空洞卷積獲取多尺度感受視野下的圖像特征,并通過(guò)SE模塊(squeeze-and-excitation)提升U-Net網(wǎng)絡(luò)對(duì)通道特征的敏感性,使其更加有效地對(duì)不同層的重要程度進(jìn)行自動(dòng)學(xué)習(xí),最后以1×1×1卷積進(jìn)行數(shù)據(jù)升維。
圖1 基于SEDC模塊改進(jìn)的U-Net網(wǎng)絡(luò)Fig. 1 Improved U-Net network model based on SEDC module
圖2 SEDC模塊示意圖Fig. 2 SEDC module
1.2.1 1×1×1卷積
采用1×1×1卷積的動(dòng)機(jī)如下。
1)實(shí)現(xiàn)跨通道的交互和信息整合
1×1×1卷積對(duì)多個(gè)特征進(jìn)行線性組合,能夠保持?jǐn)?shù)據(jù)的寬度、高度與深度不變,實(shí)現(xiàn)跨通道的特征整合,提升網(wǎng)絡(luò)的表征能力。
2)實(shí)現(xiàn)卷積核通道數(shù)的降維和升維
3×3×3卷積在幾百個(gè)過(guò)濾器的卷積層上做卷積操作非常耗時(shí),因此使用1×1×1卷積在3×3×3卷積層前后進(jìn)行數(shù)據(jù)降維與升維操作,使參數(shù)數(shù)量進(jìn)一步減少,縮短網(wǎng)絡(luò)的訓(xùn)練時(shí)間。
1.2.2 空洞卷積
空洞卷積是在標(biāo)準(zhǔn)的卷積映射里注入空洞。相比傳統(tǒng)卷積,空洞卷積多了一個(gè)超參數(shù),即膨脹率(dilation rate),它代表卷積核(kernel)的間隔數(shù)量(傳統(tǒng)卷積的卷積核膨脹率為1)??斩淳矸e的優(yōu)點(diǎn)是在不做池化操作、丟失特征信息的情況下,加大感受視野,讓每個(gè)卷積輸出都包含較大尺度的信息[15-16]。
1.2.3 SE模塊
SE模塊[17]的主要作用是關(guān)注通道之間的關(guān)系,使模型可以自動(dòng)學(xué)習(xí)到不同通道特征的重要程度。SE模塊包括壓縮和激勵(lì)兩個(gè)關(guān)鍵操作,如圖3所示。圖中,W′、H′表示特征圖寬和高,C′表示通道數(shù),輸入特征圖大小為W′×H′×C′。壓縮操作是對(duì)卷積得到的特征圖進(jìn)行聚合,將維度為W×H的特征圖作為特征描述器,以此獲得全局感受視野信息。激勵(lì)操作是一種自篩選機(jī)制,使用樣例特化激活函數(shù)對(duì)所有通道進(jìn)行權(quán)值評(píng)比。
圖3 SE模塊Fig. 3 SE module
SE模塊可以適用于任何映射Ftr:X→U,X∈RH′×W′×C′,U∈RH×W×C。以卷積過(guò)程為例,卷積核為V=[v1,v2, …,vC],那么輸出為U=[u1,u2,…,uC]。
式中:*為卷積操作;vc為第c個(gè)卷積核;vcs為第s個(gè)通道的第c個(gè)卷積核;xs為第s個(gè)通道像素。輸入一個(gè)通道上的空間特征,卷積核會(huì)學(xué)習(xí)特征空間關(guān)系。由于對(duì)各個(gè)通道的卷積結(jié)果做了求和運(yùn)算,因而通道的特征關(guān)系與卷積核學(xué)習(xí)到的空間關(guān)系被混合在一起。而SE模塊可抽離這種混雜,使得模型能夠直接學(xué)習(xí)到通道特征關(guān)系。
為了驗(yàn)證本模型對(duì)物流托盤圖像分割任務(wù)的有效性及分割效果,本文采用自行采集的物流托盤圖像集(如圖4所示)訓(xùn)練與測(cè)試網(wǎng)絡(luò)模型,用精度(P)、召回率(R)和F1分?jǐn)?shù)3個(gè)評(píng)價(jià)指標(biāo)評(píng)價(jià)算法的分割性能。3個(gè)評(píng)價(jià)指標(biāo)的公式如下:
圖4 采集的物流托盤圖像以及分割后的樣例Fig. 4 An example of the image of collected logistics pallet
式中:TP為預(yù)測(cè)具有正類別標(biāo)簽數(shù)據(jù)的正類別數(shù)量(即物流托盤被正確檢測(cè)到的像素?cái)?shù));FP為預(yù)測(cè)具有負(fù)類別標(biāo)簽數(shù)據(jù)的正類別數(shù)量;(即物流托盤被錯(cuò)誤檢測(cè)的像素?cái)?shù));FN為預(yù)測(cè)具有正類別標(biāo)簽數(shù)據(jù)的負(fù)類別數(shù)量(即物流托盤被正確檢測(cè)但又被錯(cuò)誤識(shí)別的像素?cái)?shù))。
2.1.1 指標(biāo)函數(shù)
1)Dice系數(shù)
Dice系數(shù),即重合索引,在信息檢索領(lǐng)域也稱之為F1分?jǐn)?shù),其目標(biāo)是在驗(yàn)證物流托盤圖像分割效果時(shí)保證高查全率和查準(zhǔn)率[18]。較之自動(dòng)分割結(jié)果與原標(biāo)簽數(shù)據(jù)的差異比較方法,Dice系數(shù)可以更好地刻畫分割效果。Dice系數(shù)公式為:
式中:G為原標(biāo)簽數(shù)據(jù)的真實(shí)分割結(jié)果;R′為測(cè)試數(shù)據(jù)的自動(dòng)分割結(jié)果。理想情況下,原標(biāo)簽數(shù)據(jù)的真實(shí)分割結(jié)果應(yīng)與自動(dòng)分割結(jié)果完全重合,即G=R′,Dice系數(shù)的值為1。
2)豪斯多夫距離
豪斯多夫距離表示一個(gè)集合到另一個(gè)集合中最近點(diǎn)的最大距離[17]。從集合A到集合B的豪斯多夫距離是一個(gè)極大值函數(shù),即:
式中d(a,b)為a、b兩點(diǎn)之間的歐幾里得距離。
豪斯多夫距離用來(lái)刻畫輪廓的相似性,值越大代表越不相似,反之,值越小代表越相似。
3)平均交并比
平均交并比(mean intersection over union,MIoU)是用于分割性能評(píng)價(jià)的常用指標(biāo),計(jì)算兩個(gè)集合的交集和并集的比率[19]。在本文中,平均交并比是原標(biāo)簽數(shù)據(jù)的真實(shí)分割結(jié)果和預(yù)測(cè)結(jié)果的比率,即:
式中:MIoU為平均交并比;pii為真正樣本;pij′為假正樣本;pij為假負(fù)樣本。
2.1.2 損失函數(shù)
用 Adam作為算法優(yōu)化器,因?yàn)樗哂锌焖偈諗康奶匦訹20]。將一階矩估計(jì)的指數(shù)衰減率設(shè)置為 0.99;二階矩估計(jì)的指數(shù)衰減率設(shè)置為 0.999;Epsilon設(shè)置為1e-8;Decay學(xué)習(xí)率衰減設(shè)置為3e-8。
本實(shí)驗(yàn)采用的硬件平臺(tái)為英特爾酷睿i7-8700K CPU @ 3.70 GHz,GPU為GeForce GTX 1080,RAM為16.0 GB,操作系統(tǒng)為Windows 10 專業(yè)版,編程語(yǔ)言為Python 3.6.5,深度學(xué)習(xí)開(kāi)發(fā)庫(kù)為Keras 2.1.5。
2.2.1 消融實(shí)驗(yàn)
為驗(yàn)證SEDC模塊的有效性,本文對(duì)模型進(jìn)行消融實(shí)驗(yàn)。5個(gè)測(cè)試樣本從測(cè)試集中隨機(jī)選取,消融實(shí)驗(yàn)結(jié)果見(jiàn)圖5和表1。其中,U-Net with SE表示使用SE模塊改進(jìn)的U-Net網(wǎng)絡(luò),U-Net with SE and 1×1×1 conv表示使用SE和1×1×1卷積改進(jìn)的U-Net網(wǎng)絡(luò)。
表1 4種網(wǎng)絡(luò)模型對(duì)物流托盤圖像的分割效果對(duì)比Table 1 The results of the four network models compared on the logistics pallet image data set
圖5 樣本1對(duì)比實(shí)驗(yàn)的可視化結(jié)果Fig. 5 Visualized results of the comparative experiment on the first sample
由表1可知:
1)與傳統(tǒng)U-Net網(wǎng)絡(luò)相比,U-Net with SE網(wǎng)絡(luò)的性能有小幅提升,但參數(shù)量有小幅增長(zhǎng)。
2)與U-Net with SE網(wǎng)絡(luò)相比,U-Net with SE and 1×1×1 conv網(wǎng)絡(luò)的參數(shù)量?jī)H為U-Net with SE網(wǎng)絡(luò)的39%,但網(wǎng)絡(luò)性能明顯減弱。
3)與傳統(tǒng)U-Net網(wǎng)絡(luò)相比,本文模型的參數(shù)量下降了54.5%,網(wǎng)絡(luò)結(jié)構(gòu)更加輕量化。在大幅降低網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度的情況下本文模型的性能沒(méi)有大幅度變化??梢?jiàn),本文模型在盡可能保證圖像分割性能的情況下大幅降低了模型的計(jì)算量,并提升了網(wǎng)絡(luò)的魯棒性。
2.2.2 不同模型性能對(duì)比實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文模型的優(yōu)越性,將本文模型與Attention U-Net模型[17]、SegNet模型和 PSPNet模型[21]進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。
表2 物流托盤圖像分割對(duì)比實(shí)驗(yàn)結(jié)果Table 2 The results compared on the logistics pallet image data set
由表2可知,本文模型的性能均優(yōu)于其他3種模型,其原因是本文模型有效地關(guān)注了通道之間的關(guān)系,自動(dòng)學(xué)習(xí)不同通道特征的重要程度,從而得到更優(yōu)的分割效果。
本文提出了一種新穎的基于激勵(lì)壓縮空洞卷積改進(jìn)的U-Net網(wǎng)絡(luò)用于物流托盤圖像分割識(shí)別任務(wù)。利用1×1×1卷積降低參數(shù)量,使用傳統(tǒng)卷積與膨脹率為2的空洞卷積獲取多尺度感受視野下的圖像特征,同時(shí)引入SE模塊有效對(duì)不同層的重要程度進(jìn)行自動(dòng)學(xué)習(xí),提高模型魯棒性。消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)的結(jié)果證明了本文模型的有效性。未來(lái)的研究工作將進(jìn)一步研究編碼與解碼之間的關(guān)聯(lián)性,充分利用低級(jí)特征與語(yǔ)義信息對(duì)模型進(jìn)行優(yōu)化。