基于Transformer的透明物體圖像語義分割

2023-09-23 02:00:02朱松豪孫冬軒

南京郵電大學(xué)學(xué)報(自然科學(xué)版) 2023年4期

朱松豪，孫冬軒，宋杰

(南京郵電大學(xué) 自動化學(xué)院、人工智能學(xué)院，江蘇南京 210023)

語義分割作為計算機視覺研究的重要內(nèi)容之一，結(jié)合了目標(biāo)檢測、圖像分類和圖像分割。通過某種方法將圖像中的每個像素進行分類，最終得到一幅具有語義標(biāo)注的分割圖像，這種像素級分割也被稱為密集預(yù)測。

隨著全卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)［1］，深度學(xué)習(xí)逐漸用于解決圖像語義分割問題。由于圖像分類和語義分割間存在著密切的聯(lián)系，因此許多先進的語義分割框架都是基于ImageNet 的圖像分類體系的變體，如AlexNet［2］、VGGNet［3］和GoogleNet［4］。全卷積神經(jīng)網(wǎng)絡(luò)通過將以上這些分類網(wǎng)絡(luò)的全連接層調(diào)整為卷積層，再經(jīng)過端到端、像素到像素的訓(xùn)練，語義分割性能超越傳統(tǒng)機器學(xué)習(xí)方法。

從模式識別的角度，語義分割問題可視為一個結(jié)構(gòu)化預(yù)測問題，其難點在于如何設(shè)計能夠有效捕獲上下文信息的模塊。這方面的一個典型例子是空洞卷積［5］，它通過在卷積核中“膨脹”孔洞增加感受野。隨著自然語言處理的巨大成功［6］，Transformer橫空出世，創(chuàng)造性地實現(xiàn)了對序列化數(shù)據(jù)的并行處理，極大提高了計算效率，因此Transformer 被引入視覺任務(wù)。 Dosovitskiy 等［7］提出視覺Transformer，首次將Transformer 引入計算機視覺領(lǐng)域。按照自然語言處理的思路，Dosovitskiy 等將圖像分割成多個線性嵌入的圖像塊，并將這些圖像塊輸入帶有位置嵌入的標(biāo)準(zhǔn)Transformer，作為向量進行多頭注意力操作，實現(xiàn)圖像全局上下文信息的捕獲，從而在ImageNet 上獲得了令人印象深刻的性能。

作為Trans10K-V2 數(shù)據(jù)集的創(chuàng)作者，Xie 等［8］提出用于解決透明物體語義分割的方法，該方法通過將卷積神經(jīng)網(wǎng)絡(luò)提取的初始特征和位置信息輸入到Transformer，用以提取注意力特征，最后通過一個小的卷積頭獲得最終的語義分割結(jié)果。由于透明物體具有透視、反射等特殊性質(zhì)，因此需要借助豐富的上下文信息才能推斷某個像素到底屬于哪個類別。受該方法啟示，本文在編碼器的注意力模塊中增加了一個卷積模塊，如圖1 所示，其中圖1（a）為文獻［7］中編碼器部分的結(jié)構(gòu)，圖1（b）為改進后的混合結(jié)構(gòu)。其多頭注意力模塊用于捕獲圖像的全局信息，卷積模塊用于捕獲圖像的局部信息，這對于改善復(fù)雜場景下的語義分割性能至關(guān)重要。

圖1 Transformer 編碼器結(jié)構(gòu)示意圖

文獻［9］利用空洞空間卷積池化金字塔獲取多尺度信息，用以獲取更精確的分割結(jié)果。文獻［10］利用空洞空間卷積池化金字塔挖掘多尺度卷積特征，并對圖像全局特征進行編碼。受該方法啟示，本文在最后的特征融合模塊引入了改進的金字塔模塊，將主干網(wǎng)絡(luò)提取的特征映射與注意力特征映射相結(jié)合，進一步提升透明物體語義分割效果。

本文所提方法主要貢獻描述如下：

（1）為更好地捕獲圖像上下文信息，提出將多頭自注意力與卷積相結(jié)合的注意力機制模塊引入Transformer 編碼器，以期獲得更為精確的特征映射；

（2）為更好地融合多尺度特征映射，在Transformer 解碼器得到注意力特征映射后，引入了包含空洞空間卷積池化金字塔結(jié)構(gòu)的特征融合模塊，以期更好地融合主干網(wǎng)絡(luò)特征映射和注意力特征映射，用以提升透明物體語義分割效果；

（3）本文所提方法模型在Trans10K-v2 數(shù)據(jù)集上展現(xiàn)了良好的性能。

1 相關(guān)工作

1．1 語義分割

作為深度學(xué)習(xí)開山之作的全卷積神經(jīng)網(wǎng)絡(luò)，其將傳統(tǒng)的分割方法轉(zhuǎn)換為端到端的全卷積分類網(wǎng)絡(luò)。之后，研究人員從不同角度致力于改善全卷積神經(jīng)網(wǎng)絡(luò)。繼承全卷積神經(jīng)網(wǎng)絡(luò)的思想，文獻［11］提出基于編解碼結(jié)構(gòu)和跳躍連接的分割方法。文獻［12］將邊界信息引入條件隨機場，用于改進分割結(jié)果。文獻［5，13］均通過引入空洞卷積擴大感受野，提高語義分割效果。文獻［14］利用金字塔解析模塊獲取不同區(qū)域上下文信息，用于解決語義分割問題。同時，基于注意力機制的網(wǎng)絡(luò)模型也廣泛用于捕獲上下文信息。文獻［15］利用點式空間注意模塊，動態(tài)捕捉上下文信息，研究結(jié)果表明，全局上下文信息有利于提高場景分割精度。文獻［16］的網(wǎng)絡(luò)模型中同時嵌入了空間注意力機制和通道注意力機制。上述這些方法的主干網(wǎng)絡(luò)依然基于全連接網(wǎng)絡(luò)，其中的編碼和特征提取部分大多都基于文獻［3］提出的VGG 和文獻［17］提出的ResNet 等經(jīng)典卷積網(wǎng)絡(luò)。

1．2 視覺任務(wù)中的Transformer

文獻［6］中Transformer 和自注意力模型的出現(xiàn)，突破性地改變了自然語言處理的研究現(xiàn)狀。文獻［7］首次將自然語言處理中的純Transformer 引入視覺任務(wù)，構(gòu)成視覺Transformer，并在圖像分類方面取得令人滿意的結(jié)果，為在語義分割模型中開發(fā)基于純Transformer 編碼器的設(shè)計提供了直接啟發(fā)。在目標(biāo)檢測領(lǐng)域，文獻［18］利用Transformer 對目標(biāo)位置信息和全局圖像上下文關(guān)系進行推理，且不使用非極大值抑制，而直接輸出最終檢測結(jié)果。文獻［19］首次在Transformer 中引入金字塔結(jié)構(gòu)，展現(xiàn)了在視覺任務(wù)中純Transformer 模型與卷積神經(jīng)網(wǎng)絡(luò)模型相似的潛力。文獻［20］采用視覺Transformer 作為編碼器，卷積神經(jīng)網(wǎng)絡(luò)作為解碼器，獲得了不錯的性能。

1．3 特征融合

文獻［11］中的U-Net 方法在下采樣時提取分辨率較小的特征，在上采樣時又將分辨率逐層回復(fù)到原來大小，在此過程中采用串聯(lián)方式將兩種尺度特征相結(jié)合，得到預(yù)測結(jié)果。這種思想也常常出現(xiàn)在Transformer 結(jié)構(gòu)中，但最后的融合特征尺寸過大，訓(xùn)練時間和預(yù)測時間較長。文獻［21］中的特征金字塔網(wǎng)絡(luò)模型既可用于目標(biāo)檢測，也可用于語義分割，與U-Net 網(wǎng)絡(luò)模型類似，特征金字塔網(wǎng)絡(luò)模型也是基于編碼-解碼過程提取全局特征，區(qū)別在于特征金字塔網(wǎng)絡(luò)模型采用疊加方式，并基于多個特征映射進行預(yù)測分類。文獻［9］提出基于空洞卷積特征金字塔的特征融合方式，對于主干網(wǎng)絡(luò)提取的不同尺度的特征映射，分別使用不同空洞率的卷積得到新的特征映射，再進行融合，獲得最終的特征。文獻［22］利用跨步卷積和空洞卷積進行特征融合，進一步提高了語義分割結(jié)果。

1．4 Trans10K-V2 數(shù)據(jù)集

文獻［23］中的Trans10K 數(shù)據(jù)集是第一個大規(guī)?，F(xiàn)實世界透明物體語義分割數(shù)據(jù)集，但其只有兩個類別。 Trans10K-V2 數(shù)據(jù)集在其基礎(chǔ)上，進一步使用更細粒度的類別對圖像進行注釋。 Trans10KV2 數(shù)據(jù)集共有10 428 張圖像，分為2 個大類以及11 小類，具體信息如下：（1）透明物品。茶杯、玻璃瓶、玻璃罐、玻璃碗和眼鏡。（2）透明材質(zhì)。窗戶、透明隔板、透明盒子、冰柜蓋板、玻璃墻和玻璃門。這些物體常出現(xiàn)在人們的生活中，更適合現(xiàn)實世界的應(yīng)用。圖2 給出來自Trans10K-V2 數(shù)據(jù)集的例圖。

圖2 Trans10K-V2 數(shù)據(jù)集示意圖

2 本文所提方法

圖3 給出本文所提出的基于視覺轉(zhuǎn)換器的透明物體語義分割網(wǎng)絡(luò)模型結(jié)構(gòu)圖。首先，利用卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖像的初始特征映射，并將其展開平鋪成一維特征序列；然后，將得到的一維特征序列輸入至帶有位置嵌入的視覺轉(zhuǎn)換器的編碼器，用以獲取帶有注意力的編碼特征映射；其次，將編碼特征映射與一組可學(xué)習(xí)的類別嵌入傳至視覺轉(zhuǎn)換器的解碼器，用以獲取注意力特征映射，其中N為類別數(shù)，M為多注意力的頭數(shù)；最后，利用不同采樣率的空洞卷積，實現(xiàn)來自卷積神經(jīng)網(wǎng)絡(luò)的初始特征映射與來自視覺轉(zhuǎn)換器的注意力特征映射的融合，得到最終的透明物體語義分割結(jié)果。

圖3 本文所提網(wǎng)絡(luò)模型的結(jié)構(gòu)示意圖

2．1 主干網(wǎng)絡(luò)模塊

對于圖像語義分割算法而言，絕大多數(shù)主干網(wǎng)絡(luò)均為來自文獻［17］的殘差網(wǎng)絡(luò)，該網(wǎng)絡(luò)的核心思想是引入一個恒等捷徑連接結(jié)構(gòu)，直接跳過一個或多個中間層。通過殘差學(xué)習(xí)，殘差網(wǎng)絡(luò)能夠有效解決隨著網(wǎng)絡(luò)深度不斷加深，網(wǎng)絡(luò)性能不斷退化的問題。特征提取過程中，通常選取殘差網(wǎng)絡(luò)第一層至第五層的特征映射，這是因為相較于輸入圖像原始尺寸，第一層至第五層的特征映射分別縮減至1／2～1／25。

如圖3 所示，將一幅尺寸為H×W×3 的原始圖像，輸入至殘差網(wǎng)絡(luò)-101 網(wǎng)絡(luò)，通過下采樣進行提取特征，文中提取網(wǎng)絡(luò)第四層的特征映射。由于視覺轉(zhuǎn)換器的輸入為一維數(shù)據(jù)序列，因此將二維圖像特征進行分割并拉伸為C×（H／16，W／16）的圖像塊序列（C表示特征通道數(shù)），以便傳入編碼器中進行編碼。

2．2 視覺轉(zhuǎn)換編碼器模塊

視覺轉(zhuǎn)換編碼器模塊由多層編碼器模塊堆疊而成，其中每層編碼器模塊由一個注意力模塊、一個多層線性感知器以及一個歸一化層組成，需要注意的是，這里的注意力模塊包含一個多頭自注意力模塊和一個卷積模塊，多層線性感知器包含一個ReLU激活函數(shù)和兩個全連接層。圖4 給出視覺轉(zhuǎn)換編碼器模塊的結(jié)構(gòu)示意圖。

圖4 視覺轉(zhuǎn)換編碼器模塊的結(jié)構(gòu)示意圖

視覺轉(zhuǎn)換編碼器模塊的流程描述如下：首先，利用殘差網(wǎng)絡(luò)提取特征映射，并將其與位置嵌入信息作為視覺轉(zhuǎn)換編碼器的輸入；然后，依次利用層標(biāo)準(zhǔn)化和多頭自注意力提取特征映射；接下來，依次利用層標(biāo)準(zhǔn)化和多層線性感知器提取特征映射，并進行多層以上的處理過程；最后，再次利用層標(biāo)準(zhǔn)化獲得最終的編碼特征映射。

由于視覺轉(zhuǎn)換編碼器的輸入特征須是一維序列，因此為彌補空間維度上的缺失，本文引入文獻［24］中的一組位置嵌入補充至一維特征序列，用以提供這些圖像塊在整幅圖像中的絕對位置信息和相對位置信息，此時的位置嵌入與展開的特征映射具有相同的維度C×（H／16，W／16）。除了采用位置嵌入策略外，本文還引入了文獻［7］中的類別標(biāo)記，其輸出特征加上一個線性分類器即可實現(xiàn)分類。網(wǎng)絡(luò)模型訓(xùn)練過程中，隨機初始化類別標(biāo)記，并將其與位置嵌入進行相加。

在注意力機制方面，本文將原始視覺轉(zhuǎn)換器中的多頭注意力模塊改變成多頭自注意力與卷積層的混合結(jié)構(gòu)，采用線性多頭自注意力捕獲全局上下文信息，采用卷積層捕獲局部上下文信息。最后，對全局上下文和局部上下文進行一個與操作，提取全局-局部上下文信息。

對于能夠捕獲全局上下文信息多頭自注意力而言，其輸出形式表示為

其中，Q、K、V分別表示查詢、鍵、特征信息，分別通過3 個不同的權(quán)值矩陣WQ、WK、WV乘以輸入一維特征序列獲得，且采用softmax 函數(shù)計算注意力特征，表達式為

多頭自注意力的特征提取過程描述如下：首先，通過n個不同的線性變換對Q、K、V進行投影；然后，將不同的線性投影結(jié)果進行拼接，具體操作為

經(jīng)過編碼器后，特征映射的維度依然為C×（H／16，W／16）。

卷積層部分采用卷積核分別為1、3、5 的3 個并行卷積，再分別進行批歸一化操作來提取局部上下文信息，生成的全局和局部上下文進一步進行深度卷積、批歸一化操作和1×1 卷積，以增強泛化能力。圖3 中編碼器模塊中的注意力機制混合結(jié)構(gòu)細節(jié)如圖5 所示。

圖5 注意力機制混合結(jié)構(gòu)示意圖

整個編碼流程可用式（4）表示。

其中，x表示特征映射，PE表示位置嵌入信息，l表示編碼器層數(shù)。

2．3 視覺轉(zhuǎn)換解碼器模塊

解碼器模塊由多層解碼器模塊堆疊而成，其中每層解碼器模塊包含一個多頭自注意力模塊、一個標(biāo)準(zhǔn)化層以及一個多層線性感知器。圖6 給出視覺轉(zhuǎn)換解碼器模塊的結(jié)構(gòu)示意圖。

圖6 視覺轉(zhuǎn)換解碼器模塊的結(jié)構(gòu)示意圖

視覺轉(zhuǎn)換解碼器模塊的流程描述如下：首先，將編碼器得到的特征映射與一組可學(xué)習(xí)的類別嵌入輸入到解碼器；然后，利用多頭自注意力機制獲得一個注意力特征映射以及一個新的目標(biāo)區(qū)域特征映射；接下來，分別將編碼特征映射、注意力特征映射、目標(biāo)區(qū)域特征映射依次通過層歸一化、多層線性感知器提取特征映射；最后，進行多層處理，獲得不同類別的注意力特征映射。

本文在解碼器的輸入端初始化一組可學(xué)習(xí)的類別嵌入Ecls作為查詢Q，由多層視覺轉(zhuǎn)換解碼器模塊通過多頭自注意力進行迭代學(xué)習(xí)，且每次迭代后的類別嵌入Ecls可表示為

其中，n表示解碼器層數(shù)。每次迭代更新一次，就會生成一個新的類別嵌入供下一層查詢。經(jīng)過多層解碼后，最后獲得的注意力特征映射的維度為N ×M ×（H／16，W／16）。

整個解碼流程可用式（6）表示。

其中，CE表示類別嵌入，F(xiàn)表示編碼特征映射，A表示注意力特征映射，l表示解碼器層數(shù)。

2．4 特征融合模塊

經(jīng)過視覺轉(zhuǎn)換器編碼-解碼后，將得到的注意力特征映射與主干網(wǎng)絡(luò)提取的初始特征映射合并，然后進行每類別上的像素分類。由于視覺轉(zhuǎn)換器關(guān)注圖像的全局上下文信息，因而得到的注意力特征映射往往忽略一些細節(jié)特征，需要融合不同尺度的特征才能達到更好的分割效果。

與文獻［25］采用的特征融合方法不同，這里將最大池化層替換為包括深度卷積和點卷積的深度可分離卷積，其中的深度卷積是指首先對輸入特征的每個通道分別進行卷積，然后再進行1×1 的全卷積，這樣可大幅減少參數(shù)量并大幅降低計算量。

特征融合模塊的流程描述如下：首先，對主干網(wǎng)絡(luò)提取的第三層特征進行自適應(yīng)平均池化，且利用空洞率分別為6、12 及18 的3 組卷積核進行卷積操作；然后，將解碼器獲得的注意力特征映射上采樣至N×M×（H／4，W／4）維度，并與卷積神經(jīng)網(wǎng)絡(luò)提取的特征映射融合至N×（M＋C）×（H／4，W／4）維度，再經(jīng)過卷積等操作降至N×（H／4，W／4）維度；最后，利用平均最大池化函數(shù)獲得分割結(jié)果。

對于優(yōu)化器的選擇，很多深度學(xué)習(xí)任務(wù)都會使用基于隨機梯度下降的優(yōu)化算法，實現(xiàn)模型收斂，但隨機梯度下降算法存在以下問題：（1）很難選擇合適的初始學(xué)習(xí)率；（2）各個參數(shù)只能使用同一種學(xué)習(xí)率；（3）學(xué)習(xí)率調(diào)整策略受限。為此，這里選擇適應(yīng)性矩估計優(yōu)化器完成模型收斂。這是因為適應(yīng)性矩估計優(yōu)化器結(jié)合了自適應(yīng)學(xué)習(xí)梯度下降算法和動量梯度下降算法的優(yōu)點，因而使得適應(yīng)性矩估計優(yōu)化器既能適應(yīng)梯度稀疏問題，又能緩解梯度振蕩問題。

3 實驗結(jié)果

3．1 實驗設(shè)置

（1）利用殘差網(wǎng)絡(luò)-101 的預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)參數(shù)。

（2）對于優(yōu)化損失，設(shè)置學(xué)習(xí)率為1×10－8，權(quán)重衰減設(shè)置為1×10－4，動量設(shè)置為0.9 的適應(yīng)性矩估計優(yōu)化器。

（3）多頭自注意力的頭部數(shù)設(shè)置為8，編碼層和解碼層的層數(shù)均設(shè)置為16，多層線性感知器的比率設(shè)置為3，訓(xùn)練次數(shù)設(shè)置為50 個周期，初始學(xué)習(xí)率設(shè)置為1×10－4。

3．2 實驗結(jié)果

由表1 所示的實驗結(jié)果可以看出，本文所提方法的準(zhǔn)確率和平均交并比分別達到最高的94.85%和73.86%。相較于性能最好的文獻［8］中語義分割方法Trans2Seg，本文所提方法的準(zhǔn)確率和平均交并比分別提高了0.86%和1.71%。

表1 Trans10K-V2 數(shù)據(jù)集實驗結(jié)果 %

此外，由表1 的實驗結(jié)果還可以看出，在所有類別的透明物體上，本文方法的分割性能總體上都得到了提高，特別是在大面積和整體透明物體方面。例如，與目前整體性能先進的Trans2Seg 方法相比，本文提出的方法在“冰柜”、“玻璃門”和“玻璃盒子”3 個類別的平均交并比分別提高了7.47%、2.68%和2.04%。

3．3 消融實驗

本文以文獻［8］中的方法作為基線方法，首先通過卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖像的初始特征，然后將其與位置信息輸入到Transformer 的編碼器和解碼器中提取注意力特征，最后通過一個卷積頭得到最終的分割結(jié)果。由于Transformer 和卷積神經(jīng)網(wǎng)絡(luò)都具有特征提取的功能，Transformer 中強大的注意力機制側(cè)重于提取圖像的全局特征，而卷積神經(jīng)網(wǎng)絡(luò)則側(cè)重于提取圖像的局部特征。對此，本文進行了全部的消融實驗，具體包括以下3 個方面：（1）標(biāo)準(zhǔn)的多頭注意力機制與卷積層輔助的注意力-卷積機制的對比實驗；（2）是否有特征融合模塊的對比實驗；（3）多頭自注意力中不同頭數(shù)的對比實驗。

第一組實驗研究了Transformer 編碼器中卷積層對注意力機制的輔助對實驗結(jié)果的影響。作為對比，使用圖1（a）所示的標(biāo)準(zhǔn)Transformer 編碼器結(jié)構(gòu)。從表2 所示的對比實驗結(jié)果可以看出，使用卷積層輔助的注意力-卷積結(jié)構(gòu)可以有效提高分割精度。

表2 注意力機制中卷積層的對比實驗結(jié)果 %

第二組實驗研究了特征融合模塊對實驗結(jié)果的影響。作為對比，本文沒有采用Transformer 解碼器輸出注意力特征映射后的空洞空間卷積金字塔結(jié)構(gòu)，而是對注意力特征映射進行上采樣后，直接與從卷積主干網(wǎng)絡(luò)中提取的初始特征映射進行連接操作，最終得到分割結(jié)果。從表3 所示的對比實驗結(jié)果可以看出，通過使用空洞卷積對主干網(wǎng)絡(luò)特征映射進行多尺度處理后，再與注意力映射融合，可以獲得更好的實驗結(jié)果。

表3 特征融合模塊的對比實驗結(jié)果 %

第三組實驗研究了多頭自注意力中頭部的數(shù)量對實驗結(jié)果的影響。頭部數(shù)是影響注意力機制性能的一個重要超參數(shù)。文獻［31］中的研究表明，類似于卷積神經(jīng)網(wǎng)絡(luò)同時使用多個濾波器，多頭的自注意力有助于網(wǎng)絡(luò)利用各種特征。本文設(shè)置了3 種多頭自注意力，分別為4 頭、8 頭和16 頭，進行對比實驗。從表4 所示的對比實驗的結(jié)果可以看出，隨著頭數(shù)的增加，平均交并比值先增大后減小，并不是頭數(shù)越多，分割性能的提高就越大，所以選擇設(shè)置頭數(shù)為8 進行實驗。

表4 多頭自注意機制中不同頭數(shù)的對比實驗結(jié)果 %

3．4 可視化實驗結(jié)果

為了更直觀地評價本文網(wǎng)絡(luò)模型的性能，本文將日常生活中的實拍物品、一些復(fù)雜場景下的物體、提升最為明顯的3 類物體以及本文方法與其他語義分割方法的對比進行分割結(jié)果的可視化展示。

圖7 為對日常生活中的透明物體的實拍圖像進行分割的結(jié)果。從分割圖像中可以看出，本文的網(wǎng)絡(luò)模型對于生活中的實拍物體也具有較高的準(zhǔn)確度，對瓶子、杯子、眼鏡等常見物品識別得比較精細，也進一步說明本方法具有一定的實際意義。

圖7 日常物品實拍分割結(jié)果

圖8 為一些在復(fù)雜場景下的透明物體的分割結(jié)果。例如，有樹木和樓房等其他干擾物體作為背景的窗戶和玻璃墻、商場中陳列商品的玻璃櫥窗、多個交叉放置的玻璃杯、裝有其他物體的杯子和罐子以及容易與玻璃墻和窗戶混淆的玻璃門等。從分割結(jié)果可以看出，在較為復(fù)雜的環(huán)境狀態(tài)下，本文方法也能夠輕松識別出透明物體的所在位置，并能分割出相對清晰的物體輪廓。

圖8 復(fù)雜場景下的分割結(jié)果

圖9 列出了“冰柜”、“玻璃門”和“玻璃盒子”3 種物體的原始圖像、語義標(biāo)注信息以及本文方法與Trans2Seg 方法的分割結(jié)果對比。可以看出，本文對這3 類對象的分割精度有了明顯的提高。由于冰柜內(nèi)部有許多陳列物品的干擾，Trans2Seg 很容易將冰柜誤識別為窗戶或隔板。由于玻璃墻與門的特征極其相似，在識別過程中很難把握門的特征而混淆。 Trans10K-V2 數(shù)據(jù)集還將一些如透明尺子和透明牌子的物體歸類到盒子類別中，這進一步增加了分割的難度。本文方法可以有效地克服這些問題，獲得相對精確的分割結(jié)果。

圖9 3 種物體分割結(jié)果對比

圖10 為不同方法的分割結(jié)果示意圖。可以看出，與其他傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)方法相比，本文方法最終預(yù)測到的結(jié)果更加準(zhǔn)確，特別是在較為復(fù)雜的場景下。在物體邊緣的地方識別得更加精細，而且一些玻璃物體上的細節(jié)也可以高質(zhì)量地預(yù)測出來，例如商場里的玻璃門、玻璃墻和透明櫥窗。

圖10 與其他方法的分割結(jié)果對比

通過上述可視化結(jié)果可以發(fā)現(xiàn)，本文方法中強大的注意力機制結(jié)構(gòu)和特征融合方法能有效地捕捉到透明物體與周圍環(huán)境之間的關(guān)系，并能在多種干擾因素存在下，較為準(zhǔn)確地判斷出該部位屬于透明物體的一部分還是周圍其他物體。

4 結(jié)束語

本文針對一種新的透明物體數(shù)據(jù)集的語義分割方法進行了相關(guān)研究。以Trans2Seg 方法作為基線，提出了一種基于Transformer 的分割網(wǎng)絡(luò)，并在此基礎(chǔ)上優(yōu)化了編碼-解碼過程的結(jié)構(gòu)，設(shè)計了Transformer 編碼器的多頭自注意力與卷積的混合結(jié)構(gòu)。一方面，利用傳統(tǒng)的卷積方法捕捉圖像的局部特征；另一方面，利用多頭自注意力提取圖像全局特征，更好地理解圖像上下文信息。此外，為了提高分割效果，還引入了包含空洞空間卷積金字塔結(jié)構(gòu)的特征融合模塊。實驗結(jié)果表明，該網(wǎng)絡(luò)模型能有效提高透明目標(biāo)分割的性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡